[go: up one dir, main page]

JP2005122295A - 関係図作成プログラム、関係図作成方法、および関係図作成装置 - Google Patents

関係図作成プログラム、関係図作成方法、および関係図作成装置 Download PDF

Info

Publication number
JP2005122295A
JP2005122295A JP2003353928A JP2003353928A JP2005122295A JP 2005122295 A JP2005122295 A JP 2005122295A JP 2003353928 A JP2003353928 A JP 2003353928A JP 2003353928 A JP2003353928 A JP 2003353928A JP 2005122295 A JP2005122295 A JP 2005122295A
Authority
JP
Japan
Prior art keywords
document
documents
relationship
association
relationship diagram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003353928A
Other languages
English (en)
Inventor
Kazunari Tanaka
一成 田中
Isamu Watabe
勇 渡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2003353928A priority Critical patent/JP2005122295A/ja
Priority to US10/812,021 priority patent/US20050081146A1/en
Publication of JP2005122295A publication Critical patent/JP2005122295A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 引用関係や参照関係が明示されていない文書間の関連度を明確にした上で、各文書を時系列で表示できるようにする。
【解決手段】 複数の文書1a,1b,1c,・・・が入力されると、特徴素抽出手段2により、複数の文書1a,1b,1c,・・・から時間情報を含む特徴素が抽出される。関連度計算手段3により、複数の文書1a,1b,1c,・・・から抽出された特徴素に基づいて、文書間の関連度が計算される。さらに、配置手段4により、複数の文書1a,1b,1c,・・・から抽出された時間情報に基づいて、各文書のオブジェクト7a〜7gが時間軸上に配置される。また、関係線生成手段5により、文書1a,1b,1c,・・・間の関連度に基づいてオブジェクト間を結ぶ関係線が生成される。そして、表示手段6により、各文書のオブジェクト7a〜7gと関係線とで構成される関係図7が表示される。
【選択図】 図1

Description

本発明は関係図作成プログラム、関係図作成方法、および関係図作成装置に関し、特に引用関係や参照関係がない場合でも内容的に関連のある文書の関連付けを示すことができる関係図作成プログラム、関係図作成方法、および関係図作成装置に関する。
近年、データの記憶媒体の大容量化・低価格化が急速に進んでいる。また、イントラネット・インターネットの急速な普及などにともなって、世界各地のサーバに格納されている文書をネットワークを介して閲覧することができる。これらの大量の文書情報は、クライアント等の計算機を用いて簡単に収集・蓄積することが可能になってきている。
このように集められた情報から必要とする情報を探し出したり、あるいは何らかの知見を得たりするためには、インターネット上の情報量があまりにも膨大である。そのため、利用者の要求に合わせて文書情報を検索・分析することができる検索・分析装置の存在が不可欠となる。
文書情報の検索・分析装置としては、利用者によって指定された単語や文字列を含む文書を選択・表示する方法のほか、引用関係や参照関係にある文書を選択・表示する方法、あるいは、時間順序により並べて表示する技術が知られている。たとえば、特許公報等の文献を、公開年毎に並べて表示することができる(たとえば、特許文献1参照)。
特開2001−92851号公報(第27図)
また、引用関係や参照関係にある文書を関連付けて関係図を作成する技術も考えられている。たとえば、本出願人は、特願2002−179896号や特願2002−343744号では、文書間の関連付けを線で示すグラフを表示する技術を出願している。引用関係が存在すれば、引用している文書が引用された文書よりも後に書かれていることが明白であるため、文書間の時間的な前後関係を容易に把握できる。
しかし、引用関係や参照関係により関係図を作成する技術においては、引用関係や参照関係がなければ関係図を作成できない。そのため、関連が強い文書であっても引用関係や参照関係として記述されていなければ関連性を図示することができない。
一方、文書検索の分野においては、文書からキーワードや属性情報などを抽出し、文書間の関連度を計算することもできる。ところが、その場合、文書間の時間的な前後関係が不明確になってしまうという問題点がある。
本発明はこのような点に鑑みてなされたものであり、引用関係や参照関係が明示されていない文書間の関連度を明確にした上で、各文書を時系列で表示することができる情報表示プログラムを提供することを目的とする。
本発明では上記課題を解決するために、図1に示すような機能を実現するための関係図作成プログラムが提供される。本発明に係る関係図作成プログラムは、複数の文書1a,1b,1c,・・・間の関係を示す図を作成するためのものである。この関係図作成プログラムは、コンピュータに、以下の処理を実行させることができる。
コンピュータは、複数の文書1a,1b,1c,・・・それぞれの内容を解析し、時間情報を含む特徴素を抽出する。次に、コンピュータは、抽出された特徴素に基づいて、複数の文書1a,1b,1c,・・・から抽出される文書ペア間の関連度を計算する。さらに、コンピュータは、複数の文書1a,1b,1c,・・・それぞれを示すオブジェクト7a〜7gを、時間情報に基づいて時間軸上に配置すると共に、計算された関連度に応じて、文書ペアのオブジェクト7a〜7g間を結ぶ関係線を生成する。そして、コンピュータは、オブジェクトおよび関係線で構成される関係図7を表示する。
このような関係図作成プログラムをコンピュータに実行させることで、複数の文書から1a,1b,1c,・・・時間情報を含む特徴素が抽出される。すると、複数の文書1a,1b,1c,・・・から抽出された特徴素に基づいて、文書間の関連度が計算される。さらに、複数の文書1a,1b,1c,・・・から抽出された時間情報に基づいて、各文書のオブジェクト7a〜7gが時間軸上に配置される。また、文書1a,1b,1c,・・・間の関連度に基づいてオブジェクト間を結ぶ関係線が生成される。そして、各文書のオブジェクト7a〜7gと関係線とで構成される関係図7が表示される。
また、本発明では上記課題を解決するために、複数の文書間の関係を示す図を作成するための関係図作成方法において、前記複数の文書それぞれの内容を解析し、時間情報を含む特徴素を抽出し、抽出された前記特徴素に基づいて、前記複数の文書から抽出される文書ペア間の関連度を計算し、前記複数の文書それぞれを示すオブジェクトを、前記時間情報に基づいて時間軸上に配置すると共に、計算された前記関連度に応じて、前記文書ペアの前記オブジェクト間を結ぶ関係線を生成し、前記オブジェクトおよび前記関係線で構成される関係図を表示する、ことを特徴とする関係図作成方法が提供される。
このような関係図作成方法によれば、複数の文書から時間情報を含む特徴素が抽出される。すると、複数の文書から抽出された特徴素に基づいて、文書間の関連度が計算される。さらに、複数の文書から抽出された時間情報に基づいて、各文書のオブジェクトが時間軸上に配置される。また、文書間の関連度に基づいてオブジェクト間を結ぶ関係線が生成される。そして、各文書のオブジェクトと関係線とで構成される関係図が表示される。
さらに、本発明では上記課題を解決するために、複数の文書間の関係を示す図を作成するための関係図作成装置において、前記複数の文書それぞれの内容を解析し、時間情報を含む特徴素を抽出する特徴素抽出手段と、抽出された前記特徴素に基づいて、前記複数の文書から抽出される文書ペア間の関連度を計算する関連度計算手段と、前記複数の文書それぞれを示すオブジェクトを、前記時間情報に基づいて時間軸上に配置する配置手段と、計算された前記関連度に応じて、前記文書ペアの前記オブジェクト間を結ぶ関係線を生成する関係線生成手段と、前記オブジェクトおよび前記関係線で構成される関係図を表示する表示手段と、を有することを特徴とする関係図作成装置が提供される。
このような関係図作成装置によれば、特徴素抽出手段により、複数の文書から時間情報を含む特徴素が抽出される。すると、関連度計算手段により文書間の関連度が計算される。さらに、複数の文書から抽出された時間情報に基づいて、各文書のオブジェクトが時間軸上に配置される。また、複数の文書間の関連度に基づいてオブジェクト間を結ぶ関係線が生成される。そして、各文書のオブジェクトと関係線とで構成される関係図が表示される。
以上説明したように本発明では、文書から時間情報を含む特徴素を抽出し、特徴素により文書間の関連度を計算し、時間情報に基づいて文書のオブジェクトを時間軸上に配置するようにしたため、文書間の関係を時系列に沿って容易に把握することができる。
以下、本発明の実施の形態を図面を参照して説明する。
本発明は、上記した従来技術の問題点を考慮してなされたものであって、文書間の関連度を計算する技術を利用することにより、引用関係や参照関係がない場合でも関連のある文書を関連付け、時間情報を利用して関係図を作成できるようにするものである。
まず、実施の形態に適用される発明の概要について説明し、その後、実施の形態の具体的な内容を説明する。
図1は、実施の形態に適用される発明の概念図である。本発明に係る関係図作成装置は、複数の文書1a,1b,1c,・・・間の関係を示す図を作成するためのものである。この関係図作成装置は、特徴素抽出手段2、関連度計算手段3、配置手段4、関係線生成手段5、および表示手段6を有している。
特徴素抽出手段2は、複数の文書1a,1b,1c,・・・それぞれの内容を解析し、時間情報を含む特徴素を抽出する。特徴素は、たとえば、キーワードや書誌情報である。
関連度計算手段3は、抽出された特徴素に基づいて、複数の文書1a,1b,1c,・・・から抽出される文書ペア間の関連度を計算する。関連度の計算は、たとえば、同じキーワードを多く含む文書同士の関連度を高くする。
配置手段4は、複数の文書1a,1b,1c,・・・それぞれを示すオブジェクト7a〜7gを、時間情報に基づいて時間軸上に配置する。この際、必ずしも全ての文書間の関係における時間上の前後関係を保つ必要はない。たとえば、少なくとも、関連度がある程度以上の文書ペアにおける文書の時間的な前後関係が保たれるようにすることができる。
関係線生成手段5は、計算された関連度に応じて、文書ペアのオブジェクト7a〜7g間を結ぶ関係線を生成する。なお、全ての文書ペアのオブジェクト間を関係線で結ばなくてもよい。たとえば、所定の条件に従って文書間の関連付けの間引きを行い、残された関連付けに応じた関係線のみを生成することができる。また、関係線は、関連度に応じて表示形態(色、線の太さなど)を変えることもできる。たとえば、関連度が高い関係を示す関係線を強調表示することができる。
表示手段6は、オブジェクトおよび関係線で構成される関係図7を表示する。
このような関係図作成装置によれば、複数の文書1a,1b,1c,・・・が入力されると、特徴素抽出手段2により、複数の文書1a,1b,1c,・・・から時間情報を含む特徴素が抽出される。関連度計算手段3により、複数の文書1a,1b,1c,・・・から抽出された特徴素に基づいて、文書間の関連度が計算される。さらに、配置手段4により、複数の文書1a,1b,1c,・・・から抽出された時間情報に基づいて、各文書のオブジェクト7a〜7gが時間軸上に配置される。また、関係線生成手段5により、文書1a,1b,1c,・・・間の関連度に基づいてオブジェクト間を結ぶ関係線が生成される。そして、表示手段6により、各文書のオブジェクト7a〜7gと関係線とで構成される関係図7が表示される。
たとえば、生成された関係図7は、文書を示す複数のオブジェクト7a〜7gが時間軸上に配置されている。オブジェクト7a〜7g間は、所定の条件を満たした(間引きされていない)関係線で接続されている。そして、1つの関係線で接続されたオブジェクト同士では、時間情報に従った位置関係で時間軸上に配置されている。たとえば、時間情報で示される期日が後であるほど、右寄りに配置される。
このように、文書間の関連度を計算する技術を利用することにより、引用関係や参照関係がない場合でも関連のある文書を関連付け、時間情報を利用して関係図を作成できる。しかも、関連のある文書間の時間的な前後関係を容易に理解することができる。
以下、本発明の実施の形態について具体的に説明する。本発明の実施の形態では、ネットワーク経由で大量の文書を収集し、集めた文書に基づいて時系列の関係図を作成するものとする。
図2は、ネットワークを介した文書検索を行うシステムの構成例を示す図である。クライアント100は、ネットワーク10を介してサーバ200に接続されている。サーバ200はデータベース210を有している。データベース210には、膨大な量の文書が格納されている。たとえば、特許文献が格納される。
クライアント100を使用するユーザは、クライアント100を用いてサーバ200にアクセスし、文書を取得することができる。たとえば、サーバ200に実装されている検索エンジン(データベース検索を実行する機能)に対して、クライアント100から検索要求を送信する。データベースが特許文献であれば、技術用語や国際特許分類のコードなどを検索キーとすることができる。サーバ200は、検索要求に応じて、データベース210の検索を行い、検索条件に合致した文書を検索結果としてクライアント100に返す。
クライアント100では、検索結果に含まれる文書を解析し、各文書を示す情報が時系列で並べられた関係図を作成することができる。または、サーバ200において検索結果に含まれる文書を解析し、関係図を作成し、クライアントに送信するようにしてもよい。
なお、図2には、1台のサーバ200のみを示しているが、たとえば、インターネット等の広域ネットワークを介して文書検索を行うと、膨大な数のサーバを対象として文書検索を行うことができる。
図3は、本発明の実施の形態に用いるクライアントのハードウェア構成例を示す図である。クライアント100は、CPU(Central Processing Unit)101によって装置全体が制御されている。CPU101には、バス107を介してRAM(Random Access Memory)102、ハードディスクドライブ(HDD:Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、および通信インタフェース106が接続されている。
RAM102には、CPU101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、CPU101による処理に必要な各種データが格納される。HDD103には、OSやアプリケーションプログラムが格納される。
グラフィック処理装置104には、モニタ11が接続されている。グラフィック処理装置104は、CPU101からの命令に従って、画像をモニタ11の画面に表示させる。入力インタフェース105には、キーボード12とマウス13とが接続されている。入力インタフェース105は、キーボード12やマウス13から送られてくる信号を、バス107を介してCPU101に送信する。
通信インタフェース106は、ネットワーク10に接続されている。通信インタフェース106は、ネットワーク10を介して、他のコンピュータとの間でデータの送受信を行う。
以上のようなハードウェア構成によって、本実施の形態の処理機能を実現することができる。
図4は、関係図作成装置として機能するためのクライアントの機能ブロック図である。クライアント100は、特徴素抽出部110、文書間関連度計算部120、関連付け間引き部130、文書配置計算部140、関係線表示処理部150、および出力処理部160を有している。このクライアント100は、文書情報30が入力されると、関係図作成処理を開始する。
特徴素抽出部110は、文書情報30が入力されると、文書情報30から特徴素として、キーワードや書誌情報、時間情報を抽出する。文書毎に抽出された特徴素は、文書間関連度計算部120に渡される。
なお、文書情報30は、たとえば、複数の文書の集合である。キーワードは、たとえば、各文書に対して形態素解析を施すことによって抽出することができる。また、書誌情報は、たとえば、文書の作成者等の情報である。なお、文書が特許文献(特許公開公報や特許掲載公報等)の場合、書誌情報として、発明者、出願人、代理人等の情報を抽出することができる。
文書から抽出される時間情報は、たとえば、その文書の作成日時や最終更新日時などである。また、文書が特許文献であれば、時間情報として、公開日、登録日、優先権主張日(優先日)等の情報を抽出することができる。
文書間関連度計算部120は、抽出された特徴素を利用して文書間の関連度を計算する。具体的には、抽出された特徴素の傾向が似ている文書同士ほど関連度を高くする。たとえば、文書毎に、抽出された特徴素に基づいて特徴を表すベクトルを計算する。そして、各文書のベクトルの近さ(たとえば、ベクトルの内積の大きさ)に応じて、文書間の関連度を計算する。
関連付け間引き部130は、文書間関連度計算部120によって関連付けられた中から必要な関連付けだけを選択する。換言すると、関連付けを示す情報のうち、不要は関連付けを破棄する。たとえば、関連度の閾値を設定し、その閾値以上の関連付けのみを選択する。
文書配置計算部140は、文書間の関連度を利用して関係図上での文書の配置を決める。具体的には、文書間の関連付けを参照し、関連する文書同士が時系列の前後関係を崩さずに配置を決定する。
関係線表示処理部150は、文書間の関連度を利用して関係図上での関係線の表示属性を決定する。たとえば、関係度の高い文書間の関係線を強調するような表示を行う。
出力処理部160は、文書配置計算部140と関係線表示処理部150によって決定された文書配置と関係線表示属性を利用して実際に関係図を表示する。
このような構成のクライアント100に対して文書情報30が入力されたときの動作を、以下に示す。
図5は、関係図作成処理の手順を示すフローチャートである。以下、図5に示す処理ステップ番号に沿って説明する。
[ステップS11]特徴素抽出部110が、複数の文書31,32,33,・・・を読み込む。
[ステップS12]特徴素抽出部110は、各文書からキーワード、書誌情報、時間情報等の特徴素を抽出し、特徴素管理テーブル41を作成する。特徴素管理テーブル41には、文書毎に抽出した特徴素の情報が登録される。
[ステップS13]文書間関連度計算部120は、特徴素管理テーブル41を参照し、文書間の関連度計算を行う。関連度計算により関連すると判断された文書間には、文書間関連度情報42が定義される。
[ステップS14]関連付け間引き部130は、文書間関連度情報42を参照し、不要な関連付け情報の間引きを行う。間引きされた関連付け情報は、関連付け間引き情報43に設定される。
[ステップS15]文書配置計算部140は、特徴素管理テーブル41と関連付け間引き情報43とを参照し、時系列に沿って、文書を示すオブジェクトの配置を決定する。
[ステップS16]関係線表示処理部150は、表示する関連線や線の太さや色といった関連線の表示属性を決定する。
[ステップS17]出力処理部160は、文書配置計算部140によって決定された位置に、各文書を示すオブジェクトを配置し、各オブジェクト間を関係線表示処理部150で決定された表示属性の線で結ぶことで、関係図を生成する。そして、出力処理部160は、生成した関係図をモニタ11に表示する。
このようにして関係図において文書を示すオブジェクトを時系列で表示することができる。ところで、時系列で表示することが求められる文書情報として特許文献がある。特許文献は、特許出願の新規性を判断する際の公知技術として利用される場合が多く、そのために公開された日時が非常に重要となる。そのため、特許文献のデータベースから複数の特許文献を抽出した場合、それらを時系列で表示できることが望まれる。そこで、複数の文書31,32,33,・・・として、特許文献を入力した場合を例に採り、図5に示す各ステップの処理の詳細を具体的に説明する。
[文書読み込み(ステップS11)]
まず、文書の読み込み処理について具体的に説明する。読み込み対象となる文書には、特許文献のように書誌的事項が含まれている文書がある。
図6は、特許文献の例を示している。この図には、入力される特許文献50のフロントページを示している。特許文献50のフロントページには、様々な書誌的事項が記載されている。書誌的事項には、時間情報も含まれる。たとえば、公開日51、出願日52、優先日53がある。
クライアント100には、このような特許文献50が複数入力される。たとえば、データベース210から検索した結果として複数の特許文献を取得する。取得した特許文献が、特徴素抽出部110に渡される。
[特徴素の抽出(ステップS12)]
特徴素抽出部110において、キーワードおよび書誌情報の抽出が行われる。文書からキーワードを抽出する方法については、様々な技術がある。たとえば、特徴素抽出部110は、文書内の文章を語句毎に分割する。次に、特徴素抽出部110は、各語句の品詞を判断する。そして、特徴素抽出部110は、特定の品詞(たとえば、名詞や動詞等)のキーワードとして抽出する。どのような品詞を抽出するのかは、ユーザが任意に設定することができる。たとえば、特徴素抽出部110は、モニタ11に品詞設定画面を表示し、ユーザは、その画面上で特徴素として抽出する品詞を指定することができる。
図7は、品詞設定画面の一例を示す図である。品詞設定画面60には、直前の設定ボタン62、デフォルトボタン63、クリアボタン64、全選択ボタン65、設定ボタン66、およびキャンセルボタン67が設けられている。
品詞選択部61は、文書に対して形態素解析を行うことで取得される語句の品詞のリストが表示される。この例では、書誌情報の項目名も品詞の1つとして扱われ、品詞選択部61に表示されている。ユーザは、品詞選択部61から、キーワードとして抽出すべき品詞を選択することができる。
直前の設定ボタン62は、抽出すべきキーワードの品詞の設定内容を変更後、設定内容を直前の設定に戻すためのボタンである。誤った設定操作を行った場合、直前の設定ボタン62を押すことで、操作入力前の状態に設定内容を戻すことができる。
デフォルトボタン63は、抽出すべきキーワードの品詞として、予め指定されている品詞を設定するためのボタンである。クライアント100には、抽出対象品詞の初期値が予め設定されており、デフォルトボタン63が押されると、初期値として設定されている品詞のみが、抽出すべきキーワードの品詞として設定される。
クリアボタン64は、品詞選択部61で選択されている品詞を、非選択の状態に変更するためのボタンである。
全選択ボタン65は、品詞選択部61内の全ての品詞を選択するためのボタンである。
設定ボタン66は、品詞選択部61で選択されている品詞を、抽出対象とする品詞として設定するためのボタンである。
キャンセルボタン67は、抽出対象とする品詞の設定を変更せずに、品詞設定画面60を閉じるためのボタンである。
なお、品詞選択部61は、全ての品詞が一画面で表示できないとき、スクロールバーを用いて品詞選択部61の表示内容をスクロールさせることで、各品詞を表示させることができる。
図8は、品詞選択部スクロール後の品詞設定画面の例を示す図である。図8に示すように、品詞選択部61の表示内容は、スクロールさせることができる。
このように、品詞設定画面60により、文書間の関連度計算に使用するための任意の品詞を指定することができる。たとえば、デフォルトでは、名詞や固有名詞などのキーワードになりうる品詞にしておき、IPC(国際特許分類)や出願人などを任意に選択することでこれらの情報を利用して文書の関連度を計算することができる。
なお、文書から書誌情報を抽出する方法については、様々な方法が考えられる。たとえば、文書ファイルには、プロファイルとして作成者や作成日時が登録されている場合がある。これらのプロファイルの内容を書誌情報として抽出することもできる。
特許文献のように、文書内に書誌情報の項目が設けられている場合、各項目の種別(発明者、出願人等)を判別して、その項目に登録されている情報を書誌情報として抽出することもできる。書誌情報には、時間情報も含まれる。特許文献の時間情報としては、出願日、優先日、公開日、登録日などがある。
特徴素抽出部110は、抽出したキーワードや書誌情報により特徴素管理テーブル41を作成する。
図9は、特徴素管理テーブルのデータ構造例を示す図である。特徴素管理テーブル41には、キーワード、書誌情報、および時間情報に分類して、各文書の特徴素が登録されている。
たとえば、キーワードの分類項目には、キーワードを示す文字列と品詞(名詞、動詞など)との組が登録されている。書誌情報の分類項目には、書誌的事項の項目名とその内容との組が登録される。文書が特許文献であれば、書誌情報として、発明者、出願人などが登録される。時間情報の分類項目には、時間に関する項目と、その項目に設定された日付あるいは日時が登録される。文書が特許文献であれば、時間情報として、出願日、優先日、公開日などが登録される。
ここでは、抽出する特徴素の品詞を選択するとして説明したが、特徴素抽出部110では全ての品詞を抽出しておいて、文書間関連度計算部120において文書間の関連度を計算する際に選択された品詞の特徴素のみを使って計算を行うようにしてもよい。
[文書関連度の計算(ステップS13)]
その後、文書毎の特徴素管理テーブル41を利用して、文書間関連度が計算される。たとえば、特徴素管理テーブル41内のキーワードから文書−単語行列を定義する。
図10は、文書−単語行列の例を示す図である。文書−単語行列41aでは、列(縦)方向に文書名が設定され、行(横)方向にキーワードが設定されている。文書名とキーワードとの交差する領域には、その文書内に含まれるキーワードの数が設定される。
なお、図10の例では、最も単純な値としてそれぞれの文書での単語の数を入れているが、それぞれの文書でのキーワードの重みなどをいれてもよい。また、関連度計算において使用する品詞を区別できるように、それぞれのキーワードには品詞名がつけられている。
このような、文書−単語行列を用いて、文書間の関連度を計算することができる。文書間の関連度の計算方法については既知の技術で実現可能である。たとえば、ベクトル空間法(vector-space model)と呼ばれる関連度の計算方法がある。ベクトル空間法は、各文書の特徴をある統一的な表現によって表し、この間に類似度(similarity)を定義することで、似た文書を探し出す方法である。
すなわち、各文書の特徴をベクトルで表現する。ベクトルは、その文書から抽出された特徴素に応じて決定される。2つの文書間の類似度は、それぞれの文書に対応するベクトルの内積で求めることができる。ベクトルの内積の値が大きいほど、類似していることを示す。ベクトル空間法における類似度を文書間の関連度と見なすことで、文書間の関連度が求められる。ベクトル空間法の詳細は、“長尾真、佐藤理史、黒橋禎夫、角田達彦、「自然言語処理」、岩波書店、1996年4月26日、P421-P424”に記載されている。
ところで、文書間の関連度を計算するときに、どの特徴素を利用するのかが問題となる。一般的には文書からキーワードを抽出し、そのキーワードを特徴素として使用する方法が良く知られている。ただし、本実施の形態における文書間の関連度を計算する方法としては、キーワードのみに限らず書誌情報を使用することも考えられる。
ここで言う書誌情報とは、たとえば、特許文献を対象にするような場合には出願人や発明者、IPCなどの分類コードなどである。また、特許文献以外であっても文書の作者名や、文書の作者の所属など文書につけられている情報を利用することができる。社内分類のように別途追加された情報を利用してもよい。
更に、文書から抽出する情報としてもキーワードばかりではなく、係り受け組などのようなキーワード間の関連までを含んだものや、特定の規則にしたがって抽出した特徴情報など文書を特徴付ける様々な情報を活用することができる。
なお、ここでは関連性の度合いを示す指標として関連度という言葉を使っているが、必ずしも連続的な値ではなく、複数の文書で共有する特徴情報があるかないかといった0、1の関係でもよい。
算出された文書間の関連度は、文書間関連度情報42に登録される。
図11は、文書間関連度情報のデータ構造例を示す図である。文書間関連度情報42では、たとえば、文書ペアと関連度との項目が設けられる。
文書ペアの項目には、関連度の比較対象となる2つの文書が登録される。この項目には、入力された文書31,32,33,・・・から2つの文書を選択したときの全ての組み合わせが登録される。関連度の項目には、対応する比較文書間の関連度が登録される。
[文書関係の間引き(ステップS14)]
次に、文書間の関連度情報から関係図の作成に必要な関連だけを選別(間引き)する方法について説明する。
文書配置計算や関係線の表示属性に活用する文書の関連を選択する場合には、関係図上の文書がばらばらになってしまうと文書間の関係がわからない。そのため、すべての文書が最低1つは別の文書と接続されるように関連付けを選択する必要がある。
たとえば、以下の方法により文書間の関連度情報から関連付けを選択する。
図12は、文書関係間引き処理の手順を示すフローチャートである。以下、図12に示す処理をステップ番号に沿って説明する。
[ステップS21]関連付け間引き部130は、全ての文書31,32,33,・・・のペアについて関連度順にソートする。ソートされた文書ペアには、関連度が高い順に、0から始まる昇順の番号が振られる。また、初期状態では、1文書を1グループと考える。
[ステップS22]関連付け間引き部130は、変数iに0を設定する。
[ステップS23]関連付け間引き部130は、i番目の文書ペアの各文書が別グループに属しているか否かを判断する。別のグループに属している場合、処理がステップS24に進められる。同一のグループに属している場合、処理がステップS25に進められる。
[ステップS24]関連付け間引き部130は、i番目の文書ペア間の関連を有効にする。具体的には、関連付け間引き部130は、関連付け間引き情報43におけるi番目の文書ペアに対応する欄に、関連付けが有効であることを示す情報を設定する。関連付けが有効になった文書それぞれのグループは統合され、1つのグループとなる。
[ステップS25]関連付け間引き部130は、全ての文書が同一グループに属しているか否かを判断する。全ての文書が同一グループに属していれば、処理がステップS27に進められる。複数のグループが存在していれば、処理がステップS26に進められる。
[ステップS26]関連付け間引き部130は、iの値をインクリメント(1だけ加算)する。その後、処理がステップS23に進められ、次の順番の文書ペアについて、関連の有効性を判断する。これにより、全ての文書が同一グループになるまで、ステップS23〜ステップS25の処理が繰り返される。
このように、ステップS21〜ステップS26の処理により、全ての文書のうち同じグループでない文書ペアの中で最も関連の強い文書ペア間の関連が有効とされ、同じグループとなる。その後、同じグループに属した文書同士の文書ペアが検討されたとき、すでに同じグループに属していることから、文書ペアの関連は有効とされない。
[ステップS27]関連付け間引き部130は、変数iに0を設定する。
[ステップS28]関連付け間引き部130は、i番目の文書ペア間の関係を有効にする。
[ステップS29]関連付け間引き部130は、関連が有効である文書ペアの数が所定値に達しているか否かを判断する。関連が有効である文書ペアの数が所定値に達していれば、処理が終了する。所定値に達していなければ、処理がステップS30に進められる。
[ステップS30]関連付け間引き部130は、iの値をインクリメント(1だけ加算)する。その後、処理がステップS28に進められる。
このように、ステップS28〜ステップS30では、ステップS23,S24で示される「同じグループ内では関連が強くても関連を有効としない」という条件をなくして、関連度が高い順に有効な関連が一定数(たとえば全ての関連の数十%)になるまで関連を有効にすることができる。その結果、関連付け間引き情報43が生成される。
図13は、関連付け間引き情報のデータ構造例を示す図である。関連付け間引き情報43は、関連度によるソート後の文書間関連度情報42aの各文書ペアに対応する選択情報を有している。選択情報には、関連が有効として選択された文書ペアに対して「有効」が設定されている。すなわち、「有効」と設定された文書ペア間の関連付けが選択され、なにも設定されていない文書ペア間の関連付けは間引きされる。
ところで、どの程度の関連度以下の関連付けを間引きするのか(間引きする関連度の閾値)は、ユーザが任意に設定することができる。
図14は、間引きの設定画面の例を示す図である。図14の示す間引き設定画面90の例では、間引き条件として、「エッジの数」「関連度」「平均次数」といった値によって制御することが可能である。それぞれの条件については以下のような意味を持つ。
「エッジの数」は、全ての関係線数の何%の関係線を残すかを示す。チェックボックス91aにチェックマークが表示されているときに、「エッジの数」の条件が有効となる。残すべき関係線の割合は、テキストボックス91bにパーセンテージによって入力できる。
「関連度」は、文書間の関連度の値がいくつ以下のものを間引くかを示す。チェックボックス92aにチェックマークが表示されているときに、「関連度」の条件が有効となる。関連度の閾値となる値は、テキストボックス92bに数値によって入力できる。
「平均次数」は、1つの文書あたり平均いくつの関係線が残るようにするかを示す。チェックボックス93aにチェックマークが表示されているときに、「平均次数」の条件が有効となる。平均次数は、テキストボックス93bに数値によって入力できる。
また、図14の例では、チェックボックス94により連結性を保持するかどうかの選択も行える。連結性を保持するようにすれば、間引き後もすべての文書は最低1つは別の文書とつながれることになる。
さらに、チェックボックス95により、間引きしたエッジ(関係線)を透明化するかどうかの選択も可能である。間引きした関係線を透明化すれば、関連度の高い関係線のみが表示され、文書間の関連状況が把握しやすくなる。
「1ノード当たりの最大エッジ数」を設定するためのテキストボックス96も設けられている。このテキストボックス96は、1つの文書に線が集中して放射状の図ができるのを防ぐためのものである。1つの文書に線が集中するような場合であっても、このテキストボックス96で指定した値以上に線がつながれないように制限される。
これらの制限の基に間引きを行う方法については、本出願人により特許出願されている(特願2002−179896号)。
間引き設定内容は、デフォルト値(初期値)を予め設定しておくことができる。間引き設定画面90が最初に表示されたときは、デフォルト値が設定された状態で画面表示される。図14には、デフォルト値が示されているものとする。この例では、間引き条件として「平均次数」が選択され、その平均次数に「3」が設定されている。また、1ノード当たりの最大エッジ数に「5」が設定されている。
間引き設定画面90には、OKボタン97とキャンセルボタン98とが設けられている。OKボタン97が押されると、そのとき間引き設定画面90上で設定されている条件が確定する。キャンセルボタン98が押されると、設定内容が変更されずに間引き設定画面が閉じる。
このようにして、ユーザは任意の間引き条件を設定することができる。
なお、間引きの方法は、他にも様々な方法が考えられる。たとえば、文書に接続可能な関係線の数(その文書を含む文書ペアのうち関連が有効とされる数)を制限することができる。
また、文書ペア間の関係において代替パス(他の文書を経由して関連付けられていること)が存在する場合に、その文書ペア間の直接の関連を無効にすることもできる。このような技術は、本出願人によりに特許出願されている(特願2002−343744号)。
このようにして、関連の間引きを行うことができる。その結果、関係図を表示したときに、重要な関連線のみで文書同士が接続され、ユーザが文書間の関係を理解しやすくなる。
[文書配置計算(ステップS15)]
次に、文書配置計算について説明する。ここでは、関連付けられた文書間のみで時間順序が保存されるように文書をレイアウトする方法について説明する。文書配置の詳細な計算法については“杉山公造、「グラフ自動描画法とその応用」、コロナ社、1993年”に記載された方法を用いることができる。以下、前記文献に記載された方法のうち、比較的簡単な例について説明する。
図15は、文書配置計算処理の手順を示すフローチャートである。以下、図15に示す処理をステップ番号に沿って説明する。なお、本実施の形態では、関係図の横方向に時間軸をとり、左から右に時間が進むものとする。
[ステップS41]文書配置計算部140は、文書を示すオブジェクト(以下、文書オブジェクトと呼ぶ)をランダムに配置し、特徴素管理テーブル41と関連付け間引き情報43とを利用して、文書オブジェクト間の関連付けを示す矢印の作成を行う。すなわち、関連付け間引き情報43において有効になっている関係にある文書ペアで時間的に古い文書の文書オブジェクトから新しい文書の文書オブジェクトを指し示す矢印を作成する。
[ステップS42]文書配置計算部140は、各文書に付けられた矢印が全て右側(時間の進行方向)を向くように全ての文書を直線上に並べる。
[ステップS43]文書配置計算部140は、文書オブジェクトを並べ終わったら、各文書オブジェクトに階層を割り当てる。具体的には、文書配置計算部140は、「左側に直列につながっている文書オブジェクトの最大階層値+1」をその文書オブジェクトの階層を示す値とする。
[ステップS44]文書配置計算部140は、最後に文書オブジェクトの配置を決定する。すなわち、文書配置計算部140は、文書オブジェクトを配置する空間を階層に分け、文書オブジェクトにつけられた階層によって文書オブジェクトの横方向の配置を決定する。文書オブジェクトの縦方向の位置は、「関連の強い文書が近くになるようにする」、「文書オブジェクト間の関係線の交差が少ないようにする」といった条件に基づいて決定する。
以下、図16〜図19を参照して、文書オブジェクトの配置例を説明する。なお、図16〜図19では、各文書オブジェクトを丸印で表し、丸印の中に各文書オブジェクトの識別番号を示すものとする。
図16は、ランダムに配置された文書オブジェクトを示す図である。この例では、12個の文書オブジェクト71〜82が配置されている。文書オブジェクト71〜82は、それぞれ少なくとも1つの他の文書オブジェクトとの間で関連付けが有効となっている。そして、有効な関連付けが矢印で示されている。矢印を設定する際には、関連する2つの文書の時間情報が比較され、時間が古い文書の文書オブジェクトから新しい文書の文書オブジェクトに向かって矢印が設定される。たとえば、識別番号「1」の文書オブジェクト71と識別番号「5」の文書オブジェクト75との関連付けが有効であり、文書オブジェクト71の方が文書オブジェクト75よりも古い時間情報が設定されている。
その後、各文書オブジェクト71〜82が、時間軸に沿って並べられる。
図17は、時間軸に沿って並べられた文書オブジェクトを示す図である。各文書オブジェクト71〜82が時間軸に沿って並べられることで、全ての矢印は、時間進行に沿った方向を指し示すことになる。
その後、各文書オブジェクト71〜82に関して、階層が決定される。本実施の形態では、判断対象となる文書オブジェクトの左側に関係付けられている文書オブジェクトの階層を示す値に1を加算した値が、その文書オブジェクトの階層となる。たとえば、識別番号「5」の文書オブジェクト75は、左側に階層「1」の文書オブジェクト71が関連付けられているため、階層は「2」である。また、識別番号「12」の文書オブジェクト82は、左側に2つの文書オブジェクト77,79が関連付けられている。文書オブジェクト77の階層は「2」であり、文書オブジェクト79の階層は「3」である。このように左側に複数の文書が関連付けられている場合、高い方の階層に1を加算した値が、判断対象の文書オブジェクト82の階層となる。したがって、文書オブジェクト82の階層は「4」である。
図18は、階層毎に配置された文書オブジェクトを示す図である。時間軸に沿って領域が区切られており、各領域に階層が割り振られている。このとき、番号が大きい階層ほど、時間軸上で新しい方の領域に割り振られる。
その後、文書オブジェクトの縦方向の位置を決定する。具体的には、文書オブジェクト間の関係線の交差が少ないように、文書オブジェクトの縦方向の位置が決定される。
図19は、決定された位置に文書オブジェクトが配置された関係図を示す図である。この例では、階層「1」の文書オブジェクトの配置が、上から文書オブジェクト74、文書オブジェクト71、文書オブジェクト73、文書オブジェクト72の順に変更されている。また、階層「3」の文書の配置が、上から文書オブジェクト79、文書オブジェクト78、文書オブジェクト80の順に変更されている。このようにして、文書が時系列で配置される。
[関連線表示属性決定(ステップS16)]
次に、文書間の関係線の表示属性に反映させる方法について説明する。
文書間の有効にした関連付けに対し、たとえば、以下の方法で関係線の表示属性に反映させることができる。
有効な関連と、その他の関連を、それぞれ別の表示属性(たとえば色や太さ)によって表現する。たとえば、有効な関連付けを表す関係線を強調表示する。強調表示の方法としては、輝度を高くしたり、線を太くしたり、線を赤などの目立つ色で表示したりする方法がある。
また、有効な関連以外をすべて非表示とすることもできる。具体的には、ユーザは、間引き設定画面90において、チェックボックス95を選択することで、間引きしたエッジ(関係線)を透明化させることができる。
[マップ表示(ステップS17)]
生成された関係図は、出力処理部160によってマップ表示される。
図20は、関係図の表示例を示す図である。これは、特許文献の集合を入力したときの例である。図20には、それぞれが個別の特許文献を表す7つの文書オブジェクトが表示されている。
文書オブジェクト201は、文書オブジェクト202,203,206との間で有効な関連付けを有している。このとき、文書オブジェクト201は、有効な関連付けが成されている文書オブジェクト202,203,206の全てよりも時間的に古い時間情報を有している。
文書オブジェクト202は、文書オブジェクト205,206との間で有効な関連付けを有している。このとき、文書オブジェクト202は、有効な関連付けが成されている文書オブジェクト205,206のいずれよりも時間的に古い時間情報を有している。また、文書オブジェクト202と文書オブジェクト205との間は、比較的関連度が高いため、太い関係線で接続されている。
文書オブジェクト203は、文書オブジェクト205,206との間で有効な関連付けを有している。このとき、文書オブジェクト203は、有効な関連付けが成されている文書オブジェクト205,206のいずれよりも時間的に古い時間情報を有している。
文書オブジェクト204は、文書オブジェクト205との間で有効な関連付けを有している。このとき、文書オブジェクト204は、有効な関連付けが成されている文書オブジェクト205よりも時間的に古い時間情報を有している。
文書オブジェクト205は、文書オブジェクト206,207との間で有効な関連付けを有している。このとき、文書オブジェクト205は、有効な関連付けが成されている文書オブジェクト206,207のいずれよりも時間的に古い時間情報を有している。また、文書オブジェクト205と文書オブジェクト206との間は、比較的関連度が高いため、太い関係線で接続されている。
文書オブジェクト206は、文書オブジェクト207との間で有効な関連付けを有している。このとき、文書オブジェクト206は、有効な関連付けが成されている文書オブジェクト207よりも時間的に古い時間情報を有している。
以上のようにして、文書同士の関係を示す線によって、文書を表すオブジェクト同士を結び、各文書オブジェクトを時系列に表示することができる。
[その他の応用例]
上記の説明では、文書間の有効な関連付け(間引き後の関連情報)に応じて、文書配置を計算しているが、間引き前の文書間関連情報を使用して文書配置計算を行うこともできる。また、関連線表示属性に関しても同様に、間引き前の関連情報を使用して決定することもできるし、間引き後の関連情報を使用して決定することもできる。
つまり、文書配置計算と関連線表示属性計算との方法(配置等計算法)については、以下の4通りの方法が考えられる。
(配置等計算法a)間引き前の文書間関連情報で文書配置計算と関連線表示属性の決定とも行う。
(配置等計算法b)間引き後の文書間関連情報で文書配置計算と関連線表示属性の決定とも行う。
(配置等計算法c)間引き前の文書間関連情報で文書配置計算を行い、間引き後の文書間関連情報で関連線表示属性の決定を行う。
(配置等計算法d)間引き後の文書間関連情報で文書配置計算を行い、間引き前の文書間関連情報で関連線表示属性の決定を行う。
文書配置の具体的な計算法については、“杉山公造、「グラフ自動描画法とその応用」、コロナ社、1993年”に記載された方法を用いることができる。
また、関係図では時間に沿った順序に並べる必要がある。時間順序を保存した関係図の作成方法としては以下のようなものが考えられる。
(時間順保存法1)関連付けられた文書間のみで時間順序が保存されるように文書オブジェクトをレイアウトする。
(時間順保存法2)関係図全体で時間順序が保存されるように文書オブジェクトをレイアウトする。
(時間順保存法3)年または月または日の単位で時間順序が保存されるように文書オブジェクトをレイアウトする。
これら文書配置計算や関連線表示属性の決定方法と、時間順序を保存した関係図の作成方法とは、それぞれ任意に組み合わせることができる。
たとえば、図20に示したのは、(配置等計算法b)と(時間順保存法1)を組み合わせた場合の例である。すなわち、間引き後の関連により配置が計算され、関連線が付けられている文書間において時間順序が保存されるように文書の配置が決定されている。そして、間引きを行った後に残った関連付けによって文書間に関係線が引かれている。
また、(配置等計算法b)と(時間順保存法2)とを組み合わせて、関係図を作成することもできる。
図21は、全ての文書間の時間順序を保存した関係図の例を示す図である。図21では、互いの関連付けが間引きされている文書オブジェクト202、文書オブジェクト203、文書オブジェクト204それぞれの間においても、時間順序が保存されている。すなわち、文書オブジェクト201〜207は、時間情報として早い期日が設定されている文書ほど、図中の左寄りに表示されている。
さらに、(配置等計算法d)と(時間順保存法1)とを組み合わせて関係図を作成することもできる。
図22は、間引き前の関連付けを示す関係線を含めて表示した関係図の例を示す図である。図22では、文書オブジェクト201〜207の配置は図20と同じであるが、表示される関連線が間引き前であるため関連線の数が多くなっている。なお、間引き対象となる関係線は、他の関係線よりも細く表示されている。
文書の配置計算に使われる時間情報としては、文書の作成日や更新日といった文書の付加情報が考えられる。また、特許文献の出願日や公開日、優先日のように書誌情報として文書に付加されている場合にはこれらの情報を抽出して時間情報として使用してもよい。
更に、関係図の配置を決めるときには一種類の時間情報を単独で使うだけではなく、たとえば、優先日がある場合には優先日を優先し、優先日が無い場合には出願日を使用するといった具合に複数の時間情報を組み合わせて使用するということも可能である。このような時間情報の組み合わせは特許文献に限ったものではなく、様々な文書に適用できる。たとえば、打ち合わせ資料や手続き書類の作成日が同じ場合には、更新日を使うことによって資料の更新履歴の関係図や手続きフローの自動作成に応用することも可能である。
文書間の引用関係や参照関係があった場合これらを利用して以下のように処理することもできる。なお、文書の引用関係や参照関係は、特徴素の1つとして特徴素抽出部110において抽出することができる。
図23は、文書間の引用関係や参照関係を含む場合の文書関係の間引き手順を示すフローチャートである。図23に示す処理は、ステップS51を除き図12に示す処理と同様である。すなわち、ステップS52〜ステップS61の各処理は、それぞれ図12のステップS21〜ステップS30の処理と同じである。
関連付け間引き部130は、最初に、引用関係または参照関係にある文書間の関連付けを有効にする(ステップS51)。これにより、引用関係または参照関係にある文書間の関連付けは間引きの対象から除外される。その後、処理がステップS52に進められ、図12と同様の手順で関連付けの有効化が行われる。
また、有効な関連を文書配置計算に反映させる方法として、上述の方法以外に次のような方法がある。たとえば、特に引用関係や参照関係によって有効になった関連を利用して文書配置計算を行うこともできる。
また、有効な関連を文書間の関係線の表示属性に反映させる方法として、次のような方法が考えられる。たとえば、特に引用関係や参照関係がある関連だけ別の表示属性(たとえば色や太さ)によって表現することができる。
関係図を表示する時には、文書の書誌情報などを利用して対応する文書オブジェクトの表示属性(たとえば枠の色や背景の色)を変えて表示してもよい。たとえば、特許文献の場合であれば、出願人やIPCが同じ特許文献を表すオブジェクトの枠の色を同じにするなどしてもよい。
なお、上記の処理機能は、コンピュータによって実現することができる。その場合、クライアントが有すべき機能の処理内容を記述したプログラムが提供される。そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記録装置には、ハードディスク装置(HDD)、フレキシブルディスク(FD)、磁気テープなどがある。光ディスクには、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。光磁気記録媒体には、MO(Magneto-Optical disk)などがある。
プログラムを流通させる場合には、たとえば、そのプログラムが記録されたDVD、CD−ROMなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。
プログラムを実行するコンピュータは、たとえば、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムに従った処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することもできる。また、コンピュータは、サーバコンピュータからプログラムが転送される毎に、逐次、受け取ったプログラムに従った処理を実行することもできる。
(付記1) 複数の文書間の関係を示す図を作成するための関係図作成プログラムにおいて、
コンピュータに、
前記複数の文書それぞれの内容を解析し、時間情報を含む特徴素を抽出し、
抽出された前記特徴素に基づいて、前記複数の文書から抽出される文書ペア間の関連度を計算し、
前記複数の文書それぞれを示すオブジェクトを、前記時間情報に基づいて時間軸上に配置すると共に、計算された前記関連度に応じて、前記文書ペアの前記オブジェクト間を結ぶ関係線を生成し、
前記オブジェクトおよび前記関係線で構成される関係図を表示する、
処理を実行させることを特徴とする関係図作成プログラム。
(付記2) 前記関係線を生成する際には、引用関係のない前記文書ペアの前記関連度に基づいて、所定の前記文書ペア間の前記関係線を間引くことを特徴とする付記1記載の関係図作成プログラム。
(付記3) 前記関係線を生成する際には、前記引用関係がある前記文書ペアの前記関係線を、他の前記関係線とは異なる表示形態で表示することを特徴とする付記3記載の関係図作成プログラム。
(付記4) 前記複数の文書の前記オブジェクトを配置する際には、少なくとも、前記関連性のある前記文書ペアの各前記オブジェクトを、前記時間軸方向に前記時間情報に基づく順番に配置することを特徴とする付記1記載の関係図作成プログラム。
(付記5) 前記複数の文書の前記オブジェクトを配置する際には、前記複数の文書それぞれの前記オブジェクトを、前記時間軸方向に前記時間情報に基づく順番で配置することを特徴とする付記1記載の関係図作成プログラム。
(付記6) 前記複数の文書の前記オブジェクトを配置する際には、前記時間軸は所定の期間を基準単位とし、異なる前記期間に属する前記文書の前記オブジェクト同士での前記時間軸上の順序を保つことを特徴とする付記1記載の関係図作成プログラム。
(付記7) 前記複数の文書として特許文献が入力された場合、
前記特徴素を抽出する際には、前記時間情報として出願日を抽出することを特徴とする付記1記載の関係図作成プログラム。
(付記8) 前記複数の文書として特許文献が入力された場合、
前記特徴素を抽出する際には、前記時間情報として出願日と優先日とを抽出し、
前記複数の文書の前記オブジェクトを配置する際には、前記文書から前記出願日と前記優先日が抽出された場合、前記優先日を前記文書の前記時間情報とみなすことを特徴とする付記1記載の関係図作成プログラム。
(付記9) 複数の文書間の関係を示す図を作成するための関係図作成方法において、
前記複数の文書それぞれの内容を解析し、時間情報を含む特徴素を抽出し、
抽出された前記特徴素に基づいて、前記複数の文書から抽出される文書ペア間の関連度を計算し、
前記複数の文書それぞれを示すオブジェクトを、前記時間情報に基づいて時間軸上に配置すると共に、計算された前記関連度に応じて、前記文書ペアの前記オブジェクト間を結ぶ関係線を生成し、
前記オブジェクトおよび前記関係線で構成される関係図を表示する、
ことを特徴とする関係図作成方法。
(付記10) 複数の文書間の関係を示す図を作成するための関係図作成装置において、
前記複数の文書それぞれの内容を解析し、時間情報を含む特徴素を抽出する特徴素抽出手段と、
抽出された前記特徴素に基づいて、前記複数の文書から抽出される文書ペア間の関連度を計算する関連度計算手段と、
前記複数の文書それぞれを示すオブジェクトを、前記時間情報に基づいて時間軸上に配置する配置手段と、
計算された前記関連度に応じて、前記文書ペアの前記オブジェクト間を結ぶ関係線を生成する関係線生成手段と、
前記オブジェクトおよび前記関係線で構成される関係図を表示する表示手段と、
を有することを特徴とする関係図作成装置。
(付記11) 複数の文書間の関係を示す図を作成するための関係図作成プログラムを記録したコンピュータ読み取り可能な記録媒体において、
コンピュータに、
前記複数の文書それぞれの内容を解析し、時間情報を含む特徴素を抽出し、
抽出された前記特徴素に基づいて、前記複数の文書から抽出される文書ペア間の関連度を計算し、
前記複数の文書それぞれを示すオブジェクトを、前記時間情報に基づいて時間軸上に配置すると共に、計算された前記関連度に応じて、前記文書ペアの前記オブジェクト間を結ぶ関係線を生成し、
前記オブジェクトおよび前記関係線で構成される関係図を表示する、
処理を実行させることを特徴とする関係図作成プログラムを記録したコンピュータ読み取り可能な記録媒体。
実施の形態に適用される発明の概念図である。 ネットワークを介した文書検索を行うシステムの構成例を示す図である。 本発明の実施の形態に用いるクライアントのハードウェア構成例を示す図である。 関係図作成装置として機能するためのクライアントの機能ブロック図である。 関係図作成処理の手順を示すフローチャートである。 特許文献の例を示している。 品詞設定画面の一例を示す図である。 品詞選択部スクロール後の品詞設定画面の例を示す図である。 特徴素管理テーブルのデータ構造例を示す図である。 文書−単語行列の例を示す図である。 文書間関連度情報のデータ構造例を示す図である。 文書関係間引き処理の手順を示すフローチャートである。 関連付け間引き情報のデータ構造例を示す図である。 間引きの設定画面の例を示す図である。 文書配置計算処理の手順を示すフローチャートである。 ランダムに配置された文書オブジェクトを示す図である。 時間軸に沿って並べられた文書オブジェクトを示す図である。 階層毎に配置された文書オブジェクトを示す図である。 決定された位置に文書オブジェクトが配置された関係図を示す図である。 関係図の表示例を示す図である。 全ての文書間の時間順序を保存した関係図の例を示す図である。 間引き前の関連付けを示す関係線を含めて表示した関係図の例を示す図である。 文書間の引用関係や参照関係を含む場合の文書関係の間引き手順を示すフローチャートである。
符号の説明
1a,1b,1c 文書
2 特徴素抽出手段
3 関連度計算手段
4 配置手段
5 関係線生成手段
6 表示手段
7 関係図
7a〜7g オブジェクト

Claims (5)

  1. 複数の文書間の関係を示す図を作成するための関係図作成プログラムにおいて、
    コンピュータに、
    前記複数の文書それぞれの内容を解析し、時間情報を含む特徴素を抽出し、
    抽出された前記特徴素に基づいて、前記複数の文書から抽出される文書ペア間の関連度を計算し、
    前記複数の文書それぞれを示すオブジェクトを、前記時間情報に基づいて時間軸上に配置すると共に、計算された前記関連度に応じて、前記文書ペアの前記オブジェクト間を結ぶ関係線を生成し、
    前記オブジェクトおよび前記関係線で構成される関係図を表示する、
    処理を実行させることを特徴とする関係図作成プログラム。
  2. 前記複数の文書の前記オブジェクトを配置する際には、前記時間軸は所定の期間を基準単位とし、異なる前記期間に属する前記文書の前記オブジェクト同士での前記時間軸上の順序を保つことを特徴とする請求項1記載の関係図作成プログラム。
  3. 前記複数の文書として特許文献が入力された場合、
    前記特徴素を抽出する際には、前記時間情報として出願日と優先日とを抽出し、
    前記複数の文書の前記オブジェクトを配置する際には、前記文書から前記出願日と前記優先日が抽出された場合、前記優先日を前記文書の前記時間情報とみなすことを特徴とする請求項1記載の関係図作成プログラム。
  4. 複数の文書間の関係を示す図を作成するための関係図作成方法において、
    前記複数の文書それぞれの内容を解析し、時間情報を含む特徴素を抽出し、
    抽出された前記特徴素に基づいて、前記複数の文書から抽出される文書ペア間の関連度を計算し、
    前記複数の文書それぞれを示すオブジェクトを、前記時間情報に基づいて時間軸上に配置すると共に、計算された前記関連度に応じて、前記文書ペアの前記オブジェクト間を結ぶ関係線を生成し、
    前記オブジェクトおよび前記関係線で構成される関係図を表示する、
    ことを特徴とする関係図作成方法。
  5. 複数の文書間の関係を示す図を作成するための関係図作成装置において、
    前記複数の文書それぞれの内容を解析し、時間情報を含む特徴素を抽出する特徴素抽出手段と、
    抽出された前記特徴素に基づいて、前記複数の文書から抽出される文書ペア間の関連度を計算する関連度計算手段と、
    前記複数の文書それぞれを示すオブジェクトを、前記時間情報に基づいて時間軸上に配置する配置手段と、
    計算された前記関連度に応じて、前記文書ペアの前記オブジェクト間を結ぶ関係線を生成する関係線生成手段と、
    前記オブジェクトおよび前記関係線で構成される関係図を表示する表示手段と、
    を有することを特徴とする関係図作成装置。
JP2003353928A 2003-10-14 2003-10-14 関係図作成プログラム、関係図作成方法、および関係図作成装置 Pending JP2005122295A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003353928A JP2005122295A (ja) 2003-10-14 2003-10-14 関係図作成プログラム、関係図作成方法、および関係図作成装置
US10/812,021 US20050081146A1 (en) 2003-10-14 2004-03-30 Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003353928A JP2005122295A (ja) 2003-10-14 2003-10-14 関係図作成プログラム、関係図作成方法、および関係図作成装置

Publications (1)

Publication Number Publication Date
JP2005122295A true JP2005122295A (ja) 2005-05-12

Family

ID=34419929

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003353928A Pending JP2005122295A (ja) 2003-10-14 2003-10-14 関係図作成プログラム、関係図作成方法、および関係図作成装置

Country Status (2)

Country Link
US (1) US20050081146A1 (ja)
JP (1) JP2005122295A (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007206926A (ja) * 2006-02-01 2007-08-16 Fuji Xerox Co Ltd データ分析装置、コンピュータの制御方法及びプログラム
JP2009151373A (ja) * 2007-12-18 2009-07-09 Nec Corp 引用関係抽出システム、引用関係抽出方法、及び引用関係抽出用プログラム
WO2009096441A1 (ja) * 2008-01-31 2009-08-06 Hidenao Takahashi 関係図表作成システムおよび関係図表作成方法
JP4550939B1 (ja) * 2009-09-17 2010-09-22 株式会社野村総合研究所 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム
JP2010231634A (ja) * 2009-03-27 2010-10-14 Fujitsu Ltd 順序決定プログラム、順序決定方法、および情報処理装置
JP2011060228A (ja) * 2009-09-11 2011-03-24 Qinghua Univ 情報伝播を検知するウェブページ関係評価装置
JP2011123743A (ja) * 2009-12-11 2011-06-23 Fujitsu Ltd 情報マップ作成装置、情報マップ作成方法、及びプログラム
JP2011156209A (ja) * 2010-02-02 2011-08-18 National Institute Of Advanced Industrial Science & Technology 動脈特性検出方法及び動脈特性検査装置
JP2012043240A (ja) * 2010-08-20 2012-03-01 Nec Corp 関係コンテンツ評価装置、関係コンテンツ評価システムおよび関係コンテンツ評価方法
JP2012185696A (ja) * 2011-03-07 2012-09-27 Dainippon Printing Co Ltd 文書検索装置
JP2013084060A (ja) * 2011-10-06 2013-05-09 Ntt Data Corp 類似文書可視化装置、類似文書可視化方法およびプログラム
JP2014119874A (ja) * 2012-12-14 2014-06-30 Ricoh Co Ltd サーバ装置、電子会議システム及びプログラム
KR20150074864A (ko) * 2013-12-24 2015-07-02 주식회사 케이티 콘텐트 연결 관계 표시 장치 및 방법
JP2016189137A (ja) * 2015-03-30 2016-11-04 Kddi株式会社 学習単元間の親子関係を特定する学習教材分析プログラム、装置及び方法
JP2018120465A (ja) * 2017-01-26 2018-08-02 三菱電機株式会社 関係分析装置および関係分析プログラム
WO2024202379A1 (ja) * 2023-03-31 2024-10-03 富士フイルム株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7409635B2 (en) * 2004-11-16 2008-08-05 Zalag Corporation Display/layout methods and apparatuses including content items and display containers
US7533094B2 (en) * 2004-11-23 2009-05-12 Microsoft Corporation Method and system for determining similarity of items based on similarity objects and their features
JP2007219880A (ja) * 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置
JP4771831B2 (ja) * 2006-03-02 2011-09-14 富士通株式会社 図形表示プログラム及び図形表示方法
US20070239698A1 (en) * 2006-04-10 2007-10-11 Graphwise, Llc Search engine for evaluating queries from a user and presenting to the user graphed search results
JP2008040815A (ja) * 2006-08-07 2008-02-21 Sony Corp テーブル作成方法、情報処理装置およびテーブル作成用プログラム
JP5011947B2 (ja) * 2006-10-19 2012-08-29 オムロン株式会社 Fmeaシートの作成方法およびfmeaシート自動作成装置
US20080133476A1 (en) * 2006-12-05 2008-06-05 Ivo Welch Automated peer performance measurement system for academic citation databases
US9135331B2 (en) 2008-04-07 2015-09-15 Philip J. Rosenthal Interface including graphic representation of relationships between search results
JP5354981B2 (ja) * 2008-07-14 2013-11-27 キヤノン株式会社 文書管理装置、文書管理方法及びプログラム
US8994746B2 (en) * 2012-06-27 2015-03-31 Google Inc. System and method for generating a flow based on multiple types of interactions
US9727619B1 (en) * 2013-05-02 2017-08-08 Intelligent Language, LLC Automated search
JP6323187B2 (ja) * 2014-06-06 2018-05-16 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US9959868B1 (en) * 2017-03-09 2018-05-01 Wisconsin Alumni Research Foundation Conversational programming interface
CN110609873A (zh) * 2018-06-15 2019-12-24 富士施乐株式会社 信息处理装置和非暂时性计算机可读介质
CN111026921A (zh) * 2019-12-26 2020-04-17 深圳前海环融联易信息科技服务有限公司 基于图的关联关系获取方法、装置及计算机设备
CN113505184B (zh) * 2021-09-09 2022-01-14 人民法院信息技术服务中心 一种系统间信息关系图的自动生成方法及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5588108A (en) * 1994-09-27 1996-12-24 Micrografx, Inc. System and method for generating graphics charts
US5808615A (en) * 1996-05-01 1998-09-15 Electronic Data Systems Corporation Process and system for mapping the relationship of the content of a collection of documents
JPH1153387A (ja) * 1997-08-06 1999-02-26 Ibm Japan Ltd 文書の関連付け方法及びそのシステム
JP4025443B2 (ja) * 1998-12-04 2007-12-19 富士通株式会社 文書データ提供装置及び文書データ提供方法
US6532469B1 (en) * 1999-09-20 2003-03-11 Clearforest Corp. Determining trends using text mining
JP3701197B2 (ja) * 2000-12-28 2005-09-28 松下電器産業株式会社 分類への帰属度計算基準作成方法及び装置
US20070245228A9 (en) * 2003-04-10 2007-10-18 Andre Lavoie Financial document change identifier

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007206926A (ja) * 2006-02-01 2007-08-16 Fuji Xerox Co Ltd データ分析装置、コンピュータの制御方法及びプログラム
JP2009151373A (ja) * 2007-12-18 2009-07-09 Nec Corp 引用関係抽出システム、引用関係抽出方法、及び引用関係抽出用プログラム
WO2009096441A1 (ja) * 2008-01-31 2009-08-06 Hidenao Takahashi 関係図表作成システムおよび関係図表作成方法
JP2010231634A (ja) * 2009-03-27 2010-10-14 Fujitsu Ltd 順序決定プログラム、順序決定方法、および情報処理装置
JP2011060228A (ja) * 2009-09-11 2011-03-24 Qinghua Univ 情報伝播を検知するウェブページ関係評価装置
JP4550939B1 (ja) * 2009-09-17 2010-09-22 株式会社野村総合研究所 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム
JP2011086273A (ja) * 2009-09-17 2011-04-28 Nomura Research Institute Ltd 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム
JP2011086278A (ja) * 2009-09-17 2011-04-28 Nomura Research Institute Ltd 情報伝播経路特定装置、情報伝播経路特定方法、情報伝播経路特定プログラム
JP2011123743A (ja) * 2009-12-11 2011-06-23 Fujitsu Ltd 情報マップ作成装置、情報マップ作成方法、及びプログラム
JP2011156209A (ja) * 2010-02-02 2011-08-18 National Institute Of Advanced Industrial Science & Technology 動脈特性検出方法及び動脈特性検査装置
JP2012043240A (ja) * 2010-08-20 2012-03-01 Nec Corp 関係コンテンツ評価装置、関係コンテンツ評価システムおよび関係コンテンツ評価方法
JP2012185696A (ja) * 2011-03-07 2012-09-27 Dainippon Printing Co Ltd 文書検索装置
JP2013084060A (ja) * 2011-10-06 2013-05-09 Ntt Data Corp 類似文書可視化装置、類似文書可視化方法およびプログラム
JP2014119874A (ja) * 2012-12-14 2014-06-30 Ricoh Co Ltd サーバ装置、電子会議システム及びプログラム
KR20150074864A (ko) * 2013-12-24 2015-07-02 주식회사 케이티 콘텐트 연결 관계 표시 장치 및 방법
KR101625174B1 (ko) * 2013-12-24 2016-06-07 주식회사 케이티 콘텐트 연결 관계 표시 장치 및 방법
JP2016189137A (ja) * 2015-03-30 2016-11-04 Kddi株式会社 学習単元間の親子関係を特定する学習教材分析プログラム、装置及び方法
JP2018120465A (ja) * 2017-01-26 2018-08-02 三菱電機株式会社 関係分析装置および関係分析プログラム
WO2024202379A1 (ja) * 2023-03-31 2024-10-03 富士フイルム株式会社 情報処理装置、情報処理方法、及び情報処理プログラム

Also Published As

Publication number Publication date
US20050081146A1 (en) 2005-04-14

Similar Documents

Publication Publication Date Title
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
JP5391633B2 (ja) オントロジー空間を規定するタームの推奨
KR101078864B1 (ko) 질의/문서 주제 범주 변화 분석 시스템 및 그 방법과 이를 이용한 질의 확장 기반 정보 검색 시스템 및 그 방법
JP5391634B2 (ja) 文書の段落分析によるその文書のタグの選択
CN101692223B (zh) 响应于用户输入精炼搜索空间
US8024175B2 (en) Computer program, apparatus, and method for searching translation memory and displaying search result
JP3717808B2 (ja) 情報検索システム
JP2003167914A (ja) マルチメディア情報検索方法、プログラム、記録媒体及びシステム
JP2009093651A (ja) 統計分布を用いたトピックスのモデリング
JP5391632B2 (ja) ワードと文書の深さの決定
JP2005128873A (ja) 質問応答型文書検索システム及び質問応答型文書検索プログラム
JP4873739B2 (ja) テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体
JP3178421B2 (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
CN119066179B (zh) 问答处理方法、计算机程序产品、设备及介质
JP6025487B2 (ja) フォレンジック分析システムおよびフォレンジック分析方法並びにフォレンジック分析プログラム
JPH0934909A (ja) 情報検索装置
JP4009937B2 (ja) 文書検索装置、文書検索プログラム及び文書検索プログラムを記録した媒体
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
JP4423385B2 (ja) 文書分類支援装置およびコンピュータプログラム
KR101835994B1 (ko) 키워드 맵을 이용한 전자책 검색 서비스 제공 방법 및 장치
JP3778270B2 (ja) 選択履歴管理情報、選択履歴情報、情報記憶媒体、及びユーザーインターフェース補助システム
JP3943005B2 (ja) 情報検索プログラム
JP2004206571A (ja) 文書情報提示方法及び装置並びにプログラム及び記録媒体
JP2000105769A (ja) 文書表示方法
Tsapatsoulis Web image indexing using WICE and a learning-free language model

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071001

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071113

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080115

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080124

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080222