[go: up one dir, main page]

JP2008171109A - 情報検索システム及び情報検索方法並びにプログラム - Google Patents

情報検索システム及び情報検索方法並びにプログラム Download PDF

Info

Publication number
JP2008171109A
JP2008171109A JP2007002278A JP2007002278A JP2008171109A JP 2008171109 A JP2008171109 A JP 2008171109A JP 2007002278 A JP2007002278 A JP 2007002278A JP 2007002278 A JP2007002278 A JP 2007002278A JP 2008171109 A JP2008171109 A JP 2008171109A
Authority
JP
Japan
Prior art keywords
information
relationship
search
relation
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007002278A
Other languages
English (en)
Inventor
Rie Masuko
理絵 益子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007002278A priority Critical patent/JP2008171109A/ja
Publication of JP2008171109A publication Critical patent/JP2008171109A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】検索キーに関連する固有表現(人名、組織名など)間の関係性を表すネットワーク図を、検索キーの入力後、短時間で表示できるようにする。
【解決手段】検索対象になる文書の登録時、関係解析部2が、上記文書に含まれている固有表現を抽出し、抽出した固有表現間の関係性を示す関係情報を生成し、関係情報登録部3が、関係解析部2で生成された関係情報を関係インデックス記憶装置5に登録しておく。文書の検索時に、ユーザが検索キーを入力すると、検索部7が上記検索キーに適合する関係情報を関係インデックス記憶装置5から検索し、検索結果統合部8が、検索部7で検索された関係情報によって示される固有表現間の関係性を、ネットワーク図を用いてグラフィック表示する。
【選択図】図1

Description

本発明は、文書を検索する情報検索技術に関し、特に、文書の検索時に入力した検索キーに関連する人物、組織、製品などの関係性をユーザが容易に認識することができる情報検索技術に関する。
文書を検索する従来の一般的な情報検索システムは、検索対象文書が登録された文書記憶部と、キーワードとそのキーワードを含んだ検索対象文書の文書IDとが登録されたインデックス記憶部とを備えている。そして、ユーザから検索キーが入力されると、インデックス記憶部から検索キーと同一のキーワードを含んでいる検索対象文書の文書IDを検索してそのリストをユーザに返し、その後、リストを見たユーザによって文書IDが指定されると、文書記憶部から上記文書IDの文書を検索してユーザに返すようにしている。
このように、従来の一般的な情報検索システムは、検索キーが入力されたとき、検索キーを含んだ文書の文書IDのリストをユーザに返すだけであった。このため、ユーザは、検索キーに関連する人物、組織、製品などの関係性を認識するためには、実際に文書を読まなければならなかった。
このような問題点を解決するため、従来、次のような情報検索システムが提案された(例えば、特許文献1参照)。
特許文献1に記載されている情報検索システムは、複数の検索対象文書が登録された文書データベースと、検索対象文書毎に、その文書に現れる固有表現と文書IDとが対応付けて登録された固有表現データベースとを備えている。ここで、固有表現とは、人名、組織名、製品名、地名などといったカテゴリに含まれる固有名詞や、時間、割合といった単位に伴う数値表現の総称である。
そして、特許文献1に記載されている情報検索システムは、ユーザによって検索キーが入力されると、文書データベースから検索キーに適合する文書(適合文書)を複数検索し、更に、各適合文書の文書IDで固有表現データベースを検索することにより、各適合文書に含まれている全ての固有表現を抽出する。次に、抽出した各固有表現と適合文書群との関連度を計算し、関連度が所定値以上の固有表現を含んだ関連固有表現リストを作成する。その後、関連固有表現リストに含まれている固有表現の共起関係を求め、固有表現(人名、企業名、製品名など)をノードとし、共起関係にある固有表現をアークで接続したグラフを表示する。
特開2005−50135号公報
上述した特許文献1に記載されている情報検索システムによれば、ユーザが検索キーを入力することにより、検索キーに適合した適合文書群に現れる固有表現の内の、適合文書群との関連度が高い固有表現(人名、企業名、製品名など)間の関係がグラフによって表示されるので、ユーザは、文書を読まなくとも、検索キーに関連する人名、企業名、製品名などの間の関係性を認識することが可能になる。
しかし、特許文献1に記載されている情報検索システムは、ユーザによって検索キーが入力されてから、固有表現間の共起関係を表すグラフを表示するまでの間に、検索キーに適合した各適合文書に現れる固有表現と適合文書群との関連度を計算する処理や、関連度が所定値以上の固有表現間の共起関係を求める処理が行われるため、ユーザが検索キーに関連した人名、企業名、製品名などの間の関係を認識するまでに時間がかかってしまうという問題があった。
また、特許文献1に記載されている情報検索システムは、固有表現間の共起関係を関係内容として表示するが、共起する固有表現の間のつながりの内容については文書を読まないと具体的には分からないという問題がある。
〔発明の目的〕
そこで、本発明の第1の目的は、検索キーを入力した後、短時間で検索キーに関連する人名、企業名、製品名などの関係性をユーザが認識できるようにすることにある。
また、本発明の第2の目的は、検索キーに関連する人名、企業名、製品名などの関係性とその関係の内容をユーザが文書を読まずとも認識できるようにすることにある。
本発明にかかる第1の情報検索システムは、
固有表現間の関係性を示す関係情報が登録される関係情報記憶部と、
文書の登録時、前記文書に含まれている固有表現を抽出し、該抽出した固有表現間の関係性を示す関係情報を生成する関係解析部と、
該関係解析部で生成された関係情報を前記関係情報記憶部に登録する登録部と、
検索キーに適合する関係情報を前記関係情報記憶部から検索する検索部と、
該検索部で検索された関係情報によって示される固有表現間の関係性をグラフィック表示する検索結果統合部とを備えたことを特徴とする。
本発明にかかる第2の情報検索システムは、第1の情報検索システムにおいて、
前記関係情報が、関係のある固有表現と、固有表現間の関係内容とを含むことを特徴とする。
本発明にかかる第3の情報検索システムは、第2の情報検索システムにおいて、
前記関係解析部が、生成した関係情報に含まれている固有表現の表記の統一処理を行うことを特徴とする。
本発明にかかる第4の情報検索システムは、第2の情報検索システムにおいて、
前記検索結果統合部が、前記検索部で検索された各関係情報に主語あるいは目的語として含まれている固有表現をノードによって表し、固有表現間の関係を、ノードを接続するアークと関係内容を示す文字列とによって表したネットワーク図を表示することを特徴とする。
本発明にかかる第5の情報検索システムは、第4の情報検索システムにおいて、
前記検索結果統合部が、固有表現間の関係を、ノードを接続するアークと、関係内容を示す文字列と、前記関係内容を修飾する地理情報あるいは時間情報を示す文字列とによって表したネットワーク図を表示することを特徴とする。
本発明にかかる第6の情報検索システムは、第1の情報検索システムにおいて、
前記検索部が、検索した関係情報に含まれている固有表現に関連した検索キーを用いた関係情報の検索を、ユーザによって指定された階層数分行うことを特徴とする。
本発明にかかる第1の情報検索方法は、
コンピュータを利用して情報を検索する方法であって、
前記コンピュータが、文書の登録時、前記文書に含まれている固有表現を抽出する抽出ステップと、
前記コンピュータが、前記抽出ステップで抽出された固有表現間の関係性を示す関係情報を生成する関係情報生成ステップと、
前記コンピュータが、前記関係情報生成ステップで生成された関係情報を関係情報記憶部に登録する登録ステップと、
前記コンピュータが、検索キーに適合する関係情報を前記関係情報記憶部から検索する検索ステップと、
前記コンピュータが、前記検索ステップで検索された関係情報によって示される固有表現間の関係性をグラフィック表示する表示ステップとを含むことを特徴とする。
本発明にかかる第2の情報検索方法は、第1の情報検索方法において、
前記関係情報が、関係のある固有表現と、固有表現間の関係内容とを含むことを特徴とする。
本発明にかかる第3の情報検索方法は、第2の情報検索方法において、
前記関係情報生成ステップでは、生成した関係情報に含まれている固有表現の表記の統一処理を行うことを特徴とする。
本発明にかかる第4の情報検索方法は、第2の情報検索方法において、
前記表示ステップでは、前記検索ステップで検索された各関係情報に主語あるいは目的語として含まれている固有表現をノードによって表し、固有表現間の関係を、ノードを接続するアークと関係内容を示す文字列とによって表したネットワーク図を表示することを特徴とする。
本発明にかかる第5の情報検索方法は、第4の情報検索方法において、
前記表示ステップでは、固有表現間の関係を、ノードを接続するアークと、関係内容を示す文字列と、前記関係内容を修飾する地理情報あるいは時間情報を示す文字列とによって表したネットワーク図を表示することを特徴とする。
本発明にかかる第6の情報検索方法は、第1の情報検索方法において、
前記検索ステップでは、検索した関係情報に含まれている固有表現に関連した検索キーを用いた関係情報の検索を、ユーザによって指定された階層数分行うことを特徴とする。
本発明にかかる第1のプログラムは、
固有表現間の関係性を示す関係情報が登録される関係情報記憶部を備えたコンピュータを、
文書の登録時、前記文書に含まれている固有表現を抽出し、該抽出した固有表現間の関係性を示す関係情報を生成する関係解析部、
該関係解析部で生成された関係情報を前記関係情報記憶部に登録する登録部、
検索キーに適合する関係情報を前記関係情報記憶部から検索する検索部、
該検索部で検索された関係情報によって示される固有表現間の関係性をグラフィック表示する検索結果統合部として機能させる。
本発明にかかる第2のプログラムは、第1のプログラムにおいて、
前記関係情報が、関係のある固有表現と、固有表現間の関係内容とを含むことを特徴とする。
本発明にかかる第3のプログラムは、第2のプログラムにおいて、
前記関係解析部が、生成した関係情報に含まれている固有表現の表記の統一処理を行うことを特徴とする。
本発明にかかる第4のプログラムは、第2のプログラムにおいて、
前記検索結果統合部が、前記検索部で検索された各関係情報に主語あるいは目的語として含まれている固有表現をノードによって表し、固有表現間の関係を、ノードを接続するアークと関係内容を示す文字列とによって表したネットワーク図を表示することを特徴とする。
本発明にかかる第5のプログラムは、第4のプログラムにおいて、
前記検索結果統合部が、固有表現間の関係を、ノードを接続するアークと、関係内容を示す文字列と、前記関係内容を修飾する地理情報あるいは時間情報を示す文字列とによって表したネットワーク図を表示することを特徴とする。
本発明にかかる第6のプログラムは、第1のプログラムにおいて、
前記検索部が、検索した関係情報に含まれている固有表現に関連した検索キーを用いた関係情報の検索を、ユーザによって指定された階層数分行うことを特徴とする。
〔作用〕
検索対象になる文書の登録時、関係解析部が、上記文書に含まれている固有表現を抽出し、抽出した固有表現間の関係性を示す関係情報を生成し、登録部が、関係解析部で生成された関係情報を関係情報記憶部に登録しておく。なお、関係情報には、例えば、関係する固有表現と、その関係内容とが含まれている。
文書の検索時に、ユーザが検索キーを入力すると、検索部が上記検索キーに適合する関係情報を関係情報記憶部から検索し、検索結果統合部が、検索部で検索された関係情報によって示される固有表現間の関係性を、例えば、ネットワーク図などを用いてグラフィック表示する。
本発明によれば、ユーザが検索キーを入力した後、短時間で検索キーに関連する人物、組織、製品(固有表現によって表されている)などの関係性を認識することが可能になる。その理由は、文書の登録時に、上記文書に含まれる各固有表現間の関係性を示す関係情報を生成し、関係情報記憶部に登録しておくからである。即ち、本発明では、検索キーが入力された場合、検索キーに適合する関係情報を関係情報記憶部から検索し、検索された関係情報によって示される固有表現間の関係性をグラフィック表示する処理を行うだけで良いので、検索キーが入力されてから、検索キーに適合した各適合文書の現れる固有表現と適合文書群との関連度を計算する処理や、関連度が所定値以上の固有表現間の共起関係を求める処理を行わなければならなかった特許文献1に記載されている情報検索システムに比較して短時間で固有表現間の関係性をグラフィック表示することができ、その結果、ユーザは、短時間で検索キーに関連した人物、組織、製品などの関係性を認識することが可能になる。
更に、本発明によれば、検索キーに関連する人名、企業名、製品名などの関係性とその関係の内容をユーザが文書を読まずとも認識することが可能になる。その理由は、関係のある固有表現と、固有表現間の関係内容とを含む関係情報に基づいて、固有表現間の関係性をグラフィック表示するようにしているからである。
次に、本発明を実施するための最良の形態について図面を参照して詳細に説明する。
〔実施の形態の構成の説明〕
図1を参照すると、本発明にかかる情報検索システム100の実施の形態は、登録文書入力部1と、関係解析部2と、関係情報登録部3と、文書登録部4と、関係インデックス記憶装置5と、文書記憶装置6と、検索部7と、検索結果統合部8と、キーボード等の入力部9と、LCD等の表示部10とから構成されている。
登録文書入力部1は、検索対象となる自然言語で記述された文書を入力する機能を有する。
文書登録部4は、登録文書入力部1から入力された文書にユニークな文書IDを付与して文書記憶装置6に登録する機能や、上記文書に付与した文書IDを関係情報登録部3に通知する機能を有する。
関係解析部2は、登録文書入力部1から入力された文書を解析し、その文書に含まれている人名、組織名、製品名、地名、時間などといった固有表現間の関係性を示す関係情報を生成し、生成した関係情報を関係情報登録部3に渡す機能を有する。
図2を参照すると、図1に示す関係解析部2の詳細な構成例が示されており、自然言語解析部21と、固有表現抽出部22と、関係抽出部23と、表記統一部24とを備えている。
自然言語解析部21は、登録文書入力部1から入力された文書中の自然言語で記述された各文を解析し、文の係り受け構造の決定、指示代名詞・省略語の解決を行う。自然言語解析部21では、自然言語処理の基本解析である、形態素解析、構文解析、意味解析、文脈解析等を行う。各解析手法は、本発明と直接関係しないので、その詳細な構成は省略する。
固有表現抽出部22は、登録文書入力部1から入力された文書中の各文を解析し、固有表現を抽出する。固有表現抽出部22では、人手で作成した抽出規則、機械学習(最大エントロピー法、隠れマルコフモデル、サポートベクターマシン等) で作成した抽出規則等といった、任意の抽出規則を利用して固有表現を抽出する。固有表現抽出方法については、本発明とは直接関係しないので、その詳細な構成は省略する。
関係抽出部23は、自然言語解析部21によって与えられる、文の係り受け構造情報、具体的な語に置換・挿入された指示代名詞・省略語の情報と、固有表現抽出部22によって与えられる、文中の固有表現情報を用いて、固有表現間の関係性を示す関係情報を生成する。
表記統一部24は、関係抽出部23が生成した関係情報に含まれている固有表現の表記の統一処理を行う。より具体的には、時間を表す固有表現の統一処理や、同義語の統一処理を行う。ここで、時間を表す固有表現の統一処理としては、例えば、年月日を西暦に統一する処理などがある。また、同義語の統一処理としては、例えば、「JOC」などの略号を「日本オリンピック委員会」などの正式名称に統一する処理などがある。
図3に、固有表現間の関係性を示す関係情報を例示する。図3には3つの関係情報が例示されている。図3の例では、カテゴリ「地名」、「時間表現」に含まれる固有表現が抽出されていることを仮定して、その他のカテゴリの固有表現であるNamed_Entity1(主語となる固有表現)とNamed_Entity2(目的語となる固有表現)が動作関係を示すActionで関係することを示し、更に、Actionの動作日時がDatetime、動作場所がLocationであることを示している。抽出する関係の内容は、固有表現間の関係を表すものであれば、図3の形式に束縛されない。
再び、図1に戻り、関係情報登録部3は、関係解析部2から渡された関係情報と文書登録部4から渡された文書IDとを関係インデックス記憶装置5に登録する。
関係インデックス記憶装置5には、関係情報と、その関係情報を生成する際に使用した文書の文書IDとの対が登録されている。図4に関係インデックス記憶装置5の内容例を示す。同図の例の第1行目は、ビンセント・クラーク氏が、2004/04/01にNNA Org.に所属したことを示す関係情報を含むと共に、この関係情報が文書ID「ID1」の文書に基づいて生成されたことを示している。
文書記憶部6には、検索対象となる文書が複数登録されている。なお、各文書にはユニークな文書IDが付与されている。
検索部7は、入力部9から入力された検索キーに適合する関係情報と文書IDとの対を関係インデックス記憶装置5から検索する機能や、検索した各対に含まれている関係情報を検索結果統合部8に渡す機能や、検索した各対に含まれている文書IDのリストを表示部10に表示する機能を有している。更に、検索部7は、入力部9から入力された文書IDの文書を文書記憶装置6から検索して表示部10に表示する機能を有する。
検索結果統合部8は、検索部7から与えられた各関係情報(検索結果)を解析し、各関係情報によって示される固有表現間の関係性を表すネットワーク図を表示部10に表示する機能を有する。
なお、情報検索システム100は、コンピュータによって実現可能であり、コンピュータによって実現する場合は、例えば、次のようにする。コンピュータを情報検索システム100として機能させるためのプログラムを記録したディスク、半導体メモリ、その他の記録媒体を用意し、コンピュータに上記プログラムを読み取らせる。コンピュータは、読み取ったプログラムに従って自身の動作を制御することにより、自コンピュータ上に、関係解析部2、関係情報登録部3、文書登録部4、検索部7、及び検索結果統合部8を実現する。
〔実施の形態の動作の説明〕
次に、本実施の形態の動作について詳細に説明する。
〔文書登録時の動作〕
先ず、検索対象にする文書を登録する場合の動作を説明する。情報検索システム100の管理者は、検索対象にする文書を登録する場合、登録文書入力部1から文書を入力する。
これにより、文書登録部4は、図5のフローチャートに示すように、入力された文書にユニークな文書IDを付与して文書記憶装置6に登録し(ステップS51、S52)、その後、文書に付与した文書IDを関係情報登録部3に通知する(ステップS53)。
また、関係解析部2は、登録文書入力部1から文書が入力されると、図6のフローチャートに示すように、入力された文書中の1つの文に注目する(ステップS61)。その後、注目している文に含まれている人名、組織名、製品名、地名、日時といった固有表現どうしの間に存在する関係性を示す関係情報を生成し、更に、関係情報中の固有表現の表記の統一処理を行い、統一処理の済んだ関係情報を関係情報登録部3に渡す(ステップS63、S64)。図3に生成された関係情報の例を示す。図3では、1行に1つの関係情報を示しており、第1行目は「ABC Corp.(組織名)」から「ビンセント・クラーク氏(人名)」への関係として「2006/09/08(日時)」という時期に、「迎える」という関係があるということを表している。
関係解析部2は、未注目の文がなくなるまで、上述した処理を繰り返し行い、未注目の文がなくなると(ステップS62がYES)、関係情報登録部3に対して終了通知を送る(ステップS65)。
また、関係情報登録部3は、登録文書入力部1から文書が入力されると、図7のフローチャートに示すように、文書ID、終了通知あるいは関係情報が入力されるのを待つ(ステップS71〜S73)。
そして、文書登録部4から文書IDが入力された場合(ステップS71がYES)は、文書ID保持部(図示せず)に上記文書IDを格納し(ステップS76)、その後、ステップS71の処理に戻る。
また、関係解析部2から関係情報が渡された場合(ステップS73がYES)は、文書ID保持部に文書IDが保持されているか否かを調べる(ステップS74)。
そして、文書IDが保持されていない場合(ステップS74がNO)は、関係解析部2から入力された関係情報を関係情報保持部(図示せず)に格納し(ステップS77)、その後、ステップS71の処理に戻る。
これに対して、文書IDが保持されている場合(ステップS74がYES)は、関係解析部2から入力された関係情報と、文書ID保持部に保持されている文書IDとを関係インデックス記憶装置5に登録し(ステップS75)、再び、ステップS71の処理を行う。なお、ステップS75では、関係情報保持部に関係情報が保持されていれば、その関係情報も文書IDと共に関係インデックス記憶装置5に登録する。
また、関係解析部2から終了通知が入力された場合(ステップS72がYES)は、関係情報登録部3は、文書ID保持部に保持されている文書IDを削除した後(ステップS79)、処理を終了する。
以上の処理により、今回登録した文書に関する関係情報が関係インデックス記憶装置5に登録され、固有表現間の関係性を示す知識が更新される。今、例えば、関係インデックス記憶装置5の内容が図4に示すものであるとすると、関係インデックス記憶装置5に登録されている各関係情報によって表される固有表現間の関係性は、図8(A)に示すものとなる。なお、図8(A)では、ノード間の関係内容を示すアーク上の文字列は図示を省略している。その後、新たな文書の登録時に図3に示す3個の関係情報が関係インデックス記憶装置5に登録されたとすると、関係インデックス記憶装置5に登録されている各関係情報によって表される固有表現間の関係性は、図8(B)に示すものになる。
〔文書検索時の動作〕
次に、文書検索時の動作について説明する。
ユーザは、文書を検索する場合、入力部9から検索キーを入力する。検索キーの形式は任意のものとすることができるが、本実施の形態では、図9に示す形式の検索キーを使用する。図9を参照すると、本実施の形態の検索キーでは、検索対象にする固有表現のフレーズと、検索対象にする固有表現が属するカテゴリと、抽出対象とする関係動作の内容と、抽出対象にする固有表現のカテゴリと、抽出対象とする時期範囲とを指定できるようになっている。なお、各項目は、オア条件で複数の条件を指定できるようになっている。例えば、「2004/11/12〜2006/11/12」の期間中に、「人物(人名)」である「ビンセント・クラーク氏」と関係する「人物(人名)」と「組織(名)」の情報を得たい場合、図10に示すような条件を入力する。
検索部7は、入力部9から検索キーが入力されると、図11のフローチャートに示すように、検索キーに適合する全ての関係情報と文書IDとの対を関係インデックス記憶装置5から検索する(ステップS111)。その後、検索部7は、検索した文書IDのリストを表示部10のリスト表示用の領域に表示し、更に、検索した関係情報のリストを検索結果統合部8に渡す(ステップS112、S113)。
検索結果統合部8は、検索部7から関係情報のリストが渡されると、図12のフローチャートに示すように、リストに含まれている関係情報を解析し、関係情報によって示される固有表現間の関係性を示すネットワーク図を表示部10のネットワーク図表示領域に表示する(ステップS121、S122)。本実施の形態では、主語あるいは目的語となる固有表現をノード、固有表現間の動作関係(関係内容)をアーク(動作関係の内容を示す文字列を含む)とし、更に、動作関係を修飾する地理情報と時間情報を該当するアーク上に配置したネットワーク図を表示する。
今、例えば、検索部7から渡された関係情報のリストが図13に示すものであるとすると、検索結果統合部8は、図14に示すネットワーク図を表示部10に表示することになる。このようなネットワーク図を参照することにより、ユーザは、検索キーに関係する人物、組織などの関係性を容易に確認することが可能になる。
また、ユーザは、文書IDのリストに含まれている文書を参照する場合は、入力部9から参照したい文書の文書IDを入力する。検索部7は、文書IDが入力されると、図15のフローチャートに示すように、文書記憶装置6から上記文書IDの付与されている文書を検索し、表示部10に表示する(ステップS151、S152)。
〔実施の形態の効果〕
本実施の形態によれば、ユーザが検索キーを入力した後、短時間で検索キーに関連する人物、組織、製品(固有表現によって表されている)などの関係性を認識することが可能になる。その理由は、文書の登録時に、関係解析部2が、上記文書に含まれる各固有表現間の関係性を示す関係情報を生成し、関係情報登録部3が、関係解析部2によって生成された関係情報を関係インデックス記憶装置5に登録しておくからである。即ち、本実施の形態では、検索キーが入力された場合、検索部7が検索キーに適合する関係情報を関係インデックス記憶装置5から検索する処理を行い、検索結果統合部8が、検索された関係情報によって示される固有表現間の関係性をグラフィック表示する処理を行うだけで良いので、検索キーが入力されてから、検索キーに適合した各適合文書の現れる固有表現と適合文書群との関連度を計算する処理や、関連度が所定値以上の固有表現間の共起関係を求める処理を行わなければならなかった特許文献1に記載されている情報検索システムに比較して短時間で固有表現間の関係性をグラフィック表示することができ、その結果、ユーザは、短時間で検索キーに関連した人物、組織、製品などの関係性を認識することが可能になる。
更に、本実施の形態によれば、検索キーに関連する人名、企業名、製品名などの関係性とその関係の内容をユーザが文書を読まずとも認識することが可能になる。その理由は、関係のある固有表現と、固有表現間の関係内容とを含む関係情報に基づいて、固有表現間の関係性をグラフィック表示するようにしているからである。
また、本実施の形態では、関係解析部2が関係情報中の固有表現の表記の統一処理を行うので、文書中では異なる表現になっていた固有表現を関係付けることが可能になる。
〔他の実施の形態〕
なお、上述した実施の形態では、検索部7として、関係インデックス記憶装置5から検索キーに適合する関係情報と文書IDとの対を検索する、検索階層数が1階層の検索部を用いるようにしたが、その代わりに、ユーザによって指定された検索階層数分の検索を行う検索部を使用することもできる。即ち、ユーザによって入力部9から入力された検索キーを用いて第1階層の検索を行い、ユーザによって指定された階層数分の検索を行っていなければ、更に、第1階層で検索された関係情報に含まれている固有表現に関連した検索キーを用いて第2階層の検索を行うというように、ユーザによって指定された検索階層数分の検索を行うまで、検索を続ける検索部を使用するようにしても良い。
〔他の実施の形態の効果〕
本実施の形態では、ユーザによって指定された検索階層数分の検索を行う検索部を使用するので、ユーザが入力した検索キーに関連した固有表現間の関係性だけでなく、上記固有表現の関連した固有表現間の関係性もグラフィック表示することが可能になる。
本発明は、文書を検索する文書検索システムなどの情報検索システムに適用することができる。
本発明にかかる情報検索システムの実施の形態の構成例を示すブロック図である。 関係解析部2の構成例を示すブロック図である。 関係情報の一例を示す図である。 関係インデックス記憶装置5の内容例を示す図である。 文書登録部4の処理例を示すフローチャートである。 関係解析部2の処理例を示すフローチャートである。 関係情報登録部3の処理例を示すフローチャートである。 関係インデックス記憶装置5に関係情報が登録されることにより、固有表現間の関係性を表す知識が蓄積されることを示す図である。 検索キーの形式の一例を示す図である。 検索キーの具体例を示す図である。 検索キーが入力されたときの検索部7の処理例を示すフローチャートである。 検索結果統合部8の処理例を示すフローチャートである。 検索部7で検索された関係情報の一例を示す図である。 図13の関係情報によって示される固有表現間の関係性を表すネットワーク図である。 文書IDが入力されたときの検索部7の処理例を示す図である。
符号の説明
1…登録文書入力部
2…関係解析部
21…自然言語解析部
22…固有表現抽出部
23…関係抽出部
24…表記統一部
3…関係情報登録部
4…文書登録部
5…関係インデックス記憶装置
6…文書記憶装置
7…検索部
8…検索結果統合部
9…入力部
10…表示部
100…情報検索システム

Claims (18)

  1. 固有表現間の関係性を示す関係情報が登録される関係情報記憶部と、
    文書の登録時、前記文書に含まれている固有表現を抽出し、該抽出した固有表現間の関係性を示す関係情報を生成する関係解析部と、
    該関係解析部で生成された関係情報を前記関係情報記憶部に登録する登録部と、
    検索キーに適合する関係情報を前記関係情報記憶部から検索する検索部と、
    該検索部で検索された関係情報によって示される固有表現間の関係性をグラフィック表示する検索結果統合部とを備えたことを特徴とする情報検索システム。
  2. 請求項1記載の情報検索システムにおいて、
    前記関係情報が、関係のある固有表現と、固有表現間の関係内容とを含むことを特徴とする情報検索システム。
  3. 請求項2記載の情報検索システムにおいて、
    前記関係解析部が、生成した関係情報に含まれている固有表現の表記の統一処理を行うことを特徴とする情報検索システム。
  4. 請求項2記載の情報検索システムにおいて、
    前記検索結果統合部が、前記検索部で検索された各関係情報に主語あるいは目的語として含まれている固有表現をノードによって表し、固有表現間の関係を、ノードを接続するアークと関係内容を示す文字列とによって表したネットワーク図を表示することを特徴とする情報検索システム。
  5. 請求項4記載の情報検索システムにおいて、
    前記検索結果統合部が、固有表現間の関係を、ノードを接続するアークと、関係内容を示す文字列と、前記関係内容を修飾する地理情報あるいは時間情報を示す文字列とによって表したネットワーク図を表示することを特徴とする情報検索システム。
  6. 請求項1記載の情報検索システムにおいて、
    前記検索部が、検索した関係情報に含まれている固有表現に関連した検索キーを用いた関係情報の検索を、ユーザによって指定された階層数分行うことを特徴とする情報検索システム。
  7. コンピュータを利用して情報を検索する方法であって、
    前記コンピュータが、文書の登録時、前記文書に含まれている固有表現を抽出する抽出ステップと、
    前記コンピュータが、前記抽出ステップで抽出された固有表現間の関係性を示す関係情報を生成する関係情報生成ステップと、
    前記コンピュータが、前記関係情報生成ステップで生成された関係情報を関係情報記憶部に登録する登録ステップと、
    前記コンピュータが、検索キーに適合する関係情報を前記関係情報記憶部から検索する検索ステップと、
    前記コンピュータが、前記検索ステップで検索された関係情報によって示される固有表現間の関係性をグラフィック表示する表示ステップとを含むことを特徴とする情報検索方法。
  8. 請求項7記載の情報検索方法において、
    前記関係情報が、関係のある固有表現と、固有表現間の関係内容とを含むことを特徴とする情報検索方法。
  9. 請求項8記載の情報検索方法において、
    前記関係情報生成ステップでは、生成した関係情報に含まれている固有表現の表記の統一処理を行うことを特徴とする情報検索方法。
  10. 請求項8記載の情報検索方法において、
    前記表示ステップでは、前記検索ステップで検索された各関係情報に主語あるいは目的語として含まれている固有表現をノードによって表し、固有表現間の関係を、ノードを接続するアークと関係内容を示す文字列とによって表したネットワーク図を表示することを特徴とする情報検索方法。
  11. 請求項10記載の情報検索方法において、
    前記表示ステップでは、固有表現間の関係を、ノードを接続するアークと、関係内容を示す文字列と、前記関係内容を修飾する地理情報あるいは時間情報を示す文字列とによって表したネットワーク図を表示することを特徴とする情報検索方法。
  12. 請求項7記載の情報検索方法において、
    前記検索ステップでは、検索した関係情報に含まれている固有表現に関連した検索キーを用いた関係情報の検索を、ユーザによって指定された階層数分行うことを特徴とする情報検索方法。
  13. 固有表現間の関係性を示す関係情報が登録される関係情報記憶部を備えたコンピュータを、
    文書の登録時、前記文書に含まれている固有表現を抽出し、該抽出した固有表現間の関係性を示す関係情報を生成する関係解析部、
    該関係解析部で生成された関係情報を前記関係情報記憶部に登録する登録部、
    検索キーに適合する関係情報を前記関係情報記憶部から検索する検索部、
    該検索部で検索された関係情報によって示される固有表現間の関係性をグラフィック表示する検索結果統合部として機能させるためのプログラム。
  14. 請求項13記載のプログラムにおいて、
    前記関係情報が、関係のある固有表現と、固有表現間の関係内容とを含むことを特徴とするプログラム。
  15. 請求項14記載のプログラムにおいて、
    前記関係解析部が、生成した関係情報に含まれている固有表現の表記の統一処理を行うことを特徴とするプログラム。
  16. 請求項14記載のプログラムにおいて、
    前記検索結果統合部が、前記検索部で検索された各関係情報に主語あるいは目的語として含まれている固有表現をノードによって表し、固有表現間の関係を、ノードを接続するアークと関係内容を示す文字列とによって表したネットワーク図を表示することを特徴とするプログラム。
  17. 請求項16記載のプログラムにおいて、
    前記検索結果統合部が、固有表現間の関係を、ノードを接続するアークと、関係内容を示す文字列と、前記関係内容を修飾する地理情報あるいは時間情報を示す文字列とによって表したネットワーク図を表示することを特徴とするプログラム。
  18. 請求項13記載のプログラムにおいて、
    前記検索部が、検索した関係情報に含まれている固有表現に関連した検索キーを用いた関係情報の検索を、ユーザによって指定された階層数分行うことを特徴とするプログラム。
JP2007002278A 2007-01-10 2007-01-10 情報検索システム及び情報検索方法並びにプログラム Pending JP2008171109A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007002278A JP2008171109A (ja) 2007-01-10 2007-01-10 情報検索システム及び情報検索方法並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007002278A JP2008171109A (ja) 2007-01-10 2007-01-10 情報検索システム及び情報検索方法並びにプログラム

Publications (1)

Publication Number Publication Date
JP2008171109A true JP2008171109A (ja) 2008-07-24

Family

ID=39699156

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007002278A Pending JP2008171109A (ja) 2007-01-10 2007-01-10 情報検索システム及び情報検索方法並びにプログラム

Country Status (1)

Country Link
JP (1) JP2008171109A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008225566A (ja) * 2007-03-08 2008-09-25 Nippon Telegr & Teleph Corp <Ntt> 関係情報抽出装置及びその方法
JP2010217973A (ja) * 2009-03-13 2010-09-30 Toshiba Corp メンバキーワード関係表示装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233730A (ja) * 1992-02-18 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 関係情報抽出・表示装置
JP2004110386A (ja) * 2002-09-18 2004-04-08 Nri & Ncc Co Ltd 連想検索システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05233730A (ja) * 1992-02-18 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 関係情報抽出・表示装置
JP2004110386A (ja) * 2002-09-18 2004-04-08 Nri & Ncc Co Ltd 連想検索システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008225566A (ja) * 2007-03-08 2008-09-25 Nippon Telegr & Teleph Corp <Ntt> 関係情報抽出装置及びその方法
JP2010217973A (ja) * 2009-03-13 2010-09-30 Toshiba Corp メンバキーワード関係表示装置

Similar Documents

Publication Publication Date Title
Welbers et al. Text analysis in R
Uma et al. Formation of SQL from natural language query using NLP
US9563656B2 (en) Method and system to guide formulations of questions for digital investigation activities
Yosef et al. Aida: An online tool for accurate disambiguation of named entities in text and tables
JP5229226B2 (ja) 情報共有システム、情報共有方法、および情報共有プログラム
JP2006293731A (ja) 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JPWO2005029379A1 (ja) 情報処理装置及び情報処理方法
JP2011108085A (ja) 知識構築装置およびプログラム
CN101350027A (zh) 内容检索设备和内容检索方法
Golpar-Rabooki et al. Feature extraction in opinion mining through Persian reviews
Vintar et al. Framing karstology: From definitions to knowledge structures and automatic frame population
Byrne et al. Automatic extraction of archaeological events from text
WO2021049485A1 (ja) 法律分析装置、及び法律分析方法
JP2004133564A (ja) 文書検索装置
JP2005063185A (ja) 文書検索システム、質問応答システム、文書検索方法
JP2008171109A (ja) 情報検索システム及び情報検索方法並びにプログラム
Maynard et al. Adapting a robust multi-genre NE system for automatic content extraction
Khan et al. Keyword Extraction for Medium‐Sized Documents Using Corpus‐Based Contextual Semantic Smoothing
Paris et al. Linking spatial named entities to the Web of data for geographical analysis of historical texts
JP2005190100A (ja) 質問応答システムおよび方法
Kashyap et al. Insights on Hindi WordNet coming from the IndoWordNet
JP4155970B2 (ja) 情報処理装置、同義語データベース生成方法、同義語データベース生成プログラム
CN111723211B (zh) 一种信息处理方法、装置、电子设备及计算机存储介质
JP2002140338A (ja) 辞書構築支援装置および辞書構築支援方法
JPWO2008114316A1 (ja) 電子文書管理装置及び電子文書管理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090415

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090909

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090909

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110426

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110620

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120207