JP2006227823A - 情報処理装置及びその制御方法 - Google Patents
情報処理装置及びその制御方法 Download PDFInfo
- Publication number
- JP2006227823A JP2006227823A JP2005039525A JP2005039525A JP2006227823A JP 2006227823 A JP2006227823 A JP 2006227823A JP 2005039525 A JP2005039525 A JP 2005039525A JP 2005039525 A JP2005039525 A JP 2005039525A JP 2006227823 A JP2006227823 A JP 2006227823A
- Authority
- JP
- Japan
- Prior art keywords
- search
- information
- document
- query
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 124
- 239000013598 vector Substances 0.000 claims description 52
- 230000010365 information processing Effects 0.000 claims description 41
- 238000000605 extraction Methods 0.000 claims description 27
- 230000002035 prolonged effect Effects 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 33
- 238000010586 diagram Methods 0.000 description 18
- 238000011156 evaluation Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 8
- 230000000877 morphologic effect Effects 0.000 description 6
- 241001672694 Citrus reticulata Species 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 230000037213 diet Effects 0.000 description 4
- 235000005911 diet Nutrition 0.000 description 4
- 239000002245 particle Substances 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007639 printing Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 大量の文書を対象にして高度な検索を実行すると、検索時間が長くなる。
【解決手段】 クエリーを入力し(S71)、そのクエリー文字列をカテゴリに分類する(S73)。その分類されたカテゴリに対応するカテゴリ情報を有する情報を検索対象として抽出し(S74)、その抽出した情報を検索対象として、クエリー文字列に基づく検索処理を実行する(S75)。
【選択図】 図10
【解決手段】 クエリーを入力し(S71)、そのクエリー文字列をカテゴリに分類する(S73)。その分類されたカテゴリに対応するカテゴリ情報を有する情報を検索対象として抽出し(S74)、その抽出した情報を検索対象として、クエリー文字列に基づく検索処理を実行する(S75)。
【選択図】 図10
Description
本発明は、文字列を含む情報に基づいて情報を検索する情報処理装置及びその制御方法に関するものである。
近年、ストレージデバイスの大容量化に伴って大量の文書等を蓄積したデータベースが一般的となり、これら大量の文書の中から所望の文書を検索する技術が重要になってきている。これは単純なキーワード検索(キーワードを指示し、それが出現するか否かで文書を検索する)だけでは、ユーザの要求を十分に満たさなくなってきているためである。そこで文書の検索方法として、キーワードとの関係や構文情報の類似度を用いる方法、文書の内容を特徴付ける文書ベクトルを用いる方法等が新たに提案されている。更には、文書の内容を特徴付ける意味、分野、単語そのものを次元として、その特徴量でベクトル表現し、文書ベクトル間の内積等の値を用いて文書間の類似度を求める方法も提案されている。
また、ディレクトリ検索や文書管理を目的として、検索対象の文書をデータベースに登録する際に、手動或は自動で、その文書をいくつかのカテゴリに分類して登録する方法も提案されている。
またキーワードによる検索時、更に、そのキーワードを、それに関連する単語に展開して検索することは、検索漏れを少なくするための手法として有効である。このための最も単純な手法としては、対象となる単語に対する展開語辞書を参照し、その辞書に格納されている展開語を、新たなキーワードとして加えることによって、その検索用のキーワードを拡張して検索していた。例えば、キーワード「警官」を展開するために展開語辞書を参照して「警官」の見出しを参照して求めると、例えば、展開レベル1では、検索キーワードとして「警察官」「巡査」等が見出せる。また展開レベル2では、「警察」「刑事」が展開語として見出せる。
特許文献1は、ニューラルネットワークを使用して、単語を関連語に展開する技術を記載している。この例では『「みかん」AND「冬」』の検索条件が入力された場合、「みかん」と「冬」を単語展開用のニューラルネットワークによってそれぞれ関連語に展開する。更に、この例では、「みかん」に対して強い関連度として、「静岡」「りんご」「こたつ」、弱い関連度で「猫」が得られる。また「冬」の関連語として、強い関連度で「こたつ」「猫」、弱い関連度で「りんご」「静岡」が取り出される。こうして最終的に、「みかん」と「冬」の両方の単語に対して関連度が高い「こたつ」が得られ、その他の単語「猫」「りんご」「静岡」は弱い関連語として得られる。そして検索時には、最初に入力したキーワード(「みかん」「冬」)に加えて、新たなキーワード(「こたつ」「猫」「りんご」「静岡」)を用いた検索が行われる。
また特許文献2には、入力された検索条件を、その意味に応じて変更する技術が開示されている。例えばキーワード「株式会社○○建設」を入力した場合、形態素解析によって「株式会社」「○○」「建設」に分割し、並び替えの規則パターンや言い換えパターンに従って、「○○建設株式会社」「(株)○○建設」「○○建設(株)」「○○建設」というように、元のキーワードを展開した別のキーワードを用いて検索することが記載されている。
特開平5−135110号公報
特開平10−207896号公報
しかしながら、上記従来の情報検索装置では、次のような問題点があった。
大量の文書を対象にして高度な検索を実行すると、検索時間が長くなる。
また従来のキーワードの展開処理では、キーワードに対しての見出しを持ち、見出しに対する展開語を取得して展開処理していた。しかしながら、同じ表現であっても異なる意味を持つ単語があるために、そのような単語の多義性に対応した単語展開を行なうことはできなかった。例えば「DV」には「デジタルビデオ」と「ドメスティックバイオレンス」などの意味が存在するため、「DV」を単語展開した場合、「デジタルビデオ」と「ドメスティックバイオレンス」に展開されてしまう。このため、本来、オーディオ機器に関連した文書を検索したい場合でも、「ドメスティックバイオレンス」が含まれる文書が検索されてしまい、検索結果として多くの不要な文書が含まれることになる。そのため、上述した単語展開を行なうことにより検索漏れは防止できるが、検索精度を向上させるには不十分であった。
本発明は、上記従来技術の欠点を解決することにある。
また本願発明の特徴は、短時間で高精度な検索結果を得ることができる情報処理装置及びその制御方法を提供することにある。
上記特徴は、独立クレームに記載の特徴の組み合わせにより達成され、従属項は発明の単なる有利な具体例を規定するものである。
本発明の一態様に係る情報処理装置は以下のような構成を備える。即ち、
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置であって、
クエリー文字列を入力する入力手段と、
前記入力手段により入力された前記クエリー文字列を1つ又は複数のカテゴリに分類するクエリー分類手段と、
前記クエリー分類手段により分類された前記カテゴリに対応するカテゴリ情報を有する情報を検索対象として抽出する抽出手段と、
前記抽出手段で抽出された情報を検索対象として、前記入力手段により入力された前記クエリー文字列に基づく検索処理を実行する検索手段と、
前記検索手段による検索結果を表示する表示手段と、
を有することを特徴とする。
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置であって、
クエリー文字列を入力する入力手段と、
前記入力手段により入力された前記クエリー文字列を1つ又は複数のカテゴリに分類するクエリー分類手段と、
前記クエリー分類手段により分類された前記カテゴリに対応するカテゴリ情報を有する情報を検索対象として抽出する抽出手段と、
前記抽出手段で抽出された情報を検索対象として、前記入力手段により入力された前記クエリー文字列に基づく検索処理を実行する検索手段と、
前記検索手段による検索結果を表示する表示手段と、
を有することを特徴とする。
本発明の一態様に係る情報処理装置は以下のような構成を備える。即ち、
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置であって、
クエリー文字列を入力する入力手段と、
前記入力手段により入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列を抽出する抽出手段と、
前記キーワードとなる文字列に関連する展開文字列と当該展開文字列のカテゴリとを取得する取得手段と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索して検索候補を抽出する候補検索手段と、
前記候補検索手段により検索された文書の内、前記展開文字列のカテゴリと一致するカテゴリ情報を有する文書を検索結果とする検索手段と、
を有することを特徴とする。
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置であって、
クエリー文字列を入力する入力手段と、
前記入力手段により入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列を抽出する抽出手段と、
前記キーワードとなる文字列に関連する展開文字列と当該展開文字列のカテゴリとを取得する取得手段と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索して検索候補を抽出する候補検索手段と、
前記候補検索手段により検索された文書の内、前記展開文字列のカテゴリと一致するカテゴリ情報を有する文書を検索結果とする検索手段と、
を有することを特徴とする。
本発明の一態様に係る情報処理装置の制御方法は以下のような工程を備える。即ち、
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置の制御方法であって、
クエリー文字列を入力する入力工程と、
前記入力工程で入力された前記クエリー文字列を1つ又は複数のカテゴリに分類するクエリー分類工程と、
前記クエリー分類工程で分類された前記カテゴリに対応するカテゴリ情報を有する情報を検索対象として抽出する抽出工程と、
前記抽出工程で抽出された情報を検索対象として、前記入力工程により入力された前記クエリー文字列に基づく検索処理を実行する検索工程と、
前記検索工程での検索結果を表示する表示工程と、
を有することを特徴とする。
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置の制御方法であって、
クエリー文字列を入力する入力工程と、
前記入力工程で入力された前記クエリー文字列を1つ又は複数のカテゴリに分類するクエリー分類工程と、
前記クエリー分類工程で分類された前記カテゴリに対応するカテゴリ情報を有する情報を検索対象として抽出する抽出工程と、
前記抽出工程で抽出された情報を検索対象として、前記入力工程により入力された前記クエリー文字列に基づく検索処理を実行する検索工程と、
前記検索工程での検索結果を表示する表示工程と、
を有することを特徴とする。
本発明の一態様に係る情報処理装置の制御方法は以下のような工程を備える。即ち、
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置の制御方法であって、
クエリー文字列を入力する入力工程と、
前記入力工程で入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列を抽出する抽出工程と、
前記キーワードとなる文字列に関連する展開文字列と当該展開文字列のカテゴリとを取得する取得工程と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索して検索候補を抽出する候補検索工程と、
前記候補検索工程で検索された文書の内、前記展開文字列のカテゴリと一致するカテゴリ情報を有する文書を検索結果とする検索工程と、
を有することを特徴とする。
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置の制御方法であって、
クエリー文字列を入力する入力工程と、
前記入力工程で入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列を抽出する抽出工程と、
前記キーワードとなる文字列に関連する展開文字列と当該展開文字列のカテゴリとを取得する取得工程と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索して検索候補を抽出する候補検索工程と、
前記候補検索工程で検索された文書の内、前記展開文字列のカテゴリと一致するカテゴリ情報を有する文書を検索結果とする検索工程と、
を有することを特徴とする。
尚、この発明の概要は、必要な特徴を全て列挙しているものでなく、よって、これら特徴群のサブコンビネーションも発明になり得る。
本発明によれば、文字列を含むクエリーから高速かつ高精度の検索が可能となる。これにより、ユーザの操作性を大幅に向上させ、目的の情報を効率良く取り出せるという効果がある。
以下、添付図面を参照して本発明の好適な実施の形態を詳しく説明する。尚、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また本実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。
[実施の形態1]
図1は、本発明の実施の形態に係る情報検索装置(例えば、パーソナルコンピュータ(PC))の概略構成を示すブロック図である。
図1は、本発明の実施の形態に係る情報検索装置(例えば、パーソナルコンピュータ(PC))の概略構成を示すブロック図である。
この情報検索装置は、プログラムに従って処理を実行する中央処理部(CPU)1と、検索対象となる文書やアノテーション付き画像等のほか、プログラムや辞書を格納しているデータベース等の記憶部(RAM及びハードディスクなどの大容量記憶装置を含む)2と、ユーザにより操作されて各種データやコマンドを入力するためのキーボードやマウス等の入力部3と、検索結果を表示する表示部4と、FD(フロッピー(登録商標)ディスク),CD−ROM,DVD及び磁気テープ等の記憶媒体に記憶されたプログラムやデータ等を読み取って記憶部2に記憶する記憶媒体読取部5とを有している。
<検索動作の概要説明>
次に、本実施の形態に係る情報検索装置による検索動作の概要を説明する。
次に、本実施の形態に係る情報検索装置による検索動作の概要を説明する。
図2は、本発明の実施の形態1に係る情報検索装置による文書等の自動分類登録処理を示すフローチャートで、この処理を実行するプログラムは記憶部2に記憶されて中央処理部1の制御の下に実行される。この処理は文書の登録時に、その文書がどのような分野に関連した文書であるかを判定して、その文書と共にその分類情報を登録するための処理を示している。
まずステップS1で、登録対象である文書などの登録対象データを取得する。次にステップS2で、その登録対象データの言語を解析し、そのれに含まれる単語等の解析データを作成する。次にステップS3で、その解析データに基づいて、その登録対象データを分類する。こうして分類した結果に基づいて、その登録先を決定する(ステップS4)。そしてステップS5で、ステップS4で決定された登録先に、その登録対象データ(ここでは文書)を登録する。
次にステップS3の登録対象データの分類処理の詳細について説明する。この登録対象データの分類の一例として、ベクトルを利用した自動分類の場合で説明する。登録対象データを分類するに当たり、予め分類するカテゴリの文書から有効語辞書と基底語辞書を作成する。
次に図3のフローチャートを参照して、有効語の抽出処理を説明する。ここではデータベースに複数の文書が記憶されている状態で、これら複数の文書から、それら文書に含まれている有効語を抽出している。
図3は、本実施の形態に係る情報検索装置における、データベースに記憶されている複数の文書から単語を抽出し、それが有効語かどうかを判定して登録する処理を説明するフローチャートで、この処理を実行するプログラムは記憶部2に記憶されて中央処理部1の制御の下に実行される。
まずステップS11で、データベースに保持された全ての文書データの形態素を解析して単語を抽出する。次にステップS12で、その抽出した単語を単語リストとして記憶部2に保持する。次にステップS13で、その単語リストから任意の単語を取り出す。次にステップS14で、この単語の文書分類のための有効度を計算する。ここでは、あるカテゴリに属する文書の中で、この単語を含む文書の割合を計算する。こうして全てのカテゴリについて正規化する。尚、ここでカテゴリによって、その単語を含む文書の割合に差がある場合は、その単語は、その割合の高いカテゴリを特徴付けると考えられ、分類のために有効な単語と言える。
一方、その単語を含む文書の割合がカテゴリによって差がない場合は、逆に分類にとって有効でないと考えられる。このような分布の偏りを評価するために、エントロピーを計算する。ここで、エントロピーは、分布の偏りが大きい(分類に有効)ほど小さい値となり、偏りが小さい(分類に有効でない)ほど大きい値をとる。有効度は、「1−エントロピー」と定義する。
従って、ステップS15で、その求めた有効度が閾値より大きいか否かを判別する。有効度が閾値より小さい(分類に有効)と判断するとステップS16に進み、その単語を有効語とみなし、有効語辞書に登録してステップS17に進む。一方、有効度が閾値以上(分類に有効でない)の場合はステップS16の有効語辞書(記憶部2に設けられる)への登録処理をスキップしてステップS17に進み、その判定が済んだ単語を単語リストから削除する。尚、本実施の形態では、閾値の値を適切に設定して、文書の分類を有効に行える範囲で極力多数の有効語を抽出して有効語辞書に登録するようにしている。
そしてステップS18で、単語リストが空であるか否か(全ての単語に対する判定が終了したか)を判別し、空でなければステップS13に戻って、次の単語について同様の処理を行い、単語リストが空になると、この有効語の抽出処理を終了する。尚、この処理は手動で行うこともできる。
次に、基底語の抽出処理を説明する。基底語としては、それぞれが分類のための有効度が高いものであると同時に、お互いに相関の低い組合わせであることが望ましい。例えば、「為替」「最高値」「景気」「財テク」「インフレ」…などが有効語として有効語辞書に登録されていたとする。これらは、それぞれ「経済」というカテゴリをよく特徴付ける単語といえる。しかし「為替」と「最高値」は同じ文書内によく現れるので、この両方を基底語として採用するのは冗長である。むしろ、「為替」「財テク」「インフレ」等を基底語として選択し、有効語辞書において「最高値」と「為替」の相関情報を付与する形にした方がよい。
このような考えに基づいた基底語の抽出処理を図4に示すフローチャートを参照して説明する。
図4は、本実施の形態に係る情報検索装置における基底語の抽出処理を示すフローチャートで、この処理を実行するプログラムは記憶部2に記憶されて中央処理部1の制御の下に実行される。
この基底語の抽出処理において、まずステップS21で、有効語辞書に登録された単語(有効語)同士の共起確率を文書データベースに保持された文書から計算する。単語Wの単語W’に対する共起確率は、(WとW’を同時に含む文書の数)/(Wを含む文書の数)で求められる。次にステップS22で、初期設定として、その選択された基底語を保持する基底語リスト(記憶部2)、基底語の候補を保持する基底語候補リスト(記憶部2)をそれぞれ空にし、選択された基底語数n(記憶部2)を「0」とする。そしてステップS23で、有効語辞書に登録されている単語の内、基底語リストBに保持されている単語を除く全ての単語を基底語候補として基底語候補リストに保持すると共に、基底語の評価値の最大値を「0」に初期化する。そしてステップS24で、基底語候補リストから任意の単語Wを取り出し、この単語Wの基底語としての評価値を計算する(ステップS25)。
この評価値は、次のようにして求める。選択された基底語リストが、まだ空のときは、評価値は有効度とする。既に基底語が選択されている場合は、単語の基底語しての評価値は、単語自身の文書分類のための有効度が高いほど高くなり、基底語との相関が高いほど低くなる
次にステップS26で、ステップS25で計算された評価値が最大値より大きいか否かを判別し、大きければステップS27に進み、次の基底語候補に単語をセットし、最大値を単語の評価値に更新してステップS28に進む。一方、評価値が最大値以下であればステップS27の処理をスキップして、ステップS28に進む。ステップS28では、基底語候補リストから、その判定済の単語を削除する。そしてステップS29で、基底語候補リストが空になったか(全ての基底語候補の有効度計算が終了したか)否かを調べ、空でなければステップS24へ戻って、残りの有効語(基底語候補)について同じ評価を行う。ステップS29で、基底語候補リストが空になるとステップS30に進み、基底語候補を基底語リストに加え、基底語数を1つインクリメントする。そしてステップS31で、基底語数がユーザが予め設定した数に達したか否かを調べ、達していなければステップS23に戻って、次の基底語候補を選択する。こすいて基底語の数が設定数に達したら、この基底語抽出処理を完了する。
次にステップS26で、ステップS25で計算された評価値が最大値より大きいか否かを判別し、大きければステップS27に進み、次の基底語候補に単語をセットし、最大値を単語の評価値に更新してステップS28に進む。一方、評価値が最大値以下であればステップS27の処理をスキップして、ステップS28に進む。ステップS28では、基底語候補リストから、その判定済の単語を削除する。そしてステップS29で、基底語候補リストが空になったか(全ての基底語候補の有効度計算が終了したか)否かを調べ、空でなければステップS24へ戻って、残りの有効語(基底語候補)について同じ評価を行う。ステップS29で、基底語候補リストが空になるとステップS30に進み、基底語候補を基底語リストに加え、基底語数を1つインクリメントする。そしてステップS31で、基底語数がユーザが予め設定した数に達したか否かを調べ、達していなければステップS23に戻って、次の基底語候補を選択する。こすいて基底語の数が設定数に達したら、この基底語抽出処理を完了する。
このようにして抽出された基底語と有効語辞書に登録された各単語との相関情報を有効語辞書に登録する。これは、有効語辞書中の各単語に対し、単語の基底語に対する共起確率を記述することによって行う。また、同義語辞書を用いて、同義の有効語には同じ相関情報を付与するようにする。これも手動で事前に処理することも可能である。
図5に示すフローチャートを参照して、ベクトル表現処理を説明する。このベクトル表現処理により作成されたベクトルにより分類カテゴリが決定される。
図5は、本実施の形態に係る情報検索装置におけるベクトル表現処理を説明するフローチャートで、この処理を実行するプログラムは記憶部2に記憶されて中央処理部1の制御の下に実行される。
まずステップS41で、ベクトルを初期化する。次にステップS42で、対象とする文書を形態素解析し、ステップS43で、その文書に含まれる単語と、その頻度の組からなる単語リストを記憶部2に作成する。そしてステップS44で、その単語リストから任意の1つ単語と、その頻度の組を取り出す。次にステップS45で、その単語を、図3のフローチャートに従って作成した有効語辞書で引いて、ステップS46で、その単語が有効語辞書に登録されているか否かを調べる。ここで登録されていなければステップS44へ戻る。一方、その単語が有効語辞書に登録されていればステップS47に進み、その有効語辞書を基に、単語のベクトル表現を生成し、そのベクトルを更新する(ステップS48)。そしてステップS49で、その組合せを単語リストから削除してステップS50で、単語リストが空になったか(ステップS43で抽出した全ての単語の処理が完了したか)否かを調べる。空でなければステップS44に戻って、次の単語について同様の処理を行う。単語リストが空であれば処理を終了する。
このようにして、有効語辞書を用いて、文書の内容をベクトルで表現することができる。即ち、まず分類に有効な有効語をできる限り多く有効語辞書に登録する。そしてこの中から、文書を表現するベクトル空間の軸となる基底語をなるべく少数抽出する。そして、これら基底語と有効語辞書に登録された各有効語との相関情報を有効語辞書に持たせる。これにより分類対象として入力された文書に含まれる単語が、辞書登録した有効語のいずれかに一致する確率を高めると共に、有効語と基底語の相関情報を基に、文書を少ない次元のベクトルとして表現することにより、ベクトル空間上での処理コストを低くするようにしている。
尚、本発明は上記実施の形態に限定されることなく、例えば、上記のように文書から単語を抽出するときに形態素解析を用いることなく、字種切りなどの方法を用いて単語抽出における処理速度を上げるようにしてもよい。また、上記実施の形態では、単語の分類のための有効度を評価するのに、エントロピー計算を利用したが、分布の偏りを評価できるものであれば、他の評価関数を用いてもよい。
更に、基底語の評価関数は、上記実施の形態に示したものに限定されず、その単語自身のための有効度と、基底語同士の相関を考慮したものであれば、他の評価関数を用いてもよい。
また上記実施の形態では、有効語辞書に、辞書中の各単語それぞれに、全ての基底語との相関情報を付与するものとしたが、相関の高い上位いくつかの基底語との相関情報のみを付与して、有効語辞書の規模を削減するようにしてもよい。また単純な分野辞書、同義語辞書、共起辞書などによる分類でもよい。検索データの登録は検索方法に合せて必要なデータを登録する。
図6は、本実施の形態に係る情報検索装置における概念検索のための登録処理を示すフローチャートで、この処理を実行するプログラムは記憶部2に記憶されて中央処理部1の制御の下に実行される。
この概念検索登録処理は、ステップS61の言語解析結果取得処理と、ステップS62の文書ベクトル生成処理と、ステップS63のインデックス登録処理とで構成されている。
図6において、文書は登録される段階で、まずステップS61で、言語解析の結果を取得し、その文書に含まれる単語を取得する。次にステップS62で、文書ベクトルを生成し、その文書内に出現する単語から、基本ベクトル辞書を用いて文書ベクトルを算出する。
図7は、この基本ベクトル辞書の構成を示す図で、記憶部2に記憶されている。
図に示すように、この基本ベクトル辞書は、単語毎にベクトル表現時のそれぞれの次元(Dim.)に対応した特徴量を格納している。次元は、その単語本来の意味によって分類された基準や、その単語の使用分野に応じて分類された基準等が採用される。「単語1」の次元01(「Dim.01」)の特徴量は「0」であり、次元02(「Dim.02」)の特徴量は「23」であることが分かる。
このように、この基本ベクトル辞書から、1つの単語におけるそれぞれの次元(Dim.)の特徴量を得ることが可能となる。この特徴量は、その単語が使用されることにより、その文書がその分類基準(=次元)をどれぐらい特徴付ける可能性があるかを示す値と解釈できる。文書を構成する全ての単語から得られた分類基準別(次元別)の特徴量から、その文書全体の特徴量が分類基準を次元とするベクトルで表現される。こうして得られたベクトルをノルム=1で正規化した値を文書ベクトルとして格納する。
その後のインデックス登録処理(ステップS63)では、文書ベクトルを図8に示すようなインデックスに格納する。「文書ID=6947」の文書ベクトルの「Dim.01」の特徴量は、「183」であり、「Dim.02」の特徴量は、「0.214」であることが分かる。
次に図9は、検索対象となる複数の文書が4つのカテゴリ(ここでは「スポーツ」「政治」「経済」「環境」)に分類されている例を示す図である。
図10は、本実施の形態に係る情報検索装置における検索処理を説明するフローチャートで、この処理を実行するプログラムは記憶部2に記憶されて中央処理部1の制御の下に実行される。
まずステップS71で、入力部3により入力されるクエリー(検索データ)を取得し、次にステップS72で、その取得したクエリーの言語解析を行う。次にステップS73で、その取得したクエリーの言語解析の結果を基に、そのクエリーを分類する。このステップS73の分類の結果に基づいて、ステップS74で、検索する対象の文書のカテゴリを決定する。そしてステップS75で、ステップS74で決定した検索対象(カテゴリ)の文書を検索する。そしてステップS76で、この検索処理による検索結果リストを表示部4に一致度の高い順に一覧表示する。
図11は、図10のステップS75の検索処理にフレーズ検索を適用した場合の詳細化したフローチャートである。
このフレーズ検索は、ステップS81のクエリーに含まれる単語の取得処理と、ステップS82のクエリーに含まれる単語間の関係を取得する処理と、ステップS83の類似度の算出処理とで構成されている。
ステップS81のクエリーに含まれる単語の取得処理では、ステップS42(図5)の形態素の解析結果からクエリーに含まれる単語を取得する。次にステップS82のクエリーに含まれる単語間の関係取得処理は、ステップS42(図5)での形態素の解析結果から、クエリーに含まれる単語の構文情報を取得する処理である。またステップS83の類似度の算出処理は、ステップS81とステップS82で取得したクエリーに含まれる単語とその単語間の関係と、文書に含まれる単語と、その単語間の関係を比較して、そのクエリーと文書中の文との類似度を算出する処理である。
図12は、図10のステップS75の検索処理に概念検索を適用した場合の詳細化したフローチャートである。
この概念検索は、ステップS91のクエリーの言語解析の結果を取得する処理と、ステップS92のクエリーベクトルの生成処理と、ステップS93の類似度の算出処理とから構成される。
ここで、ステップS91のクエリーの言語解析結果の取得処理は、ステップS72(図10)で生成したクエリーの言語解析の結果を取得する処理である。ステップS92のクエリーベクトルの生成処理は、ステップS91で取得した解析結果からクエリーベクトルを生成する処理であり、ステップS93の類似度の算出処理は、ステップS92で得られたクエリーベクトルと、登録時に記憶部2に格納された文書毎の文書ベクトルとを比較して、そのクエリーと文書中の文との類似度を算出し、検索結果としてリストアップする処理である。
ここで前述の図9のように、「政治」「経済」「環境」「スポーツ」の4つのカテゴリに分類された複数の文書が記憶部2に格納されている場合で説明する。
図13は、入力部3から入力されるクエリー(文字列)の入力画面の表示例を示す図である。
この図13では、クエリーとして「日本の経済における金利の影響について」が入力されている。
次に、このクエリーに基づく検索処理を図10の前述のフローチャートを参照して具体的に説明する。
まずステップS71で、入力部3を使用して入力されるクエリー「日本経済における金利の影響について」を取得する。次にステップS72で、ステップS71で取得したクエリーの言語解析を行う。ここでは形態素に分解された「日本」「経済」「における」「金利」「の」「影響」「について」を基に、前述の登録文書の分類と同様な手法でクエリーベクトルを生成する。そして、このクエリーベクトルと図9のカテゴリとを比較する。ここでは「経済」のカテゴリに分類される。
このステップS73の分類の結果、検索する対象を「経済」カテゴリに決定する(ステップS74)。次にステップS75で、この決定した「経済」カテゴリに属する文書を検索対象として検索する。この検索ステップの検索結果リストを図14のように表示部4に類似度の高い順に一覧表示する(ステップS76)。
図14は、本実施の形態に係る情報検索装置における検索結果を示す図である。
図14では、クエリー「日本経済における金利の影響について」に対する検索結果の内、最も類似度の高いものから順に5件分が表示されている。
<検索動作の具体的な説明>
次に、上述した各フローチャートで説明した処理で実現される本実施の形態に係る検索処理について具体的に説明する。
次に、上述した各フローチャートで説明した処理で実現される本実施の形態に係る検索処理について具体的に説明する。
1.フレーズ検索
図10のステップS75の検索処理にフレーズ検索を適用した場合の詳細を、図15(A)〜(C)のデータ例と図11のフローチャートとを参照して説明する。
図10のステップS75の検索処理にフレーズ検索を適用した場合の詳細を、図15(A)〜(C)のデータ例と図11のフローチャートとを参照して説明する。
図15(A)に示すように、クエリーとして「画像を印刷する。」が入力された場合、クエリーに含まれる単語の取得処理(図11のステップS81)では、「画像」「を」「印刷する。」を取得する。
次にステップS82(図11)の単語間の関係取得処理では、「画像」が「印刷する」に係っている、ことを取得する。続くステップS83(図11)の類似度の算出処理では、クエリーに含まれる単語と単語間の関係が、文書の単語と単語間の関係に類似している度合いを算出する。
例えば、図15(B)の文書1では、単語「画像」と単語「印刷する」が含まれ、『「画像」が「印刷する」に係っている』ことと、『「高速」が「印刷する」に係っている』ことが示されている。ここでは、『「画像」が「印刷する」に係っている』点が、図15(A)のクエリーと、図15(B)の文書1との間で類似している。よって、文書1は、類似したフレーズを含んでいる類似度(=1−単語による減点(0)−関係による減点(単語間距離1単語なので0.1))=0.9となる。
次に図15(C)の文書2の場合は、単語「画像」と単語「印刷する」が含まれている点は共通しているが、「画像」が「読み込む」に係っており、「印刷する」が「文書」に係っているため、類似度は(=1−単語による減点(0)−関係による減点(係り先が違う0.5))=0.5となる。
従って、類似度の大きい図15(B)に示した文書1が検索結果となって表示部2に表示されることになる。
図19は、前述のクエリー「日本の経済における金利の影響について」に基づく検索処理をフレーズ検索により行った場合の検索結果の表示例を示す図である。尚、図19において、(1)〜(3)の検索結果は「日本経済」が含まれているため実質的に同じ類似度であるが、より現在(平成16年度)に近い時期の順に順番をつけている。
2.概念検索
次に、図10の検索処理(ステップS75)に概念検索を適用した場合の詳細について、図12のフローチャートを参照して説明する。
次に、図10の検索処理(ステップS75)に概念検索を適用した場合の詳細について、図12のフローチャートを参照して説明する。
まずステップS91のクエリー言語処理の結果を取得し、そのクエリーに含まれる単語を取得する。次にステップS92のクエリーベクトル生成処理では、文書ベクトル生成と同様に、基本ベクトル辞書によりクエリーのベクトルを生成する。そしてステップS93の類似度の算出処理では、クエリーの特徴ベクトルと、それぞれの文書ベクトルの類似度を算出する。
図20は、前述のクエリー「日本の経済における金利の影響について」に基づく検索処理を概念検索により行った場合の検索結果の表示例を示す図である。
このように本実施の形態1によれば、目的の文書やアノテーション付きの画像等の情報を検索する際に、入力されたクエリーを言語解析し、その解析結果(構文情報など)から、どの検索モードを適用するかを判定し、その判定した検索モードを選択して実行する。これにより、ユーザが検索モードを選択することなく、よりノイズの少ない精度の高い検索結果が自動的に得られる。よって、目的の情報を効果的に検索することができる。
[実施の形態2]
図16は、本発明の実施の形態2に係る検索手順を示すフローチャートである。
図16は、本発明の実施の形態2に係る検索手順を示すフローチャートである。
まずステップS101で、入力部3により入力されたクエリーを取得し、次にステップS102で、その取得したクエリーの言語解析を行う。更にステップS103で、そのクエリーの言語解析の結果を基にクエリーをカテゴリに分類する。この分類の結果、検索する対象を決定し、その決定した検索対象を検索する(ステップS4)。ここで検索対象が「A」の場合はステップS105で、その検索対象(カテゴリA)を検索し、検索対象が「B」の場合はステップS106で、その検索対象(カテゴリB)を検索する。こうしてステップS105の検索ステップとステップS106の検索ステップの検索結果リストを表示部4に類似度の高い順に一覧表示する(ステップS107)。
次に図16の検索手順を示すフローチャートをデータに沿って流れを説明する。
図17は、7つのカテゴリに分類された複数の文書が記憶部2に蓄積されている状態を示している。ここでは「政治」「世界経済」「日本経済」「環境」「国際」「スポーツ」「娯楽」の7つのカテゴリが含まれている。
まずステップS101で、画面を使用して入力部3によりクエリー「世界経済における日本経済の影響について」を取得し、次にステップS102で、その取得したクエリーの言語解析を行う。「世界」「経済」「における」「日本」「経済」「の」「影響」「について」、更に、そのクエリーの言語解析の結果を基に、検索対象の登録文書の分類と同様な手法でクエリーベクトルを生成し、各カテゴリと比較し、「世界経済」と「日本経済」の2つのカテゴリに分類する(ステップS103)。この分類の結果、検索する対象を「世界経済」「日本経済」のカテゴリに決定する(ステップS104)。次にステップS105で、こうして決定した「世界経済」カテゴリのみを検索対象として検索する。またステップS106では、決定した「日本経済」カテゴリのみを検索対象として検索する。こうしてステップS105とステップS106の検索ステップの検索結果リストを図14のように表示部4に類似度の高い順に一覧表示する(ステップS107)。ここでは2つの分類カテゴリに分類された例を記述したが、2つに限定されるものではない。
[実施の形態3]
図18は、本発明の実施の形態3に係る情報検索手順を示すフローチャートである。
図18は、本発明の実施の形態3に係る情報検索手順を示すフローチャートである。
まずステップS111で、入力部3により入力されるクエリーを取得する。次にステップS112で、その取得したクエリーの言語解析を行う。そしてステップS113で、検索対象が「A」(ここでは、所定のカテゴリの文書を管理しているサーバA)に指定されるとステップS114で、その指定された1つの検索対象のカテゴリに分類するために、ステップS112で取得したクエリーの言語解析の結果を基にクエリーを分類する。次にステップS115で。ステップS114の分類の結果に基づいて検索する。
一方、ステップS113で、検索対象が「B」(ここでは、所定のカテゴリの文書を管理しているサーバB)に指定されるとステップS116に進み、ステップS112のクエリーの言語解析の結果を基に分類する。次にステップS117で検索する。こうしてステップS118では、ステップS115の検索処理と、ステップS117の検索処理による検索結果リストを表示部4に、類似度の大きい順に一覧表示する。
次に図18の情報検索手順を示すフローチャートを図9などのデータに沿って流れを説明する。
図9のように「政治」「経済」「環境」「スポーツ」の4つのカテゴリに分類された複数の文書が記憶部2に格納されているサーバAと、図17のように「政治」「世界経済」「日本経済」「環境」「国際」「スポーツ」「娯楽」の7つのカテゴリに分類された複数の文書が記憶部2に蓄積されているサーバBのように、複数のサーバにそれぞれ異なるカテゴリに分類されている複数の文書を検索する。
まず入力部3からクエリー「世界経済における日本経済の影響について」を入力し(ステップS111)、次にステップS112で、その取得したクエリーの言語解析を行う。次にステップS113で、指定された検索対象のサーバを判定する。ここではサーバAとサーバBを検索対象とする。ステップS114では、ステップS113でサーバAが指定された場合で、サーバAの分類カテゴリ(4種類)への分類するために、ステップS112で取得したクエリーの言語解析の結果「日本」「経済」「における」「金利」「の」「影響」「について」を基に、サーバAで登録文書の分類と同様な手法でクエリーベクトルを生成し、サーバAの各カテゴリと比較し、そのクエリーを「経済」のカテゴリに分類する。こうしてステップS115で、その決定した「経済」カテゴリを検索対象として検索する(ステップS115)。
またサーバBに対して分類カテゴリ(7種類)へ分類する場合はステップS116で、ステップS112で取得したクエリーの言語解析の結果、「日本」「経済」「における」「金利」「の」「影響」「について」を基に、サーバBの登録文書の分類と同様な手法でクエリーベクトルを生成する。このクエリーベクトルとサーバBの登録文書の各カテゴリと比較し、「日本経済」のカテゴリに分類する。次にステップS117で、この決定した「日本経済」カテゴリを検索対象として検索する。こうしてステップS115の検索処理と、ステップS117の検索処理の結果をマージし、その検索結果リストを図14のように表示部4に、その類似度の高い順に一覧表示する(ステップS118)。
尚、この実施の形態3では。2つのサーバA,Bの場合で説明したが、本発明は2台に限定するものではなく、1つ又は複数のサーバの場合にも適用可能である。また、それぞれのサーバで異なる分類手法を適用しても良い。
[実施の形態4]
図21は、本発明の実施の形態4に係る情報処理装置の概略構成を表すブロック図で、前述の図1の構成と共通する部分は同じ記号で示し、それらの説明を省略する。
図21は、本発明の実施の形態4に係る情報処理装置の概略構成を表すブロック図で、前述の図1の構成と共通する部分は同じ記号で示し、それらの説明を省略する。
図において、出力部103は前述の表示部4やプリンタなどの印刷部などを含む。キーボードやファイル等の入力部3から入力された登録用の文書は、メモリやハードディスクなどの記憶部2に展開された検索処理プログラム111や分類処理プログラム112により、CPU1で処理されて記憶部2に登録される。分類処理プログラム112は、その登録用の文書の中からキーワードを抽出し、その抽出したキーワードを基に分類処理を実行し、その文書の分類情報を生成する。検索処理プログラム111は、クエリー文書の中からキーワードを抽出し、同じく記憶部2に記憶されている検索用索引データ113に登録する。
文書の検索時、キーボードなどの入力部3から入力された検索条件から検索処理プログラム111によって検索条件となる単語を抽出する。その検索条件によって展開単語辞書データ114を取得して検索が実行される。この検索処理プログラム111は、検索条件から検索キーワードを抽出し、単語情報を見出しとし、文書の情報や文書に含まれる単語の特徴を格納した検索用索引データ113から、入力された検索条件に合う文書を取得する。そして、その検索条件に対する類似性の付与や最終的な結果とするかどうかを判断し、その結果をディスプレイなどの出力部103に出力する。
また本実施の形態の動作環境は、単体のコンピュータ以外にも、ローカルなネットワーク環境、或はインターネット環境にも対応することができる。
図22は、本発明の実施の形態4に係る情報処理装置における文書登録時の動作を示すフローチャートである。
まずステップS121で、入力された文書に対して文書解析処理を行なう。この文書解析処理では、形態素解析などの処理によって文書を単語単位に切り分ける。例えば、文書1として「本国会で家庭内暴力に関する法案が成立する見込み。」を形態素解析を行なって単語単位に分割する。その結果、次のように分割される。「本(接尾辞)/国会(名詞)/で(助詞)/家庭内暴力(名詞)/に(助詞)/関する(動詞)/法案(名詞)/が(助詞)/成立する(動詞)/見込み(名詞)/。」
次にステップS122で、その解析された文書から検索処理や分類処理で必要な単語を抽出する。本実施の形態4では、品詞が「名詞」「動詞」「形容詞」「形容動詞」の単語をキーワードとして抽出する。従って、「国会」「家庭内暴力」「関する」「法案」「成立」「見込み」をキーワードとして抽出する。
次にステップS122で、その解析された文書から検索処理や分類処理で必要な単語を抽出する。本実施の形態4では、品詞が「名詞」「動詞」「形容詞」「形容動詞」の単語をキーワードとして抽出する。従って、「国会」「家庭内暴力」「関する」「法案」「成立」「見込み」をキーワードとして抽出する。
次にステップS123では、この文書をカテゴリ分類した分類情報を作成する。
図23は、カテゴリ別の高頻度キーワード情報の一例を示す図である。
この分類別の高頻度キーワード情報を参照して、文書内のキーワードの使用状況などを考慮し、文書に対して分類情報を付加する。ここでは「国会」「法案」「成立」などは、[政治]というカテゴリに多く出現する単語であることがわかる。そのため、文書1は、カテゴリ[政治]に分類される。
次にステップS124で、検索用のインデックスデータを作成する。この検索用のインデックスデータとして最低限必要な情報は、データの検索時に見出しとなる表記文字列の情報と、その文字列が出現した文書の情報である。
図24は、本実施の形態4に係る文書1(カテゴリ「政治」)の検索用インデックスの一例を示す図である。
ここではステップS122で抽出したキーワードを見出し文字列とし、出現文書IDとして登録した文書である「文書1」を格納する。次にステップS125で、文書と分類情報とをリンクして格納する(図25参照)。ここでは、文書IDと、ステップS123で生成した分類情報とをリンクし、文書分類データとして格納する。
図25は、この文書分類データの一例を示す図である。
ここでは文書を特定する文書IDと、その分類情報を格納する。ここでは前述したように「文書1」は、「政治」に分類されているため、文書IDには「文書1」が、その分類情報には「政治」が格納されている。
以上の処理によって、「文書1」の登録処理が終了する。
複数の文書を登録する場合には、前述のステップS121〜S125の処理を、その文書の数に対応する回数繰り返す。本実施の形態4では、図26に示す「文書1」〜「文書5」を登録する。
その結果、図27に示す検索用インデックスデータと図28に示す文書分類データとを作成できる。
図27は、図26に示す各文書に含まれる見出し文字列の抽出例を示す図である。
図28は、これら見出し文字列に基づいて分類された各文書に対応する分類情報の一例を示す図である。
次に本発明の実施の形態4に係る情報処理装置による検索処理について説明する。
図29は、本実施の形態4に係る情報処理装置による検索処理を説明するフローチャートで、この処理を実行するプログラムは記憶部2に記憶されて実行される。
まずステップS131で、入力部3から検索条件(クエリー)を入力する。ここでは検索条件を自然文或は論理式で入力する。本実施の形態4では自然文で、「家庭内暴力の問題」と入力した場合で説明する。次にステップS132で、そのクエリーに含まれるキーワードを抽出する。ここではステップS131で入力した検索条件(クエリー)に対して、形態素解析などの文字切り処理を行ない、検索の際のキーワードとなる文字列(単語)を抽出する。ここでは検索条件である自然文「家庭内暴力の問題」は次のように単語切りされる。
「家庭内暴力(名詞)/の(助詞)/問題(名詞)」
こうして切り出された文字列から、登録時のキーワードの条件、即ち品詞が名詞、動詞、形容詞、形容動詞の単語をキーワードとする。従って、「家庭内暴力」と「問題」がキーワードとして抽出される。
こうして切り出された文字列から、登録時のキーワードの条件、即ち品詞が名詞、動詞、形容詞、形容動詞の単語をキーワードとする。従って、「家庭内暴力」と「問題」がキーワードとして抽出される。
次にステップS133で、キーワードの展開が指定されているかどうかを判定する。キーワードの展開が指定されていない場合は、その取得したキーワードをそのまま検索条件としてステップS136に進む。一方、キーワード展開が指定されている場合はステップS134に進み、そのキーワードを、単語展開辞書114を参照して展開する。
図30は、本実施の形態4で使用する展開辞書114の内容の一部の一例を示す図である。
図において、例えば展開対象語が「問題」は、「トラブル」と「課題」に展開されることがわかる。また対象語が「DV」の場合は、「デジタルビデオ」、「ドメスティックバイオレンス」、「家庭内暴力」の展開語があるが、これらの展開語には制限がついている。例えば「デジタルビデオ」は「デジタルビデオ(産業)」とあり、()内の「産業」は展開分類を指定するための情報である。これにより、この「デジタルビデオ」は、検索対象となる文書の分類情報(カテゴリ)が「産業」であった場合にのみ有効になり、それ以外の分類情報(カテゴリ)では無効になることを表わしている。同様に「ドメスティックバイオレンス」「家庭内暴力」には、「政治・社会」が付与されている。従って、これら「ドメスティックバイオレンス」「家庭内暴力」は、検索対象の文書の分類情報が「政治」もしくは「社会」の場合にのみ有効になる。
尚、例えば、「家庭内暴力」だけを「文化」という分類情報に対しても有効にしたい場合には、「家庭内暴力(政治・文化・社会)」とすれば良い。これにより、「家庭内暴力」は、検索対象の文書の分類情報が「政治」「文化」「社会」のときにも有効になる。また、検索対象の文書の分類情報に依存しない一般的な展開語には、これらの分類情報が付与されていない(「トラブル」「問題」「課題」など)
本実施の形態4に係るキーワードは、「家庭内暴力」と「問題」であるので、展開辞書114を検索して、「家庭内暴力」は「DV(政治・社会)」「デジタルビデオ(産業)」「ドメスティックバイオレンス((政治・社会))に展開される。同様に「問題」は「トラブル」「課題」に展開される。
本実施の形態4に係るキーワードは、「家庭内暴力」と「問題」であるので、展開辞書114を検索して、「家庭内暴力」は「DV(政治・社会)」「デジタルビデオ(産業)」「ドメスティックバイオレンス((政治・社会))に展開される。同様に「問題」は「トラブル」「課題」に展開される。
次にステップS135で、こうして展開した展開語を取得して検索条件を作成する。即ち、展開前の検索条件である「家庭内暴力」と「問題」は、「家庭内暴力orDV(政治・社会)orドメスティックバイオレンス(政治・社会)」と「問題orトラブルor課題」という検索条件になる。ここで「or」は、択一条件「又は」を示す。
こうして検索に使用されるキーワードが決定されると、次にステップS136で、検索用インデックスを用いた検索処理を実行する。
本実施の形態4では、文書1から文書5に登録されている検索用インデックスデータ(図27)を検索する場合で説明する。検索用インデックスデータをステップS135で作成された検索条件で検索し、以下のような情報を取得することができる。
家庭内暴力 文書1
ドメスティックバイオレンス(政治・社会) 文書3
DV(政治・社会) 文書2、文書5
問題 文書2、文書5
トラブル、課題 検索結果無し。
ドメスティックバイオレンス(政治・社会) 文書3
DV(政治・社会) 文書2、文書5
問題 文書2、文書5
トラブル、課題 検索結果無し。
こうして「家庭内暴力」では、文書1、文書2、文書3、文書5が検索結果の候補となり、「問題」では、文書2と文書5が検索結果の候補となる。
ステップS137では、更に図28の文書分類データを参照して、ステップS136で得られた結果候補から検索結果を作成する。ここでは「家庭内暴力」と「問題」は、キーワードであるため全ての分類に対して有効である。よって、ステップS136での検索結果候補を、そのまま最終の検索結果とすることができる。
一方、「ドメスティックバイオレンス(政治・社会)」に対しては、文書3が検索結果の候補である。この検索語は、図30の展開辞書から、文書の分類情報が「政治」と「社会」のときにのみ有効な展開語となっている。そこで図28の文書の分類情報を参照すると、文書3の分類情報は「社会」となっているため、文書3の検索結果は有効であると判断できる。
次に「DV(政治・社会)」に対しては、文書2と文書5の検索結果候補が存在している。展開語である「DV」が有功となる分類情報は、「社会」と「政治」である。ここで図28の文書の分類情報を参照すると、文書2の分類は「社会」であるため、検索結果として有効である。一方、文書5の分類は「産業」であるため、文書5は、この展開語である「DV」の候補とはなり得ないことが分かる。
このようにして、「家庭内暴力」の検索結果として、文書1、文書2、文書3が抽出され、「問題」の検索結果として文書2と文書5が抽出される。こうして検索条件が「家庭内暴力の問題」のとき、その検索結果として文書2を出力できるようになる。
また、スコア情報を持たせることにより、他の検索候補を捨てること無く、低いスコアの検索結果も出力できる。また例えば、文書2>文書1、文書3、文書5というように、スコア順に検索結果を出力するようにしても良い。
[実施の形態5]
前述の実施の形態4の検索用インデックスデータを使用して、この実施の形態5の説明をする。前述の実施の形態4では、「家庭内暴力」に対して「DV」を適用することができた。しかし、「DV」を入力したときに、「家庭内暴力(政治・社会)」と「デジタルカメラ(産業)」の展開語の適用を制御することは難しい。
前述の実施の形態4の検索用インデックスデータを使用して、この実施の形態5の説明をする。前述の実施の形態4では、「家庭内暴力」に対して「DV」を適用することができた。しかし、「DV」を入力したときに、「家庭内暴力(政治・社会)」と「デジタルカメラ(産業)」の展開語の適用を制御することは難しい。
そこで本実施の形態5では、検索条件に対して分類処理を行ない、検索の意図がどこにあるのか判断して検索処理を行なう。ここでは検索条件として「DVの社会問題化」という文字列が入力された場合について説明する。
まず入力された検索条件からキーワードを取得する。即ち、「DV」「社会」「問題」をキーワードとする。次に、こうして抽出したキーワードを基に分類処理を行なう。
図23に示す文類別の高頻度キーワード情報を参照して、検索条件に対する分類情報を生成する。本実施の形態5では、検索条件に対して「社会」という分類を付けることができる。
次に抽出したキーワードを検索用のキーワードとして検索処理を行なう。ここでキーワードの展開指示があった場合、前述の実施の形態4のステップS134と同様にして検索キーワードの展開を行なう。ここで「DV」の展開語には、図30に示すように、「デジタルビデオ(産業)」「ドメスティックバイオレンス(政治・社会)」「家庭内暴力(政治・社会)」の展開語が存在することが分かる。
次に検索キーワードと検索キーワードの展開語によって、図24に示す検索用インデックスデータを参照して、一致する文書情報を取得する。
本実施の形態5の検索条件は、「社会」に分類される検索条件であるので、「社会」の分類情報を持つ検索キーワードを重要展開語として優先する。そのため、優先度は「DV」=「ドメスティックバイオレンス」=「家庭内暴力」>「デジタルビデオ」の関係が成立する。従って、検索した文書の重要度は、文書1=文書2=文書3=文書5>文書4ととなる。
更に、ここで使用されている「DV」は、「社会」という分類に属する単語であることが予想できる。よって、図28の文書分類データを参照して、「DV」が「社会」という分類情報を持つ文書の検索結果を優先する。その結果、文書1=文書2=文書3>文書5>文書4となる。最後に、検索条件の分類情報と文書の分類情報が一致する文書を優先することで、文書2=文書3=文書1>文書5>文書4という検索結果を得ることができる。
以上説明したように本実施の形態5によれば、検索条件に、その検索語が含まれる文書の分類情報(カテゴリ)を含ませることにより、その検索語が含まれる文書が複数存在するような場合であっても、検索した文書に一致度の順位を付けて表示することが可能になる。
以上説明したように本実施の形態4,5によれば、分類情報を使用することによって、検索語の多義性により誤った文書が検索されたり、或は検索すべき文書が検索からもれるなどの不具合を解決できる。これにより検索精度の向上を図ることができる。
また本発明は、上述した実施の形態の装置に限定されず、複数の機器から構成されるシステムに適用しても、1つの機器から成る装置に適用してもよい。前述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体をシステムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、完成されることは言うまでもない。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMを用いることができる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOSなどが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、次のプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるCPUなどが処理を行って実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
Claims (20)
- それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置であって、
クエリー文字列を入力する入力手段と、
前記入力手段により入力された前記クエリー文字列を1つ又は複数のカテゴリに分類するクエリー分類手段と、
前記クエリー分類手段により分類された前記カテゴリに対応するカテゴリ情報を有する情報を検索対象として抽出する抽出手段と、
前記抽出手段で抽出された情報を検索対象として、前記入力手段により入力された前記クエリー文字列に基づく検索処理を実行する検索手段と、
前記検索手段による検索結果を表示する表示手段と、
を有することを特徴とする情報処理装置。 - 前記検索手段は、前記クエリーに含まれる単語及び構文情報と、検索対象の文書に含まれる単語及びその構文情報とに基づいて前記検索処理を実行することを特徴とする請求項1に記載の情報処理装置。
- 前記検索手段は、前記クエリーの内容を特徴付けるクエリーベクトルと、検索対象の文書の内容を特徴付ける文書ベクトルとに基づいて前記検索処理を実行することを特徴とする請求項1に記載の情報処理装置。
- 前記クエリー分類手段は、前記記憶デバイスに記憶されている文書のカテゴリ情報に対応するカテゴリのいずれかに分類することを特徴とする請求項1乃至3のいずれか1項に記載の情報処理装置。
- 前記表示手段は、前記検索結果を類似度の高い順に表示することを特徴とする請求項1乃至4のいずれか1項に記載の情報処理装置。
- 文書を検索可能に登録する情報処理装置であって、
登録対象の文書に含まれる単語を抽出する抽出手段と、
前記抽出手段により抽出された単語が出現する頻度に応じて当該文書の分類情報を決定する決定手段と、
前記抽出手段により抽出された単語を検索用インデックスとし前記分類情報に関連付けて前記文書と共に登録する登録手段と、
を有することを特徴とする情報処理装置。 - それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置であって、
クエリー文字列を入力する入力手段と、
前記入力手段により入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列を抽出する抽出手段と、
前記キーワードとなる文字列に関連する展開文字列と当該展開文字列のカテゴリとを取得する取得手段と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索して検索候補を抽出する候補検索手段と、
前記候補検索手段により検索された文書の内、前記展開文字列のカテゴリと一致するカテゴリ情報を有する文書を検索結果とする検索手段と、
を有することを特徴とする情報処理装置。 - それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置であって、
クエリー文字列を入力する入力手段と、
前記入力手段により入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列及び前記クエリーのカテゴリを識別する識別手段と、
前記キーワードとなる文字列に関連し、前記クエリーのカテゴリと一致するカテゴリの展開文字列を取得する取得手段と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索する検索手段と、
を有することを特徴とする情報処理装置。 - 前記検索手段による検索結果を表示する表示手段を更に有することを特徴とする請求項7又は8に記載の情報処理装置。
- それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置の制御方法であって、
クエリー文字列を入力する入力工程と、
前記入力工程で入力された前記クエリー文字列を1つ又は複数のカテゴリに分類するクエリー分類工程と、
前記クエリー分類工程で分類された前記カテゴリに対応するカテゴリ情報を有する情報を検索対象として抽出する抽出工程と、
前記抽出工程で抽出された情報を検索対象として、前記入力工程により入力された前記クエリー文字列に基づく検索処理を実行する検索工程と、
前記検索工程での検索結果を表示する表示工程と、
を有することを特徴とする情報処理装置の制御方法。 - 前記検索工程では、前記クエリーに含まれる単語及び構文情報と、検索対象の文書に含まれる単語及びその構文情報とに基づいて前記検索処理を実行することを特徴とする請求項10に記載の情報処理装置の制御方法。
- 前記検索工程では、前記クエリーの内容を特徴付けるクエリーベクトルと、検索対象の文書の内容を特徴付ける文書ベクトルとに基づいて前記検索処理を実行することを特徴とする請求項10に記載の情報処理装置の制御方法。
- 前記クエリー分類工程では、前記記憶デバイスに記憶されている文書のカテゴリ情報に対応するカテゴリのいずれかに分類することを特徴とする請求項10乃至12のいずれか1項に記載の情報処理装置の制御方法。
- 前記表示工程では、前記検索結果を類似度の高い順に表示することを特徴とする請求項10乃至13のいずれか1項に記載の情報処理装置の制御方法。
- 文書を検索可能に登録する情報処理装置の制御方法であって、
登録対象の文書に含まれる単語を抽出する抽出工程と、
前記抽出工程で抽出された単語が出現する頻度に応じて当該文書の分類情報を決定する決定工程と、
前記抽出工程で抽出された単語を検索用インデックスとし前記分類情報に関連付けて前記文書と共に登録する登録工程と、
を有することを特徴とする情報処理装置の制御方法。 - それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置の制御方法であって、
クエリー文字列を入力する入力工程と、
前記入力工程で入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列を抽出する抽出工程と、
前記キーワードとなる文字列に関連する展開文字列と当該展開文字列のカテゴリとを取得する取得工程と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索して検索候補を抽出する候補検索工程と、
前記候補検索工程で検索された文書の内、前記展開文字列のカテゴリと一致するカテゴリ情報を有する文書を検索結果とする検索工程と、
を有することを特徴とする情報処理装置の制御方法。 - それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置の制御方法であって、
クエリー文字列を入力する入力工程と、
前記入力工程で入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列及び前記クエリーのカテゴリを識別する識別工程と、
前記キーワードとなる文字列に関連し、前記クエリーのカテゴリと一致するカテゴリの展開文字列を取得する取得工程と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索する検索工程と、
を有することを特徴とする情報処理装置の制御方法。 - 前記検索工程による検索結果を表示する表示工程を更に有することを特徴とする請求項16又は17に記載の情報処理装置の制御方法。
- 請求項10乃至18のいずれか1項に記載の制御方法を実行することを特徴とするプログラム。
- 請求項19に記載のプログラムを記憶していることを特徴とする、コンピュータにより読取り可能な記憶媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005039525A JP2006227823A (ja) | 2005-02-16 | 2005-02-16 | 情報処理装置及びその制御方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005039525A JP2006227823A (ja) | 2005-02-16 | 2005-02-16 | 情報処理装置及びその制御方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006227823A true JP2006227823A (ja) | 2006-08-31 |
Family
ID=36989172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005039525A Withdrawn JP2006227823A (ja) | 2005-02-16 | 2005-02-16 | 情報処理装置及びその制御方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006227823A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009043263A (ja) * | 2007-08-10 | 2009-02-26 | Nhn Corp | 質問分類方法およびそのシステム |
JP2010515171A (ja) * | 2006-12-29 | 2010-05-06 | トムソン ルーターズ グローバル リソーシーズ | 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア |
JP2012003740A (ja) * | 2010-06-16 | 2012-01-05 | Fuji Xerox Co Ltd | 検索結果生成方法、検索結果生成プログラムおよび検索システム |
JP2012215966A (ja) * | 2011-03-31 | 2012-11-08 | Yahoo Japan Corp | カテゴリ別共通付加情報追加装置及びカテゴリ別共通付加情報追加方法 |
JP2019211974A (ja) * | 2018-06-04 | 2019-12-12 | 株式会社野村総合研究所 | 企業分析装置 |
JPWO2020031242A1 (ja) * | 2018-08-06 | 2021-09-30 | 富士通株式会社 | 評価プログラム、評価方法および情報処理装置 |
JP2022079442A (ja) * | 2020-11-16 | 2022-05-26 | 深▲ゼン▼市世強元件網絡有限公司 | ユーザの検索シーンを識別する方法及びシステム |
-
2005
- 2005-02-16 JP JP2005039525A patent/JP2006227823A/ja not_active Withdrawn
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010515171A (ja) * | 2006-12-29 | 2010-05-06 | トムソン ルーターズ グローバル リソーシーズ | 概念ベースの検索とランク付けを伴う情報検索のシステム、方法およびソフトウェア |
JP2009043263A (ja) * | 2007-08-10 | 2009-02-26 | Nhn Corp | 質問分類方法およびそのシステム |
JP4729607B2 (ja) * | 2007-08-10 | 2011-07-20 | エヌエイチエヌ コーポレーション | 質問分類方法およびそのシステム |
JP2012003740A (ja) * | 2010-06-16 | 2012-01-05 | Fuji Xerox Co Ltd | 検索結果生成方法、検索結果生成プログラムおよび検索システム |
JP2012215966A (ja) * | 2011-03-31 | 2012-11-08 | Yahoo Japan Corp | カテゴリ別共通付加情報追加装置及びカテゴリ別共通付加情報追加方法 |
JP2019211974A (ja) * | 2018-06-04 | 2019-12-12 | 株式会社野村総合研究所 | 企業分析装置 |
JPWO2020031242A1 (ja) * | 2018-08-06 | 2021-09-30 | 富士通株式会社 | 評価プログラム、評価方法および情報処理装置 |
JP7081671B2 (ja) | 2018-08-06 | 2022-06-07 | 富士通株式会社 | 評価プログラム、評価方法および情報処理装置 |
JP2022079442A (ja) * | 2020-11-16 | 2022-05-26 | 深▲ゼン▼市世強元件網絡有限公司 | ユーザの検索シーンを識別する方法及びシステム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
US20040049499A1 (en) | Document retrieval system and question answering system | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
JP2005302042A (ja) | マルチセンスクエリについての関連語提案 | |
CN115186050B (zh) | 基于自然语言处理的选题推荐方法、系统及相关设备 | |
JP2009037603A (ja) | クエリー要件展開器およびクエリー要件展開方法 | |
CN113268569B (zh) | 基于语义的关联词查找方法及装置、电子设备、存储介质 | |
CN109299221A (zh) | 实体抽取和排序方法与装置 | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
JP2011118689A (ja) | 検索方法及びシステム | |
JP7167997B2 (ja) | 文献検索方法および文献検索システム | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
Mima et al. | The ATRACT workbench: Automatic term recognition and clustering for terms | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
JPH0844771A (ja) | 情報検索装置 | |
JP2008077252A (ja) | 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
JP2006215717A (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
CN111831884B (zh) | 一种基于信息查找的匹配系统与方法 | |
JP3249743B2 (ja) | 文書検索システム | |
JP4143085B2 (ja) | 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP7167996B2 (ja) | 事例検索方法 | |
KR20100039968A (ko) | 자동 언어 번역을 통한 다국어의 전거 표목에 대한 온톨로지 기반 의미 검색 시스템 및 방법 | |
JP4217410B2 (ja) | 情報検索装置及びその制御方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20080513 |