JP2006227823A

JP2006227823A - 情報処理装置及びその制御方法

Info

Publication number: JP2006227823A
Application number: JP2005039525A
Authority: JP
Inventors: Tomonori Kudou; 朋紀工藤; Koji Maekawa; 浩司前川
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2005-02-16
Filing date: 2005-02-16
Publication date: 2006-08-31

Abstract

【課題】大量の文書を対象にして高度な検索を実行すると、検索時間が長くなる。
【解決手段】クエリーを入力し（Ｓ７１）、そのクエリー文字列をカテゴリに分類する（Ｓ７３）。その分類されたカテゴリに対応するカテゴリ情報を有する情報を検索対象として抽出し（Ｓ７４）、その抽出した情報を検索対象として、クエリー文字列に基づく検索処理を実行する（Ｓ７５）。
【選択図】図１０

Description

本発明は、文字列を含む情報に基づいて情報を検索する情報処理装置及びその制御方法に関するものである。

近年、ストレージデバイスの大容量化に伴って大量の文書等を蓄積したデータベースが一般的となり、これら大量の文書の中から所望の文書を検索する技術が重要になってきている。これは単純なキーワード検索（キーワードを指示し、それが出現するか否かで文書を検索する）だけでは、ユーザの要求を十分に満たさなくなってきているためである。そこで文書の検索方法として、キーワードとの関係や構文情報の類似度を用いる方法、文書の内容を特徴付ける文書ベクトルを用いる方法等が新たに提案されている。更には、文書の内容を特徴付ける意味、分野、単語そのものを次元として、その特徴量でベクトル表現し、文書ベクトル間の内積等の値を用いて文書間の類似度を求める方法も提案されている。

また、ディレクトリ検索や文書管理を目的として、検索対象の文書をデータベースに登録する際に、手動或は自動で、その文書をいくつかのカテゴリに分類して登録する方法も提案されている。

またキーワードによる検索時、更に、そのキーワードを、それに関連する単語に展開して検索することは、検索漏れを少なくするための手法として有効である。このための最も単純な手法としては、対象となる単語に対する展開語辞書を参照し、その辞書に格納されている展開語を、新たなキーワードとして加えることによって、その検索用のキーワードを拡張して検索していた。例えば、キーワード「警官」を展開するために展開語辞書を参照して「警官」の見出しを参照して求めると、例えば、展開レベル１では、検索キーワードとして「警察官」「巡査」等が見出せる。また展開レベル２では、「警察」「刑事」が展開語として見出せる。

特許文献１は、ニューラルネットワークを使用して、単語を関連語に展開する技術を記載している。この例では『「みかん」ＡＮＤ「冬」』の検索条件が入力された場合、「みかん」と「冬」を単語展開用のニューラルネットワークによってそれぞれ関連語に展開する。更に、この例では、「みかん」に対して強い関連度として、「静岡」「りんご」「こたつ」、弱い関連度で「猫」が得られる。また「冬」の関連語として、強い関連度で「こたつ」「猫」、弱い関連度で「りんご」「静岡」が取り出される。こうして最終的に、「みかん」と「冬」の両方の単語に対して関連度が高い「こたつ」が得られ、その他の単語「猫」「りんご」「静岡」は弱い関連語として得られる。そして検索時には、最初に入力したキーワード（「みかん」「冬」）に加えて、新たなキーワード（「こたつ」「猫」「りんご」「静岡」）を用いた検索が行われる。

また特許文献２には、入力された検索条件を、その意味に応じて変更する技術が開示されている。例えばキーワード「株式会社○○建設」を入力した場合、形態素解析によって「株式会社」「○○」「建設」に分割し、並び替えの規則パターンや言い換えパターンに従って、「○○建設株式会社」「（株）○○建設」「○○建設（株）」「○○建設」というように、元のキーワードを展開した別のキーワードを用いて検索することが記載されている。
特開平５−１３５１１０号公報特開平１０−２０７８９６号公報

しかしながら、上記従来の情報検索装置では、次のような問題点があった。

大量の文書を対象にして高度な検索を実行すると、検索時間が長くなる。

また従来のキーワードの展開処理では、キーワードに対しての見出しを持ち、見出しに対する展開語を取得して展開処理していた。しかしながら、同じ表現であっても異なる意味を持つ単語があるために、そのような単語の多義性に対応した単語展開を行なうことはできなかった。例えば「ＤＶ」には「デジタルビデオ」と「ドメスティックバイオレンス」などの意味が存在するため、「ＤＶ」を単語展開した場合、「デジタルビデオ」と「ドメスティックバイオレンス」に展開されてしまう。このため、本来、オーディオ機器に関連した文書を検索したい場合でも、「ドメスティックバイオレンス」が含まれる文書が検索されてしまい、検索結果として多くの不要な文書が含まれることになる。そのため、上述した単語展開を行なうことにより検索漏れは防止できるが、検索精度を向上させるには不十分であった。

本発明は、上記従来技術の欠点を解決することにある。

また本願発明の特徴は、短時間で高精度な検索結果を得ることができる情報処理装置及びその制御方法を提供することにある。

上記特徴は、独立クレームに記載の特徴の組み合わせにより達成され、従属項は発明の単なる有利な具体例を規定するものである。

本発明の一態様に係る情報処理装置は以下のような構成を備える。即ち、
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置であって、
クエリー文字列を入力する入力手段と、
前記入力手段により入力された前記クエリー文字列を１つ又は複数のカテゴリに分類するクエリー分類手段と、
前記クエリー分類手段により分類された前記カテゴリに対応するカテゴリ情報を有する情報を検索対象として抽出する抽出手段と、
前記抽出手段で抽出された情報を検索対象として、前記入力手段により入力された前記クエリー文字列に基づく検索処理を実行する検索手段と、
前記検索手段による検索結果を表示する表示手段と、
を有することを特徴とする。

本発明の一態様に係る情報処理装置は以下のような構成を備える。即ち、
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置であって、
クエリー文字列を入力する入力手段と、
前記入力手段により入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列を抽出する抽出手段と、
前記キーワードとなる文字列に関連する展開文字列と当該展開文字列のカテゴリとを取得する取得手段と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索して検索候補を抽出する候補検索手段と、
前記候補検索手段により検索された文書の内、前記展開文字列のカテゴリと一致するカテゴリ情報を有する文書を検索結果とする検索手段と、
を有することを特徴とする。

本発明の一態様に係る情報処理装置の制御方法は以下のような工程を備える。即ち、
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置の制御方法であって、
クエリー文字列を入力する入力工程と、
前記入力工程で入力された前記クエリー文字列を１つ又は複数のカテゴリに分類するクエリー分類工程と、
前記クエリー分類工程で分類された前記カテゴリに対応するカテゴリ情報を有する情報を検索対象として抽出する抽出工程と、
前記抽出工程で抽出された情報を検索対象として、前記入力工程により入力された前記クエリー文字列に基づく検索処理を実行する検索工程と、
前記検索工程での検索結果を表示する表示工程と、
を有することを特徴とする。

本発明の一態様に係る情報処理装置の制御方法は以下のような工程を備える。即ち、
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置の制御方法であって、
クエリー文字列を入力する入力工程と、
前記入力工程で入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列を抽出する抽出工程と、
前記キーワードとなる文字列に関連する展開文字列と当該展開文字列のカテゴリとを取得する取得工程と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索して検索候補を抽出する候補検索工程と、
前記候補検索工程で検索された文書の内、前記展開文字列のカテゴリと一致するカテゴリ情報を有する文書を検索結果とする検索工程と、
を有することを特徴とする。

尚、この発明の概要は、必要な特徴を全て列挙しているものでなく、よって、これら特徴群のサブコンビネーションも発明になり得る。

本発明によれば、文字列を含むクエリーから高速かつ高精度の検索が可能となる。これにより、ユーザの操作性を大幅に向上させ、目的の情報を効率良く取り出せるという効果がある。

以下、添付図面を参照して本発明の好適な実施の形態を詳しく説明する。尚、以下の実施の形態は特許請求の範囲に係る発明を限定するものでなく、また本実施の形態で説明されている特徴の組み合わせの全てが発明の解決手段に必須のものとは限らない。

［実施の形態１］
図１は、本発明の実施の形態に係る情報検索装置（例えば、パーソナルコンピュータ（ＰＣ））の概略構成を示すブロック図である。

この情報検索装置は、プログラムに従って処理を実行する中央処理部（ＣＰＵ）１と、検索対象となる文書やアノテーション付き画像等のほか、プログラムや辞書を格納しているデータベース等の記憶部（ＲＡＭ及びハードディスクなどの大容量記憶装置を含む）２と、ユーザにより操作されて各種データやコマンドを入力するためのキーボードやマウス等の入力部３と、検索結果を表示する表示部４と、ＦＤ（フロッピー（登録商標）ディスク），ＣＤ−ＲＯＭ，ＤＶＤ及び磁気テープ等の記憶媒体に記憶されたプログラムやデータ等を読み取って記憶部２に記憶する記憶媒体読取部５とを有している。

＜検索動作の概要説明＞
次に、本実施の形態に係る情報検索装置による検索動作の概要を説明する。

図２は、本発明の実施の形態１に係る情報検索装置による文書等の自動分類登録処理を示すフローチャートで、この処理を実行するプログラムは記憶部２に記憶されて中央処理部１の制御の下に実行される。この処理は文書の登録時に、その文書がどのような分野に関連した文書であるかを判定して、その文書と共にその分類情報を登録するための処理を示している。

まずステップＳ１で、登録対象である文書などの登録対象データを取得する。次にステップＳ２で、その登録対象データの言語を解析し、そのれに含まれる単語等の解析データを作成する。次にステップＳ３で、その解析データに基づいて、その登録対象データを分類する。こうして分類した結果に基づいて、その登録先を決定する（ステップＳ４）。そしてステップＳ５で、ステップＳ４で決定された登録先に、その登録対象データ（ここでは文書）を登録する。

次にステップＳ３の登録対象データの分類処理の詳細について説明する。この登録対象データの分類の一例として、ベクトルを利用した自動分類の場合で説明する。登録対象データを分類するに当たり、予め分類するカテゴリの文書から有効語辞書と基底語辞書を作成する。

次に図３のフローチャートを参照して、有効語の抽出処理を説明する。ここではデータベースに複数の文書が記憶されている状態で、これら複数の文書から、それら文書に含まれている有効語を抽出している。

図３は、本実施の形態に係る情報検索装置における、データベースに記憶されている複数の文書から単語を抽出し、それが有効語かどうかを判定して登録する処理を説明するフローチャートで、この処理を実行するプログラムは記憶部２に記憶されて中央処理部１の制御の下に実行される。

まずステップＳ１１で、データベースに保持された全ての文書データの形態素を解析して単語を抽出する。次にステップＳ１２で、その抽出した単語を単語リストとして記憶部２に保持する。次にステップＳ１３で、その単語リストから任意の単語を取り出す。次にステップＳ１４で、この単語の文書分類のための有効度を計算する。ここでは、あるカテゴリに属する文書の中で、この単語を含む文書の割合を計算する。こうして全てのカテゴリについて正規化する。尚、ここでカテゴリによって、その単語を含む文書の割合に差がある場合は、その単語は、その割合の高いカテゴリを特徴付けると考えられ、分類のために有効な単語と言える。

一方、その単語を含む文書の割合がカテゴリによって差がない場合は、逆に分類にとって有効でないと考えられる。このような分布の偏りを評価するために、エントロピーを計算する。ここで、エントロピーは、分布の偏りが大きい（分類に有効）ほど小さい値となり、偏りが小さい（分類に有効でない）ほど大きい値をとる。有効度は、「１−エントロピー」と定義する。

従って、ステップＳ１５で、その求めた有効度が閾値より大きいか否かを判別する。有効度が閾値より小さい（分類に有効）と判断するとステップＳ１６に進み、その単語を有効語とみなし、有効語辞書に登録してステップＳ１７に進む。一方、有効度が閾値以上（分類に有効でない）の場合はステップＳ１６の有効語辞書（記憶部２に設けられる）への登録処理をスキップしてステップＳ１７に進み、その判定が済んだ単語を単語リストから削除する。尚、本実施の形態では、閾値の値を適切に設定して、文書の分類を有効に行える範囲で極力多数の有効語を抽出して有効語辞書に登録するようにしている。

そしてステップＳ１８で、単語リストが空であるか否か（全ての単語に対する判定が終了したか）を判別し、空でなければステップＳ１３に戻って、次の単語について同様の処理を行い、単語リストが空になると、この有効語の抽出処理を終了する。尚、この処理は手動で行うこともできる。

次に、基底語の抽出処理を説明する。基底語としては、それぞれが分類のための有効度が高いものであると同時に、お互いに相関の低い組合わせであることが望ましい。例えば、「為替」「最高値」「景気」「財テク」「インフレ」…などが有効語として有効語辞書に登録されていたとする。これらは、それぞれ「経済」というカテゴリをよく特徴付ける単語といえる。しかし「為替」と「最高値」は同じ文書内によく現れるので、この両方を基底語として採用するのは冗長である。むしろ、「為替」「財テク」「インフレ」等を基底語として選択し、有効語辞書において「最高値」と「為替」の相関情報を付与する形にした方がよい。

このような考えに基づいた基底語の抽出処理を図４に示すフローチャートを参照して説明する。

図４は、本実施の形態に係る情報検索装置における基底語の抽出処理を示すフローチャートで、この処理を実行するプログラムは記憶部２に記憶されて中央処理部１の制御の下に実行される。

この基底語の抽出処理において、まずステップＳ２１で、有効語辞書に登録された単語（有効語）同士の共起確率を文書データベースに保持された文書から計算する。単語Ｗの単語Ｗ’に対する共起確率は、（ＷとＷ’を同時に含む文書の数）／（Ｗを含む文書の数）で求められる。次にステップＳ２２で、初期設定として、その選択された基底語を保持する基底語リスト（記憶部２）、基底語の候補を保持する基底語候補リスト（記憶部２）をそれぞれ空にし、選択された基底語数ｎ（記憶部２）を「０」とする。そしてステップＳ２３で、有効語辞書に登録されている単語の内、基底語リストＢに保持されている単語を除く全ての単語を基底語候補として基底語候補リストに保持すると共に、基底語の評価値の最大値を「０」に初期化する。そしてステップＳ２４で、基底語候補リストから任意の単語Ｗを取り出し、この単語Ｗの基底語としての評価値を計算する（ステップＳ２５）。

この評価値は、次のようにして求める。選択された基底語リストが、まだ空のときは、評価値は有効度とする。既に基底語が選択されている場合は、単語の基底語しての評価値は、単語自身の文書分類のための有効度が高いほど高くなり、基底語との相関が高いほど低くなる
次にステップＳ２６で、ステップＳ２５で計算された評価値が最大値より大きいか否かを判別し、大きければステップＳ２７に進み、次の基底語候補に単語をセットし、最大値を単語の評価値に更新してステップＳ２８に進む。一方、評価値が最大値以下であればステップＳ２７の処理をスキップして、ステップＳ２８に進む。ステップＳ２８では、基底語候補リストから、その判定済の単語を削除する。そしてステップＳ２９で、基底語候補リストが空になったか（全ての基底語候補の有効度計算が終了したか）否かを調べ、空でなければステップＳ２４へ戻って、残りの有効語（基底語候補）について同じ評価を行う。ステップＳ２９で、基底語候補リストが空になるとステップＳ３０に進み、基底語候補を基底語リストに加え、基底語数を１つインクリメントする。そしてステップＳ３１で、基底語数がユーザが予め設定した数に達したか否かを調べ、達していなければステップＳ２３に戻って、次の基底語候補を選択する。こすいて基底語の数が設定数に達したら、この基底語抽出処理を完了する。

このようにして抽出された基底語と有効語辞書に登録された各単語との相関情報を有効語辞書に登録する。これは、有効語辞書中の各単語に対し、単語の基底語に対する共起確率を記述することによって行う。また、同義語辞書を用いて、同義の有効語には同じ相関情報を付与するようにする。これも手動で事前に処理することも可能である。

図５に示すフローチャートを参照して、ベクトル表現処理を説明する。このベクトル表現処理により作成されたベクトルにより分類カテゴリが決定される。

図５は、本実施の形態に係る情報検索装置におけるベクトル表現処理を説明するフローチャートで、この処理を実行するプログラムは記憶部２に記憶されて中央処理部１の制御の下に実行される。

まずステップＳ４１で、ベクトルを初期化する。次にステップＳ４２で、対象とする文書を形態素解析し、ステップＳ４３で、その文書に含まれる単語と、その頻度の組からなる単語リストを記憶部２に作成する。そしてステップＳ４４で、その単語リストから任意の１つ単語と、その頻度の組を取り出す。次にステップＳ４５で、その単語を、図３のフローチャートに従って作成した有効語辞書で引いて、ステップＳ４６で、その単語が有効語辞書に登録されているか否かを調べる。ここで登録されていなければステップＳ４４へ戻る。一方、その単語が有効語辞書に登録されていればステップＳ４７に進み、その有効語辞書を基に、単語のベクトル表現を生成し、そのベクトルを更新する（ステップＳ４８）。そしてステップＳ４９で、その組合せを単語リストから削除してステップＳ５０で、単語リストが空になったか（ステップＳ４３で抽出した全ての単語の処理が完了したか）否かを調べる。空でなければステップＳ４４に戻って、次の単語について同様の処理を行う。単語リストが空であれば処理を終了する。

このようにして、有効語辞書を用いて、文書の内容をベクトルで表現することができる。即ち、まず分類に有効な有効語をできる限り多く有効語辞書に登録する。そしてこの中から、文書を表現するベクトル空間の軸となる基底語をなるべく少数抽出する。そして、これら基底語と有効語辞書に登録された各有効語との相関情報を有効語辞書に持たせる。これにより分類対象として入力された文書に含まれる単語が、辞書登録した有効語のいずれかに一致する確率を高めると共に、有効語と基底語の相関情報を基に、文書を少ない次元のベクトルとして表現することにより、ベクトル空間上での処理コストを低くするようにしている。

尚、本発明は上記実施の形態に限定されることなく、例えば、上記のように文書から単語を抽出するときに形態素解析を用いることなく、字種切りなどの方法を用いて単語抽出における処理速度を上げるようにしてもよい。また、上記実施の形態では、単語の分類のための有効度を評価するのに、エントロピー計算を利用したが、分布の偏りを評価できるものであれば、他の評価関数を用いてもよい。

更に、基底語の評価関数は、上記実施の形態に示したものに限定されず、その単語自身のための有効度と、基底語同士の相関を考慮したものであれば、他の評価関数を用いてもよい。

また上記実施の形態では、有効語辞書に、辞書中の各単語それぞれに、全ての基底語との相関情報を付与するものとしたが、相関の高い上位いくつかの基底語との相関情報のみを付与して、有効語辞書の規模を削減するようにしてもよい。また単純な分野辞書、同義語辞書、共起辞書などによる分類でもよい。検索データの登録は検索方法に合せて必要なデータを登録する。

図６は、本実施の形態に係る情報検索装置における概念検索のための登録処理を示すフローチャートで、この処理を実行するプログラムは記憶部２に記憶されて中央処理部１の制御の下に実行される。

この概念検索登録処理は、ステップＳ６１の言語解析結果取得処理と、ステップＳ６２の文書ベクトル生成処理と、ステップＳ６３のインデックス登録処理とで構成されている。

図６において、文書は登録される段階で、まずステップＳ６１で、言語解析の結果を取得し、その文書に含まれる単語を取得する。次にステップＳ６２で、文書ベクトルを生成し、その文書内に出現する単語から、基本ベクトル辞書を用いて文書ベクトルを算出する。

図７は、この基本ベクトル辞書の構成を示す図で、記憶部２に記憶されている。

図に示すように、この基本ベクトル辞書は、単語毎にベクトル表現時のそれぞれの次元（Ｄｉｍ．）に対応した特徴量を格納している。次元は、その単語本来の意味によって分類された基準や、その単語の使用分野に応じて分類された基準等が採用される。「単語１」の次元０１（「Ｄｉｍ．０１」）の特徴量は「０」であり、次元０２（「Ｄｉｍ．０２」）の特徴量は「２３」であることが分かる。

このように、この基本ベクトル辞書から、１つの単語におけるそれぞれの次元（Ｄｉｍ．）の特徴量を得ることが可能となる。この特徴量は、その単語が使用されることにより、その文書がその分類基準（＝次元）をどれぐらい特徴付ける可能性があるかを示す値と解釈できる。文書を構成する全ての単語から得られた分類基準別（次元別）の特徴量から、その文書全体の特徴量が分類基準を次元とするベクトルで表現される。こうして得られたベクトルをノルム＝１で正規化した値を文書ベクトルとして格納する。

その後のインデックス登録処理（ステップＳ６３）では、文書ベクトルを図８に示すようなインデックスに格納する。「文書ＩＤ＝６９４７」の文書ベクトルの「Ｄｉｍ．０１」の特徴量は、「１８３」であり、「Ｄｉｍ．０２」の特徴量は、「０．２１４」であることが分かる。

次に図９は、検索対象となる複数の文書が４つのカテゴリ（ここでは「スポーツ」「政治」「経済」「環境」）に分類されている例を示す図である。

図１０は、本実施の形態に係る情報検索装置における検索処理を説明するフローチャートで、この処理を実行するプログラムは記憶部２に記憶されて中央処理部１の制御の下に実行される。

まずステップＳ７１で、入力部３により入力されるクエリー（検索データ）を取得し、次にステップＳ７２で、その取得したクエリーの言語解析を行う。次にステップＳ７３で、その取得したクエリーの言語解析の結果を基に、そのクエリーを分類する。このステップＳ７３の分類の結果に基づいて、ステップＳ７４で、検索する対象の文書のカテゴリを決定する。そしてステップＳ７５で、ステップＳ７４で決定した検索対象（カテゴリ）の文書を検索する。そしてステップＳ７６で、この検索処理による検索結果リストを表示部４に一致度の高い順に一覧表示する。

図１１は、図１０のステップＳ７５の検索処理にフレーズ検索を適用した場合の詳細化したフローチャートである。

このフレーズ検索は、ステップＳ８１のクエリーに含まれる単語の取得処理と、ステップＳ８２のクエリーに含まれる単語間の関係を取得する処理と、ステップＳ８３の類似度の算出処理とで構成されている。

ステップＳ８１のクエリーに含まれる単語の取得処理では、ステップＳ４２（図５）の形態素の解析結果からクエリーに含まれる単語を取得する。次にステップＳ８２のクエリーに含まれる単語間の関係取得処理は、ステップＳ４２（図５）での形態素の解析結果から、クエリーに含まれる単語の構文情報を取得する処理である。またステップＳ８３の類似度の算出処理は、ステップＳ８１とステップＳ８２で取得したクエリーに含まれる単語とその単語間の関係と、文書に含まれる単語と、その単語間の関係を比較して、そのクエリーと文書中の文との類似度を算出する処理である。

図１２は、図１０のステップＳ７５の検索処理に概念検索を適用した場合の詳細化したフローチャートである。

この概念検索は、ステップＳ９１のクエリーの言語解析の結果を取得する処理と、ステップＳ９２のクエリーベクトルの生成処理と、ステップＳ９３の類似度の算出処理とから構成される。

ここで、ステップＳ９１のクエリーの言語解析結果の取得処理は、ステップＳ７２（図１０）で生成したクエリーの言語解析の結果を取得する処理である。ステップＳ９２のクエリーベクトルの生成処理は、ステップＳ９１で取得した解析結果からクエリーベクトルを生成する処理であり、ステップＳ９３の類似度の算出処理は、ステップＳ９２で得られたクエリーベクトルと、登録時に記憶部２に格納された文書毎の文書ベクトルとを比較して、そのクエリーと文書中の文との類似度を算出し、検索結果としてリストアップする処理である。

ここで前述の図９のように、「政治」「経済」「環境」「スポーツ」の４つのカテゴリに分類された複数の文書が記憶部２に格納されている場合で説明する。

図１３は、入力部３から入力されるクエリー（文字列）の入力画面の表示例を示す図である。

この図１３では、クエリーとして「日本の経済における金利の影響について」が入力されている。

次に、このクエリーに基づく検索処理を図１０の前述のフローチャートを参照して具体的に説明する。

まずステップＳ７１で、入力部３を使用して入力されるクエリー「日本経済における金利の影響について」を取得する。次にステップＳ７２で、ステップＳ７１で取得したクエリーの言語解析を行う。ここでは形態素に分解された「日本」「経済」「における」「金利」「の」「影響」「について」を基に、前述の登録文書の分類と同様な手法でクエリーベクトルを生成する。そして、このクエリーベクトルと図９のカテゴリとを比較する。ここでは「経済」のカテゴリに分類される。

このステップＳ７３の分類の結果、検索する対象を「経済」カテゴリに決定する（ステップＳ７４）。次にステップＳ７５で、この決定した「経済」カテゴリに属する文書を検索対象として検索する。この検索ステップの検索結果リストを図１４のように表示部４に類似度の高い順に一覧表示する（ステップＳ７６）。

図１４は、本実施の形態に係る情報検索装置における検索結果を示す図である。

図１４では、クエリー「日本経済における金利の影響について」に対する検索結果の内、最も類似度の高いものから順に５件分が表示されている。

＜検索動作の具体的な説明＞
次に、上述した各フローチャートで説明した処理で実現される本実施の形態に係る検索処理について具体的に説明する。

１．フレーズ検索
図１０のステップＳ７５の検索処理にフレーズ検索を適用した場合の詳細を、図１５（Ａ）〜（Ｃ）のデータ例と図１１のフローチャートとを参照して説明する。

図１５（Ａ）に示すように、クエリーとして「画像を印刷する。」が入力された場合、クエリーに含まれる単語の取得処理（図１１のステップＳ８１）では、「画像」「を」「印刷する。」を取得する。

次にステップＳ８２（図１１）の単語間の関係取得処理では、「画像」が「印刷する」に係っている、ことを取得する。続くステップＳ８３（図１１）の類似度の算出処理では、クエリーに含まれる単語と単語間の関係が、文書の単語と単語間の関係に類似している度合いを算出する。

例えば、図１５（Ｂ）の文書１では、単語「画像」と単語「印刷する」が含まれ、『「画像」が「印刷する」に係っている』ことと、『「高速」が「印刷する」に係っている』ことが示されている。ここでは、『「画像」が「印刷する」に係っている』点が、図１５（Ａ）のクエリーと、図１５（Ｂ）の文書１との間で類似している。よって、文書１は、類似したフレーズを含んでいる類似度（＝１−単語による減点（０）−関係による減点（単語間距離１単語なので０．１））＝０．９となる。

次に図１５（Ｃ）の文書２の場合は、単語「画像」と単語「印刷する」が含まれている点は共通しているが、「画像」が「読み込む」に係っており、「印刷する」が「文書」に係っているため、類似度は（＝１−単語による減点（０）−関係による減点（係り先が違う０．５））＝０．５となる。

従って、類似度の大きい図１５（Ｂ）に示した文書１が検索結果となって表示部２に表示されることになる。

図１９は、前述のクエリー「日本の経済における金利の影響について」に基づく検索処理をフレーズ検索により行った場合の検索結果の表示例を示す図である。尚、図１９において、（１）〜（３）の検索結果は「日本経済」が含まれているため実質的に同じ類似度であるが、より現在（平成１６年度）に近い時期の順に順番をつけている。

２．概念検索
次に、図１０の検索処理（ステップＳ７５）に概念検索を適用した場合の詳細について、図１２のフローチャートを参照して説明する。

まずステップＳ９１のクエリー言語処理の結果を取得し、そのクエリーに含まれる単語を取得する。次にステップＳ９２のクエリーベクトル生成処理では、文書ベクトル生成と同様に、基本ベクトル辞書によりクエリーのベクトルを生成する。そしてステップＳ９３の類似度の算出処理では、クエリーの特徴ベクトルと、それぞれの文書ベクトルの類似度を算出する。

図２０は、前述のクエリー「日本の経済における金利の影響について」に基づく検索処理を概念検索により行った場合の検索結果の表示例を示す図である。

このように本実施の形態１によれば、目的の文書やアノテーション付きの画像等の情報を検索する際に、入力されたクエリーを言語解析し、その解析結果（構文情報など）から、どの検索モードを適用するかを判定し、その判定した検索モードを選択して実行する。これにより、ユーザが検索モードを選択することなく、よりノイズの少ない精度の高い検索結果が自動的に得られる。よって、目的の情報を効果的に検索することができる。

［実施の形態２］
図１６は、本発明の実施の形態２に係る検索手順を示すフローチャートである。

まずステップＳ１０１で、入力部３により入力されたクエリーを取得し、次にステップＳ１０２で、その取得したクエリーの言語解析を行う。更にステップＳ１０３で、そのクエリーの言語解析の結果を基にクエリーをカテゴリに分類する。この分類の結果、検索する対象を決定し、その決定した検索対象を検索する（ステップＳ４）。ここで検索対象が「Ａ」の場合はステップＳ１０５で、その検索対象（カテゴリＡ）を検索し、検索対象が「Ｂ」の場合はステップＳ１０６で、その検索対象（カテゴリＢ）を検索する。こうしてステップＳ１０５の検索ステップとステップＳ１０６の検索ステップの検索結果リストを表示部４に類似度の高い順に一覧表示する（ステップＳ１０７）。

次に図１６の検索手順を示すフローチャートをデータに沿って流れを説明する。

図１７は、７つのカテゴリに分類された複数の文書が記憶部２に蓄積されている状態を示している。ここでは「政治」「世界経済」「日本経済」「環境」「国際」「スポーツ」「娯楽」の７つのカテゴリが含まれている。

まずステップＳ１０１で、画面を使用して入力部３によりクエリー「世界経済における日本経済の影響について」を取得し、次にステップＳ１０２で、その取得したクエリーの言語解析を行う。「世界」「経済」「における」「日本」「経済」「の」「影響」「について」、更に、そのクエリーの言語解析の結果を基に、検索対象の登録文書の分類と同様な手法でクエリーベクトルを生成し、各カテゴリと比較し、「世界経済」と「日本経済」の２つのカテゴリに分類する（ステップＳ１０３）。この分類の結果、検索する対象を「世界経済」「日本経済」のカテゴリに決定する（ステップＳ１０４）。次にステップＳ１０５で、こうして決定した「世界経済」カテゴリのみを検索対象として検索する。またステップＳ１０６では、決定した「日本経済」カテゴリのみを検索対象として検索する。こうしてステップＳ１０５とステップＳ１０６の検索ステップの検索結果リストを図１４のように表示部４に類似度の高い順に一覧表示する（ステップＳ１０７）。ここでは２つの分類カテゴリに分類された例を記述したが、２つに限定されるものではない。

［実施の形態３］
図１８は、本発明の実施の形態３に係る情報検索手順を示すフローチャートである。

まずステップＳ１１１で、入力部３により入力されるクエリーを取得する。次にステップＳ１１２で、その取得したクエリーの言語解析を行う。そしてステップＳ１１３で、検索対象が「Ａ」（ここでは、所定のカテゴリの文書を管理しているサーバＡ）に指定されるとステップＳ１１４で、その指定された１つの検索対象のカテゴリに分類するために、ステップＳ１１２で取得したクエリーの言語解析の結果を基にクエリーを分類する。次にステップＳ１１５で。ステップＳ１１４の分類の結果に基づいて検索する。

一方、ステップＳ１１３で、検索対象が「Ｂ」（ここでは、所定のカテゴリの文書を管理しているサーバＢ）に指定されるとステップＳ１１６に進み、ステップＳ１１２のクエリーの言語解析の結果を基に分類する。次にステップＳ１１７で検索する。こうしてステップＳ１１８では、ステップＳ１１５の検索処理と、ステップＳ１１７の検索処理による検索結果リストを表示部４に、類似度の大きい順に一覧表示する。

次に図１８の情報検索手順を示すフローチャートを図９などのデータに沿って流れを説明する。

図９のように「政治」「経済」「環境」「スポーツ」の４つのカテゴリに分類された複数の文書が記憶部２に格納されているサーバＡと、図１７のように「政治」「世界経済」「日本経済」「環境」「国際」「スポーツ」「娯楽」の７つのカテゴリに分類された複数の文書が記憶部２に蓄積されているサーバＢのように、複数のサーバにそれぞれ異なるカテゴリに分類されている複数の文書を検索する。

まず入力部３からクエリー「世界経済における日本経済の影響について」を入力し（ステップＳ１１１）、次にステップＳ１１２で、その取得したクエリーの言語解析を行う。次にステップＳ１１３で、指定された検索対象のサーバを判定する。ここではサーバＡとサーバＢを検索対象とする。ステップＳ１１４では、ステップＳ１１３でサーバＡが指定された場合で、サーバＡの分類カテゴリ（４種類）への分類するために、ステップＳ１１２で取得したクエリーの言語解析の結果「日本」「経済」「における」「金利」「の」「影響」「について」を基に、サーバＡで登録文書の分類と同様な手法でクエリーベクトルを生成し、サーバＡの各カテゴリと比較し、そのクエリーを「経済」のカテゴリに分類する。こうしてステップＳ１１５で、その決定した「経済」カテゴリを検索対象として検索する（ステップＳ１１５）。

またサーバＢに対して分類カテゴリ（７種類）へ分類する場合はステップＳ１１６で、ステップＳ１１２で取得したクエリーの言語解析の結果、「日本」「経済」「における」「金利」「の」「影響」「について」を基に、サーバＢの登録文書の分類と同様な手法でクエリーベクトルを生成する。このクエリーベクトルとサーバＢの登録文書の各カテゴリと比較し、「日本経済」のカテゴリに分類する。次にステップＳ１１７で、この決定した「日本経済」カテゴリを検索対象として検索する。こうしてステップＳ１１５の検索処理と、ステップＳ１１７の検索処理の結果をマージし、その検索結果リストを図１４のように表示部４に、その類似度の高い順に一覧表示する（ステップＳ１１８）。

尚、この実施の形態３では。２つのサーバＡ，Ｂの場合で説明したが、本発明は２台に限定するものではなく、１つ又は複数のサーバの場合にも適用可能である。また、それぞれのサーバで異なる分類手法を適用しても良い。

［実施の形態４］
図２１は、本発明の実施の形態４に係る情報処理装置の概略構成を表すブロック図で、前述の図１の構成と共通する部分は同じ記号で示し、それらの説明を省略する。

図において、出力部１０３は前述の表示部４やプリンタなどの印刷部などを含む。キーボードやファイル等の入力部３から入力された登録用の文書は、メモリやハードディスクなどの記憶部２に展開された検索処理プログラム１１１や分類処理プログラム１１２により、ＣＰＵ１で処理されて記憶部２に登録される。分類処理プログラム１１２は、その登録用の文書の中からキーワードを抽出し、その抽出したキーワードを基に分類処理を実行し、その文書の分類情報を生成する。検索処理プログラム１１１は、クエリー文書の中からキーワードを抽出し、同じく記憶部２に記憶されている検索用索引データ１１３に登録する。

文書の検索時、キーボードなどの入力部３から入力された検索条件から検索処理プログラム１１１によって検索条件となる単語を抽出する。その検索条件によって展開単語辞書データ１１４を取得して検索が実行される。この検索処理プログラム１１１は、検索条件から検索キーワードを抽出し、単語情報を見出しとし、文書の情報や文書に含まれる単語の特徴を格納した検索用索引データ１１３から、入力された検索条件に合う文書を取得する。そして、その検索条件に対する類似性の付与や最終的な結果とするかどうかを判断し、その結果をディスプレイなどの出力部１０３に出力する。

また本実施の形態の動作環境は、単体のコンピュータ以外にも、ローカルなネットワーク環境、或はインターネット環境にも対応することができる。

図２２は、本発明の実施の形態４に係る情報処理装置における文書登録時の動作を示すフローチャートである。

まずステップＳ１２１で、入力された文書に対して文書解析処理を行なう。この文書解析処理では、形態素解析などの処理によって文書を単語単位に切り分ける。例えば、文書１として「本国会で家庭内暴力に関する法案が成立する見込み。」を形態素解析を行なって単語単位に分割する。その結果、次のように分割される。「本（接尾辞）／国会（名詞）／で（助詞）／家庭内暴力（名詞）／に（助詞）／関する（動詞）／法案（名詞）／が（助詞）／成立する（動詞）／見込み（名詞）／。」
次にステップＳ１２２で、その解析された文書から検索処理や分類処理で必要な単語を抽出する。本実施の形態４では、品詞が「名詞」「動詞」「形容詞」「形容動詞」の単語をキーワードとして抽出する。従って、「国会」「家庭内暴力」「関する」「法案」「成立」「見込み」をキーワードとして抽出する。

次にステップＳ１２３では、この文書をカテゴリ分類した分類情報を作成する。

図２３は、カテゴリ別の高頻度キーワード情報の一例を示す図である。

この分類別の高頻度キーワード情報を参照して、文書内のキーワードの使用状況などを考慮し、文書に対して分類情報を付加する。ここでは「国会」「法案」「成立」などは、［政治］というカテゴリに多く出現する単語であることがわかる。そのため、文書１は、カテゴリ［政治］に分類される。

次にステップＳ１２４で、検索用のインデックスデータを作成する。この検索用のインデックスデータとして最低限必要な情報は、データの検索時に見出しとなる表記文字列の情報と、その文字列が出現した文書の情報である。

図２４は、本実施の形態４に係る文書１（カテゴリ「政治」）の検索用インデックスの一例を示す図である。

ここではステップＳ１２２で抽出したキーワードを見出し文字列とし、出現文書ＩＤとして登録した文書である「文書１」を格納する。次にステップＳ１２５で、文書と分類情報とをリンクして格納する（図２５参照）。ここでは、文書ＩＤと、ステップＳ１２３で生成した分類情報とをリンクし、文書分類データとして格納する。

図２５は、この文書分類データの一例を示す図である。

ここでは文書を特定する文書ＩＤと、その分類情報を格納する。ここでは前述したように「文書１」は、「政治」に分類されているため、文書ＩＤには「文書１」が、その分類情報には「政治」が格納されている。

以上の処理によって、「文書１」の登録処理が終了する。

複数の文書を登録する場合には、前述のステップＳ１２１〜Ｓ１２５の処理を、その文書の数に対応する回数繰り返す。本実施の形態４では、図２６に示す「文書１」〜「文書５」を登録する。

その結果、図２７に示す検索用インデックスデータと図２８に示す文書分類データとを作成できる。

図２７は、図２６に示す各文書に含まれる見出し文字列の抽出例を示す図である。

図２８は、これら見出し文字列に基づいて分類された各文書に対応する分類情報の一例を示す図である。

次に本発明の実施の形態４に係る情報処理装置による検索処理について説明する。

図２９は、本実施の形態４に係る情報処理装置による検索処理を説明するフローチャートで、この処理を実行するプログラムは記憶部２に記憶されて実行される。

まずステップＳ１３１で、入力部３から検索条件（クエリー）を入力する。ここでは検索条件を自然文或は論理式で入力する。本実施の形態４では自然文で、「家庭内暴力の問題」と入力した場合で説明する。次にステップＳ１３２で、そのクエリーに含まれるキーワードを抽出する。ここではステップＳ１３１で入力した検索条件（クエリー）に対して、形態素解析などの文字切り処理を行ない、検索の際のキーワードとなる文字列（単語）を抽出する。ここでは検索条件である自然文「家庭内暴力の問題」は次のように単語切りされる。

「家庭内暴力（名詞）／の（助詞）／問題（名詞）」
こうして切り出された文字列から、登録時のキーワードの条件、即ち品詞が名詞、動詞、形容詞、形容動詞の単語をキーワードとする。従って、「家庭内暴力」と「問題」がキーワードとして抽出される。

次にステップＳ１３３で、キーワードの展開が指定されているかどうかを判定する。キーワードの展開が指定されていない場合は、その取得したキーワードをそのまま検索条件としてステップＳ１３６に進む。一方、キーワード展開が指定されている場合はステップＳ１３４に進み、そのキーワードを、単語展開辞書１１４を参照して展開する。

図３０は、本実施の形態４で使用する展開辞書１１４の内容の一部の一例を示す図である。

図において、例えば展開対象語が「問題」は、「トラブル」と「課題」に展開されることがわかる。また対象語が「ＤＶ」の場合は、「デジタルビデオ」、「ドメスティックバイオレンス」、「家庭内暴力」の展開語があるが、これらの展開語には制限がついている。例えば「デジタルビデオ」は「デジタルビデオ（産業）」とあり、（）内の「産業」は展開分類を指定するための情報である。これにより、この「デジタルビデオ」は、検索対象となる文書の分類情報（カテゴリ）が「産業」であった場合にのみ有効になり、それ以外の分類情報（カテゴリ）では無効になることを表わしている。同様に「ドメスティックバイオレンス」「家庭内暴力」には、「政治・社会」が付与されている。従って、これら「ドメスティックバイオレンス」「家庭内暴力」は、検索対象の文書の分類情報が「政治」もしくは「社会」の場合にのみ有効になる。

尚、例えば、「家庭内暴力」だけを「文化」という分類情報に対しても有効にしたい場合には、「家庭内暴力（政治・文化・社会）」とすれば良い。これにより、「家庭内暴力」は、検索対象の文書の分類情報が「政治」「文化」「社会」のときにも有効になる。また、検索対象の文書の分類情報に依存しない一般的な展開語には、これらの分類情報が付与されていない（「トラブル」「問題」「課題」など）
本実施の形態４に係るキーワードは、「家庭内暴力」と「問題」であるので、展開辞書１１４を検索して、「家庭内暴力」は「ＤＶ（政治・社会）」「デジタルビデオ（産業）」「ドメスティックバイオレンス（（政治・社会））に展開される。同様に「問題」は「トラブル」「課題」に展開される。

次にステップＳ１３５で、こうして展開した展開語を取得して検索条件を作成する。即ち、展開前の検索条件である「家庭内暴力」と「問題」は、「家庭内暴力ｏｒＤＶ（政治・社会）ｏｒドメスティックバイオレンス（政治・社会）」と「問題ｏｒトラブルｏｒ課題」という検索条件になる。ここで「ｏｒ」は、択一条件「又は」を示す。

こうして検索に使用されるキーワードが決定されると、次にステップＳ１３６で、検索用インデックスを用いた検索処理を実行する。

本実施の形態４では、文書１から文書５に登録されている検索用インデックスデータ（図２７）を検索する場合で説明する。検索用インデックスデータをステップＳ１３５で作成された検索条件で検索し、以下のような情報を取得することができる。

家庭内暴力文書１
ドメスティックバイオレンス（政治・社会）文書３
ＤＶ（政治・社会）文書２、文書５
問題文書２、文書５
トラブル、課題検索結果無し。

こうして「家庭内暴力」では、文書１、文書２、文書３、文書５が検索結果の候補となり、「問題」では、文書２と文書５が検索結果の候補となる。

ステップＳ１３７では、更に図２８の文書分類データを参照して、ステップＳ１３６で得られた結果候補から検索結果を作成する。ここでは「家庭内暴力」と「問題」は、キーワードであるため全ての分類に対して有効である。よって、ステップＳ１３６での検索結果候補を、そのまま最終の検索結果とすることができる。

一方、「ドメスティックバイオレンス（政治・社会）」に対しては、文書３が検索結果の候補である。この検索語は、図３０の展開辞書から、文書の分類情報が「政治」と「社会」のときにのみ有効な展開語となっている。そこで図２８の文書の分類情報を参照すると、文書３の分類情報は「社会」となっているため、文書３の検索結果は有効であると判断できる。

次に「ＤＶ（政治・社会）」に対しては、文書２と文書５の検索結果候補が存在している。展開語である「ＤＶ」が有功となる分類情報は、「社会」と「政治」である。ここで図２８の文書の分類情報を参照すると、文書２の分類は「社会」であるため、検索結果として有効である。一方、文書５の分類は「産業」であるため、文書５は、この展開語である「ＤＶ」の候補とはなり得ないことが分かる。

このようにして、「家庭内暴力」の検索結果として、文書１、文書２、文書３が抽出され、「問題」の検索結果として文書２と文書５が抽出される。こうして検索条件が「家庭内暴力の問題」のとき、その検索結果として文書２を出力できるようになる。

また、スコア情報を持たせることにより、他の検索候補を捨てること無く、低いスコアの検索結果も出力できる。また例えば、文書２＞文書１、文書３、文書５というように、スコア順に検索結果を出力するようにしても良い。

［実施の形態５］
前述の実施の形態４の検索用インデックスデータを使用して、この実施の形態５の説明をする。前述の実施の形態４では、「家庭内暴力」に対して「ＤＶ」を適用することができた。しかし、「ＤＶ」を入力したときに、「家庭内暴力（政治・社会）」と「デジタルカメラ（産業）」の展開語の適用を制御することは難しい。

そこで本実施の形態５では、検索条件に対して分類処理を行ない、検索の意図がどこにあるのか判断して検索処理を行なう。ここでは検索条件として「ＤＶの社会問題化」という文字列が入力された場合について説明する。

まず入力された検索条件からキーワードを取得する。即ち、「ＤＶ」「社会」「問題」をキーワードとする。次に、こうして抽出したキーワードを基に分類処理を行なう。

図２３に示す文類別の高頻度キーワード情報を参照して、検索条件に対する分類情報を生成する。本実施の形態５では、検索条件に対して「社会」という分類を付けることができる。

次に抽出したキーワードを検索用のキーワードとして検索処理を行なう。ここでキーワードの展開指示があった場合、前述の実施の形態４のステップＳ１３４と同様にして検索キーワードの展開を行なう。ここで「ＤＶ」の展開語には、図３０に示すように、「デジタルビデオ（産業）」「ドメスティックバイオレンス（政治・社会）」「家庭内暴力（政治・社会）」の展開語が存在することが分かる。

次に検索キーワードと検索キーワードの展開語によって、図２４に示す検索用インデックスデータを参照して、一致する文書情報を取得する。

本実施の形態５の検索条件は、「社会」に分類される検索条件であるので、「社会」の分類情報を持つ検索キーワードを重要展開語として優先する。そのため、優先度は「ＤＶ」＝「ドメスティックバイオレンス」＝「家庭内暴力」＞「デジタルビデオ」の関係が成立する。従って、検索した文書の重要度は、文書１＝文書２＝文書３＝文書５＞文書４ととなる。

更に、ここで使用されている「ＤＶ」は、「社会」という分類に属する単語であることが予想できる。よって、図２８の文書分類データを参照して、「ＤＶ」が「社会」という分類情報を持つ文書の検索結果を優先する。その結果、文書１＝文書２＝文書３＞文書５＞文書４となる。最後に、検索条件の分類情報と文書の分類情報が一致する文書を優先することで、文書２＝文書３＝文書１＞文書５＞文書４という検索結果を得ることができる。

以上説明したように本実施の形態５によれば、検索条件に、その検索語が含まれる文書の分類情報（カテゴリ）を含ませることにより、その検索語が含まれる文書が複数存在するような場合であっても、検索した文書に一致度の順位を付けて表示することが可能になる。

以上説明したように本実施の形態４，５によれば、分類情報を使用することによって、検索語の多義性により誤った文書が検索されたり、或は検索すべき文書が検索からもれるなどの不具合を解決できる。これにより検索精度の向上を図ることができる。

また本発明は、上述した実施の形態の装置に限定されず、複数の機器から構成されるシステムに適用しても、１つの機器から成る装置に適用してもよい。前述した実施形態の機能を実現するソフトウェアのプログラムコードを記憶した記憶媒体をシステムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（又はＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読み出し実行することによっても、完成されることは言うまでもない。

この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本発明を構成することになる。プログラムコードを供給するための記憶媒体としては、例えば、フロッピー（登録商標）ディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭを用いることができる。また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施形態の機能が実現されるだけではなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳなどが実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、次のプログラムコードの指示に基づき、その拡張機能を拡張ボードや拡張ユニットに備わるＣＰＵなどが処理を行って実際の処理の一部又は全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

本発明の実施の形態に係る情報検索装置の概略構成を示すブロック図である。実施の形態１に係る情報検索装置による文書等の自動分類登録処理を示すフローチャートである。本実施の形態に係る情報検索装置における、データベースに記憶された文書から単語を抽出して有効語かどうかを判定して登録する処理を説明するフローチャートである。本実施の形態に係る情報検索装置における基底語の抽出処理を示すフローチャートである。本実施の形態に係る情報検索装置におけるベクトル表現処理を説明するフローチャートである。本実施の形態に係る情報検索装置における概念検索登録処理のフローチャートである。本実施の形態に係る基本ベクトル辞書の構成を示す図である。本実施の形態に係る登録文書の文書ベクトルの一例を示す図である。検索対象となる複数の文書が４つのカテゴリに分類されている例を示す図である。本実施の形態に係る情報検索装置における検索処理を説明するフローチャートである。図１０のステップＳ７６における検索処理にフレーズ検索を適用した場合の詳細化したフローチャートである。図１０のステップＳ７５の検索処理に概念検索を適用した場合の詳細化したフローチャートである。クエリーの入力画面の表示例を示す図である。本実施の形態に係る情報検索装置における検索結果を示す図である。クエリーの例を示す図である。本発明の実施の形態２に係る情報検索手順を示すフローチャートである。７つのカテゴリに分類された複数の文書が記憶部に格納蓄積されている状態を示す図である。本発明の実施の形態３に係る情報検索手順を示すフローチャートである。クエリー「日本の経済における金利の影響について」に基づく検索処理をフレーズ検索により行った場合の検索結果の表示例を示す図である。クエリー「日本の経済における金利の影響について」に基づく検索処理を概念検索により行った場合の検索結果の表示例を示す図である。本発明の実施の形態４に係る情報処理装置の概略構成を表すブロック図である。本発明の実施の形態４に係る情報処理装置における文書登録時の動作を示すフローチャートである。カテゴリ別の高頻度キーワード情報の一例を示す図である。実施の形態４に係る文書１（カテゴリ「政治」）の検索用インデックスの一例を示す図である。実施の形態４に係る文書分類データの一例を示す図である。実施の形態４に係る文書の内容例を示す図である。図２６に示す各文書に含まれる見出し文字列の抽出例を示す図である。実施の形態４における見出し文字列に基づいて分類された各文書に対応する分類情報の一例を示す図である。実施の形態４に係る情報処理装置による検索処理を説明するフローチャートである。本実施の形態４で使用する展開辞書の一部例を示す図である。

Claims

それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置であって、
クエリー文字列を入力する入力手段と、
前記入力手段により入力された前記クエリー文字列を１つ又は複数のカテゴリに分類するクエリー分類手段と、
前記クエリー分類手段により分類された前記カテゴリに対応するカテゴリ情報を有する情報を検索対象として抽出する抽出手段と、
前記抽出手段で抽出された情報を検索対象として、前記入力手段により入力された前記クエリー文字列に基づく検索処理を実行する検索手段と、
前記検索手段による検索結果を表示する表示手段と、
を有することを特徴とする情報処理装置。
前記検索手段は、前記クエリーに含まれる単語及び構文情報と、検索対象の文書に含まれる単語及びその構文情報とに基づいて前記検索処理を実行することを特徴とする請求項１に記載の情報処理装置。
前記検索手段は、前記クエリーの内容を特徴付けるクエリーベクトルと、検索対象の文書の内容を特徴付ける文書ベクトルとに基づいて前記検索処理を実行することを特徴とする請求項１に記載の情報処理装置。
前記クエリー分類手段は、前記記憶デバイスに記憶されている文書のカテゴリ情報に対応するカテゴリのいずれかに分類することを特徴とする請求項１乃至３のいずれか１項に記載の情報処理装置。
前記表示手段は、前記検索結果を類似度の高い順に表示することを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。
文書を検索可能に登録する情報処理装置であって、
登録対象の文書に含まれる単語を抽出する抽出手段と、
前記抽出手段により抽出された単語が出現する頻度に応じて当該文書の分類情報を決定する決定手段と、
前記抽出手段により抽出された単語を検索用インデックスとし前記分類情報に関連付けて前記文書と共に登録する登録手段と、
を有することを特徴とする情報処理装置。
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置であって、
クエリー文字列を入力する入力手段と、
前記入力手段により入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列を抽出する抽出手段と、
前記キーワードとなる文字列に関連する展開文字列と当該展開文字列のカテゴリとを取得する取得手段と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索して検索候補を抽出する候補検索手段と、
前記候補検索手段により検索された文書の内、前記展開文字列のカテゴリと一致するカテゴリ情報を有する文書を検索結果とする検索手段と、
を有することを特徴とする情報処理装置。
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置であって、
クエリー文字列を入力する入力手段と、
前記入力手段により入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列及び前記クエリーのカテゴリを識別する識別手段と、
前記キーワードとなる文字列に関連し、前記クエリーのカテゴリと一致するカテゴリの展開文字列を取得する取得手段と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索する検索手段と、
を有することを特徴とする情報処理装置。
前記検索手段による検索結果を表示する表示手段を更に有することを特徴とする請求項７又は８に記載の情報処理装置。
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置の制御方法であって、
クエリー文字列を入力する入力工程と、
前記入力工程で入力された前記クエリー文字列を１つ又は複数のカテゴリに分類するクエリー分類工程と、
前記クエリー分類工程で分類された前記カテゴリに対応するカテゴリ情報を有する情報を検索対象として抽出する抽出工程と、
前記抽出工程で抽出された情報を検索対象として、前記入力工程により入力された前記クエリー文字列に基づく検索処理を実行する検索工程と、
前記検索工程での検索結果を表示する表示工程と、
を有することを特徴とする情報処理装置の制御方法。
前記検索工程では、前記クエリーに含まれる単語及び構文情報と、検索対象の文書に含まれる単語及びその構文情報とに基づいて前記検索処理を実行することを特徴とする請求項１０に記載の情報処理装置の制御方法。
前記検索工程では、前記クエリーの内容を特徴付けるクエリーベクトルと、検索対象の文書の内容を特徴付ける文書ベクトルとに基づいて前記検索処理を実行することを特徴とする請求項１０に記載の情報処理装置の制御方法。
前記クエリー分類工程では、前記記憶デバイスに記憶されている文書のカテゴリ情報に対応するカテゴリのいずれかに分類することを特徴とする請求項１０乃至１２のいずれか１項に記載の情報処理装置の制御方法。
前記表示工程では、前記検索結果を類似度の高い順に表示することを特徴とする請求項１０乃至１３のいずれか１項に記載の情報処理装置の制御方法。
文書を検索可能に登録する情報処理装置の制御方法であって、
登録対象の文書に含まれる単語を抽出する抽出工程と、
前記抽出工程で抽出された単語が出現する頻度に応じて当該文書の分類情報を決定する決定工程と、
前記抽出工程で抽出された単語を検索用インデックスとし前記分類情報に関連付けて前記文書と共に登録する登録工程と、
を有することを特徴とする情報処理装置の制御方法。
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置の制御方法であって、
クエリー文字列を入力する入力工程と、
前記入力工程で入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列を抽出する抽出工程と、
前記キーワードとなる文字列に関連する展開文字列と当該展開文字列のカテゴリとを取得する取得工程と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索して検索候補を抽出する候補検索工程と、
前記候補検索工程で検索された文書の内、前記展開文字列のカテゴリと一致するカテゴリ情報を有する文書を検索結果とする検索工程と、
を有することを特徴とする情報処理装置の制御方法。
それぞれが文字列を含む複数の情報を、当該情報のカテゴリを示すカテゴリ情報とともに保持する記憶デバイスから所定の情報を検索する情報処理装置の制御方法であって、
クエリー文字列を入力する入力工程と、
前記入力工程で入力された前記クエリー文字列に含まれる単語を基にキーワードとなる文字列及び前記クエリーのカテゴリを識別する識別工程と、
前記キーワードとなる文字列に関連し、前記クエリーのカテゴリと一致するカテゴリの展開文字列を取得する取得工程と、
前記キーワードとなる文字列と前記展開文字列とをキーワードとして前記記憶デバイスの文書を検索する検索工程と、
を有することを特徴とする情報処理装置の制御方法。
前記検索工程による検索結果を表示する表示工程を更に有することを特徴とする請求項１６又は１７に記載の情報処理装置の制御方法。
請求項１０乃至１８のいずれか１項に記載の制御方法を実行することを特徴とするプログラム。
請求項１９に記載のプログラムを記憶していることを特徴とする、コンピュータにより読取り可能な記憶媒体。