JP2006106970A - 情報検索装置、情報検索方法およびコンピュータプログラム - Google Patents
情報検索装置、情報検索方法およびコンピュータプログラム Download PDFInfo
- Publication number
- JP2006106970A JP2006106970A JP2004290379A JP2004290379A JP2006106970A JP 2006106970 A JP2006106970 A JP 2006106970A JP 2004290379 A JP2004290379 A JP 2004290379A JP 2004290379 A JP2004290379 A JP 2004290379A JP 2006106970 A JP2006106970 A JP 2006106970A
- Authority
- JP
- Japan
- Prior art keywords
- expanded
- word
- concept data
- words
- concept
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 41
- 238000004590 computer program Methods 0.000 title claims description 5
- 150000001875 compounds Chemical class 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000011161 development Methods 0.000 abstract description 21
- 241000167854 Bourreria succulenta Species 0.000 description 24
- 235000019693 cherries Nutrition 0.000 description 24
- 238000012545 processing Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 14
- 241000196324 Embryophyta Species 0.000 description 6
- 244000020551 Helianthus annuus Species 0.000 description 6
- 235000003222 Helianthus annuus Nutrition 0.000 description 6
- 235000005187 Taraxacum officinale ssp. officinale Nutrition 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- LPLLVINFLBSFRP-UHFFFAOYSA-N 2-methylamino-1-phenylpropan-1-one Chemical compound CNC(C)C(=O)C1=CC=CC=C1 LPLLVINFLBSFRP-UHFFFAOYSA-N 0.000 description 4
- 244000025254 Cannabis sativa Species 0.000 description 4
- 244000293323 Cosmos caudatus Species 0.000 description 4
- 235000005956 Cosmos caudatus Nutrition 0.000 description 4
- 241000220225 Malus Species 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 241000245665 Taraxacum Species 0.000 description 3
- 240000001949 Taraxacum officinale Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 235000007516 Chrysanthemum Nutrition 0.000 description 1
- 244000189548 Chrysanthemum x morifolium Species 0.000 description 1
- 241001672694 Citrus reticulata Species 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 単語展開の幅に柔軟性を持たせ、情報検索を好適に実行する。
【解決手段】 入力された単語または自然文から展開対象となる被展開語を選定し、選定された被展開語に対応する第1の概念データを概念データ辞書から抽出する。抽出された第1の概念データに対して所定値以上の類似度を有する第2の概念データを抽出する。そして、第2の概念データに対応付けられている展開語を抽出して、情報検索を実行する。なお、所定値については、1〜100などのようにアナログ的に指定できるようにしてもよい。
【選択図】 図1
Description
本発明は、コンピュータにおける情報検索技術に関する。
一般に、キーワードを用いた情報検索では、キーワードを含む情報だけが抽出され、キーワードが含まれない情報は抽出されないため、検索漏れが生じやすい。その改善方法として、入力されたキーワードを、関連する一以上の単語に展開することによって、検索漏れを少なくする手法がある。
特許文献1によれば、ニューラルネットワークを使用して、単語を関連語に展開する発明が開示されている。この例では「みかん」AND「冬」の検索条件が入力された場合について説明されている。「みかん」と「冬」を単語展開用のニューラルネットワークによって、それぞれ関連語に展開する。また、「みかん」に対して強い関連度で「静岡」「りんご」「こたつ」、弱い関連度で「猫」が抽出される。また「冬」の関連語として強い関連度で「こたつ」「猫」、弱い関連度で「りんご」「静岡」が抽出される。最終的に両方の単語に対して関連度が高い「こたつ」が高い関連語となり、その他の単語「猫」「りんご」「静岡」は弱い関連語として展開され、検索時には最初に入力した「みかん」「冬」に加えて「こたつ」「猫」「りんご」「静岡」によって検索が実行される。
特開平5−135110
しかしながら、従来技術では、展開対象の単語について得られる展開語は常に同一であったため、単語展開の柔軟性に欠けていた。たとえば、ユーザーが多数の展開語を用いて検索したい場合や、逆に、少数の展開語を用いて検索したい場合であって、従来は、常に画一的な単語展開しかできなかった。すなわち、展開の幅を自由に選択することができなかった。
このように、従来の単語展開技術では、ユーザーが展開レベルを柔軟に制御することができず、ユーザーにとって使いにくかった。また、単語単位での展開しかできなかったため、複合語や自然文などに対しては、これらを構成する個々の単語を単位として単語展開できなかった。
そこで、本発明は、このような課題および他の課題の少なくとも1つを解決することを目的とする。なお、他の課題については明細書の全体を通して理解できよう。
本発明によれば、入力された単語または自然文から展開対象となる被展開語を選定し、選定された被展開語に対応する第1の概念データを概念データ辞書から抽出する。抽出された第1の概念データに対して所定値以上の類似度を有する第2の概念データを抽出する。そして、第2の概念データに対応付けられている展開語を抽出して、情報検索を実行する。なお、所定値については、1〜100などのようにアナログ的に指定できるようにしてもよい。
本発明では、ある被展開語を展開して得られる展開語は、常に、一定ではなく、類似度の閾値や展開語の数などの所定値に応じて、柔軟に変更することができる。また、所定値については、1〜100などのようにアナログ的に指定できるので、ユーザーは、展開の幅を柔軟に選択できる。
以下に本発明の上位概念、中位概念および下位概念の理解に役立つ一実施形態を示す。なお、以下の実施形態に含まれる概念について、そのすべてが特許請求の範囲に記載されているとは限らない。ただし、これは特許発明の技術的範囲から意識的に除外したのではなく、特許発明と均等の関係にあるため特許請求の範囲には記載していない場合があることを理解していただきたい。
[第1の実施形態]
図1は、実施形態に係る情報処理装置の例示的なブロック図である。CPU101は、ROM103に格納されている制御プログラムに従って本装置全体の制御を行なう演算処理装置である。RAM102は、検索条件などの検索用データ111、ユーザーにより指定される類似度の閾値(所定値)データ112、および演算により算出されたデータなどを記憶する記憶手段である。ROM103は、オペレーティングシステム、後述のフローチャートに係る処理プログラム108、概念データ辞書109、および特徴概念テーブル110などの各種データ/プログラムを記憶する記憶手段である。なお、これらのデータやプログラムを磁気ディスク装置等の記憶手段に記憶してもよい。出力装置105は、液晶表示装置、または画像形成装置等であり、出力インターフェース104を介して、CPU101からデータなどを受信する。入力装置107は、キーボード、マウス等のポインティングデバイスなどであり、入力IF106を介して、CPU101に入力データを伝達する。入力装置107には、通信装置が含まれてもよい。
図1は、実施形態に係る情報処理装置の例示的なブロック図である。CPU101は、ROM103に格納されている制御プログラムに従って本装置全体の制御を行なう演算処理装置である。RAM102は、検索条件などの検索用データ111、ユーザーにより指定される類似度の閾値(所定値)データ112、および演算により算出されたデータなどを記憶する記憶手段である。ROM103は、オペレーティングシステム、後述のフローチャートに係る処理プログラム108、概念データ辞書109、および特徴概念テーブル110などの各種データ/プログラムを記憶する記憶手段である。なお、これらのデータやプログラムを磁気ディスク装置等の記憶手段に記憶してもよい。出力装置105は、液晶表示装置、または画像形成装置等であり、出力インターフェース104を介して、CPU101からデータなどを受信する。入力装置107は、キーボード、マウス等のポインティングデバイスなどであり、入力IF106を介して、CPU101に入力データを伝達する。入力装置107には、通信装置が含まれてもよい。
図2は、実施形態に係る情報検索装置の例示的な機能ブロック図である。図示されている機能は、処理プログラム108をCPU101が実行することにより実現される。
入力部201は、単語、複合語または自然文などの検索条件(検索キーワード)を入力する。選定部202は、検索条件から展開対象となる1以上の被展開語を選定する。記憶部203は、後述の概念データ辞書109を記憶している。読み出し部204は、選定された前記被展開語に対応する1以上の概念データを概念データ辞書109から読み出す。抽出部205は、読み出された概念データに対して、所定値以上の類似度を有する1以上の他の概念データに対応付けられている展開語を、概念データ辞書109から抽出する。情報検索部206は、抽出された展開語を、被展開語などの検索条件に追加して情報検索を実行する。処理プログラム108には、これらの各機能に対応するプログラムモジュールが含まれている。なお、類似度の閾値(または展開語の上限数)112を指定するための指定部207が含まれてもよい。
図3は、実施形態に係る情報検索処理の例示的なフローチャートである。ステップS300において、CPU101は、入力装置107から入力される検索条件と、類似度の閾値(所定値)または展開語の上限数などから検索条件データ111を作成して、RAM102に記憶する。
ステップS301において、CPU101は、入力装置107から入力された検索条件をRAM102から読み出し、当該検索条件から、展開の対象となる被展開語を選定する。
図4は、実施形態に係る被展開語の選定処理の一例を示す図である。たとえば、自然文「春の花」が検索条件として入力されると、CPU101は、処理プログラム108に含まれる形態素解析モジュールによって、単語切りだし処理を行ない、「春:名詞」「の:格助詞」「花:名詞」のように形態素を抽出する。一般的に助詞などは、検索条件に不要な単語であることから名詞である「春」と「花」を有効な被展開語として抽出する。論理式が検索条件として入力された場合は、ANDやORなどの演算子を除き、そのまま有効な被展開語として「春」と「花」を抽出する。ここで、抽出された被展開語は、RAM102に記憶され、情報検索の際に検索キーワードの1つとして使用される。
ステップS302において、CPU101は、ROM103の概念データ辞書109から、被展開語に対応付けられている概念データを読み出す。上述の例では、被展開語「春」を単語見出しとして、概念データ辞書を検索して、「春」の概念データを取得する。
図5は、実施形態に係る概念データ辞書の一例を示す図である。各概念データには、単語の見出し501と、概念のID 502と、概念の強さ503が格納されている。見出し語が「春」の場合、概念データ(概念ID:概念強度)として「季節:10」、「イベント:3」、「学校行事:5」、「春:10」、「花:7」、・・・などが登録されている。
ステップS303において、CPU101は、比較対象となる単語(比較候補)が存在するかどうか判定する。たとえば、概念データ辞書に登録されている全ての見出し語など、比較候補となっているすべての単語との比較を終了したとき、あるいは、見出し語またはその概念データが存在しなかった場合などに、比較候補がないと判定し、ステップS308へ進む。比較候補がまだ残っていれば、ステップS304に進む。
上述の例では、「春」の概念データが概念データ辞書109に存在し、しかもまだ比較処理を完了していないので、ステップS304に進む。
ステップS304において、CPU101は、比較候補の概念データを概念データ辞書109から読み出す。たとえば、概念データ辞書109にn個の見出し語が登録されている場合、i番目の見出し語の概念データを読み出す(i,nは自然数で、1=<i=<n)。ここでは、i番目の見出し語「桜」を比較候補とし、その概念データを読み出す。図5の例を参照すると、「桜」の概念データとして「春:10」「花:10」「植物:10」「樹木:10」「イベント:3」「学校行事:4」・・・など読み出される。
ステップS305において、CPU101は、被展開語の概念データと、比較候補の概念データとについて比較処理を実行する。たとえば、被展開語の概念データと、比較候補の概念データとから類似度を算出する。また、本実施形態では、一例として、ベクトル空間モデルを応用した類似度算出方法を紹介する。
ここで、W1は被展開語であり、W2は比較候補であり、W1(c)iは被展開語の概念データiであり、W2(c)iは被展開語の概念データiであり、nは総概念数である。上述の例を当てはめると、W1には春、W2には桜、W1(c)にはそれぞれ、春(季節)、春(春)、春(花)などの春に対する概念強度が格納される。同様にW2(c)には桜(季節)、桜(春)、桜(花)などの桜に対する概念強度が格納される。すなわち以下のようになる。
春(季節) =10
春(春) =10
春(花) =10
春(草) = 1
春(樹木) = 1
春(植物) = 1
春(イベント) = 3
春(学校行事) = 5
:
桜(季節) = 1
桜(春) =10
桜(花) =10
桜(草) = 1
桜(樹木) =10
桜(植物) =10
桜(イベント) = 3
桜(学校行事) = 5
:
これらから類似度を算出すると次のようになる。すなわち、春と桜のすべての次元について計算すると、類似度83.5という数値が算出される。
春(季節) =10
春(春) =10
春(花) =10
春(草) = 1
春(樹木) = 1
春(植物) = 1
春(イベント) = 3
春(学校行事) = 5
:
桜(季節) = 1
桜(春) =10
桜(花) =10
桜(草) = 1
桜(樹木) =10
桜(植物) =10
桜(イベント) = 3
桜(学校行事) = 5
:
これらから類似度を算出すると次のようになる。すなわち、春と桜のすべての次元について計算すると、類似度83.5という数値が算出される。
ステップS306において、CPU101は、算出された類似度が所定値以上であるかどうかを判定する。所定値については、ユーザーが入力装置107から入力する。所定値は、1〜100までの任意の数値など、アナログ的に数値を入力できるようにすることが好ましい。もし、展開レベル1または展開レベル2のいずれかを選択させるが如く、デジタル的にしか展開レベルを受け付けないとすると、展開レベルの選択の柔軟性が大きく失われてしまう。よって、本実施形態では、展開の柔軟性を確保できるように、アナログ的に類似度の閾値や展開語の上限個数を指定できるようにしている。
所定値として、あらかじめ0を設定しておくと、すべての比較対象単語を展開語として出力することができる。なぜなら、この例での概念強度は0ないし10であるため、類似度は0ないし100の値をとるからである。
所定値として、あらかじめ0を設定しておくと、すべての比較対象単語を展開語として出力することができる。なぜなら、この例での概念強度は0ないし10であるため、類似度は0ないし100の値をとるからである。
なお、類似度があまりにも低い展開語を用いて情報検索しても検索効率が低下してしまうので、ここでは所定値として80を設定するものとして説明する。上述したように春と桜の類似度は83.5であるので、閾値である80を超えている。よって、被展開語「春」の展開語として「桜」が抽出される。
ステップS307において、CPU101は、展開語を検索条件として設定する。たとえば、取得された展開語をRAM102に記憶する。また、(桜:83.5)の如く、類似度のデータを含めて記憶してもよい。
以上のようにS301からS307を繰り返し、すべての比較候補について比較処理を実行する。これにより、向日葵は35、花は75、夏は45、花見は80、卒業式は60、春分は92というように、各比較候補についての類似度が算出される。このとき、指定された所定値以上の類似度となる春分、桜、花見などが展開語として抽出される。
比較対象となるすべての見出し語について比較処理を終えると(ステップ303においてNo)、ステップS308において、CPU101は、他の被展開語が残存しているかどうかを判定する。まだ展開を終えてない被展開語が存在すれば、再びS302から展開処理を実行する。選定されたすべての被展開語について展開処理を終えた場合、本フローチャートに係る展開処理を終了する。
本実施形態の場合、「花」の展開処理をまだ終えていないので、S302からキーワード「花」について同様の処理を実行する。その結果、80以上の類似度を有する展開語として、以下のような展開語を得ることができる。
「春」の展開語:春期:97、春季:97、春分:92、桜:83.5、花見:80・・・
「花」の展開語:フラワー:100、生花:98、造花:95、華道:90、桜:82、たんぽぽ:82、向日葵:82、コスモス:82・・・。
「花」の展開語:フラワー:100、生花:98、造花:95、華道:90、桜:82、たんぽぽ:82、向日葵:82、コスモス:82・・・。
ちなみに、類似度の所定値を90以上にした場合、以下のような展開語となる。
「春」の展開語:春期:97、春季:97、春分:92
「花」の展開語:フラワー:100、生花:98、造花:95、華道:90。
「花」の展開語:フラワー:100、生花:98、造花:95、華道:90。
また、類似度の所定値を70以上にした場合、以下のような展開語となる。
「春」の展開語:春期:97、春季:97、春分:92、桜:83.5、花見:80、花:75、新春:72、正月:72、新緑70・・・
「花」の展開語:フラワー:100、生花:98、造花:95、華道:90、桜:82、たんぽぽ:82、向日葵:82、コスモス:82、春:75、鉢植え:73、花壇:70、花瓶:70・・・。
「花」の展開語:フラワー:100、生花:98、造花:95、華道:90、桜:82、たんぽぽ:82、向日葵:82、コスモス:82、春:75、鉢植え:73、花壇:70、花瓶:70・・・。
このように、展開語の数は類似度の閾値によって柔軟に決定することができる。たとえば、任意の検索条件と任意の類似度の所定値についての検索結果数が少なければ、類似度の所定値を低く設定しなおすことで、より多くの検索結果を得ることができる。逆に、検索結果数が多い場合は、類似度の閾値を高く設定しなおすことによって、検索結果数を絞ることが可能である。
また、展開処理によって算出される類似度は、検索処理のスコア付けに利用することもできる。たとえば、類似度が高ければ、検索処理のスコアも高くする。これにより、検索結果のソートが可能となり、便利であろう。
なお、類似度の閾値に代えて、展開語の数を指定できるようにしてもよい。この場合、CPU101は、類似度が上位となる指定数の展開語を抽出することになる。ユーザーが、展開語の数について限定したい場合には非常に有効であろう。
また、類似度の閾値や展開語のなどの所定値をアナログ的に指定できるようにしたので、ユーザーにとって比較的に馴染みやすい方法で、展開語の範囲を指定できる。なお、なお、展開レベルを3以上に区分けして設定できるようにしてもよい。このように、3以上の展開レベルからいずれかを選択できるようにしてもよい。
[第2の実施形態]
本実施形態では、入力された検索条件に複数の被展開語が含まれている場合に、検索条件全体としての概念データ(総合概念データ)を算出し、これに基づいて単語展開する例を説明する。
本実施形態では、入力された検索条件に複数の被展開語が含まれている場合に、検索条件全体としての概念データ(総合概念データ)を算出し、これに基づいて単語展開する例を説明する。
図6は、第2の実施形態に係る展開処理の例示的なフローチャートである。なお、既に説明済みの個所については、同一の参照符号を付すことにより簡潔に説明する。
ステップS300において検索条件が入力され、ステップS301において被展開語が選定され、ステップS302において各展開語の概念データが読み出される。その後、ステップS600において、CPU101は、入力された検索条件の全体をあらわすような総合概念データを作成する。総合概念データは、選定された全ての被展開語についての概念データを、一つの概念データに統合したものである。一つの概念データにまとめる最も簡単な方法として、各概念強度の平均値を利用する方法がある。たとえば、検索条件が「春の花」であれば、上述したように各被展開語の概念データは次のとおりである。
春の概念データ:季節:10、イベント:3、学校行事:5、春:10、花:7・・・
花の概念データ:春:10、花:10、植物:10、樹木:10、草:10、イベント:5、夏:5、秋:2、冬:1・・・
よって、各概念IDごとに概念強度の平均値を算出すると次のようになる。
「春+花」の概念データ:季節:5、イベント:4、学校行事:2、花:8.5:春:10、植物:5、樹木:5、夏:2.5、草:5、秋:1、冬:0.5。
花の概念データ:春:10、花:10、植物:10、樹木:10、草:10、イベント:5、夏:5、秋:2、冬:1・・・
よって、各概念IDごとに概念強度の平均値を算出すると次のようになる。
「春+花」の概念データ:季節:5、イベント:4、学校行事:2、花:8.5:春:10、植物:5、樹木:5、夏:2.5、草:5、秋:1、冬:0.5。
その後、ステップS303に進み、CPU101は、比較対象単語(比較候補)があるかどうかを判定する。比較候補が存在しなければ、処理を終了する。本実施形態では、検索条件について概念データが1つに統合される(あたかも被展開語が1つだけのようになる)ので、ステップS308は不要となる。
その後、作成された総合概念データに基づいて、展開語の抽出処理を実行する。ステップS304において、比較候補の概念データ読み出し、ステップS305において、概念データの類似度を算出する。上述の検索条件の例では、「桜」の概念データと、「春+花」の総合概念データとについて類似度を計算する。たとえば、数1の計算式に対して、W1に「春+花」、W2に「桜」を代入して計算する。その結果、類似度は91となる。同様にすべての比較候補について類似度を算出する。それぞれの単語の類似度として、たとえば、向日葵は30、花は90、夏は35、花見は80、卒業式は75、春分は75というような結果が得られる。
ステップS306において、算出された類似度が閾値以上かどうかを判定し、ステップS307において、閾値以上の類似度を有する比較候補が展開語として抽出され、さらに検索条件として設定される。たとえば、類似度の閾値が80であった場合、桜は92で閾値を超えているので展開語として設定される。
上記処理の結果、類似度の閾値80以上の場合、「春+花」の展開語として以下の単語が得られる。
「春+花」の展開語:桜:92、花:90、フラワー:90、生花:85、たんぽぽ:85、花見:80・・・
一方、類似度の閾値が90であれば、以下のような展開語が得られる。
一方、類似度の閾値が90であれば、以下のような展開語が得られる。
「春+花」の展開語:桜:92、花:90、フラワー:90・・・
また、類似度の閾値が70であれば、以下のような展開語が得られる。
また、類似度の閾値が70であれば、以下のような展開語が得られる。
「春+花」の展開語:桜:92、花:90、フラワー:90、生花:85、たんぽぽ:85、花見:80、春:79、春期:76、春季:75、春分:75、卒業式:75、卒業:70・・・。
このように、展開語の数は類似度の閾値によって柔軟に決定することができる。たとえば、任意の検索条件と任意の類似度の所定値についての検索結果数が少なければ、類似度の所定値を低く設定しなおすことで、より多くの検索結果を得ることができる。逆に、検索結果数が多い場合は、類似度の閾値を高く設定しなおすことによって、検索結果数を絞ることが可能である。
また、展開処理によって算出される類似度は、検索処理のスコア付けに利用することもできる。たとえば、類似度が高ければ、検索処理のスコアも高くする。これにより、検索結果のソートが可能となり、便利であろう。
なお、類似度の閾値に代えて、展開語の数を指定できるようにしてもよい。この場合、CPU101は、類似度が上位となる指定数の展開語を抽出することになる。ユーザーが、展開語の数について限定したい場合には非常に有効であろう。
さらに、本実施形態では、とりわけ、検索条件の全体の概念を表す総合概念データを作成して単語展開を実行するので、検索条件についてさらに密接な展開語を取得できるようになる。たとえば、検索条件が「春の花」であれば「春」と「花」の総合概念データに基づいて単語展開するので、秋の花である菊やコスモス、夏の花である向日葵などの類似度が下がり、展開語として出力されにくくなる利点がある。
[第3の実施形態]
上述の実施形態では、複数の単語を結合してなる複合語については、そのまま1つの単語として処理してしまうものであった。しかしながら、複合語は見出し語になりにくいため、十分に単語展開できない。
上述の実施形態では、複数の単語を結合してなる複合語については、そのまま1つの単語として処理してしまうものであった。しかしながら、複合語は見出し語になりにくいため、十分に単語展開できない。
そこで、本実施形態では、複合語についても好適に単語展開して、情報検索できるようにする。この例では、ステップS300において、「日本伝統文化の継承」が検索条件として入力されたものとして説明する。
図7は、第3の実施形態に係る単語展開処理の例示的なフローチャートである。ステップS301において、検索条件から「日本伝統文化」および「継承」といった2つの被展開語が抽出される。
ステップS700において、CPU101は、選定された被展開語が複合語か否かを判定する。たとえば、概念データ辞書109に見出し語として「日本伝統文化」が登録されていれば、通常の単語と判定し、そうでなければ複合語と判定する。複合語でなければ、ステップS302に進む。
複合語であれば、ステップS701に進み、CPU101は、複合語を複数の単語に分解する。上述の例の場合、「日本」「伝統」「文化」の3つの単語に分解される。
ステプS302において、CPU101は、分解により得られた各単語の概念データを読み出す。ステップS600において、CPU101は、分解により得られた各単語の概念データに基づいて、総合概念データを作成する。この総合概念データは、「日本伝統文化」の概念データとして利用される。その後は、上述したように展開処理を実行する。
以上説明したように、本実施形態によれば、上述した実施形態の効果に加え、複合語についても好適に単語展開して、情報検索を実行できるようになる。
[第4の実施形態]
上述の実施形態では、比較候補を、概念データ辞書109に登録されている見出し語の全てとしていたため、いきおい計算量が膨大となる可能性があった。また、見出し語の中には、被展開語と明らかに関連しない単語が存在することも事実である。
上述の実施形態では、比較候補を、概念データ辞書109に登録されている見出し語の全てとしていたため、いきおい計算量が膨大となる可能性があった。また、見出し語の中には、被展開語と明らかに関連しない単語が存在することも事実である。
そこで、本実施形態では、比較候補の範囲を限定することにより、単語展開の効率と情報検索の効率を改善することを目的とする。とりわけ、本実施形態では、各概念ごとにその概念強度が高い単語をまとめたデータ(特徴概念テーブル)を記憶手段に記憶しておき、このデータに含まれる単語についてのみ概念データによる比較処理を実行する。
図8は、実施形態に係る特徴概念テーブルの一例を示す図である。このテーブル110には、概念を代表する見出し語801と、各見出し語に対応する特徴単語802が対応付けて登録されている。図8の例によると、「春」という概念が強く現れる単語として、春季、春期、春、花、桜、花見、卒業式、新春、・・・が登録されている。
図9は、実施形態に係る比較候補の限定処理の例示的なフローチャートである。この限定処理は、上述のステップS302のサブルーチンに相当する。ステップS901において、CPU101は、選定された被展開語の概念データ(特に概念ID)を読み出す。ステップS902において、CPU101は、読み出された概念IDを見出し語として、特徴概念テーブル110から特徴単語を読み出す。
図5の例によれば、春について概念IDは、「季節」、「イベント」、「学校行事」、「春」、「花」である。よって、これらの概念IDを見出し語として特徴概念テーブル110から特徴単語を読み出す。図8の例によれば、春季、春期、春、花、桜、花見、卒業式、新春、秋、夏、冬、造花、生花、華道、向日葵、たんぽぽ、コスモス、花壇、花瓶、卒業式、入学式、夏休み、修学旅行、運動会、祭り、花見、月見、大会が、比較候補として抽出される。
ステップS903において、CPU101は、抽出された特徴単語を比較候補としてRAM102に記憶する。ステップS302以降では、RAM102に記憶されている限定された比較候補について比較処理を実行する。
以上説明したように、本実施形態によれば、あらかじめ概念の類似度が高いと予想される複数の特徴単語をテーブル化しておくことで、詳細な類似度計算の実行前に比較候補を限定できるようになる。そのため、類似度の算出など、展開処理にともなう演算量や処理時間を大幅に短縮できよう。特に、概念強度が8ないし10となる単語など、概念強度が相対的に突出している特徴単語を選択すると、処理速度が大幅に改善されよう。
[他の実施形態]
上述の実施形態では、スタンドアロン形の情報検索装置について説明してきたが、本発明はこれに限定されることない。たとえば、複数のクライアントコンピュータと、サーバとからなる情報検索システムに適用してもよい。
上述の実施形態では、スタンドアロン形の情報検索装置について説明してきたが、本発明はこれに限定されることない。たとえば、複数のクライアントコンピュータと、サーバとからなる情報検索システムに適用してもよい。
図10は、実施形態に係る情報検索システムの一例を示す図である。この例では、情報検索サーバ1000は、上述の各機能を有するともに、通信装置(入力装置107)を備えている。この通信装置107によって、クライアントコンピュータ1010から、検索条件、類似度の閾値などを入力する。
一方、クライアントコンピュータ1010は、ROM103などにクライアントプログラムを備えている。また、サーバ1000と接続するための通信IF1011も備えている。クライアントコンピュータ1010では、入力装置107から入力された検索条件、類似度の閾値などを通信IF1011からサーバ1000に送信する。サーバ1000では、上述の展開処理および情報検索処理を実行して、実行結果をクライアントコンピュータ1010に送信する。このように、複数のコンピュータを使っても本発明を実現できる。とりわけ、ポータルサイトなどの情報検索エンジンに、本発明を適用すれば、効果が高いだろう。
図11は、実施形態に係る情報検索画面の一例を示す図である。この画面は、サーバ1000にアクセスした際に、クライアントコンピュータ1010の表示装置に表示されるものである。テキストボックス1101には、検索条件が入力される。検索ボタン1102が操作されると、検索要求がサーバ1000に送信される。単語展開を希望する時は、チェックボックス1103がチェックされる。そして、テキストボック1104に、類似度の閾値または展開語の上限数が入力される。
本発明は、前述した実施形態の各機能を実現するソフトウェアプログラム(本実施形態では図3、6、7または9に示すフローチャートに対応したプログラム)を、システム若しくは装置に対して直接または遠隔から供給し、そのシステム若しくは装置に含まれるコンピュータが該供給されたプログラムコードを読み出して実行することによっても達成される。
従って、本発明の機能・処理をコンピュータで実現するために、該コンピュータにインストールされるプログラムコード自体も本発明を実現するものである。つまり、上記機能・処理を実現するためのコンピュータプログラム自体も本発明の一つである。
その場合、プログラムの機能を有していれば、オブジェクトコード、インタプリタにより実行されるプログラム、OSに供給するスクリプトデータ等、プログラムの形態を問わない。
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、MO、CD−ROM、CD−R、CD−RW、磁気テープ、不揮発性のメモリカード、ROM、DVD(DVD−ROM,DVD−R)などがある。
その他、プログラムの供給方法としては、クライアントコンピュータのブラウザを用いてインターネットのホームページに接続し、該ホームページから本発明のコンピュータプログラムそのもの、もしくは圧縮され自動インストール機能を含むファイルをハードディスク等の記録媒体にダウンロードすることによっても供給できる。また、本発明のプログラムを構成するプログラムコードを複数のファイルに分割し、それぞれのファイルを異なるホームページからダウンロードすることによっても実現可能である。つまり、本発明の機能処理をコンピュータで実現するためのプログラムファイルを複数のユーザーに対してダウンロードさせるWWWサーバも、本発明の構成要件となる場合がある。
また、本発明のプログラムを暗号化してCD−ROM等の記憶媒体に格納してユーザーに配布し、所定の条件をクリアしたユーザーに対し、インターネットを介してホームページから暗号化を解く鍵情報をダウンロードさせ、その鍵情報を使用することにより暗号化されたプログラムを実行してコンピュータにインストールさせて実現することも可能である。
また、コンピュータが、読み出したプログラムを実行することによって、前述した実施形態の機能が実現される他、そのプログラムの指示に基づき、コンピュータ上で稼動しているOSなどが、実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現され得る。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPUなどが実際の処理の一部または全部を行ない、その処理によっても前述した実施形態の機能が実現される。
Claims (14)
- 入力された検索条件から展開対象となる1以上の被展開語を選定する選定手段と、
選定された前記被展開語に対応する1以上の概念データを概念データ辞書から読み出す読み出し手段と、
読み出された前記概念データに対して、所定値以上の類似度を有する1以上の他の概念データに対応付けられている展開語を前記概念データ辞書から抽出する抽出手段と、
抽出された前記展開語を前記検索条件に追加して情報検索を実行する検索手段と
を含む情報検索装置。 - 前記類似度に関する前記所定値を指定する指定手段をさらに含む請求項1に記載の情報検索装置。
- 前記指定手段は、前記類似度に関する前記所定値をアナログ的な数値により指定する数値指定手段を含む請求項2に記載の情報検索装置。
- 入力された検索条件から展開対象となる1以上の被展開語を選定する選定手段と、
選定された前記被展開語に対応する1以上の概念データを概念データ辞書から読み出す読み出し手段と、
読み出された前記概念データに対して、類似度が上位となる他の概念データに対応付けられている所定数の展開語を前記概念データ辞書から抽出する手段と、
抽出された前記展開語を前記検索条件に追加して情報検索を実行する検索手段と
を含む情報検索装置。 - 前記所定数を指定する指定手段をさらに含む請求項4に記載の情報検索装置。
- 入力された前記検索条件から複数の前記被展開語が選定された場合に、各前記被展開語の前記概念データを読み出し、読み出された複数の前記概念データから総合概念データを導出する導出手段を備え、
前記抽出手段は、前記総合概念データに対して、所定値以上の類似度を有する1以上の他の概念データに対応付けられている展開語を前記概念データ辞書から抽出する手段である、請求項1または4に記載の情報検索装置。 - 前記選定手段は、前記検索条件として複合語が入力された場合に、前記複合語を複数の単語に分解し、分解して得られた複数の前記単語を前記被展開語として選定する手段を含む請求項1または4に記載の情報検索装置。
- 前記抽出手段は、
前記被展開語と比較するための比較対象単語を単語辞書から読み出し、読み出された前記比較対象単語の概念データと前記被展開語の概念データとについて前記類似度を算出する類似度算出手段を含む請求項1または4に記載の情報検索装置。 - 前記単語辞書に含まれる単語のうち予め限定された単語を前記比較対象単語とする限定手段をさらに含む請求項8に記載の情報検索装置。
- 前記限定手段は、
前記被展開語に対して概念強度が突出している一以上の特徴単語を前記比較対象単語とする請求項9に記載の情報検索装置。 - 入力された検索条件から展開対象となる1以上の被展開語を選定する選定工程と、
選定された前記被展開語に対応する1以上の概念データを概念データ辞書から読み出す読み出し工程と、
読み出された前記概念データに対して、所定値以上の類似度を有する1以上の他の概念データに対応付けられている展開語を前記概念データ辞書から抽出する抽出工程と、
抽出された前記展開語を前記検索条件に追加して情報検索を実行する検索工程と
を含む情報検索方法。 - 入力された検索条件から展開対象となる1以上の被展開語を選定する選定工程と、
選定された前記被展開語に対応する1以上の概念データを概念データ辞書から読み出す読み出し工程と、
読み出された前記概念データに対して、類似度が上位となる他の概念データに対応付けられている所定数の展開語を前記概念データ辞書から抽出する工程と
抽出された前記展開語を前記検索条件に追加して情報検索を実行する検索工程と
を含む情報検索方法。 - 入力手段、記憶手段および制御手段とを有するコンピュータに対し、
前記入力手段から入力された検索条件から展開対象となる1以上の被展開語を前記制御手段により文字列抽出する工程と、
前記記憶手段に記憶されている概念データ辞書から、前記被展開語に対応する1以上の概念データを前記制御手段により読み出す工程と、
読み出された前記概念データに対して、所定値以上の類似度を有する1以上の他の概念データに対応付けられている展開語を、前記制御手段により、前記概念辞書データから読み出す工程と、
読み出された前記展開語を前記検索条件に追加して前記制御手段により情報検索を実行する検索工程と
を実行させるコンピュータプログラム。 - 入力手段、記憶手段および制御手段とを有するコンピュータに対し、
前記入力手段から入力された検索条件から展開対象となる1以上の被展開語を前記制御手段により文字列抽出する工程と、
前記記憶手段に記憶されている概念データ辞書から、前記被展開語に対応する1以上の概念データを前記制御手段により読み出す工程と、
読み出された前記概念データに対して、類似度が上位となる他の概念データに対応付けられている所定数の展開語を、前記概念辞書データから前記制御手段により読み出す工程と
読み出された前記展開語を前記検索条件に追加して前記制御手段により情報検索を実行する検索工程と
を実行させるコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004290379A JP2006106970A (ja) | 2004-10-01 | 2004-10-01 | 情報検索装置、情報検索方法およびコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004290379A JP2006106970A (ja) | 2004-10-01 | 2004-10-01 | 情報検索装置、情報検索方法およびコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006106970A true JP2006106970A (ja) | 2006-04-20 |
Family
ID=36376665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004290379A Withdrawn JP2006106970A (ja) | 2004-10-01 | 2004-10-01 | 情報検索装置、情報検索方法およびコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006106970A (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007328703A (ja) * | 2006-06-09 | 2007-12-20 | Yafoo Japan Corp | アイテムデータを送信する方法、サーバおよびプログラム |
JP2008250893A (ja) * | 2007-03-30 | 2008-10-16 | Fujitsu Ltd | 情報検索装置、情報検索方法およびそのプログラム |
JP2008293293A (ja) * | 2007-05-24 | 2008-12-04 | Fuji Xerox Co Ltd | 文書検索装置、および文書検索方法、並びにコンピュータ・プログラム |
JP2009037603A (ja) * | 2007-07-05 | 2009-02-19 | Nec (China) Co Ltd | クエリー要件展開器およびクエリー要件展開方法 |
JP2010508603A (ja) * | 2006-11-01 | 2010-03-18 | ユナイテッド ビデオ プロパティーズ, インコーポレイテッド | 関連性に基づいてメディアガイダンス検索結果を提示する |
JP2010224675A (ja) * | 2009-03-19 | 2010-10-07 | Toshiba Corp | 情報検索装置及び方法 |
JP2011076348A (ja) * | 2009-09-30 | 2011-04-14 | Rakuten Inc | 宿泊施設紹介システム |
JP2012146082A (ja) * | 2011-01-11 | 2012-08-02 | Toshiba Corp | 回答検索装置、方法、及びプログラム |
WO2014136173A1 (ja) * | 2013-03-04 | 2014-09-12 | 三菱電機株式会社 | 検索装置 |
-
2004
- 2004-10-01 JP JP2004290379A patent/JP2006106970A/ja not_active Withdrawn
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007328703A (ja) * | 2006-06-09 | 2007-12-20 | Yafoo Japan Corp | アイテムデータを送信する方法、サーバおよびプログラム |
JP2010508603A (ja) * | 2006-11-01 | 2010-03-18 | ユナイテッド ビデオ プロパティーズ, インコーポレイテッド | 関連性に基づいてメディアガイダンス検索結果を提示する |
JP2013101660A (ja) * | 2006-11-01 | 2013-05-23 | United Video Properties Inc | 関連性に基づいてメディアガイダンス検索結果を提示する |
JP2008250893A (ja) * | 2007-03-30 | 2008-10-16 | Fujitsu Ltd | 情報検索装置、情報検索方法およびそのプログラム |
JP2008293293A (ja) * | 2007-05-24 | 2008-12-04 | Fuji Xerox Co Ltd | 文書検索装置、および文書検索方法、並びにコンピュータ・プログラム |
JP2009037603A (ja) * | 2007-07-05 | 2009-02-19 | Nec (China) Co Ltd | クエリー要件展開器およびクエリー要件展開方法 |
US8180628B2 (en) | 2007-07-05 | 2012-05-15 | Nec (China) Co., Ltd. | Apparatus and method for expanding natural language query requirement |
JP2010224675A (ja) * | 2009-03-19 | 2010-10-07 | Toshiba Corp | 情報検索装置及び方法 |
JP2011076348A (ja) * | 2009-09-30 | 2011-04-14 | Rakuten Inc | 宿泊施設紹介システム |
JP2012146082A (ja) * | 2011-01-11 | 2012-08-02 | Toshiba Corp | 回答検索装置、方法、及びプログラム |
WO2014136173A1 (ja) * | 2013-03-04 | 2014-09-12 | 三菱電機株式会社 | 検索装置 |
JP5951105B2 (ja) * | 2013-03-04 | 2016-07-13 | 三菱電機株式会社 | 検索装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9483500B2 (en) | Automatic discovery of popular landmarks | |
KR102090237B1 (ko) | 시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램 | |
CN108491421B (zh) | 一种生成问答的方法、装置、设备和计算存储介质 | |
CN1629837A (zh) | 电子文档的处理、浏览及分类查询的方法、装置及其系统 | |
CN112818212A (zh) | 语料数据采集方法、装置、计算机设备和存储介质 | |
CN111858728A (zh) | 不同数据源的数据抽取方法、装置、设备及存储介质 | |
JP2006106970A (ja) | 情報検索装置、情報検索方法およびコンピュータプログラム | |
Deo et al. | A survey paper on information retrieval system | |
JP5982174B2 (ja) | 類似度算出装置、類似番組検索装置、およびそのプログラム | |
KR20010041607A (ko) | 화상 및 비디오 검색을 위한 의미 비주얼 템플릿 생성방법 및 시스템 | |
KR20240159090A (ko) | 키워드 검색 기반 콘텐츠 정보 자동 수집을 통한 원고 자동 생성 및 노출/순위 자동 체크 방법, 장치 및 시스템 | |
JP2001014333A (ja) | 画像検索システムおよび画像データベース管理装置 | |
CN109284364B (zh) | 一种用于语音连麦互动的互动词汇更新方法及装置 | |
CN113065340A (zh) | 基于相近词挖掘的相近资产提示方法及装置 | |
CN118839053B (zh) | 网页数据采集方法、系统、计算机设备和可读存储介质 | |
CN117336539B (zh) | 一种用于短视频ip打造的视频脚本生产方法及系统 | |
Jinshui et al. | PNSS: An online plant name service system | |
Mardani et al. | Application of Delfi method in identification of influential factors on risk management model for wooden structures. | |
JP2003076695A (ja) | 画像検索装置及びその方法、プログラム | |
Verryn et al. | Understanding the deployment of various eucalypt species and hybrids on a range of sites in southern Africa using fuzzy set logic. | |
Jonsson | To What Extent Have Incels been Recognized as a Threat in Need of Securitization?: In the Case of the United States, Canada and Europe | |
Khwaldeh et al. | Atomic data mining numerical methods, source code SQlite with Python | |
CN119886052A (zh) | 基于优秀儿童读物分析的读物排版构建方法及系统 | |
Evertsen | Automatic image tagging based on context information | |
CN118760763A (zh) | 基于不同年级知识点提取的伴读文稿生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20071204 |