JPH07262217A - テキスト検索装置 - Google Patents
テキスト検索装置Info
- Publication number
- JPH07262217A JPH07262217A JP6053580A JP5358094A JPH07262217A JP H07262217 A JPH07262217 A JP H07262217A JP 6053580 A JP6053580 A JP 6053580A JP 5358094 A JP5358094 A JP 5358094A JP H07262217 A JPH07262217 A JP H07262217A
- Authority
- JP
- Japan
- Prior art keywords
- text
- keyword
- search
- priority
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 claims abstract description 21
- 238000012913 prioritisation Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000000034 method Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 3
- 229920000858 Cyclodextrin Polymers 0.000 description 2
- HFHDHCJBZVLPGP-UHFFFAOYSA-N schardinger α-dextrin Chemical compound O1C(C(C2O)O)C(CO)OC2OC(C(C2O)O)C(CO)OC2OC(C(C2O)O)C(CO)OC2OC(C(O)C2O)C(CO)OC2OC(C(C2O)O)C(CO)OC2OC2C(O)C(O)C1OC2CO HFHDHCJBZVLPGP-UHFFFAOYSA-N 0.000 description 2
- 239000002775 capsule Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 キーワードとその共起語で検索結果の優先度
付けを行なうことにより、精度良く優先度付けを行なう
ことができるテキスト検索装置を提供する。 【構成】 キーワード指定部1は、ユーザから入力され
たキーワードを受け付け、そのキーワードをテキスト検
索部2と共起語検索部4にそれぞれ伝達する。テキスト
検索部2では、得られたキーワードによりテキストデー
タベース3を検索する。一方、共起語検索部4では、得
られたキーワードにより共起語データベース5を検索
し、共起語の情報を得る。優先度計算部6では、キーワ
ードと、共起語検索部4において得られる共起語の情報
に基づき、テキスト検索部2で検索された検索項目の優
先度を計算し、テキスト表示部7で検索結果を優先度順
にソートして表示する。
付けを行なうことにより、精度良く優先度付けを行なう
ことができるテキスト検索装置を提供する。 【構成】 キーワード指定部1は、ユーザから入力され
たキーワードを受け付け、そのキーワードをテキスト検
索部2と共起語検索部4にそれぞれ伝達する。テキスト
検索部2では、得られたキーワードによりテキストデー
タベース3を検索する。一方、共起語検索部4では、得
られたキーワードにより共起語データベース5を検索
し、共起語の情報を得る。優先度計算部6では、キーワ
ードと、共起語検索部4において得られる共起語の情報
に基づき、テキスト検索部2で検索された検索項目の優
先度を計算し、テキスト表示部7で検索結果を優先度順
にソートして表示する。
Description
【0001】
【産業上の利用分野】本発明は、キーワードによるテキ
ストの検索を行なうテキスト検索装置に関するものであ
り、特に、キーワードの共起情報(キーワードと関係の
強い語の情報)を用いて検索された項目の優先度付けを
行なう機能を有するテキスト検索装置に関するものであ
る。
ストの検索を行なうテキスト検索装置に関するものであ
り、特に、キーワードの共起情報(キーワードと関係の
強い語の情報)を用いて検索された項目の優先度付けを
行なう機能を有するテキスト検索装置に関するものであ
る。
【0002】
【従来の技術】キーワードによるテキストの検索におい
て、テキストの規模が大きくなるにしたがって検索され
る(ヒットする)項目も多くなり、チェックするのが大
変になってきている。また、キーワードとヒットした項
目の関係も重要なものから軽く触れられたものまで様々
である。そこで、検索された項目の優先度付けを行な
い、重要な項目から必要なレベルのものまでチェックす
ることにより、効率的に必要な情報を得ることができ
る。
て、テキストの規模が大きくなるにしたがって検索され
る(ヒットする)項目も多くなり、チェックするのが大
変になってきている。また、キーワードとヒットした項
目の関係も重要なものから軽く触れられたものまで様々
である。そこで、検索された項目の優先度付けを行な
い、重要な項目から必要なレベルのものまでチェックす
ることにより、効率的に必要な情報を得ることができ
る。
【0003】検索された項目が重要であるかどうかを判
断するには、その項目中のキーワードに関する記述量が
重要である。キーワードに関する記述には、キーワード
が直接記述されている場合と、間接的に記述されている
場合が考えられるが、キーワードの個数はキーワードに
関する直接記述の量をある程度反映していると考えられ
る。そのため、従来の装置では、テキスト中に含まれる
キーワードの個数によって優先度付けを行ない、キーワ
ードの出現した回数が多いほど優先度が高いとするもの
がある。
断するには、その項目中のキーワードに関する記述量が
重要である。キーワードに関する記述には、キーワード
が直接記述されている場合と、間接的に記述されている
場合が考えられるが、キーワードの個数はキーワードに
関する直接記述の量をある程度反映していると考えられ
る。そのため、従来の装置では、テキスト中に含まれる
キーワードの個数によって優先度付けを行ない、キーワ
ードの出現した回数が多いほど優先度が高いとするもの
がある。
【0004】しかし、テキスト中に含まれるキーワード
の個数が十分多い場合には、直接記述の量だけである程
度重要性を判断できるが、キーワードの個数が少ない場
合は判断ができなくなったり、ユーザの要求とかけ離れ
た判断がなされることもある。そのため、キーワードが
直接記述されている量だけでなく、間接的な記述の量も
考慮する必要がある。すなわち、従来の方式では、検索
結果の優先度付けをキーワードの個数で行なうので、キ
ーワードが直接記述されている量しか反映できず、キー
ワードの個数が少ない場合、精度良く優先度付けを行な
うことができない。特に、見出しとその説明の繰り返し
である辞典タイプのテキストの場合、1項目当たりの文
章量が少なく、その中に含まれるキーワードの個数も少
なくなるため問題である。
の個数が十分多い場合には、直接記述の量だけである程
度重要性を判断できるが、キーワードの個数が少ない場
合は判断ができなくなったり、ユーザの要求とかけ離れ
た判断がなされることもある。そのため、キーワードが
直接記述されている量だけでなく、間接的な記述の量も
考慮する必要がある。すなわち、従来の方式では、検索
結果の優先度付けをキーワードの個数で行なうので、キ
ーワードが直接記述されている量しか反映できず、キー
ワードの個数が少ない場合、精度良く優先度付けを行な
うことができない。特に、見出しとその説明の繰り返し
である辞典タイプのテキストの場合、1項目当たりの文
章量が少なく、その中に含まれるキーワードの個数も少
なくなるため問題である。
【0005】別の従来の装置として、例えば、特開平4
−281565号公報に記載されている文書検索装置が
ある。この装置では、テキストを前書き、本文等の部分
に分割し、どの部分にキーワードが出現したかにより重
み付けを行ない、優先度を算出している。この装置によ
れば、テキストの重要な部分にキーワードが現われるテ
キストを優先してユーザに提示することができる。その
ため、例えば、辞典タイプのテキストであっても、見出
しにキーワードが存在するテキストを、本文にキーワー
ドが多く存在するテキストよりも優先してユーザに提示
することができる。しかし、この装置においても、間接
的な記述の量は考慮されていない。そのため、例えば、
見出しに間接的な表現があっても、直接的な記述がなけ
れば優先度は低くなり、所望の結果が得られない場合が
あるなどの問題がある。
−281565号公報に記載されている文書検索装置が
ある。この装置では、テキストを前書き、本文等の部分
に分割し、どの部分にキーワードが出現したかにより重
み付けを行ない、優先度を算出している。この装置によ
れば、テキストの重要な部分にキーワードが現われるテ
キストを優先してユーザに提示することができる。その
ため、例えば、辞典タイプのテキストであっても、見出
しにキーワードが存在するテキストを、本文にキーワー
ドが多く存在するテキストよりも優先してユーザに提示
することができる。しかし、この装置においても、間接
的な記述の量は考慮されていない。そのため、例えば、
見出しに間接的な表現があっても、直接的な記述がなけ
れば優先度は低くなり、所望の結果が得られない場合が
あるなどの問題がある。
【0006】
【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、間接的な記述の量を共起語
の個数によって反映し、キーワードとその共起語で検索
結果の優先度付けを行なうことにより、キーワードの個
数が少ない場合でも、より精度良く優先度付けを行なう
ことができるテキスト検索装置を提供することを目的と
している。
情に鑑みてなされたもので、間接的な記述の量を共起語
の個数によって反映し、キーワードとその共起語で検索
結果の優先度付けを行なうことにより、キーワードの個
数が少ない場合でも、より精度良く優先度付けを行なう
ことができるテキスト検索装置を提供することを目的と
している。
【0007】
【課題を解決するための手段】本発明は、キーワードに
よるテキストの検索を行なうテキスト検索装置におい
て、キーワードの入力を受け付けるキーワード指定部
と、キーワードにより検索可能なテキストが格納されて
いるテキストデータベースと、前記キーワード指定部で
受け付けたキーワードにより前記テキストデータベース
の検索を行なうテキスト検索部と、ある語と強い関係に
ある共起語の情報を格納した共起語データベースと、前
記キーワード指定部で受け付けたキーワードにより前記
共起語データベースを検索する共起語検索部と、前記キ
ーワード指定部で受け付けたキーワードと該キーワード
により前記共起語検索部で検索された共起語の情報によ
り前記テキスト検索部における検索結果の優先度を計算
する優先度計算部を有することを特徴とするものであ
る。
よるテキストの検索を行なうテキスト検索装置におい
て、キーワードの入力を受け付けるキーワード指定部
と、キーワードにより検索可能なテキストが格納されて
いるテキストデータベースと、前記キーワード指定部で
受け付けたキーワードにより前記テキストデータベース
の検索を行なうテキスト検索部と、ある語と強い関係に
ある共起語の情報を格納した共起語データベースと、前
記キーワード指定部で受け付けたキーワードにより前記
共起語データベースを検索する共起語検索部と、前記キ
ーワード指定部で受け付けたキーワードと該キーワード
により前記共起語検索部で検索された共起語の情報によ
り前記テキスト検索部における検索結果の優先度を計算
する優先度計算部を有することを特徴とするものであ
る。
【0008】
【作用】本発明によれば、キーワード指定部でユーザの
指定したキーワードにより、テキスト検索部でテキスト
データベースを検索するとともに、共起語検索部で共起
語データベースを参照し、共起語の情報を得る。そし
て、優先度計算部において、キーワードと、共起語検索
部で得られた共起語の情報により、テキスト検索部によ
る検索結果の優先度付けを行なう。従来のキーワードの
みによる優先度付けでは、キーワードに関する直接記述
しか反映されなかったが、本発明のテキスト検索装置で
は、キーワードとその共起語による優先度付けを行なっ
て、キーワードに関する直接記述と間接記述の量の両方
を反映することができ、より精度の高い優先度付けを行
なうことができる。
指定したキーワードにより、テキスト検索部でテキスト
データベースを検索するとともに、共起語検索部で共起
語データベースを参照し、共起語の情報を得る。そし
て、優先度計算部において、キーワードと、共起語検索
部で得られた共起語の情報により、テキスト検索部によ
る検索結果の優先度付けを行なう。従来のキーワードの
みによる優先度付けでは、キーワードに関する直接記述
しか反映されなかったが、本発明のテキスト検索装置で
は、キーワードとその共起語による優先度付けを行なっ
て、キーワードに関する直接記述と間接記述の量の両方
を反映することができ、より精度の高い優先度付けを行
なうことができる。
【0009】
【実施例】図1は、本発明のテキスト検索装置の1実施
例を示すブロック図である。図中、1はキーワード指定
部、2はテキスト検索部、3はテキストデータベース、
4は共起語検索部、5は共起語データベース、6は優先
度計算部、7はテキスト表示部である。
例を示すブロック図である。図中、1はキーワード指定
部、2はテキスト検索部、3はテキストデータベース、
4は共起語検索部、5は共起語データベース、6は優先
度計算部、7はテキスト表示部である。
【0010】キーワード指定部1は、ユーザからの検索
のためのキーワードの入力を受け、テキスト検索部2及
び共起語検索部4に伝達する。テキスト検索部2は、キ
ーワードを得ると、テキストデータベース3を検索し、
検索結果を優先度計算部6に伝達する。テキストデータ
ベース3には、テキストが格納されており、任意の単語
で検索することによりその単語に関する記述を得ること
ができる。
のためのキーワードの入力を受け、テキスト検索部2及
び共起語検索部4に伝達する。テキスト検索部2は、キ
ーワードを得ると、テキストデータベース3を検索し、
検索結果を優先度計算部6に伝達する。テキストデータ
ベース3には、テキストが格納されており、任意の単語
で検索することによりその単語に関する記述を得ること
ができる。
【0011】共起語検索部4は、キーワードを得ると共
起語データベース5を検索し、共起語の情報を優先度計
算部6に伝達する。共起語データベース5には、単語を
見出し語として、その見出し語と関係が強い語(共起
語)の情報が格納されている。例えば、見出し語を「A
I」,「OA」とすると、 見出し語 共起語 AI ・・・・人工知能、コンピュータ、エキスパートシステム OA ・・・・ワープロ、パーソナルコンピュータ、電子ファイル といった情報が格納されている。
起語データベース5を検索し、共起語の情報を優先度計
算部6に伝達する。共起語データベース5には、単語を
見出し語として、その見出し語と関係が強い語(共起
語)の情報が格納されている。例えば、見出し語を「A
I」,「OA」とすると、 見出し語 共起語 AI ・・・・人工知能、コンピュータ、エキスパートシステム OA ・・・・ワープロ、パーソナルコンピュータ、電子ファイル といった情報が格納されている。
【0012】優先度計算部6は、テキスト検索部2によ
る検索結果と、共起語検索部4からの共起語の情報を得
ると、検索された項目の優先度を計算し、その情報をテ
キスト表示部7に伝達する。テキスト表示部7は、検索
項目の優先度の情報を得ると、優先度順に検索項目をソ
ートし、その情報をユーザに表示する。テキスト表示部
7により検索項目を表示するほか、ファイルに結果を格
納したり、別の装置の入力とすることも可能である。
る検索結果と、共起語検索部4からの共起語の情報を得
ると、検索された項目の優先度を計算し、その情報をテ
キスト表示部7に伝達する。テキスト表示部7は、検索
項目の優先度の情報を得ると、優先度順に検索項目をソ
ートし、その情報をユーザに表示する。テキスト表示部
7により検索項目を表示するほか、ファイルに結果を格
納したり、別の装置の入力とすることも可能である。
【0013】次に、本発明のテキスト検索装置の一実施
例の動作を具体例をもとに説明する。図2は、本発明の
テキスト検索装置の一実施例における動作の一例の説明
図、図3は、テキストデータベースに格納されているテ
キストデータの一例の説明図である。以下の説明では、
ユーザがキーワードとして「AI」を指定したときの各
構成部の入力および出力の例について説明する。
例の動作を具体例をもとに説明する。図2は、本発明の
テキスト検索装置の一実施例における動作の一例の説明
図、図3は、テキストデータベースに格納されているテ
キストデータの一例の説明図である。以下の説明では、
ユーザがキーワードとして「AI」を指定したときの各
構成部の入力および出力の例について説明する。
【0014】キーワード指定部1は、ユーザから入力さ
れたキーワード「AI」を得ると、そのキーワード「A
I」をテキスト検索部2と共起語検索部4にそれぞれ伝
達する。テキスト検索部2では、キーワード「AI」を
得ると、テキストデータベース3を検索する。いま、図
3に示したテキストデータがテキストデータベース3に
格納されているものとする。キーワード「AI」による
検索の結果、図3に二重線で示した語がマッチし、検索
結果として、「法律エキスパートシステム・・・」、
「プログラム売買・・・」、「AI・・・」、「ピボッ
ト方式・・・」の各テキストが得られる。これらの検索
結果は優先度計算部6に伝達される。
れたキーワード「AI」を得ると、そのキーワード「A
I」をテキスト検索部2と共起語検索部4にそれぞれ伝
達する。テキスト検索部2では、キーワード「AI」を
得ると、テキストデータベース3を検索する。いま、図
3に示したテキストデータがテキストデータベース3に
格納されているものとする。キーワード「AI」による
検索の結果、図3に二重線で示した語がマッチし、検索
結果として、「法律エキスパートシステム・・・」、
「プログラム売買・・・」、「AI・・・」、「ピボッ
ト方式・・・」の各テキストが得られる。これらの検索
結果は優先度計算部6に伝達される。
【0015】一方、共起語検索部4では、キーワード
「AI」を得ると、共起語データベース5を検索し、
「AI」の共起語の情報を得る。いま、「AI」の共起
語の情報として、「人工知能、ロボット、エキスパート
システム、機械翻訳、推論、学習」が得られたとする。
得られた共起語の情報は、優先度計算部6に伝達され
る。
「AI」を得ると、共起語データベース5を検索し、
「AI」の共起語の情報を得る。いま、「AI」の共起
語の情報として、「人工知能、ロボット、エキスパート
システム、機械翻訳、推論、学習」が得られたとする。
得られた共起語の情報は、優先度計算部6に伝達され
る。
【0016】優先度計算部6では、テキスト検索部2に
おいてキーワード「AI」で検索した結果「法律エキス
パートシステム・・・」、「プログラム売買・・・」、
「AI・・・」、「ピボット方式・・・」と、共起語検
索部4においてキーワード「AI」で検索した結果得ら
れる共起語の情報「人工知能、ロボット、エキスパート
システム、機械翻訳、推論、学習」を得ると、検索項目
の優先度を計算し、その結果をテキスト表示部7に伝達
する。テキスト表示部7では、優先度付けされた検索結
果を得ると、優先度順に検索項目をソートしてその情報
をユーザに表示する。
おいてキーワード「AI」で検索した結果「法律エキス
パートシステム・・・」、「プログラム売買・・・」、
「AI・・・」、「ピボット方式・・・」と、共起語検
索部4においてキーワード「AI」で検索した結果得ら
れる共起語の情報「人工知能、ロボット、エキスパート
システム、機械翻訳、推論、学習」を得ると、検索項目
の優先度を計算し、その結果をテキスト表示部7に伝達
する。テキスト表示部7では、優先度付けされた検索結
果を得ると、優先度順に検索項目をソートしてその情報
をユーザに表示する。
【0017】優先度計算部6における優先度の計算は、
例えば、以下のような手順で行なうことができる。ま
ず、各検索項目を次の3つのグループに分ける。 1.項目名にキーワードを含む。 2.項目名に共起語を含む。 3.それ以外。 各グループは、この順で順序付けられる。そして、各グ
ループ内で項目内に含まれるキーワードと共起語の個数
で各項目を順位付ける。このとき、キーワードの個数を
共起語の個数より優先する。
例えば、以下のような手順で行なうことができる。ま
ず、各検索項目を次の3つのグループに分ける。 1.項目名にキーワードを含む。 2.項目名に共起語を含む。 3.それ以外。 各グループは、この順で順序付けられる。そして、各グ
ループ内で項目内に含まれるキーワードと共起語の個数
で各項目を順位付ける。このとき、キーワードの個数を
共起語の個数より優先する。
【0018】この具体例では、検索結果の各テキストに
は、キーワードとともに、共起語が存在する。図3にお
いて、共起語にアンダーラインを付して示している。ま
ず、項目名にキーワードを含む検索結果として、「AI
・・・」というテキストが存在する。項目名に共起語を
含む検索結果としては、「法律エキスパートシステム・
・・」というテキストが存在する。それ以外に、「プロ
グラム売買・・・」、「ピボット方式・・・」というテ
キストが存在する。さらに、「プログラム売買・・・」
というテキストには、キーワード「AI」が1つ存在
し、「ピボット方式・・・」というテキストには、キー
ワード「AI」が1つと共起語「機械翻訳」が1つ存在
する。これらのことから、優先度は、「AI・・・」、
「法律エキスパートシステム・・・」、「ピボット方式
・・・」、「プログラム売買・・・」の順となる。
は、キーワードとともに、共起語が存在する。図3にお
いて、共起語にアンダーラインを付して示している。ま
ず、項目名にキーワードを含む検索結果として、「AI
・・・」というテキストが存在する。項目名に共起語を
含む検索結果としては、「法律エキスパートシステム・
・・」というテキストが存在する。それ以外に、「プロ
グラム売買・・・」、「ピボット方式・・・」というテ
キストが存在する。さらに、「プログラム売買・・・」
というテキストには、キーワード「AI」が1つ存在
し、「ピボット方式・・・」というテキストには、キー
ワード「AI」が1つと共起語「機械翻訳」が1つ存在
する。これらのことから、優先度は、「AI・・・」、
「法律エキスパートシステム・・・」、「ピボット方式
・・・」、「プログラム売買・・・」の順となる。
【0019】優先度の計算の別の例として、以下のよう
な点数計算により優先度の計算を行なうことができる。 1.項目名にキーワードを含む場合、+100を点数に
加える。 2.項目名に共起語を含む場合、+10を点数に加え
る。 3.(キーワードの個数)+(共起語の個数)×0.7
を点数に加える。 このような点数計算の結果得られる各テキストの点数を
優先度として用いる。テキスト表示部7は、この点数を
もとに検索項目をソートしてその情報をユーザに表示す
る。
な点数計算により優先度の計算を行なうことができる。 1.項目名にキーワードを含む場合、+100を点数に
加える。 2.項目名に共起語を含む場合、+10を点数に加え
る。 3.(キーワードの個数)+(共起語の個数)×0.7
を点数に加える。 このような点数計算の結果得られる各テキストの点数を
優先度として用いる。テキスト表示部7は、この点数を
もとに検索項目をソートしてその情報をユーザに表示す
る。
【0020】この具体例では、検索された各テキストの
キーワードと共起語の個数、点数、優先順位は、図4に
示すようになる。すなわち、テキスト「法律エキスパー
トシステム・・・」の場合、項目名に共起語を含んでい
るので+10、キーワード1個、共起語2個なので、1
+2×0.7=2.4となり、合計12.4である。テ
キスト「プログラム売買・・・」の場合、項目名にキー
ワード、共起語を含んでいないので、キーワード1個分
の1となる。テキスト「AI・・・」の場合、項目名に
キーワードを含んでいるので+100、キーワード1
個、共起語5個なので、1+5×0.7=4.5とな
り、合計104.5である。テキスト「ピボット方式・
・・」の場合、キーワード1個と、共起語1個なので、
1+1×0.7=1.7となる。
キーワードと共起語の個数、点数、優先順位は、図4に
示すようになる。すなわち、テキスト「法律エキスパー
トシステム・・・」の場合、項目名に共起語を含んでい
るので+10、キーワード1個、共起語2個なので、1
+2×0.7=2.4となり、合計12.4である。テ
キスト「プログラム売買・・・」の場合、項目名にキー
ワード、共起語を含んでいないので、キーワード1個分
の1となる。テキスト「AI・・・」の場合、項目名に
キーワードを含んでいるので+100、キーワード1
個、共起語5個なので、1+5×0.7=4.5とな
り、合計104.5である。テキスト「ピボット方式・
・・」の場合、キーワード1個と、共起語1個なので、
1+1×0.7=1.7となる。
【0021】このように各項目の点数を計算し、点数の
多い順に優先順位を与える。その結果、優先度付けされ
た(優先順位、検索項目)の情報((2 法律エキスパ
ートシステム・・・)(4 プログラム売買・・・)
(1 AI・・・)(3 ピボット形式・・・))が得
られる。この情報をテキスト表示部7に伝達し、テキス
ト表示部7で優先度順に検索項目をソートしてユーザに
表示する。
多い順に優先順位を与える。その結果、優先度付けされ
た(優先順位、検索項目)の情報((2 法律エキスパ
ートシステム・・・)(4 プログラム売買・・・)
(1 AI・・・)(3 ピボット形式・・・))が得
られる。この情報をテキスト表示部7に伝達し、テキス
ト表示部7で優先度順に検索項目をソートしてユーザに
表示する。
【0022】優先度の計算のさらに別の例を説明する。
テキスト検索部2において検索された各テキストについ
て、まず、テキスト中のキーワード、共起語を含む文を
記述文とする。このとき、記述文に挟まれた文も記述文
とする。記述文に挟まれた文が複数存在する場合には、
任意に設定された文数以内の場合のみ、挟まれている文
を記述文とする。また、表題にキーワードが含まれると
きは、その段落に含まれている全部の文を記述文とす
る。このようにして記述文と判定された文の数を計数
し、記述文が多いテキストほど優先度が高いと判断す
る。このようにして検索結果のテキストに優先度を与
え、優先度順にソートしてテキスト表示部7に表示す
る。
テキスト検索部2において検索された各テキストについ
て、まず、テキスト中のキーワード、共起語を含む文を
記述文とする。このとき、記述文に挟まれた文も記述文
とする。記述文に挟まれた文が複数存在する場合には、
任意に設定された文数以内の場合のみ、挟まれている文
を記述文とする。また、表題にキーワードが含まれると
きは、その段落に含まれている全部の文を記述文とす
る。このようにして記述文と判定された文の数を計数
し、記述文が多いテキストほど優先度が高いと判断す
る。このようにして検索結果のテキストに優先度を与
え、優先度順にソートしてテキスト表示部7に表示す
る。
【0023】図3に示したテキストデータベースに格納
されている「ファジー・・・」というテキストについ
て、キーワード「ファジー」によりこのテキストを検索
したとする。また、キーワード「ファジー」に対応する
共起語を「あいまいさ、AI」とする。このとき、キー
ワード「ファジー」、共起語「あいまいさ」、「AI」
を含む文「ファジーとは不確かのことである。」、「こ
の不確かさを応用しようとする工学的分野がファジー工
学である。」、「数値で表わせないあいまいさを含む経
験や勘を研究対象にしている。」の3つの文は記述文と
判定される。また、記述文に挟まれた1文も記述文とす
ると、キーワードや共起語を含まない第3文「カリフォ
ルニア大学のザデー教授がその創始者である。」も記述
文となる。もっとも、この例では、表題にキーワードが
含まれているので、全ての文が記述文となる。この例で
は、記述文は4つとなる。他の検索されたテキストでも
同様に記述文を計数し、記述文の多い順にソートして、
テキスト表示部7で表示することになる。
されている「ファジー・・・」というテキストについ
て、キーワード「ファジー」によりこのテキストを検索
したとする。また、キーワード「ファジー」に対応する
共起語を「あいまいさ、AI」とする。このとき、キー
ワード「ファジー」、共起語「あいまいさ」、「AI」
を含む文「ファジーとは不確かのことである。」、「こ
の不確かさを応用しようとする工学的分野がファジー工
学である。」、「数値で表わせないあいまいさを含む経
験や勘を研究対象にしている。」の3つの文は記述文と
判定される。また、記述文に挟まれた1文も記述文とす
ると、キーワードや共起語を含まない第3文「カリフォ
ルニア大学のザデー教授がその創始者である。」も記述
文となる。もっとも、この例では、表題にキーワードが
含まれているので、全ての文が記述文となる。この例で
は、記述文は4つとなる。他の検索されたテキストでも
同様に記述文を計数し、記述文の多い順にソートして、
テキスト表示部7で表示することになる。
【0024】次に、キーワードが複数の意味を持つ場合
について、具体例を用いて説明する。以下の説明では、
キーワードとして「CD」が入力されたものとする。ま
た、「CD」に対応する共起語として、「コンパクトデ
ィスク、デジタル、レーザー、音楽」が共起語データベ
ース5に格納されているものとする。「CD」には、
「コンパクトディスク」、「譲渡性預金(Certif
ication ofDeposit)」、「現金自動
支払機(Cash Dispenser)」、「通常軍
縮(Conventional Disarmamen
t)」、「シクロデキストリン」等の意味があり、テキ
スト検索により多くの項目がヒットすることになる。
について、具体例を用いて説明する。以下の説明では、
キーワードとして「CD」が入力されたものとする。ま
た、「CD」に対応する共起語として、「コンパクトデ
ィスク、デジタル、レーザー、音楽」が共起語データベ
ース5に格納されているものとする。「CD」には、
「コンパクトディスク」、「譲渡性預金(Certif
ication ofDeposit)」、「現金自動
支払機(Cash Dispenser)」、「通常軍
縮(Conventional Disarmamen
t)」、「シクロデキストリン」等の意味があり、テキ
スト検索により多くの項目がヒットすることになる。
【0025】図5は、キーワード「CD」により検索さ
れた各検索項目におけるキーワードと共起語の数、点
数、順位の説明図である。テキストデータベースに格納
されているテキストは示していないが、キーワード「C
D」による検索の結果、図5の左端欄に示すような検索
項目が検索されたものとする。ここで、「半導体レーザ
ー・・・」、「PCM音楽放送・・・」、「CD−RO
M・・・」、「LD・・・」が「コンパクトディスク」
と関係がある。また、「自由金利商品・・・」は、「譲
渡性預金」、「バンクス・・・」は「現金自動支払
機」、「ジュネーブ軍縮会議・・・」は「通常軍縮」、
「分子カプセル・・・」は「シクロデキストリン」と関
係がある。
れた各検索項目におけるキーワードと共起語の数、点
数、順位の説明図である。テキストデータベースに格納
されているテキストは示していないが、キーワード「C
D」による検索の結果、図5の左端欄に示すような検索
項目が検索されたものとする。ここで、「半導体レーザ
ー・・・」、「PCM音楽放送・・・」、「CD−RO
M・・・」、「LD・・・」が「コンパクトディスク」
と関係がある。また、「自由金利商品・・・」は、「譲
渡性預金」、「バンクス・・・」は「現金自動支払
機」、「ジュネーブ軍縮会議・・・」は「通常軍縮」、
「分子カプセル・・・」は「シクロデキストリン」と関
係がある。
【0026】キーワードと共起語の個数を図5に示すよ
うに仮定し、優先度の計算方法として、点数計算を行な
う方法を採用し、上述の計算方法により点数計算を行な
う。そして、計算された点数により、優先度を付ける。
ここで、共起語が用いられている検索項目のみに限定し
て優先度付けを行なうことにより、「コンパクトディス
ク」と関係のある4項目のみが優先度付けされる。これ
により、「CD」の意味を「コンパクトディスク」に限
定した検索結果を得ることができる。このように、共起
語を用いることにより、複数の意味を持つ語の意味を限
定して検索することができる。
うに仮定し、優先度の計算方法として、点数計算を行な
う方法を採用し、上述の計算方法により点数計算を行な
う。そして、計算された点数により、優先度を付ける。
ここで、共起語が用いられている検索項目のみに限定し
て優先度付けを行なうことにより、「コンパクトディス
ク」と関係のある4項目のみが優先度付けされる。これ
により、「CD」の意味を「コンパクトディスク」に限
定した検索結果を得ることができる。このように、共起
語を用いることにより、複数の意味を持つ語の意味を限
定して検索することができる。
【0027】上述の説明では、検索対象となるテキスト
を、図3に示したような項目名とその説明の繰り返しで
ある辞典タイプのテキストと仮定している。しかしこれ
に限らず、1つの大きなテキストでもよい。このとき、
項目の単位を章や節、あるいは、段落などとすれば適応
可能である。項目の単位を段落とした場合には、項目名
や表題が存在しない場合ももちろんある。また、いくつ
かの文書が集まった文書群に対しても検索を行なうこと
ができる。このとき、タイトルを項目名、1文書を1項
目とすればよい。この場合にも、タイトルのない場合で
も適応することができる。
を、図3に示したような項目名とその説明の繰り返しで
ある辞典タイプのテキストと仮定している。しかしこれ
に限らず、1つの大きなテキストでもよい。このとき、
項目の単位を章や節、あるいは、段落などとすれば適応
可能である。項目の単位を段落とした場合には、項目名
や表題が存在しない場合ももちろんある。また、いくつ
かの文書が集まった文書群に対しても検索を行なうこと
ができる。このとき、タイトルを項目名、1文書を1項
目とすればよい。この場合にも、タイトルのない場合で
も適応することができる。
【0028】
【発明の効果】以上の説明から明らかなように、本発明
によれば、キーワードが直接記述されている場合だけで
はなく、間接的な記述も考慮し、キーワードとその共起
語により検索結果の優先度付けを行なっているので、従
来のキーワードに関する直接記述だけを考慮したキーワ
ードのみの優先度付けに比べ、精度良く優先度付けを行
なうことができる。特に、1項目当たりの文章量が少な
いテキストにおいては、キーワードの個数も少ないが、
本発明では、このようなテキストに対しても有効であ
る。また、キーワードが複数の意味を持つ場合でも、共
起語を用いることにより、キーワードの意味を限定して
検索することができるなどの効果がある。
によれば、キーワードが直接記述されている場合だけで
はなく、間接的な記述も考慮し、キーワードとその共起
語により検索結果の優先度付けを行なっているので、従
来のキーワードに関する直接記述だけを考慮したキーワ
ードのみの優先度付けに比べ、精度良く優先度付けを行
なうことができる。特に、1項目当たりの文章量が少な
いテキストにおいては、キーワードの個数も少ないが、
本発明では、このようなテキストに対しても有効であ
る。また、キーワードが複数の意味を持つ場合でも、共
起語を用いることにより、キーワードの意味を限定して
検索することができるなどの効果がある。
【図1】 本発明のテキスト検索装置の1実施例を示す
ブロック図である。
ブロック図である。
【図2】 本発明のテキスト検索装置の一実施例におけ
る動作の一例の説明図である。
る動作の一例の説明図である。
【図3】 テキストデータベースに格納されているテキ
ストデータの一例の説明図である。
ストデータの一例の説明図である。
【図4】 キーワード「AI」により検索された各検索
項目におけるキーワードと共起語の個数、点数、優先順
位の説明図である。
項目におけるキーワードと共起語の個数、点数、優先順
位の説明図である。
【図5】 キーワード「CD」により検索された各検索
項目におけるキーワードと共起語の個数、点数、優先順
位の説明図である。
項目におけるキーワードと共起語の個数、点数、優先順
位の説明図である。
1…キーワード指定部、2…テキスト検索部、3…テキ
ストデータベース、4…共起語検索部、5…共起語デー
タベース、6…優先度計算部、7…テキスト表示部。
ストデータベース、4…共起語検索部、5…共起語デー
タベース、6…優先度計算部、7…テキスト表示部。
Claims (1)
- 【請求項1】 キーワードによるテキストの検索を行な
うテキスト検索装置において、キーワードの入力を受け
付けるキーワード指定部と、キーワードにより検索可能
なテキストが格納されているテキストデータベースと、
前記キーワード指定部で受け付けたキーワードにより前
記テキストデータベースの検索を行なうテキスト検索部
と、ある語と強い関係にある共起語の情報を格納した共
起語データベースと、前記キーワード指定部で受け付け
たキーワードにより前記共起語データベースを検索する
共起語検索部と、前記キーワード指定部で受け付けたキ
ーワードと該キーワードにより前記共起語検索部で検索
された共起語の情報により前記テキスト検索部における
検索結果の優先度を計算する優先度計算部を有すること
を特徴とするテキスト検索装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6053580A JPH07262217A (ja) | 1994-03-24 | 1994-03-24 | テキスト検索装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6053580A JPH07262217A (ja) | 1994-03-24 | 1994-03-24 | テキスト検索装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH07262217A true JPH07262217A (ja) | 1995-10-13 |
Family
ID=12946785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6053580A Pending JPH07262217A (ja) | 1994-03-24 | 1994-03-24 | テキスト検索装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH07262217A (ja) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09190451A (ja) * | 1996-01-09 | 1997-07-22 | Oki Electric Ind Co Ltd | 情報検索装置 |
JPH09231237A (ja) * | 1996-02-28 | 1997-09-05 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置 |
JPH09231227A (ja) * | 1996-02-20 | 1997-09-05 | Inter Group:Kk | 情報検索装置およびその情報検索方法 |
JPH11272678A (ja) * | 1998-03-18 | 1999-10-08 | Fujitsu Ltd | 情報検索装置および方法 |
JP2000137738A (ja) * | 1998-11-03 | 2000-05-16 | Nec Corp | 複数の細分度のインデックス付けとクエリ―処理を効果的に用いてクエリ―の拡張を支援する方法、及び装置 |
JP2000227922A (ja) * | 1999-02-08 | 2000-08-15 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置、方法及びその方法を実行するプログラムを記録した記録媒体 |
JP2002140330A (ja) * | 2001-09-12 | 2002-05-17 | Matsushita Electric Ind Co Ltd | 文書検索システム |
JP2011175670A (ja) * | 2004-07-26 | 2011-09-08 | Google Inc | 情報検索システムにおけるフレーズに基づく検索方法 |
JP2012203454A (ja) * | 2011-03-23 | 2012-10-22 | Yahoo Japan Corp | レコメンドリスト生成装置 |
JP2012243124A (ja) * | 2011-05-20 | 2012-12-10 | Nec Corp | 情報検索装置、情報検索方法および情報検索プログラム |
US9384224B2 (en) | 2004-07-26 | 2016-07-05 | Google Inc. | Information retrieval system for archiving multiple document versions |
US9569505B2 (en) | 2004-07-26 | 2017-02-14 | Google Inc. | Phrase-based searching in an information retrieval system |
US9817825B2 (en) | 2004-07-26 | 2017-11-14 | Google Llc | Multiple index based information retrieval system |
-
1994
- 1994-03-24 JP JP6053580A patent/JPH07262217A/ja active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09190451A (ja) * | 1996-01-09 | 1997-07-22 | Oki Electric Ind Co Ltd | 情報検索装置 |
JPH09231227A (ja) * | 1996-02-20 | 1997-09-05 | Inter Group:Kk | 情報検索装置およびその情報検索方法 |
JPH09231237A (ja) * | 1996-02-28 | 1997-09-05 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び装置 |
JPH11272678A (ja) * | 1998-03-18 | 1999-10-08 | Fujitsu Ltd | 情報検索装置および方法 |
JP2000137738A (ja) * | 1998-11-03 | 2000-05-16 | Nec Corp | 複数の細分度のインデックス付けとクエリ―処理を効果的に用いてクエリ―の拡張を支援する方法、及び装置 |
JP2000227922A (ja) * | 1999-02-08 | 2000-08-15 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置、方法及びその方法を実行するプログラムを記録した記録媒体 |
JP2002140330A (ja) * | 2001-09-12 | 2002-05-17 | Matsushita Electric Ind Co Ltd | 文書検索システム |
US9817886B2 (en) | 2004-07-26 | 2017-11-14 | Google Llc | Information retrieval system for archiving multiple document versions |
US9384224B2 (en) | 2004-07-26 | 2016-07-05 | Google Inc. | Information retrieval system for archiving multiple document versions |
US9569505B2 (en) | 2004-07-26 | 2017-02-14 | Google Inc. | Phrase-based searching in an information retrieval system |
JP2011175670A (ja) * | 2004-07-26 | 2011-09-08 | Google Inc | 情報検索システムにおけるフレーズに基づく検索方法 |
US9817825B2 (en) | 2004-07-26 | 2017-11-14 | Google Llc | Multiple index based information retrieval system |
US9990421B2 (en) | 2004-07-26 | 2018-06-05 | Google Llc | Phrase-based searching in an information retrieval system |
US10671676B2 (en) | 2004-07-26 | 2020-06-02 | Google Llc | Multiple index based information retrieval system |
JP2012203454A (ja) * | 2011-03-23 | 2012-10-22 | Yahoo Japan Corp | レコメンドリスト生成装置 |
JP2012243124A (ja) * | 2011-05-20 | 2012-12-10 | Nec Corp | 情報検索装置、情報検索方法および情報検索プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2021371022B2 (en) | Systems and methods for the automatic classification of documents | |
Lloret et al. | The challenging task of summary evaluation: an overview | |
Zamir et al. | Grouper: a dynamic clustering interface to Web search results | |
US7454393B2 (en) | Cost-benefit approach to automatically composing answers to questions by extracting information from large unstructured corpora | |
US7958153B2 (en) | Systems and methods for employing an orthogonal corpus for document indexing | |
US5870740A (en) | System and method for improving the ranking of information retrieval results for short queries | |
US5576954A (en) | Process for determination of text relevancy | |
US6810376B1 (en) | System and methods for determining semantic similarity of sentences | |
US7627564B2 (en) | High scale adaptive search systems and methods | |
US8321409B1 (en) | Document ranking using word relationships | |
US20020078090A1 (en) | Ontological concept-based, user-centric text summarization | |
Fisher et al. | The role of text analytics and information retrieval in the accounting domain | |
US20010020238A1 (en) | Document searching apparatus, method thereof, and record medium thereof | |
US20130151538A1 (en) | Entity summarization and comparison | |
GB2397147A (en) | Organising, linking and summarising documents using weighted keywords | |
JPH03172966A (ja) | 類似文書検索装置 | |
JPH07262217A (ja) | テキスト検索装置 | |
US6278990B1 (en) | Sort system for text retrieval | |
US11853331B2 (en) | Specialized search system and method for matching a student to a tutor | |
JPH0454564A (ja) | 重み学習型テキストベース検索装置 | |
Kim et al. | Question Answering Considering Semantic Categories and Co-Occurrence Density. | |
Azari et al. | Actions, answers, and uncertainty: A decision-making perspective on web-based question answering | |
JP2008204133A (ja) | 回答検索装置及びコンピュータプログラム | |
Boukhatem et al. | Empirical comparison of semantic similarity measures for technical question answering | |
Greenberg | The applicability of natural language processing (NLP) to archival properties and objectives |