JP4671212B2 - 文書検索装置、文書検索方法、プログラムおよび記録媒体 - Google Patents
文書検索装置、文書検索方法、プログラムおよび記録媒体 Download PDFInfo
- Publication number
- JP4671212B2 JP4671212B2 JP2001088734A JP2001088734A JP4671212B2 JP 4671212 B2 JP4671212 B2 JP 4671212B2 JP 2001088734 A JP2001088734 A JP 2001088734A JP 2001088734 A JP2001088734 A JP 2001088734A JP 4671212 B2 JP4671212 B2 JP 4671212B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- keyword
- documents
- conforming
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、文書検索装置、文書検索方法、文書検索装置の機能を実行させるためのプログラムおよびそのプログラムを記録したコンピュータ読みとり可能な記録媒体に関し、より詳細には、与えられたキーワードに対して適合する文書を選択し、この適合文書から抽出したキーワードの関連語を付加したキーワードによって適合する文書を検索しなおすことにより、ユーザの所望する文書が検索できる文書検索装置、文書検索方法、文書検索装置の機能を実行させるためのプログラムおよびそのプログラムを記録したコンピュータ読みとり可能な記録媒体に関する。
【0002】
【従来の技術】
文書を多数集積している文書データベースからユーザの必要とする文書を探しだすには、ユーザが入力したキーワードを用いて一旦検索した後、そのキーワードに適合した文書中に出現する単語の中から入力したキーワードに関連した単語を選出し、はじめに入力したキーワードに追加し、再度、検索することで、よりユーザの求めるものに近いものを得る方法が知られている。
例えば、キーワードの関連語を選出する方法として、適合文書中の各単語について、適合文書の中での出現状況などの統計情報を利用して、キーワードとの関連度を算出し、その値の大きい上位何単語かを選出する方法が提案されている(文献1:Robertson,S.E."On term selection for query expansion,"Journal of Documentation 46,Dec 1990,p359-364)。
次に、この従来の関連語抽出方法を説明する。
ユーザから入力されたキーワード中の各単語に対して単語の重要度に応じた重みを付与する。この単語の重みの計算式には、例えば、確率モデルにもとづくRobertsonの計算式(式1)が知られている(文献2:Robertson,S.E. and Walker,S."On relevance weights with little relevance information,"SIGIR97,ACM Press,pp.16-24)。この文献2の技術においては、キーワード中の各単語の重みは、検索対象文書全体の中での各単語の出現状況Wp、Wqに応じて付与される。
W(重み)=WpWq ………(式1)
ここで
Wp=k4+log(N/(N-n))
Wq=log(n/(N-n))
N:検索対象総文書数
n:単語の出現する文書数
k4:調整パラメータ
【0003】
次に、キーワード中の各単語の重みをもとに、各文書の文書適合度を計算する。この文書適合度の計算式は、例えば、文献2の計算式(式2)で求まる。
F(適合度)=Σ(W×tf/(k1+tf)) ………(式2)
ここで
W:(式1)で求めた単語の重み
tf:文書あたりの単語の出現数
k1:調整パラメータ
各文書の文書適合度を求め、適合度の高い順に各文書を順序づけ、上位何件かを適合文書とみなし、下位何件かを非適合文書とみなす。
適合文書の選出後、適合文書中の不要語(たとえば冠詞のaなど)を除いたすべての単語について、適合文書および非適合文書での出現状況、すなわちフィードバック情報を反映させて、それぞれの単語の重みを再計算する。
適合文書選出後の重みは、例えば、文献2の計算式(式3)を用いて、検索対象文書全体での出現状況Wp、Wq((式1)のコメント参照)と適合文書/非適合文書の中での出現状況WrとWsを比率CpとCqで足し合わせて付与される。
W'(重み)=(Cp・Wp+(1-Cp)・Wr)-(Cq・Wq+(1-Cq)・Ws)……(式3)
ここで
Wr=log((r+0.5)/(R-r+0.5))
Ws=log((s+0.5)/(S-s+0.5))
Cp=k5/(k5+√R)
Cq=k6/(k6+√S)
R:適合文書数
r:適合文書集合の中で単語の出現する文書数
S:非適合文書数
s:非適合文書集合の中で単語の出現する文書数
k5,k6:調整パラメータ
さらに、この重みとフィードバック情報から適合文書中の不要語を除いた各単語について、キーワードとの関連度を求める。
関連度の算出方法としては、たとえば、Boughanemの計算式(式4)がある(文献3:Walker,S.etal.,"Okapi at TREC-6:Automated adhoc,VLC,routing,filtering and QSDR,"The Sixth Text REtrieval Conference(TREC-6),1996,NIST)。
関連度=(r/R-α・s/S)×W' ………(式4)
ここで
α:調整パラメータ
このようにして、適合文書中の各単語について、キーワードとの関連度を求めて、関連度の高いものから順にキーワード関連語として選出し、入力したキーワードに追加して新しいキーワードを作成する。
この新しいキーワードを用いて、再度、適合文書を選出する。このとき、文書適合度の算出には、上記(式3)で求めた重みが使われる。
【0004】
【発明が解決しようとする課題】
しかしながら、上記の従来技術では、キーワードとの関連度は、単語の適合文書および非適合文書内での出現回数およびその単語の重みを算出した上で求めていた。しかし、単語の重みを計算するには、検索対象文書中でその単語の出現する文書数を調べる必要があり、そのための処理時間がかかっていた。
一方、従来技術は、検索精度の面でも、単語によっては、再検索時の重みが必要以上に大きくなり検索に影響することがあった。
特に、インターネット上の文書など語彙が統制されていない文書においては、その文書を作成した者しか使用しないような特殊な単語や誤った表記が出現しがちであるが、上記の従来技術では、このような単語に、極端に大きな重みがついてしまい、再検索での検索精度を劣化させるということがある。
本発明は、上述の問題を解決するために、検索に寄与する単語をキーワードの関連語として選出し、その関連語で再検索することによって、ユーザの所望している的確な文書を検索することができる文書検索装置、文書検索方法、文書検索装置の機能を実行させるためのプログラムおよびそのプログラムを記録したコンピュータ読みとり可能な記録媒体を提供することを目的とする。
さらに、関連度を算出する際の単語の重み計算の負荷をなくし、関連語選出にかかる時間を減らすことも目的とする。
また、関連語として検索結果への影響の小さく、且つ、重みが極端に小さい単語を選択しないようにして、無駄な検索時間がかからないようにすることも目的とする。
また、関連語として汎用性が低いにもかかわらず重みの大きい単語を関連語として選択されないようにして、再検索の精度に影響しないようにすることも目的とする。
【0005】
【課題を解決するための手段】
請求項1の発明は、入力されたキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索装置であって、前記文書データベースから前記キーワードに適合する文書および適合しない文書を選出する文書ランキング部と、前記文書ランキング部で選出された適合文書中に出現する単語の前記キーワードとの関連度を、Rを適合文書数、Sを非適合文書数、rtfを適合文書中の各文書における出現回数、stfを非適合文書中の各文書における出現回数、K、βを調整パラメータとしてΣ(rtf/K+rtf)/R-β×Σ(stf/K+stf)/Sにより算出し、この関連度が高い単語を前記キーワードの関連語として選出する単語ランキング部と、前記単語ランキング部で選出した関連語をもとの前記キーワードに追加して新しいキーワードとするキーワード生成部とを備え、前記キーワード生成部で生成された新しいキーワードに適合する文書を再度、前記文書ランキング部で検索するようにしたことを特徴とする。
請求項2の発明は、請求項1に記載の文書検索装置において、単語辞書を有し、前記単語ランキング部は、前記関連度の高い単語を選出した後、その単語の重みが大きく、かつその単語が前記単語辞書に登録されていない場合、その単語を前記関連語から除外することを特徴とする。
請求項3の発明は、入力されたキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索装置による文書検索方法であって、前記文書データベースから前記キーワードに適合する文書および適合しない文書を選出し、前記選出された適合文書中に出現する単語の前記キーワードとの関連度を、Rを適合文書数、Sを非適合文書数、rtfを適合文書中の各文書における出現回数、stfを非適合文書中の各文書における出現回数、K、βを調整パラメータとしてΣ(rtf/K+rtf)/R-β×Σ(stf/K+stf)/Sにより算出し、この関連度が高い単語を前記キーワードの関連語として選出して、前記キーワードに追加して新しいキーワードとし、この生成された新しいキーワードに適合する文書を再度、前記文書データベースを検索するようにしたことを特徴とする。
請求項4の発明は、請求項3に記載の文書検索装置による文書検索方法において、単語辞書を有し、前記関連度の高い単語を選出した後、その単語の重みが大きく、かつその単語が前記単語辞書に登録されていない場合、その単語を前記関連語から除外することを特徴とする。
請求項5の発明は、入力されたキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索装置のコンピュータを、前記文書データベースから前記キーワードに適合する文書および適合しない文書を選出する文書ランキング部、前記文書ランキング部で選出された適合文書中に出現する単語の前記キーワードとの関連度を、Rを適合文書数、Sを非適合文書数、rtfを適合文書中の各文書における出現回数、stfを非適合文書中の各文書における出現回数、K、βを調整パラメータとしてΣ(rtf/K+rtf)/R-β×Σ(stf/K+stf)/Sにより算出し、この関連度が高い単語を前記キーワードの関連語として選出する単語ランキング部、前記単語ランキング部で選出した関連語をもとの前記キーワードに追加して新しいキーワードとするキーワード生成部、として機能させるプログラムであって、文書ランキング部は、前記キーワード生成部で生成された新しいキーワードに適合する文書を再度検索することを特徴とする。
請求項6の発明は、請求項5に記載のプログラムを記録したコンピュータ読みとり可能な記録媒体である。
【0008】
【発明の実施の形態】
以下に、図面を用いて本発明の実施例の構成および動作を詳細に述べる。
(1)実施例の構成
図1は、本発明の一実施例である文書検索装置の構成を示すブロック図である。
本実施例の文書検索装置は、キーワード入力部110、文書ランキング部120、単語ランキング部130、キーワード生成部140、文書出力部150、文書データベース160より構成される。
キーワード入力部110は、ユーザがキーボード等により、文書データベース160中にある文書の特徴をあらわすキーワードとなる文字列を入力する。
この入力された文字列は、必要に応じて、単語辞書170をもちいて形態素解析され単語に分解する。
この単語辞書170は、少なくとも各単語の表記、品詞等から構成される。
または、単語辞書170を使わず、この入力された文字列をn−gramに区切って、それを単語としてもよい。
【0009】
文書ランキング部120は、キーワード入力部110から渡されたキーワードに対して、文書データベース160を検索し、適合する文書と適合しない文書とを選定する。この選定された適合文書は、文書出力部150へ渡される。
また、文書ランキング部120は、キーワード生成部140で生成された新しいキーワードに対してもう一度適合する文書を選定する。
文書データベース160は、検索対象となる文書を保持する文書情報と、その文書中に含まれている各単語の単語統計情報から構成される(図2参照)。
例えば、文書情報には、各文書に対して次のような情報が保持される。
文書識別子(ID)、文書名、書誌事項(作成者、作成日、発行所等)、文書実体へのポインタ等
また、単語統計情報には、単語ごとに次のような統計情報を保持する。
単語の表記、この単語の文書データベース全体での出現頻度、単語出現情報等ここで単語出現情報としては、単語が出現する文書ごとに次の情報を保持する。
この単語が出現する文書の文書識別子、この文書にこの単語が出現する単語出現頻度、この文書にこの単語が出現する出現位置の一覧等
【0010】
単語ランキング部130は、文書ランキング部120で選定された適合文書の文書識別子から文書データベース160に格納されている文書を取り出し、形態素解析あるいはn−gramによって区切って、単語を抽出し、予め用意された不要語表にこの抽出した単語が登録されていれば削除し、残りの単語を関連語候補とする。次の(式5)で計算した値を入力されたキーワードとこの関連語候補との関連度として算出する。
関連度=Σi(rtfi/K+rtfi)/R-β×Σj(stfj/K+stfj)/S ……(式5)
ここで、Rを適合文書数、Sを非適合文書数、
rtfiを適合文書の文書iにおける出現回数、
stfjを非適合文書の文書jにおける出現回数、
Kおよびβを調整パラメータとする。
また、(式5)の右辺第1項は、適合文書の各文書についての和であり、第2項は、非適合文書の各文書についての和であるとする。
この取り出された単語の中から、所定の件数(例えば、10個程度)の関連度の高い上位の単語を関連語候補として選出する。
この関連語候補の中から、検索結果への影響が小さく追加するに値しない単語を除外して、残りを関連語とする。
例えば、関連語として採用する単語の重みの下限を予め定め、この下限に満たない重みの単語を、関連語候補から削除する。
また、関連語候補の中から、汎用性の低い単語を除外して、残りを関連語とする。例えば、関連語として採用する単語の重みの上限を予め定め、この上限を越える重みの単語については、単語辞書170に登録されていない単語を関連語候補から削除する。
【0011】
ここで、上述の単語の重みは(式3)で計算する。
このようにして決定された関連語をキーワード生成部140へ渡す。
キーワード生成部140は、単語ランキング部130から渡された関連語をもとのキーワードに追加して新しいキーワードを生成し、文書ランキング部120へ渡す。
文書出力部140は、文書ランキング部120で選出した適合文書をプリンタ、表示装置、記憶装置等へ出力するか、または、ネットワークを介して他のコンピュータ装置へ送信する。
【0012】
(2)実施例の動作
次に、このように構成された本実施例の文書検索装置の動作について、図3のフローチャートに基いて説明する。
まず、キーボード等の入力装置から、例えば、英語や日本語の単語や単語の組み合わせで構成されるキーワードを文字列として入力し、必要に応じて単語辞書170によって形態素解析して、単語に分解する(ステップS100)。
または、単語辞書170を使わず、この入力された文字列をn−gramに区切って、それを単語としてもよい。
これにより、キーワード入力部110を構成する。
この入力されたキーワード中のそれぞれの単語について、文書データベース160の単語統計情報を参照し、例えば、上記(式1)を用いて単語の重要度に応じた重みを計算する(ステップS110)。
次に、検索対象である文書データベース160中のそれぞれの文書に対して、文書データベース160の単語統計情報とステップS110で計算されたキーワードの単語の重みとを参照し、その文書にキーワード中の単語がどのくらい含まれているかを示す適合度を、例えば、上記(式2)を用いて計算し、文書一覧表を作成する(ステップS120)。
この文書一覧表を適合度をキーとして、降順に各文書を順序付け、その上位から所定の件数(例えば、10件程度)の文書を適合文書とみなし、下位から所定の件数(例えば、500件程度)の文書を非適合文書とみなす(ステップS130)。
あるいは、順序づけられた文書の一覧表(適合度、文書名や書誌事項等の一覧)をユーザに提示し、適合しているかどうか指示させ、適合していると指示された文書を適合文書とし、適合しないと指示された文書を非適合文書とするようにしてもよい。
【0013】
ステップS110からステップS130までにより、文書ランキング部120を構成する。
ステップS130で選出した適合文書がユーザの所望した文書であるかどうかをユーザに指示させる(ステップS140)。
所望した文書でなければ、ステップS150へ進む。所望した文書であれば、ステップS170へ進む。
ステップS130で選出された適合文書を表示装置、プリンタや記憶装置等の出力装置へ、例えば、ランク順に文書名や書誌事項等を一覧として出力したり、また、ネットワークで接続された他のコンピュータ装置へ送信することによってユーザに提示される(ステップS170)。
これにより、文書出力部150を構成する。
ステップS130で選定された適合文書の文書識別子から文書データベース160に格納されている文書を取り出し、その文書を形態素解析やn−gramで区切った単語を抽出し、この抽出された単語が予め用意された不要語表に登録されていれば、その単語を削除した残りの単語を関連語候補とする。
この抽出された関連語候補に対して、(式5)で計算した値を入力されたキーワードとの関連度として算出する。
この取り出された関連度の高い関連語候補から順に所定の件数(例えば、10単語程度)だけ選択する。
【0014】
この選択された関連語候補の中から、検索結果への影響が小さく追加するに値しない単語を除外して、残りを関連語とする。
例えば、関連語として採用する単語の重みの下限を予め定め、この下限に満たない重みの単語を、関連語候補から削除する。
また、この選択された関連語候補の中から、汎用性の低い単語を除外して、残りを関連語とする。例えば、関連語として採用する単語の重みの上限を予め定め、この上限を越える重みの単語については、単語辞書170に登録されていない単語を関連語候補から削除する。
このようにして削除・選択された関連語候補をキーワードの関連語として抽出する(ステップS150)。
これにより単語ランキング部130を構成する。
単語の関連語(ステップS150)をもとのキーワードに追加して新しいキーワードを作成する(ステップS160)。
これによりキーワード生成部140を構成する。
この新しいキーワードをステップS110からステップS130(文書ランキング部120)の処理と同様にして、再度、適合文書を選出する。
【0015】
本実施例の文書検索装置をこのような構成にすることによって、次のような効果を達成すると共に、検索に寄与する単語をキーワードの関連語として選出することができるので、ユーザの所望している的確な文書を検索することができる。
・関連度算出から単語の重み計算を省くことによって、関連語選出にかかる時間が減少する。
・また、検索結果への影響の小さい、重みが極端に小さい単語を選択しないようにして、無駄な検索時間がかからなくなる。
・また、汎用性が低いにもかかわらず重みが大きい単語を排除することにより、再検索に影響しないようになり、検索精度が向上する。
【0016】
<コンピュータによる実施例>
さらに、本発明は上記の実施の形態のみに限定されたものではない。例えば、図1に示した文書検索装置は、図4のようなハードウェア構成を持つコンピュータ装置200によっても実現が可能である。
即ち、コンピュータ装置200は、キーボード、マウス、タッチパネル、スキャナ等により構成され、情報の入力に使用される入力装置1と、種々の出力情報や入力装置1からの入力された情報などを表示出力させる表示装置2と、種々のプログラムを動作させるCPU(Central Processing Unit;中央処理ユニット)3と、プログラム自身を保持し、またそのプログラムがCPU3によって実行されるときに一時的に作成される情報等を保持するメモリ4と、本発明の文書検索装置で扱う文書データベース160、単語辞書170およびプログラムやプログラム実行時の一時的な情報等を保持する記憶装置5と、プログラムやデータ等を記憶した記録媒体を装着してそれらを読み込み、メモリ4または記憶装置5へ格納するのに用いられる媒体駆動装置6と、ネットワーク9へ接続するためのインタフェースであるネットワーク接続装置7とから構成され、それらはバス8で接続されている。
また、ネットワーク9は、コンピュータ装置200と他のコンピュータ装置200とを結合するための伝送路であって、一般には、ケーブルで実現され、通信プロトコルにはTCP/IPが使われる。但し、伝送路としてはケーブルだけではなく、それらの間の通信プロトコルが一致するものであれば無線、有線および放送波のいずれでもよく、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、アナログ電話網、デジタル電話網(ISDN:Integral Service Digital Network)、PHS(パーソナルハンディホンシステム)、携帯電話網、衛星通信網などを用いることができる。
このようなコンピュータ装置200の構成において、図1に示した文書検索装置を構成する各機能をそれぞれプログラム化し、予めCD−ROM等の記録媒体に書き込んでおき、このCD−ROMを各サイトのCD−ROMドライブのような媒体駆動装置6を搭載したコンピュータ装置に装着して、これらのプログラムをそれぞれのコンピュータ装置のメモリ4あるいは記憶装置5に格納し、それを実行することによって、上記の実施の形態と同様な機能を実現することができる。
【0017】
尚、記録媒体としては半導体媒体(例えば、ROM、ICメモリカード等)、光媒体(例えば、DVD、MO、MD、CD−R等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)のいずれであってもよい。
また、コンピュータ装置200のメモリ4へロードしたプログラムを実行することにより前述した実施の形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステム等が実際の処理の一部または全部を行い、その処理によって上述した実施の形態の機能が実現される場合も含まれる。
また、上述した実施の形態を実現するプログラムがROM等のような半導体の記録媒体である場合には、媒体駆動装置6からではなく、直接、メモリ4へロードして実行される。
【0018】
<本発明のネットワーク環境での運用>
図5は、本発明を有線または無線の通信ネットワークに接続して運用する形態の構成を示している。
例えば、文書検索プログラムを保持するサーバー300と複数のユーザが利用する端末310とをネットワーク9で接続する。
この場合、サーバー300およびユーザの端末310は、図4に示した汎用のコンピュータ装置200で構成される。
ユーザは、端末310からサーバー300に対してログインしたり、文書検索のためのキーワードを入力装置を用いて入力し、ネットワーク9を介してサーバー300の文書検索プログラムへ検索の実行を依頼する。
サーバー300の文書検索プログラムは、指定されたキーワードに適合した検索結果や途中経過をネットワーク9を介して要求元の端末310へ戻す。ユーザの端末310は、この検索結果や途中経過を出力装置へ出力する。途中経過の出力の時には、その経過如何によっては、サーバー300への指示も行う。
このように文書検索プログラムをサーバー300におくことによって、ユーザは常に最新の文書検索プログラムを使えるという利点がある。
また、図5のようにサーバー300と端末310とを有線または無線の通信ネットワークで接続した場合、サーバー300の磁気ディスク等の記憶装置に本発明の機能を実現する文書検索プログラムを格納しておき、端末310に対してダウンロード等の形式で頒布することも可能である。
さらに、本発明の機能を実現する文書検索プログラムを記録媒体や放送波による配布で提供するようにしてもよい。
【0019】
【発明の効果】
以上説明したように、本発明によれば、関連度算出から単語の重み計算を省くことにより、関連語選出にかかる時間が減少した。
また、検索結果への影響の小さく、重みが極端に小さい単語を選択しないようにして、無駄な検索時間をかからなくした。
また、汎用性が低いにもかかわらず重みの大きい単語を排除したので、再検索に影響しないため検索の精度が向上した。
以上により、検索に寄与する単語をキーワードの関連語として選出できるので、ユーザの所望している的確な文書を検索することができる。
【図面の簡単な説明】
【図1】実施例の文書検索装置の構成を示すブロック図である。
【図2】文書データベースのデータ構造を説明するための図である。
【図3】実施例の文書検索装置の処理の流れを説明するためのフローチャートである。
【図4】本発明の文書検索装置をコンピュータで実現するときのハードウェアの構成を示す図である。
【図5】本発明をネットワーク環境で運用する場合を説明するための図である。
【符号の説明】
1 入力装置
2 表示装置
3 CPU
4 メモリ
5 記憶装置
6 媒体駆動装置
7 ネットワーク接続装置
8 バス
9 ネットワーク
110 キーワード入力部
120 文書ランキング部
130 単語ランキング部
140 キーワード生成部
150 文書出力部
160 文書データベース
170 単語辞書
200 コンピュータ装置
300 サーバー
310 端末
Claims (6)
- 入力されたキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索装置であって、前記文書データベースから前記キーワードに適合する文書および適合しない文書を選出する文書ランキング部と、前記文書ランキング部で選出された適合文書中に出現する単語の前記キーワードとの関連度を、Rを適合文書数、Sを非適合文書数、rtfを適合文書中の各文書における出現回数、stfを非適合文書中の各文書における出現回数、K、βを調整パラメータとして
Σ(rtf/K+rtf)/R-β×Σ(stf/K+stf)/S
により算出し、この関連度が高い単語を前記キーワードの関連語として選出する単語ランキング部と、前記単語ランキング部で選出した関連語をもとの前記キーワードに追加して新しいキーワードとするキーワード生成部とを備え、前記キーワード生成部で生成された新しいキーワードに適合する文書を再度、前記文書ランキング部で検索するようにしたことを特徴とする文書検索装置。 - 請求項1に記載の文書検索装置において、単語辞書を有し、前記単語ランキング部は、前記関連度の高い単語を選出した後、その単語の重みが大きく、かつその単語が前記単語辞書に登録されていない場合、その単語を前記関連語から除外することを特徴とする文書検索装置。
- 入力されたキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索装置による文書検索方法であって、前記文書データベースから前記キーワードに適合する文書および適合しない文書を選出し、前記選出された適合文書中に出現する単語の前記キーワードとの関連度を、Rを適合文書数、Sを非適合文書数、rtfを適合文書中の各文書における出現回数、stfを非適合文書中の各文書における出現回数、K、βを調整パラメータとして
Σ(rtf/K+rtf)/R-β×Σ(stf/K+stf)/S
により算出し、この関連度が高い単語を前記キーワードの関連語として選出して、前記キーワードに追加して新しいキーワードとし、この生成された新しいキーワードに適合する文書を再度、前記文書データベースを検索するようにしたことを特徴とする文書検索装置による文書検索方法。 - 請求項3に記載の文書検索装置による文書検索方法において、単語辞書を有し、前記関連度の高い単語を選出した後、その単語の重みが大きく、かつその単語が前記単語辞書に登録されていない場合、その単語を前記関連語から除外することを特徴とする文書検索装置による文書検索方法。
- 入力されたキーワードに適合する文書を複数の文書を保持する文書データベースから検索する文書検索装置のコンピュータを、
前記文書データベースから前記キーワードに適合する文書および適合しない文書を選出する文書ランキング部、
前記文書ランキング部で選出された適合文書中に出現する単語の前記キーワードとの関連度を、Rを適合文書数、Sを非適合文書数、rtfを適合文書中の各文書における出現回数、stfを非適合文書中の各文書における出現回数、K、βを調整パラメータとして
Σ(rtf/K+rtf)/R-β×Σ(stf/K+stf)/S
により算出し、この関連度が高い単語を前記キーワードの関連語として選出する単語ランキング部、
前記単語ランキング部で選出した関連語をもとの前記キーワードに追加して新しいキーワードとするキーワード生成部、として機能させるプログラムであって、
文書ランキング部は、前記キーワード生成部で生成された新しいキーワードに適合する文書を再度検索することを特徴とするプログラム。 - 請求項5に記載のプログラムを記録したコンピュータ読みとり可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001088734A JP4671212B2 (ja) | 2001-03-26 | 2001-03-26 | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001088734A JP4671212B2 (ja) | 2001-03-26 | 2001-03-26 | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002288215A JP2002288215A (ja) | 2002-10-04 |
JP4671212B2 true JP4671212B2 (ja) | 2011-04-13 |
Family
ID=18943777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001088734A Expired - Fee Related JP4671212B2 (ja) | 2001-03-26 | 2001-03-26 | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4671212B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4179858B2 (ja) * | 2002-11-28 | 2008-11-12 | 株式会社リコー | 文書検索装置、文書検索方法、プログラムおよび記録媒体 |
JP2009217406A (ja) * | 2008-03-07 | 2009-09-24 | Nec Corp | 文書検索装置及び方法、並びに、プログラム |
JP5295605B2 (ja) * | 2008-03-27 | 2013-09-18 | 株式会社東芝 | 検索キーワード改良装置、サーバ装置、および方法 |
JP5491446B2 (ja) * | 2011-05-20 | 2014-05-14 | 日本電信電話株式会社 | 話題語獲得装置、方法、及びプログラム |
CN110069762A (zh) * | 2019-03-18 | 2019-07-30 | 天津字节跳动科技有限公司 | 一种文档多音字排序方法、装置、介质和电子设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1125108A (ja) * | 1997-07-02 | 1999-01-29 | Matsushita Electric Ind Co Ltd | 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム |
JP2001075981A (ja) * | 1999-09-02 | 2001-03-23 | Ntt Data Corp | 検索システム、検索条件受付方法及び記録媒体 |
-
2001
- 2001-03-26 JP JP2001088734A patent/JP4671212B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1125108A (ja) * | 1997-07-02 | 1999-01-29 | Matsushita Electric Ind Co Ltd | 関連キーワード自動抽出装置、文書検索装置及びこれらを用いた文書検索システム |
JP2001075981A (ja) * | 1999-09-02 | 2001-03-23 | Ntt Data Corp | 検索システム、検索条件受付方法及び記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2002288215A (ja) | 2002-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1225517B1 (en) | System and methods for computer based searching for relevant texts | |
US9361361B2 (en) | Interactively entering data into the database | |
CA2458138C (en) | Methods and systems for language translation | |
US6996561B2 (en) | System and method for interactively entering data into a database | |
US9659004B2 (en) | Retrieval device and method | |
JP4226862B2 (ja) | 文書検索装置 | |
JP2004178421A (ja) | 文書検索装置、文書検索方法、プログラムおよび記録媒体 | |
JP4154118B2 (ja) | 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体 | |
JP4671212B2 (ja) | 文書検索装置、文書検索方法、プログラムおよび記録媒体 | |
JP4212347B2 (ja) | 文書検索装置、プログラムおよび記録媒体 | |
JP4227797B2 (ja) | 類義語検索装置、それによる類義語検索方法、類義語検索プログラム及び記憶媒体 | |
US20040205051A1 (en) | Dynamic comparison of search systems in a controlled environment | |
JP4208402B2 (ja) | 文書検索装置、文書検索方法および記録媒体 | |
JP4773003B2 (ja) | 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体 | |
JP2019021194A (ja) | 情報処理システムおよび情報処理方法 | |
JPH09212517A (ja) | 情報代行検索方法及び装置 | |
JP4460248B2 (ja) | 翻訳支援プログラム、翻訳支援装置および翻訳支援方法 | |
JP2003108584A (ja) | 情報検索システム及びプログラム | |
JP2007241635A (ja) | 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム | |
JP2002117043A (ja) | 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体 | |
JP2003281181A (ja) | 文書検索装置、文書検索方法、プログラム及び記録媒体 | |
JP4217410B2 (ja) | 情報検索装置及びその制御方法、並びにプログラム | |
JP4049543B2 (ja) | 文書検索装置、文書検索プログラム、記録媒体 | |
JPH11195041A (ja) | 文書検索装置、方法及び記録媒体 | |
JPH10207896A (ja) | 検索用語拡張方法及び装置及び情報検索方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080324 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20080325 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100901 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110112 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110112 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140128 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |