JP4008551B2 - キーワード重み生成装置、キーワード重み生成方法及びコンピュータ読み取り可能な記録媒体 - Google Patents
キーワード重み生成装置、キーワード重み生成方法及びコンピュータ読み取り可能な記録媒体 Download PDFInfo
- Publication number
- JP4008551B2 JP4008551B2 JP30516797A JP30516797A JP4008551B2 JP 4008551 B2 JP4008551 B2 JP 4008551B2 JP 30516797 A JP30516797 A JP 30516797A JP 30516797 A JP30516797 A JP 30516797A JP 4008551 B2 JP4008551 B2 JP 4008551B2
- Authority
- JP
- Japan
- Prior art keywords
- weight
- document
- keyword
- ratio value
- importance ratio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 40
- 238000004364 calculation method Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 28
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000012854 evaluation process Methods 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 238000010606 normalization Methods 0.000 description 4
- 238000002790 cross-validation Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、文書中に出現するキーワードの重みを生成するキーワード重み生成装置及び方法と、それを実現するプログラムを記録したコンピュータ読み取り可能な記録媒体とに関し、特に、的確なキーワードの重みを生成できるようにするキーワード重み生成装置及び方法と、それを実現するプログラムを記録したコンピュータ読み取り可能な記録媒体とに関する。
【0002】
インターネットやイントラネットの整備に伴い、文書データベースの大規模化が進んでいる。これから、大規模な文書データベースの中から、ユーザの欲する文書を出来るだけ早く正確に提供する文書検索はますます重要になってきている。
【0003】
文書検索では、複数のキーワードを設定しておき、2つの文書に出現するキーワードをリストアップして、それらのキーワードの重みの合計値などを算出することで、2つの文書の距離を評価するという構成を採っている。
【0004】
これから、キーワードの重要度を示す重みを生成することは非常に重要である。なぜならば、この生成されたキーワードの重みを用いて、ユーザの質問に適した順序でソートして検索結果を提供するというランキング検索の検索精度を向上させることが出来るばかりでなく、検索に不要なキーワードをインデックスから削除することによりインデックスのサイズを縮小化出来たり、重みを用いてランキング検索の上位にくる確率の高い順にインデックス中の文書の並べ替えを行うことにより、検索速度の向上を図ることが出来るからである。
【0005】
このようなことを背景にして、的確なキーワードの重みを生成できるようにする技術の構築が叫ばれている。
【0006】
【従来の技術】
従来では、文書中に出現するキーワードの重みを、TF(Text Frequency) やIDF(Inverse Document Frequency) という手法を用いて算出していた。
【0007】
TFは、文書中のキーワードの出現頻度に対する重みを表すもので、出現頻度が高ければ高いほど大きな値を持つように設定されている。
また、IDFは、文書データベース中におけるキーワードの出現の分散を表現したもので、例えば、
IDFi =log2[(N−ni )/ni ]
但し、N :文書データベース中の文書数
ni :文書データベース中のキーワードiの出現頻度
という算出式でキーワードの重みを算出する。
【0008】
このIDFは、文書データベース中のキーワードの出現頻度が低ければ低いほど大きな値を持つように設定されている。
このように、従来では、キーワードの出現頻度に基づいたTFやIDFを用いて、文書中に出現するキーワードの重みを生成するという構成を採っていた。
【0009】
【発明が解決しようとする課題】
しかしながら、従来技術に従っていると、文書中に出現するキーワードの重みが出現頻度の統計量だけによって決定されており、これから、適切なキーワードの重みを生成することが難しいという問題点があった。
【0010】
すなわち、形態素解析ツールなどにより文書から抽出されるキーワードにはノイズを含んだものも多く、このノイズを含んだキーワードの出現頻度の統計量のみからキーワードの重みを生成するという従来技術に従っていると、重み設定の妥当性の低下をもたらすことになる。
【0011】
これから、従来技術に従っていると、キーワードの重みの妥当性が低いことから、検索速度の向上やインデックスサイズの縮小化の実現が困難になるという問題点を抱えていた。
【0012】
本発明はかかる事情に鑑みてなされたものであって、文書中に出現するキーワードに対して的確な重みを生成できるようにする新たなキーワード重み生成装置及び方法の提供と、それを実現するプログラムを記録した新たなコンピュータ読み取り可能な記録媒体の提供とを目的とする。
【0013】
【課題を解決するための手段】
この目的を達成するために、本発明のキーワード重み生成装置は、文書中に出現するキーワードの重みを生成するために、(1)文書データベースを参照することで、文書に出現する各キーワードの統計情報を求めて、各キーワードの出現する文書のカテゴリ情報を用いないで、該統計情報から各キーワードの第1の重みを算出する第1の算出手段と、(2)文書データベースを参照することで、文書に出現する各キーワードについて、どのようなカテゴリの文書にどの位の頻度で出現するのかということについて示す出現頻度情報を求めて、該出現頻度情報から各キーワードの第2の重みを算出する第2の算出手段と、(3)第1の算出手段の算出した第1の重みと第2の算出手段の算出した第2の重みとの重要度比値の候補となる複数の重要度比値候補を設定する設定手段と、(4)設定手段の設定した各重要度比値候補を処理対象として、その処理対象の重要度比値候補に従って第1の重みと第2の重みとを合成することで各キーワードの重みを生成し、文書データベースから文書を順番に1つずつ選択して、その生成した各キーワードの重みを使って、その選択した文書とそれ以外の文書との距離を算出することで最も距離の近い文書を検索し、その選択した文書のカテゴリとその検索した文書のカテゴリとが一致するのか否かを判断して、その一致数に基づいて処理対象の重要度比値候補の得点を評価することで、設定手段の設定した各重要度比値候補の得点を評価する評価手段と、(5)評価手段の評価した得点の中の最高の得点を示す重要度比値候補を特定して、それを第1の算出手段の算出した第1の重みと第2の算出手段の算出した第2の重みとの最終的な重要度比値として決定する決定手段とを備えるように構成する。
次に、図1に従って、本発明の概要について説明する。
図中、1は本発明を具備するキーワード重み生成装置であって、文書中に出現するキーワードの重みを生成するもの、2はキーワード重み生成装置1の参照する文書データベースであって、キーワードの重み生成処理に用いられる文書を、それが属するカテゴリと対応付けて管理するもの、3はキーワード重み生成装置1の備える端末であって、ユーザとの対話手段となるものである。
【0014】
本発明のキーワード重み生成装置1は、第1の算出手段10と、第2の算出手段11と、生成手段12とを備える。
この第1の算出手段10は、文書データベース2を参照することで、文書に出現する各キーワードの統計情報を求めて、各キーワードの出現する文書のカテゴリ情報を用いないで、その統計情報から各キーワードの第1の重みを算出する。
【0015】
第2の算出手段11は、文書データベース2を参照することで、文書に出現する各キーワードについて、どのようなカテゴリの文書にどの位の頻度で出現するのかということについて示す出現頻度情報を求めて、その出現頻度情報から各キーワードの第2の重みを算出する。
【0016】
生成手段12は、第1の算出手段10の算出した第1の重みと第2の算出手段11の算出した第2の重みとの重要度比値を決定して、その重要度比値に従ってそれらの重みを合成することで、各キーワードの重みを生成する。
【0017】
ここで、本発明のキーワード重み生成装置1の持つ機能は具体的にはプログラムで実現されるものであり、このプログラムは、フロッピィディスクなどに記憶されたり、サーバなどのディスクなどに記憶され、それらからキーワード重み生成装置1にインストールされてメモリ上で動作することで、本発明を実現することになる。
【0018】
このように構成される本発明のキーワード重み生成装置1では、第1の算出手段10は、各キーワードの出現する文書数や、全文書中の各キーワードの出現頻度などから、各キーワードの出現する文書のカテゴリ情報を用いないで、各キーワードの第1の重みを算出する。
【0019】
一方、第2の算出手段11は、文書に出現する各キーワードについて、どのようなカテゴリの文書にどの位の頻度で出現するのかということについて示す出現頻度情報を求めて、その出現頻度情報から、カテゴリに依存しない形で、各キーワードの第2の重みを算出する。
【0020】
この重みの算出処理を受けて、生成手段12は、重要度比値を複数想定し、cross-validation法を使って、その想定した重要度比値の有効性を評価して最適なものを選択することで重要度比値を決定して、その決定した重要度比値に従ってそれらの重みを合成することで、各キーワードの重みを生成する。
【0021】
このように、本発明のキーワード重み生成装置1は、従来技術のように、文書に出現するキーワードの統計情報からキーワードの重みを生成するのではなくて、その重みとカテゴリ情報を考慮した重みとを合成することで、キーワードの重みを生成することから、文書のカテゴリ情報を内包したキーワードの重みを生成することになって、的確なキーワードの重みを生成できるようになる。
【0022】
【発明の実施の形態】
以下、実施の形態に従って本発明を詳細に説明する。
図2に、本発明の一実施例を図示する。図中、図1で説明したものと同じものについては同一の記号で示してある。
【0023】
本発明のキーワード重み生成装置1の参照対象となる文書データベース2は、参照対象となる各文書を管理するとともに、それらの各文書がどのカテゴリに属するのを管理する文書ファイル20と、インバーティッドファイル形式やシグネチャファイル形式に従って、文書ファイル20に管理される各文書の持つキーワードの情報を管理するインデックスファイル21とを備える。
【0024】
一方、本発明のキーワード重み生成装置1は、本発明を実現するために、統計重み算出プログラム30と、第1の作業域31と、カテゴリ重み算出プログラム32と、第2の作業域33と、重み生成プログラム34と、第3の作業域35とを備える。
【0025】
ここで、統計重み算出プログラム30やカテゴリ重み算出プログラム32やカテゴリ重み算出プログラム32は、フロッピィディスクや回線等を介してインストールされることになる。
【0026】
この統計重み算出プログラム30は、文書データベース2を参照することで、文書に出現する各キーワードの統計情報を求めて、その統計情報から各キーワードの重みを算出して、それを第1の作業域31に格納する。
【0027】
すなわち、各キーワードの出現する文書数や、全文書中の各キーワードの出現頻度などから、例えば図3に示すような関数に従って各キーワードの重みを算出して、それを第1の作業域31に格納する処理を行う。
【0028】
なお、各文書が短くキーワード数が少ない場合には、出現文書数を使う方が有効なので出現文書数を使って各キーワードの重みを算出し、各文書が長くキーワード数が多い場合には、出現頻度を使う方が有効なので出現頻度を使って各キーワードの重みを算出するというように、文書の種類に応じてキーワードの重みの算出に用いる統計情報を変える構成を採ることも可能である。
【0029】
一方、カテゴリ重み算出プログラム32は、文書データベース2を参照することで、各キーワードの出現する文書のカテゴリ情報と、その文書に出現する各キーワードの出現頻度とを求めて、それらの情報から各キーワードの重みを算出して、それを第2の作業域33に格納する。
【0030】
すなわち、キーワードki は、カテゴリAの文書にnA 個出現し、カテゴリBの文書にnB 個出現し、カテゴリCの文書にnC 個出現するというような情報を求めて、それらの情報から、例えば、特定のカテゴリの文書に集中的に出現するキーワードについては大きな重みを算出し、多くのカテゴリの文書に出現するキーワードについては小さな重みを算出するというようにして各キーワードの重みを算出して、それを第2の作業域33に格納する処理を行う。
【0031】
このとき、カテゴリに依存しない形で重みを算出することもあるし、カテゴリに依存する形で重みを算出することもある。前者の重みは、カテゴリ間の分散が小さい場合に特に有効であり、後者の重みは、カテゴリ間の分散が大きい場合に特に有効である。また、各カテゴリに出現するキーワードの個数については考慮しないで重みを算出することもある。
【0032】
カテゴリ重み算出プログラム32は、実際にカテゴリ分類を行うことで高い分類精度を実現する重みを特定することで行うものである。これまでの文書検索の技術では用いられていないが、分類問題では用いられている技術であり、例えば、「O.H.Creecy and B.M.Masand and S.J.Smith and D.Waltz, "Trading Mips and Memory for Knowledge Engineering" CACM, VOL35, pp.48-63 (1992) 」などで紹介されているアルゴリズムを用いることが可能である。
【0033】
重み生成プログラム34は、統計重み算出プログラム30とカテゴリ重み算出プログラム32を起動しつつ、本発明に特徴的なキーワードの重みを生成する処理を実行する。
【0034】
図4に、本発明に関連する技術を実現するために重み生成プログラム34が実行する処理フローの一例を図示する。次に、この処理フローに従って、本発明に関連する技術について詳細に説明する。
重み生成プログラム34は、キーワードの重みの生成要求が発行されると、図4の処理フローに示すように、先ず最初に、ステップ1で、ユーザと対話することなどにより、重みの生成対象となるキーワード(k1〜km)を設定する。
【0035】
続いて、ステップ2で、この設定したキーワード(k1〜km)を指定して、統計重み算出プログラム30を起動し、続いて、ステップ3で、この設定したキーワード(k1〜km)を指定して、カテゴリ重み算出プログラム32を起動する。
【0036】
このようにして起動されると、統計重み算出プログラム30は、文書データベース2を参照することで、各キーワードの出現する文書数や、全文書中の各キーワードの出現頻度を求めて、それを図3に示したような関数に代入することで、各キーワードの重み(WN1〜WNm)を算出して、図5に示すように第1の作業域31に格納する。
【0037】
一方、このようにして起動されると、カテゴリ重み算出プログラム32は、文書データベース2を参照することで、各キーワードの出現する文書のカテゴリ情報と、その文書に出現する各キーワードの出現頻度とを求めて、それらの情報からカテゴリに依存しない形で各キーワードの重み(WC1〜WCm)を算出して、図6に示すように第2の作業域33に格納する。
【0038】
これから、重み生成プログラム34は、統計重み算出プログラム30/カテゴリ重み算出プログラム32を起動すると、続いて、ステップ4で、これらのプログラムからの処理終了通知を待って、処理終了通知を受け取ると、ステップ5に進んで、ユーザと対話することで、統計重み算出プログラム30の算出した重み(WN1〜WNm)と、カテゴリ重み算出プログラム32の算出した重み(WC1〜WCm)との重要度の比を示す値α(重要度比値α)を決定する。
【0039】
続いて、ステップ6で、第1の作業域31から、統計重み算出プログラム30の算出した重み(WN1〜WNm)を読み出すとともに、第2の作業域33から、カテゴリ重み算出プログラム32の算出した重み(WC1〜WCm)を読み出す。
【0040】
続いて、ステップ7で、ステップ5で設定した重要度比値αを使い、
Wi=p(WNi+α×WCi)
但し、p:正規化の係数
の算出式に従って、各キーワード(k1〜km)の重みWiを算出して、図7に示すように第3の作業域35に格納して処理を終了する。
【0041】
このようにして、重み生成プログラム34は、従来技術のように、文書に出現するキーワードの統計情報からキーワードの重みを生成するのではなくて、その重みとカテゴリ情報を考慮した重みとを合成することで、キーワードの重みを生成するのである。
【0042】
このようにして生成されるキーワードの重みは、文書のカテゴリ情報を内包したものとなっているので、文書検索に用いると、高精度の検索を実現できるという特徴がある。
【0043】
図4の処理フローでは、カテゴリ重み算出プログラム32が、カテゴリに依存しない形で各キーワードの重み(WC1〜WCm)を算出することで説明したが、カテゴリに依存する形で各キーワードの重み(WCij:i=キーワードID,j=カテゴリID)を算出することであってもよく、この場合には、重み生成プログラム34は、カテゴリに依存する形で各キーワードの重み(Wij:i=キーワードID,j=カテゴリID)を生成することになる。
【0044】
すなわち、カテゴリ重み算出プログラム32が、図8に示すように、カテゴリに依存する形で各キーワードの重み(WCij)を算出するときには、重み生成プログラム34は、
Wij=p(WNi+α×WCij)
但し、p:正規化の係数
の算出式に従って、図9に示すように、カテゴリに依存する形でキーワード(k1〜km)の重みWijを算出することになる。
【0045】
なお、文書検索において、このようなカテゴリに依存する形のキーワードの重みが与えられるときには、検索対象として指定される文書と、文書データベース2に管理される文書との距離を求めるときに、文書データベース2に管理される文書のカテゴリの指定するキーワードの重みを選択して、それらの重みの合計値などを算出することで、2つの文書の距離を評価することになる。
【0046】
図10及び図11に、重み生成プログラム34の実行する処理フローの一実施例を図示する。
この処理フローでは、重み生成プログラム34は、図4の処理フローと異なり、ユーザとの対話処理に依らずに、cross-validation法を使って重要度比値αを自動設定していくことになる。
【0047】
重み生成プログラム34は、この図10及び図11の処理フローに従う場合には、キーワードの重みの生成要求が発行されると、先ず最初に、ステップ1〜4で、図4の処理フローのステップ1〜4と同一の処理に従って、統計重み算出プログラム30/カテゴリ重み算出プログラム32を起動し、その処理終了通知を受け取ると、続いて、ステップ5で、第1の作業域31から、統計重み算出プログラム30の算出した重み(WN1〜WNm)を読み出すとともに、第2の作業域33から、カテゴリ重み算出プログラム32の算出した重み(WC1〜WCm)を読み出す。
【0048】
続いて、ステップ6で、重要度比値αに、重要度比値αのとり得る最小値である“0”を設定する。続いて、ステップ7で、重要度比値αがとり得る最大値を超えたのか否かを判断して、超えていないことを判断するときには、ステップ8に進んで、設定されている重要度比値αを使い、
Wi=p(WNi+α×WCi)
但し、p:正規化の係数
の算出式に従って、キーワード(k1〜km)の重みWiを算出する。
【0049】
続いて、ステップ9に進んで、文書データベース2に管理される未選択の文書の中から、文書を1つ選択し、続くステップ10で、文書データベース2に管理される全ての文書を選択したのか否かを判断して、選択したことを判断するときには、ステップ11に進んで、重要度比値αを規定量Δだけインクリメントしてからステップ7に戻る。ここで、このルートでステップ7に戻るときには、文書データベース2に管理される文書は全て未選択となるように初期化されることになる。
【0050】
一方、ステップ10で、文書データベース2に管理される全ての文書を選択していないことを判断するとき、すなわち、ステップ9で文書を1つ選択できたことを判断するときには、ステップ12(図11の処理フロー)に進んで、ステップ8で算出したキーワード(k1〜km)の重みWiを使って、ステップ9で選択した文書と、文書データベース2に残されている文書との距離を算出して、最も距離の近い文書を検索する。
【0051】
続いて、ステップ13で、ステップ9で選択した文書のカテゴリと、ステップ12で検索した文書のカテゴリとが一致するのか否かを判断して、一致することを判断するときには、ステップ14に進んで、得点を1つインクリメントしてから、次の文書を選択すべくステップ9に戻り、一致しないことを判断するときには、得点をインクリメントすることなく、次の文書を選択すべくステップ9に戻る。
【0052】
一方、ステップ7で、重要度比値αがとり得る最大値を超えたことを判断するときには、ステップ15((図11の処理フロー)に進んで、最高得点をとった重要度比値αを特定して、その重要度比値αをキーワードの重み算出に用いる重要度比値αとして決定する。
【0053】
続いて、ステップ16で、その決定した重要度比値αに従って、
Wi=p(WNi+α×WCi)
但し、p:正規化の係数
の算出式に従って、キーワード(k1〜km)の重みWiを算出して、第3の作業域35に格納して処理を終了する。
【0054】
このようにして、重み生成プログラム34は、図10及び図11の処理フローに従う場合には、重要度比値αとして色々な値を想定して、そのときに、文書データベース2から文書を順番に1つずつ選択し、想定した重要度比値αから生成されるキーワードの重みを使って、図12に示すように、その選択した文書(図中の文書r)と、文書データベース2に残されている文書(図中の文書1〜文書r−1,文書r+1〜文書100)との距離を測定する。
【0055】
そして、その選択した文書に最も距離の近い文書(図中の文書s)を検索して、その2つの文書のカテゴリが一致するときには得点をインクリメントしていって、最も高い得点を示す重要度比値αをキーワードの重み算出に用いる重要度比値αとして決定していくことで、重要度比値αを自動設定していくのである。
【0056】
ユーザがシステムに熟練している場合や、文書データベース2の更新が頻繁に起こらない場合には、ユーザが重要度比値αを設定することでも的確な重要度比値αを設定することが可能なことで、的確なキーワードの重みを生成できることになるが、そうでない場合には、この重要度比値αの自動設定機能は極めて有効なものとなる。
【0057】
図10及び図11の処理フローでは、カテゴリ重み算出プログラム32が、カテゴリに依存しない形で各キーワードの重みを算出することで説明したが、カテゴリに依存する形で各キーワードの重みを算出することであってもよく、この場合には、重み生成プログラム34は、カテゴリに依存する形で各キーワードの重みを生成することになる。
【0058】
このようにして生成されたキーワードの重みから、小さな重みを持つキーワードを削除するようにすれば、インデックスファイル21のサイズを縮小できるとともに、検索速度を向上できるようになる。
【0059】
このキーワードの削除は、大きな重みを持つキーワードから順番に規定個数のキーワードを残し、それ以外のキーワードは削除することで行うとか、規定の閾値よりも小さな重みを持つキーワードを削除することで行う。
【0060】
この閾値を使ってキーワードを削除する構成を採るときに、上述したcross-validation法を使って、閾値を自動設定することも可能である。
すなわち、閾値として色々な値を想定することで有効なキーワードを想定して、そのときに、文書データベース2から文書を順番に1つずつ選択し、想定した有効なキーワードから、その選択した文書と、文書データベース2に残されている文書との距離を測定する。そして、その選択した文書に最も距離の近い文書を検索して、その2つの文書のカテゴリが一致するときには得点をインクリメントしていって、得点を上げない閾値を求めていくことで、キーワードの削除判定に用いる閾値を設定するようにすれば、この閾値を自動設定できるようになる。
【0061】
図示実施例に従って本発明を説明したが、本発明はこれに限定されるものではない。例えば、実施例では、統計重み算出プログラム30の算出した重みと、カテゴリ重み算出プログラム32の算出した重みとの重要度の比を示す重要度比値αをカテゴリに依存しない形で決定したが、カテゴリに依存する形で決定してもよい。
【0062】
また、実施例では、文書検索に用いるキーワードの重みとして説明を行ったが、文書がどのカテゴリに属するのを行うような文書分類に対してのキーワードの重みとしても用いることができる。
【0063】
【発明の効果】
以上説明したように、本発明では、従来技術のように、文書に出現するキーワードの統計情報からキーワードの重みを生成するのではなくて、その重みとカテゴリ情報を考慮した重みとを合成することで、キーワードの重みを生成することから、文書のカテゴリ情報を内包したキーワードの重みを生成することになって、的確なキーワードの重みを生成できるようになる。
【0064】
そして、本発明では、この2つ重みの合成の割合を自動設定する機能を持つことから、ユーザがシステムに熟練していない場合や、文書データベースの更新が頻繁に起こる場合にも、的確なキーワードの重みを生成できるようになる。
【図面の簡単な説明】
【図1】 本発明の概要を説明する図である。
【図2】 本発明の一実施例である。
【図3】 統計重み算出プログラムの実行処理の説明図である。
【図4】 重み生成プログラムの実行する処理フローの一例である。
【図5】 第1の作業域に格納される重みの説明図である。
【図6】 第2の作業域に格納される重みの説明図である。
【図7】 生成されるキーワードの重みの説明図である。
【図8】 カテゴリ重み算出プログラムの算出する重みの説明図である。
【図9】 生成されるキーワードの重みの説明図である。
【図10】 重み生成プログラムの実行する処理フローの一実施例である。
【図11】 重み生成プログラムの実行する処理フローの一実施例である。
【図12】 重み生成プログラムの実行処理の説明図である。
【符号の説明】
1 キーワード重み生成装置
2 文書データベース
3 端末
10 第1の算出手段
11 第2の算出手段
12 生成手段
Claims (3)
- 文書中に出現するキーワードの重みを生成するキーワード重み生成装置において、
文書データベースを参照することで、文書に出現する各キーワードの統計情報を求めて、各キーワードの出現する文書のカテゴリ情報を用いないで、該統計情報から各キーワードの第1の重みを算出する第1の算出手段と、
文書データベースを参照することで、文書に出現する各キーワードについて、どのようなカテゴリの文書にどの位の頻度で出現するのかということについて示す出現頻度情報を求めて、該出現頻度情報からカテゴリに依存しない形で各キーワードの第2の重みを算出する第2の算出手段と、
上記第1の算出手段の算出した第1の重みと上記第2の算出手段の算出した第2の重みとの重要度比値の候補となる複数の重要度比値候補を設定する設定手段と、
上記設定手段の設定した各重要度比値候補を処理対象として、その処理対象の重要度比値候補に従って上記第1の重みと上記第2の重みとを合成することで各キーワードの重みを生成し、文書データベースから文書を順番に1つずつ選択して、その生成した各キーワードの重みを使って、その選択した文書とそれ以外の文書との距離を算出することで最も距離の近い文書を検索し、その選択した文書のカテゴリとその検索した文書のカテゴリとが一致するのか否かを判断して、その一致数に基づいて処理対象の重要度比値候補の得点を評価することで、上記設定手段の設定した各重要度比値候補の得点を評価する評価手段と、
上記評価手段の評価した得点の中の最高の得点を示す重要度比値候補を特定して、それを上記第1の算出手段の算出した第1の重みと上記第2の算出手段の算出した第2の重みとの最終的な重要度比値として決定する決定手段とを備えることを、
特徴とするキーワード重み生成装置。 - 第1の算出手段と第2の算出手段と設定手段と評価手段と決定手段とを備えて、文書中に出現するキーワードの重みを生成するキーワード重み生成装置で実行されるキーワード重み生成方法であって、
上記第1の算出手段が、文書データベースを参照することで、文書に出現する各キーワードの統計情報を求めて、各キーワードの出現する文書のカテゴリ情報を用いないで、該統計情報から各キーワードの第1の重みを算出し、
上記第2の算出手段が、文書データベースを参照することで、文書に出現する各キーワードについて、どのようなカテゴリの文書にどの位の頻度で出現するのかということについて示す出現頻度情報を求めて、該出現頻度情報から各キーワードの第2の重みを算出し、
上記設定手段が、上記第1の算出手段の算出した第1の重みと上記第2の算出手段の算出した第2の重みとの重要度比値の候補となる複数の重要度比値候補を設定し、
上記評価手段が、上記設定手段の設定した各重要度比値候補を処理対象として、その処理対象の重要度比値候補に従って上記第1の重みと上記第2の重みとを合成することで各キーワードの重みを生成し、文書データベースから文書を順番に1つずつ選択して、その生成した各キーワードの重みを使って、その選択した文書とそれ以外の文書との距離を算出することで最も距離の近い文書を検索し、その選択した文書のカテゴリとその検索した文書のカテゴリとが一致するのか否かを判断して、その一致数に基づいて処理対象の重要度比値候補の得点を評価することで、上記設定手段の設定した各重要度比値候補の得点を評価し、
上記決定手段が、上記評価手段の評価した得点の中の最高の得点を示す重要度比値候補を特定して、それを上記第1の算出手段の算出した第1の重みと上記第2の算出手段の算出した第2の重みとの最終的な重要度比値として決定することを、
特徴とするキーワード重み生成方法。 - 文書中に出現するキーワードの重みを生成するキーワード重み生成装置の実現に用いられるプログラムを記録したコンピュータ読み取り可能な記録媒体であって、
文書データベースを参照することで、文書に出現する各キーワードの統計情報を求めて、各キーワードの出現する文書のカテゴリ情報を用いないで、該統計情報から各キーワードの第1の重みを算出する第1の算出処理と、
文書データベースを参照することで、文書に出現する各キーワードについて、どのようなカテゴリの文書にどの位の頻度で出現するのかということについて示す出現頻度情報を求めて、該出現頻度情報から各キーワードの第2の重みを算出する第2の算出処理と、
上記第1の算出処理で算出した第1の重みと上記第2の算出処理で算出した第2の重みとの重要度比値の候補となる複数の重要度比値候補を設定する設定処理と、
上記設定処理で設定した各重要度比値候補を処理対象として、その処理対象の重要度比値候補に従って上記第1の重みと上記第2の重みとを合成することで各キーワードの重みを生成し、文書データベースから文書を順番に1つずつ選択して、その生成した各キーワードの重みを使って、その選択した文書とそれ以外の文書との距離を算出することで最も距離の近い文書を検索し、その選択した文書のカテゴリとその検索した文書のカテゴリとが一致するのか否かを判断して、その一致数に基づいて処理対象の重要度比値候補の得点を評価することで、上記設定処理で設定した各重要度比値候補の得点を評価する評価処理と、
上記評価処理で評価した得点の中の最高の得点を示す重要度比値候補を特定して、それを上記第1の算出処理で算出した第1の重みと上記第2の算出処理で算出した第2の重みとの最終的な重要度比値として決定する決定処理とをコンピュータに実行させるためのプログラムを記録したことを、
特徴とするコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30516797A JP4008551B2 (ja) | 1997-11-07 | 1997-11-07 | キーワード重み生成装置、キーワード重み生成方法及びコンピュータ読み取り可能な記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP30516797A JP4008551B2 (ja) | 1997-11-07 | 1997-11-07 | キーワード重み生成装置、キーワード重み生成方法及びコンピュータ読み取り可能な記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11143892A JPH11143892A (ja) | 1999-05-28 |
JP4008551B2 true JP4008551B2 (ja) | 2007-11-14 |
Family
ID=17941880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP30516797A Expired - Fee Related JP4008551B2 (ja) | 1997-11-07 | 1997-11-07 | キーワード重み生成装置、キーワード重み生成方法及びコンピュータ読み取り可能な記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4008551B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4639388B2 (ja) * | 2004-09-15 | 2011-02-23 | 学校法人慶應義塾 | 文書データベースにおける重要語抽出方法、重要語抽出装置、コンピュータプログラム、プログラム格納媒体 |
JPWO2007043593A1 (ja) * | 2005-10-11 | 2009-04-16 | 株式会社アイ・ピー・ビー | 企業技術文書群分析支援装置 |
JP5505207B2 (ja) * | 2010-08-31 | 2014-05-28 | 株式会社リコー | 情報検索装置、情報検索方法及び情報検索プログラム |
KR101614551B1 (ko) * | 2010-11-23 | 2016-04-22 | 네이버 주식회사 | 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법 |
JP5606303B2 (ja) * | 2010-12-17 | 2014-10-15 | 三菱電機株式会社 | 情報処理装置及び情報処理方法及びプログラム |
JP6235443B2 (ja) * | 2014-09-17 | 2017-11-22 | ヤフー株式会社 | 抽出装置、抽出方法および抽出プログラム |
JP6203304B2 (ja) * | 2016-02-19 | 2017-09-27 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
CN109408797A (zh) * | 2017-08-18 | 2019-03-01 | 普天信息技术有限公司 | 一种文本句向量表示方法及系统 |
CN112925872B (zh) * | 2019-12-05 | 2025-03-18 | 北京沃东天骏信息技术有限公司 | 一种数据搜索方法和装置 |
-
1997
- 1997-11-07 JP JP30516797A patent/JP4008551B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11143892A (ja) | 1999-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6915295B2 (en) | Information searching method of profile information, program, recording medium, and apparatus | |
US10229166B1 (en) | Modifying search result ranking based on implicit user feedback | |
JP3170400B2 (ja) | 意味パターン認識による文字列検索方法及びその装置 | |
KR100544514B1 (ko) | 검색 쿼리 연관성 판단 방법 및 시스템 | |
JP4726528B2 (ja) | マルチセンスクエリについての関連語提案 | |
US8694511B1 (en) | Modifying search result ranking based on populations | |
JP3270783B2 (ja) | 複数の文書検索方法 | |
JP5597255B2 (ja) | 単語の重みに基づいた検索結果の順位付け | |
JP4664423B2 (ja) | 適合性のある情報を検索する方法 | |
US7769771B2 (en) | Searching a document using relevance feedback | |
US9684720B2 (en) | Lateral search | |
US6567805B1 (en) | Interactive automated response system | |
JP4624412B2 (ja) | 検索要請に応えて広告主の検索リスティングを抽出させるキーワード広告サービス方法及びキーワード広告サービス | |
KR100962923B1 (ko) | 텍스트에서 키워드를 효율적으로 검색하는 시스템 및 이의방법 | |
US6401087B2 (en) | Information retrieval system, apparatus and method for selecting databases using retrieval terms | |
KR19990013736A (ko) | 키워드 추출 시스템 및 그를 사용한 문서 검색 시스템 | |
US20120016888A1 (en) | Document scoring based on query analysis | |
AU2009234120A1 (en) | Search results ranking using editing distance and document information | |
JPH11282878A (ja) | 関連情報検索装置及びプログラム記録媒体 | |
JP4008551B2 (ja) | キーワード重み生成装置、キーワード重み生成方法及びコンピュータ読み取り可能な記録媒体 | |
US20180246896A1 (en) | Corpus Specific Generative Query Completion Assistant | |
CN111444380B (zh) | 音乐搜索排序方法、装置、设备和存储介质 | |
JP3521176B2 (ja) | 検索方法および検索装置 | |
US8019758B2 (en) | Generation of a blended classification model | |
CN113449168A (zh) | 主题网页数据抓取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20060920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20061010 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20061206 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070116 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070417 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070618 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070828 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070830 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100907 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100907 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110907 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120907 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120907 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130907 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |