JP2000311173A - Device and method for retrieving similar document - Google Patents
Device and method for retrieving similar documentInfo
- Publication number
- JP2000311173A JP2000311173A JP11120023A JP12002399A JP2000311173A JP 2000311173 A JP2000311173 A JP 2000311173A JP 11120023 A JP11120023 A JP 11120023A JP 12002399 A JP12002399 A JP 12002399A JP 2000311173 A JP2000311173 A JP 2000311173A
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- similarity
- similar
- search target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000006243 chemical reaction Methods 0.000 claims abstract description 64
- 238000004364 calculation method Methods 0.000 claims abstract description 34
- 238000000605 extraction Methods 0.000 claims description 3
- 239000012536 storage buffer Substances 0.000 abstract description 59
- 239000013598 vector Substances 0.000 abstract description 10
- 239000000872 buffer Substances 0.000 description 13
- 238000010586 diagram Methods 0.000 description 5
- 230000001186 cumulative effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 101000818442 Homo sapiens Zinc finger protein 90 homolog Proteins 0.000 description 1
- 102100021137 Zinc finger protein 90 homolog Human genes 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【発明の属する技術分野】 本発明は、電子化された文
書データの検索装置に係り、特にある文書データを検索
キーとしてこれと類似した文書データを自動検索する類
似文書検索装置及び類似文書検索方法に関する。[0001] 1. Field of the Invention [0002] The present invention relates to an electronic document data search apparatus, and more particularly to a similar document search apparatus and a similar document search method for automatically searching for document data similar to a certain document data using the search key as a search key. About.
【0002】[0002]
【従来の技術】 近年、大量の電子化された文書データ
が流通するようになり、自動分類を行なう目的で、文書
データベースの中から指定された文書(以下、検索キー
文書と称す)に類似する文書の自動検索を行なうシステ
ムが実用化されている。一般的な技術としては、共通単
語数やベクトル空間法を用いて検索キー文書と各検索対
象文書との類似度を求め、その類似度の高いものから順
に類似文書として出力するものが知られている。さらに
例えば、特開平11−73415号公報に開示されてい
るような、類似文書としてより信憑性の高いものを検索
結果として得るべく各々の類似度値の統計分布(類似度
値の平均等)を求め、この統計分布を基準にユーザが設
定した条件を満足するものを類似文書として出力する技
術がある。つまり端的にこの技術のものは、類似度値の
集合を用い、そしてその分布の中で類似文書として捉え
るべきものの抽出方法を示している。2. Description of the Related Art In recent years, a large amount of digitized document data has been distributed, and for the purpose of performing automatic classification, a document resembling a document specified in a document database (hereinafter referred to as a search key document). A system for automatically retrieving documents has been put to practical use. As a general technique, a technique is known in which the similarity between a search key document and each search target document is calculated using the number of common words and the vector space method, and the similarity is output as similar documents in descending order of similarity. I have. Further, for example, as disclosed in Japanese Patent Application Laid-Open No. H11-73415, the statistical distribution of each similarity value (average of similarity values, etc.) is obtained in order to obtain a more reliable document as a similar document as a search result. There is a technique of outputting a document that satisfies a condition set by a user based on the statistical distribution as a similar document as a similar document. In short, this technology simply uses a set of similarity values and shows a method of extracting what should be regarded as similar documents in the distribution.
【0003】[0003]
【発明が解決しようとする課題】 従来の類似文書検索
装置においては、類似度値の集合を用い、そしてその分
布の中で類似文書として捉えるべきものの抽出方法を示
しており、単に類似度のみを用いることに比べれば精度
の高い方法を提案している。しかしながら、同じ類似度
値でも正解率が一定でないことについては何ら考慮され
ていない。つまり、同じ類似度値であっても、その中に
正解が含まれる確率が同じとは限らず、例えば検索対象
文書の中に、たまたま同じ類似度値が付与されるような
2つの文書があっても、一方の文書は正解で他方の文書
は不正解という場合がある。このように、同じ類似度値
ではあるものの正解である確率に違いがある場合、上記
技術では同じ類似度値のものは同じものとして扱ってし
まう為、両者を区別するような精度の高い類似文書の抽
出を行なうことができない。The conventional similar document search apparatus uses a set of similarity values, and shows a method of extracting what should be regarded as similar documents in the distribution. We propose a method that is more accurate than using it. However, there is no consideration that the accuracy rate is not constant even for the same similarity value. That is, even if the similarity value is the same, the probability that the correct answer is included in the similarity value is not always the same. For example, in a search target document, there are two documents that happen to be given the same similarity value. However, one document may be correct and the other may be incorrect. In this way, if the similarity value is the same but there is a difference in the probability of being the correct answer, the above-mentioned technology treats the same similarity value as the same, so that a similar document with high accuracy that distinguishes the two. Cannot be extracted.
【0004】また、類似として出力すべき文書数につい
て、出力文書中に正解が1件又はある少数の特定件数含
まれていれば良いということが多い。これに対して上述
の技術の場合「平均類似度の2倍以上の類似度を持つ検
索対象文書を検索結果とする」等の条件で区別してい
る。このように類似度のみで判別すると、出力文書中に
正解が含まれる確率にばらつきが大きく、1件も正解が
含まれない場合や正解ではあっても必要以上に文書が出
力されてしまう場合が生じる。これは検索作業として見
れば非効率と言わざるを得ない。In addition, as for the number of documents to be output as similar, it is often sufficient that the output document contains one correct answer or a certain small number of specific answers. On the other hand, in the case of the above-mentioned technology, the distinction is made based on a condition such as “a search target document having a similarity of twice or more the average similarity is set as a search result”. When the determination is made only by the similarity in this manner, the probability that the correct answer is included in the output document varies widely, and there is a case where no correct answer is included in the output document or a case where the correct answer is output even more than necessary. Occurs. This is inefficient as a search operation.
【0005】本発明は、このような課題を解決するため
のもので、類似度のみに依存することなく、高い精度で
抽出されるべき類似文書を検索できる類似文書検索装置
及び類似文書検索方法の提供を目的としている。また本
発明は、検索対象文書が属する分類と類似度とを利用し
て、分類間における類似度の正解率の違いを反映し、高
い精度でより適切な類似文書を検索できる類似文書検索
装置及び類似文書検索方法の提供を目的としている。さ
らに本発明は、検索の結果、出力文書中に抽出されるべ
き文書が所望の確率で含まれるようにする類似文書検索
装置及び類似文書検索方法の提供を目的としている。SUMMARY OF THE INVENTION The present invention has been made in order to solve the above-described problem, and is directed to a similar document search apparatus and a similar document search method capable of searching for a similar document to be extracted with high accuracy without relying only on similarity. It is intended to be provided. The present invention also provides a similar document search device that uses a classification and a similarity to which a search target document belongs, reflects a difference in the accuracy rate of the similarity between the classes, and can search for a more appropriate similar document with high accuracy. It aims to provide a similar document search method. A further object of the present invention is to provide a similar document search apparatus and a similar document search method that allow a document to be extracted to be included in an output document as a result of a search with a desired probability.
【0006】[0006]
【課題を解決するための手段】 上記目的を達成するた
めに、請求項1に係る発明では、検索キー文書に類似す
る文書を複数の検索対象文書の中から検索する類似文書
検索装置において、検索キー文書と前記各検索対象文書
との類似度を算出する類似度算出手段と、この類似度算
出手段により求められた類似度に応じて、当該検索対象
文書が抽出されるべき文書である確率を求める手段と、
少なくともこの手段により求められた確率が最も高い文
書を出力する出力手段とを具備することを特徴とする。
このような構成により、類似度毎に抽出されるべき文書
である確率が高いものを出力するので、高い精度で抽出
されるべき類似文書を検索できる。According to an embodiment of the present invention, there is provided a similar document search apparatus for searching a document similar to a search key document from a plurality of search target documents. A similarity calculating unit for calculating a similarity between the key document and each of the search target documents; and a probability that the search target document is a document to be extracted according to the similarity calculated by the similarity calculation unit. Means to seek,
Output means for outputting at least the document having the highest probability obtained by this means.
With this configuration, a document having a high probability of being extracted for each similarity is output, so that a similar document to be extracted can be searched with high accuracy.
【0007】また、本発明の類似文書検索装置は請求項
2に記載されるように、検索キー文書に類似する文書
を、分類情報を含む複数の検索対象文書の中から検索す
る類似文書検索装置において、検索キー文書と前記各検
索対象文書との類似度を算出する類似度算出手段と、こ
の類似度算出手段により求められた類似度と前記検索対
象文書の分類とに基づいて、当該検索対象文書が抽出さ
れるべき文書である確率を求める手段と、この手段によ
り求められた確率の高いものから順に検索対象文書を出
力する出力手段とを具備することを特徴とする。このよ
うな構成により、分類間における類似度の正解率の違い
を反映し、高い精度でより適切な類似文書を検索でき
る。Further, according to a second aspect of the present invention, there is provided a similar document search apparatus for searching a document similar to a search key document from a plurality of search target documents including classification information. A similarity calculating means for calculating a similarity between a search key document and each of the search target documents; and a search target document based on the similarity obtained by the similarity calculation means and the classification of the search target document. It is characterized by comprising means for calculating the probability that a document is a document to be extracted, and output means for outputting documents to be searched in order from the one with the highest probability obtained by this means. With this configuration, it is possible to search for a more appropriate similar document with high accuracy by reflecting the difference in the accuracy rate of the similarity between the classes.
【0008】また、本発明の類似文書検索装置は請求項
5に記載されるように、検索キー文書に類似する文書を
複数の検索対象文書の中から検索する類似文書検索装置
において、検索キー文書と前記各検索対象文書との類似
度を算出する類似度算出手段と、この類似度算出手段に
より求められた類似度に応じて、当該検索対象文書が抽
出されるべき文書である確率を求める手段と、この手段
により求められた確率の高いものから順に検索対象文書
を出力する出力手段と、この出力手段が出力する検索対
象文書を、出力された検索対象文書の中に抽出されるべ
き文書が含まれている確率が所定値以上に達するまでと
する手段とを具備したことを特徴とする。このような構
成により、出力文書中に抽出されるべき文書が所望の確
率で含まれるようにすることができる。According to another aspect of the present invention, there is provided a similar document search apparatus for searching a document similar to a search key document from a plurality of search target documents. And similarity calculating means for calculating the degree of similarity with each of the search target documents, and means for calculating the probability that the search target document is a document to be extracted according to the similarity calculated by the similarity calculation means And output means for outputting the search target documents in order from the one with the highest probability obtained by this means, and the search target documents output by the output means are output as the documents to be extracted in the search target documents. Means for until the probability of being included reaches a predetermined value or more. With such a configuration, a document to be extracted can be included in the output document with a desired probability.
【0009】[0009]
【発明の実施の形態】以下、図面を参照して本発明の一
実施形態を説明する。図1は本発明の一実施形態に係る
類似文書検索装置のハードウェア構成を示す図である。
なお、本装置は一般的なアーキテクチャを持つコンピュ
ータ上の一機能として構築されるものである。DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention will be described below with reference to the drawings. FIG. 1 is a diagram showing a hardware configuration of a similar document search device according to an embodiment of the present invention.
This device is constructed as one function on a computer having a general architecture.
【0010】図1に示すように、本装置は、制御装置
1、キーボード、ポインティングデバイス、スキャナを
有する入力装置2、類似文書の検索結果などを表示する
表示装置3、および外部記憶装置4から構成される。こ
の外部記憶装置4は、多数の文書情報を記憶する文書情
報記憶部4aと類似度から確度を導き出すためのテーブ
ルを記憶するテーブル記憶部4bとを格納するものであ
って、例えばハードディスク装置、またはDVD(Di
gital Video Disc)装置などからな
る。As shown in FIG. 1, the present apparatus comprises a control device 1, an input device 2 having a keyboard, a pointing device, a scanner, a display device 3 for displaying search results of similar documents, and an external storage device 4. Is done. The external storage device 4 stores a document information storage unit 4a for storing a large number of document information and a table storage unit 4b for storing a table for deriving accuracy from similarity. DVD (Di
digital video disc) device and the like.
【0011】図2に本装置における制御装置1の構成を
示す。制御装置1はCPU、ROM、及びRAMを有し
ており、図2の中ではCPUとROMにより為される部
分を機能的にプログラム部200とし、RAMを機能的
にバッファ部250として表わしている。プログラム部
200は、初期化部201、検索キー文書入力部20
4、検索対象文書読み込み部205、類似度算出部20
6、類似度確度変換部207、類似文書候補ソート部2
08、類似文書候補出力部209、出力候補数判断条件
設定部210、正解/不正解結果入力部211、類似度
確度変換テーブル読み込み部212、及び類似度確度変
換テーブル書き込み部213の11の機能を有してい
る。FIG. 2 shows the configuration of the control device 1 in the present apparatus. The control device 1 has a CPU, a ROM, and a RAM. In FIG. 2, a portion performed by the CPU and the ROM is functionally represented as a program unit 200, and a RAM is functionally represented as a buffer unit 250. . The program unit 200 includes an initialization unit 201, a search key document input unit 20
4. Search target document reading unit 205, similarity calculation unit 20
6. Similarity probability conversion unit 207, similar document candidate sorting unit 2
08, similar document candidate output unit 209, output candidate number determination condition setting unit 210, correct / incorrect answer result input unit 211, similarity probability conversion table reading unit 212, and similarity probability conversion table writing unit 213. Have.
【0012】バッファ部250は、検索キー文書格納バ
ッファ部251、検索対象文書格納バッファ部252、
類似度算出結果格納バッファ部253、類似文書候補格
納バッファ部254、出力候補数判断条件格納バッファ
部255、類似度確度変換テーブル格納バッファ部25
6、及び確度累積値格納バッファ257の7の領域を有
している。初期化部201は、バッファ部250内の各
バッファ部のデータのクリアと、類似度確度変換テーブ
ル格納バッファ部256に対するテーブル記憶部4bか
らの類似度確度変換テーブルの書込みを行う。The buffer unit 250 includes a search key document storage buffer unit 251, a search target document storage buffer unit 252,
Similarity calculation result storage buffer unit 253, similar document candidate storage buffer unit 254, output candidate number determination condition storage buffer unit 255, similarity probability conversion table storage buffer unit 25
6 and an area 7 of the probability accumulation value storage buffer 257. The initialization unit 201 clears data in each buffer unit in the buffer unit 250 and writes a similarity accuracy conversion table from the table storage unit 4b to the similarity accuracy conversion table storage buffer unit 256.
【0013】検索キー文書入力部204は、ユーザが入
力装置2を用いて入力する検索キー文書の情報を検索キ
ー文書格納バッファ部251へ格納させる。検索対象文
書読み込み部205は、文書情報記憶部4aから検索対
象文書情報を受け取り、検索対象文書格納バッファ部2
52へ格納させる。類似度算出部206は、検索キー文
書格納バッファ部251に格納されている検索キー文書
と検索対象文書格納バッファ部252に格納されている
検索対象文書とから類似の度合いをベクトル空間法で算
出し、類似度算出結果格納バッファ部253に格納す
る。尚、ここで類似度はベクトル空間法に換えて共通単
語数にて算出するようにしても構わない。The search key document input unit 204 causes the search key document storage buffer unit 251 to store the information of the search key document input by the user using the input device 2. The search target document reading unit 205 receives the search target document information from the document information storage unit 4a, and stores the search target document storage buffer unit 2.
52. The similarity calculation unit 206 calculates the similarity from the search key document stored in the search key document storage buffer unit 251 and the search target document stored in the search target document storage buffer unit 252 by the vector space method. Are stored in the similarity calculation result storage buffer unit 253. Here, the similarity may be calculated based on the number of common words instead of the vector space method.
【0014】類似度確度変換部207は、類似度算出部
206が算出した類似度とその検索対象文書の分野とか
ら類似度確度変換テーブル格納バッファ部256に格納
されたテーブルのデータを取り出し、対応する確度を計
算した後、類似文書候補格納バッファ部254に格納す
る。確度とは、正解数を特定数で割った値である。正回
数とは検索結果として抽出されるべきとされた回数であ
り、一方特定数とは類似度と分類とから単に特定された
回数である。すなわち、確度とは、対象とする文章がヒ
ットされるべき正解である確率であり、これが類似度及
び分類別に与えられるものである。The similarity probability conversion unit 207 extracts the data of the table stored in the similarity probability conversion table storage buffer unit 256 from the similarity calculated by the similarity calculation unit 206 and the field of the search target document, and After calculating the degree of accuracy, the similar document candidate is stored in the similar document candidate storage buffer unit 254. The accuracy is a value obtained by dividing the number of correct answers by a specific number. The positive number is the number of times that should be extracted as a search result, while the specific number is the number of times simply specified from the similarity and the classification. That is, the certainty is a probability that a target sentence is a correct answer to be hit, and is given for each similarity and each classification.
【0015】類似文書候補ソート部208は、類似文書
候補格納バッファ部254に格納されている類似文書候
補を確度でソートし、再び類似文書候補格納バッファ部
254に格納する。類似文書候補出力部209は、類似
文書候補格納バッファ部254に格納されている類似文
書候補の確度の高い方から順に、それらの類似文書候補
に1件以上正解が含まれる確率を算出する。そして算出
される確率が、出力候補数判断条件格納バッファ部25
5に格納されている出力候補数判断条件よりも大きくな
るまでの類似文書候補を表示装置3に表示するべく出力
する。出力候補数判断条件は、出力類似文書候補に1件
以上正解が含まれる確率である。The similar document candidate sorting unit 208 sorts the similar document candidates stored in the similar document candidate storage buffer unit 254 with certainty, and stores them in the similar document candidate storage buffer unit 254 again. The similar document candidate output unit 209 calculates the probability that one or more correct documents are included in the similar document candidates stored in the similar document candidate storage buffer unit 254 in descending order of the likelihood. The calculated probability is stored in the output candidate number determination condition storage buffer 25.
The similar document candidates up to the output candidate number determination condition stored in No. 5 are output for display on the display device 3. The output candidate number determination condition is a probability that one or more correct answers are included in the output similar document candidates.
【0016】出力候補数判断条件設定部210は、入力
装置2を介してユーザより入力された、出力候補数判断
条件を候補数判断条件格納バッファ部255に格納す
る。正解/不正解結果入力部211は、類似度算出結果
格納バッファ部256に格納される類似度算出結果と類
似文書に付与された分類又は分野名単位で、検索結果と
して抽出されるべき正解、つまり類似文書候補が結果と
して抽出されるべきものであったか否かの情報に従い類
似度確度変換テーブル格納バッファ部256のデータを
更新/修正する。上記正解であるか否かの情報は入力装
置2を介してユーザが入力する。The output candidate number determination condition setting unit 210 stores the output candidate number determination condition input by the user via the input device 2 in the candidate number determination condition storage buffer unit 255. The correct answer / incorrect answer result input unit 211 is a correct answer to be extracted as a search result for each of the similarity calculation result stored in the similarity calculation result storage buffer unit 256 and the classification or field name given to the similar document. The data in the similarity / probability conversion table storage buffer unit 256 is updated / corrected in accordance with the information as to whether or not the similar document candidate should be extracted as a result. The information on whether the answer is correct is input by the user via the input device 2.
【0017】類似度確度変換テーブル読み込み部212
は、外部記憶装置4のテーブル記憶部4bに格納されて
いる類似度確度変換テーブルを受け取り、類似度確度変
換テーブル格納バッファ部256に記憶させる。この類
似度確度変換テーブルは、検索対象文書の類似度及び分
野から確度を求めるためのテーブルである。類似度確度
変換テーブル書き込み部213は、類似度確度変換テー
ブル格納バッファ部256に格納されている類似度確度
変換テーブルを、テーブル記憶部4bに上書き記憶させ
る。Similarity / accuracy conversion table reading section 212
Receives the similarity probability conversion table stored in the table storage unit 4b of the external storage device 4 and stores it in the similarity probability conversion table storage buffer unit 256. This similarity probability conversion table is a table for obtaining the probability from the similarity and the field of the search target document. The similarity probability conversion table writing unit 213 overwrites and stores the similarity probability conversion table stored in the similarity probability conversion table storage buffer unit 256 in the table storage unit 4b.
【0018】次に、本実施形態の類似文書検索装置の動
作を説明する。ここで説明する動作は制御装置1のCP
Uが、ROM内のプログラム、及びRAM内の記憶領域
を用いて実行するものである。本実施形態は、大きく第
1のステップと第2のステップとからなる。第1のステ
ップは、類似文書検索装置が類似文書検索を行なえる状
態にするために、類似文書検索の準備段階として、サン
プルデータを用いて類似度確度変換テーブルを作成しテ
ーブル記憶部4bに記憶させるステップ。第2のステッ
プは、この作成された類似度確度変換テーブルを用いて
類似文書の検索を行なうステップである。まずこの類似
度確度変換テーブルの作成を行なう第1のステップにつ
いて説明する。図3はその作成手順を示すフローチャー
トである。Next, the operation of the similar document search apparatus according to this embodiment will be described. The operation described here is based on the CP of the control device 1.
U executes by using a program in a ROM and a storage area in a RAM. This embodiment mainly includes a first step and a second step. The first step is to prepare a similarity probability conversion table using sample data and store it in the table storage unit 4b as a preparation stage for similar document search so that the similar document search device can perform similar document search. Step to let. The second step is a step of searching for similar documents using the created similarity probability conversion table. First, the first step of creating the similarity / degree of accuracy conversion table will be described. FIG. 3 is a flowchart showing the creation procedure.
【0019】はじめにユーザは、入力装置2を使用し
て、文書情報記憶部4aに検索の対象となる検索対象文
書のデータを格納する。この格納の際、検索対象文書に
は、文書を識別するための文書IDおよび文書の分類を
表す分野を付与する(ステップ300)。続いて初期化
部201が全バッファを初期化する(ステップ30
1)。検索キー文書入力部204に、入力装置2を介し
て通じてユーザが検索キー文書を入力すると、検索キー
文書格納バッファ部251に検索キー文書を格納する。
(ステップ302)。検索キー文書としては、例えば図
4に示すような内容のテキスト文書であり、キーボード
やスキャナにより入力される。First, the user uses the input device 2 to store data of a search target document to be searched in the document information storage unit 4a. At the time of this storage, a document ID for identifying the document and a field indicating the classification of the document are assigned to the search target document (step 300). Subsequently, the initialization unit 201 initializes all buffers (step 30).
1). When the user inputs a search key document to the search key document input unit 204 via the input device 2, the search key document is stored in the search key document storage buffer unit 251.
(Step 302). The search key document is, for example, a text document having contents as shown in FIG. 4, and is input by a keyboard or a scanner.
【0020】次に検索対象文書読み出し部205は、ス
テップ300にて検索対象文書のデータが入力された外
部記憶装置4の文書情報記憶部4aから、複数の検索対
象文書を読み出し、検索対象文書格納バッファ部252
に格納する(ステップ303)。検索対象文書は、例え
ば図6に示すようなものであり、上述の通り本文と、文
書を識別するための文書IDと、その文書の分類を表す
分野情報とが付与されている。Next, the retrieval target document reading section 205 reads a plurality of retrieval target documents from the document information storage section 4a of the external storage device 4 to which the data of the retrieval target document has been inputted in step 300, and stores the retrieval target documents. Buffer unit 252
(Step 303). The search target document is, for example, as shown in FIG. 6, and as described above, the body, the document ID for identifying the document, and the field information indicating the classification of the document are added.
【0021】類似度算出部206は、検索キー文書格納
バッファ部251に格納された検索キー文書と、検索対
象文書格納バッファ部252に格納された検索対象文書
の本文とを比較し、ベクトル空間法により類似度を算出
する。ここでベクトル空間法による類似度算出方法につ
いて簡単に説明する。まず検索キー文書、及び検索対象
文書それぞれを形態素解析を使って単語に分割する。次
に検索キー文書の中に出現する同一単語の出現回数を算
出し、同様に検索対象文書の中に出現する同一単語の出
現回数を算出する。これら両文書に出現する単語と、そ
の出現回数を抽出する。例えば検索キー文書の中に「文
書」という単語が3回、「印刷」という単語が1回出現
し、検索対象文書の中に同じく「文書」という単語が5
回、「印刷」という単語が2回出現したとする。この場
合、「文書」の回数をx軸の値、「印刷」の回数をy軸
の値として検索キー文書及び検索対象文書それぞれのベ
クトルを作成する。検索キー文書のベクトルは(3,
1)、検索対象文書のベクトルは(5,2)となる。そ
して両ベクトルの為す角をθとしてCOSθを求める。
この値を所定の式で正規化したものが類似度となる。因
みにθが小さいければ類似度大となる。これを全ての単
語を対象に行なう。類似度算出部206は、こうして求
めた類似度を、検索対象文書の文書IDとその文書の分
類を表す分野情報と共に、類似度算出結果格納バッファ
部253に格納する。類似度算出結果格納バッファ部2
53に格納されたデータの一例として、例えば図6に示
す。格納された1番目のデータは、文書IDが「593
3」、分野名が「出版」、類似度が「0.378」とい
うことを示している。The similarity calculation unit 206 compares the search key document stored in the search key document storage buffer unit 251 with the text of the search target document stored in the search target document storage buffer unit 252, and uses the vector space method. To calculate the similarity. Here, a similarity calculation method using the vector space method will be briefly described. First, each of the search key document and the search target document is divided into words using morphological analysis. Next, the number of appearances of the same word appearing in the search key document is calculated, and similarly, the number of appearances of the same word appearing in the search target document is calculated. The words appearing in these documents and the number of appearances are extracted. For example, the word “document” appears three times in the search key document and the word “print” appears once, and the word “document” also appears in the search target document.
Suppose that the word "print" appears twice. In this case, the vectors of the search key document and the search target document are created using the number of “documents” on the x-axis and the number of “prints” on the y-axis. The vector of the search key document is (3,
1) The vector of the search target document is (5, 2). Then, COS θ is obtained by setting an angle formed by both vectors to θ.
The value obtained by normalizing this value with a predetermined formula is the similarity. Incidentally, the smaller the value of θ is, the higher the similarity is. This is performed for all words. The similarity calculation unit 206 stores the obtained similarity in the similarity calculation result storage buffer unit 253 together with the document ID of the search target document and the field information indicating the classification of the document. Similarity calculation result storage buffer unit 2
FIG. 6 shows an example of the data stored in the memory 53. The first data stored has the document ID “593”.
3 ", the field name is" publishing ", and the similarity is" 0.378 ".
【0022】類似度の格納が済むと、類似度を算出して
いない検索対象文書が残っているかを判断し(ステップ
305)、残っている場合は、ステップ303に戻って
残りの検索対象文書に対してステップ303及び304
の動作を行なう。一方他に検索対象文書がないと判断し
た場合、ステップ306に進む。ステップ306では、
ステップ304で類似度算出結果格納バッファ部253
に格納した類似度算出結果を、類似文書候補ソート部2
08にて類似度でソートして再び類似度算出結果格納バ
ッファ部253に格納する。After the similarity is stored, it is determined whether or not there remains a document to be searched for which the similarity has not been calculated (step 305). Steps 303 and 304
Is performed. On the other hand, if it is determined that there is no other document to be searched, the process proceeds to step 306. In step 306,
In step 304, the similarity calculation result storage buffer unit 253
The similarity calculation result stored in the similar document candidate sorting unit 2
At 08, the data is sorted by similarity and stored again in the similarity calculation result storage buffer unit 253.
【0023】この後類似文書候補出力部209により、
類似文書候補を類似度の高いものから順に、表示装置4
に出力する(ステップ307)。この時の出力件数は、
ユーザがその都度指定する方法や、ユーザが予め件数を
設定しておき、その件数にしたがって出力する方法など
がある。この場合表示装置4は、類似文書候補を、例え
ば図7に示すように文書IDと類似度とをペアにして上
位3候補について表示する。Thereafter, the similar document candidate output unit 209 outputs
The display device 4 sorts similar document candidates in descending order of similarity.
(Step 307). The output count at this time is
There are a method of specifying each time by the user, a method of setting the number of cases in advance by the user, and outputting according to the number of cases. In this case, the display device 4 displays the similar document candidates for the top three candidates by pairing the document ID and the degree of similarity, for example, as shown in FIG.
【0024】次に、ステップ307で出力した類似文書
候補が、実際に検索キー文書に類似しており、抽出され
るべきものか否かのデータは、ユーザによる入力装置2
操作により、正解/不正解結果入力部211を介して入
力される(ステップ308)。抽出されるべきものであ
れば正解、そうでなければ不正解である。この入力時、
正解/不正解結果入力部211は、類似度確度変換テー
ブル格納バッファ部256内の類似度確度変換テーブル
の該当部分を以下のように更新する(ステップ30
9)。変換テーブルの例を図8に示す。各行は類似度毎
に区分けし、各列は分野毎に区分けしており、さらに、
各分野を正解数と特定数とに区分けしている。ステップ
308において、例えば、最上位の検索対象文書「文書
ID=75268」が類似しているとユーザにより判断
され、その旨データ入力された場合、正解/不正解結果
入力部211はこの文書の「分野=印刷」と「類似度=
0.39」とから該当欄Aを特定し、その欄の正解数
「3」、特定数「5」の両方に「1」を加算する。また
第2位の候補の検索対象文書「文書ID=5933」が
類似していないとユーザにより判断され、その旨データ
入力された場合、正解/不正解結果入力部211はこの
文書の「分野=出版」と「類似度=0.378」とから
該当欄Bを特定し、その欄Bの正解数「2」はそのまま
で、特定数「4」にのみ「1」加算する。第3位の候補
についても同様のデータ処理を行なう。この処理によ
り、入力前後における該当欄の確度(=正解数/特定
数)は、「分野=印刷」且つ「類似度=0.38〜0.
39」が3/5=0.6から4/6=0.67へ向上し
たのに対して、「分野=出版」且つ「類似度=0.37
〜0.38」が2/4=0.5から2/5=0.4へと
降下することになる。つまり、この処理は分野毎に類似
度に対応した適切な正解率を設定するためのものであ
り、同じ類似度でも分野毎に正解率に違いがある場合、
それを類似文献抽出に反映させることができるようにす
るためのものである。また、これを1つの分野単位で見
ると、類似度値に対応して確度が定められていることに
もなる。Next, data indicating whether or not the similar document candidate output in step 307 is actually similar to the retrieval key document and should be extracted is determined by the input device 2 by the user.
By operation, it is input via the correct / incorrect answer result input unit 211 (step 308). The answer is correct if it should be extracted, otherwise it is incorrect. At this input,
The correct answer / incorrect answer result input unit 211 updates the corresponding part of the similarity accuracy conversion table in the similarity accuracy conversion table storage buffer unit 256 as follows (step 30).
9). FIG. 8 shows an example of the conversion table. Each row is divided by similarity, each column is divided by field,
Each field is divided into the number of correct answers and the specific number. In step 308, for example, when the user determines that the top-level search target document “document ID = 75268” is similar, and inputs data to that effect, the correct / incorrect answer result input unit 211 outputs the “ Domain = Printing "and" Similarity =
Then, the corresponding column A is specified from “0.39”, and “1” is added to both the number of correct answers “3” and the specific number “5” in that column. In addition, when the user determines that the second candidate search target document “document ID = 5933” is not similar, and inputs data to that effect, the correct / incorrect answer result input unit 211 outputs the “field = The corresponding column B is specified based on “publishing” and “similarity = 0.378”, and “1” is added only to the specific number “4” while the number of correct answers “2” in the column B remains unchanged. The same data processing is performed for the third-rank candidate. By this processing, the accuracy (= number of correct answers / specific number) of the corresponding column before and after the input is “field = printing” and “similarity = 0.38-0.
"39" has improved from 3/5 = 0.6 to 4/6 = 0.67, whereas "field = publishing" and "similarity = 0.37"
0.30.38 ”drops from 2/4 = 0.5 to 2/5 = 0.4. In other words, this process is for setting an appropriate accuracy rate corresponding to the degree of similarity for each field, and when there is a difference in the accuracy rate for each field even with the same similarity,
This is to make it possible to reflect it in similar document extraction. When this is viewed in one field unit, the accuracy is determined corresponding to the similarity value.
【0025】尚、類似しているか否かの判断方法は、本
実施例の方法以外に、すでに分野が特定されているもの
の、検索対象文書として登録されていない文書を検索キ
ー文書として入力し、検索の結果出力された類似文書に
付与されている分野と比較することにより、似ているか
どうかの判断を自動的に行う方法などもある。次に、検
索キー文書が残っているかを判断し(ステップ31
0)、残っている場合は、ステップ302に戻って検索
キー文書について前記同様の処理を行なう。他に検索キ
ー文書がなければステップ311へ進む。It should be noted that, in addition to the method of the present embodiment, a method of determining whether or not the document is similar to the present embodiment is to input a document whose field is already specified but not registered as a search target document as a search key document. There is also a method of automatically determining whether or not the document is similar by comparing with a field assigned to a similar document output as a result of the search. Next, it is determined whether a search key document remains (step 31).
0) If it remains, return to step 302 and perform the same processing as described above for the search key document. If there is no other search key document, the process proceeds to step 311.
【0026】最後に、この準備段階において作成され類
似度確度変換テーブル格納バッファ部256に格納され
ている類似度確度変換テーブルを、類似度確度変換テー
ブル書き込み部213によりテーブル記憶部4bに書き
込み(ステップ311)処理を終了する。作成した類似
度確度変換テーブルの例は図9に示すように、正解数及
び特定数が所定の実用レベルに達し、確度として使用で
きるテーブルであることが必要である。Finally, the similarity probability conversion table created in the preparation stage and stored in the similarity probability conversion table storage buffer unit 256 is written into the table storage unit 4b by the similarity probability conversion table writing unit 213 (step S1). 311) End the process. As shown in FIG. 9, the example of the created similarity / probability conversion table needs to be a table in which the number of correct answers and the specific number reach a predetermined practical level and can be used as the accuracy.
【0027】次に上述の通り作成された類似度確度変換
テーブルを使用して、類似文書を検索する第2のステッ
プについて説明する。図10はその手順を示すフローチ
ャートである。初めに初期化部201により全バッファ
をクリアし、類似度度確度変換テーブル読み込み部21
2により、類似度確度変換テーブル格納バッファ部25
6に外部記憶装置4のテーブル記憶部4bから類似度確
度変換テーブルを書き込む(ステップ401)。ここで
書き込まれる類似度確度変換テーブルは、第1のステッ
プで作成されたもの、又は類似文献検索実行に伴いその
後更新されたものである。ここでは、第1のステップで
作成されたものを書き込むこととし、図9に示す類似度
確度変換テーブルを書き込むものとする。Next, the second step of searching for a similar document by using the similarity probability conversion table created as described above will be described. FIG. 10 is a flowchart showing the procedure. First, all buffers are cleared by the initialization unit 201, and the similarity / degree of accuracy conversion table reading unit 21 is read.
2, the similarity / accuracy conversion table storage buffer 25
6, the similarity / degree of accuracy conversion table is written from the table storage unit 4b of the external storage device 4 (step 401). The similarity / probability conversion table written here is the one created in the first step, or the one updated after the similar document search is executed. Here, it is assumed that the one created in the first step is written, and the similarity accuracy conversion table shown in FIG. 9 is written.
【0028】続いて、出力候補数判断条件設定部210
が起動される。出力候補数判断条件設定部210は、入
力装置2を通じてユーザより、出力する類似文書候補に
正解文書が1件以上含まれる確率の条件を受け付けて、
出力候補数判断条件格納バッファ部255に格納(設
定)する(ステップ402)。図11は、出力する類似
文献候補の中に1件以上正解が含まれる確率として0.
97を指定した場合の格納例である。次に、検索キー文
書入力部204が、入力装置2のユーザ操作により入力
される検索キー文書を受け付けて、検索キー文書格納バ
ッファ部251に検索キー文書を格納する(ステップ4
03)。具体例として、図12に例示する内容のテキス
ト文書を検索キー文書の一つとして格納したとする。Subsequently, the output candidate number determination condition setting section 210
Is started. The output candidate number determination condition setting unit 210 receives from the user via the input device 2 a condition of a probability that one or more correct documents are included in the similar document candidates to be output,
It is stored (set) in the output candidate number determination condition storage buffer 255 (step 402). FIG. 11 shows that the probability that one or more correct answers are included in the output similar document candidate is 0.
It is a storage example when 97 is specified. Next, the search key document input unit 204 receives the search key document input by a user operation of the input device 2, and stores the search key document in the search key document storage buffer unit 251 (step 4).
03). As a specific example, it is assumed that a text document having the contents illustrated in FIG. 12 is stored as one of the search key documents.
【0029】この後、検索対象文書読み込み部205
は、文書情報記憶部4aから複数の文書を読み出し、検
索対象文書格納バッファ部252に検索対象文書として
格納する(ステップ404)ものであり、例えば図5に
示すような内容のテキスト文書を検索対象文書として格
納する。検索キー文書と検索対象文書とがバッファ部2
50内に格納されると、類似度算出部206は、検索キ
ー文書格納バッファ部251に格納された検索キー文書
と、検索対象文書格納バッファ部252に格納された検
索対象文書とを比較し、ステップ304と同様の方法に
より類似度を算出し、図13に例示するように類似度算
出結果格納バッファ部253に格納する(ステップ40
5)。Thereafter, the retrieval target document reading unit 205
Reads out a plurality of documents from the document information storage unit 4a and stores them in the search target document storage buffer unit 252 as search target documents (step 404). For example, a text document having contents as shown in FIG. Store as a document. The buffer part 2 stores the search key document and the search target document.
When stored in the search key document storage unit 50, the similarity calculation unit 206 compares the search key document stored in the search key document storage buffer unit 251 with the search target document stored in the search target document storage buffer unit 252. The similarity is calculated by the same method as in step 304, and is stored in the similarity calculation result storage buffer unit 253 as illustrated in FIG. 13 (step 40).
5).
【0030】検索対象文書に対する類似度算出後、類似
度を算出していない検索対象文書が残っているかを判断
し(ステップ406)、残っている場合は、ステップ4
04に戻って検索対象文書について前記同様の処理が行
われる。他に検索対象文書がなければ次の処理(ステッ
プ407)へ進む。After calculating the similarity with respect to the search target document, it is determined whether or not the search target document whose similarity has not been calculated remains (step 406).
Returning to step 04, the same processing as described above is performed on the search target document. If there is no other document to be searched, the process proceeds to the next process (step 407).
【0031】全ての検索対象文書について類似度の計算
が終了すると、類似度算出結果格納バッファ部253に
格納された類似度算出結果のそれぞれについて、類似度
と検索対象文書に付与された分野とから、類似度確度変
換テーブル格納バッファ部256に格納された類似度確
度変換テーブルの該当欄の正解数と特定数とを取り出
し、確度(=正解数/特定数…正解確率)を算出し、図
14に示すように類似文書候補格納バッファ部254に
格納する(ステップ407)。つまり、ステップ405
による類似度算出の結果、「文書ID=8652」、
「分野=コンピュータ」、「類似度=0.371」の場
合、図9の類似度確度変換テーブルを用いると、類似度
が「0.37〜0.38」の行の、「コンピュータ」の
欄Cの特定数「327」と正解数「291」から、確度
291/327=0.890を算出する。図14に変換
された類似文書候補の格納例を示す。この類似度確度変
換の際、類似度確度変換テーブルの類似度の精度(図9
の例では0.01)よりも、算出した類似度の精度が高
い場合は、類似度確度変換テーブルの前後の値から算出
した確度を補間して利用する。When the calculation of the similarity for all the search target documents is completed, the similarity calculation results stored in the similarity calculation result storage buffer unit 253 are calculated based on the similarity and the field assigned to the search target document. 14, the number of correct answers and the specific number in the corresponding column of the similarity probability conversion table stored in the similarity probability conversion table storage buffer unit 256 are extracted, and the accuracy (= correct number / specific number... Correct probability) is calculated. (Step 407). That is, step 405
"Document ID = 8652"
In the case of “field = computer” and “similarity = 0.371”, using the similarity accuracy conversion table in FIG. 9, the “computer” column of the row whose similarity is “0.37 to 0.38” From the specific number “327” of C and the number of correct answers “291”, the accuracy 291/327 = 0.890 is calculated. FIG. 14 shows an example of storing the converted similar document candidates. At the time of this similarity accuracy conversion, the similarity accuracy of the similarity accuracy conversion table (FIG. 9)
If the calculated similarity is more accurate than 0.01) in the example, the accuracy calculated from the values before and after the similarity accuracy conversion table is interpolated and used.
【0032】ステップ407で類似度確度変換され、類
似文書候補格納バッファ部254に格納された類似文書
候補を、確度でソートし、例えば図15のようにして再
びこのバッファ部254に格納する(ステップ40
8)。次に、確度の上位から、出力候補数判断条件格納
バッファ部255に格納された候補数判断条件である
0.97に合致する候補までを出力するステップへ進
む。まず、確度累積値格納バッファ部257を1に初期
化する(ステップ409)。図16に確度累積値バッフ
ァ257が初期化された状態の例を示す。初期化後、確
度累積値格納バッファ部257に、1から類似文書候補
の確度を引いた値を乗じ確度累積値格納バッファ部25
7に格納する(ステップ410)と共に、類似文書候補
として類似文書候補209を介して表示装置3に出力す
る(ステップ411)。In step 407, the similar document candidates converted in the similarity probability and stored in the similar document candidate storage buffer unit 254 are sorted by certainty and stored again in the buffer unit 254 as shown in FIG. 15, for example (step S407). 40
8). Next, the process proceeds to the step of outputting, from the highest accuracy, candidates up to 0.97 which is the candidate number determination condition stored in the output candidate number determination condition storage buffer unit 255. First, the accumulated probability value storage buffer unit 257 is initialized to 1 (step 409). FIG. 16 shows an example of a state in which the accumulated accuracy buffer 257 is initialized. After initialization, the accumulated probability value storage buffer unit 257 is multiplied by a value obtained by subtracting the similarity document candidate probability from 1 to the accumulated probability value storage buffer unit 257.
7 (step 410) and output to the display device 3 via the similar document candidate 209 as a similar document candidate (step 411).
【0033】続いてこのようにして表示装置3に出力し
た類似文書候補が、実際に検索キー文書に類似していた
か否かをフィードバックし、類似度確度変換テーブルに
反映させるべく、入力装置2を操作するユーザから受付
ける(ステップ412)。ユーザからの類似か否かの入
力データに従いここで行なう動作は、ステップ308、
及び309にて行なった動作と同様である。つまり、類
似度確度変換テーブル格納バッファ部256に格納され
た類似度確度変換テーブルの該当欄(類似度と特定した
類似文書に付与された分野)の特定数に、類似か否かに
関わらず候補として表示された場合には「1」を加算
し、類似していると判断された場合は同該当欄の正解数
にも「1」を加算する(ステップ413)。Subsequently, the input device 2 is fed back as to whether or not the similar document candidate output to the display device 3 is actually similar to the retrieval key document, and reflects it in the similarity probability conversion table. Acceptance from the operating user (step 412). The operation performed here according to the input data of similarity from the user is step 308,
And 309 are the same as the operations performed. In other words, the candidate number is not related to the specified number of the corresponding column (the field assigned to the similar document specified as the similarity) in the similarity probability conversion table stored in the similarity probability conversion table storage buffer unit 256 irrespective of whether or not it is similar. Is displayed, "1" is added, and when it is determined that they are similar, "1" is also added to the number of correct answers in the corresponding column (step 413).
【0034】これらステップ410から413の動作
を、出力候補数判断条件格納バッファ部255に格納さ
れた候補数判断条件を満足するまで繰り返す(ステップ
414)。図15、及び図17を用いてステップ410
から414における、類似文書候補の状態と確度累積値
格納バッファ部257の変化に関する具体例と、候補数
判断動作を説明する。まず最上位の類似文書候補、つま
り文書ID=8652の確度が0.890なので、確度
累積値は初期値1に1−0.890=0.110を掛け
て0.110となり、1−0.110=0.890は候
補数判断条件「0.97」よりも小さいので次の候補の
処理に進む。2番目の類似文書候補、「文書ID=24
19」の確度が0.708なので確度累積値は0.11
0に1−0.708=0.292を掛けるて、0.03
2となり、1−0.032=0.968は候補数判断条
件「0.97」よりまだ小さいので、さらに次の候補の
処理に進む。3番目の類似文書候補、「文書ID=39
924」の確度が0.508なので、確度累積値は0.
032に、1−0.508=0.492を掛けるので、
0.016で、1−0.016=0.984は候補判断
条件「0.97」よりも大きくなり、条件を満足したと
判断する。そして表示装置3への表示は、これら文書I
D=8652、2419、39924の3候補のみで終
了する。図18は、類似文書候補が図17に示すような
状態にあった場合に出力される類似文書候補表示の例で
ある。ここでこれら3候補の表示の順序が重要なのでな
く、まず少なくとも最も確度の高い候補が表示されてい
る点、及びこれら3候補の中に正解が含まれている確率
が、ほぼ所望の値0.97に近い0.984(≒1件)
である点が重要なのである。The operations of steps 410 to 413 are repeated until the candidate number judgment condition stored in the output candidate number judgment condition storage buffer 255 is satisfied (step 414). Step 410 using FIGS. 15 and 17
A description will now be given of a specific example of the state of the similar document candidate and the change of the accumulated probability value storage buffer unit 257, and the operation of determining the number of candidates, in the steps from 414 to 414. First, since the certainty of the highest similar document candidate, that is, the document ID = 8652 has a certainty of 0.890, the cumulative certainty is 0.110 obtained by multiplying the initial value 1 by 1-0.890 = 0.110. Since 110 = 0.890 is smaller than the candidate number determination condition “0.97”, the process proceeds to the next candidate. The second similar document candidate, “Document ID = 24
Since the accuracy of “19” is 0.708, the accumulated accuracy is 0.11
0 is multiplied by 1-0.708 = 0.292 to obtain 0.03
2 and 1−0.032 = 0.968 is still smaller than the number-of-candidates determination condition “0.97”, so the process proceeds to the next candidate. The third similar document candidate, “Document ID = 39
924 ”is 0.508, so the cumulative accuracy value is 0.08.
Since 032 is multiplied by 1-0.508 = 0.492,
At 0.016, 1−0.016 = 0.0084 is larger than the candidate determination condition “0.97”, and it is determined that the condition is satisfied. The display on the display device 3 is based on these documents I
The process ends with only three candidates of D = 8652, 2419, 39924. FIG. 18 is an example of a similar document candidate display output when the similar document candidate is in the state shown in FIG. Here, the order in which these three candidates are displayed is not important. First, at least the point at which the most probable candidate is displayed and the probability that the correct answer is included in these three candidates are almost the desired value of 0.1. 0.984 near 97 ($ 1)
Is important.
【0035】類似度確度変換テーブルの更新が終了する
と、検索キー文書が残っているかを判断し(ステップ4
15)、残っている場合は、ステップ403に戻って検
索キー文書についてステップ403から414の処理を
行なう。他に検索キー文書がなければステップ416に
進む。最後に、類似度確度変換テーブル書き込み部21
3により、類似度確度変換テーブル格納バッファ部25
6の内容を外部記憶装置4のテーブル記憶部4bに書き
込み(ステップ416)、類似文献検索処理を終了す
る。When the update of the similarity / probability conversion table is completed, it is determined whether or not a search key document remains (step 4).
15) If it remains, return to step 403 and perform the processing of steps 403 to 414 for the search key document. If there is no other search key document, the process proceeds to step 416. Finally, the similarity / accuracy conversion table writing unit 21
3, the similarity / accuracy conversion table storage buffer unit 25
6 is written into the table storage unit 4b of the external storage device 4 (step 416), and the similar document search process ends.
【0036】尚、ステップ413以降の処理はなくても
検索に差し支えるものではないが、ステップ413以降
の処理を行うことで常に最新の結果を類似文書検索に反
映させることができるという効果がある。また、ステッ
プ412以降の処理は類似文書候補出力直後に行う以外
に、類似文書出力をまとめて行い、それらの類似文書出
力候補が実際に似ているかどうかを後で判断して、類似
度確度変換テーブルを更新するようにしても構わない。
本発明はその主旨を逸脱しない範囲であれば、上記の実
施例に限定されるものではない。そして、データベース
検索装置、及び文書分類装置等に広く適用できるもので
ある。It should be noted that although the processing after step 413 does not need to be performed for search, the processing after step 413 has an effect that the latest result can always be reflected in the similar document search. . In addition to performing the processing after step 412 immediately after outputting a similar document candidate, similar document output is collectively performed, and it is later determined whether or not those similar document output candidates are actually similar. The table may be updated.
The present invention is not limited to the above embodiments as long as it does not depart from the gist of the present invention. The present invention can be widely applied to a database search device, a document classification device, and the like.
【0037】[0037]
【発明の効果】以上詳述したように本発明によれば、算
出された類似度毎に蓄積したデータに基づく正解率を求
め、その正解率の高い文書を抽出するようにしたので、
類似度度のみに依存することなく、高い精度で抽出され
るべき類似文書を検索できる。また本発明によれば、分
野毎に正解率のデータを蓄積しているため、分類間にお
ける類似度の正解率の違いを反映し、高い精度でより適
切な類似文書を検索できる。さらに本発明によれば、検
索の結果、出力文書中に抽出されるべき文書が所望の確
率で含まれるようにすることができる。As described above in detail, according to the present invention, the correct answer rate based on the data accumulated for each calculated similarity is obtained, and a document having a high correct answer rate is extracted.
A similar document to be extracted can be searched with high accuracy without depending only on the degree of similarity. According to the present invention, since the data of the accuracy rate is accumulated for each field, it is possible to search for a more appropriate similar document with high accuracy by reflecting the difference in the accuracy rate of the similarity between the classifications. Further, according to the present invention, as a result of the search, a document to be extracted can be included in the output document with a desired probability.
【図1】本発明に係る一実施形態の類似文献検索装置の
ハードウェア構成を示す図FIG. 1 is a diagram showing a hardware configuration of a similar document search device according to an embodiment of the present invention.
【図2】図1の類似文献検索装置における制御装置の機
能ブロック図FIG. 2 is a functional block diagram of a control device in the similar document search device of FIG. 1;
【図3】検索対象文書の類似度を確度に変換するための
テーブルを作成する手順を示す図FIG. 3 is a diagram showing a procedure for creating a table for converting similarity of a search target document into accuracy;
【図4】テーブル準備時の検索キー文書の例FIG. 4 shows an example of a search key document when preparing a table.
【図5】テーブル準備時の検索対象文書の例FIG. 5 shows an example of a search target document when preparing a table.
【図6】テーブル準備時の検索対象文書の類似度算出結
果の例FIG. 6 shows an example of a similarity calculation result of a search target document when preparing a table.
【図7】テーブル準備時の類似文書候補表示の例FIG. 7 shows an example of displaying similar document candidates when preparing a table.
【図8】テーブル準備段階における類似度確度変換テー
ブルの例FIG. 8 shows an example of a similarity accuracy conversion table in a table preparation stage.
【図9】検索時に使用される類似度確度変換テーブルの
例FIG. 9 is an example of a similarity / probability conversion table used at the time of search;
【図10】類似文献検索手順を示す図FIG. 10 is a diagram showing a similar document search procedure.
【図11】検索時の出力条件判断条件の例FIG. 11 shows an example of an output condition determination condition at the time of a search.
【図12】検索時の検索キー文書の例FIG. 12 shows an example of a search key document at the time of search
【図13】検索時の検索対象文書の類似度算出結果の例FIG. 13 illustrates an example of a similarity calculation result of a search target document during a search.
【図14】類似文献候補の確度の例FIG. 14 shows an example of the accuracy of similar document candidates
【図15】確度でソート後の類似文献候補の例FIG. 15 shows examples of similar document candidates sorted by accuracy.
【図16】確度累積値の初期値の例FIG. 16 shows an example of an initial value of a cumulative accuracy value.
【図17】確度累積値の変化の例FIG. 17 shows an example of a change in the cumulative accuracy value.
【図18】検索時の類似文献候補表示の例FIG. 18 shows an example of similar document candidate display at the time of search
1…制御装置 2…入力装置 3…表示装置 4…外部記憶装置 4a…文書情報記憶部 4b…テーブル記憶部 200…プログラム部 201…初期化部 204…検索キー文書入力部 205…検索対象文書読み込み部 206…類似度算出部 207…類似度確度変換部 208…類似文書候補ソート部 209…類似文書候補出力部 210…出力候補数判断条件設定部 211…正解/不正解結果入力部 212…類似度確度変換テーブル読み込み部 213…類似度確度変換テーブル書き込み部 250…バッファ部 251…検索キー文書格納バッファ部 252…検索対象文書格納バッファ部 253…類似度算出結果格納バッファ部 254…類似文書候補格納バッファ部 255…出力候補数判断条件格納バッファ部 256…類似度確度変換テーブル格納バッファ部 257…確度累積値格納バッファ部 REFERENCE SIGNS LIST 1 control device 2 input device 3 display device 4 external storage device 4 a document information storage unit 4 b table storage unit 200 program unit 201 initialization unit 204 search key document input unit 205 read document to be searched Unit 206: similarity calculation unit 207: similarity probability conversion unit 208: similar document candidate sorting unit 209: similar document candidate output unit 210: output candidate number determination condition setting unit 211: correct / incorrect answer result input unit 212: similarity Probability conversion table reading unit 213 ... Similarity probability conversion table writing unit 250 ... Buffer unit 251 ... Search key document storage buffer unit 252 ... Search target document storage buffer unit 253 ... Similarity calculation result storage buffer unit 254 ... Similar document candidate storage buffer Unit 255: buffer unit for determining the number of output candidates judgment condition storage unit 256: conversion table for similarity and accuracy Paid buffer unit 257 ... likelihood accumulated value storage buffer unit
フロントページの続き (72)発明者 松隈 剛 東京都青梅市新町3丁目3番地の1 東芝 コンピュータエンジニアリング株式会社内 (72)発明者 中本 幸夫 東京都青梅市新町3丁目3番地の1 東芝 コンピュータエンジニアリング株式会社内 (72)発明者 仁科 卓哉 東京都青梅市新町3丁目3番地の1 東芝 コンピュータエンジニアリング株式会社内 Fターム(参考) 5B075 ND03 NK10 NK54 PP24 PQ02 PQ46 PR06 PR08 QM08 QS20 UU06 Continued on the front page (72) Inventor Tsuyoshi Matsukuma One, 3-3-1 Shinmachi, Ome-shi, Tokyo Inside Toshiba Computer Engineering Co., Ltd. (72) Inventor Yukio Nakamoto 3-3-1 Shinmachi, Ome-shi, Tokyo Toshiba Computer Engineering Inside (72) Inventor Takuya Nishina 3-3-1 Shinmachi, Ome-shi, Tokyo Toshiba Computer Engineering Co., Ltd. F-term (reference) 5B075 ND03 NK10 NK54 PP24 PQ02 PQ46 PR06 PR08 QM08 QS20 UU06
Claims (13)
索対象文書の中から検索する類似文書検索装置におい
て、検索キー文書と前記各検索対象文書との類似度を算
出する類似度算出手段と、この類似度算出手段により求
められた類似度に応じて、当該検索対象文書が抽出され
るべき文書である確率を求める手段と、少なくともこの
手段により求められた確率が最も高い文書を出力する出
力手段とを具備することを特徴とする類似文献検索装
置。1. A similarity calculating device for calculating a similarity between a search key document and each of the search target documents in a similar document search apparatus for searching a document similar to the search key document from a plurality of search target documents. Means for calculating the probability that the search target document is a document to be extracted according to the similarity calculated by the similarity calculating means, and outputting the document having the highest probability obtained by at least this means. A similar document search device comprising output means.
を含む複数の検索対象文書の中から検索する類似文書検
索装置において、検索キー文書と前記各検索対象文書と
の類似度を算出する類似度算出手段と、この類似度算出
手段により求められた類似度と前記検索対象文書の分類
とに基づいて、当該検索対象文書が抽出されるべき文書
である確率を求める手段と、この手段により求められた
確率の高いものから順に検索対象文書を出力する出力手
段とを具備することを特徴とする類似文献検索装置。2. A similar document search device for searching a document similar to a search key document from a plurality of search target documents including classification information, wherein a similarity between the search key document and each of the search target documents is calculated. Means for calculating a probability that the search target document is a document to be extracted based on the similarity calculated by the similarity calculation means and the classification of the search target document; Output means for outputting the search target documents in order from the one with the highest probability obtained.
を含む複数の検索対象文書の中から検索する類似文書検
索装置において、検索キー文書と前記各検索対象文書と
の類似度を算出する類似度算出手段と、この類似度算出
手段により求められた類似度と前記検索対象文書の分野
とに基づいて、当該検索対象文書が抽出されるべき文書
である確率を求める確度変換手段と、この手段により求
められた確率の高いものから順に検索対象文書を出力す
る出力手段と、この出力手段にて出力された検索対象文
書が、結果として抽出されるべき文書であったか否かの
データを入力する入力手段と、この入力手段にて入力さ
れたデータに従い、前記確度変換手段における確率の求
め方を修正する手段とを具備することを特徴とする類似
文献検索装置。3. A similar document search apparatus for searching a document similar to a search key document from a plurality of search target documents including field information, calculating a similarity between the search key document and each of the search target documents. A similarity calculating unit; a probability converting unit that calculates a probability that the search target document is a document to be extracted based on the similarity obtained by the similarity calculation unit and the field of the search target document; Means for outputting documents to be searched in order from the one having the highest probability obtained by the means, and data indicating whether or not the document to be searched output by the output means is a document to be extracted as a result. A similar document search apparatus, comprising: input means; and means for correcting a method of obtaining a probability in the accuracy conversion means according to data input by the input means.
索対象文書の中から検索する類似文書検索装置におい
て、検索キー文書と前記各検索対象文書との類似度を算
出する類似度算出手段と、この類似度算出手段により求
められた類似度の高い順に出力する第1の出力手段と、
この出力手段にて出力された検索対象文書について、結
果として抽出されるべき文書であったか否かのデータを
入力する入力手段と、この入力手段により入力されたデ
ータに基づき、類似度に応じて検索対象文書が抽出され
るべき文書である確率を求めるための変換テーブルを作
成する作成手段と、この手段により作成された変換テー
ブルを使用して類似文書を検索する検索手段と、この検
索手段にて検索された類似文書を出力する第2の出力手
段とを具備することを特徴とする類似文書検索装置。4. A similarity calculating device for calculating a similarity between a search key document and each of the search target documents in a similar document search apparatus for searching a document similar to the search key document from a plurality of search target documents. And first output means for outputting in descending order of similarity obtained by the similarity calculation means,
Input means for inputting data as to whether or not the search target document output from the output means is a document to be extracted as a result; and searching based on the data input by the input means in accordance with the degree of similarity. Creating means for creating a conversion table for determining the probability that the target document is a document to be extracted; searching means for searching for a similar document using the conversion table created by this means; And a second output unit for outputting the searched similar document.
索対象文書の中から検索する類似文書検索装置におい
て、検索キー文書と前記各検索対象文書との類似度を算
出する類似度算出手段と、この類似度算出手段により求
められた類似度に応じて、当該検索対象文書が抽出され
るべき文書である確率を求める手段と、この手段により
求められた確率の高いものから順に検索対象文書を出力
する出力手段と、この出力手段が出力する検索対象文書
を、出力された検索対象文書の中に抽出されるべき文書
が含まれている確率が所定値に達したことを判断する判
断手段とを具備し、上記判断手段が所定値に達したと判
断すると上記出力手段からの文書の出力を終了すること
を特徴とする類似文書検索装置。 5. A similarity calculating device for calculating a similarity between a search key document and each of the search target documents in a similar document search apparatus for searching a document similar to the search key document from a plurality of search target documents. Means for determining the probability that the search target document is a document to be extracted according to the similarity calculated by the similarity calculation means, and search target documents in descending order of the probability calculated by this means. Output means for outputting a search target document, and a determination means for determining that a probability that a document to be extracted is included in the output search target document has reached a predetermined value. A similar document search device, comprising: when the determining means determines that the predetermined value has been reached, terminating the output of the document from the output means.
含む複数の検索対象文書の中から検索する類似文書検索
装置において、検索キー文書と前記各検索対象文書との
類似度を算出する類似度算出手段と、この類似度算出手
段により求められた類似度と前記検索対象文書の分類と
に対応し、過去に行なった検索の結果抽出された回数に
おける、過去に行なった検索の結果抽出が正しいとされ
た回数の比率から、当該検索対象文書が抽出されるべき
文書である確率を求める変換手段と、少なくともこの変
換手段により求められた最も確率の高いものを出力する
出力手段とを具備することを特徴とする類似文献検索装
置。6. A similar document search apparatus for searching a document similar to a search key document from a plurality of search target documents including classification information, wherein a similarity calculating a similarity between the search key document and each of the search target documents. The degree of similarity calculated by the degree of similarity calculation means and the classification of the search target document, and the number of times of extraction of the result of the search performed in the past and the extraction of the result of the search performed in the past are performed. A conversion unit that obtains a probability that the search target document is a document to be extracted from a ratio of the number of times determined to be correct; and an output unit that outputs at least the highest probability obtained by the conversion unit. A similar document search device characterized by the following.
対象文書の中から検索する類似文書検索方法において、
検索キー文書と前記各検索対象文書との類似度を算出
し、この算出された類似度に応じて、当該検索対象文書
が抽出されるべき文書である確率を求め、少なくともこ
の確率の最も高い文書を出力することを特徴とする類似
文献検索方法。7. A similar document search method for searching a document similar to a search key document from a plurality of search target documents,
A similarity between a search key document and each of the search target documents is calculated, and according to the calculated similarity, a probability that the search target document is a document to be extracted is obtained. A similar document search method characterized by output of a similar document.
含む複数の検索対象文書の中から検索する類似文書検索
方法において、検索キー文書と前記各検索対象文書との
類似度を算出し、この類似度と検索対象文書の分類とに
基づいて、当該検索対象文書が抽出されるべき文書であ
る確率を求め、この求められた確率の高いものから順に
検索対象文書を出力することを特徴とする類似文献検索
方法。8. A similar document search method for searching a document similar to a search key document from a plurality of search target documents including classification information, wherein a similarity between a search key document and each of the search target documents is calculated. Based on the similarity and the classification of the search target document, a probability that the search target document is a document to be extracted is obtained, and the search target documents are output in descending order of the obtained probability. Similar document search method.
含む複数の検索対象文書の中から検索する類似文書検索
方法において、検索キー文書と前記各検索対象文書との
類似度を算出し、この類似度と検索対象文書の分野とに
基づいて、当該検索対象文書が抽出されるべき文書であ
る確率を求め、この求められた確率の高いものから順に
検索対象文書を出力し、この出力された検索対象文書
が、結果として抽出されるべき文書であったか否かのデ
ータを入力し、この入力されたデータに従い、前記確率
の求め方を修正することを特徴とする類似文献検索方
法。9. A similar document search method for searching a document similar to a search key document from a plurality of search target documents including field information, calculating a similarity between the search key document and each of the search target documents. Based on the similarity and the field of the search target document, the probability that the search target document is a document to be extracted is obtained, and the search target document is output in descending order of the obtained probability. A similar document search method, comprising inputting data as to whether or not the retrieved document is a document to be extracted as a result, and correcting the probability calculation method according to the input data.
索対象文書の中から検索する類似文書検索方法におい
て、検索キー文書と前記各検索対象文書との類似度を、
検索対象文書が抽出されるべき文書である確率へ変換す
る変換テーブルを用いて、類似文書を検索するものであ
って、前記変換テーブルを作成する第1のステップと、
前記変換テーブルを使用して類似文書の検索を行なう第
2のステップとを有することを特徴とする類似文書検索
方法。10. A similar document search method for searching a document similar to a search key document from among a plurality of search target documents, wherein a similarity between a search key document and each of the search target documents is determined.
A first step of searching for a similar document using a conversion table for converting the probability that the search target document is a document to be extracted, wherein the conversion table is created;
A second step of searching for a similar document using the conversion table.
索対象文書の中から検索する類似文書検索方法におい
て、検索キー文書と前記各検索対象文書との類似度を算
出し、この類似度算出手段により求められた類似度に応
じて、当該検索対象文書が抽出されるべき文書である確
率を求め、この手段により求められた確率の高いものか
ら順に検索対象文書を出力し、この出力される検索対象
文書を、出力された検索対象文書の中に抽出されるべき
文書が含まれている確率が所定値に達すると出力を終了
することを特徴とする類似文書検索方法。11. A similar document search method for searching a document similar to a search key document from a plurality of search target documents, calculating a similarity between the search key document and each of the search target documents, and calculating the similarity. In accordance with the similarity obtained by the means, the probability that the document to be searched is a document to be extracted is obtained, and the documents to be searched are output in descending order of the probability obtained by this means. A similar document search method, wherein the output is terminated when the probability that a document to be extracted is included in the output search target document reaches a predetermined value.
を含む複数の検索対象文書の中から検索する類似文書検
索方法において、検索キー文書と前記各検索対象文書と
の類似度を算出し、この算出された類似度と前記検索対
象文書の分野とに対応し、過去に行なった検索の結果抽
出された回数における、過去に行なった検索の結果抽出
が正しいとされた回数の比率から、当該検索対象文書が
抽出されるべき文書である確率を求め、少なくとも求め
られた最も確率の高い文書を出力することを特徴とする
類似文献検索方法。12. A similar document search method for searching a document similar to a search key document from a plurality of search target documents including field information, calculating a similarity between a search key document and each of the search target documents. Corresponding to the calculated similarity and the field of the document to be searched, the ratio of the number of times that the result of the search performed in the past was determined to be correct to the number of times that the result of the search performed in the past was extracted is determined by A similar document search method characterized by determining the probability that a search target document is a document to be extracted, and outputting at least the determined highest probability document.
を含む複数の検索対象文書の中から検索する類似文書検
索方法において、検索キー文書と前記各検索対象文書と
の類似度を、各々の検索対象文書の分野と類似度毎に設
定される、検索対象文書が抽出されるべき文書である確
率へ変換する変換テーブルを用いて、類似文書を検索す
るものであって、前記変換テーブルを作成する第1のス
テップと、前記変換テーブルを使用して類似文書の検索
を行なう第2のステップとを有し、前記第1のステップ
は、検索キー文書と前記各検索対象文書との類似度を算
出するステップと、この類似度の算出された検索対象文
書が抽出されるものであるか否かのデータを入力するス
テップと、入力されたデータに従い、類似度及び検索対
象文書の分野毎に区分けした前記変換テーブルを作成す
るステップとを含み、前記第2のステップは、検索キー
文書と前記各検索対象文書との類似度を算出するステッ
プと、この算出された類似度と当該検索対象文書の分類
とに応じて、前記変換テーブルを用いて当該対象文書が
抽出されるべき確率を求めるステップと、この検索対象
文書の確率の高い順に出力するステップとを含むことを
特徴とする類似文書検索方法。13. A similar document retrieval method for retrieving a document similar to a retrieval key document from a plurality of retrieval target documents including field information, wherein a similarity between a retrieval key document and each of said retrieval target documents is determined. A similar document is searched using a conversion table that is set for each field and similarity of the search target document and is converted into a probability that the search target document is a document to be extracted. And a second step of searching for a similar document using the conversion table. The first step determines the similarity between a search key document and each of the search target documents. Calculating, and inputting data indicating whether or not the search target document having the calculated similarity is to be extracted. According to the input data, the similarity and the field of the search target document are determined. Generating the divided conversion table, wherein the second step calculates a similarity between a search key document and each of the search target documents, and calculates the calculated similarity and the search target document. A step of obtaining a probability that the target document should be extracted using the conversion table in accordance with the classification of the document, and a step of outputting the document in the descending order of the probability of the search target document. Method.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11120023A JP2000311173A (en) | 1999-04-27 | 1999-04-27 | Device and method for retrieving similar document |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11120023A JP2000311173A (en) | 1999-04-27 | 1999-04-27 | Device and method for retrieving similar document |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000311173A true JP2000311173A (en) | 2000-11-07 |
Family
ID=14776007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11120023A Pending JP2000311173A (en) | 1999-04-27 | 1999-04-27 | Device and method for retrieving similar document |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2000311173A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007200034A (en) * | 2006-01-26 | 2007-08-09 | Chugoku Electric Power Co Inc:The | Similar document retrieval method, similar document retrieval device and program |
JP2013174988A (en) * | 2012-02-24 | 2013-09-05 | Hitachi Ltd | Similar document retrieval support apparatus and similar document retrieval support program |
-
1999
- 1999-04-27 JP JP11120023A patent/JP2000311173A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007200034A (en) * | 2006-01-26 | 2007-08-09 | Chugoku Electric Power Co Inc:The | Similar document retrieval method, similar document retrieval device and program |
JP4703415B2 (en) * | 2006-01-26 | 2011-06-15 | 中国電力株式会社 | Similar document search method, similar document search device, and program |
JP2013174988A (en) * | 2012-02-24 | 2013-09-05 | Hitachi Ltd | Similar document retrieval support apparatus and similar document retrieval support program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11514698B2 (en) | Intelligent extraction of information from a document | |
EP0686291B1 (en) | Combined dictionary based and likely character string handwriting recognition | |
US6687697B2 (en) | System and method for improved string matching under noisy channel conditions | |
US5542090A (en) | Text retrieval method and system using signature of nearby words | |
EP0844583A2 (en) | Method and apparatus for character recognition | |
US7099507B2 (en) | Method and system for extracting title from document image | |
US8411958B2 (en) | Apparatus and method for handwriting recognition | |
JP2008225695A (en) | Character recognition error correction device and program | |
US8208685B2 (en) | Word recognition method and word recognition program | |
JPH11328317A (en) | Method and device for correcting japanese character recognition error and recording medium with error correcting program recorded | |
JP2001319231A (en) | Device and method for processing image, and recording medium | |
US6320985B1 (en) | Apparatus and method for augmenting data in handwriting recognition system | |
JP2000311173A (en) | Device and method for retrieving similar document | |
JPH11232296A (en) | Document filing system and document filing method | |
JP2002063197A (en) | Retrieving device, recording medium and program | |
JP2586372B2 (en) | Information retrieval apparatus and information retrieval method | |
US7224836B2 (en) | Systems and methods for style conscious field classification | |
JP3602084B2 (en) | Database management device | |
JP2003331214A (en) | Character recognition error correction method, device and program | |
JP2002259912A (en) | Online character string recognition device and online character string recognition method | |
JP4261831B2 (en) | Character recognition processing method, character recognition processing device, character recognition program | |
JP2004272396A (en) | Character recognition device, character recognition method, character recognition program and recording medium | |
JP2000251017A (en) | Word dictionary preparing device and word recognizing device | |
AU669087C (en) | Combined dictionary based and likely character string method of handwriting recognition | |
JP2007257249A (en) | Character recognition method and apparatus, and storage medium storing the program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20050426 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20050428 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050606 |