JPH08180064A - Document retrieval method and document filing device - Google Patents
Document retrieval method and document filing deviceInfo
- Publication number
- JPH08180064A JPH08180064A JP6320954A JP32095494A JPH08180064A JP H08180064 A JPH08180064 A JP H08180064A JP 6320954 A JP6320954 A JP 6320954A JP 32095494 A JP32095494 A JP 32095494A JP H08180064 A JPH08180064 A JP H08180064A
- Authority
- JP
- Japan
- Prior art keywords
- character
- document
- data
- search
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 21
- 238000001914 filtration Methods 0.000 claims description 6
- 238000000926 separation method Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 239000000470 constituent Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000011436 cob Substances 0.000 description 1
- 239000013256 coordination polymer Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】[0001]
【産業上の利用分野】本発明は文書検索方法及び文書フ
ァイリング装置、特に、文書画像を入力して蓄積し、蓄
積された画像中の文字列に対して検索が可能な文書検索
方法及び文書ファイリング装置に関するものである。BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a document retrieval method and a document filing apparatus, and more particularly, to a document retrieval method and a document filing capable of inputting and accumulating a document image and retrieving a character string in the accumulated image. It relates to the device.
【0002】[0002]
【従来の技術】従来の文字列検索機能を持つ文書フアイ
リング装置は、印刷された文字をスキャナで取り込んで
画像データとして蓄積し、併せて画像データ内のテキス
ト領域を文字認識して、得られた文字コードをテキスト
データとして蓄積しておき、文字列の検索時に、検索文
字列(検索キーワード)と前記蓄積されたテキストデー
タとを照合し、画像中の文字列の検索を行っていた。2. Description of the Related Art A conventional document filtering apparatus having a character string search function is obtained by capturing printed characters with a scanner and accumulating them as image data, and recognizing a text area in the image data. A character code is stored as text data, and when a character string is searched, a search character string (search keyword) is collated with the stored text data to search for a character string in an image.
【0003】図9は一般的に検索を行う時の処理の流れ
について示すフローチャートである。以下、図9のフロ
ーチャートを用いて従来の検索処理について説明する。
ステップS901で、検索キーワードとしての文字列を
入力する。ステップS902では、今から検索する検索
データの順を指示する為に、カウンタiに最初のデータ
を示す“1”をセットする。ステップS903で、保存
されているi件目のデータのテキストデータ部と入力さ
れた検索キーワードとの照合を行う。この照合はいわゆ
る全文検索を行ない、テキストデータ部分に検索キーワ
ードがそのまま含まれているかどうかを調べる。ステッ
プS904では、検索キーワードが含まれているテキス
トデータであるか否かを判定する。FIG. 9 is a flowchart generally showing the flow of processing when a search is performed. The conventional search process will be described below with reference to the flowchart of FIG.
In step S901, a character string as a search keyword is input. In step S902, "1" indicating the first data is set to the counter i in order to instruct the order of the search data to be searched from now on. In step S903, the text data part of the stored i-th data is compared with the input search keyword. This matching performs a so-called full-text search to check whether or not the search keyword is included in the text data portion as it is. In step S904, it is determined whether the text data includes the search keyword.
【0004】検索キーワードが含まれている場合は、ス
テップS905へ進む。ステップS905では、発見さ
れたテキストデータを含む全画像データを伸長してディ
スプレイに表示し、次のステップS906へ進む。ここ
で、検索キーワードがテキストデータ部分に含まれてい
た場合を、「ヒットした」と呼ぶことにする。ステップ
S904でテキストデータ部に検索キーワードが含まれ
ていなかった場合は、ステップS906へ進む。ステッ
プS906では更にデータがあるか否かを判定する。も
うデータがなければ終了する。データがあればステップ
S907でカウンタiをひとつ増やして、ステップS9
03へ戻る。If the search keyword is included, the process proceeds to step S905. In step S905, all the image data including the found text data is decompressed and displayed on the display, and the process proceeds to the next step S906. Here, the case where the search keyword is included in the text data portion will be referred to as “hit”. If the search keyword is not included in the text data portion in step S904, the process proceeds to step S906. In step S906, it is determined whether there is more data. If there is no more data, it ends. If there is data, the counter i is incremented by one in step S907, and then step S9.
Return to 03.
【0005】以上のようにして、検索キーワードが文字
画像として含まれているデータの画像を探し出してディ
スプレイ上に表示することが可能である。As described above, it is possible to find an image of data containing the search keyword as a character image and display it on the display.
【0006】[0006]
【発明が解決しようとする課題】しかしながら、上記従
来例では検索キーワードをそのままテキストデータと照
合していた為、テキストデータ中に文字認識における誤
認識に起因する誤った文字が含まれていた場合、照合が
ヒットせずに正しいデータが検索されないという欠点が
あった。However, in the above conventional example, since the search keyword is collated with the text data as it is, when the text data contains an erroneous character due to an erroneous recognition in character recognition, There was a drawback that the collation did not hit and the correct data was not retrieved.
【0007】本発明は、前記従来の欠点を除去し、文書
画像データの登録時に文字認識が100%正しくなくと
も、高い精度で検索キーワードの含まれた画像データを
探し出すことができる文書検索方法及び文書ファイリン
グ装置を提供する。The present invention eliminates the above-mentioned conventional drawbacks and a document search method capable of finding image data containing a search keyword with high accuracy even if character recognition is not 100% correct at the time of registration of document image data. A document filing device is provided.
【0008】[0008]
【課題を解決するための手段】上述の課題を解決するた
めに、本発明の文書検索方法は、文字認識により注目文
字及び文字列に対して所定の閾値以上の割合で誤認識が
起こる文字及び文字列を、前記注目文字及び文字列に対
応して誤認識テーブルとして記憶し、入力された検索キ
ーワードを前記誤認識テーブルを用いて複数の検索キー
ワードに展開し、前記展開された複数のキーワードに基
づいて、文字認識して格納された文書データを検索する
ことを特徴とする。In order to solve the above-mentioned problems, the document search method of the present invention is characterized in that a character recognition causes a character and a character string to be erroneously recognized at a ratio of a predetermined threshold value or more with respect to a target character and a character string. A character string is stored as an erroneous recognition table corresponding to the target character and the character string, the input search keyword is expanded into a plurality of search keywords using the erroneous recognition table, and the expanded plurality of keywords are Based on this, character recognition is performed to retrieve stored document data.
【0009】ここで、前記文書データは、テキストデー
タと画像データとを含み、前記テキストデータを検索し
て、検索されたテキストデータを含む文書データを更に
出力する。また、前記誤認識テーブルには、前記注目文
字及び文字列に対応して所定数の文字及び文字列が間違
える確率の高い順に並べられている。また、前記展開さ
れる複数の検索キーワードは、所定数に制限される。Here, the document data includes text data and image data, the text data is searched, and the document data including the searched text data is further output. Further, in the erroneous recognition table, a predetermined number of characters and character strings corresponding to the target character and character string are arranged in descending order of probability of error. Further, the plurality of expanded search keywords are limited to a predetermined number.
【0010】又、本発明の文書フアイリング装置は、文
書画像のテキスト部分を文字認識してファイリングする
文書フアイリング装置において、文字認識により注目文
字及び文字列に対して所定の閾値以上の割合で誤認識が
起こる文字及び文字列を、前記注目文字及び文字列に対
応して記憶する記憶手段と、前記記憶手段に記憶された
誤認識の文字及び文字列に基づいて、入力された検索キ
ーワードを複数の検索キーワードに展開する展開手段
と、前記展開された複数のキーワードに基づいて、文字
認識して格納された文書データを検索する検索手段とを
備えることを特徴とする。Further, the document filtering device of the present invention is a document filtering device for character-recognizing and filing a text portion of a document image, and erroneously recognizing a target character and a character string by a character recognition at a ratio of a predetermined threshold value or more. A character and a character string in which the occurrence of the error occurs is stored in association with the target character and the character string, and a plurality of input search keywords are input based on the misrecognized character and the character string stored in the storage means. It is characterized in that it is provided with a expanding means for expanding into a search keyword and a searching means for recognizing the character data and searching the stored document data based on the expanded plurality of keywords.
【0011】ここで、前記文書データは、テキストデー
タと画像データとを含んで、前記検索手段は前記テキス
トデータを検索し、検索されたテキストデータを含む文
書データを出力する出力手段を更に備える。また、前記
記憶手段は、前記注目文字及び文字列に対応して所定数
の文字及び文字列が間違える確率の高い順に並べられて
いる誤認識テーブルである。また、前記展開手段により
展開される複数の検索キーワードは、所定数に制限され
る。Here, the document data includes text data and image data, and the search means further comprises output means for searching the text data and outputting the document data including the searched text data. Further, the storage means is an erroneous recognition table arranged in an order in which a predetermined number of characters and character strings corresponding to the target character and character string are in a high probability of being mistaken. Further, the plurality of search keywords expanded by the expanding means are limited to a predetermined number.
【0012】[0012]
【実施例】以下、本発明の実施例を添付図面を用いて詳
細に説明する。 <文書ファイリング装置の構成例>図1は実施例を説明
する為の文書ファイリング装置のシステム構成を表すブ
ロック図である。Embodiments of the present invention will be described below in detail with reference to the accompanying drawings. <Configuration Example of Document Filing Device> FIG. 1 is a block diagram showing the system configuration of a document filing device for explaining an embodiment.
【0013】図1において、101は画像原稿に光を照
射し、その反射光を読み取り電気信号に変換するスキャ
ナ、102はスキャナ101で得られた電気信号を2値
のデジタル電気信号に変換し、他の装置構成要素に伝送
する為のスキャナインターフェース回路、103はディ
スプレイのウィンドウ上で所望する座標を入力する為の
ポインティングデバイス(マウス等)、104はポイン
ティングデバイス103からの信号を受け、それを他の
装置構成要素に伝送する為のポインティングデバイスイ
ンターフェース(I/F)回路、105は装置全体の制
御及び文字切り出し処理や認識処理を実行する為のCP
U、106はCPU105が実行する制御プログラム
や、各種処理プログラムやフォントデータなどを格納し
ているROM、107は文字画像の展開や文字認識処理
の為の作業領域などとして用いられるRAMであり、本
実施例の誤認識テーブル107aを有している。また、
108は入力イメージや認識結果を表示するためのディ
スプレイ、109はディスプレイインターフェース回路
である。ディスプレイ108には、RAM107の所定
アドレスエリアに格納されているVRAM領域のイメー
ジを表示する。110は、登録されたデータが格納され
るハードディスク等の外部記憶装置で、111はそのイ
ンターフェースである。112は各装置構成要素を接続
するバスである。In FIG. 1, 101 is a scanner which irradiates an image original with light and reads the reflected light to convert it into an electric signal, and 102 converts the electric signal obtained by the scanner 101 into a binary digital electric signal, A scanner interface circuit for transmitting to other device components, 103 is a pointing device (mouse, etc.) for inputting desired coordinates on the window of the display, 104 is a signal from the pointing device 103, and receives it. A pointing device interface (I / F) circuit for transmitting to the device component of the device, 105 is a CP for controlling the entire device and executing character cutout processing and recognition processing.
U and 106 are ROMs that store control programs executed by the CPU 105, various processing programs and font data, and 107 is a RAM used as a work area for developing character images and character recognition processing. The error recognition table 107a of the embodiment is included. Also,
Reference numeral 108 is a display for displaying an input image and a recognition result, and 109 is a display interface circuit. The display 108 displays the image of the VRAM area stored in the predetermined address area of the RAM 107. Reference numeral 110 is an external storage device such as a hard disk in which registered data is stored, and 111 is its interface. Reference numeral 112 is a bus for connecting each device constituent element.
【0014】<誤認識テーブル>次に、本実施例の誤認
識テーブル107a(コンフュージョンマトリクスと呼
ぶ)について説明する。本発明でいう誤認識テーブルと
は、文字認識によって間違えやすい文字を予め登録して
おくテーブルのことである。図3に誤認識テーブル(コ
ンフュージョンマトリクス)の例を示す。誤認識テーブ
ル107aには、多数の学習データに対する認識実験の
結果、ある閾値以上の割合で誤認識が発生する文字を登
録しておく。<Error Recognition Table> Next, the error recognition table 107a (referred to as a confusion matrix) of this embodiment will be described. The erroneous recognition table in the present invention is a table in which characters that are easily mistaken by character recognition are registered in advance. FIG. 3 shows an example of the misrecognition table (confusion matrix). In the misrecognition table 107a, as a result of a recognition experiment for a large number of learning data, characters in which misrecognition occurs at a rate of a certain threshold value or more are registered.
【0015】図3を用いて、その構成について説明す
る。符号301から縦の列が注目文字であり、符号30
2から横に間違えやすい文字が、間違えるであろう確率
の高い方より降順に並べられている。間違えやすい文字
の個数は最大N個の一定値とし、N個まで間違えやすい
文字が存在しない場合は空欄とする。また、閾値以上の
場合で誤認識する文字が全くない場合は、符号303に
示すように、誤認識文字の欄が空欄となる。The configuration will be described with reference to FIG. The vertical line from the reference numeral 301 is the target character, and the reference numeral 30
Characters that are easily mistaken from 2 are arranged in descending order from the one with the highest probability of being mistaken. The number of characters that are easy to make a mistake is a fixed value of N at maximum, and if there are no N characters that are easy to make a mistake, leave blank. Further, when there is no character that is erroneously recognized when the value is equal to or larger than the threshold value, the erroneously recognized character column is blank as indicated by reference numeral 303.
【0016】以上説明した誤認識テーブル(コンフュー
ジョンマトリクス)をROM106又はRAM107又
は外部記憶装置110に用意しておく。上記例では、R
AM107にあるとした。 <文書ファイリング装置の動作例> (登録処理)図6は一般的な画像中の文字列の検索機能
を持つ文書フアイリング装置における、文書の登録時の
処理の流れを表すフローチャートである。以下、図6に
ついて説明する。The erroneous recognition table (confusion matrix) described above is prepared in the ROM 106 or the RAM 107 or the external storage device 110. In the above example, R
It is assumed to be in AM107. <Example of Operation of Document Filing Device> (Registration Process) FIG. 6 is a flowchart showing the flow of a process at the time of registering a document in a document filing device having a search function for a character string in an image. Hereinafter, FIG. 6 will be described.
【0017】ステップS601では、登録しようとする
文書をスキャナで読み込み2値の画像データに変換す
る。次のステップS602では、得られた入力画像に対
して領域分離を行ない、文字画像が存在するテキスト領
域だけを抽出する。テキスト領域だけを抽出すること
は、2値の画像データにおいて黒画素の連結成分を抽出
して文字と推定されるものだけを結合することにより可
能であり、これは既存の技術である。In step S601, a document to be registered is read by a scanner and converted into binary image data. In the next step S602, the obtained input image is subjected to area separation, and only the text area in which the character image exists is extracted. Extracting only the text region is possible by extracting the connected component of the black pixels in the binary image data and combining only those that are estimated to be characters, which is an existing technique.
【0018】次のステップS603では、テキスト領域
に対して文字認識処理を行ない、テキストデータを得
る。このテキストデータは、検索時に検索キーワードと
の照合に用いる為のものである。ステップS604で
は、画像データ全体を圧縮する。本実施例では2値画像
に最適な、例えばMMRを用いるものとする。ステップ
S605では、圧縮した画像データとテキストデータを
統合し、さらに日付や登録者名,データサイズ等を記述
したヘッダを付加して、外部記憶装置に保存する。In the next step S603, character recognition processing is performed on the text area to obtain text data. This text data is used for matching with a search keyword at the time of search. In step S604, the entire image data is compressed. In this embodiment, it is assumed that MMR, which is optimal for binary images, is used. In step S605, the compressed image data and text data are integrated, and a header describing the date, registrant name, data size, etc. is added and saved in the external storage device.
【0019】図7は領域分離の様子を模式的に表わした
ものである。入力画像701に対して領域分離を行な
い、テキスト領域702を得る。このテキスト領域70
2に対して文字認識を行い、テキストデータを得る。一
方、元の画像データを圧縮したものを前記テキストデー
タとペアにし、さらにヘッダを付加し、1件のデータ7
03として蓄積する。FIG. 7 schematically shows how the regions are separated. Area separation is performed on the input image 701 to obtain a text area 702. This text area 70
Character recognition is performed on 2 to obtain text data. On the other hand, the compressed original image data is paired with the text data, and a header is further added to add one data 7
Accumulate as 03.
【0020】図8は保存されたデータを表わしたもので
あり、1件目のデータが801に保存され2番目以降の
データは802から順に格納される。 (検索処理)図2は、誤認識テーブルを用いた場合の検
索を行う処理手順を示すフローチャートである。以下、
図2のフローチャートを用いて、誤認識テーブルを用い
た場合の検索について説明する。ステップS201で、
例として「カップ」という文字列が検索キーワードとし
て入力されたとする。FIG. 8 shows the stored data. The first data is stored in 801 and the second and subsequent data are stored in order from 802. (Search Processing) FIG. 2 is a flowchart showing a processing procedure for searching when an erroneous recognition table is used. Less than,
A search using the erroneous recognition table will be described with reference to the flowchart of FIG. In step S201,
For example, assume that the character string “cup” is entered as a search keyword.
【0021】次のステップS202では、検索キーワー
ドの構成文字をキーとして、順に誤認識テーブル107
a(コンフュージョンマトリクス)を検索し、「カッ
プ」にの「カ」(カタカナ)に対しては、「力」(漢
字)という類似文字が存在し、「ッ」に対しては類似文
字が存在せず、「プ」に対しては「ブ」という類似文字
が存在することがわかる。従って、入力された検索キー
ワード「カップ」から展開された検索キーワードとし
て、全ての類似文字を含んだ組み合わせである「カッ
プ」,「力ップ」,「カッブ」,「力ッブ」の4つの検
索キーワードが、図4に示すように生成される。In the next step S202, the erroneous recognition table 107 is sequentially used with the constituent characters of the search keyword as a key.
Search for a (confusion matrix), and in "cup" there is a similar character "power" (kanji) for "ka" (katakana) and similar character for "tsu" Without it, it can be seen that there is a similar character “B” for “P”. Therefore, as the search keyword expanded from the input search keyword “cup”, there are four combinations of “cup”, “power up”, “cobb”, and “power web” that are combinations including all similar characters. The search keyword is generated as shown in FIG.
【0022】ステップS203では、図9のステップS
902と同様に、検索データの順を表すカウンタiを、
最初のデータ(図8の例では、データ801)を表す
“1”にセットする。次のステップS204では、ステ
ップS202で展開された4つの検索キーワード(以
下、展開キーワードと呼ぶ)を用いて、テキストデータ
と照合する。照合の方法は全文検索であり、図9のステ
ップS903と同様に全文検索を行う。ステップS20
5では、展開キーワードが含まれているテキストデータ
であるか否かを判定する。In step S203, step S in FIG.
Similarly to 902, a counter i indicating the order of search data is
The first data (data 801 in the example of FIG. 8) is set to "1". In the next step S204, the four search keywords expanded in step S202 (hereinafter referred to as expanded keywords) are used to collate with the text data. The matching method is full-text search, and full-text search is performed as in step S903 in FIG. Step S20
At 5, it is determined whether the text data includes the expansion keyword.
【0023】展開キーワードが含まれている場合は、ス
テップS206へ進む。ステップS206では、発見さ
れたテキストデータを含む全画像データを伸長してディ
スプレイに表示し、次のステップS207へ進む。ここ
で、展開キーワードがテキストデータ部分に含まれてい
た場合を、「ヒットした」と呼ぶことにする。ステップ
S205でテキストデータ部に展開キーワードが含まれ
ていなかった場合は、ステップS207へ進む。ステッ
プS207では更にデータがあるか否かを判定する。も
うデータがなければ終了する。データがあればステップ
S208でカウンタiをひとつ増やして、ステップS2
04へ戻る。If the expansion keyword is included, the process proceeds to step S206. In step S206, all image data including the found text data is decompressed and displayed on the display, and the process proceeds to the next step S207. Here, the case where the expansion keyword is included in the text data portion will be referred to as “hit”. When the expansion keyword is not included in the text data part in step S205, the process proceeds to step S207. In step S207, it is determined whether there is more data. If there is no more data, it ends. If there is data, the counter i is incremented by 1 in step S208, and then step S2
Return to 04.
【0024】以上のようにして、展開キーワードが文字
画像として含まれているデータの画像を探し出してディ
スプレイ上に表示することが可能である。前述のよう
に、誤認識テーブル107a(コンフュージョンマトリ
クス)を用い、類似文字に展開した展開キーワードを用
いることにより、次のような利点が生ずる。即ち、例え
ば図5に示すように、入力するテキストデータの一部の
「カップ」というところを「力ップ」と誤って認識して
登録されていても、検索時に「カップ」という検索キー
ワードで検索すれば、検索キーワードが誤認識テーブル
により上記展開キーワードに展開され、目的とするテキ
ストを検索することができる。すなわち、認識入力した
テキストに誤りがあっても、目的テキストデータに対し
て正しくヒットし、検索することができる。As described above, it is possible to find the image of the data in which the expansion keyword is included as the character image and display it on the display. As described above, by using the misrecognition table 107a (confusion matrix) and using the expansion keyword expanded to the similar character, the following advantages occur. That is, as shown in FIG. 5, for example, even if a part of the input text data, "cup", is mistakenly recognized as "power" and registered, the search keyword "cup" is used when searching. When the search is performed, the search keyword is expanded into the expanded keyword by the misrecognition table, and the target text can be searched. That is, even if the recognized and input text has an error, the target text data can be correctly hit and searched.
【0025】尚、前述の実施例では、検索キーワードに
対して誤認識テーブルを用いて無条件に展開を行ない、
その結果の組み合わせとして考えられるすべての展開キ
ーワードを生成している。しかし、展開しうる文字が多
い場合は、可能な組み合わせが非常に増えてしまうの
で、K個以上の置き代えは行わないというルールの下
で、展開キーワードの生成を行っても良い。In the above-described embodiment, the search keyword is unconditionally expanded using the misrecognition table.
All the expansion keywords considered as a combination of the results are generated. However, if there are many characters that can be expanded, the number of possible combinations will greatly increase, so expansion keywords may be generated under the rule that K or more replacements are not performed.
【0026】実際、文字認識がそれほどしばしば間違う
わけではないので、検索キーワードと成りうるようなひ
とつの語の中では、間違いがK個以下と仮定してもよ
い。Kとしては、例えば検索キーワードの文字数をLと
して、次のように定める数としても良い。 K=L/4 又、本実施例では、各文字に対応した誤認識テーブルを
用意したが、複数文字あるいは文字列に対応した誤認識
テーブルを用意してもよい。In fact, since character recognition is not so often mistaken, it can be assumed that there are K or less mistakes in one word that can be a search keyword. As K, for example, the number of characters of the search keyword may be L, and may be a number determined as follows. K = L / 4 Further, in this embodiment, the misrecognition table corresponding to each character is prepared, but the misrecognition table corresponding to a plurality of characters or character strings may be prepared.
【0027】更に、本発明は、複数の機器から構成され
るシステムに適用しても、1つの機器から成る装置に適
用しても良い。また、本発明はシステム或は装置にプロ
グラムを供給することによって達成される場合にも適用
できることはいうまでもない。Furthermore, the present invention may be applied to a system composed of a plurality of devices or an apparatus composed of a single device. Further, it goes without saying that the present invention can be applied to the case where it is achieved by supplying a program to a system or an apparatus.
【0028】[0028]
【発明の効果】本発明によれば、文書画像データの登録
時に文字認識が100%正しくなくとも、検索キーワー
ドの文字列を誤認識テーブルに従って展開してから照合
する為に、より高い精度で検索キーワードの含まれた画
像データを探し出すことができるという効果がある。According to the present invention, even if the character recognition is not 100% correct when registering the document image data, the character string of the search keyword is expanded according to the erroneous recognition table and then collated, so that the search is performed with higher accuracy. There is an effect that image data including a keyword can be searched for.
【図1】本実施例の文書ファイリング装置を説明する為
のシステムの構成を表す図である。FIG. 1 is a diagram showing a configuration of a system for explaining a document filing device according to an embodiment.
【図2】本実施例の検索のフローチャートである。FIG. 2 is a flowchart of a search according to this embodiment.
【図3】本実施例における誤認識テーブルの例を示す図
である。FIG. 3 is a diagram showing an example of an erroneous recognition table in the present embodiment.
【図4】本実施例の検索時のキーワード展開の例を示す
図である。FIG. 4 is a diagram showing an example of keyword expansion at the time of search according to this embodiment.
【図5】本実施例のテキストデータの例を示す図であ
る。FIG. 5 is a diagram showing an example of text data of the present embodiment.
【図6】文字ファイリング装置における文書登録の時の
処理の流れを表すフローチャートである。FIG. 6 is a flowchart showing a flow of processing at the time of document registration in the character filing device.
【図7】登録における領域分割を模式的に表わした図で
ある。FIG. 7 is a diagram schematically showing area division in registration.
【図8】登録保存されるデータの構造を表わした図であ
る。FIG. 8 is a diagram showing a structure of data registered and stored.
【図9】従来の検索を行う時の処理の流れについて示す
フローチャートである。FIG. 9 is a flowchart showing a flow of processing when performing a conventional search.
101 スキャナ 102 スキャナインターフェース回路 103 ポインティングデバイス 104 ポインティングデバイスインターフェース回路 105 CPU 106 ROM 107 RAM 107a 誤認識テーブル 108 ディスプレイ 109 ディスプレイインターフェース回路 110 外部記憶装置 111 外部記憶装置インターフェース回路 101 Scanner 102 Scanner Interface Circuit 103 Pointing Device 104 Pointing Device Interface Circuit 105 CPU 106 ROM 107 RAM 107a False Recognition Table 108 Display 109 Display Interface Circuit 110 External Storage Device 111 External Storage Device Interface Circuit
Claims (8)
して所定の閾値以上の割合で誤認識が起こる文字及び文
字列を、前記注目文字及び文字列に対応して誤認識テー
ブルとして記憶し、 入力された検索キーワードを前記誤認識テーブルを用い
て複数の検索キーワードに展開し、 前記展開された複数のキーワードに基づいて、文字認識
して格納された文書データを検索することを特徴とする
文書検索方法。1. A character and a character string, which are erroneously recognized by the character recognition with respect to the target character and the character string at a ratio of a predetermined threshold value or more, are stored as an erroneous recognition table corresponding to the target character and the character string. A document characterized in that the input search keyword is expanded into a plurality of search keywords by using the misrecognition table, and the stored document data is searched by character recognition based on the expanded plurality of keywords. retrieval method.
像データとを含み、 前記テキストデータを検索して、検索されたテキストデ
ータを含む文書データを更に出力することを特徴とする
請求項1記載の文書検索方法。2. The document data includes text data and image data, the text data is searched, and the document data including the searched text data is further output. Document search method.
及び文字列に対応して所定数の文字及び文字列が間違え
る確率の高い順に並べられていることを特徴とする請求
項1記載の文書検索方法。3. The document according to claim 1, wherein in the erroneous recognition table, a predetermined number of characters and character strings corresponding to the target character and character string are arranged in descending order of probability of error. retrieval method.
は、所定数に制限されることを特徴とする請求項1また
は3記載の文書検索方法。4. The document search method according to claim 1, wherein the plurality of expanded search keywords are limited to a predetermined number.
ファイリングする文書フアイリング装置において、 文字認識により注目文字及び文字列に対して所定の閾値
以上の割合で誤認識が起こる文字及び文字列を、前記注
目文字及び文字列に対応して記憶する記憶手段と、 前記記憶手段に記憶された誤認識の文字及び文字列に基
づいて、入力された検索キーワードを複数の検索キーワ
ードに展開する展開手段と、 前記展開された複数のキーワードに基づいて、文字認識
して格納された文書データを検索する検索手段とを備え
ることを特徴とする文書フアイリング装置。5. A document filing apparatus for character-recognizing and filing a text portion of a document image, wherein a character and a character string, which are erroneously recognized by the character recognition with respect to a target character and a character string, at a ratio of a predetermined threshold value or more, Storage means for storing the noted character and character string, and expanding means for expanding the input search keyword into a plurality of search keywords based on the misrecognized character and character string stored in the storage means. A document filtering device, comprising: a search unit that performs character recognition based on the expanded plurality of keywords and searches the stored document data.
像データとを含んで、前記検索手段は前記テキストデー
タを検索し、 検索されたテキストデータを含む文書データを出力する
出力手段を更に備えることを特徴とする請求項5記載の
文書フアイリング装置。6. The document data includes text data and image data, and the search means further comprises output means for searching the text data and outputting document data containing the searched text data. The document filtering device according to claim 5, wherein
列に対応して所定数の文字及び文字列が間違える確率の
高い順に並べられている誤認識テーブルであることを特
徴とする請求項5記載の文書フアイリング装置。7. The erroneous recognition table, wherein the storage means is arranged in an order in which a predetermined number of characters and character strings corresponding to the target character and character string are arranged in descending order of probability of error. Document document described device.
索キーワードは、所定数に制限されることを特徴とする
請求項5または7記載の文書フアイリング装置。8. The document filtering apparatus according to claim 5, wherein the plurality of search keywords expanded by the expanding means are limited to a predetermined number.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6320954A JPH08180064A (en) | 1994-12-22 | 1994-12-22 | Document retrieval method and document filing device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP6320954A JPH08180064A (en) | 1994-12-22 | 1994-12-22 | Document retrieval method and document filing device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH08180064A true JPH08180064A (en) | 1996-07-12 |
Family
ID=18127152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP6320954A Withdrawn JPH08180064A (en) | 1994-12-22 | 1994-12-22 | Document retrieval method and document filing device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH08180064A (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002063197A (en) * | 2000-06-06 | 2002-02-28 | Matsushita Electric Ind Co Ltd | Retrieving device, recording medium and program |
US6944344B2 (en) | 2000-06-06 | 2005-09-13 | Matsushita Electric Industrial Co., Ltd. | Document search and retrieval apparatus, recording medium and program |
JP2008102641A (en) * | 2006-10-18 | 2008-05-01 | Ns Solutions Corp | SEARCH DEVICE, SEARCH METHOD, AND PROGRAM |
JP2020154776A (en) * | 2019-03-20 | 2020-09-24 | 株式会社Screenホールディングス | False recognition character table, false recognition character table creation method, character string searching device, character string searching method and character string searching program |
-
1994
- 1994-12-22 JP JP6320954A patent/JPH08180064A/en not_active Withdrawn
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002063197A (en) * | 2000-06-06 | 2002-02-28 | Matsushita Electric Ind Co Ltd | Retrieving device, recording medium and program |
US6944344B2 (en) | 2000-06-06 | 2005-09-13 | Matsushita Electric Industrial Co., Ltd. | Document search and retrieval apparatus, recording medium and program |
JP2008102641A (en) * | 2006-10-18 | 2008-05-01 | Ns Solutions Corp | SEARCH DEVICE, SEARCH METHOD, AND PROGRAM |
JP2020154776A (en) * | 2019-03-20 | 2020-09-24 | 株式会社Screenホールディングス | False recognition character table, false recognition character table creation method, character string searching device, character string searching method and character string searching program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101220709B1 (en) | Search apparatus and method for document mixing hangeul and chinese characters using electronic dictionary | |
JPH10207988A (en) | Method and device for character recognition | |
US7162086B2 (en) | Character recognition apparatus and method | |
US9658989B2 (en) | Apparatus and method for extracting and manipulating the reading order of text to prepare a display document for analysis | |
JPH087033A (en) | Method and device for processing information | |
CN112382295B (en) | Speech recognition method, device, equipment and readable storage medium | |
JP3589007B2 (en) | Document filing system and document filing method | |
JPH08180064A (en) | Document retrieval method and document filing device | |
JPH1011434A (en) | Information recognition device | |
JP4266240B1 (en) | Item judgment system and item judgment program | |
JP2008225676A (en) | Dictionary search device and control program thereof | |
JPH08272811A (en) | Document management method and device therefor | |
JP2007323317A (en) | Conversion device, conversion method, and program | |
JPH08272813A (en) | Filing device | |
JP2000305935A (en) | Document filing device | |
JP3241854B2 (en) | Automatic word spelling correction device | |
JP2827066B2 (en) | Post-processing method for character recognition of documents with mixed digit strings | |
KR20070076126A (en) | Electronic Dictionary | |
JPH0528323A (en) | Character recognition device | |
JP2917310B2 (en) | Word dictionary search method for word matching | |
JPH06111079A (en) | Word reader | |
CN112417305A (en) | Website sensitive word detection system and method | |
JPH04302070A (en) | Character recognizing device | |
JPH02299086A (en) | Character recognizing device | |
JPH0696285A (en) | Character recognizing device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 20020305 |