JP4718699B2 - Character recognition device, character recognition method, program, and computer-readable recording medium - Google Patents
Character recognition device, character recognition method, program, and computer-readable recording medium Download PDFInfo
- Publication number
- JP4718699B2 JP4718699B2 JP2001075106A JP2001075106A JP4718699B2 JP 4718699 B2 JP4718699 B2 JP 4718699B2 JP 2001075106 A JP2001075106 A JP 2001075106A JP 2001075106 A JP2001075106 A JP 2001075106A JP 4718699 B2 JP4718699 B2 JP 4718699B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- word
- character recognition
- recognition
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Discrimination (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、文字認識装置、文字認識方法、プログラム、およびコンピュータ読み取り可能な記録媒体に関し、特に、文字認識処理結果後の認識結果の後処理に関する。
【0002】
【従来の技術】
スキャナ等から計算機に取り込んだ文書画像データ中の文字画像を識別し、文字コードとして出力する光学的文字読取(OCR)ソフトウェアは、近年非常に広範囲に用いられている。これは、文字コードとして電子データ化した情報は紙ベースのものや画像データと比較して、再利用が容易であって、保管や交換も効率的に行えるというメリットを持つためである。
しかしながら、文字認識においては、文字画像からの1文字単位の認識では誤認識を完全に排除することはきわめて困難である。このため後処理として、文字認識された結果の文字列に対して、言語的制約を与えて候補の選択を行ったり、単語照合や形態素解析等により自動的に修正することが行われることが多い。
この方法は多くの誤りを除去できるが、適用の仕方によっては誤訂正のために新たな誤りを作り出す場合もある。
また、この修正によって100%修正されるわけではないため、他の文字切り出し方法による認識結果と比較して、確信度の高い認識結果を採用したり(例えば、特開平9−274645号公報参照)、各文字に確信度を付与してユーザへ通知して、ユーザに修正を任せたりしている。
例えば、文字認識の後処理方法として、特開平5−40853号公報の技術は、文字認識結果の各単語に対して候補単語の作成と確信度の算出を行い、その確信度が大きな単語との文法的関係を用いて確信度の小さな単語の認識結果を修正するものである。
確信度の計算としては、例えば、特開平9−134410号公報の技術のように、確信度計算に先立つ言語処理や単語の表記長、品詞、出現頻度、前接する語との接続の強度等のパラメータを合成して算出している。
【0003】
【発明が解決しようとする課題】
しかしながら、文字認識の後処理として単語辞書、文法知識を用いて言語処理を行っても、もともと文法的誤りや、認識不能の領域、文法的に特殊な領域等では、結果を改善することは期待できない。
結局、ユーザに文字認識結果を提示し、これを修正することに落ち着くことになる。
ユーザに提示された認識結果の修正を手助けする技術としては、例えば、特開平5−46803号公報では、認識結果の確からしさが低い認識結果に網掛けし、文字種に応じてさらに区別が可能な識別子を同時に表示することによって、ユーザがカタカナの「リ」と平仮名の「り」のように類似する文字に対する認識結果を修正し易くしている。
また、誤認識結果の修正を容易に行うために、特開平6−176189号公報では、認識結果が怪しいと判断された文字と前後1文字ずつの合計3文字の候補を表示したり、特公平7−113951号公報や特許第2915417号公報では、認識結果と原画像を同時に表示したりしている。
しかしながら、上記従来の技術では、主に視覚情報に頼った表示方法であるため、どの文字が不確かな認識結果であるかを視覚障害者等には判断できなかった。
本発明は、上記の問題点を解決するために、認識結果を視覚情報、聴覚情報や触覚情報等を用いて認識結果を修正し、後処理の効率を向上させる文字認識装置、その方法および記録媒体を提供することを目的とする。
特に、視覚障害者であっても、文字認識後の後処理の作業効率が向上する文字認識装置、その方法および記録媒体を提供することを目的とする。
【0004】
【課題を解決するための手段】
この発明は上記の目的を達成するため、文書画像を入力する画像入力部と、前記画像入力部で入力された画像の文字領域に対して文字認識する文字認識部と、前記文字認識部から得た各文字に対する文字認識結果の確信度を算出する確信度算出部と、上記文字認識部により認識された文字から単語を取り出す単語抽出部と、上記確信度算出部で計算された各文字に対する認識結果から所定の確信度を得られない文字に対し、その文字の前後に2字以上の単語となっていない隣接した単字があった場合に、上記所定の確信度を得られない文字とその文字に隣接した単字とを1つの文字列として連結して抽出する低確信度抽出部と、上記文字認識部による認識結果について、上記低確信度抽出部によって抽出された上記文字列を他の単語と区別して出力する結果出力部を備えた文字認識装置を提供する。
また、上記のような文字認識装置において、上記単語抽出部は、所定の記憶部が保持する単語辞書を用いて、上記文字認識部により認識された文字を含む単語を検索し、その検索された単語および上記検索された単語の品詞情報を取り出し、上記品詞情報に基づいて上記検索された単語の評価値を計算し、上記検索された単語の中から最も評価値の高い単語を抽出するようにするとよい。
さらに、上記のような文字認識装置において、前記結果出力部は、上記所定の確信度が得られない文字を含む単語が修正されたとき、上記所定の確信度が得られない文字を含む単語を修正後の単語によって置き換え、次の上記所定の確信度が得られない文字を含む単語の修正へ移るようにするとよい。
【0005】
また、文字認識装置で実行される文字認識方法であって、文書画像を入力する画像入力工程と、上記画像入力工程で入力された画像の文字領域に対して文字認識する文字認識工程と、上記文字認識工程から得た各文字に対する文字認識結果の確信度を算出する確信度算出工程と、上記文字認識工程により認識された文字から単語を取り出す単語抽出工程と、上記確信度算出工程で計算された各文字に対する認識結果から所定の確信度を得られない文字に対し、その文字の前後に2字以上の単語となっていない隣接した単字があった場合に、上記所定の確信度を得られない文字とその文字に隣接した単字とを1つの文字列として連結して抽出する低確信度抽出工程と、上記文字認識工程による認識結果について、上記低確信度抽出工程によって抽出された上記文字列を他の単語と区別して出力する結果出力工程とからなる文字認識方法を提供する。
さらに、上記のような文字認識方法において、上記単語抽出工程は、所定の記憶部が保持する単語辞書を用いて、上記文字認識工程により認識された文字を含む単語を検索し、その検索された単語および上記検索された単語の品詞情報を取り出し、上記品詞情報に基づいて上記検索された単語の評価値を計算し、上記検索された単語の中から最も評価値の高い単語を抽出する工程を含むようにするとよい。
また、コンピュータに、上記のような文字認識方法の各工程を実行させるためのプログラムも提供する。
さらに、上記のようなプログラムを記録したコンピュータ読み取り可能な記録媒体も提供する。
【0006】
【発明の実施の形態】
以下に、図面を用いて本発明の実施の形態の構成および動作を詳細に述べる。
<実施例>
(1) 実施例の構成
図1は、本発明の実施例の文字認識装置の構成を示すブロック図である。
本発明の実施例の文字認識装置100は、制御部10、画像入力部20、文字認識部30、確信度算出部40、結果出力部50、原画像記憶部25、認識辞書35、認識結果記憶部45、言語辞書55から構成されている。
さらに、結果出力部50は低確信度抽出部60を含んでいる。
制御部10は、スキャナやファイルからの画像を読取り、画像情報から文字認識し、最終結果である認識結果を出力するまでの全体を制御する。
画像入力部20は、スキャナやファイルからの画像を読取り、その画像データを原画像記憶部25へ格納する。
文字認識部30は、原画像記憶部25に記憶された画像情報から文字画像領域を判別し、その文字領域から行を切り出し、切り出された行から文字を切り出し、その文字部分を囲む矩形の対角座標値を抽出し、その文字部分の大きさの正規化やノイズ(汚れ等)除去し、特徴量を計算し、その特徴量と標準パターンを保持する認識辞書35とでパターンマッチングを行い、1文字あたり単数または複数の認識候補文字とその順位、およびそれらに対応する標準パターンとの距離値を認識結果記憶部45へ記憶する。
認識辞書35は、文字ごとに文字コード、その文字の標準パターンの特徴量等の情報を保持する。
【0007】
次に、文字認識部30は、各文字位置を開始点とする単語候補を生成して言語辞書55の単語辞書を検索し、マッチした単語とその品詞情報を取り出し、処理対象領域の先頭から候補単語を接続して単語パスを生成すると同時に言語辞書55の品詞間接続コストテーブルを用いてその単語パスのコストを計算する。この生成された単語パスが一定数以下になるように、その単語パスのコストの高い順に選択し、もっともコストの小さい単語パスに基づいて認識候補文字を修正し、認識結果記憶部45を更新する。
言語辞書55は、単語の表記、よみ、品詞等の情報を保持する単語辞書と、連接する単語の品詞が接続可能かどうかを示す重みを保持する品詞間接続コストテーブルとからなっている。例えば、日本語の場合は、単語の表記に、漢字のみの単語の他に、「漢字+かな」、「漢字+英字」等も登録できる。
確信度算出部40は、確信度を算出するためのパラメータに、以下のような条件に適合する数値(重み)を割り当て、これらのパラメータの一次結合や平均値として確信度を算出する(例えば、特開平9−134410号公報)。
(A)その文字が画像中の同一文字に対する認識結果の中で高い順位にあるほど確信度は高い。
(B)その文字の文字認識における類似度が高いほど、確信度は高い。
(C)その文字が属すると判定された単語の表記長が長いほど確信度は大きい。
(D)その文字またはその文字のカテゴリーと前後の文字のそれとの間の連接可能性が大きいほど、確信度は高い。
(E)その単語と前後の単語との接続可能性が大きいほど確信度は大きい。
この規則は、予め多くの文書の統計的性質やヒューリスティックなルールとして、例えば、ルールテーブルや品詞間接続コストテーブル等に保持しておく。
結果出力部50は、後処理を行わせるために認識結果記憶部45に格納されている認識結果とそれに対応する原画像データと対応させて出力する。
この出力された結果をユーザは、参照することによって認識結果に誤りがあれば修正して、最終結果をディスプレイ、プリンタやファイル等の出力装置に出力したり、ネットワークを介して他のコンピュータへ送信したりする。
【0008】
この後処理において、従来の方法では、誤認識した文字のみを修正することを念頭においているために、正解文字を入力する際に、1文字の「単字」を入力している。
しかし、ユーザは、漢字の場合、同音の単漢字が多いのでなかなか正解文字を選択することができないが、単語単位で考えると、同音の単語は単漢字に比べるとその数は少なく、誤認識した文字のみを修正するのではなく、その前後の正解している文字も含め、単語単位で修正を行ったほうが効率が良い場合が多い。
一方、確信度算出部40で算出した認識結果の確信度が低い文字を含んでいる単語があるということは、言語辞書55とのマッチングがとれなかった場合が多い。
このような場合には、低確信度抽出部60は、まず、単語パス中に確信度の低い認識結果の文字を探し、この検出された認識文字の前後に2字以上の単語として登録されていない隣接した単字を単語パスの中に探し、それらを1つの文字列として連結し、その文字列を1つの単語(以下、本発明では、この文字列も単語と呼ぶ。)として抽出する。
例えば、図2を参照すると、「周辺イメージ表示処理」という画像データを文字認識した結果、「周辺イメージ麦示処理」という文字列が得られ、単語パスは「周辺」、「イメージ」、「麦」、「示」、「処理」が得られている場合を考える。また、それぞれの文字に対する確信度は、「90」、「89」、「80」、「75」、「70」、「80」、「50」、「80」、「99」、「92」と算出されたとする。
低い確信度「50」の「麦」が検出されるので、「麦」から前後に探索をすると、前方向には「イメージ」という単語があり、後ろ方向には、単字の「示」と単語の「処理」があるので、確からしさの低い単語として「麦示」が抽出される。
【0009】
次に、結果出力部50は、認識された結果の後処理を行うときに、低確信度抽出部60で上記のように抽出した確信度が低い単語と、確信度の高い単語とを区別して表示する。
例えば、表示の方法として、色を変えたり、フォントの大きさを変えたり、下線を引いたり、ウインクさせたりして視覚的に区別できるようにする。
この後処理では、1つの単語を修正すると、この修正された単語によって認識結果記憶部45を更新した後、次の確信度の低い単語に移るようにする。
これにより、ユーザはキーボードから手を離すことなく、単語単位で効率的に誤認識の修正ができる。
このように実施例を構成することにより、従来のように文字単位で修正せずに、単語単位で確信度の低い単語を表示させて、単語単位で修正するので、ユーザの入力の手間も減り、正しい単語へ修正しやすくなり、編集作業の効率も向上する。
【0010】
(2) 処理手順
図3は、本実施例の処理手順を示すフローチャートである。
スキャナやファイルからの画像を読取り、その画像データを原画像記憶部25へ格納する(ステップS100)。これにより画像入力部20を構成する。
原画像記憶部25に記憶された画像情報から文字画像領域を判別し、その文字領域から行を切り出す(ステップS110)。
切り出された行から文字を切り出し、その文字部分を囲む矩形の対角座標値を抽出し、その文字部分の大きさの正規化やノイズ(汚れ等)除去し、特徴量を計算する(ステップS120)。
この特徴量と標準パターンを保持する認識辞書35とからパターンマッチングを行い、1文字あたり単数または複数の認識候補文字とその順位、およびそれらに対応する標準パターンとの距離値を認識結果記憶部45へ記憶する(ステップS130)。
認識結果記憶部45に登録した認識候補を基に、各文字位置を開始点とする単語候補を生成して言語辞書55の単語辞書を検索し、マッチした単語とその品詞情報を取り出し、処理対象領域の先頭から候補単語を接続して単語パスを生成すると同時に言語辞書55の品詞間接続コストテーブルを用いてその単語パスのコストを計算する。この生成された単語パスが一定数以下になるように、その単語パスのコストの高い順に選択し、もっともコストの小さい単語パスに基づいて認識候補文字を修正し、認識結果記憶部45を更新する(ステップS140)。
ステップS110からステップ140で文字認識部30を構成する。
確信度を算出するためのパラメータに対して、例えば、ルールテーブルや品詞間接続コストテーブル等に保持してある重みを取り出して、その一次結合や平均値として確信度を算出する(ステップS150)。
これにより確信度算出部40を構成する。
ステップS140で生成された単語パス中に確信度の低い認識結果の文字を探し、この検出された認識文字の前後に2字以上の単語として登録されていない隣接した単字を単語パスの中に探し、それらを1つの文字列として連結し、その文字列を1つの単語として抽出する(ステップS160)。
これにより低確信度抽出部60を構成する。
認識結果の後処理を行わせるために認識結果記憶部45に格納されている認識結果とそれに対応する原画像データと対応させ、ステップS160で抽出した確信度が低い単語と、確信度の高い単語とを色を変えたり、フォントの大きさを変えたり、下線を引いたり、ウインクさせることによって、視覚的に区別して出力する。
この出力された結果をユーザは、参照することによって認識結果に誤りがあれば修正する(ステップS170)。
この後処理のとき、1つの単語を修正すると、この修正された単語によって認識結果記憶部45を更新した後、次の確信度の低い単語に移るようにする。
すべての認識結果の後処理が終了した後、認識結果記憶部45に記憶された最終結果をディスプレイ、プリンタやファイル等の出力装置に出力したり、ネットワークを介して他のコンピュータへ送信したりする(ステップS180)。
ステップS160からステップS180により結果出力部50を構成する。
【0011】
<変形例1>
一方、視覚障害者の場合、認識結果を読み上げることによって、情報を得ていることが多い。しかし、上記実施例の方法では、確からしさによって、視覚的に判断することは可能であるが、視覚障害者には利用できるものではない。
そこで、本変形例1では、結果出力部50の後処理のときに、低い確信度の単語を抽出し、この単語を視覚的に表示する代わりに、読み上げる音声情報を確信度によって、音質を変えたり、音の大きさを変えたりすることにより区別できるようにする。この低確信度の単語を読むときには、単語としての意味をなしていないので、単語としてではなく1文字ごとに複数候補を読み上げるようにする。
例えば、ステレオ方式で音声を出力するときには、確信度が高いときは、右と左信号を同時に出力するが、低確信度のときは、右のみまたは左のみの信号に出力するなど、音声の出力先を変更するようにしても構わない。
また、認識結果を読み上げる前後に、区別するための信号音やメッセージを入れてもよい。
また、視覚障害者には、画像を見ることができないので、完全に正しい文字に修正することは不可能かもしれないが、前後の流れ等から、推測し修正することや、想像することは可能であろう。
従って、後処理で、確信度の低い単語を修正した後、次の低確信度の単語を直接読み上げるのではなく、その単語の近辺も合わせて読むようにすることによって、視覚障害者が何を修正すべきかをわかるようにする。
【0012】
または、聴覚障害者の場合には、次の低確信度の単語へジャンプするのではなく、順番にすべて読んでいくようにしてもよい。
健常者では、このような読み方をせず、次の低確信度の単語へジャンプする方が作業効率が上がるので、健常者と視覚障害者の場合とで、ジャンプするかどうかを指定して、使い分けるようにしてもよい。
本変形例1のように構成することにより、視覚障害者でも単語単位で確信度の低い単語を読み上げるので、ユーザが正しい単語へ修正しやすくなり、編集作業の効率も向上する。
また、この後処理で認識結果を出力するときには、視覚的と聴覚的を合わせて出力するようにしておけば、視覚障害者とその介助者とが共同して作業できるので、より編集作業の効率が向上する。
また、視覚的にチェックしたとき、似た形の文字では修正漏れを起こすことがあるので、視覚的と聴覚的を合わせて出力するようにしておけば、似た形の文字を音声で読み上げることによって、健常者であっても誤りを発見しやすくなり、より編集作業の効率が向上する。
【0013】
<変形例2>
また、視覚障害者の場合は、認識結果を点字によって情報を得ていることが多い。
しかし、上記実施例の方法では、確からしさによって、視覚的に判断することは可能であるが、視覚障害者には利用できるものではない。
そこで、本変形例2では、結果出力部50の後処理のときに、低い確信度の単語を抽出し、この単語を視覚的に表示する代わりに、点字出力装置によって触覚的に判断可能な方式、例えば、点字の凹凸の高さを変更したり、低確信度の文字や単語の前後に区別するための、マークなどを入れるようにする。
また、低確信度の単語を後処理で修正するとき、この低確信度の単語へのジャンプは、低確信度の単語を含む行またはその周辺を点字のカーソル行(点字のピンが出る)で示すようにする。
本変形例2のように構成することにより、視覚障害者でも単語単位で確信度の低い単語を点字として出力するので、ユーザが正しい単語へ修正しやすくなり、編集作業の効率も向上する。
また、この後処理で認識結果を出力するときには、触覚的と聴覚的とを合わせて出力するようにしておけば、視覚障害者が聴覚的に聞き漏らしたときも、触覚的に確かめられるので、より編集作業の効率が向上する。
尚、本実施の形態では、文字認識部30で認識された候補の中から言語辞書55によって、単語パスを作成し、この単語パスの中から確信度の低い文字を含む文字列(単語)を抽出しているが、結果出力部50の認識結果の後処理において、認識結果に対して言語辞書55に単語として登録されていない未知語を探すように構成しても、同一の効果をもたらすことができる。
【0014】
<コンピュータによる実施例>
さらに、本発明は上記の実施の形態のみに限定されたものではない。例えば、図1に示した文字認識装置100は、図4のようなハードウェア構成を持つコンピュータ装置200によっても実現が可能である。
即ち、コンピュータ装置200は、キーボード、マウス、タッチパネル、スキャナ、点字入力装置等により構成され、情報の入力に使用される入力装置1と、種々の出力情報や入力装置1からの入力された情報などを表示したり、プリンタや点字出力装置等へ出力させる出力装置2と、種々のプログラムを動作させるCPU(Central Processing Unit;中央処理ユニット)3と、プログラム自身を保持し、またそのプログラムがCPU3によって実行されるときに一時的に作成される情報等を保持するメモリ4と、本発明の文字認識装置の原画像記憶部25、認識辞書35、認識結果記憶部45、言語辞書55およびプログラムやプログラム実行時の一時的な情報等を保持する記憶装置5と、プログラムやデータ等を記憶した記録媒体を装着してそれらを読み込み、メモリ4または記憶装置5へ格納するのに用いられる媒体駆動装置6と、ネットワーク9へ接続するためのインタフェースであるネットワーク接続装置7とから構成され、それらはバス8で接続されている。
また、ネットワーク9は、コンピュータ装置200と他のコンピュータ装置200とを結合するための伝送路であって、一般には、ケーブルで実現され、通信プロトコルにはTCP/IPが使われる。但し、伝送路としてはケーブルだけではなく、それらの間の通信プロトコルが一致するものであれば無線、有線または放送波のいずれでもよく、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、アナログ電話網、デジタル電話網(ISDN:Integral Service Digital Network)、PHS(パーソナルハンディホンシステム)、携帯電話網、衛星通信網などを用いることができる。
【0015】
このようなコンピュータ装置200の構成において、図1に示した文字認識装置を構成する各機能をそれぞれプログラム化し、予めCD−ROM等の記録媒体に書き込んでおき、このCD−ROMを各サイトのCD−ROMドライブのような媒体駆動装置6を搭載したコンピュータ装置200に装着して、これらのプログラムをそれぞれのコンピュータ装置200のメモリ4あるいは記憶装置5に格納し、それを実行することによって、上記の実施の形態と同様な機能を実現することができる。
尚、記録媒体としては半導体媒体(例えば、ROM、ICメモリカード等)、光媒体(例えば、DVD、MO、MD、CD−R等)、磁気媒体(例えば、磁気テープ、フレキシブルディスク等)等のいずれであってもよい。
また、コンピュータ装置200のメモリ4へロードしたプログラムを実行することにより上記した実施の形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、オペレーティングシステム等が実際の処理の一部または全部を行い、その処理によって上記した実施の形態の機能が実現される場合も含まれる。
また、上記した実施の形態を実現するプログラムがROM等のような半導体の記録媒体である場合には、媒体駆動装置6からではなく、直接、メモリ4へロードして実行される。
【0016】
<本発明のネットワーク環境での運用>
図5は、本発明を有線または無線の通信ネットワークに接続して運用する形態の構成を示している。
例えば、文字認識プログラムを保持するサーバー210と複数のユーザが利用する端末220とをネットワーク9で接続する。
この場合、サーバー210およびユーザの端末220は、図4に示した汎用のコンピュータ装置200で構成される。
ユーザは、端末220からサーバー210に対してログインしたり、文字認識のための画像データを入力し、サーバー210の文字認識プログラムへ文字認識の実行を依頼する。
サーバー210の文字認識プログラムは、送信された画像データの文字領域に対する文字認識結果を要求元の端末220へ戻す。
ユーザの端末220は、この認識結果やもとの画像データとを対比させながら出力したり、後処理を行ったりする。
このようにすることで、常に最新の文字認識プログラムを使えるという利点がある。
また、図5のようにサーバー210と端末220とを有線または無線の通信ネットワークで接続した場合、サーバー210の磁気ディスク等の記憶装置に本発明の機能を実現する文字認識プログラムを格納しておき、端末220に対してダウンロード等の形式で頒布することも可能である。
さらに、本発明の機能を実現する文字認識プログラムを媒体や放送波による配布で提供するようにしてもよい。
【0017】
【発明の効果】
以上説明したように、本発明によれば、視覚・聴覚などの障害の有無によらず、認識結果の確からしさを確認することが可能となる。
また、単語単位で確からしくない単語を抽出するので、その単語の修正が容易となり、後処理の作業効率が向上する。
【図面の簡単な説明】
【図1】実施例の機能構成を示すブロック図である。
【図2】従来例と本発明の文字認識結果を説明する図である。
【図3】実施例の処理手順を説明するフローチャートである。
【図4】本発明の文字認識装置が稼動するためのコンピュータ装置を示す図である。
【図5】本発明のネットワーク環境での運用例を説明するための図である。
【符号の説明】
1 入力装置、2 出力装置、3 CPU、4 メモリ、5 記憶装置、6 媒体駆動装置、7 ネットワーク接続装置、8 バス、9 ネットワーク、10 制御部、20 画像入力部、25 原画像記憶部、30 文字認識部、35 認識辞書、40 確信度算出部、45 認識結果記憶部、50 結果出力部、55言語辞書、60 低確信度抽出部、100 文字認識装置、200 コンピュータ装置、210 サーバー、220 端末[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a character recognition device,Character recognitionMethod,program,andComputer readableThe present invention relates to a recording medium, and more particularly to post-processing of recognition results after character recognition processing results.
[0002]
[Prior art]
In recent years, optical character reading (OCR) software for identifying a character image in document image data taken into a computer from a scanner or the like and outputting it as a character code has been very widely used. This is because information converted into electronic data as a character code is easier to reuse and can be stored and exchanged more efficiently than paper-based information or image data.
However, in character recognition, it is extremely difficult to completely eliminate misrecognition by recognizing one character unit from a character image. For this reason, as a post-processing, a character string obtained as a result of character recognition is often subjected to linguistic restrictions to select a candidate or automatically corrected by word matching, morphological analysis, or the like. .
This method can eliminate many errors, but depending on the application method, a new error may be created for error correction.
In addition, since the correction is not 100% correction, a recognition result having a high certainty factor is adopted as compared with a recognition result obtained by another character segmentation method (for example, see Japanese Patent Laid-Open No. 9-274645). , A certainty factor is given to each character, the user is notified, and the correction is left to the user.
For example, as a post-processing method for character recognition, the technique of Japanese Patent Laid-Open No. Hei 5-40853 creates candidate words for each word of the character recognition result and calculates a certainty factor. This corrects the recognition result of words with low confidence using grammatical relations.
As the calculation of the certainty factor, for example, as in the technique of JP-A-9-134410, language processing prior to the certainty factor calculation, the notation length of the word, the part of speech, the appearance frequency, the strength of the connection with the preceding word, etc. It is calculated by combining parameters.
[0003]
[Problems to be solved by the invention]
However, even if language processing is performed using word dictionary and grammatical knowledge as post-processing of character recognition, it is expected to improve the results in grammatical errors, unrecognizable areas, grammatical special areas, etc. Can not.
Eventually, the user is presented with a character recognition result and settled on correcting it.
As a technique for helping to correct the recognition result presented to the user, for example, in Japanese Patent Laid-Open No. 5-46803, the recognition result with low probability of the recognition result is shaded, and can be further distinguished according to the character type. By displaying the identifiers at the same time, it is easy for the user to correct the recognition result for similar characters such as “ri” in katakana and “ri” in hiragana.
In order to easily correct erroneous recognition results, Japanese Patent Application Laid-Open No. 6-176189 displays a total of three candidate characters, one character before and after the character judged to be suspicious. In Japanese Patent Laid-Open No. 7-113951 and Japanese Patent No. 2915417, the recognition result and the original image are displayed simultaneously.
However, since the above conventional technique is a display method mainly relying on visual information, a visually impaired person or the like cannot determine which character is an uncertain recognition result.
In order to solve the above-described problems, the present invention corrects a recognition result using visual information, auditory information, tactile information, or the like to improve the efficiency of post-processing, a method thereof, and a recording The purpose is to provide a medium.
In particular, it is an object of the present invention to provide a character recognition device, a method thereof, and a recording medium that improve the work efficiency of post-processing after character recognition even for visually impaired persons.
[0004]
[Means for Solving the Problems]
In order to achieve the above object, the present inventionAn image input unit for inputting a document image, a character recognition unit for character recognition for a character area of the image input by the image input unit, and a character recognition result for each character obtained from the character recognition unit.ConfidenceA certainty factor calculation unit for calculatingA word extraction unit that extracts a word from characters recognized by the character recognition unit, and a character that cannot obtain a predetermined certainty factor from the recognition result for each character calculated by the certainty factor calculation unit, before and after the character When there is an adjacent single character that is not two or more words, the character that cannot obtain the predetermined certainty and the single character adjacent to the character are combined and extracted as one character string. There is provided a character recognition device including a certainty factor extraction unit and a result output unit that outputs the character string extracted by the low certainty factor extraction unit in distinction from other words with respect to the recognition result by the character recognition unit.
Also,As aboveIn a character recognition device,The word extraction unit searches for a word including a character recognized by the character recognition unit using a word dictionary held in a predetermined storage unit, and obtains the searched word and the part of speech information of the searched word. The evaluation value of the searched word is calculated based on the part-of-speech information, and the word having the highest evaluation value may be extracted from the searched words.
Furthermore, as aboveIn the character recognition device, the result output unit includes:When a word including a character for which the predetermined certainty factor cannot be obtained is corrected, the word including the character for which the predetermined certainty factor cannot be obtained is replaced with a corrected word, and the next predetermined certainty factor is obtained. You may want to move on to correcting words that contain no letters.
[0005]
Also,A character recognition method executed by a character recognition device, comprising: an image input step for inputting a document image; a character recognition step for recognizing a character region of an image input in the image input step; and the character recognition A certainty factor calculating step for calculating the certainty factor of the character recognition result for each character obtained from the steps, a word extracting step for extracting a word from the characters recognized by the character recognition step, and the respective confidence factor calculating steps. If there is an adjacent single character that is not a word of two or more characters before and after the character for which the predetermined certainty cannot be obtained from the recognition result for the character, the predetermined certainty cannot be obtained. A low certainty factor extraction step for extracting a character and a single character adjacent to the character as a single character string, and a recognition result obtained by the character recognition step are extracted by the low certainty factor extraction step. And to provide a character recognition method comprising the result output step of outputting the character string to distinguish from other words.
Further, in the character recognition method as described above, the word extraction step searches for a word including the character recognized by the character recognition step using a word dictionary held in a predetermined storage unit, and the search is performed. Extracting a word and part of speech information of the searched word, calculating an evaluation value of the searched word based on the part of speech information, and extracting a word having the highest evaluation value from the searched word It should be included.
Also provided is a program for causing a computer to execute each step of the character recognition method as described above.
Furthermore, a computer-readable recording medium recording the program as described above is also provided.
[0006]
DETAILED DESCRIPTION OF THE INVENTION
The configuration and operation of the embodiment of the present invention will be described below in detail with reference to the drawings.
<Example>
(1) Configuration of the embodiment
FIG. 1 is a block diagram showing a configuration of a character recognition apparatus according to an embodiment of the present invention.
A
Further, the
The control unit 10 reads the image from the scanner or file, recognizes characters from the image information, and controls the entire process from outputting the recognition result as the final result.
The
The character recognition unit 30 discriminates a character image area from the image information stored in the original
The
[0007]
Next, the character recognizing unit 30 generates word candidates starting from each character position, searches the word dictionary of the language dictionary 55, extracts the matched word and its part of speech information, and selects candidates from the top of the processing target area. The word path is generated by connecting the words, and at the same time, the cost of the word path is calculated using the part-of-speech connection cost table of the language dictionary 55. The word paths are selected in descending order of cost so that the number of generated word paths is below a certain number, the recognition candidate characters are corrected based on the word path with the lowest cost, and the recognition
The language dictionary 55 includes a word dictionary that holds information such as word notation, reading, part of speech, and a part-of-speech connection cost table that holds weights indicating whether or not the parts of speech of connected words can be connected. For example, in the case of Japanese, “Kanji + Kana”, “Kanji + English”, etc. can be registered in the word notation, in addition to words of only Kanji.
The certainty
(A) The certainty level is higher as the character ranks higher in the recognition result for the same character in the image.
(B) The higher the degree of similarity in character recognition of the character, the higher the certainty level.
(C) The certainty factor increases as the notation length of the word determined to belong to the character is longer.
(D) The greater the likelihood of connection between the character or category of the character and that of the preceding and succeeding characters, the higher the certainty.
(E) The greater the possibility of connection between the word and the preceding and following words, the greater the certainty.
This rule is stored in advance in, for example, a rule table or a part-of-speech connection cost table as statistical properties or heuristic rules of many documents.
The
The user corrects the recognition result if there is an error by referring to the output result, and outputs the final result to an output device such as a display, a printer or a file, or transmits it to another computer via a network. To do.
[0008]
In this post-processing, the conventional method is intended to correct only misrecognized characters, and therefore, when inputting correct characters, one “single character” is input.
However, in the case of kanji, there are many single kanji characters with the same sound, so it is difficult to select the correct answer character. However, when considered in terms of words, the number of homophones is less than that of single kanji characters and misrecognized. In many cases, it is more efficient not to correct only the characters, but to correct them in units of words, including correct characters before and after.
On the other hand, the fact that there is a word including a character with low confidence in the recognition result calculated by the
In such a case, the low
For example, referring to FIG. 2, as a result of character recognition of image data “peripheral image display processing”, a character string “peripheral image display processing” is obtained, and word paths are “peripheral”, “image”, “wheat ”,“ Indication ”, and“ Process ”are considered. In addition, the certainty for each character is "90", "89", "80", "75", "70", "80", "50", "80", "99", "92" Suppose that it is calculated.
Since “wheat” with a low certainty factor of “50” is detected, when searching forward and backward from “wheat”, there is the word “image” in the forward direction and the single letter “show” in the backward direction. Since there is a word “processing”, “barley” is extracted as a word with low probability.
[0009]
Next, when performing the post-processing of the recognized result, the
For example, as a display method, it is possible to distinguish visually by changing a color, changing a font size, underlining or winking.
In this post-processing, when one word is corrected, the recognition
Thus, the user can correct erroneous recognition efficiently in units of words without taking his hands off the keyboard.
By configuring the embodiment in this way, it is possible to display words with low confidence level in units of words and correct them in units of words without correcting them in units of characters as in the past. This makes it easier to correct words and improves the efficiency of editing.
[0010]
(2) Processing procedure
FIG. 3 is a flowchart showing the processing procedure of this embodiment.
An image from a scanner or a file is read, and the image data is stored in the original image storage unit 25 (step S100). Thus, the
A character image region is determined from the image information stored in the original
A character is cut out from the cut out line, a diagonal coordinate value of a rectangle surrounding the character portion is extracted, the size of the character portion is normalized, noise (dirt, etc.) is removed, and a feature amount is calculated (step S120). ).
Pattern matching is performed from the feature dictionary and the
Based on the recognition candidates registered in the recognition
The character recognition unit 30 is configured from step S110 to step 140.
For the parameters for calculating the certainty factor, for example, the weights held in the rule table, the part-of-speech connection cost table, etc. are extracted, and the certainty factor is calculated as a linear combination or an average value (step S150).
Thereby, the certainty
In the word path generated in step S140, a character with a low recognition result is searched for, and adjacent single characters not registered as two or more words before and after the detected recognized character are entered in the word path. They are searched and connected as one character string, and the character string is extracted as one word (step S160).
Thereby, the low certainty
In order to perform post-processing of the recognition result, the recognition result stored in the recognition
By referring to the output result, the user corrects the recognition result if there is an error (step S170).
In this post-processing, when one word is corrected, the recognition
After the post-processing of all the recognition results is completed, the final result stored in the recognition
The
[0011]
<Modification 1>
On the other hand, visually impaired people often obtain information by reading the recognition result. However, in the method of the above embodiment, it is possible to make a visual judgment depending on the certainty, but it cannot be used for a visually impaired person.
Therefore, in the first modification, in the post-processing of the
For example, when outputting sound in stereo format, when the confidence level is high, the right and left signals are output at the same time. The destination may be changed.
In addition, before and after reading out the recognition result, a signal sound or a message for distinguishing may be inserted.
Also, visually impaired people can not see the image, so it may not be possible to correct it to a completely correct character, but it can be guessed and corrected from the flow of front and back, etc. Will.
Therefore, after correcting a low-confidence word in post-processing, instead of directly reading the next low-confidence word, what the visually impaired person does is Make sure you know what to fix.
[0012]
Or in the case of a hearing-impaired person, you may make it read in order instead of jumping to the word of the next low certainty degree.
For healthy people, it is more efficient to jump to the next low confidence word without reading this way, so specify whether to jump between healthy and visually impaired people. You may make it use properly.
With the configuration as in the first modification, a visually impaired person reads a word with a low certainty factor in units of words, so that the user can easily correct it to a correct word, and the efficiency of editing work is improved.
Also, when outputting the recognition result in this post-processing, if visual and auditory are output together, the visually impaired and their caregiver can work together, so the editing efficiency is higher. Will improve.
Also, when visually checked, similar characters may cause omissions, so if you output both visual and auditory, you can read similar characters aloud. Thus, even a healthy person can easily find an error, and the efficiency of editing work is further improved.
[0013]
<
In the case of a visually impaired person, the recognition result is often obtained by Braille.
However, in the method of the above embodiment, it is possible to make a visual judgment depending on the certainty, but it cannot be used for a visually impaired person.
Therefore, in the second modification, in the post-processing of the
Also, when correcting low confidence words in post-processing, the jump to this low confidence word is a braille cursor line (a braille pin appears) around or around the line containing the low confidence word. As shown.
By configuring as in the second modification, a visually impaired person outputs a word with low confidence in word units as braille, so that the user can easily correct the word to a correct word, and the efficiency of editing work is improved.
In addition, when outputting the recognition result in this post-processing, if tactile and auditory are output together, it can be confirmed tactilely when a visually handicapped person hears it audibly. The efficiency of editing work is improved.
In the present embodiment, a word path is created from the candidates recognized by the character recognition unit 30 by using the language dictionary 55, and a character string (word) including a character with a low certainty factor is selected from the word path. Even if it is configured to search for an unknown word that is not registered as a word in the language dictionary 55 for the recognition result in the post-processing of the recognition result by the
[0014]
<Example by computer>
Furthermore, the present invention is not limited only to the above-described embodiment. For example, the
That is, the
The network 9 is a transmission path for connecting the
[0015]
In such a configuration of the
As the recording medium, a semiconductor medium (eg, ROM, IC memory card, etc.), an optical medium (eg, DVD, MO, MD, CD-R, etc.), a magnetic medium (eg, magnetic tape, flexible disk, etc.), etc. Either may be sufficient.
Further, not only the functions of the above-described embodiments are realized by executing a program loaded into the memory 4 of the
When the program for realizing the above-described embodiment is a semiconductor recording medium such as a ROM, the program is loaded directly into the memory 4 and executed instead of the medium driving device 6.
[0016]
<Operation in Network Environment of the Present Invention>
FIG. 5 shows a configuration of an embodiment in which the present invention is operated by connecting to a wired or wireless communication network.
For example, a
In this case, the
The user logs in to the
The character recognition program of the
The user's terminal 220 outputs the recognition result or the original image data while comparing them, or performs post-processing.
This has the advantage that the latest character recognition program can always be used.
When the
Furthermore, a character recognition program that implements the functions of the present invention may be provided by distribution through a medium or broadcast wave.
[0017]
【The invention's effect】
As described above, according to the present invention, it is possible to confirm the certainty of the recognition result regardless of the presence or absence of obstacles such as vision and hearing.
In addition, since a word that is not certain is extracted in units of words, it is easy to correct the word, and the work efficiency of post-processing is improved.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a functional configuration of an embodiment.
FIG. 2 is a diagram illustrating a character recognition result of a conventional example and the present invention.
FIG. 3 is a flowchart illustrating a processing procedure according to the embodiment.
FIG. 4 is a diagram showing a computer device for operating the character recognition device of the present invention.
FIG. 5 is a diagram for explaining an operation example in a network environment according to the present invention.
[Explanation of symbols]
1 input device, 2 output device, 3 CPU, 4 memory, 5 storage device, 6 medium drive device, 7 network connection device, 8 bus, 9 network, 10 control unit, 20 image input unit, 25 original image storage unit, 30 Character recognition unit, 35 recognition dictionary, 40 confidence calculation unit, 45 recognition result storage unit, 50 result output unit, 55 language dictionary, 60 low confidence extraction unit, 100 character recognition device, 200 computer device, 210 server, 220 terminal
Claims (7)
前記文字認識部から得た各文字に対する文字認識結果の確信度を算出する確信度算出部と、
前記文字認識部により認識された文字から単語を取り出す単語抽出部と、
前記確信度算出部で計算された各文字に対する認識結果から所定の確信度を得られない文字に対し、該文字の前後に2字以上の単語となっていない隣接した単字があった場合に、前記所定の確信度を得られない文字と該文字に隣接した単字とを1つの文字列として連結して抽出する低確信度抽出部と、
前記文字認識部による認識結果について、前記低確信度抽出部によって抽出された前記文字列を他の単語と区別して出力する結果出力部とを備えたことを特徴とする文字認識装置。An image input unit for inputting a document image, and a character recognizing character recognition unit for the character region of the image input by the image input unit,
A confidence factor calculation unit that calculates a confidence of the character recognition result for each character obtained from the character recognition unit,
A word extraction unit for extracting words from the characters recognized by the character recognition unit;
When there is an adjacent single character that is not two or more words before and after the character for a character for which a predetermined certainty factor cannot be obtained from the recognition result for each character calculated by the certainty factor calculation unit A low certainty factor extraction unit that extracts a character that cannot obtain the predetermined certainty factor and a single character adjacent to the character as a single character string;
A character recognition apparatus, comprising: a result output unit that outputs the character string extracted by the low certainty factor extraction unit as distinguished from other words with respect to a recognition result by the character recognition unit.
前記結果出力部は、前記所定の確信度が得られない文字を含む単語が修正されたとき、前記所定の確信度が得られない文字を含む単語を修正後の単語によって置き換え、次の前記所定の確信度が得られない文字を含む単語の修正へ移るようにしたことを特徴とする文字認識装置。The character recognition device according to claim 1 or 2,
The result output unit, when the word containing the predetermined confidence is not obtained character is modified, replaced by the word after correction words with the predetermined confidence is not obtained character, following the predetermined A character recognition apparatus characterized in that it moves to correction of a word including a character for which the certainty cannot be obtained .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001075106A JP4718699B2 (en) | 2001-03-15 | 2001-03-15 | Character recognition device, character recognition method, program, and computer-readable recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001075106A JP4718699B2 (en) | 2001-03-15 | 2001-03-15 | Character recognition device, character recognition method, program, and computer-readable recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002279353A JP2002279353A (en) | 2002-09-27 |
JP4718699B2 true JP4718699B2 (en) | 2011-07-06 |
Family
ID=18932235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001075106A Expired - Fee Related JP4718699B2 (en) | 2001-03-15 | 2001-03-15 | Character recognition device, character recognition method, program, and computer-readable recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4718699B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210295033A1 (en) * | 2020-03-18 | 2021-09-23 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006259830A (en) * | 2005-03-15 | 2006-09-28 | Toshiba Corp | Optical character recognition device and optical character recognition result confirmation method |
JP2009193356A (en) * | 2008-02-14 | 2009-08-27 | Canon Inc | Image processing apparatus, image processing method, program, and storage medium |
JP5853531B2 (en) * | 2011-09-26 | 2016-02-09 | 富士ゼロックス株式会社 | Information processing apparatus and information processing program |
CN111652130B (en) * | 2020-06-02 | 2023-09-15 | 上海语识信息技术有限公司 | Method for identifying number, symbol and letter group of non-specific font |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04280389A (en) * | 1991-03-08 | 1992-10-06 | Ricoh Co Ltd | Character recognizer |
JP3083171B2 (en) * | 1991-03-29 | 2000-09-04 | 株式会社東芝 | Character recognition apparatus and method |
JPH05120470A (en) * | 1991-10-30 | 1993-05-18 | Canon Inc | Reader device |
JPH0668261A (en) * | 1992-08-17 | 1994-03-11 | Nippon Telegr & Teleph Corp <Ntt> | Pattern recognizing device |
JPH0850631A (en) * | 1994-08-05 | 1996-02-20 | Ricoh Co Ltd | Character recognition device |
-
2001
- 2001-03-15 JP JP2001075106A patent/JP4718699B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210295033A1 (en) * | 2020-03-18 | 2021-09-23 | Fujifilm Business Innovation Corp. | Information processing apparatus and non-transitory computer readable medium |
Also Published As
Publication number | Publication date |
---|---|
JP2002279353A (en) | 2002-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6173253B1 (en) | Sentence processing apparatus and method thereof,utilizing dictionaries to interpolate elliptic characters or symbols | |
US9484034B2 (en) | Voice conversation support apparatus, voice conversation support method, and computer readable medium | |
US20120066213A1 (en) | Information processing apparatus, information processing method, and computer program product | |
JP2009123243A (en) | Method of interpreting data input to form-based data entry system, and method of enabling user to input information content to form-based data entry system | |
JP2003162687A (en) | Handwritten character-inputting apparatus and handwritten character-recognizing program | |
JP4718699B2 (en) | Character recognition device, character recognition method, program, and computer-readable recording medium | |
JP2003209643A (en) | Image-processing device | |
JP2011008784A (en) | System and method for automatically recommending japanese word by using roman alphabet conversion | |
JP3669626B2 (en) | Search device, recording medium, and program | |
JP3727422B2 (en) | Character recognition apparatus and method | |
JP3274014B2 (en) | Character recognition device and character recognition method | |
US20060139315A1 (en) | Apparatus and method for inputting alphabet characters on keypad | |
JP2002279354A (en) | Character recognition device and method, and recording medium | |
JP4109738B2 (en) | Image processing method and apparatus and storage medium therefor | |
JP2002157553A (en) | Address recognition device, recording medium, and program | |
JP3507720B2 (en) | Online handwritten character recognition device and computer-readable recording medium | |
EP0553745A2 (en) | Character recognition apparatus | |
JP2002056357A (en) | Character recognizing device, its method, and recording medium | |
JPH07319880A (en) | Keyword extraction / search device | |
JP3115139B2 (en) | Character extraction method | |
JP2827066B2 (en) | Post-processing method for character recognition of documents with mixed digit strings | |
JP2007226359A (en) | Reading evaluation method, reading evaluation device, and reading evaluation program | |
JPH09185674A (en) | Device and method for detecting and correcting erroneously recognized character | |
KR100255640B1 (en) | Character recognizing method | |
JPH10187884A (en) | Character recognition device and recording medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080306 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20080312 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110329 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110401 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140408 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |