[go: up one dir, main page]

JPH11120293A - 文字認識/修正方式 - Google Patents

文字認識/修正方式

Info

Publication number
JPH11120293A
JPH11120293A JP9283280A JP28328097A JPH11120293A JP H11120293 A JPH11120293 A JP H11120293A JP 9283280 A JP9283280 A JP 9283280A JP 28328097 A JP28328097 A JP 28328097A JP H11120293 A JPH11120293 A JP H11120293A
Authority
JP
Japan
Prior art keywords
character string
character
specific
candidate word
input character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9283280A
Other languages
English (en)
Other versions
JP3452774B2 (ja
Inventor
Yasunao Isaki
保直 伊崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP28328097A priority Critical patent/JP3452774B2/ja
Priority to CNB981074081A priority patent/CN1140878C/zh
Priority to KR10-1998-0020532A priority patent/KR100412317B1/ko
Publication of JPH11120293A publication Critical patent/JPH11120293A/ja
Application granted granted Critical
Publication of JP3452774B2 publication Critical patent/JP3452774B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 各種伝票に記入される、不規則な文字間隔又
は不規則な記入方法で記入される低品質な文字列を、精
度よく認識することにある。 【解決手段】 入力文字列101と特定文字標準パター
ン辞書107との間で第1のマッチング処理が実行され
ることにより、入力文字列中101から特定文字又は特
定文字列が抽出される。次に、所定カテゴリーに属し、
かつ入力文字列101中から抽出された各特定文字又は
特定文字列の前後の入力文字列101中の領域に位置す
る可能性のある候補単語群が特定文字辞書110及びそ
れにリンクする知識辞書111から抽出される。そし
て、候補単語群に属する各候補単語毎に、その各候補単
語に関する情報に基づいてそれが位置する入力文字列1
01中の各領域に対して標準パターン辞書113を用い
て第2のマッチング処理が実行されることにより、入力
文字列101を構成する文字が認識される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、通常見かける各種
伝票に記入される文字列であって、不規則な文字間隔又
は不規則な記入方法で記入され、隣接文字間で接触、分
離が発生することのあるような、低品質な文字列を認識
する技術に関する。
【0002】
【従来の技術及び発明が解決しようとする課題】イメー
ジデータを読み取って文字符号データに変換するOCR
(光学的文字読取装置)は、その適用分野が広まるに伴
って、様々な業務に使われてきている。業務毎に異なる
帳票が使用され、そこに記入される文字列も記入者もさ
まざまとなってきている。
【0003】従来のOCR用帳票においては、文字記入
枠が1文字ずつ印刷された文字枠が使用され、特に漢字
が記入される場合には大きな文字枠が使用されている。
これは、OCR装置にとっては記入される文字を一文字
ずつ検出しやすくし、また、記入者に対しては記入時に
記入される文字が隣の文字と接触しないように促すため
のものである。
【0004】このような帳票の場合、例えば、住所や氏
名が2、3箇所記入されるだけでも記入される文字数は
何十文字にもなり、結果的に大きなサイズの帳票が必要
となり費用がかかる。また、記入者に対しても、1文字
ずつ枠の中に記入しなければならないという面倒を強い
ていた。
【0005】OCRの適用分野が広まるに従って、通常
の帳票のような小さな帳票の中に漢字文字列を文字枠に
とらわれずに記入でき、かつ実用になる認識精度で認識
でき、また読めない文字を修正する際にも効率よく修正
できる文字認識/修正技術が必要になってきている。
【0006】従来の代表的な文字認識方法では、認識対
象文字列が記入される文字枠の帳票上での座標位置が格
納された、定義体と呼ばれるファイルが参照されなが
ら、記入された文字が1文字ずつ検出されて切り出され
る。そして、その切り出された各文字に対して認識処理
が実行されることにより、認識結果である候補文字群が
出力される。
【0007】切り出された文字の認識処理は、例えば次
のようにして実行される。まず、多数の不特定の筆記者
により予め決められた書式に従って記入された文字が収
集され、これらの文字から認識方式に依存する特徴量が
抽出され、統計的な手法等(例えばクラスタリング手
法)によって標準パターンが作成される。そして、目的
とする字種毎の標準パターンから標準パターン辞書が作
成される。
【0008】標準パターンは、例えば収集された各文字
パターンを平均することによって得られる平均パターン
として作成される。より具体的には、収集された各文字
に対応する特徴量の平均が演算されることによって得ら
れる平均特徴量によって、この平均パターンが表現され
る。
【0009】手書き文字の認識処理においては、記入者
によって大きな字形変形が生じるため、各字種毎に複数
の標準パターンが作成される。通常、1つの標準パター
ンはテンプレートと呼ばれ、上記各字種毎に複数の標準
パターンから作成される辞書は、複数テンプレート辞書
と呼ばれる。
【0010】文字認識処理は、上述の標準パターン辞書
又は複数テンプレート辞書を用いて実行される。具体的
には、入力帳票から切り出された1文字から特徴量が抽
出され、この特徴量と標準パターン辞書(又は複数テン
プレート辞書)を構成する各テンプレート(標準パター
ン)の特徴量との間で、類似度又は距離(ユークリッド
距離、マハラノビス距離等)が計算される。そして、類
似度が大きい順又は距離が小さい順に所定順位(例えば
8位)までの各テンプレートが属する各字種カテゴリー
が、候補文字群として出力される。
【0011】ここで、認識される文字が住所や氏名を表
わす文字である場合には、一般に、上記候補文字群に対
し、住所単語、氏名単語を使った知識処理が実行され
る。より具体的には、まず、各記入位置毎の候補文字群
が記入位置全体で組み合わせられることにより、候補文
字列群が出力される。
【0012】次に、この候補文字列群を構成する各候補
文字列毎に、知識処理対象の住所辞書又は氏名辞書内の
各単語文字列がその候補文字列中に存在するか否かが比
較される。
【0013】そして、その比較結果と、例えば候補文字
列を構成する各候補文字の順位等に従って、その候補文
字列に対して得点が付けられる。この処理が全ての候補
文字列に対して実行された後、最も得点の高い候補文字
列が知識処理結果として出力される。
【0014】このような知識処理に関する従来技術とし
ては、例えば日本国特許公開公報:特開昭61−107
486号に開示されるものが知られている。ここで、通
常の伝票への記入のように、フリーピッチで記入された
住所、氏名のような漢字文字列が認識される場合、隣接
する文字同士が接触することは一般に多く発生し、ま
た、逆に漢字には偏(へん)と旁(つくり)のように分
離して記入される文字も存在する。
【0015】このため、記入文字が1文字ずつ検出され
切り出されて認識される従来の文字認識方法では、どの
範囲が1文字の範囲であるかを判断するのは困難であ
り、実用に耐える認識精度を実現することは困難であ
る。
【0016】更に、各文字が正しく認識できなければ、
何文字記入されているかさえ判断できない場合もあり、
単語を構成する文字数が確定していることが前提とされ
る従来の知識処理では、認識精度の向上を図ることには
限界がある。
【0017】また、特に住所地名などの認識処理におい
て、例えば上位レベルの単語(例えば東京都、大阪府
等)が知識処理によって認識できなかった場合に、その
段階にでは下位レベルの単語は知識処理できていないの
が一般的であるため、住所地名を修正するためには、1
文字目から全ての文字列を順次修正する必要がある。
【0018】上述のようなフリーピッチの文字列を認識
するための第1の従来技術として、日本国特許公報:特
公平8−23875号「単語読み取り方式」に開示され
ているものが知られている。この第1の従来技術では、
認識結果である候補文字列と単語辞書とがDPマッチン
グ等により照合され、一致する文字が多い単語が選択さ
れ、不一致の部分が再度切り出され、その切り出された
文字列に対して更に認識が行われる。
【0019】フリーピッチの文字列を認識するための第
2の従来技術として、日本国特許公開公報:特開昭63
−136291号「単語読み取り方式」に開示されてい
るものが知られている。この第2の従来技術では、文字
の偏、旁の各部分を示す部分パターンを標準パターンと
して有する標準パターン辞書を用いて認識処理が実行さ
れ、候補文字列の各文字の偏、旁から文字列が生成さ
れ、それと単語辞書とのマッチング処理が実行される。
【0020】フリーピッチの文字列を認識するための第
3の従来技術として、日本国特許公開公報:特開平8−
171614号「文字列読み取り装置」に開示されてい
るものが知られている。この第3の従来技術では、候補
文字列中に正解文字が含まれずに読み飛ばしが発生した
場合や、正解文字と競合する文字候補の存在によって複
数の読み取り候補が発生した場合などにつき、予想文字
列の存在可能性が検証される。この場合の検証手段とし
て、いくつかの実現方法が開示されている。
【0021】しかし、我々が日常記入するような文字
列、即ち隣接文字間の接触が頻繁に発生し、文字幅も文
字毎に大きく変化し、つぶれやかすれの多い低品質な文
字列に対する認識処理を検討した場合に、上記第1乃至
第3の従来技術は、以下のような問題点を有している。
【0022】まず、第1の従来技術では、候補文字列の
どの文字が優先的に扱われるかは不定であり、候補文字
列中の全ての文字が対等に扱われるため、最初の文字切
り出し位置によっては全く不適切な単語しか候補に選ば
れない可能性があるという問題点を有している。
【0023】次に、第2の従来技術では、隣接文字同士
が接触した領域に対する処理に問題がある。更に、第3
の従来技術では、検証手段の実現方法としていくつかの
方法が記されているが、いずれの方法も文字候補の組合
せを用いたものであり、それらの検証性能は最初の文字
の切出し結果に大きく依存してしまうという問題点を有
している。
【0024】本発明の課題は、特定の文字に着目するこ
とにより低品質な文字列を精度よく認識することにあ
る。
【0025】
【課題を解決するための手段】本発明は、所定カテゴリ
ーを有する記入フィールドに記入された入力文字列を構
成する文字を認識する文字認識/修正方法、それと同等
の機能を有する文字認識装置、又はコンピュータ読出し
可能記録媒体を前提とする。
【0026】本発明において、まず、入力文字列と第1
の認識辞書(特定文字標準パターン辞書107)との間
で第1のマッチング処理が実行されることにより、入力
文字列中から特定文字又は特定文字列が抽出される。よ
り具体的には、第1の認識辞書に、特定文字又は特定文
字列に対応する標準パターンが記憶され、入力文字列の
パターンと第1の認識辞書内の各標準パターンとの間で
第1のマッチング処理が実行されることにより、入力文
字列中から特定文字又は特定文字列が抽出される。上述
の特定文字又は特定文字列は、例えば所定カテゴリーに
おいて出現する頻度の高いもの、或いは、認識精度の高
いものである。
【0027】次に、所定カテゴリー(例えば住所文字
列)に属し、かつ入力文字列中から抽出された各特定文
字又は特定文字列の前後の入力文字列中の領域に位置す
る可能性のある候補単語群がカテゴリー別単語辞書(特
定文字辞書110、知識辞書111)から抽出される。
【0028】そして、その抽出された候補単語群に属す
る各候補単語毎に、その各候補単語に関する情報に基づ
いてその各候補単語が位置する入力文字列中の各領域に
対して第2の認識辞書(標準パターン辞書113)を用
いて第2のマッチング処理が実行されることにより、入
力文字列を構成する文字が認識される。より具体的に
は、第2の認識辞書に、候補単語群に属する候補単語に
関連する文字又は文字列に対応する標準パターンが記憶
され、候補単語群に属する各候補単語毎に、その各候補
単語に関する情報に基づいてその各候補単語が位置する
入力文字列中の各領域に対してその各候補単語のパター
ンと第2の認識辞書内の各標準パターンとの間で第2の
マッチング処理が実行されることにより、入力文字列を
構成する文字が認識される。この場合に、各候補単語に
関する情報として、例えばその各候補単語の文字数の情
報が使用される。また、第2の認識辞書は、第1の認識
辞書を含むように構成されてもよい。
【0029】上述の発明の構成により、入力文字列中の
特定文字又は特定文字列がまず優先的に認識され、その
認識結果に基づいてその前後の候補単語が仮定され、更
にその候補単語の情報を用いて入力文字列を構成する文
字が再認識されることによって、通常見かける各種帳票
(伝票)に記入されるような、不規則な間隔、記入方法
で記入された入力文字列を構成する文字を、高い精度で
認識することが可能となる。
【0030】上述の発明の構成において、入力文字列を
構成する文字の認識結果が入力文字列と並列して表示さ
れ、その表示される入力文字列上の所望領域がユーザに
よって指定されてその所望領域に対応する文字又は文字
列が修正され、その修正によって与えられた正解文字又
は正解文字列に関する情報に基づいて、候補単語群の抽
出処理及び第2のマッチング処理が再度実行され、入力
文字列を構成する文字が再度認識されるように構成する
ことができる。この場合に、表示される入力文字列上の
所望領域の指定に応答して、その所望領域における複数
の候補認識結果が表示されるように構成することができ
る。
【0031】このような文字修正技術によって、特定の
文字又は文字列のみを修正するだけで、他の認識不能部
分も自動的に修正することができる。また、上述の発明
の構成において、各候補単語に対して表記上のゆらぎを
有する単語が、候補単語群に属する新たな候補単語とし
て出力されるように構成することができる。
【0032】このような表記上のゆらぎの制御技術によ
って、種々の記入方法に柔軟に対処することができる。
【0033】
【発明の実施の形態】以下、図面を参照しながら本発明
の実施の形態につき詳細に説明する。本発明の実施の形態の構成及び概略動作 図1は、本発明の実施の形態の構成図である。
【0034】まず、文字切り出し部103が、帳票の記
入フィールド位置に関する情報を定義した記入フィール
ド定義104を用いて、イメージメモリ102から読み
出された帳票に記入された入力文字列101中の先頭か
ら順に1文字ずつを切り出す。
【0035】次に、特徴抽出部105が、その切り出さ
れた文字から特徴量を抽出する。続いて、マッチング部
106が、その切り出された文字の特徴量と、特定文字
標準パターン辞書107内の各特定文字標準パターンの
特徴量との間のマッチング処理を実行し、マッチング度
が高い順に所定順位までの各特定文字標準パターンが属
する各特定文字の字種カテゴリーを、上記切り出された
文字に対する候補特定文字として候補文字列バッファ1
08に出力する。
【0036】文字切り出し部103、特徴抽出部10
5、及びマッチング部106による上記一連の特定文字
認識処理は、文字切り出し部103が入力文字列101
の先頭から順に切り出した文字毎に実行される。この結
果、候補文字列バッファ108には、入力文字列101
から切り出された文字の並び順に対応する並び順で、各
文字に対応する候補特定文字が保持される。
【0037】候補単語検索部109は、候補文字列バッ
ファ108に得られた候補特定文字列の中から隣接する
任意の2つの特定文字からなる組(特定文字組)を全て
抽出し、それぞれの特定文字組が特定文字辞書110に
登録されているか否かを検索する。
【0038】候補単語検索部109は、1組の特定文字
組が特定文字辞書110に登録されている場合、その登
録レコードにリンクする知識辞書111中のレコードか
ら、その特定文字組を構成する2つの特定文字により挟
まれる単語群を検索し、その検索された単語群を候補単
語群として候補単語バッファ112に保持する。
【0039】候補単語検索部109は、候補文字列バッ
ファ108から抽出した上記特定文字組毎に、それに対
応する候補単語群を抽出し、候補単語バッファ112に
保持する。
【0040】結局、候補単語バッファ112には、1組
の特定文字組について1つ以上の候補単語群が得られ、
最終的に、複数の特定文字組分の候補単語群の集合が得
られることになる。
【0041】1組の特定文字組について候補単語バッフ
ァ112に得られた候補単語群に属する各候補単語は、
順次読み出されてそれぞれに対して以下の一連の処理が
実行される。
【0042】まず、文字切り出し部103は、イメージ
メモリ102から読み出される入力文字列101におい
て、候補単語バッファ112から出力された候補単語の
情報を使って、その候補単語が属する特定文字組を構成
する2つの特定文字に挟まれた文字列領域内の文字列を
再度切り出す。
【0043】特徴抽出部105は、再度切り出された文
字列から特徴量を抽出する。更に、マッチング部106
は、その再度切り出された文字列の特徴量と、第2の辞
書である標準パターン辞書113内の各標準パターンの
特徴量とのマッチング処理を実行し、マッチング度が高
い順に所定順位までの各標準パターンが属する文字列の
カテゴリーを、上記候補単語に対する候補認識結果群と
して候補文字列バッファ108に保持する。
【0044】文字切り出し部103、特徴抽出部10
5、及びマッチング部106による上記一連の再認識処
理は、上記1組の特定文字組について候補単語バッファ
112に得られた候補単語群に属する候補単語のそれぞ
れにつき実行され、各候補単語毎に所定順位までの候補
認識結果群が候補文字列バッファ108に得られる。
【0045】そして、マッチング部106は、上記1組
の特定文字組に属する各候補単語毎に候補文字列バッフ
ァ108に得られる所定順位までの候補認識結果群の全
て中から、最も妥当で信頼度の高い認識結果、より具体
的には最もマッチング度が高い候補認識結果を、上記1
組の特定文字組を構成する2つの特定文字に挟まれた部
分の認識結果として、知識処理部114に出力する。
【0046】文字切り出し部103、特徴抽出部10
5、及びマッチング部106による、1組の特定文字組
の候補単語群に属する候補単語毎の上記一連の再認識処
理は、候補単語バッファ112に登録されている各特定
文字組毎に実行される。この結果、知識処理部114に
は、各特定文字組を構成する2つの特定文字に挟まれた
各文字領域に対応する認識結果が出力されることにな
る。
【0047】知識処理部114は、各特定文字組を構成
する2つの特定文字に挟まれた各文字領域に対応する認
識結果に対して、記入フィールド定義104及び知識辞
書111を用いた知識処理によって、上記各文字領域か
らなる全体文字領域の最終認識結果を決定し、それを認
識結果バッファ115に出力する。
【0048】上述の一連の認識処理において、認識条件
を最後まで満たさなかった文字又は文字列の部分につい
ては、リジェクト(認識不能)情報が付加される。この
場合に、認識結果バッファ115に得られた認識結果
が、インタフェース部116を介して表示部117に表
示される。ユーザは、表示部117での認識結果の表示
に対して、マウス及びキーボード等からなる入力部11
8から、認識不能文字/文字列を修正することができ
る。
【0049】ユーザは、入力部118から認識不能文字
/文字列中の特定の正解文字を指定するだけで、その正
解文字に関する情報がインタフェース部116から正解
文字バッファ119及び領域座標バッファ120に出力
される。
【0050】候補単語検索部109は、正解文字バッフ
ァ119に得られた正解文字に関する情報を特定文字の
情報として、前述した特定文字辞書110と知識辞書1
11を用いた候補単語の検索処理を実行することによ
り、認識不能文字を正しく再認識させることができる。
また、文字切り出し部103は、ユーザによって指定さ
れた正解文字の切り出し位置を領域座標バッファ120
から取得することによって、正しい文字の切り出しを実
行することができる。
【0051】以上のように、本実施の形態では、帳票中
の各記入フィールドに記入される住所、氏名、品名等の
入力文字列101に対し、各フィールド毎に出現頻度が
高い文字或いは特定の文字/文字列に着目することで、
知識辞書111が保持する単語情報と、階層構造を有す
る住所等の文字列の場合は各文字領域毎の接続情報を用
いて、上記特定文字に挟まれた文字領域の候補単語を選
択することができる。更に、本実施の形態では、その候
補単語の情報を用いて、入力文字列101から上記特定
文字に挟まれた文字領域の抽出とその文字領域に対する
再認識処理が実行されることにより、隣接文字間で接
触、分離が多く発生する書き方で記入された文字列を、
高い認識精度で認識することができる。本発明の実施の形態の詳細動作 図2〜図4は、図1に示される構成を有する本発明の実
施の形態が実現する全体制御を示す動作フローチャート
である。 <特定文字の認識処理>まず、文字切り出し部103
が、帳票の記入フィールド位置に関する情報を定義した
記入フィールド定義104を用いて、イメージメモリ1
02から2値化画像データとして読み出された、帳票に
記入された入力文字列101中の先頭から順に1文字ず
つを切り出す(図2のステップ201)。
【0052】図5は、文字切り出し部103が使用する
記入フィールド定義104のデータフォーマット例を示
す図である。例えば、帳票上にフィールド1、2が配置
されており、この2つのフィールドに記入された文字列
が認識される場合、記入フィールド定義104は、以下
のようにして決定される。
【0053】まず、帳票の上部が座標原点とされ、横方
向にx軸、縦方向にy軸がそれぞれ定義され、フィール
ド1、2のそれぞれについて、そのフィールドの左上端
の位置の座標(フィールド原点座標)と、x軸方向のフ
ィールド幅及びy軸方向のフィールド高さとからなるフ
ィールドの大きさデータが、図5(a) に示されるように
定義される。長さの単位は、ミリメートル又はインチで
ある。
【0054】次に、フィールド1、2のそれぞれについ
て、各フィールドにどのような種別の文字列が記入され
るかを示すフィールド種別が定義される。これらの情報
が、図5(b) に示される表形式で、記入フィールド定義
104として特には図示しない記憶装置に保持される。
【0055】文字切り出し部103は、上述の記入フィ
ールド定義104を用いることによって、イメージメモ
リ102から読み出されたイメージデータ上で各フィー
ルド毎の文字領域を決定した後、その文字領域内のイメ
ージデータに対して、図6に示される動作フローチャー
トによって示される文字切り出し制御を実行する。
【0056】ここで、図8(a) に示されるように、記入
フィールド定義104から抽出される対象領域のフィー
ルド原点座標を(x0 ,y0 )、x軸方向のフィールド
幅をdx、y軸方向のフィールド高さをdyとする。
【0057】まず文字切り出し部103は、x軸方向の
各走査ライン毎に、黒画素数を累算することにより、各
y座標位置毎のx軸方向の黒画素の出現頻度を示す水平
ヒストグラムを、図8(b) に示されるように算出する
(図6のステップ601)。
【0058】次に、図8(b) に示されるように、文字切
り出し部103は、上記水平ヒストグラム上をその上方
及び下方のそれぞれから走査し、最初に頻度値Cを超え
る位置α及びβを算出し、更にそれらから算出される値
α−βを、その対象領域における文字列高さhとする
(ステップ602)。
【0059】次に、文字切り出し部103は、y軸方向
の各走査ライン毎に、黒画素数を累算することにより、
各x座標位置毎のy軸方向の黒画素の出現頻度を示す垂
直ヒストグラムを図8(c) に示されるように算出する
(図6のステップ603)。
【0060】続いて、図8(c) に示されるように、文字
切り出し部103は、上記垂直ヒストグラム上をその左
から走査し、頻度値がしきい値d以下からしきい値d以
上に変化する点x1 ,x3 ,x5 ,・・・(x2n-1:n
=1,2,・・・)を切り出し候補位置として算出し、
また、頻度値がしきい値d以上からしきい値d以下に変
化する点x2 ,x4 ,x6 ,・・・(x2m:m=1,
2,・・・)もやはり切り出し候補位置として算出する
(ステップ604)。
【0061】次に、文字切り出し部103は、下記条件
式を満たす領域[x2m,x2n-1]を算出し、それを文字
切り出し結果とする(ステップ605)。
【0062】
【数1】h−t1 ≦x2m−x2n-1≦h+t2 (m=1,2,3,・・・),(n=1,2,3,・・
・) ここで、hは前述したステップ602において算出され
た文字列高さ、t1 及びt2 は入力文字列101の学習
サンプルによって決まるパラメータである。図8(c) の
例では、下記3つの領域が文字切り出し結果として算出
される。 [x1 ,x2 ] [x3 ,x4 ] [x5 ,x8 ] 文字切り出し部103は、ステップ605の処理の結
果、下記条件式を満たす領域が残ったか否かを判定する
(ステップ606)。
【0063】
【数2】x2l−x2l-1>h+t2 (l=1,2,3,・・・) ステップ606の判定がNOならば、文字切り出し部1
03は、その制御処理を終了する。
【0064】ステップ606の判定がYESであるなら
ば、文字切り出し部103は、領域[x2l-1,x2l]に
おいて、ステップ603で算出された垂直ヒストグラム
の頻度値がしきい値dより大きい所定値以下で、かつ、
下記条件式を満たす値kを算出する。
【0065】
【数3】h≒(x2l−x2l-1)/k この結果、領域[x2l-1,x2l]をk分割した各位置を
文字切り出し位置として算出する(以上、ステップ60
7)。図8(d) の例においては、l=1、k=2とな
り、領域[x1 ,x2 ]を2分割した位置x′が文字切
り出し位置として算出される。
【0066】その後、文字切り出し部103は、その制
御処理を終了する。以上説明した図6の動作フローチャ
ートは、文字切り出し部103が、文字数が予め与えら
れていないフィールドに対して実行する文字切り出し処
理に対応するものである。
【0067】これに対して、候補単語バッファ112か
ら読み出される候補単語の情報に基づいて再認識処理が
実行される場合のように、文字切り出し部103が、文
字切り出しの対象となる領域とその領域内の文字数が予
め与えられているフィールドに対して文字切り出し処理
を実行する場合もある。
【0068】この場合には、文字切り出し部103は、
図6のステップ605〜607の処理群の代わりに、図
7のステップ701の処理を実行する。即ち、文字切り
出しの対象となる領域の左端のx座標がxs 、右端のx
座標がxt 、上記領域内の文字数がnとして与えられた
ときに、文字切り出し部103は、図6のステップ60
3で算出された垂直ヒストグラムの頻度値が所定値以下
で、かつ、下記条件式を満たす値Xn に近い隣接間隔を
有する位置を文字切り出し位置として算出する。
【0069】
【数4】(xt −xs )/n=Xn 具体的には、隣接する2つの文字切り出し位置をxi
i+1 (i=1,2,・・・、xs ≦xi ,xi+1 ≦x
t )としたときに、文字切り出し部103は、下記条件
式を満たす文字切り出し位置xi (xi ≠xs ,xt
を算出する。
【0070】
【数5】Xn −t5 ≦xi+1 −xi ≦Xn +t6 ここで、t5 及びt6 は入力文字列101の学習サンプ
ルによって決まるパラメータである。
【0071】以上説明した文字切り出し部103による
文字切り出し処理の後、特徴抽出部105が、その切り
出された1文字から、認識のための特徴量である特徴ベ
クトルを抽出する(図2のステップ202)。
【0072】具体的には、特徴抽出部105は、例えば
以下の一連の処理によって特徴ベクトルを抽出する。即
ちまず、特徴抽出部105は、切り出された文字のイメ
ージデータから文字輪郭画素を抽出する。
【0073】次に、特徴抽出部105は、その切り出さ
れた領域を複数の分割領域に分割する。更に、特徴抽出
部105は、各分割領域につき、その分割領域内の輪郭
画素毎に方向成分(例えば、縦方向、横方向、左斜め方
向、右斜め方向の4方向成分)を抽出し、その分割領域
内の全輪郭画素の方向成分を集計することによりその分
割領域内の各方向成分毎の集計値を算出し、それらを各
方向成分に対応する要素値として有する部分特徴ベクト
ルを算出する。
【0074】最後に、特徴抽出部105は、全ての分割
領域の部分特徴ベクトルの各要素を統合することによ
り、特徴ベクトルを抽出する。上述のようにして特徴抽
出部105が切り出された文字の特徴ベクトルを抽出し
た後に、マッチング部106が、その切り出された文字
の特徴ベクトルと、特定文字標準パターン辞書107内
の各特定文字標準パターンの特徴ベクトルとの間のマッ
チング処理を実行し(図2のステップ203)、マッチ
ング度が高い順に所定順位までの各特定文字標準パター
ンが属する各特定文字の字種カテゴリーを、上記切り出
された文字に対する候補特定文字群として候補文字列バ
ッファ108に出力する(図2のステップ204)。
【0075】より具体的には、マッチング部106が、
その切り出された文字の特徴ベクトルと、特定文字標準
パターン辞書107内の各特定文字標準パターンの特徴
ベクトルとの間で、例えば距離(ユークリッド距離、マ
ハラノビス距離等)を計算する。そして、マッチング部
106は、距離が小さい順に所定順位(n位)までの各
特定文字標準パターンが属する各特定文字の字種カテゴ
リーを、上述の切り出された特定文字に対する候補特定
文字群として候補文字列バッファ108に出力する。
【0076】なお、1位の特定文字標準パターンの距離
が所定のしきい値T1 より大きい場合は、その切り出さ
れた文字にはリジェクト(認識不能)情報が付加され
る。ここで、上述の特定文字標準パターン辞書107に
ついて、具体例を挙げて説明する。
【0077】今、入力文字列101が住所文字列である
場合を考える。本実施の形態では、最初は、例えば住所
文字列において、その階層構造の区切りを示す出現頻度
が高い、「都」「道」「府」「県」「市」「区」「郡」
「町」「村」「字」「大字」等の1文字又は2文字から
なる特定文字のみが認識されればよい。また、住所文字
列においては、「東」「西」「南」「北」等の特定文字
も出現頻度が高い。
【0078】このため、本実施の形態では、これらの特
定文字の認識精度を高めるために、これらの特定文字の
標準パターンのみから構成され辞書容量の小さな特定文
字標準パターン辞書107が使用される。
【0079】このような特定文字標準パターン辞書10
7が標準パターン辞書113とは別に用意されることに
より、認識処理速度を短縮し、かつ認識精度を高めるこ
とが可能となる。
【0080】なお、特定文字標準パターン辞書107が
標準パターン辞書113と同じ辞書として構成され、特
定文字の認識精度を高めるために、各特定文字毎に多く
のテンプレート(標準パターン)が記憶されるように構
成されてもよい。
【0081】一方、入力文字列101が氏名文字列であ
る場合には、住所文字列のように区切りとなる文字は存
在しないが、出現頻度の高い文字種は存在する。例え
ば、名字に使用される文字は出現頻度において上位50
0位までの文字種が82%程度をカバーしているため、
上位N文字で特定文字標準パターン辞書107が作成さ
れるように構成することができる。
【0082】或いは、標準パターン辞書113から選択
的にN字種のみが特定文字の認識に使用されるように構
成されてもよい。そして、特定文字辞書110は、上述
の特定の字種に対応するように構成される。
【0083】また、出現頻度によって字種を選択するの
ではなく、認識しやすい文字を多数の実データから統計
的に決定し、それらの決定された字種を選択するように
構成してもよい。
【0084】文字切り出し部103、特徴抽出部10
5、及びマッチング部106による上記一連の特定文字
認識処理は、文字切り出し部103が入力文字列101
の先頭から順に切り出した文字毎に実行される(図2の
ステップ205→202の繰り返し)。この結果、候補
文字列バッファ108には、入力文字列101から切り
出された文字の並び順に対応する並び順で、各文字毎の
候補特定文字群が保持される。 <特定文字間領域の候補単語の検索とその領域での再認
識処理>候補単語検索部109は、候補文字列バッファ
108に得られた候補特定文字群の集合の中から隣接す
る任意の2つの特定文字からなる組(特定文字組)を全
て抽出し、それぞれの特定文字組が特定文字辞書110
に登録されているか否かを検索する。そして、候補単語
検索部109は、1組の特定文字組が特定文字辞書11
0に登録されている場合、その登録レコードにリンクす
る知識辞書111中のレコードから、その特定文字組を
構成する2つの特定文字により挟まれる単語群を検索
し、その検索された単語群を候補単語群として候補単語
バッファ112に保持する(以上、図3のステップ20
6)。
【0085】今、入力文字列101が住所文字列である
場合を考える。なお、住所文字列以外の氏名文字列、品
名文字列等については、階層構造を持たないため、階層
構造に関する部分を除いて住所文字列の場合と同様に実
現できる。
【0086】住所辞書である知識辞書111の構造は、
例えば図10に示されるように、住所の階層構造に従っ
て、レベル1:都道府県、レベル2:市区郡、レベル
3:町村、・・・というように分割されて、それぞれの
階層に属する単語が格納されている。
【0087】一方、特定文字辞書110には、図11に
示されるように、「文字1」と「文字2」という2つの
特定文字からなる特定文字組に対応するレコード毎に、
その特定文字組を構成する2つの特定文字により挟まれ
る単語群が格納されている知識辞書111上のレコード
の集合を示すための、ポインタ情報とそのポインタから
始まるデータ数情報とからなるデータ組が格納されてい
る。このデータ組としては、図11に示されるように複
数組指定することができ、特定文字辞書110の各特定
文字組毎のレコードには、図11に示されるように、上
記ポインタ情報とデータ数情報のデータ組の数に対応す
るポインタ数情報Nも記憶される。
【0088】図12の例では、特定文字辞書110内
の、空白文字と「県」という2つの特定文字からなる特
定文字組に対応するレコードには、図10に示される知
識辞書111内のレベル1領域内の単語「青森」から始
まるn1 個のレコードと、同じくレベル1領域内の単語
「神奈川」から始まるn2 個のレコードをそれぞれ示す
データ組(ポインタ情報とデータ数情報)と、ポインタ
数N=2が登録されている。
【0089】また図13の例では、特定文字辞書110
内の、「都」と「区」という2つの特定文字からなる特
定文字組に対応するレコードには、図10に示される知
識辞書111内のレベル2領域内の単語「千代田」から
始まるn3 個のレコードと、ポインタ数N=1が登録さ
れている。
【0090】また、住所は通常、「・・・丁目・・・番
地・・・方」という書き方で終わるが、このような特定
文字「丁目」「番地」「番」「方」「号」に挟まれた領
域には、単語ではなく数字が記入される場合が多い。こ
のような場合には、図14に示されるように、特定文字
辞書110内の、上記特定文字からなる特定文字組に対
応するレコードには、前述したようんポインタ情報とデ
ータ数情報とかなるデータ組ではなく、「(数字)*
n」というような記号が設定される。候補単語検索部1
09は、特定文字辞書110から上述したような記号が
設定されているレコードを検索した場合には、上述のよ
うな特定文字に挟まれた領域には数字が連続して記入さ
れていることを検出し、その旨を示す検出結果を候補単
語バッファ112に書き込む。
【0091】更に、例えば図15に示されるような特定
文字辞書110及び知識辞書111の構成も可能であ
る。即ち、図15の例では、特定文字辞書110内の、
空白文字と「川」という2つの特定文字からなる特定文
字組に対応するレコードには、知識辞書111内の4文
字の単語「神奈川県」を指すポインタ情報及びデータ数
=1と、知識辞書111内の2文字の単語「神奈」を指
すポインタ情報及びデータ数=1が設定される。
【0092】また特定文字辞書110内の、「川」と
「中」という2つの特定文字からなる特定文字組に対応
するレコードには、知識辞書111内の2文字の単語
「崎市」を指すポインタ情報及びデータ数=1が設定さ
れる。
【0093】更に特定文字辞書110内の、「中」と
「中」という2つの特定文字からなる特定文字組に対応
するレコードには、知識辞書111内の5文字の単語
「原区上小田」を指すポインタ情報及びデータ数=1が
設定される。
【0094】このように、住所文字列に高い頻度で出現
する特定文字及び単語に対応する情報を、特定文字辞書
110と知識辞書111に記憶させることも可能であ
る。次に、図16に示されるように、特定文字辞書11
0内の、「区」と住所の終わりを示す特定文字の2つの
特定文字からなる特定文字組に対応するレコードに、知
識辞書111内の単語「丸の内」がリンクしている場合
に、表示のゆらぎとして、「丸の内」ではなく「丸ノ
内」という文字列が記入される可能性がある。このよう
な場合に、知識辞書111に全ての表記のゆらぎに対応
する単語を記憶させるのは無駄である。
【0095】そこで、本実施の形態では、特定文字辞書
110からリンクする知識辞書111内の単語の検索時
に、図9の動作フローチャートで示される表記のゆれに
対処するための制御動作が実行される。
【0096】まず、候補単語検索部109は、1組の特
定文字組に対し、特定文字辞書110及び知識辞書11
1をここまで説明してきた規則に従って検索し、その結
果検索された単語群を現在処理中の特定文字組に対応す
る候補単語群として候補単語バッファ112に書き込む
(図9のステップ901)。このステップ901は、図
3のステップ206の一部である。
【0097】次に、図3のステップ206の一部とし
て、候補単語検索部109は、1組の特定文字組に対し
て候補単語バッファ112に得られた候補単語群のそれ
ぞれに対して、図9のステップ902〜910で示され
る一連の処理を繰り返し実行する。
【0098】即ち、候補単語検索部109は、検出した
単語を構成する文字にひらがなが存在する場合に、その
ひらがなをカタカナに変更し、その結果得られる単語
を、現在処理中の特定文字組に対応する他の候補単語と
して、候補単語バッファ112に書き込む(図9のステ
ップ902→903)。
【0099】次に、候補単語検索部109は、検出した
単語を構成する文字にカタカナが存在する場合に、その
カタカナをひらがなに変更し、その結果得られる単語
を、現在処理中の特定文字組に対応する他の候補単語と
して、候補単語バッファ112に書き込む(図9のステ
ップ904→905)。
【0100】次に、候補単語検索部109は、検出した
単語を構成する文字に漢数字が存在する場合に、その漢
数字をアラビア数字に変更し、その結果得られる単語
を、現在処理中の特定文字組に対応する他の候補単語と
して、候補単語バッファ112に書き込む(図9のステ
ップ906→907)。
【0101】次に、候補単語検索部109は、検出した
単語を構成する文字にアラビア数字が存在する場合に、
そのアラビア数字を漢数字に変更し、その結果得られる
単語を、現在処理中の特定文字組に対応する他の候補単
語として、候補単語バッファ112に書き込む(図9の
ステップ908→909)。
【0102】最後に候補単語検索部109は、検出した
単語を構成する文字に省略可能文字(例えば「溝ノ口」
が「溝口」と省略されたときの「ノ」)が存在する場合
に、その省略可能文字を省略して得られる文字列を、現
在処理中の特定文字組に対応する他の候補単語として、
候補単語バッファ112に書き込む(図9のステップ9
08→909)。
【0103】候補単語検索部109は、1組の特定文字
組に対して候補単語バッファ112にまだ表記のゆらぎ
に対する制御処理を実行していない候補単語群がある場
合には、上述の図9のステップ902〜910で示され
る一連の処理を繰り返し実行する(図9のステップ91
1→902〜910→911の繰り返し)。
【0104】上述のようにして、1組の特定文字組に対
して候補単語バッファ112に得られた候補単語群に対
して、表記のゆらぎに対する制御が実現される。以上の
ようにして、候補文字列バッファ108から選択された
1組の特定文字組に対して候補単語バッファ112に候
補単語群が得られる。
【0105】今、例えば図17に示される入力文字列1
01が記入されると、前述の図2のステップ201〜2
05の特定文字の認識処理によって、領域1701が特
定文字「都」、領域1702が特定文字「区」と認識さ
れる。
【0106】この認識結果に対して、候補単語検索部1
09は、上述した図3のステップ206で、特定文字辞
書110において空白文字と特定文字「都」とからなる
特定文字組のレコードを検出し、その登録レコードにリ
ンクする知識辞書111中のエントリから、その特定文
字組を構成する2つの特定文字によって挟まれる1つの
単語「東京」を検索して、その検索された単語を、空白
文字と特定文字「都」とからなる特定文字組に対応する
候補単語群として、候補単語バッファ112に保持す
る。この場合は、上記特定文字組に対する候補単語群の
数は1個で、図18に示されるように、、候補単語「東
京」の文字数は2文字となる。
【0107】また、候補単語検索部109は、後述する
図3のステップ211の判定の後に2回目に実行される
図3のステップ206で、特定文字辞書110において
特定文字「都」と「区」からなる特定文字組のレコード
を検出し、その登録レコードにリンクする図10に示さ
れる知識辞書111中のエントリから、その特定文字組
を構成する2つの特定文字によって挟まれる23個の単
語「千代田」「中央」「港」・・・を検索して、それら
の検索された単語群を、上記特定文字組に対応する候補
単語群として、候補単語バッファ112に保持する。こ
の場合は、上記特定文字組に対する候補単語群の数は2
3個となり、図19に示されるように、各候補単語の文
字数は、3文字、2文字、又は1文字の何れかとなる。
【0108】このようにして、候補文字列バッファ10
8から選択された1組の特定文字組に対して候補単語バ
ッファ112に候補単語群が得られた後、その候補単語
群に属する候補単語のそれぞれにつき、文字切り出し部
103、特徴抽出部105、及びマッチング部106
が、図3のステップ207〜211の一連の再認識処理
を実行することにより、各候補単語毎に所定順位までの
候補認識結果群を抽出する。
【0109】まず、文字切り出し部103は、イメージ
メモリ102から読み出される入力文字列101におい
て、候補単語バッファ112から出力された候補単語の
情報を使って、その候補単語が属する特定文字組を構成
する2つの特定文字に挟まれた文字列領域内の文字列を
再度切り出す(図3のステップ207)。
【0110】この場合、候補単語の文字数が例えば図1
8に示される「東京」又は図19に示される「中央」の
ように2文字である場合には、文字切り出し部103
は、前述した図6のステップ601〜604及び図7の
ステップ701で示される動作フローチャートに従っ
て、文字切り出しの対象となる領域を2分割して(前述
した数3式におけるn=2)、各文字の切り出し位置を
決定する。
【0111】また候補単語の文字数が例えば図19に示
される「千代田」のように3文字である場合は、文字切
り出し部103は、文字切り出しの対象となる領域を3
分割して(前述した数3式におけるn=3)、各文字の
切り出し位置を決定する。
【0112】更に候補単語の文字数が例えば図19に示
される「港」のように1文字である場合は、文字切り出
し部103は、文字切り出しの対象となる領域に1文字
のみが存在すると仮定する(前述した数3式におけるn
=1)。
【0113】次に特徴抽出部105は、再度切り出され
た文字列に対して1文字ずつ、前述したようにして特徴
ベクトルを抽出する(図3のステップ208)。更に、
マッチング部106は、上記各文字毎に、その文字の特
徴ベクトルと、第2の辞書である標準パターン辞書11
3内の各標準パターンの特徴ベクトルとの間のマッチン
グ処理を実行し(図3のステップ209)、マッチング
度が高い順に所定順位までの各標準パターンが属する各
字種カテゴリーを、上記文字に対する候補文字群として
候補文字列バッファ108に出力する(図3のステップ
210)。
【0114】より具体的には、マッチング部106が、
上記文字の特徴ベクトルと、標準パターン辞書113内
の各標準パターンの特徴ベクトルとの間で、例えば距離
(ユークリッド距離、マハラノビス距離等)を計算す
る。そして、マッチング部106は、距離が小さい順に
所定順位(n位)までの各標準パターンが属する各字種
カテゴリーを、上述の文字に対する候補文字群として候
補文字列バッファ108に出力する。
【0115】文字切り出し部103によって再度切り出
された文字列を構成する各文字のそれぞれについて、上
述のように距離が小さい順に所定順位までの候補文字群
が候補文字列バッファ108に得られた後、1つの特定
文字組について候補単語バッファ112に得られた候補
単語群に属する他の候補単語について、ステップ207
〜210の一連の処理が繰り返し実行される。
【0116】1つの特定文字組について候補単語バッフ
ァ112に得られた候補単語群に属する全ての候補単語
について、それぞれを構成する文字毎に所定順位までの
候補文字群が候補文字列バッファ108に得られると、
マッチング部106は、各候補単語のそれぞれについ
て、それぞれを構成する文字毎の所定順位までの候補文
字群の全てを組み合わせて候補文字列群を生成し、それ
に含まれる各候補文字列毎に、次式によってその平均距
離を計算する(図3のステップ212)。
【0117】
【数6】(D1 +D2 +・・・+Dm )/m ここで、mは対象候補単語の文字数であり、Di (1≦
i≦m)は、対象候補単語内のi文字目において対象候
補文字列を構成するために選択された候補文字の距離を
示す。
【0118】そして、マッチング部106は、1つの特
定文字組についての全ての候補単語に対応して生成され
た候補文字列群の中から、それを構成する各候補文字列
に対応する平均距離が小さい順に所定数(P個)の候補
文字列を選択し、それらを上記特定文字組を構成する2
つの特定文字により挟まれた文字領域の認識結果とし
て、知識処理部114に出力する。
【0119】このようにして、1つの特定文字組を構成
する2つの特定文字により挟まれた文字領域の認識結果
が得られると、再び図3のステップ213からステップ
206の処理に戻る。
【0120】そして、前述の図2のステップ201〜2
05の特定文字の認識処理によって候補文字列バッファ
108に得られている候補特定文字群の集合の中から隣
接する他の任意の2つの特定文字からなる他の特定文字
組が再び抽出され、その特定文字組に対して図3のステ
ップ206〜212の一連の制御処理が再び実行される
ことにより、その特定文字組を構成する2つの特定文字
により挟まれた文字領域の認識結果が算出されるという
動作が、各特定文字組毎に繰り返し実行される(図3の
ステップ213→206〜212→213の繰り返
し)。
【0121】知識処理部114は、各特定文字組を構成
する2つの特定文字に挟まれた各文字領域に対応する認
識結果に対して、記入フィールド定義104及び知識辞
書111を用いた知識処理によって、上記各文字領域か
らなる全体文字領域の最終認識結果を決定し、それを認
識結果バッファ115に出力する(図4のステップ21
4)。
【0122】以上説明した図2のステップ201〜図4
のステップ214の一連制御処理が帳票の記入フィール
ド位置毎に繰り返し実行されることにより、各記入フィ
ールドに対する最終認識結果が決定される(図4のステ
ップ215→図2のステップ201の繰り返し)。
【0123】上述の一連の認識処理において、認識条件
を最後まで満たさなかった文字又は文字列の部分につい
ては、リジェクト(認識不能)情報が付加される。この
場合に、認識結果バッファ115に得られた認識結果
が、インタフェース部116を介して表示部117に表
示される。ユーザは、表示部117での認識結果の表示
に対して、マウス及びキーボード等からなる入力部11
8から、認識不能文字/文字列を修正することができ
る。
【0124】ユーザは、入力部118から認識不能文字
/文字列中の特定の正解文字を指定するだけで、その正
解文字に関する情報がインタフェース部116から正解
文字バッファ119及び領域座標バッファ120に出力
される。
【0125】図21の例では、表示部117に、認識結
果2102と並列に、対象文字列のイメージ2101が
表示される。ユーザは、イメージ2101上の特定領域
2103を入力部118であるマウス等から指示する
と、それに対応する認識結果文字2104が強調又は反
転表示等される。この表示に対し、ユーザが、入力部1
18であるキーボード等から正解文字「都」を入力する
と、その正解文字「都」に関する情報がインタフェース
部116から正解文字バッファ119及び領域座標バッ
ファ120に出力される。当然、ユーザが、イメージ2
101上の例えば「東京」に対応する領域を指示し、そ
れに対応する認識結果「束長」を「東京」に修正する
と、その正解文字「東京」に関する情報がインタフェー
ス部116から正解文字バッファ119及び領域座標バ
ッファ120に出力される。
【0126】候補単語検索部109は、正解文字バッフ
ァ119に得られた正解文字に関する情報を特定文字の
情報として、前述した特定文字辞書110と知識辞書1
11を用いた候補単語の検索処理を実行することによ
り、認識不能文字を正しく再認識させることができる。
また、文字切り出し部103は、ユーザによって指定さ
れた正解文字の切り出し位置を領域座標バッファ120
から取得することによって、正しい文字の切り出しを実
行することができる。
【0127】また、図22の例では、表示部117に、
認識結果2202と並列に、対象文字列のイメージが表
示される。ユーザは、そのイメージ上の特定領域220
1を入力部118であるマウス等から指示すると、それ
に対応する認識結果文字2203が強調又は反転表示等
されると共に、指示部分に認識結果候補2204が表示
される。この表示に対して、ユーザが、入力部118で
あるキーボード等から正解文字「都」を選択すると、そ
の正解文字「都」に関する情報がインタフェース部11
6から正解文字バッファ119及び領域座標バッファ1
20に出力される。この場合に、指示部分に表示される
認識結果候補2204は、表示される文字の出現頻度
順、或いは住所文字列のように階層構造を有する場合に
はその階層構造による決定順、或いは単純に文字コード
順で表示されるように構成することができる。
【0128】図22の例に続いて図23に示されるよう
に、更に指示位置2301とそれに対応する認識結果位
置2302についても、同様の修正処理が行われること
により、文字列2303を正しく再認識させることが可
能となる。
【0129】ここで、各特定文字組を構成する2つの特
定文字に挟まれた各文字領域に対する再認識処理につい
て、前述した図3のステップ207〜212において
は、1つの候補単語を構成する文字毎に個別に再認識処
理が実行され、最終的にその候補単語に対する認識結果
が出力されるように構成されている。
【0130】この場合に、マッチング部106が標準パ
ターン辞書113上から検索する文字種が、候補単語が
属するカテゴリーの文字種に限定されることにより、効
率的な再認識処理が実現される。
【0131】一方、2つの特定文字に挟まれた文字領域
全体に対して、特徴ベクトルの抽出とマッチング部10
6によるマッチング処理が実行されるように構成されて
もよい。この場合には、標準パターン辞書113には、
「川崎」「横浜」「横須賀」・・・のそれぞれの単語を
1つのパターンとする標準パターンの特徴ベクトルが保
持され、マッチング部106は、1つの候補単語の全体
を1つのパターンとする特徴ベクトルと、標準パターン
辞書113内の各標準パターンの特徴ベクトルとのマッ
チング処理を実行する。
【0132】この場合に、マッチング部106が標準パ
ターン辞書113上から検索する単語群が、候補単語が
属するカテゴリーの単語群に限定されることにより、効
率的な再認識処理が実現される。
【0133】より具体的には、例えば住所文字列の認識
において、マッチング部106が標準パターン辞書11
3上から検索する単語群が、候補単語が属する階層レベ
ルを構成する単語群に限定されることにより、効率的な
再認識処理が実現される。
【0134】例えば、図20に示されるように、2つの
特定文字「県」と「市」に挟まれた領域の再認識処理に
おいて、標準パターン辞書113を、「川崎」「横浜」
「横須賀」・・・等の市を表わす単語群のみのものに限
定することができる。
【0135】また、例えば住所文字列の認識において、
上位レベルの認識結果が得られているときには、マッチ
ング部106が標準パターン辞書113上から検索する
単語群が、その上位レベルの認識結果に属しかつ候補単
語が属する下位レベルを構成する単語群に限定されるこ
とにより、更に効率的な再認識処理が実現される。
【0136】例えば、住所文字列のレベル1の認識結果
が「青森」である場合に、レベル2の標準パターンは、
2つの特定文字「県」と「市」に挟まれて出現し得る全
ての単語群ではなく、「青森県」に属する市を表わす単
語群に限定することが可能である。
【0137】上記とは逆に、例えば住所文字列の認識に
おいて、下位レベルの認識結果が得られているときに
は、マッチング部106が標準パターン辞書113上か
ら検索する単語群が、その下位レベルの認識結果が属し
かつ候補単語が属する上位レベルを構成する単語群に限
定されることにより、上位レベルの認識不能状態を救済
することもできる。本実施の形態を実現するプログラムが記録された記録媒
体についての補足 本発明は、コンピュータにより使用されたときに、上述
の本発明の実施の形態の各構成によって実現される機能
と同様の機能をコンピュータに行わせるためのコンピュ
ータ読出し可能記録媒体として構成することもできる。
【0138】この場合に、図24に示されるように、例
えばフロッピィディスク、CD−ROMディスク、光デ
ィスク、リムーバブルハードディスク等の可搬型記録媒
体2402や、ネットワーク回線2403経由で、本発
明の実施の形態の各種機能を実現するプログラムが、コ
ンピュータ2401の本体2404内のメモリ(RAM
又はハードディスク等)2405にロードされて、実行
される。
【0139】
【発明の効果】本発明の文字認識技術によれば、入力文
字列中の特定文字又は特定文字列がまず優先的に認識さ
れ、その認識結果に基づいてその前後の候補単語が仮定
され、更にその候補単語の情報を用いて入力文字列を構
成する文字が再認識されることによって、通常見かける
各種帳票(伝票)に記入されるような、不規則な間隔、
記入方法で記入された入力文字列を構成する文字を、高
い精度で認識することが可能となる。
【0140】本発明の文字修正技術によれば、特定の文
字又は文字列のみを修正するだけで、他の認識不能部分
も自動的に修正することが可能となる。本発明の表記ゆ
らぎの制御技術によれば、種々の記入方法に柔軟に対処
することが可能となる。
【図面の簡単な説明】
【図1】本発明の実施の形態の構成図である。
【図2】本発明の実施の形態の全体制御動作フローチャ
ート(その1)である。
【図3】本発明の実施の形態の全体制御動作フローチャ
ート(その2)である。
【図4】本発明の実施の形態の全体制御動作フローチャ
ート(その3)である。
【図5】記入フィールド定義のデータフォーマット例を
示す図である。
【図6】文字切り出し部の制御動作フローチャート(そ
の1)である。
【図7】文字切り出し部の制御動作フローチャート(そ
の2)である。
【図8】文字切り出し部の制御動作の説明図である。
【図9】表記のゆれについての制御動作フローチャート
である。
【図10】知識辞書(住所)の構造図である。
【図11】特定文字辞書の構造図である。
【図12】特定文字辞書110の構造例(その1)を示
す図である。
【図13】特定文字辞書110の構造例(その2)を示
す図である。
【図14】特定文字辞書110の構造例(その3)を示
す図である。
【図15】特定文字辞書110の構造例(その4)を示
す図である。
【図16】表記のゆらぎの制御動作の説明図である。
【図17】候補単語検索部の動作説明図(その1)であ
る。
【図18】候補単語検索部の動作説明図(その2)であ
る。
【図19】候補単語検索部の動作説明図(その3)であ
る。
【図20】標準パターン辞書による文字列検出/認識動
作の説明図である。
【図21】入力部と表示部の動作説明図(その1)であ
る。
【図22】入力部と表示部の動作説明図(その2)であ
る。
【図23】入力部と表示部の動作説明図(その3)であ
る。
【図24】本実施の形態を実現するプログラムが記録さ
れた記録媒体の説明図である。
【符号の説明】
101 入力文字列 102 イメージメモリ 103 文字切り出し部 104 記入フィールド定義 105 特徴抽出部 106 マッチング部 107 特定文字標準パターン辞書 108 候補文字列バッファ 109 候補単語検索部 110 特定文字辞書 111 知識辞書 112 候補単語バッファ 113 標準パターン辞書 114 知識処理部 115 認識結果バッファ 116 インタフェース部 117 表示部 118 入力部 119 正解文字バッファ 120 領域座標バッファ

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 所定カテゴリーを有する記入フィールド
    に記入された入力文字列を構成する文字を認識する文字
    認識方法であって、 前記入力文字列と第1の認識辞書との間で第1のマッチ
    ング処理を実行することにより、前記入力文字列中から
    特定文字又は特定文字列を抽出し、 前記所定カテゴリーに属し、かつ前記入力文字列中から
    抽出された各特定文字又は特定文字列の前後の前記入力
    文字列中の領域に位置する可能性のある候補単語群をカ
    テゴリー別単語辞書から抽出し、 該抽出された候補単語群に属する各候補単語毎に、該各
    候補単語に関する情報に基づいて該各候補単語が位置す
    る前記入力文字列中の各領域に対して第2の認識辞書を
    用いて第2のマッチング処理を実行することにより、前
    記入力文字列を構成する文字を認識する、 過程を含むことを特徴とする文字認識方法。
  2. 【請求項2】 請求項1に記載の方法であって、 前記第1の認識辞書に、前記特定文字又は特定文字列に
    対応する標準パターンを記憶し、 前記入力文字列のパターンと前記第1の認識辞書内の各
    標準パターンとの間で前記第1のマッチング処理を実行
    することにより、前記入力文字列中から前記特定文字又
    は特定文字列を抽出する、 過程を含むことを特徴とする文字認識方法。
  3. 【請求項3】 請求項1又は2の何れか1項に記載の方
    法であって、 前記第2の認識辞書に、前記候補単語群に属する候補単
    語に関連する文字又は文字列に対応する標準パターンを
    記憶し、 前記候補単語群に属する各候補単語毎に、該各候補単語
    に関する情報に基づいて該各候補単語が位置する前記入
    力文字列中の各領域に対して該各候補単語のパターンと
    前記第2の認識辞書内の各標準パターンとの間で前記第
    2のマッチング処理を実行することにより、前記入力文
    字列を構成する文字を認識する、 過程を含むことを特徴とする文字認識方法。
  4. 【請求項4】 請求項1乃至3の何れか1項に記載の方
    法であって、 前記各候補単語に関する情報として、該各候補単語の文
    字数の情報を使用する、 過程を含むことを特徴とする文字認識方法。
  5. 【請求項5】 請求項1乃至4の何れか1項に記載の方
    法であって、 前記第1の認識辞書として、該第1の認識辞書を含む前
    記第2の認識辞書を使用する、 過程を含むことを特徴とする文字認識方法。
  6. 【請求項6】 請求項1乃至5の何れか1項に記載の方
    法であって、 前記入力文字列と前記第1の認識辞書との間で第1のマ
    ッチング処理を実行することにより、前記入力文字列中
    から前記所定カテゴリーにおいて出現する頻度の高い特
    定文字又は特定文字列を抽出する、 過程を含むことを特徴とする文字認識方法。
  7. 【請求項7】 請求項1乃至5の何れか1項に記載の方
    法であって、 前記入力文字列と前記第1の認識辞書との間で第1のマ
    ッチング処理を実行することにより、前記入力文字列中
    から認識精度の高い特定文字又は特定文字列を抽出す
    る、 過程を含むことを特徴とする文字認識方法。
  8. 【請求項8】 請求項1乃至7の何れか1項に記載の文
    字認識方法を用いた文字修正方法であって、 前記入力文字列を構成する文字の認識結果を前記入力文
    字列と並列して表示し、 該表示される入力文字列上の所望領域を指定して該所望
    領域に対応する文字又は文字列を修正し、 該修正によって与えられた正解文字又は正解文字列に関
    する情報に基づいて、前記候補単語群の抽出処理及び前
    記第2のマッチング処理を再度実行することにより、 前記入力文字列を構成する文字を再度認識する、 過程を含むことを特徴とする文字修正方法。
  9. 【請求項9】 請求項8に記載の方法であって、 前記表示される入力文字列上の所望領域の指定に応答し
    て、該所望領域における複数の候補認識結果を表示す
    る、 過程を含むことを特徴とする文字修正方法。
  10. 【請求項10】 請求項1乃至9に記載の方法であっ
    て、 前記各候補単語に対して表記上のゆらぎを有する単語
    を、前記候補単語群に属する新たな候補単語として出力
    する、 過程を含むことを特徴とする文字認識方法又は文字修正
    方法。
  11. 【請求項11】 所定カテゴリーを有する記入フィール
    ドに記入された入力文字列を構成する文字を認識する文
    字認識装置であって、 前記入力文字列と第1の認識辞書との間で第1のマッチ
    ング処理を実行することにより、前記入力文字列中から
    特定文字又は特定文字列を抽出する特定文字/特定文字
    列抽出手段と、 前記所定カテゴリーに属し、かつ前記入力文字列中から
    抽出された各特定文字又は特定文字列の前後の前記入力
    文字列中の領域に位置する可能性のある候補単語群をカ
    テゴリー別単語辞書から抽出する候補単語群抽出手段
    と、 該抽出された候補単語群に属する各候補単語毎に、該各
    候補単語に関する情報に基づいて該各候補単語が位置す
    る前記入力文字列中の各領域に対して第2の認識辞書を
    用いて第2のマッチング処理を実行することにより、前
    記入力文字列を構成する文字を認識する入力文字列認識
    手段と、 を含むことを特徴とする文字認識装置。
  12. 【請求項12】 コンピュータにより使用されたときに
    それによって読み出されるプログラムを記録した記録媒
    体であって、 所定カテゴリーを有する記入フィールドに記入された入
    力文字列と第1の認識辞書との間で第1のマッチング処
    理を実行することにより、前記入力文字列中から特定文
    字又は特定文字列を抽出する機能と、 前記所定カテゴリーに属し、かつ前記入力文字列中から
    抽出された各特定文字又は特定文字列の前後の前記入力
    文字列中の領域に位置する可能性のある候補単語群をカ
    テゴリー別単語辞書から抽出する機能と、 該抽出された候補単語群に属する各候補単語毎に、該各
    候補単語に関する情報に基づいて該各候補単語が位置す
    る前記入力文字列中の各領域に対して第2の認識辞書を
    用いて第2のマッチング処理を実行することにより、前
    記入力文字列を構成する文字を認識する機能と、 を前記コンピュータに行わせるためのプログラムを記録
    したコンピュータ読出し可能記録媒体。
JP28328097A 1997-10-16 1997-10-16 文字認識方法 Expired - Fee Related JP3452774B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP28328097A JP3452774B2 (ja) 1997-10-16 1997-10-16 文字認識方法
CNB981074081A CN1140878C (zh) 1997-10-16 1998-04-23 字符识别方法,修正方法及字符识别装置
KR10-1998-0020532A KR100412317B1 (ko) 1997-10-16 1998-06-03 문자인식/수정방법및장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28328097A JP3452774B2 (ja) 1997-10-16 1997-10-16 文字認識方法

Publications (2)

Publication Number Publication Date
JPH11120293A true JPH11120293A (ja) 1999-04-30
JP3452774B2 JP3452774B2 (ja) 2003-09-29

Family

ID=17663415

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28328097A Expired - Fee Related JP3452774B2 (ja) 1997-10-16 1997-10-16 文字認識方法

Country Status (3)

Country Link
JP (1) JP3452774B2 (ja)
KR (1) KR100412317B1 (ja)
CN (1) CN1140878C (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010051459A (ko) * 1999-11-12 2001-06-25 가나이 쓰토무 지명표기사전 작성방법 및 지명표기사전 작성장치
JP2002279342A (ja) * 2001-03-15 2002-09-27 Ricoh Co Ltd 候補文字出力装置、候補文字出力方法および記録媒体
KR100582039B1 (ko) * 1999-05-06 2006-05-23 후지쯔 가부시끼가이샤 문자 인식 장치
JP2007011824A (ja) * 2005-07-01 2007-01-18 Hitachi Engineering & Services Co Ltd 文字列抽出方法および装置
JP2007042097A (ja) * 2005-07-29 2007-02-15 Fujitsu Ltd キー文字抽出プログラム、キー文字抽出装置、キー文字抽出方法、一括地名認識プログラム、一括地名認識装置および一括地名認識方法
KR100692327B1 (ko) * 1999-07-01 2007-03-09 가부시키가이샤 히타치세이사쿠쇼 지명 표현 방법, 지명 문자열 인식 방법 및 장치
KR100707943B1 (ko) 2005-04-27 2007-04-18 최철규 광학문자인식 기능을 활용한 재무제표인식 방법 및 그시스템
JP2007125556A (ja) * 2007-02-05 2007-05-24 Hitachi Omron Terminal Solutions Corp 地名表記辞書作成方法および地名表記辞書作成装置
JP2009080635A (ja) * 2007-09-26 2009-04-16 Canon Inc 画像検出装置及び方法
JP2013041540A (ja) * 2011-08-19 2013-02-28 Kyocera Document Solutions Inc 情報抽出装置
JP2013097784A (ja) * 2011-10-27 2013-05-20 King Abdulaziz City For Science & Technology (Kacst) 文字認識のための文字セグメントを自動的に識別する方法および装置
JP2018500705A (ja) * 2015-10-30 2018-01-11 小米科技有限責任公司Xiaomi Inc. 領域認識方法及び装置
JP2019185140A (ja) * 2018-04-02 2019-10-24 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
CN115131799A (zh) * 2021-03-24 2022-09-30 卡西欧计算机株式会社 字符识别装置、字符识别方法以及记录介质
JP2024064682A (ja) * 2022-10-28 2024-05-14 株式会社Tokium プログラム、コンピュータおよび情報処理方法

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004152036A (ja) * 2002-10-31 2004-05-27 Nec Saitama Ltd 文字認識機能付携帯電話機器及び認識文字の修正方法並びにプログラム
JP2005301664A (ja) * 2004-04-12 2005-10-27 Fuji Xerox Co Ltd 画像辞書作成装置、符号化装置、データファイル、画像辞書作成方法及びそのプログラム
JP2006065477A (ja) * 2004-08-25 2006-03-09 Fuji Xerox Co Ltd 文字認識装置
JP5411413B2 (ja) * 2007-07-09 2014-02-12 セイコーエプソン株式会社 文字入力装置およびテープ印刷装置
JP5338063B2 (ja) * 2007-10-31 2013-11-13 富士通株式会社 画像認識プログラム、画像認識装置および画像認識方法
JP2010217996A (ja) * 2009-03-13 2010-09-30 Omron Corp 文字認識装置、文字認識プログラム、および文字認識方法
JP5434586B2 (ja) * 2009-12-29 2014-03-05 オムロン株式会社 単語認識方法および単語認識用のプログラムならびに情報処理装置
JP6304979B2 (ja) * 2013-09-06 2018-04-04 株式会社東芝 知識処理装置、方法およびプログラム
JP6451316B2 (ja) * 2014-12-26 2019-01-16 富士通株式会社 文字認識プログラム、文字認識方法及び文字認識装置
CN107533651B (zh) * 2015-05-11 2021-05-04 株式会社东芝 识别装置、识别方法及计算机可读取的记录介质
CN106708793B (zh) * 2016-12-06 2018-06-08 掌阅科技股份有限公司 注释脚标识别方法、装置及电子设备
JP7114892B2 (ja) * 2017-12-13 2022-08-09 京セラドキュメントソリューションズ株式会社 画像形成装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02101596A (ja) * 1988-10-11 1990-04-13 Fujitsu Ltd 文字認識装置
JPH03257693A (ja) * 1990-03-08 1991-11-18 N T T Data Tsushin Kk 文字認識結果修正方式
JPH056464A (ja) * 1991-06-27 1993-01-14 Nec Corp 文字列認識方法及びその装置
JPH0589291A (ja) * 1991-09-27 1993-04-09 Sharp Corp 文字列認識装置
JPH064717A (ja) * 1992-06-19 1994-01-14 Pfu Ltd 漢字住所補正処理方法
JPH07262320A (ja) * 1994-03-18 1995-10-13 Matsushita Electric Ind Co Ltd 住所認識装置
JPH08171614A (ja) * 1994-12-20 1996-07-02 Nec Corp 文字列読み取り装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02101596A (ja) * 1988-10-11 1990-04-13 Fujitsu Ltd 文字認識装置
JPH03257693A (ja) * 1990-03-08 1991-11-18 N T T Data Tsushin Kk 文字認識結果修正方式
JPH056464A (ja) * 1991-06-27 1993-01-14 Nec Corp 文字列認識方法及びその装置
JPH0589291A (ja) * 1991-09-27 1993-04-09 Sharp Corp 文字列認識装置
JPH064717A (ja) * 1992-06-19 1994-01-14 Pfu Ltd 漢字住所補正処理方法
JPH07262320A (ja) * 1994-03-18 1995-10-13 Matsushita Electric Ind Co Ltd 住所認識装置
JPH08171614A (ja) * 1994-12-20 1996-07-02 Nec Corp 文字列読み取り装置

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100582039B1 (ko) * 1999-05-06 2006-05-23 후지쯔 가부시끼가이샤 문자 인식 장치
KR100692327B1 (ko) * 1999-07-01 2007-03-09 가부시키가이샤 히타치세이사쿠쇼 지명 표현 방법, 지명 문자열 인식 방법 및 장치
KR20010051459A (ko) * 1999-11-12 2001-06-25 가나이 쓰토무 지명표기사전 작성방법 및 지명표기사전 작성장치
JP2002279342A (ja) * 2001-03-15 2002-09-27 Ricoh Co Ltd 候補文字出力装置、候補文字出力方法および記録媒体
KR100707943B1 (ko) 2005-04-27 2007-04-18 최철규 광학문자인식 기능을 활용한 재무제표인식 방법 및 그시스템
JP2007011824A (ja) * 2005-07-01 2007-01-18 Hitachi Engineering & Services Co Ltd 文字列抽出方法および装置
JP2007042097A (ja) * 2005-07-29 2007-02-15 Fujitsu Ltd キー文字抽出プログラム、キー文字抽出装置、キー文字抽出方法、一括地名認識プログラム、一括地名認識装置および一括地名認識方法
JP2007125556A (ja) * 2007-02-05 2007-05-24 Hitachi Omron Terminal Solutions Corp 地名表記辞書作成方法および地名表記辞書作成装置
JP2009080635A (ja) * 2007-09-26 2009-04-16 Canon Inc 画像検出装置及び方法
JP2013041540A (ja) * 2011-08-19 2013-02-28 Kyocera Document Solutions Inc 情報抽出装置
JP2013097784A (ja) * 2011-10-27 2013-05-20 King Abdulaziz City For Science & Technology (Kacst) 文字認識のための文字セグメントを自動的に識別する方法および装置
JP2018500705A (ja) * 2015-10-30 2018-01-11 小米科技有限責任公司Xiaomi Inc. 領域認識方法及び装置
US10157326B2 (en) 2015-10-30 2018-12-18 Xiaomi Inc. Method and device for character area identification
JP2019185140A (ja) * 2018-04-02 2019-10-24 日本電気株式会社 画像処理装置、画像処理方法およびプログラム
US11482029B2 (en) 2018-04-02 2022-10-25 Nec Corporation Image processing device, image processing method, and recording medium
CN115131799A (zh) * 2021-03-24 2022-09-30 卡西欧计算机株式会社 字符识别装置、字符识别方法以及记录介质
JP2022148901A (ja) * 2021-03-24 2022-10-06 カシオ計算機株式会社 文字認識装置、文字認識方法およびプログラム
JP2024064682A (ja) * 2022-10-28 2024-05-14 株式会社Tokium プログラム、コンピュータおよび情報処理方法

Also Published As

Publication number Publication date
JP3452774B2 (ja) 2003-09-29
CN1140878C (zh) 2004-03-03
CN1215201A (zh) 1999-04-28
KR19990036515A (ko) 1999-05-25
KR100412317B1 (ko) 2004-03-31

Similar Documents

Publication Publication Date Title
JP3452774B2 (ja) 文字認識方法
US20210034849A1 (en) System and method of character recognition using fully convolutional neural networks with attention
JP3427692B2 (ja) 文字認識方法および文字認識装置
EP2166488B1 (en) Handwritten word spotter using synthesized typed queries
JP2713622B2 (ja) 表形式文書読取装置
EP1564675B1 (en) Apparatus and method for searching for digital ink query
JP3294995B2 (ja) 帳票読取装置
JP2005173730A (ja) 帳票ocrプログラム、方法及び装置
JP7282989B2 (ja) テキスト分類
KR20010093764A (ko) 어근 모델에 근거한 초서체 한자 주석의 검색법
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
JP4280355B2 (ja) 文字認識装置
JP2730665B2 (ja) 文字認識装置および方法
Shanjana et al. Offline recognition of malayalam handwritten text
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
JPH08320914A (ja) 表認識方法および装置
JP7591915B2 (ja) 書式定義装置、書式定義方法、及びプログラム
Al-Barhamtoshy et al. Arabic OCR segmented-based system
Kaur et al. Adverse conditions and techniques for cross-lingual text recognition
JP4117648B2 (ja) 帳票、帳票処理方法、帳票処理プログラム、帳票処理プログラムを記録した記録媒体及び帳票処理装置
Rao et al. Font and size identification in Telugu printed document
Hwang et al. Segmentation of a text printed in Korean and English using structure information and character recognizers
JPH08297718A (ja) 文字切り出し装置及び文字認識装置
JP2931485B2 (ja) 文字切出し装置及び方法
JPH11120294A (ja) 文字認識装置および媒体

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030708

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080718

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090718

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100718

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100718

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110718

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110718

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120718

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120718

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130718

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees