[go: up one dir, main page]

JPH06508465A - 文字ビットマップにおける終点特性を測定する手段を用いる文字認識システム及び方法 - Google Patents

文字ビットマップにおける終点特性を測定する手段を用いる文字認識システム及び方法

Info

Publication number
JPH06508465A
JPH06508465A JP5517685A JP51768593A JPH06508465A JP H06508465 A JPH06508465 A JP H06508465A JP 5517685 A JP5517685 A JP 5517685A JP 51768593 A JP51768593 A JP 51768593A JP H06508465 A JPH06508465 A JP H06508465A
Authority
JP
Japan
Prior art keywords
character
output
elements
end point
bitmap
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5517685A
Other languages
English (en)
Inventor
ラオ アラン
Original Assignee
イーストマン・コダック・カンパニー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by イーストマン・コダック・カンパニー filed Critical イーストマン・コダック・カンパニー
Publication of JPH06508465A publication Critical patent/JPH06508465A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるため要約のデータは記録されません。

Description

【発明の詳細な説明】 文字ビットマツプにおける終点特性を測定する手段を用いる文字認識システム及 び方法 発明の技術分野 本発明は文字認識技術に関する。より詳細には、活字体文字の機械認識における 誤りの発生する余地を効果的に改良するためのシステム及び方法に関する。
背景技術 手書き文字の機械認識のためのコンピュータ技術は、近年著しく進歩している。
特定の文字認識手順(character recognition proc edure )による誤り率と人間による誤り率の発生の差が縮小し続けている ことから、この誤り率をさらに縮小することは達成がより困難になってきている 。例えば、二二一うルーネソトワークに基づくアルゴリズム(neura+−n etwork−basea algorithms )の場合、この困難さのた めに、今までよりも大きいトレーニングデータを用いても誤り率の向上はごくわ ずかである。
この現象に鑑み、機械に基づく認識プロセスの誤り率を低減させるための1つの 技術として、相関性のない誤りを有する(つまり、異なる種類の誤りを生じる) 複数の認識手順を同時に用いて、全体の性能を強化してきた。この異なる手順は 、完全に異なる(それゆえに共有不可能な)中間ステップを有することがよくあ り、そのすべてのステップがそれぞれの文字に対して行われなければならないた め、この技術にはかなり苛酷にコンピューターに負担(penalty )が要 求される。
より有効的な技術としては、はとんどの文字に対しては1つまたは2.3の独立 した手順を同時に用い、低基準の信頼を育する文字に対してのみ、さらに独立し た手順を用いてきた。この技術は認識誤り率を改善するが、これに関連するコン ビ二一夕の負担もかなりある。さらに、この技術は、相当に正確な信頼度基準供 する手順と共にしか効果的に使用することができない。
より詳細には、従来の光学的文字認識(OCR)システムは、通常、認識しよう とする文字と同数の出力を有する。人力された文字は、通常、出力の値を調べる ことにより識別される。もっとも簡単な方法の1つは、最大(最小)値を存する 特定の出力に対応すると認識される人力文字に対して文字を選ぶ方法である。
信頼度基準もまたこの出力値の関数である。その最も基本的な形においては、最 大(または最小)出力値が信頼度の基準となる。これよりわずかに性能の良い信 頼度基準が最大出力とその次に高い出力の間の割合として決定できる。しかし、 信頼度基準の正確さは、測定方法の間で、及び異なるOCR手順の間で大幅に変 わる。
このように、この技術分野においては、特定のOCR手順の誤り率と人間による 誤り率の間の発生余地の差を低減するより効果的な技術が必要とされている。
発明の開示 従って、本発明の目的は、文字認識システム及び方法の誤り率を効果的に低減す るための技術を提供することである。
別の目的は、「最適な」信頼度基準が低いときにのみ新たな文字特性を測定する ことにより、特性に基づく文字認識システムの性能を向上することである。
本発明のさらに別の目的は、文字ビットマツプからストローク終点の位置及び方 向をすばやくかつ効果的に獲得することである。
上記の及びその他の目的は、本発明の教示に従い下記の方法により達成される: 光学的文字認識(OCR)手順により生成された信頼度基準が低い場合にのみ、 迅速に計算可能な特性に基づき、認識されるべき入力文字のそれぞれから簡単な 符号(signature )を効果的に構成し、この符号を用いてその文字に 対する改良された選択を行う。本発明のアプローチの成功への鍵となるのは、O CR手順と共に用いた場合のこの符号の質と手順の信頼度基準の正確さである。
物体における不連続な湾曲(curvature discontinuiti es )は、人間の知覚に対して強い影響を有する。この概念を手書き文字にま で拡張することにより、ストローク終点の位置及び方向が文字識別に対して非常 に価値のある特性であることが判明した。このように、本発明ではこの情報を認 識のプロセスに組み込んでいる。
より詳細には、本発明は画素の電荷モデル(charge model)に基づ く、文字−特性a+定技術を利用する。文字の終点は、各画素の「電位」を計算 し、しきい値を供給することにより位置決めされる。2値符号(a binar y signature)はこの情報から構成される。それにより、符号及び関 連する文字のデータベースが、文字ビットマツプの大きいトレーニングセットを 用いて構成される。実際の使用の間は、OCR手順からの低い信頼度基準により 、符号発生プロセスが開始される。
この符号は、すてに作成されたデータベースから可能性のある文字のリストを呼 び出すのに用いられる。この文字リストを用いて、OCR手順によって発生した 第1と第2の選択の間の決定がなされる。
詳細には、トレーニング段階(training phase)においては、既 知のビ・ノトマソブされた文字は終点位置決め手順に供給される。終点位置及び 方向情報が検出され、処理されて、各文字の符号を構成する2値列(binar y Strtng ) (1と0の列)を生じる。各エントリーが1つの符号及 び候補になる可能性のある文字の関連する列を構成している、データベースが形 成される。
本発明の1つの特徴は、人力された文字を、定められた文字セットのうちの特定 の要素であると識別する文字認識システム及び方法に向けられたものである。
より詳細には、文字入力装置は、入力された文字の文字ビットマツプを生成する 。
文字認識手順はこの文字ビットマツプを処理し、信頼度基準のセットを発生する 。
すなわち、文字セットのそれぞれの要素に対して信頼度基準を生成する。この信 頼度基準は、人力された文字が、文字セットの要素に対応する信頼度の程度を表 す。この信頼度基準がテストされ、最高程度の信頼を有する信頼度基準が受け入 れ可能な信頼度基準であるかが判断される。第1出力装置は、受は入れ可能な信 頼度基準を有する文字セットの要素を、出力文字として報告する。受は入れ可能 な信頼度基準がない場合は、拡大器(augIIenter )が(N)番目ま での最高信頼度基準を有する(N)個の要素を候補として識別し、さらにビット マツプを処理する。この拡大器はビットマツプの文字特性を測定する。第2出力 装置は、この文字特性の測定に基づき、(N)個の要素のうちの1つを出力文字 として報告する。
本発明の別の特徴によれば、文字ビットマツプは拡大器によって分析され、スト ローク終点情報が得られる。ストローク終点情報は文字列−符号の複数の対を有 する学習された終点データベース(a 1earned endpoint d atabase )と比較される。データベースの文字列と候補文字が一致すれ ば、この一致したものが用いられ出力文字を報告する。終点位置及び方向は、ビ ットマツプを電荷分布(charge distribution )として形 成することにより得られる。電位プロファイル(p。
tentjal prorile )が構成され、しきい値が定められ(thr esholded ) 、その結果がある領域に結集され、終点位置が得られる 。電位プロファイルの勾配を用いて終点の方向が得られる。
図面の簡単な説明 本発明の教示は、添付の図面に関連して以下の詳細な説明を考慮することにより 容易に理解することができる。図面において、図1は本発明の教示に従って組み 立てられたOCRシステムの好適な実施例のブロック図である。
図2は図1のOCRシステムのフローチャートである。
図3は2次元の文字ビットマツプの概略図である。
図4は図2のフローチャートの終点拡大器部分を詳細に示したコンピュータフロ ーチャートである。
図5は図3に示されるタイプの文字ビットマツプの計算された電位プロファイル を示した3次元のグラフである。
図6は図3の文字ビットマツプのストローク終点と識別された領域を示す、図3 と同様の概略図である。
図7は本発明の理解に役立つ空間及び方向のビン(bin )を示した3次元の 図である。
理解を容易にするために、可能な場合は、図面を通して同一符号は同一要素を示 す。
発明の実施様態 図1について説明する。 図1は、文字入カシステム18を有する光学的文字認 識(OCR)システム15を示す。文字入カシステム18は、従来の光学的走査 システム、ディジタイザ/ペンシステム、またはその他の文字入力装置でもよい 。入カンステム18はディジタルコンピュータ17に接続される。本発明に従っ て組み立てられた文字認識プロセッサ20が、コンピュータ17に内蔵されてい る。適当な出力装置16がコンピュータ17の出力に接続されている。出力装r I116は、プリンタ、ディスク記憶装置、表示装置、データ送信器またはプロ セッサ20によって出力された文字を表示し、記憶し、または送信するための同 様の装置である。
一般的に、OCRシステム15の動作は次の通りである。このシステムは、第1 に、入力システム18によって、従来の方法で文字を読み取る。入力文字は、通 常、機械プリントのまたは手書きの文字と数字の組み合わせによるテキストのグ レースケールイメージである。コンピュータ17への入力は、通常、人力システ ム18内に生成されたグレースケールイメージデータをしきい値決めすることに よって得られる2値列である。プロセッサ2oは、この2値列をビットマツプの セットとして、つまり走査された各文字に対して1つのビットマツプを記憶する 。プロセッサは次にこのビットマツプを処理し、内部に格納された文字のデータ ベースから出力文字を選択する。選択された出力文字は出力装置16に送信され る。
図2において、通常はソフトウェアによって実現されるプロセッサ2oが詳細な フローチャートに示される。ビットマツプ作成ステップ19において、プロセッ サ20はシステム18によって入力される2値列からビットマツプを作成する( 図1参照)。ビットマツプは、コンピュータ17の適当な記憶位置(例えばディ スクファイル)に記憶される。
図3は、多数の画素位置において活字のまたは手書きの文字rAJを走査した結 果得られるタイプのビットマツプ30を概略的に示したものである。ビットマツ プ30は、ここでは、縦行X及び横列yに並べられた画素位置の方形アレイとし て示され、各画素位置は黒または白の画素のどちらかにより占められている。
図3においては画素はドツト(黒点)またはダッシュ(点線)のアレイとして示 されている。
より詳細には、図3に示される例では、ビットマツプ3oは全体で39縦行、6 0横列を構成する。従って、ビットマツプ3oは2.340の画素位置を有する 。白の画素はダッシュによって示され(占められていない画素位置)、黒の画素 はドツト(占められている画素位置)によって示される。ビットマツプ3oにお ける文字rAJは、ストローク終点32−35を含む多数の文字特性を育する。
当然ながら、文字ビットマツプ30は2.340ビツトの2値列(「1」とrO Jの列)としてコンピュータ17に記憶してもよい。
図2に示されるように、ビットマツプを形成し記憶した後、プロセッサ2oは読 み取りステップ21において、ビットマツプされた文字をその記憶位置から呼び 出す。フォーマットステップ22において、ビットマツプを標準サイズにデスキ ューイング(de−skcwing)及び標準化する従来の機能を行うことによ り、呼び出されたビットマツプデータは処理の準備がされる。次に、プロセッサ 2oはOCRステップ23において、OCR手順に従ってビットマツプデータを 処理する。
説明のために、OCR手順は、こ二ではビットマツプ3oの2.340画素に対 応する2、340の入力と、読み取られる可能性のある文字の総数、つまりアル ファベットの26の大文字と0から9までの10のディジットに対応する例えば 36の出力を有する従来のニューラルネットワーク(neural net警o rk)と想定される。
信頼度基準ステップ24においては、OCRステップ23においてOCR手順に より生成された36の出力を用いて、この可能性のある36文字のそれぞれに対 する信頼度基準を獲得する。前述のように、従来のOCRシステムの多くが、信 頼度基糸として二の36の出力自体を使用している。例えば、OCRステップ2 3におけるビットマツプの処理と同時に、OCR手順はある数、通常は0と1の 間の数を、この可能性のある36文字のそれぞれに割り当てる。これらの割り当 てられた数の値は、通常、OCR手順によって用いられた基準に基づき、処理さ れたピントマツプがさまざまな文字のそれぞれに対応する程度を示す。このよう に、これらの36の割り当てられた数が信頼度基準として直接用いられても良い 。その他のOCR手順では、より正確な信頼度基準が生成されることがよくある 。例えば、信頼度基準は、36の割り当てられた数の複素数関数のセットを計算 することによって生成することもてきる。相当に正確な信頼度基準を確保するこ とにより、出力文字の最終的な選択において、かなりの正確さが得られたことが 確認される。
より詳細には、OCRステップ23からの割り当てられた数の少なくとも1つは 、多くの場合、相対的に高い値を有する。したがって、特に、その割り当てられ た数がその次に高い割り当てられた数よりもかなり高い数値である場合、すなわ ち、最高値を割り当てられた2つの数の割合が1に近くない場合は、その対応す る文字は通常出力文字として選択される。しかしながら、他の状況においては、 割り当てられた36の数のすべてが非常に低かったり、または、2つ以上の割り 当てられた数が、高くはあるが、非常に近い数値で、それらの割合が1に非常に 近いという場合が起こり得る。このような場合には、出力文字の選択は明確では ない。実際に、最も高い割り当てられた数を有する文字は正しい選択ではない場 合がある。このような問題のある場合においては、最終選択の正確さは、本発明 を用いてビットマツプを処理し、OCRステップ23において識別された2、3 の最適な候補の中からさらに選択を行うことにより改善される。
判断ステップ25において、プロセッサ20は、前述の所定の基準に従って、「 最適な」信頼度基準か受け入れ可能であるか、つまりrOKJであるかを判断す る。「最適な」信頼度基準が受け入れ可能であれば、その「最適な」信頼度基準 を有する文字が、出力ステップ26において、出力文字として報告される。一方 、「最適な」信頼度基準がroKlてない場合は、例えば最も高い割り当てられ た数を有する2つ以上の文字が候補として識別され、拡大器ステップ27におい て、異なる基準(例えば、終点位置及び方向)を用いてビットマツプがさらに処 理され、現在認識されている文字に対する適切な出力文字を選択する。出力ステ ップ26、あるいは拡大器ステップ27において出力文字が選択されると、判断 ステップ28を介して、すべてのビットマツプが処理されるまで、プロセスステ ップが繰り返される。
前述のように、OCR手順の多くはストローク終点情報を直接利用しないため、 その他の特性だけに基づいて識別できる文字を、誤って識別する二とが多い。多 くの手書き文字のストローク終点の位置及び方向は、文字4鷹において非常に価 値のある特性であることが判明した。
図4は、図2に示された拡大器ステップ27において用いられる終点拡大器40 のフローチャートである。終点拡大器40の具体的な実施は付録Aに示される。
付録Aは、UNIXオペレーティングシステムを実行するSun 5PARCs tationのコンピュータ言語“C゛で書かれたコンピュータプログラムのリ ストである。(“5PARCstat ion”はサンマイクロシステム株式会 社の登録商標であり、“UNIX’は、アメリカン電信電話会社の登録商標であ る。
)以下の記述及び図4は、四角枠に囲まれたプログラムラベルによって付録Aの プログラムセクションを説明している。
終点拡大器40は、文字ビットマツプの終点の位置及び方向を測定する、特性に 基づく手順である。(例えば、図3の終点32−35参照。)判断ステ・ツブ2 5によって開始された(図2参照)終点拡大器40は、図4の読み取りステ・ノ ブ41において、ビットマツプ形成ステップ19(図2参照)で形成されたと・ ノドマツプを読み取る。読み取りステップ41は、プログラムセクション[ge t−paint 1ist()コにおいて行われる(付録A参照)。
次に、終点拡大器40は、ストローク終点の位置及び方向をめてビットマ・ツブ を分析する。この機能を行うために、終点拡大器40はまずビットマ・ツブをポ イント分布関数(point distribution runction  )として処理し、次にその電位プロファイル(potential profi le ) V (x、y)を検出する。ここで、X及びyはビットマツプにおけ る画素位置の直交座標である。これらの機能は電位プロファイルステップ42( 図4膠照)において行われる。電位プロファイルステ・ノブ42は、プログラム セクション[5etup delta v 01 [compute pote ntials Oコ (付録A)に対応する。
より詳細には、ビットマツプ30(図3参照)の黒の画素(ドツト)のセ・ソト が、ボワソン微分方程式により電位関数V (x、y)に関連するポイント分布 関数を構成する。プロセスを簡略化するために、ビットマツプ30の黒の画素の それぞれは静電荷(例えば負の電荷)として形成される。ビットマップ30全体 は、誘電体表面上の電荷分布として形成される。このモデルを用いることにより 、電位関数V (x、y)は電荷分布により生成される電位(ボルト)に対応す る。ビットマツプ30に対する電位Vの電位プロファイルは、下記に示す式(1 )のボワソン微分方程式を用いて計算される。
上記の式において、V−V(x、y)(電位プロファイル)ρは任意のポイント における電荷密度、εは比誘電率。
実際には静電荷は含まれていないので、いくつかの簡略仮定がこのモデルに対し 行われる。第1に、式(1)の右辺には、黒の画素位置における定数及びそれ以 外の位置におけるゼロ(白の画素)を代入できる。さらに、電位V (x、y) に対する正確な解答は要求されないので、各電荷(黒の画素)はその周辺にわす かな影響力しか持たないと仮定される。これらの仮定により、この電荷に基づく モデルを使用した場合、電位プロファイルV (x、y)を得るためのプロセス かかなり加速される。
図5は、図4の電位プロファイルステップ42において計算される通常の電位プ ロファイルV (x、y)を示す。図5から、端部方向に位置する黒の画素が比 較的低い電位Vを有することが明らかである。さらに、文字の末端部(例えば、 ストローク終点32−35)に位置する端部画素は、最も低い電位Vを有し、し きい値決めによりビットマツプから孤立される(isolatea)。しきい値 決めは、しきい値決めステップ43(図42照)及びプログラムセクション[b elongs to corner ():において行われるプロセスである。
図6は、図3のビットマツプ30のしきい値決めされた画素を示す。
通常は、4つの終点32−35のように複数の終点があり、さらに、各終点は複 数の画素を含むので(図6参照)、図4に示される終点拡大器40のしき(旭値 決めステップ43を行うたけては不十分である。つまり、しきい値決めされた画 素の隣接する領域が集結され、集合領域が形成されなければならない。集合領域 は領域形成ステップ44に及びプログラムセクション[build conti guous regions ()1 、[mark regionsOJlこ お()で配置される。この領域形成機能は、しきい値決めされた画素のx−y位 置を検出し、互いに隣接する画素を配置することにより行われる。続いて、隣接 する画素が領域に結集される。図6には、4つの領域が例示されている。
このように、領域の位置が図4に示される領域位置ステ・ツブ45にお0て決定 される。ステップ45は、プログラムセクション[get region 1n to O]において行われる。領域位置は、その平均性−列座[xi及びyiを 次のように検出することにより決定される。n個の領域と、1番目の領域におけ るkl@のポイントがある場合、下記の式(2)及び(3)によってめられる。
次に、領域方向が領域方向ステップ46において決定される。領域方向ステ・ノ ブ46は、プログラムセクション[get region 1nfo O]及び [gradient 01に対応する。領域方向は、まず電位Vの勾配Fを検出 することにより決定される。すなわち、F (x、Y)−grad V (x、 y)である。静電荷モデルを用いることにより、Fはポイント(x、y)におけ る電界に対応する。Fのx−y要素を用いることにより、領域方向が式(4)に よって次のように与えられる。
上式において、呼及び Fγ は、それぞれ、その勾配のX及びy要素であり、 θは、X軸から左回りに測定された角度である。
図6は、グラフにより、図2の手書き文字“A”の終点32−35に対して生成 された領域の空間的位置、及び終点32−35が方向づけられる角度θ1を示す 。具体的には、終点32は269度で下方に方向付けられる。終点32とほぼ平 行位置にある終点33は、271度に方向付けられる。終点35は60度に、終 点34は342度に方向付けられる。
次に、処理されているビットマツプの終点位置及び方向の2値符号が、図4の符 号ステップ47において計算される。このステップ47は、プログラムセクショ ン[hc packed bin filterO] [get packed  binary features 01及び[get packed bin ary fvO]に対応する。2値符号は、空間的及び方向の広がり(dime nsions)を、ここではXビン、Xビン、及びθビンと定められる多数のビ ンに分割することにより形成される。(付録Aのプログラムの被定義定数(de fined c。
n5tant) XB I NS、 YB INS及びTHETA BINS参 照。)図6に示されるように、ビットマツプ30の領域は、Xおよびyビンに対 応する9の領域に分割される。X及びyビンの境界は、それぞれx−1,13, 26,39、y−1,20,40,60の位置である。
Xビン、yビン、及びθビンのそれぞれは、終点位置及び方向の特定の組み合わ せを表す。図7には、3個のXビン、3個のyビン、及び4個のθビンがある状 況が例示される。少なくとも1つの領域がその範囲内に当たれば単位元の値(1 )が割り当てられ、そうでない場合はOが割り当てられる。この規則に基づき、 図7のビン35′ には次の理由から1が割り当てられる= (1)図6の対応 するX及びyのビンが終点35を含む。(2)終点35は60度の方向を有する 。
同様に、終点32.33.34の位置及び方向にそれぞれ対応するので、ビン3 2’ 、33’ 、34°には全て1が割り当てられる。その他の終点が配置さ れていないので、その他のビンのそれぞれには0が割り当てられている。最終的 に、これらの1及び0を所定の方法で配列し、図7に示されるような2値打号ベ クトルを形成する。
この符号ベクトルは、図4に示される比較ステップ48において、符号ベクトル 及びそれに関連する文字列の記憶データベースに比較され、この文字列の要素と 「最適な」信頼度基準を有する識別された候補文字の間で文字の一致を行う。
一致するものが1つだけの場合、出力ステップ49において、その一致した候補 文字が出力文字として報告される。複数の一致する候補文字がある場合は、最高 値の信頼度基準を有する一致文字が出力ステップ4つにおいて出力文字として報 告される。
符号データベースはトレーニング段階(training phase)の間に 生成される。
このデータベースは、構造体のアレイとして(as an array of  5tructures ) :1ンピユータ17に記憶される。これに関し、プ ロセッサ20はトレーニングセット、すなわち多数の既知の文字ビットマツプに より訓練される。プロセッサ20は既知のビットマツプのこのトレーニングセッ トを終点拡大器40に供給し、ここで処理する。符号ステップ47において各符 号ベクトルが形成されると、このベクトル及び関連する文字が符号データベース に記憶される。符号データベースは、符号−文字列の対のリストから成る。さら に、各符号がトレーニングセットの処理中に発生した(encour+ter  )回数も含まれている。符号−文字列の6対において、文字列は対応する符号を 発生したトレーニングセットのすべての文字を含んでいる。
以下に示す表Aは、さまざまなソース(ディジタイザ、スキャナ、及びその他) から収集した大きいトレーニングセット(約10,000文字)を用いて作成さ れたデータベースのセクションを列挙したものである。簡潔性のために、ここで 示すデータベースセクションには9要素(3x 3 x 1)の2値符号が示さ れている。この符号には位置情報は示されていない。表Aの第1エントリーは、 このトレーニングセットが、同じ符号を21回発生した文字0,2.4、CSG のビットマツプを含むことを示している。第2エントリーは、文字セットの全て の要素(36文字)を含む文字セットが2.384回、終点を生成することに失 敗したことを示す。この点に関し、終点を得られないのには多くの理由が考えら れる。
たとえば、文字にはしばしば終点がない(たとえばO)、あるいは、終点のスト ロークが読みとるのに十分な大きさでなかったなどである。
表A 訓練データベース oloooloo。
01234567B9ABCDEFGHIJKLMNOPQRSTUVWXYZ  2384oooooooo。
02345678BDFGHJKLMNOPRTUVWXYZ 4051ooo oooo。
01569PGUKMNSTWXY 4610145689CEFG工JKMI NPR5XY 416oo1ooooo。
02359kBDEFG工JKXNPR5XY 560oooooo1o。
0124568ABCDEFGH工、7KLMNOPQR5UWXY 5590 48HJKMNUWY コロ 0CEFGX 45 146H工JKSY 72 145789ABCDFG、TLPQSTUVY 181ooooooo1゜ IKTW 58 17A工KX 8 12ABぴXα 320 137BDJKPTY 107 00001013567ABDHIJK 123127E1(KLMRUXZ  290 12AcEGHKLMQUZ 141 2ABDEFTX 12 2EGMQRD oooooooll 2ABCEFGLZ 53 oooootoo。
2EHLUZ 122 2M 7 100001001゜ 279ACDEGHKLMNQRTUZ コ2ooo1oooo。
267EGZ 13 27AQRTUZ 20 2Eと 6 2H工KMRXYZ 69 23567BDEFH工、:TKKPRXYZ 223付録Aの複数のプログラ ムセクションが図4の比較ステップ48に対応する。
プログラムセクション[hc packed bin 1oad □コは、デー タベースをファイルからロードする。 1m5earch□]及び[mfind Oコのセクションは、データベースのメトリックサーチ(metric 5ea rch )を行うことにより符号を調べ、次に特定の一致基準に見合った要素の リストを戻すために用いられる。この場合、相対的なハミング距離メトリック法 が用いられる。
(プログラムセクション[5ubsethood O] [relative  hamming distance O] [num ones O] [xo r 01[andO]参照。)出力ステップ49はプログラムステップ[get  1ndexOコに対応する。
多項式に基づ<OCR手順が用いられ、DECstation 3100タイプ ワークステーシヨンに取り付けられたGTCディジタイザ/ベンによって発生す る3600文字ビットマツプに関するプロセッサ20の性能がテストされた。
(“DECstation”は、ワークステーションも製造するディジタル イ クワイブメント コーポレーシヨンの商漂である。)多項式アルゴリズムは、終 点拡大器40を使用せずそれだけで用いた場合、92.42%の正確さを得た。
終点拡大器40と組み合わせると、正確さは94.14%にまで向上し、エラー を22.7%低減できる。
上記の教示を鑑みて本発明の多くの修正及び変更が可能であることは明かである 。従って、本発明は、添付のクレームの範囲内で、前述の特定の方法以外でも実 行できることが了解されよう。
産業上の応用及び利点 本発明は、光学的文字認識(OCR)システムとの関連において有益である。
詳細には、そのようなシステムとともに用いられた場合、本発明は、従来の技術 において獲得可能であった以上に、文字4歳の正確さを有利に増加できる。
付録A この付録は、UNIXオペレーティングシステムを実行するSun 5PARC stationの、コンピュータ言語“C2で書かれたコンピュータプログラム リストから成る。(“5PARCstation”はサンマイクロシステム株式 会社の登録商標であり、“UNIX”は、アメリカン電信電話会社の登録商標で ある。) このプログラムリストは終点セグメンタ40の実施である。
図1 図2 図4 ン [getJoint−1ist(]] [comFe」atentialsO]delta301 しきい値決め 43 [belongs Jo corner Q ]図7

Claims (1)

  1. 【特許請求の範囲】 1 入力された文字を、定められた文字セットの特定の要素として識別する文字 認識システムであり、 入力された文字の文字ビットマップを生成するためのビットマップ手段と、前記 文字ビットマップを処理し、前記文字セットの各要素に対し1つづつの信頼度基 準のセットを生成し、前記信頼度基準は前記入力文字が前記文字セットの要素に 対応する程度を表す文字認識手段と、最高程度の信頼を有する信頼度基準が受け 入れ可能な信頼度基準であるかを判断する判断手段と、 前記受け入れ可能な信頼度基準を有する前記文字セットの要素を、出力文字とし て報告するための第1出力手段と、 前記判断手段が受け入れ可能な判断基準がないと判断した場合、前記要素のうち のN番目までの最高信頼度基準値を有するN個の要素を識別し、前記ビットマッ プを処理し、前記ビットマップの文字特性を測定するための測定手段と、前記文 字特性の前記測定に基づき、前記N個の要素のうちの1つを出力文字として報告 するための第2出力手段と、を有する拡大器手段と、によって特徴づけられる文 字認識システム。 2 請求項1記載のシステムにおいて、前記拡大器手段は、文字列のデータベー スを有するデータベース手段により特徴づけられ、各前記文字列は前記文字セッ トのサブセットを含み、各前記サブセットの要素は前記測定手段により測定され た前記特性を共通に有するシステム。 3 請求項2記載のシステムにおいて、前記測定手段は前記ビットマップのスト ローク終点の位置を測定することを特徴とするシステム。 4 請求項3記載のシステムにおいて、前記測定手段は前記ストローク終点の方 向を測定することを特徴とするシステム。 5 請求項4記載のシステムにおいて、前記データベース手段は、それぞれが前 記文字列の1つに関連する独自のデータベース符号により特徴づけられ、前記測 定手段は前記ストローク終点の前記位置及び方向に関する検索符号を生成するた めの手段から成り、前記拡大器手段は、前記検索符号に応じて前記データベース 符号を検索し出力文字列を識別し、前記出力文字列とN番目までの最高信頼度基 準値を有するN個の要素との間の一致を行うための検索手段から成ることを特徴 とするシステム。 6 請求項5記載のシステムにおいて、第2出力手段は次の規則に従い前記N個 の要素の1つを出力文字として報告することを特徴とする;前記N個の要素のう ちのただ1つと前記出力文字列の間に一致がある場合、その一致した要素を出力 文字として報告する;前記N個の要素の2つ以上と前記出力文字列の間に一致が ある場合、最高信頼度基準値を有する一致した要素を出力文字として報告する; 前記N個の要素と前記出力文字列の間に一致がない場合、最高信頼度基準値を有 する要素を出力文字として報告する。 7 請求項6記載のシステムにおいて、Nは2と同値であることを特徴とするシ ステム。 8 請求項6記載のシステムにおいて、前記測定手段は、前記ビットマップの電 荷分布モデルに基づき電位プロファイルを形成するための電荷モデル手段と、前 記電位プロファイルをしきい値決めし、前記しきい値決めされたプロファイルを 結集して前記ストローク終点の位置を決定するための位置手段とにより特徴づけ られるシステム。 9 請求項8記載のシステムにおいて、前記測定手段は、前記電位プロファイル の勾配を獲得し前記ストローク終点の前記方向を決定するための勾配手段により さらに特徴づけられるシステム。 10 N個の候補文字のうちのどれが定められた文字セットのうちの特定の要素 を表すかを識別するストローク終点検出器であり、入力されたビットマップを読 み出すためのビットマップ手段と、文字列のデータベースを有するデータベース 手段であり、前記文字列のそれぞれが前記文字セットのサブセットから成り、各 前記サブセットの要素が共通ストローク終点特性を有するデータベース手段と、 前記文字ビットマップのストローク終点特性を測定するための測定手段と、前記 測定手段に対応し、前記データベースを検索し、出力文字列を識別し、前記出力 文字列と前記N個の候補文字をの間の一致を行うための検索手段と、前記検索手 段に対応し、一致する候補文字を出力文字として報告するための出力手段と、 により特徴づけられるストローク終点検出器。 11 請求項10記載の検出器において、前記測定手段は、前記ビットマップの 前記ストローク終点の位置を測定する手段により特徴づけられる検出器。 12 請求項11記載の検出器において、前記測定手段は前記ストローク終点の 方向を測定するための手段から成ることを特徴とする検出器。 13 請求項12記載の検出器において、前記データベース手段はそれぞれが前 記文字列の1つに関連する独自のデータベース符号により特徴づけられ、前記測 定手段は前記ストローク終点の前記位置及び方向に関連する検索符号を生成する 手段から成り、前記検索手段は、前記検索符号に応じて前記データベース符号を 検索して前記出力文字列を識別し、前記出力文字列と前記N個の候補文字の間の 一致を行うための手段から成ることを特徴とする検出器。 14 請求項13記載の検出器において、前記N個の候補文字はそれぞれ関連す る重み関数(weightingfactor)を有し、前記出力手段は次の規 則に従い前記N個の候補文字の1つを出力文字として報告するための手段により 特徴づけられる:前記N個の要素のうちのただ1つと前記出力文字列の間に一致 がある場合、その一致した要素を出力文字として報告する;前記N個の要素の2 つ以上と前記出力文字列の間に一致がある場合、最高値の重み関数を有する一致 した要素を出力文字として報告する;前記N個の要素と前記出力文字列の間に一 致がない場合、最高値の重み関数を有する要素を出力文字として報告する。 15 請求項14記載の検出器においてNは2と同値であることを特徴とする検 出器。 16 請求項14記載の検出器において、前記測定手段は、前記ビットマップの 電荷分布モデルに基づき電位プロファイルを形成するための電荷モデル手段と、 前記電位プロファイルをしきい値決めし、前記しきい値決めされたプロファイル を結集して前記ビットマップの前記ストローク終点の領域の位置を決定するため の位置手段とにより特徴づけられるシステム。 17 請求項16記載のシステムにおいて、前記測定手段は、前記電位プロファ イルの勾配を獲得し前記ストローク終点の方向を決定するための勾配手段により さらに特徴づけられるシステム。 18 入力された文字を、定められた文字セットの特定の要素であると識別する ための文字認識方法であり、 入力された文字の文字ビットマップを生成するステップと、前記文字ビットマッ プを文字認識手順により処理し、前記入力文字が前記文字セットの前記要素に対 応する程度を表す信頼度基準を、前記文字セットの各要素に対し1つづつ生成し 、信頼度基準のセットを生成するステップと、最高程度の信頼を有する信頼度基 準が受け入れ可能な信頼度基準であるかを判断するステップと、 受け人れ可能な信頼度基準がある場合、前記受け入れ可能な信頼度基準を有する 前記文字セットの要素を、出力文字として報告するステップと、受け入れ可能な 信頼度基準がない場合、N番目までの最高信頼を有するN個の前記要素を識別し 、前記ビットマップを分析して前記ビットマップの文字特性を測定するステップ と、 前記文字特性の測定に基づき前記N個の要素のうちの1つを出力文字として報告 するステップと、 により特徴づけられる文字認識方法。 19 請求項18記載の方法において、文字列のデータベースを形成するステッ プによってさらに特徴づけられ、各前記文字列は前記文字セットのサブセットを 含み、前記サブセットの要素は共通の文字特性を有し、前記分析ステップは前記 データベースを検索するステップを有することを特徴とする方法。 20 請求項19記載の方法において、前記文字特性は前記ビットマップのスト ローク終点の位置を特徴づけることを特徴とする方法。 21 請求項20記載の方法において、前記文字特性は前記ストローク終点の方 向を特徴づけることを特徴とする方法。 22 請求項21記載の方法において、それぞれが前記文字列の1つに関連する 特定の符号を有する前記データベースを形成し、前記分析ステップにおいて検索 符号を生成して前記ストローク終点の位置及び方向を決定するステップと、 前記検索ステップにおける前記検索符号を用いて前記データベース符号を検索し て出力文字列を識別し、前記出力文字列とN番目までの信頼度基準を有する前記 N個の要素との間の一致を行うステップと、によりさらに特徴づけられる方法。 23 請求項22記載の方法において次の規則に従い前記N個の要素の1つを出 力文字として報告するステップによりさらに特徴づけられる方法:前記N個の要 素のうちのただ1つと前記出力文字列の間に一致がある場合、その一致した要素 を出力文字として報告する;前記N個の要素の2つ以上と前記出力文字列の間に 一致がある場合、最高値の信頼度基準を有する一致した要素を出力文字として報 告する;前記N個の要素と前記出力文字列の間に一致がない場合、最高値の信頼 度基準を有する要素を出力文字として報告する。 24 請求項23記載の方法において、Nは2と同値であることを特徴とする方 法。 25 請求項23記載の方法において、前記分析ステップは、前記ビットマップ の電荷分布モデルに基づき電位プロファイルを形成するステップと、 前記電位プロファイルをしきい値決めし、しきい値決めされたプロファイルを形 成するステップと、 前記しきい値決めされたプロファイルを結集して前記ビットマップの前記ストロ ーク終点の領域の位置を決定するためのステップと、によりさらに特徴づけられ る方法。 26 請求項25記載の方法において、前記分析ステップは前記電位プロファイ ルの勾配を獲得して前記ストローク終点の方向を決定するステップを特徴とする 方法。 27 N個の候補文字のうちのどれが定められた文字セットの特定の要素を表す かを識別するストローク終点検出方法であり、入力ビットマップを読みとるステ ップと、文字列の学習されたデータベースを形成するステップであり、各前記文 字列は前記文字セットのサブセットから成り、前記各サブセットは共通のストロ ーク終点特性を有するステップと、 前記文字ビットマップのストローク終点特性を測定するステップと、前記データ ベースを検索して出力文字列を識別し、前記出力文字列と前記N個の候補文字の 間の一致を行うステップと、前記一致のうちの1つを出力文字として報告するス テップと、から成るストローク終点検出方法。 28 請求項27記載の方法であり、前記測定ステップは前記ビットマップの前 記ストローク終点の位置を測定するステップを特徴とする方法。 29 請求項28記載の方法であり、前記測定ステップは前記ストローク終点の 方向を測定するステップを特徴とする方法。 30 請求項29記載の方法であり、 それぞれが前記文字列の1つに関連する独自の符号により前記学習されたデータ ベースを形成するステップと、 前記分析ステップにおいて検索符号を生成して前記ストローク終点の位置及び方 向を決定するステップと、 前記検索ステップにおいて前記検索符号を用いて前記データベース符号を検索す るステップと、 によりさらに特徴づけられる方法。 31 請求項30記載の方法において、前記N個の候補文字はそれぞれ関連する 重み関数(weightingfactor)を有し、前記報告ステップは次の 規則に従い前記N個の候補文字の1つを出力文字として報告することを特徴とす る:前記N個の要素のうちのただ1つと前記出力文字列の間に一致がある場合、 その一致した要素を出力文字として報告する;前記N個の要素の2つ以上と前記 出力文字列の間に一致がある場合、最高値の重み関数を有する一致した要素を出 力文字として報告する;前記N個の要素と前記出力文字列の間に一致がない場合 、最高値の重み関数を有する要素を出力文字として報告する。 32 請求項31記載の方法において、Nは2と同値である方法。 33 請求項31記載の方法において、前記測定ステップは電荷モデルを用いて 前記ビットマップの電荷分布モデルに基づき電気プロファイルを形成するステッ プと、 前記電位プロファイルをしきい値決めし、しきい値決めされたプロファイルを形 成するステップと、 前記しきい値決めされたプロファイルを結集して前記ビットマップの前記ストロ ーク終点位置の領域の位置を決定するステップと、をさらに特徴とする方法。 34 請求項33記載の方法において、前記測定ステップは前記電位プロファイ ルの勾配を獲得し前記ストローク終点の方向を決定するステップによりさらに特 徴づけられる方法。
JP5517685A 1992-03-31 1993-03-31 文字ビットマップにおける終点特性を測定する手段を用いる文字認識システム及び方法 Pending JPH06508465A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US07/860,933 US5359671A (en) 1992-03-31 1992-03-31 Character-recognition systems and methods with means to measure endpoint features in character bit-maps
US860,933 1992-03-31
PCT/US1993/003058 WO1993020533A1 (en) 1992-03-31 1993-03-31 Character-recognition systems and methods with means to measure endpoint features in character bit-maps

Publications (1)

Publication Number Publication Date
JPH06508465A true JPH06508465A (ja) 1994-09-22

Family

ID=25334414

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5517685A Pending JPH06508465A (ja) 1992-03-31 1993-03-31 文字ビットマップにおける終点特性を測定する手段を用いる文字認識システム及び方法

Country Status (5)

Country Link
US (1) US5359671A (ja)
EP (1) EP0587863A1 (ja)
JP (1) JPH06508465A (ja)
AU (1) AU3943593A (ja)
WO (1) WO1993020533A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69331518T2 (de) * 1993-02-19 2002-09-12 International Business Machines Corp., Armonk Neuronales Netz zum Vergleich von Merkmalen von Bildmustern
US5448277A (en) * 1993-06-30 1995-09-05 Xerox Corporation Virtual process controls test pattern for electronic printers
DE4407998C2 (de) * 1994-03-10 1996-03-14 Ibm Verfahren und Vorrichtung zur Erkennung eines Musters auf einem Beleg
US6389178B1 (en) * 1994-07-28 2002-05-14 Lucent Technologies Inc. Method of downsampling documents
US6064770A (en) * 1995-06-27 2000-05-16 National Research Council Method and apparatus for detection of events or novelties over a change of state
US5778095A (en) * 1995-12-20 1998-07-07 Xerox Corporation Classification of scanned symbols into equivalence classes
JP2891159B2 (ja) * 1996-02-14 1999-05-17 日本電気株式会社 多眼画像からの物体検出方式
EP0965943A3 (en) * 1998-06-04 2001-11-28 Matsushita Electric Industrial Co., Ltd. Optical character reading method and system for a document with ruled lines and their application
US20020176619A1 (en) * 1998-06-29 2002-11-28 Love Patrick B. Systems and methods for analyzing two-dimensional images
US6445820B1 (en) * 1998-06-29 2002-09-03 Limbic Systems, Inc. Method for conducting analysis of handwriting
US7006685B2 (en) * 1998-06-29 2006-02-28 Lumeniq, Inc. Method for conducting analysis of two-dimensional images
US6757424B2 (en) 1998-06-29 2004-06-29 Lumeniq, Inc. Method for conducting analysis of two-dimensional images
US6622135B1 (en) * 1998-12-29 2003-09-16 International Business Machines Corporation Method for detecting and classifying anomalies using artificial neural networks
US7068829B1 (en) 1999-06-22 2006-06-27 Lumeniq, Inc. Method and apparatus for imaging samples
WO2002017232A2 (en) 2000-08-25 2002-02-28 Limbic Systems, Inc. Method for conducting analysis of two-dimensional images
AU2002235387A1 (en) * 2001-01-31 2002-08-12 United States Postal Service Method and system for using postage stamps for payment
US20040109608A1 (en) * 2002-07-12 2004-06-10 Love Patrick B. Systems and methods for analyzing two-dimensional images
US20030159895A1 (en) * 2003-03-19 2003-08-28 Conboy Christopher C Method and system for using postage stamps for payment
US7116806B2 (en) * 2003-10-23 2006-10-03 Lumeniq, Inc. Systems and methods relating to AFIS recognition, extraction, and 3-D analysis strategies
US20070097755A1 (en) * 2005-10-27 2007-05-03 Marndi Raj N Method for comparing a first data set with a second data set
US9235452B2 (en) * 2010-02-05 2016-01-12 Microsoft Technology Licensing, Llc Graphics remoting using augmentation data
US9626417B1 (en) * 2013-05-08 2017-04-18 Amdocs Software Systems Limited System, method, and computer program for automatically converting characters from an ISO character set to a UTF8 character set in a database
US10579893B2 (en) 2017-02-28 2020-03-03 Konica Minolta Laboratory U.S.A., Inc. Inferring stroke information from an image
US10163004B2 (en) 2017-03-30 2018-12-25 Konica Minolta Laboratory U.S.A., Inc. Inferring stroke information from an image

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5975375A (ja) * 1982-10-21 1984-04-28 Sumitomo Electric Ind Ltd 文字認識装置
US4718102A (en) * 1983-01-19 1988-01-05 Communication Intelligence Corporation Process and apparatus involving pattern recognition
US5133023A (en) * 1985-10-15 1992-07-21 The Palantir Corporation Means for resolving ambiguities in text based upon character context
FR2604004B1 (fr) * 1986-09-11 1990-05-11 Anatex Procede de reconnaissance d'ecriture manuscrite
US4817187A (en) * 1987-02-19 1989-03-28 Gtx Corporation Apparatus and method for vectorization of incoming scanned image data
US4906940A (en) * 1987-08-24 1990-03-06 Science Applications International Corporation Process and apparatus for the automatic detection and extraction of features in images and displays
US5034989A (en) * 1987-12-11 1991-07-23 Loh Shiu Chang On-line handwritten character recognition apparatus with non-ambiguity algorithm
EP0329166B1 (en) * 1988-02-17 1994-10-12 Nippondenso Co., Ltd. Fingerprint verification method employing plural correlation judgement levels and sequential judgement stages
JPH01246678A (ja) * 1988-03-29 1989-10-02 Toshiba Corp パターン認識装置

Also Published As

Publication number Publication date
WO1993020533A1 (en) 1993-10-14
EP0587863A1 (en) 1994-03-23
US5359671A (en) 1994-10-25
AU3943593A (en) 1993-11-08

Similar Documents

Publication Publication Date Title
JPH06508465A (ja) 文字ビットマップにおける終点特性を測定する手段を用いる文字認識システム及び方法
JP4504702B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
US5583949A (en) Apparatus and method for use in image processing
JP4607633B2 (ja) 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法
US5539840A (en) Multifont optical character recognition using a box connectivity approach
KR100411697B1 (ko) 문자판독방법및주소판독방법
US6021220A (en) System and method for pattern recognition
US5410611A (en) Method for identifying word bounding boxes in text
US20080002884A1 (en) Method and device for recognition of a handwritten pattern
US7580571B2 (en) Method and apparatus for detecting an orientation of characters in a document image
US9047655B2 (en) Computer vision-based methods for enhanced JBIG2 and generic bitonal compression
KR100220213B1 (ko) 문자화상의 히스토그램의0-1패턴표현에 기초한 문자인식방법 및 장치
US5428692A (en) Character recognition system
Lehal et al. Feature extraction and classification for OCR of Gurmukhi script
US6256408B1 (en) Speed and recognition enhancement for OCR using normalized height/width position
JP2007058882A (ja) パターン認識装置
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
Zhou et al. Discrimination of characters by a multi-stage recognition process
US7133556B1 (en) Character recognition device and method for detecting erroneously read characters, and computer readable medium to implement character recognition
EP1010128B1 (en) Method for performing character recognition on a pixel matrix
JPWO2017013719A1 (ja) 文字認識装置、文字認識方法及び文字認識プログラム
KR102673900B1 (ko) 표 데이터 추출 시스템 및 그 방법
JP3083609B2 (ja) 情報処理装置及びそれを用いた文字認識装置
JP2592756B2 (ja) 文字切り出し装置およびこれを用いた文字認識装置
JP2007026470A (ja) パターン認識装置