JPH0652367A - 文字認識結果の後処理方法 - Google Patents
文字認識結果の後処理方法Info
- Publication number
- JPH0652367A JPH0652367A JP4207895A JP20789592A JPH0652367A JP H0652367 A JPH0652367 A JP H0652367A JP 4207895 A JP4207895 A JP 4207895A JP 20789592 A JP20789592 A JP 20789592A JP H0652367 A JPH0652367 A JP H0652367A
- Authority
- JP
- Japan
- Prior art keywords
- word
- character
- characters
- recognition result
- name notation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【目的】 文字単位では誤った認識結果があっても単語
単位には正確な認識結果が得られる、しかもそのために
予め作成しておく情報の量が少ない、予め作成しておく
情報の変更に容易に対応できる文字認識結果の後処理方
法を実現する。 【構成】 文字の誤り傾向に基づき文字を分類してお
く。単語辞書には、文字分類に係る情報は盛り込まな
い。そして、文字認識結果から検索の参照のための参照
単語を形成し、これから文字分類に基づいて類名表記を
作成し、この類名表記と同じ類名表記を有する単語があ
るかを単語検索時に文字分類に基づいて確認する。参照
単語の類名表記と同じ類名表記を有する単語から候補単
語を絞る。
単位には正確な認識結果が得られる、しかもそのために
予め作成しておく情報の量が少ない、予め作成しておく
情報の変更に容易に対応できる文字認識結果の後処理方
法を実現する。 【構成】 文字の誤り傾向に基づき文字を分類してお
く。単語辞書には、文字分類に係る情報は盛り込まな
い。そして、文字認識結果から検索の参照のための参照
単語を形成し、これから文字分類に基づいて類名表記を
作成し、この類名表記と同じ類名表記を有する単語があ
るかを単語検索時に文字分類に基づいて確認する。参照
単語の類名表記と同じ類名表記を有する単語から候補単
語を絞る。
Description
【0001】
【産業上の利用分野】本発明は文字認識結果の後処理方
法に関し、特に、認識結果の誤り傾向を考慮して単語を
検索することにより認識性能を向上させるようとしたも
のである。
法に関し、特に、認識結果の誤り傾向を考慮して単語を
検索することにより認識性能を向上させるようとしたも
のである。
【0002】
【従来の技術】例えば、機械翻訳システムとして、入力
手段に文字認識装置を適用してユーザによる入力操作の
簡便化を計ったものがある。例えば、このように適用さ
れる文字認識装置においては、文字単位の認識は勿論、
単語単位の認識も重要である。文字単位の認識において
は誤った認識結果があっても、単語単位には正確な認識
結果を得ることができるようにした方法が、従来、既に
提案されている。
手段に文字認識装置を適用してユーザによる入力操作の
簡便化を計ったものがある。例えば、このように適用さ
れる文字認識装置においては、文字単位の認識は勿論、
単語単位の認識も重要である。文字単位の認識において
は誤った認識結果があっても、単語単位には正確な認識
結果を得ることができるようにした方法が、従来、既に
提案されている。
【0003】例えば、文献『沼倉他著、「誤ったキーで
も検索できる情報検索システム」、情報処理学会論文
誌、Vol.30、No.11 、pp.1468-1478、1989年11月』を挙
げることができる。
も検索できる情報検索システム」、情報処理学会論文
誌、Vol.30、No.11 、pp.1468-1478、1989年11月』を挙
げることができる。
【0004】以下、認識対象単語を構成する各文字の認
識結果から認識対象単語についての正確な認識結果を得
る、上記文献に開示された方法に従った単語の検索方法
(文字認識結果の後処理方法に一部を構成する処理)を
説明する。
識結果から認識対象単語についての正確な認識結果を得
る、上記文献に開示された方法に従った単語の検索方法
(文字認識結果の後処理方法に一部を構成する処理)を
説明する。
【0005】なお、この方法を適用するに際しては、予
め、文字分類と、各単語の類名表記で分類した階層的な
単語辞書とを作成しておくことを要する。ここで、文字
分類とは、文字の誤り傾向に基づいて、全ての文字を幾
つかの類に分類したものであり、各類には類名が付与さ
れている。また、単語の類名表記とは、単語を構成する
文字が属する類名を並べて形成された表記である。
め、文字分類と、各単語の類名表記で分類した階層的な
単語辞書とを作成しておくことを要する。ここで、文字
分類とは、文字の誤り傾向に基づいて、全ての文字を幾
つかの類に分類したものであり、各類には類名が付与さ
れている。また、単語の類名表記とは、単語を構成する
文字が属する類名を並べて形成された表記である。
【0006】単語の認識時においては、まず、認識対象
単語を構成する各文字の認識結果をそれぞれ、文字分類
の類名に置き換えた類名表記Xを作成する。次に、この
ようにして得られた類名表記Xと最も一致度の高い類名
表記Yを、上述の単語辞書の類名表記より検索する。そ
して最後に、類名表記Yを有する上述の単語辞書中の単
語単語を検索対象とし、上述した認識結果と最も一致度
の高い単語を検索し、その単語を検索結果とする。
単語を構成する各文字の認識結果をそれぞれ、文字分類
の類名に置き換えた類名表記Xを作成する。次に、この
ようにして得られた類名表記Xと最も一致度の高い類名
表記Yを、上述の単語辞書の類名表記より検索する。そ
して最後に、類名表記Yを有する上述の単語辞書中の単
語単語を検索対象とし、上述した認識結果と最も一致度
の高い単語を検索し、その単語を検索結果とする。
【0007】
【発明が解決しようとする課題】ところで、上述した各
文字の誤り傾向は字体によって異なるものである。その
ため、字体によって各文字の分類の仕方が異なる。分類
を作り直すだけであれば、さほど複雑な作業が必要とは
ならないが、上述の従来方法によれば、単語辞書をも作
り直す必要があり、非常に繁雑な作業が必要となる。
文字の誤り傾向は字体によって異なるものである。その
ため、字体によって各文字の分類の仕方が異なる。分類
を作り直すだけであれば、さほど複雑な作業が必要とは
ならないが、上述の従来方法によれば、単語辞書をも作
り直す必要があり、非常に繁雑な作業が必要となる。
【0008】このような問題は、字体を変えない場合に
も生じる。例えば、各文字の分類を学習によって見直し
て変えようとしても、ある1個の文字が属する類を変え
るだけでも単語辞書の類名表記を広範囲に変更すること
を伴う。従って、このようなことは実際的ではなく、結
局として単語の認識精度の向上を制限するものになって
いた。
も生じる。例えば、各文字の分類を学習によって見直し
て変えようとしても、ある1個の文字が属する類を変え
るだけでも単語辞書の類名表記を広範囲に変更すること
を伴う。従って、このようなことは実際的ではなく、結
局として単語の認識精度の向上を制限するものになって
いた。
【0009】実際上、文字単位の認識精度を向上させる
ように、文字単位の認識方法の研究も盛んに行なわれて
いる。このような新たな文字認識方法を適用した場合に
は、字体が同一であっても誤り傾向が今までのものとは
異なることも生じ、このような場合にも上述した問題が
生じてしまう。
ように、文字単位の認識方法の研究も盛んに行なわれて
いる。このような新たな文字認識方法を適用した場合に
は、字体が同一であっても誤り傾向が今までのものとは
異なることも生じ、このような場合にも上述した問題が
生じてしまう。
【0010】本発明は、以上の点を考慮してなされたも
のであり、文字単位の認識においては誤った認識結果が
あっても単語単位には正確な認識結果を得ることができ
る、しかも、そのために予め作成しておく情報の量が少
なくて、予め作成しておく情報の変更に容易に対応でき
る文字認識結果の後処理方法を提供しようとしたもので
ある。
のであり、文字単位の認識においては誤った認識結果が
あっても単語単位には正確な認識結果を得ることができ
る、しかも、そのために予め作成しておく情報の量が少
なくて、予め作成しておく情報の変更に容易に対応でき
る文字認識結果の後処理方法を提供しようとしたもので
ある。
【0011】
【課題を解決するための手段】かかる課題を解決するた
め、本発明においては、認識対象単語を構成する各文字
の認識結果から単語辞書を検索して認識対象単語につい
ての候補単語を得る処理を含む文字認識結果の後処理方
法において、文字の誤り傾向に基づいて、全ての文字を
幾つかの類に分類して類名を付与して予め格納しておく
と共に、単語辞書には類名を並べてなる類名表記を伴う
ことなく単語を格納しておき、各文字の認識結果から、
検索時に参照するための参照単語を作成する第1の処理
と、この参照単語の各文字が属する類の類名を並べた類
名表記を作成する第2の処理と、単語辞書に格納されて
いる単語を検索対象とし、文字分類に基づいて類名表記
が参照単語の類名表記と一致する単語か否かを判定し、
異なる単語は候補単語の要件を満たさないとして除外す
る第3の処理とを含むことを特徴とした。
め、本発明においては、認識対象単語を構成する各文字
の認識結果から単語辞書を検索して認識対象単語につい
ての候補単語を得る処理を含む文字認識結果の後処理方
法において、文字の誤り傾向に基づいて、全ての文字を
幾つかの類に分類して類名を付与して予め格納しておく
と共に、単語辞書には類名を並べてなる類名表記を伴う
ことなく単語を格納しておき、各文字の認識結果から、
検索時に参照するための参照単語を作成する第1の処理
と、この参照単語の各文字が属する類の類名を並べた類
名表記を作成する第2の処理と、単語辞書に格納されて
いる単語を検索対象とし、文字分類に基づいて類名表記
が参照単語の類名表記と一致する単語か否かを判定し、
異なる単語は候補単語の要件を満たさないとして除外す
る第3の処理とを含むことを特徴とした。
【0012】ここで、第3の処理で除外されなかった単
語の内で、参照単語と不一致な文字が最も少ないものを
候補単語とすることが好ましい。
語の内で、参照単語と不一致な文字が最も少ないものを
候補単語とすることが好ましい。
【0013】
【作用】文字分類が変更されても容易に対応できるよう
にするためには、文字分類の変更に伴って大幅な変更が
必要な単語辞書の類名表記を省略すれば良い。本発明
は、このような考え方に従ってなされたものである。
にするためには、文字分類の変更に伴って大幅な変更が
必要な単語辞書の類名表記を省略すれば良い。本発明
は、このような考え方に従ってなされたものである。
【0014】すなわち、文字分類は用意しても、単語辞
書には類名表記を伴うことをなくした。そして、文字認
識結果から検索の参照のための参照単語を形成し、これ
から文字分類に基づいて類名表記を作成し、この類名表
記と同じ類名表記を有する単語があるかを単語検索時に
文字分類に基づいて確認することとした。
書には類名表記を伴うことをなくした。そして、文字認
識結果から検索の参照のための参照単語を形成し、これ
から文字分類に基づいて類名表記を作成し、この類名表
記と同じ類名表記を有する単語があるかを単語検索時に
文字分類に基づいて確認することとした。
【0015】類名表記が異なる単語辞書内の単語は候補
単語とはならないが、類名表記が同じであってもそれだ
けでは候補単語の絞り込みとしては不十分である。そこ
で、類名表記が参照単語の類名表記と同じものであって
しかも参照単語と不一致な文字が最も少ないものを候補
単語とすることが好ましい。
単語とはならないが、類名表記が同じであってもそれだ
けでは候補単語の絞り込みとしては不十分である。そこ
で、類名表記が参照単語の類名表記と同じものであって
しかも参照単語と不一致な文字が最も少ないものを候補
単語とすることが好ましい。
【0016】
【実施例】以下、本発明による文字認識結果の後処理方
法を、英単語の認識に適用した一実施例について図面を
参照しながら詳述する。
法を、英単語の認識に適用した一実施例について図面を
参照しながら詳述する。
【0017】図示は省略するが、この実施例は、実際
上、例えば光学式文字読取り装置(OCR)を備えたワ
ークステーション等によってハードウェア上は実現され
る。機能ブロック的には、図2に示す通りである。
上、例えば光学式文字読取り装置(OCR)を備えたワ
ークステーション等によってハードウェア上は実現され
る。機能ブロック的には、図2に示す通りである。
【0018】図2において、文書読取り手段11は、用
紙に記載されている文書を2値データとして読み取るも
のである。文字認識手段12は、2値データに基づい
て、各文字領域や各単語領域等を切出すと共に、各文字
領域の2値パターンの特徴量を得て、予め各文字につい
て作成されている基準の特徴量との距離によって各文字
の認識結果を得て、単語領域毎に認識結果記憶手段13
に格納させるものである。参照単語作成手段14は、文
字毎の認識結果に基づいて、検索時に参照するための参
照単語を作成するものである。文字分類記憶手段15に
は、各文字についての誤り傾向に基づいて全ての文字を
分類した文字分類が類名(分類名)を伴って格納されて
いる。文字分類記憶手段15の格納内容については後述
する。単語辞書16には、少なくとも一般的な文章で出
現すると思われる英単語が格納されており、類名表記に
よる階層化はなされていない。なお、この実施例の場
合、検索速度を短くすることを意図し、文字数毎に固め
られており、また、同一文字数内でもハッシュ値が等し
いものずつに固められて格納されている。ハッシュ値と
しては、例えば、単語中の各文字のASCIIコードの
和を64で割った余りを適用する。候補単語検索手段1
7は、参照単語を構成する各文字の類名でなる類名表記
を得て、この類名表記に一致する類名表記を有するもの
であって参照単語との不一致文字数が最も少ない単語を
単語辞書16から検索するものであり、検索された候補
単語を認識結果記憶手段13に一時記憶させるものであ
る。出力単語決定手段18は、当初の認識結果を利用し
て候補単語の中から出力単語を決定し、結果出力手段2
1から印字出力又は表示出力させるものである。
紙に記載されている文書を2値データとして読み取るも
のである。文字認識手段12は、2値データに基づい
て、各文字領域や各単語領域等を切出すと共に、各文字
領域の2値パターンの特徴量を得て、予め各文字につい
て作成されている基準の特徴量との距離によって各文字
の認識結果を得て、単語領域毎に認識結果記憶手段13
に格納させるものである。参照単語作成手段14は、文
字毎の認識結果に基づいて、検索時に参照するための参
照単語を作成するものである。文字分類記憶手段15に
は、各文字についての誤り傾向に基づいて全ての文字を
分類した文字分類が類名(分類名)を伴って格納されて
いる。文字分類記憶手段15の格納内容については後述
する。単語辞書16には、少なくとも一般的な文章で出
現すると思われる英単語が格納されており、類名表記に
よる階層化はなされていない。なお、この実施例の場
合、検索速度を短くすることを意図し、文字数毎に固め
られており、また、同一文字数内でもハッシュ値が等し
いものずつに固められて格納されている。ハッシュ値と
しては、例えば、単語中の各文字のASCIIコードの
和を64で割った余りを適用する。候補単語検索手段1
7は、参照単語を構成する各文字の類名でなる類名表記
を得て、この類名表記に一致する類名表記を有するもの
であって参照単語との不一致文字数が最も少ない単語を
単語辞書16から検索するものであり、検索された候補
単語を認識結果記憶手段13に一時記憶させるものであ
る。出力単語決定手段18は、当初の認識結果を利用し
て候補単語の中から出力単語を決定し、結果出力手段2
1から印字出力又は表示出力させるものである。
【0019】このような機能ブロックによって実現され
る実施例方法の処理の流れは、図1及び図3に示す通り
である。
る実施例方法の処理の流れは、図1及び図3に示す通り
である。
【0020】まず、図3に基づいて、大きな処理の流れ
を説明する。
を説明する。
【0021】2値データに変換された文書データから文
字領域や単語領域等を切出し、各文字領域の2値パター
ン(文字パターン)の特徴量を得て、予め各文字につい
て作成されている基準の特徴量との距離によって各文字
の認識結果を得て、各単語領域毎に各文字の認識結果を
整理する(ステップ100)。図4は、文字認識結果の
一例を示すものであり、入力された認識対象単語(正確
にはそのパターン)が「take」の例である。ここ
で、今回の読取り対象の文字と基準の特徴量を作成した
際の文字とは同一の文字であってもその字体等の文字パ
ターンの違いによって特徴量が異なるので、必ずしも距
離が最少とはならない。ここでは、距離がある閾値以下
の文字を全て認識結果として取り出している。
字領域や単語領域等を切出し、各文字領域の2値パター
ン(文字パターン)の特徴量を得て、予め各文字につい
て作成されている基準の特徴量との距離によって各文字
の認識結果を得て、各単語領域毎に各文字の認識結果を
整理する(ステップ100)。図4は、文字認識結果の
一例を示すものであり、入力された認識対象単語(正確
にはそのパターン)が「take」の例である。ここ
で、今回の読取り対象の文字と基準の特徴量を作成した
際の文字とは同一の文字であってもその字体等の文字パ
ターンの違いによって特徴量が異なるので、必ずしも距
離が最少とはならない。ここでは、距離がある閾値以下
の文字を全て認識結果として取り出している。
【0022】このようにして単語を構成する各文字につ
いて認識結果を得ると、各文字についての第1候補の文
字を繋げた参照単語を形成する(ステップ101)。
いて認識結果を得ると、各文字についての第1候補の文
字を繋げた参照単語を形成する(ステップ101)。
【0023】図5は、処理段階が進むについて得られる
情報を示した図表である。この図5に示すように、図4
に示すような認識結果を得た場合には、参照単語は「t
ahe」となる。
情報を示した図表である。この図5に示すように、図4
に示すような認識結果を得た場合には、参照単語は「t
ahe」となる。
【0024】このような参照単語が得られると、格納さ
れている文字分類を利用して類名表記を得て、この類名
表記をキーとして単語辞書を検索して候補単語を得る
(ステップ102)。このステップの処理にこの実施例
の特徴があり、詳細については後述する。
れている文字分類を利用して類名表記を得て、この類名
表記をキーとして単語辞書を検索して候補単語を得る
(ステップ102)。このステップの処理にこの実施例
の特徴があり、詳細については後述する。
【0025】このようにして1以上の候補単語が得られ
ると、ステップ100で得られた認識結果をも用いて出
力する単語を決定する(ステップ103)。この出力単
語の決定処理には、例えば特願平3−196509号明
細書及び図面に記載された方法を用いることができる。
すなわち、候補単語の各文字の基準特徴量を利用して認
識対象単語の各文字との距離を求め、この各文字につい
て求めた距離の総和をこの候補単語の評価値とする。そ
して、評価値が最も小さい候補単語を出力する単語とす
る。
ると、ステップ100で得られた認識結果をも用いて出
力する単語を決定する(ステップ103)。この出力単
語の決定処理には、例えば特願平3−196509号明
細書及び図面に記載された方法を用いることができる。
すなわち、候補単語の各文字の基準特徴量を利用して認
識対象単語の各文字との距離を求め、この各文字につい
て求めた距離の総和をこの候補単語の評価値とする。そ
して、評価値が最も小さい候補単語を出力する単語とす
る。
【0026】そして、決定された出力単語を印字又は表
示によって出力して一連の処理を終了する(ステップ1
04)。
示によって出力して一連の処理を終了する(ステップ1
04)。
【0027】次に、上述のステップ102による単語辞
書の検索処理を、図1を用いて詳述する。
書の検索処理を、図1を用いて詳述する。
【0028】参照単語の作成が終わって単語辞書の検索
処理に入ると、まず、図1(A)に示すように、参照単
語のハッシュ値を計算し、その値をパラメータhashにセ
ットする(ステップ200)。このハッシュ値の計算
は、当然に単語辞書のハッシュ値の計算方法と同じもの
であり、上述したように、例えば、参照単語中の各文字
のASCIIコードの和を64で割った余りである。
処理に入ると、まず、図1(A)に示すように、参照単
語のハッシュ値を計算し、その値をパラメータhashにセ
ットする(ステップ200)。このハッシュ値の計算
は、当然に単語辞書のハッシュ値の計算方法と同じもの
であり、上述したように、例えば、参照単語中の各文字
のASCIIコードの和を64で割った余りである。
【0029】次に、参照単語に対する類名表記を作成す
る(ステップ201)。この際、誤り傾向に基づいて予
め作成されている文字についての分類を利用する。図6
は、分類の格納例を示すものであり、類名とその類に属
する文字とが対応付けられたテーブルとなっている。こ
のような分類は、同じ類の中では読取り誤りは生じる
が、他の類の文字には読取り誤りが生じないように分類
したものである。図6は、例えば、文字「a」、
[o」、「u」、「v」間では読取り誤りが生じること
もあることを意味している。このような文字の分類に
は、上記文献に記載された方法を適用することができ
る。上述した図5に示すような参照単語「tahe」に
対して図6に示す分類を適用すると、図5に示すよう
に、類名表記として「DABC」が得られる。
る(ステップ201)。この際、誤り傾向に基づいて予
め作成されている文字についての分類を利用する。図6
は、分類の格納例を示すものであり、類名とその類に属
する文字とが対応付けられたテーブルとなっている。こ
のような分類は、同じ類の中では読取り誤りは生じる
が、他の類の文字には読取り誤りが生じないように分類
したものである。図6は、例えば、文字「a」、
[o」、「u」、「v」間では読取り誤りが生じること
もあることを意味している。このような文字の分類に
は、上記文献に記載された方法を適用することができ
る。上述した図5に示すような参照単語「tahe」に
対して図6に示す分類を適用すると、図5に示すよう
に、類名表記として「DABC」が得られる。
【0030】その後、単語辞書内の単語の照合処理を各
単語に対して後述するように繰返した際に、参照単語と
の不一致文字数がその時点で最も少ない値をセットする
ためのパラメータである最小不一致文字数を、最小不一
致文字数として実際上考えられない大きな値にセットす
る(ステップ202)。後述するように、候補単語は、
参照単語との不一致文字数ができるだけ少ないものから
選定する。
単語に対して後述するように繰返した際に、参照単語と
の不一致文字数がその時点で最も少ない値をセットする
ためのパラメータである最小不一致文字数を、最小不一
致文字数として実際上考えられない大きな値にセットす
る(ステップ202)。後述するように、候補単語は、
参照単語との不一致文字数ができるだけ少ないものから
選定する。
【0031】以上のような初期化処理を終了した後に、
単語辞書内の各単語を照合することによる候補単語の決
定処理に進む。このような候補単語の決定処理は、ま
ず、ハッシュ値が参照単語のハッシュ値と等しくかつ文
字数(単語長)が参照単語の文字数(単語長)と等しい
単語辞書内の各単語について候補単語になるかを照合し
(ステップ203〜206でなるループ)、その後、ハ
ッシュ値が参照単語のハッシュ値と異なるが文字数が参
照単語の文字数と等しい単語辞書内の各単語について候
補単語になるかを照合することで行なう(ステップ20
3〜209でなるループ)。
単語辞書内の各単語を照合することによる候補単語の決
定処理に進む。このような候補単語の決定処理は、ま
ず、ハッシュ値が参照単語のハッシュ値と等しくかつ文
字数(単語長)が参照単語の文字数(単語長)と等しい
単語辞書内の各単語について候補単語になるかを照合し
(ステップ203〜206でなるループ)、その後、ハ
ッシュ値が参照単語のハッシュ値と異なるが文字数が参
照単語の文字数と等しい単語辞書内の各単語について候
補単語になるかを照合することで行なう(ステップ20
3〜209でなるループ)。
【0032】ハッシュ値が参照単語のハッシュ値と等し
くかつ文字数(単語長)が参照単語の文字数(単語長)
と等しい単語辞書内の各単語について候補単語になるか
を照合するループ処理は、上記条件を満たす単語を単語
辞書から取出す処理(ステップ203)と、その単語を
照合する図1(B)に詳細を示す処理(ステップ20
4)と、対象となっている単語が参照単語と一致してい
るかを確認する処理(ステップ205)と、上記条件を
満たす全ての単語に対する処理を終了したかを確認する
処理(ステップ206)からなる。
くかつ文字数(単語長)が参照単語の文字数(単語長)
と等しい単語辞書内の各単語について候補単語になるか
を照合するループ処理は、上記条件を満たす単語を単語
辞書から取出す処理(ステップ203)と、その単語を
照合する図1(B)に詳細を示す処理(ステップ20
4)と、対象となっている単語が参照単語と一致してい
るかを確認する処理(ステップ205)と、上記条件を
満たす全ての単語に対する処理を終了したかを確認する
処理(ステップ206)からなる。
【0033】ここで、ハッシュ値が参照単語のハッシュ
値と等しくかつ文字数が参照単語の文字数と等しい単語
辞書内の各単語について候補単語になるかを照合してい
るループ処理において、参照単語と不一致な文字数が0
のものを発見した場合、すなわち、参照単語自体が単語
辞書にある場合には、そこで、辞書検索を直ちに終了す
るようになされている(ステップ205で肯定結果)。
値と等しくかつ文字数が参照単語の文字数と等しい単語
辞書内の各単語について候補単語になるかを照合してい
るループ処理において、参照単語と不一致な文字数が0
のものを発見した場合、すなわち、参照単語自体が単語
辞書にある場合には、そこで、辞書検索を直ちに終了す
るようになされている(ステップ205で肯定結果)。
【0034】他方、ハッシュ値が参照単語のハッシュ値
と異なるが文字数が参照単語の文字数と等しい単語辞書
内の各単語について候補単語になるかを照合するループ
処理は、この条件を満たす単語を単語辞書から取出す処
理(ステップ207)と、その単語を照合する図1
(B)に詳細を示す処理(ステップ208)と、条件を
満たす全ての単語に対する処理を終了したかを確認する
処理(ステップ209)とからなる。
と異なるが文字数が参照単語の文字数と等しい単語辞書
内の各単語について候補単語になるかを照合するループ
処理は、この条件を満たす単語を単語辞書から取出す処
理(ステップ207)と、その単語を照合する図1
(B)に詳細を示す処理(ステップ208)と、条件を
満たす全ての単語に対する処理を終了したかを確認する
処理(ステップ209)とからなる。
【0035】以上のように、ハッシュ値によって単語辞
書内の単語の照合順序を変えるようにしたのは、参照単
語自体が、読取対象単語を正確に認識していた場合にお
ける検索時間を短くするためである。認識には、誤りが
生じるとは言え、正確に認識されることの方が多く、こ
のように検索順序を定めることにより、全体としての検
索処理時間従って認識処理時間を短いものとすることが
できる。
書内の単語の照合順序を変えるようにしたのは、参照単
語自体が、読取対象単語を正確に認識していた場合にお
ける検索時間を短くするためである。認識には、誤りが
生じるとは言え、正確に認識されることの方が多く、こ
のように検索順序を定めることにより、全体としての検
索処理時間従って認識処理時間を短いものとすることが
できる。
【0036】ハッシュ値が参照単語のハッシュ値と等し
くかつ文字数が参照単語の文字数と等しい単語辞書内の
単語であろうと、ハッシュ値が参照単語のハッシュ値と
異なるが文字数が参照単語の文字数と等しい単語辞書内
の単語であろうと、各単語に対する照合処理(ステップ
204、208)は等しく、詳細は図1(B)に示す通
りである。
くかつ文字数が参照単語の文字数と等しい単語辞書内の
単語であろうと、ハッシュ値が参照単語のハッシュ値と
異なるが文字数が参照単語の文字数と等しい単語辞書内
の単語であろうと、各単語に対する照合処理(ステップ
204、208)は等しく、詳細は図1(B)に示す通
りである。
【0037】単語辞書内のある単語が照合対象となる
と、その単語の参照単語との不一致文字数を計数するた
めのパラメータdiffcount を初期値0にセットした後、
その照合対象単語の各文字に対してステップ301〜3
05でなるループを繰返す。
と、その単語の参照単語との不一致文字数を計数するた
めのパラメータdiffcount を初期値0にセットした後、
その照合対象単語の各文字に対してステップ301〜3
05でなるループを繰返す。
【0038】まず、ステップ301で取り出した文字に
ついて、その文字の類名が参照単語に対する類名表記の
同じ順番のものと一致するか否かを確認する(ステップ
302)。ここで、否定結果を得ると、この単語に対す
る照合を直ちに終了してメインルーチン(ステップ20
5又は209)に戻る。他方、類名表記における分類と
同じであれば、その文字自体が参照単語におけるその順
番の文字と一致するか否かを判別する(ステップ30
3)。異なっていればパラメータdiffcount を1インク
リメントした後、同じであれば直ちに最終文字まで処理
を行なったか否かを確認する(ステップ304、30
5)。
ついて、その文字の類名が参照単語に対する類名表記の
同じ順番のものと一致するか否かを確認する(ステップ
302)。ここで、否定結果を得ると、この単語に対す
る照合を直ちに終了してメインルーチン(ステップ20
5又は209)に戻る。他方、類名表記における分類と
同じであれば、その文字自体が参照単語におけるその順
番の文字と一致するか否かを判別する(ステップ30
3)。異なっていればパラメータdiffcount を1インク
リメントした後、同じであれば直ちに最終文字まで処理
を行なったか否かを確認する(ステップ304、30
5)。
【0039】このようにして最終文字に対する類名の確
認及び参照単語の文字との一致不一致の確認を終了する
と、この照合対象単語における参照単語との不一致文字
数すなわち、パラメータdiffcount の値と、それまで照
合した中の単語における最も少ない最小不一致文字数と
を大小比較する(ステップ306)。今回の照合対象単
語における不一致文字数(diffcount の値)が最小不一
致文字数より多い場合には、この照合対象単語を候補単
語に加えることなく、メインルーチン(ステップ205
又は209)に戻る。今回の照合対象単語における不一
致文字数(diffcount の値)が最小不一致文字数と等し
い場合には、この照合対象単語を候補単語に加えてメイ
ンルーチン(ステップ205又は209)に戻る(ステ
ップ307)。今回の照合対象単語における不一致文字
数(diffcount の値)が最小不一致文字数より少ない場
合には、今までの候補単語を破棄し、今回の照合対象単
語を候補単語に登録し、最小不一致文字数を今回の照合
対象単語における不一致文字数(diffcount の値)に置
き換えてメインルーチン(ステップ205又は209)
に戻る(ステップ308、309)。
認及び参照単語の文字との一致不一致の確認を終了する
と、この照合対象単語における参照単語との不一致文字
数すなわち、パラメータdiffcount の値と、それまで照
合した中の単語における最も少ない最小不一致文字数と
を大小比較する(ステップ306)。今回の照合対象単
語における不一致文字数(diffcount の値)が最小不一
致文字数より多い場合には、この照合対象単語を候補単
語に加えることなく、メインルーチン(ステップ205
又は209)に戻る。今回の照合対象単語における不一
致文字数(diffcount の値)が最小不一致文字数と等し
い場合には、この照合対象単語を候補単語に加えてメイ
ンルーチン(ステップ205又は209)に戻る(ステ
ップ307)。今回の照合対象単語における不一致文字
数(diffcount の値)が最小不一致文字数より少ない場
合には、今までの候補単語を破棄し、今回の照合対象単
語を候補単語に登録し、最小不一致文字数を今回の照合
対象単語における不一致文字数(diffcount の値)に置
き換えてメインルーチン(ステップ205又は209)
に戻る(ステップ308、309)。
【0040】以上詳述した図1に示す処理を実行するこ
とにより、参照単語が単語辞書にある場合にはその単語
が候補単語となり、参照単語が単語辞書にない場合に
は、参照単語と類名表記が等しく参照単語と不一致な文
字が最も少ない語長が参照単語と等しい単語辞書に格納
されている1以上の単語が候補単語になる。
とにより、参照単語が単語辞書にある場合にはその単語
が候補単語となり、参照単語が単語辞書にない場合に
は、参照単語と類名表記が等しく参照単語と不一致な文
字が最も少ない語長が参照単語と等しい単語辞書に格納
されている1以上の単語が候補単語になる。
【0041】参照単語が「tahe」、その類名表記が
「DABC」である図5に示すような場合であって、図
6に示す文字分類を適用した場合には、ハッシュ値が参
照単語のハッシュ値と等しくかつ単語長が参照単語の単
語長と等しい単語辞書内の各単語に対する照合処理では
候補単語を得ることができないが、ハッシュ値が参照単
語のハッシュ値と異なるが単語長が参照単語の単語長に
等しい単語辞書内の各単語に対する照合処理で「tak
e」を候補単語として得ることができる。
「DABC」である図5に示すような場合であって、図
6に示す文字分類を適用した場合には、ハッシュ値が参
照単語のハッシュ値と等しくかつ単語長が参照単語の単
語長と等しい単語辞書内の各単語に対する照合処理では
候補単語を得ることができないが、ハッシュ値が参照単
語のハッシュ値と異なるが単語長が参照単語の単語長に
等しい単語辞書内の各単語に対する照合処理で「tak
e」を候補単語として得ることができる。
【0042】従って、上記実施例によれば、誤り傾向に
応じて文字を分類しておけば、すなわち、各単語を類名
表記毎に分類しておくことなしに、認識対象単語に対す
る候補単語を得ることができる。
応じて文字を分類しておけば、すなわち、各単語を類名
表記毎に分類しておくことなしに、認識対象単語に対す
る候補単語を得ることができる。
【0043】その結果、読取対象文書の字体が今までの
ものから変化して誤り傾向が変わっても、単語辞書を変
更することなく文字分類だけの変更によって対応するこ
とができる。また、学習によって、文字分類を変える場
合においても、単語辞書は既存のものをそのまま適用す
ることができる。さらに、適用する文字認識方法を変更
することによって誤り傾向が変化しても、単語辞書を変
更することなく文字分類だけの変更によって対応するこ
とができる。
ものから変化して誤り傾向が変わっても、単語辞書を変
更することなく文字分類だけの変更によって対応するこ
とができる。また、学習によって、文字分類を変える場
合においても、単語辞書は既存のものをそのまま適用す
ることができる。さらに、適用する文字認識方法を変更
することによって誤り傾向が変化しても、単語辞書を変
更することなく文字分類だけの変更によって対応するこ
とができる。
【0044】なお、上記実施例においては、英単語が認
識対象の場合を説明したが、本発明は、他の言語の単語
を認識対象とした場合にも適用できるものである。例え
ば、日本語の場合には、単語の切出しと単語の認識とが
並行して行なわれるが本発明を適用することができる。
識対象の場合を説明したが、本発明は、他の言語の単語
を認識対象とした場合にも適用できるものである。例え
ば、日本語の場合には、単語の切出しと単語の認識とが
並行して行なわれるが本発明を適用することができる。
【0045】また、上記実施例においては、参照単語を
1個設定して候補単語を得るものを示したが、文字認識
結果から2以上の参照単語を設定して候補単語を得るよ
うにしても良い。
1個設定して候補単語を得るものを示したが、文字認識
結果から2以上の参照単語を設定して候補単語を得るよ
うにしても良い。
【0046】さらに、上記実施例においては、単語辞書
に参照単語があるか否かを、参照単語とハッシュ値が等
しい他の単語の検索と区別することなく行なうものを示
したが、参照単語が単語辞書にあるか否かを最初に判断
するようにしても良い。このような場合には、ハッシュ
値に基づいて単語の分類をも不要とするようにしても良
い。
に参照単語があるか否かを、参照単語とハッシュ値が等
しい他の単語の検索と区別することなく行なうものを示
したが、参照単語が単語辞書にあるか否かを最初に判断
するようにしても良い。このような場合には、ハッシュ
値に基づいて単語の分類をも不要とするようにしても良
い。
【0047】さらにまた、上記実施例においては、単語
辞書に格納されている単語の類名表記が参照単語の類名
表記と等しいかを文字単位毎の比較で行なうものを示し
たが、単語辞書内の単語の類名表記を文字分類を用いて
得た後に比較するようにしても良い。
辞書に格納されている単語の類名表記が参照単語の類名
表記と等しいかを文字単位毎の比較で行なうものを示し
たが、単語辞書内の単語の類名表記を文字分類を用いて
得た後に比較するようにしても良い。
【0048】また、上記実施例においては、参照単語と
の不一致文字数が最も少ないことを候補単語の条件とし
たが、不一致文字数に対する条件をこれより多少緩めに
設定しても良い。
の不一致文字数が最も少ないことを候補単語の条件とし
たが、不一致文字数に対する条件をこれより多少緩めに
設定しても良い。
【0049】
【発明の効果】以上のように、本発明によれば、単語辞
書に類名表記に関する情報を盛り込むことなく、文字分
類の情報だけを用意しておくことで、文字の誤り傾向を
考慮した候補単語を得ることができるので、予め作成し
ておく情報の量が少なくて、予め作成しておく情報の変
更に容易に対応できる文字認識結果の後処理方法を実現
できる。
書に類名表記に関する情報を盛り込むことなく、文字分
類の情報だけを用意しておくことで、文字の誤り傾向を
考慮した候補単語を得ることができるので、予め作成し
ておく情報の量が少なくて、予め作成しておく情報の変
更に容易に対応できる文字認識結果の後処理方法を実現
できる。
【図1】実施例の単語辞書の検索処理を示すフローチャ
ートである。
ートである。
【図2】実施例を実現する構成を示す機能ブロック図で
ある。
ある。
【図3】実施例による処理を含む文字認識の一連処理を
示すフローチャートである。
示すフローチャートである。
【図4】認識結果例を示す説明図である。
【図5】実施例の処理に伴い得られる情報を示す説明図
である。
である。
【図6】実施例の文字分類例を示す説明図である。
15…文字分類記憶手段、16…単語辞書、17…候補
単語検索手段、302…単語辞書内の単語の類名表記と
参照単語の類名表記との一致を判定する処理ステップ。
単語検索手段、302…単語辞書内の単語の類名表記と
参照単語の類名表記との一致を判定する処理ステップ。
Claims (2)
- 【請求項1】 認識対象単語を構成する各文字の認識結
果から単語辞書を検索して認識対象単語についての候補
単語を得る処理を含む文字認識結果の後処理方法におい
て、 文字の誤り傾向に基づいて、全ての文字を幾つかの類に
分類して類名を付与して予め格納しておくと共に、上記
単語辞書には類名を並べてなる類名表記を伴うことなく
単語を格納しておき、 各文字の認識結果から、検索時に参照するための参照単
語を作成する第1の処理と、 この参照単語の各文字が属する類の類名を並べた類名表
記を作成する第2の処理と、 上記単語辞書に格納されている単語を検索対象とし、文
字分類に基づいて類名表記が参照単語の類名表記と一致
する単語か否かを判定し、異なる単語は候補単語の要件
を満たさないとして除外する第3の処理とを含むことを
特徴とした文字認識結果の後処理方法。 - 【請求項2】 上記第3の処理で除外されなかった単語
の内で、参照単語と不一致な文字が最も少ないものを候
補単語とすることを特徴とした請求項1に記載の文字認
識結果の後処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4207895A JPH0652367A (ja) | 1992-08-04 | 1992-08-04 | 文字認識結果の後処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP4207895A JPH0652367A (ja) | 1992-08-04 | 1992-08-04 | 文字認識結果の後処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH0652367A true JPH0652367A (ja) | 1994-02-25 |
Family
ID=16547355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4207895A Pending JPH0652367A (ja) | 1992-08-04 | 1992-08-04 | 文字認識結果の後処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH0652367A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10154156A (ja) * | 1996-11-22 | 1998-06-09 | Nec Corp | 英単語検索装置 |
-
1992
- 1992-08-04 JP JP4207895A patent/JPH0652367A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10154156A (ja) * | 1996-11-22 | 1998-06-09 | Nec Corp | 英単語検索装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9875254B2 (en) | Method for searching for, recognizing and locating a term in ink, and a corresponding device, program and language | |
US7623715B2 (en) | Holistic-analytical recognition of handwritten text | |
US5029223A (en) | Constraint driven-on line recognition of handwritten characters and symbols | |
EP0844583B1 (en) | Method and apparatus for character recognition | |
JP2734386B2 (ja) | 文字列読み取り装置 | |
US5787197A (en) | Post-processing error correction scheme using a dictionary for on-line handwriting recognition | |
JPH0664631B2 (ja) | 文字認識装置 | |
KR20010093764A (ko) | 어근 모델에 근거한 초서체 한자 주석의 검색법 | |
Karpinski et al. | Metrics for complete evaluation of ocr performance | |
CN111782892B (zh) | 基于前缀树的相似字符识别方法、设备、装置和存储介质 | |
JPH11328317A (ja) | 日本語文字認識誤り訂正方法及び装置、並びに、誤り訂正プログラムを記録した記録媒体 | |
EP2138959A1 (en) | Word recognizing method and word recognizing program | |
Mohapatra et al. | Spell checker for OCR | |
JPH0652367A (ja) | 文字認識結果の後処理方法 | |
JP2003331214A (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
JPH08287188A (ja) | 文字列認識装置 | |
JPH0256086A (ja) | 文字認識の後処理方法 | |
JP2002183667A (ja) | 文字認識装置及び記録媒体 | |
JP2002312398A (ja) | 文書検索装置 | |
JPH0652366A (ja) | 文字認識結果の後処理方法 | |
JP3985926B2 (ja) | 文字認識方法、文字認識装置、文書画像処理システム及び記録媒体 | |
Jiang et al. | Classifier combination for grammar-guided sentence recognition | |
JP2982244B2 (ja) | 文字認識後処理方式 | |
JP2996823B2 (ja) | 文字認識装置 | |
JPH07114622A (ja) | 文字認識装置の後処理方法 |