JPS63198154A - つづり誤り訂正装置 - Google Patents
つづり誤り訂正装置Info
- Publication number
- JPS63198154A JPS63198154A JP62023706A JP2370687A JPS63198154A JP S63198154 A JPS63198154 A JP S63198154A JP 62023706 A JP62023706 A JP 62023706A JP 2370687 A JP2370687 A JP 2370687A JP S63198154 A JPS63198154 A JP S63198154A
- Authority
- JP
- Japan
- Prior art keywords
- character
- word
- words
- character types
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012937 correction Methods 0.000 claims description 9
- 238000000034 method Methods 0.000 description 22
- 238000012805 post-processing Methods 0.000 description 12
- 230000007246 mechanism Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000007792 addition Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
A、産業上の利用分野
この発明はつづり誤りのある単語を自動的に訂正したり
、オペレータに正しい単語のつづりを助緬したりするの
に用いるつづり誤り訂正装置に関する。
、オペレータに正しい単語のつづりを助緬したりするの
に用いるつづり誤り訂正装置に関する。
B、従来技術
]ンピュータへの文書入力やデータ入力の負担を軽減す
べく、既存のテキストエディタの改善に加え、0CR1
音声入方など様々な入力手法が提供されてきている。し
かしこれらのいずれにおいても入力誤りを完全に避ける
ことは不可能であり、入力後のつづり誤りの検査と訂正
とが不可欠である。このためつづり誤りのある単語を見
い出し、さらにその入力文字列に対して正しいと思われ
る単語の候補をオペレータに提示するプログラムが開発
されてきた。
べく、既存のテキストエディタの改善に加え、0CR1
音声入方など様々な入力手法が提供されてきている。し
かしこれらのいずれにおいても入力誤りを完全に避ける
ことは不可能であり、入力後のつづり誤りの検査と訂正
とが不可欠である。このためつづり誤りのある単語を見
い出し、さらにその入力文字列に対して正しいと思われ
る単語の候補をオペレータに提示するプログラムが開発
されてきた。
実用上からみるとこのようなプログラムの効率を決定す
るのは入力文字列に対して候補となる単語、すなわち比
較的類似するつづりを有する単語を選び出す過程である
。候補単語はこののち入力文字列と詳細にマツチングさ
せられ、それが正解単語かどうか判別される。もっとも
簡単な方法は辞書内の全単語を候補とし、その1つ1つ
と入力文字列とをあらかじめ決められた距離式によりマ
ツチングし、入力文字列との類似度を計算するものであ
る。しかし実用的な辞書の多くは1万語ないし2万語以
上のサイズであることがらこの方法は計算コスト上実用
的ではない。そこで詳細なマツチングを行う前に候補単
語を絞る方法としてたとえばっぎのようなものが提案さ
れてきた。
るのは入力文字列に対して候補となる単語、すなわち比
較的類似するつづりを有する単語を選び出す過程である
。候補単語はこののち入力文字列と詳細にマツチングさ
せられ、それが正解単語かどうか判別される。もっとも
簡単な方法は辞書内の全単語を候補とし、その1つ1つ
と入力文字列とをあらかじめ決められた距離式によりマ
ツチングし、入力文字列との類似度を計算するものであ
る。しかし実用的な辞書の多くは1万語ないし2万語以
上のサイズであることがらこの方法は計算コスト上実用
的ではない。そこで詳細なマツチングを行う前に候補単
語を絞る方法としてたとえばっぎのようなものが提案さ
れてきた。
(1)入力単語と先頭1文字が一致し、長さの差が一定
以上(通常1〜3文字)の単語のみを候補とする。
以上(通常1〜3文字)の単語のみを候補とする。
この手法は実用化されているプログラムに広く採用され
ており、−例としてIBM社のWordProofを挙
げることができる。
ており、−例としてIBM社のWordProofを挙
げることができる。
(2)各文字に固定の数値を割り当て、入力単語のつづ
りから一定の式に基づいてその入力単語の値を計算し、
その値をハツシングのキーとし、値の差が一定以内の単
語を取り出して候補とする。
りから一定の式に基づいてその入力単語の値を計算し、
その値をハツシングのキーとし、値の差が一定以内の単
語を取り出して候補とする。
この手法にライてはW、 S、 Rosenbaumお
よびJ、 J、 Hilliardの論文“Multi
font OCRPostprocsssing Sy
stem”IBM Jounal ofresearc
h and development Vol、 19
. No、 5. pp。
よびJ、 J、 Hilliardの論文“Multi
font OCRPostprocsssing Sy
stem”IBM Jounal ofresearc
h and development Vol、 19
. No、 5. pp。
398−421.1975年7月に記載がある。詳細に
ついてはとくにpp403−404の説明を参照された
い。
ついてはとくにpp403−404の説明を参照された
い。
(3)入力単語から得られる文字種集合と各単語の文字
種集合とを全要素間で比較し、差が一定以内の単語を候
補とする。なお、ここでは単語に含まれるすべての文字
種を要素とする集合を、文字種集合と定義することにす
る。
種集合とを全要素間で比較し、差が一定以内の単語を候
補とする。なお、ここでは単語に含まれるすべての文字
種を要素とする集合を、文字種集合と定義することにす
る。
これについては特公昭59−29910号公報(米国特
許第4355371号明細書)に詳細な説明がある。
許第4355371号明細書)に詳細な説明がある。
手法(1)は入力単語の先頭の文字が最も高い信頼性を
有するという仮定に基づくものである。
有するという仮定に基づくものである。
この仮定はキーボード入力においてはある程度妥当なも
のである。しかしOCRなどにおいてはこの仮定は必ず
しも満たされず、先頭1文字を誤ったために正解が単語
候補からもれてしまうことが起こり得る。また候補の減
少率が低いため通常他の手法、たとえば単語誤りの統計
に基づいて可能性の低いものは除くという手法を併用す
る必要がある。
のである。しかしOCRなどにおいてはこの仮定は必ず
しも満たされず、先頭1文字を誤ったために正解が単語
候補からもれてしまうことが起こり得る。また候補の減
少率が低いため通常他の手法、たとえば単語誤りの統計
に基づいて可能性の低いものは除くという手法を併用す
る必要がある。
手法(2)は探索に要するコストは少ないが正解単語の
脱落という観点から見るとさらに検討を要する。各文字
にどのような数値を割当てるべきかという検討も行われ
ているが最悪の場合には1文字が入れ替わっただけの入
力文字列に対しても正解単語が脱落し得る。
脱落という観点から見るとさらに検討を要する。各文字
にどのような数値を割当てるべきかという検討も行われ
ているが最悪の場合には1文字が入れ替わっただけの入
力文字列に対しても正解単語が脱落し得る。
手法(3)は一定の閾値に対してそれ以内の文字の入れ
替わりならば、正解単語の脱落は起こらないことが保証
される。しかしこの方法では入力文字列の文字種集合と
全単語のそれとを比較する必要がある。−回あたりの比
較に要する計算コストは比較的少ないとはいえ万単位の
単語がある場合には計算コスト上問題が残る。
替わりならば、正解単語の脱落は起こらないことが保証
される。しかしこの方法では入力文字列の文字種集合と
全単語のそれとを比較する必要がある。−回あたりの比
較に要する計算コストは比較的少ないとはいえ万単位の
単語がある場合には計算コスト上問題が残る。
C0発明が解決しようとしている問題点この発明は以上
の事情を考慮してなされたものであり、予め定められた
閾値以内の文字の入れ替わり、脱落、付加しか入力単語
に存在しないのであれば、その入力単語のつづりに基づ
いて決定された候補単語中に正解単語が含まれることを
保証することができ、しかも候補単語の決定の計算を極
めて少ないものに抑えることができるつづり誤り訂正装
置を提供することを目的としている。
の事情を考慮してなされたものであり、予め定められた
閾値以内の文字の入れ替わり、脱落、付加しか入力単語
に存在しないのであれば、その入力単語のつづりに基づ
いて決定された候補単語中に正解単語が含まれることを
保証することができ、しかも候補単語の決定の計算を極
めて少ないものに抑えることができるつづり誤り訂正装
置を提供することを目的としている。
D0問題点を解決するための手段
この発明では以上の目的を達成するため単語の文字種集
合中の特定の文字種組み合わせに注目して候補単語を選
択するようにしている。
合中の特定の文字種組み合わせに注目して候補単語を選
択するようにしている。
この特定の文字種組み合わせはつぎのように決定される
。
。
■入力単語に含まれる文字種を予め定められたノ、(準
にしたがって整列化する。
にしたがって整列化する。
■整列化した文字種のうち上位のn個(nは整数)を選
ぶ。
ぶ。
08個の文字種のうちの任意のm個(mはm < nを
満たす整数)からなる文字種組み合わせを生成する。
満たす整数)からなる文字種組み合わせを生成する。
辞書中の単語はこのように抽出された文字種組み合わせ
に基づいて分類されて辞書中に記憶されている61個の
単語に通常複数の文字種組み合わせが存在するので、1
個の単語が複数のクラスに分類されるのが普通である。
に基づいて分類されて辞書中に記憶されている61個の
単語に通常複数の文字種組み合わせが存在するので、1
個の単語が複数のクラスに分類されるのが普通である。
入力単語に対する候補単語を選択するには、入力単語か
ら抽出された文字種組み合わせで特定される1または複
数(通常は複数)のクラスに含まれる単語を辞書から取
り出せばよい。
ら抽出された文字種組み合わせで特定される1または複
数(通常は複数)のクラスに含まれる単語を辞書から取
り出せばよい。
この発明では上述の文字種組み合わせは単語の属性と考
えることができる。そしてこの属性は単語の文字の置き
換え、脱落、付加が一定の範囲のものであるかぎり、全
面的には変更されることばない。すなわち少なくとも1
つの文字種組み合わせはそのようなつづり誤りが加わっ
たとしても残っているのである。したがって上述のよう
に特定されたクラスの1つの中には正解単語が存在する
こととなる。
えることができる。そしてこの属性は単語の文字の置き
換え、脱落、付加が一定の範囲のものであるかぎり、全
面的には変更されることばない。すなわち少なくとも1
つの文字種組み合わせはそのようなつづり誤りが加わっ
たとしても残っているのである。したがって上述のよう
に特定されたクラスの1つの中には正解単語が存在する
こととなる。
この発明では文字の置き換え、脱落、付加が一定の範囲
のものであるかぎり、候補単語中に必らず正解単語を含
ませることができ、しかも入力単語の属性から一意的に
候補単語のクラスを判別でき、特別に煩雑な計算を要し
ない。
のものであるかぎり、候補単語中に必らず正解単語を含
ませることができ、しかも入力単語の属性から一意的に
候補単語のクラスを判別でき、特別に煩雑な計算を要し
ない。
E、実施例
以下、この発明を印刷英数字OCRによる文書入力シス
テムに適用した一実施例について説明しよう。なお、こ
の発明を他の入力システムにも適用できることはもちろ
んである。
テムに適用した一実施例について説明しよう。なお、こ
の発明を他の入力システムにも適用できることはもちろ
んである。
第1図はこの実施例の構成を全体として示すものであり
、この図において、システムはパーソナルコンピュータ
1、ビット・マツプ・ディプレイ2、スキャナ3および
補助記憶装置4から構成されている。破線内のブロック
すなわち認識部5、後処理部6およびユーザーインター
フェース部7はソフトウェアとして実現されている。実
用的には認識部5をハードウェアで実現するようにして
もよい。後処理部6はこの発明に直接関連する部分であ
り、この後処理部6をソフトウェアで実現しても計算量
や処理速度上何ら支障がないことはのちに理解される。
、この図において、システムはパーソナルコンピュータ
1、ビット・マツプ・ディプレイ2、スキャナ3および
補助記憶装置4から構成されている。破線内のブロック
すなわち認識部5、後処理部6およびユーザーインター
フェース部7はソフトウェアとして実現されている。実
用的には認識部5をハードウェアで実現するようにして
もよい。後処理部6はこの発明に直接関連する部分であ
り、この後処理部6をソフトウェアで実現しても計算量
や処理速度上何ら支障がないことはのちに理解される。
第2図は第1図のシステムの手順を示すものである。第
1図および第2図において、オペレータが処理開始コマ
ンドを発行するとユーザ・インターフェース部7はまず
スキャナ3にスキャン要求を供給する。文′II8はス
キャナ3により走査され、イメージとして認識部5へ供
給される(S11)。
1図および第2図において、オペレータが処理開始コマ
ンドを発行するとユーザ・インターフェース部7はまず
スキャナ3にスキャン要求を供給する。文′II8はス
キャナ3により走査され、イメージとして認識部5へ供
給される(S11)。
認識部5ではイメージを1文字単位で切り出したのち(
Sn2)、切り出した1文字分のイメージがどの文字で
あるかを識別する(Si2)。識別の結果は唯一に決ま
るとは限らず、複数の候補が出力されることもある。後
述する第3図では第1位の文字候補の列を枠で囲んで示
しである。1単語分の認識が終了するとユーザーインタ
ーフェース部7は後処理部6に対して認識結果のつづり
誤りの検査および訂正を要求する。後処理部6は認識部
5から供給された認識結果について補助記憶装置4中の
単語辞書を参照してつづりの確認を実行し、辞書中に該
当する嘔語が存在しない場合には、近似的に一致したつ
づりを有する単語を検索する(S14)。この部分はこ
の発明と直接関連する部分であり、のちに詳述する。ス
テップ14の結果はユーザーインターフェース部7を介
してディスプレイ2に表示され、オペレータが最終的に
認識、修正を行う(S15)。このようにしてコード化
された正しい文書が得られることになる。
Sn2)、切り出した1文字分のイメージがどの文字で
あるかを識別する(Si2)。識別の結果は唯一に決ま
るとは限らず、複数の候補が出力されることもある。後
述する第3図では第1位の文字候補の列を枠で囲んで示
しである。1単語分の認識が終了するとユーザーインタ
ーフェース部7は後処理部6に対して認識結果のつづり
誤りの検査および訂正を要求する。後処理部6は認識部
5から供給された認識結果について補助記憶装置4中の
単語辞書を参照してつづりの確認を実行し、辞書中に該
当する嘔語が存在しない場合には、近似的に一致したつ
づりを有する単語を検索する(S14)。この部分はこ
の発明と直接関連する部分であり、のちに詳述する。ス
テップ14の結果はユーザーインターフェース部7を介
してディスプレイ2に表示され、オペレータが最終的に
認識、修正を行う(S15)。このようにしてコード化
された正しい文書が得られることになる。
つぎにこの発明に直接関連する後処理部6について説明
する。なお、この後処理部6の機能としてはづぎの2つ
がある。
する。なお、この後処理部6の機能としてはづぎの2つ
がある。
(1)入力文字列が単Inとして正しいつづりであるか
(単語辞書に存在するかどうか)を検査する。
(単語辞書に存在するかどうか)を検査する。
(2)入力文字列(あるいは認識結果そのもの)に対し
て類似したつづりをもつ単語を探索する。
て類似したつづりをもつ単語を探索する。
機能(1)は機能(2)のサブセットとして理解できる
のでここでは機能(2)についてのみ述べる。
のでここでは機能(2)についてのみ述べる。
第3図は後処理部6の詳細を示しており、この図におい
て、後処理部6はクラス生成部9、検索機構10、マツ
チング部11およびパーソナルコンピュータ1の主記憶
12からなっている。この碍成において、まず認識結果
の第1位候補からなる文字列が入力文字列としてクラス
生成部9に供給される。クラス生成部はのちに詳述する
クラスを生成する。検索機構10は生成されたクラスを
キーにして補助記憶装置4中の単語辞書を探索し、候補
単語を選択して主記憶12に転送する。マツチング部1
1に得られた候補単語と入力文字列(あるいは認識結果
)とのマツチングを実行し、マツチング距離が閾値以内
ならば確からしい単語として出力する。
て、後処理部6はクラス生成部9、検索機構10、マツ
チング部11およびパーソナルコンピュータ1の主記憶
12からなっている。この碍成において、まず認識結果
の第1位候補からなる文字列が入力文字列としてクラス
生成部9に供給される。クラス生成部はのちに詳述する
クラスを生成する。検索機構10は生成されたクラスを
キーにして補助記憶装置4中の単語辞書を探索し、候補
単語を選択して主記憶12に転送する。マツチング部1
1に得られた候補単語と入力文字列(あるいは認識結果
)とのマツチングを実行し、マツチング距離が閾値以内
ならば確からしい単語として出力する。
以下、後処理部6の要部について順に詳述する。
欠乏ジ(生−成#□」
第4図はクラス生成部9の処理手順を示している。クラ
スとはm文字種(mは整数、たとえば3)からなる文字
種組み合わせに対応する属性名として定義される。たと
えば(a、b、c) 、(d。
スとはm文字種(mは整数、たとえば3)からなる文字
種組み合わせに対応する属性名として定義される。たと
えば(a、b、c) 、(d。
e、f)はそれぞれ1つのクラスである。そして所定の
単語が特定のクラスに属するとは、その単語から以下に
述べる手順をへて得られる文字種組み合わせのなかに、
そのクラスを特定する文字種組み合わせが存在すること
を意味する。ではこのクラス生成部9の処理を第4図を
参照して説明する。
単語が特定のクラスに属するとは、その単語から以下に
述べる手順をへて得られる文字種組み合わせのなかに、
そのクラスを特定する文字種組み合わせが存在すること
を意味する。ではこのクラス生成部9の処理を第4図を
参照して説明する。
ステップ5−21
卿語のつづりからその文字種集合を作成する。
従来技術の説明で述べたとおり、文字種集合とは’l’
−g7kに含まれるすべての文字種を要素とする集合で
ある。
−g7kに含まれるすべての文字種を要素とする集合で
ある。
[例コ
example → (a、e、 l、 m+ p
+ x)apple → (a、e、 1、p
)Of → (f、0) ステップS22 文字種集合を一定の基へ1口こより整列化する。この例
では単語の頻度を考慮しないときの各文字の出現頻度の
低さを用いている。この頻度順位を表1に示す。
+ x)apple → (a、e、 1、p
)Of → (f、0) ステップS22 文字種集合を一定の基へ1口こより整列化する。この例
では単語の頻度を考慮しないときの各文字の出現頻度の
低さを用いている。この頻度順位を表1に示す。
[例]
(a、 e、 l、m、 p、 x)→[x+p+mS
1. a+e](a、 e、1、P) →[p、
1. a、 e](f、 o) →[f、
0]表1、文字種の頻度組進−IUゆ鎚紗」LL−jq
xzwkvfby g hp m d u c s l t o n
r i a eステップS23 整列化した要素の上位4文字種を取り出した部分文字種
集合を生成する。ただしもともと文字種集合の要素が4
個よりも少ない場合にはブランク文字を加えて4文字種
とする。ブランク文字は必要に応じて重複して加えてよ
い。なお、以下でブランク文字は11 I+で表わす
。
1. a+e](a、 e、1、P) →[p、
1. a、 e](f、 o) →[f、
0]表1、文字種の頻度組進−IUゆ鎚紗」LL−jq
xzwkvfby g hp m d u c s l t o n
r i a eステップS23 整列化した要素の上位4文字種を取り出した部分文字種
集合を生成する。ただしもともと文字種集合の要素が4
個よりも少ない場合にはブランク文字を加えて4文字種
とする。ブランク文字は必要に応じて重複して加えてよ
い。なお、以下でブランク文字は11 I+で表わす
。
[例]
[x、 p、 1、m、 a、 el→(x、 p、
m+1)[p、 1. a、 eコ
→ (P、 1、 a、 e)[f、 0コ
→ (f、 o、 −5−)ステ
ーツブ−824− 上述のように3文字種の組み合わせを1つのクラスと定
義する。そして単語の部分文字集合の要素を用いてつく
ることのできる3文字種組み合わせをすべて生成する。
m+1)[p、 1. a、 eコ
→ (P、 1、 a、 e)[f、 0コ
→ (f、 o、 −5−)ステ
ーツブ−824− 上述のように3文字種の組み合わせを1つのクラスと定
義する。そして単語の部分文字集合の要素を用いてつく
ることのできる3文字種組み合わせをすべて生成する。
これは通常4個生成される。
その単語は得られた3文字種組に対応するクラスに、重
複を許して、属しているものと定義する。
複を許して、属しているものと定義する。
英語の場合、文字種はブランク文字を含めて27個ある
ので、合計2951個(=2□C,+26)のクラスが
存在し、各単語はこの中のいずれかに(通常4クラスに
重複して)属していることになる。
ので、合計2951個(=2□C,+26)のクラスが
存在し、各単語はこの中のいずれかに(通常4クラスに
重複して)属していることになる。
[例コ
appleの部分文字種集合は(P、1、a、 e)で
あるから、appleは(a、1、P)、(e、1、P
)、(a、 e。
あるから、appleは(a、1、P)、(e、1、P
)、(a、 e。
p)および、(a、 e、 l)の4つのクラスに属す
る。
る。
単語辞書はこのようにして生成されたクラスに基づいて
検索できるようになっている。以下この検索機構10お
よび辞書構成例について述べる。
検索できるようになっている。以下この検索機構10お
よび辞書構成例について述べる。
軟索−機−構−咀−9−と晩−書遭成−例第5図は辞書
構成例を示す。第5図において、辞書は第1インデック
ス部13、第2インデックス部14および辞書本体15
がらなっている。第1インデックス部13はクラスすな
わち3文字種組たとえば(a、b、c)と−意に対応す
るエントリを有し、各エントリごとにそのクラスの第2
インデツクスへの先頭ポインタと、属している単語の数
Nとを記憶している。第2インデックス部14は各クラ
スと一対一に対応する複数の部分領域14aを有してい
る。そして第2インデックス部14の部分領域14aの
各エントリは単dttと一意に対応し、辞書本体15へ
のポインタと単dt)の長さを有している。もちろん単
語候補をより絞るための付加情報を有してもよい。各エ
ントリは辞書本体15へのポインタおよび長さをキーと
して整列化されており、第1インデツクス13から得た
先頭ポインタからN個順次読み出しを行えば、その部分
領域のエントリを全部アクセスできる。
構成例を示す。第5図において、辞書は第1インデック
ス部13、第2インデックス部14および辞書本体15
がらなっている。第1インデックス部13はクラスすな
わち3文字種組たとえば(a、b、c)と−意に対応す
るエントリを有し、各エントリごとにそのクラスの第2
インデツクスへの先頭ポインタと、属している単語の数
Nとを記憶している。第2インデックス部14は各クラ
スと一対一に対応する複数の部分領域14aを有してい
る。そして第2インデックス部14の部分領域14aの
各エントリは単dttと一意に対応し、辞書本体15へ
のポインタと単dt)の長さを有している。もちろん単
語候補をより絞るための付加情報を有してもよい。各エ
ントリは辞書本体15へのポインタおよび長さをキーと
して整列化されており、第1インデツクス13から得た
先頭ポインタからN個順次読み出しを行えば、その部分
領域のエントリを全部アクセスできる。
辞書本体15は単語のつづりやその他の情報を含んでお
り、第2インデックス部14の各エントリ中のポインタ
により直接にアクセスされる。
り、第2インデックス部14の各エントリ中のポインタ
により直接にアクセスされる。
なおこの辞書構成においては、各クラスに属する単語を
、そのクラスを特定する3文字種を上位3文字種とする
単語と、それ以外の単語とに別けておくことが好ましい
。このようにすると単につづりが正しいかどうかを検査
する場合に、余分な検索を実行しなくてすむ。すなわち
、つづりが正しいかどうかの検査を行うには、上位3文
字種が入力単語に等しい単語のみを候補としてマツチン
グを実行すればよい。等しい単語が見い出せればつづり
が正しいと判断し、見い出せなければつづりが誤ってい
ると判断すればよいのである。そこで第5図の辞書を用
いてつづりの誤りを検査する場合には、入力文字列の上
位3文字種組でクラスを特定し、このクラスの中でその
上位3文字種組を有する単語のみを取り出してマツチン
グを実行すればよい。以上のようにクラスを2分すれば
不要な検索を回避できる。なお、上位3文字種ではなく
、他の特定の列位置の3文字種を基ベロにしてもよい。
、そのクラスを特定する3文字種を上位3文字種とする
単語と、それ以外の単語とに別けておくことが好ましい
。このようにすると単につづりが正しいかどうかを検査
する場合に、余分な検索を実行しなくてすむ。すなわち
、つづりが正しいかどうかの検査を行うには、上位3文
字種が入力単語に等しい単語のみを候補としてマツチン
グを実行すればよい。等しい単語が見い出せればつづり
が正しいと判断し、見い出せなければつづりが誤ってい
ると判断すればよいのである。そこで第5図の辞書を用
いてつづりの誤りを検査する場合には、入力文字列の上
位3文字種組でクラスを特定し、このクラスの中でその
上位3文字種組を有する単語のみを取り出してマツチン
グを実行すればよい。以上のようにクラスを2分すれば
不要な検索を回避できる。なお、上位3文字種ではなく
、他の特定の列位置の3文字種を基ベロにしてもよい。
つぎにこのように構成された辞書を検索機構10がどの
ようにアクセスするかについて例を挙げて説明しておく
。部分文字種集合を(x、p、m、1)とする場合につ
いて考える。まずクラス生成部9から検索機構10がク
ラス(1、m、p)を受は取ると、この検索機構10は
第1インデックス部13からクラス(1,m、p)に属
している単語の数Niと、それらの単語の情報が格納さ
れている第2インデックス部14中の部分領域14a(
Ciで示す)への先頭ポインタp□とを得る。
ようにアクセスするかについて例を挙げて説明しておく
。部分文字種集合を(x、p、m、1)とする場合につ
いて考える。まずクラス生成部9から検索機構10がク
ラス(1、m、p)を受は取ると、この検索機構10は
第1インデックス部13からクラス(1,m、p)に属
している単語の数Niと、それらの単語の情報が格納さ
れている第2インデックス部14中の部分領域14a(
Ciで示す)への先頭ポインタp□とを得る。
ポインタPtを用いて部分領域C1にアクセスし順に走
査しながら入力文字列との長さが一定の閾値以内のもの
を検索し、辞書本体15中の該当する乍語へのポインタ
P1k(k:1、・・・・、Ni)を得る。そしてこれ
ら辞書本体15へのポインタをたどり、たとえばsim
ple、 exampleといった単dt1のつづりを
読み出し、主記憶12に転送する。
査しながら入力文字列との長さが一定の閾値以内のもの
を検索し、辞書本体15中の該当する乍語へのポインタ
P1k(k:1、・・・・、Ni)を得る。そしてこれ
ら辞書本体15へのポインタをたどり、たとえばsim
ple、 exampleといった単dt1のつづりを
読み出し、主記憶12に転送する。
同様にして他の3文字種組(m、 p、 x)、(1、
P、X)および(1、m、x)についても該当する単語
を選択して転送する。この場合、クラスの定義から明ら
かなように重複した単語がいつくか存在する。
P、X)および(1、m、x)についても該当する単語
を選択して転送する。この場合、クラスの定義から明ら
かなように重複した単語がいつくか存在する。
たとえば単#) exampleはクラス(1,m、
p)、(m、p、 x)、(1、p、 x)および(1
、m、!)のいずれにも屈し、そのままでは4度重複し
て転送される。
p)、(m、p、 x)、(1、p、 x)および(1
、m、!)のいずれにも屈し、そのままでは4度重複し
て転送される。
検索機構10はこの重複した検索をチェックして防止す
る機能も有する。
る機能も有する。
以上のようにしてクラス生成部9および検索機構10に
より入力文字列に」みづいて候補単語の選択を実行でき
る。さまざまな入力文字列に対し、このようにして得ら
れる候補単語を表2に示す。
より入力文字列に」みづいて候補単語の選択を実行でき
る。さまざまな入力文字列に対し、このようにして得ら
れる候補単語を表2に示す。
この表では、入力文字列との長さの差が1以内のものの
み選択した。辞書のサイズは約11000語とした。
み選択した。辞書のサイズは約11000語とした。
マツチング紙上上
マツチング部11では選択された候補単語と入力文字列
(あるいは認識結果)とを照合しどの程度類似している
かを811定する。この照合には種々の手法を採用する
ことができ、その詳細については当業者に自明であるこ
とから説明を行わないこととする。
(あるいは認識結果)とを照合しどの程度類似している
かを811定する。この照合には種々の手法を採用する
ことができ、その詳細については当業者に自明であるこ
とから説明を行わないこととする。
実施例の説明を終えるに際し、この実施例の特徴をまと
めておくことにする。
めておくことにする。
(1)単語中の特定の位置にある文字が正解であるかど
うかに依存しない。とくに先頭の文字が正解であるかど
うかに無関係であることは既存の方法の中でも広く用い
られている先行技術(1)に比較して優位な点である。
うかに依存しない。とくに先頭の文字が正解であるかど
うかに無関係であることは既存の方法の中でも広く用い
られている先行技術(1)に比較して優位な点である。
(2)処理が簡単である。部分文字集合をもとめる操作
は入力文字列中の文字種の確認と集合演算のみであり要
素の数も高々数個程度であるからハツシュ方式と比較し
ても同程度の探索コストですむ。辞書のアクセスもまた
候補単語選択の過程で゛は辞書本体にアクセスする必要
はなく、処理のほとんどはインデックス2への順次アク
セスですみ、辞書のアクセス(補助記憶装置4のアクセ
ス)は実用上問題にならない。
は入力文字列中の文字種の確認と集合演算のみであり要
素の数も高々数個程度であるからハツシュ方式と比較し
ても同程度の探索コストですむ。辞書のアクセスもまた
候補単語選択の過程で゛は辞書本体にアクセスする必要
はなく、処理のほとんどはインデックス2への順次アク
セスですみ、辞書のアクセス(補助記憶装置4のアクセ
ス)は実用上問題にならない。
(3)用いる部分文字集合の要素数(n)と文字組合せ
の要素数(m)とにより決定される閾値(n−m)以内
の文字の入れ替り、脱落、追加ならば正解単語が候補か
らもれてしまうことはない。
の要素数(m)とにより決定される閾値(n−m)以内
の文字の入れ替り、脱落、追加ならば正解単語が候補か
らもれてしまうことはない。
またそれ以上の入れ替りなどに対しても適切な整列化の
基準(本例では候補単語の減少率を高くするため頻度の
低さを基準としているが、誤りの起こり難さなども基準
に取り入れることができる)のもとでは部分文字集合が
大きく異なってしまうような単語の変形は極めてまれで
あり、したがって正解単語が脱落する確率は極めて低い
。
基準(本例では候補単語の減少率を高くするため頻度の
低さを基準としているが、誤りの起こり難さなども基準
に取り入れることができる)のもとでは部分文字集合が
大きく異なってしまうような単語の変形は極めてまれで
あり、したがって正解単語が脱落する確率は極めて低い
。
(4)各クラス内の単語を上位m文字種に着目して2分
することによりつづり検査時の検索を少なくすることが
できる。
することによりつづり検査時の検索を少なくすることが
できる。
(5)文字種組み合わせによる分類に加えて単語の長さ
も考慮して候補単語を選択しているので、効率よく候補
の絞り込みを行える。
も考慮して候補単語を選択しているので、効率よく候補
の絞り込みを行える。
なおこの発明の範囲は上述実施例のみに限定されるもの
ではなく、その趣旨を逸脱しない範囲で変更を行うこと
ができる。たとえば文字種は英文字に限定されない。ま
た入力は音声認識やキーボードを用いてもよい。また部
分文字種集合の要素数nや文字種組み合わせの要素数m
を種々変更できる。また整列化の基準として他の統計情
報等を用いてもよい。さらに辞書の構成としても種々の
ものを採用してよい。
ではなく、その趣旨を逸脱しない範囲で変更を行うこと
ができる。たとえば文字種は英文字に限定されない。ま
た入力は音声認識やキーボードを用いてもよい。また部
分文字種集合の要素数nや文字種組み合わせの要素数m
を種々変更できる。また整列化の基準として他の統計情
報等を用いてもよい。さらに辞書の構成としても種々の
ものを採用してよい。
F9発明の詳細
な説明したように、この発明によれば単語の文字種集合
の要素の特定の組み合わせをその単語の属性とし、この
属性に基づいて辞書中の単語を分類している。他方入力
単語から同様の属性を抽出し、属性を同一とするクラス
の単語を辞書から取り出して入力単語の候補とするよう
にしている。
の要素の特定の組み合わせをその単語の属性とし、この
属性に基づいて辞書中の単語を分類している。他方入力
単語から同様の属性を抽出し、属性を同一とするクラス
の単語を辞書から取り出して入力単語の候補とするよう
にしている。
したがって少ない計算量で候補単語を得ることができる
。しかも上述の組み合わせの生成規則から所定の範囲の
文字の入れ替え、脱落、挿入によるつづり誤りの訂正を
保証することができる。
。しかも上述の組み合わせの生成規則から所定の範囲の
文字の入れ替え、脱落、挿入によるつづり誤りの訂正を
保証することができる。
第1図はこの発明の一実施例全体としてを示すブロック
図、第2図は第1図の実施例の手順を示すフローチャー
ト、第3図は第1図の後処理部6の詳細を示すブロック
図、第4図は第3図のクラス生成部9を説明するための
フローチャート、第5図は検索機構10がアクセスする
単語辞書の構成例を示す図である。 1・・・・パーソナルコンピュータ、2・パ・ディスプ
レイ、3・・・・スキャナ、4・・・・補助記憶装置、
5・・・・認識部、6・・・・後処理部、9・・・・ク
ラス生成部、10・・・・検索機構、11・・・・マツ
チング部。 出願人 インターナショナル・ビジネス・マシーンズ
・コーポレーション 復代理人 弁理士 澤 1) 俊 夫実施例の
システム 算Xに・ 実施例の処理の流九 第2図 欲7趙理邦のa代 第、3居 辞書のt戊 第5呂
図、第2図は第1図の実施例の手順を示すフローチャー
ト、第3図は第1図の後処理部6の詳細を示すブロック
図、第4図は第3図のクラス生成部9を説明するための
フローチャート、第5図は検索機構10がアクセスする
単語辞書の構成例を示す図である。 1・・・・パーソナルコンピュータ、2・パ・ディスプ
レイ、3・・・・スキャナ、4・・・・補助記憶装置、
5・・・・認識部、6・・・・後処理部、9・・・・ク
ラス生成部、10・・・・検索機構、11・・・・マツ
チング部。 出願人 インターナショナル・ビジネス・マシーンズ
・コーポレーション 復代理人 弁理士 澤 1) 俊 夫実施例の
システム 算Xに・ 実施例の処理の流九 第2図 欲7趙理邦のa代 第、3居 辞書のt戊 第5呂
Claims (7)
- (1)正しくつづられている多数の単語を記憶する記憶
手段であつて、上記単語の各々を、文字種に関して予め
定められている基準で整列化された、当該単語に含まれ
る文字種の、上位n個(nは定数)のうちの任意のm個
(mはm<nを満たす定数)からなる文字種組み合わせ
により、読み出せるようにしたものと、 入力単語に含まれる文字種を上記整列化の基準で整列化
する手段と、 整列化した文字種の上位n個のうちのm個からなるすべ
ての文字種組み合わせを求める手段と、求められた文字
種組み合わせの各々に基づいて上記記憶手段から正しく
つづられている単語を読み出す手段と、 上記入力単語を上記読み出された単語にマッチングさせ
る手段とを有することを特徴とするつづり誤り訂正装置
。 - (2)上記n個の文字種には1以上のブランク文字を含
ませることができるようにした特許請求の範囲第(1)
項記載のつづり誤り訂正装置。 - (3)上記整列化の基準は文字種の出現頻度の低さによ
ることとした特許請求の範囲第(1)項または第(2)
項記載のつづり誤りの訂正装置。 - (4)上記記憶手段は正しくつづられている単語を記憶
する記憶手段本体部と、上記文字種組み合わせに基づい
て上記記憶手段本体部の記憶位置を指定するインデック
ス部とを有する特許請求の範囲第(1)項、第(2)項
または第(3)項記載のつづり誤り訂正装置。 - (5)上記インデックス部は、つづり誤りの検査時に、
上記入力単語の整列化された文字種のうちの予め定めら
れたm個の列位置の文字種に応じて、読み出すべき単語
の範囲を絞り込むようにされている特許請求の範囲第(
4)項記載のつづり誤り訂正装置。 - (6)上記予め定められたm個の列位置を上位m位置と
した特許請求の範囲第(5)項記載のつづり誤り訂正装
置。 - (7)上記インデックス部は上記入力単語の長さに応じ
て、読み出すべき単語の範囲を絞り込むようにされてい
る特許請求の範囲第(4)項、第(5)項または第(6
)項記載のつづり誤り訂正装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62023706A JPS63198154A (ja) | 1987-02-05 | 1987-02-05 | つづり誤り訂正装置 |
DE8787119141T DE3776783D1 (de) | 1987-02-05 | 1987-12-23 | System zur korrektur von rechtschreibung. |
EP87119141A EP0277356B1 (en) | 1987-02-05 | 1987-12-23 | Spelling error correcting system |
US07/150,960 US4903206A (en) | 1987-02-05 | 1988-02-01 | Spelling error correcting system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62023706A JPS63198154A (ja) | 1987-02-05 | 1987-02-05 | つづり誤り訂正装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS63198154A true JPS63198154A (ja) | 1988-08-16 |
JPH058464B2 JPH058464B2 (ja) | 1993-02-02 |
Family
ID=12117800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62023706A Granted JPS63198154A (ja) | 1987-02-05 | 1987-02-05 | つづり誤り訂正装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US4903206A (ja) |
EP (1) | EP0277356B1 (ja) |
JP (1) | JPS63198154A (ja) |
DE (1) | DE3776783D1 (ja) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0833806B2 (ja) * | 1989-03-13 | 1996-03-29 | 富士通株式会社 | データ処理装置における多国語変換処理方式 |
US5261112A (en) * | 1989-09-08 | 1993-11-09 | Casio Computer Co., Ltd. | Spelling check apparatus including simple and quick similar word retrieval operation |
FR2660085A1 (fr) * | 1990-03-20 | 1991-09-27 | Philips Electronique Lab | Dispositif de traitement de donnees et procede pour selectionner des mots de donnees contenus dans un dictionnaire. |
US5604897A (en) * | 1990-05-18 | 1997-02-18 | Microsoft Corporation | Method and system for correcting the spelling of misspelled words |
US5157759A (en) * | 1990-06-28 | 1992-10-20 | At&T Bell Laboratories | Written language parser system |
JPH05505270A (ja) * | 1990-12-31 | 1993-08-05 | ジーティーイー ラボラトリーズ インコーポレイテッド | 多重エラースペリング修正のための高速近似ストリングマッチング法 |
US5329598A (en) * | 1992-07-10 | 1994-07-12 | The United States Of America As Represented By The Secretary Of Commerce | Method and apparatus for analyzing character strings |
US6041141A (en) * | 1992-09-28 | 2000-03-21 | Matsushita Electric Industrial Co., Ltd. | Character recognition machine utilizing language processing |
US5987170A (en) * | 1992-09-28 | 1999-11-16 | Matsushita Electric Industrial Co., Ltd. | Character recognition machine utilizing language processing |
US5576955A (en) * | 1993-04-08 | 1996-11-19 | Oracle Corporation | Method and apparatus for proofreading in a computer system |
JPH0793335A (ja) * | 1993-06-07 | 1995-04-07 | Internatl Business Mach Corp <Ibm> | テキストの言語機能を提供する方法 |
US5392212A (en) * | 1993-07-07 | 1995-02-21 | The United States Of America As Represented By The Secretary Of Commerce | Apparatus for identifying unknown words by comparison to known words |
DE4323241A1 (de) * | 1993-07-12 | 1995-02-02 | Ibm | Verfahren und Computersystem zur Suche fehlerhafter Zeichenketten in einem Text |
JP2734386B2 (ja) * | 1994-12-20 | 1998-03-30 | 日本電気株式会社 | 文字列読み取り装置 |
JP3003915B2 (ja) * | 1994-12-26 | 2000-01-31 | シャープ株式会社 | 単語辞書検索装置 |
US5774588A (en) * | 1995-06-07 | 1998-06-30 | United Parcel Service Of America, Inc. | Method and system for comparing strings with entries of a lexicon |
US6047300A (en) * | 1997-05-15 | 2000-04-04 | Microsoft Corporation | System and method for automatically correcting a misspelled word |
US6760746B1 (en) * | 1999-09-01 | 2004-07-06 | Eric Schneider | Method, product, and apparatus for processing a data request |
US6782510B1 (en) * | 1998-01-27 | 2004-08-24 | John N. Gross | Word checking tool for controlling the language content in documents using dictionaries with modifyable status fields |
US6507678B2 (en) * | 1998-06-19 | 2003-01-14 | Fujitsu Limited | Apparatus and method for retrieving character string based on classification of character |
US8037168B2 (en) | 1999-07-15 | 2011-10-11 | Esdr Network Solutions Llc | Method, product, and apparatus for enhancing resolution services, registration services, and search services |
US9141717B2 (en) * | 1999-03-22 | 2015-09-22 | Esdr Network Solutions Llc | Methods, systems, products, and devices for processing DNS friendly identifiers |
USRE43690E1 (en) | 1999-03-22 | 2012-09-25 | Esdr Network Solutions Llc | Search engine request method, product, and apparatus |
US6338082B1 (en) | 1999-03-22 | 2002-01-08 | Eric Schneider | Method, product, and apparatus for requesting a network resource |
US7188138B1 (en) | 1999-03-22 | 2007-03-06 | Eric Schneider | Method, product, and apparatus for resource identifier registration and aftermarket services |
USRE44207E1 (en) | 1999-09-01 | 2013-05-07 | Esdr Network Solutions Llc | Network resource access method, product, and apparatus |
US20050235031A1 (en) * | 1999-09-10 | 2005-10-20 | Eric Schneider | Hyperlink generation and enhanced spell check method, product, apparatus, and user interface system |
US7565402B2 (en) * | 2002-01-05 | 2009-07-21 | Eric Schneider | Sitemap access method, product, and apparatus |
US7092567B2 (en) * | 2002-11-04 | 2006-08-15 | Matsushita Electric Industrial Co., Ltd. | Post-processing system and method for correcting machine recognized text |
KR101035744B1 (ko) * | 2008-12-08 | 2011-05-20 | 삼성전자주식회사 | 카메라를 이용한 문자 인식 장치 및 방법 |
CN101930545A (zh) * | 2009-06-24 | 2010-12-29 | 夏普株式会社 | 手写识别方法和设备 |
MY156899A (en) * | 2009-09-24 | 2016-04-15 | Nec Corp | Word recognition apparatus, word recognition method, non-transitory computer readable medium storing word recognition program, and delivery item sorting apparatus |
US9047268B2 (en) | 2013-01-31 | 2015-06-02 | Google Inc. | Character and word level language models for out-of-vocabulary text input |
US9454240B2 (en) | 2013-02-05 | 2016-09-27 | Google Inc. | Gesture keyboard input of non-dictionary character strings |
US8756499B1 (en) * | 2013-04-29 | 2014-06-17 | Google Inc. | Gesture keyboard input of non-dictionary character strings using substitute scoring |
CN110750959B (zh) * | 2019-10-28 | 2022-05-10 | 腾讯科技(深圳)有限公司 | 文本信息处理的方法、模型训练的方法以及相关装置 |
CN111523532A (zh) * | 2020-04-14 | 2020-08-11 | 广东小天才科技有限公司 | 一种矫正ocr文字识别错误的方法及终端设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3969698A (en) * | 1974-10-08 | 1976-07-13 | International Business Machines Corporation | Cluster storage apparatus for post processing error correction of a character recognition machine |
US4328561A (en) * | 1979-12-28 | 1982-05-04 | International Business Machines Corp. | Alpha content match prescan method for automatic spelling error correction |
US4355371A (en) * | 1980-03-25 | 1982-10-19 | International Business Machines Corporation | Instantaneous alpha content prescan method for automatic spelling error correction |
-
1987
- 1987-02-05 JP JP62023706A patent/JPS63198154A/ja active Granted
- 1987-12-23 EP EP87119141A patent/EP0277356B1/en not_active Expired - Lifetime
- 1987-12-23 DE DE8787119141T patent/DE3776783D1/de not_active Expired - Lifetime
-
1988
- 1988-02-01 US US07/150,960 patent/US4903206A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
DE3776783D1 (de) | 1992-03-26 |
EP0277356A3 (en) | 1988-12-07 |
JPH058464B2 (ja) | 1993-02-02 |
US4903206A (en) | 1990-02-20 |
EP0277356A2 (en) | 1988-08-10 |
EP0277356B1 (en) | 1992-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPS63198154A (ja) | つづり誤り訂正装置 | |
US11163955B2 (en) | Identifying non-exactly matching text | |
JP4421134B2 (ja) | 文書画像検索装置 | |
US5572423A (en) | Method for correcting spelling using error frequencies | |
US4862408A (en) | Paradigm-based morphological text analysis for natural languages | |
US8855998B2 (en) | Parsing culturally diverse names | |
JP3636941B2 (ja) | 情報検索方法と情報検索装置 | |
US7010519B2 (en) | Method and system for expanding document retrieval information | |
JP2013117978A (ja) | タイピング効率向上のためのタイピング候補の生成方法 | |
EA003619B1 (ru) | Система и способ поиска электронных документов, созданных с помощью оптического распознавания знаков | |
JP3975825B2 (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
CN110457695B (zh) | 一种在线文字纠错方法及系统 | |
JP2009104475A (ja) | 類似文書検索装置、類似文書検索方法およびプログラム | |
JP3371983B2 (ja) | 不完全文字列と文字列の照合方法および装置 | |
US20230139699A1 (en) | Identifying Non-Exactly Matching Text with Diagonal Matching | |
Hanada et al. | Effective spelling correction for eye-based typing using domain-specific information about error distribution | |
JP3187671B2 (ja) | 電子辞書表示装置 | |
JP3241854B2 (ja) | 単語スペル自動補正装置 | |
JPH0869455A (ja) | 文書検索方法,文書検索装置及び文書記憶装置 | |
JPH08249341A (ja) | 文書データベースの文書格納・検索装置 | |
JPS6356756A (ja) | コレクト機能付欧文作成装置 | |
JPH0991304A (ja) | 情報検索方法、情報検索システム及び情報検索用記憶媒体 | |
JPH1166076A (ja) | データ派生装置及び方法、並びに、データ派生プログラムを格納した記憶媒体 | |
JPH06215038A (ja) | データベース検索装置 | |
JPH0236475A (ja) | 文字列検索装置 |