[go: up one dir, main page]

JP3415342B2 - Character cutout method - Google Patents

Character cutout method

Info

Publication number
JP3415342B2
JP3415342B2 JP23498295A JP23498295A JP3415342B2 JP 3415342 B2 JP3415342 B2 JP 3415342B2 JP 23498295 A JP23498295 A JP 23498295A JP 23498295 A JP23498295 A JP 23498295A JP 3415342 B2 JP3415342 B2 JP 3415342B2
Authority
JP
Japan
Prior art keywords
pattern
reliability
cutout
character
group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP23498295A
Other languages
Japanese (ja)
Other versions
JPH0981684A (en
Inventor
悦伸 堀田
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP23498295A priority Critical patent/JP3415342B2/en
Publication of JPH0981684A publication Critical patent/JPH0981684A/en
Application granted granted Critical
Publication of JP3415342B2 publication Critical patent/JP3415342B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、文字切り出し方式
に関し、手書き用文字認識装置、印刷文字認識装置、図
面認識における文字の切り出し装置などにおける、フリ
ーピッチ領域の文字のセグメンテーションに適用して好
適なものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character slicing method, and is suitable for application to segmentation of characters in a free pitch area in a handwriting character recognizing device, a print character recognizing device, a character slicing device in drawing recognition and the like. It is a thing.

【0002】[0002]

【従来の技術】近年、手書き用の入力周辺機器として、
手書き文字認識装置OCRの需要が増加している。そし
て、個々の文字の高い認識率を実現するためには、文字
認識の前段階である文字の切り出し処理が文字認識を正
確に行う際に重要になる。これまで、帳票などの文書に
対して、1文字ずつ分離されて書かれた文字については
かなり高い確率で文字を自動認識することができた。
2. Description of the Related Art Recently, as an input peripheral for handwriting,
The demand for the handwritten character recognition device OCR is increasing. In order to realize a high recognition rate of each character, the character cutting process, which is the previous stage of character recognition, is important for accurately performing character recognition. Up to now, with respect to a document such as a form, it has been possible to automatically recognize a character separated and written one by one with a high probability.

【0003】例えば、従来の文字切り出し方式は、特開
平6−348896号公報に記載されているように、文
字を構成する部分パターンの位置、傾き、サイズなどの
特性値に基づいて、部分パターンをその左右のパターン
に統合するようにしていた。すなわち、文字を構成する
部分パターンの位置、傾き、サイズなどの特性値と予め
設定したそれぞれの特性値に対する閾値とを比較し、そ
の比較結果に基づいて統合判定処理を行っていた。
For example, as described in Japanese Patent Application Laid-Open No. 6-348896, a conventional character cutout method extracts partial patterns based on characteristic values such as position, inclination, and size of partial patterns forming characters. I was trying to integrate it into the pattern on the left and right. That is, the characteristic values such as the position, the inclination, and the size of the partial pattern forming the character are compared with the preset threshold values for the respective characteristic values, and the integrated determination process is performed based on the comparison result.

【0004】また、文字を構成する部分パターンから濁
点や分離文字などを構成するパターンを検出し、文字な
どを構成するパターンの位置、傾き、サイズ、隣接する
パターンとの距離などの特性値に基づいて、濁点や分離
文字などを構成するパターンを統合する方法も行われて
いた。
Further, a pattern forming a dakuten or a separated character is detected from a partial pattern forming a character, and based on characteristic values such as the position, inclination, size of a pattern forming a character and the distance to an adjacent pattern. Then, a method of integrating patterns forming a dakuten or a separated character was also performed.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、フリー
ピッチ領域に書かれる手書きの文字列の場合、文字と文
字の間隔が均等でなかったり、文字サイズが一定でない
場合が頻繁に起こる。そして、この文字枠のないフリー
ピッチ領域に書かれた文字列については、1文字ずつ正
確に切り出す技術が確立していないために認識率の低下
するという問題があった。
However, in the case of a handwritten character string written in the free-pitch area, the character spacing is often not uniform or the character size is not constant. There is a problem that the recognition rate of the character string written in the free pitch area without the character frame is lowered because a technique for accurately cutting out the character one by one has not been established.

【0006】また、文字を構成する部分パターンの位
置、傾き、サイズなどの特性値の閾値の設定を、経験的
知識を用いてヒューリスティクに行っていたため、その
閾値が妥当かどうかを客観的に判断することが困難であ
った。また、部分パターンをその左右のパターンに統合
する際に用いる特性値が、文字の切り出しに有効かどう
かの判断も困難であった。
Further, since the thresholds of the characteristic values such as the position, the inclination, and the size of the partial pattern forming the character are set heuristically using empirical knowledge, it is objectively determined whether the thresholds are appropriate or not. It was difficult to judge. In addition, it is difficult to judge whether the characteristic value used when the partial pattern is integrated into the left and right patterns is effective for cutting out the character.

【0007】さらに、文字の切り出しを行った後では、
切り出しの修正を行う方法が欠落していたため、一度切
り出しを誤ると文字認識も必然的に誤るという問題もあ
った。
Further, after cutting out the characters,
Since there was a lack of a method of correcting the cutout, there was also a problem that the character recognition inevitably made a mistake once the cutout was mistaken.

【0008】そこで、本発明の目的は、パターンの切り
出し精度及び切り出し処理の速度を向上させることがで
きる文字切り出し方式を提供することである。
Therefore, an object of the present invention is to provide a character cutout method capable of improving the cutout accuracy of patterns and the speed of cutout processing.

【0009】[0009]

【課題を解決するための手段】上述した課題を解決する
ために、請求項1の発明によれば、文字としての切り出
し位置の確からしさを示す切り出し信頼度に基づいて、
連結パターンを統合する。このことにより、文字の書か
れた状態に応じて、切り出し信頼度を調節することがで
き、文字の切り出し精度を向上することができる。
In order to solve the above-mentioned problems, according to the invention of claim 1, based on the cut-out reliability indicating the certainty of the cut-out position as a character,
Integrate connection patterns. As a result, the cutout reliability can be adjusted according to the written state of the character, and the cutout accuracy of the character can be improved.

【0010】また、請求項2の発明によれば、文字の切
り出しの確からしさを示す切り出し信頼度に基づいて、
文字認識を行うかどうかを決定する。このことにより、
切り出し信頼度の高い部分は文字認識を行わずに切り出
し文字として確定し、切り出し信頼度の低い部分につい
てのみ文字認識を行って切り出し文字を確定することが
でき、文字の切り出し速度を向上できる。
According to the second aspect of the present invention, based on the cut-out reliability indicating the certainty of cutting the character,
Determines whether to perform character recognition. By this,
A portion having a high cut-out reliability can be determined as a cut-out character without performing character recognition, and a character can be confirmed only for a portion having a low cut-out reliability to determine a cut-out character, so that the character cutting speed can be improved.

【0011】また、請求項3の発明によれば、文字の切
り出しの確からしさを示す切り出し信頼度と文字として
の認識信頼度とに基づいて、切り出し文字を決定する。
このことにより、その文字単独の特徴のみだけでなく、
その文字の文字列全体に対する位置関係なども考慮する
ことができ、文字の切り出し精度を向上することができ
る。
Further, according to the invention of claim 3, the cut-out character is determined based on the cut-out reliability indicating the certainty of the cut-out of the character and the recognition reliability as the character.
By this, not only the characteristics of the character alone,
The positional relationship of the character with respect to the entire character string can be taken into consideration, and the character cutout accuracy can be improved.

【0012】また、請求項4の発明によれば、所定の形
状を有するパターンに対する処理を分けて行う。このこ
とにより、所定の形状を有するパターンに対しては、そ
のパターン独自の最適な処理を用いることができ、文字
の切り出し精度を向上することができる。
Further, according to the invention of claim 4, the processing for the pattern having a predetermined shape is separately performed. As a result, for a pattern having a predetermined shape, the optimum processing unique to the pattern can be used, and the character cutting accuracy can be improved.

【0013】また、請求項5の発明によれば、第1の外
接矩形と第1の外接矩形の右隣に隣接する第2の外接矩
形とを選択し、第1の外接矩形の右枠と第2の外接矩形
の左枠との距離、第1の外接矩形の左枠と第2の外接矩
形の右枠との距離、第1の外接矩形の右枠と第2の外接
矩形の左枠との距離と第1の外接矩形の左枠と第2の外
接矩形の右枠との距離との比、第1の外接矩形の左枠と
第2の外接矩形の右枠との距離と外接矩形平均幅との
比、第1の外接矩形の下枠と第1の外接矩形の下枠の中
点から第2の外接矩形の下枠の中点へ至る直線とのなす
角度、第1の外接矩形の下枠と第1の外接矩形の右下の
頂点から第2の外接矩形の左下の頂点へ至る直線とのな
す角度、第1の外接矩形と第2の外接矩形とが重なって
いる場合、第1の外接矩形の右枠と第2の外接矩形の左
枠との距離と第1の外接矩形の左枠と第2の外接矩形の
右枠との距離との比に基づいて、パラメータを算出す
る。このことにより、切り出し文字の特徴を精度良く抽
出することができる。
According to the invention of claim 5, the first circumscribing rectangle and the second circumscribing rectangle adjacent to the right of the first circumscribing rectangle are selected, and a right frame of the first circumscribing rectangle is selected. Distance between left frame of second circumscribing rectangle, distance between left frame of first circumscribing rectangle and right frame of second circumscribing rectangle, right frame of first circumscribing rectangle and left frame of second circumscribing rectangle And the ratio of the distance between the left frame of the first circumscribing rectangle and the right frame of the second circumscribing rectangle, the distance between the left frame of the first circumscribing rectangle and the right frame of the second circumscribing rectangle, and the circumscribing The ratio to the average width of the rectangle, the angle formed by the lower frame of the first circumscribed rectangle and the straight line from the midpoint of the lower frame of the first circumscribed rectangle to the midpoint of the lower frame of the second circumscribed rectangle, The angle formed by the lower frame of the circumscribed rectangle and the straight line from the lower right vertex of the first circumscribed rectangle to the lower left vertex of the second circumscribed rectangle, and the first circumscribed rectangle and the second circumscribed rectangle overlap. If the first out On the basis of the ratio of the distance between the rectangular right frame distance and a left frame and a second enclosing rectangle in the right frame of the first circumscribed rectangle and the second circumscribed rectangle of the left frame, to calculate the parameters. As a result, the characteristics of the cut-out character can be accurately extracted.

【0014】また、請求項6の発明によれば、分離文字
の処理と濁点処理とを分けて行う。分離文字と濁点とを
精度良く抽出することができ、文字の切り出し精度を向
上することができる。
According to the invention of claim 6, the processing of separated characters and the processing of dakuten are performed separately. The separated character and the dakuten can be extracted with high accuracy, and the character cutting accuracy can be improved.

【0015】また、請求項7の発明によれば、右上がり
となっている第1パターン、第1パターンの右隣に隣接
し、右下がりとなっている第2パターン、第1パターン
の右隣に隣接し、直角方向に線密度を探索した場合に交
差する回数が2となる第3パターンを検出し、第1パタ
ーンの外接矩形の右枠と第2パターン又は第3パターン
の外接矩形の左枠との距離と第1パターンの外接矩形の
左枠と第2パターン又は第3パターンの外接矩形の右枠
との距離との比、第1パターンの外接矩形の左枠と第2
パターン又は第3パターンの外接矩形の右枠との距離と
外接矩形平均幅との比、第1パターンの外接矩形の面積
と第2パターン又は第3パターンの外接矩形の面積との
積と外接矩形平均幅と外接矩形平均高さとの積の平方と
の比に基づいて、パラメータを算出する。このことによ
り、分離文字の特徴を精度良く抽出することができる。
Further, according to the invention of claim 7, the first pattern which is rising to the right and the right side of the first pattern are adjacent to each other, and the second pattern which is descending to the right and the right side of the first pattern are adjacent to each other. A third pattern that is adjacent to, and has a number of intersections of 2 when a linear density is searched in the right direction is detected, and the right frame of the circumscribed rectangle of the first pattern and the left of the circumscribed rectangle of the second pattern or the third pattern are detected. The ratio of the distance to the frame and the distance between the left frame of the circumscribing rectangle of the first pattern and the right frame of the circumscribing rectangle of the second pattern or the third pattern, the ratio of the left frame of the circumscribing rectangle of the first pattern to the second frame
Ratio of the distance from the right frame of the circumscribed rectangle of the pattern or the third pattern to the average width of the circumscribed rectangle, the product of the area of the circumscribed rectangle of the first pattern and the area of the circumscribed rectangle of the second pattern or the third pattern, and the circumscribed rectangle The parameter is calculated based on the ratio of the square of the product of the average width and the average height of the circumscribed rectangle. As a result, the features of the separated characters can be accurately extracted.

【0016】また、請求項8の発明によれば、濁点候補
となる第1パターン、第1パターンの左隣に隣接する第
2のパターンを検出し、第1パターンの外接矩形の右枠
と第2パターンの外接矩形の左枠との距離と第1パター
ンの外接矩形の左枠と第2パターンの外接矩形の右枠と
の距離との比、第1パターンの外接矩形の左枠と第2パ
ターンの外接矩形の右枠との距離と外接矩形平均幅との
比、第1パターンの外接矩形の面積と第2パターンの外
接矩形の面積との積と外接矩形平均幅と外接矩形平均高
さとの積の平方との比に基づいて、パラメータを算出す
る。このことにより、濁点候補パターンの識別を精度良
く行うことができる。
According to the invention of claim 8, the first pattern, which is a candidate for the dakuten, and the second pattern adjacent to the left of the first pattern are detected, and the right frame of the circumscribed rectangle of the first pattern and the first pattern are detected. The ratio of the distance between the left frame of the circumscribing rectangle of the two patterns and the distance between the left frame of the circumscribing rectangle of the first pattern and the right frame of the circumscribing rectangle of the second pattern, the left frame of the circumscribing rectangle of the first pattern and the second frame The ratio of the distance from the right frame of the circumscribed rectangle of the pattern to the average width of the circumscribed rectangle, the product of the area of the circumscribed rectangle of the first pattern and the area of the circumscribed rectangle of the second pattern, the average width of the circumscribed rectangle, and the average height of the circumscribed rectangle. The parameters are calculated based on the ratio of the product to the square. As a result, it is possible to accurately identify the dakuten candidate pattern.

【0017】また、請求項9の発明によれば、パターン
の特徴を示すP個の特性値からなるサンプルデータを、
切り出し成功を示す第1の群と切り出し失敗を示す第2
の群とに分類し、第1の群と第2の群との判別面をP次
元空間において生成し、その判別面に対するP個の特性
値の位置に基づいて、切り出し文字の切り出し信頼度を
算出する。そして、前記判別面からの距離に基づいてP
個の特性値からなるサンプルデータの度数分布を生成
し、第1の群に対応して生成された度数分布と第2の群
に対応して生成された度数分布との重なり領域を算出
し、P個の特性値を有する点の前記判別面からの距離と
重なり領域の両端の位置とに基づいて切り出し信頼度を
算出する。このことにより、度数分布を正規分布に近似
して重なり領域を算出することができ、特性値の数が少
ない場合でも精度よく重なり領域を算出することができ
るので、文字の切り出しを精度良く行うことができる。
Further, according to the invention of claim 9, sample data composed of P characteristic values showing the characteristics of the pattern is
The first group indicating successful cutting and the second group indicating unsuccessful cutting
, The discriminant plane between the first group and the second group is generated in the P-dimensional space, and the cutout reliability of the cutout character is determined based on the positions of the P characteristic values with respect to the discriminant plane. calculate. Then, based on the distance from the discrimination surface, P
Generating a frequency distribution of the sample data consisting of individual characteristic values, and calculating an overlapping region of the frequency distribution generated corresponding to the first group and the frequency distribution generated corresponding to the second group, The cutout reliability is calculated based on the distance from the discrimination surface of the points having P characteristic values and the positions of both ends of the overlapping area. As a result, the frequency distribution can be approximated to a normal distribution to calculate the overlapping area, and the overlapping area can be calculated accurately even when the number of characteristic values is small. You can

【0018】また、請求項10の発明によれば、P個の
特性値のP次元空間における分布形状に基づいて、判別
面の算出方法を複数個使い分けるようにしている。この
ことにより、分布形状毎に最適な判別面を生成すること
ができ、文字の切り出しを精度を向上できる。
According to the tenth aspect of the invention, a plurality of discriminant surface calculation methods are selectively used based on the distribution shape of the P characteristic values in the P-dimensional space. This makes it possible to generate an optimal discrimination surface for each distribution shape and improve the accuracy of character extraction.

【0019】また、請求項11の発明によれば、第1の
群と第2の群との主軸のなす角が所定の角度以上である
場合、主軸に対するサンプルデータのばらつきの大きい
方の群の垂直方向に判別面を算出し、主軸のなす角が所
定の角度以上でない場合、判別分析法により判別面を算
出する。このことにより、文字の切り出しを精度を向上
できる。
According to the eleventh aspect of the invention, when the angle formed by the main axes of the first group and the second group is equal to or greater than a predetermined angle, the group having a larger variation in sample data with respect to the main axis is selected. The discriminant surface is calculated in the vertical direction, and when the angle formed by the main axes is not equal to or larger than the predetermined angle, the discriminant surface is calculated by the discriminant analysis method. This makes it possible to improve the accuracy of character segmentation.

【0020】また、請求項12の発明によれば、度数分
布の正規分布に対する適合度及び度数分布の分散値に基
づいて重なり領域を算出する。このことにより、度数分
布の正規分布に対する誤差を考慮して重なり領域を算出
することができ、特性値の数が少ない場合でも適応的に
重なり領域を算出することができる。
According to the twelfth aspect of the invention, the overlapping area is calculated based on the goodness of fit of the normal distribution of the frequency distribution and the variance value of the frequency distribution. As a result, the overlapping area can be calculated in consideration of the error of the frequency distribution with respect to the normal distribution, and the overlapping area can be adaptively calculated even when the number of characteristic values is small.

【0021】また、請求項13の発明によれば、度数分
布の平均値と分散値とを算出し、その度数分布の平均値
と分散値とに基づいて正規分布を生成し、度数分布と正
規分布との2乗誤差の総和と正規分布の面積との比に基
づいて適合度を算出し、適合度と分散値の平方根との積
に基づいて度数分布の両端位置を求めて重なり領域を算
出する。このことにより、度数分布の正規分布に対する
誤差を考慮して重なり領域を算出することができ、特性
値の数が少ない場合でも適応的に重なり領域を算出する
ことができる。
According to the invention of claim 13, the mean value and the variance value of the frequency distribution are calculated, and the normal distribution is generated based on the mean value and the variance value of the frequency distribution. The goodness of fit is calculated based on the ratio of the sum of squared errors with the distribution and the area of the normal distribution, and the overlapping regions are calculated by finding both end positions of the frequency distribution based on the product of the goodness of fit and the square root of the variance value. To do. As a result, the overlapping area can be calculated in consideration of the error of the frequency distribution with respect to the normal distribution, and the overlapping area can be adaptively calculated even when the number of characteristic values is small.

【0022】また、請求項14の発明によれば、パター
ンの特徴を示すP個の特性値が度数分布の重なり領域に
含まれる場合、P個の特性値の位置に基づいて切り出し
信頼度を算出し、P個の特性値が度数分布の切り出し成
功を示す領域に含まれる場合、切り出し信頼度を100
%と判定し、P個の特性値が度数分布の切り出し失敗を
示す領域に含まれる場合、切り出し信頼度を0%と判定
する。このことにより、より精度の高い文字の切り出し
を行うことができる。
According to the fourteenth aspect of the present invention, when the P characteristic values indicating the characteristics of the pattern are included in the overlapping region of the frequency distribution, the cutout reliability is calculated based on the positions of the P characteristic values. However, if the P characteristic values are included in the region of the frequency distribution indicating the successful extraction, the extraction reliability is 100.
%, And if the P characteristic values are included in the region indicating the cutout failure of the frequency distribution, the cutout reliability is determined to be 0%. As a result, it is possible to perform more accurate character segmentation.

【0023】[0023]

【発明の実施の形態】以下、本発明の一実施例によるパ
ターン認識装置について図面を参照しながら説明する。
このパターン認識装置は、文字の切り出しに用いる特性
値としてのパラメータについて、文字の統合判定を行う
の際の閾値をヒューリスティクに決定するのではなく、
統計的に妥当な値を設定するようにしたものである。具
体的には、各パラメータ毎に、パラメータ値とそのパラ
メータ値に対する文字の統合の成功又は失敗に関する統
計データをとる。そして、各パラメータを個別に評価す
るのではなく、全てのパラメータを多次元空間上の1点
として捉え、多変量解析の手法を用いて、統合が成功し
た場合と統合が失敗した場合との2群を分離する判別面
を上記多次元空間内で求めるようにする。
DESCRIPTION OF THE PREFERRED EMBODIMENTS A pattern recognition apparatus according to an embodiment of the present invention will be described below with reference to the drawings.
This pattern recognition device does not heuristically determine the threshold when performing the character integration determination for the parameter as the characteristic value used for character extraction,
The value is set to be statistically valid. Specifically, for each parameter, statistical data regarding the parameter value and the success or failure of character integration for the parameter value is obtained. Then, instead of evaluating each parameter individually, all parameters are regarded as one point in the multidimensional space, and a method of multivariate analysis is used to determine whether the integration is successful or not. The discriminant surface that separates the groups is obtained in the multidimensional space.

【0024】図1は、本発明の一実施例によるパターン
認識装置の構成を示すブロック図である。図1におい
て、連結パターン抽出手段1は、入力パターンから連結
パターンをラベリングにより求める。
FIG. 1 is a block diagram showing the structure of a pattern recognition apparatus according to an embodiment of the present invention. In FIG. 1, the connection pattern extraction means 1 obtains a connection pattern from an input pattern by labeling.

【0025】分離文字検出部2は、連結パターン抽出手
段1により抽出された連結パターンから“ハ”や“ル”
などの分離文字を検出する。濁点検出部3は、連結パタ
ーン抽出手段1により抽出された連結パターンから濁点
を検出する。
The separated character detecting section 2 uses the "c" or "ru" from the connection pattern extracted by the connection pattern extracting means 1.
Detects separators such as. The cloud point detecting unit 3 detects a cloud point from the connection pattern extracted by the connection pattern extracting means 1.

【0026】切り出し信頼度算出手段4は、連結パター
ン抽出手段1により抽出された連結パターンを統合して
切り出し文字の複数の候補を生成し、生成した各候補に
ついて切り出しの確からしさを示す切り出し信頼度を算
出する。
The cut-out reliability calculation means 4 integrates the connected patterns extracted by the connected pattern extraction means 1 to generate a plurality of candidates for the cut-out character, and the cut-out reliability indicating the certainty of the cut-out for each generated candidate. To calculate.

【0027】この切り出し信頼度算出手段4は、統計的
信頼度算出部5及び非統計的信頼度算出部6を備えてい
る。統計的信頼度算出部5は、連結パターン抽出手段1
により求められた連結パターンに対する統計的処理にお
いて用いられる切り出しパラメータに基づいて、切り出
しの確からしさを示す切り出し信頼度を算出する。この
統計的処理では、連結パターンの外接矩形の位置、縦横
比、平均文字サイズに対するサイズ比、隣接する連結パ
ターン同士の距離、隣接する連結パターンを統合したと
きのサイズ、隣接する連結パターン同士の重なり幅、文
字列の粗密度などを切り出しパラメータとして用いる。
The cut-out reliability calculation means 4 comprises a statistical reliability calculation section 5 and a non-statistical reliability calculation section 6. The statistical reliability calculation unit 5 uses the connection pattern extraction unit 1
Based on the cutout parameter used in the statistical processing for the connection pattern obtained by the above, the cutout reliability indicating the certainty of cutout is calculated. In this statistical process, the position of the circumscribed rectangle of the connected pattern, the aspect ratio, the size ratio to the average character size, the distance between adjacent connected patterns, the size when the adjacent connected patterns are integrated, the overlap between adjacent connected patterns The width and the coarse density of the character string are used as cutout parameters.

【0028】非統計的信頼度算出部6は、連結パターン
に対する非統計的処理において用いられる切り出しパラ
メータに基づいて、切り出しの確からしさを示す切り出
し信頼度を算出する。この非統計的処理では、分離文字
や濁点などのような特殊な形状のパターンが処理の対象
となる。濁点処理では、濁点候補パターンに着目し、そ
のパターンとそれの隣接パターンとを統合したときのサ
イズ、これら両パターン間の距離、及びそれらのパター
ンと平均文字サイズとの比などを切り出しパターンとし
て用いる。また、分離文字に対する処理では、連結パタ
ーンの傾き、連結パターンの線密度、隣接する連結パタ
ーン同士を統合したときのサイズ、隣接する連結パター
ン同士の距離などを切り出しパラメータとして用いる。
統計的信頼度算出部5及び非統計的信頼度算出部6
は、それぞれ判別面生成部5a、6a、度数分布生成部
5b、6b、重なり領域算出部5c、6c、切り出し信
頼度算出部5d、6dを備えている。
The non-statistical reliability calculating unit 6 calculates the cutting-out reliability indicating the certainty of the cutting based on the cutting-out parameter used in the non-statistical processing on the connection pattern. In this non-statistical processing, a pattern having a special shape such as a separated character or a dakuten is targeted for processing. In the dakuten processing, paying attention to the dakuten candidate pattern, the size when the pattern and its adjacent pattern are integrated, the distance between these patterns, and the ratio between these patterns and the average character size are used as cutout patterns. . Further, in the processing for the separated character, the inclination of the connection pattern, the line density of the connection pattern, the size when the adjacent connection patterns are integrated, the distance between the adjacent connection patterns, and the like are used as the cutout parameters.
Statistical reliability calculation unit 5 and non-statistical reliability calculation unit 6
Includes discriminant plane generators 5a and 6a, frequency distribution generators 5b and 6b, overlapping area calculators 5c and 6c, and clipping reliability calculators 5d and 6d, respectively.

【0029】判別面生成部5a、6aは、パターンの特
徴を示すP個の特性値からなるサンプルデータを、切り
出し成功を示す第1の群と切り出し失敗を示す第2の群
とに分類し、第1の群と第2の群との判別面をP次元空
間において生成するものである。
The discriminant surface generators 5a and 6a classify the sample data consisting of P characteristic values indicating the characteristics of the pattern into a first group indicating success in cutting and a second group indicating failure in cutting, The discriminant surface between the first group and the second group is generated in the P-dimensional space.

【0030】この判別面は、例えば、判別分析法により
求めることができる。すなわち、判別面を線形な判別関
数により構成する場合、その判別関数の係数ベクトル
は、 Σ-1(μ1 −μ2 ) ・・・(1) で与えられる。
This discriminant surface can be obtained by, for example, a discriminant analysis method. That is, when the discriminant surface is composed of a linear discriminant function, the coefficient vector of the discriminant function is given by Σ −11 −μ 2 ) ... (1).

【0031】ここで、 Σ :第1の群及び第2の群の母分散共分散行列 μ1 :第1の群の母平均ベクトル μ2 :第2の群の母平均ベクトル である。Where Σ is the population variance covariance matrix of the first group and the second group μ 1 : the population mean vector of the first group μ 2 : the population mean vector of the second group.

【0032】上記係数ベクトルを有する判別関数は、前
記第1の群と前記第2の群の各重心から等距離となるよ
うに構成される。なお、この判別関数の係数ベクトル
は、第1の群と第2の群との間の群間変動の群内変動に
対する比を最大にするという基準に基づいて、算出する
こともできる。
The discriminant function having the coefficient vector is constructed so as to be equidistant from the respective barycenters of the first group and the second group. The coefficient vector of this discriminant function can also be calculated based on the criterion of maximizing the ratio of intra-group variation of inter-group variation between the first group and the second group.

【0033】度数分布生成部5b、6bは、判別面生成
部5a、6aで生成された判別面からの距離に基づい
て、P個の特性値からなるサンプルデータの度数分布を
生成する。
The frequency distribution generators 5b and 6b generate a frequency distribution of sample data consisting of P characteristic values based on the distances from the discrimination surfaces generated by the discrimination surface generators 5a and 6a.

【0034】重なり領域算出部5c、6cは、度数分布
生成部5b、6bにより生成された第1の群の度数分布
と第2の群の度数分布との重なり領域を算出する。切り
出し信頼度算出部5d、6dは、連結パターン抽出手段
1により抽出された連結パターンを統合して生成された
切り出し文字の候補に対し、そのP個の特性値が、重な
り領域算出部5c、6cにより算出された重なり領域に
含まれる場合、重なり領域におけるP個の特性値の位置
に基づいて、切り出し信頼度を算出する。切り出し文字
の候補のP個の特性値が重なり領域に含まれず、且つ、
第1の群の度数分布に含まれる場合、切り出し信頼度を
100%と判定する。切り出し文字の候補のP個の特性
値が重なり領域に含まれず、且つ、第2の群の度数分布
に含まれる場合、切り出し信頼度を0%と判定する。
The overlapping area calculating units 5c and 6c calculate overlapping areas of the frequency distribution of the first group and the frequency distribution of the second group, which are generated by the frequency distribution generating units 5b and 6b. The cutout reliability calculation units 5d and 6d have P characteristic values of the cutout character candidates generated by integrating the connection patterns extracted by the connection pattern extraction unit 1, and the P characteristic values of the cutout character calculation units 5c and 6c. When included in the overlapping area calculated by, the cutout reliability is calculated based on the positions of the P characteristic values in the overlapping area. P characteristic values of cut-out character candidates are not included in the overlapping area, and
If it is included in the frequency distribution of the first group, the cutout reliability is determined to be 100%. When the P characteristic values of the cutout character candidates are not included in the overlapping region and included in the frequency distribution of the second group, the cutout reliability is determined to be 0%.

【0035】信頼度統合部7は、統計的信頼度算出部5
で求めた切り出し信頼度及び非統計的信頼度算出部6で
求めた切り出し信頼度を統合する。認識信頼度算出手段
8は、連結パターン抽出手段1により抽出された連結パ
ターンを統合して生成された切り出し文字の候補に対
し、認識処理を行う。
The reliability integration unit 7 includes a statistical reliability calculation unit 5
The cut-out reliability calculated in step 1 and the cut-out reliability calculated in the non-statistical reliability calculator 6 are integrated. The recognition reliability calculation means 8 performs recognition processing on the cut-out character candidates generated by integrating the connection patterns extracted by the connection pattern extraction means 1.

【0036】切り出し決定手段9は、切り出し信頼度算
出手段4で算出した切り出し信頼度と認識信頼度算出手
段8で算出した認識信頼度とを統合し、その統合した信
頼度が最も大きい切り出し文字の候補を選択して切り出
し文字を決定する。
The cutout deciding means 9 integrates the cutout reliability calculated by the cutout reliability calculating means 4 and the recognition reliability calculated by the recognition reliability calculating means 8 to obtain the cutout character having the largest integrated reliability. Select a candidate and determine the cutout character.

【0037】次に、本発明の一実施例によるパターン認
識装置の動作について説明する。図2は、本発明の一実
施例によるパターン認識装置の処理の流れを示すフロー
チャートである。この処理は、個々の文字サイズの変動
や文字間隔の変動のある手書き文字列から1文字ずつを
切り出すものである。なお、ここで対象となるパターン
は、極端な傾きや回転の補正を行い、雑音を除去し、か
すれの穴埋め等の前処理を行った後の2値画像である。
また文字同士のオーバーハングはあっても、文字同士の
接触、続け字はないものとする。
Next, the operation of the pattern recognition apparatus according to the embodiment of the present invention will be described. FIG. 2 is a flowchart showing the flow of processing of the pattern recognition device according to the embodiment of the present invention. This processing cuts out one character at a time from a handwritten character string having individual character size fluctuations and character spacing fluctuations. It should be noted that the target pattern here is a binary image after being subjected to extreme inclination and rotation corrections, noise removal, and preprocessing such as fill-in of fading.
Even if there is an overhang between characters, there is no contact between characters or continuous characters.

【0038】また、実線の矢印で示された処理の流れ
は、実際に文字の切り出しを行う前に事前に行われる統
計パラメータの算出処理の流れを示す。また、破線の矢
印で示された処理の流れは、実際に文字の切り出しを行
う処理の流れを示す。
The flow of processing indicated by the solid line arrow shows the flow of statistical parameter calculation processing that is performed in advance before actually cutting out characters. The flow of processing indicated by the broken line arrow indicates the flow of processing for actually cutting out characters.

【0039】まず、上記統計パラメータの算出処理につ
いて説明する。まず、ステップS1で、フリーピッチ領
域に書かれた手書き文字列の複数の学習データをイメー
ジ入力により読み込む。
First, the process of calculating the statistical parameters will be described. First, in step S1, a plurality of learning data of handwritten character strings written in the free pitch area are read by image input.

【0040】次に、ステップS2で、個々のパターンを
区別するために、連結パターン抽出手段1で8連結でつ
ながっているパターンをラベリングにより抽出する。こ
のとき、ラベリングで得られた各パターンのサイズが後
で問題となるので、パターンの外接矩形の座標値(左上
と右下)もラベリングと同時に求めている。ここで、パ
ターンとは、ラベリングにより分別された黒画素のまと
まりを示す。なお、上記ラベリング処理の詳細について
は、「“画像処理の基本技法(技術入門編)(Image Pr
ocessing on Personal Computer )”,第1部画像処理
の基礎、第3章画像処理の基本アルゴリズム、ii)連
結成分処理、)ラベリング、長谷川純一、興水大和、
中山晶、横中茂樹著、技術評論社、昭和61年8月10
日刊」に詳しい。
Next, in step S2, in order to distinguish the individual patterns, the connected pattern extracting means 1 extracts the patterns connected by eight connections by labeling. At this time, since the size of each pattern obtained by labeling becomes a problem later, the coordinate values (upper left and lower right) of the circumscribed rectangle of the pattern are also obtained at the same time as labeling. Here, the pattern indicates a group of black pixels sorted by labeling. For details of the labeling process, refer to "" Basic Techniques of Image Processing (Technical Introduction) (Image Pr
ocessing on Personal Computer) ”, Part 1 Basics of Image Processing, Chapter 3 Basic Algorithm of Image Processing, ii) Connected Component Processing,) Labeling, Junichi Hasegawa, Yamato Komizu,
Akira Nakayama, Shigeki Yokonaka, Technical Review, August 10, 1986
For more information on daily publication.

【0041】次に、ステップS3、S4で、文字列から
文字を切り出す処理を、その処理をパターン外接矩形の
位置、サイズ、並びなどからパターン同士を統合してい
く統計的処理と、文字列中の濁点、分離文字などを処理
するためにパターン形状に着目する非統計的処理に分け
て実行し、ステップS5で、上記統計的処理と上記非統
計的処理の際に用いられた切り出しパラメータの値を算
出する。なお、切り出し処理においては、連結パターン
抽出手段1で抽出されたパターン同士が統合される。
Next, in steps S3 and S4, a process of cutting out a character from a character string is performed. A statistical process of integrating the patterns from the position, size, arrangement of the pattern circumscribing rectangles and the like The non-statistical processing focusing on the pattern shape in order to process the dakuten, separated characters, etc. is executed, and in step S5, the value of the cutout parameter used in the statistical processing and the non-statistical processing. To calculate. In the cutout process, the patterns extracted by the connection pattern extraction means 1 are integrated.

【0042】ステップS3の統計的処理では、パターン
の外接矩形の位置、縦横比、平均文字サイズに対するサ
イズ比、隣接するパターン同士の距離、統合したときの
サイズ、パターン同士の重なり幅、文字列の粗密度など
を切り出しパラメータとして用いる。
In the statistical processing of step S3, the position of the circumscribed rectangle of the pattern, the aspect ratio, the size ratio to the average character size, the distance between adjacent patterns, the size when integrated, the overlapping width of the patterns, and the character string Rough density etc. are used as cutting parameters.

【0043】例えば、図3に示すように、外接矩形11
の右枠と外接矩形12の左枠との距離a、外接矩形11
の左枠と外接矩形12の右枠との距離b、外接矩形11
の右枠と外接矩形12の左枠との距離aと外接矩形11
の左枠と外接矩形12の右枠との距離bとの比c、外接
矩形11の左枠と外接矩形12の右枠との距離bと外接
矩形平均幅MXとの比d、外接矩形13の下枠と外接矩
形13の下枠の中点から外接矩形14の下枠の中点とを
結ぶ直線とのなす角度e、外接矩形13の下枠と外接矩
形13の右下の頂点から外接矩形14の左下の頂点とを
結ぶ直線とのなす角度f、外接矩形15と外接矩形16
とが重なっている場合、外接矩形15の右枠と外接矩形
16の左枠との距離pと外接矩形15の左枠と外接矩形
16の右枠との距離qとの比gを切り出しパラメータと
して用いる。
For example, as shown in FIG. 3, a circumscribed rectangle 11
A between the right frame of circumscribed rectangle and the left frame of circumscribed rectangle 12, circumscribed rectangle 11
B between the left frame of circumscribed rectangle and the right frame of circumscribed rectangle 12, circumscribed rectangle 11
A between the right frame of circumscribed rectangle and the left frame of circumscribed rectangle 12 and circumscribed rectangle 11
Ratio c of the left frame of the circumscribed rectangle 12 to the right frame of the circumscribed rectangle 12, a ratio d of the distance b between the left frame of the circumscribed rectangle 11 and the right frame of the circumscribed rectangle 12 to the average width MX of the circumscribed rectangle 12, and the circumscribed rectangle 13 The angle e formed by the straight line connecting the midpoint of the lower frame of the circumscribed rectangle 13 to the midpoint of the lower frame of the circumscribed rectangle 14, and the circumscribed from the lower frame of the circumscribed rectangle 13 and the lower right vertex of the circumscribed rectangle 13. An angle f formed by a straight line connecting the lower left apex of the rectangle 14, a circumscribed rectangle 15 and a circumscribed rectangle 16
When and overlap, the ratio g between the distance p between the right frame of the circumscribing rectangle 15 and the left frame of the circumscribing rectangle 16 and the distance q between the left frame of the circumscribing rectangle 15 and the right frame of the circumscribing rectangle 16 is used as the cut-out parameter. To use.

【0044】すなわち、 c=a/b ・・・(2) d=b/MX ・・・(3) g=p/q ・・・(4) である。That is,   c = a / b (2)   d = b / MX (3)   g = p / q (4) Is.

【0045】次に、統計的処理を図4のフローチャート
を参照しながら説明する。まず、ステップS11に示す
ように、連結パターン抽出手段1により抽出された連結
パターンの外接矩形を取り出す。
Next, the statistical processing will be described with reference to the flowchart of FIG. First, as shown in step S11, the circumscribed rectangle of the connection pattern extracted by the connection pattern extraction means 1 is extracted.

【0046】次に、ステップS12に示すように、ステ
ップS11で取り出した外接矩形の右隣に他の外接矩形
があるかどうか調べる。そして、ステップS11で取り
出した外接矩形の右隣に他の外接矩形がない場合、ステ
ップS11で取り出した外接矩形を統計的処理の対象か
らはずす。
Next, as shown in step S12, it is checked whether or not there is another circumscribed rectangle to the right of the circumscribed rectangle extracted in step S11. If there is no other circumscribing rectangle to the right of the circumscribing rectangle extracted in step S11, the circumscribing rectangle extracted in step S11 is excluded from the statistical processing targets.

【0047】一方、ステップS12において、ステップ
S11で取り出した外接矩形の右隣に他の外接矩形があ
ると判断された場合、ステップS14に進む。また、ス
テップS13に示すように、文字列の外接矩形の平均文
字サイズを算出する。ここで、文字列の外接矩形の平均
文字サイズを算出する場合、まだ1文字ずつが切り出さ
れていないので、厳密には、正確な平均文字サイズを算
出することができない。そこで、例えば、連結パターン
抽出手段1により抽出された連結パターンの外接矩形を
仮統合することにより、暫定的に平均文字サイズを算出
する。仮統合の方法として、近接する連結パターンを統
合した際の縦横比Pが、例えば、 N(=0.8)<P<M(=1.2) を満たす場合、仮統合を行う。そして、仮統合を行った
後の平均文字サイズを算出する。 なお、文字列の外接
矩形の平均文字サイズは、外接矩形のサイズ別の頻度ヒ
ストグラムを生成して求めるようにしてもよい。
On the other hand, if it is determined in step S12 that there is another circumscribing rectangle to the right of the circumscribing rectangle extracted in step S11, the process proceeds to step S14. Further, as shown in step S13, the average character size of the circumscribed rectangle of the character string is calculated. Here, when calculating the average character size of the circumscribed rectangle of the character string, it is not possible to calculate the accurate average character size in a strict sense, because one character has not yet been cut out. Therefore, for example, the average character size is tentatively calculated by temporarily integrating the circumscribed rectangles of the connection patterns extracted by the connection pattern extraction unit 1. As a method of temporary integration, when the aspect ratio P when integrating adjacent connection patterns satisfies, for example, N (= 0.8) <P <M (= 1.2), temporary integration is performed. Then, the average character size after the temporary integration is calculated. The average character size of the circumscribed rectangle of the character string may be obtained by generating a frequency histogram for each size of the circumscribed rectangle.

【0048】次に、ステップS14に示すように、図3
のパラメータa〜gを算出する。ステップS4の非統計
的処理では、文字列中の濁点や分離文字などを対象にし
ており、図5に示すように、分離文字処理と濁点処理と
に分ける。
Next, as shown in step S14, as shown in FIG.
Parameters a to g are calculated. In the non-statistical processing of step S4, the dakuten and the separated characters in the character string are targeted, and as shown in FIG. 5, they are divided into the separated character processing and the dakuten processing.

【0049】分離文字に対する処理では、パターンの傾
き、線密度、隣接するパターン同士を統合したときのサ
イズ、パターン同士の距離を切り出しパラメータとして
用いる。
In the processing for the separated characters, the inclination of the pattern, the line density, the size when the adjacent patterns are integrated, and the distance between the patterns are used as the cutout parameters.

【0050】例えば、図6に示すように、外接矩形21
の右枠と外接矩形22の左枠との距離aと外接矩形21
の左枠と外接矩形22の右枠との距離bとの比p、外接
矩形21の左枠と外接矩形22の右枠との距離bと外接
矩形平均幅MXとの比q、外接矩形21の面積cと外接
矩形22の面積dとの積と外接矩形平均幅MXと外接矩
形平均高さMYとの積の平方との比rを切り出しパラメ
ータとして用いる。
For example, as shown in FIG. 6, a circumscribed rectangle 21
Of the circumscribing rectangle 21 and the distance a between the right frame of the
Ratio p of the left frame of the circumscribed rectangle 22 to the right frame of the circumscribed rectangle 22, a ratio q of the distance b between the left frame of the circumscribed rectangle 21 and the right frame of the circumscribed rectangle 22 to the average width MX of the circumscribed rectangle 21, and the circumscribed rectangle 21. The ratio r of the product of the area c and the area d of the circumscribing rectangle 22 and the square of the product of the circumscribing rectangle average width MX and the circumscribing rectangle average height MY is used as a cutting parameter.

【0051】すなわち、 p=a/b ・・・(5) q=b/MX ・・・(6) r=(c×d)/(MX×MY)2 ・・・(7) である。That is, p = a / b (5) q = b / MX (6) r = (c × d) / (MX × MY) 2 (7)

【0052】次に、分離文字処理を図7のフローチャー
トを参照しながら説明する。この分離文字処理は、例え
ば、“ハ”又は“ル”などのように2つ以上の連結パタ
ーンから構成される分離文字を検出するものである。
Next, the separated character processing will be described with reference to the flowchart of FIG. This separated character processing is to detect a separated character composed of two or more concatenated patterns such as "C" or "L".

【0053】まず、ステップS21に示すように、連結
パターン抽出手段1により抽出された連結パターンのう
ち、右上がりとなっているパターンがあるかどうか判断
する。そして、右上がりとなっているパターンがない場
合、分離文字処理の対象からはずす。
First, as shown in step S21, it is determined whether or not there is a pattern that rises to the right among the connection patterns extracted by the connection pattern extraction means 1. Then, if there is no pattern rising to the right, it is excluded from the targets of the separated character processing.

【0054】一方、ステップS21において、右上がり
となっているパターンであると判断された場合、ステッ
プS22に進み、右上がりとなっているパターンの右隣
に隣接し、且つ右下がりとなっているパターン、すなわ
ち、例えば、“ハ”に対応するパターン、又は、右上が
りとなっているパターンの右隣に隣接し、且つ直角方向
に探索した場合のパターンと交差する回数(直角線密
度)が2となるパターン、すなわち、例えば、“ル”に
対応するパターンがあるかどうか判断する。そして、こ
れらの“ハ”又は“ル”などのような形状のパターンで
なければ、分離文字処理の対象からはずす。
On the other hand, if it is determined in step S21 that the pattern is rising to the right, the process proceeds to step S22, the pattern is adjacent to the right of the pattern rising to the right, and is descending to the right. For example, the number of times (right-angle linear density) which intersects with a pattern adjacent to the right of a pattern corresponding to “C” or a pattern that is rising to the right and is a right direction is 2 Then, it is determined whether or not there is a pattern corresponding to, for example, a pattern corresponding to “ru”. If the pattern does not have a shape such as “c” or “le”, it is excluded from the target of the separated character processing.

【0055】一方、ステップS22において、“ハ”又
は“ル”などのような形状のパターンであると判断した
場合、ステップS24に進む。また、上記ステップS2
1,S22とは別に、ステップS23で、文字列の外接
矩形の平均文字サイズを算出する。
On the other hand, when it is determined in step S22 that the pattern has a shape such as "C" or "R", the process proceeds to step S24. In addition, the above step S2
Apart from 1 and S22, the average character size of the circumscribed rectangle of the character string is calculated in step S23.

【0056】上記ステップS22とS23が終了した
後、ステップS24で、図6に示されたパラメータp〜
rの値を算出する。また、濁点処理では、濁点候補パタ
ーンに着目し、例えば、そのパターンとその隣接パター
ンを統合したときのサイズ、両パターン間の距離、及び
それらと平均文字サイズとの比を、切り出しパラメータ
として用いる。
After the above steps S22 and S23 are completed, in step S24, the parameters p to p shown in FIG.
Calculate the value of r. In the dakuten processing, paying attention to the dakuten candidate pattern, for example, the size when the pattern and its adjacent pattern are integrated, the distance between both patterns, and the ratio between them and the average character size are used as cutout parameters.

【0057】すなわち、図8に示すように、外接矩形3
1の右枠と外接矩形32の左枠との距離aと外接矩形3
1の左枠と外接矩形32の右枠との距離bとの比p、外
接矩形31の左枠と外接矩形32の右枠との距離bと外
接矩形平均幅MXとの比q、外接矩形31の面積cと外
接矩形32の面積dとの積と外接矩形平均幅MXと外接
矩形平均高さMYとの積の平方との比rを、切り出しパ
ラメータとして用いる。
That is, as shown in FIG. 8, the circumscribed rectangle 3
The distance a between the right frame of 1 and the left frame of the circumscribed rectangle 32 and the circumscribed rectangle 3
1. The ratio p of the distance b between the left frame of 1 and the right frame of the circumscribing rectangle 32, the ratio q of the distance b between the left frame of the circumscribing rectangle 31 and the right frame of the circumscribing rectangle 32, and the average width MX of the circumscribing rectangle 32, the circumscribing rectangle A ratio r of the product of the area c of 31 and the area d of the circumscribing rectangle 32 and the square of the product of the circumscribing rectangle average width MX and the circumscribing rectangle average height MY is used as a cutting parameter.

【0058】すなわち、パラメータp〜rは、(5)〜
(7)式と同様に表すことができる。次に、濁点処理を
図9のフローチャートを参照しながら、説明する。
That is, the parameters p to r are (5) to
It can be expressed in the same manner as the expression (7). Next, the dakuten processing will be described with reference to the flowchart of FIG.

【0059】まず、ステップS31で、濁点候補となる
パターンを抽出する。すなわち、例えば、連結パターン
抽出手段1により抽出された連結パターンが2つ隣接し
て存在する場合で、且つそれらを統合した時のサイズと
文字列の外接矩形の平均文字サイズとの比が所定のしき
い値以下、例えば、1/4以下である場合、濁点候補と
なるパターンとして抽出する。
First, in step S31, patterns that are candidates for dakuten are extracted. That is, for example, when two connected patterns extracted by the connected pattern extracting unit 1 are adjacent to each other, and the ratio of the size when they are integrated and the average character size of the circumscribed rectangle of the character string is predetermined. If it is less than or equal to a threshold value, for example, ¼ or less, it is extracted as a pattern to be a dakuten candidate.

【0060】次に、ステップS32に示すように、濁点
候補となるパターンの左隣に隣接する外接矩形があるか
どうかを調べる。そして、濁点候補となるパターンの左
隣に隣接する外接矩形がない場合、濁点候補となるパタ
ーンを濁点処理の対象からはずす。
Next, as shown in step S32, it is checked whether or not there is an adjacent circumscribed rectangle on the left of the pattern which is the candidate for the dakuten. Then, if there is no adjacent circumscribing rectangle on the left of the pattern that is the dakuten candidate, the pattern that is the dakuten candidate is removed from the subject of the dakuten processing.

【0061】一方、ステップS32において、濁点候補
となるパターンの左隣に隣接する外接矩形があると判断
された場合、ステップS34に進む。また、上記ステッ
プS31,S32とは別に、ステップS33で、文字列
の外接矩形の平均文字サイズを算出する。そして、上記
ステップS32,S33の処理が終了した後、ステップ
S34で、図8に示されたパラメータp〜rの値を算出
する。
On the other hand, if it is determined in step S32 that there is a circumscribed rectangle adjacent to the left of the pattern that is the candidate for the dakuten, it proceeds to step S34. In addition to the above steps S31 and S32, the average character size of the circumscribed rectangle of the character string is calculated in step S33. Then, after the processes of steps S32 and S33 are completed, the values of the parameters p to r shown in FIG. 8 are calculated in step S34.

【0062】再び、図2のフローチャートの説明に戻
る。上記ステップS1〜S5の処理が終了すると、次
に、ステップS6で、文字の切り出し処理を実行する。
この場合、従来のように、複数の各切り出しパラメータ
に対して、事前に閾値を設定してパターン同士の統合を
判断しながら、文字を切り出すのではなく、学習データ
について閾値を設定せずに文字の切り出しを行い、切り
出しの正否と上記ステップS5で算出されたそのときの
切り出しパラメータの値を統計データとして記録する。
Returning to the explanation of the flow chart of FIG. When the processing of steps S1 to S5 is completed, next, in step S6, character cutting processing is executed.
In this case, as in the conventional case, a threshold value is set in advance for each of a plurality of cutout parameters to judge whether the patterns are integrated with each other, and the character is not cut out, but the threshold value is not set for the learning data. Is cut out and the correctness of the cutout and the value of the cutout parameter at that time calculated in step S5 are recorded as statistical data.

【0063】これにより、パラメータ数がnの場合、切
り出しが成功した群と切り出しが失敗した群との2群を
n次元の空間上に得ることができる。そして、この2群
を判別する判別面を算出する。この2群を判別する判別
面の算出法としては、(1)式を用いる判別分析法や主
成分分析法など使用することができる。
Thus, when the number of parameters is n, it is possible to obtain two groups, a group that has been cut out successfully and a group that has been cut out, in an n-dimensional space. Then, a discriminating surface for discriminating the two groups is calculated. As a method of calculating the discriminant surface for discriminating the two groups, a discriminant analysis method using the equation (1), a principal component analysis method, or the like can be used.

【0064】図10は、切り出しの成否データの算出方
法を示すフローチャートである。図10において、ま
ず、ステップS41で、事前に集めた学習データに対し
て、着目する外接矩形とそれに隣接する外接矩形とを統
合して1文字になるかどうかを目視により判断する。学
習データとしては、例えば、図11に示すような12種
類の文字列35〜46を複数の人に書いてもらいたもの
を用いる。そして、着目する外接矩形とそれに隣接する
外接矩形とを統合して1文字になる場合、ステップS4
2に進み、着目する外接矩形とそれに隣接する外接矩形
とを統合して1文字にならない場合、ステップS43に
進む。
FIG. 10 is a flow chart showing a method of calculating the success / failure data of cutout. In FIG. 10, first, in step S41, it is visually determined whether the circumscribing rectangle of interest and the circumscribing rectangle adjacent thereto are integrated into the learning data collected in advance to form one character. As the learning data, for example, data obtained by having a plurality of people write 12 types of character strings 35 to 46 as shown in FIG. 11 is used. When the circumscribing rectangle of interest and the circumscribing rectangle adjacent thereto are integrated into one character, step S4
When the circumscribing rectangle of interest and the circumscribing rectangle adjacent thereto are not integrated into one character, the process proceeds to step S43.

【0065】ステップS42では、着目する外接矩形と
それに隣接する外接矩形とを統合して1文字になる統合
成功の場合について、その着目する外接矩形とそれに隣
接する外接矩形におけるパラメータの値を記録する。こ
こで、着目する外接矩形とそれに隣接する外接矩形にお
けるパラメータは、統計的処理の場合、図3のパラメー
タa〜gを用いることができ、非統計的処理の場合、図
6、8のパラメータp〜rを用いることができる。
In step S42, the values of the parameters of the circumscribing rectangle of interest and the circumscribing rectangle adjacent thereto are recorded in the case where the circumscribing rectangle of interest and the circumscribing rectangle adjacent thereto are integrated into one character. . Here, as the parameters of the circumscribing rectangle of interest and the circumscribing rectangle adjacent thereto, the parameters a to g of FIG. 3 can be used in the case of statistical processing, and the parameter p of FIGS. 6 and 8 can be used in the case of non-statistical processing. ~ R can be used.

【0066】また、ステップS43では、着目する外接
矩形とそれに隣接する外接矩形とを統合して1文字にな
らない統合失敗の場合について、その着目する外接矩形
とそれに隣接する外接矩形におけるパラメータの値を記
録する。
In step S43, in the case of unsuccessful integration in which the circumscribing rectangle of interest and the circumscribing rectangle adjacent thereto are not combined into one character, the parameter values of the circumscribing rectangle of interest and the circumscribing rectangle adjacent thereto are set. Record.

【0067】図12は、判別面算出法を示すフローチャ
ートである。まず、ステップS51で、学習データに対
して、図10のフローチャートに示す処理を実行して、
切り出し成功と切り出し失敗を示す2群のデータを統計
・記録する。
FIG. 12 is a flowchart showing the discriminant surface calculation method. First, in step S51, the process shown in the flowchart of FIG.
Statistics and records two groups of data indicating successful cutting and unsuccessful cutting.

【0068】次に、ステップS52で、上記各群の主軸
を算出する。次に、ステップS53で、上記各群の主軸
のなす角度θを調べ、その角度θが70度以上である場
合はステップS54に進み、主軸のなす角度θが70度
以上でない場合はステップS55に進む。
Next, in step S52, the principal axis of each group is calculated. Next, in step S53, the angle θ formed by the main axes of the respective groups is checked. If the angle θ is 70 degrees or more, the process proceeds to step S54. If the angle θ formed by the main axes is not 70 degrees or more, the process proceeds to step S55. move on.

【0069】ステップS54では、主軸に対するばらつ
きの大きい方の群に対して垂直となる判別面を算出す
る。一方、ステップS55では判別分析法により判別面
を算出する。
In step S54, the discriminant plane that is perpendicular to the group having the larger variation with respect to the main axis is calculated. On the other hand, in step S55, the discriminant surface is calculated by the discriminant analysis method.

【0070】例えば、図12の左上方に示す例の場合、
切り出し成功を示すパラメータの値の分布領域51の主
軸53と切り出し失敗を示すパラメータの値の分布領域
52の主軸54のなす角度θは70度以上である。そし
て、切り出し成功を示すパラメータの値の分布領域51
の主軸53に対するばらつきと、切り出し失敗を示すパ
ラメータの値の分布領域52の主軸54に対するばらつ
きとを比べると、切り出し成功を示すパラメータの値の
分布領域51の主軸53に対するばらつきの方が大き
い。したがって、図12の左下方に太い直線で示すよう
に、切り出し成功を示すパラメータの値の分布領域51
の主軸53に対して垂直となる判別面59を算出する。
For example, in the example shown in the upper left of FIG.
The angle θ formed by the main axis 53 of the distribution area 51 of the parameter values indicating the cutting success and the main axis 54 of the distribution area 52 of the parameter values indicating the cutting failure is 70 degrees or more. Then, the distribution area 51 of the value of the parameter indicating the successful cutting
Comparing the variation with respect to the main axis 53 and the variation with respect to the main axis 54 of the distribution area 52 of the parameter value indicating the cutout failure, the variation with respect to the main axis 53 of the distribution area 51 of the parameter value indicating the successful cutout is larger. Therefore, as shown by a thick straight line in the lower left of FIG.
The discriminant plane 59 perpendicular to the main axis 53 is calculated.

【0071】また、図12の右上方に示す例の場合、切
り出し成功を示すパラメータの値の分布領域55の主軸
57と切り出し失敗を示すパラメータの値の分布領域5
6主軸58のなす角度θは70度に満たない。したがっ
て、この場合には、図12の右下方に太い直線で示すよ
うに、判別分析法を用いて判別面60を算出する。
In the case of the example shown in the upper right of FIG. 12, the main axis 57 of the distribution area 55 of the parameter values indicating the success of cutting and the distribution area 5 of the parameter values indicating the failure of cutting out.
The angle θ formed by the six main axes 58 is less than 70 degrees. Therefore, in this case, the discriminant surface 60 is calculated using the discriminant analysis method as indicated by the thick straight line in the lower right of FIG.

【0072】以上のようにして、図2のフローチャート
のステップS1〜S6の処理により、学習データを用い
て、未知の手書き文字列に対する文字の切り出しの信頼
度を算出するための判別面が設定される。
As described above, by the processing of steps S1 to S6 of the flowchart of FIG. 2, the discriminant plane for calculating the reliability of the character segmentation for the unknown handwritten character string is set using the learning data. It

【0073】次に、未知の文字列に対して文字を切り出
す処理を説明する。未知の手書き文字列の入力イメージ
が入力された場合、図2のフローチャートの全てのステ
ップの処理が実行される。
Next, a process of cutting out a character from an unknown character string will be described. When an input image of an unknown handwritten character string is input, the processing of all steps of the flowchart of FIG. 2 is executed.

【0074】まず、未知の手書き文字列の入力イメージ
が入力されると、上記ステップS1〜S5の処理が実行
され、統計的処理における切り出しパラメータと非統計
的処理における切り出しパラメータの値が算出される。
First, when an input image of an unknown handwritten character string is input, the above steps S1 to S5 are executed, and the values of the cutout parameter in the statistical processing and the cutout parameter in the non-statistical processing are calculated. .

【0075】次に、ステップS7で、隣接するパターン
同士を統合するかどうかを判定するために、上記ステッ
プS5で算出された複数の特徴量パラメータの値によっ
て定まる多次元空間上の点の上記既に得られている判別
面からの距離を求め、これを切り出しの信頼度として定
量化する。
Next, in step S7, in order to determine whether or not adjacent patterns are to be integrated, the points of the multidimensional space determined by the values of the plurality of feature amount parameters calculated in step S5 have already been extracted. The distance from the obtained discriminant plane is obtained, and this is quantified as the reliability of cutting.

【0076】例えば、特徴量パラメータ数が3の場合、
図13に示すように、2群を判別する判別面をH、判別
面Hの単位法線ベクトルを 外1 とし、あるパラメー
タの
For example, if the number of feature parameter is 3,
As shown in FIG. 13, the discriminant surface for discriminating the two groups is H, the unit normal vector of the discriminant surface H is outside 1, and a certain parameter

【0077】[0077]

【外1】 [Outer 1]

【0078】値がpのベクトル値をとるとき、そのパラ
メータの値に対応する3次元空間内の点pの判別面から
の距離hは、
When the value takes a vector value of p, the distance h from the discriminant surface of the point p in the three-dimensional space corresponding to the value of the parameter is

【0079】[0079]

【数1】 [Equation 1]

【0080】と表される。ここで、 外2 は、3次元
空間内の原点Oから3次元空間内の点
It is expressed as Here, outer 2 is a point in the three-dimensional space from the origin O in the three-dimensional space.

【0081】[0081]

【外2】 [Outside 2]

【0082】pに向けたベクトルである。そして、判別
面Hからの距離hが正をとるか負をとるかで、パラメー
タの値がどちらの群、すなわち、切り出しが成功した方
の群または切り出しが失敗した方の群のいずれの群に属
するか、また、パラメータの値が判別面Hからどの程度
離れているかが分かる。
This is a vector directed to p. Then, depending on whether the distance h from the discriminant surface H is positive or negative, which of the groups has the value of the parameter, that is, which group is the group that succeeds in cutting or the group that fails in cutting out? It can be known whether it belongs and how far the value of the parameter is from the discrimination surface H.

【0083】次に、図14に示すように、多次元空間内
の学習データの全パラメータに対して、判別面Hからの
距離を基にして切り出し成功のヒストグラム分布71と
切り出し失敗のヒストグラム分布72をとる。一般的
に、このヒストグラム分布71、72は正規分布になる
ので、ヒストグラム分布71、72を正規分布で近似す
る。これらの正規分布は、一般に、一部、重なる領域が
生ずる。本実施例では、この重なる領域に位置する切り
出しパラメータを有する隣接パターンについて切り出し
の信頼度に加え、文字認識の信頼度を加味してそれらを
統合するか否かを判定する。
Next, as shown in FIG. 14, for all parameters of the learning data in the multidimensional space, the histogram distribution 71 of successful clipping and the histogram distribution 72 of unsuccessful clipping are based on the distance from the discriminant plane H. Take Generally, since the histogram distributions 71 and 72 are normal distributions, the histogram distributions 71 and 72 are approximated by normal distributions. These normal distributions generally have some overlapping regions. In the present embodiment, it is determined whether or not to integrate the adjacent patterns having the cutout parameters located in the overlapping area, in consideration of the reliability of the character recognition in addition to the reliability of the cutout.

【0084】次に、切り出し信頼度の算出法を図15の
フローチャートを参照しながら説明する。まず、ステッ
プS61で、上記ステップS5で得られた複数のパラメ
ータの値によって定まる点の判別面からの距離を、前記
(8)式により算出する。
Next, a method of calculating the cutout reliability will be described with reference to the flowchart of FIG. First, in step S61, the distance from the discriminant surface of the point determined by the values of the plurality of parameters obtained in step S5 is calculated by the equation (8).

【0085】また、ステップS62で、学習データによ
り得られた複数のパラメータの値のヒストグラム分布を
正規分布で近似する。すなわち、例えば、図16に示す
ように、切り出し成功のヒストグラム分布を正規分布8
1で近似し、切り出し失敗のヒストグラム分布を正規分
布82で近似する。
Further, in step S62, the histogram distribution of the values of the plurality of parameters obtained from the learning data is approximated by a normal distribution. That is, for example, as shown in FIG.
1, and the histogram distribution of unsuccessful clipping is approximated by a normal distribution 82.

【0086】次に、ステップS63で、2群の重なり領
域を算出する。例えば、図16に示すように、切り出し
成功の正規分布81と切り出し失敗の正規分布82とが
重なる領域84を2群の重なり領域として算出する。ま
た、このとき、切り出し成功の正規分布81の内、上記
2群の重なり領域84以外の領域83を切り出し成功領
域と設定する。さらに、切り出し失敗の正規分布82の
内、上記2群の重なり領域84以外の領域85を切り出
し失敗領域と設定する。
Next, in step S63, the overlapping area of the second group is calculated. For example, as shown in FIG. 16, a region 84 in which the normal distribution 81 of successful clipping and the normal distribution 82 of unsuccessful clipping overlap is calculated as an overlapping region of two groups. At this time, the region 83 other than the overlapping region 84 of the above-described two groups in the normal distribution 81 of successful clipping is set as the successful clipping region. Further, in the normal distribution 82 of cutout failure, an area 85 other than the overlapping area 84 of the second group is set as a cutout failure area.

【0087】上記ステップS62とS63の処理は、文
字の切り出し処理を高速化するために、上記統計パラメ
ータ算出処理時に、判別面の設定が終了した後に、予め
行っておくのが望ましい。
In order to speed up the character cutting process, it is desirable that the processes of steps S62 and S63 be performed in advance after the setting of the discrimination plane is completed in the statistical parameter calculation process.

【0088】次に、ステップS64に示すように、入力
パラメータの値のヒストグラム分布上での位置を判定す
る。次に、ステップS65に示すように、入力パラメー
タの値のヒストグラム分布上での位置を判定した結果、
入力パラメータの値が2群の重なり領域84に含まれる
場合、ステップS66に進む。そして、2群の重なり領
域84での入力パラメータの値の位置に基づいて、切り
出し信頼度を算出する。
Next, as shown in step S64, the position of the value of the input parameter on the histogram distribution is determined. Next, as shown in step S65, as a result of determining the position of the value of the input parameter on the histogram distribution,
If the value of the input parameter is included in the overlapping area 84 of the second group, the process proceeds to step S66. Then, the cutout reliability is calculated based on the position of the value of the input parameter in the overlapping region 84 of the second group.

【0089】一方、ステップS65において、入力パラ
メータの値が2群の重なり領域84に含まれないと判断
された場合、ステップS66に進み、入力パラメータの
値が切り出し成功領域83に含まれるかどうかを判断す
る。そして、入力パラメータの値が切り出し成功領域8
3に含まれると判断された場合、ステップS68に進
み、切り出し信頼度を”1”とし、入力パラメータの値
が切り出し成功領域83に含まれないと判断された場
合、ステップS69に進み、切り出し信頼度を”0”と
する。
On the other hand, when it is determined in step S65 that the value of the input parameter is not included in the overlapping area 84 of the second group, the process proceeds to step S66, and it is determined whether or not the value of the input parameter is included in the cut-out success area 83. to decide. Then, the value of the input parameter is extracted successfully in the area 8
If it is determined that the value of the input parameter is not included in the extraction success area 83, the process proceeds to step S68, and the process proceeds to step S68. The degree is "0".

【0090】例えば、図16において、入力パラメータ
の値の判別面からの距離を算出した結果、入力パラメー
タの値の判別面からの距離が重なり領域84に含まれる
場合、入力パラメータの値の判別面からの距離に基づい
て、切り出し信頼度を算出する。また、入力パラメータ
の値の判別面からの距離が切り出し成功領域83に含ま
れる場合、その切り出し信頼度を”1”とする。また、
入力パラメータの値の判別面からの距離が切り出し失敗
領域85に含まれる場合、その切り出し信頼度を”0”
に設定する。
For example, in FIG. 16, when the distance from the discriminant plane of the input parameter values is calculated and the distance from the discriminant plane of the input parameter values is included in the overlapping area 84, the discriminant plane of the input parameter values is discriminated. The cutout reliability is calculated based on the distance from. When the distance from the discriminating surface of the value of the input parameter is included in the clipping success area 83, the clipping reliability is set to "1". Also,
When the distance from the discriminating surface of the value of the input parameter is included in the cutout failure area 85, the cutout reliability is set to “0”.
Set to.

【0091】次に、2群の重なり領域算出方法を、図1
7のフローチャートを参照しながら説明する。まず、ス
テップS71で、学習データから得られた各群(切り出
し成功のヒストグラム分布群と切り出し失敗のヒストグ
ラム分布群)のヒストグラム値91の平均値mと分散値
vとを算出する。
Next, referring to FIG.
This will be described with reference to the flowchart of FIG. First, in step S71, an average value m and a variance value v of the histogram values 91 of each group (cutout success histogram distribution group and cutout failure histogram distribution group) obtained from the learning data are calculated.

【0092】次に、ステップS72で、上記各群につい
て、正規分布曲線92とヒストグラム値91との2乗誤
差の総和dを算出する。次に、ステップS73で、適合
度Tを下記の(9)式により算出する。
Next, in step S72, the sum d of the squared errors between the normal distribution curve 92 and the histogram value 91 is calculated for each group. Next, in step S73, the fitness T is calculated by the following equation (9).

【0093】 T=d/S ・・・(9) ここで、Sは正規分布曲線92の面積である。次に、ス
テップS74で、正規分布曲線92の中心から端までの
距離Lを下記の(10)式により算出する。
T = d / S (9) Here, S is the area of the normal distribution curve 92. Next, in step S74, the distance L from the center to the end of the normal distribution curve 92 is calculated by the following equation (10).

【0094】[0094]

【数2】 [Equation 2]

【0095】ここで、kは比例定数である。また、 外
3 は、標準偏差に等しい。
Here, k is a proportional constant. Also, Out 3 is equal to the standard deviation.

【0096】[0096]

【外3】 [Outside 3]

【0097】次に、ステップS75で、正規分布曲線9
3の右端97から正規分布曲線94の左端96までの間
の領域を、2群の重なり領域95として設定する。再
び、図2のフローチャートの説明に戻る。
Next, in step S75, the normal distribution curve 9
A region from the right end 97 of 3 to the left end 96 of the normal distribution curve 94 is set as the overlapping region 95 of the two groups. Again, the description returns to the flowchart of FIG.

【0098】次に、ステップS8で、切り出し文字の候
補に対し、その切り出し信頼度に基づいて認識処理を行
うかどうかを決定する。この場合、例えば、切り出し信
頼度が高い切り出し文字の候補に対しては認識処理を行
わず、切り出し信頼度が低い切り出し文字の候補に対し
のみ認識処理を行うようにする。
Next, in step S8, it is determined whether or not to perform the recognition process on the cut-out character candidates based on the cut-out reliability. In this case, for example, the recognition processing is not performed for the cut-out character candidates having high cut-out reliability, and the recognition processing is performed only for the cut-out character candidates having low cut-out reliability.

【0099】次に、ステップS9で、ステップS8で認
識処理を行うすべきであると判断された切り出し文字の
候補に対し、認識処理を行う。次に、ステップS10
で、複数の切り出し文字の候補に対して、それらに対す
る認識の信頼度だけでなく、切り出しの信頼度も考慮し
て切り出し文字を決定する。このことにより、部分的に
見ると文字のように見えるが、文字列全体から見ると間
違っているような候補文字を、切り出し文字から除外す
ることができる。
Next, in step S9, a recognition process is performed on the cut-out character candidates for which the recognition process is determined to be performed in step S8. Next, step S10
Then, the cut-out character is determined for a plurality of cut-out character candidates in consideration of not only the reliability of recognition for them but also the cut-out reliability. This makes it possible to exclude, from the cut-out character, a candidate character that looks like a character when viewed partially but is incorrect when viewed from the entire character string.

【0100】例えば、各隣接パターンまたは切り出し確
定部の切り出し信頼度をαi 、認識信頼度をβi 、重み
係数をjとすると、全体の信頼度Rは、 R=Σ(j・αi +βi ) ・・・(11) と表せる。
For example, assuming that the cutout reliability of each adjacent pattern or cutout determining portion is α i , the recognition reliability is β i , and the weighting coefficient is j, the overall reliability R is R = Σ (j · α i + β i ) It can be expressed as (11).

【0101】そして、複数の切り出し文字の候補の中か
ら全体の信頼度Rが最も大きいものを、最終的な切り出
し文字として選択する。次に、本発明の一実施例による
文字の切り出し方式を、“ベタ”という文字列から文字
を切り出す場合の実験例を用いて説明する。
Then, from among a plurality of cut-out character candidates, the one having the highest overall reliability R is selected as the final cut-out character. Next, a character cutout method according to an embodiment of the present invention will be described using an experimental example in which a character is cut out from a character string "solid".

【0102】この実験では、統計的処理を採用し、“ベ
タ”という文字列の切り出しの成功又は失敗を判定する
ためのパラメータとして、図3のパラメータc、e、f
を用いた。また、学習データとして、図11に示す12
の文字列35〜46を、実際に30人に書いてもらっ
た。この結果、判別面の式として、 0.84x0+0.43x1+0.33x2−145.25=0・・(12) が得られた。
In this experiment, the statistical processing is adopted, and the parameters c, e, and f in FIG. 3 are used as the parameters for judging the success or failure of cutting out the character string "solid".
Was used. As learning data, 12 shown in FIG.
30 people actually wrote the character strings 35 to 46. As a result, 0.84x0 + 0.43x1 + 0.33x2-145.25 = 0 ... (12) was obtained as the discriminant surface formula.

【0103】また、図11に示す学習データの切り出し
成功を示すヒストグラム分布の平均値mは128.94
2、標準偏差は34.77となり、適合度Tは(9)式
より0.12となった。また、比例定数kを2とする
と、分布中心から端までの距離Lは(10)式より7
7.8となったまた、図11に示す学習データの切り出
し失敗を示すヒストグラム分布の平均値mは71.12
9、標準偏差は36.26となり、適合度Tは(9)式
より0.35となった。。また、比例定数kを2とする
と、分布中心から端までの距離Lは(10)式より9
2.2と成った。
Further, the average value m of the histogram distribution showing the success of cutting out the learning data shown in FIG. 11 is 128.94.
2, the standard deviation was 34.77, and the goodness of fit T was 0.12. If the proportional constant k is 2, the distance L from the center of the distribution to the edge is 7 according to the equation (10).
In addition, the average value m of the histogram distribution indicating failure to cut out the learning data illustrated in FIG. 11 is 71.12.
9, the standard deviation was 36.26, and the goodness of fit T was 0.35 from the equation (9). . When the proportional constant k is 2, the distance L from the center of the distribution to the edge is 9 according to the equation (10).
It became 2.2.

【0104】図18において、まず、ステップS81
で、イメージ入力により入力パターンを読み込む。次
に、ステップS82で、ラベリングにより連結パターン
を抽出し、抽出された各連結パターンに対してラベル番
号〜を付す。
In FIG. 18, first, step S81.
Then, the input pattern is read by image input. Next, in step S82, the connection patterns are extracted by labeling, and the extracted connection patterns are labeled with label numbers.

【0105】続いて、ステップS83で、互いに隣接す
る連結パターンを統合した場合の切り出し信頼度を、パ
ラメータc、e、fの値を有する点の判別面からの距離
hに基づいて算出する。例えば、切り出し信頼度αは、 α=(h−w1 )/(w2 −w1 )×100 ・・・(13) で表すことができる。
Then, in step S83, the cut-out reliability in the case where the adjacent connection patterns are integrated is calculated based on the distance h from the discriminant plane of the points having the values of the parameters c, e, and f. For example, the cutout reliability α can be represented by α = (h−w 1 ) / (w 2 −w 1 ) × 100 (13).

【0106】ここで、 w1 :2群の重なり領域の左端の位置 w2 :2群の重なり領域の右端の位置 である。Here, w 1 : the position of the left end of the overlapping area of the second group w 2 : the position of the right end of the overlapping area of the second group.

【0107】例えば、図18のラベル番号のパターン
とラベル番号のパターンとを統合した場合の切り出し
信頼度は80、ラベル番号のパターンとラベル番号
のパターンとを統合した場合の切り出し信頼度は10、
ラベル番号のパターンとラベル番号のパターンとを
統合した場合の切り出し信頼度は60、ラベル番号の
パターンとラベル番号のパターンとを統合した場合の
切り出し信頼度は85となる。
For example, the cutout reliability when the label number pattern and the label number pattern in FIG. 18 are integrated is 80, and the cutout reliability when the label number pattern and the label number pattern are integrated is 10,
The cutout reliability when the label number pattern and the label number pattern are integrated is 60, and the cutout reliability when the label number pattern and the label number pattern are integrated is 85.

【0108】次に、ステップS84で、切り出し確定部
122におけるラベル番号とのパターンとを統合
し、外接矩形121を生成する。ここで、切り出しを確
定する条件として、例えば、切り出し信頼度が所定のし
きい値(例えば、90)より大きいか、又は、切り出し
信頼度が所定のしきい値(例えば、70)より大きく、
且つその隣の切り出しパターンの切り出し信頼度との比
が所定の値(例えば、5)より大きい場合とする。
Next, in step S84, the pattern and the label number in the cutout confirming unit 122 are integrated to generate a circumscribing rectangle 121. Here, as a condition for confirming the cutout, for example, the cutout reliability is higher than a predetermined threshold value (for example, 90), or the cutout reliability is higher than a predetermined threshold value (for example, 70),
Further, it is assumed that the ratio of the cutout pattern adjacent to the cutout pattern to the cutout reliability is larger than a predetermined value (for example, 5).

【0109】また、切り出し信頼度が所定のしきい値
(例えば、8)より小さい場合は切り出しを行わない。
すなわち、ラベル番号のパターンとラベル番号のパ
ターンとを統合した場合の切り出し信頼度は80で、そ
の隣のラベル番号のパターンに対する切り出し信頼度
の比は、80/10=8であるので、ラベル番号のパ
ターンとラベル番号のパターンとを統合する。また、
ラベル番号のパターンとラベル番号のパターンとを
統合した場合の切り出し信頼度は10であり、ラベル番
号のパターンとラベル番号のパターンとを統合しな
い。また、ラベル番号のパターンとラベル番号のパ
ターンとを統合した場合の切り出し信頼度は60であ
り、ラベル番号のパターンとラベル番号のパターン
とを統合しない。また、ラベル番号のパターンとラベ
ル番号のパターンとを統合した場合の切り出し信頼度
は85であり、且つその隣のラベル番号のパターンに
対する切り出し信頼度の比は、85/60=1.4であ
るので、ラベル番号のパターンとラベル番号のパタ
ーンとを統合しない。
If the cutout reliability is smaller than a predetermined threshold value (for example, 8), the cutout is not performed.
That is, the cutout reliability when the label number pattern and the label number pattern are integrated is 80, and the ratio of the cutout reliability to the adjacent label number pattern is 80/10 = 8. And the pattern of label number are integrated. Also,
The cut-out reliability is 10 when the label number pattern and the label number pattern are integrated, and the label number pattern and the label number pattern are not integrated. The cut-out reliability when the label number pattern and the label number pattern are integrated is 60, and the label number pattern and the label number pattern are not integrated. Further, the cutout reliability when the label number pattern and the label number pattern are integrated is 85, and the ratio of the cutout reliability to the adjacent label number pattern is 85/60 = 1.4. Therefore, the label number pattern and the label number pattern are not integrated.

【0110】次に、ステップS85で、切り出し確定部
122とラベル番号3)のパターンとの切り出し信頼度を
算出する。ここで、切り出し確定部122とラベル番号
3)のパターンとの切り出し信頼度は、例えば、83とな
る。
Next, in step S85, the cutout reliability between the cutout confirming unit 122 and the pattern of label number 3) is calculated. Here, the cutout confirming unit 122 and the label number
The cutout reliability with the pattern of 3) is, for example, 83.

【0111】次に、ステップS86で、切り出し信頼度
によるパターンの統合が終了した時点で、図18に示す
切り出し候補1〜4を抽出する。そして、切り出し候補
1〜4のそれぞれの文字に対して認識処理を行い、切り
出し候補1〜4における文字内の切り出し信頼度αと認
識信頼度βとをそれぞれの文字について求め、切り出し
信頼度αと認識信頼度βとの総和を、全体の信頼度Rと
する。
Next, in step S86, when the integration of the patterns based on the cutout reliability is completed, cutout candidates 1 to 4 shown in FIG. 18 are extracted. Then, recognition processing is performed on each character of the cut-out candidates 1 to 4, the cut-out reliability α and the recognition reliability β within the character in the cut-out candidates 1 to 4 are obtained for each character, and the cut-out reliability α is obtained. The sum of the recognition reliability β and the recognition reliability β is taken as the overall reliability R.

【0112】例えば、切り出し候補1として、図18に
示す外接矩形121、123、124を切り出した場
合、外接矩形121内のパターンに対して文字認識を行
った場合の文字認識部122の認識信頼度βは70とな
り、外接矩形123内のパターンに対して文字認識を行
った場合の文字認識部125の認識信頼度βは90とな
り、外接矩形124内のパターンに対して文字認識を行
った場合の文字認識部126の認識信頼度βは40とな
る。また、ラベル番号のパターンとラベル番号のパ
ターンとを統合した場合の切り出し信頼度αは60であ
るので、全体の信頼度Rは、重み係数jを1とすると、
(11)式により、260となる。
For example, when the circumscribing rectangles 121, 123, and 124 shown in FIG. 18 are cut out as the cutout candidate 1, the recognition reliability of the character recognizing unit 122 when the character recognition is performed on the pattern in the circumscribing rectangle 121. β becomes 70, and the recognition reliability β of the character recognition unit 125 in the case of performing character recognition on the pattern in the circumscribed rectangle 123 becomes 90, and in the case of performing character recognition in the pattern in the circumscribed rectangle 124. The recognition reliability β of the character recognition unit 126 is 40. Further, since the cut-out reliability α when the label number pattern and the label number pattern are integrated is 60, the overall reliability R is given by setting the weighting factor j to 1:
It becomes 260 according to the equation (11).

【0113】また、切り出し候補2として、外接矩形1
27、128を切り出した場合、外接矩形127内のパ
ターンに対して文字認識を行った場合の文字認識部12
9の認識信頼度βは90となり、外接矩形128内のパ
ターンに対して文字認識を行った場合の文字認識部13
0の認識信頼度βは95となる。また、切り出し確定部
122とラベル番号3)のパターンとの切り出し信頼度α
は83であり、ラベル番号のパターンとラベル番号
のパターンとを統合した場合の切り出し信頼度αは85
であるので、全体の信頼度Rは353となる。
Further, as a cutout candidate 2, a circumscribed rectangle 1
The character recognition unit 12 when character recognition is performed on the pattern in the circumscribed rectangle 127 when 27 and 128 are cut out.
The recognition reliability β of 9 becomes 90, and the character recognition unit 13 when character recognition is performed on the pattern in the circumscribed rectangle 128.
The recognition reliability β of 0 is 95. Also, the cutout reliability α between the cutout confirming unit 122 and the pattern of label number 3)
Is 83, and the cut-out reliability α when the label number pattern and the label number pattern are integrated is 85.
Therefore, the overall reliability R is 353.

【0114】また、切り出し候補3として、外接矩形1
31、124を切り出した場合、外接矩形131内のパ
ターンに対して文字認識を行った場合の文字認識部13
2の認識信頼度βは30となり、外接矩形124内のパ
ターンに対して文字認識を行った場合の文字認識部12
6の認識信頼度βは40となる。また、切り出し確定部
122とラベル番号のパターンとの切り出し信頼度α
は83であり、ラベル番号のパターンとラベル番号
のパターンとを統合した場合の切り出し信頼度αは60
であるので、全体の信頼度Rは213となる。
Further, as the cut-out candidate 3, the circumscribed rectangle 1
The character recognition unit 13 when character recognition is performed on the pattern in the circumscribed rectangle 131 when 31 and 124 are cut out
The recognition reliability β of 2 is 30, and the character recognition unit 12 when character recognition is performed on the pattern in the circumscribed rectangle 124.
The recognition reliability β of 6 is 40. Also, the cutout reliability α between the cutout confirming unit 122 and the label number pattern
Is 83, and the cut-out reliability α when the label number pattern and the label number pattern are integrated is 60.
Therefore, the overall reliability R is 213.

【0115】また、切り出し候補4として、外接矩形1
21、133を切り出した場合、外接矩形121内のパ
ターンに対して文字認識を行った場合の文字認識部12
2の認識信頼度βは70となり、外接矩形133内のパ
ターンに対して文字認識を行った場合の文字認識部13
4の認識信頼度βは20となる。また、ラベル番号の
パターンとラベル番号のパターンとを統合した場合の
切り出し信頼度αは60であり、ラベル番号のパター
ンとラベル番号のパターンとを統合した場合の切り出
し信頼度αは85であるので、全体の信頼度Rは235
となる。
Further, as a cutout candidate 4, a circumscribed rectangle 1
The character recognition unit 12 when character recognition is performed on the pattern in the circumscribing rectangle 121 when 21 and 133 are cut out
The recognition reliability β of 2 becomes 70, and the character recognition unit 13 when the character recognition is performed on the pattern in the circumscribed rectangle 133.
The recognition reliability β of 4 is 20. Further, the cutout reliability α when the label number pattern and the label number pattern are integrated is 60, and the cutout reliability α when the label number pattern and the label number pattern are integrated is 85. , The overall reliability R is 235
Becomes

【0116】次に、ステップS87で、切り出し候補1
〜4のうち、全体の信頼度Rが最も大きい切り出し候補
2を切り出し成功の文字として選択する。このことによ
り、“ベタ”という文字列の入力パターンから”べ”
と”タ”の文字を正確に切り出すことができた。
Next, in step S87, the cut-out candidate 1
Out of 4 to 4, the cutout candidate 2 having the highest overall reliability R is selected as the character of successful cutout. As a result, the input pattern of the character string "solid" is changed to "be"
I was able to accurately cut out the letter "ta".

【0117】次に、本発明の一実施例による文字の切り
出し方式を、統計的処理と非統計的処理とに分けて行う
場合の処理を、図19に示す。図19には、“グンマ”
という文字列から文字を切り出す実験結果も示してい
る。この場合、“グンマ”という文字列の切り出しを行
うのに先立ち、学習データを用いて、統計的処理と非統
計的処理とに対する判別面とヒストグラム値の正規分布
曲線を、それぞれ、個別に求めたまず、ステップS91
で、イメージ入力により入力パターンを読み込む。
Next, FIG. 19 shows the processing when the character segmentation method according to the embodiment of the present invention is divided into statistical processing and non-statistical processing. In Figure 19, "Gunma"
It also shows the experimental results of cutting out characters from the string. In this case, prior to cutting out the character string “Gunma”, the discriminant surface for statistical processing and non-statistical processing and the normal distribution curve of the histogram value were individually obtained using the learning data. First, step S91
Then, the input pattern is read by image input.

【0118】次に、ステップS92で、ラベリングによ
り連結パターンを抽出し、抽出された各連結パターンに
対して図19に示すようにラベル番号〜を付す。次
に、ステップS95で、互いに隣接する連結パターンを
統合した場合の切り出し信頼度を算出する。ここで、切
り出し信頼度を算出する場合、ステップS93で統計的
処理を、ステップS94で非統計的処理を行う。
Next, in step S92, the connected patterns are extracted by labeling, and the extracted connected patterns are labeled with label numbers 1 through 3, as shown in FIG. Next, in step S95, the cutout reliability in the case where the adjacent connection patterns are integrated is calculated. Here, when the cutout reliability is calculated, statistical processing is performed in step S93 and non-statistical processing is performed in step S94.

【0119】ステップS93の統計的処理では、例え
ば、ラベル番号のパターンとラベル番号のパターン
とを統合した場合の切り出し信頼度は80、ラベル番号
のパターンとラベル番号のパターンとを統合した場
合の切り出し信頼度は12、ラベル番号のパターンと
ラベル番号のパターンとを統合した場合の切り出し信
頼度は28、ラベル番号のパターンとラベル番号の
パターンとを統合した場合の切り出し信頼度は92、ラ
ベル番号のパターンとラベル番号のパターンとを統
合した場合の切り出し信頼度は5となったまた、ステッ
プS94の非統計的処理では、ラベル番号のパターン
と、ラベル番号のパターンとラベル番号のパターン
とからなる切り出し確定部141の濁点パターンとを統
合した場合の切り出し信頼度は85となった。
In the statistical processing of step S93, for example, the cutout reliability when the label number pattern and the label number pattern are integrated is 80, and the cutout when the label number pattern and the label number pattern are integrated. The reliability is 12, the cutout reliability is 28 when the label number pattern and the label number pattern are integrated, and the cutout reliability is 92 when the label number pattern and the label number pattern are integrated. The cutout reliability is 5 when the pattern and the label number pattern are integrated. Further, in the non-statistical processing in step S94, the cutout consisting of the label number pattern, the label number pattern, and the label number pattern is performed. The cut-out reliability in the case of integrating with the dakuten pattern of the determination unit 141 was 85.

【0120】このステップS94における非統計的処理
における切り出し信頼度の算出方法を図20に示す。ま
ず、ステップS101で、濁点候補となるパターン14
2を抽出する。例えば、連結パターンが2つ隣接して存
在する場合で、且つ、それらを統合した時のサイズと文
字列の外接矩形の平均文字サイズとの比が所定のしきい
値以下である場合、濁点候補となるパターンとする。
FIG. 20 shows a method of calculating the clipping reliability in the non-statistical processing in step S94. First, in step S101, a pattern 14 that is a dakuten candidate is formed.
Extract 2. For example, when two concatenated patterns are adjacent to each other and the ratio of the combined size of the concatenated patterns and the average character size of the circumscribing rectangle of the character string is equal to or less than a predetermined threshold value, the cloud point candidate The pattern is

【0121】次に、ステップS102で、濁点候補とな
るパターン142の左隣に隣接する外接矩形151があ
るかどうかを調べ、濁点候補となるパターン142の左
隣に隣接する外接矩形151があると判断された場合、
ステップS103に進み、図8のパラメータp〜rの値
を算出する。
Next, in step S102, it is checked whether or not there is a circumscribing rectangle 151 that is adjacent to the left of the pattern 142 that is a dakuten candidate, and if there is an circumscribing rectangle 151 that is adjacent to the left of the pattern 142 that is a dakuten candidate. If judged,
In step S103, the values of the parameters p to r in FIG. 8 are calculated.

【0122】図20の”グ”の例では、 p=a/b=0.1 ・・・(14) q=b/MX=1.3 ・・・(15) r=(c×d)/(MX×MY)2 =0.3 ・・・(16) となる。In the example of "G" in FIG. 20, p = a / b = 0.1 (14) q = b / MX = 1.3 (15) r = (c × d) / (MX × MY) 2 = 0.3 (16)

【0123】ここで、 a:外接矩形151の右枠と外接矩形142の左枠との
距離 b:外接矩形151の左枠と外接矩形142の右枠との
距離 c:外接矩形151の面積 d:外接矩形142の面積 MX:外接矩形平均幅 MY:外接矩形平均高さ である次に、ステップS104に示すように、パラメー
タp〜rの値の判別面163からの距離を算出する。
Here, a: the distance between the right frame of the circumscribing rectangle 151 and the left frame of the circumscribing rectangle 142 b: the distance between the left frame of the circumscribing rectangle 151 and the right frame of the circumscribing rectangle 142 c: the area d of the circumscribing rectangle 151 : Area of circumscribing rectangle 142 MX: circumscribing rectangle average width MY: circumscribing rectangle average height Next, as shown in step S104, the distance from the discriminating surface 163 of the values of the parameters p to r is calculated.

【0124】このパラメータp〜rの値の判別面163
からの距離を算出するために、学習パターンに基づいて
判別面163を算出しておく。この判別面163は、例
えば、学習パターンの文字列の切り出しの成功を示すヒ
ストグラム分布162及び失敗を示すヒストグラム分布
161に基づいて、(1)式により求めることができ、
濁点抽出のパラメータp〜rを用いた場合の判別面16
3の式は、例えば、 0.17x0−0.75x1+0.64x2+30.4=0・・(17) で表され、3次元空間内の平面の方程式となる。
Discrimination surface 163 of the values of the parameters p to r
In order to calculate the distance from, the discrimination surface 163 is calculated based on the learning pattern. The discriminant surface 163 can be obtained by the equation (1) based on, for example, a histogram distribution 162 indicating success in cutting out a character string of a learning pattern and a histogram distribution 161 indicating failure.
Discrimination surface 16 when parameters p to r for dakuten extraction are used
The expression of 3 is represented by, for example, 0.17x0-0.75x1 + 0.64x2 + 30.4 = 0 ... (17) and becomes an equation of a plane in the three-dimensional space.

【0125】従って、判別面163からの距離hは、
(14)〜(16)の値を(17)式に代入して、 h=0.17×0.1−0.75×1.3+0.64×0.3+30.4 =29.6 ・・・(18) となる。
Therefore, the distance h from the discrimination surface 163 is
Substituting the values of (14) to (16) into the equation (17), h = 0.17 × 0.1−0.75 × 1.3 + 0.64 × 0.3 + 30.4 = 29.6 ...・ It becomes (18).

【0126】また、学習データの切り出し成功を示すヒ
ストグラム分布162の平均値mは38、標準偏差は2
5となり、適合度Tは(9)式より0.2となり、学習
データの切り出し失敗を示すヒストグラム分布161の
平均値mは−34、標準偏差は28となり、適合度Tは
(9)式より0.3となる。
The average value m of the histogram distribution 162 indicating the success of cutting out the learning data is 38, and the standard deviation is 2.
5, the goodness of fit T becomes 0.2 from the equation (9), the average value m of the histogram distribution 161 indicating failure of cutting out the learning data is −34, the standard deviation is 28, and the goodness of fit T becomes from the equation (9). It becomes 0.3.

【0127】また、学習データの切り出し成功を示すヒ
ストグラム分布162の左端w1 は、比例定数kを2と
すると、(10)式より、 w1 =38−2×(1+0.2)×25=−22 ・・・(19) となり、学習データの切り出し失敗を示すヒストグラム
分布161の右端w2 は、比例定数kを2とすると、
(10)式より、 w2 =−34+2×(1+0.3)×28=38.8 ・・・(20) となる。
Further, the left end w 1 of the histogram distribution 162 indicating the success of cutting out the learning data is expressed by the equation (10) as follows: w 1 = 38-2 × (1 + 0.2) × 25 = −22 (19), and the right end w 2 of the histogram distribution 161 indicating failure to cut out the learning data is set as the proportional constant k is 2,
From the equation (10), w 2 = −34 + 2 × (1 + 0.3) × 28 = 38.8 (20)

【0128】従って、2群の重なり領域164は、判別
面からの距離が−22〜38.8の領域となる。次に、
ステップS105で、切り出し信頼度αを求める。この
切り出し信頼度αは、(18)〜(20)の値を(1
3)式に代入して、 α=(29.6−(−22))/(38.8−(−22))×100 =85 ・・・(21) となる。
Therefore, the overlapping area 164 of the second group is an area whose distance from the discrimination surface is −22 to 38.8. next,
In step S105, the cutout reliability α is obtained. The cutout reliability α is obtained by changing the values of (18) to (20) to (1
Substituting into the equation 3), α = (29.6 − (− 22)) / (38.8 − (− 22)) × 100 = 85 (21)

【0129】これにより、ラベル番号とラベル番号
とが統合されて切り出し確定部141となる。次に、図
19のステップS96で、統計的処理と非統計的処理の
信頼度を合成する。このとき、切り出し確定部があれ
ば、それを優先する。したがって、切り出し確定部14
1の信頼度が優先して合成される。
As a result, the label number and the label number are integrated to form the cutout decision unit 141. Next, in step S96 of FIG. 19, the reliability of the statistical processing and the reliability of the non-statistical processing are combined. At this time, if there is a cutout confirming unit, that is prioritized. Therefore, the cutout confirming unit 14
The reliability of 1 is preferentially combined.

【0130】この結果、ラベル番号のパターンと切り
出し確定部141のパターンとを統合した場合の切り出
し信頼度は85、切り出し確定部141のパターンとラ
ベル番号のパターンとを統合した場合の切り出し信頼
度は30、ラベル番号のパターンとラベル番号のパ
ターンとを統合した場合の切り出し信頼度は92、ラベ
ル番号のパターンとラベル番号のパターンとを統合
した場合の切り出し信頼度は5となる。
As a result, the cutout reliability is 85 when the pattern of the label number and the pattern of the cutout determining unit 141 are integrated, and the cutout reliability when the pattern of the cutout determining unit 141 and the pattern of the label number are integrated. 30, the cut-out reliability when the label number pattern and the label number pattern are integrated is 92, and the cut-out reliability when the label number pattern and the label number pattern are integrated is 5.

【0131】そして、例えば、切り出し信頼度が所定の
しきい値(例えば、90)より大きいか又は、切り出し
信頼度が所定のしきい値(例えば、70)より大きく且
つ、その隣の切り出しパターンの切り出し信頼度との比
が所定の値(例えば、5)より大きい場合、パターンの
統合を行う。
Then, for example, the cutout reliability is higher than a predetermined threshold value (for example, 90), or the cutout reliability is higher than the predetermined threshold value (for example, 70) and the cutout pattern adjacent to the cutout pattern is adjacent to the cutout pattern. When the ratio to the cutout reliability is larger than a predetermined value (for example, 5), the patterns are integrated.

【0132】また、切り出し信頼度が所定のしきい値
(例えば、8)より小さい場合、パターンの統合を行わ
ない。例えば、ラベル番号のパターンと切り出し確定
部141のパターンとを統合した場合の切り出し信頼度
は85で、その隣のラベル番号のパターンに対する切
り出し信頼度の比は、85/30=2.8であるので、
ラベル番号のパターンと切り出し確定部141のパタ
ーンとを統合しない。また、切り出し確定部141のパ
ターンとラベル番号のパターンとを統合した場合の切
り出し信頼度は30であり、切り出し確定部141のパ
ターンとラベル番号のパターンとを統合しない。ま
た、ラベル番号のパターンとラベル番号のパターン
とを統合した場合の切り出し信頼度は92であるので、
ラベル番号のパターンとラベル番号5)のパターンとを
統合する。また、ラベル番号のパターンとラベル番号
のパターンとを統合した場合の切り出し信頼度は5で
あり、ラベル番号のパターンとラベル番号のパター
ンとを統合しない。
If the cutout reliability is smaller than a predetermined threshold value (eg, 8), the patterns are not integrated. For example, the cutout reliability when the pattern of the label number and the pattern of the cutout confirming unit 141 are integrated is 85, and the ratio of the cutout reliability to the pattern of the label number adjacent thereto is 85/30 = 2.8. So
The label number pattern and the pattern of the cutout confirming unit 141 are not integrated. Further, the cutout reliability when the pattern of the cutout confirming unit 141 and the pattern of the label number are integrated is 30, and the pattern of the cutout confirming unit 141 and the pattern of the label number are not integrated. Further, since the cutout reliability is 92 when the label number pattern and the label number pattern are integrated,
The label number pattern and the label number 5) pattern are integrated. Further, the cut-out reliability when the label number pattern and the label number pattern are integrated is 5, and the label number pattern and the label number pattern are not integrated.

【0133】これにより、ラベル番号のパターンとラ
ベル番号のパターンとを統合した切り出し確定部14
3に対応する外接矩形145、ラベル番号のパターン
に対応する外接矩形146が生成される。
As a result, the cutout decision unit 14 integrating the label number pattern and the label number pattern is integrated.
A circumscribed rectangle 145 corresponding to 3 and a circumscribed rectangle 146 corresponding to the label number pattern are generated.

【0134】また、新たに生成された切り出し確定部1
43のパターンと切り出し確定部141のパターンとを
統合した場合の切り出し信頼度を求める。この切り出し
信頼度は、図19の例では、60となる。
Further, the newly generated cutout confirming unit 1
The cutout reliability when the pattern of 43 and the pattern of the cutout determination unit 141 are integrated is obtained. The cutout reliability is 60 in the example of FIG.

【0135】次に、ステップS97に示すように、切り
出し信頼度によるパターンの統合が終了した時点で、切
り出し候補1、2を抽出する。そして、切り出し候補
1、2のそれぞれの文字に対して認識処理を行い、切り
出し候補1、2における文字内の切り出し信頼度αと認
識信頼度βとをそれぞれの文字について求め、切り出し
信頼度αと認識信頼度βとの総和をとったものを全体の
信頼度Rとする。
Next, as shown in step S97, cutout candidates 1 and 2 are extracted when the integration of the patterns based on the cutout reliability is completed. Then, recognition processing is performed on each character of the cut-out candidates 1 and 2, and the cut-out reliability α and the recognition reliability β within the character in the cut-out candidates 1 and 2 are obtained for each character, and the cut-out reliability α is obtained. The total reliability R is obtained by summing the recognition reliability β.

【0136】例えば、切り出し候補1として、外接矩形
145、146、148を切り出した場合、外接矩形1
48内のパターンに対して文字認識を行った場合の文字
認識部147の認識信頼度βは80となり、外接矩形1
45内のパターンに対して文字認識を行った場合の文字
認識部143の認識信頼度βは90となり、外接矩形1
46内のパターンに対して文字認識を行った場合の文字
認識部153の認識信頼度βは85となる。また、ラベ
ル番号のパターンと切り出し確定部141のパターン
とを統合した場合の切り出し信頼度αは85であるの
で、全体の信頼度Rは、重み係数jを1とすると、(1
1)式により、345となる。
For example, when the circumscribing rectangles 145, 146, 148 are cut out as the cutout candidate 1, the circumscribing rectangle 1
When the character recognition is performed on the pattern within 48, the recognition reliability β of the character recognition unit 147 becomes 80, and the circumscribed rectangle 1
When the character recognition is performed on the pattern within 45, the recognition reliability β of the character recognition unit 143 becomes 90, and the circumscribed rectangle 1
The recognition reliability β of the character recognition unit 153 when the character recognition is performed on the pattern within 46 is 85. Further, the cutout reliability α when the pattern of the label number and the pattern of the cutout confirming unit 141 are integrated is 85, so that the overall reliability R is (1
It becomes 345 according to the equation (1).

【0137】また、切り出し候補2として、外接矩形1
46、151、152を切り出した場合、外接矩形15
1内のパターンに対して文字認識を行った場合の文字認
識部149の認識信頼度βは83となり、外接矩形15
2内のパターンに対して文字認識を行った場合の文字認
識部150の認識信頼度βは55となり、外接矩形14
6内のパターンに対して文字認識を行った場合の文字認
識部153の認識信頼度βは85となる。また、切り出
し確定部141のパターンと切り出し確定部143のパ
ターンとを統合した場合の切り出し信頼度αは60であ
り、全体の信頼度Rは283となる。
Further, as a cutout candidate 2, a circumscribed rectangle 1
When 46, 151 and 152 are cut out, the circumscribed rectangle 15
The recognition reliability β of the character recognition unit 149 when the character recognition is performed on the pattern within 1 is 83, and the circumscribed rectangle 15
When the character recognition is performed on the pattern within 2, the recognition reliability β of the character recognition unit 150 is 55, and the circumscribed rectangle 14
The recognition reliability β of the character recognition unit 153 when the character recognition is performed on the pattern within 6 is 85. Further, when the pattern of the cutout confirming unit 141 and the pattern of the cutout confirming unit 143 are integrated, the cutout reliability α is 60, and the overall reliability R is 283.

【0138】次に、ステップS98で、切り出し候補
1、2のうち、全体の信頼度Rが最も大きい切り出し候
補1を切り出し成功の文字候補として選択する。この結
果、“グンマ”という文字列から、”グ”、”ン”、”
マ”の各文字を正しく切り出すことができた。
Next, in step S98, of the cutout candidates 1 and 2, the cutout candidate 1 having the highest overall reliability R is selected as a character candidate of successful cutout. As a result, from the character string "gunma", "gu", "n", "
I was able to cut out each character of "Ma" correctly.

【0139】以上説明したように、本発明の一実施例に
よるパターン認識装置によれば、文字の切り出しに文字
認識処理を用いているため切り出し精度が高く、複数の
切り出し候補から1つの候補を選別する際、認識の信頼
度だけでなく切り出しの信頼度も考慮することで、その
候補文字単独の特徴だけでなく、その文字の文字列全体
に対する位置関係なども考慮されるため、より精度の高
い候補文字抽出が可能となる。
As described above, according to the pattern recognition apparatus according to the embodiment of the present invention, the character recognition processing is used to cut out characters, so that the cutting out accuracy is high and one candidate is selected from a plurality of cutout candidates. In this case, by considering not only the reliability of recognition but also the reliability of cutout, not only the characteristics of the candidate character alone but also the positional relationship of the character with respect to the entire character string are considered, resulting in higher accuracy. Can extract candidate characters.

【0140】また、切り出し信頼度に基づき認識処理を
用いる部分を限定するため、高速に処理を行うことが可
能である。また、切り出し処理を統計的処理と非統計的
処理に分けて考えることで、より精度の高い切り出しが
可能である。
Further, since the part in which the recognition processing is used is limited based on the cutout reliability, the processing can be performed at high speed. Further, by dividing the cutout processing into statistical processing and non-statistical processing, it is possible to perform more accurate cutout.

【0141】また、切り出しパラメータに対してヒュー
リスティクに閾値設定するのではなく、切り出しの成功
/失敗の統計的データをとり、さらに複数のパラメータ
を多次元空間上で2群判別しているため、認識処理を用
いる部分を少なくすることができ、高速に処理を行うこ
とが可能である。
Further, instead of heuristically setting threshold values for the cut-out parameters, statistical data of success / failure of cut-out is obtained, and two or more groups of two or more parameters are discriminated in a multidimensional space. It is possible to reduce the portion that uses the recognition processing, and it is possible to perform the processing at high speed.

【0142】また、切り出し正否分布の分布形状に基づ
いて2群の重なり領域を決定しているため、評価データ
数が少ない場合でも、精度よく重なり領域を決定するこ
とができ、同時に切り出し信頼度を正確に算出すること
が可能である。
Further, since the overlapping areas of the two groups are determined based on the distribution shape of the cut-out correctness distribution, the overlapping areas can be accurately determined even when the number of evaluation data is small, and at the same time the cutting-out reliability can be improved. It is possible to calculate accurately.

【0143】また、切り出しデータ群の分布形状に基づ
き、判別面算出法を適応的に変えることで、2群の重な
り領域を小さくすることができ、処理の高速化を図るこ
とが可能である。
By adaptively changing the discriminant surface calculation method based on the distribution shape of the cut-out data group, the overlapping area of the two groups can be reduced, and the processing speed can be increased.

【0144】[0144]

【発明の効果】以上説明したように、請求項1の発明に
よれば、文字としての切り出し位置の確からさを示す切
り出し信頼度に基づいて連結パターンを統合することに
より、文字の書かれた状態に応じて、切り出し信頼度を
調節することができ、文字の切り出し精度を向上するこ
とができる。
As described above, according to the first aspect of the invention, characters are written by integrating the connecting patterns based on the cutout reliability indicating the certainty of the cutout position as a character. The cutout reliability can be adjusted according to the state, and the character cutout accuracy can be improved.

【0145】また、請求項2の発明によれば、切り出し
信頼度の高い部分は文字認識を行わずに切り出し文字と
して確定し、切り出し信頼度の低い部分についてのみ文
字認識を行って切り出し文字を確定することにより、文
字の切り出し速度を向上できる。
According to the second aspect of the present invention, a portion with high cut-out reliability is determined as a cut-out character without performing character recognition, and character recognition is performed only for a portion with low cut-out reliability to determine a cut-out character. By doing so, the character cutting speed can be improved.

【0146】また、請求項3の発明によれば、文字単独
の特徴のみだけでなく、その文字の文字列全体に対する
位置関係なども考慮することにより、文字の切り出し精
度を向上することができる。
According to the third aspect of the invention, not only the characteristics of the character alone but also the positional relationship of the character with respect to the entire character string and the like can be considered to improve the accuracy of character extraction.

【0147】また、請求項4の発明によれば、所定の形
状を有するパターンに対しては、そのパターン独自の最
適な処理を用いることにより、文字の切り出し精度を向
上することができる。
Further, according to the invention of claim 4, for a pattern having a predetermined shape, the optimum processing unique to the pattern can be used to improve the character cutting accuracy.

【0148】また、請求項5の発明によれば、第1の外
接矩形と第1の外接矩形の右隣に隣接する第2の外接矩
形との位置関係や大きさをパラメータとすることによ
り、切り出し文字の特徴を精度良く抽出することができ
る。
According to the fifth aspect of the invention, the positional relationship and size between the first circumscribed rectangle and the second circumscribed rectangle adjacent to the right of the first circumscribed rectangle are used as parameters. The characteristics of the cut-out character can be accurately extracted.

【0149】また、請求項6の発明によれば、分離文字
の処理と濁点処理とを分けて行うことにより、分離文字
と濁点とを精度良く抽出することができ、文字の切り出
し精度を向上することができる。
According to the sixth aspect of the present invention, the separated character processing and the dakuten processing are performed separately, so that the separated character and the dakuten can be accurately extracted, and the character cutting accuracy is improved. be able to.

【0150】また、請求項7の発明によれば、右上がり
となっている第1パターン、第1パターンの右隣に隣接
し、右下がりとなっている第2パターン、第1パターン
の右隣に隣接し、直角方向に探索した場合のパターンと
交差する回数が2となる第3パターンを検出し、それら
の位置関係や大きさをパラメータとすることにより、分
離文字の特徴を精度良く抽出することができる。
According to the seventh aspect of the invention, the first pattern that rises to the right and the adjacent to the right of the first pattern are adjacent to the second pattern that descends to the right and the adjacent to the right of the first pattern. The third pattern, which is adjacent to, and intersects with the pattern in the case of searching in the orthogonal direction at a frequency of 2, is detected, and the positional relationship and size thereof are used as parameters to accurately extract the characteristics of the separated characters. be able to.

【0151】また、請求項8の発明によれば、濁点候補
となる第1パターン、第1パターンの左隣に隣接する第
2のパターンを検出し、それらの位置関係や大きさをパ
ラメータとすることにより、濁点の特徴を精度良く抽出
することができる。
According to the eighth aspect of the invention, the first pattern which is the candidate for the dull point and the second pattern which is adjacent to the left of the first pattern are detected, and their positional relationship and size are used as parameters. As a result, the characteristics of the dakuten can be accurately extracted.

【0152】また、請求項9の発明によれば、切り出し
成功を示す第1の群と切り出し失敗を示す第2の群との
判別面をP次元空間において生成し、該判別面からの距
離に基づいて度数分布を生成し、該度数分布を正規分布
に近似して重なり領域を算出することにより、特性値の
数が少ない場合でも精度よく重なり領域を算出すること
ができ、文字の切り出しを精度良く行うことができる。
According to the ninth aspect of the present invention, a discriminant plane between the first group indicating successful clipping and the second group indicating clipping failure is generated in the P-dimensional space, and the distance from the discriminant surface is set. By generating a frequency distribution based on this and calculating the overlapping area by approximating the frequency distribution to a normal distribution, it is possible to calculate the overlapping area with high accuracy even when the number of characteristic values is small, and to accurately cut out characters. You can do it well.

【0153】また、請求項10の発明によれば、P個の
特性値のP次元空間における分布形状に基づいて、判別
面の算出方法を複数個使い分けることにより、分布形状
毎に最適な判別面を生成することができ、文字の切り出
しを精度を向上できる。
According to the tenth aspect of the present invention, the optimum discriminant surface is determined for each distribution shape by using a plurality of discriminant surface calculation methods based on the distribution shape of the P characteristic values in the P-dimensional space. Can be generated, and the accuracy of character extraction can be improved.

【0154】また、請求項11の発明によれば、第1の
群と第2の群との主軸のなす角が所定の角度以上である
場合、主軸に対するサンプルデータのばらつきの大きい
方の群の垂直方向に判別面を算出し、主軸のなす角が所
定の角度以上でない場合、判別分析法により判別面を算
出することにより、文字の切り出しを精度を向上でき
る。
According to the eleventh aspect of the invention, when the angle formed by the main axes of the first group and the second group is equal to or greater than a predetermined angle, the one of the groups having a larger variation in sample data with respect to the main axis is detected. When the discriminant plane is calculated in the vertical direction and the angle formed by the main axes is not equal to or larger than the predetermined angle, the discriminant analysis method is used to calculate the discriminant surface, thereby improving the accuracy of character cutting.

【0155】また、請求項12の発明によれば、度数分
布の正規分布に対する誤差を考慮して重なり領域を算出
することにより、特性値の数が少ない場合でも適応的に
重なり領域を算出することができる。
According to the twelfth aspect of the invention, the overlapping area is calculated in consideration of the error of the frequency distribution with respect to the normal distribution, so that the overlapping area is adaptively calculated even when the number of characteristic values is small. You can

【0156】また、請求項13の発明によれば、度数分
布と正規分布との2乗誤差の総和と正規分布の面積との
比に基づいて適合度を算出し、適合度に基づいて重なり
領域を算出することにより、特性値の数が少ない場合で
も適応的に重なり領域を算出することができる。
According to the thirteenth aspect of the invention, the goodness of fit is calculated based on the ratio of the sum of the squared errors of the frequency distribution and the normal distribution and the area of the normal distribution, and the overlap region is calculated based on the goodness of fit. By calculating, it is possible to adaptively calculate the overlapping area even when the number of characteristic values is small.

【0157】また、請求項14の発明によれば、パター
ンの特徴を示すP個の特性値が度数分布の重なり領域に
含まれる場合、P個の特性値の位置に基づいて切り出し
信頼度を算出し、P個の特性値が度数分布の切り出し成
功を示す領域に含まれる場合、切り出し信頼度を100
%と判定し、P個の特性値が度数分布の切り出し失敗を
示す領域に含まれる場合、切り出し信頼度を0%と判定
することにより、より精度の高い文字の切り出しを行う
ことができる。
According to the fourteenth aspect of the invention, when the P characteristic values indicating the characteristics of the pattern are included in the overlapping region of the frequency distribution, the cutout reliability is calculated based on the positions of the P characteristic values. However, if the P characteristic values are included in the region of the frequency distribution indicating the successful extraction, the extraction reliability is 100.
When it is determined to be%, and the P characteristic values are included in the region showing the cutout failure of the frequency distribution, the cutout reliability is determined to be 0%, so that more accurate cutout of the character can be performed.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の一実施例によるパターン切り出し装置
の概略構成を示すブロック図である。
FIG. 1 is a block diagram showing a schematic configuration of a pattern cutting device according to an embodiment of the present invention.

【図2】本発明の一実施例によるパターン切り出し方式
の処理の流れを示すフローチャートである。
FIG. 2 is a flowchart showing a processing flow of a pattern cutout method according to an embodiment of the present invention.

【図3】本発明の一実施例によるパターン切り出し装置
の統計的処理におけるパラメータの図形的意味を示す図
である。
FIG. 3 is a diagram showing graphical meanings of parameters in the statistical processing of the pattern cutting device according to the embodiment of the present invention.

【図4】本発明の一実施例によるパターン切り出し装置
の統計的処理を示すフローチャートである。
FIG. 4 is a flowchart showing a statistical process of the pattern cutting device according to the embodiment of the present invention.

【図5】本発明の一実施例によるパターン切り出し装置
の非統計的処理を示す図である。
FIG. 5 is a diagram showing a non-statistical process of the pattern cutting device according to the embodiment of the present invention.

【図6】本発明の一実施例によるパターン切り出し装置
の分離文字処理におけるパラメータの図形的意味を示す
図である。
FIG. 6 is a diagram showing a graphic meaning of parameters in the separated character processing of the pattern cutting device according to the embodiment of the present invention.

【図7】本発明の一実施例によるパターン切り出し装置
の分離文字処理を示すフローチャートである。
FIG. 7 is a flowchart showing separated character processing of the pattern cutting device according to one embodiment of the present invention.

【図8】本発明の一実施例によるパターン切り出し装置
の濁点処理におけるパラメータの図形的意味を示す図で
ある。
FIG. 8 is a diagram showing graphical meanings of parameters in dakuten processing of the pattern cutting device according to the embodiment of the present invention.

【図9】本発明の一実施例によるパターン切り出し装置
の濁点処理を示すフローチャートである。
FIG. 9 is a flowchart showing a dull point process of the pattern cutting device according to the embodiment of the present invention.

【図10】本発明の一実施例によるパターン切り出し装
置における切り出しの成否の算出処理を示すフローチャ
ートである。
FIG. 10 is a flow chart showing a calculation process of success or failure of cutting in the pattern cutting device according to the embodiment of the present invention.

【図11】本発明の一実施例によるパターン切り出し装
置における切り出しの成否を算出する学習データの例を
示す図である。
FIG. 11 is a diagram showing an example of learning data for calculating success / failure of clipping in the pattern clipping device according to the embodiment of the present invention.

【図12】本発明の一実施例によるパターン切り出し装
置における判別面算出法を示すフローチャートである。
FIG. 12 is a flowchart showing a discriminant surface calculation method in the pattern cutting device according to the embodiment of the present invention.

【図13】本発明の一実施例によるパターン切り出し装
置における切り出し信頼度の定量化方法を示す図であ
る。
FIG. 13 is a diagram showing a method of quantifying the cutting reliability in the pattern cutting device according to the embodiment of the present invention.

【図14】本発明の一実施例によるパターン切り出し装
置における度数分布の生成方法を示す図である。
FIG. 14 is a diagram showing a method of generating a frequency distribution in the pattern cutting device according to the embodiment of the present invention.

【図15】本発明の一実施例によるパターン切り出し装
置における切り出し信頼度算出法を示すフローチャート
である。
FIG. 15 is a flowchart showing a clipping reliability calculation method in the pattern clipping device according to the embodiment of the present invention.

【図16】本発明の一実施例によるパターン切り出し装
置におけるヒストグラム分布の例を示す図である。
FIG. 16 is a diagram showing an example of a histogram distribution in the pattern cutting device according to the embodiment of the present invention.

【図17】本発明の一実施例によるパターン切り出し装
置における2群の重なり領域算出法を示すフローチャー
トである。
FIG. 17 is a flowchart showing a method of calculating an overlapping region of two groups in the pattern cutting device according to the embodiment of the present invention.

【図18】本発明の一実施例によるパターン切り出し装
置における文字の切り出し処理の流れを示す図である。
FIG. 18 is a diagram showing a flow of character cutting processing in the pattern cutting device according to the embodiment of the present invention.

【図19】本発明の一実施例によるパターン切り出し装
置における文字の切り出し処理の流れを示す図である。
FIG. 19 is a diagram showing a flow of character cutting processing in the pattern cutting device according to the embodiment of the present invention.

【図20】本発明の一実施例によるパターン切り出し装
置における非統計的処理の流れを示す図である。
FIG. 20 is a diagram showing the flow of non-statistical processing in the pattern cutting device according to one embodiment of the present invention.

【符号の説明】 1 連結パターン抽出手段 2 分離文字検出部 3 濁点検出部 4 切り出し信頼度算出手段 5 統計的信頼度算出部 6 非統計的信頼度算出部 5a、6a 判別面生成部 5b、6b 度数分布生成部 5c、6c 重なり領域算出部 5d、6d 切り出し信頼度算出部 7 信頼度統合部 8 認識信頼度算出手段 9 切り出し決定手段 11〜16、21、22、31〜34、121、12
3、124、127、128、131、133、14
2、145、146、148、151、152 外接矩
形 35〜46 学習データ 51、52、55、56 分布領域 53、54、57、58 主軸 62、65、163 判別面 71、72、81、82、161、162 ヒストグラ
ム分布 83 切り出し成功領域 84、95、164 重なり領域 85 切り出し失敗領域 91 ヒストグラム値 92、93、94 正規分布曲線 122、141、143、144 切り出し確定部 125、126、129、130、132、134、1
47、149、150、153 文字認識部
[Description of Codes] 1 Concatenated Pattern Extraction Means 2 Separation Character Detecting Unit 3 Dakuten Detecting Unit 4 Clipping Reliability Calculating Unit 5 Statistical Reliability Calculating Unit 6 Non-Statistical Reliability Calculating Units 5a, 6a Discrimination Surface Generating Units 5b, 6b Frequency distribution generators 5c and 6c Overlapping area calculators 5d and 6d Cutout reliability calculator 7 Reliability integration unit 8 Recognition reliability calculator 9 Cutout determiner 11 to 16, 21, 22, 31 to 34, 121, 12
3,124,127,128,131,133,14
2, 145, 146, 148, 151, 152 circumscribed rectangles 35-46 learning data 51, 52, 55, 56 distribution areas 53, 54, 57, 58 main axes 62, 65, 163 discriminating surfaces 71, 72, 81, 82, 161, 162 Histogram distribution 83 Cutout success areas 84, 95, 164 Overlap area 85 Cutout failure area 91 Histogram values 92, 93, 94 Normal distribution curves 122, 141, 143, 144 Cutout confirming sections 125, 126, 129, 130, 132 , 134, 1
47, 149, 150, 153 Character recognition unit

フロントページの続き (56)参考文献 特開 平6−251195(JP,A) 特開 平6−139407(JP,A) 特開 平6−348896(JP,A) 特開 平7−262314(JP,A) 特開 平8−202821(JP,A) 中嶋正臣 米倉雄司,平滑化周辺分布 と判別分析を用いた手書き文字切り出し 方式,電子情報通信学会論文誌,日本, 電子情報通信学会,1995年 7月25日, D−2 VoL.J78−D−2 No. 7,p.1039−1046 4R−2 手書きカナ文字の切り出し 信頼度の定量化とその活用法,,情報処 理学会第51回(平成7年後期)全国大会 講演論文集,日本,1995年 9月20日, p.2−167〜2−168 D−575 フリーピッチ帳票の文字切 り出しにおける切り出し確度,1995年電 子情報通信学会総合大会,日本,1995年 3月10日,p.301 D−576 手書き住所読み取りのため の文字切り出し方法,1995年電子情報通 信学会総合大会,日本,1995年 3月10 日,p.302 (58)調査した分野(Int.Cl.7,DB名) G06K 9/00 - 9/82 Continuation of the front page (56) Reference JP-A-6-251195 (JP, A) JP-A-6-139407 (JP, A) JP-A-6-348896 (JP, A) JP-A-7-262314 (JP , A) JP-A-8-202821 (JP, A) Masaomi Nakajima Yuji Yonekura, Handwritten character segmentation method using smoothed marginal distribution and discriminant analysis, The Institute of Electronics, Information and Communication Engineers, Japan, The Institute of Electronics, Information and Communication Engineers, 1995 July 25, D-2 VoL. J78-D-2 No. 7, p. 1039-1046 4R-2 Extraction of handwritten kana characters Quantification of reliability and its utilization, Proceedings of the 51st National Congress of Information Processing Society (Late 1995), Japan, September 20, 1995, p. 2-167 to 2-168 D-575 Cutout accuracy in character cutout of free-pitch form, 1995 IEICE General Conference, Japan, March 10, 1995, p. 301 D-576 Character segmentation method for reading handwritten addresses, 1995 IEICE General Conference, Japan, March 10, 1995, p. 302 (58) Fields surveyed (Int.Cl. 7 , DB name) G06K 9/00-9/82

Claims (14)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 入力パターンから連結パターンを求める
連結パターン抽出手段と、 前記連結パターンを統合した場合、文字としての切り出
しの確からしさを示す切り出し信頼度算出手段と、 前記切り出し信頼度が所定の値より大きい場合、前記連
結パターンを統合する統合手段とを備え、 前記切りだし信頼度算出手段は、 パターンの特徴を示すP個の特性値からなるサンプルデ
ータを、切り出し成功を示す第1の群と切り出し失敗を
示す第2の群とに分類し、前記第1の群と前記第2の群
との判別面をP次元空間において生成する判別面生成手
段と、 前記判別面に対する前記P個の特性値の位置に基づい
て、前記切り出し文字の切り出し信頼度を定量化する切
り出し信頼度定量化手段を備え、 前記切り出し信頼度定量化手段は、 前記判別面からの距離に基づいて、P個の特性値からな
るサンプルデータの度数分布を生成する度数分布生成部
と、 前記第1の群に対応して生成された度数分布と前記第2
の群に対応して生成された度数分布との重なり領域を算
出する重なり領域算出部と、 前記P個の特性値を有する点の前記判別面からの距離と
前記重なり領域の両端の位置とに基づいて、切り出し信
頼度を算出する切り出し信頼度算出部とを備えることを
特徴とする文字切り出し方式。
1. A connection pattern is obtained from an input pattern.
When the connection pattern extraction means and the connection pattern are integrated, cut-out as a character
Cut-out reliability calculation means that indicates the certainty of the cutout, and if the cut-out reliability is greater than a predetermined value,
And a cutting-out reliability calculating means , wherein the cutting-out reliability calculating means is composed of P characteristic values indicating the characteristics of the pattern.
Data, the first group showing successful cutting and the failure to cut
And a second group shown, which is classified into the first group and the second group.
Discriminant plane generator for generating the discriminant plane with and in the P-dimensional space
A step and the positions of the P characteristic values with respect to the discrimination surface.
To quantify the cut-out reliability of the cut-out character.
The cutting-out reliability quantifying means is provided with P characteristic values based on the distance from the discriminating surface.
Frequency distribution generator that generates the frequency distribution of sample data
And the frequency distribution generated corresponding to the first group and the second group.
Calculate the overlap area with the frequency distribution generated for the group of
An overlapping area calculation unit that outputs the distance, and a distance from the discrimination surface of the points having the P characteristic values.
Based on the positions of both ends of the overlapping area, the cutout signal
A cutout reliability calculation unit that calculates the reliability is provided.
Character extraction method.
【請求項2】 入力パターンから連結パターンを求める
連結パターン抽出手段と、 前記連結パターンを統合して切り出し文字の複数の候補
を生成し、前記各候補について切り出しの確からしさを
示す切り出し信頼度を算出する切りだし信頼度算出手段
と、 前記切り出し信頼度に基づいて、前記各候補の文字認識
を行うかどうかを決定 する認識処理決定手段と、 前記認識処理決定手段により文字認識を行う決定がなさ
れた候補の場合、文字認識処理により前記複数の候補か
ら1つを選択して切り出し文字を決定し、前記認識処理
決定手段により文字認識を行わない決定がなされた候補
の場合、前記切り出し信頼度により前記複数の候補から
1つを選択して切り出し文字を決定する切り出し決定手
段とを備え、 前記切りだし信頼度算出手段は、 パターンの特徴を示すP個の特性値からなるサンプルデ
ータを、切り出し成功を示す第1の群と切り出し失敗を
示す第2の群とに分類し、前記第1の群と前記第2の群
との判別面をP次元空間において生成する判別面生成手
段と、 前記判別面に対する前記P個の特性値の位置に基づい
て、前記切り出し文字の切り出し信頼度を定量化する切
り出し信頼度定量化手段を備え、 前記切り出し信頼度定量化手段は、 前記判別面からの距離に基づいて、P個の特性値からな
るサンプルデータの度数分布を生成する度数分布生成部
と、 前記第1の群に対応して生成された度数分布と前記第2
の群に対応して生成された度数分布との重なり領域を算
出する重なり領域算出部と、 前記P個の特性値を有する点の前記判別面からの距離と
前記重なり領域の両端の位置とに基づいて、切り出し信
頼度を算出する切り出し信頼度算出部とを備えることを
特徴とする文字切り出し方式。
2. A connection pattern is obtained from an input pattern.
Concatenated pattern extraction means and the concatenated pattern are integrated to obtain a plurality of candidates for cut-out characters.
Is generated, and the probability of cutting out for each of the above candidates is determined.
Cutout reliability calculation means for calculating the cutout reliability shown
And the character recognition of each of the candidates based on the cut-out reliability.
Recognition process deciding means for deciding whether or not to perform the character recognition, and the recognition process deciding means does not decide the character recognition.
In the case of candidates that have
One of them is selected to determine the cut-out character, and the recognition processing is performed.
Candidates for which the decision means has decided not to recognize characters
In the case of, from the plurality of candidates according to the cutout reliability
Cutout decision hand that selects one and decides the cutout character
And the cut-out reliability calculation means comprises sample data consisting of P characteristic values indicating the characteristics of the pattern.
Data, the first group showing successful cutting and the failure to cut
And a second group shown, which is classified into the first group and the second group.
Discriminant plane generator for generating the discriminant plane with and in the P-dimensional space
A step and the positions of the P characteristic values with respect to the discrimination surface.
To quantify the cut-out reliability of the cut-out character.
The cutting-out reliability quantifying means is provided with P characteristic values based on the distance from the discriminating surface.
Frequency distribution generator that generates the frequency distribution of sample data
And the frequency distribution generated corresponding to the first group and the second group.
Calculate the overlap area with the frequency distribution generated for the group of
An overlapping area calculation unit that outputs the distance, and a distance from the discrimination surface of the points having the P characteristic values.
Based on the positions of both ends of the overlapping area, the cutout signal
A cutout reliability calculation unit that calculates the reliability is provided.
Character extraction method.
【請求項3】 入力パターンから連結パターンを求める
連結パターン抽出手段と、 前記連結パターンを統合して切り出し文字の複数の候補
を生成し、前記各候補について切り出しの確からしさを
示す切り出し信頼度を算出する切り出し信頼度算出手段
と、 前記各候補の文字認識を行い、文字としての認識信頼度
を算出する認識信頼度算出手段と、 前記切り出し信頼度と前記認識信頼度とに基づいて、前
記複数の候補から1つを選択して、切り出し文字を決定
する切り出し決定手段とを備え、 前記切りだし信頼度算出手段は、 パターンの特徴を示すP個の特性値からなるサンプルデ
ータを、切り出し成功を示す第1の群と切り出し失敗を
示す第2の群とに分類し、前記第1の群と前記第2の群
との判別面をP次元空間において生成する判別面生成手
段と、 前記判別面に対する前記P個の特性値の位置に基づい
て、前記切り出し文字の切り出し信頼度を定量化する切
り出し信頼度定量化手段を備え、 前記切り出し信頼度定量化手段は、 前記判別面からの距離に基づいて、P個の特性値からな
るサンプルデータの度数分布を生成する度数分布生成部
と、 前記第1の群に対応して生成された度数分布と前記第2
の群に対応して生成された度数分布との重なり領域を算
出する重なり領域算出部と、 前記P個の特性値を有する点の前記判別面からの距離と
前記重なり領域の両端の位置とに基づいて、切り出し信
頼度を算出する切り出し信頼度算出部とを備えることを
特徴とする文字切り出し方式。
3. A connection pattern is obtained from an input pattern.
Concatenated pattern extraction means and the concatenated pattern are integrated to obtain a plurality of candidates for cut-out characters.
Is generated, and the probability of cutting out for each of the above candidates is determined.
Cutout reliability calculation means for calculating the cutout reliability shown
And character recognition of each of the above candidates, and the recognition reliability as a character
Based on the cut-out reliability and the recognition reliability,
Select one from multiple candidates and decide the cutout character
The cut-out reliability calculating means, and the cut-out reliability calculating means is a sample data consisting of P characteristic values indicating the characteristics of the pattern.
Data, the first group showing successful cutting and the failure to cut
And a second group shown, which is classified into the first group and the second group.
Discriminant plane generator for generating the discriminant plane with and in the P-dimensional space
A step and the positions of the P characteristic values with respect to the discrimination surface.
To quantify the cut-out reliability of the cut-out character.
The cutting-out reliability quantifying means is provided with P characteristic values based on the distance from the discriminating surface.
Frequency distribution generator that generates the frequency distribution of sample data
And the frequency distribution generated corresponding to the first group and the second group.
Calculate the overlap area with the frequency distribution generated for the group of
An overlapping area calculation unit that outputs the distance, and a distance from the discrimination surface of the points having the P characteristic values.
Based on the positions of both ends of the overlapping area, the cutout signal
A cutout reliability calculation unit that calculates the reliability is provided.
Character extraction method.
【請求項4】 前記切り出し信頼度算出手段は、 前記連結パターンから所定の形状を有するパターンを検
出する検出部と、 前記検出部により検出された所定の形状を有するパター
ンにおける切り出しの確からしさを示す切り出し信頼度
を算出する非統計的信頼度算出部と、 前記連結パターン抽出手段により求められた連結パター
ンの外接矩形に基づく切り出しの確からしさを示す切り
出し信頼度を算出する統計的信頼度算出部と、 前記非統
計的信頼度算出部により算出された切り出し信頼度と、
前記統計的信頼度算出部により算出された切り出し信頼
度とを統合する信頼度統合部とを備えることを特徴とす
る請求項1乃至3のいずれか1項に記載の文字切り出し
方式。
4. The cutout reliability calculation means detects a pattern having a predetermined shape from the connection pattern.
And a putter having a predetermined shape detected by the detector.
Logging reliability, which indicates the certainty of logging
A non-statistical reliability calculation unit for calculating the connection pattern , and the connection pattern obtained by the connection pattern extraction means.
Cutting that indicates the certainty of cutting based on the circumscribed rectangle
The statistical reliability calculation unit that calculates the output reliability, and
The cutout reliability calculated by the statistical reliability calculation unit,
Cutout reliability calculated by the statistical reliability calculation unit
And a reliability integration unit that integrates
The character cutout according to any one of claims 1 to 3.
method.
【請求項5】 前記統計的信頼度算出部は、 第1の外接矩形と前記第1の外接矩形の右隣に隣接する
第2の外接矩形とを選択する外接矩形選択部と、 前記第1の外接矩形の右枠と前記第2の外接矩形の左枠
との距離を第1パラメータとして算出する第1パラメー
タ生成部と、 前記第1の外接矩形の左枠と前記第2の外接矩形の右枠
との距離を第2パラメ ータとして算出する第2パラメー
タ生成部と、 前記第1パラメータと前記第2パラメータとの比を第3
パラメータとして算出する第3パラメータ生成部と、 前記第2パラメータと外接矩形平均幅との比を第4パラ
メータとして算出する第4パラメータ生成部と、 前記第1の外接矩形の下枠と、前記第1の外接矩形の下
枠の中点から前記第2の外接矩形の下枠の中点へ至る直
線とのなす角度を第5パラメータとして算出する第5パ
ラメータ生成部と、 前記第1の外接矩形の下枠と、前記第1の外接矩形の右
下の頂点から前記第2の外接矩形の左下の頂点へ至る直
線とのなす角度を第6パラメータとして算出する第6パ
ラメータ生成部と、 前記第1の外接矩形と前記第2の外接矩形とが重なって
いる場合、前記第1の外接矩形の右枠と前記第2の外接
矩形の左枠との距離と、前記第1の外接矩形の左枠と前
記第2の外接矩形の右枠との距離との比を第7パラメー
タとして算出する第7パラメータ生成部とを備えること
を特徴とする請求項4に記載の文字切り出し方式。
5. The statistical reliability calculation unit is adjacent to the first circumscribed rectangle and to the right of and adjacent to the first circumscribed rectangle.
A circumscribing rectangle selection unit that selects a second circumscribing rectangle, a right frame of the first circumscribing rectangle, and a left frame of the second circumscribing rectangle.
The first parameter that calculates the distance between and as the first parameter
Generator, a left frame of the first circumscribing rectangle and a right frame of the second circumscribing rectangle
The second parameter for calculating the distance between the second parameter
A data generator and a ratio of the first parameter and the second parameter to a third
A third parameter generating unit that calculates as a parameter, and a ratio of the second parameter and the circumscribed rectangle average width to a fourth parameter.
A fourth parameter generation unit that calculates as a meter, a lower frame of the first circumscribed rectangle, and a lower frame of the first circumscribed rectangle
From the midpoint of the frame to the midpoint of the lower frame of the second circumscribed rectangle
The fifth parameter that calculates the angle formed by the line as the fifth parameter
A parameter generator, a lower frame of the first circumscribing rectangle, and a right side of the first circumscribing rectangle
From the lower vertex to the lower left vertex of the second circumscribed rectangle
The sixth parameter that calculates the angle formed by the line as the sixth parameter
The parameter generation unit and the first circumscribed rectangle and the second circumscribed rectangle overlap each other.
If it is, the right frame of the first circumscribing rectangle and the second circumscribing rectangle
Distance between the left frame of the rectangle and the left frame of the first circumscribing rectangle
The ratio of the distance between the second circumscribed rectangle and the right frame is the 7th parameter.
And a seventh parameter generation unit for calculating
The character cutout method according to claim 4, wherein.
【請求項6】 前記非統計的信頼度算出部は、 分離文字の処理を行う分離文字処理部と、 文字の濁点処理を行う濁点処理部とを備えることを特徴
とする請求項4に記載のパターン切り出し方式。、
6. The non-statistical reliability calculation unit comprises a separated character processing unit for processing a separated character and a dakuten processing unit for dakuten processing of characters.
The pattern cutting method according to claim 4. ,
【請求項7】 前記分離文字処理部は、 右上がりとなっている第1パターンを検出する右上がり
検出手段と、 前記第1パターンの右隣に隣接し、右下がりとなってい
る第2パターンを検出する右下がり検出手段と、 前記第1パターンの右隣に隣接し、直角方向に線密度を
探索した場合に交差する回数が2となる第3パターンを
検出する交差回数検出手段と、 前記第1パターンの外接矩形の右枠と前記第2パターン
又は前記第3パターンの外接矩形の左枠との距離と、前
記第1パターンの外接矩形の左枠と前記第2パターン又
は前記第3パターンの外接矩形の右枠との距離との比を
第1パラメータ として算出する第1パラメータ生成部
と、 前記第1パターンの外接矩形の左枠と前記第2パターン
又は前記第3パターンの外接矩形の右枠との距離と外接
矩形平均幅との比を第2パラメータとして算出する第2
パラメータ生成部と、 前記第1パターンの外接矩形の面積と前記第2パターン
又は前記第3パターンの外接矩形の面積との積と、外接
矩形平均幅と外接矩形平均高さとの積の平方との比を第
3パラメータとして算出する第3パラメータ生成部とを
備えることを特徴とする請求項6に記載の文字切り出し
方式。
7. The separated character processing unit detects a first pattern that is rising to the right, and goes up to the right.
Adjacent to the detection means and on the right next to the first pattern, it is descending to the right.
Right-downward detecting means for detecting the second pattern, which is adjacent to the right side of the first pattern, and has a linear density in the perpendicular direction.
If you search for the third pattern, the number of intersections will be 2
Crossing number detecting means for detecting , right frame of circumscribing rectangle of the first pattern, and the second pattern
Or the distance from the left frame of the circumscribing rectangle of the third pattern, and
The left frame of the circumscribing rectangle of the first pattern and the second pattern or
Is the ratio of the distance between the circumscribed rectangle of the third pattern and the right frame.
A first parameter generation unit that calculates as a first parameter
And the left frame of the circumscribed rectangle of the first pattern and the second pattern
Or, the distance and the circumscribing to the right frame of the circumscribing rectangle of the third pattern
Second calculation of the ratio with the average width of the rectangle as the second parameter
Parameter generation unit, area of circumscribing rectangle of the first pattern, and the second pattern
Or the product of the area of the circumscribing rectangle of the third pattern and the circumscribing
The ratio of the square of the product of the average width of the rectangle and the average height of the circumscribed rectangle
And a third parameter generation unit that calculates as three parameters
The character cutout according to claim 6, further comprising:
method.
【請求項8】 前記濁点処理部は、 濁点候補となる第1パターンを抽出する濁点候補抽出手
段と、 前記第1パターンの左隣に隣接する第2のパターンを検
出する左隣検出手段と、 前記第1パターンの外接矩形の右枠と前記第2パターン
の外接矩形の左枠との距離と、前記第1パターンの外接
矩形の左枠と前記第2パターンの外接矩形の右枠との距
離との比を第1パラメータとして算出する第1パラメー
タ生成部と、 前記第1パターンの外接矩形の左枠と前記第2パターン
の外接矩形の右枠との距離と外接矩形平均幅との比を第
2パラメータとして算出する第2パラメータ生成部と、 前記第1パターンの外接矩形の面積と前記第2パターン
の外接矩形の面積との積と、外接矩形平均幅と外接矩形
平均高さとの積の平方との比を第3パラメータとして算
出する第3パラメータ生成部とを備えることを特徴とす
る請求項6に記載の文字切り出し方式。
8. The dakuten processing unit is configured to extract a dakuten candidate for extracting a first pattern which is a dakuten candidate.
And the second pattern adjacent to the left of the first pattern.
The left-hand neighbor detecting means, the right frame of the circumscribing rectangle of the first pattern, and the second pattern
Of the first pattern and the distance from the left frame of the circumscribed rectangle of
Distance between the rectangular left frame and the right frame of the circumscribing rectangle of the second pattern
First parameter that calculates the ratio of separation as the first parameter
Data generator, a left frame of the circumscribing rectangle of the first pattern, and the second pattern
The ratio of the distance from the right frame of the circumscribed rectangle to the average width of the circumscribed rectangle is
A second parameter generation unit that calculates two parameters, an area of a circumscribed rectangle of the first pattern, and the second pattern
Of the area of the circumscribed rectangle and the average width of the circumscribed rectangle and the circumscribed rectangle
Calculate the ratio of the product of the average height and the square as the third parameter
And a third parameter generation unit for outputting.
The character cutting method according to claim 6.
【請求項9】 入力パターンから連結パターンを求める
連結パターン抽出手段と、 パターンの特徴を示すP個の特性値からなるサンプルデ
ータを、切り出し成功を示す第1の群と切り出し失敗を
示す第2の群とに分類し、前記第1の群と前記第2の群
との判別面をP次元空間において生成する判別面生成手
段と、 前記判別面に対する前記P個の特性値の位置に基づい
て、前記切り出し文字の切り出し信頼度を定量化する切
り出し信頼度定量化手段と、 前記切り出し信頼度に基づいて、前記連結パターンから
切り出し文字を決定する切り出し決定手段とを備え、 前記切り出し信頼度定量化手段は、 前記判別面からの距離に基づいて、P個の特性値からな
るサンプルデータの度数分布を生成する度数分布生成部
と、 前記第1の群に対応して生成された度数分布と前記第2
の群に対応して生成された度数分布との重なり領域を算
出する重なり領域算出部と、 前記P個の特性値を有する点の前記判別面からの距離と
前記重なり領域の両端の位置とに基づいて、切り出し信
頼度を算出する切り出し信頼度算出部とを備えることを
特徴とする文字切り出し方式。
9. A connection pattern is obtained from an input pattern.
A concatenated pattern extraction means and a sample data consisting of P characteristic values indicating the characteristics of the pattern.
Data, the first group showing successful cutting and the failure to cut
And a second group shown, which is classified into the first group and the second group.
Discriminant plane generator for generating the discriminant plane with and in the P-dimensional space
A step and the positions of the P characteristic values with respect to the discrimination surface.
To quantify the cut-out reliability of the cut-out character.
Based on the extraction reliability quantification means and the extraction reliability,
A cutout determining unit that determines a cutout character is provided, and the cutout reliability quantifying unit includes P characteristic values based on a distance from the determination surface.
Frequency distribution generator that generates the frequency distribution of sample data
And the frequency distribution generated corresponding to the first group and the second group.
Calculate the overlap area with the frequency distribution generated for the group of
An overlapping area calculation unit that outputs the distance, and a distance from the discrimination surface of the points having the P characteristic values.
Based on the positions of both ends of the overlapping area, the cutout signal
A cutout reliability calculation unit that calculates the reliability is provided.
Character extraction method.
【請求項10】 前記判別面生成手段は、前記P個の特
性値のP次元空間における分布形状に基づいて、判別面
の算出方法を複数個使い分けることを特徴とする請求項
9に記載の文字切り出し方式。
10. The discriminant plane generating means is characterized in that the P number of features.
Discrimination surface based on the distribution shape of the sex value in the P-dimensional space
Claims characterized by using a plurality of different calculation methods of
The character cutout method described in 9.
【請求項11】 前記判別面生成手段は、 前記第1の群の主軸と前記第2の群の主軸を算出する主
軸算出部と、 前記両群の主軸のなす角が所定の角度以上である場合、
前記サンプルデータの主軸に対するばらつきの大きい方
の群の主軸に垂直方向に判別面を算出する第1判別面算
出部と、 前記両群の主軸のなす角が所定の角度以上でない場合、
判別分析法により判別面を算出する第2判別面算出部と
を備えることを特徴とする請求項9に記載の文字切り出
し方式。
11. The discriminant surface generating means calculates a principal axis of the first group and a principal axis of the second group.
When the angle formed by the axis calculation unit and the main axes of both groups is equal to or greater than a predetermined angle,
Larger variation of the sample data with respect to the main axis
Discriminant calculation for calculating discriminant in the direction perpendicular to the main axis of the group of
When the angle between the projecting portion and the main axes of the both groups is not more than a predetermined angle,
A second discriminant plane calculation unit that calculates a discriminant plane by a discriminant analysis method;
The character cutout according to claim 9, further comprising:
Method.
【請求項12】 前記重なり領域算出部は、度数分布の
正規分布に対する適合度及び度数分布の分散値に基づい
て、前記重なり領域を算出することを特徴とする請求項
9に記載の文字切り出し方式。
12. The overlapping area calculation unit is configured to calculate a frequency distribution.
Based on goodness of fit to normal distribution and variance of frequency distribution
The overlap region is calculated according to
The character cutout method described in 9.
【請求項13】 前記重なり領域算出部は、 前記度数分布の平均値を算出する平均値算出部と、 前記度数分布の分散値を算出する分散値算出部と、 前記平均値と前記分散値に基づいて、正規分布を生成す
る正規分布生成部と、 前記度数分布と前記正規分布との2乗誤差の総和を算出
する2乗誤差総和算出 部と、 前記2乗誤差の総和と前記正規分布の面積との比に基づ
いて、適合度を算出する適合度算出部と、 前記適合度と前記分散値の平方根との積に基づいて、前
記度数分布の両端位置を算出する両端位置算出部と、 前記度数分布の両端位置に基づいて、前記重なり領域を
算出する重なり領域算出部とを備えることを特徴とする
請求項9に記載の文字切り出し方式。
13. The overlapping area calculation unit calculates an average value of the frequency distribution , an average value calculation unit that calculates a dispersion value of the frequency distribution, and an average value and the dispersion value. Generate a normal distribution based on
That calculates a normal distribution generating unit, the sum of the squared error between the normal distribution and the frequency distribution
Squaring the error summation calculating unit, a ratio based on Dzu between the area of the normal distribution the sum of the squared error
A goodness-of-fit calculation unit that calculates a goodness-of-fit, and based on the product of the goodness-of-fit and the square root of the variance,
Based on both end positions of the frequency distribution and both end position calculation units that calculate the both end positions of the frequency distribution, the overlapping region is calculated.
And an overlap area calculation unit for calculating the overlap area.
The character segmentation method according to claim 9.
【請求項14】 入力パターンから連結パターンを求め
る連結パターン抽出手段と、 パターンの特徴を示すP個の特性値からなるサンプルデ
ータを、切り出し成功を示す第1の群と切り出し失敗を
示す第2の群とに分類し、前記第1の群と前記第2の群
との判別面をP次元空間において生成する判別面生成手
段と、 前記判別面に対する前記P個の特性値の位置に基づい
て、前記切り出し文字の切り出し信頼度を定量化する切
り出し信頼度定量化手段と、 前記切り出し信頼度に基づいて、前記連結パターンから
切り出し文字を決定する切り出し決定手段とを備え、 前記切り出し信頼度定量化手段は、 前記判別面からの距離に基づいて、P個の特性値からな
るサンプルデータの度数分布を生成する度数分布生成部
と、 前記第1の群に対応して生成された度数分布と前記第2
の群に対応して生成された度数分布との重なり領域を算
出する重なり領域算出部と、 前記P個の特性値が前記重なり領域に含まれる場合、前
記重なり領域における前記P個の特性値の位置に基づい
て、切り出し信頼度を算出する切り出し信頼度算出部
と、 前記P個の特性値が前記重なり領域に含まれず、且つ、
前記第1の群に対応する度数分布に含まれる場合、切り
出し信頼度を100%と判定し、前記P個の特性値が前
記重なり領域に含まれず、且つ、前記第2の群に対応す
る度数分布に含まれる場合、切り出し信頼度を0%と判
定する切り出し信頼度判定部とを備えることを特徴とす
る文字切り出し方式。
14. A connection pattern is obtained from an input pattern.
Connected pattern extracting means and a sample data consisting of P characteristic values indicating the characteristics of the pattern.
Data, the first group showing successful cutting and the failure to cut
And a second group shown, which is classified into the first group and the second group.
Discriminant plane generator for generating the discriminant plane with and in the P-dimensional space
A step and the positions of the P characteristic values with respect to the discrimination surface.
To quantify the cut-out reliability of the cut-out character.
Based on the extraction reliability quantification means and the extraction reliability,
A cutout determining unit that determines a cutout character is provided, and the cutout reliability quantifying unit includes P characteristic values based on a distance from the determination surface.
Frequency distribution generator that generates the frequency distribution of sample data
And the frequency distribution generated corresponding to the first group and the second group.
Calculate the overlap area with the frequency distribution generated for the group of
When the overlapping region calculation unit that outputs the P characteristic values is included in the overlapping region,
Based on the positions of the P characteristic values in the overlapping region
Cutout reliability calculation unit for calculating cutout reliability
And the P characteristic values are not included in the overlapping region, and
If included in the frequency distribution corresponding to the first group, the
The output reliability is determined to be 100%, and the P characteristic values are
It is not included in the overlapping region and corresponds to the second group.
If it is included in the frequency distribution, the cutout reliability is judged to be 0%.
And a cut-out reliability determining unit that determines the cut-out reliability.
Character cutting method.
JP23498295A 1995-09-13 1995-09-13 Character cutout method Expired - Fee Related JP3415342B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23498295A JP3415342B2 (en) 1995-09-13 1995-09-13 Character cutout method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23498295A JP3415342B2 (en) 1995-09-13 1995-09-13 Character cutout method

Publications (2)

Publication Number Publication Date
JPH0981684A JPH0981684A (en) 1997-03-28
JP3415342B2 true JP3415342B2 (en) 2003-06-09

Family

ID=16979297

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23498295A Expired - Fee Related JP3415342B2 (en) 1995-09-13 1995-09-13 Character cutout method

Country Status (1)

Country Link
JP (1) JP3415342B2 (en)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006072839A (en) * 2004-09-03 2006-03-16 Ricoh Co Ltd Image processing method, image processing apparatus, image processing program and recording medium
JP4501619B2 (en) * 2004-09-24 2010-07-14 アイシン・エィ・ダブリュ株式会社 Navigation system
JP4549400B2 (en) * 2008-03-04 2010-09-22 富士通株式会社 Document recognition program, document recognition apparatus, and document recognition method
CN101930545A (en) * 2009-06-24 2010-12-29 夏普株式会社 Handwriting recognition method and device
JP7283756B2 (en) * 2020-05-12 2023-05-30 株式会社ミラボ Information processing device and program

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
4R−2 手書きカナ文字の切り出し信頼度の定量化とその活用法,,情報処理学会第51回(平成7年後期)全国大会講演論文集,日本,1995年 9月20日,p.2−167〜2−168
D−575 フリーピッチ帳票の文字切り出しにおける切り出し確度,1995年電子情報通信学会総合大会,日本,1995年 3月10日,p.301
D−576 手書き住所読み取りのための文字切り出し方法,1995年電子情報通信学会総合大会,日本,1995年 3月10日,p.302
中嶋正臣 米倉雄司,平滑化周辺分布と判別分析を用いた手書き文字切り出し方式,電子情報通信学会論文誌,日本,電子情報通信学会,1995年 7月25日,D−2 VoL.J78−D−2 No.7,p.1039−1046

Also Published As

Publication number Publication date
JPH0981684A (en) 1997-03-28

Similar Documents

Publication Publication Date Title
US6249605B1 (en) Key character extraction and lexicon reduction for cursive text recognition
US6636631B2 (en) Optical character reading method and system for a document with ruled lines and its application
US6128410A (en) Pattern matching apparatus and method that considers distance and direction
Hamida et al. A novel feature extraction system for cursive word vocabulary recognition using local features descriptors and gabor filter
US6338062B1 (en) Retrieval system, retrieval method and computer readable recording medium that records retrieval program
US9047655B2 (en) Computer vision-based methods for enhanced JBIG2 and generic bitonal compression
CN101452532A (en) Text-independent handwriting identification method and device
Pham et al. Offline handwritten signature verification using local and global features
CN115376149A (en) A method for identifying reimbursement invoices
JP2007058882A (en) Pattern recognition device
CN117315668A (en) Text intelligent recognition system based on OCR
JP3415342B2 (en) Character cutout method
Pechwitz et al. Comparison of two different feature sets for offline recognition of handwritten arabic words
CN119131800A (en) A mixed text image detection and recognition method and device
CN1790377B (en) Reverse character recognition block sorting method and text line generation method
JP4176175B2 (en) Pattern recognition device
KR100718139B1 (en) Character recognition device and method included in the image
Saidi et al. Recognition of offline handwritten Arabic words using a few structural features
Widiarti et al. Clustering Balinese Script Image in Palm Leaf Using Hierarchical K-Means Algorithm
JP3374762B2 (en) Character recognition method and apparatus
JP3344062B2 (en) Katakana handwritten character extraction circuit
JP2008071214A (en) Character recognition dictionary creation method and apparatus, character recognition method and apparatus, and storage medium storing program
JPH0749926A (en) Character recognizing device
JP2006244385A (en) Face-discriminating apparatus, program and learning method for the apparatus
JP2007026470A (en) Pattern recognition device

Legal Events

Date Code Title Description
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20030318

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080404

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090404

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090404

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100404

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110404

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110404

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120404

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130404

Year of fee payment: 10

LAPS Cancellation because of no payment of annual fees