JPH01253077A

JPH01253077A - 文字列検出方法

Info

Publication number: JPH01253077A
Application number: JP63069969A
Authority: JP
Inventors: Tomio Amano; 天野　富夫
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1988-03-25
Filing date: 1988-03-25
Publication date: 1989-10-09
Anticipated expiration: 2009-12-12
Also published as: DE68922772D1; EP0334472A3; EP0334472B1; DE68922772T2; EP0334472A2; CA1309180C; US5033104A; JPH06101049B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】Ａ、産業上の利用分野本発明は、図やイラストを含む文書画像中の文字列を検
出する方゛式に関する。

Ｂ、従来技術近年オフィスのさまざまな文書（マニュアルや設計図面
など）を（光ファイリングシステムにより）電子的に立
積・　（ファクシミリにより）伝送することが可能にな
りオフィスのペーパーレス化が進んでいる。しかしなが
ら、現在のところ文書は白黒の画像情報として扱われて
おり、イメージの切り貼り以上の高度な処理や、より効
率的な蓄積・伝送を行うためには、画像情報の構造化（
文字コード、グラフィックコマンドを含むマルチメディ
ア情報への変換）が必要になる。画像情報の構造化処理
においては１図や絵を含む画像から文字列のみを抽出す
る（文字列に外接する長方形の画像中での位置データを
求める）作業が最初に行なわれることが多い。

例えば、ＣＡＤ／ＣＡＭのための自動画面入力システム
においては、最初に図面中の文字列と線図形とを分離し
たのちそれぞれを認識する必要があるし、新聞・雑誌等
の画像の領域分割く画像を文字、図表、写真等の領域に
分割すること）においても、ある領域内に文字列が存在
するか否かという情報は非常に有用である。また、これ
まで文字のみが印刷されている文書を処理の対象として
いたＯＣＲにおいても、ロゴや署名、アンダーライン程
度は自動的に無視して文字のみを認識するような機能が
求められている。

しかし、文字列抽出処理は画像全体を処理の対象とする
ため、かなり時間のかかる処理である。

しかも、印刷英数字の認識等がパソコン上のソフトウェ
アで行なわれるようになっている現状では文字列抽出も
パソコン上で行えるのが望ましく、高速な文字列抽出方
式が求められている。この文字列抽出の過程は次のよう
な二つのステップにわけることができる。

１）画像中の文字列を検出する。

２）文字列の外接長方形の正確な位置と大きさを決定す
る。

ステップ１の文字列検出とは１画像を走査して文字列の
位置データに関するおおよその情報を得ることをいう。

ステップ２では、ステップ１で得られた情報（座標、大
きさなど）をもとにして処理を行うためほとんど時間は
かからない。したがってＣＰＵに負担のかかるのはステ
ップ１の文字列検出処理であり、画像情報の構造化のア
プリケーションがオフィスへ普及するためには、高価な
専用ハードウェアやホストコンピュータを必要としない
高速な文字列検出方式が不可欠である。

従来用いられていた文字列検出方法としては次のような
ものがある。（ただし、図面固有の知識を利用する方法
はここでは除外している。）（１）ヒストグラムを使う
方法画像を走査して黒画素数を数えそのヒストグラムから文
字列を検出する。文字だけの画像に対しては最もよく使
われている方法である。図や絵を含む画像に対しては走
査する範囲を変えて何度かヒストグラムをとりながら文
字列だけの領域をもとめる方法が提案されている。下記
の論文はこの方法を記述した文献の１例である。

Ｍａｓｕｄａ、　Ｈａｇｉｔａ、　Ａｋｉｙａｍａ著”
Ａｐｐｒｏａｃｈ　ｔ。

Ｓｍａｒｔ　ＤｏｃｕＩｌｅｎｔ　Ｒｅａｄｅｒ　Ｓｙ
ｓｔｅｍ”、　Ｐｒｏｃ。

Ｃｏｎｆｅｒｅｎｃｅ　ＣＶＰＲ＋Ｓａｎ　Ｆｒａｎｃ
ｉｓｃｏ、１９８５＋ｐｐ。

（２）図形の大きさに着目する方法第１２図に示すように、連結している黒画素を追跡し、
連結領域に外接する長方形（１２１，１２２，１２３）
をもとめる。文字の黒画素連結領域は他の図形の黒画素
連結領域よりも小さいので外接長方形の大きさから文字
を識別することができる。多くのシステムで採用されて
いる方法である。下記の本はこの方法を記述した文献の
１例である。

Ｒｏｓａｎｆｅｌｄ、　Ｋａｋ著“Ｄｉｇｉｔａｌ　Ｐ
ｉｃｔｕｒｅＰｒｏｃｅｓｓｉｎｇ”、Ａｃａｄｅｍｉ
ｃ　Ｐｒｅｓｓ、　Ｎｅｗ　Ｙｏｒｋ、　１９７６（３
）図形の複雑さに着目する方法黒画素の近傍において図形の複雑さを調べ文字を構成す
る画素であるか判定し、それらが集中している領域を文
字領域とする。図形の複雑さとして例えば近接線密度を
用いる場合には、画像中のすべての黒画素について、そ
の画素を中心として上下左右の四方向に走査を行ない画
素が白から黒にかわる回数を数え、複雑さの尺度とする
。

第１３図を例にとって説明すると、現在着目している黒
画素１３１を中心として、領域１３２として表わされる
範囲で走査が行われる。走査範囲内で白が黒に変わるの
は３回であり、したがって。

近接線密度は３となる。近接線密度が高い黒画素は文字
を構成する画素であると判断される。下記論文は、この
方法を記載した文献の１例である。

Ｋｕｂｏｔａ、　Ｉｗａｋｉ＋Ａｒａｋａｔｉａ著、”
ＤｏｃｕｍｅｎｔＵｎｄｅｒｓｔａｎｄｉｎｇ　Ｓｙｓ
ｔｅｍ”、７ｔｈ　ＩＣＰＲ，Ｍｏｎｔｒｅａｌ、１９
８４、ｐｐ、　６１２−６１４（４）前処理を行った画像から文字列を検出する方法近
接している黒画素領域の間の白画素を黒画素で置き換え
た画像を作り（この結果、文字列中の文字は連結され一
つの黒画素領域になる。）、その画像中の黒画素連結領
域の形や大きさから文字列であるか否かを判定する。白
画素を黒画素で置き換える方法としては連長フィルタリ
ング処理がよく用いられている。連長フィルタリング処
理とは、第１４図に示すように、まず画像をラスター走
査しである長さ以上の白ランを残して後はすべて黒画素
で置き換えた画像を作り、次いで主走査と副走査の方向
をいれかえてラスター走査を行ない同様の処理を行った
後、二つの画像のＡＮＤ演算をとる処理である。下記論
文は、この方法を記述した文献の１例である。

Ｗｏｎｇ、　Ｃａ５ａｙ、　Ｖａｈｌ著“Ｄｏｃｕｍｅ
ｎｔ　ＡｎａｌｙｓｉｓＳｙｓｔｅｍ”、　ＩＢＭ　Ｊ
、ＲＥＳ、ＤＥＶＥＬＯＰ　Ｖｏｌ、２６．Ｎｏ、６．
　ＰＰ。

６４７−６５６．１９８２／１１また、これらの方法を組合せて用いたり、個々の文字の
切り出しや認識の結果をフィードバックして最初の結果
を修正していくシステムもある。

Ｃ０発明が解決しようとする問題点以下に速度および検出精度の面からみた従来方法の問題
点を述べる。

文字列検出の速度は、画像に対するアクセスの回数と画
像を処理する単位に大きく依存する。アクセスの回数は
ラスター走査１回、画像を処理する単位は汎用プロセッ
サのデータ処理の単位（バイト（ｓ　ｂｉｔ）やワード
（１６ｂｉｔ）　）と同じであることが望ましい。

方法（１）では図や絵の領域を切分けるためには複数回
の走査が必要になり、その数は画像内の図や絵の領域の
数がふえるにつれ増加する。方法（２）では１回の走査
で連結領域の外接長方形をもとめることができる（ただ
し、途中結果を格納するのに複雑なデータ構造が必要に
なる。）、方法（３）では画像を１回走査する必要があ
るのに加えて、黒画素がある度にその上下左右（近接線
密度の場合）へのアクセスが生じる。方法（４）では。

前処理で３回、連結領域を調べるのに１回、計４回の走
査が必要になる。

処理の単位については、方法（１）ではテーブルルック
アップによるバイト（ワード）単位での処理が可能であ
る。方法（２）と方法（３）では画集を走査するとき１
ドツトずつ白か黒かを調べていく必要がある。方法（４
）では、前処理ではバイト（ワード）単位での処理が可
能であるが、連結領域を調べる処理はドツト単位になる
。

したがって方法（２）、（３）、（４）では画像データ
をビット単位でハンドリングする必要が生じる。

従来方法でアクセスの回数と処理単位の最適な組合せを
実現しているものは存在せず、十分な速度を達成するた
めにはエンジニアリング・ワークステーションか専用の
ハードウェアが必要である。

文字列検出の精度を比較する場合、二つの基準が考えら
れる。一つは検出漏れがないかということ、もう一つは
余計な図形を文字列として検出しないかということであ
る。余計な検出は外接長方形の決定、個々の文字の切り
出し、認識の過程で容易に発見・修正ができるのでここ
では検出漏れについて述べる。

方法（１）ではヒストグラムの山と谷から文字列を検出
するので文字列がイラストの間に点在している場合には
全く検出できないことがある。

方法（２）と方法（４）では文字が他の図形と接触して
いる場合に問題が生じる。図形と接触している文字の外
接長方形は大きなものとなり文字ではないと判断されて
しまうからである。黒画素領域の境界を追跡し接触個所
を切りはなす方法（面出、銘木、阿部著″境界追跡を用
いた流れ図中の文字と図形の分離−文字と図形が接して
いる場合″第２８回情報処理学会全国大会　ｌＮ−４１
９８４／３）も提案されているが非常に時間がかかる処
理であるし１図形の一部分が切り離されてしまうおそれ
がある。

方法（４）では前処理によって文字と他の図形が接触す
る頻度がますので検出漏れの可能性はさらに高くなる。

方法（３）では数字などの筐単な構造の文字の列に関す
る複雑度が低くなり、他の図形との識別が困難になる。

Ｄ０問題点を解決するための手段多くの文書中に出現する文字列は次のような性質を持っ
ている。

１）文字はほぼ水平または垂直に書かれている。

２）水平の場合の文字の高さ、垂直の場合の文字の幅は
文字列中でほぼ一定。

３）ある文字列の上下左右には他の図形要素を隔てる白
ランが存在する。（必ずしも文字列の回りに白画素の連
結領域が存在するわけではない、）したがって画像中の
個々の文字列領域を細長い長方形で近似的に表現するこ
とができる。文字列を検出するためにはこの長方形の上
下（水平に書かれている場合）・左右（垂直に書かれて
いる場合）の辺を検出すればよい。

好適な実施例では、辺の検出は、白ランにローパスフィ
ルタリングを行って文字列領域内の空白を黒画素で埋め
た画像を考え、その画像内の黒画素連結領域の上下（左
右）の境界線分候補を求めることにより行う。

Ｅ、実施例（Ｉ）アプリケーション全体の概略第１図に文字列検出のアプリケーションの処理の概略を
示す、対象としたアプリケーションは自動車の補修用部
品番号の入力システムである。このシステムは、第２図
にその一部を示すような補修用カタログの分解図（各部
品のイラストとその番号が印刷されている）をスキャナ
ーより読みこみ、部品番号をあらｂす文字列を抽出した
後、文字認識プログラムにより文字コードに変換する。

大きな画像（約６４０　ｋ　　ｂｙｔｅｓ）中にイラス
トとともに点在する文字列を抽出しなければならないた
め、従来は専用ハードウェアかエンジニアリグ・ワーク
ステーションでなければ困難だとされていたアプリケー
ションである。

（ＩＩ）文字列検出以下に１文字列検出の実施例について説明する。

■　境界線分の検出画像をラスター走査して、１ライン分ずつイメージを読
みこみ、ランレングス表現に変換する。

このとき、黒ランと黒ランの間の白ランが短い場合には
二つの黒ランを連結して一つの黒ランとして、その位置
データ（今の場合は、始点位置と長さ）を発生し、記録
しておく、これをグループ化ランレングス表現と呼ぶこ
とにする。以後の処理はこのグループ化ランレングス表
現上で行なわれ、画像に対するアクセスは生じない。

第３図は、ライン・イメージのグループ化ランレングス
表現への変換を例示したものである。ここでは、長さが
２０未満の白ラン３Ａ、３Ｂ、３Ｃを無視している。理
解を容易にするために、第３図では中間のランレングス
表現も記載したが、実際にはライン・イメージからグル
ープ化ランレングス表現が直接作られる。

グループ化ランレングス表現への変換は本来ならば画像
を１ドツトずつ調べて行わなければならない処理である
が５水力式では、第４図に示す一連のステップに従って
、バイトまたはワード単位での処理を可能にしている。

グループ化の際にはある長さ以下の白ランを無視してそ
の左右の黒ランとして表現しているが、その閾値はバイ
ト長（８）やワード長（１６）よりも大きい。したがっ
て第５図のように読みこまれた８または１６ビツト長の
データが複数の黒ランを含んでいても、黒ランの間に挟
まれた白ラン５Ａ、５Ｂの長さを調べるまでもなく、そ
れらは連結しているものとして処理できる。つまり、白
ラン５Ａ、５Ｂは無視される。ランレングス表現に変換
するためには左端の黒ランの始点とそこから右端の黒ラ
ンの終点までの長さがわかればよい。これらの値をバイ
トの場合は２６個、ワードの場合は２１Ｃ個のパターン
に対して求めてテーブルにしておき参照することにより
、バイト（ワード）単位で画像を読みこみ、あるバイト
（ワード）の右端の白ラン長と次のバイト（ワード）の
左端の白ラン長を加算して無視できる長さの白ランかど
うか判定し、グループ化ランレングス表現に変換してゆ
くことができる。

連続する２ライン分のイメージがグループ化ランレング
ス表現に変換されたところで、これら２ラインに関する
黒ランの位置データを比較して、文字列領域（矩形）の
上下の境界候補となる黒ランを検出する。第６図に示す
ように、ある黒ランの上が白ランであればその黒ランは
上の境界候補の一部であるとし、逆に黒ランの下に白ラ
ンがある場合はその黒ランは下の境界候補の一部だと判
断する。

第７図に示す一連のステップに従って、ランレングスで
表現された黒ランの始点の位置と長さを比較することに
より、上下の境界候補を検出することができる。第７図
において、黒ランの位置データとは黒ランの始点の位置
と長さの組みを意味する。また、図中の処理で境界候補
をもとめるとは境界候補の始点と長さを計算することを
いう。

具体的には、第８Ａ図に示すように、黒ランＡとその下
の黒ランＢが重なっている場合は始点がｉ＋１ｎ（Ａの
始点、Ｂの始点）で長さがｗａｘ（Ａの始点。

Ｂの始点）　−ａｋｉｎ　（Ａの始点、Ｂの始点）であ
るようなラン、第８Ｂ図に示すように黒ランＡとＢの重
なりのない場合はＡとＢのうち始点の値の小さいランそ
のものの位置データを求めることになる。

境界候補の検出を画像全体に対して行うときはグループ
化ランレングス表現を記録しておく領域を２ライン分用
意しておき、ｉライン口とｉ＋１ライン目のデータの比
較が終わったらｉ＋１ライン目のデータをｉライン目の
データのあった領域に移しく実際にはポインタの付は替
えですむ）、ｉ＋１ライン目のデータをおいていた領域
にｉ＋２ライン目のイメージに対するグループ化ランレ
ングス表現をセットすることにる。

境界候補の検出後、第９八図ないし第９ｃ図に示すよう
に、適当な閾値の範囲内で縦方向のずれや左右のとぎれ
をつなげる処理を行ってもよい。

■文字列の検出上境界候補すべてについて次の条件を満たす上境界候補
が存在するか調べる。

条件１：　上境界候補が上境界候補の下にあり、Ｙ座標
の差がある範囲内（文字の高さの最小値と最大値の間）
である。ここで、Ｙ軸は副走査方向に対応する。

条件２：　二つの境界線分候補の始点の位置と長さがあ
る閾値内で等しい。これらの条件が満たされたとき、二
つの境界線分候補のそれぞれの少なくとも一部を上下の
端とする文字列領域が存在すると判定する。

上境界候補と上境界候補の組合せに基づいて文字列領域
だと判断される矩形は、インプリメント（閾値）次第で
いかようにも変えることができる。

このアプリケーションにおいては、第９Ｃ図に示される
上下の境界候補の対を例にとると、始点の位置と長さが
ある閾値内で等しいと判断され、第１０図に示す矩形１
０１が文字列領域だと判定される。そして、左上の頂点
１０１Ａの位置（ＸＹ座標）および２辺１０１Ｂ、ｌ０
ＩＣの長さが矩形１０１の位置データとして発生される
。第１１図に示すような上下の境界の対を例にとると、
矩形１１１が文字列領域だと判定され、その位置データ
が発生される。

境界線分候補を上下の端とする長方形は必ずしも文字列
の外接長方形とはならないが前に述べたように文字列の
おおよその位置と大きささえわがっていれば個々の文字
の切り出し時または認識時にその補正を行うことは容易
である。

（ハ）その後の処理第１図のアプリケーションでは最初に文字列検出ルーチ
ンが画像を１回走査した後、検出した文字列の位置デー
タをテーブルにセットする。システムはこのテーブルの
データにしたがって文字列周辺のイメージをロードし、
文字列の正確な外接長方形をもとめ１個々の文字の切り
出しと認識を行う。文字列検出ルーチンがイラストの一
部を文字列として検出してしまうこともあるが、それら
は文字の切り出しや認識の過程でチエツクされリジェク
トされる。

なお、第１図に示す後処理ルーチンはアプリケーション
固有の知識を利用して誤りの検出や回復を行うルーチン
である。

本実施例の長所を以下に述べる。

１）処理速度本発明における画像へのアクセスはラスター走査１回分
ですみ、アクセスの単位もバイト（ワード）単位である
。したがって従来方法のどれよりも速い処理が期待でき
る。実際にパソコン（ＣＰＵはインテル社の８０２８６
　８ＭＨｚメモリーウェイト有り）上でＣ言語を用いて
インプリメンテーションを行い、第２図にその約１／６
を示す図面に対して文字列検出を行ったところ３７秒（
イメージの入力を除く）ですべての部品番号を検出する
ことができた。２）検出精度本発明ではイラスト中の文字列や図形と接触している文
字列であっても問題なく検出することができる。短い白
ランを無視するため左右の図形と連結してしまう文字列
もあるが他の図形との接触のために上下の境界そのもの
がなくなってしまうことはないからである。

３）圧縮データに対応可能本発明はランレングス表現上で処理を行っており画像の
走査もラスタースキャン１回ですむので、ＭＨ方式やＭ
ＭＲ方式により圧縮されたデータを処理することが容易
である。これは従来方法（１）、（３）、（４）には無
い特長である。

４）省メモリー本発明で画像を走査するさいに必要になる作業領域は画
像１ライン分とランレングス表現２ライン分のみである
。また走査の過程で記録される境界線分候補は、ランレ
ングス表現への変換、白ランを埋めて１本の黒ランで表
す、上下の境界となるランだけを残す、という３段階の
圧縮・ふるいが行なわれた結果であり、必要な主記憶領
域が少なくてすむ。

５）特定の大きさ（主に高さ）の文字列のみを検出の対
象にすることが可能。

いずれの方法であっても文字列の外接長方形が求まって
しまえば特定の大きさの文字列を選ぶことは可能である
が、本発明では検出の過程において指定された範囲外の
大きさの文字列をふるいにかけることができる。このた
め、例えば見出しの文字列だけを検出する等の作業が他
の方式より高速に行える。

６）水平線分の検出が可能文字列と同様に水平線分の検出を行うことができる（上
境界線分候補と下境界線分候補のＹ座標の差が閾値以下
であれば文字列ではなく水平線分と判断される）。ｒｙ
ＪやｒｑＪと接触しているアンダーラインの検出が可能
であり、個々の文字の切り出しの際に有用な情報となる
。

以上の説明は読取対象となる文字列（複数個の文字で構
成されている）が横方向（ラスター走査の主走査の方向
）に延びている場合について行った０文字が縦に書かれ
ている場合には、前処理で画像を回転させる（９０度単
位の回転を行う程度のハードウェアは、パソコンでも利
用可能になってきている）、スキャン時に図面を横にお
いて入力する等の工夫により、画像内において文字列の
延びる方向と該画像の主走査の方向とを一致させてやれ
ばよい。

一つの文字が他の文字と極端に離れて書かれている場合
については、上下の境界線分候補の組みを調べる際（（
■）の■の部分）の閾値の決め方である程度対応できる
。ただし、文字以外の図形を文字として検出してしまう
割合が高くなる。

原稿が様々な方向に延びる文字列を含む場合には本発明
は不利だが、実質的に一方向に延びる文字列のみを含む
原稿については本発明はきわめて有利である。

Ｆ、効果本発明によれば、実質的に同一方向に延びる文字列のみ
を含む原稿を読取って得られる画像の中の文字列領域を
、高速かつ高精度で検出することができる。しかも、本
発明は汎用パソコン上で容易にインプリメントができる
。

【図面の簡単な説明】

第１図は、本発明を利用した部品番号入力システムの処
理の概略を示すフローチャート、第２図は、本発明で処
理される図面の例、第３図は、グループ化ランレングス
表現を説明するための図、第４図はライン・イメージを
グループ化ランレングス表現に変換する処理を説明する
ためのフローチャート、第５図は、バイト（またはワー
ド）内の黒ランにはさまれた白ランは無視して処理が行
えることを説明するための図、第６図は上境界・下境界
候補を説明するための図、第７図は、グループ化ランレ
ングス表現を比較して境界候補を検出する処理を説明す
るためのフローチャート、第８Ａ図および第８Ｂ図は、
検出される境界候補を２つの異なる場合について説明す
るための図、第９Ａ図ないし第９Ｃ図は、境界候補の上
下のずれや左右のとぎれをつなげる処理を説明するため
の図、第１０図および第１１図は文字列領域だと判断さ
れる矩形を説明するための図である。また、第１２図、第１３図、第１４図はそれぞれ従来方
法の（２）、従来方法の（３）、連長フィルタリング処
理を説明するための図である。ＮｑＮψ 第５図第８Ａ図第８ＢＢ原画像第９Ａ図検出１にｔ、Ｌ境界儂筒と丁境芥儂浦（長；２秩とのも
の４示１　）第９Ｂ図と境界候補を二ついマ上下のずれやとぎ托を修正しプ二
例筒９Ｃ図第１１図第１２３ギ牛奢

Claims

【特許請求の範囲】

（１）実質的に同一方向に延びる文字列のみを複数個含
む原稿を読み取つて得られる画像の中の文字列領域を検
出する方法であつて、（ａ）上記画像において上記文字列の延びる方向を該画
像の主走査方向と一致させて、上記原稿の画像データを
画像メモリに記憶し、（ｂ）上記画像メモリにアクセスして上記画像を走査す
ることにより、各ラインごとに、該ライン中の黒ランの
位置データを発生し、（ｃ）上記画像中の隣接する２つのラインの対の何れに
ついても、上記（ｂ）のステップで得られた該２つのラ
イン中の黒ランの位置データを比較し、後行ライン中の
黒ランに先行ライン中の黒ランとは隣接しない部分があ
れば、該部分を文字列領域の第１種の境界候補と判断し
てその位置データを発生し、かつこれを記憶手段中のテ
ーブルに記憶するとともに、先行ライン中の黒ランに後
行ライン中の黒ランとは隣接しない部分があれば、該部
分を文字列領域の第２種の境界候補と判断してその位置
データを発生し、かつこれを上記テーブルに記憶し、（ｄ）上記テーブルを参照して、上記主走査方向に関す
る位置が共通する部分を持つ上記第１種の境界候補と第
２種の境界候補の対を決定し、対をなす境界候補のそれ
ぞれの少なくとも一部を境界として持つ矩形領域を文字
列領域と判断してその位置データを発生することを特徴
とする文字列検出方法。