JPS63257082A

JPS63257082A - 文字列抽出方法

Info

Publication number: JPS63257082A
Application number: JP62090795A
Authority: JP
Inventors: Shigeru Kakumoto; 角本　繁; Kazuo Watanabe; 一雄渡辺; Motoi Kataoka; 片岡　基; Kazuaki Iwamura; 一昭岩村
Original assignee: Hitachi Ltd; Hitachi Seiko Ltd
Current assignee: Hitachi Ltd; Via Mechanics Ltd
Priority date: 1987-04-15
Filing date: 1987-04-15
Publication date: 1988-10-24
Anticipated expiration: 2010-11-13
Also published as: JPH07104905B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、図形と文字の混在する図面の中から、文字お
よび複数の文字からなる文字列を抽出する文字列抽出方
法に係ｐ１特に文字と図形の重なり、あるいは、文字同
志が重なった場合にも文字列の抽出が可能な文字列抽出
方法に関するものである。

〔従来技術〕

ＣＡＤシステムの普及に伴ない、光電変換素子。

を備えた読取装置を用いて図面情報を計算機へ自動的に
入力することが試みられている。読取装置から計算機に
入力された図面情報の画像データつまシラスデータを線
として認識し、ベクトルデータに変換する線認識処理が
研究されている。

近年では、図形と同様にさらに文字や記号も認識するこ
とが要求され、文字や記号の認識処理の研究が行われる
ようになった。

図面内の任意の位置に曹かれた文字を認識する。

だめには、文字認識の前処理として図面情報から文字の
情報だけを抽出する必要がある。

た文字列抽出方法が提案されている。

この方式は、まず図面情報の中で独立した線分群を囲む
矩形領域が予め設定された文字サイズ内のとき、その矩
形領域を文字領域として抽出する。

その文字領域のデータは、線分群を囲む矩形の座標デー
タと矩形内の線分群の座標データとから構。

成されている。そして、図面情報中の複数の文字領域の
中から、所定の方向の所定の間隔で並ぶ文字領域同志を
連結して文字列を抽出していた。

〔発明が解決しようとする問題点〕

このような文字列抽出方法では、文字と文字あるいは文
字と図形が交差あるいは重なった場合、その線分群は予
め設定された文字サイズより大きな線分群として認識さ
れるため、文字が図形とみなされ、抽出できない問題点
があった。

本発明の目的は、前記問題点を鑑み、文字と文、１字あ
るいは文字と図形が交差もしくは重なる場合にも文字列
を抽出することが可能な文字列抽出方法を提供すること
にある。

〔問題点を解決するための手段〕

上記目的を解決するだめの本発明の構成を実施例に対応
する第１図および第２図を用いて説明する。

１４は座標列データ記憶部で、図形と文字を構成する各
線分の座標と、これらの線分の中から文字候補となりう
る線分の座標を記憶する。１５は制御・演算処理部で、
座標列データ記憶部１４に接続され、図面情報の中から
文字候補となシうる線分の抽出と、これらの線分の配列
から文字列を抽出する。

〔作　用〕

以上の構成で、制御・演算処理部１５は以下の処理を実
行する。

座標列データ記憶部１４に記憶された図形と文字を構成
する線分の中から、予め設定された文字サイズより短か
い線分を文字候補として抽出し、。

３　。

座標列データ記憶部１４に記憶させる。（第２図のステ
ップ２１、以下第２図における各ステップは、ステップ
○○と表示する）。

座標列データ記憶部１４から最初に呼出した短かい線分
を基準として、その線分の周囲を囲む第１の抽出領域を
設定する（ステップ２２）。

少なくとも一部が第１の抽出領域内に含まれる未抽出の
線分を座標列データ記憶部１４に記憶された短かい線分
の中から抽出する（ステップ２３）。

新に抽出した線分を含む方向に第１の抽出領域を拡張し
て、第２の抽出領域として設定する（ステップ２４）。

そして、前記拡張方向と垂直な方向に所定の長さで文字
列サイズを設定し、新たに抽出した線分を文字列サイズ
と比較する（ステップ２５）。

新たに抽出した線分が文字列サイズ内にあるとき、第２
の抽出領域内の線分を文字候補として抽出し、拡張され
た第２の抽出領域を新たな第１の抽出領域として設定す
る（ステップ２６）。

また、新たに抽出した線分の一部もしくは全部が文字列
サイズから突出しているとき、その線分を文字候補から
除外し、拡張前の第１の抽出領域をそのまま第１の抽出
領域として設定する（ステップ２７）。

再び、少なくとも一部が第１の抽出領域内に含まれる他
の未抽出の線分を抽出する（ステップ２３）。

以後、第１の抽出領域に少なくとも一部が含まれる未抽
出の線分がなくなるまで、（ステップ２．１３）ないし
くステップ２７）をくシかえし、第１の抽出領域内の線
分群を文字列として抽出する（ステップ２８）。

以上のように、文字を含む図面情報から、文字とみなさ
れる短かい線分を抽出し、文字列サイズ。

内の線分群の配列から文字列を抽出できる。

〔実施例〕

以下、本発明の一実施例を第１図ないし第７図により説
明する。

第１図において、１１は図面で、文字と図形が。

混在して書かれている。１２は走査入力部で、図面１１
から文字と図形の図面情報を読取シ、ラスタデータとし
て出力する。１３は画像処理部で、走査入力部１２から
前記ラスタデータが入力されそのラスタデータをベクト
ル化する線認識処理をほどこし、座標列データとして出
力する。１４は座標列データ記憶部で、画像処理部で、
画像処理部１３から入力された座標列データと、後述す
る制御・演算処理部から入力される線分の座標列データ
を記憶する。１５は制御・演算処理部で、座標列データ
記憶部１４に接続され、座標列データを呼出し、文字候
補となる線分の座標列データを抽出し、座標列データ記
憶部１４に記憶させる。

座標列データ記憶部１４か、ら前記文字候補となる線分
の座標列データを逐次呼出し、そのデータの中から文字
列の抽出を行う。１６は文字列データ記憶部で、制御・
演算処理部１５から入力された文字列のデータを記憶す
る。１７は表示部で、文字列データ記憶部１６から入力
された文字列のデータをディスプレイ（図示せず）に表
示する。１８は出力部で、文字列データ記憶部１６から
入力された文字列のデータを記憶媒体（図示せず）に出
力する。

以上の構成で、走査入力部１２は図面１１を上下方向に
走査し、徐々に左から右へ移動することにより、図面１
１の全体を図面情報としてもれなく読取る。

前記図面情報のデータを所定の閾値を基準に２値化して
、線分のある部分のますめは黒レベル、線分のない部分
のますめは白レベルのドツトデータと判定し、第３図（
ｂ）のようなラスタデータとして画像処理部１３に出力
する。

画像処理部１３は線分の存在する黒レベルのドツトデー
タを線分の一部と認識して、一方向に黒レベルのドツト
データが隣接し、その方向と反対方向に黒レベルのドツ
トデータが隣接しない点Ｑ１を端点として求める。その
点Ｑ１に隣接する黒レベルのドツトデータと同一方向に
黒レベルのドツトデータを順次追跡し、黒レベルのドツ
トデータがとぎれる点Ｑ２を他方の端点として認識する
。そして、第３図（ｅ）のように線分Ｑｓ　Ｑｓとして
認識し、点Ｑ１．Ｑ２を線分の始点と終点の座標データ
、つま９ベクトルテータとして座標列データ記□憶部１
４に出力する。以下同様に線分Ｑ２　ＱｓとＱ４　Ｑ５
をベクトルデータとして座標列データ記憶部１４に出力
する。

座標列データ記憶部１４には、画像処理部１３から入力
されるベクトルデータの始点と終点が、第１表のように
座標列データとして記憶される。

第　　　　１　　　　表制御・演算処理部１５は、座標列データ記憶部１４より
逐次前記座標列データを呼出し、予め設定された文字サ
イズより短かい線分を抽出し、抽出した線分の始点と終
点の座標データを座標列データ記憶部１４へ戻し、何就
記憶させる。例えば第４図（ａ）において、四角形ＥＦ
ＧＨを予め設定された文字サイズとすれば、線分ＱＩ　
Ｑ２の場合、１２２−χｔ　ｌ＜１２１１　　ｘｃｏ　
ｌ　ｓ　＋ｙＺ−ｙｌ　Ｉ＜Ｉｙｕ−ｙｏ＋となるので
抽出対象の線分ＱＩ　Ｑ２として抽出する。（第２図の
ステップ２１．以下第２図における各ステップは、ステ
ップ○○と表示する）。

制御・演算処理部１５は、座標列データ記憶部１４Ｖこ
＋−）記憶されｆｃ線分の始点と終点の座標データの甲
から任意の線分ケ呼出し、例えば第４図（ｂ）の二うに
呼出した線分Ｑｓ　Ｑ２の１ｉＩＩ＋１端の座標Ｑｓ　
、Ｑ２を基準として、その周囲を囲む矩形の領域Ｒｏ　
ＲＩＲ２Ｒａを抽出領域として設定する。この抽出領域
ＲＯＲｔ　Ｒｚ　Ｒ３の設定は、し１えは文字サイズＥ
ＦＧＨの各辺の長さｄｚ’　＋　ｄｙの２倍の長さＤＺ
　、Ｄｙを各辺の長さとする矩形で、線分Ｑｌ　、　Ｑ
ｇを基準とした領域である。その抽出領域ＲＯＲＩ　Ｒ
２Ｒ３の座標データとその中に含まれる線分ＱＩ　Ｑａ
の始点と終点の座標データを抽出領域および文字候補と
して設定する（ステップ２２）。

次に、制御・演算処理部１５は座標列データ記憶部１４
に再記憶された座標データの中から第４図（Ｃ）のよう
に、少なくとも一端が前記抽出領域Ｒｏ　Ｒｓ　Ｒ２Ｒ
３に含まれる未抽出の線分Ｑ２　Ｑａを抽出する（ステ
ップ２３）。

そして、先に抽出された線分ＱＩ　Ｑａと、新たに抽出
された線分Ｑ２　Ｑａの一端の座標Ｑ３を基準として、
その周囲を囲む矩形の領域ＲＯＳＩ　Ｓ２　Ｒ３を設定
し、これを第２の抽出領域ＲＯ８１５２Ｒａとして設定
する。そして、新たに設定された抽出領域Ｒｏ　Ｓｓ　
Ｓ２　Ｒ３が先に設定された抽出領域Ｒｏ　ＲｔＲ２Ｒ
ａに対し拡張された方向と垂直な方向に、前記線分Ｑｓ
　Ｑａを基準として、文字サイズＥＦ’ＧＨより大きく
、抽出領域Ｒｏ　ＲＩ　Ｒ２Ｒａより小ざい文字列サイ
ズＪＭを設定する。この文字列サイズＪＭは、例えば、
抽出領域が横方向に拡張された場合、文字サイズＥＦＧ
Ｈの縦方向の寸法ｄｙと抽出領域ＲＯＲＩ　Ｒ２Ｒ３の
縦方向の寸法りよの中間の大きさαｙとする。この大き
さαｙは、例えは、文字サイズＥＦＧＨの寸法ｄｙの１
．５倍に設定する（ステップ２４）。

次に、線分Ｑ２　Ｑａを制御・演算処理部１５に設定さ
れた文字列サイズＪＭと比較する。そして、線分Ｑ２　
Ｑａが文字列サイズＪＭ内に含まれるので、第２の抽出
領域Ｒｏ　ＲＩ　Ｒ２Ｒｓを新たな抽出領域と判定する
（ステップ２５）。

この抽出領域と判定された第２の抽出領域Ｒ。

ＳＩ　ＳＩ　Ｒａの座標データと、その中に含まれる線
分ＱＩ　Ｑａ　、Ｑａ　Ｑｓのそれぞれの始点と終点の
座標データを新たに第１の抽出領域および文字候補とし
て設定する（ステップ２６）。

再び、第４図（ｄ）のように第１の抽出領域Ｒｏ　５Ｉ
Ｓ２Ｒ３に少なくとも一端が含まれる線分Ｑ４　Ｑａを
抽出する（ステップ２３）。

以下同様に、第１の抽出領域Ｒｏ　ＳＩ　Ｓ２　Ｒ３に
含まれる線分ＱＩ　Ｑａ　、　Ｑａ　Ｑｓ　−Ｑ４　Ｑ
ａを基準としで、その周囲を囲む領域Ｒｏ　Ｓｓ　８２
　Ｒａを第２の抽出領域Ｒｏ　８１８２　Ｒｓとして設
定する（ステップ２４）。

次に、線分Ｑ４　Ｑａを前記文字列サイズＪＭと比較す
る。そして、線分Ｑ４　Ｑａが文字列サイズＪＭ内に含
まれるので、第２の抽出領域Ｒｏ　ＳＩ　Ｓ２　Ｒ３を
祈たな抽出領域と判定する（ステップ２５）。

そして、新しく抽出領域と判定された第２の抽出領域Ｒ
ｅ　８１　Ｓ２　Ｒｓの座標データと、その中に含まれ
る線分ＱＩＱ２　、Ｑ２Ｑ３　、Ｑ４Ｑ５のそれぞれの
始点と終点の座標データを新たに第１の抽出領域および
文字候補として設定する（ステップ２６）。

さらに、第４図（ｄ）に示すように、新たに記憶された
第１の抽出領域ＲＯＳｌ　８２　Ｒ３１ｃ少なくとも一
端が含まれる線分Ｑａ　Ｑｔを抽出する（ステップ２゜
４−　）。

線分Ｑｓ　Ｑｔを含む第２の抽出領域Ｒｏ　Ｕｓ　Ｕ２
　Ｒ３を設定する（ステップ２４）。

次に、線分Ｑ６　Ｑｔを前記文字列サイズＪＭと比較す
る。そして、線分Ｑ６　Ｑｔが文字列サイズＪＭに含ま
れるので、第２の抽出領域Ｒｏ　ＵＩ　Ｕ２　Ｒ３を新
たな抽出領域と判定する（ステップ２５）。

そして、第２の抽出領域ＲＯＵＩ　Ｕ２　Ｒｓの座標デ
ータと線分ＱＩＱ２　、Ｑ２Ｑ３　、Ｑ４Ｑ５　、　　
ＱａＱｙのそれぞれの始点と終点の座標データを第１の
抽出領域および文字候補として設定する（ステップ２６
）。

以降、同様に（ステップ２３）ないしくステップ２６）
をくりかえし、第１の抽出領域を次々と更新し、第４図
（ｅ）のように第１の抽出領域Ｒ＋、Ｚｌ・Ｚ２　Ｒａ
に少なくとも一端が含まれる未抽出の線分・がなくなる
までく力かえす。そして、第１の抽出領域Ｒｏ　ＺＩ　
Ｚ２　Ｒａ含まれる未抽出の線分がなくなると、文字列
サイズＪＭ内に含まれる線分ＱＩＱ２゜Ｑ２Ｑ３　、　
　Ｑ４ＱＳ　、Ｑ６Ｑ？　、ＱｔＱＢ　、Ｑ８Ｑ９゜Ｑ
ｌｏＱ１ｔ＋　　Ｑ１１Ｑ１２Ｔ　　Ｑ１２Ｑ１３１　
　Ｑ１３Ｑ１４１　　Ｑ１４Ｑ１５１Ｑ１ｓＱ１ｓ＋Ｑ
ｔａ　Ｑｌｔ　ｌ　　Ｑ１？　ＱＩＯのそれぞれの始点
と終点の座標データが文字列ｒＡＮＤＪを構成する文字
候補として文字列データ記憶部１６に記憶される。

そして、文字列データ記憶部１６に記憶された前。

記各線分ＱＩ　Ｑ２ないしＱ１？Ｑ１０の各座標データ
は二重に抽出されないように座標列データ記憶部１４か
ら削除される（ステップ２８）。

次に、座標列データ記憶部１４に、さらに座標データが
ある場合、前記の操作をくりかえし実行して文字列の抽
出を行なう。そして、座標列データ記憶部１４に座標デ
ータがなくなった場合、文字列の抽出を終了する（ステ
ップ２９）。

゛　文字同志が重なったら合の例を第５図に示す。

同図の場合においても、Ｆｌ−ＩＪ記第４区の場付と同
様に１各線分ＱＩ　Ｑ２ないしＱ１７Ｑ１０を順次抽出
することにより、各線分ＱＩ　Ｑ２７２：いしＱｔｔす
１ｏを文字列ｒＡＮＤＪを構成する文字の１袖として抽
出することができる。

文字と図形が交差した場合の例を第６図に示す。

この場合、線分ＰＩ　Ｐ２が文字サイズＥＦＧＨより大
きいため、（ステップ２ｉ）で線分ＱＩ　Ｑ２ない。

しＱ１７　Ｑｔｏを抽出する際に除去される。従って、
第４図の場合と同じ方法で文字列を抽出することができ
る。

文字を構成する線分と図形を構成する線分の一部が重な
った場合の例を第７図に示す。

同図（ａ）に示すように、文字ｒＮＪを構成する線分Ｑ
ｓ　Ｑｓと、図形を構成する線分Ｐａ　Ｐｇが重なシ合
う場合、（ステップ２１）の文字候補となる線分の抽出
で文字サイズＥＦＧＨより長いので、線分Ｐａ　Ｐ４　
＋　Ｐ４　Ｐｓが除外され、同図（ｂ）に示すように線
分ＱＩ　Ｑ２　ＩＱ２　Ｑａ　、Ｑ４　Ｑａ　ＴＱｓ　
Ｑ？　、　Ｑ？　Ｑ８ＱｌｏＱｏ　＋　Ｑ１１ＱＩ２１
　Ｑ１２Ｑ１３１　Ｑ１３Ｑ１４　＋　Ｑ１４Ｑ１５夛
ＱｓｓＱ１ｓ＋　　Ｑ１６Ｑ１７　＋　ＱＩ７Ｑ１０　
ｒ　Ｐｓ　Ｐｇが抽出される。

そして、第４図の場合と同様にして、線分ＱＩＱ２から
線分Ｑ？　Ｑａまで抽出する。すると、第７図（ｅ）に
示すように第１の抽出領域Ｒｏ　ＶＩ　Ｖ２　Ｒａが限
定される。

そして、その第１の抽出領域Ｒｏ　ＶＩＶ２　Ｒ３の中
に少なくとも一端が含まれる線分としてＰｓ　Ｐｇを抽
出する（ステップ２３）と、この線分Ｐｓ　ｐｇを含む
抽出領域として、第２の抽出領域Ｒｏ　ＷＩＷ２Ｒ３が
設定される（ステップ２４）。一方、線分Ｐｓ　Ｐｓを
文字列サイズＪＭと比較する（ステップ２５）。すると
、線分Ｐｓ　Ｐｇが文字列サイズＪＭの領域を横切って
領域外に突出しているため、線分ＰｓＰｓは文字候補か
ら除外される（ステップ２７）。新たに設定された第２
の抽出領域Ｒｏ　ＷＩ　Ｗ２Ｒ３は取消され、線分Ｐｇ
　Ｐｓを抽出する前の第１線分ＱＩＯＱＩＩを抽出する
（ステップ２３）。

以下、第４図の場合と同様にして第７図（ｄ）に示すよ
うに線分ＱＩ　Ｑ２ないしＱ１？　ＱＩＯを抽出して、
各線分ＱＩ　ＱａないしＱ１７Ｑ１０の座標データを文
字列データｄピ憶部１６へ記憶する。

文字列データ記憶部１６は記憶された文字候補の座標デ
ータを表示ｓ１７に出力し、ディスプレイ（図示せず）
に表示する。また、文字列データ記憶部１６は、出力部
１Ｂにも出力し、フロッピディスクやハードディスクな
どの記憶媒体（図示せず）に−己喧、ハさせることがで
きる。

上記のように、文字と文字あるいは文字と図形の交差ま
たは重なりが存在する図面１に服から文字候補になる線
分の座標テークを文字列として抽出することができる。

なお、上記各実施例はいずれも横方向の文字列の場合に
ついて説明したが、抽出領域が縦方向に拡張されたとき
、文字列サイズの大きさは、文字サイズＥＦＧＨの横方
向の寸法ｄχと抽出領域Ｒｏ　ＲｌＲｚ　Ｒ３の横方向
の寸法Ｄ２の中間の大きさに設定する。以降、（ステッ
プ２５）の第２の抽出領域は縦方向の文字列サイズで比
較することにより、第４図と同様に文字列を抽出できる
。

また、抽出領域Ｒｏ　ＲＩ　Ｒ２Ｒａの横方向の寸法Ｄ
ｚと縦方向の寸法り、は文字サイズＥＦＧＨの横方向の
寸法ｄ２と縦方向の寸法もの２倍に限らずに設定の寸法
ｄχと縦方向の寸法ａｙの１．５倍に限らずｄｚ（α！
　（１）χ＋ｄｙ＜αｙ　＜　Ｄｙの条件を満たせば任
意に設定してよい。

〔発明の効果〕

以上述べたように、本発明によれは文字と文字あるいは
文字と図形の交差または止なりが存在する図面情報から
文字候補の座標データを文字列として抽出することがで
きる。

【図面の簡単な説明】

第１図は本発明の文字列抽出処理を実現する装置のブロ
ック図、第２図は本発明の処理手順の一実施例を示すフ
ローチャート、第３図は図面情報を読取る工程図、第４
図は本発明の文字列抽出の工程図、第５図ないし第７図
は本発明による文字列抽出の実施例の説明図である。１４・・・座標列データ記憶部、　１５・・・制御・演
算処理部。

Claims

【特許請求の範囲】

１、文字を含む図面情報より、予め設定された文字サイ
ズより短い線分を文字候補として抽出し、その線分を基
準としてその周囲を所定の大きさで囲む矩形の抽出領域
を設定し、その抽出領域に少なくとも一部が含まれる未
抽出の線分を抽出し、新たに抽出された線分を含む方向
に抽出領域を拡張すると共に、その拡張方向と垂直な方
向に文字列サイズを設定し、この文字列サイズと新たに
抽出された線分を比較し、この線分が文字列サイズ内に
あるとき拡張された抽出領域を新たな抽出領域として設
定し、線分が文字列サイズから突出するとき前記文字候
補から除外し、拡張前の抽出領域を再び抽出領域として
設定し、抽出領域内に含まれる未抽出の線分がなくなる
まで抽出領域の更新および設定をくりかえし、抽出領域
で文字列サイズ内の線分群を文字列として抽出すること
を特徴とする文字列抽出方法。