JPS63257082A - 文字列抽出方法 - Google Patents
文字列抽出方法Info
- Publication number
- JPS63257082A JPS63257082A JP62090795A JP9079587A JPS63257082A JP S63257082 A JPS63257082 A JP S63257082A JP 62090795 A JP62090795 A JP 62090795A JP 9079587 A JP9079587 A JP 9079587A JP S63257082 A JPS63257082 A JP S63257082A
- Authority
- JP
- Japan
- Prior art keywords
- line segment
- character
- extraction area
- size
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Character Input (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔産業上の利用分野〕
本発明は、図形と文字の混在する図面の中から、文字お
よび複数の文字からなる文字列を抽出する文字列抽出方
法に係p1特に文字と図形の重なり、あるいは、文字同
志が重なった場合にも文字列の抽出が可能な文字列抽出
方法に関するものである。
よび複数の文字からなる文字列を抽出する文字列抽出方
法に係p1特に文字と図形の重なり、あるいは、文字同
志が重なった場合にも文字列の抽出が可能な文字列抽出
方法に関するものである。
CADシステムの普及に伴ない、光電変換素子。
を備えた読取装置を用いて図面情報を計算機へ自動的に
入力することが試みられている。読取装置から計算機に
入力された図面情報の画像データつまシラスデータを線
として認識し、ベクトルデータに変換する線認識処理が
研究されている。
入力することが試みられている。読取装置から計算機に
入力された図面情報の画像データつまシラスデータを線
として認識し、ベクトルデータに変換する線認識処理が
研究されている。
近年では、図形と同様にさらに文字や記号も認識するこ
とが要求され、文字や記号の認識処理の研究が行われる
ようになった。
とが要求され、文字や記号の認識処理の研究が行われる
ようになった。
図面内の任意の位置に曹かれた文字を認識する。
だめには、文字認識の前処理として図面情報から文字の
情報だけを抽出する必要がある。
情報だけを抽出する必要がある。
た文字列抽出方法が提案されている。
この方式は、まず図面情報の中で独立した線分群を囲む
矩形領域が予め設定された文字サイズ内のとき、その矩
形領域を文字領域として抽出する。
矩形領域が予め設定された文字サイズ内のとき、その矩
形領域を文字領域として抽出する。
その文字領域のデータは、線分群を囲む矩形の座標デー
タと矩形内の線分群の座標データとから構。
タと矩形内の線分群の座標データとから構。
成されている。そして、図面情報中の複数の文字領域の
中から、所定の方向の所定の間隔で並ぶ文字領域同志を
連結して文字列を抽出していた。
中から、所定の方向の所定の間隔で並ぶ文字領域同志を
連結して文字列を抽出していた。
このような文字列抽出方法では、文字と文字あるいは文
字と図形が交差あるいは重なった場合、その線分群は予
め設定された文字サイズより大きな線分群として認識さ
れるため、文字が図形とみなされ、抽出できない問題点
があった。
字と図形が交差あるいは重なった場合、その線分群は予
め設定された文字サイズより大きな線分群として認識さ
れるため、文字が図形とみなされ、抽出できない問題点
があった。
本発明の目的は、前記問題点を鑑み、文字と文、1字あ
るいは文字と図形が交差もしくは重なる場合にも文字列
を抽出することが可能な文字列抽出方法を提供すること
にある。
るいは文字と図形が交差もしくは重なる場合にも文字列
を抽出することが可能な文字列抽出方法を提供すること
にある。
上記目的を解決するだめの本発明の構成を実施例に対応
する第1図および第2図を用いて説明する。
する第1図および第2図を用いて説明する。
14は座標列データ記憶部で、図形と文字を構成する各
線分の座標と、これらの線分の中から文字候補となりう
る線分の座標を記憶する。15は制御・演算処理部で、
座標列データ記憶部14に接続され、図面情報の中から
文字候補となシうる線分の抽出と、これらの線分の配列
から文字列を抽出する。
線分の座標と、これらの線分の中から文字候補となりう
る線分の座標を記憶する。15は制御・演算処理部で、
座標列データ記憶部14に接続され、図面情報の中から
文字候補となシうる線分の抽出と、これらの線分の配列
から文字列を抽出する。
以上の構成で、制御・演算処理部15は以下の処理を実
行する。
行する。
座標列データ記憶部14に記憶された図形と文字を構成
する線分の中から、予め設定された文字サイズより短か
い線分を文字候補として抽出し、。
する線分の中から、予め設定された文字サイズより短か
い線分を文字候補として抽出し、。
3 。
座標列データ記憶部14に記憶させる。(第2図のステ
ップ21、以下第2図における各ステップは、ステップ
○○と表示する)。
ップ21、以下第2図における各ステップは、ステップ
○○と表示する)。
座標列データ記憶部14から最初に呼出した短かい線分
を基準として、その線分の周囲を囲む第1の抽出領域を
設定する(ステップ22)。
を基準として、その線分の周囲を囲む第1の抽出領域を
設定する(ステップ22)。
少なくとも一部が第1の抽出領域内に含まれる未抽出の
線分を座標列データ記憶部14に記憶された短かい線分
の中から抽出する(ステップ23)。
線分を座標列データ記憶部14に記憶された短かい線分
の中から抽出する(ステップ23)。
新に抽出した線分を含む方向に第1の抽出領域を拡張し
て、第2の抽出領域として設定する(ステップ24)。
て、第2の抽出領域として設定する(ステップ24)。
そして、前記拡張方向と垂直な方向に所定の長さで文字
列サイズを設定し、新たに抽出した線分を文字列サイズ
と比較する(ステップ25)。
列サイズを設定し、新たに抽出した線分を文字列サイズ
と比較する(ステップ25)。
新たに抽出した線分が文字列サイズ内にあるとき、第2
の抽出領域内の線分を文字候補として抽出し、拡張され
た第2の抽出領域を新たな第1の抽出領域として設定す
る(ステップ26)。
の抽出領域内の線分を文字候補として抽出し、拡張され
た第2の抽出領域を新たな第1の抽出領域として設定す
る(ステップ26)。
また、新たに抽出した線分の一部もしくは全部が文字列
サイズから突出しているとき、その線分を文字候補から
除外し、拡張前の第1の抽出領域をそのまま第1の抽出
領域として設定する(ステップ27)。
サイズから突出しているとき、その線分を文字候補から
除外し、拡張前の第1の抽出領域をそのまま第1の抽出
領域として設定する(ステップ27)。
再び、少なくとも一部が第1の抽出領域内に含まれる他
の未抽出の線分を抽出する(ステップ23)。
の未抽出の線分を抽出する(ステップ23)。
以後、第1の抽出領域に少なくとも一部が含まれる未抽
出の線分がなくなるまで、(ステップ2.13)ないし
くステップ27)をくシかえし、第1の抽出領域内の線
分群を文字列として抽出する(ステップ28)。
出の線分がなくなるまで、(ステップ2.13)ないし
くステップ27)をくシかえし、第1の抽出領域内の線
分群を文字列として抽出する(ステップ28)。
以上のように、文字を含む図面情報から、文字とみなさ
れる短かい線分を抽出し、文字列サイズ。
れる短かい線分を抽出し、文字列サイズ。
内の線分群の配列から文字列を抽出できる。
以下、本発明の一実施例を第1図ないし第7図により説
明する。
明する。
第1図において、11は図面で、文字と図形が。
混在して書かれている。12は走査入力部で、図面11
から文字と図形の図面情報を読取シ、ラスタデータとし
て出力する。13は画像処理部で、走査入力部12から
前記ラスタデータが入力されそのラスタデータをベクト
ル化する線認識処理をほどこし、座標列データとして出
力する。14は座標列データ記憶部で、画像処理部で、
画像処理部13から入力された座標列データと、後述す
る制御・演算処理部から入力される線分の座標列データ
を記憶する。15は制御・演算処理部で、座標列データ
記憶部14に接続され、座標列データを呼出し、文字候
補となる線分の座標列データを抽出し、座標列データ記
憶部14に記憶させる。
から文字と図形の図面情報を読取シ、ラスタデータとし
て出力する。13は画像処理部で、走査入力部12から
前記ラスタデータが入力されそのラスタデータをベクト
ル化する線認識処理をほどこし、座標列データとして出
力する。14は座標列データ記憶部で、画像処理部で、
画像処理部13から入力された座標列データと、後述す
る制御・演算処理部から入力される線分の座標列データ
を記憶する。15は制御・演算処理部で、座標列データ
記憶部14に接続され、座標列データを呼出し、文字候
補となる線分の座標列データを抽出し、座標列データ記
憶部14に記憶させる。
座標列データ記憶部14か、ら前記文字候補となる線分
の座標列データを逐次呼出し、そのデータの中から文字
列の抽出を行う。16は文字列データ記憶部で、制御・
演算処理部15から入力された文字列のデータを記憶す
る。17は表示部で、文字列データ記憶部16から入力
された文字列のデータをディスプレイ(図示せず)に表
示する。18は出力部で、文字列データ記憶部16から
入力された文字列のデータを記憶媒体(図示せず)に出
力する。
の座標列データを逐次呼出し、そのデータの中から文字
列の抽出を行う。16は文字列データ記憶部で、制御・
演算処理部15から入力された文字列のデータを記憶す
る。17は表示部で、文字列データ記憶部16から入力
された文字列のデータをディスプレイ(図示せず)に表
示する。18は出力部で、文字列データ記憶部16から
入力された文字列のデータを記憶媒体(図示せず)に出
力する。
以上の構成で、走査入力部12は図面11を上下方向に
走査し、徐々に左から右へ移動することにより、図面1
1の全体を図面情報としてもれなく読取る。
走査し、徐々に左から右へ移動することにより、図面1
1の全体を図面情報としてもれなく読取る。
前記図面情報のデータを所定の閾値を基準に2値化して
、線分のある部分のますめは黒レベル、線分のない部分
のますめは白レベルのドツトデータと判定し、第3図(
b)のようなラスタデータとして画像処理部13に出力
する。
、線分のある部分のますめは黒レベル、線分のない部分
のますめは白レベルのドツトデータと判定し、第3図(
b)のようなラスタデータとして画像処理部13に出力
する。
画像処理部13は線分の存在する黒レベルのドツトデー
タを線分の一部と認識して、一方向に黒レベルのドツト
データが隣接し、その方向と反対方向に黒レベルのドツ
トデータが隣接しない点Q1を端点として求める。その
点Q1に隣接する黒レベルのドツトデータと同一方向に
黒レベルのドツトデータを順次追跡し、黒レベルのドツ
トデータがとぎれる点Q2を他方の端点として認識する
。そして、第3図(e)のように線分Qs Qsとして
認識し、点Q1.Q2を線分の始点と終点の座標データ
、つま9ベクトルテータとして座標列データ記□憶部1
4に出力する。以下同様に線分Q2 QsとQ4 Q5
をベクトルデータとして座標列データ記憶部14に出力
する。
タを線分の一部と認識して、一方向に黒レベルのドツト
データが隣接し、その方向と反対方向に黒レベルのドツ
トデータが隣接しない点Q1を端点として求める。その
点Q1に隣接する黒レベルのドツトデータと同一方向に
黒レベルのドツトデータを順次追跡し、黒レベルのドツ
トデータがとぎれる点Q2を他方の端点として認識する
。そして、第3図(e)のように線分Qs Qsとして
認識し、点Q1.Q2を線分の始点と終点の座標データ
、つま9ベクトルテータとして座標列データ記□憶部1
4に出力する。以下同様に線分Q2 QsとQ4 Q5
をベクトルデータとして座標列データ記憶部14に出力
する。
座標列データ記憶部14には、画像処理部13から入力
されるベクトルデータの始点と終点が、第1表のように
座標列データとして記憶される。
されるベクトルデータの始点と終点が、第1表のように
座標列データとして記憶される。
第 1 表
制御・演算処理部15は、座標列データ記憶部14より
逐次前記座標列データを呼出し、予め設定された文字サ
イズより短かい線分を抽出し、抽出した線分の始点と終
点の座標データを座標列データ記憶部14へ戻し、何就
記憶させる。例えば第4図(a)において、四角形EF
GHを予め設定された文字サイズとすれば、線分QI
Q2の場合、122−χt l<1211 xco
l s +yZ−yl I<Iyu−yo+となるので
抽出対象の線分QI Q2として抽出する。(第2図の
ステップ21.以下第2図における各ステップは、ステ
ップ○○と表示する)。
逐次前記座標列データを呼出し、予め設定された文字サ
イズより短かい線分を抽出し、抽出した線分の始点と終
点の座標データを座標列データ記憶部14へ戻し、何就
記憶させる。例えば第4図(a)において、四角形EF
GHを予め設定された文字サイズとすれば、線分QI
Q2の場合、122−χt l<1211 xco
l s +yZ−yl I<Iyu−yo+となるので
抽出対象の線分QI Q2として抽出する。(第2図の
ステップ21.以下第2図における各ステップは、ステ
ップ○○と表示する)。
制御・演算処理部15は、座標列データ記憶部14Vこ
+−)記憶されfc線分の始点と終点の座標データの甲
から任意の線分ケ呼出し、例えば第4図(b)の二うに
呼出した線分Qs Q2の1iII+1端の座標Qs
、Q2を基準として、その周囲を囲む矩形の領域Ro
RIR2Raを抽出領域として設定する。この抽出領域
RORt Rz R3の設定は、し1えは文字サイズE
FGHの各辺の長さdz’ + dyの2倍の長さDZ
、Dyを各辺の長さとする矩形で、線分Ql 、 Q
gを基準とした領域である。その抽出領域RORI R
2R3の座標データとその中に含まれる線分QI Qa
の始点と終点の座標データを抽出領域および文字候補と
して設定する(ステップ22)。
+−)記憶されfc線分の始点と終点の座標データの甲
から任意の線分ケ呼出し、例えば第4図(b)の二うに
呼出した線分Qs Q2の1iII+1端の座標Qs
、Q2を基準として、その周囲を囲む矩形の領域Ro
RIR2Raを抽出領域として設定する。この抽出領域
RORt Rz R3の設定は、し1えは文字サイズE
FGHの各辺の長さdz’ + dyの2倍の長さDZ
、Dyを各辺の長さとする矩形で、線分Ql 、 Q
gを基準とした領域である。その抽出領域RORI R
2R3の座標データとその中に含まれる線分QI Qa
の始点と終点の座標データを抽出領域および文字候補と
して設定する(ステップ22)。
次に、制御・演算処理部15は座標列データ記憶部14
に再記憶された座標データの中から第4図(C)のよう
に、少なくとも一端が前記抽出領域Ro Rs R2R
3に含まれる未抽出の線分Q2 Qaを抽出する(ステ
ップ23)。
に再記憶された座標データの中から第4図(C)のよう
に、少なくとも一端が前記抽出領域Ro Rs R2R
3に含まれる未抽出の線分Q2 Qaを抽出する(ステ
ップ23)。
そして、先に抽出された線分QI Qaと、新たに抽出
された線分Q2 Qaの一端の座標Q3を基準として、
その周囲を囲む矩形の領域ROSI S2 R3を設定
し、これを第2の抽出領域RO8152Raとして設定
する。そして、新たに設定された抽出領域Ro Ss
S2 R3が先に設定された抽出領域Ro RtR2R
aに対し拡張された方向と垂直な方向に、前記線分Qs
Qaを基準として、文字サイズEF’GHより大きく
、抽出領域Ro RI R2Raより小ざい文字列サイ
ズJMを設定する。この文字列サイズJMは、例えば、
抽出領域が横方向に拡張された場合、文字サイズEFG
Hの縦方向の寸法dyと抽出領域RORI R2R3の
縦方向の寸法りよの中間の大きさαyとする。この大き
さαyは、例えは、文字サイズEFGHの寸法dyの1
.5倍に設定する(ステップ24)。
された線分Q2 Qaの一端の座標Q3を基準として、
その周囲を囲む矩形の領域ROSI S2 R3を設定
し、これを第2の抽出領域RO8152Raとして設定
する。そして、新たに設定された抽出領域Ro Ss
S2 R3が先に設定された抽出領域Ro RtR2R
aに対し拡張された方向と垂直な方向に、前記線分Qs
Qaを基準として、文字サイズEF’GHより大きく
、抽出領域Ro RI R2Raより小ざい文字列サイ
ズJMを設定する。この文字列サイズJMは、例えば、
抽出領域が横方向に拡張された場合、文字サイズEFG
Hの縦方向の寸法dyと抽出領域RORI R2R3の
縦方向の寸法りよの中間の大きさαyとする。この大き
さαyは、例えは、文字サイズEFGHの寸法dyの1
.5倍に設定する(ステップ24)。
次に、線分Q2 Qaを制御・演算処理部15に設定さ
れた文字列サイズJMと比較する。そして、線分Q2
Qaが文字列サイズJM内に含まれるので、第2の抽出
領域Ro RI R2Rsを新たな抽出領域と判定する
(ステップ25)。
れた文字列サイズJMと比較する。そして、線分Q2
Qaが文字列サイズJM内に含まれるので、第2の抽出
領域Ro RI R2Rsを新たな抽出領域と判定する
(ステップ25)。
この抽出領域と判定された第2の抽出領域R。
SI SI Raの座標データと、その中に含まれる線
分QI Qa 、Qa Qsのそれぞれの始点と終点の
座標データを新たに第1の抽出領域および文字候補とし
て設定する(ステップ26)。
分QI Qa 、Qa Qsのそれぞれの始点と終点の
座標データを新たに第1の抽出領域および文字候補とし
て設定する(ステップ26)。
再び、第4図(d)のように第1の抽出領域Ro 5I
S2R3に少なくとも一端が含まれる線分Q4 Qaを
抽出する(ステップ23)。
S2R3に少なくとも一端が含まれる線分Q4 Qaを
抽出する(ステップ23)。
以下同様に、第1の抽出領域Ro SI S2 R3に
含まれる線分QI Qa 、 Qa Qs −Q4 Q
aを基準としで、その周囲を囲む領域Ro Ss 82
Raを第2の抽出領域Ro 8182 Rsとして設
定する(ステップ24)。
含まれる線分QI Qa 、 Qa Qs −Q4 Q
aを基準としで、その周囲を囲む領域Ro Ss 82
Raを第2の抽出領域Ro 8182 Rsとして設
定する(ステップ24)。
次に、線分Q4 Qaを前記文字列サイズJMと比較す
る。そして、線分Q4 Qaが文字列サイズJM内に含
まれるので、第2の抽出領域Ro SI S2 R3を
祈たな抽出領域と判定する(ステップ25)。
る。そして、線分Q4 Qaが文字列サイズJM内に含
まれるので、第2の抽出領域Ro SI S2 R3を
祈たな抽出領域と判定する(ステップ25)。
そして、新しく抽出領域と判定された第2の抽出領域R
e 81 S2 Rsの座標データと、その中に含まれ
る線分QIQ2 、Q2Q3 、Q4Q5のそれぞれの
始点と終点の座標データを新たに第1の抽出領域および
文字候補として設定する(ステップ26)。
e 81 S2 Rsの座標データと、その中に含まれ
る線分QIQ2 、Q2Q3 、Q4Q5のそれぞれの
始点と終点の座標データを新たに第1の抽出領域および
文字候補として設定する(ステップ26)。
さらに、第4図(d)に示すように、新たに記憶された
第1の抽出領域ROSl 82 R31c少なくとも一
端が含まれる線分Qa Qtを抽出する(ステップ2゜
4− )。
第1の抽出領域ROSl 82 R31c少なくとも一
端が含まれる線分Qa Qtを抽出する(ステップ2゜
4− )。
線分Qs Qtを含む第2の抽出領域Ro Us U2
R3を設定する(ステップ24)。
R3を設定する(ステップ24)。
次に、線分Q6 Qtを前記文字列サイズJMと比較す
る。そして、線分Q6 Qtが文字列サイズJMに含ま
れるので、第2の抽出領域Ro UI U2 R3を新
たな抽出領域と判定する(ステップ25)。
る。そして、線分Q6 Qtが文字列サイズJMに含ま
れるので、第2の抽出領域Ro UI U2 R3を新
たな抽出領域と判定する(ステップ25)。
そして、第2の抽出領域ROUI U2 Rsの座標デ
ータと線分QIQ2 、Q2Q3 、Q4Q5 、
QaQyのそれぞれの始点と終点の座標データを第1の
抽出領域および文字候補として設定する(ステップ26
)。
ータと線分QIQ2 、Q2Q3 、Q4Q5 、
QaQyのそれぞれの始点と終点の座標データを第1の
抽出領域および文字候補として設定する(ステップ26
)。
以降、同様に(ステップ23)ないしくステップ26)
をくりかえし、第1の抽出領域を次々と更新し、第4図
(e)のように第1の抽出領域R+、Zl・Z2 Ra
に少なくとも一端が含まれる未抽出の線分・がなくなる
までく力かえす。そして、第1の抽出領域Ro ZI
Z2 Ra含まれる未抽出の線分がなくなると、文字列
サイズJM内に含まれる線分QIQ2゜Q2Q3 、
Q4QS 、Q6Q? 、QtQB 、Q8Q9゜Q
loQ1t+ Q11Q12T Q12Q131
Q13Q141 Q14Q151Q1sQ1s+Q
ta Qlt l Q1? QIOのそれぞれの始点
と終点の座標データが文字列rANDJを構成する文字
候補として文字列データ記憶部16に記憶される。
をくりかえし、第1の抽出領域を次々と更新し、第4図
(e)のように第1の抽出領域R+、Zl・Z2 Ra
に少なくとも一端が含まれる未抽出の線分・がなくなる
までく力かえす。そして、第1の抽出領域Ro ZI
Z2 Ra含まれる未抽出の線分がなくなると、文字列
サイズJM内に含まれる線分QIQ2゜Q2Q3 、
Q4QS 、Q6Q? 、QtQB 、Q8Q9゜Q
loQ1t+ Q11Q12T Q12Q131
Q13Q141 Q14Q151Q1sQ1s+Q
ta Qlt l Q1? QIOのそれぞれの始点
と終点の座標データが文字列rANDJを構成する文字
候補として文字列データ記憶部16に記憶される。
そして、文字列データ記憶部16に記憶された前。
記各線分QI Q2ないしQ1?Q10の各座標データ
は二重に抽出されないように座標列データ記憶部14か
ら削除される(ステップ28)。
は二重に抽出されないように座標列データ記憶部14か
ら削除される(ステップ28)。
次に、座標列データ記憶部14に、さらに座標データが
ある場合、前記の操作をくりかえし実行して文字列の抽
出を行なう。そして、座標列データ記憶部14に座標デ
ータがなくなった場合、文字列の抽出を終了する(ステ
ップ29)。
ある場合、前記の操作をくりかえし実行して文字列の抽
出を行なう。そして、座標列データ記憶部14に座標デ
ータがなくなった場合、文字列の抽出を終了する(ステ
ップ29)。
゛ 文字同志が重なったら合の例を第5図に示す。
同図の場合においても、Fl−IJ記第4区の場付と同
様に1各線分QI Q2ないしQ17Q10を順次抽出
することにより、各線分QI Q272:いしQttす
1oを文字列rANDJを構成する文字の1袖として抽
出することができる。
様に1各線分QI Q2ないしQ17Q10を順次抽出
することにより、各線分QI Q272:いしQttす
1oを文字列rANDJを構成する文字の1袖として抽
出することができる。
文字と図形が交差した場合の例を第6図に示す。
この場合、線分PI P2が文字サイズEFGHより大
きいため、(ステップ2i)で線分QI Q2ない。
きいため、(ステップ2i)で線分QI Q2ない。
しQ17 Qtoを抽出する際に除去される。従って、
第4図の場合と同じ方法で文字列を抽出することができ
る。
第4図の場合と同じ方法で文字列を抽出することができ
る。
文字を構成する線分と図形を構成する線分の一部が重な
った場合の例を第7図に示す。
った場合の例を第7図に示す。
同図(a)に示すように、文字rNJを構成する線分Q
s Qsと、図形を構成する線分Pa Pgが重なシ合
う場合、(ステップ21)の文字候補となる線分の抽出
で文字サイズEFGHより長いので、線分Pa P4
+ P4 Psが除外され、同図(b)に示すように線
分QI Q2 IQ2 Qa 、Q4 Qa TQs
Q? 、 Q? Q8QloQo + Q11QI21
Q12Q131 Q13Q14 + Q14Q15夛
QssQ1s+ Q16Q17 + QI7Q10
r Ps Pgが抽出される。
s Qsと、図形を構成する線分Pa Pgが重なシ合
う場合、(ステップ21)の文字候補となる線分の抽出
で文字サイズEFGHより長いので、線分Pa P4
+ P4 Psが除外され、同図(b)に示すように線
分QI Q2 IQ2 Qa 、Q4 Qa TQs
Q? 、 Q? Q8QloQo + Q11QI21
Q12Q131 Q13Q14 + Q14Q15夛
QssQ1s+ Q16Q17 + QI7Q10
r Ps Pgが抽出される。
そして、第4図の場合と同様にして、線分QIQ2から
線分Q? Qaまで抽出する。すると、第7図(e)に
示すように第1の抽出領域Ro VI V2 Raが限
定される。
線分Q? Qaまで抽出する。すると、第7図(e)に
示すように第1の抽出領域Ro VI V2 Raが限
定される。
そして、その第1の抽出領域Ro VIV2 R3の中
に少なくとも一端が含まれる線分としてPs Pgを抽
出する(ステップ23)と、この線分Ps pgを含む
抽出領域として、第2の抽出領域Ro WIW2R3が
設定される(ステップ24)。一方、線分Ps Psを
文字列サイズJMと比較する(ステップ25)。すると
、線分Ps Pgが文字列サイズJMの領域を横切って
領域外に突出しているため、線分PsPsは文字候補か
ら除外される(ステップ27)。新たに設定された第2
の抽出領域Ro WI W2R3は取消され、線分Pg
Psを抽出する前の第1線分QIOQIIを抽出する
(ステップ23)。
に少なくとも一端が含まれる線分としてPs Pgを抽
出する(ステップ23)と、この線分Ps pgを含む
抽出領域として、第2の抽出領域Ro WIW2R3が
設定される(ステップ24)。一方、線分Ps Psを
文字列サイズJMと比較する(ステップ25)。すると
、線分Ps Pgが文字列サイズJMの領域を横切って
領域外に突出しているため、線分PsPsは文字候補か
ら除外される(ステップ27)。新たに設定された第2
の抽出領域Ro WI W2R3は取消され、線分Pg
Psを抽出する前の第1線分QIOQIIを抽出する
(ステップ23)。
以下、第4図の場合と同様にして第7図(d)に示すよ
うに線分QI Q2ないしQ1? QIOを抽出して、
各線分QI QaないしQ17Q10の座標データを文
字列データdピ憶部16へ記憶する。
うに線分QI Q2ないしQ1? QIOを抽出して、
各線分QI QaないしQ17Q10の座標データを文
字列データdピ憶部16へ記憶する。
文字列データ記憶部16は記憶された文字候補の座標デ
ータを表示s17に出力し、ディスプレイ(図示せず)
に表示する。また、文字列データ記憶部16は、出力部
1Bにも出力し、フロッピディスクやハードディスクな
どの記憶媒体(図示せず)に−己喧、ハさせることがで
きる。
ータを表示s17に出力し、ディスプレイ(図示せず)
に表示する。また、文字列データ記憶部16は、出力部
1Bにも出力し、フロッピディスクやハードディスクな
どの記憶媒体(図示せず)に−己喧、ハさせることがで
きる。
上記のように、文字と文字あるいは文字と図形の交差ま
たは重なりが存在する図面1に服から文字候補になる線
分の座標テークを文字列として抽出することができる。
たは重なりが存在する図面1に服から文字候補になる線
分の座標テークを文字列として抽出することができる。
なお、上記各実施例はいずれも横方向の文字列の場合に
ついて説明したが、抽出領域が縦方向に拡張されたとき
、文字列サイズの大きさは、文字サイズEFGHの横方
向の寸法dχと抽出領域Ro RlRz R3の横方向
の寸法D2の中間の大きさに設定する。以降、(ステッ
プ25)の第2の抽出領域は縦方向の文字列サイズで比
較することにより、第4図と同様に文字列を抽出できる
。
ついて説明したが、抽出領域が縦方向に拡張されたとき
、文字列サイズの大きさは、文字サイズEFGHの横方
向の寸法dχと抽出領域Ro RlRz R3の横方向
の寸法D2の中間の大きさに設定する。以降、(ステッ
プ25)の第2の抽出領域は縦方向の文字列サイズで比
較することにより、第4図と同様に文字列を抽出できる
。
また、抽出領域Ro RI R2Raの横方向の寸法D
zと縦方向の寸法り、は文字サイズEFGHの横方向の
寸法d2と縦方向の寸法もの2倍に限らずに設定の寸法
dχと縦方向の寸法ayの1.5倍に限らずdz(α!
(1)χ+dy<αy < Dyの条件を満たせば任
意に設定してよい。
zと縦方向の寸法り、は文字サイズEFGHの横方向の
寸法d2と縦方向の寸法もの2倍に限らずに設定の寸法
dχと縦方向の寸法ayの1.5倍に限らずdz(α!
(1)χ+dy<αy < Dyの条件を満たせば任
意に設定してよい。
以上述べたように、本発明によれは文字と文字あるいは
文字と図形の交差または止なりが存在する図面情報から
文字候補の座標データを文字列として抽出することがで
きる。
文字と図形の交差または止なりが存在する図面情報から
文字候補の座標データを文字列として抽出することがで
きる。
第1図は本発明の文字列抽出処理を実現する装置のブロ
ック図、第2図は本発明の処理手順の一実施例を示すフ
ローチャート、第3図は図面情報を読取る工程図、第4
図は本発明の文字列抽出の工程図、第5図ないし第7図
は本発明による文字列抽出の実施例の説明図である。 14・・・座標列データ記憶部、 15・・・制御・演
算処理部。
ック図、第2図は本発明の処理手順の一実施例を示すフ
ローチャート、第3図は図面情報を読取る工程図、第4
図は本発明の文字列抽出の工程図、第5図ないし第7図
は本発明による文字列抽出の実施例の説明図である。 14・・・座標列データ記憶部、 15・・・制御・演
算処理部。
Claims (1)
- 1、文字を含む図面情報より、予め設定された文字サイ
ズより短い線分を文字候補として抽出し、その線分を基
準としてその周囲を所定の大きさで囲む矩形の抽出領域
を設定し、その抽出領域に少なくとも一部が含まれる未
抽出の線分を抽出し、新たに抽出された線分を含む方向
に抽出領域を拡張すると共に、その拡張方向と垂直な方
向に文字列サイズを設定し、この文字列サイズと新たに
抽出された線分を比較し、この線分が文字列サイズ内に
あるとき拡張された抽出領域を新たな抽出領域として設
定し、線分が文字列サイズから突出するとき前記文字候
補から除外し、拡張前の抽出領域を再び抽出領域として
設定し、抽出領域内に含まれる未抽出の線分がなくなる
まで抽出領域の更新および設定をくりかえし、抽出領域
で文字列サイズ内の線分群を文字列として抽出すること
を特徴とする文字列抽出方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62090795A JPH07104905B2 (ja) | 1987-04-15 | 1987-04-15 | 文字列抽出方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP62090795A JPH07104905B2 (ja) | 1987-04-15 | 1987-04-15 | 文字列抽出方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS63257082A true JPS63257082A (ja) | 1988-10-24 |
JPH07104905B2 JPH07104905B2 (ja) | 1995-11-13 |
Family
ID=14008518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP62090795A Expired - Lifetime JPH07104905B2 (ja) | 1987-04-15 | 1987-04-15 | 文字列抽出方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPH07104905B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017084301A (ja) * | 2015-10-30 | 2017-05-18 | ダイキン工業株式会社 | 図形処理装置、図形処理方法、および、図形処理プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60233780A (ja) * | 1984-05-07 | 1985-11-20 | Oki Electric Ind Co Ltd | 文字分類方法 |
JPS61117670A (ja) * | 1984-11-13 | 1986-06-05 | Fujitsu Ltd | 文字切り出し処理方式 |
-
1987
- 1987-04-15 JP JP62090795A patent/JPH07104905B2/ja not_active Expired - Lifetime
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60233780A (ja) * | 1984-05-07 | 1985-11-20 | Oki Electric Ind Co Ltd | 文字分類方法 |
JPS61117670A (ja) * | 1984-11-13 | 1986-06-05 | Fujitsu Ltd | 文字切り出し処理方式 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017084301A (ja) * | 2015-10-30 | 2017-05-18 | ダイキン工業株式会社 | 図形処理装置、図形処理方法、および、図形処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JPH07104905B2 (ja) | 1995-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0831418B1 (en) | Method and apparatus for character recognition | |
JP2019515374A (ja) | 画像内の文字領域を認識するための方法及び装置 | |
US8150185B2 (en) | Image processing for generating a thin line binary image and extracting vectors | |
JPS63257082A (ja) | 文字列抽出方法 | |
JP2878194B2 (ja) | 画像データの部分消去および部分検出方法 | |
JPH03179873A (ja) | 画像処理装置 | |
JPS63291185A (ja) | 文字列抽出方法 | |
JPH04255080A (ja) | 画像入力装置 | |
JPS63291184A (ja) | 文字列抽出方法 | |
JPH03142691A (ja) | 表形式文書認識方式 | |
JP2561931B2 (ja) | ドット文字パターンのベクトル化方式 | |
JPH06101028B2 (ja) | 文字ドツト・フオント線分化方式 | |
JPH02297134A (ja) | 文書要約支援装置 | |
CN101383049A (zh) | 图像处理装置及图像处理方法 | |
JP2675043B2 (ja) | 図面データの編集方法 | |
JP3037504B2 (ja) | 画像処理方法及びその装置 | |
JP2501832B2 (ja) | 色マ−ク領域の抽出方法 | |
JPH08180087A (ja) | 図形の歪み補正方法 | |
JPH05324908A (ja) | 圧縮イメージ認識処理方式 | |
JPH11175306A (ja) | X−yプロッタ | |
JPH02176973A (ja) | 図面読取処理方法 | |
JPH058670U (ja) | 光学的文字読取装置 | |
JPH02249077A (ja) | 画像符号化における最大正方形確定方法 | |
JPS62114078A (ja) | 特徴抽出装置 | |
JPH0334081A (ja) | 図面読取装置 |