JPH05166002A - ソース画像を分析する方法 - Google Patents
ソース画像を分析する方法Info
- Publication number
- JPH05166002A JPH05166002A JP4134588A JP13458892A JPH05166002A JP H05166002 A JPH05166002 A JP H05166002A JP 4134588 A JP4134588 A JP 4134588A JP 13458892 A JP13458892 A JP 13458892A JP H05166002 A JPH05166002 A JP H05166002A
- Authority
- JP
- Japan
- Prior art keywords
- text
- white
- black
- graphics
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims description 44
- 230000010339 dilation Effects 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 7
- 230000000750 progressive effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 26
- 238000013459 approach Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000002243 precursor Substances 0.000 description 2
- 241000233855 Orchidaceae Species 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002547 anomalous effect Effects 0.000 description 1
- 239000002775 capsule Substances 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/12—Edge-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
- G06T2207/10008—Still image; Photographic image from scanner, fax or copier
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30176—Document
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
(57)【要約】 (修正有)
【目的】入力されたソース画像データを分析してテキス
トデータ部とグラフィクスデータ部に分解して出力す
る。 【構成】入力画像を白,黒の2値データで表わし白と黒
の境界にあるピクセルを検出しこれを追跡することによ
り白又は黒領域の輪郭を得る。輪郭データを用い白又は
黒領域の形状を得、このデータをもとに対象物がテキス
トデータであるかグラフィックスデータであるか判別
し、それぞれ別に出力する。
トデータ部とグラフィクスデータ部に分解して出力す
る。 【構成】入力画像を白,黒の2値データで表わし白と黒
の境界にあるピクセルを検出しこれを追跡することによ
り白又は黒領域の輪郭を得る。輪郭データを用い白又は
黒領域の形状を得、このデータをもとに対象物がテキス
トデータであるかグラフィックスデータであるか判別
し、それぞれ別に出力する。
Description
【0001】
【発明の背景】この発明はテキストとグラフィックスと
を判別して、それによってテキストをグラフィックスか
ら分離するために、文書または他のソース画像を分析す
る方法に関する。
を判別して、それによってテキストをグラフィックスか
ら分離するために、文書または他のソース画像を分析す
る方法に関する。
【0002】テキストとグラフィックスとの判別は文書
を処理するときにしばしば本質的なことである。たとえ
ば、いくつかの文書処理応用はグラフィックス(または
テキスト)にのみ関与する。他の文書処理応用はテキス
トおよびグラフィックスに異なったプロセスを応用し、
かつしたがってテキスト、グラフィックスおよび中間調
の領域に画像を区分化しなければならない。
を処理するときにしばしば本質的なことである。たとえ
ば、いくつかの文書処理応用はグラフィックス(または
テキスト)にのみ関与する。他の文書処理応用はテキス
トおよびグラフィックスに異なったプロセスを応用し、
かつしたがってテキスト、グラフィックスおよび中間調
の領域に画像を区分化しなければならない。
【0003】テキストとグラフィックスとを判別するす
べての応用はその2つの間を識別する定義を要求する。
いくつかはテキストを列でグループ分けされた文字とし
て規定する一方で、孤立して現われる文字はグラフィッ
クスと考えられる。他のものはフォントまたはサイズに
かかわらずどこで現われようとテキストを文字として規
定する。後者の規定はより適切であるように見えるが、
誤分類という結果、たとえば円が文字「0」と誤分類さ
れ得るという結果をもたらす。どちらの定義が使われよ
うと、文献に提唱される大半のアルゴリズムははるかに
高価な真の文字認識を行なわず、むしろ分類のための単
純なヒューリスティックスを使用する。
べての応用はその2つの間を識別する定義を要求する。
いくつかはテキストを列でグループ分けされた文字とし
て規定する一方で、孤立して現われる文字はグラフィッ
クスと考えられる。他のものはフォントまたはサイズに
かかわらずどこで現われようとテキストを文字として規
定する。後者の規定はより適切であるように見えるが、
誤分類という結果、たとえば円が文字「0」と誤分類さ
れ得るという結果をもたらす。どちらの定義が使われよ
うと、文献に提唱される大半のアルゴリズムははるかに
高価な真の文字認識を行なわず、むしろ分類のための単
純なヒューリスティックスを使用する。
【0004】テキストがグラフィックスから判別される
2つの主要なアプローチがあり、それは「トップダウ
ン」および「ボトムアップ」である。「トップダウン」
アプローチにおいて、画像はさらに次の領域に区分され
る主要な領域にまず区分される。「ボトムアップ」アプ
ローチにおいて、画像は個々に接続された成分を決定す
るためにまず処理される。これらの成分は、文字として
識別されたとき、単語に、単語を文章に、等々とグルー
プ分けされる。トップダウンアプローチは知識に基づい
たものである。それはテキストおよびグラフィックスの
厳密に分離された領域からなる画像にのみ適切である。
グラフィックス領域内にあるテキスト単語はグラフィッ
クスとして分類される。一方ボトムアップアプローチは
より信頼性は高いが時間がかかる。したがって、2つの
アプローチは組合せて使用されるべきであり、まずトッ
プダウン方法がグラフィックス領域を検出して、それか
らボトムアップ方法がこれらの領域内のテキストを検出
するであろう。
2つの主要なアプローチがあり、それは「トップダウ
ン」および「ボトムアップ」である。「トップダウン」
アプローチにおいて、画像はさらに次の領域に区分され
る主要な領域にまず区分される。「ボトムアップ」アプ
ローチにおいて、画像は個々に接続された成分を決定す
るためにまず処理される。これらの成分は、文字として
識別されたとき、単語に、単語を文章に、等々とグルー
プ分けされる。トップダウンアプローチは知識に基づい
たものである。それはテキストおよびグラフィックスの
厳密に分離された領域からなる画像にのみ適切である。
グラフィックス領域内にあるテキスト単語はグラフィッ
クスとして分類される。一方ボトムアップアプローチは
より信頼性は高いが時間がかかる。したがって、2つの
アプローチは組合せて使用されるべきであり、まずトッ
プダウン方法がグラフィックス領域を検出して、それか
らボトムアップ方法がこれらの領域内のテキストを検出
するであろう。
【0005】ラン長不鮮明アルゴリズム(RLSA)は
トップダウン方法の一例である。このアルゴリズムは画
像をテキストライン、グラフィックスおよび中間調画像
の主要領域に区分化して分類する。このアルゴリズム
は、もし隣接する0の数が予め規定されたしきい値より
少なければ0を1に置換える(0は白のピクセルに対応
し、かつ1は黒のピクセルに対応する)。この一次元的
動作はラインごとにおよび列ごとに二次元的ビットマッ
プ画像に適用される。2つの結果が局所ANDを各ピク
セル場所に適用することによってそれから結合される。
結果として生じる画像は印刷された材料がもとの画像上
に現われて不鮮明の効果を生み出すところではどこでも
黒のブロックを含む。ブロックはそれから統計的なパタ
ーン分類(たとえば、ブロックにおける黒のピクセルの
数、水平な白/黒遷移の数)を用いてテキストライン、
グラフィックスまたは中間調画像として分類される。
トップダウン方法の一例である。このアルゴリズムは画
像をテキストライン、グラフィックスおよび中間調画像
の主要領域に区分化して分類する。このアルゴリズム
は、もし隣接する0の数が予め規定されたしきい値より
少なければ0を1に置換える(0は白のピクセルに対応
し、かつ1は黒のピクセルに対応する)。この一次元的
動作はラインごとにおよび列ごとに二次元的ビットマッ
プ画像に適用される。2つの結果が局所ANDを各ピク
セル場所に適用することによってそれから結合される。
結果として生じる画像は印刷された材料がもとの画像上
に現われて不鮮明の効果を生み出すところではどこでも
黒のブロックを含む。ブロックはそれから統計的なパタ
ーン分類(たとえば、ブロックにおける黒のピクセルの
数、水平な白/黒遷移の数)を用いてテキストライン、
グラフィックスまたは中間調画像として分類される。
【0006】RLSAアルゴリズムは速度は速いが画像
のあるクラスに制限される。これらの画像にはスキュー
されたテキストラインは許容されないし、文字の寸法は
予め規定されたしきい値パラメータに適合しなければな
らず、そうしなければ、文字は(もしパラメータがあま
りに小さければ)孤立されたままであり、またはテキス
トラインは(もしパラメータがあまりに大きければ)結
合されるであろう。
のあるクラスに制限される。これらの画像にはスキュー
されたテキストラインは許容されないし、文字の寸法は
予め規定されたしきい値パラメータに適合しなければな
らず、そうしなければ、文字は(もしパラメータがあま
りに小さければ)孤立されたままであり、またはテキス
トラインは(もしパラメータがあまりに大きければ)結
合されるであろう。
【0007】大まかな分類が「トップダウン」アルゴリ
ズムによって受理された後、グラフィックブロックは詳
細な分類を得るために「ボトムアップ」アルゴリズムに
よってさらに処理される。ボトムアップアルゴリズムは
個々に接続された成分を決定するためのプロセスで始ま
る。接続された成分検出を行なう数個のアルゴリズムが
既知である。これらのアルゴリズムは画像上の1つのラ
スタスキャンの間にできるだけ多くの情報を抽出するた
めにチェーンコード発生アルゴリズムに結合され得る。
かかる「結合された」アルゴリズムはラン長フォーマッ
トされた画像上で速く動作可能である(実行時は画像の
境界線の長さに大まかに比例する画像の「ラン」の数に
比例する)。かかるプロセスの終りに、以下の生の情報
が各接続された成分に対して利用可能であり、それは
(1)領域(接続された成分を形成するピクセルの
数)、(2)境界のチェーンコード記述(各境界につき
1つのチェーン)および(3)取囲んでいる接続された
成分および取囲まれた接続された成分の識別である。
ズムによって受理された後、グラフィックブロックは詳
細な分類を得るために「ボトムアップ」アルゴリズムに
よってさらに処理される。ボトムアップアルゴリズムは
個々に接続された成分を決定するためのプロセスで始ま
る。接続された成分検出を行なう数個のアルゴリズムが
既知である。これらのアルゴリズムは画像上の1つのラ
スタスキャンの間にできるだけ多くの情報を抽出するた
めにチェーンコード発生アルゴリズムに結合され得る。
かかる「結合された」アルゴリズムはラン長フォーマッ
トされた画像上で速く動作可能である(実行時は画像の
境界線の長さに大まかに比例する画像の「ラン」の数に
比例する)。かかるプロセスの終りに、以下の生の情報
が各接続された成分に対して利用可能であり、それは
(1)領域(接続された成分を形成するピクセルの
数)、(2)境界のチェーンコード記述(各境界につき
1つのチェーン)および(3)取囲んでいる接続された
成分および取囲まれた接続された成分の識別である。
【0008】この生の情報はさらに処理されて他の属性
を導出することが可能であり、それは(4)取囲んでい
る長方形、(5)オイラー(Euler)の数(オイラー数=
1− 形をなす穴(holes in shape)の数)、(6)周
囲長(境界の全長)および(7)包領域である。
を導出することが可能であり、それは(4)取囲んでい
る長方形、(5)オイラー(Euler)の数(オイラー数=
1− 形をなす穴(holes in shape)の数)、(6)周
囲長(境界の全長)および(7)包領域である。
【0009】(4)−(7)の属性以外のより多くの形
状属性が(1)−(3)の情報から導出され得るが、属
性(4)−(7)は最小の効果で文字記号の判別をする
ために非常に貴重である。オイラーの数は付加的な努力
なしに利用可能である(オイラーの数=2 − チェー
ンの数)。取囲んでいる長方形はチェーン上の1つのス
キャンで計算され得る。ペリメタ長はチェーンコードの
リンクの総数と大まかに等しい。よりよい推定が他の方
法で得られるが、この推定はかなり良い。包領域はまず
凸包多角形を発見して、それから単純なタスクであるそ
の多角形の領域を発見することによって計算され得る。
状属性が(1)−(3)の情報から導出され得るが、属
性(4)−(7)は最小の効果で文字記号の判別をする
ために非常に貴重である。オイラーの数は付加的な努力
なしに利用可能である(オイラーの数=2 − チェー
ンの数)。取囲んでいる長方形はチェーン上の1つのス
キャンで計算され得る。ペリメタ長はチェーンコードの
リンクの総数と大まかに等しい。よりよい推定が他の方
法で得られるが、この推定はかなり良い。包領域はまず
凸包多角形を発見して、それから単純なタスクであるそ
の多角形の領域を発見することによって計算され得る。
【0010】局部形状特徴に従ってテキストを判別する
大半のアルゴリズムは上に挙げられた属性を使用する。
局部形状特徴に基づくアルゴリズムは2つの主要な欠点
を有し、それは(1)グラフィックスをテキストとして
誤分類し得る(円が「0」として分類され得る)こと
と、(2)変則の列を検出できない(たとえば、それら
は点線をグラフィックスとして検出できずに、その代わ
り各マイナス符号は文字記号として検出され、かつ全体
の列はテキストとして検出される)ことである。
大半のアルゴリズムは上に挙げられた属性を使用する。
局部形状特徴に基づくアルゴリズムは2つの主要な欠点
を有し、それは(1)グラフィックスをテキストとして
誤分類し得る(円が「0」として分類され得る)こと
と、(2)変則の列を検出できない(たとえば、それら
は点線をグラフィックスとして検出できずに、その代わ
り各マイナス符号は文字記号として検出され、かつ全体
の列はテキストとして検出される)ことである。
【0011】これらの欠点は既知のテキスト−ストリン
グ分離アルゴリズムで修理されたが、処理時間という高
い犠牲を払った。文字を列にクラスタリングするプロセ
スはその時間の大半を占める。アルゴリズムはハフ(Ho
ugh )変換を使用して共通直線状成分を検出し、もしそ
れらがある統計上のパターンと一致すれば、それらを単
語および句にグループ分けする。アルゴリズムは変則の
列をグラフィックスとして分類することに成功するが、
パラメタ設定に敏感であり、誤った選択は1つのライン
に属する接続された成分が異なったセルにグループ分け
されること(不十分なグループ分け(undergro
uping))を引起こすか、または数個の平行な列が
単一のセルにグループ分けされる(過度のグループ分
け)ことを引起こし得る。ハフ変換はまた一グループの
垂直成分を、これらの成分が水平なテキストラインの一
部であるにもかかわらず、垂直な列として誤って検出し
得る。
グ分離アルゴリズムで修理されたが、処理時間という高
い犠牲を払った。文字を列にクラスタリングするプロセ
スはその時間の大半を占める。アルゴリズムはハフ(Ho
ugh )変換を使用して共通直線状成分を検出し、もしそ
れらがある統計上のパターンと一致すれば、それらを単
語および句にグループ分けする。アルゴリズムは変則の
列をグラフィックスとして分類することに成功するが、
パラメタ設定に敏感であり、誤った選択は1つのライン
に属する接続された成分が異なったセルにグループ分け
されること(不十分なグループ分け(undergro
uping))を引起こすか、または数個の平行な列が
単一のセルにグループ分けされる(過度のグループ分
け)ことを引起こし得る。ハフ変換はまた一グループの
垂直成分を、これらの成分が水平なテキストラインの一
部であるにもかかわらず、垂直な列として誤って検出し
得る。
【0012】他の困難な点は、(直線配向よりはむし
ろ)弧配向を有する列はテキストとして判別されないこ
とである。同じことが短い孤立された列(3より少ない
文字を含む列)に起こる。
ろ)弧配向を有する列はテキストとして判別されないこ
とである。同じことが短い孤立された列(3より少ない
文字を含む列)に起こる。
【0013】上述のアルゴリズムのすべてはフォントサ
イズの大きな変化を含む画像間をきちんと判別すること
ができない。さらにそれらは逆にされたテキストのブロ
ックを扱うことができない(逆にされたテキストは黒の
背景に対して白のテキストである)。
イズの大きな変化を含む画像間をきちんと判別すること
ができない。さらにそれらは逆にされたテキストのブロ
ックを扱うことができない(逆にされたテキストは黒の
背景に対して白のテキストである)。
【0014】
【発明の目的および概要】この発明の目的はグラフィッ
クスからテキストを分離するためにソース画像を分析す
るための、上の点の1つ以上で利点を有する新規の方法
を提供することである。
クスからテキストを分離するためにソース画像を分析す
るための、上の点の1つ以上で利点を有する新規の方法
を提供することである。
【0015】この発明に従って、テキストをグラフィッ
クスから分離するためのソース画像を分析する方法が提
供され、テキストをグラフィックスから分離するために
ソース画像を分析する方法を含み、その方法は(a)黒
および白の対象物を含む2進の画像を得るためにソース
画像を走査してデジタル化するステップと、(b)フィ
ルタされた2進画像を得るために2進画像からノイズを
フィルタして取除くステップと、(c)フィルタされた
2進画像から黒の対象物と白の対象物の輪郭を抽出する
ステップと、(d)対象物間の包含関係を評価してかか
る関係のツリーのような構造を発生するステップと、
(e)各対象物の形状属性を得るために対象物を測定す
るために前記輪郭を利用するステップと、(f)測定さ
れた形状属性および包含関係の発生されたツリーのよう
な構造に従ってグラフィックスまたはテキストとして対
象物の分類を行なうステップと、さらに(g)対象物の
前記ソース画像と前記分類とを利用してそれぞれグラフ
ィックスおよびテキストを表わす出力を発生するステッ
プとを含む。
クスから分離するためのソース画像を分析する方法が提
供され、テキストをグラフィックスから分離するために
ソース画像を分析する方法を含み、その方法は(a)黒
および白の対象物を含む2進の画像を得るためにソース
画像を走査してデジタル化するステップと、(b)フィ
ルタされた2進画像を得るために2進画像からノイズを
フィルタして取除くステップと、(c)フィルタされた
2進画像から黒の対象物と白の対象物の輪郭を抽出する
ステップと、(d)対象物間の包含関係を評価してかか
る関係のツリーのような構造を発生するステップと、
(e)各対象物の形状属性を得るために対象物を測定す
るために前記輪郭を利用するステップと、(f)測定さ
れた形状属性および包含関係の発生されたツリーのよう
な構造に従ってグラフィックスまたはテキストとして対
象物の分類を行なうステップと、さらに(g)対象物の
前記ソース画像と前記分類とを利用してそれぞれグラフ
ィックスおよびテキストを表わす出力を発生するステッ
プとを含む。
【0016】以下に述べられるこの発明の好ましい実施
例のさらなる特徴に従って、ステップ(b)において、
ノイズは黒のピクセルの膨張によってフィルタで取除か
れ、ステップ(e)において、対象物はツリーのルーツ
にある対象物で始まるトップダウンシーケンスで測定さ
れ、およびステップ(c)において、フィルタされた2
進画像から黒の対象物および白の対象物の輪郭を抽出す
ることは窓がラスタの態様でフィルタされた2進画像と
ともに巻込まれる単一の走査によって行なわれる。加え
て、窓はラインに沿って画像を走査し、かつ窓から見ら
れるパターンの型の表示および窓の中心の表示を戻し、
各型のパターンは異なって処理されて新しい対象物が開
始され、継続されまたは終えられるかどうかを決定し、
すべての対象物は平行に処理されている現在の走査ライ
ンと交差する。
例のさらなる特徴に従って、ステップ(b)において、
ノイズは黒のピクセルの膨張によってフィルタで取除か
れ、ステップ(e)において、対象物はツリーのルーツ
にある対象物で始まるトップダウンシーケンスで測定さ
れ、およびステップ(c)において、フィルタされた2
進画像から黒の対象物および白の対象物の輪郭を抽出す
ることは窓がラスタの態様でフィルタされた2進画像と
ともに巻込まれる単一の走査によって行なわれる。加え
て、窓はラインに沿って画像を走査し、かつ窓から見ら
れるパターンの型の表示および窓の中心の表示を戻し、
各型のパターンは異なって処理されて新しい対象物が開
始され、継続されまたは終えられるかどうかを決定し、
すべての対象物は平行に処理されている現在の走査ライ
ンと交差する。
【0017】述べられた好ましい実施例において、最大
点に窓走査の間に遭遇する場合、それは新しい対象物の
開始点であると考えられるが、もし後に走査がそれは以
前に示された対象物の最大点であったことを示せば、新
しい対象物は以前に示された対象物のそれと合併され
る。
点に窓走査の間に遭遇する場合、それは新しい対象物の
開始点であると考えられるが、もし後に走査がそれは以
前に示された対象物の最大点であったことを示せば、新
しい対象物は以前に示された対象物のそれと合併され
る。
【0018】この発明のさらなる特徴は以下の説明から
明らかであろう。この発明を添付の図面を参照して、例
によってのみここに説明する。
明らかであろう。この発明を添付の図面を参照して、例
によってのみここに説明する。
【0019】
【0020】
【全体のシステム】図1はこの発明に従ってソース文書
2を分析してテキストをグラフィックスから分離するた
めの方法を絵で表わして例示し、テキストは文書4で出
力され、かつグラフィックスは文書6で出力される。例
の目的のために、かつこの方法の能力を示す目的のため
に、ソース文書2は、図2で拡大して示されるように、
異なったサイズ、配向およびフォントのグラフィックス
およびテキストを含む。
2を分析してテキストをグラフィックスから分離するた
めの方法を絵で表わして例示し、テキストは文書4で出
力され、かつグラフィックスは文書6で出力される。例
の目的のために、かつこの方法の能力を示す目的のため
に、ソース文書2は、図2で拡大して示されるように、
異なったサイズ、配向およびフォントのグラフィックス
およびテキストを含む。
【0021】このように、テキストおよびグラフィック
スの両方のソース画像を含むソース文書2はオプチカル
スキャナ8によって走査され、かつその出力は画像ディ
スク12、メモリ14およびCPU16を含む一般に1
0で示される画像処理システムに送られる。画像処理シ
ステム10は2つの文書4および6の形状でプロッタ1
8を経て処理情報を出力し、文書4は元の文書2のテキ
ストを含み、かつ文書6は元の文書2のグラフィックス
を含む。
スの両方のソース画像を含むソース文書2はオプチカル
スキャナ8によって走査され、かつその出力は画像ディ
スク12、メモリ14およびCPU16を含む一般に1
0で示される画像処理システムに送られる。画像処理シ
ステム10は2つの文書4および6の形状でプロッタ1
8を経て処理情報を出力し、文書4は元の文書2のテキ
ストを含み、かつ文書6は元の文書2のグラフィックス
を含む。
【0022】図3は一般にブロック21−27によって
示され、画像処理システム10によって行なわれる7つ
の基本ステップ(a−g)を例示するフロー図であり、
そのステップは (a) 黒および白の対象物を含む2進画像を得るため
にソース画像(文書2)を走査してデジタル化し(ブロ
ック21)、(b) フィルタされた2進画像を得るた
めに2進画像からノイズをフィルタして取除き(ブロッ
ク22)、(c)フィルタされた2進画像から黒の対象
物および白の対象物の輪郭を抽出し(ブロック23)、
(d) 対象物間の包含関係を評価してかかる関係のツ
リーのような構造を発生し(ブロック24)、(e)
各対象物の形状化された属性を得るために対象物を測定
するためにステップcで検出された輪郭を利用し(ブロ
ック25)、(f) 測定された形状化された属性およ
びステップdで得られた包含関係に従ってグラフィック
スまたはテキストとして対象物を分類し(ブロック2
6)、さらに(g) 出力プロッタ18を経て、それぞ
れテキスト(文書4)およびグラフィックス(文書6)
を表わす出力を発生する(ブロック27)、というもの
である。
示され、画像処理システム10によって行なわれる7つ
の基本ステップ(a−g)を例示するフロー図であり、
そのステップは (a) 黒および白の対象物を含む2進画像を得るため
にソース画像(文書2)を走査してデジタル化し(ブロ
ック21)、(b) フィルタされた2進画像を得るた
めに2進画像からノイズをフィルタして取除き(ブロッ
ク22)、(c)フィルタされた2進画像から黒の対象
物および白の対象物の輪郭を抽出し(ブロック23)、
(d) 対象物間の包含関係を評価してかかる関係のツ
リーのような構造を発生し(ブロック24)、(e)
各対象物の形状化された属性を得るために対象物を測定
するためにステップcで検出された輪郭を利用し(ブロ
ック25)、(f) 測定された形状化された属性およ
びステップdで得られた包含関係に従ってグラフィック
スまたはテキストとして対象物を分類し(ブロック2
6)、さらに(g) 出力プロッタ18を経て、それぞ
れテキスト(文書4)およびグラフィックス(文書6)
を表わす出力を発生する(ブロック27)、というもの
である。
【0023】以下は上のステップの各々のより詳細な説
明である。
明である。
【0024】
【走査およびデジタル化(ブロック21、図3)】この
ステップはソース画像の2進バージョンを得るために行
なわれる。このステップはソース画像のビットマップ表
示を含むディスクまたはテープ(たとえば画像ディスク
12、図1)上の2進ファイルを生み出すためにオプチ
カルスキャナ、CCD(電荷結合素子)スキャナなどに
よって実行され得る。ビットマップは各ビットが黒また
は白のピクセルに対応する状態でのビットの流れである
かまたはランにおいてコード化され得る。ラン長符号化
が使用されて、それによって黒(または白)のピクセル
のシーケンスがシーケンスの長さが色の次の遷移までで
ある状態で色によってコード化されると仮定される。走
査の典型的な解像度は50ピクセル/mmである。
ステップはソース画像の2進バージョンを得るために行
なわれる。このステップはソース画像のビットマップ表
示を含むディスクまたはテープ(たとえば画像ディスク
12、図1)上の2進ファイルを生み出すためにオプチ
カルスキャナ、CCD(電荷結合素子)スキャナなどに
よって実行され得る。ビットマップは各ビットが黒また
は白のピクセルに対応する状態でのビットの流れである
かまたはランにおいてコード化され得る。ラン長符号化
が使用されて、それによって黒(または白)のピクセル
のシーケンスがシーケンスの長さが色の次の遷移までで
ある状態で色によってコード化されると仮定される。走
査の典型的な解像度は50ピクセル/mmである。
【0025】図4は走査およびデジタル化ステップを図
表で例示し、31で示されるようなソース画像は、32
で示されるようなソース画像のデジタル化されたビット
マップ表示に転換されることが理解されるであろう。図
4のソース画像32のビットマップ表示は画像データ3
2aおよびノイズ32bを含むこともまた理解されるで
あろう。
表で例示し、31で示されるようなソース画像は、32
で示されるようなソース画像のデジタル化されたビット
マップ表示に転換されることが理解されるであろう。図
4のソース画像32のビットマップ表示は画像データ3
2aおよびノイズ32bを含むこともまた理解されるで
あろう。
【0026】
【フィルタリングノイズ(ブロック22,図3)】図1
の画像処理システム10によって行なわれる第2のステ
ップは、図3のブロック図で示されるように、ノイズフ
ィルタレーション、つまり図4の32で例示されるビッ
トマップ表示におけるノイズ信号32bの除去である。
このステップはもし最も近い黒のピクセルからの距離が
予め規定されたしきい値以下であれば白のピクセルを黒
に変える膨張オペレータによって実行される。
の画像処理システム10によって行なわれる第2のステ
ップは、図3のブロック図で示されるように、ノイズフ
ィルタレーション、つまり図4の32で例示されるビッ
トマップ表示におけるノイズ信号32bの除去である。
このステップはもし最も近い黒のピクセルからの距離が
予め規定されたしきい値以下であれば白のピクセルを黒
に変える膨張オペレータによって実行される。
【0027】このステップは図5で特に示され、膨張前
の画像データは、41で示されるように、一グループの
黒のピクセル41bに非常に近く、かつ42で示される
ように膨張ステップの後単一のグループ42aを形成す
るために吸収される多数の孤立された黒のピクセル41
aを含む。この動作は、黒のピクセルを広げ、かつそれ
ゆえに孤立されたピクセルを一体に接続して、黒の対象
物の周囲にある孤立された黒のピクセルの数を大幅に減
少させる。
の画像データは、41で示されるように、一グループの
黒のピクセル41bに非常に近く、かつ42で示される
ように膨張ステップの後単一のグループ42aを形成す
るために吸収される多数の孤立された黒のピクセル41
aを含む。この動作は、黒のピクセルを広げ、かつそれ
ゆえに孤立されたピクセルを一体に接続して、黒の対象
物の周囲にある孤立された黒のピクセルの数を大幅に減
少させる。
【0028】単純な膨張アルゴリズムは、その周囲のす
べての入力ピクセルの連合であるよに出力ピクセルを設
定してもよい。
べての入力ピクセルの連合であるよに出力ピクセルを設
定してもよい。
【0029】膨張された画像42は中間であり、かつ黒
と白の対象物の領域に画像を大まかに分割するためにの
み使用される。プロセスの後半で、以下に述べられるよ
うに、これらの領域は分類分けされて、かつ元の画像の
ピクセルはそれらが存在するクラスに従って適当に彩色
される。
と白の対象物の領域に画像を大まかに分割するためにの
み使用される。プロセスの後半で、以下に述べられるよ
うに、これらの領域は分類分けされて、かつ元の画像の
ピクセルはそれらが存在するクラスに従って適当に彩色
される。
【0030】膨張によるノイズフィルタレーションは2
つの利点を与え、それは(a)もとの対象物の基本の形
状属性を維持すること、および(b)もとの画像の黒の
ピクセルがどのクラスに属するかについての後の決定を
容易にすることである。
つの利点を与え、それは(a)もとの対象物の基本の形
状属性を維持すること、および(b)もとの画像の黒の
ピクセルがどのクラスに属するかについての後の決定を
容易にすることである。
【0031】膨張は多くの方法で達成され得る。ビット
マップ上で行なわれるときは、それは単純なハードウェ
アまたはソフトウェアによって達成され得るが、ラン長
符号化された画像上で行なわれるときは、それはより複
雑である。
マップ上で行なわれるときは、それは単純なハードウェ
アまたはソフトウェアによって達成され得るが、ラン長
符号化された画像上で行なわれるときは、それはより複
雑である。
【0032】好ましくは、ラン長符号化の利点を利用す
るために、図6および図7のフロー図で、かつまたこの
発明の詳細な説明の終りにある付録Aで例示されるよう
に、以下のアルゴリズムに従って動作する特定の装置が
使用される。
るために、図6および図7のフロー図で、かつまたこの
発明の詳細な説明の終りにある付録Aで例示されるよう
に、以下のアルゴリズムに従って動作する特定の装置が
使用される。
【0033】
【輪郭検出(ブロック23)】このステップにおいて、
膨張によって得られた画像は対象物を分類してその輪郭
を抽出するために走査される。対象物の輪郭は黒と白の
ピクセルの間を分離する対象物の境界を追跡するライン
セグメントのチェーンとして規定される。もし対象物が
中実でなければ(つまりそれが穴を含んでいれば)、こ
れらの穴の輪郭も同様に抽出される。したがって、対象
物は1つより多い輪郭を有し得る。
膨張によって得られた画像は対象物を分類してその輪郭
を抽出するために走査される。対象物の輪郭は黒と白の
ピクセルの間を分離する対象物の境界を追跡するライン
セグメントのチェーンとして規定される。もし対象物が
中実でなければ(つまりそれが穴を含んでいれば)、こ
れらの穴の輪郭も同様に抽出される。したがって、対象
物は1つより多い輪郭を有し得る。
【0034】図10は輪郭抽出ステップを例示し、61
で示される黒の対象物は対象物61の境界を追跡するラ
インセグメントのチェーンから構成される輪郭62に転
換されることが理解されるであろう。
で示される黒の対象物は対象物61の境界を追跡するラ
インセグメントのチェーンから構成される輪郭62に転
換されることが理解されるであろう。
【0035】輪郭を抽出するためのかかるチェーン発生
のための多くのアルゴリズムが既知である。いくつかの
アルゴリズムは順次のアプローチを使用し、それによっ
て輪郭は他の輪郭が追跡される前に始めから終りまで追
跡される。しかしながら、このアプローチは画像上の多
くの走査という結果になり、特に画像が多くの大きな対
象物を含むときにそうであるので、したがって相当な時
間期間がかかり得る。
のための多くのアルゴリズムが既知である。いくつかの
アルゴリズムは順次のアプローチを使用し、それによっ
て輪郭は他の輪郭が追跡される前に始めから終りまで追
跡される。しかしながら、このアプローチは画像上の多
くの走査という結果になり、特に画像が多くの大きな対
象物を含むときにそうであるので、したがって相当な時
間期間がかかり得る。
【0036】好ましくは、単一の走査アプローチがこの
発明の方法で使用される。このアプローチにおいて、2
x2窓はラスター態様で画像とともに巻込まれる。ラス
ター走査はコンパクトなラン長コード化から再び利益を
得ることができる、なぜなら全体の画像の代わりに色遷
移の場所しか検査される必要はないからである。
発明の方法で使用される。このアプローチにおいて、2
x2窓はラスター態様で画像とともに巻込まれる。ラス
ター走査はコンパクトなラン長コード化から再び利益を
得ることができる、なぜなら全体の画像の代わりに色遷
移の場所しか検査される必要はないからである。
【0037】一走査アプローチの全体の考えは以下のと
おりである。窓は画像を走査しかつ窓から見られるパタ
ーンの型の表示および窓の中心の位置の表示を戻す。パ
ターンの各型は新しい対象物が開始され、継続されまた
は終えられるかどうかを決定するために別に処理され
る。現在の走査ラインによって交差されるすべての対象
物は平行に処理される。新しい対象物は常に最大点で始
まり、かつ最小点で終るが、すべての最大点が必ずしも
新しい対象物を開始させるまたはすべての最小点が常に
存在する対象物を終らせるわけではない。最小点には何
の問題もない、なぜならそれらに到達する時間までに
は、それらが真の終りの点であるか否かを決定するため
の十分な情報が既に手元にあるからである。しかしなが
ら、最大点には曖昧さという問題がある。最大点に遭遇
するときに、この点が存在する対象物の局部の最大であ
るかまたは新しい対象物の大域の最大であるかどうかは
必ずしも決定される訳ではない。
おりである。窓は画像を走査しかつ窓から見られるパタ
ーンの型の表示および窓の中心の位置の表示を戻す。パ
ターンの各型は新しい対象物が開始され、継続されまた
は終えられるかどうかを決定するために別に処理され
る。現在の走査ラインによって交差されるすべての対象
物は平行に処理される。新しい対象物は常に最大点で始
まり、かつ最小点で終るが、すべての最大点が必ずしも
新しい対象物を開始させるまたはすべての最小点が常に
存在する対象物を終らせるわけではない。最小点には何
の問題もない、なぜならそれらに到達する時間までに
は、それらが真の終りの点であるか否かを決定するため
の十分な情報が既に手元にあるからである。しかしなが
ら、最大点には曖昧さという問題がある。最大点に遭遇
するときに、この点が存在する対象物の局部の最大であ
るかまたは新しい対象物の大域の最大であるかどうかは
必ずしも決定される訳ではない。
【0038】述べられたプロセスにおいて、最大点は常
に新しい対象物の開始点であると考えられる。もし後に
それが存在する対象物の開始点でったことが発見されれ
ば、真のものと人工のものの2つの対象物は合併され
て、人工の対象物が削除される。
に新しい対象物の開始点であると考えられる。もし後に
それが存在する対象物の開始点でったことが発見されれ
ば、真のものと人工のものの2つの対象物は合併され
て、人工の対象物が削除される。
【0039】各最大点で、2つのチェーンが下方向に開
始され、かつ各最小点で2つのチェーンが接続される。
したがって、輪郭は始めは1つより多いチェーンから構
成され、かつ対象物が終るときのみチェーンは適切に接
続されて1つの閉ループの輪郭を形成する。各輪郭に対
して、2つのポインタが接続されて輪郭の右手および左
手側上の2つの対象物を指す。これらのポインタは対象
物間の包含関係を後で抽出することが可能である。
始され、かつ各最小点で2つのチェーンが接続される。
したがって、輪郭は始めは1つより多いチェーンから構
成され、かつ対象物が終るときのみチェーンは適切に接
続されて1つの閉ループの輪郭を形成する。各輪郭に対
して、2つのポインタが接続されて輪郭の右手および左
手側上の2つの対象物を指す。これらのポインタは対象
物間の包含関係を後で抽出することが可能である。
【0040】図11は特定のケースを例示し、図におい
て輪郭1はチェーンA−Fからなり、輪郭2はチェーン
G−Hからなりかつ輪郭3はチェーンI−Jからなる。
対象物1(背景)は輪郭1および3によって境界を定め
られ、対象物2は輪郭1および2によって境界を定めら
れ、対象物3は輪郭2によって境界を定められ、かつ対
象物4は輪郭3によって境界を定められることが理解さ
れるであろう。
て輪郭1はチェーンA−Fからなり、輪郭2はチェーン
G−Hからなりかつ輪郭3はチェーンI−Jからなる。
対象物1(背景)は輪郭1および3によって境界を定め
られ、対象物2は輪郭1および2によって境界を定めら
れ、対象物3は輪郭2によって境界を定められ、かつ対
象物4は輪郭3によって境界を定められることが理解さ
れるであろう。
【0041】図12および図13はこのステップのため
に使用され得るアルゴリズムの一例を例示し、かつ図1
4は図13のブロック71および72の動作について詳
述し、かつ異なった状態に対する決定表を例示する。こ
の発明の詳細な説明の終りの付録Bはこの目的のための
アルゴリズムの一例を例示する。
に使用され得るアルゴリズムの一例を例示し、かつ図1
4は図13のブロック71および72の動作について詳
述し、かつ異なった状態に対する決定表を例示する。こ
の発明の詳細な説明の終りの付録Bはこの目的のための
アルゴリズムの一例を例示する。
【0042】
【ツリー発生(ブロック24)】このステップにおい
て、対象物間の包含関係が評価され、かつかかる関係の
ツリーのような構造が発生される。この関係は分類のと
きに利用される、なぜなら1つの対象物内に含まれる対
象物に関する情報を有することはそれを適当なクラスに
割当てるために時として重要であるからである。この関
係は以前のステップで生み出された対象物および輪郭の
データベースから容易に抽出され得る。必要なことはた
だ、各対象物からのポインタをそれを含む対象物、つま
りその先行物に設定することである。このようにして、
ツリーのような構造が形成される。先行物を何も有さな
い1つの対象物があり、これは通常は白の背景である。
て、対象物間の包含関係が評価され、かつかかる関係の
ツリーのような構造が発生される。この関係は分類のと
きに利用される、なぜなら1つの対象物内に含まれる対
象物に関する情報を有することはそれを適当なクラスに
割当てるために時として重要であるからである。この関
係は以前のステップで生み出された対象物および輪郭の
データベースから容易に抽出され得る。必要なことはた
だ、各対象物からのポインタをそれを含む対象物、つま
りその先行物に設定することである。このようにして、
ツリーのような構造が形成される。先行物を何も有さな
い1つの対象物があり、これは通常は白の背景である。
【0043】対象物の先行物は以下のように発見され得
る。輪郭は常に反時計回りに指向されると仮定して、ま
ず輪郭のどれが最も外側であるかを発見し(対象物はも
しそれが穴を含めば1つより多い輪郭を有することが思
い出される)、かつそれからポインタをこの輪郭の右側
上の対象物を指すように設定する。この対象物が先行物
である。
る。輪郭は常に反時計回りに指向されると仮定して、ま
ず輪郭のどれが最も外側であるかを発見し(対象物はも
しそれが穴を含めば1つより多い輪郭を有することが思
い出される)、かつそれからポインタをこの輪郭の右側
上の対象物を指すように設定する。この対象物が先行物
である。
【0044】図15は包含関係を決定するステップを図
表で例示する。図15のグラフ92は画像91から得ら
れたツリーのような構造である。
表で例示する。図15のグラフ92は画像91から得ら
れたツリーのような構造である。
【0045】
【対象物測定(ブロック25)】これは各対象物の形状
属性を得るために対象物を測定することを含む。以下の
基本要素が用いられ、つまり(a)対象物の領域(ピク
セルで測定される)、(b)輪郭の数、および(c)各
輪郭の周囲長(ピクセルで測定される)である。これら
の基本要素から、以下のこと、つまり(a)延長、
(b)包領域、(c)包異常、(d)黒/白比率、
(e)オイラーの数および(f)はっきりした角の数が
決定される。
属性を得るために対象物を測定することを含む。以下の
基本要素が用いられ、つまり(a)対象物の領域(ピク
セルで測定される)、(b)輪郭の数、および(c)各
輪郭の周囲長(ピクセルで測定される)である。これら
の基本要素から、以下のこと、つまり(a)延長、
(b)包領域、(c)包異常、(d)黒/白比率、
(e)オイラーの数および(f)はっきりした角の数が
決定される。
【0046】延長は対象物を形成するラインの幅と対象
物の全体の寸法との間の比率を測定する。延長は以下の
ように計算される:
物の全体の寸法との間の比率を測定する。延長は以下の
ように計算される:
【0047】
【数1】
【0048】ここでAは対象物の領域であり、かつPは
対象物のペリメタである。包は対象物の境界を定める凸
状の多角形である。所与の組のポイントに対する凸状の
包を計算する速いアルゴリズムがある。
対象物のペリメタである。包は対象物の境界を定める凸
状の多角形である。所与の組のポイントに対する凸状の
包を計算する速いアルゴリズムがある。
【0049】包異常は包の幅と高さとの間の比率であ
る。黒/白比率は包領域と対象物の領域との間の比率で
ある。
る。黒/白比率は包領域と対象物の領域との間の比率で
ある。
【0050】オイラーの数は対象物における穴の数を示
す。それは1マイナス穴の数として規定される。
す。それは1マイナス穴の数として規定される。
【0051】はっきりした角の数は以下のように計算さ
れ、まず輪郭の多角形の近似が発生される。この近似は
数回発生され、各回により大きなエラーしきい値を有す
る。これは多角形セグメントの数がエラーしきい値の増
加に対して直線状に下降し続ける限り行なわれる。最後
の近似ははっきりした角の数の評価のために使用され
る。はっきりした角は95度より少ない角度を有する近
似している多角形における角である。
れ、まず輪郭の多角形の近似が発生される。この近似は
数回発生され、各回により大きなエラーしきい値を有す
る。これは多角形セグメントの数がエラーしきい値の増
加に対して直線状に下降し続ける限り行なわれる。最後
の近似ははっきりした角の数の評価のために使用され
る。はっきりした角は95度より少ない角度を有する近
似している多角形における角である。
【0052】図16は対象物測定ステップ(e)におけ
る多角形近似動作を行なうために使用され得る1つのア
ルゴリズムを例示するフローチャートである。
る多角形近似動作を行なうために使用され得る1つのア
ルゴリズムを例示するフローチャートである。
【0053】
【対象物分類(ブロック26)】このステップは対象物
をグラフィックスまたはテキストとして分類することを
含む。このステップにおいて、対象物はボトムアップ態
様で横断され、かつ前のステップで測られた測定値に従
って、かつツリーの連続する対象物に与えられたクラス
に従って分類される。分類は1組の予め規定された規則
およびしきい値に従って行なわれる。アルゴリズムCは
図17および図18のフロー図で例示されたような規則
およびしきい値の例である。
をグラフィックスまたはテキストとして分類することを
含む。このステップにおいて、対象物はボトムアップ態
様で横断され、かつ前のステップで測られた測定値に従
って、かつツリーの連続する対象物に与えられたクラス
に従って分類される。分類は1組の予め規定された規則
およびしきい値に従って行なわれる。アルゴリズムCは
図17および図18のフロー図で例示されたような規則
およびしきい値の例である。
【0054】
【出力発生(ブロック27)】このステップは図1の文
書4および6によってそれぞれ例示されるようなテキス
トおよびグラフィックスを表わす出力を発生することを
含む。
書4および6によってそれぞれ例示されるようなテキス
トおよびグラフィックスを表わす出力を発生することを
含む。
【0055】このステップにおいて、もとの画像が再び
読出されかつ異なった色で書戻される。白のピクセルは
白のままであるが、黒のピクセルはそれらが存する対象
物のクラスに従って変化する(各クラスは異なった色を
割当てられる)。2つの隣接する黒のピクセルは決して
異なった色に塗られない、なぜなら膨張動作がそれらが
異なった対象物と関連することを妨げ、したがって、そ
れらが異なったクラスかつ異なった色を有することを妨
げるからである。
読出されかつ異なった色で書戻される。白のピクセルは
白のままであるが、黒のピクセルはそれらが存する対象
物のクラスに従って変化する(各クラスは異なった色を
割当てられる)。2つの隣接する黒のピクセルは決して
異なった色に塗られない、なぜなら膨張動作がそれらが
異なった対象物と関連することを妨げ、したがって、そ
れらが異なったクラスかつ異なった色を有することを妨
げるからである。
【0056】黒のピクセルが再び塗られた後、全体のプ
ロセスが白のピクセルに対して繰り返され得る。つま
り、もし様々な白の対象物間を判別することが必要であ
れば、図3のフローチャートのブロック21−27のス
テップが再び実行されなければならないが、今回はステ
ップ2(ブロック22)、つまり膨張ステップは白のピ
クセルに対して行なわれるべきであって、黒のピクセル
に対して行なわれてはならない。
ロセスが白のピクセルに対して繰り返され得る。つま
り、もし様々な白の対象物間を判別することが必要であ
れば、図3のフローチャートのブロック21−27のス
テップが再び実行されなければならないが、今回はステ
ップ2(ブロック22)、つまり膨張ステップは白のピ
クセルに対して行なわれるべきであって、黒のピクセル
に対して行なわれてはならない。
【0057】出力発生の問題はそれが存在する対象物を
各黒のピクセルごとに発見するという問題に実際はな
る。この対象物は直接クラスを規定し、かつクラスはそ
のピクセルに対する新しい色を規定する。
各黒のピクセルごとに発見するという問題に実際はな
る。この対象物は直接クラスを規定し、かつクラスはそ
のピクセルに対する新しい色を規定する。
【0058】図19で例示されるような出力発生のため
に使用され得る1つのアルゴリズムは、この発明の詳細
な説明の終わりにあるアルゴリズムDにおいて例示され
る。
に使用され得る1つのアルゴリズムは、この発明の詳細
な説明の終わりにあるアルゴリズムDにおいて例示され
る。
【0059】この発明を1つの好ましい実施例に関連し
て説明してきたが、この発明の様々な修正および他の応
用が行なわれ得ることは理解されるであろう。
て説明してきたが、この発明の様々な修正および他の応
用が行なわれ得ることは理解されるであろう。
【0060】図3のフロー図は順次に行なわれるステッ
プを例示しているが、かかるステップはパイプラインの
態様で行なわれ得るしかつ好ましくは行なわれる。この
ように、入力窓を経て走査する間、対象物の終りが決定
されるとすぐ、対象物の出力の処理が対象物の最も高い
ラインから開始され得る。
プを例示しているが、かかるステップはパイプラインの
態様で行なわれ得るしかつ好ましくは行なわれる。この
ように、入力窓を経て走査する間、対象物の終りが決定
されるとすぐ、対象物の出力の処理が対象物の最も高い
ラインから開始され得る。
【0061】
【付録A】以下はラン長コード化された画像の膨張のた
めのアルゴリズムである。
めのアルゴリズムである。
【0062】d − 距離しきい値。 ラインi − 入力ライン数i。
【0063】ラインi ′ − 出力ライン数i。 ストリップi − 2d+1のラインのバッチ(ライン
i-d ′...,ラインi+d ).
i-d ′...,ラインi+d ).
【0064】
【数2】
【0065】パターンは同一の座標で始まりかつ終る2
d+1のラインセグメントを含むストリップにおけるス
ライスである(図8参照)。パターンはそのパターンを
構成するラインセグメントに沿う色遷移を何も含まない
最も広いスライスであるという意味において最大であ
る。Pk [i]はPk におけるi′番目のラインセグメ
ントの色である(図9参照)。
d+1のラインセグメントを含むストリップにおけるス
ライスである(図8参照)。パターンはそのパターンを
構成するラインセグメントに沿う色遷移を何も含まない
最も広いスライスであるという意味において最大であ
る。Pk [i]はPk におけるi′番目のラインセグメ
ントの色である(図9参照)。
【0066】
入力:画像が与えられたラン長フォーマット。
【0067】出力:対象物およびチェーンのリスト。 対象物は以下のものを含む: a.対象物の色を記述するカラーコード。
【0068】b.対象物の領域(ピクセルの数) c.対象物の輪郭を分割するチェーンへのポインタ。
【0069】チェーンは以下のものを含む: a.輪郭のセグメントを記述するチェーンコード。
【0070】b.チェーンの長さ(リンクの数) c.チェーンの両側上の対象物へのポインタ。
【0071】アルゴリズムは以下の変数を使用する: x,y − 現在の走査場所へのポインタ。
【0072】ライン0,ライン1 − 2つの連続する
入力ラインの内容を保持する。 gチェーン − 「成長する」チェーンのリスト。
入力ラインの内容を保持する。 gチェーン − 「成長する」チェーンのリスト。
【0073】チェーンp − gチェーンにおけるチェ
ーンへのポインタ。
ーンへのポインタ。
【0074】
【数3】
【0075】ステップ1で、フレーミングプロセスは画
像が読出されるときに同時発生的に行なわれ得る(ステ
ップ4および7)。ステップ10において、変数xは最
小ランオフセットの座標に進められ、このようにどのラ
ンもスキップされない。各ランは2回処理され、一度は
ライン0のメンバーとして、かつ一度はライン1のメン
バーとして処理される。
像が読出されるときに同時発生的に行なわれ得る(ステ
ップ4および7)。ステップ10において、変数xは最
小ランオフセットの座標に進められ、このようにどのラ
ンもスキップされない。各ランは2回処理され、一度は
ライン0のメンバーとして、かつ一度はライン1のメン
バーとして処理される。
【0076】
【付録C】以下は対象物分類のためのアルゴリズムであ
る。
る。
【0077】
【数4】
【0078】
【表1】
【0079】
【付録D】以下は出力発生のためのアルゴリズムであ
る。
る。
【0080】l − ランの長さ。 c − ランの色。
【0081】x,y − 画像における座標。
【0082】
【数5】
【0083】ステップ11において、ポイント(x,
y)を含む対象物がサーチされる。このサーチはもし輪
郭検出の段階で発見されたチェーンがこの段階で使用さ
れるために記録されれば、大幅に単純化され得る。これ
らのチェーンは常に最大点で始まり、かつ対になって下
方向に進展する。したがって、アルゴリズムはファイル
で下方向に進展しながら追跡することが可能であり、そ
の対のチェーンは特定のラインで活性であり、かつこの
知識を使って各対のチェーン間に広がる対象物を発見す
る。
y)を含む対象物がサーチされる。このサーチはもし輪
郭検出の段階で発見されたチェーンがこの段階で使用さ
れるために記録されれば、大幅に単純化され得る。これ
らのチェーンは常に最大点で始まり、かつ対になって下
方向に進展する。したがって、アルゴリズムはファイル
で下方向に進展しながら追跡することが可能であり、そ
の対のチェーンは特定のラインで活性であり、かつこの
知識を使って各対のチェーン間に広がる対象物を発見す
る。
【0084】この知識はこのプロセスをパイプラインで
可能にするためにさえも使用され得る。出力発生は新し
い対象物が完全に発見されかつ分類される分類モジュー
ルからの信号によってトリガされるであろう。
可能にするためにさえも使用され得る。出力発生は新し
い対象物が完全に発見されかつ分類される分類モジュー
ルからの信号によってトリガされるであろう。
【図1】この発明の方法の1つの応用を例示する全体の
絵で表わした図でありる。
絵で表わした図でありる。
【図2】(A)、(B)および(C)は異なったサイ
ズ、配向およびフォントにおけるグラフィックスおよび
テキストを含む典型的な文書を例示し、かつこの発明に
従ってそれが処理される結果を例示する図である。
ズ、配向およびフォントにおけるグラフィックスおよび
テキストを含む典型的な文書を例示し、かつこの発明に
従ってそれが処理される結果を例示する図である。
【図3】この発明に従ってテキストをグラフィックスか
ら分離するためにソース画像を分析する方法における主
要なステップを例示するフロー図である。
ら分離するためにソース画像を分析する方法における主
要なステップを例示するフロー図である。
【図4】図3の図における走査およびデジタル化ステッ
プ(a)を例示する図である。
プ(a)を例示する図である。
【図5】図3のフロー図のステップ(b)に従ってノイ
ズをフィルタするための膨張方法を例示する図である。
ズをフィルタするための膨張方法を例示する図である。
【図6】図3のフロー図におけるステップ(b)を行な
うための1つのアルゴリズムを例示するフロー図であ
る。
うための1つのアルゴリズムを例示するフロー図であ
る。
【図7】図3のフロー図におけるステップ(b)を行な
うための1つのアルゴリズムを例示するフロー図であ
る。
うための1つのアルゴリズムを例示するフロー図であ
る。
【図8】ステップ(b)を理解する際に役立つ図であ
る。
る。
【図9】ステップ(b)を理解する際に役立つ図であ
る。
る。
【図10】図3のフロー図における輪郭検出ステップ
(c)を例示する図である。
(c)を例示する図である。
【図11】ステップ(c)を行なう一例をより詳しく例
示する図である。
示する図である。
【図12】ステップ(c)を行なうために使用され得る
アルゴリズムを例示するフロー図である。
アルゴリズムを例示するフロー図である。
【図13】ステップ(c)を行なうために使用され得る
アルゴリズムを例示するフロー図である。
アルゴリズムを例示するフロー図である。
【図14】どのようにして異なった状態が取扱われるか
を示す図12および図13のアルゴリズムにおいて使用
される決定表の図である。
を示す図12および図13のアルゴリズムにおいて使用
される決定表の図である。
【図15】図3のフロー図におけるツリー発生ステップ
(d)を例示する図である。
(d)を例示する図である。
【図16】図3の対象物測定ステップ(e)における多
角形の近似を行なうために使用され得る1つのアルゴリ
ズムのフロー図である。
角形の近似を行なうために使用され得る1つのアルゴリ
ズムのフロー図である。
【図17】図3の分類ステップ(f)を行なう際に使用
され得る1つのアルゴリズムを例示するフロー図であ
る。
され得る1つのアルゴリズムを例示するフロー図であ
る。
【図18】図3の分類ステップ(f)を行なう際に使用
され得る1つのアルゴリズムを例示するフロー図であ
る。
され得る1つのアルゴリズムを例示するフロー図であ
る。
【図19】図3の出力発生ステップ(g)を行なうため
の1つのアルゴリズムを例示するフロー図である。
の1つのアルゴリズムを例示するフロー図である。
2 ソース文書 4 文書 6 文書 8 オプチカルスキャナ 10 画像処理システム 12 画像ディスク 14 メモリ 16 CPU 18 プロッタ
Claims (16)
- 【請求項1】 テキストをグラフィックスから分離する
ためにソース画像を分析する方法であって、 (a) 黒および白の対象物を含む2進画像を得るため
にソース画像を走査してデジタル化するステップと、 (b) フィルタされた2進画像を得るために2進画像
からノイズをフィルタして取除くステップと、 (c) フィルタされた2進画像から黒の対象物および
白の対象物の輪郭を抽出するステップと、 (d) 対象物間の包含関係を評価して、かつかかる関
係のツリーのような構造を発生するステップと、 (e) 各対象物の形状属性を得るために対象物を測定
するために前記輪郭を利用するステップと、 (f) 測定された形状属性に従ってグラフィックスま
たはテキストとして対象物の分類を行ない、かつそれか
ら包含関係のツリーのような構造を発生するステップ
と、さらに (g) それぞれグラフィックスおよびテキストを表わ
す出力を発生するために対象物の前記ソース画像および
前記分類を利用するステップとを含む、方法。 - 【請求項2】 ステップ(b)において、ノイズは黒の
ピクセルの膨張によってフィルタで取除かれる、請求項
1に記載の方法。 - 【請求項3】 ステップ(e)において、対象物はツリ
ーのルーツにある対象物で始まるトップダウンシーケン
スで測定される、請求項1または2のいずれかに記載の
方法。 - 【請求項4】 ステップ(c)において、フィルタされ
た2進画像から黒の対象物および白の対象物の輪郭を抽
出することは窓がラスタ態様においてフィルタされた2
進画像とともに巻込まれる単一の走査によって行なわれ
る、請求項1ないし3のいずれか1つに記載の方法。 - 【請求項5】 窓はラインに沿って画像を走査し、かつ
窓から見られるパターンの型の表示および窓の中心の表
示を戻し、各型のパターンは別に処理されて新しい対象
物が開始され、継続されまたは終えられるかどうかを決
定し、すべての対象物は平行に処理されている現在の走
査ラインと交差する、請求項4に記載の方法。 - 【請求項6】 窓走査の間に遭遇される最大点は新しい
対象物の開始点であると考えられるが、もし後に走査が
それが前に示された対象物の最大点であったことを示せ
ば、新しい対象物は以前に示された対象物のそれと合併
される、請求項5に記載の方法。 - 【請求項7】 ステップ(d)において、ツリーのよう
な構造は各対象物からのポインタをその先行物に設定す
ることにより発生され、対象物の先行物は対象物輪郭の
どれが最も外側のものであるかを決定することによっ
て、かつそれからポインタをその輪郭の一方側上の対象
物を指すように設定することによって発見される、請求
項1ないし6のいずれか1つに記載の方法。 - 【請求項8】 ステップ(e)において、対象物は各対
象物の以下の形状属性、つまり対象物の領域、輪郭の数
および各輪郭の周囲長を得るために測定される、請求項
1ないし7のいずれか1つに記載の方法。 - 【請求項9】 ステップ(e)において、以下の付加的
な属性、つまり延長、包領域、包異常、黒/白比率、オ
イラーの数、およびはっきりした角の数が測定された形
状属性から決定される、請求項8に記載の方法。 - 【請求項10】 はっきりした角の数は多角形のセグメ
ントの数がエラーしきい値の増加に対して直線状に降下
する限り、各発生がより大きなエラーしきい値を有する
状態で、輪郭の数個の多角形の近似を発生することによ
って、さらにはっきりした角が最後の多角形の近似が6
0度より少ない角を有するときに存在することを決定す
ることによって決定される、請求項9に記載の方法。 - 【請求項11】 ステップ(g)において、グラフィッ
クスおよびテキストを表わす発生された出力は異なった
画像の形状である、請求項1ないし10のいずれか1つ
に記載の方法。 - 【請求項12】 ステップ(g)において、グラフィッ
クスおよびテキストを表わす発生された出力は同一の画
像の異なった色の形状である、請求項1ないし10のい
ずれか1つに記載の方法。 - 【請求項13】 ソース画像は異なったサイズ、配向お
よび/またはフォントのテキストを含む、請求項1ない
し10のいずれか1つに記載の方法。 - 【請求項14】 ステップ(a)−(g)は、ノイズが
白のピクセルの膨張によってステップ(b)でフィルタ
で取除かれる場合を除き繰り返されて、その結果ソース
画像の白の対象物は分離され、それによって黒の背景に
対する白のテキストおよびグラフィックスの判別を与え
る、請求項2に記載の方法。 - 【請求項15】 ソース画像は黒のテキスト、白のテキ
スト、黒のグラフィックス、白のグラフィックス、黒お
よび白の背景ならびに黒および白のノイズを含む、請求
項1ないし10のいずれか1つに記載の方法。 - 【請求項16】 実質的に添付の図面に関連して説明さ
れかつ添付の図面に例示されたような、テキストをグラ
フィックスから分離するためにソース画像を分析する方
法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IL098293 | 1991-05-28 | ||
IL9829391A IL98293A (en) | 1991-05-28 | 1991-05-28 | A method for distinguishing between text and graphics |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH05166002A true JPH05166002A (ja) | 1993-07-02 |
Family
ID=11062477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4134588A Withdrawn JPH05166002A (ja) | 1991-05-28 | 1992-05-27 | ソース画像を分析する方法 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP0516576A2 (ja) |
JP (1) | JPH05166002A (ja) |
IL (1) | IL98293A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000062243A1 (fr) * | 1999-04-14 | 2000-10-19 | Fujitsu Limited | Procede et dispositif d'extraction de chaines de caracteres utilisant un composant de base d'une image de document |
JP2001195571A (ja) * | 2000-01-14 | 2001-07-19 | Sony Corp | 画像処理装置および方法、並びに記録媒体 |
US8792719B2 (en) | 2011-07-29 | 2014-07-29 | Brother Kogyo Kabushiki Kaisha | Image processing device determining attributes of regions |
US8830529B2 (en) | 2011-07-29 | 2014-09-09 | Brother Kogyo Kabushiki Kaisha | Image processing device for accurately identifying region in image without increase in memory requirement |
US8837836B2 (en) | 2011-07-29 | 2014-09-16 | Brother Kogyo Kabushiki Kaisha | Image processing device identifying attribute of region included in image |
US8929663B2 (en) | 2011-07-29 | 2015-01-06 | Brother Kogyo Kabushiki Kaisha | Image processing device identifying region in image as one of uniform region and nonuniform region |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0724229B1 (en) * | 1994-12-28 | 2001-10-10 | Canon Kabushiki Kaisha | Image processing apparatus and method |
US6389162B2 (en) | 1996-02-15 | 2002-05-14 | Canon Kabushiki Kaisha | Image processing apparatus and method and medium |
JP4454789B2 (ja) | 1999-05-13 | 2010-04-21 | キヤノン株式会社 | 帳票分類方法及び装置 |
US6738512B1 (en) * | 2000-06-19 | 2004-05-18 | Microsoft Corporation | Using shape suppression to identify areas of images that include particular shapes |
US7311256B2 (en) | 2000-12-19 | 2007-12-25 | Zih Corp. | Barcode optical character recognition |
US6832726B2 (en) | 2000-12-19 | 2004-12-21 | Zih Corp. | Barcode optical character recognition |
US7596270B2 (en) * | 2005-09-23 | 2009-09-29 | Dynacomware Taiwan Inc. | Method of shuffling text in an Asian document image |
US20160110599A1 (en) * | 2014-10-20 | 2016-04-21 | Lexmark International Technology, SA | Document Classification with Prominent Objects |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3128794A1 (de) * | 1981-07-21 | 1983-05-05 | Siemens AG, 1000 Berlin und 8000 München | Verfahren zum auffinden und abgrenzen von buchstaben und buchstabengruppen oder woertern in textbereichen einer vorlage, die ausser textbereichen auch graphik-und/oder bildbereiche enthalten kann. |
-
1991
- 1991-05-28 IL IL9829391A patent/IL98293A/en not_active IP Right Cessation
-
1992
- 1992-05-21 EP EP92630054A patent/EP0516576A2/en not_active Withdrawn
- 1992-05-27 JP JP4134588A patent/JPH05166002A/ja not_active Withdrawn
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2000062243A1 (fr) * | 1999-04-14 | 2000-10-19 | Fujitsu Limited | Procede et dispositif d'extraction de chaines de caracteres utilisant un composant de base d'une image de document |
US6701015B2 (en) | 1999-04-14 | 2004-03-02 | Fujitsu Limited | Character string extraction apparatus and method based on basic component in document image |
JP2001195571A (ja) * | 2000-01-14 | 2001-07-19 | Sony Corp | 画像処理装置および方法、並びに記録媒体 |
JP4547752B2 (ja) * | 2000-01-14 | 2010-09-22 | ソニー株式会社 | 画像処理装置および方法、並びに記録媒体 |
US8792719B2 (en) | 2011-07-29 | 2014-07-29 | Brother Kogyo Kabushiki Kaisha | Image processing device determining attributes of regions |
US8830529B2 (en) | 2011-07-29 | 2014-09-09 | Brother Kogyo Kabushiki Kaisha | Image processing device for accurately identifying region in image without increase in memory requirement |
US8837836B2 (en) | 2011-07-29 | 2014-09-16 | Brother Kogyo Kabushiki Kaisha | Image processing device identifying attribute of region included in image |
US8929663B2 (en) | 2011-07-29 | 2015-01-06 | Brother Kogyo Kabushiki Kaisha | Image processing device identifying region in image as one of uniform region and nonuniform region |
Also Published As
Publication number | Publication date |
---|---|
IL98293A (en) | 1994-04-12 |
EP0516576A3 (ja) | 1994-01-12 |
EP0516576A2 (en) | 1992-12-02 |
IL98293A0 (en) | 1992-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5050222A (en) | Polygon-based technique for the automatic classification of text and graphics components from digitized paper-based forms | |
JP4065460B2 (ja) | 画像処理方法及び装置 | |
US5410611A (en) | Method for identifying word bounding boxes in text | |
Shafait et al. | Performance comparison of six algorithms for page segmentation | |
Wang et al. | Classification of newspaper image blocks using texture analysis | |
JP3308032B2 (ja) | スキュー補正方法およびスキュー角検出方法およびスキュー補正装置およびスキュー角検出装置 | |
CN101453575B (zh) | 一种视频字幕信息提取方法 | |
JP3950777B2 (ja) | 画像処理方法、画像処理装置および画像処理プログラム | |
Yuan et al. | Text extraction from gray scale document images using edge information | |
US6711292B2 (en) | Block selection of table features | |
JP2002133426A (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
US6532302B2 (en) | Multiple size reductions for image segmentation | |
EP0483343A1 (en) | A polygon-based method for automatic extraction of selected text in a digitized document | |
JPH05166002A (ja) | ソース画像を分析する方法 | |
Liang et al. | Document layout structure extraction using bounding boxes of different entitles | |
JPH05225378A (ja) | 文書画像の領域分割システム | |
JP2001043313A (ja) | 文字切出し方法 | |
Sas et al. | Three-stage method of text region extraction from diagram raster images | |
JPH1125222A (ja) | 文字切り出し方法及び文字切り出し装置 | |
Rahman et al. | Text Information Extraction from Digital Image Documents Using Optical Character Recognition | |
Aparna et al. | A complete OCR system development of Tamil magazine documents | |
Bai et al. | Object Boundary Encoding—a new vectorisation algorithm for engineering drawings | |
JPS58197581A (ja) | 文字図形認識方法とその装置 | |
JPH0981743A (ja) | 文字・図形処理装置及び文字・図形処理方法 | |
CN111723804B (zh) | 图文分离装置、图文分离方法及计算机可读取记录介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A300 | Application deemed to be withdrawn because no request for examination was validly filed |
Free format text: JAPANESE INTERMEDIATE CODE: A300 Effective date: 19990803 |