JPS61107877A

JPS61107877A - 画像処理装置

Info

Publication number: JPS61107877A
Application number: JP59229265A
Authority: JP
Inventors: Hiroshi Tanioka; 宏谷岡
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1984-10-31
Filing date: 1984-10-31
Publication date: 1986-05-26
Anticipated expiration: 2011-06-12
Also published as: JP2505401B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［技術分野］本発明は２値化された画像信号のブロック符号化を行う
画像処理装置に関する。

［従来技術］画像を複写機等の読み取り装置で読み取りｚ値化後　、
例えば光デイスク装置等にファイルする時、符号化して
データ圧縮を行なう事が望ましい、しかしながら、画像
信号は画調に応じて冗長度が異なる為に、文字、写真１
図形等が混在する、１枚の画像全域に対して従来のよう
に１つの符号化方法のみでデータ圧縮する事は圧縮効率
が低くなる。

［目的］本発明は上記従来例の欠点に鑑みてなされたもので、そ
の目的は２値化された画像信号を高効率でデータ圧縮す
る画像処理装置を提供する所にある。

［実施例］本発明の概要はｚ値化画像信号中、一定の大きさの文字
列を含む画像領域をメツシュに分割し、個々の文字をそ
のメツシュ内に格納できるようなメツシュの大きさを認
識し、該メツシュ毎に文字認識を行うと共に、認識した
文字に対して符号化することを特徴とする。

更に、上記メツシュに格納出来ない、つまり大きさの異
なる文字、あるいは図形、写真領域を分離して、これら
の画像領域に従来の画素ベースでの符号化を適用するこ
とを特徴とする。

上記特徴を踏えて、以下図面を参照しながら本発明に係
る実施例を具体的に説明する。

第１図は一実施例である画像処理装置のブロック図であ
る。

ｌはＣＣＤ等固体撮像素子による画像読み取り部である
。読み取られた画像は２において２値化処理され、また
文字列をページメモリ内アドレス空間座標に合わせる為
に、もし傾けて画像が入力された場合には回転させて座
標整形を行ない、ページメモリ５に格納する。３は本発
明に特徴的なメツシュ分割符号化処理部と名付けられる
べき部分である。符号化されたデータはデータ貯蔵手段
４に格納される。

一方、複合化部８ではメツシュの大きさと符号化データ
に基づき、フォントＲＯＭ９に格納された活字フォント
を読み出し、順次ラインメモリ７の空間に活字列として
再生格納し、出力装置６で可視像として出力する。

次に、本実施例のメツシュ分割画像処理部３に於ける画
像処理の概略について第２図のフローチャートに基づい
てステップ毎に説明する。

＜ステップ２０＞・・・メツシュサイズの決定ページメ
モリ５に蓄えられた１ページの画像データＤ　（ｘ、ｙ
）からＸ　ｒ　’！両方向における黒ドツト数のヒスト
グラムを求める。但し、ｘ、ｙはページメモリ５内の適
当な直交座標軸である。

Ｘ方向のヒストグラムを求める時は、あるＸ座標値に対
する全てのｙ座標値における黒ドツト数を計数し、これ
を全てのＸ座標値について行う事によりＸ方向のヒスト
グラムを作成する。Ｘ方向におけるヒストグラムを作成
する時も、あるｙ座標値に対する全てのＸ座標値におけ
る黒ドツト数を求めるようにする。

上記方法を第３図に示すような文章の文字列に適用する
と、Ｘ方向のヒストグラムについては第４図（ａ）の如
く、Ｘ方向のヒストグラムについては第４図（ｂ）の如
く得られる。第４図（ａ）（ｂ）のヒストグラムにおけ
る“谷”は夫々文字間、行間の空白と考えられる。第３
図の如く、文字の大きさが概ね一定している文章の時は
第４図（ａ）、（ｂ）に示される如く、そのヒストグラ
ムには周期性がある。しかしながら、異なった大きさの
文字が混在する場合、あるいは図形等が含まれた場合は
ヒストグラムの形状は周期性がくずれる。

一般に１ページ内の文字の大きさは全字数の８割程度が
同一の大きさである。従って、第３図に示す各方向にお
ける黒ドツト数の総和分布を所定閾値Ｓｘ、Ｓｙを用い
れば、文字位置の座標（ＸＩ　＋　Ｙ＋　）、（Ｘｚ　
ｌ　ｙｚ）、（Ｘ３１　ｙ３　）＋””・・・が得られ
る。そこで、（Ｘ２−ＸＩ　）、（Ｘ３−Ｘ２　）ｌ　
（Ｘａ　−Ｘａ　）、・”　（Ｘａ　−Ｘｎ−ｔ）　・
・・、及び（Ｆｚ　−ｙｒ　Ｌ　（Ｙ３−ｙｚ）＋　（
Ｖａ−Ｖ２Ｃ（ｙｓ　　ｙａ）、・・・・・・（ｙ％　
−Ｖ　ｎ−＋　）　＋・・・・・・を求めてヒストグラ
ム化すれば第５図（ａ）　、　（ｂ）が求められる１度
数が最大となる座標値をＨｚ、Ｍｙとすれば、ステップ
２０で求めるメツシュの大きさはＸ方向についてはＨｚ
−画素Ｘ方向についてはＸ！一画素大きさとすればよい
、この大きさのメツシュで文字列を区切ればほとんどの
文字は該メツシュ内に１ケづつ含まれる事となる。

更に、精度よく文字の大きさを決定する事も　　（ＸＩ
　　　−Ｘ　　　’　　　ｓ　　　）　　　、’（Ｘｚ
　　　−Ｘ　　　’２　　　）　　　−（ＸＭ　−ｘ〜
′　）及び（ｙｒ　−”１　′＋　）　　、　（ｙｚ−
３”　２　）・・・（ｙ４−ｙ＝’　　）を求めて同じ
くヒストグラム化しその最大値を求めれば可能である。

そのように決定した文字域を第６図のＭ！’ＸＭ７’と
する。

第６図は第３図のテキストがＭｘＸＭｙの大きさのメツ
シュに分割された様子を示す（又、文字域として認識さ
れたＭｘ’ＸＭｙ’をも示す）、第６図で明白な様に本
発明によるメツシュはその内部に１文字が含まれるとと
もに下地の空白部分をも内部に包含出来る。後述するが
、この空白部分と文字を含めて符号化を行なう為に本発
明の符号化法の圧ＩＩ率は極めて向上する。

ところで、上述の符号化法は文字の大きさが統一されて
いる文書に対しては極めて大きな圧縮率を期待出来るが
、一般の文書は第３図に示す様に文字の大きさが統一さ
れている場合は少なく、また図形、写真領域を含むこと
がほとんどである為に１ペ一ジ全面を前述したメツシュ
で区切り符号化しても圧縮率の向上は期待できない。

そこで、次のステップ２１では上記メツシュを適用出来
ない領域の検出アルゴリズムについて詳説する。

くステップ２１〉・・・・・・メツシュ分割による不適
合画像域の判定メツシュで分割する事が適当でない画像域として次のよ
うなものが挙げられる。

■大きさの異なる文字（文章） ■図形、写真領域 ■下地が白でない（背景十文字）文字領域■プロポーシ
ョナル印字原稿ステップ２１は上記■〜■の画像が第６図の如く規則的
な文字列の中に混在する場合についてそれらを識別する
方法であり、以下に説明する。

第６図の文字列と■の大きさの異なる文字（第７図）が
混在している場合は、前述のステップ２０の方法によっ
て求めたメツシュＭｘＸＭマを大きさの異る文字列に適
用すると、第７図の１１〜Ｍ−４の如く分割される場合
がある。

例えばＭ−１のメツシュに関して説明すれば、メツシュ
の下方の空白の部分（行間空白）にまで文字の一部が含
まれている。従って、メツシュ内の文字域を特定し、そ
の文字域外の部分の黒画素の有無を調べれば大きさの異
なる文字を含む画像域を識別出来る。この時メツシュ内
の文字域の決定にはＭｘ　、　Ｍ７のうち小さい方で構
成したメツシュ即ち、第６図においてはＸ！ンｘテであ
るからＭｘＸＭｘをメツシュ内の文字域と決定しても良
いし、又さらに正確に求めるには、前述したように単に
文字間隔のみを求めるのではなく、直接その文字域Ｍｘ
’ＸＭ！’から文字域外の黒画素の有無を調べても良い
。

ところで大きさの異なる文字であっても、第７図中の１
４の°様に上記文字域該に黒ドツトがない場合も有り得
る。しかしながら隣接するメツシュド３では明らかに該
メツシュに不適合であると識別出来る。つまり、ステッ
プ２１においては各メツシュ毎に適合性を判定し、次の
ステップ２２において二次元的に不適合メツシュを判定
し不適合領域を決定出来る。

■の図形、写真領域及び■の背景に画像情報を持ってい
る領域に対しても上述した処理により不適合領域と判定
出来る。

ただ、第６図において、隣接するメツシュの文字領域内
に例えばＸ軸に平行な直線が存在した場合は上述の処理
では不適合領域の判定は出来ない、従って、Ｍｘ、Ｍｙ
を比較し、長い方、つまり本実施例ではＹ軸方向のメツ
シュ上に黒ドツトが数点存在するか否かの判定を行なう
、もし、存在した場合は該軸で分割されるメツシュ領域
を不適合と判断し１．）、述した直線を°識別出来るこ
とになる。

くステップ２２＞・・・・・・符号化領域の分離本ステ
ップではステップ２１で判定した不適合性に基づき、画
像をその符号化法の違いによって２分割する。

■ＭＨ（Ｍｏｄｉｆｉｅｄ　）ｌｕＨｍａｎ方式）　、
ＭＲ（Ｍｏｄｉｆｉｅｄ　Ｒ，Ｅ、Ａ、Ｄ方式）等、画
素ドツト次元での符号化すべき領域 ■前述のメツシュ分割に基づいて文字符号化すべき領域つまり本発明によって１ページの大部分（白地領域を含
む）は文字の大きさによって１文字を含んでメツシュ分
割される為に後述する符号コード化が可能であるが、中
間調部あるいは図形、線画領域は既存のドツト次元での
符号化を適用するのが望ましい。

例えば金弟８図に示すように１ページをメツシュに分割
しステップ２１によって不適合とされるメツシュ（■で
記述）が点在すると仮定すれば、符号化領域の分離は例
えば次のようにして行う。

Ｘ方向に連なるメツシュ列をＶｔメツシュライン、Ｙ２
メツシュライン・・・・・・Ｙ　２８メツシユラインと
名づけ、各メツシュライン中に不適合メツシュが１つで
もあれば、該メツシュラインはＸ方向に対してドツト次
元での符号化■を行なう０本実施例ではＭＨ符号化を行
−なう。

従って、第８図においてはＹ２〜Ｙ４　、　Ｙ６　、　
Ｙ１４〜Ｙ１８　　Ｙ２ＧのメツシュラインはＭ′Ｈ符
号化、その他は全て本発明によるメツシュ分割文字符号
化を行なう。

尚、本発明によるメツシュ分割は黒ドツトの存在しない
領域は適合メツシュとして扱うことになるから圧縮率向
上がはかれる。また、上述の分離精度を上げる為に、上
記した不適合メツシュラインをはさむｙ方向の２列の適
合メツシュラインを不適合メツシュラインとして扱いＭ
Ｈ符号化を行うことを提案する。

くステップ２３〉・・・・・・メツシュ分割文字符号化
くステップ２１＞及びくステップ２２〉において１ペー
ジをＭｘＸＭ７に分割し、かつ該メツシュ内には１文字
格納されているメツシュか否かの判定が終了している為
に、ステップ２３においては不適合メツシュに対しては
ＭＨ符号化を行ない、適合メツシュ内の文字に対しては
メツシュ毎に文字の認識を行なう。

この種の認識手法にはすでに各種の方式が提案されてお
り、基本的にはどの方式を適用して・も実現出来る０本
実施例においては、Ｄ　Ｐ　（［］７ｎａｍｉｃＰａｔ
ｔｅｒｎ）マツチング法を用いる。ＤＰマツチング法は
動的計画法を基にしたパターンマツチング手法であり、
入カバターンと登録しである辞書パターンとの距離を算
出する時、パターンを非線形に伸縮させてパターン全体
として見た場合の距離が最少になるようにマツチングす
る手法である。用いる辞書パターンは常用漢字的２００
０及びその他のフォントであり、認識した文字は各々２
バイトのたとえば２×アスキーコードに符号化する。

くステップ２４〉・・・・・・データの貯蔵データ貯蔵
手段への貯蔵はページ毎に、１つのページは更にメツシ
ュライン毎のレコードに分割されている。ページ毎に有
するパラメータとじてはメツシュの大きさＨｚ　、　Ｍ
ｙがあり、メツシュライン毎のパラメータとしては該符
号化が適用されたか否かを表わすメツシュライン毎の先
頭に付加される符号種別フラグである。符号種別フラグ
は本実施例においては画素ドツトの符号化が適用される
メツシュはＭＨ符号化を適用する為にメツシュライン毎
に切り換わる２種の符号化データでよい。

次に第９図のフローチャートに基づいて、第２図の制御
フローをより具体的に説明する。

ステップ１００にて前述した方法によりメツシュ大きさ
Ｈｚ、Ｈテを決定する。

くステップ１０２）ページメモリ５の１頁分の画像信号をＭｘ×Ｍｙのメツ
シュに分割する。

くステップ１０４＞ｙ方向にＭＹの幅を持つメツシュ列を１ライン取り出す
。

くステップ１０６〉ステップ１０４で取り出したｌラインの中から順に１メ
ツシユずつ画像信号を取り出す。

くステップ１０８〉当該メツシュの文字域外に黒ドツトが有るか判定する。

大きさの異なった文字や写真などの画像と定型の大きさ
の文字とが判別される。黒ドツトが有る（ＹＥＳ）なら
ばステップ１１４で不適合と判定される。

くステップ１１０〉ステップ１０８での判定が文字域外に黒ドツトが存在し
ない（Ｎｏ）というのであれば、さらにステップ１１０
でＹ軸上に黒ドツトが存在するかを調べてメツシュ内に
Ｘ軸方向に平行な直線が存在しないか判定する。もし存
在するならば不適合と判定される（ステップ１１４）。

上記のいずれの場合にも黒ドツトが存在しないならば、
そのメツシュは適合と判断する（ステップ１１２）。

くステップ１１６〉ステップ１１６ではＭｙの幅を持つメツシュ列の全ての
メツシュが適合／不適合について判定されたか否かを判
断する。未だ全メツシュの判定が終了していないのなら
ばステップ１０６へ戻り、前、記フローを繰り返す。

くステップ１１８＞当該１メツシユラインの全メツシュについて判定が終了
したら、ステップ１１８で適合／不適合の判断結果を調
べる。１つでも不適合なメツシュが存在すればＭ、Ｈ符
号化を行い（ステップ１２６）、Ｍ、Ｈ符号化を行なっ
た事を示す符号化種別フラッグ及びＴｅｒｍｉｎａｔｉ
ｎｇ　Ｃｏｄｅ、　Ｍａｋｅ−ｕｐ　Ｃｏｄｅを作成す
る（ステップ１２８）くステップ１２０〜１２４〉１メツシユライン内の全メツシュが適合と判定されたな
らば、メツシュ分割文字符号化を行い（ステップ１２０
）、　　メツシュ内の文字を前述したり、Ｐマツチング
に従って文字認識を行ない２バイトのアスキーコードに
変換する。

くステップ１３０〜１３４〉各メツシュラインの符号化種別コード及びＴｅｒｍｉｎ
ａｔｉｎｇ　Ｃｏｄｅ等を、そして更にそのメツシュラ
インが１頁の最初のラインであればＭｘ、Ｍｙをデータ
として追加してデータ貯蔵手段４に格納する。

くステップ１３６〜１４０〉１頁について全部終了するまでステップ１０４以降を繰
り返す。

復号化は次のようにする。データ貯蔵手段４からページ
毎のメツシュライン毎のレコードを読出し最初のライン
のデータに記憶されたメツシュの大きさデータＮｘ　、
　Ｍｙに基づき、例えば本実施例の場合にはＸ方向の画
素数ＸＭｙ分のラインメモリを用意し、ＭＨ符号化を行
なったメツシュラインは１ラインずつ復号し、一方、メ
ツシュ分割文字符号化されたメツシュラインは２バイト
ずつキャラクタコードから用意したフォントＲＯＭより
該当する文字をメツシュ大きさ内に格納出来る大きさに
変換してドツトレベルに落とす、尚、メツシュ内の文字
外の領域は全て白と復号する。

以上の処理を各メツジュライン毎に繰り返し行ない、１
ページを復号化する。

以上説明したように本実施例は、１枚原稿中の文字の大
きさは大部分統一されていることに着目し、行間空白及
び該文字をも含むメツシュを用いて文字認識後符号化を
行なったが、変形例としてステップ２２において符号化
領域の分離後、ドツト次元の符号化を適用すべきと判定
された領域であってもその領域が異なる大きさの文字を
含んでいるのみであれば、その領域に対して更に第２の
メツシュ分割を行ない再度文字認識を行なう事により第
２のメツシュ分割文字符号化が可能でありさらに効率の
良い符号化が実現出来る。

又、プロポーショナルな文字文書に対しては文字の大き
さを認識後、メツシュ内に割り付けて再編集すれば本発
明を適用することも可能となる。

［効果コ以上説明したように、本発明の画像処理装置によれば大
幅なデータ圧縮率の向上が図れる。

又更に、′本発明の１態様によれば画像が文字として認
識出来さえすれば、ＲＯＭ内の文字によって置き換わる
為に複合化された文字の品位が向上する。

更に、又、本願発明はＯＣＲによる文字切出し技術にも
応用することができ、新聞から雑誌まで、種々の書式未
知の紙面内の文字を正確に選択的に切出すことができ、
延いては認識率の向上につながる。又、画素単位で読み
取ったデータは他の切出し方法により切出したり、ある
いはりジュツト（読み取り不能）文字としてディスプレ
イに表示させるようにすることも可能である。

【図面の簡単な説明】

第１図は本発明に係る一実施例のブロック図、第２図は
実施例の処理フローの概略図、第３図はページメモリ内
の入力原稿を視覚的に表現した図、第４図Ｃ＆）、（ｂ）は夫々Ｘ　＋　３’方向のヒスト
グラム、第５図（ａ）、（ｂ）は夫々ｘ、ｙ方向におけるメツシ
ュの大きさの決定方法を示した図。第６図は決定されたメツシュによって入力原稿が分割さ
れた図。第７図は同一メツシュを大きさの異なり文字に適用した
図、第８図はメツシュ分割された１頁の画像信号が適合／不
適合に判定された結果の１例の図、第９図は一■御部の
制御フローチャートである。図中、５・・・ページメモリ、３・・・メツシュ分割符
号化処理部、４・・・データ貯蔵手段、９・・・フォン
トＲＯＭである。第１図第２図第３！！Ｉ第４図　ＣＧ）崖教 □　　　　第４図（ｂ）叡第５図　（Ｇ）准救Ｘ度　第５図　（ｂ）叡第６図Ｍ−４第８図

Claims

【特許請求の範囲】

（１）２値化画像を記憶する記憶手段と、該記憶手段の
記憶空間を少なくとも１文字が含まれる矩形メッシュに
分割する分割手段と、該メッシュにに含まれる画像域を
識別する識別手段と、該識別手段の識別結果に応じて該
画像域を第１又は第２の符号化法に基づき圧縮符号化す
る符号化手段とを備えた画像処理装置。
（２）分割手段は記憶手段内の２値化画像をメッシュの
縦横両方向について積算し、該積算値と所定の閾値との
大小から該メッシュの大きさを決定する事を特徴とする
特許請求の範囲第１項記載の画像処理装置。
（３）識別手段はメッシュ内の黒画素の位置によつてメ
ッシュ内に文字が包含されるか否かを認識し、符号化手
段はメッシュ内に文字が包含されている時は文字として
認識し符号化する第１の符号化法を適用し、文字以外の
時は画素単位で符号化する第２の符号化法を適用する事
を特徴とする特許請求の範囲第２項記載の画像処理装置
。