[go: up one dir, main page]

JPS61107877A - 画像処理装置 - Google Patents

画像処理装置

Info

Publication number
JPS61107877A
JPS61107877A JP59229265A JP22926584A JPS61107877A JP S61107877 A JPS61107877 A JP S61107877A JP 59229265 A JP59229265 A JP 59229265A JP 22926584 A JP22926584 A JP 22926584A JP S61107877 A JPS61107877 A JP S61107877A
Authority
JP
Japan
Prior art keywords
mesh
encoding
character
picture
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP59229265A
Other languages
English (en)
Other versions
JP2505401B2 (ja
Inventor
Hiroshi Tanioka
宏 谷岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP59229265A priority Critical patent/JP2505401B2/ja
Priority to DE19853538639 priority patent/DE3538639A1/de
Publication of JPS61107877A publication Critical patent/JPS61107877A/ja
Priority to US07/214,876 priority patent/US4959868A/en
Application granted granted Critical
Publication of JP2505401B2 publication Critical patent/JP2505401B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Image Processing (AREA)
  • Facsimile Image Signal Circuits (AREA)
  • Processing Or Creating Images (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [技術分野] 本発明は2値化された画像信号のブロック符号化を行う
画像処理装置に関する。
[従来技術] 画像を複写機等の読み取り装置で読み取りz値化後 、
例えば光デイスク装置等にファイルする時、符号化して
データ圧縮を行なう事が望ましい、しかしながら、画像
信号は画調に応じて冗長度が異なる為に、文字、写真1
図形等が混在する、1枚の画像全域に対して従来のよう
に1つの符号化方法のみでデータ圧縮する事は圧縮効率
が低くなる。
[目的] 本発明は上記従来例の欠点に鑑みてなされたもので、そ
の目的は2値化された画像信号を高効率でデータ圧縮す
る画像処理装置を提供する所にある。
[実施例] 本発明の概要はz値化画像信号中、一定の大きさの文字
列を含む画像領域をメツシュに分割し、個々の文字をそ
のメツシュ内に格納できるようなメツシュの大きさを認
識し、該メツシュ毎に文字認識を行うと共に、認識した
文字に対して符号化することを特徴とする。
更に、上記メツシュに格納出来ない、つまり大きさの異
なる文字、あるいは図形、写真領域を分離して、これら
の画像領域に従来の画素ベースでの符号化を適用するこ
とを特徴とする。
上記特徴を踏えて、以下図面を参照しながら本発明に係
る実施例を具体的に説明する。
第1図は一実施例である画像処理装置のブロック図であ
る。
lはCCD等固体撮像素子による画像読み取り部である
。読み取られた画像は2において2値化処理され、また
文字列をページメモリ内アドレス空間座標に合わせる為
に、もし傾けて画像が入力された場合には回転させて座
標整形を行ない、ページメモリ5に格納する。3は本発
明に特徴的なメツシュ分割符号化処理部と名付けられる
べき部分である。符号化されたデータはデータ貯蔵手段
4に格納される。
一方、複合化部8ではメツシュの大きさと符号化データ
に基づき、フォントROM9に格納された活字フォント
を読み出し、順次ラインメモリ7の空間に活字列として
再生格納し、出力装置6で可視像として出力する。
次に、本実施例のメツシュ分割画像処理部3に於ける画
像処理の概略について第2図のフローチャートに基づい
てステップ毎に説明する。
<ステップ20>・・・メツシュサイズの決定ページメ
モリ5に蓄えられた1ページの画像データD (x、y
)からX r ’!両方向における黒ドツト数のヒスト
グラムを求める。但し、x、yはページメモリ5内の適
当な直交座標軸である。
X方向のヒストグラムを求める時は、あるX座標値に対
する全てのy座標値における黒ドツト数を計数し、これ
を全てのX座標値について行う事によりX方向のヒスト
グラムを作成する。X方向におけるヒストグラムを作成
する時も、あるy座標値に対する全てのX座標値におけ
る黒ドツト数を求めるようにする。
上記方法を第3図に示すような文章の文字列に適用する
と、X方向のヒストグラムについては第4図(a)の如
く、X方向のヒストグラムについては第4図(b)の如
く得られる。第4図(a)(b)のヒストグラムにおけ
る“谷”は夫々文字間、行間の空白と考えられる。第3
図の如く、文字の大きさが概ね一定している文章の時は
第4図(a)、(b)に示される如く、そのヒストグラ
ムには周期性がある。しかしながら、異なった大きさの
文字が混在する場合、あるいは図形等が含まれた場合は
ヒストグラムの形状は周期性がくずれる。
一般に1ページ内の文字の大きさは全字数の8割程度が
同一の大きさである。従って、第3図に示す各方向にお
ける黒ドツト数の総和分布を所定閾値Sx、Syを用い
れば、文字位置の座標(XI + Y+ )、(Xz 
l yz)、(X31 y3 )+””・・・が得られ
る。そこで、(X2−XI )、(X3−X2 )l 
(Xa −Xa )、・” (Xa −Xn−t) ・
・・、及び(Fz −yr L (Y3−yz)+ (
Va−V2C(ys  ya)、・・・・・・(y% 
−V n−+ ) +・・・・・・を求めてヒストグラ
ム化すれば第5図(a) 、 (b)が求められる1度
数が最大となる座標値をHz、Myとすれば、ステップ
20で求めるメツシュの大きさはX方向についてはHz
−画素X方向についてはX!一画素大きさとすればよい
、この大きさのメツシュで文字列を区切ればほとんどの
文字は該メツシュ内に1ケづつ含まれる事となる。
更に、精度よく文字の大きさを決定する事も  (XI
   −X   ’   s   )   、’(Xz
   −X   ’2   )   −(XM −x〜
′ )及び(yr −”1 ′+ )  、 (yz−
3” 2 )・・・(y4−y=’  )を求めて同じ
くヒストグラム化しその最大値を求めれば可能である。
そのように決定した文字域を第6図のM!’XM7’と
する。
第6図は第3図のテキストがMxXMyの大きさのメツ
シュに分割された様子を示す(又、文字域として認識さ
れたMx’XMy’をも示す)、第6図で明白な様に本
発明によるメツシュはその内部に1文字が含まれるとと
もに下地の空白部分をも内部に包含出来る。後述するが
、この空白部分と文字を含めて符号化を行なう為に本発
明の符号化法の圧II率は極めて向上する。
ところで、上述の符号化法は文字の大きさが統一されて
いる文書に対しては極めて大きな圧縮率を期待出来るが
、一般の文書は第3図に示す様に文字の大きさが統一さ
れている場合は少なく、また図形、写真領域を含むこと
がほとんどである為に1ペ一ジ全面を前述したメツシュ
で区切り符号化しても圧縮率の向上は期待できない。
そこで、次のステップ21では上記メツシュを適用出来
ない領域の検出アルゴリズムについて詳説する。
くステップ21〉・・・・・・メツシュ分割による不適
合画像域の判定 メツシュで分割する事が適当でない画像域として次のよ
うなものが挙げられる。
■大きさの異なる文字(文章) ■図形、写真領域 ■下地が白でない(背景十文字)文字領域■プロポーシ
ョナル印字原稿 ステップ21は上記■〜■の画像が第6図の如く規則的
な文字列の中に混在する場合についてそれらを識別する
方法であり、以下に説明する。
第6図の文字列と■の大きさの異なる文字(第7図)が
混在している場合は、前述のステップ20の方法によっ
て求めたメツシュMxXMマを大きさの異る文字列に適
用すると、第7図の11〜M−4の如く分割される場合
がある。
例えばM−1のメツシュに関して説明すれば、メツシュ
の下方の空白の部分(行間空白)にまで文字の一部が含
まれている。従って、メツシュ内の文字域を特定し、そ
の文字域外の部分の黒画素の有無を調べれば大きさの異
なる文字を含む画像域を識別出来る。この時メツシュ内
の文字域の決定にはMx 、 M7のうち小さい方で構
成したメツシュ即ち、第6図においてはX!ンxテであ
るからMxXMxをメツシュ内の文字域と決定しても良
いし、又さらに正確に求めるには、前述したように単に
文字間隔のみを求めるのではなく、直接その文字域Mx
’XM!’から文字域外の黒画素の有無を調べても良い
ところで大きさの異なる文字であっても、第7図中の1
4の°様に上記文字域該に黒ドツトがない場合も有り得
る。しかしながら隣接するメツシュド3では明らかに該
メツシュに不適合であると識別出来る。つまり、ステッ
プ21においては各メツシュ毎に適合性を判定し、次の
ステップ22において二次元的に不適合メツシュを判定
し不適合領域を決定出来る。
■の図形、写真領域及び■の背景に画像情報を持ってい
る領域に対しても上述した処理により不適合領域と判定
出来る。
ただ、第6図において、隣接するメツシュの文字領域内
に例えばX軸に平行な直線が存在した場合は上述の処理
では不適合領域の判定は出来ない、従って、Mx、My
を比較し、長い方、つまり本実施例ではY軸方向のメツ
シュ上に黒ドツトが数点存在するか否かの判定を行なう
、もし、存在した場合は該軸で分割されるメツシュ領域
を不適合と判断し1.)、述した直線を°識別出来るこ
とになる。
くステップ22>・・・・・・符号化領域の分離本ステ
ップではステップ21で判定した不適合性に基づき、画
像をその符号化法の違いによって2分割する。
■MH(Modified )luHman方式) 、
MR(Modified R,E、A、D方式)等、画
素ドツト次元での符号化すべき領域 ■前述のメツシュ分割に基づいて文字符号化すべき領域 つまり本発明によって1ページの大部分(白地領域を含
む)は文字の大きさによって1文字を含んでメツシュ分
割される為に後述する符号コード化が可能であるが、中
間調部あるいは図形、線画領域は既存のドツト次元での
符号化を適用するのが望ましい。
例えば金弟8図に示すように1ページをメツシュに分割
しステップ21によって不適合とされるメツシュ(■で
記述)が点在すると仮定すれば、符号化領域の分離は例
えば次のようにして行う。
X方向に連なるメツシュ列をVtメツシュライン、Y2
メツシュライン・・・・・・Y 28メツシユラインと
名づけ、各メツシュライン中に不適合メツシュが1つで
もあれば、該メツシュラインはX方向に対してドツト次
元での符号化■を行なう0本実施例ではMH符号化を行
−なう。
従って、第8図においてはY2〜Y4 、 Y6 、 
Y14〜Y18  Y2GのメツシュラインはM′H符
号化、その他は全て本発明によるメツシュ分割文字符号
化を行なう。
尚、本発明によるメツシュ分割は黒ドツトの存在しない
領域は適合メツシュとして扱うことになるから圧縮率向
上がはかれる。また、上述の分離精度を上げる為に、上
記した不適合メツシュラインをはさむy方向の2列の適
合メツシュラインを不適合メツシュラインとして扱いM
H符号化を行うことを提案する。
くステップ23〉・・・・・・メツシュ分割文字符号化
くステップ21>及びくステップ22〉において1ペー
ジをMxXM7に分割し、かつ該メツシュ内には1文字
格納されているメツシュか否かの判定が終了している為
に、ステップ23においては不適合メツシュに対しては
MH符号化を行ない、適合メツシュ内の文字に対しては
メツシュ毎に文字の認識を行なう。
この種の認識手法にはすでに各種の方式が提案されてお
り、基本的にはどの方式を適用して・も実現出来る0本
実施例においては、D P ([]7namicPat
tern)マツチング法を用いる。DPマツチング法は
動的計画法を基にしたパターンマツチング手法であり、
入カバターンと登録しである辞書パターンとの距離を算
出する時、パターンを非線形に伸縮させてパターン全体
として見た場合の距離が最少になるようにマツチングす
る手法である。用いる辞書パターンは常用漢字的200
0及びその他のフォントであり、認識した文字は各々2
バイトのたとえば2×アスキーコードに符号化する。
くステップ24〉・・・・・・データの貯蔵データ貯蔵
手段への貯蔵はページ毎に、1つのページは更にメツシ
ュライン毎のレコードに分割されている。ページ毎に有
するパラメータとじてはメツシュの大きさHz 、 M
yがあり、メツシュライン毎のパラメータとしては該符
号化が適用されたか否かを表わすメツシュライン毎の先
頭に付加される符号種別フラグである。符号種別フラグ
は本実施例においては画素ドツトの符号化が適用される
メツシュはMH符号化を適用する為にメツシュライン毎
に切り換わる2種の符号化データでよい。
次に第9図のフローチャートに基づいて、第2図の制御
フローをより具体的に説明する。
ステップ100にて前述した方法によりメツシュ大きさ
Hz、Hテを決定する。
くステップ102) ページメモリ5の1頁分の画像信号をMx×Myのメツ
シュに分割する。
くステップ104> y方向にMYの幅を持つメツシュ列を1ライン取り出す
くステップ106〉 ステップ104で取り出したlラインの中から順に1メ
ツシユずつ画像信号を取り出す。
くステップ108〉 当該メツシュの文字域外に黒ドツトが有るか判定する。
大きさの異なった文字や写真などの画像と定型の大きさ
の文字とが判別される。黒ドツトが有る(YES)なら
ばステップ114で不適合と判定される。
くステップ110〉 ステップ108での判定が文字域外に黒ドツトが存在し
ない(No)というのであれば、さらにステップ110
でY軸上に黒ドツトが存在するかを調べてメツシュ内に
X軸方向に平行な直線が存在しないか判定する。もし存
在するならば不適合と判定される(ステップ114)。
上記のいずれの場合にも黒ドツトが存在しないならば、
そのメツシュは適合と判断する(ステップ112)。
くステップ116〉 ステップ116ではMyの幅を持つメツシュ列の全ての
メツシュが適合/不適合について判定されたか否かを判
断する。未だ全メツシュの判定が終了していないのなら
ばステップ106へ戻り、前、記フローを繰り返す。
くステップ118> 当該1メツシユラインの全メツシュについて判定が終了
したら、ステップ118で適合/不適合の判断結果を調
べる。1つでも不適合なメツシュが存在すればM、H符
号化を行い(ステップ126)、M、H符号化を行なっ
た事を示す符号化種別フラッグ及びTerminati
ng Code、 Make−up Codeを作成す
る(ステップ128) くステップ120〜124〉 1メツシユライン内の全メツシュが適合と判定されたな
らば、メツシュ分割文字符号化を行い(ステップ120
)、  メツシュ内の文字を前述したり、Pマツチング
に従って文字認識を行ない2バイトのアスキーコードに
変換する。
くステップ130〜134〉 各メツシュラインの符号化種別コード及びTermin
ating Code等を、そして更にそのメツシュラ
インが1頁の最初のラインであればMx、Myをデータ
として追加してデータ貯蔵手段4に格納する。
くステップ136〜140〉 1頁について全部終了するまでステップ104以降を繰
り返す。
復号化は次のようにする。データ貯蔵手段4からページ
毎のメツシュライン毎のレコードを読出し最初のライン
のデータに記憶されたメツシュの大きさデータNx 、
 Myに基づき、例えば本実施例の場合にはX方向の画
素数XMy分のラインメモリを用意し、MH符号化を行
なったメツシュラインは1ラインずつ復号し、一方、メ
ツシュ分割文字符号化されたメツシュラインは2バイト
ずつキャラクタコードから用意したフォントROMより
該当する文字をメツシュ大きさ内に格納出来る大きさに
変換してドツトレベルに落とす、尚、メツシュ内の文字
外の領域は全て白と復号する。
以上の処理を各メツジュライン毎に繰り返し行ない、1
ページを復号化する。
以上説明したように本実施例は、1枚原稿中の文字の大
きさは大部分統一されていることに着目し、行間空白及
び該文字をも含むメツシュを用いて文字認識後符号化を
行なったが、変形例としてステップ22において符号化
領域の分離後、ドツト次元の符号化を適用すべきと判定
された領域であってもその領域が異なる大きさの文字を
含んでいるのみであれば、その領域に対して更に第2の
メツシュ分割を行ない再度文字認識を行なう事により第
2のメツシュ分割文字符号化が可能でありさらに効率の
良い符号化が実現出来る。
又、プロポーショナルな文字文書に対しては文字の大き
さを認識後、メツシュ内に割り付けて再編集すれば本発
明を適用することも可能となる。
[効果コ 以上説明したように、本発明の画像処理装置によれば大
幅なデータ圧縮率の向上が図れる。
又更に、′本発明の1態様によれば画像が文字として認
識出来さえすれば、ROM内の文字によって置き換わる
為に複合化された文字の品位が向上する。
更に、又、本願発明はOCRによる文字切出し技術にも
応用することができ、新聞から雑誌まで、種々の書式未
知の紙面内の文字を正確に選択的に切出すことができ、
延いては認識率の向上につながる。又、画素単位で読み
取ったデータは他の切出し方法により切出したり、ある
いはりジュツト(読み取り不能)文字としてディスプレ
イに表示させるようにすることも可能である。
【図面の簡単な説明】
第1図は本発明に係る一実施例のブロック図、第2図は
実施例の処理フローの概略図、第3図はページメモリ内
の入力原稿を視覚的に表現した図、 第4図C&)、(b)は夫々X + 3’方向のヒスト
グラム、 第5図(a)、(b)は夫々x、y方向におけるメツシ
ュの大きさの決定方法を示した図。 第6図は決定されたメツシュによって入力原稿が分割さ
れた図。 第7図は同一メツシュを大きさの異なり文字に適用した
図、 第8図はメツシュ分割された1頁の画像信号が適合/不
適合に判定された結果の1例の図、第9図は一■御部の
制御フローチャートである。 図中、5・・・ページメモリ、3・・・メツシュ分割符
号化処理部、4・・・データ貯蔵手段、9・・・フォン
トROMである。 第1図 第2図 第3!!I 第4図 CG) 崖 教 □    第4図(b) 叡 第5図 (G) 准 救 X 度 第5図 (b) 叡 第6図 M−4 第8図

Claims (3)

    【特許請求の範囲】
  1. (1)2値化画像を記憶する記憶手段と、該記憶手段の
    記憶空間を少なくとも1文字が含まれる矩形メッシュに
    分割する分割手段と、該メッシュにに含まれる画像域を
    識別する識別手段と、該識別手段の識別結果に応じて該
    画像域を第1又は第2の符号化法に基づき圧縮符号化す
    る符号化手段とを備えた画像処理装置。
  2. (2)分割手段は記憶手段内の2値化画像をメッシュの
    縦横両方向について積算し、該積算値と所定の閾値との
    大小から該メッシュの大きさを決定する事を特徴とする
    特許請求の範囲第1項記載の画像処理装置。
  3. (3)識別手段はメッシュ内の黒画素の位置によつてメ
    ッシュ内に文字が包含されるか否かを認識し、符号化手
    段はメッシュ内に文字が包含されている時は文字として
    認識し符号化する第1の符号化法を適用し、文字以外の
    時は画素単位で符号化する第2の符号化法を適用する事
    を特徴とする特許請求の範囲第2項記載の画像処理装置
JP59229265A 1984-10-31 1984-10-31 画像処理装置 Expired - Fee Related JP2505401B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP59229265A JP2505401B2 (ja) 1984-10-31 1984-10-31 画像処理装置
DE19853538639 DE3538639A1 (de) 1984-10-31 1985-10-30 Bildverarbeitungssystem
US07/214,876 US4959868A (en) 1984-10-31 1988-07-05 Image processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59229265A JP2505401B2 (ja) 1984-10-31 1984-10-31 画像処理装置

Publications (2)

Publication Number Publication Date
JPS61107877A true JPS61107877A (ja) 1986-05-26
JP2505401B2 JP2505401B2 (ja) 1996-06-12

Family

ID=16889402

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59229265A Expired - Fee Related JP2505401B2 (ja) 1984-10-31 1984-10-31 画像処理装置

Country Status (1)

Country Link
JP (1) JP2505401B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5777749A (en) * 1994-08-03 1998-07-07 Fujitsu Limited Method and device for compressing bit-map data

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56100565A (en) * 1980-01-16 1981-08-12 Toshiba Corp Facsimile device
JPS5827278A (ja) * 1981-08-10 1983-02-17 Toshiba Corp 行捜索方式
JPS59180783A (ja) * 1983-03-31 1984-10-13 Toshiba Corp 光学的文字読取装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56100565A (en) * 1980-01-16 1981-08-12 Toshiba Corp Facsimile device
JPS5827278A (ja) * 1981-08-10 1983-02-17 Toshiba Corp 行捜索方式
JPS59180783A (ja) * 1983-03-31 1984-10-13 Toshiba Corp 光学的文字読取装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5777749A (en) * 1994-08-03 1998-07-07 Fujitsu Limited Method and device for compressing bit-map data

Also Published As

Publication number Publication date
JP2505401B2 (ja) 1996-06-12

Similar Documents

Publication Publication Date Title
US4959868A (en) Image processing system
US5761686A (en) Embedding encoded information in an iconic version of a text image
US6909805B2 (en) Detecting and utilizing add-on information from a scanned document image
US5793903A (en) Multimedia rendering marker and method
JPH1186014A (ja) 文書画像表示方法および表示装置
JPS6159568A (ja) 文書処理装置
JPH01253077A (ja) 文字列検出方法
JPH11345339A (ja) 画像セグメンテ―ション方法及び装置及びシステム及びコンピュ―タ可読メモリ
JPH07160812A (ja) 画像処理装置及び方法
JP2644477B2 (ja) 画像処理方法
JPS61107877A (ja) 画像処理装置
JP2505402B2 (ja) 画像処理装置
JPH04105178A (ja) 文書画像処理装置
JPH0991371A (ja) 文字表示装置
Nakata Poster: MPACK 0.7. 0: Multiple precision version of BLAS and LAPACK
JP2827288B2 (ja) 文字認識装置
JPH04106670A (ja) 文書画像処理装置
JPS61153756A (ja) 文書処理方式
JP2618468B2 (ja) 文書処理装置
JP4587167B2 (ja) 画像処理装置及び画像処理方法
JP2606560B2 (ja) 文書画像記憶装置
JPH03268181A (ja) 文書読み取り装置
JPH08202824A (ja) 文書画像認識装置
CN118298448A (zh) 表格识别方法、装置、计算机设备、存储介质
JPH0214392A (ja) 文書領域解析装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees