[go: up one dir, main page]

JP2003317107A - 罫線抽出方法及び装置 - Google Patents

罫線抽出方法及び装置

Info

Publication number
JP2003317107A
JP2003317107A JP2002125378A JP2002125378A JP2003317107A JP 2003317107 A JP2003317107 A JP 2003317107A JP 2002125378 A JP2002125378 A JP 2002125378A JP 2002125378 A JP2002125378 A JP 2002125378A JP 2003317107 A JP2003317107 A JP 2003317107A
Authority
JP
Japan
Prior art keywords
ruled line
line
ruled
lines
diagonal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2002125378A
Other languages
English (en)
Inventor
Atsuko Obara
敦子 小原
Katsuto Fujimoto
克仁 藤本
Satoshi Naoi
聡 直井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2002125378A priority Critical patent/JP2003317107A/ja
Publication of JP2003317107A publication Critical patent/JP2003317107A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】 【課題】読み込まれた画像から罫線を正しく抽出し、文
書データに再現することのできる罫線抽出方法を提供す
る。 【解決手段】2値画像を入力すると、OR間引きなどに
よって縮小画像を生成し、ラベリング処理で黒画素の連
結成分を取り出し、直線成分を取り出すためのマスク処
理をする。その後、線分抽出を行い、二重線候補を抽出
する。直線抽出を行い、セルを抽出し、入れ子を構成す
る罫線の判定を行い、二重線を決定する。最後に、斜め
線の抽出を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、画像から罫線など
を正確に抽出する方法及び装置に関する。
【0002】
【従来の技術】近年、スキャナ等の入力機器の普及に伴
って、画像データを取り扱う機会が増加しており、それ
に伴って、文書を読み取るOCR(Optical Character
Reader:文字認識装置またはソフト)や、文書復元の
需要が増加している。
【0003】二重線が文書画像中にある場合には、2本
の罫線が接近して部分的につながっている場合や、離れ
ている場合があり、従来の罫線抽出方式では、二重線の
抽出としては行っておらず、実線として抽出していたた
め、1本の罫線として抽出される場合や、2本の罫線と
して抽出される場合があり、動作が不安定であった。
【0004】多重に入れ子が重なった構造になっている
場合には、予め構造が分からないため何重の入れ子状態
となっているかが分からない。そこで、入れ子部分のセ
ルを抽出する再帰処理の回数を無制限に行うと、セル内
の文字からの罫線の誤抽出があった場合には過度に入れ
子構造を抽出してしまう場合がある。また、再帰処理の
回数を固定してしまうと構造によって処理が不可能とな
ってしまう。
【0005】文書画像に含まれる表中のセルの頂点間に
斜め線が引かれている場合には、セルの頂点と頂点を結
んだ線上に斜め線が存在すると見なして、頂点間を結ん
だ直線上にある黒画素が、頂点間を結んだ直線の長さの
一定割合以上である場合には、斜め線があると判断す
る。しかし、斜め線は正確に頂点間を結ぶとは限らず、
頂点よりずれている場合も多く、また、紙の歪み等によ
り線が一部歪んでいる場合がある場合には、セルの頂点
を結んだ線と斜め線が重ならなくなり、抽出が失敗して
しまう。
【0006】
【発明が解決しようとする課題】以上述べたように、従
来の技術においては、表などの罫線を含む文書を読み込
み、認識する際に、罫線を正しく認識し、文書データに
正しく再現することが困難であった。
【0007】本発明の課題は、読み込まれた画像から罫
線を正しく抽出し、文書データに再現することのできる
罫線抽出方法を提供することである。
【0008】
【課題を解決するための手段】本発明の罫線抽出方法
は、入力画像の縮小画像から罫線の位置を推定する罫線
位置推定ステップと、入力画像から抽出された罫線で四
辺を囲まれた領域を抽出するステップと、該領域が入れ
子構造になっている場合に、該領域の抽出を再帰的処理
によって抽出するステップと、該再帰的処理を、該領域
の内部あるいは周辺にある文字の大きさよりも、抽出さ
れる領域の方が小さくなった場合に、再帰的処理を終了
するステップと、高解像度の入力画像を用いて、推定さ
れた罫線位置における罫線の画素密度を罫線方向に投影
し、該画素密度のピークの数により、罫線が何本の線か
らなっているかを判断する罫線判断ステップと、入力画
像から抽出された罫線で四辺を囲まれた領域の向かい合
う頂点あるいは該頂点の周囲に斜め方向成分が存在する
か否かを判断するステップと、該向かい合う頂点あるい
はその周囲にある該斜め方向成分が挟む領域に斜め線が
存在するか否かを判断するステップとを備えることを特
徴とする。
【0009】本発明の罫線抽出装置は、入力画像の縮小
画像から罫線の位置を推定する罫線位置推定手段と、入
力画像から抽出された罫線で四辺を囲まれた領域を抽出
する手段と、該領域が入れ子構造になっている場合に、
該領域の抽出を再帰的処理によって抽出する手段と、該
再帰的処理を、該領域の内部あるいは周辺にある文字の
大きさよりも、抽出される領域の方が小さくなった場合
に、再帰的処理を終了する手段と、高解像度の入力画像
を用いて、推定された罫線位置における罫線の画素密度
を罫線方向に投影し、該画素密度のピークの数により、
罫線が何本の線からなっているかを判断する罫線判断手
段と、入力画像から抽出された罫線で四辺を囲まれた領
域の向かい合う頂点あるいは該頂点の周囲に斜め方向成
分が存在するか否かを判断する手段と、該向かい合う頂
点あるいはその周囲にある該斜め方向成分が挟む領域に
斜め線が存在するか否かを判断する手段とを備えること
を特徴とする。
【0010】本発明によれば、スキャナなどにより取り
込まれた文書画像などに罫線が含まれていても、罫線を
抽出判断することにより、文字認識と併用することによ
って、取り込まれた画像データをワープロソフトなどで
編集可能な罫線を含む文書データとすることができる。
従って、読み取られた画像を情報処理装置上で編集する
ことなどが可能になり、帳票などを読み取った場合など
の作業効率が向上する。
【0011】
【発明の実施の形態】二重線に関しては、まず、入力画
像を画像がつぶれ気味になるように縮小し、この縮小画
像を用いて罫線候補の抽出を行う。縮小画像を用いるこ
とで、掠れがある場合でも罫線を抽出しやすくする。こ
の罫線抽出処理は、罫線候補の領域が抽出されれば、い
かなる方式であってもかまわない。次に、抽出された罫
線候補の領域の入力画像における位置を算出し、入力画
像を用いて罫線候補とされた領域が二重線であるか否か
を判断する。一本の罫線候補を細かく分割した小領域毎
に判定を行う。小領域内を罫線方向に黒画素投影処理を
行い、そのピーク値が2つであった場合には、その小領
域は二重線であると判断する。ピーク値の判定には、あ
る一定値a、b(a≧b)を用い、投影した結果、黒画
素数がa以上の領域(線の存在する位置)の間に黒画素
数がb以下の領域(背景領域)が存在した場合には、二
本の線が存在するとして、この領域は二重線であるとす
る。ある罫線候補中ある一定以上の割合が二重線である
とされた場合には、その罫線候補は二重線であると判定
する。
【0012】また、二重線であると判定された場合、二
本の線と線の間が一定以上の間隔が開いている場合に
は、二重線ではなく、2本の別々の罫線であるとする。
一定以上の間隔は、周囲に書かれている文字のサイズを
算出し、そのサイズを元に決定する。
【0013】多重に入れ子が重なった構造になっている
場合には、予め構造が分からないため、入れ子部分のセ
ルを抽出する再帰処理を停止する判断を行う必要があ
る。その判断は、入れ子の縦横サイズがある一定以下に
なった場合に停止を行うとする。一定サイズとは、周囲
の文字のサイズを判断し、そのサイズを基に決定するこ
とで、文字の書かれていないような小さな入れ子構造を
誤抽出することを防ぐことができる。
【0014】画像の中の表中のセル(周囲を罫線で囲ま
れたボックスのこと)の頂点間に引かれた斜め線を抽出
する場合には、斜め線全体を一本の線として抽出するの
ではなく、斜め方向の小さい成分の集合として抽出を行
う。まず、セルの頂点および頂点付近に斜め方向成分が
あるか否かを判断する。向かい合う頂点または頂点付近
に斜め方向成分が存在した場合には、抽出された斜め方
向成分の間を対象に斜め線があるか否かを判断する。
【0015】以下、本発明の実施形態についてより詳細
に説明する。 1.入力画像 入力する画像は、極端な傾きのない2値画像であるとす
る。画像が傾きを持って入力された場合には、既知の画
像の向きの修正方法によって、ほぼ水平な向きに直され
た後に本実施形態の方法が適用されるものとする。ま
た、カラー画像やグレースケール画像は、既知の方法に
より、2値画像に変換してから以下の処理を行うものと
する。 2.連結パターン抽出 複数の枠が配置される位置の相対的な関係に依存するこ
となく、各パターンを安定にピックアップするために、
連結パターンの抽出では、8連結でつながっている(上
下左右、右上、右下、左上、左下の方向につながってい
る)黒画素のパターンをラベリングにより抽出する(特
願平7−203259号参照)。
【0016】図1は、ラベリング処理を概略説明する図
である。同図(a)に示されるように、画像が取り込ま
れると、1ライン毎に横に操作し、黒画素の有無を判定
し、存在した黒画素に順次番号などのラベルを付けてい
く。まず、同図(a)のライン1を走査した場合、2つ
の独立した黒画素が発見され、それぞれ、“1”と
“2”のラベルが付けられる。次に、ライン2を走査し
た場合、やはり、独立した黒画素が2つ発見されるが、
これらの黒画素は、それぞれ、前のラインで発見し、ラ
ベル“1”と“2”が付けられた黒画素に8連結で接続
しているので、新たなラベルではなく、当該接続してい
る黒画素のラベルが付けられる。すなわち、ライン2の
黒画素もそれぞれ“1”、“2”のラベルが付けられ
る。次に、ライン3を走査すると、1つの黒画素が発見
される従って、これに新しいラベル“3”を与える。し
かし、同図(b)に示されているように、ラベル“3”
の黒画素は、ラベル“1”、“2”の、8連結で接続さ
れた黒画素と接続されているので、ラベル“1”、
“2”の黒画素のラベルを“3”に書き換える。このよ
うにすることにより、同図(b)に示される黒画素は、
8連結で接続された一塊りの黒画素であることが抽出さ
れる。
【0017】以上のような処理を取り込んだ画像全体に
対して行う。 3.マスク処理 マスク処理は画像から極端な斜め成分を省き、枠だけに
存在する長い直線を抽出しやすくするために、縦横方向
の成分の細線化を行う。すなわち、縦方向と横方向の線
分のみを使って、画像に含まれる直線成分を表現するよ
うにする。従って、横方向の長い直線は、横方向の線分
を複数接続した形で表現される。直線成分候補を正確に
抽出するために、処理は100dpi相当の低解像度画
像を用いる(特願平7−203259号参照)。 4.線分抽出 マスク処理画像に対して隣接投影値(隣接投影:ある行
または列の投影値に、その周囲の行または列の投影値を
足しあわせ、その値を投影値とする投影法。周囲を大局
的にとらえることが可能である。(特願平5−1032
57号参照))を算出し、縦横方向に関して、直線ある
いは直線の一部を矩形近似して検出する。縦横両方向同
様の処理を行う。本処理においては、マスク処理の結果
画像を使用する。
【0018】図2は、線分抽出処理を行った結果を説明
する図である。同図においては、僅かに傾いた直線が、
3つの矩形によって表されている。矩形は、長い直線を
1つの矩形で表現してしまわないように、比較的短く、
横に長い矩形を用いる。これにより、矩形を接続した形
で様々な横方向の直線や縦方向の直線が表現される。 5.直線抽出 線分抽出においては抽出された矩形近似された線分の
内、近隣の線分同士を統合して長い直線を検出する。検
出された直線は矩形近似を行う(特願平7−20325
9号参照)。
【0019】図3は、直線抽出を説明する図である。直
線が線分抽出されると、矩形によって近似される。これ
らの矩形の内の2つが、接触しているか、あるいは、所
定の値よりも接近している場合、これらの2つの矩形
は、1つの直線の一部を構成するものであると判断す
る。このようにして判断された矩形の集合は、最終的に
は、1つの直線全体をカバーするようになる。こうして
検出された1つの直線について、全体を含む矩形を用い
て近似する。 6.二重線の抽出 二重線の判定方法として、異なる解像度の画像を目的毎
に使い分ける。縮小画像を用いて短い線分の候補位置を
抽出し、次に原画像を用いて線分が二重線であるか否か
を判定する。判定は投影によって行う。その後、それら
の統合結果を二重線として抽出する。
【0020】図4は、OR間引き処理を説明する図であ
る。同図(a)に示されているように、画像を2分の1
に縮小する場合、OR間引きにおいては、4つの画素の
塊の画素値のORをとり、1つの画素に置き換える。す
なわち、4つの画素の内、1つでも黒の画素が含まれて
いる場合には、縮小後の画素は黒の画素とする。
【0021】同図(b)は、OR間引きの処理例を説明
する図である。同図(b)左の画像が原画像であるとす
る。この画像を4つの画素毎に区分けして、それぞれの
中で、画素値のORを取る。すると、4つの画素の内、
1つでも黒画素が含まれている区分は、縮小後1つの黒
画素として置き換えられる。また、4つ全ての画素が白
である場合にのみ、縮小後の1つ画素は、白とされる。
この結果、同図(b)の右に示されるように、画像が粗
くなった縮小画像が得られる。
【0022】このOR間引き処理は前記線分抽出処理
で、すでに抽出された結果を用いる。次に、抽出された
候補位置に当たる原画像を調査し、その箇所が二重線で
あるか否かを詳細に判定を行う。判定は罫線を構成する
小領域(線分と呼ぶとする)毎に行い、方法は線分内の
線分に垂直な方向の黒画素の分布を線分に平行な方向に
投影することで判断する。線分内を直線方向に投影値を
取り、投影値がある一定値以上となる箇所が2個以上あ
り、かつ、その間に投影値がある一定値以下となる箇所
が存在するという状態のとき、その線分は二重線である
と判断する。
【0023】図5は、黒画素の投影処理について説明す
る図である。直線を区分的に近似した矩形の中で、線分
に垂直な方向の黒画素の分布を、線分に平行な方向に矩
形内で加算して、黒画素分布のヒストグラムを得る。そ
して、黒画素の分布が実験などによって決定される所定
値よりも大きい部分が直線の一部であり、黒画素の分布
が実験などによりやはり決定される所定値より小さい場
合には、そこは空白であるとされる。これにより、黒画
素の分布のピークが2つあれば、2重線であることが判
断できる。ヒストグラムのピークと谷の判断に使うそれ
ぞれの所定値(閾値)は、本実施形態を利用する当業者
によって、適宜定められるものであり、実験によって定
め得ることが想到されるであろう。しかし、閾値は、実
験以外の方法によって決定されても良い。
【0024】また、一本の直線内で線種が変わる場合も
ある。線種が変わる箇所はセルの境界であるため、罫線
が交差する位置を用いて端点位置を抽出する。ある罫線
の交点と交点の間の一部が二重線であると判断された場
合には、二重線と判断された箇所と罫線の交点間の間を
再度二重線の判定を行う。罫線の交点間の長さに対して
一定以上の長さが二重線であると判断された場合に、そ
の罫線の交点間は二重線で構成されていると判断する。
【0025】更に、二重線が部分的につぶれて、墨の入
ったような状態になっている場合でも、注目している罫
線の長さに対して、二重線と判断された部分が一定以上
である場合には、二重線であるとし、かつ、太さが変化
する箇所で罫線を分割することで一本の罫線内で線種が
変わる場合でも、部分的に二重線と判定できる。
【0026】以上で述べた二重線と判断するための一定
値は、やはり、当業者によって適宜定められるものであ
る。また、線間隔が離れている場合には、二重線は全く
分離した2本の線として抽出する必要がある。その場合
には、線間隔がある一定値以下の場合には、2本の罫線
を一本の二重線とみなすこととする。このとき、間隔の
閾値は、周囲の文字サイズから算出する。周囲の文字の
縦または横のサイズの一定割合以上で有れば、2本の
線、一定割合以下で有れば二重線とする。
【0027】なお、上記実施形態では、二重線の場合を
示したが、三重線以上についても同様である。 7.セル抽出 前記の処理で、罫線候補と判断されたものを用いて、セ
ルの抽出を行う。直線で4方を囲まれた領域であるセル
の抽出を行う方法は、如何なる方法でもかまわない(特
願平7−203259号参照)。 8.入れ子構造罫線セル抽出 図6、及び図7は、入れ子構造の罫線部分を抽出する方
法を説明する図である。
【0028】入れ子部分は、セル内を表とみなして再帰
処理を行うことで対応する。従来は再帰回数に限度を設
けていた。限度を設けていた理由としては、単純に再帰
処理の回数を増加させると、文字部分から誤抽出された
罫線による小さい入れ子構造を過度に抽出してしまうた
めである。そこで、3重以上の入れ子(図6の太線の箇
所が三重入れ子)に対応しているために、注目している
セル周囲の文字サイズと、入れ子処理対象としている罫
線の長さを比較し、再帰処理停止の判断を自動で行える
ようにする。
【0029】図7に例を示す。同図(a)、(b)の図
中の矢印で示した線は一重入れ子であり、両図で同一フ
ォーマットを示している。しかし、同図(a)は、文字
の一部から誤抽出された罫線であり、同図(b)は罫線
である。この場合、矢印で示した線が入れ子を構成する
罫線であると、同図(a)の場合、入れ子セルは文字サ
イズと比較して小さすぎるため不適当と見える。同図
(b)では、文字が小さいため矢印で示す線で区切られ
た入れ子セルの大きさは文字サイズと比較して十分大き
く適当である。そこで、入れ子処理を行ってできる予定
のセルサイズと、周囲の文字のサイズを推定した結果の
値を比較し、セル幅が文字サイズの一定割合以上大きい
場合には入れ子として処理を行い、逆にセルが文字サイ
ズと比較して小さすぎる場合には、これ以上再帰処理で
入れ子抽出を行わないとする。
【0030】図8は、入れ子構造の別の抽出方法を説明
する図である。文字の一部などのパターンが罫線に接触
している場合、同図(a)のように接触している文字パ
ターンの一部が罫線を挟み、罫線と同じ方向の線である
場合には、同図(b)のように(同図(b)、(c)は
同図(a)の一部を切り取ったもの)、もともとはつな
がったパターンであるとみなし文字サイズを算出する。
その結果、文字サイズは同図(c)の矩形のようにな
り、その結果を用いて平均文字サイズを算出する。
【0031】すなわち、このようにして得られた文字サ
イズが、罫線で作られるセルの幅よりも小さい場合に
は、その罫線は誤抽出されたものと判断する。図8の場
合には、「さ」の横線が連続したために、誤抽出された
ものと判断する。このように、入れ子構造の判断におい
ては、図7で説明した方法では、問題の罫線によるセル
の外の文字の大きさの平均から罫線が誤検出されたもの
か否かを判断していたが、これでは、問題のセルに周囲
の文字より小さい文字が含まれている場合に上手く動作
しない。そこで、図8で説明したように、問題のセルに
含まれる文字を抽出し、その大きさを用いて、罫線が誤
検出されたものか否かを判断することにより、誤検出の
判定がより正確になる。 9.斜め線抽出 図9〜図11は、斜め線の抽出処理を説明する図であ
る。
【0032】斜め線とは、図9のようにセル内を斜めに
区切っている線のことである。セルの頂点座標を結ぶ傾
きと同じ傾きを持つ斜め線抽出フィルタによる抽出を行
う。斜め線抽出の処理単位は、略文字より少し大きい程
度のサイズを設定する。斜め線抽出フィルタとしては、
所定の角度だけ傾いた、細長い矩形領域とすることが考
えられる。
【0033】しかし、斜め線の始点終点がセルの頂点と
一致していない場合も多いことから、セル頂点付近でフ
ィルタ位置を変動させて斜め線端部を見つけるようにす
る。頂点付近において向かい合った位置に斜め線が存在
した場合、そのセルは斜め線を含む可能性があるとし
て、セル中央部の斜め線の有無を調査し、中央部にも斜
め線が存在した場合に限り、そのセルは斜め線を含むも
のと判断する。中央部からの斜め線抽出は、図9のよう
に斜め線抽出単位で、斜め線を抽出した結果、斜め線抽
出単位が連続して長い斜め線を構成していれば、長い斜
め線が存在するとする。
【0034】斜め線抽出は、ある一定サイズの斜め線フ
ィルタの長さを単位として、斜め線を構成する小領域に
分割して抽出を行い、ある既知の角度を持った直線を抽
出する。抽出には、設定された角度によってある2点間
の画素探索を行い、斜め方向への投影値を求める。算出
された値がある一定以上であれば、その2点間を結ぶ斜
め線が存在すると判断する。角度については、セルの頂
点座標から、対向するセルの頂点を結んだ場合に角度が
どのくらいになるかを推定し、画素探索をその角度に沿
ってを行う。画素探索を行う各点が白画素であっても、
一定範囲内に黒画素があれば、注目画素は黒と見なす。
その結果黒画素密度が一定以上である場合、斜め線が存
在するとする。
【0035】図10は、セルが丸角部を有する場合の斜
め線抽出処理を説明する図である。セルには、丸角部を
持つ場合が数多くあり、斜め線の端点は丸角の円弧部分
の中心ではなく、端部にある場合も多い。そこで、丸角
を持つセルは、セルの頂点である丸角の中心だけでな
く、端部に斜め線の端点がある場合を想定し、抽出を行
う。丸角についての情報は、丸角の場所とだいたいのサ
イズを用い、丸角部の円弧の中心部を始点とする場合、
丸角部の円弧の両端部を始点とする場合の計3種の斜め
線を想定して抽出を行う。
【0036】図10に示すように、同図では、セルの丸
角部の円弧の右端点に斜め線の端点がある場合を示して
いる。斜め線の角度は、抽出対象となっている円弧の部
分と、対向する角を結ぶ線がなす角度であると推定す
る。これにより、角部における斜め線が検出でき、斜め
線の中程の部分は前述した方法により検出する。
【0037】なお、上述の方法では、設定された2点間
の方向を持った黒画素密度を用いているため、白黒反転
セルのような黒画素密度の高いセルについて検出を行う
と、誤った抽出をしてしまう。これを防止するため、斜
め線として抽出された部分の周囲の画素密度を調査し、
周囲が塗りつぶされていない場合に、斜め線であると判
断する。斜め線と判断された領域から離れた(例、セル
の辺の長さの1/3から2/3の範囲、図11参照)と
ころで、セル頂点間から求まる傾きと同じ角度の斜め線
の存在を判定する。その結果、画素密度が低く、斜め線
が存在しない部分がある場合には、検出された黒画素は
最終的に斜め線の黒画素であると判定し、周囲の画素密
度が高い場合には、注目しているセルは黒画素密度の高
く、斜め線を含むセルではないと判断する。
【0038】本実施形態では、ある2点の間に斜め線が
存在するかどうかを判断するため、セル内で斜め線が交
わっている場合にも判断でき、また、斜め線と文字が重
なっている場合でも、斜め線部分と文字部分の黒画素密
度が異なるため斜め線の抽出は可能である。また、以下
のような特徴がある。 1)白黒二値の入力画像に対して、縮小画像を作成し、
縮小画像を用いて罫線位置を推定する手段及び、より高
解像度の画像を用いて、推定された罫線位置内における
罫線方向への画素密度が山となる箇所数により、罫線の
本数を判断する手段を持つことで、掠れや部分的につぶ
れた二重線を抽出することができる。 2)上記1)において、周囲の文字サイズを推定し、そ
の縦または横の長さの一定割合を、二重線とみなす罫線
の間隔の最大値として設定し、2本の罫線の間隔がその
値以上である場合には2本の罫線であるとすることで、
小さなセルなのか二重線かを判断できる。 3)抽出された罫線候補から、罫線で四辺を囲まれた領
域(セル)を抽出し、罫線を決定する処理において、入
れ子構造となっている箇所を再帰的に処理を行うことを
可能とする構造を持ち、記入された文字の縦または横の
長さと、セルの辺の長さを比較し、セルの辺の長さが記
入された文字の縦または横の長さから算出された閾値よ
り小さい場合は、再帰処理を停止し、大きい場合には継
続すると判断することにより、入れ子構造となったセル
を抽出することで入れ子が多重になっている場合でも、
単純な構造である場合でも正確に罫線、セルの抽出を行
うことができる。 4)白黒二値の入力画像に対して、表内のセルの互いに
向かい合う頂点間に引かれた斜め線を抽出するため、互
いに向かい合う頂点およびその周囲の領域に斜め方向成
分が存在するかを判断する手段、互いに向かいあう頂点
およびその周囲にそれぞれ斜め成分が存在している場合
には、それらの挟む領域内に斜め線が存在するか否かを
判断する手段をもつことで、斜め線が存在しないセルを
処理の早期に判断でき処理時間を短縮する事ができる。 5)上記4)における、斜め方向成分の抽出手段につい
て、ある小矩形を単位領域とし、縦横比は、対象とする
セルの頂点情報から推定した傾きから算出する。単位領
域の頂点間を結ぶ直線上の画素密度を算出し、画素密度
がある一定値以上であった場合には、その単位領域には
斜め方向成分があるとし、ある2点間の間の斜め方向成
分は単位領域の集合として抽出することで、多少の歪
み、掠れがあっても処理することが可能である。
【0039】図12〜図19は、本発明の実施形態に従
った処理のフローチャートである。図12は、全体の処
理の流れを示すフローチャートである。まず、ステップ
S1において、画像を入力する。画像は基本的に2値画
像とするが、カラー画像やグレースケール画像を2値化
したものであっても良い。次に、ステップS2におい
て、OR間引きなどにより、縮小画像を作成する。ステ
ップS3においては、ラベリング処理を行って、黒画素
の塊を検出する。次に、前述のマスク処理を行い(ステ
ップS4)、線分抽出を行う(ステップS5)。そし
て、ステップS6において、二重線候補を抽出し、ステ
ップS7において、直線抽出を行う。ステップS8にお
いて、セル抽出を行い、ステップS9において、前述の
入れ子を構成する罫線の判定を行う。そして、ステップ
S10において、二重線の決定を行い、ステップS11
において、斜め線を抽出する。
【0040】図13は、二重線候補抽出処理を示すフロ
ーチャートである。まず、線分抽出が終了した後、ステ
ップS20において、線分毎に罫線方向に黒画素の投影
処理を行う。ステップS21において、投影結果のピー
ク値が2個所あるか否かを判断する。なお、三重線以上
を判断する場合には、ピーク値が3個以上あるか否かを
判断する。ステップS21の判断がNOの場合には、対
象とする線分は二重線ではないとする。ステップS21
の判断がYESの場合には、ステップS22において、
ピーク値投影値が一定値以上であるか否かを判断する。
ステップS22において、判断がNOの場合には、対象
とする線分は二重線ではないと判断する。ステップS2
2の判断がYESの場合には、ステップS23におい
て、ピーク値の間の投影値が一定値以下であるか否かを
判断する。ステップS23の判断がNOの場合には、対
象とする線分は二重線ではないとする。ステップS23
の判断がYESの場合には、対象とする線分が二重線で
あるとする。
【0041】ここで、三重線以上の候補を抽出する場合
には、ピーク値の数のみならず、全てのピーク値の値が
一定以上か、ピーク値間の谷の値が全て一定値以下かな
どを判断する。
【0042】図14は、二重線決定処理の第1の処理で
ある。まず、ステップS25において、セルを抽出す
る。ステップS26において、セルを構成する辺毎を処
理対象とする。ステップS27において、辺内に一定以
上の二重線領域があるか否かを判断する。ステップS2
7の判断がNOの場合には、処理対象の辺は二重線では
ないと判断し、YESの場合には、処理対象の辺は二重
線であると判断する。
【0043】図15は、二重線決定処理の第2の処理で
ある。ステップS30において、隣り合った罫線2本を
選択する。ステップS31において、各々の罫線で構成
されるセル内にある文字の平均サイズを算出する。そし
て、ステップS32において、処理対象とする2本の罫
線の間隔が平均文字サイズより大きいか否かを判断す
る。ステップS32の判断がYESの場合は、2本の罫
線はそれぞれ独立した罫線であると決定する。ステップ
S32の判断がNOの場合には、ステップS33におい
て、2本の罫線は二重線を構成すると判断し、2本の罫
線の間に作られたセルを削除する。
【0044】図16は、斜め線の抽出処理である。ま
ず、ステップS40において、処理対象セルを設定し、
ステップS41において、セル頂点座標から斜め線の傾
きを推定する。ステップS42において、斜め線の抽出
単位を設定し、ステップS43において、セル頂点にお
いて、単位長さの斜め線検出を行う。次に、ステップS
44において、向かい合う頂点付近にそれぞれ斜め線成
分が存在するか否かを判断する。ステップS44の判断
がNOの場合には、斜め線は存在しないと判断する。ス
テップS44の判断がYESの場合には、ステップS4
5において、頂点間を結ぶ直線上にある斜め成分を抽出
する。ステップS46において、頂点間を結ぶ直線上の
斜め成分が一定以上の割合を示すか否かを判断する。ス
テップS46の判断がNOの場合には、斜め線が存在し
ないと判断する。ステップS46の判断がYESの場合
には、斜め線が存在すると判断する。
【0045】図17は、斜め成分の抽出処理である。ス
テップS50において、斜め線抽出単位として一定の長
さを決める。ステップS51において、セルの頂点間を
結ぶ直線の傾きを抽出する斜め成分の傾きとする。ステ
ップS52において、斜め方向成分の存在を調査する領
域として端点2点を設定する。ステップS53におい
て、2点間の領域に対して傾き方向に黒画素の投影を行
う。ステップS54において、一定以上の黒画素が投影
した結果存在することが分かったか否かを判断する。ス
テップS54の判断がYESの場合には、斜め成分があ
ると判断する。ステップS54の判断がNOの場合に
は、ステップS55において、2点の位置を左右に一定
範囲内で移動させ、黒画素投影を行う。ステップS56
において、投影の結果、一定以上の黒画素が存在するこ
とが分かったか否かを判断する。ステップS56の判断
がYESの場合には、斜め線成分があると判断する。ス
テップS56の判断がNOの場合には、ステップS57
において、2点の位置を上下に一定範囲内で移動させ、
黒画素投影を行う。ステップS58において、投影の結
果、一定以上の黒画素が存在するか否かを判断する。ス
テップS58の判断がYESの場合には、斜め線成分が
存在すると判断する。ステップS58の判断がNOの場
合には、斜め線成分が存在しないと判断する。
【0046】図18は、入れ子を構成する罫線の判定処
理である。ステップS60において、横罫線候補の選択
を行う。ステップS61において、選択された横罫線候
補を中心として一定範囲内にある文字の平均サイズを算
出する。ステップS61の処理は、後に図19で説明す
る処理を行っても良い。ステップS62においては、対
とされた横罫線の間隔が平均文字サイズより大きいか否
かを判断する。ステップS62の判断がNOの場合に
は、ステップS65において、次の横罫線対を選択す
る。ステップS62の判断がYESの場合には、ステッ
プS63において、横罫線であると判断し、次に、ステ
ップS64で縦罫線について処理する。ステップS64
の処理は、ステップS60からステップ63及びステッ
プS65の処理を縦罫線についても行うものである。
【0047】図19は、図18のステップS61の処理
の別の方法を説明するフローチャートである。ステップ
S66において、選択された横罫線候補に接触するパタ
ーンがあるか否かを判断する。ステップS66の判断が
NOの場合には、ステップS70において、選択された
横罫線候補を中心として一定範囲内にある文字の平均サ
イズを算出して、図18のステップS62に進む。ステ
ップS66の判断がYESの場合には、ステップS67
において、横罫線候補に接触するパターンの内、罫線を
挟み同じ方向を持つ部分は同じ文字を構成するとする。
そして、ステップS68において、同じ文字を構成する
部分はつながっていると仮定し、文字サイズを算出す
る。更に、ステップS69において、算出された文字サ
イズを平均文字サイズとして設定し、図18のステップ
S62に進む。
【0048】図20は、本発明の実施形態の方法をプロ
グラムで実現する場合に必要とされるハードウェア環境
を説明する図である。バス10に接続されたCPU11
は、情報処理装置8の起動時に、やはりバス10に接続
されたROM12からBIOSなどの基本ソフトウェア
を読み込み、情報処理装置8をユーザが使用可能とす
る。本願発明の実施形態を実現する当該プログラムは、
ROM12に格納されていても良いが、一般には、ハー
ドディスクなどの記憶装置17、あるいは、フレキシブ
ルディスク、CD−ROM、DVDその他の可搬記録媒
体19に格納される。可搬記録媒体19に格納された当
該プログラムは、読み取り装置18を介して、RAM1
3にコピーされ、CPU11によって実行される。記憶
装置17に格納された当該プログラムはやはり、バス1
0を介して、RAM13にコピーされ、CPU11によ
って実行される。
【0049】入出力装置20は、ディスプレイ、キーボ
ード、テンプレート、マウスなどの一般的な入出力装置
を含むが、情報処理装置8を画像読み込み装置として使
用するためには、入力装置としてスキャナなどを備える
必要がある。
【0050】通信インターフェース14は、ネットワー
ク15を介して、情報処理装置8と情報提供者16のデ
ータベースとをデータ交換可能なように接続する。当該
プログラムは、情報提供者16のデータベースから情報
処理装置8にダウンロードして使用することも可能であ
るし、情報処理装置8を情報提供者16のデータベース
やその他の情報処理装置と接続したまま、ネットワーク
環境の下で当該プログラムを実行するようにしても良
い。
【0051】(付記1)入力画像の縮小画像から罫線の
位置を推定する罫線位置推定ステップと、高解像度の入
力画像を用いて、推定された罫線位置における罫線の画
素密度を罫線方向に投影し、該画素密度のピークの数に
より、罫線が何本の線からなっているかを判断する罫線
判断ステップと、を備える罫線抽出方法を情報処理装置
に実現させるプログラム。
【0052】(付記2)前記推定された罫線位置の周囲
の文字の大きさと、該罫線が複数の線からなっている場
合の線間の幅とを比較することにより、当該推定された
罫線位置にある線は、複数の線からなる罫線か、別個の
線が並んだものかを判断するステップを更に備えること
を特徴とする付記1に記載のプログラム。
【0053】(付記3)前記推定された罫線位置におけ
る罫線が、所定の長さ以上に渡って複数の線からなる罫
線であると判断された場合には、該罫線全体が該複数の
線からなる罫線であると判断するステップを更に備える
ことを特徴とする付記1に記載のプログラム。
【0054】(付記4)入力画像から抽出された罫線で
四辺を囲まれた領域を抽出するステップと、該領域が入
れ子構造になっている場合に、該領域の抽出を再帰的処
理によって抽出するステップと、該再帰的処理を、該領
域の内部あるいは周辺にある文字の大きさよりも、抽出
される領域の方が小さくなった場合に、再帰的処理を終
了するステップと、を備える罫線抽出方法を情報処理装
置に実現させるプログラム。
【0055】(付記5)入力画像から抽出された罫線で
四辺を囲まれた領域の向かい合う頂点あるいは該頂点の
周囲に斜め方向成分が存在するか否かを判断するステッ
プと、該向かい合う頂点あるいはその周囲にある該斜め
方向成分が挟む領域に斜め線が存在するか否かを判断す
るステップと、を備える罫線抽出方法を情報処理装置に
実現させるプログラム。
【0056】(付記6)前記斜め方向成分の存否判断ス
テップにおいて、ある矩形領域を単位領域として、前記
頂点間を結ぶ直線上の、当該単位領域内の画素密度を算
出するステップと、該画素密度がある一定値以上であっ
た時には、該頂点に斜め方向成分が存在すると判断する
ステップと、を更に備えることを特徴とする付記5に記
載のプログラム。
【0057】(付記7)前記頂点に挟まれる領域内の斜
め線の抽出は、推定される斜め線上の前記単位領域の集
合の中に斜め方向成分が含まれるか否かを判断すること
によって行われることを特徴とする付記6に記載のプロ
グラム。
【0058】(付記8)前記頂点は、丸角部となってお
り、丸角部の円弧の中心、両端点について、斜め方向成
分の検出を行うことを特徴とする付記5に記載のプログ
ラム。
【0059】(付記9)入力画像の縮小画像から罫線の
位置を推定する罫線位置推定ステップと、入力画像から
抽出された罫線で四辺を囲まれた領域を抽出するステッ
プと、該領域が入れ子構造になっている場合に、該領域
の抽出を再帰的処理によって抽出するステップと、該再
帰的処理を、該領域の内部あるいは周辺にある文字の大
きさよりも、抽出される領域の方が小さくなった場合
に、再帰的処理を終了するステップと、高解像度の入力
画像を用いて、推定された罫線位置における罫線の画素
密度を罫線方向に投影し、該画素密度のピークの数によ
り、罫線が何本の線からなっているかを判断する罫線判
断ステップと、入力画像から抽出された罫線で四辺を囲
まれた領域の向かい合う頂点あるいは該頂点の周囲に斜
め方向成分が存在するか否かを判断するステップと、該
向かい合う頂点あるいはその周囲にある該斜め方向成分
が挟む領域に斜め線が存在するか否かを判断するステッ
プと、を備える罫線抽出方法を情報処理装置に実現させ
るプログラム。
【0060】(付記10)前記推定された罫線位置の周
囲の文字の大きさと、該罫線が複数の線からなっている
場合の線間の幅とを比較することにより、当該推定され
た罫線位置にある線は、複数の線からなる罫線か、別個
の線が並んだものかを判断するステップを更に備えるこ
とを特徴とする付記9に記載のプログラム。
【0061】(付記11)前記推定された罫線位置にお
ける罫線が、所定の長さ以上に渡って複数の線からなる
罫線であると判断された場合には、該罫線全体が該複数
の線からなる罫線であると判断するステップを更に備え
ることを特徴とする付記9に記載のプログラム。
【0062】(付記12)前記斜め方向成分の存否判断
ステップにおいて、ある矩形領域を 単位領域として、
前記頂点間を結ぶ直線上の、当該単位領域内の画素密度
を算出するステップと、該画素密度がある一定値以上で
あった時には、該頂点に斜め方向成分が存在すると判断
するステップと、を更に備えることを特徴とする付記9
に記載のプログラム。
【0063】(付記13)前記頂点に挟まれる領域内の
斜め線の抽出は、推定される斜め線上の前記単位領域の
集合の中に斜め方向成分が含まれるか否かを判断するこ
とによって行われることを特徴とする付記12に記載の
プログラム。
【0064】(付記14)前記頂点は、丸角部となって
おり、丸角部の円弧の中心、両端点について、斜め方向
成分の検出を行うことを特徴とする付記9に記載のプロ
グラム。
【0065】(付記15)入力画像の縮小画像から罫線
の位置を推定する罫線位置推定ステップと、入力画像か
ら抽出された罫線で四辺を囲まれた領域を抽出するステ
ップと、該領域が入れ子構造になっている場合に、該領
域の抽出を再帰的処理によって抽出するステップと、該
再帰的処理を、該領域の内部あるいは周辺にある文字の
大きさよりも、抽出される領域の方が小さくなった場合
に、再帰的処理を終了するステップと、高解像度の入力
画像を用いて、推定された罫線位置における罫線の画素
密度を罫線方向に投影し、該画素密度のピークの数によ
り、罫線が何本の線からなっているかを判断する罫線判
断ステップと、入力画像から抽出された罫線で四辺を囲
まれた領域の向かい合う頂点あるいは該頂点の周囲に斜
め方向成分が存在するか否かを判断するステップと、該
向かい合う頂点あるいはその周囲にある該斜め方向成分
が挟む領域に斜め線が存在するか否かを判断するステッ
プと、を備える罫線抽出方法。
【0066】(付記16)前記推定された罫線位置の周
囲の文字の大きさと、該罫線が複数の線からなっている
場合の線間の幅とを比較することにより、当該推定され
た罫線位置にある線は、複数の線からなる罫線か、別個
の線が並んだものかを判断するステップを更に備えるこ
とを特徴とする付記15に記載の罫線抽出方法。
【0067】(付記17)前記推定された罫線位置にお
ける罫線が、所定の長さ以上に渡って複数の線からなる
罫線であると判断された場合には、該罫線全体が該複数
の線からなる罫線であると判断するステップを更に備え
ることを特徴とする付記15に記載の罫線抽出方法。
【0068】(付記18)前記斜め方向成分の存否判断
ステップにおいて、ある矩形領域を 単位領域として、
前記頂点間を結ぶ直線上の、当該単位領域内の画素密度
を算出するステップと、該画素密度がある一定値以上で
あった時には、該頂点に斜め方向成分が存在すると判断
するステップと、を更に備えることを特徴とする付記1
5に記載の罫線抽出方法。
【0069】(付記19)前記頂点に挟まれる領域内の
斜め線の抽出は、推定される斜め線上の前記単位領域の
集合の中に斜め方向成分が含まれるか否かを判断するこ
とによって行われることを特徴とする付記18に記載の
罫線抽出方法。
【0070】(付記20)前記頂点は、丸角部となって
おり、丸角部の円弧の中心、両端点について、斜め方向
成分の検出を行うことを特徴とする付記15に記載の罫
線抽出方法。
【0071】(付記21)入力画像の縮小画像から罫線
の位置を推定する罫線位置推定手段と、入力画像から抽
出された罫線で四辺を囲まれた領域を抽出する手段と、
該領域が入れ子構造になっている場合に、該領域の抽出
を再帰的処理によって抽出する手段と、該再帰的処理
を、該領域の内部あるいは周辺にある文字の大きさより
も、抽出される領域の方が小さくなった場合に、再帰的
処理を終了する手段と、高解像度の入力画像を用いて、
推定された罫線位置における罫線の画素密度を罫線方向
に投影し、該画素密度のピークの数により、罫線が何本
の線からなっているかを判断する罫線判断手段と、入力
画像から抽出された罫線で四辺を囲まれた領域の向かい
合う頂点あるいは該頂点の周囲に斜め方向成分が存在す
るか否かを判断する手段と、該向かい合う頂点あるいは
その周囲にある該斜め方向成分が挟む領域に斜め線が存
在するか否かを判断する手段と、を備える罫線抽出装
置。
【0072】(付記22)前記推定された罫線位置の周
囲の文字の大きさと、該罫線が複数の線からなっている
場合の線間の幅とを比較することにより、当該推定され
た罫線位置にある線は、複数の線からなる罫線か、別個
の線が並んだものかを判断する手段を更に備えることを
特徴とする付記21に記載の罫線抽出装置。
【0073】(付記23)前記推定された罫線位置にお
ける罫線が、所定の長さ以上に渡って複数の線からなる
罫線であると判断された場合には、該罫線全体が該複数
の線からなる罫線であると判断する手段を更に備えるこ
とを特徴とする付記21に記載の罫線抽出装置。
【0074】(付記24)前記斜め方向成分の存否判断
の手段において、ある矩形領域を単位領域として、前記
頂点間を結ぶ直線上の、当該単位領域内の画素密度を算
出する手段と、該画素密度がある一定値以上であった時
には、該頂点に斜め方向成分が存在すると判断する手段
と、を更に備えることを特徴とする付記21に記載の罫
線抽出装置。
【0075】(付記25)前記頂点に挟まれる領域内の
斜め線の抽出は、推定される斜め線上の前記単位領域の
集合の中に斜め方向成分が含まれるか否かを判断するこ
とによって行われることを特徴とする付記24に記載の
罫線抽出装置。
【0076】(付記26)前記頂点は、丸角部となって
おり、丸角部の円弧の中心、両端点について、斜め方向
成分の検出を行うことを特徴とする付記21に記載の罫
線抽出装置。
【0077】
【発明の効果】本発明によれば、画像データとして取り
込まれた、表などを含む文書画像から、罫線を正確に抽
出し、文字データだけではなく、表のデータも正確に再
現し、情報処理装置で利用可能とすることができる。
【図面の簡単な説明】
【図1】ラベリング処理を概略説明する図である。
【図2】線分抽出処理を行った結果を説明する図であ
る。
【図3】直線抽出を説明する図である。
【図4】OR間引き処理を説明する図である。
【図5】黒画素の投影処理について説明する図である。
【図6】入れ子構造の罫線部分を抽出する方法を説明す
る図(その1)である。
【図7】入れ子構造の罫線部分を抽出する方法を説明す
る図(その2)である。
【図8】入れ子構造の別の抽出方法を説明する図であ
る。
【図9】斜め線の抽出処理を説明する図(その1)であ
る。
【図10】斜め線の抽出処理を説明する図(その2)で
ある。
【図11】斜め線の抽出処理を説明する図(その3)で
ある。
【図12】本発明の実施形態に従った処理のフローチャ
ート(その1)である。
【図13】本発明の実施形態に従った処理のフローチャ
ート(その2)である。
【図14】本発明の実施形態に従った処理のフローチャ
ート(その3)である。
【図15】本発明の実施形態に従った処理のフローチャ
ート(その4)である。
【図16】本発明の実施形態に従った処理のフローチャ
ート(その5)である。
【図17】本発明の実施形態に従った処理のフローチャ
ート(その6)である。
【図18】本発明の実施形態に従った処理のフローチャ
ート(その7)である。
【図19】本発明の実施形態に従った処理のフローチャ
ート(その8)である。
【図20】本発明の実施形態の方法をプログラムで実現
する場合に必要とされるハードウェア環境を説明する図
である。
【符号の説明】
10 バス 11 CPU 12 ROM 13 RAM 14 通信インターフェース 15 ネットワーク 16 情報提供者 17 記憶装置 18 読み取り装置 19 可搬記録媒体 20 入出力装置
───────────────────────────────────────────────────── フロントページの続き (72)発明者 直井 聡 神奈川県川崎市中原区上小田中4丁目1番 1号 富士通株式会社内 Fターム(参考) 5B029 BB02 CC27 EE12 EE16 EE18 5L096 AA07 EA03 EA04 FA03 FA04 FA10 FA12 FA13 FA16 FA18 FA32 FA36 FA52 FA62 FA64 FA66 FA67 FA69 GA10 GA15 GA23 GA34 GA51 GA55

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】入力画像の縮小画像から罫線の位置を推定
    する罫線位置推定ステップと、 高解像度の入力画像を用いて、推定された罫線位置にお
    ける罫線の画素密度を罫線方向に投影し、該画素密度の
    ピークの数により、罫線が何本の線からなっているかを
    判断する罫線判断ステップと、を備える罫線抽出方法を
    情報処理装置に実現させるプログラム。
  2. 【請求項2】前記推定された罫線位置の周囲の文字の大
    きさと、該罫線が複数の線からなっている場合の線間の
    幅とを比較することにより、当該推定された罫線位置に
    ある線は、複数の線からなる罫線か、別個の線が並んだ
    ものかを判断するステップを更に備えることを特徴とす
    る請求項1に記載のプログラム。
  3. 【請求項3】前記推定された罫線位置における罫線が、
    所定の長さ以上に渡って複数の線からなる罫線であると
    判断された場合には、該罫線全体が該複数の線からなる
    罫線であると判断するステップを更に備えることを特徴
    とする請求項1に記載のプログラム。
  4. 【請求項4】入力画像から抽出された罫線で四辺を囲ま
    れた領域を抽出するステップと、 該領域が入れ子構造になっている場合に、該領域の抽出
    を再帰的処理によって抽出するステップと、 該再帰的処理を、該領域の内部あるいは周辺にある文字
    の大きさよりも、抽出される領域の方が小さくなった場
    合に、再帰的処理を終了するステップと、を備える罫線
    抽出方法を情報処理装置に実現させるプログラム。
  5. 【請求項5】入力画像から抽出された罫線で四辺を囲ま
    れた領域の向かい合う頂点あるいは該頂点の周囲に斜め
    方向成分が存在するか否かを判断するステップと、 該向かい合う頂点あるいはその周囲にある該斜め方向成
    分が挟む領域に斜め線が存在するか否かを判断するステ
    ップと、 を備える罫線抽出方法を情報処理装置に実現させるプロ
    グラム。
  6. 【請求項6】前記斜め方向成分の存否判断ステップにお
    いて、ある矩形領域を単位領域として、前記頂点間を結
    ぶ直線上の、当該単位領域内の画素密度を算出するステ
    ップと、 該画素密度がある一定値以上であった時には、該頂点に
    斜め方向成分が存在すると判断するステップと、を更に
    備えることを特徴とする請求項5に記載のプログラム。
  7. 【請求項7】前記頂点に挟まれる領域内の斜め線の抽出
    は、推定される斜め線上の前記単位領域の集合の中に斜
    め方向成分が含まれるか否かを判断することによって行
    われることを特徴とする請求項6に記載のプログラム。
  8. 【請求項8】入力画像の縮小画像から罫線の位置を推定
    する罫線位置推定ステップと、 入力画像から抽出された罫線で四辺を囲まれた領域を抽
    出するステップと、 該領域が入れ子構造になっている場合に、該領域の抽出
    を再帰的処理によって抽出するステップと、 該再帰的処理を、該領域の内部あるいは周辺にある文字
    の大きさよりも、抽出される領域の方が小さくなった場
    合に、再帰的処理を終了するステップと、 高解像度の入力画像を用いて、推定された罫線位置にお
    ける罫線の画素密度を罫線方向に投影し、該画素密度の
    ピークの数により、罫線が何本の線からなっているかを
    判断する罫線判断ステップと、 入力画像から抽出された罫線で四辺を囲まれた領域の向
    かい合う頂点あるいは該頂点の周囲に斜め方向成分が存
    在するか否かを判断するステップと、 該向かい合う頂点あるいはその周囲にある該斜め方向成
    分が挟む領域に斜め線が存在するか否かを判断するステ
    ップと、を備える罫線抽出方法を情報処理装置に実現さ
    せるプログラム。
  9. 【請求項9】入力画像の縮小画像から罫線の位置を推定
    する罫線位置推定ステップと、 入力画像から抽出された罫線で四辺を囲まれた領域を抽
    出するステップと、 該領域が入れ子構造になっている場合に、該領域の抽出
    を再帰的処理によって抽出するステップと、 該再帰的処理を、該領域の内部あるいは周辺にある文字
    の大きさよりも、抽出される領域の方が小さくなった場
    合に、再帰的処理を終了するステップと、 高解像度の入力画像を用いて、推定された罫線位置にお
    ける罫線の画素密度を罫線方向に投影し、該画素密度の
    ピークの数により、罫線が何本の線からなっているかを
    判断する罫線判断ステップと、 入力画像から抽出された罫線で四辺を囲まれた領域の向
    かい合う頂点あるいは該頂点の周囲に斜め方向成分が存
    在するか否かを判断するステップと、 該向かい合う頂点あるいはその周囲にある該斜め方向成
    分が挟む領域に斜め線が存在するか否かを判断するステ
    ップと、を備える罫線抽出方法。
  10. 【請求項10】入力画像の縮小画像から罫線の位置を推
    定する罫線位置推定手段と、 入力画像から抽出された罫線で四辺を囲まれた領域を抽
    出する手段と、該領域が入れ子構造になっている場合
    に、該領域の抽出を再帰的処理によって抽出する手段
    と、 該再帰的処理を、該領域の内部あるいは周辺にある文字
    の大きさよりも、抽出される領域の方が小さくなった場
    合に、再帰的処理を終了する手段と、 高解像度の入力画像を用いて、推定された罫線位置にお
    ける罫線の画素密度を罫線方向に投影し、該画素密度の
    ピークの数により、罫線が何本の線からなっているかを
    判断する罫線判断手段と、 入力画像から抽出された罫線で四辺を囲まれた領域の向
    かい合う頂点あるいは該頂点の周囲に斜め方向成分が存
    在するか否かを判断する手段と、 該向かい合う頂点あるいはその周囲にある該斜め方向成
    分が挟む領域に斜め線が存在するか否かを判断する手段
    と、を備える罫線抽出装置。
JP2002125378A 2002-04-26 2002-04-26 罫線抽出方法及び装置 Withdrawn JP2003317107A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002125378A JP2003317107A (ja) 2002-04-26 2002-04-26 罫線抽出方法及び装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002125378A JP2003317107A (ja) 2002-04-26 2002-04-26 罫線抽出方法及び装置

Publications (1)

Publication Number Publication Date
JP2003317107A true JP2003317107A (ja) 2003-11-07

Family

ID=29540119

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002125378A Withdrawn JP2003317107A (ja) 2002-04-26 2002-04-26 罫線抽出方法及び装置

Country Status (1)

Country Link
JP (1) JP2003317107A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7660014B2 (en) 2006-01-17 2010-02-09 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of extracting rule from document image with high precision
US8208744B2 (en) 2006-01-23 2012-06-26 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of accurately and quickly determining character part included in image
US9858512B2 (en) 2015-07-30 2018-01-02 Kyocera Document Solutions Inc. Image processing apparatus with an improved detection of ruled lines
US10650493B2 (en) 2017-06-05 2020-05-12 Kyocera Document Solutions, Inc. Image processing apparatus

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7660014B2 (en) 2006-01-17 2010-02-09 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of extracting rule from document image with high precision
US8208744B2 (en) 2006-01-23 2012-06-26 Konica Minolta Business Technologies, Inc. Image processing apparatus capable of accurately and quickly determining character part included in image
US9858512B2 (en) 2015-07-30 2018-01-02 Kyocera Document Solutions Inc. Image processing apparatus with an improved detection of ruled lines
US10650493B2 (en) 2017-06-05 2020-05-12 Kyocera Document Solutions, Inc. Image processing apparatus

Similar Documents

Publication Publication Date Title
JP3904840B2 (ja) 多値画像から罫線を抽出する罫線抽出装置
JP3253356B2 (ja) 文書画像の領域識別方法
RU2621601C1 (ru) Устранение искривлений изображения документа
JP2002298085A (ja) 文字認識装置、文字認識方法、及び記録媒体
JP2000235619A (ja) 表画像処理装置及びそのプログラム記憶媒体
JP3411472B2 (ja) パターン抽出装置
JP4049560B2 (ja) 網点除去方法及びシステム
CN110991440A (zh) 一种像素驱动的手机操作界面文本检测方法
JP2001043313A (ja) 文字切出し方法
JP2003317107A (ja) 罫線抽出方法及び装置
JP4420440B2 (ja) 画像処理装置、画像処理方法、文字認識装置、プログラムおよび記録媒体
JP2000187705A (ja) 文書読取装置および方法および記憶媒体
JP2868134B2 (ja) 画像処理方法及び装置
JP2871601B2 (ja) 文字列検出装置及び方法
JPH1153539A (ja) 円形パターン判定方法および記録媒体
JP3187895B2 (ja) 文字領域抽出方法
US7103220B2 (en) Image processing apparatus, method and program, and storage medium
JP3019897B2 (ja) 行切出し方法
JPH09305707A (ja) 画像抽出方式
JPH02273884A (ja) 文書画像の歪検出補正方法
JPS62121589A (ja) 文字切出し方法
JP2004158041A (ja) 表画像処理装置及びそのプログラム記憶媒体
JP2008234223A (ja) 画像処理装置、画像処理方法、プログラムおよび記録媒体
JP3517077B2 (ja) パターン抽出装置及びパターン領域の切り出し方法
JPH11242716A (ja) 画像処理方法および記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050705