JP4170441B2 - 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体 - Google Patents
文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体 Download PDFInfo
- Publication number
- JP4170441B2 JP4170441B2 JP14692698A JP14692698A JP4170441B2 JP 4170441 B2 JP4170441 B2 JP 4170441B2 JP 14692698 A JP14692698 A JP 14692698A JP 14692698 A JP14692698 A JP 14692698A JP 4170441 B2 JP4170441 B2 JP 4170441B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- line
- row
- document image
- inclination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000001514 detection method Methods 0.000 title claims description 31
- 238000000605 extraction Methods 0.000 claims description 116
- 238000000034 method Methods 0.000 claims description 49
- 238000012545 processing Methods 0.000 claims description 35
- 238000010586 diagram Methods 0.000 description 25
- 230000010354 integration Effects 0.000 description 20
- 238000004458 analytical method Methods 0.000 description 19
- 239000000284 extract Substances 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000010521 absorption reaction Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000011295 pitch Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/146—Aligning or centring of the image pick-up or image-field
- G06V30/1475—Inclination or skew detection or correction of characters or of image to be recognised
- G06V30/1478—Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Description
【発明の属する技術分野】
本発明は,例えばイメージスキャナで読み取った文書やファクシミリ装置で受信した文書などの文書画像を認識する際に,文書画像の傾きを検出する文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体に関する。
【0002】
文書光学式読取り(OCR)エンジンの対象文書の拡大のためには,新聞等に見られるような縦行横行混在文書のレイアウト解析機能の搭載が必須である。本発明は,この縦行横行混在文書のレイアウト解析のために必要な要素技術として,文書画像の傾き補正のための傾き検出処理の新たな技術を提供するものである。
【0003】
【従来の技術】
(1)文書画像傾き検出
一般の印刷文書を読み取るためには,まず,イメージスキャナなどの画像入力装置を用いて文書画像として取り込む必要があるが,通常は原稿設置の際に多少傾きが生じる。電子ファイリングあるいは文書認識の使用に供するためには,その文書画像の傾き量を検出し,補正する必要がある。
【0004】
従来の傾き検出技術においては,文書画像中の主要な構成要素であるテキスト領域では文字が規則正しく並んでいることを利用している。
例えば,中野らは「文書画像の傾き補正のための一方式」と題して電子情報通信学会論文誌D,vol.J69-D,No.1, pp.1833-1834に記載されているように,文字列の基準線がほぼ一定に存在することに着目し,文字ブロックの下端座標値をハフ変換し,ハフ空間上でのピーク値を検出することによって文字列の傾きを推定する第1の方式を提案している。
【0005】
また,水野らは「文書画像傾き検出装置」と題して特開平7−192085号公報に記載されているように,文字を構成する連結成分を抽出し,近接する連結成分同士を結合し仮の文字行を生成し,仮の文字行に接する直線を求めることによって文字列の傾きを推定する第2の方式を提案している。
【0006】
また,斎藤らは「文書傾き補正装置」と題して特開平2−170280号公報に記載されているように,傾き角度θを順次変更しながら文書画像を仮に補正し,補正画像中の全黒画素を含む外接矩形の面積が最小となる角度θを傾き角度として求める第3の方式を提案している。
【0007】
(2)レイアウト解析(行・段の抽出)
従来,OCR装置などにおいて,横行縦行の混在した文書画像中の文字行および段を抽出する方法としては以下のような方法が提案されている。
【0008】
例えば,辻本らは,「文書画像処理装置」と題して特開平1−183783号公報に記載されているように,入力文書の文字行をある方向に射影し,その周辺分布を作成することにより,入力文書から自動的にその段組を決定する第4の方式を提案している。
【0009】
また,水谷らは,「文書画像処理装置」と題して特開平5−174179号公報に記載されているように,入力文書の構成要素の空白領域を用いて段抽出を行う第5の方式を提案している。
【0010】
また,平本らは,「文字行抽出方法および装置」と題して特開平10−31716号公報に記載されているように,文字行方向が混在しており,文字の大きさやピッチの異なる領域が混在する文書からの文字行抽出を行う第6の方式を提案している。
【0011】
【発明が解決しようとする課題】
一般の印刷文書には縦書き,横書きが混在した文書も多く,文書認識する際には,文字行および段落を適切に抽出する必要がある。
【0012】
しかしながら,上記の従来の方式では,以下のような問題がある。
(1)文書画像傾き検出に関する問題
上記第1の方式では,行方向一定を前提としているため,新聞のように横行と縦行の混在する文書に適用することができない。また,行方向一定の文書に対しても,すべての文字の下端が基準線上に存在するとは限らないため,誤差が含まれることが避けられない。さらに,ハフ変換処理には膨大な計算量を要するという問題がある。
【0013】
また,上記第2の方式では,新聞のように横行と縦行の混在する文書の場合に,縦行の段組から誤って横の仮行を抽出する場合が発生するために,傾き推定の大きな誤差を生じてしまう可能性がある。
【0014】
また,上記第3の方式では,横行縦行混在文書の傾き検出を目的として設計されてはいるが,文書画像の黒画素を含む外接矩形の面積という少量の情報をもとに角度検出を行っているため,検出した傾きの精度が不安定であるという問題点がある。また,画像自体を回転させて矩形領域を抽出する処理を何度も繰り返す必要があるため,膨大な計算量となる。
【0015】
(2)レイアウト解析に関する問題
文字行と段を抽出するための上記第4の方式では,文字行をあらかじめ抽出しておき,それをもとに段抽出を行うため,段中の文字行が細分化されている不定形の段が細分化されてしまうという問題がある。
【0016】
また,第5の方式では,空白領域を用いて段を抽出するために,行間より段間が狭い箇所がある文書の場合には誤った段抽出がされてしまうおそれがある。
この問題は,縦行横行の文章が密に混在するような文書画像では大きな問題となる。例えば図26に示す新聞紙面の左上側の写真領域の下に矩形の枠で示すように,縦書の記事本文と横書の写真のキャプションの間が狭い文書画像の場合には,これらを一つの段落として,横書キャプションの各行の文字を縦書記事本文の先頭2文字と認識してしまうという問題が起こる。
【0017】
また,第6の方式では,高精度な行抽出を行う前処理として段領域の抽出を行っているため,段中の文字行が細分化されている不定形の段が細分化されてしまい,結果として誤った行抽出をしてしまうという問題がある。
【0018】
すなわち,従来技術では,▲1▼(基礎要素集合)→行抽出処理→段抽出処理→(レイアウト解析結果),または▲2▼(基礎要素集合)→段抽出処理→行抽出処理→(レイアウト解析結果)のいずれかの手順をとり,ボトムアップ処理あるいはトップダウン処理を基本としている。これらの従来技術は,どれも行抽出処理,段抽出処理を独立したものと捉え,逐次的に両者を実行することにより,行および段抽出を達成しようとしているところが共通しており,ここに問題点発生の主要な原因が存在する。
【0019】
このような技術的背景を踏まえて,本発明は,横行縦行が混在した複雑な文書構造を持つ文書画像を認識するような場合にも,横行縦行混在文書の傾き検出を高速かつ高精度に行うことができる文書画像傾き検出装置を提供することを目的とする。
【0020】
【課題を解決するための手段】
図1は,本発明の基本構成例を示す。
縦行横行が混在することがある認識対象の文書画像2が,文書画像認識装置100に入力されると,まず,文書画像傾き検出部1は,傾き補正のための傾き角度3を検出する。レイアウト解析部5は,この傾き角度3によって補正した補正後の文書画像から抽出した基礎要素の集合4について,基本行を抽出し,行および段抽出を相互に繰り返し行うことで,横行縦行が混在する文書画像2の段構造を認識し,レイアウト解析結果6を出力する。
【0021】
(1)文書画像傾き検出
文書画像傾き検出部1は,文書画像2を参照し文字を構成する成分の集合を抽出する文字成分抽出手段と,文字成分の集合を参照し横および縦の行候補を抽出する行候補抽出手段と,各々の行候補に対して信頼度を推定する行信頼度推定手段と,行信頼度に基づいて確度の高い行の集合を抽出する行抽出手段と,確度の高い行の集合の文字成分の配置を用いて傾きを推定する傾き推定手段とを備える。
【0022】
文字成分抽出手段で抽出した文字成分の集合を用いて後段の処理を行い,文書画像の回転など画像を直接操作しないため,計算量を大幅に削減できる。行候補抽出手段によって横方向および縦方向の行の候補を抽出し,行信頼度推定手段および行抽出手段により確度の高い横および縦方向の行の集合を抽出するため,横行縦行混在文書に対しても傾き検出を行うことができる。さらに,傾き推定手段では,確度の高い行を構成する文字成分のみを用いて傾きを推定するために,ノイズに対して強く高精度の傾き推定を実現することができる。
【0023】
本発明を用いると,従来技術では難しかった横行縦行混在文書の傾き検出を,高速かつ高精度に行うことができるようになる。
(2)レイアウト解析(行・段の抽出)
レイアウト解析部5は,文書を構成する基礎要素の集合4から方向の確定した行集合を抽出する基本行抽出手段と,行同士の関連付けによる段抽出および段を制約とした行抽出を相互に実行して行と段とを抽出する行・段相互抽出手段とを備える。ここで入力となる基礎要素の集合4としては,例えば文書画像中の黒画素連結成分,あるいは文書画像中の黒画素の連結成分の外接矩形の重なり矩形を用いることができる。
【0024】
従来技術との大きな違いは,従来技術では行抽出処理後に段抽出処理,または段抽出処理後に行抽出処理というように,行抽出処理と段抽出処理とを独立に行っていたのに対し,本技術では,行の抽出と段の抽出とを関連付けて,行の抽出結果を段の抽出処理に反映させ,また段の抽出結果を行の抽出に反映させる手段を持つことである。
【0025】
本技術を用いると,行方向の確定した行を基本としつつ,行抽出と段抽出の相互作用によりお互いの結果を高めあうことによって,従来技術ではなし得なかった横行縦行が混在し,さらに段中の文字行が細分化されている不定形の段や行間よりも段間が狭い部分が存在するような複雑に入り組んだ文書構造を持つ文書画像に対しても,行および段の抽出を高精度に行うことができる。
【0026】
以上の各処理手段を計算機によって実現するためのプログラムは,計算機が読み取り可能な可搬媒体メモリ,半導体メモリ,ハードディスクなどの適当な記憶媒体に格納することができる。
【0027】
【発明の実施の形態】
以下,図面を参照して本発明の実施の形態を詳しく説明する。
[1]ハードウェア構成
図2は,本発明を適用するハードウェア構成例を示す。図1に示す文書画像認識装置100は,ハードウェアとしては,例えば図2に示すようなCPU20,メモリ21,キーボードその他の入力装置22,ディスプレイその他の出力装置23,ハードディスクその他の外部記憶装置24,画像を読み取るイメージスキャナ25およびこれらを接続するバス26等から構成される。図1に示す各処理手段の機能は,図2に示すメモリ21に格納されたプログラムをCPU20が実行することにより実現される。
【0028】
[2]文書画像傾き検出部
図3は,本発明に係る文書画像傾き検出部1の基本構成例を示す。本発明による文書画像傾き検出部1では,文書画像2を入力し,傾きを検出して傾き角度3を出力する。文書画像傾き検出部1は,文字成分抽出手段11,行候補抽出手段12,行信頼度推定手段13,行抽出手段14,傾き推定手段15を持つ。
【0029】
図4は文書画像傾き検出部1の処理フローチャート,図5は文字成分の抽出を説明する図,図6および図7は行候補の抽出を説明する図,図8は行信頼度の推定を説明する図である。
【0030】
図4に示すフローチャートに従って,文書画像傾き検出部1の処理を詳しく説明する。まず,図4に示すステップS1で文書画像2を入力すると,文字成分抽出手段11は,文書画像2を参照し,文字を構成する成分の集合を抽出する。文字成分の抽出では,文書画像2中の黒画素の連結成分の集合をラベリングなどの手法により抽出する(ステップS2)。このときに,各連結成分の外接矩形を求め保持しておき,以下の処理では外接矩形の座標値のみを用いることにし,計算量の削減を図る。
【0031】
次に,連結成分の外接矩形で互いに重なっているものを統合する。この処理を重なり矩形統合と呼ぶ。重なり矩形統合の結果,重なり矩形の集合が得られる。次に,重なり矩形の大きさのヒストグラムを取るなどして,図,表などの領域に対応した極端に大きな重なり矩形を除去することにより,文字成分に対応した文字成分外接矩形の集合を出力する。
【0032】
図5(A)に示すように,例えば「日」という文字は,黒画素の一つの連結成分40が一つの文字成分として抽出される。図5(B)に示すように,「旧」という文字は,二つの黒画素の連結成分41,42から構成されるため,二つの文字成分として抽出される。図5(C)に示すように「お」という文字は,二つの黒画素の連結成分43a,43bから構成されるが,これらの外接矩形44a,44bをそれぞれ求めると,これらは互いに重なっている矩形であることが分かる。そこで,重なり矩形統合を行うことにより,二つの連結成分43a,43bが一つの文字成分として抽出される。
【0033】
行候補抽出手段12は,図6に示す文書イメージ中の文字成分の配置50の例のような文字成分の集合を参照し,横および縦の行候補の集合を抽出する(ステップS3,S4)。なお,文字成分51のように,一つの文字成分が横行および縦行の二つの行候補に属することもある。
【0034】
行候補抽出手段12は,具体的には,文字成分外接矩形同士の隣接関係から横行および縦行の候補集合を出力する。横行の場合について説明すると,横行に含まれている文字成分の一部は,下辺が行の基準線にほぼ沿っていることを考慮し,文字成分の外接矩形の下辺が横方向の一定の範囲内に存在するかを順次探索することにより,横行候補を抽出する。
【0035】
今,図7(A)に示す文字成分の外接矩形60に隣接する横方向の文字成分を探索する場合を考える。文字成分の外接矩形60の下辺62に着目して,この下辺62の右端から右方向へ所定の角度(例えば±5度)の範囲内で,かつ,ある距離k・XW の範囲内(ただし,kは所定値,XW は外接矩形のX方向の幅)に,隣接する文字成分の外接矩形61の下辺63が存在するかどうかを調べる。もし,この範囲内に文字成分の外接矩形61の下辺63が存在すれば,外接矩形60から外接矩形61へ右リンクを張る。この探索を各外接矩形に対して繰り返す。なお,各外接矩形からの右リンクは,0本か1本のいずれかとし,右リンクが一つの外接矩形から枝分かれしないようにする。この結果,例えば図7(B)に示すように,横方向への右リンクが張られた外接矩形群が求まるので,右リンクを辿ることにより,横行候補の集合を抽出する。
【0036】
縦行候補についても同様に,それぞれの文字成分外接矩形に対して右辺が下隣にある文字成分に下リンクを張り,下リンクを辿ることにより求める。
行信頼度推定手段13は,各々の行候補に対して信頼度を推定する(ステップS5)。まず,各々の行候補に対して行らしさを定量的に計算する。例えば,その行候補に含まれている文字成分の数が一定数以上あるという行の長さによる量,文字成分同士が比較的密に配置されているという近接性による量,文字成分の大きさがほぼ同じくらいであるなどの同質性による量などから行らしさを定量化できる。
【0037】
次に,それぞれの文字成分外接矩形に対して,属する横行候補および縦行候補が一つずつ存在する可能性があるが,横行の行らしさと縦行の行らしさを比較してより行らしい方向の行に属する可能性が高いとして,その文字成分の方向フラグを横または縦にセットする。この結果から,それぞれの行候補に対して,その行候補に属する文字成分のうち,その行候補の行方向と一致する方向フラグを持つものの比率を求め,その行候補の信頼度とする。
【0038】
例えば,図8(A)〜(D)に示すように,各文字成分には,行候補抽出手段12の処理において,隣接する文字成分が見つからなかった文字成分70,縦行候補にのみ含まれる文字成分71,横行候補にのみ含まれる文字成分72,横行の縦行のいずれにも含まれる文字成分73等が存在する。これらの各文字成分に対して,前述した行らしさの尺度を利用して,行らしさを定量的に計算し,「横」または「縦」の方向フラグをセットする。なお,単なるフラグではなく,不明のものについて,縦0.5,横0.5というように確率的な数値を付与してもよい。この結果から,方向一致の比率を計算し,それを行信頼度とする。例えば,横行としての行信頼度は,図8(E)に示すように,着目している横行候補に対して,「横」の方向フラグがセットされている文字成分の比率を計算することにより求められる。
【0039】
行抽出手段14は,行信頼度に基づいて確度の高い行の集合を抽出する(ステップS6)。ここでは,一定の信頼度以上の行信頼度を持つ行候補を確度の高い行として出力する。
【0040】
傾き推定手段15は,確度の高い行の集合の文字成分の配置を用いて傾きを推定する(ステップS7)。確度の高い行の集合に属する文字成分外接矩形の基準辺(横行の場合は下辺,縦行の場合は右辺)の座標値から,複数直線の当てはめによる最小自乗法を用いて傾きの推定を行う。
【0041】
以上のような文書画像傾き検出部1を用いると,横行と縦行とが混在する文書に対しても高速かつ高精度に傾きを検出することができる。検出した傾き角度3によって,文書画像2の傾き補正を行い,次のレイアウト解析処理に進む。
【0042】
[3]レイアウト解析部
図9は,レイアウト解析部5の基本構成例を示す。図9に示す文書画像認識装置100におけるレイアウト解析部5では,補正後の文書画像の基礎要素の集合4を入力とし,行抽出および段抽出をしてレイアウト解析結果6を出力する。このため,レイアウト解析部5は,基本行抽出手段8と行・段相互抽出手段9とを持つ。
【0043】
さらに,基本行抽出手段8は,基礎要素集合の関連付けをもとに,横方向および縦方向の行方向を持つ行要素を生成する行要素生成手段81と,各々の行要素に対して信頼度を推定し,信頼度に基づいて行要素を淘汰する行要素淘汰手段82と,整合性のとれた行および文字集合を得るための行要素整合手段83とを持つ。また,行・段相互抽出手段9は,互いに関連付けられた段同士の統合を行う段要素統合手段91と,整合性のとれた段および行集合を得るための段要素整合手段92と,整合性のとれた行および文字集合を得るための行要素整合手段93とを持つ。
【0044】
(1)基本行抽出手段
図10は,基本行抽出手段の処理概要を示す。
基本行抽出手段8の入力は,例えば文書画像中の黒画素連結成分,あるいは文書画像中の黒画素の連結成分の外接矩形の重なり矩形というような,文書を構成する基礎要素の集合4であり,出力は,行要素,文字要素,基礎要素が互いに包含関係により関連付けられた木構造の集合である。
【0045】
まず,ステップS10で,基礎要素の集合4を入力すると(ステップS10),行要素生成手段81は,各基礎要素を唯一含む文字要素を生成し(ステップS11),さらに文字要素の関連付けによる行要素を生成する(ステップS12)。具体的には,行要素生成手段81は,基礎要素の集合同士の関連付けをもとに,横方向および縦方向の行方向を持つ行要素を生成する。この基礎要素集合同士の関連付けは,近接性あるいは同質性に基づいて行う。
【0046】
続いて,行要素淘汰手段82は,各々の行要素に対して信頼度を推定し,この信頼度に基づいて行要素を淘汰する(ステップS13)。
さらに,行要素整合手段83は,整合性のとれた行集合と文字集合を得るための行要素集合の整合処理を行い(ステップS14),行要素,文字要素,基礎要素(重なり矩形要素)が互いに包含関係により関連付けられた木構造の集合を出力する。具体的には,以下のような条件を満たす行要素集合および行要素の内部構造を得る。
【0047】
1)すべての文字成分は唯一の行要素に属する。
2)各々の行要素の行領域は互いに重ならない。ここで,行領域は各々の行要素に属する文字成分の外接矩形で定義される領域である。
【0048】
3)行方向の確定した行要素に属する文字要素は,行方向順に順序付けされ,行と垂直方向に重なる文字要素が存在しないように互いに統合されている。
以下,具体例に従って基本行抽出手段8による行抽出についてさらに詳しく説明する。
【0049】
図11に示すような文書画像の行・段抽出を行うものとする。図11に示す文書画像について,ラベリングによる黒画素連結成分の抽出処理および重なり矩形統合処理により,重なり矩形集合を基礎要素の集合として抽出したものを入力する(図10のステップS10)。入力した重なり矩形集合のそれぞれ一つを子として持つ文字要素の集合を生成し,これを基本文字要素の集合とする(ステップS11)。
【0050】
図12は,このようにして生成された文書画像の基本文字要素の集合の例を示している。図12中に示す各矩形が文字要素を表している。
次に,文字要素の関連付け(例えば近接性)による行要素の生成を行う(ステップS12)。ここでは,入力された基本文字要素の集合のそれぞれの文字要素に対して,横方向および縦方向に文字要素自身の大きさのしきい値倍以下の距離にあり,かつ,最も近接している文字要素を探索してリンクを張り,横方向および縦方向に近接した文字要素の列を,行要素として生成する。行要素には,横の行方向を持つもの(横行要素)と,縦の行方向を持つもの(縦行要素)の両方が存在する。多くの文字要素は,横行要素と縦行要素の両方の子となって,要素同士の干渉が多く発生する。
【0051】
図13は,文字要素の近接性により生成した横行要素の外接矩形を表示した文書画像の例を示す。また,図14は,文字要素の近接性により生成した縦行要素の外接矩形を表示した文書画像の例を示す。
【0052】
前処理として行われる文書画像傾き検出部1による傾き補正のために,傾きがほぼ0である文書画像を前提にできるため,近接条件に傾きによる広がりを持たせないことにする。また,近接条件の距離のしきい値は,異なる段に属するであろう行が統合されてしまわないために,傾き検出による傾き補正の場合より厳しく小さな値を採用する。
【0053】
次に,行信頼度を用いた行要素の淘汰を行う(ステップS13)。文書画像傾き検出部1による処理と同様の手法を用いる。まず,生成した行要素の行信頼度を,属する文字要素の平均間隔,属する文字要素の数,属する文字要素のすべてを含む外接矩形による行領域の縦横比率をもとに算出する。次に,それぞれの文字要素に対して,関連する行要素の方向を文字要素の方向とする。関連する行要素が,横行要素と縦行要素の2種類存在する場合には,行信頼度の大きな行要素の方向を文字要素の方向とする。さらに,生成した行要素の強度を,その行要素に含まれる文字要素のうち,行要素の行方向と同一の方向を持つ文字要素の比率とし,強度がしきい値未満の行要素を淘汰し,しきい値以上のものを信頼度の高い基本行要素として残す。
【0054】
図15は,淘汰により生き残った信頼度の高い基本行要素を,外接矩形でもって表示した文書画像の例を示す。図15では,本来の横行および縦行の一部が,それぞれ正しい行方向を持つ行要素として生き残っており,かつ,異なる段に属する行の誤った統合が存在しないことがわかる。
【0055】
次に,行要素整合手段83による行要素集合の整合処理(ステップS14)を行う。この行要素整合手段83の処理フローチャートを図16に示す。
まず,行要素同士の領域干渉を解消する(ステップS31)。行要素同士の外接矩形は互いに接触している可能性がある。ここで,行要素の外接矩形とは,その行要素に含まれている文字要素の外接矩形を含む最小の矩形を意味する。行要素同士の外接矩形が接触している場合には,行要素間の干渉とみなされるので,それを解消する。
【0056】
次に,行要素と領域干渉している文字要素の吸収仮説を生成する(ステップS32)。行要素の外接矩形と接触しているが,行要素の子として属していない文字要素が存在する可能性がある。そこで,それぞれの行要素に対してこのような文字要素を探索して,子として吸収する。ここでは,文字要素を子として吸収した行要素を,吸収仮説と呼んでいる。
【0057】
続いて,文字要素の吸収仮説の要素干渉を検証することにより淘汰を行う(ステップS33)。上記のステップS32の処理の場合に,複数の行要素に接触している文字要素はノイズである可能性が高いので,行要素の子とせずに削除するのが望ましい場合もあるため,この検証を行う。
【0058】
次に,行要素同士の領域干渉を解決する(ステップS34)。上記ステップS32およびS33の処理により,結果的にある行要素の新たな子となった文字要素が存在する場合には,行要素の外接矩形が膨張する可能性がある。したがって,この場合には,行要素に対し,ステップS31〜S33の処理を再度繰り返す。
【0059】
さらに,行要素に属する文字要素の整頓を行う(ステップS35)。それぞれの行要素の外接矩形に含まれる文字要素がすべて子となった状態を構成できたならば,次に行方向と垂直方向に重なっている文字要素は一つにまとめ,テキスト認識実行時の文字切り出し候補の可能性を限定するのが望ましい。このときに,まとめられた複数の文字要素の子となっている重なり矩形要素の基礎要素集合を一つに統合して,新たな統合された文字要素の子とする。
【0060】
以上の行要素の整合処理を,図17に示す画像例の1行のイメージに注目して説明する。
図17の画像A中の矩形は,行要素淘汰後に得られた信頼度の高い基本縦行要素である。図17の画像B中の矩形列は,画像Aの縦行要素の子となっている文字要素である。行要素の外形矩形に含まれていない文字要素が二つ存在することが分かる。画像中の「や」と「し」の文字要素である。
【0061】
その後,画像の行要素同士の領域干渉の解消・行要素と領域干渉している文字要素の吸収仮説を生成/淘汰し,図17の画像Cのように,行要素の外形矩形と接触している文字要素をすべて子として取り込む。さらに行要素同士の領域干渉の解決を経て,行要素に属する文字要素の整頓を行った結果が,図17の画像Dである。画像Dにより,行方向に垂直な方向(この場合には横方向)に射影した場合に重なっている文字要素が統合されて,まとめられたことが分かる。
【0062】
次に,行要素と近接した文字要素の行要素への統合処理を行った結果が,図17の画像Eである。この場合,全体が一つの行として統合されている。ここで,図17の画像Fは,統合後の行要素の子となっている文字要素集合を示している。
【0063】
以上の処理を行った結果を図18に示す。この段階で,すべての文字要素がある行要素の子となり,行要素,文字要素,基礎要素が互いに包含関係により関連付けられた木構造の集合が,中間的文書構造として構築できたことになる。
【0064】
以上の行抽出技術を用いた結果得られた行要素の集合には,図18の例からも明らかなように,段を構成した場合に行方向に近接している複数の行要素が含まれている。この意味で,この段階で得られた行要素は,段の構成要素としての完全な行には対応していない。完全な行を構成するためには,段抽出との連携を経て,同一の段に属する行要素をさらに統合するという,行抽出と段抽出との連携した処理を行うことが必要である。
【0065】
(2)行・段相互抽出手段
行・段相互抽出手段9は,互いに関連付けられた段同士の統合と,整合性のとれた段および行集合を得るための段要素集合の整合と,整合性のとれた行および文字集合を得るための行要素集合の整合処理を実行する。さらに,行・段相互抽出手段9が,段同士の統合を繰り返し実行することにより,行抽出結果と段抽出結果が互いに影響を与えあい,徐々に高精度な行・段抽出処理が行われるようにする。
【0066】
図19は,行・段相互抽出手段9の処理の流れの概要を示す。
行・段相互抽出手段9の入力は,基本行抽出手段8により得られた行要素を頂点とする木構造の集合(行要素,文字要素,基礎要素が互いに包含関係により関連付けられた木構造の集合)であり,出力は,段要素を頂点とする木構造の集合(段要素,行要素,文字要素,基礎要素が互いに包含関係により関連付けられた木構造の集合)である。
【0067】
行要素を頂点とする木構造の集合を入力すると(ステップS40),まず各行要素を唯一含む段要素の生成を行う(ステップS41)。この段要素について,以下のステップS42〜S46を繰り返し実行することにより,段要素を統合していく。段要素間の関連付け(ステップS42),関連付けられた段要素の統合(ステップS43)は,基本的には,基本行抽出手段8において,行要素の生成のため文字要素と行要素の集合を対象に行っていた処理と同様であり,この処理を,行要素と段要素の集合を対象にして行う。
【0068】
次に,段要素集合の整合処理を行う(ステップS44)。この段要素集合の整合処理は,以下の条件を満たす段要素集合および段要素の内部構造を得ることを目的とした処理である。
【0069】
1)すべての行成分は唯一の段要素に属する。
2)各々の段要素の段領域は互いに重ならない。ここで,段領域は各々の段要素に属する行成分の外接矩形で定義される領域である。
【0070】
3)段方向の確定した段要素に属する行要素は,段方向順に順序付けされ,段方向と垂直方向に重なる行要素が存在しないように互いに統合されている。
この段要素集合の整合処理を行った後に,再度,基本行抽出手段8において説明した行要素集合の整合処理を行う(S45)。これにより,段抽出結果が行抽出結果にフィードバックされ,行および段の抽出の精度が高められる。以上のステップS42〜S45の処理を,新たな関連付けが発生しなくなるまで繰り返す(ステップS46)。
【0071】
以上の処理において,段要素間の関連付けを,行方向,行垂直方向とそれぞれ変化させて繰り返し実行することにより,2次元方向の関連付けを回避し,整合などの計算量を削減することもできる。また,段要素間の関連付けを,関連付けの対象となる段要素の内部構造により動的に決定することもでき,これにより文書構造に応じた高精度な行・段抽出を促進できる。例えば,大きな段が少数存在する整頓された段を持つ文書構造の場合には,パラメータを固定しても十分である。しかし,少数の行からなる小さな段が多数存在する不定形の段を持つ文書構造,あるいは空白がセパレータの役割を果たす表形式の文書構造の場合には,状況に応じた仮説生成を行う手法が有効である。状況に応じた段要素同士の関連付けとして,以下の3種類が考えられる。
【0072】
1)関連付け対象となる段の大きさ(含む行の数)により,近接性判定距離の標準サイズとの比較を変化させる。これにより,大きな安定した段同士の過統合を防止しつつ,細分化された小さな段同士あるいは大きな段と小さな段との適切な統合を促進できる。
【0073】
2)関連付け対象となる段に含まれている行のサイズに比例して,近接性判定距離を設定する。これにより,含む文字要素の大きさに応じて適切な統合を行えるため,行サイズの大きい段同士の未統合,行サイズの小さい段同士の過統合,行サイズの大きく異なる段同士の過統合を大幅に削減することができる。
【0074】
3)段の拡張処理の段階に応じて,近接性判定距離の標準サイズとの比率を変化させる。行方向の段の拡張処理は2回繰り返されるが,1回目は段が未だ細分化されており統合を促進する必要がある一方,2回目はある程度安定した段が生成できているため,むしろ過統合を抑制する必要がある。そこで,1回目は標準サイズとの比率を高く設定して統合しやすくし,2回目は標準サイズとの比率を小さく設定して統合しにくくした。
【0075】
具体的には,近接性判定距離Dは,kSで与えられる。ここで,Sは,上記2)の処理で適応的に決定される標準サイズ,kは,上記1)および3)の処理で決定される係数である。
上記1)および3)の処理を実現するために,例えば,段の統合を行垂直方向,行方向,行垂直方向,行方向と,計4回繰り返し,行方向の段統合において,図20に示すような係数kを用いると,高精度な段抽出が可能となり,段集合の整合処理の結果として高精度な行抽出も行うことができる。なお,図20では,「小さい段」は,それに含む行が1行のみの段,「中くらいの段」は,それに含む行が2行で,含む文字総数が100文字以内の段,「大きい段」は,それに含む行が2行で,含む文字総数が101文字以上,あるいは3行以上の段と,定義している。
【0076】
また,段要素集合同士の関連付けは,近接性あるいは同質性に基づいて行うことができる。同質性を用いることにより,段間の方が行間よりも狭い場合でも精度よく段を分離することが可能となる。
【0077】
さらに,段要素集合同士の関連付けに用いる要素関連付けパラメータを,処理回数に応じて変化させることにより,行・段の統合を進め,後半においては段の過統合を抑制するといった柔軟な処理を行い,行・段抽出の一層の高精度化を進めることができる。
【0078】
文書画像例の段抽出結果を図21に示す。図22は,行・段相互抽出手段9により得られた段中の行要素を示している。これにより,同じ段に属する行は,行方向の射影に対して互いに重なりのない完全な行要素が抽出できていることが分かる。
【0079】
【実施例】
以下に,図23ないし図25を用いて,本発明の実施例を説明する。
横行縦行が混在する文書である新聞文書の文書画像を対象事例として,図23に示すような,新聞紙面から400dpiで画像取り込みを行った二値化文書画像を対象とする。なお,図23の文書画像は縮小表示している。また,左上部分には,写真が印刷されているが,ここでは認識対象にはならないので空白で置き換えている。
【0080】
図24は,図23の文書画像についての行抽出処理の結果の例を示す。この文書画像についての行抽出処理の抽出精度は100%であった。図25は,最終的な段抽出処理の結果の例を示す。この文書画像についての段抽出処理の抽出精度も100%であった。
【0081】
【発明の効果】
以上説明したように,本発明によれば,従来技術では困難であった横書き(横行),縦書き(縦行)が混在した文書画像の傾きを高速かつ高精度に検出することができるようになる。
【図面の簡単な説明】
【図1】本発明の基本構成例を示す図である。
【図2】本発明を適用するハードウェア構成例を示す図である。
【図3】本発明に係る文書画像傾き検出部の基本構成例を示す図である。
【図4】文書画像傾き検出部の処理フローチャートである。
【図5】文字成分の抽出を説明する図である。
【図6】行候補の抽出を説明する図である。
【図7】行候補の抽出を説明する図である。
【図8】行信頼度の推定を説明する図である。
【図9】 レイアウト解析部の基本構成例を示す図である。
【図10】基本行抽出手段の処理概要を示す図である。
【図11】処理対象の文書画像の例を示す図である。
【図12】基本文字要素の集合の例を示す図である。
【図13】横行要素の外接矩形を表示した文書画像の例を示す図である。
【図14】縦行要素の外接矩形を表示した文書画像の例を示す図である。
【図15】淘汰により生き残った信頼度の高い行要素を外接矩形表示した文書画像の例を示す図である。
【図16】行要素整合手段の処理フローチャートである。
【図17】行要素の整合処理により処理した画像の例を説明する図である。
【図18】基本行抽出手段により抽出した結果の例を示す図である。
【図19】行・段相互抽出手段の処理の流れの概要を示す図である。
【図20】近接性判定距離の標準サイズとの比率を変化させる係数kの例を示す図である。
【図21】行・段相互抽出手段により抽出した結果の段要素の例を示す図である。
【図22】行・段相互抽出手段により抽出した結果の行要素の例を示す図である。
【図23】本発明の実施例の評価を説明するための図である。
【図24】本発明の実施例の評価を説明するための図である。
【図25】本発明の実施例の評価を説明するための図である。
【図26】従来技術の問題を説明するための図である。
【符号の説明】
100 文書画像認識装置
1 文書画像傾き検出部
11 文字成分抽出手段
12 行候補抽出手段
13 行信頼度推定手段
14 行抽出手段
15 傾き推定手段
2 文書画像
3 傾き角度
4 基礎要素の集合
5 レイアウト解析部
6 レイアウト解析結果
8 基本行抽出手段
81 行要素生成手段
82 行要素淘汰手段
83 行要素整合手段
9 行・段相互抽出手段
91 段要素統合手段
92 段要素整合手段
93 行要素整合手段
Claims (4)
- 電子化された文書画像の傾きを検出する文書画像傾き検出装置において,
傾き検出対象の文書画像を参照し,文字を構成する成分の集合を抽出する文字成分抽出手段と,
前記抽出した文字成分の集合を参照し,横および縦の行候補を抽出する行候補抽出手段と,
各々の行候補に対して信頼度を推定する行信頼度推定手段と,
前記推定した行信頼度に基づいて確度の高い行の集合を抽出する行抽出手段と,
確度の高い行の集合の文字成分の配置を用いて傾きを推定する傾き推定手段とを備え,
前記行信頼度推定手段は,各々の行候補に対して行らしさを定量的に計算し,それぞれの文字成分外接矩形に対して,それが属する横行候補および縦行候補の行らしさを比較し,より行らしい方向を文字方向として求め,それぞれの行候補に対してその行候補に属する文字成分のうちその行候補の行方向と一致する文字方向を持つものの比率をその行候補の信頼度とする
ことを特徴とする文書画像傾き検出装置。 - 前記文字成分抽出手段は,文書画像中の黒画素の連結成分を文字成分の候補として,または文書画像中の黒画素の各連結成分に対する外接矩形を求め,これらの外接矩形の重なり矩形を文字成分の候補として用いる
ことを特徴とする請求項1記載の文書画像傾き検出装置。 - 前記傾き推定手段は,確度の高い行に属する文字成分外接矩形の基準辺の座標値から,複数直線の当てはめによる最小自乗法を用いて傾きの推定を行う
ことを特徴とする請求項1記載の文書画像傾き検出装置。 - 認識対象となる文書画像の傾きを検出する文書画像傾き検出装置に用いるプログラムを格納した計算機読み取り可能な記憶媒体であって,
入力した文書画像を参照し文字を構成する成分の集合を抽出する文字成分抽出処理と,
前記抽出した文字成分の集合を参照し,横および縦の行候補を抽出する行候補抽出処理と,
各々の行候補に対して信頼度を推定する行信頼度推定処理と,
前記推定した行信頼度に基づいて確度の高い行の集合を抽出する行抽出処理と,
確度の高い行の集合の文字成分の配置を用いて傾きを推定する傾き推定処理とを計算機に実行させるとともに,
前記行信頼度推定処理では,各々の行候補に対して行らしさを定量的に計算し,それぞれの文字成分外接矩形に対して,それが属する横行候補および縦行候補の行らしさを比較し,より行らしい方向を文字方向として求め,それぞれの行候補に対してその行候補に属する文字成分のうちその行候補の行方向と一致する文字方向を持つものの比率をその行候補の信頼度とする処理を,前記計算機に実行させるためのプログラムを格納した
ことを特徴とする文書画像傾き検出プログラムの記憶媒体。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14692698A JP4170441B2 (ja) | 1997-11-28 | 1998-05-28 | 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体 |
US09/193,868 US6332046B1 (en) | 1997-11-28 | 1998-11-18 | Document image recognition apparatus and computer-readable storage medium storing document image recognition program |
US09/944,412 US6577763B2 (en) | 1997-11-28 | 2001-09-04 | Document image recognition apparatus and computer-readable storage medium storing document image recognition program |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP32762597 | 1997-11-28 | ||
JP9-327625 | 1997-11-28 | ||
JP14692698A JP4170441B2 (ja) | 1997-11-28 | 1998-05-28 | 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008156213A Division JP4395188B2 (ja) | 1997-11-28 | 2008-06-16 | 文書画像認識装置および文書画像認識プログラムの記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11219407A JPH11219407A (ja) | 1999-08-10 |
JP4170441B2 true JP4170441B2 (ja) | 2008-10-22 |
Family
ID=26477624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP14692698A Expired - Fee Related JP4170441B2 (ja) | 1997-11-28 | 1998-05-28 | 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体 |
Country Status (2)
Country | Link |
---|---|
US (2) | US6332046B1 (ja) |
JP (1) | JP4170441B2 (ja) |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7130487B1 (en) * | 1998-12-15 | 2006-10-31 | Matsushita Electric Industrial Co., Ltd. | Searching method, searching device, and recorded medium |
JP3913985B2 (ja) * | 1999-04-14 | 2007-05-09 | 富士通株式会社 | 文書画像中の基本成分に基づく文字列抽出装置および方法 |
JP2001101435A (ja) * | 1999-09-27 | 2001-04-13 | Toshiba Corp | 文書画像処理装置文書画像処理方法 |
JP3854024B2 (ja) * | 1999-11-30 | 2006-12-06 | 株式会社Pfu | 文字認識前処理装置及び方法並びにプログラム記録媒体 |
FR2810765B1 (fr) * | 2000-06-27 | 2002-08-23 | Mannesmann Dematic Postal Automation Sa | Segmentation d'une image numerique d'un objet postal par la transformation de hough |
JP4599693B2 (ja) * | 2000-09-12 | 2010-12-15 | コニカミノルタビジネステクノロジーズ株式会社 | 画像処理装置および画像処理方法並びにコンピュータ読み取り可能な記録媒体 |
JP2004054640A (ja) * | 2002-07-19 | 2004-02-19 | Sharp Corp | 画像情報配信方法、画像情報配信システム、中央装置、端末装置、スキャナ装置、コンピュータプログラム、及び記録媒体 |
US7095877B2 (en) * | 2003-07-30 | 2006-08-22 | Xerox Corporation | System and method for measuring and quantizing document quality |
US7171618B2 (en) * | 2003-07-30 | 2007-01-30 | Xerox Corporation | Multi-versioned documents and method for creation and use thereof |
US7805307B2 (en) * | 2003-09-30 | 2010-09-28 | Sharp Laboratories Of America, Inc. | Text to speech conversion system |
US7286718B2 (en) * | 2004-01-26 | 2007-10-23 | Sri International | Method and apparatus for determination of text orientation |
JP4480421B2 (ja) * | 2004-03-04 | 2010-06-16 | 富士通株式会社 | 文書画像レイアウト解析プログラム |
JP4162633B2 (ja) * | 2004-06-30 | 2008-10-08 | 株式会社リコー | 画像歪み補正装置、画像読取装置、画像形成装置、プログラム及び記憶媒体 |
JP4553241B2 (ja) * | 2004-07-20 | 2010-09-29 | 株式会社リコー | 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体 |
AU2004242419A1 (en) * | 2004-12-21 | 2006-07-06 | Canon Kabushiki Kaisha | Analysing digital image of a document page |
WO2006066325A1 (en) * | 2004-12-21 | 2006-06-29 | Canon Kabushiki Kaisha | Segmenting digital image and producing compact representation |
JP4443443B2 (ja) | 2005-03-04 | 2010-03-31 | 富士通株式会社 | 文書画像レイアウト解析プログラム、文書画像レイアウト解析装置、および文書画像レイアウト解析方法 |
JP4607633B2 (ja) * | 2005-03-17 | 2011-01-05 | 株式会社リコー | 文字方向識別装置、画像形成装置、プログラム、記憶媒体および文字方向識別方法 |
EP1785847B1 (en) * | 2005-10-27 | 2015-11-18 | Accenture Global Services Limited | Display apparatus for automatically visualizing an application landscape |
US7561722B2 (en) * | 2005-12-14 | 2009-07-14 | Xerox Corporation | System and method for interactive document layout |
JP4957922B2 (ja) * | 2006-06-07 | 2012-06-20 | 日本電気株式会社 | 画像方向判定装置、画像方向判定方法、および画像方向判定用プログラム |
US7801358B2 (en) * | 2006-11-03 | 2010-09-21 | Google Inc. | Methods and systems for analyzing data in media material having layout |
US20080225340A1 (en) * | 2007-03-14 | 2008-09-18 | Ricoh Company, Limited | Image processing apparatus, image processing method, and computer program product |
CN101354746B (zh) * | 2007-07-23 | 2011-08-31 | 夏普株式会社 | 文字图像抽出装置及文字图像抽出方法 |
JP4983526B2 (ja) * | 2007-10-15 | 2012-07-25 | 富士ゼロックス株式会社 | データ処理装置及びデータ処理プログラム |
JP4549400B2 (ja) | 2008-03-04 | 2010-09-22 | 富士通株式会社 | 文書認識プログラム、文書認識装置、および文書認識方法 |
CN101551859B (zh) * | 2008-03-31 | 2012-01-04 | 夏普株式会社 | 图像辨别装置及图像检索装置 |
US8200043B2 (en) * | 2008-05-01 | 2012-06-12 | Xerox Corporation | Page orientation detection based on selective character recognition |
JP4572248B2 (ja) | 2008-06-23 | 2010-11-04 | シャープ株式会社 | 画像処理装置、画像形成装置、画像処理方法、制御プログラム、記録媒体 |
US8290268B2 (en) * | 2008-08-13 | 2012-10-16 | Google Inc. | Segmenting printed media pages into articles |
US8620080B2 (en) * | 2008-09-26 | 2013-12-31 | Sharp Laboratories Of America, Inc. | Methods and systems for locating text in a digital image |
US9087337B2 (en) * | 2008-10-03 | 2015-07-21 | Google Inc. | Displaying vertical content on small display devices |
JP4625861B2 (ja) * | 2008-11-17 | 2011-02-02 | シャープ株式会社 | 画像処理装置、画像読取装置、画像形成装置、画像処理方法、制御プログラム、および記録媒体 |
KR101035739B1 (ko) * | 2009-02-13 | 2011-05-20 | 전남대학교산학협력단 | 문자 인식의 왜곡을 보정하는 방법 |
CN102282588A (zh) * | 2009-04-07 | 2011-12-14 | 村田机械株式会社 | 图像处理装置、处理方法、处理程序及存储介质 |
JP4927122B2 (ja) * | 2009-06-15 | 2012-05-09 | シャープ株式会社 | 画像処理方法、画像処理装置、画像形成装置、プログラムおよび記録媒体 |
JP5577948B2 (ja) | 2010-08-24 | 2014-08-27 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
JP5325870B2 (ja) * | 2010-11-05 | 2013-10-23 | 株式会社エヌ・ティ・ティ・ドコモ | 文字列出力装置、文字認識システム、プログラム及び文字列出力方法 |
JP2012194705A (ja) * | 2011-03-15 | 2012-10-11 | Omron Corp | 画像処理装置、画像処理方法および画像処理プログラム |
JP5216890B2 (ja) * | 2011-04-15 | 2013-06-19 | 株式会社富士通マーケティング | レシートデータ認識装置およびそのプログラム |
JP6089722B2 (ja) | 2013-01-23 | 2017-03-08 | 富士通株式会社 | 画像処理装置、画像処理方法および画像処理プログラム |
JP6286866B2 (ja) | 2013-05-20 | 2018-03-07 | オムロン株式会社 | 画像処理装置および画像処理方法 |
JP6108100B2 (ja) * | 2013-05-23 | 2017-04-05 | 大日本印刷株式会社 | 文書画像の傾き補正装置 |
US9355313B2 (en) | 2014-03-11 | 2016-05-31 | Microsoft Technology Licensing, Llc | Detecting and extracting image document components to create flow document |
CN106384065B (zh) | 2015-06-30 | 2019-08-06 | 北京智谷睿拓技术服务有限公司 | 显示控制方法和装置 |
CN106250791A (zh) * | 2015-06-30 | 2016-12-21 | 北京智谷睿拓技术服务有限公司 | 显示控制方法和装置 |
JP5913763B1 (ja) * | 2015-07-17 | 2016-04-27 | 楽天株式会社 | 基準線設定装置、基準線設定方法及び基準線設定プログラム |
CN109753953B (zh) * | 2017-11-03 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 图像中定位文本的方法、装置、电子设备和存储介质 |
US11017258B2 (en) * | 2018-06-05 | 2021-05-25 | Microsoft Technology Licensing, Llc | Alignment of user input on a screen |
JP7406884B2 (ja) * | 2019-06-27 | 2023-12-28 | キヤノン株式会社 | 情報処理装置、プログラム及び制御方法 |
CN117877038B (zh) * | 2024-03-12 | 2024-06-04 | 金现代信息产业股份有限公司 | 基于文字检测的文档图像纠偏方法、系统、设备及介质 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63268081A (ja) * | 1987-04-17 | 1988-11-04 | インタ−ナショナル・ビジネス・マシ−ンズ・コ−ポレ−ション | 文書の文字を認識する方法及び装置 |
JPH01183783A (ja) | 1988-01-19 | 1989-07-21 | Toshiba Corp | 文書画像処理装置 |
JP3038714B2 (ja) | 1988-12-22 | 2000-05-08 | 富士ゼロックス株式会社 | 文書傾き補正装置 |
EP0472313B1 (en) * | 1990-08-03 | 1998-11-11 | Canon Kabushiki Kaisha | Image processing method and apparatus therefor |
US5359677A (en) * | 1990-12-11 | 1994-10-25 | Sharp Kabushiki Kaisha | Image reader and facsimile machine using such image reader |
JP3320759B2 (ja) * | 1991-12-26 | 2002-09-03 | 株式会社東芝 | 文書画像傾き検出装置およびその方法 |
JPH05174179A (ja) | 1991-12-26 | 1993-07-13 | Toshiba Corp | 文書画像処理装置 |
US5452374A (en) * | 1992-04-06 | 1995-09-19 | Ricoh Corporation | Skew detection and correction of a document image representation |
CA2116600C (en) * | 1993-04-10 | 1996-11-05 | David Jack Ittner | Methods and apparatus for inferring orientation of lines of text |
JP2778437B2 (ja) | 1993-12-27 | 1998-07-23 | 日本電気株式会社 | 文書画像傾き検出装置 |
JP3108979B2 (ja) * | 1994-07-28 | 2000-11-13 | セイコーエプソン株式会社 | 画像処理方法および画像処理装置 |
US6137905A (en) * | 1995-08-31 | 2000-10-24 | Canon Kabushiki Kaisha | System for discriminating document orientation |
JP3837193B2 (ja) | 1996-05-13 | 2006-10-25 | 松下電器産業株式会社 | 文字行抽出方法および装置 |
US6327387B1 (en) * | 1996-12-27 | 2001-12-04 | Fujitsu Limited | Apparatus and method for extracting management information from image |
-
1998
- 1998-05-28 JP JP14692698A patent/JP4170441B2/ja not_active Expired - Fee Related
- 1998-11-18 US US09/193,868 patent/US6332046B1/en not_active Expired - Lifetime
-
2001
- 2001-09-04 US US09/944,412 patent/US6577763B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH11219407A (ja) | 1999-08-10 |
US6332046B1 (en) | 2001-12-18 |
US20020031264A1 (en) | 2002-03-14 |
US6577763B2 (en) | 2003-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4170441B2 (ja) | 文書画像傾き検出装置および文書画像傾き検出プログラムの記憶媒体 | |
JP4395188B2 (ja) | 文書画像認識装置および文書画像認識プログラムの記憶媒体 | |
CN111507251B (zh) | 试题图像中作答区域的定位方法、装置、电子设备及计算机存储介质 | |
US8170368B2 (en) | Correcting device and method for perspective transformed document images | |
US5664027A (en) | Methods and apparatus for inferring orientation of lines of text | |
Stamatopoulos et al. | Goal-oriented rectification of camera-based document images | |
KR101985612B1 (ko) | 종이문서의 디지털화 방법 | |
Rehman et al. | Document skew estimation and correction: analysis of techniques, common problems and possible solutions | |
US6327384B1 (en) | Character recognition apparatus and method for recognizing characters | |
RU2621601C1 (ru) | Устранение искривлений изображения документа | |
KR101235226B1 (ko) | 화상 처리 장치, 화상 처리 방법 및 기록 매체 | |
CN113688688A (zh) | 图片中表格线条的补全方法与图片中表格的识别方法 | |
US7929772B2 (en) | Method for generating typographical line | |
Boudraa et al. | An improved skew angle detection and correction technique for historical scanned documents using morphological skeleton and progressive probabilistic hough transform | |
CN112800824A (zh) | 扫描文件的处理方法、装置、设备及存储介质 | |
JP3006466B2 (ja) | 文字入力装置 | |
Saragiotis et al. | Local skew correction in documents | |
Yuan et al. | Convex hull based skew estimation | |
JP3303246B2 (ja) | 画像処理装置 | |
Lee et al. | An algorithm of line segmentation and reading order sorting based on adjacent character detection: a post-processing of ocr for digitization of chinese historical texts | |
JP4194309B2 (ja) | 文書方向推定方法および文書方向推定プログラム | |
Garris et al. | Generalized form registration using structure-based techniques | |
CN113159031A (zh) | 一种手写文本检测方法、装置及存储介质 | |
JP3187895B2 (ja) | 文字領域抽出方法 | |
Mehta et al. | A survey on the application of image processing techniques on palm leaf manuscripts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050426 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080403 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080415 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080616 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20080616 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20080616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080805 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080807 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110815 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120815 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120815 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130815 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |