[go: up one dir, main page]

JP2009093305A - 帳票認識装置 - Google Patents

帳票認識装置 Download PDF

Info

Publication number
JP2009093305A
JP2009093305A JP2007261512A JP2007261512A JP2009093305A JP 2009093305 A JP2009093305 A JP 2009093305A JP 2007261512 A JP2007261512 A JP 2007261512A JP 2007261512 A JP2007261512 A JP 2007261512A JP 2009093305 A JP2009093305 A JP 2009093305A
Authority
JP
Japan
Prior art keywords
item name
frame
character string
recognition apparatus
form recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007261512A
Other languages
English (en)
Inventor
Hiroshi Shinjo
広 新庄
Takeshi Eisaki
健 永崎
Kazuki Nakajima
和樹 中島
茂 〆木
Shigeru Shimeki
Yoshifumi Abe
佳史 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Information and Telecommunication Engineering Ltd
Original Assignee
Hitachi Computer Peripherals Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Computer Peripherals Co Ltd filed Critical Hitachi Computer Peripherals Co Ltd
Priority to JP2007261512A priority Critical patent/JP2009093305A/ja
Publication of JP2009093305A publication Critical patent/JP2009093305A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

【課題】 類似しているが書式が異なる帳票を認識する場合、帳票に記載されている項目名を認識してデータの属性を判定する方式がある。この場合,帳票上の全ての文字に対して項目名か否かを判定する必要があるため処理時間がかかるという問題がある。
【解決手段】 入力された帳票の画像情報を認識する帳票認識装置において、帳票認識装置は、帳票を認識する帳票認識処理を実行し、項目名文字列であることを判定する特徴を抽出して項目名文字列であるか否かを判定し、項目名文字列であると判定された場合、データ文字列の属性を解析し,その属性に応じてデータ枠の文字列を認識する。
【選択図】図2

Description

本発明は、帳票画像の処理技術に関し、特に帳票に記載された情報の属性及び帳票に記載された文字を認識する技術に関する。
従来のOCR(Optical Character Reader)によって帳票を認識する方式では、予め読取り位置が決められている定型の帳票しか認識できない方式が多い。このような定型の帳票が認識する従来技術として、「フォーマットジェネレータ」がある(例えば、非特許文献1参照)。
非特許文献1に記載された技術では、読取り対象の文字が記入される位置は0.1mm単位で厳密に指定される。既存のOCRは、フォーマットジェネレータと同様の書式情報を採用している機種が多い。
一方、従来の方式では、給与支払報告書及び診療報酬明細書(レセプト)等のように、同じ種類の帳票であっても1枚ごとに罫線の本数、枠の位置、及び枠の大きさ等が微妙に異なる帳票は、認識されない。
このような帳票では、各項目間の配置関係がほぼ一定であることを利用し、予め登録された枠構造と帳票画像から解析した枠構造とを照合することによって、枠の位置及び枠の大きさ等が1枚ごとに異なる帳票の読取り領域を特定する方式がある(例えば、特許文献1参照)。
給与支払報告書及び診療報酬明細書(レセプト)等より自由度が高い帳票として、登記済通知書等がある。登記済通知書等の帳票は、同じ種類の帳票であれば項目名はほぼ同じであるが、1枚ごとに帳票の枠の大きさ及び枠の数が異なる。また、項目間の配置関係も異なる場合がある。
このような帳票に対して、まず表構造を解析し、枠内の文字を認識し、項目名が記載されている枠を検出し、項目名が記載された枠の右又は下の枠が読取り対象のデータ領域であると判断して、認識する方式がある(例えば、特許文献2参照)。特許文献2に記載された方式では、項目名の文字列及び項目名枠とデータ枠との対応関係をOCRに予め格納しなければならない。
一般的に,項目名枠とデータ枠を認識して帳票を読取る方式は,項目名の文字列を探索するために帳票上の全ての文字を認識する必要がある。具体的には,あらかじめ登録された項目名辞書と枠内の文字列の認識結果とが、照合できれば項目名枠とし、照合できなければデータ枠とする。この方式において,データの文字の認識精度を上げるために,項目名の属性に応じて認識方法を変更する方式がある。(例えば,特許文献3参照)。
具体的には,金額であれば数字の字種のみで認識し,住所ならば住所の辞書を利用して認識するなどである。このような処理を行わない場合,例えば金額において「0(ゼロ)」を「O(オー)」と誤認識したり、「1」を「l(エル)」と誤認識する可能性が増える。さらに,数字10種類の文字を認識するだけにもかかわらず,漢字を前提とした数千字の文字との認識処理を行わなければならないため,処理時間も増加する。
このように,項目名枠とデータ枠を認識して帳票を読取る方式は,項目名の文字列を探索するために帳票上の全ての文字を認識した後に,データを再認識しなければならないため,処理時間がかかることが問題である。この点に着目し,帳票上の特定の列または行のみを項目名が記載されている領域として認識する方式がある(例えば,特許文献4参照)。
さらに,帳票の枠の連続性を解析して,帳票を複数のブロックに分割し,行数が多いブロックをデータが記載されたブロック,その上下にあるブロックを項目名が記載されているブロックとして,これらのブロックのみ項目名の認識をすることにより,高速化する方式がある(例えば,特許文献5参照)。
特許文献5の方式では,帳票を横方向に分割する連続した枠を行と呼とよび,処理の単位としている。同じ構造の行が縦方向に繰り返されている領域をブロックと呼び,帳票を複数のブロックに分割する。このブロックの中で,繰返しが最も多いブロックをデータが記載されているブロックとし,その上下のブロックを項目名が記載されているブロックとしている。
特開2004−139484号公報 特開平9−319824号公報 特開2005−173730号公報 特開2000−29986号公報 特開2000−339406号公報 「日立OCRソリューションImaging OCR」カタログ、株式会社日立製作所、2005年12月版、P5〜6
本発明の帳票認識装置は、特許文献2に記載された技術で認識できる帳票を認識対象とする。すなわち、本発明は、同じ種類の帳票であっても、枠の大きさ及び枠の位置が異なり、さらに項目の順序も異なる可能性がある帳票を認識できる帳票認識装置を提供する。
前述した枠の位置及び枠の大きさ等が同じ種類であっても異なる帳票に対して、非特許文献1の方式を適用すると、全ての帳票の書式情報を作成し、OCRに作成された全ての書式情報が格納され、OCRは、入力された帳票ごとにどの帳票かを識別した上で書式情報を切替えなければならない。帳票の種類が多い場合,書式情報を作成するコスト及び帳票識別の精度の観点から、非特許文献1に記載された方式で枠の位置及び枠の大きさ等が同じ種類であっても異なる帳票を認識することは現実的でない。
また、特許文献1に記載された方式も、帳票の項目間の配置が同じであることが前提条件なので、枠の位置及び枠の大きさ等が同じ種類であっても異なる帳票に適用できない。
特許文献2や特許文献3に記載された方式は、枠の位置及び枠の大きさ等が同じ種類であっても異なる帳票に適用できるが、実際に運用する際には,背景技術にも記載したように,帳票上の全ての文字列を認識した後に,再度データの文字列を認識しなければならないため,処理時間がかかるという問題がある。
特許文献4に記載された方式は,上記の問題を解決するために,帳票上の特定の行または列の枠内の文字列のみを項目名認識の対象とすることにより,処理量を削減している。しかしながら,この方式では,「特定の行または列」をあらかじめ対象帳票を限定する必要がある。すなわち,対象とする帳票を限定しており,例えば,表の上端や下端もしくは左端に項目名があるような帳票を想定している。帳票によって,項目名枠の行や列が変動するような帳票については適用できない。
特許文献5に記載された方式についても対象帳票に限定が存在する。繰返しが最も多いブロックをデータ領域としているため,給与支払報告書等のようにデータの繰返しがない帳票には対応できない。
本発明は,帳票の制約なく,項目名領域を効率的に探索することにより,最小限の項目名認識による高速化と,項目名の属性に応じた高精度な認識を目的とするものである。
上述の目的を達成するために、本発明に係る帳票認識装置は、プロセッサと、前記プロセッサに接続される記憶部と、帳票の画像情報を入力する手段とを備える帳票認識装置において、前記記憶部に格納されたプログラムに基づいて、前記プロセッサは、前記入力された帳票の画像情報の枠及び文字列を検出する第1手順と、前記文字列が項目名である可能性が高い枠を項目名領域候補として検出する第2手順と、前記項目名領域候補に含まれる文字列が項目名であるか否かを判定する第3手順と、前記項目名と判定された文字列と、その他の文字列との対応付けを行う第4の手順とを実行することを特徴とする。
本発明の一形態によると、類似しているが書式が異なる帳票を、厳密な定義なしに認識できる。さらに、項目名の文字が記載されている確率が高い領域を優先的に探索することにより,高速に帳票の項目名文字列とデータ文字列を判別できる。これにより,帳票全面の文字に対して項目名か否かの判定を行う必要がなくなるため,処理が高速化できる。
本発明を適用した帳票認識装置について図面を参照して詳細に説明する。なお、本発明は、以下の説明によって限定されるものではない。
図1は、本発明の実施形態の帳票認識システムの構成を示す図である。
帳票認識システムは、入力装置10、画像入力装置20、帳票認識装置30、認識辞書40、表示装置50、及び画像データベース(DB)60を備える。
入力装置10は、帳票認識装置30にコマンド及びコードデータ等を入力するためのキーボード及びマウス等の装置である。
画像入力装置20は、帳票を画像データとして、帳票認識装置30に入力するためのスキャナ等の装置である。
帳票認識装置30は、画像入力装置20によって入力された帳票の読み取り領域を検出し、その帳票の文字を認識する計算機であって、図示しないCPU、メモリ、及び記憶装置を備える。
認識辞書40は、帳票認識装置30が帳票を認識する際に参照する辞書データベースである。認識辞書40は、具体的には、帳票認識装置30が文字認識する際に参照する文字認識辞書を格納し、また、帳票の項目名を検出する際に参照する項目名辞書や,項目属性ごとの字種等を指定した読取り属性辞書等を格納する。また,後述する領域分割辞書等を格納することも可能である。
表示装置50は、帳票認識装置30によって帳票が認識された結果を表示するディスプレイ等の装置である。
画像DB60は、画像入力装置20によって帳票認識装置30に入力された画像データを格納する。また、画像DB60には、画像入力装置20によって帳票認識装置30が認識する対象となる画像データが予め格納されていてもよい。
なお、本発明は、帳票認識装置30と同じ機能を備えるソフトウェアによって通常の計算機に実装されてもよい。
次に、本発明の概要と効果について説明する。
本発明の前提となる技術は、帳票認識において項目名の文字列を認識し、データの文字列と項目名文字列の属性を対応付けることにより,帳票内のデータを複雑な定義情報なしで認識することである。
本発明の概要は,上記の帳票認識方法において,項目名である可能性が高い領域を優先して,項目名領域の探索を以下に示す条件を用いて動的に制御することにより,項目名文字認識を最小限とすることである。
本発明の効果は,文字認識や項目名単語照合の回数を最小限にすることにより,処理時間を削減できることである。さらにデータ領域の文字列の認識を,対応付けられた項目名の属性に応じて制御できるため,高精度なデータ文字列の認識を実現できることである。
図2は、本発明の実施形態の帳票認識装置30によって実行される帳票処理の概略を示すフローチャートである。
枠・文字列抽出処理200(第1手順)において,入力された帳票画像から枠や文字列を抽出する。
次に,項目名領域検出処理210(第二手順)において,枠・文字列抽出処理200において抽出した文字列が項目名である可能性が高い領域を、優先的に項目名領域候補として検出する。
次に,項目名文字認識処理220(第三手順)において,項目名領域候補に含まれる項目名候補の文字列に対して文字認識を実行し,あらかじめ登録された項目名辞書と照合する。照合が成功すれば項目名と判断し,失敗すれば項目名でないと判断する。
項目名領域検索の終了判定処理230において,項目名検出を終了するか否かを判定する。
なお、項目名領域検出処理210から項目名領域検索の終了判定処理230の詳細については,実施例1から実施例15を用いて詳細に説明する。
次に,データ属性解析処理240(第四手順)において,項目名と判定された文字列とその他の文字列との対応付けを行う。対応付けにおいては,項目名文字列を含む枠とデータ文字列を含む枠の縦もしくは横方向の整列性を解析することにより自動的に実施することができる。
その他にも,特許文献2に記載されているように、項目名とデータとの配置関係をあらかじめ登録しておき,その情報に基づいてデータの属性を決めることができる。
最後に,データ文字認識処理250では,データ属性解析処理240において判定されたデータの属性に応じて,認識処理を切替えて実行する。切り替えの対象の例としては以下のとおりである。
第一は,漢字,カナ,数字,アルファベット,記号などの文字種である。例えば,金額欄であれば,数字属性であり,数字のみの字種で認識を実行する。第2は,照合処理の有無と照合辞書の切替えである。例えば,住所欄であれば住所辞書を用いて照合処理を行う。第3は,リジェクト条件である。金額などの数字は誤りを減らすために,漢字の認識などに比べてリジェクトの条件を厳しくするということが考えられる。なお,これらの例以外の条件を変更してもよい。
本発明では,項目名領域検出処理210から項目名領域検索の終了判定処理230を動的に制御することにより,汎用的かつ効率的な帳票認識が実行できる。
さて、本実施例では、まず、入力された帳票画像の表領域を複数のブロックに分割し,次に、各ブロックにおいて述する項目名領域検出210を行う。表領域を複数のブロックに分割する領域分割処理の詳細なフローについては,図15から図17を用いて後述する。
なお、領域分割処理は,項目名領域検出処理210の前に実行してもよく、また、帳票認識処理ごとに実行してもよく,あらかじめ学習用の帳票で分割処理を行い,その分割情報を領域分割辞書に登録しておいて認識時に利用してもよい。領域分割辞書に登録する情報としては,枠の構造や何行目,何列目で分割するか,領域内の枠数,位置,ブロック間の位置関係などが考えられる。
ここで、表領域とは、入力された帳票画像中において、罫線で囲まれた全ての領域である。例えば図6において、給与所得の「源泉徴収票」と記載された箇所の、下の領域における枠の集合体全てが、表領域に相当する。さらに、四辺形だけでなく、L字型など、罫線で囲まれた閉領域や、左右一方もしくは両方に罫線がない四角形領域なども枠とみなしてもよい。
また、枠とは、いわゆる「セル」のことを示す。すなわち、上下左右の4本の罫線で分割された領域である。例えば図6において、「氏名」や「種別」、「支払金額」等が記載された矩形領域が、「枠」に相当する。
表領域の分割については,隣接する枠同士の配置関係を用いる。図8に示すように,各枠について,縦方向(下方向)については,縦に並んだ枠の左右端が一致する枠が存在すれば関係ありとする。この場合,上側の枠と下側の枠の数は1対1(図8(a))でも1対N(図8(b))でもよい。ただし,逆は関係なしとする。なお,図8において,実線の矢印は下方向に隣接関係があることを示す。
横方向(右方向)については,横に並んだ枠の上下端が一致する枠が存在すれば関係ありとする。この場合,左側の枠と右側の枠の数は1対1(図8(c))でも1対N(図8(d))でもよい。ただし,逆は関係なしとする。図8において,点線の矢印は右方向に隣接関係があることを示す。
このような処理を帳票全面の全ての枠に対して行うと,図9の入力画像に対して,図10の隣接関係情報が得られる。
隣接関係解析のフローの詳細については,図16を用いて後述する。
図10において,下方向の関係が全くない箇所で分割したものをブロックと定義すると,図11の領域1100と1110の2つに分けられる。各ブロック内において,他の実施例を用いて項目名領域検出を実施することができる。なお,図11においては下方向の関係を優先したが,右方向の関係を優先して分割してもよい。
この処理の目的は,図11のような項目名が様々な箇所に項目名が記載されている帳票でも,効率的に項目名文字列領域を検出することである。
図12は図6の帳票に対してブロック分割を行った結果である。1200から1240までの5つのブロックに分割される。それぞれの領域内において,項目名領域検出の処理を行う。ブロック分割のフローの詳細については,図17を用いて後述する。
図12のような複雑な帳票では,ブロック分割の効果はより大きくなる。ブロック分割については,入力画像ごとに実施してもよい。また,帳票の種類がある程度決まっている場合には,あらかじめ分割済みのブロック領域の情報を、領域分割辞書に登録してもよい。認識実行時には,入力画像をその領域分割辞書情報に基づいて、ブロック分割して処理してもよい。
以下,領域分割について,図15から図17を用いて処理フローを詳細に説明する。
図15は,領域分割処理の概略の処理フローである。まず隣接関係解析処理1500において,全ての枠についての隣接関係を解析する。この処理については,図16を用いて詳述する。
次に,ブロック分割処理1510において,隣接関係解析で得られた結果から帳票を部分領域に分割する。本願では,この部分領域をブロックと呼ぶ。このブロック分割処理については,図17を用いて詳述する。
さらに,複数のブロックに分割する場合や,ブロック内を再分割する場合には,ブロック分割終了判定処理1520にて,分割終了か否かを判定し,全てのブロック分割が終了したら処理を終了する。
図16は,領域分割における枠間の隣接関係解析の処理フローである。以下の処理は,未解析の枠を選択する処理1600と終了判定処理1640が存在するように,全ての枠に対して行われる。
まず,下方向の隣接関係を判定処理1605にて解析する。これは,図8(a)や図8(b)に示すように,対象となる枠の下に左右端が一致する枠が存在するか否かを判定するものである。対象となる枠の左右端に一致していれば,下側の枠の数は問わない。
この判定基準を満たす場合は,処理1610にて,これらの枠の間に下方向の隣接関係が存在することを設定する。
処理1610の後,もしくは1605の基準を満たさない場合は,右方向の隣接関係を判定処理1620にて解析する。これは,図8(c)や図8(d)に示すように,対象となる枠の右に上下端が一致する枠が存在するか否かを判定するものである。対象となる枠の上下端に一致していれば,右側の枠の数は問わない。
この判定基準を満たす場合は,処理1630にて,これらの枠の間に右方向の隣接関係が存在することを設定する。
処理1630の後,もしくは1620の基準を満たさない場合は,判定1640にて全ての枠が解析対象になったか否かを判定する。全て解析済みであればこの処理を終了し,そうでなければ処理1650にて次の枠を解析対象の枠とする。
図9の帳票に対して,下方向の隣接関係を実線の矢印で,右方向の隣接関係を点線の矢印で示した図が図10である。
図17は,下方向の隣接関係を用いてブロック分割を行う際の処理フローの概略図である。右方向の隣接関係を用いてブロック分割を行う際には,図17において「横罫線」を「縦罫線」に,「罫線の上下に下方向の隣接関係」を「罫線の左右に右方向の隣接関係」に置き換えればよい。
まず,処理1700において,対象領域を横切る横罫線の中で,未解析の横罫線を選択する。
次に,判定1710において,選択した罫線の上下に,下方向の隣接関係をもつ枠が存在しないか否かを判定する。一組でも存在すればブロック分割の対象とはせず,全く存在しない場合には,処理1720において,選択した横罫線で対象領域を分割する。
この処理を判定1730を用いて,対象領域を横切る全ての横罫線について判定する。
図10の隣接関係解析結果に基づいて,図17の処理を横罫線を基準として実行した結果が,図11の1100と1110である。1100と1110のブロック間には下方向の隣接関係はなく,その他の横罫線については下方向の隣接関係があることから,上記のブロック分割がなされていることが分かる。図6の帳票に対して横罫線を基準としてブロック分割した結果が図12の1200から1240である。
図17において,対象領域とは,帳票全面でもよく,ユーザが指定した領域でもよい。帳票上に表領域が複数に分かれている場合には,それぞれの表でもよい。また,ブロック分割した領域を実施例aのように再帰的に分割する場合には,既に分割後のブロック領域を対象領域としてもよい。
以下,項目名領域検出処理210と項目名領域検索の終了判定処理230について具体的な実施例を用いて説明する。本発明においては,以下の実施例の1個以上を実行すればよい。実施例の組合せや優先度付けについては,設計時に設定しても,ユーザが選択してもよい。
以下、「項目名の特徴」とは、項目名文字列を検出するために用いるために、項目名文字列として頻度が高い位置や記載方法等を指すこととする。
(実施例1:最上段,最下段,最左列)
ここでは、項目名の特徴として、文字列の位置情報を利用する方法を示す。
帳票の最上段,最下段,最左列に位置する文字列のみを項目名領域検出処理210の対象とし、項目名領域候補とされた文字列に対して項目名文字認識処理220を実行する。帳票のその他の文字列は、データ文字列として項目名の属性が決定した後に認識する。
この処理の目的は,最上段や最下段,最左列に項目名が記載されている帳票が多いため,これらの帳票に対して効率的に項目名領域を検出することである。
図3に本実施例の適用対象となる帳票の例を示す。最上段に「銀行名」「支店名」「口座番号」「氏名」「金額」の項目名が記載されており,最下段には「合計」の項目名が記載されている。「合計」の右側の枠内の文字列は項目名として単語照合に失敗するため,データと判定される。
最上段と最下段以外の領域にはデータが記載されており,データ属性解析処理240において,「AAA」「BBB」「CCC」「DDD」は「銀行名」の属性が対応付けられ,その他のデータについても,縦方向に対応付けされている。
(実施例1a:整列方向に探索)
実施例1の基準で項目名認識を行い,最上段の枠内に項目名文字列が検出された場合,当該枠の下側に隣接して左右端が同じである枠が存在する場合に,項目名領域検索の終了判定処理230にて,この下側の枠内の文字列を項目名領域検出処理210の対象とする。
この処理は,最下段の枠に対しては上側に隣接して左右端が同じである枠が検出された場合にも実行し,最左列の枠に対しては,右側に隣接し上下端が同じである枠が検出された場合にも実行する。
図4に本実施例の適用対象となる帳票の例を示す。最上段に「銀行名」「口座番号」「氏名」「金額」の項目名が記載されている。「銀行名」の文字列を含む枠の下方向に「支店名」の枠があり,両者の枠の左右端が一致している。したがって,項目名領域検索の終了判定処理230にて,「支店名」の文字列を項目名領域検出処理210の対象とする。
(実施例1b:項目間の階層関係)
次に、項目名の特徴として、項目名文字列の階層的な位置情報を利用する方法を示す。
実施例1の基準で項目名認識を行い,最上段の枠内に項目名文字列が検出された場合,当該項目名枠の下側に隣接した同じ高さで複数の枠が存在し,当該項目名枠の左端と下側の枠の左端が一致し,当該項目名枠の右端と下側の枠の右端が同じである場合に,項目名領域検索の終了判定処理230にて,この下側の複数の枠内の文字列を項目名領域検出処理210の対象とする。
この処理は,最下段の枠に対しては上側に隣接した同じ高さで左右端が一致する枠が検出された場合,最左列の枠に対しては,右側に隣接した同じ幅で上下端が一致する枠が検出された場合にも実行する。
図5に本実施例の適用対象となる帳票の例を示す。この処理の目的は,図5に示すように,「振込先」の下位概念として「銀行名」や「支店名」が存在するように,項目名間で階層関係がある場合に,実施例1だけでは対応できないため,このような帳票を認識するためのものである。
図5において,最上段に「振込先」「口座番号」「氏名」「金額」の項目名が記載されている。「振込先」の文字列を含む枠の下方向に「銀行名」と「支店名」の枠があり,「振込先」と「銀行名」の枠の左端が一致し,「振込先」と「支店名」の枠の右端が一致している。したがって,項目名領域検索の終了判定処理230にて,「銀行名」と「支店名」の文字列を項目名領域検出処理210の対象とする。
(実施例1c:項目名領域の下端を基準に検出)
実施例1の基準で項目名認識を行い,最上段の枠内に項目名文字列が検出された場合,検出された項目名を含む枠の下端よりも,上方に枠の下端がある項目名を含む枠が検出された場合に,その枠内の文字列を項目名領域検出処理210の対象とする。
この処理において,項目名文字列と判定された枠の下端が,判定前よりも下方向になった場合には,項目名枠の下端を更新し,その他の項目名文字列を含む枠に対しても項目名領域検索の終了判定処理230を実行する。
この処理は,最下段の枠に対しては,項目名文字列を含む枠の上端に対して同様の処理を行い,最左列の枠に対しては,項目名文字列を含む枠の右端に対して同様の処理を行う。
図5に本実施例の適用対象となる帳票の例を示す。最上段に「振込先」「口座番号」「氏名」「金額」の項目名が記載されている。「振込先」の文字列を含む枠の下端は他の枠の下端よりも上にあるため,「振込先」の下方向の「銀行名」と「支店名」を含む枠内の文字列を項目名領域検索の終了判定処理230にて,項目名領域検出処理210の対象とする。この実施例は,図5のような帳票に対する,実施例1bとは異なる解決策の一つである。
(実施例2:縦長枠)
次に、項目名の特徴として、文字列が記載されている枠の形状を利用する方法を示す。
項目名領域検索の終了判定処理230において,縦方向に長い枠内の文字列が項目名領域検出処理210の対象になっていない場合,この枠内の文字列を項目名領域検出処理210の対象とする。
この処理の目的は,図6の帳票に示すように,通常縦長の枠は項目名が記載されている場合が多いため,これらの帳票に対応することである。図6の例では,縦長の枠内に記載されている上段の「支払を受ける者」,「住所又は居所」,「氏名」,中段の「夫あり」,「未成年者」などの縦長の枠内の文字列は全て項目名である。しかしながら,実施例1から実施例1cの方式では,中段の項目名は検出できない。本実施例では,これらの枠内の文字列を項目名領域検索の終了判定処理230にて,項目名領域検出処理210の対象とする。
(実施例3:複数枠の繰返し)
次に、項目名の特徴として、文字列が記載されている枠の形状および繰り返し構造を利用する方法を示す。
項目名領域検索の終了判定処理230において,縦方向に同じ幅の枠が複数隣接している場合に,その最上段の枠内の文字列が項目名領域検出処理210の対象になっていない場合,この枠内の文字列を項目名領域検出処理210の対象とする。
縦方向だけでなく,横方向に同じ高さの枠が複数隣接している場合に,その最左列の枠内の文字列が項目名領域検出処理210の対象になっていない場合,この枠内の文字列を項目名領域検出処理210の対象とする。
この処理の目的は,図7に示す帳票のように,データの繰返しの最上段に項目名が記載されている場合が多いため,これらの帳票に対応することである。実施例1では,表の最上段や最左列を対象にしていたが,帳票内にはそれ以外の箇所にも項目名が記載されているために,本実施例の処理を行う。図7の例では,最上段に「振込人」の項目があるものの,その下の段の「銀行名」「支店名」「口座番号」「氏名」「金額」の項目名は検出されない。
しかし,これらの項目名を含む700の領域内の枠は縦横に複数の枠が整列しているため,この領域内で最上段,最左列の枠内の文字列について項目名領域検出処理210の対象とする。
図7においては,「銀行名」「支店名」「口座番号」「氏名」「金額」が項目名として検出され,「AAA」「BBB」「CCC」「DDD」は項目名単語とは照合しないため,データと判定される。したがって,項目名文字列が最上段に存在する縦方向のデータの繰返しとして,各データに属性が付与される。
(実施例4:割付)
次に、項目名の特徴として、文字列の枠内での記載位置を利用する方法を示す。
項目名領域検索の終了判定処理230において,縦方向に同じ幅の枠が隣接している場合に,その最上段の枠内の文字列が中央揃えもしくは均等割付されており,下段の枠内の文字列が右詰めもしくは左詰めの場合に,その最上段の枠内の文字列が項目名領域検出処理210の対象になっていない場合,この枠内の文字列を項目名領域検出処理210の対象とする。
枠・文字列抽出処理200において,枠内の文字列の位置が検出されているため,枠と文字列の位置関係から上記の判定は可能である。なお,この処理は下段の枠が1個でも複数でも同様に実行する。
この処理は,横方向に同じ高さの枠が隣接している場合にも同様に実行する。この処理の目的は,項目名の文字列は通常枠の中央部に記載されていることが多いのに対し,データについては左詰め,金額などの数字は右詰めで記載されることが多いため,これらの帳票に対応することである。枠と行の位置関係のみから判定するため,高速に判定できるという効果がある。
図3の帳票の例においては,「銀行名」をはじめとする全ての項目名が中央揃えとなっている。一方,銀行名のデータである「AAA」や支店名のデータである「bbb」,氏名のデータである「○○○」などは左詰めとなっている。さらに,口座番号のデータである「111111」や金額のデータである「2000」は右詰めとなっている。
このように,枠内の文字列の配置から,項目名とデータの文字列の区別が可能となる。さらに,図6においては,中段の「配偶者特別控除の額」や「扶養親族の数(配偶者を除く)」などが2行で均等割付になっている。これらの文字列も,配置から項目名領域検索の終了判定処理230において項目名領域検出処理210の対象とすることができる。
(実施例5:インデント)
次に、項目名の特徴として、文字列の先頭文字の記載位置を利用する方法を示す。
項目名領域検索の終了判定処理230において,縦方向に同じ幅の枠が繰返し接続している場合に,繰返しの最上段の枠以外の枠内の文字列のインデントが同じである場合に,その最上段の枠内の文字列が項目名領域検出処理210の対象になっていない場合,この枠内の文字列を項目名領域検出処理210の対象とする。
枠・文字列抽出処理200において,枠内の文字列の位置が検出されているため,枠と文字列の位置関係から上記の判定は可能である。
この処理は,横方向に同じ高さの枠が繰返し接続している場合にも同様に実行する。この処理も,枠と行の位置関係のみから判定するため,高速に判定できるという効果がある。
図3および図7の帳票の例において,縦方向のデータの行頭は「金額」を除いて各項目とも同じである。したがって,縦方向に行頭が異なる「銀行名」「支店名」「口座番号」「氏名」は,項目名領域検索の終了判定処理230において項目名領域検出処理210の対象とすることができる。
(実施例6:枠の大きさ)
次に、項目名の特徴として、文字列を含む枠の大きさを利用する方法を示す。
項目名領域検索の終了判定処理230において,縦方向に同じ幅の枠が繰返し接続している場合に,繰返しの最上段の枠と下側の枠の高さが異なる場合に,その最上段の枠内の文字列が項目名領域検出処理210の対象になっていない場合,この枠内の文字列を項目名領域検出処理210の対象とする。
枠・文字列抽出処理200において,枠の位置と大きさが検出されているため,上記の判定は可能である。
この処理は,横方向に同じ高さの枠が隣接している場合にも同様に実行できる。この処理も,枠の位置関係と大きさのみから判定するため,高速に判定できるという効果がある。
図3および図7の帳票の例においては,「銀行名」「支店名」「口座番号」「氏名」「金額」の項目名の文字列を含む枠のみが他のデータ文字列を含む枠よりも高さが大きい。この観点から,これらの枠内の文字列を項目名領域検索の終了判定処理230において項目名領域検出処理210の対象とすることができる。なお,図3の例では項目名を含む枠が大きい例を示したが,項目名を含む枠のみが小さい場合でもよい。
(実施例7:文字の大きさ)
次に、項目名の特徴として、文字列の文字の大きさを利用する方法を示す。
項目名領域検索の終了判定処理230において,縦方向に同じ幅の枠が繰返し接続している場合に,繰返しの最上段の枠内の文字の大きさと下側の枠内の文字の大きさが異なる場合に,その最上段の枠内の文字列が項目名領域検出処理210の対象になっていない場合,この枠内の文字列を項目名領域検出処理210の対象とする。
枠・文字列抽出処理200において,枠と文字列の位置と大きさが検出されているため,上記の判定は可能である。なお,文字の大きさが判定できない場合には,文字列の高さを用いてもよい。
この処理は,横方向に同じ高さの枠が繰返し接続している場合にも同様に実行できる。この処理の目的は,図3および図7に示すように,データが複数繰り返されている場合は,データの文字列は同じ大きさで記載されており,項目名の文字列の大きさだけ異なる場合があることが多いため,これらの帳票に対応することである。この処理も,枠と行の位置関係と大きさのみから判定するため,文字認識を実行するよりも高速に判定できるという効果がある。
図3および図7の帳票の例においては,「銀行名」「支店名」「口座番号」「氏名」「金額」の項目名の文字の大きさがが他のデータ文字よりも大きい。この観点から,これらの枠内の文字列を項目名領域検索の終了判定処理230において項目名領域検出処理210の対象とすることができる。なお,図3および図7の例では項目名の文字が大きい例を示したが,項目名の文字のみが小さい場合でもよい。
(実施例8a:再帰分割)
上述の分割処理では、縦もしくは右方向の関係を用いて、ブロック分割を行った。しかし,ブロック内の最上段や最左列のみに項目名が記載されているとは限らない。そこで,ブロック内を再度分割する。前段の処理で下方向の関係を用いて分割した場合には右方向の関係を用いて再分割し,右方向の関係を用いた場合には下方向の関係を用いて再分割する。再分割したブロック内において,上記の実施例を用いて項目名領域検出を実施する。この再帰分割についても,あらかじめブロック分割情報を領域分割辞書に登録しておいてもよい。
(実施例8b:関係解析の親を基準)
上述の図11においては,縦もしくは横方向の関係を解析した。この処理において,他の枠に対して最上段もしくは最左列の枠内,すなわち連続する矢印の起点となる枠内の文字列が項目名領域検出処理210の対象になっていない場合,項目名領域検索の終了判定処理230においてこの枠内の文字列を項目名領域検出処理210の対象とする。
この処理の目的は,上から下,左から右へ隣接関係がある場合に,その上端もしくは左端の枠内に項目名が記載されている場合が多いため,これらの特徴をもつ帳票に対応することである。
図11の例では,「振込人」「口座番号」「合計」が右方向の矢印の起点となっており,「振込先」「口座番号」「氏名」「金額」が下方向の矢印の起点となっているため,これらを項目名領域検出処理210の対象とする。
(実施例9:隣接枠)
次に、項目名の特徴として、項目名でない文字列との隣接関係を利用する方法を示す。
実施例1から8において項目名文字列と判定された文字列を含む枠に隣接する枠内の文字列が項目名文字列と判定されていない場合,項目名領域検索の終了判定処理230において,これらの隣接枠内の文字列を項目名領域検出処理210の対象とする。
この処理の目的は,他の実施例では検出できない項目名の文字列を検出することである。項目名の文字列は隣接して記載されていることを前提にしている。
(実施例10:検出済み項目名利用)
実施例1から9のいずれかにおいて項目名文字列を検出した後,項目名辞書に登録された項目名のうち、必須の項目名が全て検出されていれば,項目名領域検索の終了判定処理230において項目名領域検出処理を終了する。
この処理の目的は,複雑な帳票の場合,実施例1から9を全て実行すると,結果的に全領域を項目名領域検出処理210の対象とする場合があることを避けるものである。
(実施例11:未検出項目名利用)
実施例1から9の項目名文字認識において,未検出の項目名のみを単語照合の対象とする。さらに,単語照合の制約条件をそれまでの処理に比べて変更することにより,項目名単語照合が成功する確率を高くする。
この処理の目的は,実施例1から9で文字認識の誤りなどにより認識できなかった項目名文字列を単語数を減らし,照合条件を緩和することにより項目名照合を成功させて,項目名文字列として検出することである。
(実施例12:終了条件)
実施例1の基準で項目名認識を行う際に,帳票の最上段,最下段,最左列に位置する文字列について,それぞれ項目名認識を行った際に,1回もしくは複数回項目名照合に失敗した場合には,最上段,最下段,最左列であっても項目名領域検索の終了判定処理230にて項目名領域検出を終了する。
図3に本実施例の適用対象となる帳票の例を示す。最上段に「銀行名」「支店名」「口座番号」「氏名」「金額」の項目名が記載されており,最下段には「合計」の項目名が記載されている。最左列には「銀行名」と「AAA」「BBB」「CCC」「DDD」「合計」の文字列が存在している。「銀行名」は項目名照合に成功するが,「AAA」「BBB」「CCC」「DDD」は項目名照合に失敗するため,1回もしくは複数回の項目名照合失敗で,最左列の項目名領域検出を終了する。
上述のように、様々なルールを用いても解析できない場合、無限ループに陥る可能性がある。そこで、わかるところまででやめるために、項目名でないと判断された回数が1回もしくは任意の複数回の場合には,項目名領域検出を終了することが望ましい。
(実施例13:判定終了条件)
実施例1の基準で項目名認識を行い,項目名と認識された場合には,項目名領域検索の終了判定処理230において,最上段であれば下方向に,最下段であれば上方向に,最左列であれば右方向の文字列に対して,項目名領域検出処理210に戻り,全ての文字列が項目名文字列認識に失敗するまで,再帰的に項目名領域検出処理210と項目名認識処理220を繰り返す。
この処理の目的は,図5に示すように,「振込先」の下位概念として「銀行名」や「支店名」が存在するように,項目名間で階層関係がある場合に,実施例1だけでは対応できないため,このような帳票を認識するために実施するものである。
(実施例14:判定重複領域)
上記の実施例を組み合わせて項目名領域検出処理210を実施する際には,既に検出済みの項目名領域を処理対象とする場合がある。この場合には,検出済みとして項目名文字認識処理220を省略する。
(実施例15:仮想罫線)
上記の実施例では,枠で区切られた帳票を対象としているが,図13に示すような罫線がない帳票については,行間や文字間から図14のような仮想罫線を設定した後に,上記の処理を実行することができる。
(実施例16:ユーザ選択)
ユーザが上記の実施例の1つもしくは複数を選択する場合には,どの基準を用いるかを表示装置50に表示し,ユーザは力装置10から選択する。また,採用した基準の優先度をユーザに選択させることもできる。
本発明の実施形態の帳票認識システムの構成図。 本発明の実施形態の帳票認識装置によって実行される帳票処理の概略を示すフローチャート。 本発明の実施形態の帳票の一例を示す図。 本発明の実施形態の帳票の一例を示す図。 本発明の実施形態の帳票の不読領域を示す図。 本発明の実施形態の帳票の一例を示す図。 本発明の実施形態の帳票の一例を示す図。 本発明の実施形態の枠間隣接関係の一例を示す図。 本発明の実施形態の帳票の一例を示す図。 本発明の実施形態の枠間隣接関係の一例を示す図。 本発明の実施形態のブロック分割の一例を示す図。 本発明の実施形態のブロック分割の一例を示す図。 本発明の実施形態の帳票の一例を示す図。 本発明の実施形態の帳票の一例に仮想罫線を付与した図。 本発明の実施形態の帳票認識装置によって実行される領域分割処理の概略を示すフローチャート。 本発明の実施形態の帳票認識装置によって実行される隣接関係解析処理の概略を示すフローチャート。 本発明の実施形態の帳票認識装置によって実行されるブロック分割処理の概略を示すフローチャート。
符号の説明
10 入力装置
20 画像入力装置
30 帳票認識装置
40 認識辞書
50 表示装置
60 画像データベース。

Claims (22)

  1. プロセッサと、前記プロセッサに接続される記憶部と、帳票の画像情報を入力する手段とを備える帳票認識装置において、
    前記記憶部に格納されたプログラムに基づいて、前記プロセッサは、
    前記入力された帳票の画像情報の枠及び文字列を検出する第1手順と、
    前記文字列が項目名である可能性が高い枠を項目名領域候補として検出する第2手順と、
    前記項目名領域候補に含まれる文字列が項目名であるか否かを判定する第3手順と、
    前記項目名と判定された文字列と、その他の文字列との対応付けを行う第4の手順と、
    を実行することを特徴とする帳票認識装置。
  2. 前記第2の手順では、前記項目名領域候補に含まれる文字列をあらかじめ記憶された項目名辞書と照合して、前記項目名領域候補に含まれる文字列が項目名であるか否かを判定することを特徴とする請求項1記載の帳票認識装置。
  3. 前記その他の文字列は、データ文字列であることを特徴とする請求項1記載の帳票認識装置。
  4. 前記プロセッサは、前記第3の手順の後に更に第5の手順を実行し、
    前記第5の手順では、前記項目名領域候補の検出の要否を判定し、前記判定の結果、要の場合には前記第2の手順を繰り返し、否の場合には前記第4の手順を行うことを特徴とする請求項1記載の帳票認識装置。
  5. 前記プロセッサは、更に領域分割手順を実行し、
    前記領域分割手順では、
    前記帳票の画像情報において、上側の枠の左右端に一致する枠が下側にある場合には下方向の隣接関係があると判定し、
    左側の枠の上下端に一致する枠が右側にある場合には右方向の隣接関係が有ると判定し、
    入力された帳票の画像情報の全面に対して上記の隣接関係を解析した結果、帳票の下方向もしくは右方向に隣接関係がない箇所で領域分割することを特徴とする帳票認識装置。
  6. 前記プロセッサは、前記領域分割手順の後に、前記第2の手順を実行することを特徴とする請求項1記載の帳票認識装置。
  7. 請求項1の帳票認識装置において,
    項目名の特徴として,帳票の最上段,最下段,最左列に位置する文字列であることを項目名領域候補の検出に利用して、前記第3手順を実行することを特徴とする帳票認識装置。
  8. 請求項7の帳票認識装置において,
    帳票の最上段もしくは最左列に位置する枠内の文字列が項目名文字列と判定された場合,
    項目名の特徴として,最上段の場合は当該枠の下側に左右端が同じである枠が存在か否かを,最左列の場合は当該枠の右側に上下端が同じである枠が存在するか否かを項目名領域候補の検出に利用して、前記第3手順を実行することを特徴とする帳票認識装置。
  9. 請求項7の帳票認識装置において,
    帳票の最上段もしくは最左列に位置する枠内の文字列が項目名文字列と判定された場合,
    項目名の特徴として,最上段の場合は当該枠の下側に同じ高さで複数の枠が存在し,当該項目名枠の左端と下側の枠の左端が一致し,当該項目名枠の右端と下側の枠の右端が同じであるか否かを,
    最左列の場合は当該枠の直右に同じ幅で複数の枠が存在し,当該項目名枠の上端と右側の枠の上端が一致し,当該項目名枠の下端と右側の枠の下端が同じであるか否かを項目名領域候補の検出に利用して、前記第3手順を実行することを特徴とする帳票認識装置。
  10. 請求項7の帳票認識装置において,
    帳票の最上段もしくは最左列に位置する枠内の文字列が項目名文字列と判定された場合、
    項目名の特徴として,検出された項目名を含む枠の下端よりも上方に下端がある別の項目名を含む枠が検出された場合に,この枠の下側の枠内の文字列を項目名領域候補の検出に利用して、前記第3手順を実行することを特徴とする帳票認識装置。
  11. 請求項1の帳票認識装置において,
    項目名の特徴として,縦方向に長い枠内の文字列を項目名領域候補の検出に利用して、前記第3手順を実行することを特徴とする帳票認識装置。
  12. 請求項1の帳票認識装置において,
    項目名の特徴として,縦方向に同じ幅の枠が複数繰り返して隣接している場合にはその最上段の枠内の文字列を,横方向に同じ高さの枠が複数繰り返して隣接している場合にはその最左列の枠内の文字列を項目名領域候補の検出に利用して、前記第3手順を実行することを特徴とする帳票認識装置。
  13. 請求項1の帳票認識装置において,
    項目名の特徴として,
    縦方向に同じ幅の枠が隣接している場合に,その最上段の枠内の文字列が中央揃えもしくは均等割付されており,下側の枠内の文字列が右詰めもしくは左詰めの場合に,その最上段の枠内の文字列を,
    横方向に同じ高さの枠が隣接している場合に,その最左列の枠内の文字列が中央揃えもしくは均等割付されており,右側の枠内の文字列が右詰めもしくは左詰めの場合に,その最左列の枠内の文字列を項目名領域候補の検出に利用して、
    前記第3手順を実行することを特徴とする帳票認識装置。
  14. 請求項1の帳票認識装置において,
    項目名の特徴として,
    縦方向に同じ幅の枠が複数繰り返して隣接している場合には,繰返しの最上段の枠以外の枠内の文字列のインデントが同じである場合に,その最上段の枠内の文字列を,
    横方向に同じ高さの枠が複数繰り返して隣接している場合には,繰返しの最左列の枠以外の枠内の文字列のインデントが同じである場合に,その最左列の枠内の文字列を項目名領域候補の検出に利用して、
    前記第3手順を実行することを特徴とする帳票認識装置。
  15. 請求項1の帳票認識装置において,
    項目名の特徴として,縦方向に同じ幅の枠が複数繰り返して隣接している場合には,繰返しの最上段の枠と下側の枠の高さが異なる場合に,その最上段の枠内の文字列を,
    横方向に同じ高さの枠が複数繰り返して隣接している場合には,繰返しの最左列の枠と右側の枠の幅が異なる場合に,その最左列の枠内の文字列を項目名領域候補の検出に利用して、
    前記第三手順を実行することを特徴とする帳票認識装置。
  16. 請求項1の帳票認識装置において,
    項目名の特徴として,縦方向に同じ幅の枠が複数繰り返して隣接している場合には,繰返しの最上段の枠内の文字と下側の枠内の文字の大きさが異なる場合に,その最上段の枠内の文字列を,
    横方向に同じ高さの枠が複数繰り返して隣接している場合には,繰返しの最左列の枠内の文字と右側の枠内の文字の大きさが異なる場合に,その最左列の枠内の文字列を項目名領域候補の検出に利用して、
    前記第三手順を実行することを特徴とする帳票認識装置。
  17. 請求項1の帳票認識装置において,
    項目名の特徴として,既に項目名文字列として検出されている文字列を含む枠に隣接する枠内の文字列を項目名領域候補の検出に利用して、
    前記第三手順を実行することを特徴とする帳票認識装置。
  18. 請求項1の帳票認識装置において,
    項目名文字列を検出した後,
    項目名辞書に登録された項目名のうち必須の項目名が全て検出されている場合に,
    項目名検出処理を終了することを特徴とする帳票認識装置。
  19. 請求項1の帳票認識装置において,
    項目名文字列を検出した後,
    項目名辞書に登録された項目名のうち未検出の項目名が存在する場合に,
    項目名単語照合の対象を未検出の項目名のみに限定することを特徴とする帳票認識装置。
  20. 請求項1の帳票認識装置において,
    最上段,最下段,最左列などの検出対象の領域に対して,項目名文字認識処理を実行し,
    項目名でないと判断された回数が1回もしくは任意の複数回の場合には,項目名領域検出を終了することを特徴とする帳票認識装置。
  21. 請求項1の帳票認識装置において,
    項目名文字列を検出した後,
    縦方向に検出された項目名文字列の場合は下方向,横方向に検出された項目名文字列の場合は右方向の枠内の文字列を項目名領域検出の判定に利用し,
    項目名判定処理を失敗するまで上記の処理を繰り返すことを特徴とする帳票認識装置。
  22. 入力された帳票の画像情報を認識する帳票認識方法において、
    前記入力された帳票の画像情報の枠及び文字列を検出し、
    前記文字列が項目名である可能性が高い枠を項目名領域候補として検出するし、
    前記項目名領域候補に含まれる文字列が項目名であるか否かを判定し、
    前記項目名と判定された文字列と、その他の文字列との対応付けを行うことを特徴とする帳票認識方法。
JP2007261512A 2007-10-05 2007-10-05 帳票認識装置 Pending JP2009093305A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007261512A JP2009093305A (ja) 2007-10-05 2007-10-05 帳票認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007261512A JP2009093305A (ja) 2007-10-05 2007-10-05 帳票認識装置

Publications (1)

Publication Number Publication Date
JP2009093305A true JP2009093305A (ja) 2009-04-30

Family

ID=40665265

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007261512A Pending JP2009093305A (ja) 2007-10-05 2007-10-05 帳票認識装置

Country Status (1)

Country Link
JP (1) JP2009093305A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012208589A (ja) * 2011-03-29 2012-10-25 Hitachi Omron Terminal Solutions Corp 帳票認識装置、帳票認識方法およびそのためのプログラム
WO2014170965A1 (ja) * 2013-04-16 2014-10-23 株式会社日立製作所 文書処理方法、文書処理装置および文書処理プログラム
JP2020013281A (ja) * 2018-07-17 2020-01-23 株式会社豆蔵 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム
US10885325B2 (en) 2017-02-10 2021-01-05 Canon Kabushiki Kaisha Information processing apparatus, control method, and storage medium
CN112347831A (zh) * 2019-08-09 2021-02-09 株式会社日立制作所 信息处理装置以及表识别方法
JP2021149794A (ja) * 2020-03-23 2021-09-27 三菱電機Itソリューションズ株式会社 検証装置、検証方法、及び、検証プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06103409A (ja) * 1992-09-22 1994-04-15 Toshiba Corp 文書読取装置
JPH10116314A (ja) * 1996-10-09 1998-05-06 Oki Electric Ind Co Ltd 表処理方法及び表処理装置
JP2000259847A (ja) * 1999-03-05 2000-09-22 Ricoh Co Ltd 情報検索方法、装置および記録媒体
JP2000339406A (ja) * 1999-05-28 2000-12-08 Fujitsu Ltd 帳票認識方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06103409A (ja) * 1992-09-22 1994-04-15 Toshiba Corp 文書読取装置
JPH10116314A (ja) * 1996-10-09 1998-05-06 Oki Electric Ind Co Ltd 表処理方法及び表処理装置
JP2000259847A (ja) * 1999-03-05 2000-09-22 Ricoh Co Ltd 情報検索方法、装置および記録媒体
JP2000339406A (ja) * 1999-05-28 2000-12-08 Fujitsu Ltd 帳票認識方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012208589A (ja) * 2011-03-29 2012-10-25 Hitachi Omron Terminal Solutions Corp 帳票認識装置、帳票認識方法およびそのためのプログラム
WO2014170965A1 (ja) * 2013-04-16 2014-10-23 株式会社日立製作所 文書処理方法、文書処理装置および文書処理プログラム
JPWO2014170965A1 (ja) * 2013-04-16 2017-02-16 株式会社日立製作所 文書処理方法、文書処理装置および文書処理プログラム
US10885325B2 (en) 2017-02-10 2021-01-05 Canon Kabushiki Kaisha Information processing apparatus, control method, and storage medium
JP2020013281A (ja) * 2018-07-17 2020-01-23 株式会社豆蔵 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム
JP7122896B2 (ja) 2018-07-17 2022-08-22 株式会社豆蔵 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム
CN112347831A (zh) * 2019-08-09 2021-02-09 株式会社日立制作所 信息处理装置以及表识别方法
JP2021149794A (ja) * 2020-03-23 2021-09-27 三菱電機Itソリューションズ株式会社 検証装置、検証方法、及び、検証プログラム

Similar Documents

Publication Publication Date Title
JP4996940B2 (ja) 帳票認識装置およびそのプログラム
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
KR20190123790A (ko) 전자 문서로부터 데이터 추출
JP6406932B2 (ja) 帳票認識装置及び方法
US8121412B2 (en) Recognition of tabular structures
JP4733577B2 (ja) 帳票認識装置及び帳票認識プログラム
JP3452774B2 (ja) 文字認識方法
JP2008532176A (ja) 認識グラフ
US20170323170A1 (en) Method and system for data extraction from images of semi-structured documents
US12153624B2 (en) Method and system for ideogram character analysis
JP5653817B2 (ja) 帳票認識装置、帳票認識方法およびそのためのプログラム
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
US10482323B2 (en) System and method for semantic textual information recognition
CN109389050B (zh) 一种流程图连接关系识别方法
Hussain et al. Nastalique segmentation-based approach for Urdu OCR
JP7282989B2 (ja) テキスト分類
US20210240932A1 (en) Data extraction and ordering based on document layout analysis
JP2009093305A (ja) 帳票認識装置
JP5862260B2 (ja) 情報処理装置及び情報処理プログラム
KR20180126352A (ko) 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치
JP4347675B2 (ja) 帳票ocrプログラム、方法及び装置
JP3467437B2 (ja) 文字認識装置及びその方法とプログラム記録媒体
Singh et al. Document layout analysis for Indian newspapers using contour based symbiotic approach
JP7699773B2 (ja) 書類画像処理システム、書類画像処理方法、および書類画像処理プログラム
US20140169676A1 (en) Information processing apparatus, information processing method, and computer-readable medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100922

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100922

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111216

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120515