JP2009093305A - 帳票認識装置 - Google Patents
帳票認識装置 Download PDFInfo
- Publication number
- JP2009093305A JP2009093305A JP2007261512A JP2007261512A JP2009093305A JP 2009093305 A JP2009093305 A JP 2009093305A JP 2007261512 A JP2007261512 A JP 2007261512A JP 2007261512 A JP2007261512 A JP 2007261512A JP 2009093305 A JP2009093305 A JP 2009093305A
- Authority
- JP
- Japan
- Prior art keywords
- item name
- frame
- character string
- recognition apparatus
- form recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims abstract description 171
- 238000012545 processing Methods 0.000 claims abstract description 62
- 238000001514 detection method Methods 0.000 claims description 52
- 238000007373 indentation Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract 1
- 238000012546 transfer Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 7
- 238000012015 optical character recognition Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- AZUYLZMQTIKGSC-UHFFFAOYSA-N 1-[6-[4-(5-chloro-6-methyl-1H-indazol-4-yl)-5-methyl-3-(1-methylindazol-5-yl)pyrazol-1-yl]-2-azaspiro[3.3]heptan-2-yl]prop-2-en-1-one Chemical compound ClC=1C(=C2C=NNC2=CC=1C)C=1C(=NN(C=1C)C1CC2(CN(C2)C(C=C)=O)C1)C=1C=C2C=NN(C2=CC=1)C AZUYLZMQTIKGSC-UHFFFAOYSA-N 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 230000002040 relaxant effect Effects 0.000 description 1
Images
Landscapes
- Character Input (AREA)
Abstract
【解決手段】 入力された帳票の画像情報を認識する帳票認識装置において、帳票認識装置は、帳票を認識する帳票認識処理を実行し、項目名文字列であることを判定する特徴を抽出して項目名文字列であるか否かを判定し、項目名文字列であると判定された場合、データ文字列の属性を解析し,その属性に応じてデータ枠の文字列を認識する。
【選択図】図2
Description
(実施例1:最上段,最下段,最左列)
ここでは、項目名の特徴として、文字列の位置情報を利用する方法を示す。
帳票の最上段,最下段,最左列に位置する文字列のみを項目名領域検出処理210の対象とし、項目名領域候補とされた文字列に対して項目名文字認識処理220を実行する。帳票のその他の文字列は、データ文字列として項目名の属性が決定した後に認識する。
(実施例1a:整列方向に探索)
実施例1の基準で項目名認識を行い,最上段の枠内に項目名文字列が検出された場合,当該枠の下側に隣接して左右端が同じである枠が存在する場合に,項目名領域検索の終了判定処理230にて,この下側の枠内の文字列を項目名領域検出処理210の対象とする。
(実施例1b:項目間の階層関係)
次に、項目名の特徴として、項目名文字列の階層的な位置情報を利用する方法を示す。
(実施例1c:項目名領域の下端を基準に検出)
実施例1の基準で項目名認識を行い,最上段の枠内に項目名文字列が検出された場合,検出された項目名を含む枠の下端よりも,上方に枠の下端がある項目名を含む枠が検出された場合に,その枠内の文字列を項目名領域検出処理210の対象とする。
(実施例2:縦長枠)
次に、項目名の特徴として、文字列が記載されている枠の形状を利用する方法を示す。
(実施例3:複数枠の繰返し)
次に、項目名の特徴として、文字列が記載されている枠の形状および繰り返し構造を利用する方法を示す。
(実施例4:割付)
次に、項目名の特徴として、文字列の枠内での記載位置を利用する方法を示す。
(実施例5:インデント)
次に、項目名の特徴として、文字列の先頭文字の記載位置を利用する方法を示す。
(実施例6:枠の大きさ)
次に、項目名の特徴として、文字列を含む枠の大きさを利用する方法を示す。
(実施例7:文字の大きさ)
次に、項目名の特徴として、文字列の文字の大きさを利用する方法を示す。
(実施例8a:再帰分割)
上述の分割処理では、縦もしくは右方向の関係を用いて、ブロック分割を行った。しかし,ブロック内の最上段や最左列のみに項目名が記載されているとは限らない。そこで,ブロック内を再度分割する。前段の処理で下方向の関係を用いて分割した場合には右方向の関係を用いて再分割し,右方向の関係を用いた場合には下方向の関係を用いて再分割する。再分割したブロック内において,上記の実施例を用いて項目名領域検出を実施する。この再帰分割についても,あらかじめブロック分割情報を領域分割辞書に登録しておいてもよい。
(実施例8b:関係解析の親を基準)
上述の図11においては,縦もしくは横方向の関係を解析した。この処理において,他の枠に対して最上段もしくは最左列の枠内,すなわち連続する矢印の起点となる枠内の文字列が項目名領域検出処理210の対象になっていない場合,項目名領域検索の終了判定処理230においてこの枠内の文字列を項目名領域検出処理210の対象とする。
(実施例9:隣接枠)
次に、項目名の特徴として、項目名でない文字列との隣接関係を利用する方法を示す。
(実施例10:検出済み項目名利用)
実施例1から9のいずれかにおいて項目名文字列を検出した後,項目名辞書に登録された項目名のうち、必須の項目名が全て検出されていれば,項目名領域検索の終了判定処理230において項目名領域検出処理を終了する。
(実施例11:未検出項目名利用)
実施例1から9の項目名文字認識において,未検出の項目名のみを単語照合の対象とする。さらに,単語照合の制約条件をそれまでの処理に比べて変更することにより,項目名単語照合が成功する確率を高くする。
(実施例12:終了条件)
実施例1の基準で項目名認識を行う際に,帳票の最上段,最下段,最左列に位置する文字列について,それぞれ項目名認識を行った際に,1回もしくは複数回項目名照合に失敗した場合には,最上段,最下段,最左列であっても項目名領域検索の終了判定処理230にて項目名領域検出を終了する。
(実施例13:判定終了条件)
実施例1の基準で項目名認識を行い,項目名と認識された場合には,項目名領域検索の終了判定処理230において,最上段であれば下方向に,最下段であれば上方向に,最左列であれば右方向の文字列に対して,項目名領域検出処理210に戻り,全ての文字列が項目名文字列認識に失敗するまで,再帰的に項目名領域検出処理210と項目名認識処理220を繰り返す。
(実施例14:判定重複領域)
上記の実施例を組み合わせて項目名領域検出処理210を実施する際には,既に検出済みの項目名領域を処理対象とする場合がある。この場合には,検出済みとして項目名文字認識処理220を省略する。
(実施例15:仮想罫線)
上記の実施例では,枠で区切られた帳票を対象としているが,図13に示すような罫線がない帳票については,行間や文字間から図14のような仮想罫線を設定した後に,上記の処理を実行することができる。
(実施例16:ユーザ選択)
ユーザが上記の実施例の1つもしくは複数を選択する場合には,どの基準を用いるかを表示装置50に表示し,ユーザは力装置10から選択する。また,採用した基準の優先度をユーザに選択させることもできる。
20 画像入力装置
30 帳票認識装置
40 認識辞書
50 表示装置
60 画像データベース。
Claims (22)
- プロセッサと、前記プロセッサに接続される記憶部と、帳票の画像情報を入力する手段とを備える帳票認識装置において、
前記記憶部に格納されたプログラムに基づいて、前記プロセッサは、
前記入力された帳票の画像情報の枠及び文字列を検出する第1手順と、
前記文字列が項目名である可能性が高い枠を項目名領域候補として検出する第2手順と、
前記項目名領域候補に含まれる文字列が項目名であるか否かを判定する第3手順と、
前記項目名と判定された文字列と、その他の文字列との対応付けを行う第4の手順と、
を実行することを特徴とする帳票認識装置。 - 前記第2の手順では、前記項目名領域候補に含まれる文字列をあらかじめ記憶された項目名辞書と照合して、前記項目名領域候補に含まれる文字列が項目名であるか否かを判定することを特徴とする請求項1記載の帳票認識装置。
- 前記その他の文字列は、データ文字列であることを特徴とする請求項1記載の帳票認識装置。
- 前記プロセッサは、前記第3の手順の後に更に第5の手順を実行し、
前記第5の手順では、前記項目名領域候補の検出の要否を判定し、前記判定の結果、要の場合には前記第2の手順を繰り返し、否の場合には前記第4の手順を行うことを特徴とする請求項1記載の帳票認識装置。 - 前記プロセッサは、更に領域分割手順を実行し、
前記領域分割手順では、
前記帳票の画像情報において、上側の枠の左右端に一致する枠が下側にある場合には下方向の隣接関係があると判定し、
左側の枠の上下端に一致する枠が右側にある場合には右方向の隣接関係が有ると判定し、
入力された帳票の画像情報の全面に対して上記の隣接関係を解析した結果、帳票の下方向もしくは右方向に隣接関係がない箇所で領域分割することを特徴とする帳票認識装置。 - 前記プロセッサは、前記領域分割手順の後に、前記第2の手順を実行することを特徴とする請求項1記載の帳票認識装置。
- 請求項1の帳票認識装置において,
項目名の特徴として,帳票の最上段,最下段,最左列に位置する文字列であることを項目名領域候補の検出に利用して、前記第3手順を実行することを特徴とする帳票認識装置。 - 請求項7の帳票認識装置において,
帳票の最上段もしくは最左列に位置する枠内の文字列が項目名文字列と判定された場合,
項目名の特徴として,最上段の場合は当該枠の下側に左右端が同じである枠が存在か否かを,最左列の場合は当該枠の右側に上下端が同じである枠が存在するか否かを項目名領域候補の検出に利用して、前記第3手順を実行することを特徴とする帳票認識装置。 - 請求項7の帳票認識装置において,
帳票の最上段もしくは最左列に位置する枠内の文字列が項目名文字列と判定された場合,
項目名の特徴として,最上段の場合は当該枠の下側に同じ高さで複数の枠が存在し,当該項目名枠の左端と下側の枠の左端が一致し,当該項目名枠の右端と下側の枠の右端が同じであるか否かを,
最左列の場合は当該枠の直右に同じ幅で複数の枠が存在し,当該項目名枠の上端と右側の枠の上端が一致し,当該項目名枠の下端と右側の枠の下端が同じであるか否かを項目名領域候補の検出に利用して、前記第3手順を実行することを特徴とする帳票認識装置。 - 請求項7の帳票認識装置において,
帳票の最上段もしくは最左列に位置する枠内の文字列が項目名文字列と判定された場合、
項目名の特徴として,検出された項目名を含む枠の下端よりも上方に下端がある別の項目名を含む枠が検出された場合に,この枠の下側の枠内の文字列を項目名領域候補の検出に利用して、前記第3手順を実行することを特徴とする帳票認識装置。 - 請求項1の帳票認識装置において,
項目名の特徴として,縦方向に長い枠内の文字列を項目名領域候補の検出に利用して、前記第3手順を実行することを特徴とする帳票認識装置。 - 請求項1の帳票認識装置において,
項目名の特徴として,縦方向に同じ幅の枠が複数繰り返して隣接している場合にはその最上段の枠内の文字列を,横方向に同じ高さの枠が複数繰り返して隣接している場合にはその最左列の枠内の文字列を項目名領域候補の検出に利用して、前記第3手順を実行することを特徴とする帳票認識装置。 - 請求項1の帳票認識装置において,
項目名の特徴として,
縦方向に同じ幅の枠が隣接している場合に,その最上段の枠内の文字列が中央揃えもしくは均等割付されており,下側の枠内の文字列が右詰めもしくは左詰めの場合に,その最上段の枠内の文字列を,
横方向に同じ高さの枠が隣接している場合に,その最左列の枠内の文字列が中央揃えもしくは均等割付されており,右側の枠内の文字列が右詰めもしくは左詰めの場合に,その最左列の枠内の文字列を項目名領域候補の検出に利用して、
前記第3手順を実行することを特徴とする帳票認識装置。 - 請求項1の帳票認識装置において,
項目名の特徴として,
縦方向に同じ幅の枠が複数繰り返して隣接している場合には,繰返しの最上段の枠以外の枠内の文字列のインデントが同じである場合に,その最上段の枠内の文字列を,
横方向に同じ高さの枠が複数繰り返して隣接している場合には,繰返しの最左列の枠以外の枠内の文字列のインデントが同じである場合に,その最左列の枠内の文字列を項目名領域候補の検出に利用して、
前記第3手順を実行することを特徴とする帳票認識装置。 - 請求項1の帳票認識装置において,
項目名の特徴として,縦方向に同じ幅の枠が複数繰り返して隣接している場合には,繰返しの最上段の枠と下側の枠の高さが異なる場合に,その最上段の枠内の文字列を,
横方向に同じ高さの枠が複数繰り返して隣接している場合には,繰返しの最左列の枠と右側の枠の幅が異なる場合に,その最左列の枠内の文字列を項目名領域候補の検出に利用して、
前記第三手順を実行することを特徴とする帳票認識装置。 - 請求項1の帳票認識装置において,
項目名の特徴として,縦方向に同じ幅の枠が複数繰り返して隣接している場合には,繰返しの最上段の枠内の文字と下側の枠内の文字の大きさが異なる場合に,その最上段の枠内の文字列を,
横方向に同じ高さの枠が複数繰り返して隣接している場合には,繰返しの最左列の枠内の文字と右側の枠内の文字の大きさが異なる場合に,その最左列の枠内の文字列を項目名領域候補の検出に利用して、
前記第三手順を実行することを特徴とする帳票認識装置。 - 請求項1の帳票認識装置において,
項目名の特徴として,既に項目名文字列として検出されている文字列を含む枠に隣接する枠内の文字列を項目名領域候補の検出に利用して、
前記第三手順を実行することを特徴とする帳票認識装置。 - 請求項1の帳票認識装置において,
項目名文字列を検出した後,
項目名辞書に登録された項目名のうち必須の項目名が全て検出されている場合に,
項目名検出処理を終了することを特徴とする帳票認識装置。 - 請求項1の帳票認識装置において,
項目名文字列を検出した後,
項目名辞書に登録された項目名のうち未検出の項目名が存在する場合に,
項目名単語照合の対象を未検出の項目名のみに限定することを特徴とする帳票認識装置。 - 請求項1の帳票認識装置において,
最上段,最下段,最左列などの検出対象の領域に対して,項目名文字認識処理を実行し,
項目名でないと判断された回数が1回もしくは任意の複数回の場合には,項目名領域検出を終了することを特徴とする帳票認識装置。 - 請求項1の帳票認識装置において,
項目名文字列を検出した後,
縦方向に検出された項目名文字列の場合は下方向,横方向に検出された項目名文字列の場合は右方向の枠内の文字列を項目名領域検出の判定に利用し,
項目名判定処理を失敗するまで上記の処理を繰り返すことを特徴とする帳票認識装置。 - 入力された帳票の画像情報を認識する帳票認識方法において、
前記入力された帳票の画像情報の枠及び文字列を検出し、
前記文字列が項目名である可能性が高い枠を項目名領域候補として検出するし、
前記項目名領域候補に含まれる文字列が項目名であるか否かを判定し、
前記項目名と判定された文字列と、その他の文字列との対応付けを行うことを特徴とする帳票認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007261512A JP2009093305A (ja) | 2007-10-05 | 2007-10-05 | 帳票認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007261512A JP2009093305A (ja) | 2007-10-05 | 2007-10-05 | 帳票認識装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009093305A true JP2009093305A (ja) | 2009-04-30 |
Family
ID=40665265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007261512A Pending JP2009093305A (ja) | 2007-10-05 | 2007-10-05 | 帳票認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009093305A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012208589A (ja) * | 2011-03-29 | 2012-10-25 | Hitachi Omron Terminal Solutions Corp | 帳票認識装置、帳票認識方法およびそのためのプログラム |
WO2014170965A1 (ja) * | 2013-04-16 | 2014-10-23 | 株式会社日立製作所 | 文書処理方法、文書処理装置および文書処理プログラム |
JP2020013281A (ja) * | 2018-07-17 | 2020-01-23 | 株式会社豆蔵 | 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム |
US10885325B2 (en) | 2017-02-10 | 2021-01-05 | Canon Kabushiki Kaisha | Information processing apparatus, control method, and storage medium |
CN112347831A (zh) * | 2019-08-09 | 2021-02-09 | 株式会社日立制作所 | 信息处理装置以及表识别方法 |
JP2021149794A (ja) * | 2020-03-23 | 2021-09-27 | 三菱電機Itソリューションズ株式会社 | 検証装置、検証方法、及び、検証プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06103409A (ja) * | 1992-09-22 | 1994-04-15 | Toshiba Corp | 文書読取装置 |
JPH10116314A (ja) * | 1996-10-09 | 1998-05-06 | Oki Electric Ind Co Ltd | 表処理方法及び表処理装置 |
JP2000259847A (ja) * | 1999-03-05 | 2000-09-22 | Ricoh Co Ltd | 情報検索方法、装置および記録媒体 |
JP2000339406A (ja) * | 1999-05-28 | 2000-12-08 | Fujitsu Ltd | 帳票認識方法 |
-
2007
- 2007-10-05 JP JP2007261512A patent/JP2009093305A/ja active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06103409A (ja) * | 1992-09-22 | 1994-04-15 | Toshiba Corp | 文書読取装置 |
JPH10116314A (ja) * | 1996-10-09 | 1998-05-06 | Oki Electric Ind Co Ltd | 表処理方法及び表処理装置 |
JP2000259847A (ja) * | 1999-03-05 | 2000-09-22 | Ricoh Co Ltd | 情報検索方法、装置および記録媒体 |
JP2000339406A (ja) * | 1999-05-28 | 2000-12-08 | Fujitsu Ltd | 帳票認識方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012208589A (ja) * | 2011-03-29 | 2012-10-25 | Hitachi Omron Terminal Solutions Corp | 帳票認識装置、帳票認識方法およびそのためのプログラム |
WO2014170965A1 (ja) * | 2013-04-16 | 2014-10-23 | 株式会社日立製作所 | 文書処理方法、文書処理装置および文書処理プログラム |
JPWO2014170965A1 (ja) * | 2013-04-16 | 2017-02-16 | 株式会社日立製作所 | 文書処理方法、文書処理装置および文書処理プログラム |
US10885325B2 (en) | 2017-02-10 | 2021-01-05 | Canon Kabushiki Kaisha | Information processing apparatus, control method, and storage medium |
JP2020013281A (ja) * | 2018-07-17 | 2020-01-23 | 株式会社豆蔵 | 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム |
JP7122896B2 (ja) | 2018-07-17 | 2022-08-22 | 株式会社豆蔵 | 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム |
CN112347831A (zh) * | 2019-08-09 | 2021-02-09 | 株式会社日立制作所 | 信息处理装置以及表识别方法 |
JP2021149794A (ja) * | 2020-03-23 | 2021-09-27 | 三菱電機Itソリューションズ株式会社 | 検証装置、検証方法、及び、検証プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4996940B2 (ja) | 帳票認識装置およびそのプログラム | |
JP4347677B2 (ja) | 帳票ocrプログラム、方法及び装置 | |
KR20190123790A (ko) | 전자 문서로부터 데이터 추출 | |
JP6406932B2 (ja) | 帳票認識装置及び方法 | |
US8121412B2 (en) | Recognition of tabular structures | |
JP4733577B2 (ja) | 帳票認識装置及び帳票認識プログラム | |
JP3452774B2 (ja) | 文字認識方法 | |
JP2008532176A (ja) | 認識グラフ | |
US20170323170A1 (en) | Method and system for data extraction from images of semi-structured documents | |
US12153624B2 (en) | Method and system for ideogram character analysis | |
JP5653817B2 (ja) | 帳票認識装置、帳票認識方法およびそのためのプログラム | |
JP2004139484A (ja) | 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム | |
US10482323B2 (en) | System and method for semantic textual information recognition | |
CN109389050B (zh) | 一种流程图连接关系识别方法 | |
Hussain et al. | Nastalique segmentation-based approach for Urdu OCR | |
JP7282989B2 (ja) | テキスト分類 | |
US20210240932A1 (en) | Data extraction and ordering based on document layout analysis | |
JP2009093305A (ja) | 帳票認識装置 | |
JP5862260B2 (ja) | 情報処理装置及び情報処理プログラム | |
KR20180126352A (ko) | 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치 | |
JP4347675B2 (ja) | 帳票ocrプログラム、方法及び装置 | |
JP3467437B2 (ja) | 文字認識装置及びその方法とプログラム記録媒体 | |
Singh et al. | Document layout analysis for Indian newspapers using contour based symbiotic approach | |
JP7699773B2 (ja) | 書類画像処理システム、書類画像処理方法、および書類画像処理プログラム | |
US20140169676A1 (en) | Information processing apparatus, information processing method, and computer-readable medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100922 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100922 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111006 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111018 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111216 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120515 |