[go: up one dir, main page]

JP2016057786A - 電子文書生成装置、プログラムおよび電子文書生成システム - Google Patents

電子文書生成装置、プログラムおよび電子文書生成システム Download PDF

Info

Publication number
JP2016057786A
JP2016057786A JP2014182664A JP2014182664A JP2016057786A JP 2016057786 A JP2016057786 A JP 2016057786A JP 2014182664 A JP2014182664 A JP 2014182664A JP 2014182664 A JP2014182664 A JP 2014182664A JP 2016057786 A JP2016057786 A JP 2016057786A
Authority
JP
Japan
Prior art keywords
image
recognition
processing
cloud server
electronic document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014182664A
Other languages
English (en)
Other versions
JP6090269B2 (ja
Inventor
哲平 中村
Teppei Nakamura
哲平 中村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konica Minolta Inc
Original Assignee
Konica Minolta Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Konica Minolta Inc filed Critical Konica Minolta Inc
Priority to JP2014182664A priority Critical patent/JP6090269B2/ja
Priority to CN201510562906.7A priority patent/CN105407245B/zh
Priority to US14/847,611 priority patent/US9485368B2/en
Publication of JP2016057786A publication Critical patent/JP2016057786A/ja
Application granted granted Critical
Publication of JP6090269B2 publication Critical patent/JP6090269B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00002Diagnosis, testing or measuring; Detecting, analysing or monitoring not otherwise provided for
    • H04N1/00005Diagnosis, testing or measuring; Detecting, analysing or monitoring not otherwise provided for relating to image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00204Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
    • H04N1/00236Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server using an image reading or reproducing device, e.g. a facsimile reader or printer, as a local input to or local output from a computer
    • H04N1/00241Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server using an image reading or reproducing device, e.g. a facsimile reader or printer, as a local input to or local output from a computer using an image reading device as a local input to a computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0008Connection or combination of a still picture apparatus with another apparatus
    • H04N2201/0034Details of the connection, e.g. connector, interface
    • H04N2201/0037Topological details of the connection
    • H04N2201/0039Connection via a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0094Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Character Input (AREA)
  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】スキャン画像内の適切な位置にOCR処理結果を配置した電子文書を生成することが可能な技術を提供する。
【解決手段】電子文書生成装置は、OCR処理の処理対象画像内の各単位認識領域(1行よりも大きな領域をそれぞれ含み得る領域)に対する文字認識結果の末尾にそれぞれ区切りコードを付加したOCR処理結果を生成するクラウドサーバ、と連携して電子文書を生成する。電子文書生成装置は、スキャン画像内の各行領域がそれぞれ単位認識領域としてクラウドサーバにより判定されるように、画像加工処理(例えば各行領域の相互間の離間間隔を最大高さH1以上の大きさにそれぞれ設定する処理)を施して認識対象画像500を生成する。電子文書生成装置は、認識対象画像500をクラウドサーバに送信し、クラウドサーバからのOCR処理結果内の区切りコードに基づき各行領域に対する文字認識結果を当該各行領域にそれぞれ配置して電子文書を生成する。
【選択図】図8

Description

本発明は、電子文書を生成する電子文書生成装置およびそれに関連する技術に関する。
MFP(マルチ・ファンクション・ペリフェラル(Multi-Functional Peripheral))などの画像形成装置において、原稿をスキャンして電子文書を作成する技術が存在する。
このような技術においては、原稿のスキャン画像をそのまま取り込んで電子文書を生成するものの他、テキストデータ付き電子文書(次述)を生成するものも存在する(特許文献1等参照)。具体的には、原稿のスキャン画像(特に文字を示す画像)に対して光学文字認識処理(以下、OCR(Optical Character Recognition)処理とも称する)が施され、当該スキャン画像内の文字のテキストデータが自動認識され、当該テキストデータが非表示状態で当該スキャン画像に重畳して埋め込まれる。このようにして、たとえば、透明テキスト付きPDF(Portable Document Format)(あるいはサーチャブルPDF)ファイルなどと呼ばれる所定形式の電子文書(テキストデータ付き電子文書)が生成される。
また、汎用的なOCR処理サービスをクラウドサーバを用いて提供する技術も存在する。
特開2012−73749号公報
ところで、上記技術を用いて以下のような動作を行うことが考えられる。たとえば、電子文書生成装置からクラウドサーバへとスキャン画像が送信され、スキャン画像全体に関するOCR処理がクラウドサーバで実行される。そして、その処理結果(テキストデータ)がクラウドサーバから電子文書生成装置へと返信され、電子文書生成装置は、クラウドサーバから受信したテキストデータを元のスキャン画像に埋め込んで、テキストデータ付き電子文書(サーチャブルPDF(透明テキスト付きPDF)ファイル等)を生成する。なお、汎用OCR処理サービスを利用することによれば、電子文書生成装置とは別の装置でOCR処理を行うことができるので、当該電子文書生成装置の処理負荷を低減することが可能である。
ここにおいて、汎用OCR処理サービスの中には、スキャン画像内の文字領域を所定単位の領域(1行の行領域よりも大きな領域を含み得る領域)(たとえば段落領域)で区分してOCR処理を実行し、当該所定単位の領域内の文字列の末尾に区切りコード(改行コード等)を付したテキストデータをOCR処理結果として生成するものが存在する。電子文書生成装置は、クラウドサーバからテキストデータを受信すると、テキストデータ内の区切りコードに基づき当該テキストデータ内の文字列を複数に区分して各文字列をスキャン画像内の当該所定単位の領域(段落領域等)にそれぞれ配置し、電子文書を生成する。
しかしながら、このような汎用OCR処理サービスにおいては、通常、複数行の文字列を含む領域が一の段落領域等として認識され、当該複数行の文字列全体における末尾にのみ区切りコードが付されたテキストデータが生成される。換言すれば、段落を構成する複数行における各行(段落の最終行を除く)の文字認識結果の末尾には区切りコードが付されず、当該複数行の文字列に対する文字認識結果(OCR処理結果)のそれぞれが連続した状態でテキストデータが出力される。そのため、電子文書生成装置は、スキャン画像内の各行の文字画像と各行の文字認識結果との対応関係を把握することができず、その結果、当該各行の文字認識結果が、スキャン画像内の適切な位置(各行の文字認識結果に対応する各行の文字画像の位置)に配置されない可能性がある。たとえば、1行目の文字認識結果と2行目の文字認識結果とが連続した状態でテキストデータが出力されると、当該2行目の文字認識結果は、スキャン画像内の1行目の文字画像の行末付近において、1行目の文字認識結果に続いた状態で(改行されずに)配置され、本来の位置(スキャン画像内の2行目の文字画像の位置)には配置されない。
そこで、本発明は、スキャン画像内の適切な位置にOCR処理結果を配置した電子文書を生成することが可能な技術を提供することを課題とする。
上記課題を解決すべく、請求項1の発明は、光学文字認識処理の処理対象画像内の文字領域を、1行の行領域よりも大きな領域をそれぞれ含み得る複数の単位認識領域に区分するとともに当該複数の単位認識領域のそれぞれに対して前記光学文字認識処理を実行するクラウドサーバであって、前記複数の単位認識領域のそれぞれに対する文字認識結果を含むとともに各単位認識領域に対する文字認識結果の末尾にそれぞれ区切りコードを付加したテキストデータを、前記処理対象画像に対する前記光学文字認識処理の処理結果として生成するクラウドサーバ、と連携して電子文書を生成する電子文書生成装置であって、原稿のスキャン画像の文字領域から複数の行領域をそれぞれ抽出する抽出手段と、前記複数の行領域のそれぞれが単位認識領域として前記クラウドサーバにより判定されるように、前記スキャン画像に対して画像加工処理を施して認識対象画像を生成する画像生成手段と、前記認識対象画像を前記光学文字認識処理の前記処理対象画像として前記クラウドサーバに送信する送信手段と、前記認識対象画像に対する前記光学文字認識処理の処理結果である前記テキストデータを前記クラウドサーバから受信する受信手段と、前記テキストデータに含まれる前記区切りコードに基づき前記テキストデータを複数の文字列データに区分するとともに前記複数の行領域と前記複数の文字列データとの対応関係を決定し、各文字列データに対応する各行領域に当該各文字列データをそれぞれ配置して前記電子文書を生成する文書生成手段と、を備えることを特徴とする。
請求項2の発明は、請求項1の発明に係る電子文書生成装置であって、前記複数の行領域の前記スキャン画像内における位置をそれぞれ検出する検出手段、をさらに備え、前記文書生成手段は、前記各文字列データに対応する前記各行領域の検出位置に前記各文字列データをそれぞれ配置して前記電子文書を生成することを特徴とする。
請求項3の発明は、請求項1または請求項2の発明に係る電子文書生成装置において、前記画像加工処理は、前記複数の行領域のそれぞれの高さを検出し、前記複数の行領域の相互間の離間間隔を前記複数の行領域のうち最も高い行領域の高さ以上の大きさにそれぞれ設定する処理を含むことを特徴とする。
請求項4の発明は、請求項1または請求項2の発明に係る電子文書生成装置において、前記画像加工処理は、前記複数の行領域のそれぞれの高さを検出し、前記複数の行領域のうち最終行以外の各行領域と当該各行領域のそれぞれの次の行領域との相互間の離間間隔を、前記各行領域のそれぞれの高さ以上の大きさにそれぞれ設定する処理を含むことを特徴とする。
請求項5の発明は、請求項1または請求項2の発明に係る電子文書生成装置において、前記画像加工処理は、前記複数の行領域の相互間の行間領域に区切線をそれぞれ付加する処理を含むことを特徴とする。
請求項6の発明は、請求項1または請求項2の発明に係る電子文書生成装置において、前記画像加工処理は、前記複数の行領域のうち少なくとも最終行以外の各行領域のそれぞれの末尾に、前記単位認識領域の末尾であることを示す末尾識別画像を付加する処理を含むことを特徴とする。
請求項7の発明は、請求項1または請求項2の発明に係る電子文書生成装置において、前記画像加工処理は、各行領域の文字色を、前記各行領域にそれぞれ隣接する隣接行領域の文字色とは異なる文字色に設定する処理を含むことを特徴とする。
請求項8の発明は、請求項1または請求項2の発明に係る電子文書生成装置において、前記画像加工処理は、各行領域の行頭位置を、前記各行領域にそれぞれ隣接する隣接行領域の行頭位置とは異なる位置に設定する処理を含むことを特徴とする。
請求項9の発明は、請求項1または請求項2の発明に係る電子文書生成装置において、前記画像加工処理は、各行領域の文字サイズを、前記各行領域にそれぞれ隣接する隣接行領域の文字サイズとは異なる文字サイズに設定する処理を含むことを特徴とする。
請求項10の発明は、請求項1または請求項2の発明に係る電子文書生成装置において、前記送信手段は、前記クラウドサーバによって前記単位認識領域の判定に用いられる判定手法を、前記認識対象画像の生成に先立って前記クラウドサーバに問い合わせ、前記受信手段は、前記判定手法に関する情報を前記クラウドサーバから受信し、前記画像生成手段は、前記判定手法に応じた画像加工処理を前記スキャン画像に対して施して前記認識対象画像を生成することを特徴とする。
請求項11の発明は、請求項1または請求項2の発明に係る電子文書生成装置において、前記画像生成手段は、互いに異なる複数の画像加工処理がそれぞれ施された互いに異なる複数のテスト画像であって前記複数の行領域のうち一部の行領域をそれぞれ含む複数のテスト画像を生成し、前記送信手段は、前記複数のテスト画像を前記クラウドサーバに送信し、前記受信手段は、前記複数のテスト画像に対してそれぞれ実行された前記光学文字認識処理の処理結果である複数のテスト結果を前記クラウドサーバから受信し、前記画像生成手段は、前記複数のテスト結果のそれぞれに含まれる区切りコードに基づいて、前記複数のテスト結果のそれぞれに含まれる文字列データの個数である文字列データ数を検出し、前記複数のテスト結果のそれぞれについてその文字列データ数と前記一部の行領域の個数との差である個数差を求めるとともに、前記複数のテスト結果のうち、前記個数差が最も小さいテスト結果を最良テスト結果として求め、前記複数の画像加工処理のうち、前記最良テスト結果に対応する画像加工処理を最適加工処理として決定し、前記複数の行領域のうち前記一部の行領域を除く残余の行領域に関して前記最適加工処理を施して前記認識対象画像を生成し、前記文書生成手段は、前記最良テスト結果に含まれる区切りコードと前記テキストデータに含まれる区切りコードとに基づき、前記最良テスト結果と前記テキストデータとで構成されるデータを複数の文字列データに区分するとともに、前記複数の行領域と前記複数の文字列データとの対応関係を決定し、各文字列データに対応する各行領域に当該各文字列データをそれぞれ配置して前記電子文書を生成することを特徴とする。
請求項12の発明は、請求項1または請求項2の発明に係る電子文書生成装置において、前記送信手段は、サンプル画像に対して互いに異なる複数の画像加工処理をそれぞれ施して生成された複数のテスト画像を前記クラウドサーバに送信し、前記受信手段は、前記複数のテスト画像に対してそれぞれ実行された前記光学文字認識処理の処理結果である複数のテスト結果を前記クラウドサーバから受信し、前記画像生成手段は、前記複数のテスト結果のそれぞれに含まれる区切りコードに基づいて、前記複数のテスト結果のそれぞれに含まれる文字列データの個数である文字列データ数を検出し、前記複数のテスト結果のそれぞれについてその文字列データ数と前記サンプル画像に含まれる行領域の個数との差である個数差を求めるとともに、前記複数のテスト結果のうち、前記個数差が最も小さいテスト結果を最良テスト結果として求め、前記複数の画像加工処理のうち、前記最良テスト結果に対応する画像加工処理を最適加工処理として決定し、前記スキャン画像に対して前記最適加工処理を施して前記認識対象画像を生成することを特徴とする。
請求項13の発明は、光学文字認識処理の処理対象画像内の文字領域を、1行の行領域よりも大きな領域をそれぞれ含み得る複数の単位認識領域に区分するとともに当該複数の単位認識領域のそれぞれに対して前記光学文字認識処理を実行するクラウドサーバであって、前記複数の単位認識領域のそれぞれに対する文字認識結果を含むとともに各単位認識領域に対する文字認識結果の末尾にそれぞれ区切りコードを付加したテキストデータを、前記処理対象画像に対する前記光学文字認識処理の処理結果として生成するクラウドサーバ、と連携して電子文書を生成する電子文書生成装置に内蔵されたコンピュータに、a)原稿のスキャン画像の文字領域から複数の行領域をそれぞれ抽出するステップと、b)前記複数の行領域のそれぞれが単位認識領域として前記クラウドサーバにより判定されるように、前記スキャン画像に対して画像加工処理を施して認識対象画像を生成するステップと、c)前記認識対象画像を前記光学文字認識処理の前記処理対象画像として前記クラウドサーバに送信するステップと、d)前記認識対象画像に対する前記光学文字認識処理の処理結果である前記テキストデータを前記クラウドサーバから受信するステップと、e)前記テキストデータに含まれる前記区切りコードに基づき前記テキストデータを複数の文字列データに区分するとともに前記複数の行領域と前記複数の文字列データとの対応関係を決定するステップと、f)各文字列データに対応する各行領域に当該各文字列データをそれぞれ配置して前記電子文書を生成するステップと、を実行させるためのプログラムであることを特徴とする。
請求項14の発明は、請求項13の発明に係るプログラムにおいて、前記コンピュータに、g)前記複数の行領域の前記スキャン画像内における位置をそれぞれ検出するステップ、をさらに実行させ、前記ステップf)においては、前記ステップg)での検出位置に基づき、前記各文字列データに対応する前記各行領域の検出位置に前記各文字列データがそれぞれ配置されて、前記電子文書が生成されることを特徴とする。
請求項15の発明は、請求項13または請求項14の発明に係るプログラムにおいて、前記画像加工処理は、前記複数の行領域のそれぞれの高さを検出し、前記複数の行領域の相互間の離間間隔を前記複数の行領域のうち最も高い行領域の高さ以上の大きさにそれぞれ設定する処理を含むことを特徴とする。
請求項16の発明は、請求項13または請求項14の発明に係るプログラムにおいて、前記画像加工処理は、前記複数の行領域のそれぞれの高さを検出し、前記複数の行領域のうち最終行以外の各行領域と当該各行領域のそれぞれの次の行領域との相互間の離間間隔を、前記各行領域のそれぞれの高さ以上の大きさにそれぞれ設定する処理を含むことを特徴とする。
請求項17の発明は、請求項13または請求項14の発明に係るプログラムにおいて、前記画像加工処理は、前記複数の行領域の相互間の行間領域に区切線をそれぞれ付加する処理を含むことを特徴とする。
請求項18の発明は、請求項13または請求項14の発明に係るプログラムにおいて、前記画像加工処理は、前記複数の行領域のうち少なくとも最終行以外の各行領域のそれぞれの末尾に、前記単位認識領域の末尾であることを示す末尾識別画像を付加する処理を含むことを特徴とする。
請求項19の発明は、請求項13または請求項14の発明に係るプログラムにおいて、前記画像加工処理は、各行領域の文字色を、前記各行領域にそれぞれ隣接する隣接行領域の文字色とは異なる文字色に設定する処理を含むことを特徴とする。
請求項20の発明は、請求項13または請求項14の発明に係るプログラムにおいて、前記画像加工処理は、各行領域の行頭位置を、前記各行領域にそれぞれ隣接する隣接行領域の行頭位置とは異なる位置に設定する処理を含むことを特徴とする。
請求項21の発明は、請求項13または請求項14の発明に係るプログラムにおいて、前記画像加工処理は、各行領域の文字サイズを、前記各行領域にそれぞれ隣接する隣接行領域の文字サイズとは異なる文字サイズに設定する処理を含むことを特徴とする。
請求項22の発明は、請求項13または請求項14の発明に係るプログラムにおいて、前記コンピュータに、h)前記クラウドサーバによって前記単位認識領域の判定に用いられる判定手法を、前記ステップb)に先立って前記クラウドサーバに問い合わせるステップと、i)前記判定手法に関する情報を前記クラウドサーバから受信するステップと、をさらに実行させ、前記ステップb)においては、前記判定手法に応じた画像加工処理が前記スキャン画像に対して施されて前記認識対象画像が生成されることを特徴とする。
請求項23の発明は、請求項13または請求項14の発明に係るプログラムにおいて、前記コンピュータに、h)前記ステップb)に先立って、互いに異なる複数の画像加工処理がそれぞれ施された互いに異なる複数のテスト画像であって前記複数の行領域のうち一部の行領域をそれぞれ含む複数のテスト画像を生成するステップと、i)前記複数のテスト画像を前記クラウドサーバに送信するステップと、j)前記複数のテスト画像に対してそれぞれ実行された前記光学文字認識処理の処理結果である複数のテスト結果を前記クラウドサーバから受信するステップと、k)前記クラウドサーバから受信した前記複数のテスト結果のそれぞれに含まれる区切りコードに基づいて、前記複数のテスト結果のそれぞれに含まれる文字列データの個数である文字列データ数を検出するステップと、l)前記複数のテスト結果のそれぞれについてその文字列データ数と前記一部の行領域の個数との差である個数差を求めるとともに、前記複数のテスト結果のうち、前記個数差が最も小さいテスト結果を最良テスト結果として求め、前記複数の画像加工処理のうち、前記最良テスト結果に対応する画像加工処理を最適加工処理として決定するステップと、をさらに実行させ、前記ステップb)においては、前記複数の行領域のうち前記一部の行領域を除く残余の行領域に関して前記最適加工処理が施されて前記認識対象画像が生成され、前記ステップe)においては、前記最良テスト結果に含まれる区切りコードと前記テキストデータに含まれる区切りコードとに基づき、前記最良テスト結果と前記テキストデータとで構成されるデータが複数の文字列データに区分されるとともに、前記複数の行領域と前記複数の文字列データとの対応関係が決定されることを特徴とする。
請求項24の発明は、請求項13または請求項14の発明に係るプログラムにおいて、前記コンピュータに、h)前記ステップb)に先立って、サンプル画像に対して互いに異なる複数の画像加工処理をそれぞれ施して生成された複数のテスト画像を前記クラウドサーバに送信するステップと、i)前記複数のテスト画像に対してそれぞれ実行された前記光学文字認識処理の処理結果である複数のテスト結果を前記クラウドサーバから受信するステップと、j)前記クラウドサーバから受信した前記複数のテスト結果のそれぞれに含まれる区切りコードに基づいて、前記複数のテスト結果のそれぞれに含まれる文字列データの個数である文字列データ数を検出するステップと、k)前記複数のテスト結果のそれぞれについてその文字列データ数と前記サンプル画像に含まれる行領域の個数との差である個数差を求めるとともに、前記複数のテスト結果のうち、前記個数差が最も小さいテスト結果を最良テスト結果として求め、前記複数の画像加工処理のうち、前記最良テスト結果に対応する画像加工処理を最適加工処理として決定するステップと、をさらに実行させ、前記ステップb)においては、前記スキャン画像に対して前記最適加工処理が施されて前記認識対象画像が生成されることを特徴とする。
請求項25の発明は、電子文書生成システムであって、原稿のスキャン画像を生成する画像形成装置と、クラウドサーバと連携し、前記スキャン画像に基づく電子文書を生成する電子文書生成装置と、を備え、前記クラウドサーバは、光学文字認識処理の処理対象画像内の文字領域を、1行の行領域よりも大きな領域をそれぞれ含み得る複数の単位認識領域に区分するとともに当該複数の単位認識領域のそれぞれに対して前記光学文字認識処理を実行し、前記複数の単位認識領域のそれぞれに対する文字認識結果を含むとともに各単位認識領域に対する文字認識結果の末尾にそれぞれ区切りコードを付加したテキストデータを、前記処理対象画像に対する前記光学文字認識処理の処理結果として生成し、前記画像形成装置は、前記スキャン画像を前記電子文書生成装置に送信する通信手段、を有し、前記電子文書生成装置は、前記画像形成装置から受信した前記スキャン画像の文字領域から複数の行領域をそれぞれ抽出する抽出手段と、前記複数の行領域のそれぞれが単位認識領域として前記クラウドサーバにより判定されるように、前記スキャン画像に対して画像加工処理を施して認識対象画像を生成する画像生成手段と、前記認識対象画像を前記光学文字認識処理の前記処理対象画像として前記クラウドサーバに送信する送信手段と、前記認識対象画像に対する前記光学文字認識処理の処理結果である前記テキストデータを前記クラウドサーバから受信する受信手段と、前記テキストデータに含まれる前記区切りコードに基づき前記テキストデータを複数の文字列データに区分するとともに前記複数の行領域と前記複数の文字列データとの対応関係を決定し、各文字列データに対応する各行領域に当該各文字列データをそれぞれ配置して前記電子文書を生成する文書生成手段と、を有することを特徴とする。
請求項1ないし請求項25に記載の発明によれば、スキャン画像から複数の行領域がそれぞれ抽出され、当該複数の行領域のそれぞれが単位認識領域としてクラウドサーバにより判定されるように、当該スキャン画像に対して画像加工処理が施されて認識対象画像が生成される。そして、クラウドサーバにおいて、当該複数の行領域のそれぞれが単位認識領域として判定され、各行領域に対する文字認識結果の末尾にそれぞれ区切りコードが付加されたテキストデータが生成される。したがって、電子文書生成装置は、当該区切りコードに基づいてスキャン画像内の各行領域と各行領域に対する文字認識結果とを対応付けることができるので、スキャン画像内の適切な位置にOCR処理結果(テキストデータ)を配置した電子文書を生成することが可能である。
電子文書生成システムを示す図である。 画像形成装置(MFP)の機能ブロックを示す図である。 外部端末の概略構成を示す機能ブロック図である。 電子文書生成システムにおける動作例を示すタイミングチャートである。 スキャン画像を示す図である。 各行領域と各行領域の座標位置とを示す図である。 各行領域の高さを示す図である。 処理対象画像を示す図である。 各行領域に各文字列データが配置される様子を示す図である。 生成されたサーチャブルPDFファイルを示す図である。 第1実施形態の変形例に係る処理対象画像を示す図である。 第2実施形態に係る処理対象画像を示す図である。 第3実施形態に係る処理対象画像を示す図である。 第4実施形態に係る処理対象画像を示す図である。 第5実施形態に係る処理対象画像を示す図である。 第6実施形態に係る処理対象画像を示す図である。 第7実施形態に係る電子文書生成システムにおける動作例を示すタイミングチャートである。 第8実施形態に係る電子文書生成システムにおける動作例を示すタイミングチャートである。 一部の行領域の抽出について説明する図である。 テスト画像を示す図である。 テスト画像を示す図である。 テスト画像を示す図である。 最適加工処理の決定処理について説明する図である。 残余の行領域に関する認識対象画像を示す図である。 残余の行領域に関するテキストデータを示す図である。 変形例に係る認識対象画像を示す図である。
以下、本発明の実施形態を図面に基づいて説明する。
<1.第1実施形態>
<1−1.構成概要>
図1は、本発明に係る画像形成システム1を示す図である。図1に示すように、画像形成システム1は、画像形成装置10と外部端末50とクラウドサーバ90とを備える。
画像形成装置10と外部端末50とクラウドサーバ90とは、ネットワーク(通信ネットワーク)108を介して互いに接続される。ネットワーク108は、LAN(Local Area Network)およびインターネットなどによって構成される。また、ネットワーク108に対する接続態様は、有線接続であってもよく、或いは無線接続であってもよい。たとえば、画像形成装置10およびクラウドサーバ90はネットワーク108に対して有線接続され、外部端末50はネットワーク108に対して無線接続される。
クラウドサーバ90は、画像形成装置10とも外部端末50とも異なる外部装置(外部サーバ)である。クラウドサーバ90は、汎用的なOCR(Optical Character Recognition)処理サービスを提供するサーバである。ただし、このクラウドサーバ90は、サーチャブルPDF(Portable Document Format)ファイルの生成処理サービスを提供しない。サーチャブルPDFファイルは、後述するように、外部端末50およびクラウドサーバ90等が協働することによって生成される。
また、クラウドサーバ90は、OCR処理の処理対象画像内の文字領域を、1行の行領域よりも大きな領域をそれぞれ含み得る複数の単位認識領域に所定の判定基準に基づき区分するとともに当該複数の単位認識領域のそれぞれに対してOCR処理を実行する。そして、クラウドサーバ90は、当該処理対象画像に対するOCR処理結果としてテキストデータ550(図9参照)を生成する。このテキストデータ550には、当該複数の単位認識領域のそれぞれに対する文字認識結果(OCR処理結果)が含まれるとともに、各単位認識領域に対する文字認識結果の末尾にそれぞれ区切りコード(たとえば改行コード(制御コード))が付加される。なお、当該テキストデータ550は、文字コード(区切りコード等を含む)で構成されるデータの集合体(文字コード群データ)である、とも表現される。
この画像形成システム1においては、原稿のスキャン画像200(図5参照)が画像形成装置10によって生成され、当該スキャン画像200が画像形成装置10から外部端末50に送信される。外部端末50は、当該スキャン画像200に対して画像加工処理(後述)を施して認識対象画像500(図8参照)を生成し、当該認識対象画像500をクラウドサーバ90に送信する。クラウドサーバ90は、外部端末50から受信した認識対象画像500に対してOCR処理を施してテキストデータ550をOCR処理結果として生成し、当該テキストデータ550を外部端末50に送信する。そして、外部端末50は、クラウドサーバ90から受信したテキストデータ550に基づいて電子文書600(図10参照)を生成する。当該電子文書600は、テキストデータ付き電子文書(ここでは、サーチャブルPDFファイル)として生成される。
なお、画像形成システム1は、電子文書を生成するシステムでもあることから、電子文書生成システムなどとも表現される。同様に、外部端末50は「電子文書生成装置」であるとも表現される。
<1−2.画像形成装置の構成>
図2は、画像形成装置10の機能ブロックを示す図である。ここでは、画像形成装置10として、MFP(マルチ・ファンクション・ペリフェラル(Multi-Functional Peripheral))を例示する。
MFP10は、スキャン機能、コピー機能、ファクシミリ機能およびボックス格納機能などを備える装置(複合機とも称する)である。具体的には、MFP10は、図2の機能ブロック図に示すように、画像読取部2、印刷出力部3、通信部4、格納部5、操作部6およびコントローラ9等を備えており、これらの各部を複合的に動作させることによって、各種の機能を実現する。
画像読取部2は、MFP10の所定の位置に載置された原稿を光学的に読み取って、当該原稿の画像データ(スキャン画像とも称する)を生成する処理部である。
印刷出力部3は、印刷対象に関するデータに基づいて紙などの各種の媒体に画像を印刷出力する出力部である。
通信部4は、公衆回線等を介したファクシミリ通信を行うことが可能な処理部である。さらに、通信部4は、ネットワーク108を介したネットワーク通信を行うことも可能である。このネットワーク通信では、たとえば、TCP/IP(Transmission Control Protocol / Internet Protocol)等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、MFP10は、所望の相手先(たとえば、外部端末50)と連携して各種のデータを授受することが可能である。通信部4は、各種データを送信する送信部4aと各種データを受信する受信部4bとを有する。
格納部5は、ハードディスクドライブ(HDD)等の記憶装置で構成される。
操作部6は、MFP10に対する操作入力を受け付ける操作入力部6aと、各種情報の表示出力を行う表示部6bとを備えている。
このMFP10においては、略板状の操作パネル部6c(図1参照)が設けられている。また、操作パネル部6cは、その正面側にタッチパネル25(図1参照)を有している。タッチパネル25は、操作入力部6aの一部としても機能するとともに、表示部6bの一部としても機能する。タッチパネル25は、液晶表示パネルに各種センサ等が埋め込まれて構成され、各種情報を表示するとともに操作者からの各種の操作入力を受け付けることが可能である。
たとえば、タッチパネル25においては、各種の操作画面(ボタン画像等を含む)が表示される。操作者は、タッチパネル25の操作画面内に仮想的に配置されるボタンを押下することによって、MFP10の各種動作内容を設定するとともに動作指示を付与することができる。
コントローラ9は、MFP10に内蔵され、MFP10を統括的に制御する制御装置である。コントローラ9は、CPUおよび各種の半導体メモリ(RAMおよびROM)等を備えるコンピュータシステムとして構成される。コントローラ9は、CPUにおいて、ROM(例えば、EEPROM)内に格納されている所定のソフトウエアプログラム(以下、単にプログラムとも称する)P1を実行することによって、各種の処理部を実現する。なお、当該プログラム(詳細にはプログラムモジュール群)P1は、USBメモリなどの可搬性の記録媒体、あるいはネットワーク108等を介してMFP10にインストールされてもよい。
具体的には、図2に示すように、コントローラ9は、プログラムP1の実行により、通信制御部11と入力制御部12と表示制御部13とを含む各種の処理部を実現する。
通信制御部11は、他の装置(外部端末50等)との間の通信動作を通信部4等と協働して制御する処理部である。たとえば、通信制御部11は、スキャン画像200等を外部端末50に送信する。
入力制御部12は、操作入力部6aに対するユーザからの操作入力の受付動作等を制御する制御部である。
表示制御部13は、表示部6bにおける表示動作を制御する処理部である。表示制御部13は、たとえば、MFP10を操作するための操作画面をタッチパネル25に表示させる。
<1−3.外部端末の構成>
次に外部端末50の構成について説明する。
外部端末50は、MFP10およびクラウドサーバ90との間でのネットワーク通信が可能な情報入出力端末装置(情報端末あるいは通信端末とも称される)である。ここでは、外部端末50として、タブレット型端末を例示する。ただし、これに限定されず、外部端末50は、スマートフォンあるいはパーソナルコンピュータなどであってもよい。また、外部端末は、携帯式の装置(携帯情報端末等)(携帯端末)であってもよく、あるいは、据置型の装置であってもよい。
図3は外部端末50の概略構成を示す機能ブロック図である。
外部端末50は、図3の機能ブロック図に示すように、通信部54、格納部55、操作部56およびコントローラ59等を備えており、これらの各部を複合的に動作させることによって、各種の機能を実現する。
通信部54は、ネットワーク108を介したネットワーク通信を行うことが可能である。このネットワーク通信では、たとえば、TCP/IP(Transmission Control Protocol / Internet Protocol)等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、外部端末50は、所望の相手先(MFP10およびクラウドサーバ90等)と連携して各種のデータを授受することが可能である。通信部54は、各種データを送信する送信部54aと各種データを受信する受信部54bとを有する。たとえば、受信部54bは、スキャン画像200をMFP10から受信し、送信部54aは、認識対象画像500(後述)をクラウドサーバ90に送信する。また、受信部54bは、認識対象画像500に対するOCR処理結果(テキストデータ)等をクラウドサーバ90から受信する。
格納部55は、不揮発性の半導体メモリ等の記憶装置で構成され、各種の情報を格納する。たとえば、格納部55には、スキャン画像200の文字領域300(図6参照)から抽出された複数の行領域400(図6参照)のそれぞれの当該スキャン画像200内における座標位置が格納される。
操作部56は、外部端末50に対する操作入力を受け付ける操作入力部56aと、各種情報の表示出力を行う表示部56bとを備えている。この外部端末50においては、液晶表示パネルに各種センサ等が埋め込まれて構成されたタッチパネル75(図1参照)が設けられている。具体的には、図1に示すように、略板状の外部端末50の正面側において、その周縁部(枠部)を除くほぼ全面にわたってタッチパネル75が設けられている。換言すれば、タッチパネル75は、操作入力部56aの一部としても機能するとともに、表示部56bの一部としても機能する。
コントローラ59は、外部端末50に内蔵され、外部端末50を統括的に制御する制御装置である。コントローラ59は、CPUおよび各種の半導体メモリ(RAMおよびROM)等を備えるコンピュータシステムとして構成される。コントローラ59は、CPUにおいて、記憶部(半導体メモリ等)内に格納されている所定のソフトウエアプログラム(以下、単にプログラムとも称する)P2を実行することによって、各種の処理部を実現する。なお、当該プログラム(詳細にはプログラムモジュール群)P2は、USBメモリなどの可搬性の記録媒体、あるいはネットワーク108等を介して外部端末50にインストールされるようにしてもよい。
具体的には、コントローラ59は、プログラムP2等の実行により、通信制御部61と入力制御部62と表示制御部63と抽出部64と検出部65と画像生成部66と文書生成部67とを含む各種の処理部を実現する。
通信制御部61は、通信部54等と協働して、MFP10およびクラウドサーバ90等との通信動作を制御する処理部である。
入力制御部62は、操作入力部56aに対するユーザからの操作入力の受付動作等を制御する制御部である。
表示制御部63は、表示部56bにおける表示動作を制御する処理部である。表示制御部63は、たとえば、MFP10との連携処理を行うための操作画面をタッチパネル75に表示する。
抽出部64は、スキャン画像200の文字領域300から複数の行領域400(図6参照)をそれぞれ抽出する処理部である。
検出部65は、複数の行領域400のスキャン画像200内における位置(座標位置)をそれぞれ検出する処理部である。
画像生成部66は、複数の行領域400のそれぞれがクラウドサーバ90により単位認識領域として判定されるように、スキャン画像200に対して画像加工処理(後述)を施して認識対象画像500を生成する処理部である。
文書生成部67は、電子文書600(図10参照)を生成する処理部である。文書生成部67は、クラウドサーバ90から受信したテキストデータ550に含まれる区切りコードに基づき当該テキストデータ550を複数の文字列データ(451〜457等)(図9参照)に区分するとともに、スキャン画像200内の複数の行領域400と当該複数の文字列データ(451〜457等)との対応関係を決定する。文書生成部67は、各文字列データ(451〜457等)に対応する各行領域400に当該各文字列データ(451〜457等)をそれぞれ配置して電子文書600(サーチャブルPDFファイル等)を生成する。
<1−4.動作>
この画像形成システム1において、上述のように、外部端末50は、スキャン画像200に対して「画像加工処理」を施して認識対象画像500を生成し、当該認識対象画像500をクラウドサーバ90に送信する。
この第1実施形態では、クラウドサーバ90は、OCR処理の処理対象画像内の行領域の相互間の離間間隔に基づき単位認識領域を判定(認識)するものとする。具体的には、処理対象画像内の或る行領域と次の行領域との離間間隔が比較的小さい(詳細には、当該離間間隔が当該或る行領域の高さよりも小さい)場合には、クラウドサーバ90は、当該或る行領域と当該次の行領域とを区別しない。そして、クラウドサーバ90は、当該或る行領域の文字認識結果(OCR処理結果)と次の行領域の文字認識結果とが連続した状態のテキストデータを生成する。一方、処理対象画像内の或る行領域と次の行領域との離間間隔が比較的大きい(詳細には、当該離間間隔が当該或る行領域の高さよりも大きい)場合には、クラウドサーバ90は、処理対象画像内の当該或る行領域までの1又は2以上の行領域と当該次の行領域以降の1又は2以上の行領域とをそれぞれ単位認識領域として判定する。そして、クラウドサーバ90は、各単位認識領域に対する文字認識結果の末尾に区切りコード(ここでは改行コード)をそれぞれ付加したテキストデータ550を生成する。このような判定基準に基づき、クラウドサーバ90は処理対象画像内の文字領域を複数の単位認識領域に区分する。
また、第1実施形態では、外部端末50は、スキャン画像200内の複数の行領域400の相互間の離間間隔を当該複数の行領域400のうち最も高い行領域の高さ(最大高さH)以上の大きさにそれぞれ設定する処理を、「画像加工処理」として実行する。外部端末50は、このような「画像加工処理」を施すことによって、当該複数の行領域400が互いに異なる単位認識領域であると(意図的に)クラウドサーバ90に判定させ、所望の処理結果(各行領域400に対する文字認識結果の末尾に区切コードがそれぞれ付加されたテキストデータ550)をクラウドサーバ90から取得する。
なお、ここでは、クラウドサーバ90によって単位認識領域の判定に用いられる判定手法(単位認識領域の判定基準)が既知であることを想定する。より詳細には、プログラム設計者等が、クラウドサーバ90におけるOCR処理の仕様の公開等によって当該判定手法を知得し、当該判定手法に応じた「画像加工処理」に関するプログラムを作成するとともに、当該プログラムが外部端末50に組み込まれていることを想定する。
<スキャン画像生成等>
まず、ユーザは、スキャン対象の原稿をMFP10の原稿台(たとえば、自動給紙装置(ADF:Auto Document Feeder )あるいは原稿載置用ガラス面等)に載置し、外部端末50の操作画面において電子文書600(601)の生成指示を外部端末50に付与する。外部端末50は、当該生成指示を受け付けると、当該生成指示に基づくスキャン画像生成指示をMFP10に転送する。
電子文書600(601)の生成指示に際して、ユーザは、スキャン処理により最終的に生成される電子文書600(601)のファイル形式を指定する。ここでは、当該電子文書601のファイル形式として、サーチャブルPDF(透明テキスト付きPDF)ファイルが指定されるものとする。なお、サーチャブルPDF(透明テキスト付きPDF)ファイルは、文字画像を有する画像レイヤと当該文字画像に対する文字認識結果(テキストデータ)が非表示状態で埋め込まれたテキストレイヤとを有するPDF形式の電子文書である。
MFP10は、当該生成指示(スキャン画像生成指示等)を外部端末50から受信すると、スキャン動作を開始し、MFP10の原稿台(ADF等)に載置された原稿のスキャン画像200(201)(図5参照)を生成する。
そして、MFP10は、スキャン画像(詳細にはスキャン画像データ)201を外部端末50に送信する。
<OCR処理および電子文書生成処理等>
図4は、電子文書生成システム1における動作例を示すタイミングチャートである。外部端末50(およびクラウドサーバ90)は、MFP10からのスキャン画像200(201)を受信すると、図4に示すような処理を実行する。
外部端末50は、スキャン画像201(図5参照)をMFP10から受信して取得する(ステップS11)と、図6に示すように、当該スキャン画像201の文字領域300(301)から複数の行領域400(401〜407)をそれぞれ抽出する(ステップS12)。具体的には、外部端末50(抽出部64)は、画像処理によって、スキャン画像201を文字領域301と非文字領域とに区分し、当該文字領域301から行領域(1行単位の領域)401〜407をそれぞれ抽出する。
行領域401〜407が抽出されると、外部端末50(検出部65)は、行領域401〜407のスキャン画像201内における位置(座標位置)をそれぞれ検出し(図6参照)、各座標位置を格納部55に格納する(ステップS13)。ここでは、図6に示すように、行領域401〜407の左上端のスキャン画像201内における座標位置がそれぞれ検出され、行領域401〜407の座標位置(座標値(X1,Y1)〜(X7,Y7))が格納部55にそれぞれ格納される。
そして、外部端末50(画像生成部66)は、複数の行領域(行領域401〜407)のそれぞれがクラウドサーバ90により単位認識領域として判定されるように、スキャン画像201に対して画像加工処理(次述)を施して(ステップS14)、認識対象画像501(501A)(図8)を生成する(ステップS15)。
具体的には、画像生成部66は、スキャン画像201内の行領域401〜407の高さH1〜H7(図7)を画像処理によってそれぞれ検出し、行領域401〜407のうち最も高い行領域の高さ(最大高さH)を決定する。ここでは、行領域401〜407の高さH1〜H7のうち行領域401の高さH1が最大高さHとして決定される。そして、画像生成部66は、行領域401〜407の相互間の離間間隔を、当該最大高さHに所定値ΔH(たとえば2ミリメートル)を加えた大きさH10(=H+ΔH)にそれぞれ設定する。画像生成部66は、このような処理を「画像加工処理」としてスキャン画像201に対して施し(ステップS14)、認識対象画像501Aを生成する(ステップS15)。ここでは、図8に示すように、行領域401〜407の相互間の離間間隔が、最大高さ(行領域401の高さ)H1にΔHを加えた大きさH11(=H1+ΔH)にそれぞれ設定され、認識対象画像501Aが生成される。換言すれば、行領域401〜407のそれぞれが最大高さH1以上の大きさH11(=H1+ΔH)の間隔を空けて配置された認識対象画像501Aが生成される。
そして、外部端末50(送信部54a)は、当該認識対象画像501AをOCR処理の処理対象画像としてクラウドサーバ90に送信する(ステップS16)。なお、外部端末50は、当該認識対象画像501Aの送信に伴って、当該認識対象画像501Aに対するOCR処理を開始すべき旨のOCR開始指令をもクラウドサーバ90に送信する。
クラウドサーバ90は、外部端末50から認識対象画像501AおよびOCR開始指令を受信すると、当該認識対象画像501AをOCR処理の処理対象画像として認識し、認識対象画像501Aに対してOCR処理を実行してテキストデータ551を生成する(ステップS17)。
具体的には、クラウドサーバ90は、認識対象画像501A内の行領域401〜407の相互間の離間間隔が最大高さH1以上の大きさH11(=H1+ΔH)である(すなわち、当該離間間隔が各行領域401〜407のそれぞれの高さよりも大きい)ことに基づいて、当該行領域401〜407のそれぞれを互いに異なる単位認識領域として判定する。そして、クラウドサーバ90は、認識対象画像501Aに対してOCR処理を施し、テキストデータ551(図9の右上部)を認識対象画像501Aに対するOCR処理結果として生成する。図9の右上部に示すように、このテキストデータ551には、行領域401〜407のそれぞれに対する文字認識結果(OCR処理結果)が含まれ、且つ、行領域401〜407に対する文字認識結果(OCR処理結果)の末尾にそれぞれ区切りコード(ここでは改行コード)が付加されている。換言すれば、当該テキストデータ551には、行領域401〜407のそれぞれに対する文字認識結果(テキストデータ)と7つの改行コードとが含まれる。
その後、クラウドサーバ90は、当該テキストデータ(認識対象画像501Aに対するOCR処理結果)551を外部端末50に送信する(ステップS18)。
外部端末50(文書生成部67)は、当該テキストデータ551をクラウドサーバ90から受信すると、各行領域401〜407のスキャン画像201内における検出位置(座標位置)に基づき各文字列データ451〜457(次述)を各行領域401〜407にそれぞれ配置して電子文書600(601)(図10)を生成する(ステップS19)。
具体的には、図9に示すように、文書生成部67は、テキストデータ551に含まれる7つの改行コードに基づいて、当該テキストデータ551を7つの文字列データ451〜457に区分する。そして、文書生成部67は、1つ目の文字列データ451をスキャン画像201内の1行目の行領域401に対応する文字列データとして決定し、当該文字列データ451を行領域401の検出位置(座標値(X1,Y1))に配置する。換言すれば、文書生成部67は、1つ目の文字列データ451と1行目の行領域401とを対応付け、当該文字列データ451を行領域401の検出位置に配置する。同様にして、文書生成部67は、文字列データ452〜457と行領域402〜407とをそれぞれ対応付け、当該文字列データ452〜457を行領域402〜407の検出位置(座標位置)にそれぞれ配置する(図9参照)。
そして、全ての行領域401〜407に全ての文字列データ451〜457が配置されると、文書生成部67は、サーチャブルPDF(透明テキスト付きPDF)ファイルを電子文書601(図10参照)として生成する。図10に示すように、当該電子文書601(サーチャブルPDFファイル)には、行領域401〜407の各座標位置に文字列データ451〜457が透明テキストデータとして(非表示状態で)それぞれ埋め込まれる。なお、図10においては、図示の都合上、行領域401〜407の文字画像が表示されず、OCR処理結果(文字列データ451〜457)が表示されているが、実際には、当該電子文書601では、当該文字列データ451〜457は表示されず、行領域401〜407の文字画像が表示される。
このように、文書生成部67は、テキストデータ551に含まれる区切りコード(ここでは改行コード)に基づき当該テキストデータ551を文字列データ451〜457に区分し、行領域401〜407と当該文字列データ451〜457との対応関係を決定する。そして、文書生成部67は、各文字列データ451〜457に対応する各行領域401〜407の検出位置に当該各文字列データ451〜457をそれぞれ配置して電子文書601を生成する。
以上のように、第1実施形態に係る動作においては、スキャン画像201から行領域401〜407がそれぞれ抽出され、行領域401〜407のそれぞれがクラウドサーバ90により単位認識領域として判定されるように、画像加工処理が施されて認識対象画像501が生成される。そして、クラウドサーバ90において、行領域401〜407のそれぞれが単位認識領域として判定され、行領域401〜407に対する文字認識結果の末尾にそれぞれ区切りコードが付加されたテキストデータ551が生成される。したがって、外部端末50は、当該区切りコードに基づいてスキャン画像201内の行領域401〜407と行領域401〜407に対する文字認識結果(文字列データ451〜457)とを対応付けることができるので、スキャン画像201内の適切な位置にOCR処理結果(テキストデータ)を配置した電子文書601を生成することが可能である。
また、行領域401〜407のスキャン画像201内における位置(座標位置)がそれぞれ検出され、文字列データ451〜457に対応する行領域401〜407の検出位置に当該文字列データ451〜457がそれぞれ配置されるので、スキャン画像201内のより適切な位置にOCR処理結果(テキストデータ)を配置した電子文書601を生成することが可能である。
なお、第1実施形態では、複数の行領域の相互間の離間間隔を最大高さH以上の大きさH10にそれぞれ設定する処理が「画像加工処理」として施される態様を例示したが、これに限定されない。たとえば、各行領域と当該各行領域のそれぞれの次の行領域との相互間の離間間隔を当該各行領域のそれぞれの高さ以上の大きさH20にそれぞれ設定する処理が「画像加工処理」として施されるようにしてもよい。
具体的には、画像生成部66は、スキャン画像201内の行領域401〜407の行領域の高さH1〜H7をそれぞれ検出する(図7参照)。そして、画像生成部66は、図11に示すように、行領域401と(次の)行領域402との相互間の離間間隔を高さH1以上の大きさH21(=H1+ΔH)に設定する。また、画像生成部66は、行領域402と(次の)行領域403との相互間の離間間隔を高さH2以上の大きさH22(=H2+ΔH)に設定する。同様に、画像生成部66は、行領域403〜406と(それぞれ次の)行領域404〜407との相互間の離間間隔をそれぞれ高さH3〜H6以上の大きさH23〜H26(=Hi+ΔH(i=3,...,6))に設定する。換言すれば、画像生成部66は、行領域401〜407のうち最終行以外の各行領域401〜406と当該各行領域401〜406のそれぞれの次の行領域402〜407との相互間の離間間隔を、当該各行領域401〜406の高さH1〜H6以上の大きさH21〜H26にそれぞれ設定する。そして、画像生成部66は、このような画像加工処理を施して認識対象画像501(501B)(図11)を生成する。
なお、この変形例においても、上述のように、クラウドサーバ90は、処理対象画像内の或る行領域と次の行領域との離間間隔が当該或る行領域の高さよりも大きい場合に、処理対象画像内の当該或る行領域までの1又は2以上の行領域と当該次の行領域以降の1又は2以上の行領域とをそれぞれ単位認識領域として判定する。
そして、上記の変形例に係る画像加工処理を行うことによれば、各行領域と当該各行領域のそれぞれの次の行領域との相互間の離間間隔が当該各行領域のそれぞれの高さ以上の大きさにそれぞれ設定されるので、クラウドサーバ90において各行領域のそれぞれが互いに異なる単位認識領域として判定される。
<2.第2実施形態>
第2実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
第1実施形態では、クラウドサーバ90は、処理対象画像内の或る行領域と次の行領域との離間間隔が当該或る行領域の高さよりも大きい場合に、当該或る行領域までの1又は2以上の行領域と当該次の行領域以降の1又は2以上の行領域とをそれぞれ単位認識領域として判定する態様を例示した。また、第1実施形態では、外部端末50は、スキャン画像200内の複数の行領域400の相互間の離間間隔を当該複数の行領域400のうち最も高い行領域の高さ(最大高さH)以上の大きさにそれぞれ設定する処理を、「画像加工処理」として実行する態様を例示した。
しかしながら、本願発明は、これに限定されない。たとえば、クラウドサーバ90はその他の様々な判定基準(判定手法)に基づき単位認識領域の判定を行い、外部端末50は各々の判定手法に応じた「画像加工処理」をスキャン画像200に対して実行するようにしてもよい。以下の第2〜第6実施形態においては、このような態様をそれぞれ例示する。
この第2実施形態では、クラウドサーバ90は、OCR処理の処理対象画像内の区切線に基づいて単位認識領域を判定(認識)するものとする。具体的には、クラウドサーバ90は、処理対象画像内に区切線が存在する場合に、当該区切線で区分された各領域(上側の1又は2以上の行領域と下側の1又は2以上の行領域との両領域)をそれぞれ単位認識領域として判定する。そして、クラウドサーバ90は、各単位認識領域に対する文字認識結果の末尾に区切りコードをそれぞれ付加したテキストデータ550を生成する。このような判定基準に基づき、クラウドサーバ90は処理対象画像内の文字領域を複数の単位認識領域に区分する。
また、第2実施形態では、外部端末50は、スキャン画像200内の複数の行領域400の相互間の行間領域に区切線L(図12)をそれぞれ付加する処理を、「画像加工処理」として実行する態様を例示する。外部端末50は、このような「画像加工処理」を施すことによって、当該複数の行領域400が互いに異なる単位認識領域であると(意図的に)クラウドサーバ90に判定させ、所望の処理結果(各行領域400に対する文字認識結果の末尾に区切コードがそれぞれ付加されたテキストデータ550)をクラウドサーバ90から取得する。
第2実施形態においても、第1実施形態と同様に図4の各処理がそれぞれ行われる。
ただし、第2実施形態の画像加工処理(ステップS14)の処理内容が第1実施形態の画像加工処理(ステップS14)の処理内容とは異なる。
具体的には、図12に示すように、外部端末50(画像生成部66)は、スキャン画像201内の行領域401〜407の相互間の行間領域に区切線L(L1〜L6)をそれぞれ付加する処理を「画像加工処理」としてスキャン画像201に対して施し(ステップS14)、認識対象画像502を生成する(ステップS15)。なお、ここでは、この区切線L(L1〜L6)は、認識対象画像500(502)の水平方向の全幅に亘って付加される。
また、第2実施形態のステップS17の詳細内容が第1実施形態のステップS17の詳細内容とは異なる。
具体的には、クラウドサーバ90は、外部端末50から受信した認識対象画像502内の区切線L1〜L6に基づいて、認識対象画像502内の行領域401〜407のそれぞれを互いに異なる単位認識領域として判定する。そして、クラウドサーバ90は、認識対象画像502に対してOCR処理を施し、行領域401〜407に対する文字認識結果の末尾にそれぞれ区切りコードが付加されたテキストデータ551(図9)を、認識対象画像502に対するOCR処理結果として生成する(ステップS17)。
なお、ステップS14およびS17以外の処理は、上記第1実施形態と同様にして行われる。
このような態様によれば、上記第1実施形態と同様の効果を得ることが可能である。
<3.第3実施形態>
第3実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
この第3実施形態では、クラウドサーバ90は、OCR処理の処理対象画像内の末尾識別画像(単位認識領域の末尾であることを示す画像)に基づいて単位認識領域を判定(認識)するものとする。具体的には、クラウドサーバ90は、処理対象画像内の或る行領域に末尾識別画像が存在する場合に、当該或る行領域までの1又は2以上の行領域と次の行領域以降の1又は2以上の行領域とをそれぞれ単位認識領域として判定する。そして、クラウドサーバ90は、各単位認識領域に対する文字認識結果の末尾に区切りコードをそれぞれ付加したテキストデータ550を生成する。このような判定基準に基づき、クラウドサーバ90は処理対象画像内の文字領域を複数の単位認識領域に区分する。
また、第3実施形態では、外部端末50は、スキャン画像200内の複数の行領域400のそれぞれの末尾に末尾識別画像430(図13)を付加する処理を、「画像加工処理」として実行する態様を例示する。外部端末50は、このような「画像加工処理」を施すことによって、当該複数の行領域400が互いに異なる単位認識領域であると(意図的に)クラウドサーバ90に判定させ、所望の処理結果(各行領域400に対する文字認識結果の末尾に区切コードがそれぞれ付加されたテキストデータ550)をクラウドサーバ90から取得する。
第3実施形態においても、第1実施形態と同様に図4の各処理がそれぞれ行われる。
ただし、第3実施形態の画像加工処理(ステップS14)の処理内容が第1実施形態の画像加工処理(ステップS14)の処理内容とは異なる。
具体的には、外部端末50(画像生成部66)は、スキャン画像201内の行領域401〜407のうち最終行(行領域407)以外の行領域401〜406のそれぞれの末尾に末尾識別画像430を付加する処理を「画像加工処理」としてスキャン画像201に対して施し(ステップS14)、認識対象画像500(503)を生成する(ステップS15)。ここでは、図13に示すように、改行コードを可視化した画像(「¥n」)が、末尾識別画像430(431〜436)として行領域401〜406のそれぞれの末尾に付加されて認識対象画像503が生成される。なお、ここでは改行コードを可視化した画像(「¥n」)を末尾識別画像430として例示したが、これに限定されず、末尾識別画像430は、たとえば、図形(三角形、四角形等)を示す画像(アイコン等を含む)であってもよい。
また、第3実施形態のステップS17の詳細内容が第1実施形態のステップS17の詳細内容とは異なる。
具体的には、クラウドサーバ90は、当該認識対象画像503内の文字領域から複数の行領域((元の行領域401〜407と区別するため)「新たな行領域」とも称する)を抽出する。たとえば、クラウドサーバ90は、当該認識対象画像503内の文字領域から1行目の新たな行領域を抽出する。この1行目の新たな行領域には、元の行領域401および末尾識別画像431が含まれる。同様にして、クラウドサーバ90は、2行目以降の新たな行領域(元の各行領域402〜407および各末尾識別画像432〜436をそれぞれ含む(最終行領域は行領域407のみ))をそれぞれ抽出する。そして、クラウドサーバ90は、新たな行領域のそれぞれの末尾(最終行を除く)に末尾識別画像431〜436が存在することを認識し、末尾識別画像431〜436で区切られた行領域(すなわち元の行領域401〜407)のそれぞれを互いに異なる単位認識領域として判定する。その後、クラウドサーバ90は、認識対象画像503に対してOCR処理を施し、行領域401〜407に対する文字認識結果の末尾にそれぞれ区切りコードが付加されたテキストデータ551(図9)を認識対象画像503に対するOCR処理結果として生成する(ステップS17)。
なお、ステップS14およびS17以外の処理は、上記第1実施形態と同様にして行われる。
このような態様によれば、上記第1実施形態と同様の効果を得ることが可能である。
<4.第4実施形態>
第4実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
この第4実施形態では、クラウドサーバ90は、OCR処理の処理対象画像内の各行領域の文字色に基づいて各行領域を単位認識領域として判定(認識)するものとする。具体的には、クラウドサーバ90は、処理対象画像内の或る行領域(全体)の文字色が次の行領域(全体)の文字色とは異なる場合に、処理対象画像内の当該或る行領域までの1又は2以上の行領域と次の行領域以降の1又は2以上の行領域とをそれぞれ単位認識領域として判定する。そして、クラウドサーバ90は、各単位認識領域に対する文字認識結果の末尾に区切りコードをそれぞれ付加したテキストデータ550を生成する。このような判定基準に基づき、クラウドサーバ90は処理対象画像内の文字領域を複数の単位認識領域に区分する。
また、第4実施形態では、外部端末50は、各行領域400の文字色を、各行領域400にそれぞれ隣接する隣接行領域の文字色とは異なる文字色に設定する処理を、「画像加工処理」として実行する態様を例示する。外部端末50は、このような「画像加工処理」を施すことによって、当該複数の行領域400が互いに異なる単位認識領域であると(意図的に)クラウドサーバ90に判定させ、所望の処理結果(各行領域400に対する文字認識結果の末尾に区切コードがそれぞれ付加されたテキストデータ550)をクラウドサーバ90から取得する。
第4実施形態においても、第1実施形態と同様に図4の各処理がそれぞれ行われる。
ただし、第4実施形態の画像加工処理(ステップS14)の処理内容が第1実施形態の画像加工処理(ステップS14)の処理内容とは異なる。
具体的には、外部端末50(画像生成部66)は、スキャン画像201内の行領域401〜407の文字色を、行領域401〜407にそれぞれ隣接する行領域(隣接行領域)の文字色とは異なる文字色に設定する処理を「画像加工処理」としてスキャン画像201に対して施し(ステップS14)、認識対象画像500(504)を生成する(ステップS15)。
たとえば、図14に示すように、画像生成部66は、奇数行目の行領域401,403,405および407の文字色を「黒色」に設定し、偶数行目の行領域402,404および406の文字色を「赤色」に設定する。このように、画像生成部66は、行領域401〜407の文字色を、交互に異なる(2色の)文字色に設定して認識対象画像504を生成する。換言すれば、画像生成部66は、隣接し合う行領域の文字色を互いに異なる文字色に設定した認識対象画像504を生成する。
また、第4実施形態のステップS17の詳細内容が第1実施形態のステップS17の詳細内容とは異なる。
具体的には、クラウドサーバ90は、外部端末50から受信した認識対象画像504内の行領域401〜407の文字色を認識し、当該行領域401〜407の文字色が各隣接行領域とは異なることに基づいて、認識対象画像504内の行領域401〜407のそれぞれを互いに異なる単位認識領域として判定する。そして、クラウドサーバ90は、認識対象画像504に対してOCR処理を施し、行領域401〜407に対する文字認識結果の末尾にそれぞれ区切りコードが付加されたテキストデータ551(図9)を認識対象画像504に対するOCR処理結果として生成する(ステップS17)。
なお、ステップS14およびS17以外の処理は、上記第1実施形態と同様にして行われる。
このような態様によれば、上記第1実施形態と同様の効果を得ることが可能である。
なお、第4実施形態では、行領域401〜407の文字色を交互に異なる(2色の)文字色に設定する態様を例示したが、これに限定されず、行領域401〜407の文字色をそれぞれ異なる文字色に設定するようにしてもよい。
たとえば、行領域401の文字色が「赤色」に、行領域402の文字色が「黒色」に、行領域403の文字色が「青色」に、行領域404の文字色が「黄色」に、行領域405の文字色が「緑色」に、行領域406の文字色が「水色」に、行領域407の文字色が「黄緑色」に設定されるようにしてもよい。
<5.第5実施形態>
第5実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
この第5実施形態では、クラウドサーバ90は、OCR処理の処理対象画像内の各行領域の行頭位置(文字列配列方向(ここでは水平方向)における位置)に基づいて各行領域を単位認識領域として判定(認識)するものとする。具体的には、クラウドサーバ90は、処理対象画像内の或る行領域の行頭位置と次の行領域の行頭位置とが比較的大きく異なる(詳細には、所定数の文字数(たとえば4文字)以上離れている)場合に、処理対象画像内の当該或る行領域までの1又は2以上の行領域と次の行領域以降の1又は2以上の行領域とをそれぞれ単位認識領域として判定する。そして、クラウドサーバ90は、各単位認識領域に対する文字認識結果の末尾に区切りコードをそれぞれ付加したテキストデータ550を生成する。このような判定基準に基づき、クラウドサーバ90は処理対象画像内の文字領域を複数の単位認識領域に区分する。
また、第5実施形態では、外部端末50は、各行領域400の行頭位置を、各行領域400にそれぞれ隣接する隣接行領域の行頭位置とは異なる位置に設定する処理を、「画像加工処理」として実行する態様を例示する。外部端末50は、このような「画像加工処理」を施すことによって、当該複数の行領域400が互いに異なる単位認識領域であると(意図的に)クラウドサーバ90に判定させ、所望の処理結果(各行領域400に対する文字認識結果の末尾に区切コードがそれぞれ付加されたテキストデータ550)をクラウドサーバ90から取得する。
第5実施形態においても、第1実施形態と同様に図4の各処理がそれぞれ行われる。
ただし、第5実施形態の画像加工処理(ステップS14)の処理内容が第1実施形態の画像加工処理(ステップS14)の処理内容とは異なる。
具体的には、外部端末50(画像生成部66)は、スキャン画像201内の行領域401〜407の行頭位置を、行領域401〜407にそれぞれ隣接する行領域(隣接行領域)の行頭位置とは異なる位置に設定する処理を「画像加工処理」としてスキャン画像201に対して施し(ステップS14)、認識対象画像500(505)を生成する(ステップS15)。
たとえば、画像生成部66は、図15に示すように、奇数行目の行領域401,403,405および407の行頭位置(ここでは左端の座標位置)を認識対象画像505内の比較的左側の位置に設定する。また、画像生成部66は、偶数行目の行領域402,404および406の行頭位置を当該行領域401,403,405および407の行頭位置よりも比較的離れた位置(ここでは行領域401,403,405および407の各行頭位置から4文字以上右側の位置)にそれぞれ設定する。このように、画像生成部66は、隣接し合う行領域の行頭位置を互いに異なる位置に設定した認識対象画像505を生成する。
また、第5実施形態のステップS17の詳細内容が第1実施形態のステップS17の詳細内容とは異なる。
具体的には、クラウドサーバ90は、外部端末50から受信した認識対象画像505内の行領域401〜407の行頭位置が各隣接行領域の行頭位置とは異なることに基づいて、認識対象画像505内の行領域401〜407のそれぞれを互いに異なる単位認識領域として判定する。そして、クラウドサーバ90は、認識対象画像505に対してOCR処理を施し、行領域401〜407に対する文字認識結果の末尾にそれぞれ区切りコードが付加されたテキストデータ551(図9)を認識対象画像505に対するOCR処理結果として生成する(ステップS17)。
なお、ステップS14およびS17以外の処理は、上記第1実施形態と同様にして行われる。
このような態様によれば、上記第1実施形態と同様の効果を得ることが可能である。
<6.第6実施形態>
第6実施形態は、第1実施形態の変形例である。以下では、第1実施形態との相違点を中心に説明する。
この第6実施形態では、クラウドサーバ90は、OCR処理の処理対象画像内の各行領域の文字サイズに基づいて各行領域を単位認識領域として判定(認識)するものとする。具体的には、クラウドサーバ90は、処理対象画像内の或る行領域(全体)の文字サイズが次の行領域(全体)の文字サイズとは異なる(詳細には、所定ポイント以上異なる)場合に、処理対象画像内の当該或る行領域までの1又は2以上の行領域と次の行領域以降の1又は2以上の行領域とをそれぞれ単位認識領域として判定する。そして、クラウドサーバ90は、各単位認識領域に対する文字認識結果の末尾に区切りコードをそれぞれ付加したテキストデータ550を生成する。このような判定基準に基づき、クラウドサーバ90は処理対象画像内の文字領域を複数の単位認識領域に区分する。
また、第6実施形態では、外部端末50は、各行領域400の文字サイズを、各行領域400にそれぞれ隣接する隣接行領域の文字サイズとは異なる文字サイズに設定する処理を、「画像加工処理」として実行する態様を例示する。外部端末50は、このような「画像加工処理」を施すことによって、当該複数の行領域400が互いに異なる単位認識領域であると(意図的に)クラウドサーバ90に判定させ、所望の処理結果(各行領域400に対する文字認識結果の末尾に区切コードがそれぞれ付加されたテキストデータ550)をクラウドサーバ90から取得する。
第6実施形態においても、第1実施形態と同様に図4の各処理がそれぞれ行われる。
ただし、第6実施形態の画像加工処理(ステップS14)の処理内容が第1実施形態の画像加工処理(ステップS14)の処理内容とは異なる。
具体的には、外部端末50(画像生成部66)は、スキャン画像201内の行領域401〜407の文字サイズを、行領域401〜407にそれぞれ隣接する行領域(隣接行領域)の文字サイズとは異なる文字サイズに設定する処理を「画像加工処理」としてスキャン画像201に対して施し(ステップS14)、認識対象画像500(506)を生成する(ステップS15)。
たとえば、画像生成部66は、図16に示すように、奇数行目の行領域401,403,405および407の文字サイズを比較的大きな文字サイズ(たとえば32ポイント)に設定する。また、画像生成部66は、偶数行目の行領域402,404および406の文字サイズを当該401,403,405および407よりも比較的小さな文字サイズ(たとえば16ポイント)に設定する。このように、画像生成部66は、隣接し合う行領域の文字サイズを互いに異なる文字サイズに設定した認識対象画像506を生成する。
また、第6実施形態のステップS17の詳細内容が第1実施形態のステップS17の詳細内容とは異なる。
具体的には、クラウドサーバ90は、外部端末50から受信した認識対象画像506内の行領域401〜407の文字サイズを認識し、当該行領域401〜407の文字サイズが各隣接行領域の文字サイズとは異なることに基づいて、認識対象画像506内の行領域401〜407のそれぞれを互いに異なる単位認識領域として判定する。そして、クラウドサーバ90は、認識対象画像506に対してOCR処理を施し、行領域401〜407に対する文字認識結果の末尾にそれぞれ区切りコードが付加されたテキストデータ551(図9)を認識対象画像506に対するOCR処理結果として生成する(ステップS17)。
なお、ステップS14およびS17以外の処理は、上記第1実施形態と同様にして行われる。
このような態様によれば、上記第1実施形態と同様の効果を得ることが可能である。
<7.第7実施形態>
上記各実施形態では、クラウドサーバ90によって単位認識領域の判定に用いられる判定手法(たとえば、行領域間の離間間隔に基づいて単位認識領域を判定する手法)が外部端末50のプログラムの設計者等に知られていることを前提として、スキャン画像200に対して当該判定手法に応じた画像加工処理が施される態様を例示した。
この第7実施形態では、当該判定手法が、外部端末50のプログラムの設計者等に知られていない場合(謂わば外部端末50が当該判定手法を知得していない場合)に、クラウドサーバ90に問い合わせることによって当該判定手法を知得し、クラウドサーバ90から知得した判定手法に応じた画像加工処理をスキャン画像200に対して施す態様を例示する。
図17は、第7実施形態に係る電子文書生成システム1における動作例を示すタイミングチャートである。図17に示すように、図4のステップS11〜ステップS19の各処理と同様の処理に加えて、ステップS13とS14との間にステップS21およびS22の処理が行われる。
具体的には、外部端末50は、ステップS11〜S13の処理の後において、クラウドサーバ90によって単位認識領域の判定に用いられる判定手法を、認識対象画像500の生成に先立ってクラウドサーバ90に問い合わせる(ステップS21)。
クラウドサーバ90は、外部端末50からの当該問合せに応答して、当該判定手法に関する情報を外部端末50に送信する(ステップS22)。たとえば、クラウドサーバ90において単位認識領域の判定に用いられる判定手法(単位認識領域の判定基準)が、区切線に基づき単位認識領域を判定する手法(第2実施形態参照)である場合には、クラウドサーバ90は、その旨を外部端末50に送信する。
外部端末50は、当該判定手法に関する情報をクラウドサーバ90から受信すると、当該判定手法に応じた画像加工処理をスキャン画像200に対して施して(ステップS14)、認識対象画像500を生成する(ステップS15)。
たとえば、外部端末50(文書生成部67)は、クラウドサーバ90において区切線に基づいて単位認識領域が判定される旨を知得すると、スキャン画像200内の複数の行領域400の相互間の行間領域に区切線Lをそれぞれ付加する処理を画像加工処理として施し(ステップS14)、認識対象画像500を生成する(ステップS15)(図12も参照)。
なお、ステップS16以降の処理は上記各実施形態と同様にして行われる。
このような態様によれば、外部端末50は、クラウドサーバ90によって単位認識領域の判定に用いられる判定手法を知得していない場合であっても、クラウドサーバ90に問い合わせることによって当該判定手法を知得することができるので、当該判定手法に応じた適切な画像加工処理をスキャン画像200に対して施すことが可能である。
また、たとえば複数のクラウドサーバ90が存在し且つ各クラウドサーバ90がそれぞれ異なる判定手法を採用している場合であっても、外部端末50は、各クラウドサーバ90によって採用されている判定手法を問い合わせることによってそれぞれの判定手法を知得することができる。そのため、各クラウドサーバ90の各判定手法に応じた適切な画像加工処理をスキャン画像200に対して施すことが可能である。
<8.第8実施形態>
第7実施形態では、外部端末50が、クラウドサーバ90によって単位認識領域の判定に用いられる判定手法を知得していない場合に、クラウドサーバ90に問い合わせることによって当該判定手法を知得し、当該判定手法に応じた画像加工処理を施す態様を例示した。
この第8実施形態では、外部端末50が当該判定手法を知得していない場合に、互いに異なる複数の画像加工処理がそれぞれ施された複数のテスト画像が生成され、当該テスト画像に対してそれぞれOCR処理がクラウドサーバ90において実行される。そして、各OCR処理結果に基づき当該判定手法が特定(推定)され、特定された判定手法に応じた画像加工処理(最適加工処理)が施される。
図18は、第8実施形態に係る電子文書生成システム1における動作例を示すタイミングチャートである。図18に示すように、図4のステップS11〜ステップS19の各処理と同様の処理に加えて、ステップS13とS14(S14A)との間にステップS31〜S34の処理がそれぞれ行われる。
具体的には、ステップS11〜S13の処理の後において、抽出部64は、行領域401〜407のうち一部(2以上)の行領域(ここでは3つの行領域401〜403を含む部分251)をスキャン画像201から抽出する(図19参照)。より詳細には、行領域401〜407のうち3つの行領域401〜403が抽出部64により抽出されて部分画像(部分251に基づく画像)が画像生成部66により生成される。また、当該部分251の抽出に際して、画像生成部66は、部分251(一部の行領域401〜403)内の行領域の個数(行領域数)を検出する。
そして、画像生成部66は、当該部分(部分画像)251に関して互いに異なる複数(ここでは3つ)の画像加工処理(701〜703等)をそれぞれ施して互いに異なる複数のテスト画像(531〜533等)を生成する(ステップS31)。具体的には、画像生成部66は、部分251(行領域401〜403)に関して画像加工処理701(行領域の相互間の離間間隔を最大高さH以上の大きさH10(行領域401の高さH1以上の大きさH11(=H1+ΔH))にそれぞれ設定する処理)を施してテスト画像531(図20)を生成する。また、画像生成部66は、部分251に関して画像加工処理702(行領域の相互間の行間領域に区切線L(L1,L2)をそれぞれ付加する処理)を施してテスト画像532(図21)を生成する。さらに、画像生成部66は、部分251に関して画像加工処理703(各行領域の末尾に末尾識別画像430(431,432)をそれぞれ付加する処理)を施してテスト画像533(図22)を生成する。そして、送信部54aは、当該複数のテスト画像531〜533をクラウドサーバ90に送信する(ステップS31)。
クラウドサーバ90は、当該複数のテスト画像531〜533を外部端末50から受信すると、各テスト画像531〜533に対してそれぞれOCR処理を実行し、複数のテスト結果(OCR処理結果(テキストデータ))570(571〜573)(図23)を生成する(ステップS32)。そして、クラウドサーバ90は、当該複数のテスト結果571〜573を外部端末50に送信する(ステップS33)。
外部端末50は、当該複数のテスト結果571〜573をクラウドサーバ90から受信すると、最適加工処理(次述)を決定する(ステップS34)。
具体的には、外部端末50(画像生成部66)は、テスト結果571〜573のそれぞれに含まれる区切りコード(改行コード)に基づいて、当該テスト結果571〜573のそれぞれに含まれる文字列データ(文字認識結果)の個数(文字列データ数)を検出する。図23に示すように、画像加工処理701が施されたテスト画像531に対するテスト結果(OCR処理結果)571に含まれる区切りコードの個数は「3」であり、文字列データ数(文字列データ461〜463の個数)は「3」である。また、画像加工処理702が施されたテスト画像532に対するテスト結果572に含まれる区切りコードの個数は「1」であり、文字列データ数(文字列データ471の個数)は「1」である。さらに、画像加工処理703が施されたテスト画像533に対するテスト結果573に含まれる区切りコードの個数は「1」であり、文字列データ数(文字列データ481の個数)は「1」である。
そして、画像生成部66は、複数のテスト結果571〜573のそれぞれについてその文字列データ数と一部の行領域(部分251(行領域401〜403))の個数(行領域数)との差(個数差)を求める。当該個数差が複数のテスト結果571〜573のそれぞれについて求められると、画像生成部66は、複数のテスト結果571〜573のうち、当該個数差が最も小さいテスト結果を最良テスト結果として求める。ここでは、各テスト画像531〜533のそれぞれに含まれる一部の行領域(部分251に含まれる行領域401〜403)の行領域数は「3」であり、テスト結果571〜573のうち、その文字列データ数(換言すれば区切りコードの個数)と当該行領域数「3」との差(個数差)が最も小さいテスト結果は、テスト結果571である。当該テスト結果571が最良テスト結果として決定される。
最良テスト結果が求められると、画像生成部66は、複数の画像加工処理701〜703のうち、当該最良テスト結果571に対応する画像加工処理(ここでは画像加工処理701)を「最適加工処理」として決定する(図23参照)。
このように、クラウドサーバ90によって単位認識領域の判定に用いられる判定手法を外部端末50が知得していない場合には、互いに異なる複数の画像加工処理701〜703がそれぞれ施された互いに異なる複数のテスト画像531〜533が生成される。そして、当該テスト画像531〜533に対する複数のOCR処理結果(テスト結果)571〜573に基づいて、最適加工処理が決定される。換言すれば、外部端末50は、互いに異なる複数の画像加工処理がそれぞれ施された互いに異なる複数のテスト画像531〜533に対するOCR処理をクラウドサーバ90に行わせることによって、クラウドサーバ90において単位認識領域の判定に採用されている判定手法を特定(推定)する。
最適加工処理が決定される(ステップS44)と、抽出部64は、スキャン画像201内の行領域401〜407のうち行領域401〜403を除く残余の行領域404〜407(部分252)(図19)をスキャン画像201から抽出する。より詳細には、行領域401〜407のうち当該残余の行領域404〜407が抽出部64により抽出されて部分画像(部分252に基づく画像)が画像生成部66により生成される。そして、画像生成部66は、当該部分(部分画像)252に関して最適加工処理(画像加工処理701)を施して(ステップS14A)、認識対象画像541(図24)を生成する(ステップS15)。認識対象画像541においては、当該最適加工処理によって、行領域404〜407の相互間の離間間隔が、行領域404〜407のうち最も高い行領域の高さ(ここでは行領域404の高さH4)以上の大きさH14(=H4+ΔH)にそれぞれ設定されて、各行領域404〜407が配置される。
そして、当該認識対象画像541は外部端末50からクラウドサーバ90へと送信され(ステップS16)、クラウドサーバ90においてOCR処理が実行されてテキストデータ581(残余の行領域404〜407に関するテキストデータ)(図25)が生成される(ステップS17)。
当該テキストデータ581がクラウドサーバ90から受信される(ステップS18)と、外部端末50(文書生成部67)は、最良テスト結果571(図23)に含まれる区切りコードとテキストデータ581(図25)に含まれる区切りコードとに基づき、当該最良テスト結果571とテキストデータ581とで構成されるデータを複数の文字列データに区分する。
具体的には、文書生成部67は、最良テスト結果571(行領域401〜403に関するOCR処理結果)を3つの区切りコードに基づき3つの文字列データ461〜463(図23)に区分する。また、文書生成部67は、テキストデータ581(行領域404〜407に関するOCR処理結果)を4つの区切りコードに基づき4つの文字列データ454〜457(図25)に区分する。
そして、文書生成部67は、各行領域401〜407と各文字列データ461〜463および454〜457との対応関係を決定し、各文字列データ461〜463および454〜457に対応する各行領域401〜407に当該各文字列データ461〜463および454〜457をそれぞれ配置して電子文書600(601)を生成する。
このような態様によれば、外部端末50は、クラウドサーバ90によって単位認識領域の判定に用いられる判定手法を知得していない場合であっても、互いに異なる複数の画像加工処理がそれぞれ施された互いに異なる複数のテスト画像を用いて当該判定手法を特定することができるので、特定された判定手法に応じた(適切な)画像加工処理をスキャン画像200に対して施すことが可能である。
なお、第8実施形態では、スキャン画像201から部分251(行領域401〜403)が抽出され、当該部分251に関して互いに異なる複数の画像加工処理がそれぞれ施される態様を例示したが、これに限定されない。
たとえば、スキャン画像200(201)とは別のサンプル画像(2以上の行領域で構成される画像)に対して互いに異なる複数の画像加工処理がそれぞれ施されるようにしてもよい。
具体的には、外部端末50(画像生成部66)は、格納部55からサンプル画像を抽出し、当該サンプル画像に対して互いに異なる複数の画像加工処理をそれぞれ施して互いに異なる複数のテスト画像530を生成する(ステップS31)。また、当該サンプル画像の抽出に際して、画像生成部66は、サンプル画像内の行領域の個数(行領域数)を検出する。そして、外部端末50は、当該複数のテスト画像530をクラウドサーバ90に送信する(ステップS31)。
クラウドサーバ90は、外部端末50から受信した各テスト画像530に対してOCR処理をそれぞれ実行して複数のテスト結果(OCR処理結果)570(図23)を生成する(ステップS32)。そして、クラウドサーバ90は、当該複数のテスト結果570を外部端末50に送信する(ステップS33)。
外部端末50は、当該複数のテスト結果570をクラウドサーバ90から受信すると、次述のようにして最適加工処理を決定する(ステップS34)。
具体的には、外部端末50(画像生成部66)は、複数のテスト結果570のそれぞれに含まれる区切りコードに基づいて、当該複数のテスト結果のそれぞれに含まれる文字列データの個数(文字列データ数)を検出する。そして、画像生成部66は、複数のテスト結果570のそれぞれについてその文字列データ数とサンプル画像に含まれる行領域の個数(行領域数)との差(個数差)を求める。当該個数差が複数のテスト結果570のそれぞれについて求められると、画像生成部66は、複数のテスト結果570のうち、当該個数差が最も小さいテスト結果を最良テスト結果として求め、複数の画像加工処理のうち、当該最良テスト結果に対応する画像加工処理を「最適加工処理」として決定する。
最適加工処理が決定されると、画像生成部66は、スキャン画像201に対して当該最適加工処理を施して(ステップS14A)、認識対象画像500を生成する(ステップS15)。
また、ステップS16以降の処理は上記第1〜第7実施形態と同様にして行われる。
なお、ここでは上記互いに異なる複数のテスト画像530は、サンプル画像に基づき画像生成部66によって生成される態様を例示したが、当該複数のテスト画像530は、外部端末50によって予め生成されて格納されていてもよい。また、当該複数のテスト画像530内の行領域数が予め検出されていてもよい。
<9.変形例等>
以上、この発明の実施の形態について説明したが、この発明は上記内容のものに限定されるものではない。
たとえば、上記各実施形態では、スキャン画像201全体に対して画像加工処理が施されて一の認識対象画像500が生成される態様を例示したが、これに限定されない。具体的には、スキャン画像201内の行領域401〜407が複数の部分(たとえば2つの部分(行領域401〜403および行領域404〜407))に区分され、当該複数の部分のそれぞれに関して画像加工処理以降の処理(ステップS14〜S19)が実行されるようにしてもよい。
また、上記各実施形態においては、単一の画像加工処理がスキャン画像200(201)に対して施されて認識対象画像500が生成される態様を例示したが、これに限定されず、複数の画像加工処理が施された認識対象画像500が生成されるようにしてもよい。
たとえば、外部端末50(画像生成部66)は、スキャン画像201に対して複数(ここでは2つ)の画像加工処理を施して認識対象画像500(511)を生成する。具体的には、画像生成部66は、スキャン画像201内の複数の行領域401〜407の相互間の離間間隔を当該複数の行領域401〜407のうち最も高い行領域の高さ(行領域401の高さH1)以上の大きさH11(=H1+ΔH)にそれぞれ設定する処理を1つ目の画像加工処理(第1実施形態参照)として実行する。そして、画像生成部66は、当該複数の行領域401〜407の相互間の行間領域に区切線L(L1〜L6)をそれぞれ付加する処理を2つ目の画像加工処理(第2実施形態参照)として実行する。画像生成部66は、このような2つの画像加工処理をスキャン画像200に対して施して認識対象画像511(図26参照)を生成する。
この変形例に係る態様は、クラウドサーバ90における単位認識領域の判定手法が不明である(特定されていない)場合に特に有用である。
クラウドサーバ90における単位認識領域の判定手法が特定されていない場合であっても、スキャン画像200に対して施された複数の画像加工処理のうちのいずれかが、当該判定手法に応じた画像加工処理であれば、認識対象画像500内の各行領域401〜407が互いに異なる単位認識領域としてクラウドサーバ90により判定される。複数の画像加工処理が施されることによれば、単一の画像加工処理が施される場合よりも、認識対象画像500内の各行領域401〜407が互いに異なる単位認識領域としてクラウドサーバ90により判定される可能性が高くなる。
また、上記各実施形態等においては、電子文書生成装置として外部端末50を例示したが、これに限定されない。たとえば、MFP10が電子文書生成装置として各種の処理(たとえば図4のステップS11〜S16およびS19の処理等)を行うようにしてもよい。すなわち、外部端末50を用いずに、MFP10において画像加工処理等が行われるとともにMFP10とクラウドサーバ90との間で各種データの送受信動作等が行われ、MFP10によって電子文書600が生成されるようにしてもよい。
また、上記各実施形態等においては、各行領域が横書きの文字列(横方向に伸びる1行の文字列)で構成される態様を主に説明したが、これに限定されず、各行領域が縦書きの文字列(縦方向に伸びる1行(1列)の文字列)で構成される場合にも上記思想を適用することが可能である。
1 画像形成システム(電子文書生成システム)
10 MFP(画像形成装置)
50 外部端末
90 クラウドサーバ
200,201 スキャン画像
400〜407 行領域
430〜436 末尾識別画像
451〜457 文字列データ
500〜506,511,541 認識対象画像
530〜533 テスト画像
570〜573 テスト結果
550,551,581 テキストデータ
600,601 電子文書

Claims (25)

  1. 光学文字認識処理の処理対象画像内の文字領域を、1行の行領域よりも大きな領域をそれぞれ含み得る複数の単位認識領域に区分するとともに当該複数の単位認識領域のそれぞれに対して前記光学文字認識処理を実行するクラウドサーバであって、前記複数の単位認識領域のそれぞれに対する文字認識結果を含むとともに各単位認識領域に対する文字認識結果の末尾にそれぞれ区切りコードを付加したテキストデータを、前記処理対象画像に対する前記光学文字認識処理の処理結果として生成するクラウドサーバ、と連携して電子文書を生成する電子文書生成装置であって、
    原稿のスキャン画像の文字領域から複数の行領域をそれぞれ抽出する抽出手段と、
    前記複数の行領域のそれぞれが単位認識領域として前記クラウドサーバにより判定されるように、前記スキャン画像に対して画像加工処理を施して認識対象画像を生成する画像生成手段と、
    前記認識対象画像を前記光学文字認識処理の前記処理対象画像として前記クラウドサーバに送信する送信手段と、
    前記認識対象画像に対する前記光学文字認識処理の処理結果である前記テキストデータを前記クラウドサーバから受信する受信手段と、
    前記テキストデータに含まれる前記区切りコードに基づき前記テキストデータを複数の文字列データに区分するとともに前記複数の行領域と前記複数の文字列データとの対応関係を決定し、各文字列データに対応する各行領域に当該各文字列データをそれぞれ配置して前記電子文書を生成する文書生成手段と、
    を備えることを特徴とする電子文書生成装置。
  2. 請求項1に記載の電子文書生成装置であって、
    前記複数の行領域の前記スキャン画像内における位置をそれぞれ検出する検出手段、
    をさらに備え、
    前記文書生成手段は、前記各文字列データに対応する前記各行領域の検出位置に前記各文字列データをそれぞれ配置して前記電子文書を生成することを特徴とする電子文書生成装置。
  3. 請求項1または請求項2に記載の電子文書生成装置において、
    前記画像加工処理は、前記複数の行領域のそれぞれの高さを検出し、前記複数の行領域の相互間の離間間隔を前記複数の行領域のうち最も高い行領域の高さ以上の大きさにそれぞれ設定する処理を含むことを特徴とする電子文書生成装置。
  4. 請求項1または請求項2に記載の電子文書生成装置において、
    前記画像加工処理は、前記複数の行領域のそれぞれの高さを検出し、前記複数の行領域のうち最終行以外の各行領域と当該各行領域のそれぞれの次の行領域との相互間の離間間隔を、前記各行領域のそれぞれの高さ以上の大きさにそれぞれ設定する処理を含むことを特徴とする電子文書生成装置。
  5. 請求項1または請求項2に記載の電子文書生成装置において、
    前記画像加工処理は、前記複数の行領域の相互間の行間領域に区切線をそれぞれ付加する処理を含むことを特徴とする電子文書生成装置。
  6. 請求項1または請求項2に記載の電子文書生成装置において、
    前記画像加工処理は、前記複数の行領域のうち少なくとも最終行以外の各行領域のそれぞれの末尾に、前記単位認識領域の末尾であることを示す末尾識別画像を付加する処理を含むことを特徴とする電子文書生成装置。
  7. 請求項1または請求項2に記載の電子文書生成装置において、
    前記画像加工処理は、各行領域の文字色を、前記各行領域にそれぞれ隣接する隣接行領域の文字色とは異なる文字色に設定する処理を含むことを特徴とする電子文書生成装置。
  8. 請求項1または請求項2に記載の電子文書生成装置において、
    前記画像加工処理は、各行領域の行頭位置を、前記各行領域にそれぞれ隣接する隣接行領域の行頭位置とは異なる位置に設定する処理を含むことを特徴とする電子文書生成装置。
  9. 請求項1または請求項2に記載の電子文書生成装置において、
    前記画像加工処理は、各行領域の文字サイズを、前記各行領域にそれぞれ隣接する隣接行領域の文字サイズとは異なる文字サイズに設定する処理を含むことを特徴とする電子文書生成装置。
  10. 請求項1または請求項2に記載の電子文書生成装置において、
    前記送信手段は、前記クラウドサーバによって前記単位認識領域の判定に用いられる判定手法を、前記認識対象画像の生成に先立って前記クラウドサーバに問い合わせ、
    前記受信手段は、前記判定手法に関する情報を前記クラウドサーバから受信し、
    前記画像生成手段は、前記判定手法に応じた画像加工処理を前記スキャン画像に対して施して前記認識対象画像を生成することを特徴とする電子文書生成装置。
  11. 請求項1または請求項2に記載の電子文書生成装置において、
    前記画像生成手段は、互いに異なる複数の画像加工処理がそれぞれ施された互いに異なる複数のテスト画像であって前記複数の行領域のうち一部の行領域をそれぞれ含む複数のテスト画像を生成し、
    前記送信手段は、前記複数のテスト画像を前記クラウドサーバに送信し、
    前記受信手段は、前記複数のテスト画像に対してそれぞれ実行された前記光学文字認識処理の処理結果である複数のテスト結果を前記クラウドサーバから受信し、
    前記画像生成手段は、
    前記複数のテスト結果のそれぞれに含まれる区切りコードに基づいて、前記複数のテスト結果のそれぞれに含まれる文字列データの個数である文字列データ数を検出し、
    前記複数のテスト結果のそれぞれについてその文字列データ数と前記一部の行領域の個数との差である個数差を求めるとともに、前記複数のテスト結果のうち、前記個数差が最も小さいテスト結果を最良テスト結果として求め、前記複数の画像加工処理のうち、前記最良テスト結果に対応する画像加工処理を最適加工処理として決定し、
    前記複数の行領域のうち前記一部の行領域を除く残余の行領域に関して前記最適加工処理を施して前記認識対象画像を生成し、
    前記文書生成手段は、前記最良テスト結果に含まれる区切りコードと前記テキストデータに含まれる区切りコードとに基づき、前記最良テスト結果と前記テキストデータとで構成されるデータを複数の文字列データに区分するとともに、前記複数の行領域と前記複数の文字列データとの対応関係を決定し、各文字列データに対応する各行領域に当該各文字列データをそれぞれ配置して前記電子文書を生成することを特徴とする電子文書生成装置。
  12. 請求項1または請求項2に記載の電子文書生成装置において、
    前記送信手段は、サンプル画像に対して互いに異なる複数の画像加工処理をそれぞれ施して生成された複数のテスト画像を前記クラウドサーバに送信し、
    前記受信手段は、前記複数のテスト画像に対してそれぞれ実行された前記光学文字認識処理の処理結果である複数のテスト結果を前記クラウドサーバから受信し、
    前記画像生成手段は、
    前記複数のテスト結果のそれぞれに含まれる区切りコードに基づいて、前記複数のテスト結果のそれぞれに含まれる文字列データの個数である文字列データ数を検出し、
    前記複数のテスト結果のそれぞれについてその文字列データ数と前記サンプル画像に含まれる行領域の個数との差である個数差を求めるとともに、前記複数のテスト結果のうち、前記個数差が最も小さいテスト結果を最良テスト結果として求め、前記複数の画像加工処理のうち、前記最良テスト結果に対応する画像加工処理を最適加工処理として決定し、
    前記スキャン画像に対して前記最適加工処理を施して前記認識対象画像を生成することを特徴とする電子文書生成装置。
  13. 光学文字認識処理の処理対象画像内の文字領域を、1行の行領域よりも大きな領域をそれぞれ含み得る複数の単位認識領域に区分するとともに当該複数の単位認識領域のそれぞれに対して前記光学文字認識処理を実行するクラウドサーバであって、前記複数の単位認識領域のそれぞれに対する文字認識結果を含むとともに各単位認識領域に対する文字認識結果の末尾にそれぞれ区切りコードを付加したテキストデータを、前記処理対象画像に対する前記光学文字認識処理の処理結果として生成するクラウドサーバ、と連携して電子文書を生成する電子文書生成装置に内蔵されたコンピュータに、
    a)原稿のスキャン画像の文字領域から複数の行領域をそれぞれ抽出するステップと、
    b)前記複数の行領域のそれぞれが単位認識領域として前記クラウドサーバにより判定されるように、前記スキャン画像に対して画像加工処理を施して認識対象画像を生成するステップと、
    c)前記認識対象画像を前記光学文字認識処理の前記処理対象画像として前記クラウドサーバに送信するステップと、
    d)前記認識対象画像に対する前記光学文字認識処理の処理結果である前記テキストデータを前記クラウドサーバから受信するステップと、
    e)前記テキストデータに含まれる前記区切りコードに基づき前記テキストデータを複数の文字列データに区分するとともに前記複数の行領域と前記複数の文字列データとの対応関係を決定するステップと、
    f)各文字列データに対応する各行領域に当該各文字列データをそれぞれ配置して前記電子文書を生成するステップと、
    を実行させるためのプログラム。
  14. 請求項13に記載のプログラムにおいて、
    前記コンピュータに、
    g)前記複数の行領域の前記スキャン画像内における位置をそれぞれ検出するステップ、
    をさらに実行させ、
    前記ステップf)においては、前記ステップg)での検出位置に基づき、前記各文字列データに対応する前記各行領域の検出位置に前記各文字列データがそれぞれ配置されて、前記電子文書が生成されることを特徴とするプログラム。
  15. 請求項13または請求項14に記載のプログラムにおいて、
    前記画像加工処理は、前記複数の行領域のそれぞれの高さを検出し、前記複数の行領域の相互間の離間間隔を前記複数の行領域のうち最も高い行領域の高さ以上の大きさにそれぞれ設定する処理を含むことを特徴とするプログラム。
  16. 請求項13または請求項14に記載のプログラムにおいて、
    前記画像加工処理は、前記複数の行領域のそれぞれの高さを検出し、前記複数の行領域のうち最終行以外の各行領域と当該各行領域のそれぞれの次の行領域との相互間の離間間隔を、前記各行領域のそれぞれの高さ以上の大きさにそれぞれ設定する処理を含むことを特徴とするプログラム。
  17. 請求項13または請求項14に記載のプログラムにおいて、
    前記画像加工処理は、前記複数の行領域の相互間の行間領域に区切線をそれぞれ付加する処理を含むことを特徴とするプログラム。
  18. 請求項13または請求項14に記載のプログラムにおいて、
    前記画像加工処理は、前記複数の行領域のうち少なくとも最終行以外の各行領域のそれぞれの末尾に、前記単位認識領域の末尾であることを示す末尾識別画像を付加する処理を含むことを特徴とするプログラム。
  19. 請求項13または請求項14に記載のプログラムにおいて、
    前記画像加工処理は、各行領域の文字色を、前記各行領域にそれぞれ隣接する隣接行領域の文字色とは異なる文字色に設定する処理を含むことを特徴とするプログラム。
  20. 請求項13または請求項14に記載のプログラムにおいて、
    前記画像加工処理は、各行領域の行頭位置を、前記各行領域にそれぞれ隣接する隣接行領域の行頭位置とは異なる位置に設定する処理を含むことを特徴とするプログラム。
  21. 請求項13または請求項14に記載のプログラムにおいて、
    前記画像加工処理は、各行領域の文字サイズを、前記各行領域にそれぞれ隣接する隣接行領域の文字サイズとは異なる文字サイズに設定する処理を含むことを特徴とするプログラム。
  22. 請求項13または請求項14に記載のプログラムにおいて、
    前記コンピュータに、
    h)前記クラウドサーバによって前記単位認識領域の判定に用いられる判定手法を、前記ステップb)に先立って前記クラウドサーバに問い合わせるステップと、
    i)前記判定手法に関する情報を前記クラウドサーバから受信するステップと、
    をさらに実行させ、
    前記ステップb)においては、前記判定手法に応じた画像加工処理が前記スキャン画像に対して施されて前記認識対象画像が生成されることを特徴とするプログラム。
  23. 請求項13または請求項14に記載のプログラムにおいて、
    前記コンピュータに、
    h)前記ステップb)に先立って、互いに異なる複数の画像加工処理がそれぞれ施された互いに異なる複数のテスト画像であって前記複数の行領域のうち一部の行領域をそれぞれ含む複数のテスト画像を生成するステップと、
    i)前記複数のテスト画像を前記クラウドサーバに送信するステップと、
    j)前記複数のテスト画像に対してそれぞれ実行された前記光学文字認識処理の処理結果である複数のテスト結果を前記クラウドサーバから受信するステップと、
    k)前記クラウドサーバから受信した前記複数のテスト結果のそれぞれに含まれる区切りコードに基づいて、前記複数のテスト結果のそれぞれに含まれる文字列データの個数である文字列データ数を検出するステップと、
    l)前記複数のテスト結果のそれぞれについてその文字列データ数と前記一部の行領域の個数との差である個数差を求めるとともに、前記複数のテスト結果のうち、前記個数差が最も小さいテスト結果を最良テスト結果として求め、前記複数の画像加工処理のうち、前記最良テスト結果に対応する画像加工処理を最適加工処理として決定するステップと、
    をさらに実行させ、
    前記ステップb)においては、前記複数の行領域のうち前記一部の行領域を除く残余の行領域に関して前記最適加工処理が施されて前記認識対象画像が生成され、
    前記ステップe)においては、前記最良テスト結果に含まれる区切りコードと前記テキストデータに含まれる区切りコードとに基づき、前記最良テスト結果と前記テキストデータとで構成されるデータが複数の文字列データに区分されるとともに、前記複数の行領域と前記複数の文字列データとの対応関係が決定されることを特徴とするプログラム。
  24. 請求項13または請求項14に記載のプログラムにおいて、
    前記コンピュータに、
    h)前記ステップb)に先立って、サンプル画像に対して互いに異なる複数の画像加工処理をそれぞれ施して生成された複数のテスト画像を前記クラウドサーバに送信するステップと、
    i)前記複数のテスト画像に対してそれぞれ実行された前記光学文字認識処理の処理結果である複数のテスト結果を前記クラウドサーバから受信するステップと、
    j)前記クラウドサーバから受信した前記複数のテスト結果のそれぞれに含まれる区切りコードに基づいて、前記複数のテスト結果のそれぞれに含まれる文字列データの個数である文字列データ数を検出するステップと、
    k)前記複数のテスト結果のそれぞれについてその文字列データ数と前記サンプル画像に含まれる行領域の個数との差である個数差を求めるとともに、前記複数のテスト結果のうち、前記個数差が最も小さいテスト結果を最良テスト結果として求め、前記複数の画像加工処理のうち、前記最良テスト結果に対応する画像加工処理を最適加工処理として決定するステップと、
    をさらに実行させ、
    前記ステップb)においては、前記スキャン画像に対して前記最適加工処理が施されて前記認識対象画像が生成されることを特徴とするプログラム。
  25. 電子文書生成システムであって、
    原稿のスキャン画像を生成する画像形成装置と、
    クラウドサーバと連携し、前記スキャン画像に基づく電子文書を生成する電子文書生成装置と、
    を備え、
    前記クラウドサーバは、
    光学文字認識処理の処理対象画像内の文字領域を、1行の行領域よりも大きな領域をそれぞれ含み得る複数の単位認識領域に区分するとともに当該複数の単位認識領域のそれぞれに対して前記光学文字認識処理を実行し、
    前記複数の単位認識領域のそれぞれに対する文字認識結果を含むとともに各単位認識領域に対する文字認識結果の末尾にそれぞれ区切りコードを付加したテキストデータを、前記処理対象画像に対する前記光学文字認識処理の処理結果として生成し、
    前記画像形成装置は、
    前記スキャン画像を前記電子文書生成装置に送信する通信手段、
    を有し、
    前記電子文書生成装置は、
    前記画像形成装置から受信した前記スキャン画像の文字領域から複数の行領域をそれぞれ抽出する抽出手段と、
    前記複数の行領域のそれぞれが単位認識領域として前記クラウドサーバにより判定されるように、前記スキャン画像に対して画像加工処理を施して認識対象画像を生成する画像生成手段と、
    前記認識対象画像を前記光学文字認識処理の前記処理対象画像として前記クラウドサーバに送信する送信手段と、
    前記認識対象画像に対する前記光学文字認識処理の処理結果である前記テキストデータを前記クラウドサーバから受信する受信手段と、
    前記テキストデータに含まれる前記区切りコードに基づき前記テキストデータを複数の文字列データに区分するとともに前記複数の行領域と前記複数の文字列データとの対応関係を決定し、各文字列データに対応する各行領域に当該各文字列データをそれぞれ配置して前記電子文書を生成する文書生成手段と、
    を有することを特徴とする電子文書生成システム。
JP2014182664A 2014-09-08 2014-09-08 電子文書生成装置、プログラムおよび電子文書生成システム Active JP6090269B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2014182664A JP6090269B2 (ja) 2014-09-08 2014-09-08 電子文書生成装置、プログラムおよび電子文書生成システム
CN201510562906.7A CN105407245B (zh) 2014-09-08 2015-09-07 电子文件生成装置及其控制方法、电子文件生成系统
US14/847,611 US9485368B2 (en) 2014-09-08 2015-09-08 Electronic document generation apparatus, recording medium, and electronic document generation system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014182664A JP6090269B2 (ja) 2014-09-08 2014-09-08 電子文書生成装置、プログラムおよび電子文書生成システム

Publications (2)

Publication Number Publication Date
JP2016057786A true JP2016057786A (ja) 2016-04-21
JP6090269B2 JP6090269B2 (ja) 2017-03-08

Family

ID=55438676

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014182664A Active JP6090269B2 (ja) 2014-09-08 2014-09-08 電子文書生成装置、プログラムおよび電子文書生成システム

Country Status (3)

Country Link
US (1) US9485368B2 (ja)
JP (1) JP6090269B2 (ja)
CN (1) CN105407245B (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9544466B2 (en) * 2014-10-09 2017-01-10 Xerox Corporation Security compliance checking of documents
CN104793813B (zh) * 2015-04-29 2017-12-08 京东方科技集团股份有限公司 一种显示基板、显示装置及遥控系统
JP6658078B2 (ja) * 2016-02-25 2020-03-04 ブラザー工業株式会社 画像処理装置、コンピュータプログラム、および、システム
CN106485246B (zh) * 2016-09-19 2019-07-16 北京小米移动软件有限公司 字符识别方法及装置
JP6891073B2 (ja) * 2017-08-22 2021-06-18 キヤノン株式会社 スキャン画像にファイル名等を設定するための装置、その制御方法及びプログラム
JP6992475B2 (ja) * 2017-12-14 2022-01-13 オムロン株式会社 情報処理装置、識別システム、設定方法及びプログラム
JP6983675B2 (ja) * 2018-01-23 2021-12-17 キヤノン株式会社 スキャン画像に関連する情報を設定するための装置、方法、プログラム、およびシステム
CN110321887B (zh) * 2018-03-30 2023-09-19 佳能株式会社 文档图像处理方法、文档图像处理装置及存储介质
US11017498B2 (en) 2019-03-14 2021-05-25 International Business Machines Corporation Ground truth generation from scanned documents
JP7558644B2 (ja) * 2019-03-29 2024-10-01 キヤノン株式会社 画像処理装置、その制御方法及びプログラム
JP7225017B2 (ja) * 2019-04-19 2023-02-20 キヤノン株式会社 タッチパネルを用いた文字入力のための画像処理装置、その制御方法及びプログラム
US20220301326A1 (en) * 2021-03-19 2022-09-22 Kyocera Document Solutions Inc. Ocr target area position acquisition system, computer-readable non-transitory recording medium storing ocr target area position acquisition program, hard copy, hard copy generation system, and computer-readable non-transitory recording medium storing hard copy generation program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981671A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 文字コード取得装置
JP2009098777A (ja) * 2007-10-15 2009-05-07 Fuji Xerox Co Ltd データ処理装置及びデータ処理プログラム
JP2013236234A (ja) * 2012-05-08 2013-11-21 Ricoh Co Ltd 画像処理装置、画像処理システム及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0612403A (ja) * 1992-06-25 1994-01-21 Ricoh Co Ltd 入力装置
JP4070693B2 (ja) * 2002-09-13 2008-04-02 株式会社リコー 画像形成装置およびスキャンデータ処理方法
US7391917B2 (en) * 2003-02-13 2008-06-24 Canon Kabushiki Kaisha Image processing method
JP2006012027A (ja) * 2004-06-29 2006-01-12 Seiko Epson Corp 光学読取装置、認識処理装置、文字読取方法及びプログラム、並びに磁気インク文字読取装置、及びpos端末装置
JP2009048293A (ja) 2007-08-15 2009-03-05 Fuji Xerox Co Ltd 情報処理システム、情報処理実行プログラム及び画像処理装置
CN101751567B (zh) * 2008-12-12 2012-10-17 汉王科技股份有限公司 快速文本识别方法
JP2012073749A (ja) * 2010-09-28 2012-04-12 Kyocera Mita Corp 画像形成装置及び画像形成プログラム
US8996351B2 (en) * 2011-08-24 2015-03-31 Ricoh Company, Ltd. Cloud-based translation service for multi-function peripheral

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0981671A (ja) * 1995-09-13 1997-03-28 Toshiba Corp 文字コード取得装置
JP2009098777A (ja) * 2007-10-15 2009-05-07 Fuji Xerox Co Ltd データ処理装置及びデータ処理プログラム
JP2013236234A (ja) * 2012-05-08 2013-11-21 Ricoh Co Ltd 画像処理装置、画像処理システム及びプログラム

Also Published As

Publication number Publication date
JP6090269B2 (ja) 2017-03-08
CN105407245B (zh) 2018-05-15
US9485368B2 (en) 2016-11-01
US20160072968A1 (en) 2016-03-10
CN105407245A (zh) 2016-03-16

Similar Documents

Publication Publication Date Title
JP6090269B2 (ja) 電子文書生成装置、プログラムおよび電子文書生成システム
JP6107756B2 (ja) 電子文書生成システム、電子文書生成装置およびプログラム
JP2016021086A (ja) 電子文書生成システム、電子文書生成装置およびプログラム
JP6066108B2 (ja) 電子文書生成システムおよびプログラム
JP2015043158A (ja) 画像処理装置、画像処理方法、およびプログラム
US20160277627A1 (en) Information processing apparatus and information processing system
JP2019159633A (ja) 画像処理装置、画像処理方法および画像処理プログラム
US8867050B2 (en) Image processing apparatus, non-transitory computer readable medium storing program and image processing method for restoring a single table from a plurality of pages
JP6249240B2 (ja) 画像処理装置
JP5983673B2 (ja) 電子文書生成システム、画像形成装置およびプログラム
JP2013041496A (ja) カラー二次元バーコード生成装置、カラー二次元バーコード読取装置、カラー二次元バーコード生成方法、カラー二次元バーコード読取方法、およびコンピュータープログラム
JP6879131B2 (ja) スキャンシステム、情報処理装置、及び、スキャナドライバ
JP6458351B2 (ja) 電子文書生成システム、画像形成装置、通信端末およびプログラム
US20150093031A1 (en) Image determining apparatus, image processing system, and recording medium
JP6418180B2 (ja) 画像送信装置
JP4710672B2 (ja) 文字色判別装置、文字色判別方法、およびコンピュータプログラム
JP2013074314A (ja) 画像処理方法、画像読取装置、および画像処理プログラム
JP2017103616A (ja) 画像形成装置およびプログラム
JP2016225701A (ja) 画像処理装置及び画像処理方法
JP6537021B2 (ja) 画像読取装置
CN105592244B (zh) 图像处理装置
JP2016091190A (ja) 電子文書生成装置、プログラムおよび電子文書生成システム
JP6413450B2 (ja) 画像処理装置、画像形成装置およびプログラム
JP6859903B2 (ja) スキャナドライバ、情報処理装置、及び、スキャンシステム
JP2007028181A (ja) 画像処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20161220

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170123

R150 Certificate of patent or registration of utility model

Ref document number: 6090269

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150