JP2016057786A

JP2016057786A - 電子文書生成装置、プログラムおよび電子文書生成システム

Info

Publication number: JP2016057786A
Application number: JP2014182664A
Authority: JP
Inventors: 哲平中村; Teppei Nakamura
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2014-09-08
Filing date: 2014-09-08
Publication date: 2016-04-21
Anticipated expiration: 2034-09-08
Also published as: JP6090269B2; CN105407245B; US9485368B2; US20160072968A1; CN105407245A

Abstract

【課題】スキャン画像内の適切な位置にＯＣＲ処理結果を配置した電子文書を生成することが可能な技術を提供する。
【解決手段】電子文書生成装置は、ＯＣＲ処理の処理対象画像内の各単位認識領域（１行よりも大きな領域をそれぞれ含み得る領域）に対する文字認識結果の末尾にそれぞれ区切りコードを付加したＯＣＲ処理結果を生成するクラウドサーバ、と連携して電子文書を生成する。電子文書生成装置は、スキャン画像内の各行領域がそれぞれ単位認識領域としてクラウドサーバにより判定されるように、画像加工処理（例えば各行領域の相互間の離間間隔を最大高さＨ１以上の大きさにそれぞれ設定する処理）を施して認識対象画像５００を生成する。電子文書生成装置は、認識対象画像５００をクラウドサーバに送信し、クラウドサーバからのＯＣＲ処理結果内の区切りコードに基づき各行領域に対する文字認識結果を当該各行領域にそれぞれ配置して電子文書を生成する。
【選択図】図８

Description

本発明は、電子文書を生成する電子文書生成装置およびそれに関連する技術に関する。

ＭＦＰ（マルチ・ファンクション・ペリフェラル（Multi-Functional Peripheral））などの画像形成装置において、原稿をスキャンして電子文書を作成する技術が存在する。

このような技術においては、原稿のスキャン画像をそのまま取り込んで電子文書を生成するものの他、テキストデータ付き電子文書（次述）を生成するものも存在する（特許文献１等参照）。具体的には、原稿のスキャン画像（特に文字を示す画像）に対して光学文字認識処理（以下、ＯＣＲ（Optical Character Recognition）処理とも称する）が施され、当該スキャン画像内の文字のテキストデータが自動認識され、当該テキストデータが非表示状態で当該スキャン画像に重畳して埋め込まれる。このようにして、たとえば、透明テキスト付きＰＤＦ（Portable Document Format）（あるいはサーチャブルＰＤＦ）ファイルなどと呼ばれる所定形式の電子文書（テキストデータ付き電子文書）が生成される。

また、汎用的なＯＣＲ処理サービスをクラウドサーバを用いて提供する技術も存在する。

特開２０１２−７３７４９号公報

ところで、上記技術を用いて以下のような動作を行うことが考えられる。たとえば、電子文書生成装置からクラウドサーバへとスキャン画像が送信され、スキャン画像全体に関するＯＣＲ処理がクラウドサーバで実行される。そして、その処理結果（テキストデータ）がクラウドサーバから電子文書生成装置へと返信され、電子文書生成装置は、クラウドサーバから受信したテキストデータを元のスキャン画像に埋め込んで、テキストデータ付き電子文書（サーチャブルＰＤＦ（透明テキスト付きＰＤＦ）ファイル等）を生成する。なお、汎用ＯＣＲ処理サービスを利用することによれば、電子文書生成装置とは別の装置でＯＣＲ処理を行うことができるので、当該電子文書生成装置の処理負荷を低減することが可能である。

ここにおいて、汎用ＯＣＲ処理サービスの中には、スキャン画像内の文字領域を所定単位の領域（１行の行領域よりも大きな領域を含み得る領域）（たとえば段落領域）で区分してＯＣＲ処理を実行し、当該所定単位の領域内の文字列の末尾に区切りコード（改行コード等）を付したテキストデータをＯＣＲ処理結果として生成するものが存在する。電子文書生成装置は、クラウドサーバからテキストデータを受信すると、テキストデータ内の区切りコードに基づき当該テキストデータ内の文字列を複数に区分して各文字列をスキャン画像内の当該所定単位の領域（段落領域等）にそれぞれ配置し、電子文書を生成する。

しかしながら、このような汎用ＯＣＲ処理サービスにおいては、通常、複数行の文字列を含む領域が一の段落領域等として認識され、当該複数行の文字列全体における末尾にのみ区切りコードが付されたテキストデータが生成される。換言すれば、段落を構成する複数行における各行（段落の最終行を除く）の文字認識結果の末尾には区切りコードが付されず、当該複数行の文字列に対する文字認識結果（ＯＣＲ処理結果）のそれぞれが連続した状態でテキストデータが出力される。そのため、電子文書生成装置は、スキャン画像内の各行の文字画像と各行の文字認識結果との対応関係を把握することができず、その結果、当該各行の文字認識結果が、スキャン画像内の適切な位置（各行の文字認識結果に対応する各行の文字画像の位置）に配置されない可能性がある。たとえば、１行目の文字認識結果と２行目の文字認識結果とが連続した状態でテキストデータが出力されると、当該２行目の文字認識結果は、スキャン画像内の１行目の文字画像の行末付近において、１行目の文字認識結果に続いた状態で（改行されずに）配置され、本来の位置（スキャン画像内の２行目の文字画像の位置）には配置されない。

そこで、本発明は、スキャン画像内の適切な位置にＯＣＲ処理結果を配置した電子文書を生成することが可能な技術を提供することを課題とする。

上記課題を解決すべく、請求項１の発明は、光学文字認識処理の処理対象画像内の文字領域を、１行の行領域よりも大きな領域をそれぞれ含み得る複数の単位認識領域に区分するとともに当該複数の単位認識領域のそれぞれに対して前記光学文字認識処理を実行するクラウドサーバであって、前記複数の単位認識領域のそれぞれに対する文字認識結果を含むとともに各単位認識領域に対する文字認識結果の末尾にそれぞれ区切りコードを付加したテキストデータを、前記処理対象画像に対する前記光学文字認識処理の処理結果として生成するクラウドサーバ、と連携して電子文書を生成する電子文書生成装置であって、原稿のスキャン画像の文字領域から複数の行領域をそれぞれ抽出する抽出手段と、前記複数の行領域のそれぞれが単位認識領域として前記クラウドサーバにより判定されるように、前記スキャン画像に対して画像加工処理を施して認識対象画像を生成する画像生成手段と、前記認識対象画像を前記光学文字認識処理の前記処理対象画像として前記クラウドサーバに送信する送信手段と、前記認識対象画像に対する前記光学文字認識処理の処理結果である前記テキストデータを前記クラウドサーバから受信する受信手段と、前記テキストデータに含まれる前記区切りコードに基づき前記テキストデータを複数の文字列データに区分するとともに前記複数の行領域と前記複数の文字列データとの対応関係を決定し、各文字列データに対応する各行領域に当該各文字列データをそれぞれ配置して前記電子文書を生成する文書生成手段と、を備えることを特徴とする。

請求項２の発明は、請求項１の発明に係る電子文書生成装置であって、前記複数の行領域の前記スキャン画像内における位置をそれぞれ検出する検出手段、をさらに備え、前記文書生成手段は、前記各文字列データに対応する前記各行領域の検出位置に前記各文字列データをそれぞれ配置して前記電子文書を生成することを特徴とする。

請求項３の発明は、請求項１または請求項２の発明に係る電子文書生成装置において、前記画像加工処理は、前記複数の行領域のそれぞれの高さを検出し、前記複数の行領域の相互間の離間間隔を前記複数の行領域のうち最も高い行領域の高さ以上の大きさにそれぞれ設定する処理を含むことを特徴とする。

請求項４の発明は、請求項１または請求項２の発明に係る電子文書生成装置において、前記画像加工処理は、前記複数の行領域のそれぞれの高さを検出し、前記複数の行領域のうち最終行以外の各行領域と当該各行領域のそれぞれの次の行領域との相互間の離間間隔を、前記各行領域のそれぞれの高さ以上の大きさにそれぞれ設定する処理を含むことを特徴とする。

請求項５の発明は、請求項１または請求項２の発明に係る電子文書生成装置において、前記画像加工処理は、前記複数の行領域の相互間の行間領域に区切線をそれぞれ付加する処理を含むことを特徴とする。

請求項６の発明は、請求項１または請求項２の発明に係る電子文書生成装置において、前記画像加工処理は、前記複数の行領域のうち少なくとも最終行以外の各行領域のそれぞれの末尾に、前記単位認識領域の末尾であることを示す末尾識別画像を付加する処理を含むことを特徴とする。

請求項７の発明は、請求項１または請求項２の発明に係る電子文書生成装置において、前記画像加工処理は、各行領域の文字色を、前記各行領域にそれぞれ隣接する隣接行領域の文字色とは異なる文字色に設定する処理を含むことを特徴とする。

請求項８の発明は、請求項１または請求項２の発明に係る電子文書生成装置において、前記画像加工処理は、各行領域の行頭位置を、前記各行領域にそれぞれ隣接する隣接行領域の行頭位置とは異なる位置に設定する処理を含むことを特徴とする。

請求項９の発明は、請求項１または請求項２の発明に係る電子文書生成装置において、前記画像加工処理は、各行領域の文字サイズを、前記各行領域にそれぞれ隣接する隣接行領域の文字サイズとは異なる文字サイズに設定する処理を含むことを特徴とする。

請求項１０の発明は、請求項１または請求項２の発明に係る電子文書生成装置において、前記送信手段は、前記クラウドサーバによって前記単位認識領域の判定に用いられる判定手法を、前記認識対象画像の生成に先立って前記クラウドサーバに問い合わせ、前記受信手段は、前記判定手法に関する情報を前記クラウドサーバから受信し、前記画像生成手段は、前記判定手法に応じた画像加工処理を前記スキャン画像に対して施して前記認識対象画像を生成することを特徴とする。

請求項１１の発明は、請求項１または請求項２の発明に係る電子文書生成装置において、前記画像生成手段は、互いに異なる複数の画像加工処理がそれぞれ施された互いに異なる複数のテスト画像であって前記複数の行領域のうち一部の行領域をそれぞれ含む複数のテスト画像を生成し、前記送信手段は、前記複数のテスト画像を前記クラウドサーバに送信し、前記受信手段は、前記複数のテスト画像に対してそれぞれ実行された前記光学文字認識処理の処理結果である複数のテスト結果を前記クラウドサーバから受信し、前記画像生成手段は、前記複数のテスト結果のそれぞれに含まれる区切りコードに基づいて、前記複数のテスト結果のそれぞれに含まれる文字列データの個数である文字列データ数を検出し、前記複数のテスト結果のそれぞれについてその文字列データ数と前記一部の行領域の個数との差である個数差を求めるとともに、前記複数のテスト結果のうち、前記個数差が最も小さいテスト結果を最良テスト結果として求め、前記複数の画像加工処理のうち、前記最良テスト結果に対応する画像加工処理を最適加工処理として決定し、前記複数の行領域のうち前記一部の行領域を除く残余の行領域に関して前記最適加工処理を施して前記認識対象画像を生成し、前記文書生成手段は、前記最良テスト結果に含まれる区切りコードと前記テキストデータに含まれる区切りコードとに基づき、前記最良テスト結果と前記テキストデータとで構成されるデータを複数の文字列データに区分するとともに、前記複数の行領域と前記複数の文字列データとの対応関係を決定し、各文字列データに対応する各行領域に当該各文字列データをそれぞれ配置して前記電子文書を生成することを特徴とする。

請求項１２の発明は、請求項１または請求項２の発明に係る電子文書生成装置において、前記送信手段は、サンプル画像に対して互いに異なる複数の画像加工処理をそれぞれ施して生成された複数のテスト画像を前記クラウドサーバに送信し、前記受信手段は、前記複数のテスト画像に対してそれぞれ実行された前記光学文字認識処理の処理結果である複数のテスト結果を前記クラウドサーバから受信し、前記画像生成手段は、前記複数のテスト結果のそれぞれに含まれる区切りコードに基づいて、前記複数のテスト結果のそれぞれに含まれる文字列データの個数である文字列データ数を検出し、前記複数のテスト結果のそれぞれについてその文字列データ数と前記サンプル画像に含まれる行領域の個数との差である個数差を求めるとともに、前記複数のテスト結果のうち、前記個数差が最も小さいテスト結果を最良テスト結果として求め、前記複数の画像加工処理のうち、前記最良テスト結果に対応する画像加工処理を最適加工処理として決定し、前記スキャン画像に対して前記最適加工処理を施して前記認識対象画像を生成することを特徴とする。

請求項１３の発明は、光学文字認識処理の処理対象画像内の文字領域を、１行の行領域よりも大きな領域をそれぞれ含み得る複数の単位認識領域に区分するとともに当該複数の単位認識領域のそれぞれに対して前記光学文字認識処理を実行するクラウドサーバであって、前記複数の単位認識領域のそれぞれに対する文字認識結果を含むとともに各単位認識領域に対する文字認識結果の末尾にそれぞれ区切りコードを付加したテキストデータを、前記処理対象画像に対する前記光学文字認識処理の処理結果として生成するクラウドサーバ、と連携して電子文書を生成する電子文書生成装置に内蔵されたコンピュータに、ａ）原稿のスキャン画像の文字領域から複数の行領域をそれぞれ抽出するステップと、ｂ）前記複数の行領域のそれぞれが単位認識領域として前記クラウドサーバにより判定されるように、前記スキャン画像に対して画像加工処理を施して認識対象画像を生成するステップと、ｃ）前記認識対象画像を前記光学文字認識処理の前記処理対象画像として前記クラウドサーバに送信するステップと、ｄ）前記認識対象画像に対する前記光学文字認識処理の処理結果である前記テキストデータを前記クラウドサーバから受信するステップと、ｅ）前記テキストデータに含まれる前記区切りコードに基づき前記テキストデータを複数の文字列データに区分するとともに前記複数の行領域と前記複数の文字列データとの対応関係を決定するステップと、ｆ）各文字列データに対応する各行領域に当該各文字列データをそれぞれ配置して前記電子文書を生成するステップと、を実行させるためのプログラムであることを特徴とする。

請求項１４の発明は、請求項１３の発明に係るプログラムにおいて、前記コンピュータに、ｇ）前記複数の行領域の前記スキャン画像内における位置をそれぞれ検出するステップ、をさらに実行させ、前記ステップｆ）においては、前記ステップｇ）での検出位置に基づき、前記各文字列データに対応する前記各行領域の検出位置に前記各文字列データがそれぞれ配置されて、前記電子文書が生成されることを特徴とする。

請求項１５の発明は、請求項１３または請求項１４の発明に係るプログラムにおいて、前記画像加工処理は、前記複数の行領域のそれぞれの高さを検出し、前記複数の行領域の相互間の離間間隔を前記複数の行領域のうち最も高い行領域の高さ以上の大きさにそれぞれ設定する処理を含むことを特徴とする。

請求項１６の発明は、請求項１３または請求項１４の発明に係るプログラムにおいて、前記画像加工処理は、前記複数の行領域のそれぞれの高さを検出し、前記複数の行領域のうち最終行以外の各行領域と当該各行領域のそれぞれの次の行領域との相互間の離間間隔を、前記各行領域のそれぞれの高さ以上の大きさにそれぞれ設定する処理を含むことを特徴とする。

請求項１７の発明は、請求項１３または請求項１４の発明に係るプログラムにおいて、前記画像加工処理は、前記複数の行領域の相互間の行間領域に区切線をそれぞれ付加する処理を含むことを特徴とする。

請求項１８の発明は、請求項１３または請求項１４の発明に係るプログラムにおいて、前記画像加工処理は、前記複数の行領域のうち少なくとも最終行以外の各行領域のそれぞれの末尾に、前記単位認識領域の末尾であることを示す末尾識別画像を付加する処理を含むことを特徴とする。

請求項１９の発明は、請求項１３または請求項１４の発明に係るプログラムにおいて、前記画像加工処理は、各行領域の文字色を、前記各行領域にそれぞれ隣接する隣接行領域の文字色とは異なる文字色に設定する処理を含むことを特徴とする。

請求項２０の発明は、請求項１３または請求項１４の発明に係るプログラムにおいて、前記画像加工処理は、各行領域の行頭位置を、前記各行領域にそれぞれ隣接する隣接行領域の行頭位置とは異なる位置に設定する処理を含むことを特徴とする。

請求項２１の発明は、請求項１３または請求項１４の発明に係るプログラムにおいて、前記画像加工処理は、各行領域の文字サイズを、前記各行領域にそれぞれ隣接する隣接行領域の文字サイズとは異なる文字サイズに設定する処理を含むことを特徴とする。

請求項２２の発明は、請求項１３または請求項１４の発明に係るプログラムにおいて、前記コンピュータに、ｈ）前記クラウドサーバによって前記単位認識領域の判定に用いられる判定手法を、前記ステップｂ）に先立って前記クラウドサーバに問い合わせるステップと、ｉ）前記判定手法に関する情報を前記クラウドサーバから受信するステップと、をさらに実行させ、前記ステップｂ）においては、前記判定手法に応じた画像加工処理が前記スキャン画像に対して施されて前記認識対象画像が生成されることを特徴とする。

請求項２３の発明は、請求項１３または請求項１４の発明に係るプログラムにおいて、前記コンピュータに、ｈ）前記ステップｂ）に先立って、互いに異なる複数の画像加工処理がそれぞれ施された互いに異なる複数のテスト画像であって前記複数の行領域のうち一部の行領域をそれぞれ含む複数のテスト画像を生成するステップと、ｉ）前記複数のテスト画像を前記クラウドサーバに送信するステップと、ｊ）前記複数のテスト画像に対してそれぞれ実行された前記光学文字認識処理の処理結果である複数のテスト結果を前記クラウドサーバから受信するステップと、ｋ）前記クラウドサーバから受信した前記複数のテスト結果のそれぞれに含まれる区切りコードに基づいて、前記複数のテスト結果のそれぞれに含まれる文字列データの個数である文字列データ数を検出するステップと、ｌ）前記複数のテスト結果のそれぞれについてその文字列データ数と前記一部の行領域の個数との差である個数差を求めるとともに、前記複数のテスト結果のうち、前記個数差が最も小さいテスト結果を最良テスト結果として求め、前記複数の画像加工処理のうち、前記最良テスト結果に対応する画像加工処理を最適加工処理として決定するステップと、をさらに実行させ、前記ステップｂ）においては、前記複数の行領域のうち前記一部の行領域を除く残余の行領域に関して前記最適加工処理が施されて前記認識対象画像が生成され、前記ステップｅ）においては、前記最良テスト結果に含まれる区切りコードと前記テキストデータに含まれる区切りコードとに基づき、前記最良テスト結果と前記テキストデータとで構成されるデータが複数の文字列データに区分されるとともに、前記複数の行領域と前記複数の文字列データとの対応関係が決定されることを特徴とする。

請求項２４の発明は、請求項１３または請求項１４の発明に係るプログラムにおいて、前記コンピュータに、ｈ）前記ステップｂ）に先立って、サンプル画像に対して互いに異なる複数の画像加工処理をそれぞれ施して生成された複数のテスト画像を前記クラウドサーバに送信するステップと、ｉ）前記複数のテスト画像に対してそれぞれ実行された前記光学文字認識処理の処理結果である複数のテスト結果を前記クラウドサーバから受信するステップと、ｊ）前記クラウドサーバから受信した前記複数のテスト結果のそれぞれに含まれる区切りコードに基づいて、前記複数のテスト結果のそれぞれに含まれる文字列データの個数である文字列データ数を検出するステップと、ｋ）前記複数のテスト結果のそれぞれについてその文字列データ数と前記サンプル画像に含まれる行領域の個数との差である個数差を求めるとともに、前記複数のテスト結果のうち、前記個数差が最も小さいテスト結果を最良テスト結果として求め、前記複数の画像加工処理のうち、前記最良テスト結果に対応する画像加工処理を最適加工処理として決定するステップと、をさらに実行させ、前記ステップｂ）においては、前記スキャン画像に対して前記最適加工処理が施されて前記認識対象画像が生成されることを特徴とする。

請求項２５の発明は、電子文書生成システムであって、原稿のスキャン画像を生成する画像形成装置と、クラウドサーバと連携し、前記スキャン画像に基づく電子文書を生成する電子文書生成装置と、を備え、前記クラウドサーバは、光学文字認識処理の処理対象画像内の文字領域を、１行の行領域よりも大きな領域をそれぞれ含み得る複数の単位認識領域に区分するとともに当該複数の単位認識領域のそれぞれに対して前記光学文字認識処理を実行し、前記複数の単位認識領域のそれぞれに対する文字認識結果を含むとともに各単位認識領域に対する文字認識結果の末尾にそれぞれ区切りコードを付加したテキストデータを、前記処理対象画像に対する前記光学文字認識処理の処理結果として生成し、前記画像形成装置は、前記スキャン画像を前記電子文書生成装置に送信する通信手段、を有し、前記電子文書生成装置は、前記画像形成装置から受信した前記スキャン画像の文字領域から複数の行領域をそれぞれ抽出する抽出手段と、前記複数の行領域のそれぞれが単位認識領域として前記クラウドサーバにより判定されるように、前記スキャン画像に対して画像加工処理を施して認識対象画像を生成する画像生成手段と、前記認識対象画像を前記光学文字認識処理の前記処理対象画像として前記クラウドサーバに送信する送信手段と、前記認識対象画像に対する前記光学文字認識処理の処理結果である前記テキストデータを前記クラウドサーバから受信する受信手段と、前記テキストデータに含まれる前記区切りコードに基づき前記テキストデータを複数の文字列データに区分するとともに前記複数の行領域と前記複数の文字列データとの対応関係を決定し、各文字列データに対応する各行領域に当該各文字列データをそれぞれ配置して前記電子文書を生成する文書生成手段と、を有することを特徴とする。

請求項１ないし請求項２５に記載の発明によれば、スキャン画像から複数の行領域がそれぞれ抽出され、当該複数の行領域のそれぞれが単位認識領域としてクラウドサーバにより判定されるように、当該スキャン画像に対して画像加工処理が施されて認識対象画像が生成される。そして、クラウドサーバにおいて、当該複数の行領域のそれぞれが単位認識領域として判定され、各行領域に対する文字認識結果の末尾にそれぞれ区切りコードが付加されたテキストデータが生成される。したがって、電子文書生成装置は、当該区切りコードに基づいてスキャン画像内の各行領域と各行領域に対する文字認識結果とを対応付けることができるので、スキャン画像内の適切な位置にＯＣＲ処理結果（テキストデータ）を配置した電子文書を生成することが可能である。

電子文書生成システムを示す図である。画像形成装置（ＭＦＰ）の機能ブロックを示す図である。外部端末の概略構成を示す機能ブロック図である。電子文書生成システムにおける動作例を示すタイミングチャートである。スキャン画像を示す図である。各行領域と各行領域の座標位置とを示す図である。各行領域の高さを示す図である。処理対象画像を示す図である。各行領域に各文字列データが配置される様子を示す図である。生成されたサーチャブルＰＤＦファイルを示す図である。第１実施形態の変形例に係る処理対象画像を示す図である。第２実施形態に係る処理対象画像を示す図である。第３実施形態に係る処理対象画像を示す図である。第４実施形態に係る処理対象画像を示す図である。第５実施形態に係る処理対象画像を示す図である。第６実施形態に係る処理対象画像を示す図である。第７実施形態に係る電子文書生成システムにおける動作例を示すタイミングチャートである。第８実施形態に係る電子文書生成システムにおける動作例を示すタイミングチャートである。一部の行領域の抽出について説明する図である。テスト画像を示す図である。テスト画像を示す図である。テスト画像を示す図である。最適加工処理の決定処理について説明する図である。残余の行領域に関する認識対象画像を示す図である。残余の行領域に関するテキストデータを示す図である。変形例に係る認識対象画像を示す図である。

以下、本発明の実施形態を図面に基づいて説明する。

＜１．第１実施形態＞
＜１−１．構成概要＞
図１は、本発明に係る画像形成システム１を示す図である。図１に示すように、画像形成システム１は、画像形成装置１０と外部端末５０とクラウドサーバ９０とを備える。

画像形成装置１０と外部端末５０とクラウドサーバ９０とは、ネットワーク（通信ネットワーク）１０８を介して互いに接続される。ネットワーク１０８は、ＬＡＮ（Local Area Network）およびインターネットなどによって構成される。また、ネットワーク１０８に対する接続態様は、有線接続であってもよく、或いは無線接続であってもよい。たとえば、画像形成装置１０およびクラウドサーバ９０はネットワーク１０８に対して有線接続され、外部端末５０はネットワーク１０８に対して無線接続される。

クラウドサーバ９０は、画像形成装置１０とも外部端末５０とも異なる外部装置（外部サーバ）である。クラウドサーバ９０は、汎用的なＯＣＲ（Optical Character Recognition）処理サービスを提供するサーバである。ただし、このクラウドサーバ９０は、サーチャブルＰＤＦ（Portable Document Format）ファイルの生成処理サービスを提供しない。サーチャブルＰＤＦファイルは、後述するように、外部端末５０およびクラウドサーバ９０等が協働することによって生成される。

また、クラウドサーバ９０は、ＯＣＲ処理の処理対象画像内の文字領域を、１行の行領域よりも大きな領域をそれぞれ含み得る複数の単位認識領域に所定の判定基準に基づき区分するとともに当該複数の単位認識領域のそれぞれに対してＯＣＲ処理を実行する。そして、クラウドサーバ９０は、当該処理対象画像に対するＯＣＲ処理結果としてテキストデータ５５０（図９参照）を生成する。このテキストデータ５５０には、当該複数の単位認識領域のそれぞれに対する文字認識結果（ＯＣＲ処理結果）が含まれるとともに、各単位認識領域に対する文字認識結果の末尾にそれぞれ区切りコード（たとえば改行コード（制御コード））が付加される。なお、当該テキストデータ５５０は、文字コード（区切りコード等を含む）で構成されるデータの集合体（文字コード群データ）である、とも表現される。

この画像形成システム１においては、原稿のスキャン画像２００（図５参照）が画像形成装置１０によって生成され、当該スキャン画像２００が画像形成装置１０から外部端末５０に送信される。外部端末５０は、当該スキャン画像２００に対して画像加工処理（後述）を施して認識対象画像５００（図８参照）を生成し、当該認識対象画像５００をクラウドサーバ９０に送信する。クラウドサーバ９０は、外部端末５０から受信した認識対象画像５００に対してＯＣＲ処理を施してテキストデータ５５０をＯＣＲ処理結果として生成し、当該テキストデータ５５０を外部端末５０に送信する。そして、外部端末５０は、クラウドサーバ９０から受信したテキストデータ５５０に基づいて電子文書６００（図１０参照）を生成する。当該電子文書６００は、テキストデータ付き電子文書（ここでは、サーチャブルＰＤＦファイル）として生成される。

なお、画像形成システム１は、電子文書を生成するシステムでもあることから、電子文書生成システムなどとも表現される。同様に、外部端末５０は「電子文書生成装置」であるとも表現される。

＜１−２．画像形成装置の構成＞
図２は、画像形成装置１０の機能ブロックを示す図である。ここでは、画像形成装置１０として、ＭＦＰ（マルチ・ファンクション・ペリフェラル（Multi-Functional Peripheral））を例示する。

ＭＦＰ１０は、スキャン機能、コピー機能、ファクシミリ機能およびボックス格納機能などを備える装置（複合機とも称する）である。具体的には、ＭＦＰ１０は、図２の機能ブロック図に示すように、画像読取部２、印刷出力部３、通信部４、格納部５、操作部６およびコントローラ９等を備えており、これらの各部を複合的に動作させることによって、各種の機能を実現する。

画像読取部２は、ＭＦＰ１０の所定の位置に載置された原稿を光学的に読み取って、当該原稿の画像データ（スキャン画像とも称する）を生成する処理部である。

印刷出力部３は、印刷対象に関するデータに基づいて紙などの各種の媒体に画像を印刷出力する出力部である。

通信部４は、公衆回線等を介したファクシミリ通信を行うことが可能な処理部である。さらに、通信部４は、ネットワーク１０８を介したネットワーク通信を行うことも可能である。このネットワーク通信では、たとえば、ＴＣＰ／ＩＰ（Transmission Control Protocol / Internet Protocol）等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、ＭＦＰ１０は、所望の相手先（たとえば、外部端末５０）と連携して各種のデータを授受することが可能である。通信部４は、各種データを送信する送信部４ａと各種データを受信する受信部４ｂとを有する。

格納部５は、ハードディスクドライブ（ＨＤＤ）等の記憶装置で構成される。

操作部６は、ＭＦＰ１０に対する操作入力を受け付ける操作入力部６ａと、各種情報の表示出力を行う表示部６ｂとを備えている。

このＭＦＰ１０においては、略板状の操作パネル部６ｃ（図１参照）が設けられている。また、操作パネル部６ｃは、その正面側にタッチパネル２５（図１参照）を有している。タッチパネル２５は、操作入力部６ａの一部としても機能するとともに、表示部６ｂの一部としても機能する。タッチパネル２５は、液晶表示パネルに各種センサ等が埋め込まれて構成され、各種情報を表示するとともに操作者からの各種の操作入力を受け付けることが可能である。

たとえば、タッチパネル２５においては、各種の操作画面（ボタン画像等を含む）が表示される。操作者は、タッチパネル２５の操作画面内に仮想的に配置されるボタンを押下することによって、ＭＦＰ１０の各種動作内容を設定するとともに動作指示を付与することができる。

コントローラ９は、ＭＦＰ１０に内蔵され、ＭＦＰ１０を統括的に制御する制御装置である。コントローラ９は、ＣＰＵおよび各種の半導体メモリ（ＲＡＭおよびＲＯＭ）等を備えるコンピュータシステムとして構成される。コントローラ９は、ＣＰＵにおいて、ＲＯＭ（例えば、ＥＥＰＲＯＭ）内に格納されている所定のソフトウエアプログラム（以下、単にプログラムとも称する）Ｐ１を実行することによって、各種の処理部を実現する。なお、当該プログラム（詳細にはプログラムモジュール群）Ｐ１は、ＵＳＢメモリなどの可搬性の記録媒体、あるいはネットワーク１０８等を介してＭＦＰ１０にインストールされてもよい。

具体的には、図２に示すように、コントローラ９は、プログラムＰ１の実行により、通信制御部１１と入力制御部１２と表示制御部１３とを含む各種の処理部を実現する。

通信制御部１１は、他の装置（外部端末５０等）との間の通信動作を通信部４等と協働して制御する処理部である。たとえば、通信制御部１１は、スキャン画像２００等を外部端末５０に送信する。

入力制御部１２は、操作入力部６ａに対するユーザからの操作入力の受付動作等を制御する制御部である。

表示制御部１３は、表示部６ｂにおける表示動作を制御する処理部である。表示制御部１３は、たとえば、ＭＦＰ１０を操作するための操作画面をタッチパネル２５に表示させる。

＜１−３．外部端末の構成＞
次に外部端末５０の構成について説明する。

外部端末５０は、ＭＦＰ１０およびクラウドサーバ９０との間でのネットワーク通信が可能な情報入出力端末装置（情報端末あるいは通信端末とも称される）である。ここでは、外部端末５０として、タブレット型端末を例示する。ただし、これに限定されず、外部端末５０は、スマートフォンあるいはパーソナルコンピュータなどであってもよい。また、外部端末は、携帯式の装置（携帯情報端末等）（携帯端末）であってもよく、あるいは、据置型の装置であってもよい。

図３は外部端末５０の概略構成を示す機能ブロック図である。

外部端末５０は、図３の機能ブロック図に示すように、通信部５４、格納部５５、操作部５６およびコントローラ５９等を備えており、これらの各部を複合的に動作させることによって、各種の機能を実現する。

通信部５４は、ネットワーク１０８を介したネットワーク通信を行うことが可能である。このネットワーク通信では、たとえば、ＴＣＰ／ＩＰ（Transmission Control Protocol / Internet Protocol）等の各種のプロトコルが利用される。当該ネットワーク通信を利用することによって、外部端末５０は、所望の相手先（ＭＦＰ１０およびクラウドサーバ９０等）と連携して各種のデータを授受することが可能である。通信部５４は、各種データを送信する送信部５４ａと各種データを受信する受信部５４ｂとを有する。たとえば、受信部５４ｂは、スキャン画像２００をＭＦＰ１０から受信し、送信部５４ａは、認識対象画像５００（後述）をクラウドサーバ９０に送信する。また、受信部５４ｂは、認識対象画像５００に対するＯＣＲ処理結果（テキストデータ）等をクラウドサーバ９０から受信する。

格納部５５は、不揮発性の半導体メモリ等の記憶装置で構成され、各種の情報を格納する。たとえば、格納部５５には、スキャン画像２００の文字領域３００（図６参照）から抽出された複数の行領域４００（図６参照）のそれぞれの当該スキャン画像２００内における座標位置が格納される。

操作部５６は、外部端末５０に対する操作入力を受け付ける操作入力部５６ａと、各種情報の表示出力を行う表示部５６ｂとを備えている。この外部端末５０においては、液晶表示パネルに各種センサ等が埋め込まれて構成されたタッチパネル７５（図１参照）が設けられている。具体的には、図１に示すように、略板状の外部端末５０の正面側において、その周縁部（枠部）を除くほぼ全面にわたってタッチパネル７５が設けられている。換言すれば、タッチパネル７５は、操作入力部５６ａの一部としても機能するとともに、表示部５６ｂの一部としても機能する。

コントローラ５９は、外部端末５０に内蔵され、外部端末５０を統括的に制御する制御装置である。コントローラ５９は、ＣＰＵおよび各種の半導体メモリ（ＲＡＭおよびＲＯＭ）等を備えるコンピュータシステムとして構成される。コントローラ５９は、ＣＰＵにおいて、記憶部（半導体メモリ等）内に格納されている所定のソフトウエアプログラム（以下、単にプログラムとも称する）Ｐ２を実行することによって、各種の処理部を実現する。なお、当該プログラム（詳細にはプログラムモジュール群）Ｐ２は、ＵＳＢメモリなどの可搬性の記録媒体、あるいはネットワーク１０８等を介して外部端末５０にインストールされるようにしてもよい。

具体的には、コントローラ５９は、プログラムＰ２等の実行により、通信制御部６１と入力制御部６２と表示制御部６３と抽出部６４と検出部６５と画像生成部６６と文書生成部６７とを含む各種の処理部を実現する。

通信制御部６１は、通信部５４等と協働して、ＭＦＰ１０およびクラウドサーバ９０等との通信動作を制御する処理部である。

入力制御部６２は、操作入力部５６ａに対するユーザからの操作入力の受付動作等を制御する制御部である。

表示制御部６３は、表示部５６ｂにおける表示動作を制御する処理部である。表示制御部６３は、たとえば、ＭＦＰ１０との連携処理を行うための操作画面をタッチパネル７５に表示する。

抽出部６４は、スキャン画像２００の文字領域３００から複数の行領域４００（図６参照）をそれぞれ抽出する処理部である。

検出部６５は、複数の行領域４００のスキャン画像２００内における位置（座標位置）をそれぞれ検出する処理部である。

画像生成部６６は、複数の行領域４００のそれぞれがクラウドサーバ９０により単位認識領域として判定されるように、スキャン画像２００に対して画像加工処理（後述）を施して認識対象画像５００を生成する処理部である。

文書生成部６７は、電子文書６００（図１０参照）を生成する処理部である。文書生成部６７は、クラウドサーバ９０から受信したテキストデータ５５０に含まれる区切りコードに基づき当該テキストデータ５５０を複数の文字列データ（４５１〜４５７等）（図９参照）に区分するとともに、スキャン画像２００内の複数の行領域４００と当該複数の文字列データ（４５１〜４５７等）との対応関係を決定する。文書生成部６７は、各文字列データ（４５１〜４５７等）に対応する各行領域４００に当該各文字列データ（４５１〜４５７等）をそれぞれ配置して電子文書６００（サーチャブルＰＤＦファイル等）を生成する。

＜１−４．動作＞
この画像形成システム１において、上述のように、外部端末５０は、スキャン画像２００に対して「画像加工処理」を施して認識対象画像５００を生成し、当該認識対象画像５００をクラウドサーバ９０に送信する。

この第１実施形態では、クラウドサーバ９０は、ＯＣＲ処理の処理対象画像内の行領域の相互間の離間間隔に基づき単位認識領域を判定（認識）するものとする。具体的には、処理対象画像内の或る行領域と次の行領域との離間間隔が比較的小さい（詳細には、当該離間間隔が当該或る行領域の高さよりも小さい）場合には、クラウドサーバ９０は、当該或る行領域と当該次の行領域とを区別しない。そして、クラウドサーバ９０は、当該或る行領域の文字認識結果（ＯＣＲ処理結果）と次の行領域の文字認識結果とが連続した状態のテキストデータを生成する。一方、処理対象画像内の或る行領域と次の行領域との離間間隔が比較的大きい（詳細には、当該離間間隔が当該或る行領域の高さよりも大きい）場合には、クラウドサーバ９０は、処理対象画像内の当該或る行領域までの１又は２以上の行領域と当該次の行領域以降の１又は２以上の行領域とをそれぞれ単位認識領域として判定する。そして、クラウドサーバ９０は、各単位認識領域に対する文字認識結果の末尾に区切りコード（ここでは改行コード）をそれぞれ付加したテキストデータ５５０を生成する。このような判定基準に基づき、クラウドサーバ９０は処理対象画像内の文字領域を複数の単位認識領域に区分する。

また、第１実施形態では、外部端末５０は、スキャン画像２００内の複数の行領域４００の相互間の離間間隔を当該複数の行領域４００のうち最も高い行領域の高さ（最大高さＨ）以上の大きさにそれぞれ設定する処理を、「画像加工処理」として実行する。外部端末５０は、このような「画像加工処理」を施すことによって、当該複数の行領域４００が互いに異なる単位認識領域であると（意図的に）クラウドサーバ９０に判定させ、所望の処理結果（各行領域４００に対する文字認識結果の末尾に区切コードがそれぞれ付加されたテキストデータ５５０）をクラウドサーバ９０から取得する。

なお、ここでは、クラウドサーバ９０によって単位認識領域の判定に用いられる判定手法（単位認識領域の判定基準）が既知であることを想定する。より詳細には、プログラム設計者等が、クラウドサーバ９０におけるＯＣＲ処理の仕様の公開等によって当該判定手法を知得し、当該判定手法に応じた「画像加工処理」に関するプログラムを作成するとともに、当該プログラムが外部端末５０に組み込まれていることを想定する。

＜スキャン画像生成等＞
まず、ユーザは、スキャン対象の原稿をＭＦＰ１０の原稿台（たとえば、自動給紙装置（ＡＤＦ：Auto Document Feeder ）あるいは原稿載置用ガラス面等）に載置し、外部端末５０の操作画面において電子文書６００（６０１）の生成指示を外部端末５０に付与する。外部端末５０は、当該生成指示を受け付けると、当該生成指示に基づくスキャン画像生成指示をＭＦＰ１０に転送する。

電子文書６００（６０１）の生成指示に際して、ユーザは、スキャン処理により最終的に生成される電子文書６００（６０１）のファイル形式を指定する。ここでは、当該電子文書６０１のファイル形式として、サーチャブルＰＤＦ（透明テキスト付きＰＤＦ）ファイルが指定されるものとする。なお、サーチャブルＰＤＦ（透明テキスト付きＰＤＦ）ファイルは、文字画像を有する画像レイヤと当該文字画像に対する文字認識結果（テキストデータ）が非表示状態で埋め込まれたテキストレイヤとを有するＰＤＦ形式の電子文書である。

ＭＦＰ１０は、当該生成指示（スキャン画像生成指示等）を外部端末５０から受信すると、スキャン動作を開始し、ＭＦＰ１０の原稿台（ＡＤＦ等）に載置された原稿のスキャン画像２００（２０１）（図５参照）を生成する。

そして、ＭＦＰ１０は、スキャン画像（詳細にはスキャン画像データ）２０１を外部端末５０に送信する。

＜ＯＣＲ処理および電子文書生成処理等＞
図４は、電子文書生成システム１における動作例を示すタイミングチャートである。外部端末５０（およびクラウドサーバ９０）は、ＭＦＰ１０からのスキャン画像２００（２０１）を受信すると、図４に示すような処理を実行する。

外部端末５０は、スキャン画像２０１（図５参照）をＭＦＰ１０から受信して取得する（ステップＳ１１）と、図６に示すように、当該スキャン画像２０１の文字領域３００（３０１）から複数の行領域４００（４０１〜４０７）をそれぞれ抽出する（ステップＳ１２）。具体的には、外部端末５０（抽出部６４）は、画像処理によって、スキャン画像２０１を文字領域３０１と非文字領域とに区分し、当該文字領域３０１から行領域（１行単位の領域）４０１〜４０７をそれぞれ抽出する。

行領域４０１〜４０７が抽出されると、外部端末５０（検出部６５）は、行領域４０１〜４０７のスキャン画像２０１内における位置（座標位置）をそれぞれ検出し（図６参照）、各座標位置を格納部５５に格納する（ステップＳ１３）。ここでは、図６に示すように、行領域４０１〜４０７の左上端のスキャン画像２０１内における座標位置がそれぞれ検出され、行領域４０１〜４０７の座標位置（座標値（Ｘ１，Ｙ１）〜（Ｘ７，Ｙ７））が格納部５５にそれぞれ格納される。

そして、外部端末５０（画像生成部６６）は、複数の行領域（行領域４０１〜４０７）のそれぞれがクラウドサーバ９０により単位認識領域として判定されるように、スキャン画像２０１に対して画像加工処理（次述）を施して（ステップＳ１４）、認識対象画像５０１（５０１Ａ）（図８）を生成する（ステップＳ１５）。

具体的には、画像生成部６６は、スキャン画像２０１内の行領域４０１〜４０７の高さＨ１〜Ｈ７（図７）を画像処理によってそれぞれ検出し、行領域４０１〜４０７のうち最も高い行領域の高さ（最大高さＨ）を決定する。ここでは、行領域４０１〜４０７の高さＨ１〜Ｈ７のうち行領域４０１の高さＨ１が最大高さＨとして決定される。そして、画像生成部６６は、行領域４０１〜４０７の相互間の離間間隔を、当該最大高さＨに所定値ΔＨ（たとえば２ミリメートル）を加えた大きさＨ１０（＝Ｈ＋ΔＨ）にそれぞれ設定する。画像生成部６６は、このような処理を「画像加工処理」としてスキャン画像２０１に対して施し（ステップＳ１４）、認識対象画像５０１Ａを生成する（ステップＳ１５）。ここでは、図８に示すように、行領域４０１〜４０７の相互間の離間間隔が、最大高さ（行領域４０１の高さ）Ｈ１にΔＨを加えた大きさＨ１１（＝Ｈ１＋ΔＨ）にそれぞれ設定され、認識対象画像５０１Ａが生成される。換言すれば、行領域４０１〜４０７のそれぞれが最大高さＨ１以上の大きさＨ１１（＝Ｈ１＋ΔＨ）の間隔を空けて配置された認識対象画像５０１Ａが生成される。

そして、外部端末５０（送信部５４ａ）は、当該認識対象画像５０１ＡをＯＣＲ処理の処理対象画像としてクラウドサーバ９０に送信する（ステップＳ１６）。なお、外部端末５０は、当該認識対象画像５０１Ａの送信に伴って、当該認識対象画像５０１Ａに対するＯＣＲ処理を開始すべき旨のＯＣＲ開始指令をもクラウドサーバ９０に送信する。

クラウドサーバ９０は、外部端末５０から認識対象画像５０１ＡおよびＯＣＲ開始指令を受信すると、当該認識対象画像５０１ＡをＯＣＲ処理の処理対象画像として認識し、認識対象画像５０１Ａに対してＯＣＲ処理を実行してテキストデータ５５１を生成する（ステップＳ１７）。

具体的には、クラウドサーバ９０は、認識対象画像５０１Ａ内の行領域４０１〜４０７の相互間の離間間隔が最大高さＨ１以上の大きさＨ１１（＝Ｈ１＋ΔＨ）である（すなわち、当該離間間隔が各行領域４０１〜４０７のそれぞれの高さよりも大きい）ことに基づいて、当該行領域４０１〜４０７のそれぞれを互いに異なる単位認識領域として判定する。そして、クラウドサーバ９０は、認識対象画像５０１Ａに対してＯＣＲ処理を施し、テキストデータ５５１（図９の右上部）を認識対象画像５０１Ａに対するＯＣＲ処理結果として生成する。図９の右上部に示すように、このテキストデータ５５１には、行領域４０１〜４０７のそれぞれに対する文字認識結果（ＯＣＲ処理結果）が含まれ、且つ、行領域４０１〜４０７に対する文字認識結果（ＯＣＲ処理結果）の末尾にそれぞれ区切りコード（ここでは改行コード）が付加されている。換言すれば、当該テキストデータ５５１には、行領域４０１〜４０７のそれぞれに対する文字認識結果（テキストデータ）と７つの改行コードとが含まれる。

その後、クラウドサーバ９０は、当該テキストデータ（認識対象画像５０１Ａに対するＯＣＲ処理結果）５５１を外部端末５０に送信する（ステップＳ１８）。

外部端末５０（文書生成部６７）は、当該テキストデータ５５１をクラウドサーバ９０から受信すると、各行領域４０１〜４０７のスキャン画像２０１内における検出位置（座標位置）に基づき各文字列データ４５１〜４５７（次述）を各行領域４０１〜４０７にそれぞれ配置して電子文書６００（６０１）（図１０）を生成する（ステップＳ１９）。

具体的には、図９に示すように、文書生成部６７は、テキストデータ５５１に含まれる７つの改行コードに基づいて、当該テキストデータ５５１を７つの文字列データ４５１〜４５７に区分する。そして、文書生成部６７は、１つ目の文字列データ４５１をスキャン画像２０１内の１行目の行領域４０１に対応する文字列データとして決定し、当該文字列データ４５１を行領域４０１の検出位置（座標値（Ｘ１，Ｙ１））に配置する。換言すれば、文書生成部６７は、１つ目の文字列データ４５１と１行目の行領域４０１とを対応付け、当該文字列データ４５１を行領域４０１の検出位置に配置する。同様にして、文書生成部６７は、文字列データ４５２〜４５７と行領域４０２〜４０７とをそれぞれ対応付け、当該文字列データ４５２〜４５７を行領域４０２〜４０７の検出位置（座標位置）にそれぞれ配置する（図９参照）。

そして、全ての行領域４０１〜４０７に全ての文字列データ４５１〜４５７が配置されると、文書生成部６７は、サーチャブルＰＤＦ（透明テキスト付きＰＤＦ）ファイルを電子文書６０１（図１０参照）として生成する。図１０に示すように、当該電子文書６０１（サーチャブルＰＤＦファイル）には、行領域４０１〜４０７の各座標位置に文字列データ４５１〜４５７が透明テキストデータとして（非表示状態で）それぞれ埋め込まれる。なお、図１０においては、図示の都合上、行領域４０１〜４０７の文字画像が表示されず、ＯＣＲ処理結果（文字列データ４５１〜４５７）が表示されているが、実際には、当該電子文書６０１では、当該文字列データ４５１〜４５７は表示されず、行領域４０１〜４０７の文字画像が表示される。

このように、文書生成部６７は、テキストデータ５５１に含まれる区切りコード（ここでは改行コード）に基づき当該テキストデータ５５１を文字列データ４５１〜４５７に区分し、行領域４０１〜４０７と当該文字列データ４５１〜４５７との対応関係を決定する。そして、文書生成部６７は、各文字列データ４５１〜４５７に対応する各行領域４０１〜４０７の検出位置に当該各文字列データ４５１〜４５７をそれぞれ配置して電子文書６０１を生成する。

以上のように、第１実施形態に係る動作においては、スキャン画像２０１から行領域４０１〜４０７がそれぞれ抽出され、行領域４０１〜４０７のそれぞれがクラウドサーバ９０により単位認識領域として判定されるように、画像加工処理が施されて認識対象画像５０１が生成される。そして、クラウドサーバ９０において、行領域４０１〜４０７のそれぞれが単位認識領域として判定され、行領域４０１〜４０７に対する文字認識結果の末尾にそれぞれ区切りコードが付加されたテキストデータ５５１が生成される。したがって、外部端末５０は、当該区切りコードに基づいてスキャン画像２０１内の行領域４０１〜４０７と行領域４０１〜４０７に対する文字認識結果（文字列データ４５１〜４５７）とを対応付けることができるので、スキャン画像２０１内の適切な位置にＯＣＲ処理結果（テキストデータ）を配置した電子文書６０１を生成することが可能である。

また、行領域４０１〜４０７のスキャン画像２０１内における位置（座標位置）がそれぞれ検出され、文字列データ４５１〜４５７に対応する行領域４０１〜４０７の検出位置に当該文字列データ４５１〜４５７がそれぞれ配置されるので、スキャン画像２０１内のより適切な位置にＯＣＲ処理結果（テキストデータ）を配置した電子文書６０１を生成することが可能である。

なお、第１実施形態では、複数の行領域の相互間の離間間隔を最大高さＨ以上の大きさＨ１０にそれぞれ設定する処理が「画像加工処理」として施される態様を例示したが、これに限定されない。たとえば、各行領域と当該各行領域のそれぞれの次の行領域との相互間の離間間隔を当該各行領域のそれぞれの高さ以上の大きさＨ２０にそれぞれ設定する処理が「画像加工処理」として施されるようにしてもよい。

具体的には、画像生成部６６は、スキャン画像２０１内の行領域４０１〜４０７の行領域の高さＨ１〜Ｈ７をそれぞれ検出する（図７参照）。そして、画像生成部６６は、図１１に示すように、行領域４０１と（次の）行領域４０２との相互間の離間間隔を高さＨ１以上の大きさＨ２１（＝Ｈ１＋ΔＨ）に設定する。また、画像生成部６６は、行領域４０２と（次の）行領域４０３との相互間の離間間隔を高さＨ２以上の大きさＨ２２（＝Ｈ２＋ΔＨ）に設定する。同様に、画像生成部６６は、行領域４０３〜４０６と（それぞれ次の）行領域４０４〜４０７との相互間の離間間隔をそれぞれ高さＨ３〜Ｈ６以上の大きさＨ２３〜Ｈ２６（＝Ｈｉ＋ΔＨ（ｉ＝３，...，６））に設定する。換言すれば、画像生成部６６は、行領域４０１〜４０７のうち最終行以外の各行領域４０１〜４０６と当該各行領域４０１〜４０６のそれぞれの次の行領域４０２〜４０７との相互間の離間間隔を、当該各行領域４０１〜４０６の高さＨ１〜Ｈ６以上の大きさＨ２１〜Ｈ２６にそれぞれ設定する。そして、画像生成部６６は、このような画像加工処理を施して認識対象画像５０１（５０１Ｂ）（図１１）を生成する。

なお、この変形例においても、上述のように、クラウドサーバ９０は、処理対象画像内の或る行領域と次の行領域との離間間隔が当該或る行領域の高さよりも大きい場合に、処理対象画像内の当該或る行領域までの１又は２以上の行領域と当該次の行領域以降の１又は２以上の行領域とをそれぞれ単位認識領域として判定する。

そして、上記の変形例に係る画像加工処理を行うことによれば、各行領域と当該各行領域のそれぞれの次の行領域との相互間の離間間隔が当該各行領域のそれぞれの高さ以上の大きさにそれぞれ設定されるので、クラウドサーバ９０において各行領域のそれぞれが互いに異なる単位認識領域として判定される。

＜２．第２実施形態＞
第２実施形態は、第１実施形態の変形例である。以下では、第１実施形態との相違点を中心に説明する。

第１実施形態では、クラウドサーバ９０は、処理対象画像内の或る行領域と次の行領域との離間間隔が当該或る行領域の高さよりも大きい場合に、当該或る行領域までの１又は２以上の行領域と当該次の行領域以降の１又は２以上の行領域とをそれぞれ単位認識領域として判定する態様を例示した。また、第１実施形態では、外部端末５０は、スキャン画像２００内の複数の行領域４００の相互間の離間間隔を当該複数の行領域４００のうち最も高い行領域の高さ（最大高さＨ）以上の大きさにそれぞれ設定する処理を、「画像加工処理」として実行する態様を例示した。

しかしながら、本願発明は、これに限定されない。たとえば、クラウドサーバ９０はその他の様々な判定基準（判定手法）に基づき単位認識領域の判定を行い、外部端末５０は各々の判定手法に応じた「画像加工処理」をスキャン画像２００に対して実行するようにしてもよい。以下の第２〜第６実施形態においては、このような態様をそれぞれ例示する。

この第２実施形態では、クラウドサーバ９０は、ＯＣＲ処理の処理対象画像内の区切線に基づいて単位認識領域を判定（認識）するものとする。具体的には、クラウドサーバ９０は、処理対象画像内に区切線が存在する場合に、当該区切線で区分された各領域（上側の１又は２以上の行領域と下側の１又は２以上の行領域との両領域）をそれぞれ単位認識領域として判定する。そして、クラウドサーバ９０は、各単位認識領域に対する文字認識結果の末尾に区切りコードをそれぞれ付加したテキストデータ５５０を生成する。このような判定基準に基づき、クラウドサーバ９０は処理対象画像内の文字領域を複数の単位認識領域に区分する。

また、第２実施形態では、外部端末５０は、スキャン画像２００内の複数の行領域４００の相互間の行間領域に区切線Ｌ（図１２）をそれぞれ付加する処理を、「画像加工処理」として実行する態様を例示する。外部端末５０は、このような「画像加工処理」を施すことによって、当該複数の行領域４００が互いに異なる単位認識領域であると（意図的に）クラウドサーバ９０に判定させ、所望の処理結果（各行領域４００に対する文字認識結果の末尾に区切コードがそれぞれ付加されたテキストデータ５５０）をクラウドサーバ９０から取得する。

第２実施形態においても、第１実施形態と同様に図４の各処理がそれぞれ行われる。

ただし、第２実施形態の画像加工処理（ステップＳ１４）の処理内容が第１実施形態の画像加工処理（ステップＳ１４）の処理内容とは異なる。

具体的には、図１２に示すように、外部端末５０（画像生成部６６）は、スキャン画像２０１内の行領域４０１〜４０７の相互間の行間領域に区切線Ｌ（Ｌ１〜Ｌ６）をそれぞれ付加する処理を「画像加工処理」としてスキャン画像２０１に対して施し（ステップＳ１４）、認識対象画像５０２を生成する（ステップＳ１５）。なお、ここでは、この区切線Ｌ（Ｌ１〜Ｌ６）は、認識対象画像５００（５０２）の水平方向の全幅に亘って付加される。

また、第２実施形態のステップＳ１７の詳細内容が第１実施形態のステップＳ１７の詳細内容とは異なる。

具体的には、クラウドサーバ９０は、外部端末５０から受信した認識対象画像５０２内の区切線Ｌ１〜Ｌ６に基づいて、認識対象画像５０２内の行領域４０１〜４０７のそれぞれを互いに異なる単位認識領域として判定する。そして、クラウドサーバ９０は、認識対象画像５０２に対してＯＣＲ処理を施し、行領域４０１〜４０７に対する文字認識結果の末尾にそれぞれ区切りコードが付加されたテキストデータ５５１（図９）を、認識対象画像５０２に対するＯＣＲ処理結果として生成する（ステップＳ１７）。

なお、ステップＳ１４およびＳ１７以外の処理は、上記第１実施形態と同様にして行われる。

このような態様によれば、上記第１実施形態と同様の効果を得ることが可能である。

＜３．第３実施形態＞
第３実施形態は、第１実施形態の変形例である。以下では、第１実施形態との相違点を中心に説明する。

この第３実施形態では、クラウドサーバ９０は、ＯＣＲ処理の処理対象画像内の末尾識別画像（単位認識領域の末尾であることを示す画像）に基づいて単位認識領域を判定（認識）するものとする。具体的には、クラウドサーバ９０は、処理対象画像内の或る行領域に末尾識別画像が存在する場合に、当該或る行領域までの１又は２以上の行領域と次の行領域以降の１又は２以上の行領域とをそれぞれ単位認識領域として判定する。そして、クラウドサーバ９０は、各単位認識領域に対する文字認識結果の末尾に区切りコードをそれぞれ付加したテキストデータ５５０を生成する。このような判定基準に基づき、クラウドサーバ９０は処理対象画像内の文字領域を複数の単位認識領域に区分する。

また、第３実施形態では、外部端末５０は、スキャン画像２００内の複数の行領域４００のそれぞれの末尾に末尾識別画像４３０（図１３）を付加する処理を、「画像加工処理」として実行する態様を例示する。外部端末５０は、このような「画像加工処理」を施すことによって、当該複数の行領域４００が互いに異なる単位認識領域であると（意図的に）クラウドサーバ９０に判定させ、所望の処理結果（各行領域４００に対する文字認識結果の末尾に区切コードがそれぞれ付加されたテキストデータ５５０）をクラウドサーバ９０から取得する。

第３実施形態においても、第１実施形態と同様に図４の各処理がそれぞれ行われる。

ただし、第３実施形態の画像加工処理（ステップＳ１４）の処理内容が第１実施形態の画像加工処理（ステップＳ１４）の処理内容とは異なる。

具体的には、外部端末５０（画像生成部６６）は、スキャン画像２０１内の行領域４０１〜４０７のうち最終行（行領域４０７）以外の行領域４０１〜４０６のそれぞれの末尾に末尾識別画像４３０を付加する処理を「画像加工処理」としてスキャン画像２０１に対して施し（ステップＳ１４）、認識対象画像５００（５０３）を生成する（ステップＳ１５）。ここでは、図１３に示すように、改行コードを可視化した画像（「￥ｎ」）が、末尾識別画像４３０（４３１〜４３６）として行領域４０１〜４０６のそれぞれの末尾に付加されて認識対象画像５０３が生成される。なお、ここでは改行コードを可視化した画像（「￥ｎ」）を末尾識別画像４３０として例示したが、これに限定されず、末尾識別画像４３０は、たとえば、図形（三角形、四角形等）を示す画像（アイコン等を含む）であってもよい。

また、第３実施形態のステップＳ１７の詳細内容が第１実施形態のステップＳ１７の詳細内容とは異なる。

具体的には、クラウドサーバ９０は、当該認識対象画像５０３内の文字領域から複数の行領域（（元の行領域４０１〜４０７と区別するため）「新たな行領域」とも称する）を抽出する。たとえば、クラウドサーバ９０は、当該認識対象画像５０３内の文字領域から１行目の新たな行領域を抽出する。この１行目の新たな行領域には、元の行領域４０１および末尾識別画像４３１が含まれる。同様にして、クラウドサーバ９０は、２行目以降の新たな行領域（元の各行領域４０２〜４０７および各末尾識別画像４３２〜４３６をそれぞれ含む（最終行領域は行領域４０７のみ））をそれぞれ抽出する。そして、クラウドサーバ９０は、新たな行領域のそれぞれの末尾（最終行を除く）に末尾識別画像４３１〜４３６が存在することを認識し、末尾識別画像４３１〜４３６で区切られた行領域（すなわち元の行領域４０１〜４０７）のそれぞれを互いに異なる単位認識領域として判定する。その後、クラウドサーバ９０は、認識対象画像５０３に対してＯＣＲ処理を施し、行領域４０１〜４０７に対する文字認識結果の末尾にそれぞれ区切りコードが付加されたテキストデータ５５１（図９）を認識対象画像５０３に対するＯＣＲ処理結果として生成する（ステップＳ１７）。

＜４．第４実施形態＞
第４実施形態は、第１実施形態の変形例である。以下では、第１実施形態との相違点を中心に説明する。

この第４実施形態では、クラウドサーバ９０は、ＯＣＲ処理の処理対象画像内の各行領域の文字色に基づいて各行領域を単位認識領域として判定（認識）するものとする。具体的には、クラウドサーバ９０は、処理対象画像内の或る行領域（全体）の文字色が次の行領域（全体）の文字色とは異なる場合に、処理対象画像内の当該或る行領域までの１又は２以上の行領域と次の行領域以降の１又は２以上の行領域とをそれぞれ単位認識領域として判定する。そして、クラウドサーバ９０は、各単位認識領域に対する文字認識結果の末尾に区切りコードをそれぞれ付加したテキストデータ５５０を生成する。このような判定基準に基づき、クラウドサーバ９０は処理対象画像内の文字領域を複数の単位認識領域に区分する。

また、第４実施形態では、外部端末５０は、各行領域４００の文字色を、各行領域４００にそれぞれ隣接する隣接行領域の文字色とは異なる文字色に設定する処理を、「画像加工処理」として実行する態様を例示する。外部端末５０は、このような「画像加工処理」を施すことによって、当該複数の行領域４００が互いに異なる単位認識領域であると（意図的に）クラウドサーバ９０に判定させ、所望の処理結果（各行領域４００に対する文字認識結果の末尾に区切コードがそれぞれ付加されたテキストデータ５５０）をクラウドサーバ９０から取得する。

第４実施形態においても、第１実施形態と同様に図４の各処理がそれぞれ行われる。

ただし、第４実施形態の画像加工処理（ステップＳ１４）の処理内容が第１実施形態の画像加工処理（ステップＳ１４）の処理内容とは異なる。

具体的には、外部端末５０（画像生成部６６）は、スキャン画像２０１内の行領域４０１〜４０７の文字色を、行領域４０１〜４０７にそれぞれ隣接する行領域（隣接行領域）の文字色とは異なる文字色に設定する処理を「画像加工処理」としてスキャン画像２０１に対して施し（ステップＳ１４）、認識対象画像５００（５０４）を生成する（ステップＳ１５）。

たとえば、図１４に示すように、画像生成部６６は、奇数行目の行領域４０１，４０３，４０５および４０７の文字色を「黒色」に設定し、偶数行目の行領域４０２，４０４および４０６の文字色を「赤色」に設定する。このように、画像生成部６６は、行領域４０１〜４０７の文字色を、交互に異なる（２色の）文字色に設定して認識対象画像５０４を生成する。換言すれば、画像生成部６６は、隣接し合う行領域の文字色を互いに異なる文字色に設定した認識対象画像５０４を生成する。

また、第４実施形態のステップＳ１７の詳細内容が第１実施形態のステップＳ１７の詳細内容とは異なる。

具体的には、クラウドサーバ９０は、外部端末５０から受信した認識対象画像５０４内の行領域４０１〜４０７の文字色を認識し、当該行領域４０１〜４０７の文字色が各隣接行領域とは異なることに基づいて、認識対象画像５０４内の行領域４０１〜４０７のそれぞれを互いに異なる単位認識領域として判定する。そして、クラウドサーバ９０は、認識対象画像５０４に対してＯＣＲ処理を施し、行領域４０１〜４０７に対する文字認識結果の末尾にそれぞれ区切りコードが付加されたテキストデータ５５１（図９）を認識対象画像５０４に対するＯＣＲ処理結果として生成する（ステップＳ１７）。

なお、第４実施形態では、行領域４０１〜４０７の文字色を交互に異なる（２色の）文字色に設定する態様を例示したが、これに限定されず、行領域４０１〜４０７の文字色をそれぞれ異なる文字色に設定するようにしてもよい。

たとえば、行領域４０１の文字色が「赤色」に、行領域４０２の文字色が「黒色」に、行領域４０３の文字色が「青色」に、行領域４０４の文字色が「黄色」に、行領域４０５の文字色が「緑色」に、行領域４０６の文字色が「水色」に、行領域４０７の文字色が「黄緑色」に設定されるようにしてもよい。

＜５．第５実施形態＞
第５実施形態は、第１実施形態の変形例である。以下では、第１実施形態との相違点を中心に説明する。

この第５実施形態では、クラウドサーバ９０は、ＯＣＲ処理の処理対象画像内の各行領域の行頭位置（文字列配列方向（ここでは水平方向）における位置）に基づいて各行領域を単位認識領域として判定（認識）するものとする。具体的には、クラウドサーバ９０は、処理対象画像内の或る行領域の行頭位置と次の行領域の行頭位置とが比較的大きく異なる（詳細には、所定数の文字数（たとえば４文字）以上離れている）場合に、処理対象画像内の当該或る行領域までの１又は２以上の行領域と次の行領域以降の１又は２以上の行領域とをそれぞれ単位認識領域として判定する。そして、クラウドサーバ９０は、各単位認識領域に対する文字認識結果の末尾に区切りコードをそれぞれ付加したテキストデータ５５０を生成する。このような判定基準に基づき、クラウドサーバ９０は処理対象画像内の文字領域を複数の単位認識領域に区分する。

また、第５実施形態では、外部端末５０は、各行領域４００の行頭位置を、各行領域４００にそれぞれ隣接する隣接行領域の行頭位置とは異なる位置に設定する処理を、「画像加工処理」として実行する態様を例示する。外部端末５０は、このような「画像加工処理」を施すことによって、当該複数の行領域４００が互いに異なる単位認識領域であると（意図的に）クラウドサーバ９０に判定させ、所望の処理結果（各行領域４００に対する文字認識結果の末尾に区切コードがそれぞれ付加されたテキストデータ５５０）をクラウドサーバ９０から取得する。

第５実施形態においても、第１実施形態と同様に図４の各処理がそれぞれ行われる。

ただし、第５実施形態の画像加工処理（ステップＳ１４）の処理内容が第１実施形態の画像加工処理（ステップＳ１４）の処理内容とは異なる。

具体的には、外部端末５０（画像生成部６６）は、スキャン画像２０１内の行領域４０１〜４０７の行頭位置を、行領域４０１〜４０７にそれぞれ隣接する行領域（隣接行領域）の行頭位置とは異なる位置に設定する処理を「画像加工処理」としてスキャン画像２０１に対して施し（ステップＳ１４）、認識対象画像５００（５０５）を生成する（ステップＳ１５）。

たとえば、画像生成部６６は、図１５に示すように、奇数行目の行領域４０１，４０３，４０５および４０７の行頭位置（ここでは左端の座標位置）を認識対象画像５０５内の比較的左側の位置に設定する。また、画像生成部６６は、偶数行目の行領域４０２，４０４および４０６の行頭位置を当該行領域４０１，４０３，４０５および４０７の行頭位置よりも比較的離れた位置（ここでは行領域４０１，４０３，４０５および４０７の各行頭位置から４文字以上右側の位置）にそれぞれ設定する。このように、画像生成部６６は、隣接し合う行領域の行頭位置を互いに異なる位置に設定した認識対象画像５０５を生成する。

また、第５実施形態のステップＳ１７の詳細内容が第１実施形態のステップＳ１７の詳細内容とは異なる。

具体的には、クラウドサーバ９０は、外部端末５０から受信した認識対象画像５０５内の行領域４０１〜４０７の行頭位置が各隣接行領域の行頭位置とは異なることに基づいて、認識対象画像５０５内の行領域４０１〜４０７のそれぞれを互いに異なる単位認識領域として判定する。そして、クラウドサーバ９０は、認識対象画像５０５に対してＯＣＲ処理を施し、行領域４０１〜４０７に対する文字認識結果の末尾にそれぞれ区切りコードが付加されたテキストデータ５５１（図９）を認識対象画像５０５に対するＯＣＲ処理結果として生成する（ステップＳ１７）。

＜６．第６実施形態＞
第６実施形態は、第１実施形態の変形例である。以下では、第１実施形態との相違点を中心に説明する。

この第６実施形態では、クラウドサーバ９０は、ＯＣＲ処理の処理対象画像内の各行領域の文字サイズに基づいて各行領域を単位認識領域として判定（認識）するものとする。具体的には、クラウドサーバ９０は、処理対象画像内の或る行領域（全体）の文字サイズが次の行領域（全体）の文字サイズとは異なる（詳細には、所定ポイント以上異なる）場合に、処理対象画像内の当該或る行領域までの１又は２以上の行領域と次の行領域以降の１又は２以上の行領域とをそれぞれ単位認識領域として判定する。そして、クラウドサーバ９０は、各単位認識領域に対する文字認識結果の末尾に区切りコードをそれぞれ付加したテキストデータ５５０を生成する。このような判定基準に基づき、クラウドサーバ９０は処理対象画像内の文字領域を複数の単位認識領域に区分する。

また、第６実施形態では、外部端末５０は、各行領域４００の文字サイズを、各行領域４００にそれぞれ隣接する隣接行領域の文字サイズとは異なる文字サイズに設定する処理を、「画像加工処理」として実行する態様を例示する。外部端末５０は、このような「画像加工処理」を施すことによって、当該複数の行領域４００が互いに異なる単位認識領域であると（意図的に）クラウドサーバ９０に判定させ、所望の処理結果（各行領域４００に対する文字認識結果の末尾に区切コードがそれぞれ付加されたテキストデータ５５０）をクラウドサーバ９０から取得する。

第６実施形態においても、第１実施形態と同様に図４の各処理がそれぞれ行われる。

ただし、第６実施形態の画像加工処理（ステップＳ１４）の処理内容が第１実施形態の画像加工処理（ステップＳ１４）の処理内容とは異なる。

具体的には、外部端末５０（画像生成部６６）は、スキャン画像２０１内の行領域４０１〜４０７の文字サイズを、行領域４０１〜４０７にそれぞれ隣接する行領域（隣接行領域）の文字サイズとは異なる文字サイズに設定する処理を「画像加工処理」としてスキャン画像２０１に対して施し（ステップＳ１４）、認識対象画像５００（５０６）を生成する（ステップＳ１５）。

たとえば、画像生成部６６は、図１６に示すように、奇数行目の行領域４０１，４０３，４０５および４０７の文字サイズを比較的大きな文字サイズ（たとえば３２ポイント）に設定する。また、画像生成部６６は、偶数行目の行領域４０２，４０４および４０６の文字サイズを当該４０１，４０３，４０５および４０７よりも比較的小さな文字サイズ（たとえば１６ポイント）に設定する。このように、画像生成部６６は、隣接し合う行領域の文字サイズを互いに異なる文字サイズに設定した認識対象画像５０６を生成する。

また、第６実施形態のステップＳ１７の詳細内容が第１実施形態のステップＳ１７の詳細内容とは異なる。

具体的には、クラウドサーバ９０は、外部端末５０から受信した認識対象画像５０６内の行領域４０１〜４０７の文字サイズを認識し、当該行領域４０１〜４０７の文字サイズが各隣接行領域の文字サイズとは異なることに基づいて、認識対象画像５０６内の行領域４０１〜４０７のそれぞれを互いに異なる単位認識領域として判定する。そして、クラウドサーバ９０は、認識対象画像５０６に対してＯＣＲ処理を施し、行領域４０１〜４０７に対する文字認識結果の末尾にそれぞれ区切りコードが付加されたテキストデータ５５１（図９）を認識対象画像５０６に対するＯＣＲ処理結果として生成する（ステップＳ１７）。

＜７．第７実施形態＞
上記各実施形態では、クラウドサーバ９０によって単位認識領域の判定に用いられる判定手法（たとえば、行領域間の離間間隔に基づいて単位認識領域を判定する手法）が外部端末５０のプログラムの設計者等に知られていることを前提として、スキャン画像２００に対して当該判定手法に応じた画像加工処理が施される態様を例示した。

この第７実施形態では、当該判定手法が、外部端末５０のプログラムの設計者等に知られていない場合（謂わば外部端末５０が当該判定手法を知得していない場合）に、クラウドサーバ９０に問い合わせることによって当該判定手法を知得し、クラウドサーバ９０から知得した判定手法に応じた画像加工処理をスキャン画像２００に対して施す態様を例示する。

図１７は、第７実施形態に係る電子文書生成システム１における動作例を示すタイミングチャートである。図１７に示すように、図４のステップＳ１１〜ステップＳ１９の各処理と同様の処理に加えて、ステップＳ１３とＳ１４との間にステップＳ２１およびＳ２２の処理が行われる。

具体的には、外部端末５０は、ステップＳ１１〜Ｓ１３の処理の後において、クラウドサーバ９０によって単位認識領域の判定に用いられる判定手法を、認識対象画像５００の生成に先立ってクラウドサーバ９０に問い合わせる（ステップＳ２１）。

クラウドサーバ９０は、外部端末５０からの当該問合せに応答して、当該判定手法に関する情報を外部端末５０に送信する（ステップＳ２２）。たとえば、クラウドサーバ９０において単位認識領域の判定に用いられる判定手法（単位認識領域の判定基準）が、区切線に基づき単位認識領域を判定する手法（第２実施形態参照）である場合には、クラウドサーバ９０は、その旨を外部端末５０に送信する。

外部端末５０は、当該判定手法に関する情報をクラウドサーバ９０から受信すると、当該判定手法に応じた画像加工処理をスキャン画像２００に対して施して（ステップＳ１４）、認識対象画像５００を生成する（ステップＳ１５）。

たとえば、外部端末５０（文書生成部６７）は、クラウドサーバ９０において区切線に基づいて単位認識領域が判定される旨を知得すると、スキャン画像２００内の複数の行領域４００の相互間の行間領域に区切線Ｌをそれぞれ付加する処理を画像加工処理として施し（ステップＳ１４）、認識対象画像５００を生成する（ステップＳ１５）（図１２も参照）。

なお、ステップＳ１６以降の処理は上記各実施形態と同様にして行われる。

このような態様によれば、外部端末５０は、クラウドサーバ９０によって単位認識領域の判定に用いられる判定手法を知得していない場合であっても、クラウドサーバ９０に問い合わせることによって当該判定手法を知得することができるので、当該判定手法に応じた適切な画像加工処理をスキャン画像２００に対して施すことが可能である。

また、たとえば複数のクラウドサーバ９０が存在し且つ各クラウドサーバ９０がそれぞれ異なる判定手法を採用している場合であっても、外部端末５０は、各クラウドサーバ９０によって採用されている判定手法を問い合わせることによってそれぞれの判定手法を知得することができる。そのため、各クラウドサーバ９０の各判定手法に応じた適切な画像加工処理をスキャン画像２００に対して施すことが可能である。

＜８．第８実施形態＞
第７実施形態では、外部端末５０が、クラウドサーバ９０によって単位認識領域の判定に用いられる判定手法を知得していない場合に、クラウドサーバ９０に問い合わせることによって当該判定手法を知得し、当該判定手法に応じた画像加工処理を施す態様を例示した。

この第８実施形態では、外部端末５０が当該判定手法を知得していない場合に、互いに異なる複数の画像加工処理がそれぞれ施された複数のテスト画像が生成され、当該テスト画像に対してそれぞれＯＣＲ処理がクラウドサーバ９０において実行される。そして、各ＯＣＲ処理結果に基づき当該判定手法が特定（推定）され、特定された判定手法に応じた画像加工処理（最適加工処理）が施される。

図１８は、第８実施形態に係る電子文書生成システム１における動作例を示すタイミングチャートである。図１８に示すように、図４のステップＳ１１〜ステップＳ１９の各処理と同様の処理に加えて、ステップＳ１３とＳ１４（Ｓ１４Ａ）との間にステップＳ３１〜Ｓ３４の処理がそれぞれ行われる。

具体的には、ステップＳ１１〜Ｓ１３の処理の後において、抽出部６４は、行領域４０１〜４０７のうち一部（２以上）の行領域（ここでは３つの行領域４０１〜４０３を含む部分２５１）をスキャン画像２０１から抽出する（図１９参照）。より詳細には、行領域４０１〜４０７のうち３つの行領域４０１〜４０３が抽出部６４により抽出されて部分画像（部分２５１に基づく画像）が画像生成部６６により生成される。また、当該部分２５１の抽出に際して、画像生成部６６は、部分２５１（一部の行領域４０１〜４０３）内の行領域の個数（行領域数）を検出する。

そして、画像生成部６６は、当該部分（部分画像）２５１に関して互いに異なる複数（ここでは３つ）の画像加工処理（７０１〜７０３等）をそれぞれ施して互いに異なる複数のテスト画像（５３１〜５３３等）を生成する（ステップＳ３１）。具体的には、画像生成部６６は、部分２５１（行領域４０１〜４０３）に関して画像加工処理７０１（行領域の相互間の離間間隔を最大高さＨ以上の大きさＨ１０（行領域４０１の高さＨ１以上の大きさＨ１１（＝Ｈ１＋ΔＨ））にそれぞれ設定する処理）を施してテスト画像５３１（図２０）を生成する。また、画像生成部６６は、部分２５１に関して画像加工処理７０２（行領域の相互間の行間領域に区切線Ｌ（Ｌ１，Ｌ２）をそれぞれ付加する処理）を施してテスト画像５３２（図２１）を生成する。さらに、画像生成部６６は、部分２５１に関して画像加工処理７０３（各行領域の末尾に末尾識別画像４３０（４３１，４３２）をそれぞれ付加する処理）を施してテスト画像５３３（図２２）を生成する。そして、送信部５４ａは、当該複数のテスト画像５３１〜５３３をクラウドサーバ９０に送信する（ステップＳ３１）。

クラウドサーバ９０は、当該複数のテスト画像５３１〜５３３を外部端末５０から受信すると、各テスト画像５３１〜５３３に対してそれぞれＯＣＲ処理を実行し、複数のテスト結果（ＯＣＲ処理結果（テキストデータ））５７０（５７１〜５７３）（図２３）を生成する（ステップＳ３２）。そして、クラウドサーバ９０は、当該複数のテスト結果５７１〜５７３を外部端末５０に送信する（ステップＳ３３）。

外部端末５０は、当該複数のテスト結果５７１〜５７３をクラウドサーバ９０から受信すると、最適加工処理（次述）を決定する（ステップＳ３４）。

具体的には、外部端末５０（画像生成部６６）は、テスト結果５７１〜５７３のそれぞれに含まれる区切りコード（改行コード）に基づいて、当該テスト結果５７１〜５７３のそれぞれに含まれる文字列データ（文字認識結果）の個数（文字列データ数）を検出する。図２３に示すように、画像加工処理７０１が施されたテスト画像５３１に対するテスト結果（ＯＣＲ処理結果）５７１に含まれる区切りコードの個数は「３」であり、文字列データ数（文字列データ４６１〜４６３の個数）は「３」である。また、画像加工処理７０２が施されたテスト画像５３２に対するテスト結果５７２に含まれる区切りコードの個数は「１」であり、文字列データ数（文字列データ４７１の個数）は「１」である。さらに、画像加工処理７０３が施されたテスト画像５３３に対するテスト結果５７３に含まれる区切りコードの個数は「１」であり、文字列データ数（文字列データ４８１の個数）は「１」である。

そして、画像生成部６６は、複数のテスト結果５７１〜５７３のそれぞれについてその文字列データ数と一部の行領域（部分２５１（行領域４０１〜４０３））の個数（行領域数）との差（個数差）を求める。当該個数差が複数のテスト結果５７１〜５７３のそれぞれについて求められると、画像生成部６６は、複数のテスト結果５７１〜５７３のうち、当該個数差が最も小さいテスト結果を最良テスト結果として求める。ここでは、各テスト画像５３１〜５３３のそれぞれに含まれる一部の行領域（部分２５１に含まれる行領域４０１〜４０３）の行領域数は「３」であり、テスト結果５７１〜５７３のうち、その文字列データ数（換言すれば区切りコードの個数）と当該行領域数「３」との差（個数差）が最も小さいテスト結果は、テスト結果５７１である。当該テスト結果５７１が最良テスト結果として決定される。

最良テスト結果が求められると、画像生成部６６は、複数の画像加工処理７０１〜７０３のうち、当該最良テスト結果５７１に対応する画像加工処理（ここでは画像加工処理７０１）を「最適加工処理」として決定する（図２３参照）。

このように、クラウドサーバ９０によって単位認識領域の判定に用いられる判定手法を外部端末５０が知得していない場合には、互いに異なる複数の画像加工処理７０１〜７０３がそれぞれ施された互いに異なる複数のテスト画像５３１〜５３３が生成される。そして、当該テスト画像５３１〜５３３に対する複数のＯＣＲ処理結果（テスト結果）５７１〜５７３に基づいて、最適加工処理が決定される。換言すれば、外部端末５０は、互いに異なる複数の画像加工処理がそれぞれ施された互いに異なる複数のテスト画像５３１〜５３３に対するＯＣＲ処理をクラウドサーバ９０に行わせることによって、クラウドサーバ９０において単位認識領域の判定に採用されている判定手法を特定（推定）する。

最適加工処理が決定される（ステップＳ４４）と、抽出部６４は、スキャン画像２０１内の行領域４０１〜４０７のうち行領域４０１〜４０３を除く残余の行領域４０４〜４０７（部分２５２）（図１９）をスキャン画像２０１から抽出する。より詳細には、行領域４０１〜４０７のうち当該残余の行領域４０４〜４０７が抽出部６４により抽出されて部分画像（部分２５２に基づく画像）が画像生成部６６により生成される。そして、画像生成部６６は、当該部分（部分画像）２５２に関して最適加工処理（画像加工処理７０１）を施して（ステップＳ１４Ａ）、認識対象画像５４１（図２４）を生成する（ステップＳ１５）。認識対象画像５４１においては、当該最適加工処理によって、行領域４０４〜４０７の相互間の離間間隔が、行領域４０４〜４０７のうち最も高い行領域の高さ（ここでは行領域４０４の高さＨ４）以上の大きさＨ１４（＝Ｈ４＋ΔＨ）にそれぞれ設定されて、各行領域４０４〜４０７が配置される。

そして、当該認識対象画像５４１は外部端末５０からクラウドサーバ９０へと送信され（ステップＳ１６）、クラウドサーバ９０においてＯＣＲ処理が実行されてテキストデータ５８１（残余の行領域４０４〜４０７に関するテキストデータ）（図２５）が生成される（ステップＳ１７）。

当該テキストデータ５８１がクラウドサーバ９０から受信される（ステップＳ１８）と、外部端末５０（文書生成部６７）は、最良テスト結果５７１（図２３）に含まれる区切りコードとテキストデータ５８１（図２５）に含まれる区切りコードとに基づき、当該最良テスト結果５７１とテキストデータ５８１とで構成されるデータを複数の文字列データに区分する。

具体的には、文書生成部６７は、最良テスト結果５７１（行領域４０１〜４０３に関するＯＣＲ処理結果）を３つの区切りコードに基づき３つの文字列データ４６１〜４６３（図２３）に区分する。また、文書生成部６７は、テキストデータ５８１（行領域４０４〜４０７に関するＯＣＲ処理結果）を４つの区切りコードに基づき４つの文字列データ４５４〜４５７（図２５）に区分する。

そして、文書生成部６７は、各行領域４０１〜４０７と各文字列データ４６１〜４６３および４５４〜４５７との対応関係を決定し、各文字列データ４６１〜４６３および４５４〜４５７に対応する各行領域４０１〜４０７に当該各文字列データ４６１〜４６３および４５４〜４５７をそれぞれ配置して電子文書６００（６０１）を生成する。

このような態様によれば、外部端末５０は、クラウドサーバ９０によって単位認識領域の判定に用いられる判定手法を知得していない場合であっても、互いに異なる複数の画像加工処理がそれぞれ施された互いに異なる複数のテスト画像を用いて当該判定手法を特定することができるので、特定された判定手法に応じた（適切な）画像加工処理をスキャン画像２００に対して施すことが可能である。

なお、第８実施形態では、スキャン画像２０１から部分２５１（行領域４０１〜４０３）が抽出され、当該部分２５１に関して互いに異なる複数の画像加工処理がそれぞれ施される態様を例示したが、これに限定されない。

たとえば、スキャン画像２００（２０１）とは別のサンプル画像（２以上の行領域で構成される画像）に対して互いに異なる複数の画像加工処理がそれぞれ施されるようにしてもよい。

具体的には、外部端末５０（画像生成部６６）は、格納部５５からサンプル画像を抽出し、当該サンプル画像に対して互いに異なる複数の画像加工処理をそれぞれ施して互いに異なる複数のテスト画像５３０を生成する（ステップＳ３１）。また、当該サンプル画像の抽出に際して、画像生成部６６は、サンプル画像内の行領域の個数（行領域数）を検出する。そして、外部端末５０は、当該複数のテスト画像５３０をクラウドサーバ９０に送信する（ステップＳ３１）。

クラウドサーバ９０は、外部端末５０から受信した各テスト画像５３０に対してＯＣＲ処理をそれぞれ実行して複数のテスト結果（ＯＣＲ処理結果）５７０（図２３）を生成する（ステップＳ３２）。そして、クラウドサーバ９０は、当該複数のテスト結果５７０を外部端末５０に送信する（ステップＳ３３）。

外部端末５０は、当該複数のテスト結果５７０をクラウドサーバ９０から受信すると、次述のようにして最適加工処理を決定する（ステップＳ３４）。

具体的には、外部端末５０（画像生成部６６）は、複数のテスト結果５７０のそれぞれに含まれる区切りコードに基づいて、当該複数のテスト結果のそれぞれに含まれる文字列データの個数（文字列データ数）を検出する。そして、画像生成部６６は、複数のテスト結果５７０のそれぞれについてその文字列データ数とサンプル画像に含まれる行領域の個数（行領域数）との差（個数差）を求める。当該個数差が複数のテスト結果５７０のそれぞれについて求められると、画像生成部６６は、複数のテスト結果５７０のうち、当該個数差が最も小さいテスト結果を最良テスト結果として求め、複数の画像加工処理のうち、当該最良テスト結果に対応する画像加工処理を「最適加工処理」として決定する。

最適加工処理が決定されると、画像生成部６６は、スキャン画像２０１に対して当該最適加工処理を施して（ステップＳ１４Ａ）、認識対象画像５００を生成する（ステップＳ１５）。

また、ステップＳ１６以降の処理は上記第１〜第７実施形態と同様にして行われる。

なお、ここでは上記互いに異なる複数のテスト画像５３０は、サンプル画像に基づき画像生成部６６によって生成される態様を例示したが、当該複数のテスト画像５３０は、外部端末５０によって予め生成されて格納されていてもよい。また、当該複数のテスト画像５３０内の行領域数が予め検出されていてもよい。

＜９．変形例等＞
以上、この発明の実施の形態について説明したが、この発明は上記内容のものに限定されるものではない。

たとえば、上記各実施形態では、スキャン画像２０１全体に対して画像加工処理が施されて一の認識対象画像５００が生成される態様を例示したが、これに限定されない。具体的には、スキャン画像２０１内の行領域４０１〜４０７が複数の部分（たとえば２つの部分（行領域４０１〜４０３および行領域４０４〜４０７））に区分され、当該複数の部分のそれぞれに関して画像加工処理以降の処理（ステップＳ１４〜Ｓ１９）が実行されるようにしてもよい。

また、上記各実施形態においては、単一の画像加工処理がスキャン画像２００（２０１）に対して施されて認識対象画像５００が生成される態様を例示したが、これに限定されず、複数の画像加工処理が施された認識対象画像５００が生成されるようにしてもよい。

たとえば、外部端末５０（画像生成部６６）は、スキャン画像２０１に対して複数（ここでは２つ）の画像加工処理を施して認識対象画像５００（５１１）を生成する。具体的には、画像生成部６６は、スキャン画像２０１内の複数の行領域４０１〜４０７の相互間の離間間隔を当該複数の行領域４０１〜４０７のうち最も高い行領域の高さ（行領域４０１の高さＨ１）以上の大きさＨ１１（＝Ｈ１＋ΔＨ）にそれぞれ設定する処理を１つ目の画像加工処理（第１実施形態参照）として実行する。そして、画像生成部６６は、当該複数の行領域４０１〜４０７の相互間の行間領域に区切線Ｌ（Ｌ１〜Ｌ６）をそれぞれ付加する処理を２つ目の画像加工処理（第２実施形態参照）として実行する。画像生成部６６は、このような２つの画像加工処理をスキャン画像２００に対して施して認識対象画像５１１（図２６参照）を生成する。

この変形例に係る態様は、クラウドサーバ９０における単位認識領域の判定手法が不明である（特定されていない）場合に特に有用である。

クラウドサーバ９０における単位認識領域の判定手法が特定されていない場合であっても、スキャン画像２００に対して施された複数の画像加工処理のうちのいずれかが、当該判定手法に応じた画像加工処理であれば、認識対象画像５００内の各行領域４０１〜４０７が互いに異なる単位認識領域としてクラウドサーバ９０により判定される。複数の画像加工処理が施されることによれば、単一の画像加工処理が施される場合よりも、認識対象画像５００内の各行領域４０１〜４０７が互いに異なる単位認識領域としてクラウドサーバ９０により判定される可能性が高くなる。

また、上記各実施形態等においては、電子文書生成装置として外部端末５０を例示したが、これに限定されない。たとえば、ＭＦＰ１０が電子文書生成装置として各種の処理（たとえば図４のステップＳ１１〜Ｓ１６およびＳ１９の処理等）を行うようにしてもよい。すなわち、外部端末５０を用いずに、ＭＦＰ１０において画像加工処理等が行われるとともにＭＦＰ１０とクラウドサーバ９０との間で各種データの送受信動作等が行われ、ＭＦＰ１０によって電子文書６００が生成されるようにしてもよい。

また、上記各実施形態等においては、各行領域が横書きの文字列（横方向に伸びる１行の文字列）で構成される態様を主に説明したが、これに限定されず、各行領域が縦書きの文字列（縦方向に伸びる１行（１列）の文字列）で構成される場合にも上記思想を適用することが可能である。

１画像形成システム（電子文書生成システム）
１０ＭＦＰ（画像形成装置）
５０外部端末
９０クラウドサーバ
２００，２０１スキャン画像
４００〜４０７行領域
４３０〜４３６末尾識別画像
４５１〜４５７文字列データ
５００〜５０６，５１１，５４１認識対象画像
５３０〜５３３テスト画像
５７０〜５７３テスト結果
５５０，５５１，５８１テキストデータ
６００，６０１電子文書

Claims

光学文字認識処理の処理対象画像内の文字領域を、１行の行領域よりも大きな領域をそれぞれ含み得る複数の単位認識領域に区分するとともに当該複数の単位認識領域のそれぞれに対して前記光学文字認識処理を実行するクラウドサーバであって、前記複数の単位認識領域のそれぞれに対する文字認識結果を含むとともに各単位認識領域に対する文字認識結果の末尾にそれぞれ区切りコードを付加したテキストデータを、前記処理対象画像に対する前記光学文字認識処理の処理結果として生成するクラウドサーバ、と連携して電子文書を生成する電子文書生成装置であって、
原稿のスキャン画像の文字領域から複数の行領域をそれぞれ抽出する抽出手段と、
前記複数の行領域のそれぞれが単位認識領域として前記クラウドサーバにより判定されるように、前記スキャン画像に対して画像加工処理を施して認識対象画像を生成する画像生成手段と、
前記認識対象画像を前記光学文字認識処理の前記処理対象画像として前記クラウドサーバに送信する送信手段と、
前記認識対象画像に対する前記光学文字認識処理の処理結果である前記テキストデータを前記クラウドサーバから受信する受信手段と、
前記テキストデータに含まれる前記区切りコードに基づき前記テキストデータを複数の文字列データに区分するとともに前記複数の行領域と前記複数の文字列データとの対応関係を決定し、各文字列データに対応する各行領域に当該各文字列データをそれぞれ配置して前記電子文書を生成する文書生成手段と、
を備えることを特徴とする電子文書生成装置。
請求項１に記載の電子文書生成装置であって、
前記複数の行領域の前記スキャン画像内における位置をそれぞれ検出する検出手段、
をさらに備え、
前記文書生成手段は、前記各文字列データに対応する前記各行領域の検出位置に前記各文字列データをそれぞれ配置して前記電子文書を生成することを特徴とする電子文書生成装置。
請求項１または請求項２に記載の電子文書生成装置において、
前記画像加工処理は、前記複数の行領域のそれぞれの高さを検出し、前記複数の行領域の相互間の離間間隔を前記複数の行領域のうち最も高い行領域の高さ以上の大きさにそれぞれ設定する処理を含むことを特徴とする電子文書生成装置。
請求項１または請求項２に記載の電子文書生成装置において、
前記画像加工処理は、前記複数の行領域のそれぞれの高さを検出し、前記複数の行領域のうち最終行以外の各行領域と当該各行領域のそれぞれの次の行領域との相互間の離間間隔を、前記各行領域のそれぞれの高さ以上の大きさにそれぞれ設定する処理を含むことを特徴とする電子文書生成装置。
請求項１または請求項２に記載の電子文書生成装置において、
前記画像加工処理は、前記複数の行領域の相互間の行間領域に区切線をそれぞれ付加する処理を含むことを特徴とする電子文書生成装置。
請求項１または請求項２に記載の電子文書生成装置において、
前記画像加工処理は、前記複数の行領域のうち少なくとも最終行以外の各行領域のそれぞれの末尾に、前記単位認識領域の末尾であることを示す末尾識別画像を付加する処理を含むことを特徴とする電子文書生成装置。
請求項１または請求項２に記載の電子文書生成装置において、
前記画像加工処理は、各行領域の文字色を、前記各行領域にそれぞれ隣接する隣接行領域の文字色とは異なる文字色に設定する処理を含むことを特徴とする電子文書生成装置。
請求項１または請求項２に記載の電子文書生成装置において、
前記画像加工処理は、各行領域の行頭位置を、前記各行領域にそれぞれ隣接する隣接行領域の行頭位置とは異なる位置に設定する処理を含むことを特徴とする電子文書生成装置。
請求項１または請求項２に記載の電子文書生成装置において、
前記画像加工処理は、各行領域の文字サイズを、前記各行領域にそれぞれ隣接する隣接行領域の文字サイズとは異なる文字サイズに設定する処理を含むことを特徴とする電子文書生成装置。
請求項１または請求項２に記載の電子文書生成装置において、
前記送信手段は、前記クラウドサーバによって前記単位認識領域の判定に用いられる判定手法を、前記認識対象画像の生成に先立って前記クラウドサーバに問い合わせ、
前記受信手段は、前記判定手法に関する情報を前記クラウドサーバから受信し、
前記画像生成手段は、前記判定手法に応じた画像加工処理を前記スキャン画像に対して施して前記認識対象画像を生成することを特徴とする電子文書生成装置。
請求項１または請求項２に記載の電子文書生成装置において、
前記画像生成手段は、互いに異なる複数の画像加工処理がそれぞれ施された互いに異なる複数のテスト画像であって前記複数の行領域のうち一部の行領域をそれぞれ含む複数のテスト画像を生成し、
前記送信手段は、前記複数のテスト画像を前記クラウドサーバに送信し、
前記受信手段は、前記複数のテスト画像に対してそれぞれ実行された前記光学文字認識処理の処理結果である複数のテスト結果を前記クラウドサーバから受信し、
前記画像生成手段は、
前記複数のテスト結果のそれぞれに含まれる区切りコードに基づいて、前記複数のテスト結果のそれぞれに含まれる文字列データの個数である文字列データ数を検出し、
前記複数のテスト結果のそれぞれについてその文字列データ数と前記一部の行領域の個数との差である個数差を求めるとともに、前記複数のテスト結果のうち、前記個数差が最も小さいテスト結果を最良テスト結果として求め、前記複数の画像加工処理のうち、前記最良テスト結果に対応する画像加工処理を最適加工処理として決定し、
前記複数の行領域のうち前記一部の行領域を除く残余の行領域に関して前記最適加工処理を施して前記認識対象画像を生成し、
前記文書生成手段は、前記最良テスト結果に含まれる区切りコードと前記テキストデータに含まれる区切りコードとに基づき、前記最良テスト結果と前記テキストデータとで構成されるデータを複数の文字列データに区分するとともに、前記複数の行領域と前記複数の文字列データとの対応関係を決定し、各文字列データに対応する各行領域に当該各文字列データをそれぞれ配置して前記電子文書を生成することを特徴とする電子文書生成装置。
請求項１または請求項２に記載の電子文書生成装置において、
前記送信手段は、サンプル画像に対して互いに異なる複数の画像加工処理をそれぞれ施して生成された複数のテスト画像を前記クラウドサーバに送信し、
前記受信手段は、前記複数のテスト画像に対してそれぞれ実行された前記光学文字認識処理の処理結果である複数のテスト結果を前記クラウドサーバから受信し、
前記画像生成手段は、
前記複数のテスト結果のそれぞれに含まれる区切りコードに基づいて、前記複数のテスト結果のそれぞれに含まれる文字列データの個数である文字列データ数を検出し、
前記複数のテスト結果のそれぞれについてその文字列データ数と前記サンプル画像に含まれる行領域の個数との差である個数差を求めるとともに、前記複数のテスト結果のうち、前記個数差が最も小さいテスト結果を最良テスト結果として求め、前記複数の画像加工処理のうち、前記最良テスト結果に対応する画像加工処理を最適加工処理として決定し、
前記スキャン画像に対して前記最適加工処理を施して前記認識対象画像を生成することを特徴とする電子文書生成装置。
光学文字認識処理の処理対象画像内の文字領域を、１行の行領域よりも大きな領域をそれぞれ含み得る複数の単位認識領域に区分するとともに当該複数の単位認識領域のそれぞれに対して前記光学文字認識処理を実行するクラウドサーバであって、前記複数の単位認識領域のそれぞれに対する文字認識結果を含むとともに各単位認識領域に対する文字認識結果の末尾にそれぞれ区切りコードを付加したテキストデータを、前記処理対象画像に対する前記光学文字認識処理の処理結果として生成するクラウドサーバ、と連携して電子文書を生成する電子文書生成装置に内蔵されたコンピュータに、
ａ）原稿のスキャン画像の文字領域から複数の行領域をそれぞれ抽出するステップと、
ｂ）前記複数の行領域のそれぞれが単位認識領域として前記クラウドサーバにより判定されるように、前記スキャン画像に対して画像加工処理を施して認識対象画像を生成するステップと、
ｃ）前記認識対象画像を前記光学文字認識処理の前記処理対象画像として前記クラウドサーバに送信するステップと、
ｄ）前記認識対象画像に対する前記光学文字認識処理の処理結果である前記テキストデータを前記クラウドサーバから受信するステップと、
ｅ）前記テキストデータに含まれる前記区切りコードに基づき前記テキストデータを複数の文字列データに区分するとともに前記複数の行領域と前記複数の文字列データとの対応関係を決定するステップと、
ｆ）各文字列データに対応する各行領域に当該各文字列データをそれぞれ配置して前記電子文書を生成するステップと、
を実行させるためのプログラム。
請求項１３に記載のプログラムにおいて、
前記コンピュータに、
ｇ）前記複数の行領域の前記スキャン画像内における位置をそれぞれ検出するステップ、
をさらに実行させ、
前記ステップｆ）においては、前記ステップｇ）での検出位置に基づき、前記各文字列データに対応する前記各行領域の検出位置に前記各文字列データがそれぞれ配置されて、前記電子文書が生成されることを特徴とするプログラム。
請求項１３または請求項１４に記載のプログラムにおいて、
前記画像加工処理は、前記複数の行領域のそれぞれの高さを検出し、前記複数の行領域の相互間の離間間隔を前記複数の行領域のうち最も高い行領域の高さ以上の大きさにそれぞれ設定する処理を含むことを特徴とするプログラム。
請求項１３または請求項１４に記載のプログラムにおいて、
前記画像加工処理は、前記複数の行領域のそれぞれの高さを検出し、前記複数の行領域のうち最終行以外の各行領域と当該各行領域のそれぞれの次の行領域との相互間の離間間隔を、前記各行領域のそれぞれの高さ以上の大きさにそれぞれ設定する処理を含むことを特徴とするプログラム。
請求項１３または請求項１４に記載のプログラムにおいて、
前記画像加工処理は、前記複数の行領域の相互間の行間領域に区切線をそれぞれ付加する処理を含むことを特徴とするプログラム。
請求項１３または請求項１４に記載のプログラムにおいて、
前記画像加工処理は、前記複数の行領域のうち少なくとも最終行以外の各行領域のそれぞれの末尾に、前記単位認識領域の末尾であることを示す末尾識別画像を付加する処理を含むことを特徴とするプログラム。
請求項１３または請求項１４に記載のプログラムにおいて、
前記画像加工処理は、各行領域の文字色を、前記各行領域にそれぞれ隣接する隣接行領域の文字色とは異なる文字色に設定する処理を含むことを特徴とするプログラム。
請求項１３または請求項１４に記載のプログラムにおいて、
前記画像加工処理は、各行領域の行頭位置を、前記各行領域にそれぞれ隣接する隣接行領域の行頭位置とは異なる位置に設定する処理を含むことを特徴とするプログラム。
請求項１３または請求項１４に記載のプログラムにおいて、
前記画像加工処理は、各行領域の文字サイズを、前記各行領域にそれぞれ隣接する隣接行領域の文字サイズとは異なる文字サイズに設定する処理を含むことを特徴とするプログラム。
請求項１３または請求項１４に記載のプログラムにおいて、
前記コンピュータに、
ｈ）前記クラウドサーバによって前記単位認識領域の判定に用いられる判定手法を、前記ステップｂ）に先立って前記クラウドサーバに問い合わせるステップと、
ｉ）前記判定手法に関する情報を前記クラウドサーバから受信するステップと、
をさらに実行させ、
前記ステップｂ）においては、前記判定手法に応じた画像加工処理が前記スキャン画像に対して施されて前記認識対象画像が生成されることを特徴とするプログラム。
請求項１３または請求項１４に記載のプログラムにおいて、
前記コンピュータに、
ｈ）前記ステップｂ）に先立って、互いに異なる複数の画像加工処理がそれぞれ施された互いに異なる複数のテスト画像であって前記複数の行領域のうち一部の行領域をそれぞれ含む複数のテスト画像を生成するステップと、
ｉ）前記複数のテスト画像を前記クラウドサーバに送信するステップと、
ｊ）前記複数のテスト画像に対してそれぞれ実行された前記光学文字認識処理の処理結果である複数のテスト結果を前記クラウドサーバから受信するステップと、
ｋ）前記クラウドサーバから受信した前記複数のテスト結果のそれぞれに含まれる区切りコードに基づいて、前記複数のテスト結果のそれぞれに含まれる文字列データの個数である文字列データ数を検出するステップと、
ｌ）前記複数のテスト結果のそれぞれについてその文字列データ数と前記一部の行領域の個数との差である個数差を求めるとともに、前記複数のテスト結果のうち、前記個数差が最も小さいテスト結果を最良テスト結果として求め、前記複数の画像加工処理のうち、前記最良テスト結果に対応する画像加工処理を最適加工処理として決定するステップと、
をさらに実行させ、
前記ステップｂ）においては、前記複数の行領域のうち前記一部の行領域を除く残余の行領域に関して前記最適加工処理が施されて前記認識対象画像が生成され、
前記ステップｅ）においては、前記最良テスト結果に含まれる区切りコードと前記テキストデータに含まれる区切りコードとに基づき、前記最良テスト結果と前記テキストデータとで構成されるデータが複数の文字列データに区分されるとともに、前記複数の行領域と前記複数の文字列データとの対応関係が決定されることを特徴とするプログラム。
請求項１３または請求項１４に記載のプログラムにおいて、
前記コンピュータに、
ｈ）前記ステップｂ）に先立って、サンプル画像に対して互いに異なる複数の画像加工処理をそれぞれ施して生成された複数のテスト画像を前記クラウドサーバに送信するステップと、
ｉ）前記複数のテスト画像に対してそれぞれ実行された前記光学文字認識処理の処理結果である複数のテスト結果を前記クラウドサーバから受信するステップと、
ｊ）前記クラウドサーバから受信した前記複数のテスト結果のそれぞれに含まれる区切りコードに基づいて、前記複数のテスト結果のそれぞれに含まれる文字列データの個数である文字列データ数を検出するステップと、
ｋ）前記複数のテスト結果のそれぞれについてその文字列データ数と前記サンプル画像に含まれる行領域の個数との差である個数差を求めるとともに、前記複数のテスト結果のうち、前記個数差が最も小さいテスト結果を最良テスト結果として求め、前記複数の画像加工処理のうち、前記最良テスト結果に対応する画像加工処理を最適加工処理として決定するステップと、
をさらに実行させ、
前記ステップｂ）においては、前記スキャン画像に対して前記最適加工処理が施されて前記認識対象画像が生成されることを特徴とするプログラム。
電子文書生成システムであって、
原稿のスキャン画像を生成する画像形成装置と、
クラウドサーバと連携し、前記スキャン画像に基づく電子文書を生成する電子文書生成装置と、
を備え、
前記クラウドサーバは、
光学文字認識処理の処理対象画像内の文字領域を、１行の行領域よりも大きな領域をそれぞれ含み得る複数の単位認識領域に区分するとともに当該複数の単位認識領域のそれぞれに対して前記光学文字認識処理を実行し、
前記複数の単位認識領域のそれぞれに対する文字認識結果を含むとともに各単位認識領域に対する文字認識結果の末尾にそれぞれ区切りコードを付加したテキストデータを、前記処理対象画像に対する前記光学文字認識処理の処理結果として生成し、
前記画像形成装置は、
前記スキャン画像を前記電子文書生成装置に送信する通信手段、
を有し、
前記電子文書生成装置は、
前記画像形成装置から受信した前記スキャン画像の文字領域から複数の行領域をそれぞれ抽出する抽出手段と、
前記複数の行領域のそれぞれが単位認識領域として前記クラウドサーバにより判定されるように、前記スキャン画像に対して画像加工処理を施して認識対象画像を生成する画像生成手段と、
前記認識対象画像を前記光学文字認識処理の前記処理対象画像として前記クラウドサーバに送信する送信手段と、
前記認識対象画像に対する前記光学文字認識処理の処理結果である前記テキストデータを前記クラウドサーバから受信する受信手段と、
前記テキストデータに含まれる前記区切りコードに基づき前記テキストデータを複数の文字列データに区分するとともに前記複数の行領域と前記複数の文字列データとの対応関係を決定し、各文字列データに対応する各行領域に当該各文字列データをそれぞれ配置して前記電子文書を生成する文書生成手段と、
を有することを特徴とする電子文書生成システム。