JP6435636B2 - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP6435636B2 JP6435636B2 JP2014101147A JP2014101147A JP6435636B2 JP 6435636 B2 JP6435636 B2 JP 6435636B2 JP 2014101147 A JP2014101147 A JP 2014101147A JP 2014101147 A JP2014101147 A JP 2014101147A JP 6435636 B2 JP6435636 B2 JP 6435636B2
- Authority
- JP
- Japan
- Prior art keywords
- cell
- character
- cells
- spreadsheet
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Character Input (AREA)
Description
請求項1の発明は、文字受付枠を有するスプレッドシートから、前記文字受付枠を検出する検出手段と、前記検出手段により検出された前記文字受付枠と対応する前記スプレッドシート内のセルを結合する結合手段と、前記結合手段により結合されたセルを、前記文字受付枠に記載される文字列を受け付ける1つのセルとして定義する定義手段と、を有し、前記定義手段は、前記結合手段によって結合されたセルの幅、高さ、又は大きさが予め定められた閾値以下又は未満であるセルを除外の対象とする、情報処理装置である。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
なお、本実施の形態は、スプレッドシート受付モジュール110と定義モジュール120によって構成されていてもよい。この場合、情報処理装置100は、スプレッドシート内に記載された文字受付枠をセルとして定義付けるものである。
文字受付枠とは、スプレッドシートに記載された枠であって、文字列が受け付けられることが予定されている枠である。スプレッドシートの単位セルと一対一に対応していてもよいし、複数の単位セル群によって1つの文字受付枠が構成されていてもよい。この文字受付枠は、スプレッドシートのセルの書式設定の罫線(外枠)として設定されていてもよいし、描画された矩形の図形、又は下線であってもよい。なお、この文字受付枠の形状は、矩形であるが、必ずしも、視覚で捉えられる形状は矩形である必要はない。例えば、下線が引かれており、その上に文字列が記載されることを促すような形態であればよい。
受け付けるとは、例えば、他の情報処理装置からスプレッドシートを受け取ること、ハードディスク(コンピュータに内蔵されているものの他に、通信回線を介して接続されているもの等を含む)等に記憶されているスプレッドシートを読み出すこと等が含まれる。受け付けるスプレッドシートは、1枚であってもよいし、複数枚であってもよい。また、スプレッドシートの内容として、ビジネスに用いられる帳票、チェックシート等であってもよい。
ここで「連続するセルの属性の変化」とは、セルの1辺以上が接したセル同士を対象とし、そのセル群の属性が異なるものがあることをいう。例えば、(1)左と下に罫線のあるセル(値のないセル)、(2)下に罫線のあるセル(値のないセル)、(3)下に罫線のあるセル(値のあるセル)、(4)四辺に罫線のないセル(値のないセル)のように、セルの属性が変化するが、前述したように、この変化に応じて、結合すべきセルを抽出すればよい。このセルの属性は、前述した4種に限定してもよいが、この他に、上に罫線のあるセル、右に罫線のあるセル等を含めてもよい。
なお、文字列の記載として、キーボード等を用いた文字コードの受付であってもよい。この場合、操作者にとっては、文字受付枠を記載するだけで、セルの結合の操作を行うことなく、その文字受付枠に対応するセルを生成することになる。また、文字列の記載として、後述するように、帳票フォーマットが印刷され、その紙の帳票上に手書きされた文字列を認識した結果の文字コードの受付であってもよい。
この定義モジュール120の処理によって、スプレッドシート上に描かれた文字受付枠とセル(結合セル)が一対一に対応することになる。
また、定義モジュール120は、結合されたセルの幅、高さ、又は大きさが予め定められた閾値以下又は未満であるセルを除外の対象とするようにしてもよい。この処理は、文字列を受け付けることに適さないセルを除外するために行う。
対応付けモジュール140は、定義モジュール120、フォーマット作成モジュール130、出力モジュール150と接続されている。対応付けモジュール140は、定義モジュール120によって定義されたセルと、フォーマット作成モジュール130によって作成された帳票フォーマット内の文字受付枠を対応付ける。文字受付枠を手書き文字が記載される枠とした場合は、対応付けモジュール140は、データ受付セルと文字認識領域の対応付けを行うこととなる。なお、データ受付セルと文字認識領域の対応付けの結果については、後述の図16において説明する。
出力モジュール150は、対応付けモジュール140と接続されている。出力モジュール150は、対応付けモジュール140によって対応付け処理が行われた帳票フォーマットを出力する。出力するとは、例えば、ハードディスク等に記憶すること、他の情報処理装置へ渡すこと等があり、さらに、プリンタ等の印刷装置で印刷するようにしてもよい。また、印刷する場合は、オンライン文字認識ができるように、その印刷物における位置を示す座標情報が埋め込まれた情報画像を印刷するようにしてもよい。
フォーマット取得モジュール210は、文字認識データ取得モジュール220と接続されている。フォーマット取得モジュール210は、情報処理装置100によって作成された帳票フォーマットを取得する。帳票フォーマット内の文字受付枠は、手書きが行われる記入領域である。また、取得した帳票フォーマットには、対応付けモジュール140による対応付け結果が含まれている。
文字認識データ取得モジュール220は、フォーマット取得モジュール210、反映モジュール230と接続されている。文字認識データ取得モジュール220は、文字受付枠に記載された文字列の認識結果を受け付ける。
反映モジュール230は、文字認識データ取得モジュール220と接続されている。反映モジュール230は、文字認識データ取得モジュール220が受け付けた認識結果を、フォーマット取得モジュール210が受け付けた帳票フォーマット内の文字受付枠に対応付けられたセル(データ受付セル)に反映させる。帳票フォーマットであるスプレッドシートには、文字認識結果が埋め込まれることになり、そのスプレッドシートを用いて表計算等が行えるようになる。
情報処理装置100、情報処理装置200、印刷装置310、文字画像認識装置320、オンライン文字認識装置330は、通信回線390を介してそれぞれ接続されている。通信回線390は、無線、有線、これらの組み合わせであってもよく、例えば、通信インフラとしてのインターネット、イントラネット等であってもよい。また、文字画像認識装置320、オンライン文字認識装置330については、どちらか一つであってもよいし、複合的に使用してもよい。
情報処理装置100は、対応付けモジュール140による対応付け結果が含まれている帳票フォーマットを、情報処理装置200、印刷装置310に渡す。
印刷装置310は、いわゆるプリンタであって、情報処理装置100が作成した帳票フォーマットを印刷する。つまり、空欄の文字受付枠が記載された帳票が印刷される。また、前述したように、オンライン文字認識ができるように、その印刷物における位置を示す座標情報が埋め込まれた情報画像をさらに印刷するようにしてもよい。
文字画像認識装置320は、印刷装置310によって印刷された帳票(紙)であって、手書きの文字列が記入されたものを画像として読み込んで、その手書き文字の文字認識を行う。そして、文字認識結果を情報処理装置200に渡す。これは、例えばスキャナで読み取った帳票から、既存のOCR(Optical Character Recognition:光学文字認識)技術を用いて実現される。
オンライン文字認識装置330は、印刷装置310によって印刷された帳票(情報画像が印刷された紙)に対して、電子ペンを用いて手書きが行われ、その電子ペンのストロークを用いてオンライン文字認識を行う。文字認識結果を情報処理装置200に渡す。
情報処理装置200は、情報処理装置100から対応付けモジュール140による対応付け結果が含まれている帳票フォーマットを受け取り、その帳票フォーマットに対応する文字画像認識装置320又はオンライン文字認識装置330からの文字認識結果を受け取り、帳票フォーマットに文字認識結果を反映させる。
スプレッドシート受付モジュール110は、手書き用帳票フォーマットの元データとなるスプレッドシートを受け付ける。図4の例に示すようなスプレッドシート400を対象として受け付けたとする。なお、スプレッドシート400は、表計算ソフトウェア(例えば、Excel(登録商標)、Numbers(登録商標)等)で作成されたものである。
ここで、以下のように用語を定義する。
単位セルとは、スプレッドシートで最も基本となる、初期状態の1セルのことである。
セル範囲とは、隣接する(単位/結合)セルの一塊の集合のことである。結合前の状態における一筆で囲える領域を指し、例えば、その形状は矩形である。
結合セルとは、セル範囲を結合して1つのセルとみなしたものである。結合後の状態を指す。
1セルとは、スプレッドシート上で1つと数えられる、単位セル1つ又は結合セル1つのことである。
データ受付セルとは、データ受付箇所として一意に定める1セルのことである。
(条件1)値を持たない4辺を罫線で囲まれた1セルをデータ受付セルとして定義する。
(条件2)値を持つセルを含まず、4方を罫線で囲まれたセル範囲を結合した結合セルをデータ受付セルとして定義する。
なお、「値を持つセルを含まない」としたのは、値を持つセルを含んでいると、結合時に値が1つになる、スプレッドシート上の値の位置が変わる、等で帳票のレイアウトそのものが変わってしまうため、そのような値を持つセルを含む場合は対象としないのが望ましいからである。ここで、図5に例示する領域530が、値を持つセルである。
(条件3)セルの下辺に罫線があって、値の無いセルから走査を開始し、検出したセル範囲を結合してデータ受付セルとして定義する。
帳票に手書きする際、記入を促す領域に下線を使用することが多いため、下線のある値の無いセルはデータ受付セルとしている。帳票の空きスペースや欄外等に書かれた文字もデータとする場合、いずれか1辺以上に罫線があるセル、いずれか1辺がデータのあるセルと隣接しているセル、等を基準としてもよい。
(3−1) 図6の例に示すように、スプレッドシートを横方向に左上から右下の順に走査(詳しくは、左上端を開始点として、右方向へ走査し、右端に到達したら、1段下の左端へ進み、右方向へ走査することを繰り返して、右下端まで走査すること、以下同様)し、下辺に罫線がある、値の無い走査開始セルを検出する。
スプレッドシートの構造上、データの流れが左から右、上から下となっていること(いわゆる横書きの場合)がほとんどのため、走査の順番を横方向に左上から右下としているが、これに限定するものではない。例えば、縦書きの場合、スプレッドシートを縦方向に右上から左下の順に走査(詳しくは、右上端を開始点として、下方向へ走査し、下端に到達したら、1行左の上端へ進み、下方向へ走査することを繰り返して、左下端まで走査すること、以下同様)し、左辺(又は右辺)に罫線があって、値の無い走査開始セルを検出するようにしてもよい。
例えば、図7(a)に示すように、(3−1)の処理によって走査開始セル710を検出し、(3−2)の処理によって上方向走査712を行い、図7(b)に示すように結合セル720を生成する。なお、走査開始セル710は、スプレッドシート400内の「H12」の単位セルである。結合セル720は、スプレッドシート400内の「H12」、「H11」、「H10」の3つの単位セルを結合したものである。
なお、縦書きの場合は、上方向の走査ではなく、右又は左方向への走査を行えばよい。
例えば、図8(a)に示すように、(3−2)の処理によって結合セル720を生成し、右方向走査822を行い、図8(b)に示すように結合セル830を生成する。なお、走査を続ける条件は、結合セル720の結合前の各セルの属性が同じであることをいう。したがって、1つのセルの属性が異なる場合は、走査が終了する。また、走査を続ける条件として、空欄であることを付加してもよい。
なお、縦書きの場合は、右方向の走査ではなく、下方向への走査を行えばよい。
なお、(3−2)から(3−3)のように、縦方向に結合してから横方向に結合する理由は、手書きを行う帳票のレイアウト上、縦方向のセル範囲は1つのデータの記入領域で高さが一定であることがほとんどであり、横方向のセル範囲は1つのデータの記入領域で幅が必ずしも一定でないことがほとんどであることが理由であり、この順番でセルを結合することが望ましい。
ただし、帳票のレイアウト、ユーザー指定等の条件次第で逆順で行うことを制限するものではない。例えば、縦書きの場合は、横方向に結合してから縦方向に結合する。
図9に示す例は、図9(a)のように縦方向に結合してから、図9(b)のように横方向に結合した例を示すものである。
図10に示す例は、図10(a)のように横方向に結合してから、図10(b)のように縦方向に結合した例を示すものである。この場合、データ受付セルは、図9(b)の例と比べると高さが狭いものとなり、手書き文字には図9(b)の例が適している。したがって、横書きの場合は、縦方向に結合してから横方向に結合することが望ましい。
(3−1)〜(3−4)の走査でデータ受付セルを定義すると、不要なセルがデータ受付セルとして定義されることがある。
図11の例に示すように、灰色の矩形領域は、(3−1)〜(3−4)の処理によってデータ受付セルとして定義したものである。このデータ受付セルの中で、不要セル1102〜不要セル1112がある。
これは、帳票に手書きする際には明らかに筆記されないスペースであるので、データ受付セルとして定義されていても問題ない。
ただし、他のデータ受付セルと比べて明らかに狭いため、削除してもよい。
そこで、データ受付セルの幅、高さ、又は大きさが予め定められた閾値以下又は未満であるセルをデータ受付セルから除外する。さらに、そのデータ受付セルの周辺に筆記を行える空きスペースがない等と判定できるデータ受付セルは、不要セルとして定義を削除してもよい。また、データ受付セルから除外する前に、警告、確認を促すための提示等を行うようにしてもよい。
ステップS1200では、データ受付セル定義を開始する。
ステップS1202では、スプレッドシートである帳票範囲の全てのセルの走査を終えたか否かを判断し、終えた場合はデータ受付セル定義を終了し(ステップS1299)、それ以外の場合はステップS1204へ進む。
ステップS1204では、対象としているセルは値を持つセルであるか否かを判断し、値を持つセルである場合はステップS1202へ戻り、それ以外の場合はステップS1206へ進む。
ステップS1206では、対象としているセルは罫線がある単位セル又は結合セルであるか否かを判断し、罫線がある単位セル又は結合セルである場合はステップS1208へ進み、それ以外の場合はステップS1202へ戻る。
ステップS1210では、罫線で囲まれたセル範囲を取得する。
ステップS1212では、ステップS1210で取得したセル範囲内に値を持つセルが含まれているか否かを判断し、含まれている場合はステップS1218へ進み、それ以外の場合はステップS1214へ進む。
ステップS1214では、ステップS1210で取得したセル範囲を結合する。
ステップS1216では、ステップS1208でYesと判断されたセル又はステップS1214で結合されたセルをデータ受付セルとして定義する。
ステップS1218では、(条件3)によるデータ受付セルの定義処理を行う。ステップS1218の処理については、図13の例に示すフローチャートを用いて詳述する。
ステップS1302では、ステップS1210で取得したセル範囲のうち、下罫線のある最左端の1セルを取得する。なお、ステップS1210で取得したセル範囲のうち、下罫線があって、値を含まない最左端の1セルを取得するようにしてもよい。
ステップS1304では、対象としているセルの上隣に属性の異なるセルがあるか否かを判断し、上隣に属性の異なるセルがある場合はステップS1308へ進み、それ以外の場合(上隣のセルは属性が同じセルの場合)はステップS1306へ進む。
ステップS1306では、対象としている上隣セルをセル範囲に含める。
ステップS1310では、対象としている右隣セルをセル範囲に含める。
ステップS1312では、これまでのセル範囲を結合してデータ受付セルとして定義する。
ステップS1314では、ステップS1210で取得したセル範囲の全てのセルの走査を終えたか否かを判断し、終えた場合はステップS1316へ進み、それ以外の場合はステップS1302へ戻る。
ステップS1316では、不要なデータ受付セルの定義を必要があれば削除する。なお、この処理は、図12の例に示したフローチャート内のステップS1202でYesと判断された後に行うようにしてもよい。
(条件4)セルに設定されているその他の情報からデータ受付セルを定義する。
例えば、以下のようなセルの設定がされていた場合、そのセル範囲はデータ受付セルとして定義してもよい。
・データを持たないセルからなる1つのセル範囲が、同じ色で塗りつぶされている。
・データを持たないセルからなる1つのセル範囲に、同じパターン(網掛け等)が設定されている。
・データを持たない1セルが、計算対象、マクロ処理対象、リンク元等として参照されている。
・データを持たない1セルに、名前、ID等の特定できる情報が設定されている。
(条件5)ユーザーが指定したセル範囲をデータ受付セルとして定義する。
ユーザーが指定した条件に当てはまるセル範囲をデータ受付セルとして定義する。
例えば、ユーザーが、データ受付セル範囲を手動で指定してもよい。
例えば、ユーザーが、予め定められたデータを持つセル等の条件を設定してもよい。
帳票フォーマットは、手書きデータの処理を行うための一般的な定義であって、例えば文字受付枠を文字認識領域としたり、その際の文字認識条件(言語、辞書、文字種等)等を定義するものである。
この定義を行う処理は、例えば以下のようなものがある。
・スプレッドシート400上で定義されたデータ受付セルの情報(位置、サイズ、書式、等)を使って定義する。なお、ここで、「書式」は、スプレッドシートのセルに設定される一つの属性であり、その書式には「数値」、「日付」等があり、文字認識条件を定義し得る。例えば、書式を「数値」とした場合、「数字」(「−」等の記号を含めてもよい)の辞書を用いて認識処理を行うことによって、認識率を向上させる。
・帳票画像上の構成要素(罫線、文字、等)を使って定義する。
・その他、電子データから帳票フォーマット1400を作成する一般的な手法(既存の手法)を用いて定義する。
もちろん、複数の手段を組み合わせて帳票フォーマット1400を作成してもよい。
そして、対応付けた結果として、対応テーブル1600を生成する。図16は、対応テーブル1600のデータ構造例を示す説明図である。対応テーブル1600は、データ受付セル欄1610、文字認識領域欄1620を有している。データ受付セル欄1610は、データ受付セル(例えば、列見出し、行見出しを用いて指示されるセルの範囲であり、この例では領域の左上と右下の2点の見出しを用いている)を記憶している。文字認識領域欄1620は、そのデータ受付セルに対応する文字認識領域(例えば、矩形領域の左上と右下の座標。図示省略)を記憶している。対応テーブル1600は、文字認識領域欄1620内の文字認識結果を、対応するデータ受付セル欄1610に反映させる(書き戻す)ために利用される。
対応付けを行う処理は、例えば以下のようなものがある。
・スプレッドシート400上で定義されたデータ受付セルから帳票フォーマット1400上の文字認識領域を定義した場合、定義された順番、相対位置関係、その他セルに設定された項目、等を元に対応付ける。
・帳票レイアウト上の構成要素(位置関係、罫線、文字等)を元に対応付ける。
もちろんのことながら、複数の手法を組み合わせて対応付けを行ってもよい。
帳票フォーマット1400として、以下のものを含む。
・手書きデータ処理を行うための一般的な定義(前述の「フォーマット作成モジュール130」の処理内容の説明を参照)
・データ受付セルと文字認識領域の対応関係(具体的には、図16の例に示した対応テーブル1600)
・手書きデータの反映先となるスプレッドシート(データそのものでもよいし、参照先でもよい)
これらを全て記録したデータコンテナを帳票フォーマットとしてもよいし、それぞれをまとめて、又はそれぞれ別に、データベースのテーブルに登録してもよい。
必要な情報が必要なときに利用できる状態であれば、「帳票フォーマット」の形、保存形式、格納場所、等は問わない。
帳票フォーマットを取得する処理は、例えば以下のようなものがある。
・手書きされた帳票(紙)のスキャン画像と帳票フォーマットとのマッチング処理によって、対応する帳票フォーマットを抽出する。
・手書きされた帳票(紙)から、光学的、磁気的等に付された識別情報(帳票フォーマットを識別する情報、ID:IDentification)を読み取って、帳票フォーマットを特定する。
・その他、手書きされた帳票(紙)の帳票フォーマットを取得する一般的な手法(既存の手法)を用いてもよい。
もちろんのことながら、複数の手法を組み合わせて帳票フォーマットを取得してもよい。
文字認識データを取得する処理は、例えば以下のようなものがある。これらは、文字認識領域毎に行う。
・手書きされた帳票(紙)をスキャンし、帳票フォーマットとの差分部分を文字認識する。
・手書きされた帳票(紙)に対して書き込まれる手書きのストローク情報を取得する電子ペンのようなデバイスを用いて、文字認識する。
・その他、紙に手書きされた文字を認識する一般的な手法(既存の手法)を用いてもよい。
もちろんのことながら、複数の手法を組み合わせて文字認識データを取得してもよい。
帳票フォーマットに保持されている、認識結果データの反映先となるスプレッドシートを取得する。
そして、帳票フォーマットに保持されている、文字認識領域と対応するスプレッドシート上のデータ受付セルに、認識結果データを埋め込む。
図17(a)の例に示す領域1702〜1714は、スプレッドシート400内のセルと対応しておらず、単にテキスト枠として配置したものである。これは、本実施の形態を用いない場合であって、帳票(紙)に記載された文字の位置にテキスト枠を用いて反映させたものである。手書き文字認識データの元の位置への配置のみを行った場合を示しており、元の電子文書がスプレッドシートであるにもかかわらず、セルに文字認識データは、反映されていない。
図17(b)に示す例は、本実施の形態によって処理されたものであって、スプレッドシート400内のセルに文字認識データが反映されている。データ受付セル1722〜1734のそれぞれに文字認識データが反映されている。
図18(a)の例に示す領域1802は、帳票(紙)に記載された文字の位置に対応するセル群に、手書き文字認識データを代入したものであり、同じ手書き文字認識データが複数のセルに埋め込まれている。また、領域1804は、帳票(紙)に記載された文字の位置に対応する、予め定められた1つのセル(例えば、左上のセル)に、手書き文字認識データを代入したものである。つまり、本実施の形態を用いない場合であって、元のスプレッドシート上での対応が「範囲(複数のセル)」の場合、範囲に対するデータ受付は手書きの意図とは異なるデータとなってしまう。また、範囲の先頭セルなど、その範囲内の特定の1セルへの手書き文字認識データの代入を行った場合は、手書きした箇所とデータ受付セルとの位置が乖離してしまう。
図18(b)に示す例は、本実施の形態によって処理されたものであって、スプレッドシート400内のデータ受付セル1730、1734に文字認識データが反映されている。データ受付セル1730、1734は、結合セルであるので、1つの手書き個所につき1つの文字認識データを反映している。
なお、図19に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図19に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えばASIC等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図19に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、情報家電、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
110…スプレッドシート受付モジュール
120…定義モジュール
130…フォーマット作成モジュール
140…対応付けモジュール
150…出力モジュール
200…情報処理装置
210…フォーマット取得モジュール
220…文字認識データ取得モジュール
230…反映モジュール
310…印刷装置
320…文字画像認識装置
330…オンライン文字認識装置
390…通信回線
Claims (4)
- 文字受付枠を有するスプレッドシートから、前記文字受付枠を検出する検出手段と、
前記検出手段により検出された前記文字受付枠と対応する前記スプレッドシート内のセルを結合する結合手段と、
前記結合手段により結合されたセルを、前記文字受付枠に記載される文字列を受け付ける1つのセルとして定義する定義手段と、
を有し、
前記定義手段は、前記結合手段によって結合されたセルの幅、高さ、又は大きさが予め定められた閾値以下又は未満であるセルを除外の対象とする、
情報処理装置。 - 前記スプレッドシートから、前記文字受付枠の位置を定義した文書の型を作成する作成手段と、
前記定義手段によって定義されたセルと、前記文書の型内の前記文字受付枠を対応付ける対応付手段と、
をさらに有する請求項1に記載の情報処理装置。 - 前記文書の型内の前記文字受付枠は、手書きが行われる記入領域であって、
前記文字受付枠に記載された文字列の認識結果を受け付ける受付手段と、
前記認識結果を、前記文書の型内の前記文字受付枠に対応付けられたセルに反映させる反映手段と、
をさらに有する請求項2に記載の情報処理装置。 - コンピュータを、
文字受付枠を有するスプレッドシートから、前記文字受付枠を検出する検出手段と、
前記検出手段により検出された前記文字受付枠と対応する前記スプレッドシート内のセルを結合する結合手段と、
前記結合手段により結合されたセルを、前記文字受付枠に記載される文字列を受け付ける1つのセルとして定義する定義手段
として機能させ、
前記定義手段は、前記結合手段によって結合されたセルの幅、高さ、又は大きさが予め定められた閾値以下又は未満であるセルを除外の対象とする、
情報処理プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014101147A JP6435636B2 (ja) | 2014-05-15 | 2014-05-15 | 情報処理装置及び情報処理プログラム |
US14/520,623 US20150331844A1 (en) | 2014-05-15 | 2014-10-22 | Information processing apparatus and non-transitory computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014101147A JP6435636B2 (ja) | 2014-05-15 | 2014-05-15 | 情報処理装置及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015219620A JP2015219620A (ja) | 2015-12-07 |
JP6435636B2 true JP6435636B2 (ja) | 2018-12-12 |
Family
ID=54538647
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014101147A Active JP6435636B2 (ja) | 2014-05-15 | 2014-05-15 | 情報処理装置及び情報処理プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20150331844A1 (ja) |
JP (1) | JP6435636B2 (ja) |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5379372A (en) * | 1990-09-13 | 1995-01-03 | Wu; William C. | Apparatus and method for designing a form structure using column and row rules |
JP3346635B2 (ja) * | 1993-12-10 | 2002-11-18 | 日立電子エンジニアリング株式会社 | Ocr用帳票フォーム作成方法 |
JP2944439B2 (ja) * | 1994-12-27 | 1999-09-06 | シャープ株式会社 | 手書き文字入力装置および方法 |
US6088708A (en) * | 1997-01-31 | 2000-07-11 | Microsoft Corporation | System and method for creating an online table from a layout of objects |
US6173073B1 (en) * | 1998-01-05 | 2001-01-09 | Canon Kabushiki Kaisha | System for analyzing table images |
US6442575B2 (en) * | 1998-06-17 | 2002-08-27 | Microsoft Corporation | Method and system for merging cells in a table and for adding an integrated header and a nested table to a table in an electronic document |
JP3435375B2 (ja) * | 1999-10-12 | 2003-08-11 | 沖電気工業株式会社 | 文字認識方法および装置 |
JP2001331764A (ja) * | 2000-03-13 | 2001-11-30 | Fujitsu Ltd | 文字認識方法 |
US7350142B2 (en) * | 2003-03-27 | 2008-03-25 | Microsoft Corporation | Method and system for creating a table version of a document |
JP4928991B2 (ja) * | 2007-03-12 | 2012-05-09 | 東京エレクトロン株式会社 | 基板処理装置 |
JP5533829B2 (ja) * | 2011-09-27 | 2014-06-25 | カシオ計算機株式会社 | 情報取得システム、情報処理装置、情報処理方法、及びプログラム |
-
2014
- 2014-05-15 JP JP2014101147A patent/JP6435636B2/ja active Active
- 2014-10-22 US US14/520,623 patent/US20150331844A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20150331844A1 (en) | 2015-11-19 |
JP2015219620A (ja) | 2015-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11182604B1 (en) | Computerized recognition and extraction of tables in digitized documents | |
JP5712487B2 (ja) | 画像処理装置、画像処理システム、画像処理方法、及びプログラム | |
JP5623079B2 (ja) | ハード・コピーの書式からの書式定義の自動発生 | |
US7926732B2 (en) | OCR sheet-inputting device, OCR sheet, program for inputting an OCR sheet and program for drawing an OCR sheet form | |
JP3962891B2 (ja) | 文書画像処理装置、文書画像処理方法、及び記憶媒体 | |
JP4785655B2 (ja) | 文書処理装置及び文書処理方法 | |
US11321558B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
CN102289667A (zh) | 对经历光学字符识别(ocr)过程的文本文档中出现的错误的用户纠正 | |
US20090234867A1 (en) | Operation procedure extrapolating system, operation procedure extrapolating method, computer-readable medium and computer data signal | |
US11418658B2 (en) | Image processing apparatus, image processing system, image processing method, and storage medium | |
JP2008145611A (ja) | 情報処理装置、プログラム | |
US20230273952A1 (en) | Image processing apparatus, image processing method, and storage medium | |
US20150261735A1 (en) | Document processing system, document processing apparatus, and document processing method | |
JP5844564B2 (ja) | 帳票認識システム | |
US8339623B2 (en) | Paper document processing apparatus, paper document processing method, and computer readable medium | |
JP2018042067A (ja) | 画像処理システム、画像処理方法、情報処理装置 | |
JP4983464B2 (ja) | 帳票画像処理装置及び帳票画像処理プログラム | |
JP6221220B2 (ja) | 画像処理装置及び画像処理プログラム | |
CN101753752B (zh) | 图像处理设备和执行图像处理的方法 | |
JP7241506B2 (ja) | 光学式文字認識結果の修正支援装置および修正支援用プログラム | |
US10706337B2 (en) | Character recognition device, character recognition method, and recording medium | |
CN108875570B (zh) | 信息处理装置、存储介质和信息处理方法 | |
JP6435636B2 (ja) | 情報処理装置及び情報処理プログラム | |
US20220319218A1 (en) | Image processing apparatus, image processing system, control method thereof, and storage medium | |
US20230063374A1 (en) | Image processing apparatus, non-transitory storage medium, and image processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170328 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180327 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181016 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181029 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6435636 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |