JP7430219B2 - 文書情報構造化装置、文書情報構造化方法およびプログラム - Google Patents
文書情報構造化装置、文書情報構造化方法およびプログラム Download PDFInfo
- Publication number
- JP7430219B2 JP7430219B2 JP2022099538A JP2022099538A JP7430219B2 JP 7430219 B2 JP7430219 B2 JP 7430219B2 JP 2022099538 A JP2022099538 A JP 2022099538A JP 2022099538 A JP2022099538 A JP 2022099538A JP 7430219 B2 JP7430219 B2 JP 7430219B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- document
- item
- information
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 41
- 238000000605 extraction Methods 0.000 claims description 108
- 239000000284 extract Substances 0.000 claims description 44
- 238000010801 machine learning Methods 0.000 claims description 31
- 238000012545 processing Methods 0.000 description 56
- 230000008569 process Effects 0.000 description 30
- 238000012986 modification Methods 0.000 description 18
- 230000004048 modification Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 230000015654 memory Effects 0.000 description 6
- 238000009877 rendering Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
近年ではコンピューターネットワークを通じて書面の取り交わしを行うことも多く、したがって書面は紙に印刷されたものとは限らず、PDF(Portable Document Format)やオフィスソフトウェアのファイルにて電子的に授受されることも多い。
書面画像の読み取りに関して、身分証明書の読み取りにおいて、あらかじめ定められたレイアウト情報を用いて姓名等の記載場所を特定し、文字認識ソフトウェアで読み取る技術が知られている(例えば、特許文献1参照)。また、書面画像の読み取りに関して、読取対象エリアをユーザーが指定することで指定箇所を文字認識し、帳票から項目を読み取る技術が知られている(例えば、特許文献2参照)。また、書面画像の読み取りに関して、項目名をリストアップした辞書を用いることで項目名を抽出し、その近傍から項目値を読み取る技術が知られている(例えば、特許文献3参照)。
また、特許文献3のように項目名辞書を手掛かりに抽出する場合は、項目名が存在せず項目値のみが書かれた項目については読取りが困難であり、対象項目が限定的であった。
(2)本発明の一態様は、上記(1)に記載の文書情報構造化装置において、前記記述項目情報に含まれる前記項目値の前記種別を表現している文字列と前記文字列の位置とのいずれか一方又は両方を前記電子化文書から抽出する項目名抽出部をさらに備える。
(3)本発明の一態様は、上記(1)又は上記(2)に記載の文書情報構造化装置において、文字列同士を連結するかどうかを判定する文字列連結判定部をさらに備える。
(4)本発明の一態様は、上記(1)から上記(3)のいずれか一項に記載の文書情報構造化装置において、文字列を分割するかどうかを判定する文字列分割判定部をさらに備える。
(5)本発明の一態様は、上記(1)から上記(4)のいずれか一項に記載の文書情報構造化装置において、前記電子化文書中に文字コードで表現された文字情報が含まれているかどうかを判定する文字情報判定部と、前記文字情報判定部による前記文字情報が含まれているかどうかの判定結果に基づいて、前記文字情報を用いるか、画像情報を文字読み取り装置にて文字情報化して用いるかを切り替える文字情報切り替え部と、をさらに備える。
なお、実施形態を説明するための全図において、同一の機能を有するものは同一符号を用い、繰り返しの説明は省略する。
また、本願でいう「XXに基づいて」とは、「少なくともXXに基づく」ことを意味し、XXに加えて別の要素に基づく場合も含む。また、「XXに基づいて」とは、XXを直接に用いる場合に限定されず、XXに対して演算や加工が行われたものに基づく場合も含む。「XX」は、任意の要素(例えば、任意の情報)である。
(文書情報構造化装置)
以下、文書情報構造化装置の一実施形態を詳細に説明する。
図1は、本実施形態に係る文書情報構造化装置10の機能構成例を表す概略ブロック図である。
文書情報構造化装置10は、帳票などの文書に関する業務の支援を行う。ここで、文書とは、例えば、見積書、契約書、融資等の申し込み書類や公募案件への応募書類、社内の稟議書等のある程度記載内容が定められている文書であればどのような文書であってもよい。以下の説明では、文書として、見積書を例に説明する。文書情報構造化装置10が行う帳票などの文書に関する業務の支援とは、文書の内容等を顧客が確認を行う際のサポートを意味する。内容の一例は、一又は複数の項目と、一又は複数の項目の各々の内容(項目値)、項目値の種別である。
文書情報構造化装置10は、パーソナルコンピュータ、サーバ、スマートフォン、タブレットコンピュータ、仮想マシン(VM: Virtual Machine)又は産業用コンピューター等の装置によって実現される。文書情報構造化装置10は、例えば制御部100及び記憶部150を備える。
また、これらの機能部のうち一部または全部は、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、GPU(Graphics Processing Unit)などのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアとの協働によって実現されてもよい。
記憶部150は、HDD(Hard Disk Drive)やフラッシュメモリ、RAM(Random Access Memory)、ROM(Read Only Memory)などにより実現される。
文字情報を抽出する処理について説明する。
文字情報抽出部120は、文書入力部110によって入力された電子文書を取得し、取得した電子文書から文字情報を抽出する。文字情報には、文字列とその文字列の紙面上での座標とが含まれる。ここで文字列と記述するが、長さ1の文字列、すなわち単独の文字であっても構わない。座標は文字に外接する矩形で表現される。ただし、座標が文字に外接する矩形で表現されることに限られず、矩形以外の形状で表現されてもよい。以下、文字列とその文字列の紙面上の座標とを含む文字情報を文字ブロックとも呼ぶ。
文字情報抽出部120は、入力された電子文書の文書表現種別がマークアップ言語であると判定した場合、その電子文書をレンダリングして印刷紙面上の配置を決定し、文字列とその文字列の座標とを取得する。
文字情報抽出部120は、電子文書の文書表現種別がレイアウト文書であった場合には、その電子文書から文字列とその文字列の座標とを抽出する。ここでレイアウト文書とは、PDFやPostScriptのように、内部表現として文字とその文字の座標とを表現した文書を指す。レイアウト文書は、文書中に文字とその文字の座標情報とが記述されているため、文字情報抽出部120、記述されている文字とその文字の座標情報をそのまま取り出して出力する。
また、文字情報抽出部120は、電子文書にビットマップ画像と、文字とその文字の座標情報との双方を含むと判定した場合には、その電子文書から文字とその文字の座標とを抽出し、文字認識ソフトウェアを用いてその電子文書から文字とその文字の座標とを抽出し、抽出された文字数に応じていずれかを選択するようにしてもよい。
記述項目構造化部130は、文字情報抽出部120から電子文書中の文字ブロックの集合を取得する。記述項目構造化部130は、取得した文字ブロックの集合から、電子文書に記述された記述項目情報を生成する。記述項目情報は、少なくとも項目種別と項目値との組み合わせから構成される。
具体的には、記述項目構造化部130は、取得した文字ブロックの集合から、項目値を指し示す文字ブロックを抽出する。記述項目構造化部130は、文字ブロックやその文字ブロックの周辺の文字ブロックに含まれるキーワードによるルール判定を行うことによって文字ブロックが項目値を指し示すかどうかを判定する。ここで、周辺の文字ブロックの範囲は、当該文字ブロックとの相対位置関係で定義するようにしてもよい。例えば、周辺の文字ブロックは、当該文字ブロックと同一行のものを範囲としてもよいし、当該文字ブロックと上下左右のブロック間距離が閾値以下のものを範囲としてもよい。
また、機械学習で文字ブロックが項目値を指し示すかどうかを判定することを実現する場合には、当該文字ブロックおよび周辺の文字ブロックに含まれる文字に加えて当該文字ブロックの紙面上の位置をルール条件や機械学習の特徴量としてもよい。機械学習の場合は、文字ブロックの紙面上の位置の特徴によって例えば、紙面上右上の文字ブロックは書面発行日の項目値を指し示す可能性があるなどの法則が学習されることが期待できる。
記述項目構造化部130は、項目値を指し示すかどうかを判定する処理と同様に、当該文字ブロックや周辺文字ブロックに含まれる文字や当該文字ブロックの紙面上の位置を手掛かりに、ルールや機械学習で判定する。記述項目構造化部130は、例えば周辺文字ブロックに「有効」や「期限」といった単語があることを手掛かりとすることで当該文字ブロックが[見積有効期限]であると判定する。
文書入力部110は、構造化対象となる一又は複数の電子文書を入力する(ステップS1-1)。
文字情報抽出部120は、文書表現種別判定処理を行う(ステップS2-11)。例えば、文字情報抽出部120は、文書入力部110に入力された電子文書の文書表現種別を判定する。ここでは、一例として、文字情報抽出部120が、電子文書の文書表現種別として、マークアップ言語文書と、レイアウト文書と、ビットマップ画像文書とのいずれかを判定する場合について説明する。
前述した実施形態では、文書入力部110が、構造化対象となる一又は複数の電子文書を入力する場合について説明したがこの例に限られない。例えば、仮に構造化対象の文書が物理的な紙書面であれば、文書入力部110は、スキャナーで構造化対象の文書を電子文書に変換して入力するようにしてもよい。具体的には、電子化文書中に文字コードで表現された文字情報が含まれているかどうかを判定する文字情報判定部と、文字情報判定部による文字情報が含まれているかどうかの判定結果に基づいて、文字情報を用いるか、スキャナーなどの画像情報を文字読み取り装置にて文字情報化して用いるかを切り替える文字情報切り替え部とをさらに備えるようにしてもよい。
前述した実施形態において、記述項目構造化部130は、項目種別を判定する処理の後に項目値の項目名を指し示す文字ブロックを抽出する処理を行ってもよいし、並行して行ってもよいし、項目値の項目名を指し示す文字ブロックを抽出する処理の後に項目種別を判定する処理を行ってもよい。
前述した実施形態において、記述項目構造化部130は、項目値の項目名を指し示す文字ブロックを抽出する処理の後に項目種別を判定する処理を行う場合には、抽出した項目名を指し示す文字ブロックの特徴を、項目種別を判定する処理を行う場合に用いる機械学習の特徴量に加えるようにしてもよい。
このように構成することによって、文書情報構造化装置10は、電子化文書から、文書中の文字列と文字列の位置とを抽出し、抽出した文字列と文字列の位置とから、文書に記述された各項目の項目値を抽出し、抽出した項目値の種別を推定できるため、個別の様式の登録を必要とせず、帳票に関する幅広い業務の効率的な自動処理を実現できる。
このように構成することによって、文字情報判定部によって電子化文書中に文字コードで表現された文字情報が含まれているかどうかを判定できる。文字情報判定部によって文字情報が含まれている場合には文字情報切り替え部によって文字情報を用いるように切り替え、文字情報が含まれず画像情報である場合にはその画像情報を文字読み取り装置にて文字情報化して用いるように切り替えることができるため、文書入力部110は、構造化対象の文書を電子文書に変換して入力することができる。
なお、文字情報判定部による文字情報の有無の自動判定が効果を持つのは例えば下記のケースである。
(1)PDF文書のように、内部に文字情報を持っているものと、文字情報を持たず画像で表現されたものがある場合、そのどちらからでも情報を抽出できる。
(2)(1)の場合、文字情報をいったん画像化して、常に文字認識をするという構成も考えられるが、その場合は文字認識誤りの可能性があるため、精度が低下するおそれがある。
(3)文書形式によっては画像と文字情報がページ中に混在している場合もある。例えば表の部分は別ソフトで作成して、ワープロソフトでその画像を貼りつけたような場合である。このような場合には、例えば文字情報から得られた文字数と画像情報から得られた文字数の比に基づいて判定することで、文字情報を用いる場合と、画像情報を文字読み取り装置にて文字情報化して用いる場合とのどちらを優先すべきかを自動切換えできる。
図4は、実施形態の変形例に係る文書情報構造化装置10aの機能構成例を表す概略ブロック図である。
文書情報構造化装置10aは、帳票などの文書に関する業務の支援を行う。文書情報構造化装置10aは、電子化文書が入力され、入力された電子化文書から、文書中の文字列と文字列の位置とを抽出し、抽出した文字列と文字列の位置とから、文書に記述された各項目の項目値を抽出し、抽出した項目値の種別を推定し、抽出した項目値について、項目名を指し示す文字ブロックを抽出し、抽出した項目値と推定した項目値の種別とを含む記述項目情報を出力する。
文書情報構造化装置10aは、パーソナルコンピュータ、サーバ、スマートフォン、タブレットコンピュータ、仮想マシン又は産業用コンピューター等の装置によって実現される。文書情報構造化装置10aは、例えば制御部100a及び記憶部150を備える。
制御部100aは、例えば、CPUなどのハードウェアプロセッサが記憶部150に格納されたコンピュータプログラム(ソフトウェア)を実行することにより実現される。制御部100aは、文書入力部110、文字情報抽出部120、記述項目構造化部130、記述項目情報出力部140、文字列連結判定部160a、文字列分割判定部170a及び項目名抽出部180aとして機能する。
また、これらの機能部のうち一部または全部は、LSIやASIC、FPGA、GPUなどのハードウェア(回路部;circuitryを含む)によって実現されてもよいし、ソフトウェアとハードウェアとの協働によって実現されてもよい。
具体的には、文字列連結判定部160aは、取得した複数の文字ブロックに基づいて、文字列とその文字列の座標とを含む文字ブロックの集合を、その座標情報に基づいて左上から右下へと並べ系列化する。文字列連結判定部160aは、例えばY座標情報に基づいて同一行に含まれる文字情報を抽出し、同一行内の文字情報をX座標情報に基づいて左から並べるなどの処理を行う。文字列連結判定部160aは、多段組のレイアウトであることが情報として得られる場合には、各段組みの範囲で左上から右下へと並べるようにしてもよい。
なお、上記では、一例として、横書き文書の場合について説明したが、縦書き文書の場合は右上から左下の順としてもよい。
辞書を用いて実現する場合には、例えば記述項目名の辞書を用意し、文字列連結判定部160aは、文字ブロックを連結することで記述項目名と合致する場合には連結するなどの条件で判定する。ルールを用いて判定する場合には、文字列連結判定部160aは、例えば数字の並びは連結して一連の数字からなる文字ブロックを構成するなどのルールで判定する。文字列連結判定部160aは、座標情報も併用し、文字ブロック同士がある一定の距離内にある場合に連結すると判定してもよい。
文字列分割判定部170aは、ルールを用いて分割されるべきかどうかを判定する場合には、例えば数字の並びからなる正規表現パタンを用意して、パタンにマッチする範囲で分割する。
文字列分割判定部170aは、機械学習を用いて分割されるべきかどうかを判定する場合は、文字ブロック中の文字列の各文字境界を対象に、その文字境界が分割点になるかどうかを教師データから学習して推定する。文字列分割判定部170aは、全文字境界を対象にする代わりに、あらかじめ文字列を形態素解析して形態素境界のみを分割点候補としてもよい。
文字列分割判定部170aは、機械学習の特徴量として、文字n-gramや単語n-gramを採用してもよいし、記述項目名辞書を用意して、境界候補の左右に辞書中の語が存在するかどうかを示す特徴を併用してもよい。
ステップS1-2、S2-2、S4-2、S5-2及びS7-2は、ステップS1-1からS5-1を適用できるため、説明を省略する。
文字列連結判定部160aは、文字ブロック配列処理を行う(ステップS3-21)。例えば、文字列連結判定部160aは、取得した複数の文字ブロックに基づいて、文字列とその文字列の座標とを含む文字ブロックの集合を、その座標情報に基づいて左上から右下へと並べ系列化する。
文字列連結判定部160aは、連結判定連結処理を行う(ステップS3-22)。例えば、文字列連結判定部160aは、並んだ2つの文字ブロックが、連結されるべきかどうかを判定し、連結されるべきであると判定した場合には文字ブロックを連結する。
項目名抽出部180aは、項目名抽出処理を行う(ステップS6-2)。例えば、項目名抽出部180aは、項目種別D40が[その他]以外のものを対象に項目名を推定する。
また、文字情報抽出部120が抽出する文字ブロックが十分に長い場合にはステップS3-22を省略してもよいし、文字情報抽出部120が抽出する文字ブロックが十分に短い場合にはステップS3-23を省略してもよい。
また、ステップS3-2を省略してもよい。この場合に、ステップS5-2の処理で推定される項目種別を手掛かりに、同一項目種別の文字ブロックを別途連結するようにしてもよい。
次に、具体的な文書例を用いて文書情報構造化装置10aの動作を説明する。
図7は、入力される文書(書面)の一例を示す図である。文書入力部110から入力された文書は文字情報抽出部120に出力される。文字情報抽出部120は、文書入力部110から出力された文書を取得し、取得した文書に対して文字ブロック抽出処理を行うことによって文字ブロックの系列を抽出する。
具体的には、文字情報抽出部120は、文書表現種別判定処理を行うことによって文書表現種別を判定し、文書表現種別の判定結果に基づいて、レンダリング抽出処理と文字座標抽出処理と文字認識抽出処理とのいずれかを行うことによって、文字ブロックの系列を抽出する。
文字列連結判定部160aは、連結判定連結処理を実行することによって、隣接する2つの文字ブロックが連結するかどうかを判定し、連結すると判定した場合には2つのブロックを連結して新たなブロックを生成する。文字列連結判定部160aは、連結した新たなブロックの文字列は両ブロックの文字列を連結したものとし、座標は2つの矩形に外接する矩形とする。文字列連結判定部160aは、連結判定連結処理を実行することによって、全ての隣接文字ブロックペアを対象に連結するかどうかを判定し、連結すると判定した場合に各々のブロックを連結することで、3つ以上のブロックを連結して新たなブロックを生成するようにしてもよい。
例えばブロック番号「1011」とブロック番号「1012」との連結判定を行う場合には、境界前のブロックを連結した「・・・に関する業務委託契約作業」と、境界後のブロックを連結した「期間2020年4月1日~2020年9月30日・・・」との文字列に基づいた特徴量とすればよい。例えば判定対象境界の前後4文字を特徴量として用いる場合は、「契約作業-期間20」を対象として、その文字n-gramなどを特徴量とする。
機械学習の代わりに、あらかじめ準備した項目名の辞書を用いて実現してもよい。文字列を連結したものが辞書に掲載されている場合に連結するなどをルールとする。例えば辞書に「作業期間」というエントリがある場合には、ブロック番号「1011」とブロック番号「と1012」とが連結されることとなる。
分割判定についても、ここでは機械学習を用いた処理例を説明する。機械学習では、各文字ブロックの文字列中の各文字境界候補について、各文字境界候補が分割されるべきかどうかの二値分類器として実現することができる。ここで文字境界候補の一例としては、例えば、全ての文字境界を候補とすることである。
例えばブロック番号「1013」の「2020年4月1日~2020年9月30日」について、「2」と「020年4月・・」の間、「20」と「20年4月・・」の間などのように、全ての文字境界を候補とする。また、文字列を形態素解析し、単語境界を文字境界候補とすることも考えられる。その場合は例えば「2020」と「年4月・・」の間などが境界候補となる。
さらに、文字列左側もしくは右側から順に分割判定をするように構成して、既に実行した分割判定の結果を分割動的特徴量として加えることも可能である。文字列分割判定部170aは、文字ブロックの範囲が補正された結果として、文字ブロックの集合を出力する。文字列分割判定部170aは、分割判定分割処理を実行することによって、各々の文字ブロックについて、その文字ブロックを分割した場合に、新たな文字ブロックの文字列には分割点の前後の部分文字列を格納する。文字列分割判定部170aは、新たな文字ブロックの座標範囲は、仮に各文字ブロック中の各文字の座標が得られている場合にはその各文字の座標から算出した座標値を用いるようにしてもよい。文字列分割判定部170aは、新たな文字ブロックの座標範囲は、仮に各文字の座標が得られていない場合には、分割した文字列の長さの比に基づいて新たな文字ブロックの座標範囲を算出してもよい。
記述項目構造化部130は図9Aに示される文字ブロック集合から、項目値と項目種別ならびに項目名を抽出する。
記述項目構造化部130は、項目種別D40および項目名D50を推定する。ここで、ブロック番号D10に関連付けられる項目種別D40が[その他]でなければ、当該ブロック番号D10に関連付けられる文字列D30は項目値であることを意味している。
ここでは、一例として、記述項目構造化部130が、項目抽出処理と項目種別判定処理とを行う場合に、単一の機械学習にて推定する構成例について説明する。記述項目構造化部130が、項目抽出処理と項目種別判定処理とを行う場合に、別個の機械学習にて推定するようにしてもよい。
例えば周辺文字ブロックの範囲として、自身の左側に位置するブロックを定義した場合、ブロック番号3102の周辺文字ブロックはブロック番号3101となり、ブロック番号3104の周辺文字ブロックはブロック番号3101、ブロック番号3102、ブロック番号3103となる。左側以外にも上側や右側を周辺と定義してもよいし、その座標距離に閾値制限を設けてもよい。
また、着目する文字ブロックの座標も特徴量化して用いる。例えば、文字ブロックの重心座標が紙面のどの位置にあるかなどの特徴量が考えられる。項目種別D40が付与された教師データを用いて機械学習することで、項目種別を推定できる。
このように構成することによって、文書情報構造化装置10aは、項目値の種別を表現している文字列と文字列の位置とのいずれか一方又は両方を電子化文書から抽出できるため、抽出した項目値の種別を含む記述項目情報を出力できる。
このように構成することによって、文書情報構造化装置10aは、断片化された文字列を連結するかどうかの判定結果に基づいて、文字列を連結できるため、連結した文字列に基づいて、文書中の文字列と文字列の位置とを抽出し、抽出した文字列と文字列の位置とから、文書に記述された各項目の項目値を抽出し、抽出した項目値の種別を推定できる。
このように構成することによって、文書情報構造化装置10aは、過分に連結された文字列を分割するかどうかの判定結果に基づいて、文字列を分割できるため、分割した文字列に基づいて、文書中の文字列と文字列の位置とを抽出し、抽出した文字列と文字列の位置とから、文書に記述された各項目の項目値を抽出し、抽出した項目値の種別を推定できる。
また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。
さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
Claims (7)
- 電子化文書を入力する文書入力部と、
前記文書入力部が入力した前記電子化文書から、文書中の文字列と前記文字列の位置とを抽出する文字情報抽出部と、
前記文字情報抽出部が抽出した前記文字列と前記文字列の前記位置とから、文書に記述された各項目の項目値を抽出する項目値抽出部と、
前記項目値抽出部が抽出した前記項目値の種別を推定する項目値種別判定部と、
前記項目値抽出部が抽出した前記項目値と前記項目値種別判定部が推定した前記項目値の前記種別とを含む記述項目情報を出力する記述項目情報出力部と、
を備え、
前記項目値抽出部は、前記文字列に含まれるキーワードによるルール判定を行うことによって又は教師データを用いた機械学習によって、前記文字列が項目値を指し示すかどうかを判定する文書情報構造化装置。 - 前記記述項目情報に含まれる前記項目値の前記種別を表現している文字列と前記文字列の位置とのいずれか一方又は両方を前記電子化文書から抽出する項目名抽出部
をさらに備える、請求項1に記載の文書情報構造化装置。 - 文字列同士を連結するかどうかを判定する文字列連結判定部
をさらに備える、請求項1又は請求項2に記載の文書情報構造化装置。 - 文字列を分割するかどうかを判定する文字列分割判定部
をさらに備える、請求項1又は請求項2に記載の文書情報構造化装置。 - 前記電子化文書中に文字コードで表現された文字情報が含まれているかどうかを判定する文字情報判定部と、
前記文字情報判定部による前記文字情報が含まれているかどうかの判定結果に基づいて、前記文字情報を用いるか、画像情報を文字読み取り装置にて文字情報化して用いるかを切り替える文字情報切り替え部と、
をさらに備える、請求項1に記載の文書情報構造化装置。 - コンピューターが実行する文書情報構造化方法であって、
電子化文書を入力するステップと、
前記電子化文書から、文書中の文字列と前記文字列の位置とを抽出するステップと、
前記文字列と前記文字列の前記位置とから、文書に記述された各項目の項目値を抽出するステップと、
前記項目値の種別を推定するステップと、
前記項目値と前記項目値の前記種別とを含む記述項目情報を出力するステップと、
を有し、
前記項目値を抽出するステップでは、前記文字列に含まれるキーワードによるルール判定を行うことによって又は教師データを用いた機械学習によって、前記文字列が項目値を指し示すかどうかを判定する、文書情報構造化方法。 - コンピューターに、
電子化文書を入力するステップと、
前記電子化文書から、文書中の文字列と前記文字列の位置とを抽出するステップと、
前記文字列と前記文字列の前記位置とから、文書に記述された各項目の項目値を抽出するステップと、
前記項目値の種別を推定するステップと、
前記項目値と前記項目値の前記種別とを含む記述項目情報を出力するステップと、
を実行させ、
前記項目値を抽出するステップでは、前記文字列に含まれるキーワードによるルール判定を行うことによって又は教師データを用いた機械学習によって、前記文字列が項目値を指し示すかどうかを判定する、プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022099538A JP7430219B2 (ja) | 2022-06-21 | 2022-06-21 | 文書情報構造化装置、文書情報構造化方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022099538A JP7430219B2 (ja) | 2022-06-21 | 2022-06-21 | 文書情報構造化装置、文書情報構造化方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2024000690A JP2024000690A (ja) | 2024-01-09 |
JP7430219B2 true JP7430219B2 (ja) | 2024-02-09 |
Family
ID=89451745
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022099538A Active JP7430219B2 (ja) | 2022-06-21 | 2022-06-21 | 文書情報構造化装置、文書情報構造化方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7430219B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7597963B1 (ja) | 2024-02-06 | 2024-12-10 | 株式会社ビズリーチ | 採用支援システム、採用支援方法及びプログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007233913A (ja) | 2006-03-03 | 2007-09-13 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
JP2015041145A (ja) | 2013-08-20 | 2015-03-02 | 株式会社野村総合研究所 | 個人情報検出装置およびコンピュータプログラム |
WO2020162187A1 (ja) | 2019-02-06 | 2020-08-13 | 日本電信電話株式会社 | 情報処理装置、判別方法および判別プログラム |
JP2021043775A (ja) | 2019-09-12 | 2021-03-18 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP2021056614A (ja) | 2019-09-27 | 2021-04-08 | エヌ・ティ・ティ・アドバンステクノロジ株式会社 | 文書審査支援装置、文書審査支援方法及びコンピュータプログラム |
JP2022019445A (ja) | 2020-07-17 | 2022-01-27 | キヤノン株式会社 | 画像処理装置、方法、プログラム |
-
2022
- 2022-06-21 JP JP2022099538A patent/JP7430219B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007233913A (ja) | 2006-03-03 | 2007-09-13 | Fuji Xerox Co Ltd | 画像処理装置及びプログラム |
JP2015041145A (ja) | 2013-08-20 | 2015-03-02 | 株式会社野村総合研究所 | 個人情報検出装置およびコンピュータプログラム |
WO2020162187A1 (ja) | 2019-02-06 | 2020-08-13 | 日本電信電話株式会社 | 情報処理装置、判別方法および判別プログラム |
JP2021043775A (ja) | 2019-09-12 | 2021-03-18 | 富士ゼロックス株式会社 | 情報処理装置及びプログラム |
JP2021056614A (ja) | 2019-09-27 | 2021-04-08 | エヌ・ティ・ティ・アドバンステクノロジ株式会社 | 文書審査支援装置、文書審査支援方法及びコンピュータプログラム |
JP2022019445A (ja) | 2020-07-17 | 2022-01-27 | キヤノン株式会社 | 画像処理装置、方法、プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2024000690A (ja) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111723807B (zh) | 使用端到端深度学习识别机打字符和手写字符 | |
JP6838209B1 (ja) | 文書画像解析装置、文書画像解析方法およびプログラム | |
US8321357B2 (en) | Method and system for extraction | |
Clausner et al. | Efficient and effective OCR engine training | |
US20130036113A1 (en) | System and Method for Automatically Providing a Graphical Layout Based on an Example Graphic Layout | |
US12249171B2 (en) | Computing system for extraction of textual elements from a document | |
CN112464927B (zh) | 一种信息提取方法、装置及系统 | |
US12014561B2 (en) | Image reading systems, methods and storage medium for performing geometric extraction | |
US20230376687A1 (en) | Multimodal extraction across multiple granularities | |
CN116311300A (zh) | 表格生成方法、装置、电子设备以及存储介质 | |
CN113673294B (zh) | 文献关键信息的提取方法、装置、计算机设备和存储介质 | |
JP7430219B2 (ja) | 文書情報構造化装置、文書情報構造化方法およびプログラム | |
CN117859122A (zh) | 包括用于自动化文档处理的技术的ai增强的审计平台 | |
US11508139B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
JP6856916B1 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP2023072561A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20210064815A1 (en) | Information processing apparatus and non-transitory computer readable medium | |
US20230099764A1 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
Hamplová et al. | Character segmentation in the development of palmyrene aramaic OCR | |
US20250078552A1 (en) | Information processing apparatus, processing information method, and storage medium | |
US20240184985A1 (en) | Information representation structure analysis device, and information representation structure analysis method | |
JP2024178578A (ja) | 情報処理装置、情報処理方法、及び情報処理プログラム | |
US20240362400A1 (en) | Information processing apparatus, control method thereof, and storage medium | |
MAC et al. | Document Image Analysis: Table Detection, Analysis and Format Preservation | |
Nancy Deborah et al. | Efficient Information Retrieval: AWS Textract in Action |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230822 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231013 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7430219 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |