JP7644282B1 - Information processing system, information processing method, and program - Google Patents
Information processing system, information processing method, and program Download PDFInfo
- Publication number
- JP7644282B1 JP7644282B1 JP2024027768A JP2024027768A JP7644282B1 JP 7644282 B1 JP7644282 B1 JP 7644282B1 JP 2024027768 A JP2024027768 A JP 2024027768A JP 2024027768 A JP2024027768 A JP 2024027768A JP 7644282 B1 JP7644282 B1 JP 7644282B1
- Authority
- JP
- Japan
- Prior art keywords
- image
- specific range
- character
- accuracy
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
【課題】画像から適切に情報を抽出可能なシステムを提供する。
【解決手段】情報処理システムにおいて、電子データ生成装置は、対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、第1の基準よりも低いと判定された第1の基準指標に対応する文字を含む、対象画像の一部の範囲の画像である特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、第2のテキスト情報を取得する第2の情報取得部と、第1のテキスト情報と、第2のテキスト情報と、に基づいて、対象画像に含まれる文字を特定する文字特定部と、を備える。
【選択図】図1
A system capable of appropriately extracting information from an image is provided.
[Solution] In an information processing system, an electronic data generation device includes a second information acquisition unit that acquires second text information from a second optical character recognition device different from the first optical character recognition device that recognizes, when a first accuracy index indicating the degree of recognition accuracy for characters indicated by the first text information is determined to be lower than a first standard for the accuracy of recognition of characters included in an image, as second text information, and the second information acquisition unit recognizes at least one character included in a specific range image, which is an image of a portion of the target image, including a character corresponding to the first standard index determined to be lower than the first standard, from a first optical character recognition device that recognizes each of a plurality of characters included in a target image as first text information, and a character identification unit that identifies a character included in the target image based on the first text information and the second text information.
[Selected Figure] Figure 1
Description
本発明は、情報処理システム、情報処理方法、およびプログラムに関する。 The present invention relates to an information processing system, an information processing method, and a program.
機械学習モジュールを用いて文書画像から情報を抽出するシステムが開示されている(特許文献1)。 A system that uses a machine learning module to extract information from document images is disclosed (Patent Document 1).
特許文献1に記載の文書データ抽出システムは、文書に関連付けられた画像データを取得し、光学式文字認識により画像データからメタデータを抽出する。メタデータは、テキストコンテンツ項目列と、テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とが指定される。文書データ抽出システムは、機械学習モジュールを用いて、テキストコンテンツ項目列とテキストコンテンツ項目特徴とに基づき、キーに関連付けられた1以上のテキストコンテンツ項目を決定する。これにより、文書データ抽出システムは文書画像から情報を抽出することができる。
The document data extraction system described in
しかし、光学式文字認識を実行する一つの光学式文字認識装置によって画像データから適切にメタデータを生成できない場合、文書画像から適切に情報を抽出することができないという問題が生じる。 However, if an optical character recognition device that performs optical character recognition cannot properly generate metadata from image data, a problem arises in which information cannot be properly extracted from document images.
そこで、本発明は、上記の課題を解決するために、画像から適切に情報を抽出可能なシステムを提供することを目的とする。 Therefore, in order to solve the above problems, the present invention aims to provide a system that can appropriately extract information from images.
本発明の一態様に係る情報処理システムは、所定の装置から、文字を含む対象画像を取得する対象画像取得部と、前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得する第1の情報取得部と、前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる文字についての前記第2のテキスト情報を取得する第2の情報取得部と、前記第1のテキスト情報と、前記第2のテキスト情報と、に基づいて、前記対象画像に含まれる文字を特定する文字特定部と、を備える。 An information processing system according to one aspect of the present invention includes a target image acquisition unit that acquires a target image including characters from a predetermined device, a first information acquisition unit that acquires, from a first optical character recognition device that recognizes each of a plurality of characters included in the target image as first text information, the first text information for each of the plurality of characters and a first accuracy index indicating the degree of recognition accuracy for the characters indicated by the first text information, and a first reference index based on at least one of the first accuracy indexes for the plurality of characters that is higher than a first reference regarding the accuracy of recognition of characters included in an image. If it is determined that the first reference indicator is lower, a specific range image is an image of a part of the target image that includes characters corresponding to the first reference indicator determined to be lower than the first reference, and at least one character included in the specific range image is recognized as second text information. A second information acquisition unit acquires the second text information about the characters included in the specific range image from a second optical character recognition device different from the first optical character recognition device, and a character identification unit identifies the characters included in the target image based on the first text information and the second text information.
本発明の一態様に係る情報処理方法は、コンピュータが、所定の装置から、文字を含む対象画像を取得することと、前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得することと、前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる文字についての前記第2のテキスト情報を取得することと、前記第1のテキスト情報と、前記第2のテキスト情報と、に基づいて、前記対象画像に含まれる文字を特定することと、を実行する。 In one aspect of the present invention, an information processing method includes a computer that acquires a target image including characters from a predetermined device, acquires the first text information for each of the multiple characters included in the target image from a first optical character recognition device that recognizes each of the multiple characters included in the target image as first text information, and acquires the first text information for each of the multiple characters and a first accuracy index indicating the degree of recognition accuracy for the characters indicated by the first text information from a first optical character recognition device that recognizes each of the multiple characters included in the target image as first text information, and when a first reference index based on at least one of the first accuracy indexes for the multiple characters is determined to be lower than a first reference for the accuracy of recognition of the characters included in the image, acquires the second text information for the characters included in the specific range image from a second optical character recognition device different from the first optical character recognition device that recognizes each of at least one character included in the specific range image as second text information, the second text information for the characters included in the specific range image being a specific range image that is an image of a part of the target image including the characters corresponding to the first reference index determined to be lower than the first reference, and the second text information for the characters included in the specific range image being acquired from the second optical character recognition device that is different from the first optical character recognition device, and the second text information is acquired.
本発明の一態様に係るプログラムは、コンピュータに、所定の装置から、文字を含む対象画像を取得することと、前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得することと、前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる文字についての前記第2のテキスト情報を取得することと、前記第1のテキスト情報と、前記第2のテキスト情報と、に基づいて、前記対象画像に含まれる文字を特定することと、を実行させる。 A program according to one aspect of the present invention causes a computer to execute the following: acquire a target image including characters from a specified device; acquire, from a first optical character recognition device that recognizes each of a plurality of characters included in the target image as first text information, the first text information for each of the plurality of characters and a first accuracy index indicating the degree of recognition accuracy for the character indicated by the first text information; if a first reference index based on at least one of the first accuracy indexes for the plurality of characters is determined to be lower than a first reference standard for the accuracy of recognition of characters included in an image, acquire the second text information for the characters included in the specific range image from a second optical character recognition device different from the first optical character recognition device that recognizes each of at least one character included in the specific range image as second text information; and identify the characters included in the target image based on the first text information and the second text information.
本発明によれば、画像から適切に情報を抽出可能なシステムを提供することができる。 The present invention provides a system that can appropriately extract information from images.
以下に、本発明の一実施形態における電子データ生成システム10について、図面を参照して詳細に説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。すなわち、本発明は、その趣旨を逸脱しない範囲で種々変形し、または各実施例を組み合わせるなどして実施することができる。また、以下の図面の記載において、同一または類似の部分には同一または類似の符号を付して表している。
The electronic
また、本実施形態において、「部」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、一つの「部」、「装置」、「システム」が有する機能が2つ以上の物理的手段や装置により実現されてもよく、二つ以上の「部」、「装置」、「システム」の機能が1つの物理的手段や装置により実現されてもよい。さらには、電子データ生成システム10を構成する複数の装置のそれぞれの以下に示す各種機能が、当該複数の装置における他の装置によって実行されるように構成されていてもよい。
In addition, in this embodiment, the terms "part", "device", and "system" do not simply mean physical means, but also include cases where the functions of the "part", "device", and "system" are realized by software. Furthermore, the functions of one "part", "device", or "system" may be realized by two or more physical means or devices, and the functions of two or more "parts", "devices", or "systems" may be realized by one physical means or device. Furthermore, the various functions described below of each of the multiple devices that make up electronic
===電子データ生成システム10の概要===
<<構成の概要>>
図1を参照して、電子データ生成システム10の概要について説明する。図1は、電子データ生成システム10の概要を示す図である。
Overview of Electronic
<<Configuration Overview>>
An overview of an electronic
電子データ生成システム10は、複数の光学式文字認識装置を用いて、画像からデジタル文書を正確に生成するシステムである。具体的には、電子データ生成システム10は、JPEG(Joint Photographic Experts Group)、TIFF(Tagged Image File Format)、PNG(Portable Network Graphics)等のグラフィックフォーマットで指定された画像やPDF(Portable Document Format)データの画像(以下、「対象画像」という。)などを、複数の光学式文字認識装置を通じてデジタルデータであるテキスト情報を生成する。
The electronic
対象画像は、例えば各種契約書や論文などの画像である。以下、便宜上、対象画像が一例として一頁単位の契約書の画像であるとして説明する。 The target image may be, for example, an image of various contracts or papers. For the sake of convenience, the following description will be given assuming that the target image is an image of a single page of a contract.
電子データ生成システム10は、例えば、電子データ生成装置100と、第1の光学式文字認識装置200と、第2の光学式文字認識装置300と、ユーザ端末400とを含む。
The electronic
電子データ生成装置100は、異なる二つの光学式文字認識装置のそれぞれによる対象画像の文字認識の結果に基づき、対象画像の文字認識の結果であるデジタル文書を出力する装置である。
The electronic
第1の光学式文字認識装置200は、対象画像に対して文字認識を実行する装置である。
The first optical
第2の光学式文字認識装置300は、電子データ生成装置100から取得される、対象画像の所定の範囲の画像に対して文字認識を実行する装置である。
The second optical
電子データ生成装置100、第1の光学式文字認識装置200および第2の光学式文字認識装置300は、例えば、クラウドコンピュータ、サーバコンピュータ、パーソナルコンピュータ(例えば、デスクトップ、ラップトップ、タブレットなど)、メディアコンピュータプラットホーム(例えば、ケーブル、衛星セットトップボックス、デジタルビデオレコーダ)、ハンドヘルドコンピュータデバイス(例えば、PDA、電子メールクライアントなど)、あるいは他種のコンピュータ、またはコミュニケーションプラットホームであってもよい。なお、電子データ生成装置100、第1の光学式文字認識装置200および第2の光学式文字認識装置300における処理の少なくとも一部は、1以上のコンピュータ(限定ではなく例として、1以上のコンピュータにより構成されるクラウドコンピューティング)により実現されていてもよい。
The electronic
ユーザ端末400は、ユーザの操作入力を受け付けて各種情報を表示する装置である。 The user terminal 400 is a device that accepts user input and displays various information.
ユーザ端末400は、例えば、スマートフォン、携帯電話(フィーチャーフォン)、パーソナルコンピュータ(例えば、デスクトップ、ラップトップ、タブレットなど)、メディアコンピュータプラットホーム(例えば、ケーブル、衛星セットトップボックス、 デジタルビデオレコーダ)、ハンドヘルドコンピュータデバイス(例えば、PDA(Personal Digital Assistant)、電子メールクライアントなど)、ウェアラブル端末(メガネ型デバイス、時計型デバイスなど)、他種のコンピュータ、またはコミュニケーションプラットホームであってもよい。 The user terminal 400 may be, for example, a smartphone, a mobile phone (feature phone), a personal computer (e.g., desktop, laptop, tablet, etc.), a media computing platform (e.g., cable, satellite set-top box, digital video recorder), a handheld computing device (e.g., PDA (Personal Digital Assistant), email client, etc.), a wearable device (glasses-type device, watch-type device, etc.), another type of computer, or a communication platform.
<<処理の概要>>
図1を参照して、電子データ生成システム10の処理の概要について説明する。
<<Processing Overview>>
An overview of the processing of an electronic
まず、ステップS10において、電子データ生成装置100は、所定の装置から取得された対象画像を、第1の光学式文字認識装置200に送信する。
First, in step S10, the electronic
ステップS11において、第1の光学式文字認識装置200は、対象画像(例えば一頁単位の画像)に含まれる文字を認識して、認識した文字についてのテキスト情報(以下、「第1のテキスト情報」という。)を生成する。第1のテキスト情報には当該文字の対象画像上の座標が含まれていてもよい。このとき、第1の光学式文字認識装置200は、生成した第1のテキスト情報が示す文字に対する認識の正確性の度合い(以下、「第1の正確性指標」という。)を生成する。以下では、便宜上、第1のテキスト情報、第1の正確性指標および座標をまとめて「第1の生成情報」ということもある。
In step S11, the first optical
第1の光学式文字認識装置200は、第1の生成情報を電子データ生成装置100に送信する。
The first optical
ステップS12において、電子データ生成装置100は、複数の文字における第1の正確性指標のうちの少なくとも一つに基づく基準指標(以下、「第1の基準指標」という。)が、画像に含まれる文字の認識の正確性に関する基準(以下、「第1の基準」という。)よりも低いと判定された場合、基準指標に対応する文字を含む、対象画像の所定の範囲の画像(以下、「特定範囲画像」という。)を特定する。
In step S12, if the electronic
第1の基準指標とは、例えば、複数の文字のそれぞれの第1の正確性指標であってもよいし、行単位の画像やブロック単位の画像に含まれる複数の文字における第1の正確性指標の平均値であってもよい。 The first reference index may be, for example, the first accuracy index for each of the multiple characters, or the average value of the first accuracy index for the multiple characters included in a line-unit image or a block-unit image.
第1の基準とは、例えば第1の正確性指標と比較可能な閾値である。 The first criterion is, for example, a threshold value that can be compared to the first accuracy index.
特定範囲画像とは、例えば、一頁単位の対象画像の一部をセグメント化した、一つの文章がまとまった画像(以下、「ブロック画像」という。)であってもよいし、一行分の画像(以下、「行画像」という。)であってもよいし、一文字の画像である文字画像であってもよい。以下、便宜上、特定範囲画像を「行画像」として説明する。 The specific range image may be, for example, an image of a single sentence (hereinafter referred to as a "block image") obtained by segmenting a portion of a page-unit target image, an image of one line (hereinafter referred to as a "line image"), or a character image, which is an image of a single character. For convenience, the specific range image will be described below as a "line image."
電子データ生成装置100は、特定範囲画像を第2の光学式文字認識装置300に送信する。すなわち、電子データ生成装置100は、対象画像を文字認識させた光学式文字認識装置とは異なる光学式文字認識装置に、文字認識の正確性が低いと判定された文字を含む、例えば対象画像の一部の範囲の特定範囲画像(例えば行画像)を再度文字認識させる。
The electronic
ステップS13において、第2の光学式文字認識装置300は、特定範囲画像に含まれる文字を認識して、認識した文字についてのテキスト情報(以下、「第2のテキスト情報」という。)を生成する。第2のテキスト情報には当該文字の対象画像上の座標が含まれていてもよい。このとき、第2の光学式文字認識装置300は、生成した第2のテキスト情報が示す文字に対する認識の正確性の度合い(以下、「第2の正確性指標」という。)を生成する。なお、以下では、第2のテキスト情報、第2の正確性指標および座標をまとめて「第2の生成情報」ということもある。
In step S13, the second optical
第2の光学式文字認識装置300は、第2の生成情報を電子データ生成装置100に送信する。
The second optical
ステップS14において、電子データ生成装置100は、特定範囲画像に含まれる少なくとも一つの文字のそれぞれにおける第2の正確性指標のうちの少なくとも一つに基づく基準指標(以下、「第2の基準指標」という。)と、画像に含まれる文字の認識の正確性に関する基準(以下、「第2の基準」という。)との比較結果(以下、「第1の比較結果」という。)に基づいて、特定範囲画像に含まれる文字を特定する。
In step S14, the electronic
第2の基準指標とは、例えば、特定範囲画像に含まれる文字のそれぞれの第2の正確性指標であってもよいし、特定範囲画像に含まれる複数の文字における第2の正確性指標の平均値であってもよい。 The second reference index may be, for example, a second accuracy index for each character included in the specific range image, or may be an average value of the second accuracy indexes for multiple characters included in the specific range image.
第2の基準とは、例えば第2の正確性指標と比較可能な閾値である。 The second criterion is, for example, a threshold value that can be compared to the second accuracy index.
電子データ生成装置100は、特定した特定範囲画像に含まれる文字を示す情報(以下、「文字認識結果」という。)を含む画面をユーザ端末400に送信する。
The electronic
以上のとおり、電子データ生成装置100は、一頁単位の対象画像に含まれる文字に対する第1の光学式文字認識装置200による文字認識の正確性が低い場合に、第1の光学式文字認識装置200とは異なる第2の光学式文字認識装置300によって、当該文字を含む、対象画像の一部の範囲の特定範囲画像(ここでは一例として行単位の行画像)を文字認識した結果を取得して、当該結果に基づき対象画像に含まれる文字を特定する。
As described above, when the accuracy of character recognition by the first optical
すなわち、電子データ生成装置100では、文字認識の対象範囲が異なる複数の光学式文字認識装置(例えば第1の光学式文字認識装置200は一頁単位の文字認識で第2の光学式文字認識装置300は行単位の文字認識)を用いて、文字認識の正確性が低い画像に対して文字認識することにより、正確性が高い文字認識を実現可能とする。
In other words, the electronic
さらに言うと、電子データ生成システム10では、文字認識の実行費用が第1の光学式文字認識装置200よりも高額な第2の光学式文字認識装置300を用いて対象範囲の文字認識の全てを実行するのではなく、第1の光学式文字認識装置200では文字認識の正確性が低い、対象範囲よりもより狭い範囲の文字認識を実行することにより、文字認識の正確性を高めるとともに、文字認識にかかる費用を低減することが可能となる。
Moreover, in the electronic
なお、第2の光学式文字認識装置300に送信される特定範囲画像は、行画像であることに限定されず、一頁単位の画像であってもよく、ブロック画像または文字画像であってもよい。
Note that the specific range image sent to the second optical
また、電子データ生成システム10は、第1の光学式文字認識装置200および第2の光学式文字認識装置300に加えて、さらに少なくとも一つの光学式文字認識装置を含んでいてもよい。この場合、当該光学式文字認識装置は、第1の光学式文字認識装置200および第2の光学式文字認識装置300のいずれかと同じ範囲の画像を文字認識するものであってもよいし、第1の光学式文字認識装置200および第2の光学式文字認識装置300が文字認識する範囲よりも狭い範囲の画像を文字認識するものであってもよい。これにより、電子データ生成システム10は、より正確性が高い文字認識を実現可能となる。
The electronic
===電子データ生成装置100===
図1に示すように、電子データ生成装置100は、記憶部101と、対象画像取得部102と、第1の情報取得部103と、第1の判定部104と、特定範囲特定部105と、情報送信部106と、第2の情報取得部107と、第2の判定部108と、文字特定部109と、表示処理部110とを含む。
Electronic
As shown in FIG. 1, the electronic
記憶部101は、例えば、対象画像情報D101aと、特定範囲画像情報D101bとを含む。
The
図2を参照して、対象画像情報D101aについて説明する。図2は、対象画像情報101aの一例を示すデータベースである。対象画像情報101aは、対象画像に関するデータが格納されるデータベースである。
The target image information D101a will be described with reference to FIG. 2. FIG. 2 is a database showing an example of the
図2に示すように、対象画像情報D101aは、例えば、[対象画像ID]、[対象画像]、[ブロック情報]、[行情報]、[文字情報]、[座標]、[第1の正確性指標]などの項目を含む。[対象画像ID]は、対象画像を一意に識別可能な識別情報が格納される。[対象画像]は、対象画像が格納される。[ブロック情報]は、対象画像のうちの文章の一つのまとまりを示すブロック画像のテキスト情報(以下、「ブロック情報」という。)が格納される。[行情報]は、ブロック画像に含まれる一行ごとのテキスト情報(以下、「行情報」という。)が格納される。[文字情報]は、一行に含まれる文字のテキスト情報(以下、「文字情報」という。)が格納される。[座標]は、第1のテキスト情報のそれぞれが示す文字(文字情報)の対象画像中の座標が格納される。[第1の正確性指標]は、第1のテキスト情報のそれぞれが示す文字の正確性の度合いを示す第1の正確性指標が格納される。 2, the target image information D101a includes items such as [target image ID], [target image], [block information], [line information], [character information], [coordinates], and [first accuracy index]. [Target image ID] stores identification information that can uniquely identify the target image. [Target image] stores the target image. [Block information] stores text information of a block image that indicates a chunk of text in the target image (hereinafter referred to as "block information"). [Line information] stores text information for each line included in the block image (hereinafter referred to as "line information"). [Character information] stores text information of characters included in a line (hereinafter referred to as "character information"). [Coordinates] stores the coordinates in the target image of the characters (character information) indicated by each piece of first text information. [First accuracy index] stores a first accuracy index that indicates the degree of accuracy of the characters indicated by each piece of first text information.
図3を参照して、特定範囲画像情報D101bについて説明する。図3は、特定範囲画像情報101bの一例を示すデータベースである。特定範囲画像情報101bは、特定範囲画像に関するデータが格納されるデータベースである。
The specific range image information D101b will be described with reference to FIG. 3. FIG. 3 is a database showing an example of specific
図3に示すように、特定範囲画像情報D101bは、例えば、[特定範囲画像ID]、[特定範囲画像]、[第2のテキスト情報]、[座標]、[第2の正確性指標]などの項目を含む。[特定範囲画像ID]は、特定範囲画像を一意に識別可能な識別情報が格納される。[特定範囲画像]は、特定範囲画像が格納される。[第2のテキスト情報]は、特定範囲画像(図3では行画像)に含まれる文字画像の第2のテキスト情報が格納される。[座標]は、第2のテキスト情報が示す文字のそれぞれの対象画像中の座標または特定範囲画像中の座標が格納される。[第2の正確性指標]は、第2のテキスト情報が示す文字の正確性の度合いを示す第2の正確性指標が格納される。 As shown in FIG. 3, the specific range image information D101b includes items such as a [specific range image ID], a [specific range image], a [second text information], a [coordinates], and a [second accuracy index]. The [specific range image ID] stores identification information that can uniquely identify the specific range image. The [specific range image] stores the specific range image. The [second text information] stores second text information of the character image included in the specific range image (line image in FIG. 3). The [coordinates] stores the coordinates in the target image or the coordinates in the specific range image of the characters indicated by the second text information. The [second accuracy index] stores a second accuracy index that indicates the degree of accuracy of the characters indicated by the second text information.
対象画像取得部102は、所定の装置から対象画像を取得する。所定の装置は紙への印字を画像として取得可能な例えばスキャナー装置や対象画像を記憶するサーバ装置などである。対象画像取得部102は、取得した対象画像を第1の光学式文字認識装置200に送信してもよい。
The target
図1に戻り、第1の情報取得部103は、対象画像についての第1の生成情報を第1の光学式文字認識装置200から取得する。具体的には、電子データ生成装置100は、例えば、対象画像に含まれる文字画像のそれぞれについての第1のテキスト情報(座標を含む)および第1の正確性指標を第1の光学式文字認識装置200から取得する。第1の生成情報は対象画像情報D101aに格納される。
Returning to FIG. 1, the first information acquisition unit 103 acquires first generation information for the target image from the first optical
第1の判定部104は、第1の基準指標が第1の基準よりも低いか否かを判定する。具体的には、第1の判定部104は、第1の基準である閾値が「0.6」であり、対象画像の所定の範囲の画像(例えば行画像)が「ABC」である場合、第1のテキスト情報である「A」,「B」,「D」(文字画像「C」を「D」とご認識)のそれぞれの第1の正確性指標が「0.99」,「0.99」,「0.55」であるとすると、当該所定の範囲の画像における第1の基準指標(ここでは「D」に対応する第1の正確性指標「0.55」)が第1の基準(ここでは閾値「0.6」)よりも低いと判定する。 The first determination unit 104 determines whether the first reference index is lower than the first reference. Specifically, when the threshold value as the first reference is "0.6" and the image in a predetermined range of the target image (for example, a line image) is "ABC", if the first accuracy indexes of the first text information "A", "B", and "D" (character image "C" is recognized as "D") are "0.99", "0.99", and "0.55", respectively, the first determination unit 104 determines that the first reference index in the image in the predetermined range (here, the first accuracy index "0.55" corresponding to "D") is lower than the first reference (here, the threshold value "0.6").
すなわち、電子データ生成装置100は、対象画像に含まれる所定の範囲の画像(例えば、ブロック画像、行画像または文字画像)における第1のテキスト情報に対応する第1の正確性指標のうちの少なくとも一つ(または平均値)が閾値よりも低い場合、当該所定の範囲の画像に対して正確に文字認識できていないと判定してもよい。
In other words, if at least one (or the average value) of the first accuracy indices corresponding to the first text information in a predetermined range of images (e.g., block images, line images, or character images) included in the target image is lower than a threshold value, the electronic
特定範囲特定部105は、第1の判定部104における判定結果(以下、「第1の判定結果」という。)に基づき、第1の基準よりも低いと判定された第1の基準指標に対応する文字を含む、対象画像の一部の範囲の画像である特定範囲画像を特定する。この場合、特定範囲特定部105は、第1の光学式文字認識装置200から取得される対象画像に含まれる文字画像のそれぞれの座標を特定し、当該座標に基づき、第1の基準指標に対応する文字を含む特定範囲画像(例えば行画像)を特定する。
Based on the judgment result of the first judgment unit 104 (hereinafter referred to as the "first judgment result"), the specific
ここで、行画像を特定する処理(以下、「行特定処理」という。)の一例の概要について説明する。行特定処理では、まず、対象画像の左端の黒のドット画像を特定する。次に、行特定処理では、特定したドット画像から水平方向で右に向かって、高さ方向の所定の幅で黒ドットを特定しつつヒストグラム(例えば横軸が対象画像の左端からの距離、縦軸がドット画像の個数)を生成する。次に、水平に対して角度をずらして所定の幅で同様に黒のドット画像を特定しつつヒストグラムを生成する。そして、行特定処理では、ヒストグラムに基づき、行画像の左上のドットの座標と右下のドットの座標を特定することにより、行画像の範囲の座標を特定する。これにより、複数の文字を含む所定のまとまりの画像を適切に特定することが可能となる。 Here, an overview of an example of a process for identifying a line image (hereinafter referred to as "line identification process") will be described. In the line identification process, first, a black dot image at the left edge of the target image is identified. Next, in the line identification process, a histogram (e.g., the horizontal axis is the distance from the left edge of the target image and the vertical axis is the number of dot images) is generated while identifying black dots in a predetermined width in the height direction from the identified dot image to the right in the horizontal direction. Next, a histogram is generated while similarly identifying black dot images in a predetermined width at an angle shifted from the horizontal. Then, in the line identification process, the coordinates of the upper left dot and the lower right dot are identified based on the histogram, thereby identifying the coordinates of the range of the line image. This makes it possible to appropriately identify a predetermined group of images containing multiple characters.
なお、ヒストグラムにおいて、黒のドット画像が特定される第1の距離範囲と、黒のドット画像が特定される第2の距離範囲とが所定の距離を超える場合、第1の距離範囲の黒のドット画像が特定される範囲を第1の行画像として特定し、第2の距離範囲の黒のドット画像が特定される範囲を第1の行画像とは異なる第2の行画像として特定する。これにより、例えば同じ行ではあるものの、異なるブロック画像に含まれる行画像を異なる行として特定することが可能となる。 In addition, in the histogram, if the first distance range in which black dot images are identified and the second distance range in which black dot images are identified exceed a predetermined distance, the range in which black dot images are identified in the first distance range is identified as a first row image, and the range in which black dot images are identified in the second distance range is identified as a second row image that is different from the first row image. This makes it possible to identify row images that are in the same row but included in different block images as different rows.
情報送信部106は、特定された特定範囲画像(例えば行画像)を第2の光学式文字認識装置300に送信する。
The
第2の情報取得部107は、特定範囲画像に含まれる文字についての第2の生成情報を第2の光学式文字認識装置300から取得する。具体的には、電子データ生成装置100は、例えば、特定範囲画像である行画像(例えば「ABC」)に含まれる文字画像(例えば「A」「B」「C」)のそれぞれについての第2のテキスト情報(座標を含む)および第2の正確性指標(例えば「A:0.99」「B:0.98」「C:0.99」)を、第2の光学式文字認識装置200から取得する。
The second
第2の判定部108は、第2の基準指標と第2の基準との大小関係を判定する。具体的には、第2の判定部108は、例えば、特定範囲画像に含まれる文字ついての第2の正確性指標の全てが所定の閾値以上であるか否かを判定する。例えば、第2の判定部108は、所定の閾値が「0.6」であり、特定範囲画像(例えば行画像)が「ABC」である場合、第2のテキスト情報である「A」,「B」,「C」のそれぞれの第2の正確性指標が「0.99」,「0.99」,「0.98」であるとすると、第2の基準指標が第2の基準以上であると判定する。なお、第2の判定部108は、特定範囲画像に含まれる文字のそれぞれの第2の正確性指標の平均値が所定の閾値以上であるか否かを判定してもよい。 The second determination unit 108 determines whether the second reference index is greater than or equal to the second reference. Specifically, the second determination unit 108 determines, for example, whether all of the second accuracy indices for the characters included in the specific range image are equal to or greater than a predetermined threshold. For example, when the predetermined threshold is "0.6" and the specific range image (e.g., a line image) is "ABC", if the second accuracy indices for the second text information "A", "B", and "C" are "0.99", "0.99", and "0.98", respectively, the second determination unit 108 determines that the second reference index is equal to or greater than the second reference. The second determination unit 108 may also determine whether the average value of the second accuracy indices for the characters included in the specific range image is equal to or greater than a predetermined threshold.
第2の判定部108は、特定範囲画像についての第2の正確性指標のうちの一つでも所定の閾値よりも低い場合、第2の基準指標が第2の基準よりも低いと判定してもよい。例えば、第2の判定部108は、特定範囲画像(例えば行画像)が「ABC」である場合、第2のテキスト情報である「A」,「B」,「C」のそれぞれの第2の正確性指標が「0.99」,「0.99」,「0.50」であるとすると、第2の基準指標が第2の基準よりも低いと判定する。 The second determination unit 108 may determine that the second reference index is lower than the second reference index when any one of the second accuracy indices for the specific range image is lower than a predetermined threshold. For example, when the specific range image (e.g., a line image) is "ABC", if the second accuracy indices of the second text information "A", "B", and "C" are "0.99", "0.99", and "0.50", respectively, the second determination unit 108 determines that the second reference index is lower than the second reference index.
このように、電子データ生成装置100は、例えば、特定範囲画像についての第2の正確性指標の全てが所定の閾値を超える場合に、第2のテキスト情報が第1のテキスト情報よりも対象画像についての文字画像に対して正確に文字を認識できていると判定する。
In this way, the electronic
文字特定部109は、第2の判定部108における判定結果(以下、「第2の判定結果」という。)に基づき、特定範囲画像(すなわち対象画像)に含まれる文字を特定する。具体的には、文字特定部109は、第2の基準指標が第2の基準以上である場合、第2の正確性指標に対応する第2のテキスト情報が示す文字を特定範囲画像に含まれる文字として特定する。
The
例えば、文字特定部109は、第2のテキスト情報である「A」,「B」,「C」のそれぞれの第2の正確性指標(第2の基準指標)が「0.99」,「0.99」,「0.98」である場合、第2の基準指標が第2の基準(例えば閾値「0.6」)以上であるため、第2のテキスト情報が示す「ABC」を特定範囲画像の文字列として特定する。
For example, if the second accuracy index (second reference index) of the second text information "A", "B", and "C" are "0.99", "0.99", and "0.98", respectively, the
これにより、第1の光学式文字認識装置200による一度目の文字認識において正確性が低い文字を含む所定の範囲の文字列について、第2の光学式文字認識装置300による二度目の文字認識において文字列を適切に認識することが可能となる。
This makes it possible for a character string within a certain range, including characters that are recognized with low accuracy the first time by the first optical
一方、文字特定部109は、第2の基準指標が第2の基準よりも低い場合、第1の正確性指標と第2の正確性指標との大小関係を判定した結果に基づき、第1の正確性指標に対応する第1のテキスト情報が示す文字、または第2の正確性指標に対応する第2のテキスト情報が示す文字のいずれかを、特定範囲画像の文字として特定する。
On the other hand, when the second reference index is lower than the second reference, the
具体的には、文字特定部109は、第2の光学式文字認識装置300から取得される特定範囲画像に含まれる文字画像のそれぞれの第2の正確性指標の最低値と、第1の光学式文字認識装置200から取得される当該特定範囲画像に対応する画像の第1のテキスト情報に対応する第1の正確性指標のうちの最低値と、のうちの高い値を示す最低値を特定する。文字特定部109は、特定した最低値を示す正確性指標に対応するテキスト情報(第1のテキスト情報または第2のテキスト情報)が示す文字を特定範囲画像に含まれる文字として特定する。
Specifically, the
例えば、文字特定部109は、行画像「ABC」について、第1のテキスト情報である「A」,「F」,「D」(ここでは、文字画像「B」を「F」とご認識し、「C」を「D」とご認識)における第1の正確性指標が「0.99」,「0.40」,「0.55」であり、第2のテキスト情報である「A」,「B」,「E」(文字画像「C」を「E」とご認識)のそれぞれの第2の正確性指標が「0.99」,「0.99」,「0.50」である場合、第2の正確性指標の最低値「0.50」が第1の正確性指標の最低値「0.40」よりも高い値を示すことを特定する。この場合、文字特定部109は、第2のテキスト情報が示す「ABE」を特定範囲画像の文字列として特定する。
For example, for the line image "ABC", if the first accuracy indexes of the first text information "A", "F", and "D" (here, character image "B" is recognized as "F" and "C" is recognized as "D") are "0.99", "0.40", and "0.55", and the second accuracy indexes of the second text information "A", "B", and "E" (character image "C" is recognized as "E") are "0.99", "0.99", and "0.50", respectively, the
これにより、第1の光学式文字認識装置200による一度目の文字認識において正確性が低い文字を含む所定の範囲の文字列と、第2の光学式文字認識装置300による二度目の文字認識において文字列とのうち、より正確に認識されたと推定される文字列を採用することが可能となる。
This makes it possible to adopt a character string that is estimated to have been recognized more accurately from a predetermined range of character strings including characters with low accuracy in the first character recognition by the first optical
なお、上記において、第2の正確性指標の最低値と第1の正確性指標のうちの最低値とのうちの高い値を示す最低値を特定するとして説明したが、これに限定されない。例えば、文字特定部109は、最低値に替えて平均値を用いてもよく、この場合、高い平均値を示す正確性指標(第2の基準指標)に対応するテキスト情報が示す文字を特定範囲画像の文字として特定してもよい。例えば、電子データ生成装置100は、最低値のうちの高い値を示す最低値を特定する処理を実行することによりユーザによる修正の手間を縮減でき、一方、平均値のうちの高い平均値を特定する処理を実行することによりテキストが全体的に程よくまとまっていればよいようなテキストを採用することができるためユーザの修正の手間を縮減できる。
In the above description, the minimum value indicating the higher value between the minimum value of the second accuracy index and the minimum value of the first accuracy index is specified, but this is not limited to this. For example, the
以上のように、電子データ生成装置100は、対象画像の所定の範囲(例えば行単位)の画像に対する第1の光学式文字認識装置200による文字認識の正確性が低い場合に、第1の光学式文字認識装置200とは異なる第2の光学式文字認識装置300によって当該所定の範囲の画像を文字認識した結果を取得する。すなわち、電子データ生成装置100では、二つの異なる光学式文字認識装置で文字認識することによって、文字認識の正確性が低い画像について正確性の高い文字認識が実現可能となる。
As described above, when the accuracy of character recognition by the first optical
さらに述べると、電子データ生成システム10では、例えば、文字認識を実行するための費用が安く、文字認識の精度が低い第1の光学式文字認識装置200によって広範囲(例えば一頁単位)の文字認識を実行し、文字認識を実行するための費用が第1の光学式文字認識装置200よりも高く、文字認識の精度が第1の光学式文字認識装置200よりも高い(例えば行単位での文字認識の精度が高い)第2の光学式文字認識装置300によって、より狭い範囲の文字認識を実行することが望ましい。これにより、電子データ生成システム10では、文字認識の正確性を高めるとともに、文字認識にかかる費用を低減することが可能となる。
More specifically, in the electronic
表示処理部110は、対象画像と文字特定部109で特定されたテキスト情報(文字認識結果)とを関連づけて画面内に表示させる。以下、図4を参照して、画面例について説明する。図4は、表示部に表示される画面例を示す図である。
The
図4に示すように、画面T10は、第1の表示領域T11と、第2の表示領域T12とを含む。第1の表示領域T11は対象画像が表示される領域である。第1の表示領域T11は例えば画面の一方側の半分の領域である。第2の表示領域T12は対象画像における第1のテキスト情報および特定範囲画像における第2のテキスト情報(図4では行情報)が表示される領域である。第2の表示領域T12は例えば画面の他方側の半分の領域である。 As shown in FIG. 4, the screen T10 includes a first display area T11 and a second display area T12. The first display area T11 is an area in which the target image is displayed. The first display area T11 is, for example, half of one side of the screen. The second display area T12 is an area in which the first text information in the target image and the second text information (line information in FIG. 4) in the specific range image are displayed. The second display area T12 is, for example, half of the other side of the screen.
表示処理部110は、例えば、第1の表示領域T11に表示される対象画像に含まれる文字のうち、第2の表示領域に表示される行情報が示す文字を識別可能に表示する。具体的には、図4に示すように、表示処理部110は、例えば、対象画像の行画像を識別可能なオブジェクトOT1を表示させ、当該行画像と対応する行情報にオブジェクトOT2を表示させる。例えばオブジェクトOT1の表示色はオブジェクトOT2の表示色と同じ色である。これにより、電子データ生成装置100は、対象画像の所定の範囲を文字認識した結果である第1のテキスト情報および第2のテキスト情報と、対象画像との対応関係を、ユーザに対して提供することができるため、ユーザにおいて対象画像に対する誤認識などを容易に把握可能とさせる。
The
<<変形例>>
文字特定部109は、第2の光学式文字認識装置300に特定範囲画像を入力した回数である入力回数に基づき、第1のテキスト情報が示す文字または第2のテキスト情報が示す文字のいずれかを、対象画像に含まれる文字として特定してもよい。具体的には、文字特定部109は、例えば、第2の光学式文字認識装置300に特定範囲画像(例えば行画像)を入力した入力回数が予め定められた回数を超えた場合、第1の正確性指標に対応する第1のテキスト情報が示す文字を対象画像に含まれる文字として特定する。これにより、電子データ生成システム10は、例えば、第1の光学式文字認識装置200による文字認識の処理にかかる費用よりも、第2の光学式文字認識装置300による文字認識の処理にかかる費用の方が高いような場合、一定の費用を超えるような場合は、より費用が低い光学式文字認識装置を用いて文字認識を実行することにより、費用縮減を実現できる。
<<Modifications>>
The
この場合、表示処理部110は、第2の光学式文字認識装置300に特定範囲画像を入力した回数である入力回数を画面T10の所定の位置に表示させてもよい。具体的には、表示処理部110は、第2の表示領域の所定の位置に表示されてもよい。さらに言うと、図4に示すように、表示処理部110は、入力回数を超えた時点以降に第2の光学式文字認識装置300に入力する対象となった行画像(図4では「サーバ」)に対応する第2のテキスト情報に対して、入力回数を関連づけて表示させてもよい(図4の「5回」)。これにより、電子データ生成システム10は、第2の光学式文字認識装置300による文字認識が回数制限により実行できなかった特定範囲画像について、ユーザにおいて容易に把握可能とさせる。
In this case, the
===第1の光学式文字認識装置200===
図1に戻り、第1の光学式文字認識装置200の構成について説明する。第1の光学式文字認識装置200は、例えば、対象画像が入力された場合、対象画像に含まれる文字を認識して、例えば認識した文字ごとに、第1のテキスト情報、第1の正確性指標および座標(第1の生成情報)を生成する装置である。
First Optical
1, a description will be given of the configuration of the first optical
図1に示すように、第1の光学式文字認識装置200は、例えば、記憶部210と、送受信部220と、処理部230とを備える。記憶部210は各種情報を記憶する。処理部230は文字認識するための処理を実行する。送受信部220は、電子データ生成装置100との間で各種情報を送受信する。処理部230は、例えば文字を区別するように学習されたニューラル・ネットワークを使用して画像を分析する。ニューラル・ネットワークは、例えば複数の畳み込みネットワーク層及び再帰型ネットワーク層を備える。処理部230は、例えば対象画像についてページ、ブロック、行または文字ごとにセグメント化する。セグメント化した画像に含まれる文字について文字認識を実行することで、例えば文字ごとに第1の生成情報を生成する。処理部230は、例えばセグメント化した画像(例えば対象画像、ブロック画像または行画像)を一つのまとまりとしての第1の生成情報を生成してもよい。
As shown in FIG. 1, the first optical
===第2の光学式文字認識装置300===
図1を参照して、第2の光学式文字認識装置300の構成について説明する。第2の光学式文字認識装置300は、例えば、特定範囲画像が入力された場合、特定範囲画像に含まれる文字を認識して、例えば認識した文字ごとに、第2のテキスト情報、第2の正確性指標および座標(第2の生成情報)を生成する装置である。
Second Optical
The configuration of the second optical
第2の光学式文字認識装置300は、例えば特定範囲画像が行画像である場合に、第1の光学式文字認識装置200による文字識別の正確性よりも高い正確性を実現可能な装置であることが望ましい。この場合、電子データ生成システム10では、第1の光学式文字認識装置200における文字認識の正確性が低い行画像に対して、行画像に対する文字認識の正確性が高い第2の光学式文字認識装置300を用いることにより、文字認識の正確性の向上を図ることが可能となる。
It is desirable that the second optical
図1に示すように、第2の光学式文字認識装置300は、例えば、記憶部310と、送受信部320と、処理部330とを備える。記憶部310は各種情報を記憶する。処理部330は文字認識するための処理を実行する。送受信部320は、電子データ生成装置100との間で各種情報を送受信する。処理部330は、例えば文字を区別するように学習されたニューラル・ネットワークを使用して画像を分析する。ニューラル・ネットワークは、例えば複数の畳み込みネットワーク層及び再帰型ネットワーク層を備える。処理部330は、第1の光学式文字認識装置200の処理部230と同じであってもよいが、行画像に対する文字認識に特化した処理を実行する機能部であってもよい。この場合、処理部330は、例えば行画像について文字ごとにセグメント化する。そして、処理部330は、当該文字について文字認識を実行することにより、例えば文字ごとに第2の生成情報を生成する。
As shown in FIG. 1, the second optical
===ユーザ端末400===
図1を参照して、ユーザ端末400の構成について説明する。図1に示すように、ユーザ端末400は、例えば、記憶部410と、送受信部420と、表示処理部430との機能部を含む。各機能部は、例えば、プロセッサ1001がメモリ1002に格納されているプログラムを読み出して実現される機能である。
User Terminal 400
The configuration of the user terminal 400 will be described with reference to Fig. 1. As shown in Fig. 1, the user terminal 400 includes functional units, for example, a
記憶部410は、各種情報を記憶する。送受信部420は電子データ生成装置100との間で各種情報を送受信する。送受信部420で取得された各種情報は記憶部410に記憶される。表示処理部430は電子データ生成装置100から取得する画面T10を表示部に表示させる。
The
===処理手順===
図5、図6を参照して、電子データ生成システム10の処理手順について説明する。図5は、電子データ生成システム10の処理手順を示すフローチャートである。図6は、一行の文字列のテキスト情報である行情報に対する正当性指標を示す表である。以下では、一例として、対象画像に含まれる一行の文字列である「100BASE-TXスイッチ一式」に対する文字認識について説明する。
===Processing Procedure===
The processing procedure of the electronic
ステップS100において、電子データ生成装置100は、所定の装置から対象画像を取得する。電子データ生成装置100は、対象画像を記憶部101に記憶する。電子データ生成装置100は、第1の光学式文字認識装置200に対象画像を送信する。
In step S100, the electronic
ステップS101において、第1の光学式文字認識装置200は、対象画像をセグメント化して、対象画像に含まれる文字ごとの第1のテキスト情報、第1の正確性指標および座標を生成する。第1の光学式文字認識装置200は、第1の生成情報を電子データ生成装置100に送信する。
In step S101, the first optical
ステップS102において、電子データ生成装置100は、対象画像に関連づけて、文字ごとに第1の生成情報を対象画像情報D101aに記憶する。
In step S102, the electronic
ステップS103において、電子データ生成装置100は、対象画像に含まれる文字の第1の基準指標が第1の基準よりも低いか否かを判定する。
In step S103, the electronic
第1の基準指標が第1の基準以上と判定された場合(ステップS103:NO)、ステップS104において、電子データ生成装置100は、第1のテキスト情報が示す文字を対象画像に含まれる文字として特定する。
If it is determined that the first reference indicator is equal to or greater than the first reference (step S103: NO), in step S104, the electronic
第1の基準指標が第1の基準よりも低いと判定された場合(ステップS103:YES)、ステップS105において、電子データ生成装置100は、対象画像情報D101aを参照して、第1の基準よりも低いと判定された第1の基準指標に対応する第1のテキスト情報を含む行情報を特定する。具体的には、電子データ生成装置100は、図6(a)に示す第1のテキスト情報および第1の正当性指標を特定する。
If it is determined that the first reference indicator is lower than the first reference (step S103: YES), in step S105, the electronic
ステップS106において、電子データ生成装置100は、特定した行情報に含まれる座標に基づき、行情報に対応する行画像(特定範囲画像)を対象画像から特定する。電子データ生成装置100は、特定した行画像を第2の光学式文字認識装置300に送信する。
In step S106, the electronic
ステップS107において、第2の光学式文字認識装置300は、行画像をセグメント化して、行画像に含まれる文字ごとの第2のテキスト情報、第2の正確性指標および座標を生成する。第2の光学式文字認識装置300は、第2の生成情報を電子データ生成装置100に送信する。
In step S107, the second optical
ステップS108において、電子データ生成装置100は、特定範囲画像に関連づけて、文字ごとに第2の生成情報を特定範囲画像情報D101bに記憶する。
In step S108, the electronic
ステップS109において、電子データ生成装置100は、特定範囲画像における第2の基準指標と第2の基準との大小関係を判定する。具体的には、図6(b)に示す行情報の第2の正当性指標の全て(第2の基準指標)が閾値(第2の基準)を超えるか否かを判定する。
In step S109, the electronic
第2の基準指標が第2の基準以上と判定された場合(ステップS109:YES)、ステップS110において、電子データ生成装置100は、行情報に含まれる第2のテキスト情報が示す文字を行画像に含まれる文字として特定する。
If it is determined that the second reference indicator is equal to or greater than the second reference (step S109: YES), in step S110, the electronic
第2の基準指標が第2の基準よりも低いと判定された場合(ステップS109:NO)、ステップS111において、電子データ生成装置100は、特定範囲画像に対応する行情報についての第1の正確性指標と、第2の正確性指標とを比較する。具体的には、電子データ生成装置100は、図6(a)に示す第1の正確性指標のうちの最も小さい値(図6(a)の「0.32」)と、図6(b)に示す第2の正確性指標のうちの最も小さい値(図6(b)の「0.57」)とを比較する。
If it is determined that the second reference index is lower than the second reference (step S109: NO), in step S111, the electronic
ステップS112において、電子データ生成装置100は、第1の正確性指標のうちの最も小さい値の方が第2の正確性指標のうちの最も小さい値よりも大きいと判定された場合、第1のテキスト情報を含む行情報(図6(a)の行情報)を行画像に含まれる文字として特定する。一方、電子データ生成装置100は、第2の正確性指標のうちの最も小さい値の方が第1の正確性指標のうちの最も小さい値よりもが大きいと判定された場合、第2のテキスト情報を含む行情報(図6(b)の行情報)を行画像に含まれる文字として特定する。
In step S112, if the electronic
これにより、第1の光学式文字認識装置200による一度目の文字認識において正確性が低い文字を含む所定の範囲の文字列と、第2の光学式文字認識装置300による二度目の文字認識において文字列とのうち、より正確に認識されたと推定される文字列を採用することが可能となる。
This makes it possible to adopt a character string that is estimated to have been recognized more accurately from a predetermined range of character strings including characters with low accuracy in the first character recognition by the first optical
なお、ステップS112において、電子データ生成装置100は、第1の正確性指標の平均値(図6(a)の「平均値」)と、第2の正確性指標の平均値(図6(b)の「平均値」)とを比較してもよい。この場合、電子データ生成装置100は、それぞれの平均値のうちの大きい値を示す平均値に対応する行情報(図6(b)の行情報)を行画像に含まれる文字として特定する。
In addition, in step S112, the electronic
ステップS113において、電子データ生成装置100は、対象画像と、対象画像を文字認識した結果とを比較可能な図4に示す画面T10をユーザ端末400の表示部に表示させる。
In step S113, the electronic
なお、電子データ生成システム10は、ステップS106において複数の行情報が特定された場合、ステップS106からステップS112を、特定された行情報の個数だけ繰り返し実行する。
If multiple pieces of line information are identified in step S106, the electronic
このように、電子データ生成システム10では、一頁単位の文字認識をより適切に実行可能な第1の光学式文字認識装置200によって文字認識した結果、文字認識の正確性が低いと判定された行について、行単位の文字認識をより適切に実行可能な第2の光学式文字認識装置300によって文字認識することが望ましい。そして、電子データ生成システム10は、第1の光学式文字認識装置200による文字認識の結果と、第2の光学式文字認識装置300による文字認識の結果とを比較して、より正確性が高い方の文字認識の結果を採用する。すなわち、電子データ生成装置100では、二つの異なる光学式文字認識装置で異なる文字認識の範囲に対して文字認識することによって、文字認識の正確性が低い画像について正確性の高い文字認識が実現可能となる。
In this way, in the electronic
===ハードウェア構成===
図7を参照して、電子データ生成装置100、第1の光学式文字認識装置200、第2の光学式文字認識装置300およびユーザ端末400をコンピュータで実現する場合のハードウェア構成の一例を説明する。図7は、コンピュータのハードウェア構成の一例を示す図である。
===Hardware Configuration===
7, an example of a hardware configuration for implementing the electronic
図7に示すように、コンピュータ1000は、プロセッサ1001と、メモリ1002と、記憶装置1003と、入力I/F部1004と、データI/F部1005と、通信I/F部1006、及び表示部1007を含む。
As shown in FIG. 7, the
プロセッサ1001は、メモリ1002に記憶されているプログラムを実行することによりコンピュータ1000における各種の処理を制御する制御部である。
The
メモリ1002は、例えばRAM(Random Access Memory)等の記憶媒体である。メモリ1002は、プロセッサ1001によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。
The
記憶装置1003は、例えばハードディスクドライブ(HDD)やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置1003は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。
The
入力I/F部1004は、ユーザからの入力を受け付けるためのデバイスである。入力I/F部1004の具体例としては、キーボードやマウス、タッチパネル、各種センサー、ウェアラブル・デバイス等が挙げられる。入力I/F部1004は、例えばUSB(Universal Serial Bus)等のインターフェースを介してコンピュータ1000に接続されても良い。
The input I/
データI/F部1005は、コンピュータ1000の外部からデータを入力するためのデバイスである。データI/F部1005の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データI/F部1005は、コンピュータ1000の外部に設けられることも考えられる。その場合、データI/F部1005は、例えばUSB等のインターフェースを介してコンピュータ1000へと接続される。
The data I/
通信I/F部1006は、コンピュータ1000の外部の装置と有線又は無線により、インターネットNを介したデータ通信を行うためのデバイスである。通信I/F部1006は、コンピュータ1000の外部に設けられることも考えられる。その場合、通信I/F部1006は、例えばUSB等のインターフェースを介してコンピュータ1000に接続される。
The communication I/
表示部1007は、各種情報を表示するためのデバイスである。表示部1007の具体例としては、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示部1007は、コンピュータ1000の外部に設けられても良い。その場合、表示部1007は、例えばディスプレイケーブル等を介してコンピュータ1000に接続される。また、入力I/F部1004としてタッチパネルが採用される場合には、表示部1007は、入力I/F部1004と一体化して構成することが可能である。
The
===まとめ===
<1>本実施形態における電子データ生成システム10は、所定の装置から、文字を含む対象画像を取得する対象画像取得部102と、対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置200から、複数の文字のそれぞれについての、第1のテキスト情報と、第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得する第1の情報取得部103と、複数の文字における第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、第1の光学式文字認識装置200とは異なる第2の光学式文字認識装置300から、特定範囲画像に含まれる文字についての第2のテキスト情報を取得する第2の情報取得部107と、第1のテキスト情報と、第2のテキスト情報と、に基づいて、対象画像に含まれる文字を特定する文字特定部109と、備える。これにより、電子データ生成システム10は、文字認識の対象範囲が異なる複数の光学式文字認識装置(例えば第1の光学式文字認識装置200は一頁単位の文字認識で第2の光学式文字認識装置300は行単位の文字認識)を用いて、文字認識の正確性が低い画像に対して文字認識することにより、正確性が高い文字認識を実現することができる。
====Summary====
<1> The electronic
<2>また、本実施形態における電子データ生成システム10における第2の情報取得部107は、第2の光学式文字認識装置300から、特定範囲画像に含まれる少なくとも一つの文字のそれぞれについての、第2のテキスト情報と、第2のテキスト情報が示す文字に対する認識の正確性の度合いを示す第2の正確性指標と、を取得し、文字特定部109は、前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれにおける前記第2の正確性指標のうちの少なくとも一つに基づく第2の基準指標と、画像に含まれる文字の認識の正確性に関する第2の基準と、の大小関係を判定した結果に基づいて、特定範囲画像に含まれる文字を特定する。これにより、電子データ生成システム10は、第1の光学式文字認識装置200による一度目の文字認識において正確性が低い文字を含む所定の範囲の文字列について、第2の光学式文字認識装置300による二度目の文字認識において文字列を適切に認識することが可能となる。
<2> In addition, the second
<3>また、本実施形態における電子データ生成システム10の文字特定部109は、特定範囲画像に含まれる全ての文字に関する第2の基準指標が第2の基準以上であると判定された場合、第2の正確性指標に対応する第2のテキスト情報が示す文字を、特定範囲画像に含まれる文字として特定する。これにより、電子データ生成システム10は、第1の光学式文字認識装置200による一度目の文字認識において正確性が低い文字を含む所定の範囲の文字列について、第2の光学式文字認識装置300による二度目の文字認識において文字列を適切に認識することができる。
<3> Furthermore, when the
<4>また、本実施形態における電子データ生成システム10の文字特定部109は、特定範囲画像に含まれる文字のうちの少なくとも一つの文字に対する第2の基準指標が第2の基準よりも低いと判定された場合、対象画像における特定範囲画像に相当する範囲に含まれる少なくとも一つの文字の第1の正確性指標と、特定範囲画像に含まれる少なくとも一つの文字の第2の正確性指標と、の大小関係を判定した結果に基づいて、特定範囲画像に含まれる文字を特定する。これにより、電子データ生成システム10は、第1の光学式文字認識装置200による一度目の文字認識において正確性が低い文字を含む所定の範囲の文字列と、第2の光学式文字認識装置300による二度目の文字認識において文字列とのうち、より正確に認識されたと推定される文字列による、より適切な文字認識を実現することができる。
<4> In addition, when the
<5>また、本実施形態における電子データ生成システム10の対象画像取得部102は、一頁単位の画像である対象画像を取得し、情報送信部106は、対象画像に含まれる文章の行単位の画像である特定範囲画像を、第2の光学式文字認識装置300に送信する。これにより、電子データ生成システム10では、例えば、第1の光学式文字認識装置200における文字認識の正確性が低い行画像に対して、行画像に対する文字認識の正確性が高い第2の光学式文字認識装置300を用いることにより、文字認識の正確性の向上を図ることが可能となる。
<5> In addition, the target
<6>また、本実施形態における電子データ生成システム10の文字特定部109は、第2の光学式文字認識装置300に特定範囲画像を入力することが、第2の光学式文字認識装置300に対する特定範囲画像の入力に関する条件を満たす場合、第1の正確性指標に対応する第1のテキスト情報が示す文字を、特定範囲画像に含まれる文字として特定する。これにより、電子データ生成システム10は、例えば、第1の光学式文字認識装置200による文字認識の処理にかかる費用よりも、第2の光学式文字認識装置300による文字認識の処理にかかる費用の方が高いような場合、一定の費用を超えるような場合は、より費用が低い光学式文字認識装置を用いて文字認識を実行することにより、費用縮減を実現できる。
<6> Furthermore, in the present embodiment, the
<7>また、本実施形態における電子データ生成システム10は、対象画像を画面T10の第1の表示領域T11に表示させ、特定範囲画像に含まれる文字を示す第2のテキスト情報を画面T10における第1の表示領域T11とは異なる第2の表示領域T12に表示させる表示処理部110をさらに備える。これにより、電子データ生成システム10は、対象画像の所定の範囲を文字認識した結果である第1のテキスト情報および第2のテキスト情報と、対象画像との対応関係を、ユーザに対して提供することができるため、ユーザにおいて対象画像に対する誤認識などを容易に把握可能とさせる。
<7> In addition, the electronic
<8>また、本実施形態における電子データ生成システム10における表示処理部110は、特定範囲画像に含まれる文字を示す第2のテキスト情報と、特定範囲画像に含まれる文字を除く対象画像に含まれる文字を示す第1のテキスト情報と、を第2の表示領域T12に表示し、当該第2のテキスト情報を識別可能に表示する。これにより、電子データ生成システム10は、第2の光学式文字認識装置300における第2のテキスト情報を、ユーザが容易に特定可能に表示させることができるため、ユーザにおいて対象画像に対する誤認識の程度などを容易に把握可能とすることができる。
<8> In addition, the
<9>また、本実施形態における電子データ生成システム10の表示処理部110は、第2の光学式文字認識装置300に特定範囲画像を入力した回数である入力回数を、画面の所定の表示領域に表示させる。これにより、電子データ生成システム10は、第2の光学式文字認識装置300による文字認識の回数について、ユーザにおいて容易に把握可能とすることができる。
<9> In addition, the
10…電子データ生成システム、100…電子データ生成装置、101…記憶部、102…対象画像取得部、103…第1の情報取得部、104…第1の判定部、105…特定範囲特定部、106…情報送信部、107…第2の情報取得部、108…第2の判定部、109…文字特定部、110…表示処理部、200…第1の光学式文字認識装置、300…第2の光学式文字認識装置、400…ユーザ端末。 10...electronic data generation system, 100...electronic data generation device, 101...storage unit, 102...target image acquisition unit, 103...first information acquisition unit, 104...first judgment unit, 105...specific range identification unit, 106...information transmission unit, 107...second information acquisition unit, 108...second judgment unit, 109...character identification unit, 110...display processing unit, 200...first optical character recognition device, 300...second optical character recognition device, 400...user terminal.
Claims (9)
前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得する第1の情報取得部と、
前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれについての、前記第2のテキスト情報と、前記第2のテキスト情報が示す文字に対する認識の正確性の度合いを示す第2の正確性指標と、を取得する第2の情報取得部と、
前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれにおける前記第2の正確性指標のうちの少なくとも一つに基づく第2の基準指標と、画像に含まれる文字の認識の正確性に関する第2の基準と、の大小関係を判定した結果に基づいて、前記特定範囲画像に含まれる文字を特定する文字特定部と、
を備え、
前記文字特定部は、前記特定範囲画像に含まれる文字のうちの少なくとも一つの文字に対する前記第2の基準指標が前記第2の基準よりも低いと判定された場合、前記対象画像における前記特定範囲画像に相当する範囲に含まれる少なくとも一つの文字の前記第1の正確性指標と、前記特定範囲画像に含まれる少なくとも一つの文字の前記第2の正確性指標と、の大小関係を判定した結果に基づいて、前記特定範囲画像に含まれる文字を特定する、
情報処理システム。 a target image acquisition unit that acquires a target image including characters from a predetermined device;
a first information acquisition unit that acquires, from a first optical character recognition device that recognizes each of a plurality of characters included in the target image as first text information, the first text information for each of the plurality of characters and a first accuracy index that indicates a degree of recognition accuracy for the character indicated by the first text information;
a second information acquisition unit that acquires, when a first reference indicator based on at least one of the first accuracy indicators for the plurality of characters is determined to be lower than a first standard related to accuracy of recognition of characters included in an image, from a second optical character recognition device different from the first optical character recognition device, a specific range image that is an image of a partial range of the target image including characters corresponding to the first reference indicator determined to be lower than the first standard, and that recognizes each of at least one character included in the specific range image as second text information, the second text information for each of at least one character included in the specific range image and a second accuracy indicator indicating a degree of accuracy of recognition for the character indicated by the second text information;
a character identification unit that identifies a character included in the specific range image based on a result of determining whether a second reference indicator based on at least one of the second accuracy indicators for each of at least one character included in the specific range image is larger than a second reference indicator related to accuracy of recognition of the character included in the image; and
Equipped with
when it is determined that the second reference index for at least one character among the characters included in the specific range image is lower than the second reference, the character identification unit identifies a character included in the specific range image based on a result of determining a magnitude relationship between the first accuracy index of at least one character included in a range corresponding to the specific range image in the target image and the second accuracy index of at least one character included in the specific range image.
Information processing system.
前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得する第1の情報取得部と、
前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像が入力されることによって、前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる文字についての前記第2のテキスト情報を取得する第2の情報取得部と、
前記第1のテキスト情報と、前記第2のテキスト情報と、に基づいて、前記対象画像に含まれる文字を特定する文字特定部と、
を備え、
前記文字特定部は、前記第2の光学式文字認識装置に対する前記特定範囲画像を入力した入力回数が所定の回数を超えた場合、前記第1の正確性指標に対応する前記第1のテキスト情報が示す文字を、前記特定範囲画像に含まれる文字として特定する、
情報処理システム。 a target image acquisition unit that acquires a target image including characters from a predetermined device;
a first information acquisition unit that acquires, from a first optical character recognition device that recognizes each of a plurality of characters included in the target image as first text information, the first text information for each of the plurality of characters and a first accuracy index that indicates a degree of recognition accuracy for the character indicated by the first text information;
a second information acquisition unit that acquires the second text information about characters included in a specific range image from a second optical character recognition device different from the first optical character recognition device, the second information acquisition unit being configured to acquire, when a first reference indicator based on at least one of the first accuracy indicators for the plurality of characters is determined to be lower than a first standard related to the accuracy of recognition of characters included in an image, a specific range image that is an image of a partial range of the target image and includes characters corresponding to the first reference indicator determined to be lower than the first standard, the specific range image being input and recognizing each of at least one character included in the specific range image as second text information;
a character identification unit that identifies characters included in the target image based on the first text information and the second text information;
Equipped with
the character identification unit, when the number of times that the specific range image is input to the second optical character recognition device exceeds a predetermined number of times, identifies a character indicated by the first text information corresponding to the first accuracy index as a character included in the specific range image.
Information processing system.
請求項1に記載の情報処理システム。 when it is determined that the second reference indicator for all characters included in the specific range image is equal to or greater than the second reference, the character identification unit identifies a character indicated by the second text information corresponding to the second accuracy indicator as a character included in the specific range image.
The information processing system according to claim 1 .
前記第2の情報取得部は、前記対象画像に含まれる文章の行単位の画像である前記特定範囲画像に含まれる文字についての前記第2のテキスト情報を、前記第2の光学式文字認識装置から取得する、
請求項1に記載の情報処理システム。 The target image acquisition unit acquires the target image, which is an image of one page unit,
the second information acquisition unit acquires, from the second optical character recognition device, the second text information about characters included in the specific range image, which is an image of a line of a sentence included in the target image;
The information processing system according to claim 1 .
前記特定範囲画像に含まれる文字を示す前記第2のテキスト情報を前記画面における前記第1の表示領域とは異なる第2の表示領域に表示させる表示処理部を、
さらに備える請求項1に記載の情報処理システム。 Displaying the target image in a first display area of a screen;
a display processing unit that displays the second text information indicating characters included in the specific range image in a second display area different from the first display area on the screen;
The information processing system according to claim 1 further comprising:
前記特定範囲画像に含まれる文字を示す前記第2のテキスト情報と、前記特定範囲画像に含まれる文字を除く前記対象画像に含まれる文字を示す前記第1のテキスト情報と、を前記第2の表示領域に表示し、
当該第2のテキスト情報を識別可能に表示する、
請求項5に記載の情報処理システム。 The display processing unit is
displaying, in the second display area, the second text information indicating characters included in the specific range image and the first text information indicating characters included in the target image excluding the characters included in the specific range image;
displaying the second text information in an identifiable manner;
6. The information processing system according to claim 5.
請求項5に記載の情報処理システム。 the display processing unit displays, in a predetermined display area of the screen, an input count, which is the number of times the specific range image has been input to the second optical character recognition device;
6. The information processing system according to claim 5.
所定の装置から、文字を含む対象画像を取得することと、
前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得することと、
前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれについての、前記第2のテキスト情報と、前記第2のテキスト情報が示す文字に対する認識の正確性の度合いを示す第2の正確性指標と、を取得することと、
前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれにおける前記第2の正確性指標のうちの少なくとも一つに基づく第2の基準指標と、画像に含まれる文字の認識の正確性に関する第2の基準と、の大小関係を判定した結果に基づいて、前記特定範囲画像に含まれる文字を特定することであり、
前記特定範囲画像に含まれる文字のうちの少なくとも一つの文字に対する前記第2の基準指標が前記第2の基準よりも低いと判定された場合、前記対象画像における前記特定範囲画像に相当する範囲に含まれる少なくとも一つの文字の前記第1の正確性指標と、前記特定範囲画像に含まれる少なくとも一つの文字の前記第2の正確性指標と、の大小関係を判定した結果に基づいて、前記特定範囲画像に含まれる文字を特定することと、
を実行する情報処理方法。 The computer
Acquiring a target image including text from a predetermined device;
acquiring, from a first optical character recognition device that recognizes each of a plurality of characters included in the target image as first text information, the first text information for each of the plurality of characters and a first accuracy index indicating a degree of recognition accuracy for the character indicated by the first text information;
When a first reference indicator based on at least one of the first accuracy indicators for the plurality of characters is determined to be lower than a first reference regarding accuracy of recognition of characters included in an image, a specific range image is an image of a partial range of the target image including a character corresponding to the first reference indicator determined to be lower than the first reference, and each of at least one character included in the specific range image is recognized as second text information. The specific range image is obtained from a second optical character recognition device different from the first optical character recognition device, and the second text information and a second accuracy indicator indicating a degree of accuracy of recognition for the character indicated by the second text information are obtained for each of at least one character included in the specific range image;
identifying a character included in the specific range image based on a result of determining whether a second reference indicator based on at least one of the second accuracy indicators for each of at least one character included in the specific range image is larger than a second reference indicator related to accuracy of recognition of the character included in the image;
when it is determined that the second reference index for at least one character among the characters included in the specific range image is lower than the second reference, identifying characters included in the specific range image based on a result of determining a magnitude relationship between the first accuracy index of at least one character included in a range corresponding to the specific range image in the target image and the second accuracy index of at least one character included in the specific range image;
An information processing method for performing the above.
所定の装置から、文字を含む対象画像を取得することと、
前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得することと、
前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれについての、前記第2のテキスト情報と、前記第2のテキスト情報が示す文字に対する認識の正確性の度合いを示す第2の正確性指標と、を取得することと、
前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれにおける前記第2の正確性指標のうちの少なくとも一つに基づく第2の基準指標と、画像に含まれる文字の認識の正確性に関する第2の基準と、の大小関係を判定した結果に基づいて、前記特定範囲画像に含まれる文字を特定することであり、
前記特定範囲画像に含まれる文字のうちの少なくとも一つの文字に対する前記第2の基準指標が前記第2の基準よりも低いと判定された場合、前記対象画像における前記特定範囲画像に相当する範囲に含まれる少なくとも一つの文字の前記第1の正確性指標と、前記特定範囲画像に含まれる少なくとも一つの文字の前記第2の正確性指標と、の大小関係を判定した結果に基づいて、前記特定範囲画像に含まれる文字を特定することと、
を実行させるプログラム。 On the computer,
Acquiring a target image including text from a predetermined device;
acquiring, from a first optical character recognition device that recognizes each of a plurality of characters included in the target image as first text information, the first text information for each of the plurality of characters and a first accuracy index indicating a degree of recognition accuracy for the character indicated by the first text information;
When a first reference indicator based on at least one of the first accuracy indicators for the plurality of characters is determined to be lower than a first reference regarding accuracy of recognition of characters included in an image, a specific range image is an image of a partial range of the target image including a character corresponding to the first reference indicator determined to be lower than the first reference, and each of at least one character included in the specific range image is recognized as second text information. The specific range image is obtained from a second optical character recognition device different from the first optical character recognition device, and the second text information and a second accuracy indicator indicating a degree of accuracy of recognition for the character indicated by the second text information are obtained for each of at least one character included in the specific range image;
identifying a character included in the specific range image based on a result of determining whether a second reference indicator based on at least one of the second accuracy indicators for each of at least one character included in the specific range image is larger than a second reference indicator related to accuracy of recognition of the character included in the image;
when it is determined that the second reference index for at least one character among the characters included in the specific range image is lower than the second reference, identifying characters included in the specific range image based on a result of determining a magnitude relationship between the first accuracy index of at least one character included in a range corresponding to the specific range image in the target image and the second accuracy index of at least one character included in the specific range image;
A program that executes the following.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2024027768A JP7644282B1 (en) | 2024-02-27 | 2024-02-27 | Information processing system, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2024027768A JP7644282B1 (en) | 2024-02-27 | 2024-02-27 | Information processing system, information processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP7644282B1 true JP7644282B1 (en) | 2025-03-11 |
Family
ID=94922016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2024027768A Active JP7644282B1 (en) | 2024-02-27 | 2024-02-27 | Information processing system, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7644282B1 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11224305A (en) * | 1998-02-06 | 1999-08-17 | Oki Electric Ind Co Ltd | Character recognizing device |
JP2000155803A (en) * | 1998-11-20 | 2000-06-06 | Nec Corp | Character reading method and optical character reader |
JP2001297306A (en) * | 2000-04-12 | 2001-10-26 | Oki Electric Ind Co Ltd | Character recognizing device |
JP2020067959A (en) * | 2018-10-26 | 2020-04-30 | キヤノン株式会社 | Image processing apparatus, and control method and program thereof |
JP2021068203A (en) * | 2019-10-24 | 2021-04-30 | 富士ゼロックス株式会社 | Information processing device and program |
JP2024003769A (en) * | 2022-06-27 | 2024-01-15 | Sumasen株式会社 | Character recognition system, method of recognizing character by computer, and character search system |
-
2024
- 2024-02-27 JP JP2024027768A patent/JP7644282B1/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11224305A (en) * | 1998-02-06 | 1999-08-17 | Oki Electric Ind Co Ltd | Character recognizing device |
JP2000155803A (en) * | 1998-11-20 | 2000-06-06 | Nec Corp | Character reading method and optical character reader |
JP2001297306A (en) * | 2000-04-12 | 2001-10-26 | Oki Electric Ind Co Ltd | Character recognizing device |
JP2020067959A (en) * | 2018-10-26 | 2020-04-30 | キヤノン株式会社 | Image processing apparatus, and control method and program thereof |
JP2021068203A (en) * | 2019-10-24 | 2021-04-30 | 富士ゼロックス株式会社 | Information processing device and program |
JP2024003769A (en) * | 2022-06-27 | 2024-01-15 | Sumasen株式会社 | Character recognition system, method of recognizing character by computer, and character search system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10853638B2 (en) | System and method for extracting structured information from image documents | |
JP5095535B2 (en) | Image processing method, image processing system, image processing apparatus, and program | |
JP5181888B2 (en) | Method and system for generating a graphical user interface | |
US10073859B2 (en) | System and methods for creation and use of a mixed media environment | |
JP5181887B2 (en) | System and method for collating electronic documents | |
US8521737B2 (en) | Method and system for multi-tier image matching in a mixed media environment | |
US10127199B2 (en) | Automatic measure of visual similarity between fonts | |
US9158744B2 (en) | System and method for automatically extracting multi-format data from documents and converting into XML | |
US9171202B2 (en) | Data organization and access for mixed media document system | |
US9405751B2 (en) | Database for mixed media document system | |
US8949287B2 (en) | Embedding hot spots in imaged documents | |
JP5095534B2 (en) | System and method for generating a junction | |
EP1917636B1 (en) | Method and system for image matching in a mixed media environment | |
US20060262352A1 (en) | Method and system for image matching in a mixed media environment | |
US20070047002A1 (en) | Embedding Hot Spots in Electronic Documents | |
US20070046983A1 (en) | Integration and Use of Mixed Media Documents | |
US20130226917A1 (en) | Document search apparatus | |
US11715318B2 (en) | Systems and methods for spatial-aware information extraction from electronic source documents | |
CN112560849B (en) | Neural network algorithm-based grammar segmentation method and system | |
US8792730B2 (en) | Classification and standardization of field images associated with a field in a form | |
US9558400B2 (en) | Search by stroke | |
US10067926B2 (en) | Image processing system and methods for identifying table captions for an electronic fillable form | |
US20150261735A1 (en) | Document processing system, document processing apparatus, and document processing method | |
CN114724156B (en) | Form identification method and device and electronic equipment | |
CN114241496B (en) | Pre-training model training method and device for reading task and electronic equipment thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240403 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20240403 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240508 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240624 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240905 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20241105 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20250129 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20250227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7644282 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |