[go: up one dir, main page]

JP7644282B1 - Information processing system, information processing method, and program - Google Patents

Information processing system, information processing method, and program Download PDF

Info

Publication number
JP7644282B1
JP7644282B1 JP2024027768A JP2024027768A JP7644282B1 JP 7644282 B1 JP7644282 B1 JP 7644282B1 JP 2024027768 A JP2024027768 A JP 2024027768A JP 2024027768 A JP2024027768 A JP 2024027768A JP 7644282 B1 JP7644282 B1 JP 7644282B1
Authority
JP
Japan
Prior art keywords
image
specific range
character
accuracy
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2024027768A
Other languages
Japanese (ja)
Inventor
健太郎 園田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIS Inc
Original Assignee
TIS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIS Inc filed Critical TIS Inc
Priority to JP2024027768A priority Critical patent/JP7644282B1/en
Application granted granted Critical
Publication of JP7644282B1 publication Critical patent/JP7644282B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

Figure 0007644282000001

【課題】画像から適切に情報を抽出可能なシステムを提供する。
【解決手段】情報処理システムにおいて、電子データ生成装置は、対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、第1の基準よりも低いと判定された第1の基準指標に対応する文字を含む、対象画像の一部の範囲の画像である特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、第2のテキスト情報を取得する第2の情報取得部と、第1のテキスト情報と、第2のテキスト情報と、に基づいて、対象画像に含まれる文字を特定する文字特定部と、を備える。
【選択図】図1

Figure 0007644282000001

A system capable of appropriately extracting information from an image is provided.
[Solution] In an information processing system, an electronic data generation device includes a second information acquisition unit that acquires second text information from a second optical character recognition device different from the first optical character recognition device that recognizes, when a first accuracy index indicating the degree of recognition accuracy for characters indicated by the first text information is determined to be lower than a first standard for the accuracy of recognition of characters included in an image, as second text information, and the second information acquisition unit recognizes at least one character included in a specific range image, which is an image of a portion of the target image, including a character corresponding to the first standard index determined to be lower than the first standard, from a first optical character recognition device that recognizes each of a plurality of characters included in a target image as first text information, and a character identification unit that identifies a character included in the target image based on the first text information and the second text information.
[Selected Figure] Figure 1

Description

本発明は、情報処理システム、情報処理方法、およびプログラムに関する。 The present invention relates to an information processing system, an information processing method, and a program.

機械学習モジュールを用いて文書画像から情報を抽出するシステムが開示されている(特許文献1)。 A system that uses a machine learning module to extract information from document images is disclosed (Patent Document 1).

特開2022-79439号公報JP 2022-79439 A

特許文献1に記載の文書データ抽出システムは、文書に関連付けられた画像データを取得し、光学式文字認識により画像データからメタデータを抽出する。メタデータは、テキストコンテンツ項目列と、テキストコンテンツ項目列の各テキストコンテンツ項目に関連付けられたテキストコンテンツ項目特徴とが指定される。文書データ抽出システムは、機械学習モジュールを用いて、テキストコンテンツ項目列とテキストコンテンツ項目特徴とに基づき、キーに関連付けられた1以上のテキストコンテンツ項目を決定する。これにより、文書データ抽出システムは文書画像から情報を抽出することができる。 The document data extraction system described in Patent Document 1 acquires image data associated with a document and extracts metadata from the image data by optical character recognition. The metadata specifies a string of text content items and text content item features associated with each text content item in the string of text content items. The document data extraction system uses a machine learning module to determine one or more text content items associated with a key based on the string of text content items and the text content item features. This enables the document data extraction system to extract information from a document image.

しかし、光学式文字認識を実行する一つの光学式文字認識装置によって画像データから適切にメタデータを生成できない場合、文書画像から適切に情報を抽出することができないという問題が生じる。 However, if an optical character recognition device that performs optical character recognition cannot properly generate metadata from image data, a problem arises in which information cannot be properly extracted from document images.

そこで、本発明は、上記の課題を解決するために、画像から適切に情報を抽出可能なシステムを提供することを目的とする。 Therefore, in order to solve the above problems, the present invention aims to provide a system that can appropriately extract information from images.

本発明の一態様に係る情報処理システムは、所定の装置から、文字を含む対象画像を取得する対象画像取得部と、前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得する第1の情報取得部と、前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる文字についての前記第2のテキスト情報を取得する第2の情報取得部と、前記第1のテキスト情報と、前記第2のテキスト情報と、に基づいて、前記対象画像に含まれる文字を特定する文字特定部と、を備える。 An information processing system according to one aspect of the present invention includes a target image acquisition unit that acquires a target image including characters from a predetermined device, a first information acquisition unit that acquires, from a first optical character recognition device that recognizes each of a plurality of characters included in the target image as first text information, the first text information for each of the plurality of characters and a first accuracy index indicating the degree of recognition accuracy for the characters indicated by the first text information, and a first reference index based on at least one of the first accuracy indexes for the plurality of characters that is higher than a first reference regarding the accuracy of recognition of characters included in an image. If it is determined that the first reference indicator is lower, a specific range image is an image of a part of the target image that includes characters corresponding to the first reference indicator determined to be lower than the first reference, and at least one character included in the specific range image is recognized as second text information. A second information acquisition unit acquires the second text information about the characters included in the specific range image from a second optical character recognition device different from the first optical character recognition device, and a character identification unit identifies the characters included in the target image based on the first text information and the second text information.

本発明の一態様に係る情報処理方法は、コンピュータが、所定の装置から、文字を含む対象画像を取得することと、前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得することと、前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる文字についての前記第2のテキスト情報を取得することと、前記第1のテキスト情報と、前記第2のテキスト情報と、に基づいて、前記対象画像に含まれる文字を特定することと、を実行する。 In one aspect of the present invention, an information processing method includes a computer that acquires a target image including characters from a predetermined device, acquires the first text information for each of the multiple characters included in the target image from a first optical character recognition device that recognizes each of the multiple characters included in the target image as first text information, and acquires the first text information for each of the multiple characters and a first accuracy index indicating the degree of recognition accuracy for the characters indicated by the first text information from a first optical character recognition device that recognizes each of the multiple characters included in the target image as first text information, and when a first reference index based on at least one of the first accuracy indexes for the multiple characters is determined to be lower than a first reference for the accuracy of recognition of the characters included in the image, acquires the second text information for the characters included in the specific range image from a second optical character recognition device different from the first optical character recognition device that recognizes each of at least one character included in the specific range image as second text information, the second text information for the characters included in the specific range image being a specific range image that is an image of a part of the target image including the characters corresponding to the first reference index determined to be lower than the first reference, and the second text information for the characters included in the specific range image being acquired from the second optical character recognition device that is different from the first optical character recognition device, and the second text information is acquired.

本発明の一態様に係るプログラムは、コンピュータに、所定の装置から、文字を含む対象画像を取得することと、前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得することと、前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる文字についての前記第2のテキスト情報を取得することと、前記第1のテキスト情報と、前記第2のテキスト情報と、に基づいて、前記対象画像に含まれる文字を特定することと、を実行させる。 A program according to one aspect of the present invention causes a computer to execute the following: acquire a target image including characters from a specified device; acquire, from a first optical character recognition device that recognizes each of a plurality of characters included in the target image as first text information, the first text information for each of the plurality of characters and a first accuracy index indicating the degree of recognition accuracy for the character indicated by the first text information; if a first reference index based on at least one of the first accuracy indexes for the plurality of characters is determined to be lower than a first reference standard for the accuracy of recognition of characters included in an image, acquire the second text information for the characters included in the specific range image from a second optical character recognition device different from the first optical character recognition device that recognizes each of at least one character included in the specific range image as second text information; and identify the characters included in the target image based on the first text information and the second text information.

本発明によれば、画像から適切に情報を抽出可能なシステムを提供することができる。 The present invention provides a system that can appropriately extract information from images.

電子データ生成システムの概要を示す図である。FIG. 1 is a diagram showing an overview of an electronic data generation system. 対象画像情報の一例を示すデータベースである。1 is a database showing an example of target image information. 特定範囲画像情報の一例を示すデータベースである。1 is a database showing an example of specific range image information. 表示部に表示される画面例を示す図である。FIG. 4 is a diagram showing an example of a screen displayed on a display unit. 電子データ生成システムの処理手順を示すフローチャートである。1 is a flowchart showing a processing procedure of the electronic data generation system. 一行の文字列のテキスト情報である行情報に対する正当性指標を示す表である。11 is a table showing validity indicators for line information that is text information of one line of a character string. コンピュータのハードウェア構成の一例を示す図である。FIG. 2 illustrates an example of a hardware configuration of a computer.

以下に、本発明の一実施形態における電子データ生成システム10について、図面を参照して詳細に説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。すなわち、本発明は、その趣旨を逸脱しない範囲で種々変形し、または各実施例を組み合わせるなどして実施することができる。また、以下の図面の記載において、同一または類似の部分には同一または類似の符号を付して表している。 The electronic data generation system 10 according to one embodiment of the present invention will be described in detail below with reference to the drawings. However, the embodiment described below is merely an example, and is not intended to exclude the application of various modifications or techniques not explicitly described below. In other words, the present invention can be implemented by modifying it in various ways or combining the various embodiments without departing from the spirit of the invention. In addition, in the description of the drawings below, identical or similar parts are denoted by the same or similar reference numerals.

また、本実施形態において、「部」、「装置」、「システム」とは、単に物理的手段を意味するものではなく、その「部」、「装置」、「システム」が有する機能をソフトウェアによって実現する場合も含む。また、一つの「部」、「装置」、「システム」が有する機能が2つ以上の物理的手段や装置により実現されてもよく、二つ以上の「部」、「装置」、「システム」の機能が1つの物理的手段や装置により実現されてもよい。さらには、電子データ生成システム10を構成する複数の装置のそれぞれの以下に示す各種機能が、当該複数の装置における他の装置によって実行されるように構成されていてもよい。 In addition, in this embodiment, the terms "part", "device", and "system" do not simply mean physical means, but also include cases where the functions of the "part", "device", and "system" are realized by software. Furthermore, the functions of one "part", "device", or "system" may be realized by two or more physical means or devices, and the functions of two or more "parts", "devices", or "systems" may be realized by one physical means or device. Furthermore, the various functions described below of each of the multiple devices that make up electronic data generation system 10 may be configured to be executed by other devices in the multiple devices.

===電子データ生成システム10の概要===
<<構成の概要>>
図1を参照して、電子データ生成システム10の概要について説明する。図1は、電子データ生成システム10の概要を示す図である。
Overview of Electronic Data Generation System 10
<<Configuration Overview>>
An overview of an electronic data generation system 10 will be described with reference to Fig. 1. Fig. 1 is a diagram showing an overview of the electronic data generation system 10.

電子データ生成システム10は、複数の光学式文字認識装置を用いて、画像からデジタル文書を正確に生成するシステムである。具体的には、電子データ生成システム10は、JPEG(Joint Photographic Experts Group)、TIFF(Tagged Image File Format)、PNG(Portable Network Graphics)等のグラフィックフォーマットで指定された画像やPDF(Portable Document Format)データの画像(以下、「対象画像」という。)などを、複数の光学式文字認識装置を通じてデジタルデータであるテキスト情報を生成する。 The electronic data generation system 10 is a system that uses multiple optical character recognition devices to accurately generate digital documents from images. Specifically, the electronic data generation system 10 generates text information, which is digital data, from images specified in graphic formats such as JPEG (Joint Photographic Experts Group), TIFF (Tagged Image File Format), and PNG (Portable Network Graphics) and images in PDF (Portable Document Format) data (hereinafter referred to as "target images") through multiple optical character recognition devices.

対象画像は、例えば各種契約書や論文などの画像である。以下、便宜上、対象画像が一例として一頁単位の契約書の画像であるとして説明する。 The target image may be, for example, an image of various contracts or papers. For the sake of convenience, the following description will be given assuming that the target image is an image of a single page of a contract.

電子データ生成システム10は、例えば、電子データ生成装置100と、第1の光学式文字認識装置200と、第2の光学式文字認識装置300と、ユーザ端末400とを含む。 The electronic data generation system 10 includes, for example, an electronic data generation device 100, a first optical character recognition device 200, a second optical character recognition device 300, and a user terminal 400.

電子データ生成装置100は、異なる二つの光学式文字認識装置のそれぞれによる対象画像の文字認識の結果に基づき、対象画像の文字認識の結果であるデジタル文書を出力する装置である。 The electronic data generation device 100 is a device that outputs a digital document that is the result of character recognition of a target image based on the results of character recognition of the target image by each of two different optical character recognition devices.

第1の光学式文字認識装置200は、対象画像に対して文字認識を実行する装置である。 The first optical character recognition device 200 is a device that performs character recognition on a target image.

第2の光学式文字認識装置300は、電子データ生成装置100から取得される、対象画像の所定の範囲の画像に対して文字認識を実行する装置である。 The second optical character recognition device 300 is a device that performs character recognition on an image within a predetermined range of the target image obtained from the electronic data generation device 100.

電子データ生成装置100、第1の光学式文字認識装置200および第2の光学式文字認識装置300は、例えば、クラウドコンピュータ、サーバコンピュータ、パーソナルコンピュータ(例えば、デスクトップ、ラップトップ、タブレットなど)、メディアコンピュータプラットホーム(例えば、ケーブル、衛星セットトップボックス、デジタルビデオレコーダ)、ハンドヘルドコンピュータデバイス(例えば、PDA、電子メールクライアントなど)、あるいは他種のコンピュータ、またはコミュニケーションプラットホームであってもよい。なお、電子データ生成装置100、第1の光学式文字認識装置200および第2の光学式文字認識装置300における処理の少なくとも一部は、1以上のコンピュータ(限定ではなく例として、1以上のコンピュータにより構成されるクラウドコンピューティング)により実現されていてもよい。 The electronic data generating device 100, the first optical character recognition device 200 and the second optical character recognition device 300 may be, for example, a cloud computer, a server computer, a personal computer (e.g., a desktop, a laptop, a tablet, etc.), a media computer platform (e.g., a cable or satellite set-top box, a digital video recorder), a handheld computing device (e.g., a PDA, an email client, etc.), or other types of computers or communication platforms. At least a portion of the processing in the electronic data generating device 100, the first optical character recognition device 200 and the second optical character recognition device 300 may be realized by one or more computers (for example, but not limited to, cloud computing consisting of one or more computers).

ユーザ端末400は、ユーザの操作入力を受け付けて各種情報を表示する装置である。 The user terminal 400 is a device that accepts user input and displays various information.

ユーザ端末400は、例えば、スマートフォン、携帯電話(フィーチャーフォン)、パーソナルコンピュータ(例えば、デスクトップ、ラップトップ、タブレットなど)、メディアコンピュータプラットホーム(例えば、ケーブル、衛星セットトップボックス、 デジタルビデオレコーダ)、ハンドヘルドコンピュータデバイス(例えば、PDA(Personal Digital Assistant)、電子メールクライアントなど)、ウェアラブル端末(メガネ型デバイス、時計型デバイスなど)、他種のコンピュータ、またはコミュニケーションプラットホームであってもよい。 The user terminal 400 may be, for example, a smartphone, a mobile phone (feature phone), a personal computer (e.g., desktop, laptop, tablet, etc.), a media computing platform (e.g., cable, satellite set-top box, digital video recorder), a handheld computing device (e.g., PDA (Personal Digital Assistant), email client, etc.), a wearable device (glasses-type device, watch-type device, etc.), another type of computer, or a communication platform.

<<処理の概要>>
図1を参照して、電子データ生成システム10の処理の概要について説明する。
<<Processing Overview>>
An overview of the processing of an electronic data generating system 10 will be described with reference to FIG.

まず、ステップS10において、電子データ生成装置100は、所定の装置から取得された対象画像を、第1の光学式文字認識装置200に送信する。 First, in step S10, the electronic data generation device 100 transmits a target image acquired from a specified device to the first optical character recognition device 200.

ステップS11において、第1の光学式文字認識装置200は、対象画像(例えば一頁単位の画像)に含まれる文字を認識して、認識した文字についてのテキスト情報(以下、「第1のテキスト情報」という。)を生成する。第1のテキスト情報には当該文字の対象画像上の座標が含まれていてもよい。このとき、第1の光学式文字認識装置200は、生成した第1のテキスト情報が示す文字に対する認識の正確性の度合い(以下、「第1の正確性指標」という。)を生成する。以下では、便宜上、第1のテキスト情報、第1の正確性指標および座標をまとめて「第1の生成情報」ということもある。 In step S11, the first optical character recognition device 200 recognizes characters contained in a target image (e.g., an image of one page) and generates text information about the recognized characters (hereinafter referred to as "first text information"). The first text information may include the coordinates of the characters on the target image. At this time, the first optical character recognition device 200 generates a degree of recognition accuracy for the characters indicated by the generated first text information (hereinafter referred to as "first accuracy index"). For convenience, the first text information, first accuracy index, and coordinates may be collectively referred to as "first generated information" below.

第1の光学式文字認識装置200は、第1の生成情報を電子データ生成装置100に送信する。 The first optical character recognition device 200 transmits the first generation information to the electronic data generation device 100.

ステップS12において、電子データ生成装置100は、複数の文字における第1の正確性指標のうちの少なくとも一つに基づく基準指標(以下、「第1の基準指標」という。)が、画像に含まれる文字の認識の正確性に関する基準(以下、「第1の基準」という。)よりも低いと判定された場合、基準指標に対応する文字を含む、対象画像の所定の範囲の画像(以下、「特定範囲画像」という。)を特定する。 In step S12, if the electronic data generating device 100 determines that a reference index (hereinafter referred to as the "first reference index") based on at least one of the first accuracy indexes for multiple characters is lower than a standard (hereinafter referred to as the "first standard") regarding the accuracy of recognition of characters contained in an image, it identifies an image of a predetermined range of the target image (hereinafter referred to as the "specific range image") that contains characters corresponding to the reference index.

第1の基準指標とは、例えば、複数の文字のそれぞれの第1の正確性指標であってもよいし、行単位の画像やブロック単位の画像に含まれる複数の文字における第1の正確性指標の平均値であってもよい。 The first reference index may be, for example, the first accuracy index for each of the multiple characters, or the average value of the first accuracy index for the multiple characters included in a line-unit image or a block-unit image.

第1の基準とは、例えば第1の正確性指標と比較可能な閾値である。 The first criterion is, for example, a threshold value that can be compared to the first accuracy index.

特定範囲画像とは、例えば、一頁単位の対象画像の一部をセグメント化した、一つの文章がまとまった画像(以下、「ブロック画像」という。)であってもよいし、一行分の画像(以下、「行画像」という。)であってもよいし、一文字の画像である文字画像であってもよい。以下、便宜上、特定範囲画像を「行画像」として説明する。 The specific range image may be, for example, an image of a single sentence (hereinafter referred to as a "block image") obtained by segmenting a portion of a page-unit target image, an image of one line (hereinafter referred to as a "line image"), or a character image, which is an image of a single character. For convenience, the specific range image will be described below as a "line image."

電子データ生成装置100は、特定範囲画像を第2の光学式文字認識装置300に送信する。すなわち、電子データ生成装置100は、対象画像を文字認識させた光学式文字認識装置とは異なる光学式文字認識装置に、文字認識の正確性が低いと判定された文字を含む、例えば対象画像の一部の範囲の特定範囲画像(例えば行画像)を再度文字認識させる。 The electronic data generating device 100 transmits the specific range image to the second optical character recognition device 300. That is, the electronic data generating device 100 causes an optical character recognition device different from the optical character recognition device that performed character recognition on the target image to perform character recognition again on the specific range image (e.g., a line image) of, for example, a part of the target image, which includes characters determined to have low accuracy of character recognition.

ステップS13において、第2の光学式文字認識装置300は、特定範囲画像に含まれる文字を認識して、認識した文字についてのテキスト情報(以下、「第2のテキスト情報」という。)を生成する。第2のテキスト情報には当該文字の対象画像上の座標が含まれていてもよい。このとき、第2の光学式文字認識装置300は、生成した第2のテキスト情報が示す文字に対する認識の正確性の度合い(以下、「第2の正確性指標」という。)を生成する。なお、以下では、第2のテキスト情報、第2の正確性指標および座標をまとめて「第2の生成情報」ということもある。 In step S13, the second optical character recognition device 300 recognizes characters contained in the specific range image and generates text information about the recognized characters (hereinafter referred to as "second text information"). The second text information may include the coordinates of the characters on the target image. At this time, the second optical character recognition device 300 generates a degree of recognition accuracy for the characters indicated by the generated second text information (hereinafter referred to as "second accuracy index"). Note that, hereinafter, the second text information, second accuracy index, and coordinates may be collectively referred to as "second generated information".

第2の光学式文字認識装置300は、第2の生成情報を電子データ生成装置100に送信する。 The second optical character recognition device 300 transmits the second generated information to the electronic data generation device 100.

ステップS14において、電子データ生成装置100は、特定範囲画像に含まれる少なくとも一つの文字のそれぞれにおける第2の正確性指標のうちの少なくとも一つに基づく基準指標(以下、「第2の基準指標」という。)と、画像に含まれる文字の認識の正確性に関する基準(以下、「第2の基準」という。)との比較結果(以下、「第1の比較結果」という。)に基づいて、特定範囲画像に含まれる文字を特定する。 In step S14, the electronic data generation device 100 identifies characters included in the specific range image based on a comparison result (hereinafter referred to as the "first comparison result") between a reference indicator (hereinafter referred to as the "second reference indicator") based on at least one of the second accuracy indicators for each of at least one character included in the specific range image and a standard regarding the accuracy of recognition of characters included in the image (hereinafter referred to as the "second standard").

第2の基準指標とは、例えば、特定範囲画像に含まれる文字のそれぞれの第2の正確性指標であってもよいし、特定範囲画像に含まれる複数の文字における第2の正確性指標の平均値であってもよい。 The second reference index may be, for example, a second accuracy index for each character included in the specific range image, or may be an average value of the second accuracy indexes for multiple characters included in the specific range image.

第2の基準とは、例えば第2の正確性指標と比較可能な閾値である。 The second criterion is, for example, a threshold value that can be compared to the second accuracy index.

電子データ生成装置100は、特定した特定範囲画像に含まれる文字を示す情報(以下、「文字認識結果」という。)を含む画面をユーザ端末400に送信する。 The electronic data generating device 100 transmits a screen including information indicating the characters contained in the identified specific range image (hereinafter referred to as the "character recognition result") to the user terminal 400.

以上のとおり、電子データ生成装置100は、一頁単位の対象画像に含まれる文字に対する第1の光学式文字認識装置200による文字認識の正確性が低い場合に、第1の光学式文字認識装置200とは異なる第2の光学式文字認識装置300によって、当該文字を含む、対象画像の一部の範囲の特定範囲画像(ここでは一例として行単位の行画像)を文字認識した結果を取得して、当該結果に基づき対象画像に含まれる文字を特定する。 As described above, when the accuracy of character recognition by the first optical character recognition device 200 for characters included in a target image on a page basis is low, the electronic data generation device 100 obtains the results of character recognition of a specific range image (here, as an example, a line image on a line basis) of a part of the target image including the characters using a second optical character recognition device 300 different from the first optical character recognition device 200, and identifies the characters included in the target image based on the results.

すなわち、電子データ生成装置100では、文字認識の対象範囲が異なる複数の光学式文字認識装置(例えば第1の光学式文字認識装置200は一頁単位の文字認識で第2の光学式文字認識装置300は行単位の文字認識)を用いて、文字認識の正確性が低い画像に対して文字認識することにより、正確性が高い文字認識を実現可能とする。 In other words, the electronic data generation device 100 uses multiple optical character recognition devices with different target ranges for character recognition (for example, the first optical character recognition device 200 performs character recognition on a page-by-page basis, and the second optical character recognition device 300 performs character recognition on a line-by-line basis) to perform character recognition on images with low character recognition accuracy, thereby making it possible to achieve highly accurate character recognition.

さらに言うと、電子データ生成システム10では、文字認識の実行費用が第1の光学式文字認識装置200よりも高額な第2の光学式文字認識装置300を用いて対象範囲の文字認識の全てを実行するのではなく、第1の光学式文字認識装置200では文字認識の正確性が低い、対象範囲よりもより狭い範囲の文字認識を実行することにより、文字認識の正確性を高めるとともに、文字認識にかかる費用を低減することが可能となる。 Moreover, in the electronic data generation system 10, instead of performing all character recognition in the target range using the second optical character recognition device 300, which is more expensive to perform character recognition than the first optical character recognition device 200, the accuracy of character recognition is low with the first optical character recognition device 200, and character recognition is performed in a narrower range than the target range, thereby making it possible to increase the accuracy of character recognition and reduce the cost of character recognition.

なお、第2の光学式文字認識装置300に送信される特定範囲画像は、行画像であることに限定されず、一頁単位の画像であってもよく、ブロック画像または文字画像であってもよい。 Note that the specific range image sent to the second optical character recognition device 300 is not limited to being a line image, but may be an image of a page, a block image, or a character image.

また、電子データ生成システム10は、第1の光学式文字認識装置200および第2の光学式文字認識装置300に加えて、さらに少なくとも一つの光学式文字認識装置を含んでいてもよい。この場合、当該光学式文字認識装置は、第1の光学式文字認識装置200および第2の光学式文字認識装置300のいずれかと同じ範囲の画像を文字認識するものであってもよいし、第1の光学式文字認識装置200および第2の光学式文字認識装置300が文字認識する範囲よりも狭い範囲の画像を文字認識するものであってもよい。これにより、電子データ生成システム10は、より正確性が高い文字認識を実現可能となる。 The electronic data generation system 10 may further include at least one optical character recognition device in addition to the first optical character recognition device 200 and the second optical character recognition device 300. In this case, the optical character recognition device may perform character recognition on an image in the same range as either the first optical character recognition device 200 or the second optical character recognition device 300, or may perform character recognition on an image in a narrower range than the range in which the first optical character recognition device 200 and the second optical character recognition device 300 perform character recognition. This enables the electronic data generation system 10 to achieve more accurate character recognition.

===電子データ生成装置100===
図1に示すように、電子データ生成装置100は、記憶部101と、対象画像取得部102と、第1の情報取得部103と、第1の判定部104と、特定範囲特定部105と、情報送信部106と、第2の情報取得部107と、第2の判定部108と、文字特定部109と、表示処理部110とを含む。
Electronic Data Generation Device 100
As shown in FIG. 1, the electronic data generation device 100 includes a memory unit 101, a target image acquisition unit 102, a first information acquisition unit 103, a first judgment unit 104, a specific range identification unit 105, an information transmission unit 106, a second information acquisition unit 107, a second judgment unit 108, a character identification unit 109, and a display processing unit 110.

記憶部101は、例えば、対象画像情報D101aと、特定範囲画像情報D101bとを含む。 The memory unit 101 includes, for example, target image information D101a and specific range image information D101b.

図2を参照して、対象画像情報D101aについて説明する。図2は、対象画像情報101aの一例を示すデータベースである。対象画像情報101aは、対象画像に関するデータが格納されるデータベースである。 The target image information D101a will be described with reference to FIG. 2. FIG. 2 is a database showing an example of the target image information 101a. The target image information 101a is a database in which data related to the target image is stored.

図2に示すように、対象画像情報D101aは、例えば、[対象画像ID]、[対象画像]、[ブロック情報]、[行情報]、[文字情報]、[座標]、[第1の正確性指標]などの項目を含む。[対象画像ID]は、対象画像を一意に識別可能な識別情報が格納される。[対象画像]は、対象画像が格納される。[ブロック情報]は、対象画像のうちの文章の一つのまとまりを示すブロック画像のテキスト情報(以下、「ブロック情報」という。)が格納される。[行情報]は、ブロック画像に含まれる一行ごとのテキスト情報(以下、「行情報」という。)が格納される。[文字情報]は、一行に含まれる文字のテキスト情報(以下、「文字情報」という。)が格納される。[座標]は、第1のテキスト情報のそれぞれが示す文字(文字情報)の対象画像中の座標が格納される。[第1の正確性指標]は、第1のテキスト情報のそれぞれが示す文字の正確性の度合いを示す第1の正確性指標が格納される。 2, the target image information D101a includes items such as [target image ID], [target image], [block information], [line information], [character information], [coordinates], and [first accuracy index]. [Target image ID] stores identification information that can uniquely identify the target image. [Target image] stores the target image. [Block information] stores text information of a block image that indicates a chunk of text in the target image (hereinafter referred to as "block information"). [Line information] stores text information for each line included in the block image (hereinafter referred to as "line information"). [Character information] stores text information of characters included in a line (hereinafter referred to as "character information"). [Coordinates] stores the coordinates in the target image of the characters (character information) indicated by each piece of first text information. [First accuracy index] stores a first accuracy index that indicates the degree of accuracy of the characters indicated by each piece of first text information.

図3を参照して、特定範囲画像情報D101bについて説明する。図3は、特定範囲画像情報101bの一例を示すデータベースである。特定範囲画像情報101bは、特定範囲画像に関するデータが格納されるデータベースである。 The specific range image information D101b will be described with reference to FIG. 3. FIG. 3 is a database showing an example of specific range image information 101b. Specific range image information 101b is a database in which data related to specific range images is stored.

図3に示すように、特定範囲画像情報D101bは、例えば、[特定範囲画像ID]、[特定範囲画像]、[第2のテキスト情報]、[座標]、[第2の正確性指標]などの項目を含む。[特定範囲画像ID]は、特定範囲画像を一意に識別可能な識別情報が格納される。[特定範囲画像]は、特定範囲画像が格納される。[第2のテキスト情報]は、特定範囲画像(図3では行画像)に含まれる文字画像の第2のテキスト情報が格納される。[座標]は、第2のテキスト情報が示す文字のそれぞれの対象画像中の座標または特定範囲画像中の座標が格納される。[第2の正確性指標]は、第2のテキスト情報が示す文字の正確性の度合いを示す第2の正確性指標が格納される。 As shown in FIG. 3, the specific range image information D101b includes items such as a [specific range image ID], a [specific range image], a [second text information], a [coordinates], and a [second accuracy index]. The [specific range image ID] stores identification information that can uniquely identify the specific range image. The [specific range image] stores the specific range image. The [second text information] stores second text information of the character image included in the specific range image (line image in FIG. 3). The [coordinates] stores the coordinates in the target image or the coordinates in the specific range image of the characters indicated by the second text information. The [second accuracy index] stores a second accuracy index that indicates the degree of accuracy of the characters indicated by the second text information.

対象画像取得部102は、所定の装置から対象画像を取得する。所定の装置は紙への印字を画像として取得可能な例えばスキャナー装置や対象画像を記憶するサーバ装置などである。対象画像取得部102は、取得した対象画像を第1の光学式文字認識装置200に送信してもよい。 The target image acquisition unit 102 acquires a target image from a specific device. The specific device is, for example, a scanner device capable of acquiring printouts on paper as an image, or a server device that stores the target image. The target image acquisition unit 102 may transmit the acquired target image to the first optical character recognition device 200.

図1に戻り、第1の情報取得部103は、対象画像についての第1の生成情報を第1の光学式文字認識装置200から取得する。具体的には、電子データ生成装置100は、例えば、対象画像に含まれる文字画像のそれぞれについての第1のテキスト情報(座標を含む)および第1の正確性指標を第1の光学式文字認識装置200から取得する。第1の生成情報は対象画像情報D101aに格納される。 Returning to FIG. 1, the first information acquisition unit 103 acquires first generation information for the target image from the first optical character recognition device 200. Specifically, the electronic data generation device 100 acquires, for example, first text information (including coordinates) and a first accuracy index for each character image included in the target image from the first optical character recognition device 200. The first generation information is stored in the target image information D101a.

第1の判定部104は、第1の基準指標が第1の基準よりも低いか否かを判定する。具体的には、第1の判定部104は、第1の基準である閾値が「0.6」であり、対象画像の所定の範囲の画像(例えば行画像)が「ABC」である場合、第1のテキスト情報である「A」,「B」,「D」(文字画像「C」を「D」とご認識)のそれぞれの第1の正確性指標が「0.99」,「0.99」,「0.55」であるとすると、当該所定の範囲の画像における第1の基準指標(ここでは「D」に対応する第1の正確性指標「0.55」)が第1の基準(ここでは閾値「0.6」)よりも低いと判定する。 The first determination unit 104 determines whether the first reference index is lower than the first reference. Specifically, when the threshold value as the first reference is "0.6" and the image in a predetermined range of the target image (for example, a line image) is "ABC", if the first accuracy indexes of the first text information "A", "B", and "D" (character image "C" is recognized as "D") are "0.99", "0.99", and "0.55", respectively, the first determination unit 104 determines that the first reference index in the image in the predetermined range (here, the first accuracy index "0.55" corresponding to "D") is lower than the first reference (here, the threshold value "0.6").

すなわち、電子データ生成装置100は、対象画像に含まれる所定の範囲の画像(例えば、ブロック画像、行画像または文字画像)における第1のテキスト情報に対応する第1の正確性指標のうちの少なくとも一つ(または平均値)が閾値よりも低い場合、当該所定の範囲の画像に対して正確に文字認識できていないと判定してもよい。 In other words, if at least one (or the average value) of the first accuracy indices corresponding to the first text information in a predetermined range of images (e.g., block images, line images, or character images) included in the target image is lower than a threshold value, the electronic data generation device 100 may determine that accurate character recognition has not been performed for the image in the predetermined range.

特定範囲特定部105は、第1の判定部104における判定結果(以下、「第1の判定結果」という。)に基づき、第1の基準よりも低いと判定された第1の基準指標に対応する文字を含む、対象画像の一部の範囲の画像である特定範囲画像を特定する。この場合、特定範囲特定部105は、第1の光学式文字認識装置200から取得される対象画像に含まれる文字画像のそれぞれの座標を特定し、当該座標に基づき、第1の基準指標に対応する文字を含む特定範囲画像(例えば行画像)を特定する。 Based on the judgment result of the first judgment unit 104 (hereinafter referred to as the "first judgment result"), the specific range identification unit 105 identifies a specific range image, which is an image of a partial range of the target image, including characters corresponding to the first reference indicator that has been judged to be lower than the first standard. In this case, the specific range identification unit 105 identifies the coordinates of each character image included in the target image acquired from the first optical character recognition device 200, and identifies a specific range image (e.g., a line image) including characters corresponding to the first reference indicator based on the coordinates.

ここで、行画像を特定する処理(以下、「行特定処理」という。)の一例の概要について説明する。行特定処理では、まず、対象画像の左端の黒のドット画像を特定する。次に、行特定処理では、特定したドット画像から水平方向で右に向かって、高さ方向の所定の幅で黒ドットを特定しつつヒストグラム(例えば横軸が対象画像の左端からの距離、縦軸がドット画像の個数)を生成する。次に、水平に対して角度をずらして所定の幅で同様に黒のドット画像を特定しつつヒストグラムを生成する。そして、行特定処理では、ヒストグラムに基づき、行画像の左上のドットの座標と右下のドットの座標を特定することにより、行画像の範囲の座標を特定する。これにより、複数の文字を含む所定のまとまりの画像を適切に特定することが可能となる。 Here, an overview of an example of a process for identifying a line image (hereinafter referred to as "line identification process") will be described. In the line identification process, first, a black dot image at the left edge of the target image is identified. Next, in the line identification process, a histogram (e.g., the horizontal axis is the distance from the left edge of the target image and the vertical axis is the number of dot images) is generated while identifying black dots in a predetermined width in the height direction from the identified dot image to the right in the horizontal direction. Next, a histogram is generated while similarly identifying black dot images in a predetermined width at an angle shifted from the horizontal. Then, in the line identification process, the coordinates of the upper left dot and the lower right dot are identified based on the histogram, thereby identifying the coordinates of the range of the line image. This makes it possible to appropriately identify a predetermined group of images containing multiple characters.

なお、ヒストグラムにおいて、黒のドット画像が特定される第1の距離範囲と、黒のドット画像が特定される第2の距離範囲とが所定の距離を超える場合、第1の距離範囲の黒のドット画像が特定される範囲を第1の行画像として特定し、第2の距離範囲の黒のドット画像が特定される範囲を第1の行画像とは異なる第2の行画像として特定する。これにより、例えば同じ行ではあるものの、異なるブロック画像に含まれる行画像を異なる行として特定することが可能となる。 In addition, in the histogram, if the first distance range in which black dot images are identified and the second distance range in which black dot images are identified exceed a predetermined distance, the range in which black dot images are identified in the first distance range is identified as a first row image, and the range in which black dot images are identified in the second distance range is identified as a second row image that is different from the first row image. This makes it possible to identify row images that are in the same row but included in different block images as different rows.

情報送信部106は、特定された特定範囲画像(例えば行画像)を第2の光学式文字認識装置300に送信する。 The information transmission unit 106 transmits the identified specific range image (e.g., a line image) to the second optical character recognition device 300.

第2の情報取得部107は、特定範囲画像に含まれる文字についての第2の生成情報を第2の光学式文字認識装置300から取得する。具体的には、電子データ生成装置100は、例えば、特定範囲画像である行画像(例えば「ABC」)に含まれる文字画像(例えば「A」「B」「C」)のそれぞれについての第2のテキスト情報(座標を含む)および第2の正確性指標(例えば「A:0.99」「B:0.98」「C:0.99」)を、第2の光学式文字認識装置200から取得する。 The second information acquisition unit 107 acquires second generation information about characters included in the specific range image from the second optical character recognition device 300. Specifically, the electronic data generation device 100 acquires, for example, second text information (including coordinates) and second accuracy indices (for example, "A: 0.99", "B: 0.98", "C: 0.99") about each of the character images (for example, "A", "B", "C") included in a line image (for example, "ABC") that is a specific range image from the second optical character recognition device 200.

第2の判定部108は、第2の基準指標と第2の基準との大小関係を判定する。具体的には、第2の判定部108は、例えば、特定範囲画像に含まれる文字ついての第2の正確性指標の全てが所定の閾値以上であるか否かを判定する。例えば、第2の判定部108は、所定の閾値が「0.6」であり、特定範囲画像(例えば行画像)が「ABC」である場合、第2のテキスト情報である「A」,「B」,「C」のそれぞれの第2の正確性指標が「0.99」,「0.99」,「0.98」であるとすると、第2の基準指標が第2の基準以上であると判定する。なお、第2の判定部108は、特定範囲画像に含まれる文字のそれぞれの第2の正確性指標の平均値が所定の閾値以上であるか否かを判定してもよい。 The second determination unit 108 determines whether the second reference index is greater than or equal to the second reference. Specifically, the second determination unit 108 determines, for example, whether all of the second accuracy indices for the characters included in the specific range image are equal to or greater than a predetermined threshold. For example, when the predetermined threshold is "0.6" and the specific range image (e.g., a line image) is "ABC", if the second accuracy indices for the second text information "A", "B", and "C" are "0.99", "0.99", and "0.98", respectively, the second determination unit 108 determines that the second reference index is equal to or greater than the second reference. The second determination unit 108 may also determine whether the average value of the second accuracy indices for the characters included in the specific range image is equal to or greater than a predetermined threshold.

第2の判定部108は、特定範囲画像についての第2の正確性指標のうちの一つでも所定の閾値よりも低い場合、第2の基準指標が第2の基準よりも低いと判定してもよい。例えば、第2の判定部108は、特定範囲画像(例えば行画像)が「ABC」である場合、第2のテキスト情報である「A」,「B」,「C」のそれぞれの第2の正確性指標が「0.99」,「0.99」,「0.50」であるとすると、第2の基準指標が第2の基準よりも低いと判定する。 The second determination unit 108 may determine that the second reference index is lower than the second reference index when any one of the second accuracy indices for the specific range image is lower than a predetermined threshold. For example, when the specific range image (e.g., a line image) is "ABC", if the second accuracy indices of the second text information "A", "B", and "C" are "0.99", "0.99", and "0.50", respectively, the second determination unit 108 determines that the second reference index is lower than the second reference index.

このように、電子データ生成装置100は、例えば、特定範囲画像についての第2の正確性指標の全てが所定の閾値を超える場合に、第2のテキスト情報が第1のテキスト情報よりも対象画像についての文字画像に対して正確に文字を認識できていると判定する。 In this way, the electronic data generation device 100 determines that the second text information is able to recognize characters more accurately for the character image in the target image than the first text information, for example, when all of the second accuracy indices for the specific range image exceed a predetermined threshold value.

文字特定部109は、第2の判定部108における判定結果(以下、「第2の判定結果」という。)に基づき、特定範囲画像(すなわち対象画像)に含まれる文字を特定する。具体的には、文字特定部109は、第2の基準指標が第2の基準以上である場合、第2の正確性指標に対応する第2のテキスト情報が示す文字を特定範囲画像に含まれる文字として特定する。 The character identification unit 109 identifies characters included in the specific range image (i.e., the target image) based on the judgment result (hereinafter referred to as the "second judgment result") in the second judgment unit 108. Specifically, when the second reference index is equal to or greater than the second reference, the character identification unit 109 identifies characters indicated by the second text information corresponding to the second accuracy index as characters included in the specific range image.

例えば、文字特定部109は、第2のテキスト情報である「A」,「B」,「C」のそれぞれの第2の正確性指標(第2の基準指標)が「0.99」,「0.99」,「0.98」である場合、第2の基準指標が第2の基準(例えば閾値「0.6」)以上であるため、第2のテキスト情報が示す「ABC」を特定範囲画像の文字列として特定する。 For example, if the second accuracy index (second reference index) of the second text information "A", "B", and "C" are "0.99", "0.99", and "0.98", respectively, the character identification unit 109 identifies "ABC" indicated by the second text information as a character string in the specific range image because the second reference index is equal to or greater than the second reference (e.g., a threshold value of "0.6").

これにより、第1の光学式文字認識装置200による一度目の文字認識において正確性が低い文字を含む所定の範囲の文字列について、第2の光学式文字認識装置300による二度目の文字認識において文字列を適切に認識することが可能となる。 This makes it possible for a character string within a certain range, including characters that are recognized with low accuracy the first time by the first optical character recognition device 200, to be properly recognized the second time by the second optical character recognition device 300.

一方、文字特定部109は、第2の基準指標が第2の基準よりも低い場合、第1の正確性指標と第2の正確性指標との大小関係を判定した結果に基づき、第1の正確性指標に対応する第1のテキスト情報が示す文字、または第2の正確性指標に対応する第2のテキスト情報が示す文字のいずれかを、特定範囲画像の文字として特定する。 On the other hand, when the second reference index is lower than the second reference, the character identification unit 109 identifies, based on the result of determining the magnitude relationship between the first accuracy index and the second accuracy index, either the character indicated by the first text information corresponding to the first accuracy index or the character indicated by the second text information corresponding to the second accuracy index as a character in the specific range image.

具体的には、文字特定部109は、第2の光学式文字認識装置300から取得される特定範囲画像に含まれる文字画像のそれぞれの第2の正確性指標の最低値と、第1の光学式文字認識装置200から取得される当該特定範囲画像に対応する画像の第1のテキスト情報に対応する第1の正確性指標のうちの最低値と、のうちの高い値を示す最低値を特定する。文字特定部109は、特定した最低値を示す正確性指標に対応するテキスト情報(第1のテキスト情報または第2のテキスト情報)が示す文字を特定範囲画像に含まれる文字として特定する。 Specifically, the character identification unit 109 identifies the minimum value indicating the higher value among the minimum value of the second accuracy index of each character image included in the specific range image acquired from the second optical character recognition device 300 and the minimum value of the first accuracy index corresponding to the first text information of the image corresponding to the specific range image acquired from the first optical character recognition device 200. The character identification unit 109 identifies the character indicated by the text information (the first text information or the second text information) corresponding to the accuracy index indicating the identified minimum value as the character included in the specific range image.

例えば、文字特定部109は、行画像「ABC」について、第1のテキスト情報である「A」,「F」,「D」(ここでは、文字画像「B」を「F」とご認識し、「C」を「D」とご認識)における第1の正確性指標が「0.99」,「0.40」,「0.55」であり、第2のテキスト情報である「A」,「B」,「E」(文字画像「C」を「E」とご認識)のそれぞれの第2の正確性指標が「0.99」,「0.99」,「0.50」である場合、第2の正確性指標の最低値「0.50」が第1の正確性指標の最低値「0.40」よりも高い値を示すことを特定する。この場合、文字特定部109は、第2のテキスト情報が示す「ABE」を特定範囲画像の文字列として特定する。 For example, for the line image "ABC", if the first accuracy indexes of the first text information "A", "F", and "D" (here, character image "B" is recognized as "F" and "C" is recognized as "D") are "0.99", "0.40", and "0.55", and the second accuracy indexes of the second text information "A", "B", and "E" (character image "C" is recognized as "E") are "0.99", "0.99", and "0.50", respectively, the character identification unit 109 determines that the minimum value of the second accuracy index "0.50" is higher than the minimum value of the first accuracy index "0.40". In this case, the character identification unit 109 identifies "ABE" indicated by the second text information as a character string in the specific range image.

これにより、第1の光学式文字認識装置200による一度目の文字認識において正確性が低い文字を含む所定の範囲の文字列と、第2の光学式文字認識装置300による二度目の文字認識において文字列とのうち、より正確に認識されたと推定される文字列を採用することが可能となる。 This makes it possible to adopt a character string that is estimated to have been recognized more accurately from a predetermined range of character strings including characters with low accuracy in the first character recognition by the first optical character recognition device 200 and a character string in the second character recognition by the second optical character recognition device 300.

なお、上記において、第2の正確性指標の最低値と第1の正確性指標のうちの最低値とのうちの高い値を示す最低値を特定するとして説明したが、これに限定されない。例えば、文字特定部109は、最低値に替えて平均値を用いてもよく、この場合、高い平均値を示す正確性指標(第2の基準指標)に対応するテキスト情報が示す文字を特定範囲画像の文字として特定してもよい。例えば、電子データ生成装置100は、最低値のうちの高い値を示す最低値を特定する処理を実行することによりユーザによる修正の手間を縮減でき、一方、平均値のうちの高い平均値を特定する処理を実行することによりテキストが全体的に程よくまとまっていればよいようなテキストを採用することができるためユーザの修正の手間を縮減できる。 In the above description, the minimum value indicating the higher value between the minimum value of the second accuracy index and the minimum value of the first accuracy index is specified, but this is not limited to this. For example, the character identification unit 109 may use an average value instead of the minimum value, and in this case, the character indicated by the text information corresponding to the accuracy index (second reference index) indicating the higher average value may be specified as the character of the specific range image. For example, the electronic data generation device 100 can reduce the user's effort in making corrections by performing a process of identifying the minimum value indicating the higher value of the minimum values, while performing a process of identifying the higher average value of the average values can reduce the user's effort in making corrections, since it is possible to adopt text that is only required to be reasonably well organized overall.

以上のように、電子データ生成装置100は、対象画像の所定の範囲(例えば行単位)の画像に対する第1の光学式文字認識装置200による文字認識の正確性が低い場合に、第1の光学式文字認識装置200とは異なる第2の光学式文字認識装置300によって当該所定の範囲の画像を文字認識した結果を取得する。すなわち、電子データ生成装置100では、二つの異なる光学式文字認識装置で文字認識することによって、文字認識の正確性が低い画像について正確性の高い文字認識が実現可能となる。 As described above, when the accuracy of character recognition by the first optical character recognition device 200 for an image in a predetermined range (e.g., line units) of the target image is low, the electronic data generation device 100 obtains the result of character recognition of the image in the predetermined range by the second optical character recognition device 300, which is different from the first optical character recognition device 200. In other words, by performing character recognition using two different optical character recognition devices, the electronic data generation device 100 can achieve highly accurate character recognition for images with low character recognition accuracy.

さらに述べると、電子データ生成システム10では、例えば、文字認識を実行するための費用が安く、文字認識の精度が低い第1の光学式文字認識装置200によって広範囲(例えば一頁単位)の文字認識を実行し、文字認識を実行するための費用が第1の光学式文字認識装置200よりも高く、文字認識の精度が第1の光学式文字認識装置200よりも高い(例えば行単位での文字認識の精度が高い)第2の光学式文字認識装置300によって、より狭い範囲の文字認識を実行することが望ましい。これにより、電子データ生成システム10では、文字認識の正確性を高めるとともに、文字認識にかかる費用を低減することが可能となる。 More specifically, in the electronic data generation system 10, it is desirable to perform character recognition over a wide range (e.g., on a page-by-page basis) using the first optical character recognition device 200, which has a low cost of performing character recognition and a low character recognition accuracy, and to perform character recognition over a narrower range using the second optical character recognition device 300, which has a higher cost of performing character recognition than the first optical character recognition device 200 and a higher character recognition accuracy than the first optical character recognition device 200 (e.g., has a higher accuracy of character recognition on a line-by-line basis). This makes it possible for the electronic data generation system 10 to increase the accuracy of character recognition while reducing the cost of character recognition.

表示処理部110は、対象画像と文字特定部109で特定されたテキスト情報(文字認識結果)とを関連づけて画面内に表示させる。以下、図4を参照して、画面例について説明する。図4は、表示部に表示される画面例を示す図である。 The display processing unit 110 associates the target image with the text information (character recognition result) identified by the character identification unit 109 and displays them on the screen. An example screen will be described below with reference to FIG. 4. FIG. 4 is a diagram showing an example screen displayed on the display unit.

図4に示すように、画面T10は、第1の表示領域T11と、第2の表示領域T12とを含む。第1の表示領域T11は対象画像が表示される領域である。第1の表示領域T11は例えば画面の一方側の半分の領域である。第2の表示領域T12は対象画像における第1のテキスト情報および特定範囲画像における第2のテキスト情報(図4では行情報)が表示される領域である。第2の表示領域T12は例えば画面の他方側の半分の領域である。 As shown in FIG. 4, the screen T10 includes a first display area T11 and a second display area T12. The first display area T11 is an area in which the target image is displayed. The first display area T11 is, for example, half of one side of the screen. The second display area T12 is an area in which the first text information in the target image and the second text information (line information in FIG. 4) in the specific range image are displayed. The second display area T12 is, for example, half of the other side of the screen.

表示処理部110は、例えば、第1の表示領域T11に表示される対象画像に含まれる文字のうち、第2の表示領域に表示される行情報が示す文字を識別可能に表示する。具体的には、図4に示すように、表示処理部110は、例えば、対象画像の行画像を識別可能なオブジェクトOT1を表示させ、当該行画像と対応する行情報にオブジェクトOT2を表示させる。例えばオブジェクトOT1の表示色はオブジェクトOT2の表示色と同じ色である。これにより、電子データ生成装置100は、対象画像の所定の範囲を文字認識した結果である第1のテキスト情報および第2のテキスト情報と、対象画像との対応関係を、ユーザに対して提供することができるため、ユーザにおいて対象画像に対する誤認識などを容易に把握可能とさせる。 The display processing unit 110, for example, identifiably displays characters indicated by line information displayed in the second display area among characters included in the target image displayed in the first display area T11. Specifically, as shown in FIG. 4, the display processing unit 110, for example, displays an object OT1 that can identify a line image of the target image, and displays an object OT2 in the line information corresponding to the line image. For example, the display color of the object OT1 is the same color as the display color of the object OT2. This allows the electronic data generation device 100 to provide the user with the correspondence between the target image and the first text information and the second text information, which are the results of character recognition of a predetermined range of the target image, so that the user can easily understand misrecognition of the target image, etc.

<<変形例>>
文字特定部109は、第2の光学式文字認識装置300に特定範囲画像を入力した回数である入力回数に基づき、第1のテキスト情報が示す文字または第2のテキスト情報が示す文字のいずれかを、対象画像に含まれる文字として特定してもよい。具体的には、文字特定部109は、例えば、第2の光学式文字認識装置300に特定範囲画像(例えば行画像)を入力した入力回数が予め定められた回数を超えた場合、第1の正確性指標に対応する第1のテキスト情報が示す文字を対象画像に含まれる文字として特定する。これにより、電子データ生成システム10は、例えば、第1の光学式文字認識装置200による文字認識の処理にかかる費用よりも、第2の光学式文字認識装置300による文字認識の処理にかかる費用の方が高いような場合、一定の費用を超えるような場合は、より費用が低い光学式文字認識装置を用いて文字認識を実行することにより、費用縮減を実現できる。
<<Modifications>>
The character identification unit 109 may identify either the character indicated by the first text information or the character indicated by the second text information as a character included in the target image based on the number of inputs, which is the number of times a specific range image is input to the second optical character recognition device 300. Specifically, for example, when the number of inputs of a specific range image (e.g., a line image) input to the second optical character recognition device 300 exceeds a predetermined number of times, the character identification unit 10 identifies the character indicated by the first text information corresponding to the first accuracy index as a character included in the target image. As a result, the electronic data generation system 10 can achieve cost reduction by performing character recognition using an optical character recognition device with a lower cost when, for example, the cost of character recognition processing by the second optical character recognition device 300 is higher than the cost of character recognition processing by the first optical character recognition device 200, or when the cost exceeds a certain cost.

この場合、表示処理部110は、第2の光学式文字認識装置300に特定範囲画像を入力した回数である入力回数を画面T10の所定の位置に表示させてもよい。具体的には、表示処理部110は、第2の表示領域の所定の位置に表示されてもよい。さらに言うと、図4に示すように、表示処理部110は、入力回数を超えた時点以降に第2の光学式文字認識装置300に入力する対象となった行画像(図4では「サーバ」)に対応する第2のテキスト情報に対して、入力回数を関連づけて表示させてもよい(図4の「5回」)。これにより、電子データ生成システム10は、第2の光学式文字認識装置300による文字認識が回数制限により実行できなかった特定範囲画像について、ユーザにおいて容易に把握可能とさせる。 In this case, the display processing unit 110 may display the number of inputs, which is the number of times the specific range image was input to the second optical character recognition device 300, at a predetermined position on the screen T10. Specifically, the display processing unit 110 may display at a predetermined position in the second display area. Furthermore, as shown in FIG. 4, the display processing unit 110 may display the number of inputs in association with the second text information corresponding to the line image ("server" in FIG. 4) that became the target of input to the second optical character recognition device 300 after the input number was exceeded ("5 times" in FIG. 4). In this way, the electronic data generation system 10 allows the user to easily grasp the specific range images for which character recognition by the second optical character recognition device 300 could not be performed due to the number of times limit.

===第1の光学式文字認識装置200===
図1に戻り、第1の光学式文字認識装置200の構成について説明する。第1の光学式文字認識装置200は、例えば、対象画像が入力された場合、対象画像に含まれる文字を認識して、例えば認識した文字ごとに、第1のテキスト情報、第1の正確性指標および座標(第1の生成情報)を生成する装置である。
First Optical Character Recognition Device 200
1, a description will be given of the configuration of the first optical character recognition device 200. The first optical character recognition device 200 is a device that, for example, when a target image is input, recognizes characters included in the target image and generates, for example, first text information, a first accuracy index, and coordinates (first generated information) for each recognized character.

図1に示すように、第1の光学式文字認識装置200は、例えば、記憶部210と、送受信部220と、処理部230とを備える。記憶部210は各種情報を記憶する。処理部230は文字認識するための処理を実行する。送受信部220は、電子データ生成装置100との間で各種情報を送受信する。処理部230は、例えば文字を区別するように学習されたニューラル・ネットワークを使用して画像を分析する。ニューラル・ネットワークは、例えば複数の畳み込みネットワーク層及び再帰型ネットワーク層を備える。処理部230は、例えば対象画像についてページ、ブロック、行または文字ごとにセグメント化する。セグメント化した画像に含まれる文字について文字認識を実行することで、例えば文字ごとに第1の生成情報を生成する。処理部230は、例えばセグメント化した画像(例えば対象画像、ブロック画像または行画像)を一つのまとまりとしての第1の生成情報を生成してもよい。 As shown in FIG. 1, the first optical character recognition device 200 includes, for example, a storage unit 210, a transmission/reception unit 220, and a processing unit 230. The storage unit 210 stores various information. The processing unit 230 executes processing for character recognition. The transmission/reception unit 220 transmits and receives various information to and from the electronic data generation device 100. The processing unit 230 analyzes an image using, for example, a neural network trained to distinguish between characters. The neural network includes, for example, a plurality of convolutional network layers and a recurrent network layer. The processing unit 230 segments, for example, a target image into pages, blocks, lines, or characters. Character recognition is performed on the characters included in the segmented image to generate, for example, first generated information for each character. The processing unit 230 may generate, for example, the first generated information of a segmented image (for example, a target image, a block image, or a line image) as a single group.

===第2の光学式文字認識装置300===
図1を参照して、第2の光学式文字認識装置300の構成について説明する。第2の光学式文字認識装置300は、例えば、特定範囲画像が入力された場合、特定範囲画像に含まれる文字を認識して、例えば認識した文字ごとに、第2のテキスト情報、第2の正確性指標および座標(第2の生成情報)を生成する装置である。
Second Optical Character Recognition Device 300
The configuration of the second optical character recognition device 300 will be described with reference to Fig. 1. The second optical character recognition device 300 is a device that, for example, when a specific range image is input, recognizes characters included in the specific range image and generates, for example, second text information, a second accuracy index, and coordinates (second generated information) for each recognized character.

第2の光学式文字認識装置300は、例えば特定範囲画像が行画像である場合に、第1の光学式文字認識装置200による文字識別の正確性よりも高い正確性を実現可能な装置であることが望ましい。この場合、電子データ生成システム10では、第1の光学式文字認識装置200における文字認識の正確性が低い行画像に対して、行画像に対する文字認識の正確性が高い第2の光学式文字認識装置300を用いることにより、文字認識の正確性の向上を図ることが可能となる。 It is desirable that the second optical character recognition device 300 is a device capable of achieving higher accuracy in character identification than the first optical character recognition device 200, for example, when the specific range image is a line image. In this case, in the electronic data generation system 10, it is possible to improve the accuracy of character recognition by using the second optical character recognition device 300, which has high character recognition accuracy for line images, for line images for which the first optical character recognition device 200 has low character recognition accuracy.

図1に示すように、第2の光学式文字認識装置300は、例えば、記憶部310と、送受信部320と、処理部330とを備える。記憶部310は各種情報を記憶する。処理部330は文字認識するための処理を実行する。送受信部320は、電子データ生成装置100との間で各種情報を送受信する。処理部330は、例えば文字を区別するように学習されたニューラル・ネットワークを使用して画像を分析する。ニューラル・ネットワークは、例えば複数の畳み込みネットワーク層及び再帰型ネットワーク層を備える。処理部330は、第1の光学式文字認識装置200の処理部230と同じであってもよいが、行画像に対する文字認識に特化した処理を実行する機能部であってもよい。この場合、処理部330は、例えば行画像について文字ごとにセグメント化する。そして、処理部330は、当該文字について文字認識を実行することにより、例えば文字ごとに第2の生成情報を生成する。 As shown in FIG. 1, the second optical character recognition device 300 includes, for example, a storage unit 310, a transmission/reception unit 320, and a processing unit 330. The storage unit 310 stores various information. The processing unit 330 executes processing for character recognition. The transmission/reception unit 320 transmits and receives various information to and from the electronic data generation device 100. The processing unit 330 analyzes an image using, for example, a neural network trained to distinguish between characters. The neural network includes, for example, a plurality of convolutional network layers and a recurrent network layer. The processing unit 330 may be the same as the processing unit 230 of the first optical character recognition device 200, or may be a functional unit that executes processing specialized for character recognition of line images. In this case, the processing unit 330 segments, for example, the line image for each character. Then, the processing unit 330 executes character recognition on the character to generate, for example, second generation information for each character.

===ユーザ端末400===
図1を参照して、ユーザ端末400の構成について説明する。図1に示すように、ユーザ端末400は、例えば、記憶部410と、送受信部420と、表示処理部430との機能部を含む。各機能部は、例えば、プロセッサ1001がメモリ1002に格納されているプログラムを読み出して実現される機能である。
User Terminal 400
The configuration of the user terminal 400 will be described with reference to Fig. 1. As shown in Fig. 1, the user terminal 400 includes functional units, for example, a storage unit 410, a transmission/reception unit 420, and a display processing unit 430. Each functional unit is a function realized by, for example, a processor 1001 reading out a program stored in a memory 1002.

記憶部410は、各種情報を記憶する。送受信部420は電子データ生成装置100との間で各種情報を送受信する。送受信部420で取得された各種情報は記憶部410に記憶される。表示処理部430は電子データ生成装置100から取得する画面T10を表示部に表示させる。 The storage unit 410 stores various information. The transmission/reception unit 420 transmits and receives various information to and from the electronic data generation device 100. The various information acquired by the transmission/reception unit 420 is stored in the storage unit 410. The display processing unit 430 displays the screen T10 acquired from the electronic data generation device 100 on the display unit.

===処理手順===
図5、図6を参照して、電子データ生成システム10の処理手順について説明する。図5は、電子データ生成システム10の処理手順を示すフローチャートである。図6は、一行の文字列のテキスト情報である行情報に対する正当性指標を示す表である。以下では、一例として、対象画像に含まれる一行の文字列である「100BASE-TXスイッチ一式」に対する文字認識について説明する。
===Processing Procedure===
The processing procedure of the electronic data generation system 10 will be described with reference to Fig. 5 and Fig. 6. Fig. 5 is a flowchart showing the processing procedure of the electronic data generation system 10. Fig. 6 is a table showing validity indices for line information, which is text information of a line of character strings. In the following, as an example, character recognition for "100BASE-TX switch set", which is a line of character string included in a target image, will be described.

ステップS100において、電子データ生成装置100は、所定の装置から対象画像を取得する。電子データ生成装置100は、対象画像を記憶部101に記憶する。電子データ生成装置100は、第1の光学式文字認識装置200に対象画像を送信する。 In step S100, the electronic data generation device 100 acquires a target image from a specific device. The electronic data generation device 100 stores the target image in the storage unit 101. The electronic data generation device 100 transmits the target image to the first optical character recognition device 200.

ステップS101において、第1の光学式文字認識装置200は、対象画像をセグメント化して、対象画像に含まれる文字ごとの第1のテキスト情報、第1の正確性指標および座標を生成する。第1の光学式文字認識装置200は、第1の生成情報を電子データ生成装置100に送信する。 In step S101, the first optical character recognition device 200 segments the target image to generate first text information, a first accuracy indicator, and coordinates for each character contained in the target image. The first optical character recognition device 200 transmits the first generated information to the electronic data generation device 100.

ステップS102において、電子データ生成装置100は、対象画像に関連づけて、文字ごとに第1の生成情報を対象画像情報D101aに記憶する。 In step S102, the electronic data generation device 100 associates the first generation information for each character with the target image and stores it in the target image information D101a.

ステップS103において、電子データ生成装置100は、対象画像に含まれる文字の第1の基準指標が第1の基準よりも低いか否かを判定する。 In step S103, the electronic data generating device 100 determines whether the first reference index of the character contained in the target image is lower than the first reference.

第1の基準指標が第1の基準以上と判定された場合(ステップS103:NO)、ステップS104において、電子データ生成装置100は、第1のテキスト情報が示す文字を対象画像に含まれる文字として特定する。 If it is determined that the first reference indicator is equal to or greater than the first reference (step S103: NO), in step S104, the electronic data generation device 100 identifies the character indicated by the first text information as a character included in the target image.

第1の基準指標が第1の基準よりも低いと判定された場合(ステップS103:YES)、ステップS105において、電子データ生成装置100は、対象画像情報D101aを参照して、第1の基準よりも低いと判定された第1の基準指標に対応する第1のテキスト情報を含む行情報を特定する。具体的には、電子データ生成装置100は、図6(a)に示す第1のテキスト情報および第1の正当性指標を特定する。 If it is determined that the first reference indicator is lower than the first reference (step S103: YES), in step S105, the electronic data generation device 100 refers to the target image information D101a and identifies line information including first text information corresponding to the first reference indicator determined to be lower than the first reference. Specifically, the electronic data generation device 100 identifies the first text information and the first validity indicator shown in FIG. 6(a).

ステップS106において、電子データ生成装置100は、特定した行情報に含まれる座標に基づき、行情報に対応する行画像(特定範囲画像)を対象画像から特定する。電子データ生成装置100は、特定した行画像を第2の光学式文字認識装置300に送信する。 In step S106, the electronic data generation device 100 identifies a line image (specific range image) corresponding to the line information from the target image based on the coordinates included in the identified line information. The electronic data generation device 100 transmits the identified line image to the second optical character recognition device 300.

ステップS107において、第2の光学式文字認識装置300は、行画像をセグメント化して、行画像に含まれる文字ごとの第2のテキスト情報、第2の正確性指標および座標を生成する。第2の光学式文字認識装置300は、第2の生成情報を電子データ生成装置100に送信する。 In step S107, the second optical character recognition device 300 segments the line image to generate second text information, a second accuracy indicator, and coordinates for each character contained in the line image. The second optical character recognition device 300 transmits the second generated information to the electronic data generation device 100.

ステップS108において、電子データ生成装置100は、特定範囲画像に関連づけて、文字ごとに第2の生成情報を特定範囲画像情報D101bに記憶する。 In step S108, the electronic data generation device 100 stores the second generation information for each character in the specific range image information D101b in association with the specific range image.

ステップS109において、電子データ生成装置100は、特定範囲画像における第2の基準指標と第2の基準との大小関係を判定する。具体的には、図6(b)に示す行情報の第2の正当性指標の全て(第2の基準指標)が閾値(第2の基準)を超えるか否かを判定する。 In step S109, the electronic data generating device 100 determines whether the second reference indicator in the specific range image is larger than the second reference. Specifically, it determines whether all of the second validity indicators (second reference indicators) of the line information shown in FIG. 6(b) exceed a threshold value (second reference).

第2の基準指標が第2の基準以上と判定された場合(ステップS109:YES)、ステップS110において、電子データ生成装置100は、行情報に含まれる第2のテキスト情報が示す文字を行画像に含まれる文字として特定する。 If it is determined that the second reference indicator is equal to or greater than the second reference (step S109: YES), in step S110, the electronic data generation device 100 identifies the character indicated by the second text information included in the line information as the character included in the line image.

第2の基準指標が第2の基準よりも低いと判定された場合(ステップS109:NO)、ステップS111において、電子データ生成装置100は、特定範囲画像に対応する行情報についての第1の正確性指標と、第2の正確性指標とを比較する。具体的には、電子データ生成装置100は、図6(a)に示す第1の正確性指標のうちの最も小さい値(図6(a)の「0.32」)と、図6(b)に示す第2の正確性指標のうちの最も小さい値(図6(b)の「0.57」)とを比較する。 If it is determined that the second reference index is lower than the second reference (step S109: NO), in step S111, the electronic data generating device 100 compares the first accuracy index for the line information corresponding to the specific range image with the second accuracy index. Specifically, the electronic data generating device 100 compares the smallest value of the first accuracy indexes shown in FIG. 6(a) ("0.32" in FIG. 6(a)) with the smallest value of the second accuracy indexes shown in FIG. 6(b) ("0.57" in FIG. 6(b)).

ステップS112において、電子データ生成装置100は、第1の正確性指標のうちの最も小さい値の方が第2の正確性指標のうちの最も小さい値よりも大きいと判定された場合、第1のテキスト情報を含む行情報(図6(a)の行情報)を行画像に含まれる文字として特定する。一方、電子データ生成装置100は、第2の正確性指標のうちの最も小さい値の方が第1の正確性指標のうちの最も小さい値よりもが大きいと判定された場合、第2のテキスト情報を含む行情報(図6(b)の行情報)を行画像に含まれる文字として特定する。 In step S112, if the electronic data generating device 100 determines that the smallest value of the first accuracy indicators is greater than the smallest value of the second accuracy indicators, it identifies the line information including the first text information (line information in FIG. 6(a)) as a character included in the line image. On the other hand, if the electronic data generating device 100 determines that the smallest value of the second accuracy indicators is greater than the smallest value of the first accuracy indicators, it identifies the line information including the second text information (line information in FIG. 6(b)) as a character included in the line image.

これにより、第1の光学式文字認識装置200による一度目の文字認識において正確性が低い文字を含む所定の範囲の文字列と、第2の光学式文字認識装置300による二度目の文字認識において文字列とのうち、より正確に認識されたと推定される文字列を採用することが可能となる。 This makes it possible to adopt a character string that is estimated to have been recognized more accurately from a predetermined range of character strings including characters with low accuracy in the first character recognition by the first optical character recognition device 200 and a character string in the second character recognition by the second optical character recognition device 300.

なお、ステップS112において、電子データ生成装置100は、第1の正確性指標の平均値(図6(a)の「平均値」)と、第2の正確性指標の平均値(図6(b)の「平均値」)とを比較してもよい。この場合、電子データ生成装置100は、それぞれの平均値のうちの大きい値を示す平均値に対応する行情報(図6(b)の行情報)を行画像に含まれる文字として特定する。 In addition, in step S112, the electronic data generation device 100 may compare the average value of the first accuracy index ("Average value" in FIG. 6(a)) with the average value of the second accuracy index ("Average value" in FIG. 6(b)). In this case, the electronic data generation device 100 identifies the line information (line information in FIG. 6(b)) corresponding to the average value that indicates the larger value among the respective average values as a character included in the line image.

ステップS113において、電子データ生成装置100は、対象画像と、対象画像を文字認識した結果とを比較可能な図4に示す画面T10をユーザ端末400の表示部に表示させる。 In step S113, the electronic data generation device 100 displays screen T10 shown in FIG. 4 on the display unit of the user terminal 400, which allows a comparison between the target image and the results of character recognition of the target image.

なお、電子データ生成システム10は、ステップS106において複数の行情報が特定された場合、ステップS106からステップS112を、特定された行情報の個数だけ繰り返し実行する。 If multiple pieces of line information are identified in step S106, the electronic data generation system 10 repeats steps S106 to S112 the number of times corresponding to the number of pieces of line information identified.

このように、電子データ生成システム10では、一頁単位の文字認識をより適切に実行可能な第1の光学式文字認識装置200によって文字認識した結果、文字認識の正確性が低いと判定された行について、行単位の文字認識をより適切に実行可能な第2の光学式文字認識装置300によって文字認識することが望ましい。そして、電子データ生成システム10は、第1の光学式文字認識装置200による文字認識の結果と、第2の光学式文字認識装置300による文字認識の結果とを比較して、より正確性が高い方の文字認識の結果を採用する。すなわち、電子データ生成装置100では、二つの異なる光学式文字認識装置で異なる文字認識の範囲に対して文字認識することによって、文字認識の正確性が低い画像について正確性の高い文字認識が実現可能となる。 In this way, in the electronic data generation system 10, it is desirable to perform character recognition by the second optical character recognition device 300, which can perform character recognition by line, more appropriately for lines determined to have low accuracy as a result of character recognition by the first optical character recognition device 200, which can perform character recognition by page units more appropriately. Then, the electronic data generation system 10 compares the character recognition results by the first optical character recognition device 200 and the character recognition results by the second optical character recognition device 300, and adopts the character recognition result with the higher accuracy. In other words, in the electronic data generation device 100, by performing character recognition on different character recognition ranges using two different optical character recognition devices, it is possible to achieve highly accurate character recognition for images with low character recognition accuracy.

===ハードウェア構成===
図7を参照して、電子データ生成装置100、第1の光学式文字認識装置200、第2の光学式文字認識装置300およびユーザ端末400をコンピュータで実現する場合のハードウェア構成の一例を説明する。図7は、コンピュータのハードウェア構成の一例を示す図である。
===Hardware Configuration===
7, an example of a hardware configuration for implementing the electronic data generation device 100, the first optical character recognition device 200, the second optical character recognition device 300, and the user terminal 400 on a computer will be described. FIG. 7 is a diagram showing an example of a hardware configuration of a computer.

図7に示すように、コンピュータ1000は、プロセッサ1001と、メモリ1002と、記憶装置1003と、入力I/F部1004と、データI/F部1005と、通信I/F部1006、及び表示部1007を含む。 As shown in FIG. 7, the computer 1000 includes a processor 1001, a memory 1002, a storage device 1003, an input I/F unit 1004, a data I/F unit 1005, a communication I/F unit 1006, and a display unit 1007.

プロセッサ1001は、メモリ1002に記憶されているプログラムを実行することによりコンピュータ1000における各種の処理を制御する制御部である。 The processor 1001 is a control unit that controls various processes in the computer 1000 by executing programs stored in the memory 1002.

メモリ1002は、例えばRAM(Random Access Memory)等の記憶媒体である。メモリ1002は、プロセッサ1001によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。 The memory 1002 is a storage medium such as a RAM (Random Access Memory). The memory 1002 temporarily stores the program code of the program executed by the processor 1001 and data required when the program is executed.

記憶装置1003は、例えばハードディスクドライブ(HDD)やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置1003は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。 The storage device 1003 is a non-volatile storage medium such as a hard disk drive (HDD) or flash memory. The storage device 1003 stores an operating system and various programs for implementing the above configurations.

入力I/F部1004は、ユーザからの入力を受け付けるためのデバイスである。入力I/F部1004の具体例としては、キーボードやマウス、タッチパネル、各種センサー、ウェアラブル・デバイス等が挙げられる。入力I/F部1004は、例えばUSB(Universal Serial Bus)等のインターフェースを介してコンピュータ1000に接続されても良い。 The input I/F unit 1004 is a device for receiving input from a user. Specific examples of the input I/F unit 1004 include a keyboard, a mouse, a touch panel, various sensors, and a wearable device. The input I/F unit 1004 may be connected to the computer 1000 via an interface such as a Universal Serial Bus (USB).

データI/F部1005は、コンピュータ1000の外部からデータを入力するためのデバイスである。データI/F部1005の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データI/F部1005は、コンピュータ1000の外部に設けられることも考えられる。その場合、データI/F部1005は、例えばUSB等のインターフェースを介してコンピュータ1000へと接続される。 The data I/F unit 1005 is a device for inputting data from outside the computer 1000. A specific example of the data I/F unit 1005 is a drive device for reading data stored in various storage media. The data I/F unit 1005 may be provided outside the computer 1000. In that case, the data I/F unit 1005 is connected to the computer 1000 via an interface such as a USB.

通信I/F部1006は、コンピュータ1000の外部の装置と有線又は無線により、インターネットNを介したデータ通信を行うためのデバイスである。通信I/F部1006は、コンピュータ1000の外部に設けられることも考えられる。その場合、通信I/F部1006は、例えばUSB等のインターフェースを介してコンピュータ1000に接続される。 The communication I/F unit 1006 is a device for performing data communication via the Internet N, either wired or wirelessly, with devices external to the computer 1000. The communication I/F unit 1006 may be provided external to the computer 1000. In that case, the communication I/F unit 1006 is connected to the computer 1000 via an interface such as a USB.

表示部1007は、各種情報を表示するためのデバイスである。表示部1007の具体例としては、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示部1007は、コンピュータ1000の外部に設けられても良い。その場合、表示部1007は、例えばディスプレイケーブル等を介してコンピュータ1000に接続される。また、入力I/F部1004としてタッチパネルが採用される場合には、表示部1007は、入力I/F部1004と一体化して構成することが可能である。 The display unit 1007 is a device for displaying various types of information. Specific examples of the display unit 1007 include a liquid crystal display, an organic EL (Electro-Luminescence) display, a display of a wearable device, and the like. The display unit 1007 may be provided outside the computer 1000. In that case, the display unit 1007 is connected to the computer 1000 via, for example, a display cable. In addition, when a touch panel is adopted as the input I/F unit 1004, the display unit 1007 can be configured as an integral part of the input I/F unit 1004.

===まとめ===
<1>本実施形態における電子データ生成システム10は、所定の装置から、文字を含む対象画像を取得する対象画像取得部102と、対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置200から、複数の文字のそれぞれについての、第1のテキスト情報と、第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得する第1の情報取得部103と、複数の文字における第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、第1の光学式文字認識装置200とは異なる第2の光学式文字認識装置300から、特定範囲画像に含まれる文字についての第2のテキスト情報を取得する第2の情報取得部107と、第1のテキスト情報と、第2のテキスト情報と、に基づいて、対象画像に含まれる文字を特定する文字特定部109と、備える。これにより、電子データ生成システム10は、文字認識の対象範囲が異なる複数の光学式文字認識装置(例えば第1の光学式文字認識装置200は一頁単位の文字認識で第2の光学式文字認識装置300は行単位の文字認識)を用いて、文字認識の正確性が低い画像に対して文字認識することにより、正確性が高い文字認識を実現することができる。
====Summary====
<1> The electronic data generation system 10 in this embodiment includes a target image acquisition unit 102 that acquires a target image including characters from a predetermined device, a first information acquisition unit 103 that acquires, from a first optical character recognition device 200 that recognizes each of a plurality of characters included in the target image as first text information, first text information for each of the plurality of characters and a first accuracy index indicating the degree of recognition accuracy for the character indicated by the first text information, and a first reference index based on at least one of the first accuracy indexes for the plurality of characters, which is a first reference index regarding the accuracy of recognition of the character included in the image. When the first optical character recognition device 200 is judged to be lower than the first standard, the specific range image is an image of a part of the target image including a character corresponding to the first reference indicator judged to be lower than the first standard, and at least one character included in the specific range image is recognized as second text information. The electronic data generation system 10 includes: a second information acquisition unit 107 that acquires second text information about characters included in the specific range image from a second optical character recognition device 300 different from the first optical character recognition device 200, and a character identification unit 109 that identifies characters included in the target image based on the first text information and the second text information. As a result, the electronic data generation system 10 can realize highly accurate character recognition by performing character recognition on an image with low accuracy of character recognition using a plurality of optical character recognition devices with different target ranges for character recognition (for example, the first optical character recognition device 200 performs character recognition on a page basis and the second optical character recognition device 300 performs character recognition on a line basis).

<2>また、本実施形態における電子データ生成システム10における第2の情報取得部107は、第2の光学式文字認識装置300から、特定範囲画像に含まれる少なくとも一つの文字のそれぞれについての、第2のテキスト情報と、第2のテキスト情報が示す文字に対する認識の正確性の度合いを示す第2の正確性指標と、を取得し、文字特定部109は、前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれにおける前記第2の正確性指標のうちの少なくとも一つに基づく第2の基準指標と、画像に含まれる文字の認識の正確性に関する第2の基準と、の大小関係を判定した結果に基づいて、特定範囲画像に含まれる文字を特定する。これにより、電子データ生成システム10は、第1の光学式文字認識装置200による一度目の文字認識において正確性が低い文字を含む所定の範囲の文字列について、第2の光学式文字認識装置300による二度目の文字認識において文字列を適切に認識することが可能となる。 <2> In addition, the second information acquisition unit 107 in the electronic data generation system 10 in this embodiment acquires from the second optical character recognition device 300 second text information for each of at least one character included in the specific range image and a second accuracy index indicating the degree of accuracy of recognition for the character indicated by the second text information, and the character identification unit 109 identifies the character included in the specific range image based on the result of determining the magnitude relationship between the second reference index based on at least one of the second accuracy indexes for each of at least one character included in the specific range image and the second reference regarding the accuracy of recognition of the character included in the image. As a result, the electronic data generation system 10 is able to appropriately recognize a character string in the second character recognition by the second optical character recognition device 300 for a character string in a predetermined range that includes a character with low accuracy in the first character recognition by the first optical character recognition device 200.

<3>また、本実施形態における電子データ生成システム10の文字特定部109は、特定範囲画像に含まれる全ての文字に関する第2の基準指標が第2の基準以上であると判定された場合、第2の正確性指標に対応する第2のテキスト情報が示す文字を、特定範囲画像に含まれる文字として特定する。これにより、電子データ生成システム10は、第1の光学式文字認識装置200による一度目の文字認識において正確性が低い文字を含む所定の範囲の文字列について、第2の光学式文字認識装置300による二度目の文字認識において文字列を適切に認識することができる。 <3> Furthermore, when the character identification unit 109 of the electronic data generation system 10 in this embodiment determines that the second reference index for all characters included in the specific range image is equal to or greater than the second reference index, it identifies the characters indicated by the second text information corresponding to the second accuracy index as characters included in the specific range image. This allows the electronic data generation system 10 to properly recognize character strings in the second character recognition by the second optical character recognition device 300 for character strings in a predetermined range that include characters with low accuracy in the first character recognition by the first optical character recognition device 200.

<4>また、本実施形態における電子データ生成システム10の文字特定部109は、特定範囲画像に含まれる文字のうちの少なくとも一つの文字に対する第2の基準指標が第2の基準よりも低いと判定された場合、対象画像における特定範囲画像に相当する範囲に含まれる少なくとも一つの文字の第1の正確性指標と、特定範囲画像に含まれる少なくとも一つの文字の第2の正確性指標と、の大小関係を判定した結果に基づいて、特定範囲画像に含まれる文字を特定する。これにより、電子データ生成システム10は、第1の光学式文字認識装置200による一度目の文字認識において正確性が低い文字を含む所定の範囲の文字列と、第2の光学式文字認識装置300による二度目の文字認識において文字列とのうち、より正確に認識されたと推定される文字列による、より適切な文字認識を実現することができる。 <4> In addition, when the character identification unit 109 of the electronic data generation system 10 in this embodiment determines that the second reference index for at least one of the characters included in the specific range image is lower than the second reference, the character identification unit 109 identifies the characters included in the specific range image based on the result of determining the magnitude relationship between the first accuracy index of at least one character included in the range corresponding to the specific range image in the target image and the second accuracy index of at least one character included in the specific range image. This allows the electronic data generation system 10 to realize more appropriate character recognition using a character string that is estimated to have been recognized more accurately between a character string in a predetermined range that includes characters with low accuracy in the first character recognition by the first optical character recognition device 200 and a character string in the second character recognition by the second optical character recognition device 300.

<5>また、本実施形態における電子データ生成システム10の対象画像取得部102は、一頁単位の画像である対象画像を取得し、情報送信部106は、対象画像に含まれる文章の行単位の画像である特定範囲画像を、第2の光学式文字認識装置300に送信する。これにより、電子データ生成システム10では、例えば、第1の光学式文字認識装置200における文字認識の正確性が低い行画像に対して、行画像に対する文字認識の正確性が高い第2の光学式文字認識装置300を用いることにより、文字認識の正確性の向上を図ることが可能となる。 <5> In addition, the target image acquisition unit 102 of the electronic data generation system 10 in this embodiment acquires a target image that is an image of one page unit, and the information transmission unit 106 transmits a specific range image that is an image of a line unit of text included in the target image to the second optical character recognition device 300. As a result, in the electronic data generation system 10, for example, for a line image in which the accuracy of character recognition in the first optical character recognition device 200 is low, by using the second optical character recognition device 300, which has high accuracy of character recognition for line images, it is possible to improve the accuracy of character recognition.

<6>また、本実施形態における電子データ生成システム10の文字特定部109は、第2の光学式文字認識装置300に特定範囲画像を入力することが、第2の光学式文字認識装置300に対する特定範囲画像の入力に関する条件を満たす場合、第1の正確性指標に対応する第1のテキスト情報が示す文字を、特定範囲画像に含まれる文字として特定する。これにより、電子データ生成システム10は、例えば、第1の光学式文字認識装置200による文字認識の処理にかかる費用よりも、第2の光学式文字認識装置300による文字認識の処理にかかる費用の方が高いような場合、一定の費用を超えるような場合は、より費用が低い光学式文字認識装置を用いて文字認識を実行することにより、費用縮減を実現できる。 <6> Furthermore, in the present embodiment, the character identification unit 109 of the electronic data generation system 10 identifies the character indicated by the first text information corresponding to the first accuracy index as a character included in the specific range image when inputting the specific range image to the second optical character recognition device 300 satisfies the conditions for inputting the specific range image to the second optical character recognition device 300. As a result, the electronic data generation system 10 can achieve cost reduction by performing character recognition using a less expensive optical character recognition device when, for example, the cost of character recognition processing by the second optical character recognition device 300 is higher than the cost of character recognition processing by the first optical character recognition device 200, or when the cost exceeds a certain cost.

<7>また、本実施形態における電子データ生成システム10は、対象画像を画面T10の第1の表示領域T11に表示させ、特定範囲画像に含まれる文字を示す第2のテキスト情報を画面T10における第1の表示領域T11とは異なる第2の表示領域T12に表示させる表示処理部110をさらに備える。これにより、電子データ生成システム10は、対象画像の所定の範囲を文字認識した結果である第1のテキスト情報および第2のテキスト情報と、対象画像との対応関係を、ユーザに対して提供することができるため、ユーザにおいて対象画像に対する誤認識などを容易に把握可能とさせる。 <7> In addition, the electronic data generation system 10 in this embodiment further includes a display processing unit 110 that displays the target image in a first display area T11 of the screen T10 and displays second text information indicating characters contained in the specific range image in a second display area T12 different from the first display area T11 on the screen T10. This allows the electronic data generation system 10 to provide the user with the correspondence between the target image and the first text information and the second text information, which are the results of character recognition of a specified range of the target image, so that the user can easily grasp misrecognition of the target image, etc.

<8>また、本実施形態における電子データ生成システム10における表示処理部110は、特定範囲画像に含まれる文字を示す第2のテキスト情報と、特定範囲画像に含まれる文字を除く対象画像に含まれる文字を示す第1のテキスト情報と、を第2の表示領域T12に表示し、当該第2のテキスト情報を識別可能に表示する。これにより、電子データ生成システム10は、第2の光学式文字認識装置300における第2のテキスト情報を、ユーザが容易に特定可能に表示させることができるため、ユーザにおいて対象画像に対する誤認識の程度などを容易に把握可能とすることができる。 <8> In addition, the display processing unit 110 in the electronic data generation system 10 in this embodiment displays second text information indicating characters included in the specific range image and first text information indicating characters included in the target image excluding the characters included in the specific range image in the second display area T12, and displays the second text information in an identifiable manner. As a result, the electronic data generation system 10 can display the second text information in the second optical character recognition device 300 in a manner that is easily identifiable by the user, making it possible for the user to easily grasp the degree of misrecognition of the target image, etc.

<9>また、本実施形態における電子データ生成システム10の表示処理部110は、第2の光学式文字認識装置300に特定範囲画像を入力した回数である入力回数を、画面の所定の表示領域に表示させる。これにより、電子データ生成システム10は、第2の光学式文字認識装置300による文字認識の回数について、ユーザにおいて容易に把握可能とすることができる。 <9> In addition, the display processing unit 110 of the electronic data generation system 10 in this embodiment displays the number of inputs, which is the number of times that a specific range image has been input to the second optical character recognition device 300, in a predetermined display area of the screen. This allows the electronic data generation system 10 to allow the user to easily grasp the number of times character recognition has been performed by the second optical character recognition device 300.

10…電子データ生成システム、100…電子データ生成装置、101…記憶部、102…対象画像取得部、103…第1の情報取得部、104…第1の判定部、105…特定範囲特定部、106…情報送信部、107…第2の情報取得部、108…第2の判定部、109…文字特定部、110…表示処理部、200…第1の光学式文字認識装置、300…第2の光学式文字認識装置、400…ユーザ端末。 10...electronic data generation system, 100...electronic data generation device, 101...storage unit, 102...target image acquisition unit, 103...first information acquisition unit, 104...first judgment unit, 105...specific range identification unit, 106...information transmission unit, 107...second information acquisition unit, 108...second judgment unit, 109...character identification unit, 110...display processing unit, 200...first optical character recognition device, 300...second optical character recognition device, 400...user terminal.

Claims (9)

所定の装置から、文字を含む対象画像を取得する対象画像取得部と、
前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得する第1の情報取得部と、
前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれについての、前記第2のテキスト情報と、前記第2のテキスト情報が示す文字に対する認識の正確性の度合いを示す第2の正確性指標と、を取得する第2の情報取得部と、
前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれにおける前記第2の正確性指標のうちの少なくとも一つに基づく第2の基準指標と、画像に含まれる文字の認識の正確性に関する第2の基準と、の大小関係を判定した結果に基づいて、前記特定範囲画像に含まれる文字を特定する文字特定部と、
を備え、
前記文字特定部は、前記特定範囲画像に含まれる文字のうちの少なくとも一つの文字に対する前記第2の基準指標が前記第2の基準よりも低いと判定された場合、前記対象画像における前記特定範囲画像に相当する範囲に含まれる少なくとも一つの文字の前記第1の正確性指標と、前記特定範囲画像に含まれる少なくとも一つの文字の前記第2の正確性指標と、の大小関係を判定した結果に基づいて、前記特定範囲画像に含まれる文字を特定する、
情報処理システム。
a target image acquisition unit that acquires a target image including characters from a predetermined device;
a first information acquisition unit that acquires, from a first optical character recognition device that recognizes each of a plurality of characters included in the target image as first text information, the first text information for each of the plurality of characters and a first accuracy index that indicates a degree of recognition accuracy for the character indicated by the first text information;
a second information acquisition unit that acquires, when a first reference indicator based on at least one of the first accuracy indicators for the plurality of characters is determined to be lower than a first standard related to accuracy of recognition of characters included in an image, from a second optical character recognition device different from the first optical character recognition device, a specific range image that is an image of a partial range of the target image including characters corresponding to the first reference indicator determined to be lower than the first standard, and that recognizes each of at least one character included in the specific range image as second text information, the second text information for each of at least one character included in the specific range image and a second accuracy indicator indicating a degree of accuracy of recognition for the character indicated by the second text information;
a character identification unit that identifies a character included in the specific range image based on a result of determining whether a second reference indicator based on at least one of the second accuracy indicators for each of at least one character included in the specific range image is larger than a second reference indicator related to accuracy of recognition of the character included in the image; and
Equipped with
when it is determined that the second reference index for at least one character among the characters included in the specific range image is lower than the second reference, the character identification unit identifies a character included in the specific range image based on a result of determining a magnitude relationship between the first accuracy index of at least one character included in a range corresponding to the specific range image in the target image and the second accuracy index of at least one character included in the specific range image.
Information processing system.
所定の装置から、文字を含む対象画像を取得する対象画像取得部と、
前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得する第1の情報取得部と、
前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像が入力されることによって、前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる文字についての前記第2のテキスト情報を取得する第2の情報取得部と、
前記第1のテキスト情報と、前記第2のテキスト情報と、に基づいて、前記対象画像に含まれる文字を特定する文字特定部と、
を備え、
前記文字特定部は、前記第2の光学式文字認識装置に対する前記特定範囲画像を入力した入力回数が所定の回数を超えた場合、前記第1の正確性指標に対応する前記第1のテキスト情報が示す文字を、前記特定範囲画像に含まれる文字として特定する、
情報処理システム。
a target image acquisition unit that acquires a target image including characters from a predetermined device;
a first information acquisition unit that acquires, from a first optical character recognition device that recognizes each of a plurality of characters included in the target image as first text information, the first text information for each of the plurality of characters and a first accuracy index that indicates a degree of recognition accuracy for the character indicated by the first text information;
a second information acquisition unit that acquires the second text information about characters included in a specific range image from a second optical character recognition device different from the first optical character recognition device, the second information acquisition unit being configured to acquire, when a first reference indicator based on at least one of the first accuracy indicators for the plurality of characters is determined to be lower than a first standard related to the accuracy of recognition of characters included in an image, a specific range image that is an image of a partial range of the target image and includes characters corresponding to the first reference indicator determined to be lower than the first standard, the specific range image being input and recognizing each of at least one character included in the specific range image as second text information;
a character identification unit that identifies characters included in the target image based on the first text information and the second text information;
Equipped with
the character identification unit, when the number of times that the specific range image is input to the second optical character recognition device exceeds a predetermined number of times, identifies a character indicated by the first text information corresponding to the first accuracy index as a character included in the specific range image.
Information processing system.
前記文字特定部は、前記特定範囲画像に含まれる全ての文字に関する前記第2の基準指標が前記第2の基準以上であると判定された場合、前記第2の正確性指標に対応する前記第2のテキスト情報が示す文字を、前記特定範囲画像に含まれる文字として特定する、
請求項1に記載の情報処理システム。
when it is determined that the second reference indicator for all characters included in the specific range image is equal to or greater than the second reference, the character identification unit identifies a character indicated by the second text information corresponding to the second accuracy indicator as a character included in the specific range image.
The information processing system according to claim 1 .
前記対象画像取得部は、一頁単位の画像である前記対象画像を取得し、
前記第2の情報取得部は、前記対象画像に含まれる文章の行単位の画像である前記特定範囲画像に含まれる文字についての前記第2のテキスト情報を、前記第2の光学式文字認識装置から取得する、
請求項1に記載の情報処理システム。
The target image acquisition unit acquires the target image, which is an image of one page unit,
the second information acquisition unit acquires, from the second optical character recognition device, the second text information about characters included in the specific range image, which is an image of a line of a sentence included in the target image;
The information processing system according to claim 1 .
前記対象画像を画面の第1の表示領域に表示させ、
前記特定範囲画像に含まれる文字を示す前記第2のテキスト情報を前記画面における前記第1の表示領域とは異なる第2の表示領域に表示させる表示処理部を、
さらに備える請求項1に記載の情報処理システム。
Displaying the target image in a first display area of a screen;
a display processing unit that displays the second text information indicating characters included in the specific range image in a second display area different from the first display area on the screen;
The information processing system according to claim 1 further comprising:
前記表示処理部は、
前記特定範囲画像に含まれる文字を示す前記第2のテキスト情報と、前記特定範囲画像に含まれる文字を除く前記対象画像に含まれる文字を示す前記第1のテキスト情報と、を前記第2の表示領域に表示し、
当該第2のテキスト情報を識別可能に表示する、
請求項5に記載の情報処理システム。
The display processing unit is
displaying, in the second display area, the second text information indicating characters included in the specific range image and the first text information indicating characters included in the target image excluding the characters included in the specific range image;
displaying the second text information in an identifiable manner;
6. The information processing system according to claim 5.
前記表示処理部は、前記第2の光学式文字認識装置に前記特定範囲画像を入力した回数である入力回数を、前記画面の所定の表示領域に表示させる、
請求項5に記載の情報処理システム。
the display processing unit displays, in a predetermined display area of the screen, an input count, which is the number of times the specific range image has been input to the second optical character recognition device;
6. The information processing system according to claim 5.
コンピュータが、
所定の装置から、文字を含む対象画像を取得することと、
前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得することと、
前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれについての、前記第2のテキスト情報と、前記第2のテキスト情報が示す文字に対する認識の正確性の度合いを示す第2の正確性指標と、を取得することと、
前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれにおける前記第2の正確性指標のうちの少なくとも一つに基づく第2の基準指標と、画像に含まれる文字の認識の正確性に関する第2の基準と、の大小関係を判定した結果に基づいて、前記特定範囲画像に含まれる文字を特定することであり
前記特定範囲画像に含まれる文字のうちの少なくとも一つの文字に対する前記第2の基準指標が前記第2の基準よりも低いと判定された場合、前記対象画像における前記特定範囲画像に相当する範囲に含まれる少なくとも一つの文字の前記第1の正確性指標と、前記特定範囲画像に含まれる少なくとも一つの文字の前記第2の正確性指標と、の大小関係を判定した結果に基づいて、前記特定範囲画像に含まれる文字を特定することと、
を実行する情報処理方法。
The computer
Acquiring a target image including text from a predetermined device;
acquiring, from a first optical character recognition device that recognizes each of a plurality of characters included in the target image as first text information, the first text information for each of the plurality of characters and a first accuracy index indicating a degree of recognition accuracy for the character indicated by the first text information;
When a first reference indicator based on at least one of the first accuracy indicators for the plurality of characters is determined to be lower than a first reference regarding accuracy of recognition of characters included in an image, a specific range image is an image of a partial range of the target image including a character corresponding to the first reference indicator determined to be lower than the first reference, and each of at least one character included in the specific range image is recognized as second text information. The specific range image is obtained from a second optical character recognition device different from the first optical character recognition device, and the second text information and a second accuracy indicator indicating a degree of accuracy of recognition for the character indicated by the second text information are obtained for each of at least one character included in the specific range image;
identifying a character included in the specific range image based on a result of determining whether a second reference indicator based on at least one of the second accuracy indicators for each of at least one character included in the specific range image is larger than a second reference indicator related to accuracy of recognition of the character included in the image;
when it is determined that the second reference index for at least one character among the characters included in the specific range image is lower than the second reference, identifying characters included in the specific range image based on a result of determining a magnitude relationship between the first accuracy index of at least one character included in a range corresponding to the specific range image in the target image and the second accuracy index of at least one character included in the specific range image;
An information processing method for performing the above.
コンピュータに、
所定の装置から、文字を含む対象画像を取得することと、
前記対象画像に含まれる複数の文字のそれぞれを第1のテキスト情報として認識する第1の光学式文字認識装置から、前記複数の文字のそれぞれについての、前記第1のテキスト情報と、前記第1のテキスト情報が示す文字に対する認識の正確性の度合いを示す第1の正確性指標と、を取得することと、
前記複数の文字における前記第1の正確性指標のうちの少なくとも一つに基づく第1の基準指標が、画像に含まれる文字の認識の正確性に関する第1の基準よりも低いと判定された場合、前記第1の基準よりも低いと判定された前記第1の基準指標に対応する文字を含む、前記対象画像の一部の範囲の画像である特定範囲画像であって、当該特定範囲画像に含まれる少なくとも一つの文字のそれぞれを第2のテキスト情報として認識する、前記第1の光学式文字認識装置とは異なる第2の光学式文字認識装置から、前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれについての、前記第2のテキスト情報と、前記第2のテキスト情報が示す文字に対する認識の正確性の度合いを示す第2の正確性指標と、を取得することと、
前記特定範囲画像に含まれる少なくとも一つの文字のそれぞれにおける前記第2の正確性指標のうちの少なくとも一つに基づく第2の基準指標と、画像に含まれる文字の認識の正確性に関する第2の基準と、の大小関係を判定した結果に基づいて、前記特定範囲画像に含まれる文字を特定することであり
前記特定範囲画像に含まれる文字のうちの少なくとも一つの文字に対する前記第2の基準指標が前記第2の基準よりも低いと判定された場合、前記対象画像における前記特定範囲画像に相当する範囲に含まれる少なくとも一つの文字の前記第1の正確性指標と、前記特定範囲画像に含まれる少なくとも一つの文字の前記第2の正確性指標と、の大小関係を判定した結果に基づいて、前記特定範囲画像に含まれる文字を特定することと、
を実行させるプログラム。
On the computer,
Acquiring a target image including text from a predetermined device;
acquiring, from a first optical character recognition device that recognizes each of a plurality of characters included in the target image as first text information, the first text information for each of the plurality of characters and a first accuracy index indicating a degree of recognition accuracy for the character indicated by the first text information;
When a first reference indicator based on at least one of the first accuracy indicators for the plurality of characters is determined to be lower than a first reference regarding accuracy of recognition of characters included in an image, a specific range image is an image of a partial range of the target image including a character corresponding to the first reference indicator determined to be lower than the first reference, and each of at least one character included in the specific range image is recognized as second text information. The specific range image is obtained from a second optical character recognition device different from the first optical character recognition device, and the second text information and a second accuracy indicator indicating a degree of accuracy of recognition for the character indicated by the second text information are obtained for each of at least one character included in the specific range image;
identifying a character included in the specific range image based on a result of determining whether a second reference indicator based on at least one of the second accuracy indicators for each of at least one character included in the specific range image is larger than a second reference indicator related to accuracy of recognition of the character included in the image;
when it is determined that the second reference index for at least one character among the characters included in the specific range image is lower than the second reference, identifying characters included in the specific range image based on a result of determining a magnitude relationship between the first accuracy index of at least one character included in a range corresponding to the specific range image in the target image and the second accuracy index of at least one character included in the specific range image;
A program that executes the following.
JP2024027768A 2024-02-27 2024-02-27 Information processing system, information processing method, and program Active JP7644282B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2024027768A JP7644282B1 (en) 2024-02-27 2024-02-27 Information processing system, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2024027768A JP7644282B1 (en) 2024-02-27 2024-02-27 Information processing system, information processing method, and program

Publications (1)

Publication Number Publication Date
JP7644282B1 true JP7644282B1 (en) 2025-03-11

Family

ID=94922016

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2024027768A Active JP7644282B1 (en) 2024-02-27 2024-02-27 Information processing system, information processing method, and program

Country Status (1)

Country Link
JP (1) JP7644282B1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11224305A (en) * 1998-02-06 1999-08-17 Oki Electric Ind Co Ltd Character recognizing device
JP2000155803A (en) * 1998-11-20 2000-06-06 Nec Corp Character reading method and optical character reader
JP2001297306A (en) * 2000-04-12 2001-10-26 Oki Electric Ind Co Ltd Character recognizing device
JP2020067959A (en) * 2018-10-26 2020-04-30 キヤノン株式会社 Image processing apparatus, and control method and program thereof
JP2021068203A (en) * 2019-10-24 2021-04-30 富士ゼロックス株式会社 Information processing device and program
JP2024003769A (en) * 2022-06-27 2024-01-15 Sumasen株式会社 Character recognition system, method of recognizing character by computer, and character search system

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11224305A (en) * 1998-02-06 1999-08-17 Oki Electric Ind Co Ltd Character recognizing device
JP2000155803A (en) * 1998-11-20 2000-06-06 Nec Corp Character reading method and optical character reader
JP2001297306A (en) * 2000-04-12 2001-10-26 Oki Electric Ind Co Ltd Character recognizing device
JP2020067959A (en) * 2018-10-26 2020-04-30 キヤノン株式会社 Image processing apparatus, and control method and program thereof
JP2021068203A (en) * 2019-10-24 2021-04-30 富士ゼロックス株式会社 Information processing device and program
JP2024003769A (en) * 2022-06-27 2024-01-15 Sumasen株式会社 Character recognition system, method of recognizing character by computer, and character search system

Similar Documents

Publication Publication Date Title
US10853638B2 (en) System and method for extracting structured information from image documents
JP5095535B2 (en) Image processing method, image processing system, image processing apparatus, and program
JP5181888B2 (en) Method and system for generating a graphical user interface
US10073859B2 (en) System and methods for creation and use of a mixed media environment
JP5181887B2 (en) System and method for collating electronic documents
US8521737B2 (en) Method and system for multi-tier image matching in a mixed media environment
US10127199B2 (en) Automatic measure of visual similarity between fonts
US9158744B2 (en) System and method for automatically extracting multi-format data from documents and converting into XML
US9171202B2 (en) Data organization and access for mixed media document system
US9405751B2 (en) Database for mixed media document system
US8949287B2 (en) Embedding hot spots in imaged documents
JP5095534B2 (en) System and method for generating a junction
EP1917636B1 (en) Method and system for image matching in a mixed media environment
US20060262352A1 (en) Method and system for image matching in a mixed media environment
US20070047002A1 (en) Embedding Hot Spots in Electronic Documents
US20070046983A1 (en) Integration and Use of Mixed Media Documents
US20130226917A1 (en) Document search apparatus
US11715318B2 (en) Systems and methods for spatial-aware information extraction from electronic source documents
CN112560849B (en) Neural network algorithm-based grammar segmentation method and system
US8792730B2 (en) Classification and standardization of field images associated with a field in a form
US9558400B2 (en) Search by stroke
US10067926B2 (en) Image processing system and methods for identifying table captions for an electronic fillable form
US20150261735A1 (en) Document processing system, document processing apparatus, and document processing method
CN114724156B (en) Form identification method and device and electronic equipment
CN114241496B (en) Pre-training model training method and device for reading task and electronic equipment thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240403

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20240403

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240624

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20241105

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250129

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250227

R150 Certificate of patent or registration of utility model

Ref document number: 7644282

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150