JP2011065255A - Data processing apparatus, data name generation method and computer program - Google Patents
Data processing apparatus, data name generation method and computer program Download PDFInfo
- Publication number
- JP2011065255A JP2011065255A JP2009213422A JP2009213422A JP2011065255A JP 2011065255 A JP2011065255 A JP 2011065255A JP 2009213422 A JP2009213422 A JP 2009213422A JP 2009213422 A JP2009213422 A JP 2009213422A JP 2011065255 A JP2011065255 A JP 2011065255A
- Authority
- JP
- Japan
- Prior art keywords
- character string
- document
- condition
- data
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Facsimiles In General (AREA)
Abstract
Description
本発明は、文書原稿をスキャンすることにより生成した画像データを管理する方法に関し、より詳しくは、画像データのデータ名を自動で生成するデータ処理装置、データ名生成方法、及びコンピュータプログラムに関する。 The present invention relates to a method for managing image data generated by scanning a document document, and more particularly to a data processing apparatus, a data name generation method, and a computer program that automatically generate data names of image data.
各種の文書を保管する方法として、スキャナで文書の画像読み取りを行うことによって、文書の内容を記録した画像データを生成し、生成した画像データをサーバ装置等の記憶装置で記憶する方法がある。記憶してある画像データからは、必要時に文書を作成することができる。このように文書から生成した画像データを記憶する際には、画像データのデータ名を自動的に生成し、生成したデータ名を画像データに付与する処理が行われることがある。特許文献1には、文書中で余白に囲まれた文字列、定型文書向けに予め登録されたタイトル名、又は文書中から抽出された文字列から使用者が指定した文字列を用いてデータ名を生成する技術が開示されている。また特許文献2には、所定の文字に後続する文字列、相対的に大きいサイズの文字列、又は所定の色を有する文字列を用いてデータ名を生成する技術が開示されている。
As a method for storing various types of documents, there is a method in which image data of a document is generated by reading an image of the document with a scanner, and the generated image data is stored in a storage device such as a server device. From the stored image data, a document can be created when necessary. When image data generated from a document is stored in this way, a process of automatically generating a data name of the image data and assigning the generated data name to the image data may be performed.
特許文献1及び2に開示された技術では、データ名に用いる文字列を抽出するための条件を満たしていない画像データからは、文字列を抽出することができず、データ名を生成することが困難であるという問題がある。また特許文献1及び2に開示された技術では、データ名として画一的又は形式的な語句が選定され易く、文書の内容を反映したデータ名が得られ難い。このため、データ名の一覧から文書を選ぶ際に、画一的又は形式的なデータ名からは文書の内容を推測し難く、適切な文書を選ぶことが困難であるという問題がある。
In the techniques disclosed in
本発明は、斯かる事情に鑑みてなされたものであって、その目的とするところは、文書の内容に応じた語句を用いてデータ名を生成することにより、文書の内容を推測し易いデータ名を任意の画像データに対して生成することができるデータ処理装置、データ名生成方法及びコンピュータプログラムを提供することにある。 The present invention has been made in view of such circumstances, and the object of the present invention is to generate data names using words according to the content of the document, thereby easily estimating the content of the document. It is an object to provide a data processing apparatus, a data name generation method, and a computer program that can generate names for arbitrary image data.
本発明に係るデータ処理装置は、画像データのデータ名を生成する処理を行うデータ処理装置において、画像データにより表現される画像に含まれる文字の認識を行う手段と、認識した文字で構成される文書中から、文書の内容を表す語句を抽出する語句抽出手段と、前記画像データのデータ名として、抽出した語句を含んだデータ名を生成する手段とを備えることを特徴とする。 A data processing apparatus according to the present invention includes a means for recognizing characters included in an image represented by image data and a recognized character in a data processing apparatus that performs processing for generating a data name of image data. A phrase extracting unit that extracts a phrase representing the content of the document from the document, and a unit that generates a data name including the extracted phrase as the data name of the image data.
本発明に係るデータ処理装置は、文書の内容を表す語句が文書中で配置されている位置を示す位置条件を記憶する手段を更に備え、前記語句抽出手段は、画像データにより表現される画像から、他の文字から離隔した文字列が含まれる領域を抽出する手段と、抽出した前記領域の前記画像内における位置が、記憶してある前記位置条件に該当するか否かを判定する手段と、前記領域の位置が前記位置条件に該当する場合に、前記領域に含まれる文字列が意味する語句を抽出する手段とを有することを特徴とする。 The data processing apparatus according to the present invention further comprises means for storing a position condition indicating a position where a word representing the content of the document is arranged in the document, and the word extracting means is based on an image represented by image data. Means for extracting a region including a character string separated from other characters; means for determining whether or not the position of the extracted region in the image satisfies the stored position condition; Means for extracting a word or phrase meaning a character string included in the area when the position of the area satisfies the position condition.
本発明に係るデータ処理装置は、文書の内容を表す語句に付随して文書中に含まれるキーワード、及び文書中における前記キーワードに対する前記語句の相対位置を記憶する手段と、一又は複数の形態素からなる文字列が名詞句であるための形態素の種類及び順番の条件を定めた文字列条件を記憶する手段とを更に備え、前記語句抽出手段は、画像データから得られた文書の形態素解析を行う手段と、形態素解析を行った前記文書中から、記憶してある前記キーワードを特定する手段と、特定した前記キーワードについて記憶してある相対位置に前記文書中で配置されている文字列を抽出する手段と、抽出した文字列が、記憶してある前記文字列条件に該当するか否かを判定する手段と、抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出する手段とを有することを特徴とする。 A data processing apparatus according to the present invention includes: a keyword that is included in a document accompanying a phrase that represents the content of the document; a unit that stores a relative position of the phrase with respect to the keyword in the document; and one or a plurality of morphemes Means for storing a character string condition that defines a morpheme type and order condition for a character string to be a noun phrase, and the phrase extraction means performs a morphological analysis of a document obtained from image data Means for identifying the stored keyword from the document subjected to morphological analysis, and extracting a character string arranged in the document at a relative position stored for the identified keyword Means for determining whether or not the extracted character string satisfies the stored character string condition, and when the extracted character string satisfies the character string condition, And having a means for extracting phrases that serial string means.
本発明に係るデータ処理装置は、一又は複数の形態素からなる文字列が名詞句であるための形態素の種類及び順番の条件を定めた文字列条件を記憶する手段を更に備え、前記語句抽出手段は、画像データから得られた文書の形態素解析を行う手段と、形態素解析を行った前記文書に含まれる各形態素の前記文書中での使用頻度を求める手段と、求めた使用頻度が低い順に形態素を選択する手段と、選択した形態素を含んだ文字列を前記文書中から抽出する手段と、抽出した文字列が、記憶してある前記文字列条件に該当するか否かを判定する手段と、抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出する手段とを有することを特徴とする。 The data processing apparatus according to the present invention further comprises means for storing a character string condition that defines a morpheme type and order condition for a character string composed of one or a plurality of morphemes to be a noun phrase, and the phrase extracting means Means for performing morphological analysis of a document obtained from image data, means for determining the frequency of use of each morpheme included in the document subjected to morphological analysis in the document, and morpheme in ascending order of the determined usage frequency. Means for extracting a character string including the selected morpheme from the document, means for determining whether or not the extracted character string satisfies the stored character string condition, And means for extracting a word or phrase that means the character string when the extracted character string meets the character string condition.
本発明に係るデータ処理装置は、文書の内容を表す語句が文書中で配置されている位置を示す位置条件を記憶する手段と、文書の内容を表す語句に付随して文書中に含まれるキーワード、及び文書中における前記キーワードに対する前記語句の相対位置を記憶する手段と、一又は複数の形態素からなる文字列が名詞句であるための形態素の種類及び順番の条件を定めた文字列条件を記憶する手段とを更に備え、前記語句抽出手段は、画像データにより表現される画像から、他の文字から離隔した文字列が含まれる領域を抽出する手段と、抽出した前記領域の前記画像内における位置が、記憶してある前記位置条件に該当するか否かを判定する手段と、前記領域の位置が前記位置条件に該当する場合に、前記領域に含まれる文字列が意味する語句を抽出する手段と、前記領域の位置が前記位置条件に該当しない場合に、前記画像データから得られた文書の形態素解析を行う手段と、形態素解析を行った前記文書中から、記憶してある前記キーワードを特定する手段と、前記キーワードが特定できた場合に、特定した前記キーワードについて記憶してある相対位置に前記文書中で配置されている文字列を抽出する手段と、抽出した文字列が、記憶してある前記文字列条件に該当するか否かを判定する手段と、抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出する手段と、前記文書中から前記キーワードが特定できない場合、又は抽出した文字列が前記文字列条件に該当しない場合に、形態素解析を行った前記文書に含まれる各形態素の前記文書中での使用頻度を求める手段と、求めた使用頻度が低い順に形態素を選択する手段と、選択した形態素を含んだ文字列を前記文書中から抽出する手段と、抽出した文字列が前記文字列条件に該当するか否かを判定する手段と、抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出する手段とを有することを特徴とする。 The data processing apparatus according to the present invention includes means for storing a position condition indicating a position where a word representing the document content is arranged in the document, and a keyword included in the document accompanying the word representing the document content. , And means for storing the relative position of the phrase with respect to the keyword in the document, and storing a character string condition that defines the morpheme type and order conditions for a character string consisting of one or more morphemes to be a noun phrase Means for extracting a region including a character string separated from other characters from an image represented by image data, and a position of the extracted region in the image. Means for determining whether or not the stored position condition is satisfied, and a word meaning the character string included in the area when the position of the area corresponds to the position condition And means for extracting a morphological analysis of a document obtained from the image data when the position of the region does not satisfy the position condition, and storing the morphological analysis from the document. Means for specifying the keyword; means for extracting a character string arranged in the document at a relative position stored for the specified keyword when the keyword can be specified; and an extracted character string. Means for determining whether or not the stored character string condition is met, means for extracting a word or phrase that the character string means when the extracted character string meets the character string condition, In the document of each morpheme included in the document subjected to morphological analysis when the keyword cannot be specified from the document, or when the extracted character string does not meet the character string condition Means for obtaining usage frequency, means for selecting morphemes in ascending order of usage frequency obtained, means for extracting a character string including the selected morpheme from the document, and the extracted character string corresponds to the character string condition Means for determining whether or not to perform, and means for extracting a phrase that the character string means when the extracted character string meets the character string condition.
本発明に係るデータ名生成方法は、画像データのデータ名を生成するデータ名生成方法において、画像データにより表現される画像に含まれる文字を認識し、認識した文字で構成される文書中から、文書の内容を表す語句を抽出し、抽出した語句を含んだデータ名を生成することを特徴とする。 A data name generation method according to the present invention is a data name generation method for generating a data name of image data. It is characterized in that a phrase representing the content of the document is extracted and a data name including the extracted phrase is generated.
本発明に係るコンピュータプログラムは、コンピュータに、画像データのデータ名を生成する処理を実行させるためのコンピュータプログラムにおいて、コンピュータに、画像データにより表現される画像に含まれる文字の認識を行わせる手順と、コンピュータに、認識した文字で構成される文書中から、文書の内容を表す語句を抽出させる手順と、コンピュータに、前記画像データのデータ名として、抽出した語句を含んだデータ名を生成させる手順とを含むことを特徴とする。 A computer program according to the present invention is a computer program for causing a computer to execute a process of generating a data name of image data, and a procedure for causing a computer to recognize characters included in an image represented by image data. A procedure for causing a computer to extract a word representing the content of a document from a document composed of recognized characters, and a procedure for causing the computer to generate a data name including the extracted word as a data name of the image data It is characterized by including.
本発明においては、データ処理装置は、画像データにより表現される画像に含まれる文字で構成される文書中から、文書の内容を表した語句を抽出し、抽出した語句を含むデータ名を生成する。これにより、画像データには、文書の内容に応じたデータ名が付与される。 In the present invention, the data processing apparatus extracts a word representing the content of the document from a document composed of characters included in the image represented by the image data, and generates a data name including the extracted word. . As a result, a data name corresponding to the content of the document is given to the image data.
また本発明においては、データ処理装置は、文字列を含む領域の画像中での位置が、タイトル等の文書の内容を表す語句が文書中で配置されている位置を示す位置条件に該当するか否かを判定し、位置条件に該当する領域に含まれる文字列が意味する語句を抽出することにより、文書の内容を表した語句を抽出する。 Also, in the present invention, the data processing apparatus determines whether the position in the image including the character string corresponds to a position condition indicating a position where a word or phrase representing the content of the document such as a title is arranged in the document. The word representing the content of the document is extracted by determining whether or not, and extracting the word / phrase indicated by the character string included in the area corresponding to the position condition.
また本発明においては、データ処理装置は、文書の形態素解析を行い、文書の内容を表す語句に付随するキーワードを文書中で特定し、特定したキーワードに連接した文字列を抽出し、名詞句として認識できる文字列に含まれる形態素の種類及び順番の条件を定めた文字列条件に、抽出した文字列が該当するか否かを判定し、文字列条件に該当する文字列が意味する語句を抽出することにより、文書の内容を表した語句を抽出する。 In the present invention, the data processing apparatus performs morphological analysis of the document, specifies a keyword associated with a word representing the content of the document in the document, extracts a character string connected to the specified keyword, and uses it as a noun phrase. Judges whether or not the extracted character string meets the character string condition that defines the type and order of morphemes contained in the recognizable character string, and extracts the words and phrases that the character string corresponding to the character string condition means As a result, a word representing the contents of the document is extracted.
また本発明においては、データ処理装置は、文書の形態素解析を行い、文書中での各形態素の使用頻度を求め、使用頻度の低い形態素を含む文字列を抽出し、抽出した文字列が文字列条件に該当するか否かを判定し、文字列条件に該当する文字列が意味する語句を抽出することにより、文書の内容を表した語句を抽出する。 In the present invention, the data processing apparatus performs morphological analysis of the document, obtains the frequency of use of each morpheme in the document, extracts a character string including a morpheme having a low usage frequency, and the extracted character string is a character string. It is determined whether or not the condition is satisfied, and a phrase representing the contents of the document is extracted by extracting a phrase that the character string corresponding to the character string condition means.
また本発明においては、データ処理装置は、文字列を含む領域の画像中での位置が位置条件に該当する場合に、文字列が意味する語句を抽出し、前記位置が位置条件に該当しない場合に、文書の形態素解析を行い、文書中のキーワードに連接した文字列が文字列条件に該当する場合に、文字列が意味する語句を抽出し、キーワードがない場合又は文字列が文字列条件に該当しない場合に、文書中での各形態素の使用頻度を求め、使用頻度が低い形態素を含む文字列が文字列条件に該当する場合に、文字列が意味する語句を抽出することにより、文書の内容を表した語句を抽出する。 In the present invention, the data processing device extracts a word or phrase meaning a character string when the position in the image of the region including the character string corresponds to the position condition, and the position does not correspond to the position condition. In addition, when the morphological analysis of the document is performed and the character string connected to the keyword in the document meets the character string condition, the phrase that the character string means is extracted, and when there is no keyword or the character string becomes the character string condition When not applicable, the frequency of use of each morpheme in the document is obtained, and when a character string including a morpheme with a low use frequency meets the character string condition, the word meaning of the character string is extracted. Extract words that represent content.
本発明にあっては、文書原稿の読取により生成した画像データから、文書の内容に応じたデータ名が生成され、生成したデータ名が画像データに付与されるので、以後に画像データを使用する際には、画像データから再生できる文書の内容をデータ名から推測し易くなり、使用者は用途に応じた適切な文書を容易に選択することが可能となる等、本発明は優れた効果を奏する。 In the present invention, a data name corresponding to the content of the document is generated from the image data generated by reading the document original, and the generated data name is given to the image data, so that the image data is used thereafter. In this case, it is easy to infer the contents of the document that can be reproduced from the image data from the data name, and the user can easily select an appropriate document according to the application. Play.
以下本発明をその実施の形態を示す図面に基づき具体的に説明する。
(実施の形態1)
図1は、実施の形態1に係る本発明のデータ処理装置の内部の機能構成を示すブロック図である。データ処理装置1は、演算を行うCPU、データ処理装置1の動作に必要な制御プログラムを記憶するROM、及び演算に伴う一時的なデータを記憶するRAM等からなる制御部11を備えている。制御部11には、データ名生成の処理を行うために必要なデータを記憶するROM12と、ハードディスク又は不揮発性のメモリ等で構成された不揮発性の記憶部13とが接続されている。ROM12は、後述する位置条件テーブル121、キーワードテーブル122、及び形態素連接テーブル123を記憶している。なお、ROM12はデータ処理装置1の動作に必要な制御プログラムを記憶している形態であってもよく、またROM12は制御部11の内部に組み込まれた形態であってもよい。記憶部13は、データ名生成の処理によって生成されたデータ名が付与された画像データを記憶する。
Hereinafter, the present invention will be specifically described with reference to the drawings showing embodiments thereof.
(Embodiment 1)
FIG. 1 is a block diagram showing an internal functional configuration of the data processing apparatus according to the first embodiment of the present invention. The
制御部11には、文書原稿に記録された画像を光学的に読み取って画像データを生成する画像読取部14、画像読取部14が生成した画像データを一時的に記憶する画像メモリ15、及び記録用紙等の記録担体上に画像データに基づいた画像を形成する画像形成部16が接続されている。また制御部11には、画像読取開始の指示等の各種の指示を使用者の操作によって受け付ける操作部17、及び各種のデータを外部との間で送受信する通信部18が接続されている。操作部17は、情報を表示するための液晶パネル等の表示部と、使用者の操作を受け付けるテンキー等の受付部とから構成されている。データ処理装置1は、スキャナ装置として機能し、画像読取部14で生成した画像データを記憶部13で記憶する処理を行う。またデータ処理装置1は、画像データの記憶装置として機能し、記憶部13に記憶した画像データを読み出し、読み出した画像データに基づいて画像形成部16で画像を形成する処理、又は読み出した画像データを通信部18から外部へ送信する処理を行うことができる。
The
ROM12が記憶するデータは、画像データにより表現される画像に記録された文書の内容を表す語句を抽出するために必要なデータである。位置条件テーブル121は、文書中に含まれる文字列の内、データ名に使用するために文書の内容を表した語句として抽出するべき特定の文字列の条件を記録したものであり、条件として、抽出するべき文字列の文書中における位置の条件を記録している。図2は、位置条件テーブル121の内容例を示す概念図である。位置条件テーブル121は、論文、手紙、報告書、又は申請書等の定型文書において、文書のタイトル等の文書の内容の趣旨を表した語句が文書中で配置される位置を示す位置条件を複数個記録している。複数の位置条件の夫々には優先度の順に連番が付せられている。位置条件の優先度は、位置条件が示す位置に配置される文字列が文書の内容の趣旨を表した語句である確率の大きさに応じて定められている。各位置条件は、図2に示すように、文書が記録された一枚の画像上における文字列の縦軸方向の位置及び横軸方向の位置を指定している。
The data stored in the
図2に示す例では、画像上の縦軸方向の位置として上部を指定し、横軸方向の位置としてセンターを指定した位置条件が連番1に関連付けられている。この位置条件は、文書中で上よりの位置に文書のタイトルがセンタリングして記載されることが多いことを根拠として、文書のタイトルを、文書の内容の趣旨を表した語句として抽出することを意図したものである。また、縦軸方向の位置として最上段を指定し、横軸方向の位置として左を指定した位置条件が連番2に関連付けられている。この位置条件は、手紙等のレターにおいて、最上段左側の位置にレターの宛名が記載されることが多いことを根拠として、レターの宛名を、文書の内容の趣旨を表した語句として抽出することを意図したものである。ROM12が記憶する位置条件テーブル121に記録された各位置条件では、縦軸方向及び横軸方向の位置を座標で指定してある。例えば、縦軸方向の上部を指定する座標として、絶対座標又は相対座標で、一枚の画像の上半分の範囲を示す座標が記録されている。また例えば、横軸方向のセンターを指定する座標として、横方向の中央を中心とした左右対称の範囲を示す座標が記録されている。最上段又は左等のその他の位置についても、同様に絶対座標又は相対座標で位置を示す座標が記録されている。
In the example shown in FIG. 2, a position condition in which the upper part is designated as the position in the vertical axis direction on the image and the center is designated as the position in the horizontal axis direction is associated with
キーワードテーブル122は、文書の内容を表した語句に付随して文書中に記載されることがあるキーワードを記録している。図3は、キーワードテーブル122の内容例を示す概念図である。図3中の/は形態素の区切りを示している。形態素とは、言語学において意味を持つ最小の単位を指し、自然言語中でそれ以上分解したら意味をなさなくなるところまで分割した音素である。キーワードテーブル122は、単一の形態素又は複数の形態素でなるキーワードを複数個記録してある。複数のキーワードの夫々には、優先度の順に連番が付せられており、更に、文書の内容を表した語句として抽出するべき文字列がキーワードの前又は後のいずれの位置に連接するのかを示す文字列連接位置が関連付けられている。キーワードの優先度は、位置条件が示す位置に配置される文字列が文書の内容の趣旨を表した語句である確率の大きさに応じて定められている。 The keyword table 122 records keywords that may be described in the document in association with a word representing the content of the document. FIG. 3 is a conceptual diagram showing an example of the contents of the keyword table 122. In FIG. 3, / indicates a morpheme break. A morpheme is the smallest unit that has meaning in linguistics, and is a phoneme that has been divided to the point where it becomes meaningless if it is further decomposed in natural language. The keyword table 122 records a plurality of keywords composed of a single morpheme or a plurality of morphemes. Each of the keywords is numbered sequentially in order of priority, and whether the character string to be extracted as a word representing the content of the document is linked to the position before or after the keyword. The character string concatenation position indicating is associated. The priority of the keyword is determined according to the probability that the character string placed at the position indicated by the position condition is a word representing the purpose of the contents of the document.
図3に示す例では、連番1にキーワード「が関連付けられ、連番2にキーワード『が関連付けられ、共に文字列連接位置として後が関連付けられている。これは、文書のタイトル等の文書の内容の趣旨を表した語句が鉤括弧で囲われることがあることを根拠とし、鉤括弧で囲われた語句を抽出することを意図したものである。また連番2にキーワード「の/件」が関連付けられ、文字列連接位置として前が関連付けられている。文書の内容を説明した語句が文書中でキーワード「の/件」の直前の位置に記載されることがあることを根拠とし、文書の内容を説明した語句を抽出することを意図したものである。
In the example shown in FIG. 3, the keyword “is associated with the
形態素連接テーブル123は、文字列が、文書の内容を表した語句として抽出することができるような名詞句であるための、文字列の構成の条件を記録したものである。図4は、形態素連接テーブル123の内容例を示す概念図である。形態素連接テーブル123は、一又は複数の形態素からなる名詞句が、どの種類の形態素がどのような順番で連接した構造を有するものであるのかを定めた形態素連接条件を複数個記録してある。文字列に含まれる形態素の種類及び順番が形態素連接条件を満たしている場合は、文字列は名詞句であると判定することができる。文字列が名詞句である場合は、文字列が意味する語句は画像データのデータ名として利用するのに有用であり、逆に、名詞句ではない文字列はデータ名には不適当である。形態素連接テーブル123が記録する複数の形態素連接条件の夫々には、優先度の順に連番が付せられている。形態素連接条件の優先度は、文書の内容を表した名詞句が形態素連接条件に該当する構成をとる頻度の大きさに応じて定められている。形態素連接条件は本発明における文字列条件に対応する。 The morpheme concatenation table 123 records the conditions of the character string configuration because the character string is a noun phrase that can be extracted as a word representing the content of the document. FIG. 4 is a conceptual diagram showing an example of the contents of the morpheme connection table 123. The morpheme concatenation table 123 records a plurality of morpheme concatenation conditions that define what kind of morpheme has a structure in which the noun phrase composed of one or a plurality of morphemes is concatenated in what order. When the type and order of the morphemes included in the character string satisfy the morpheme concatenation condition, it can be determined that the character string is a noun phrase. When the character string is a noun phrase, the phrase that the character string means is useful for use as the data name of the image data. Conversely, a character string that is not a noun phrase is inappropriate for the data name. Each of the plurality of morpheme connection conditions recorded in the morpheme connection table 123 is assigned a serial number in order of priority. The priority of the morpheme concatenation condition is determined according to the frequency with which the noun phrase representing the content of the document takes a configuration corresponding to the morpheme concatenation condition. The morpheme concatenation condition corresponds to the character string condition in the present invention.
図4に示す例では、カタカナで表記される複数の形態素が連続した構成でなる文字列がキーワードに連接していることを条件とする形態素連接条件が連番1に関連付けられている。この形態素連接条件は、文書の内容を表すような多くの語句が、カタカナで表記される複数の形態素が連続した構成となっていることを根拠としている。また図4に示す例では、品詞が名詞である複数の形態素が連続した後で格助詞の形態素が続き更に複数の名詞の形態素が連続した構成でなる文字列がキーワードに連接していることを条件とする形態素連接条件が、連番2に関連付けられている。また複数の名詞が連続した後で格助詞が続き更に一つの名詞が続いた構成でなる文字列がキーワードに連接していることを条件とする形態素連接条件が連番3に関連付けられている。これらの形態素連接条件は、文書の内容を表すような多くの語句が、名詞が連続した後で格助詞を挟んで名詞が続くような構成となっていることを根拠としている。
In the example shown in FIG. 4, a morpheme concatenation condition that is a condition that a character string composed of a plurality of consecutive morphemes expressed in katakana is connected to a keyword is associated with
次に、以上の構成でなる本発明のデータ処理装置1が実行する本発明のデータ名生成方法を説明する。データ処理装置1は、本発明のデータ名生成方法により、画像を読み取る際に文書の内容に応じたデータ名を生成する処理と、文書の内容に応じたデータ名の生成を行わない処理との何れかの処理を実行する。データ処理装置1は、使用者が操作部17を操作することにより、文書の内容に応じたデータ名を生成するデータ名生成モードの設定の指示を受け付けることが可能であり、制御部11は、指示に応じた情報を記憶することにより、データ名生成モードの設定を行う。
Next, the data name generation method of the present invention executed by the
図5及び図6は、実施の形態1に係るデータ処理装置1が実行する処理の手順を示すフローチャートである。データ処理装置1は、画像読取部14で、文書原稿に記録された画像を光学的に読み取ることによって画像データを生成する(S1)。画像読取部14が生成した画像データは一旦画像メモリ15が記憶する。制御部11は、次に、データ名生成モードが設定されているか否かを判定する(S2)。データ名生成モードが設定されていない場合は(S2:NO)、制御部11は、現在の日時等に基づいて形式的にユニークなデータ名を生成する(S3)。ステップS3では、日時をデータ名とする処理、現在の年月日、時刻及び画像データの拡張子を列記したデータ名を生成する処理、又は画像データを生成した順にデータ名として連番を付す処理等、画像データの内容とは無関係にユニークなデータ名を生成する。ステップS3が終了した後は、制御部11は、後述するステップS12へ処理を進める。
5 and 6 are flowcharts showing a procedure of processing executed by the
ステップS3でデータ名生成モードが設定されている場合は(S2:YES)、制御部11は、画像データにより表現される画像から、文字列が記録されたテキストオブジェクトを認識する処理を行う(S4)。ステップS4では、制御部11は、既存の文字認識技術を用い、画像中で文字列が認識できた領域をテキストオブジェクトであると認識する。またステップS4では、制御部11は、他の文字から所定の距離以上離隔している文字列を含む領域を一つのテキストオブジェクトであると認識することにより、画像データにより表現される画像中から、一又は複数のテキストオブジェクトを認識する。なお、制御部11は、文字列一行単位又は一文単位でテキストオブジェクトを認識する処理を行ってもよい。制御部11は、次に、ステップS4で画像からテキストオブジェクトを認識できたか否かを判定する(S5)。テキストオブジェクトを認識できなかった場合は(S5:NO)、制御部11は、処理をステップS3へ進める。
When the data name generation mode is set in step S3 (S2: YES), the
ステップS5でテキストオブジェクトを認識できたと判定した場合は(S5:YES)、制御部11は、画像中の予め定められている所定範囲内にテキストオブジェクトが含まれているか否かを判定する(S6)。所定範囲としては、例えば、文書原稿の1ページ目に対応する画像中の上半分とする。これは、文書の1ページ目の上半分に、文書のタイトル又は宛名等の文書の内容の趣旨を表した語句が記載されていることが多いことに基づいている。またこの画像中の所定範囲は、ROM12が記憶する位置条件テーブル121の記録内容と対応した範囲である必要がある。即ち、所定範囲として、位置条件テーブル121に記録された位置条件が示す位置に文書の内容の趣旨を表した語句が記載されることが多い範囲を定めておく必要がある。制御部11は、所定範囲を設定した情報を予め記憶している。なお、所定範囲を示す情報は位置条件テーブル121に記録されており、ステップS6で制御部11が位置条件テーブル121から必要な情報を読み出す形態であってもよい。また、この画像中の所定範囲としては、文書原稿の最終ページに対応する画像の全体とする等、その他の範囲を設定してもよく、その場合は、位置条件テーブル121の内容を設定した範囲に応じた内容としておく必要がある。
If it is determined in step S5 that the text object has been recognized (S5: YES), the
ステップS6で所定範囲内にテキストオブジェクトがある場合は(S6:YES)、制御部11は、画像中の所定範囲内にある一又は複数のテキストオブジェクトを抽出する(S7)。ステップS7では、制御部11は、各テキストオブジェクトを抽出すると共に、画像中でのテキストオブジェクトの位置を座標で示す位置情報を生成し、テキストオブジェクトに位置情報を付加してバッファメモリに記憶する。制御部11は、次に、抽出したテキストオブジェクトが位置条件テーブル121に記録された位置条件に該当するか否かを判定する位置条件判定処理を行う(S8)。
If there is a text object in the predetermined range in step S6 (S6: YES), the
図7は、位置条件判定処理のサブルーチンの処理手順を示すフローチャートである。制御部11は、ROM12から位置条件テーブル121を読み出し(S81)、抽出してバッファメモリに記憶したテキストオブジェクトの中から、第1のテキストオブジェクトを選択する(S82)。テキストオブジェクトは、画像中に占める面積が大きい順、又は画像中でより上側に位置する順等、文書の内容の趣旨を表した語句を意味する文字列がテキストオブジェクトに含まれる可能性が高い順に選択される。制御部11は、位置条件テーブル121に記録された位置条件を、テキストオブジェクトの画像中での位置情報と優先度の順に照合する(S83)。ステップS83では、制御部11は、選択したテキストオブジェクトの位置情報と位置条件テーブル121に記録された各位置条件が示す縦軸方向の位置及び横軸方向の位置とを連番の順に比較することにより、照合を行う。制御部11は、照合の結果、選択したテキストオブジェクトの位置が、優先度の順に照合した何れかの位置条件に該当したか否かを判定する(S84)。テキストオブジェクトの位置が何れかの位置条件に該当した場合は(S84:YES)、制御部11は、位置条件に該当するテキストオブジェクトを特定のバッファメモリに記憶することにより、テキストオブジェクトを抽出し(S85)、処理をメインの処理へ戻す。
FIG. 7 is a flowchart showing a processing procedure of a subroutine of position condition determination processing. The
ステップS84で選択したテキストオブジェクトの位置が何れの位置条件にも該当しない場合は(S84:NO)、制御部11は、まだ位置条件の判定を行っていない次のテキストオブジェクトがあるか否かを判定する(S86)。まだ位置条件の判定を行っていない次のテキストオブジェクトがある場合は(S86:YES)、制御部11は、次のテキストオブジェクトを選択し(S87)、処理をステップS83へ戻す。ステップS86でまだ位置条件の判定を行っていない次のテキストオブジェクトがない場合は(S86:NO)、制御部11は、テキストオブジェクトを抽出することなく、ステップ8の位置条件判定処理を終了し、処理をメインの処理へ戻す。
When the position of the text object selected in step S84 does not correspond to any position condition (S84: NO), the
制御部11は、次に、ステップS8の位置条件判定処理により位置条件に該当するテキストオブジェクトが抽出できたか否かを判定する(S9)。位置条件に該当するテキストオブジェクトが抽出できた場合は(S9:YES)、制御部11は、抽出したテキストオブジェクトに対する文字認識を行うことにより、抽出したテキストオブジェクトに含まれる文字列を認識する処理を行う(S10)。制御部11は、次に、認識した文字列が意味する語句に、画像データに関するユニークな情報を付加して、画像データのデータ名を生成する(S11)。画像データに関するユニークな情報とは、現在の年月日、日時、画像データの拡張子、又は画像データを生成した順に付した連番等、形式的に得られた、画像データの内容とは無関係でユニークな情報である。ステップS11により、文書の内容の趣旨を表した語句を含むデータ名が生成される。また形式的に得られたユニークな情報をデータ名に含ませることにより、画像データのデータ名が重複することを防止し、また画像データの形式的な整理又は検索にデータ名を利用することが可能となる。ステップS3又はS11データ名を生成した後、制御部11は、画像メモリ15に記憶する画像データに、生成したデータ名を付し、データ名を付した画像データを記憶部13に記憶させ(S12)、処理を終了する。
Next, the
ステップS6で画像中の予め定められている所定範囲内にテキストオブジェクトが含まれていない場合(S6:NO)、又はステップS9で位置条件に該当するテキストオブジェクトが抽出できなかった場合は(S9:NO)、制御部11は、画像全体に含まれる文字を認識する処理を行う(S13)。ステップS13では、文字の量が膨大になる可能性があるが、制御部11は、認識した文字の量が予め設定してある設定量を超えた場合に、画像中で文字を認識する範囲を限定する処理を行ってもよい。ステップS13で認識した文字はメモリに記憶される。制御部11は、次に、文字認識により認識された文字で構成される文書の形態素解析を行う(S14)。ステップS14では、制御部11は、予め内部又はROM12に記憶してある形態素のデータベースを用いて、文書を個々の形態素に分割し、各形態素の品詞を判別する処理を行う。各形態素は一文字又は文字列でなる。制御部11は、形態素解析により、各形態素について、形態素の内容、形態素の標準形、品詞、及び活用情報等の形態素情報を取得し、取得した形態素情報を、文書中に形態素が登場する順番に連番を付してバッファメモリに記憶する。
If the text object is not included in the predetermined range in the image in step S6 (S6: NO), or if the text object corresponding to the position condition cannot be extracted in step S9 (S9: NO), the
制御部11は、次に、形態素解析を行った文書中から、キーワードテーブル122に記録したキーワードに連接した文字列を抽出するキーワード連接文字列抽出処理を行う(S15)。図8は、キーワード連接文字列抽出処理のサブルーチンの処理手順を示すフローチャートである。制御部11は、ROM12からキーワードテーブル122を読み出し(S151)、キーワードテーブル122に記録されたキーワードを、優先度の順に文書中から検索する(S152)。ステップS152では、制御部11は、優先度の順にキーワードを選択し、文書の先頭から選択したキーワードの検索を行い、キーワードが見つからなかった場合は優先度で次のキーワードを選択し、キーワードの検索を繰り返す処理を行う。検索の結果、ステップS152で文書中からキーワードを発見した場合は(S153:YES)、制御部11は、文書中から、キーワードテーブル122で発見したキーワードに関連付けられている連接位置にある最大N個の形態素からなる文字列を抽出し、抽出した文字列を構成する各形態素の形態素情報を抽出する(S154)。
Next, the
ここで、Nは、名詞句として認識できる文字列に含まれる形態素の最大数であり、ROM12が記憶する形態素連接テーブル123に記録された形態素連接条件で構造を定められた文字列に含まれる形態素数以上の数である。制御部11は、Nの値を予め記憶している。なお、Nの値は形態素連接テーブル123に記録されており、ステップS154で制御部11が形態素連接テーブル123からNの値を読み出す形態であってもよい。また、キーワードに連接する文字列の中に句読点が含まれている場合、句読点を含んだ語句は、データ名に用いるべき文書の内容を表した語句としては適切ではないので、句読点を含まない連続した形態素がキーワードに連接した文字列を抽出する。この場合は、ステップS154で抽出される文字列は、Nより小さい数の形態素でなる。制御部11は、抽出した文字列及び形態素情報をバッファメモリに記憶し、処理をメインの処理へ戻す。ステップS153で、キーワードを発見できなかった場合は(S153:NO)、制御部11は、文字列及び形態素情報を抽出することなく、処理をメインの処理へ戻す。
Here, N is the maximum number of morphemes included in the character string that can be recognized as a noun phrase, and the morpheme included in the character string whose structure is defined by the morpheme concatenation condition recorded in the morpheme concatenation table 123 stored in the
制御部11は、次に、ステップS15のキーワード連接文字列抽出処理により、キーワードに連接する文字列が抽出できたか否かを判定する(S16)。キーワードに連接する文字列が抽出できた場合は(S16:YES)、制御部11は、抽出した文字列が形態素連接テーブル123に記録された形態素連接条件に該当するか否かを判定する文字列判定処理を行う(S17)。
Next, the
図9は、文字列判定処理のサブルーチンの処理手順を示すフローチャートである。制御部11は、ROM12から形態素連接テーブル123を読み出し(S171)、形態素連接テーブル123に記録された形態素連接条件を、ステップS15で抽出した文字列と優先度の順に照合する(S172)。ステップS172では、制御部11は、抽出した文字列を構成する各形態素の形態素情報と形態素連接テーブル123に記録された各形態素連接条件とを連番の順に比較することにより、照合を行う。照合時には、最大N個の形態素からなる文字列の内、キーワードに連接している部分に含まれる形態素の種類及び順番が、形態素連接条件で定めてある形態素の種類及び順番に該当するか否かを判定する。制御部11は、照合の結果、抽出した文字列が、優先度の順に照合した何れかの形態素連接条件に該当したか否かを判定する(S173)。文字列が何れかの形態素連接条件に該当した場合は(S173:YES)、制御部11は、文字列を特定のバッファメモリに記憶することにより、形態素連接条件に該当する文字列として文字列を抽出し(S174)、処理をメインの処理へ戻す。文字列が形態素連接条件に該当する場合、文字列は名詞句である。ステップS173で、文字列が何れかの形態素連接条件にも該当しなかった場合は(S173:NO)、制御部11は、文字列を抽出することなく、処理をメインの処理へ戻す。
FIG. 9 is a flowchart showing a processing procedure of a subroutine for character string determination processing. The
制御部11は、次に、ステップS17の文字列判定処理により、形態素連接条件に該当する文字列が抽出できたか否かを判定する(S18)。形態素連接条件に該当する文字列が抽出できた場合は(S18:YES)、制御部11は、処理をステップS11へ進め、ステップS11及びS12の処理を行う。以上のステップS13以降の処理により、キーワードに連接する名詞句である文字列が、文書の内容の趣旨を表した語句を意味する文字列として文書から抽出され、抽出した文字列に基づき、文書の内容の趣旨を表した語句を含むデータ名が生成される。
Next, the
ステップS16でキーワードに連接する文字列が抽出できなかった場合(S16:NO)、又はステップS18で形態素連接条件に該当する文字列が抽出できなかった場合は(S18:NO)、制御部11は、形態素解析を行った文書中に含まれる各形態素の使用頻度を解析する(S19)。ステップS19では、制御部11は、各形態素について文書中における使用回数を数えることにより、各形態素の使用頻度を求める。制御部11は、次に、文書中に含まれる形態素の内で使用頻度が最低頻度である形態素を選択し(S20)、選択した形態素を含んだ最大N個の形態素からなる文字列を抽出する(S21)。ステップS21では、選択した形態素と該形態素の前後に連接する形態素とからなる文字列から、選択した形態素を含んで句読点を含まない連続した最大N個の形態素でなる文字列を抽出する。制御部11は、抽出した文字列を構成する各形態素の形態素情報を抽出し、抽出した文字列及び形態素情報をバッファメモリに記憶する。文書中で使用される形態素の内、文書中で使用頻度の低い形態素の方が文書の特徴を表している傾向があるので、使用頻度の低い形態素を含む文字列を抽出することにより、文書の内容の趣旨を表した語句の抽出を試みることができる。
If the character string connected to the keyword cannot be extracted in step S16 (S16: NO), or if the character string corresponding to the morpheme concatenation condition cannot be extracted in step S18 (S18: NO), the
制御部11は、次に、ステップS21で抽出した文字列について、文字列判定処理を行う(S22)。ステップS22の文字列判定処理の処理内容は、ステップS17の文字列判定処理と同様であり、制御部11は、使用頻度の低い形態素を含む連続した形態素の種類及び順番が、形態素連接条件で定めてある形態素の種類及び順番に該当するか否かを判定する。制御部11は、次に、ステップS22の文字列判定処理により、形態素連接条件に該当する文字列が抽出できたか否かを判定する(S23)。形態素連接条件に該当する文字列が抽出できた場合は(S23:YES)、制御部11は、処理をステップS11へ進め、ステップS11及びS12の処理を行う。以上のステップS19以降の処理により、使用頻度の低い形態素を含む名詞句である文字列が、文書の内容の趣旨を表した語句を意味する文字列として文書から抽出され、抽出した文字列に基づき、文書の内容の趣旨を表した語句を含むデータ名が生成される。
Next, the
ステップS23で形態素連接条件に該当する文字列が抽出できなかった場合は(S23:NO)、制御部11は、形態素解析を行った文書中に含まれる形態素の内、次に使用頻度が低い形態素を選択し(S24)、処理をステップS21へ戻す。ステップS21〜S24の処理を繰り返すことにより、文書中で使用頻度の低い形態素を含み、文書の内容の趣旨を表した語句を抽出することができる。
If the character string corresponding to the morpheme concatenation condition cannot be extracted in step S23 (S23: NO), the
以上詳述した如く、本実施の形態に係るデータ処理装置1は、画像データを生成し、生成した画像データにより表現される画像に含まれる文字で構成される文書中から、文書の内容の趣旨を表した語句を抽出し、抽出した語句を含むデータ名を生成する。従って、文書原稿の読取により生成した画像データは、文書の内容がどのような内容であっても、文書の内容に応じたデータ名が付与されてデータ処理装置1に記憶される。画像データのデータ名は、画一的又は形式的ではなく、文書の内容に応じたデータ名となるので、データ処理装置1に記憶された画像データを使用する際には、画像データから再生できる文書の内容をデータ名から推測し易くなり、使用者は用途に応じた適切な文書を容易に選択することが可能となる。
As described above in detail, the
なお、本実施の形態においては、文書の内容の趣旨を表した語句を抽出するために、位置条件に該当する文字列を抽出する処理、キーワードに連接する文字列を抽出する処理、及び使用頻度の低い形態素を含む文字列を抽出する処理を行う形態を示したが、本発明のデータ処理装置1は、全ての処理を実行できる形態に限るものではない。例えば、データ処理装置1は、ステップS1〜S12の処理を実行することにより、位置条件に該当する文字列を抽出することでデータ名を生成する形態であってもよい。またデータ処理装置1は、ステップS1〜S3、S13〜S18、S11及びS12の処理を実行することにより、キーワードに連接する文字列を抽出することでデータ名を生成する形態であってもよい。またデータ処理装置1は、ステップS1〜S3、S13、S14、S19〜S24、S11及びS12の処理を実行することにより、使用頻度の低い形態素を含む文字列を抽出することでデータ名を生成する形態であってもよい。
In this embodiment, in order to extract a word representing the purpose of the contents of a document, a process for extracting a character string corresponding to a position condition, a process for extracting a character string connected to a keyword, and a use frequency Although the form which performs the process which extracts the character string containing a low morpheme was shown, the
また本実施の形態においては、画像読取部14で生成した画像データに対してデータ名を生成する形態を示したが、本発明のデータ処理装置1は、ファクシミリ通信等により外部から送信された画像データを受信し、受信した画像データに対してデータ名を生成する形態であってもよい。また本実施の形態においては、データ処理装置1として、画像形成部16を備えた形態を示したが、本発明のデータ処理装置1は、画像形成部16を備えておらず、スキャナ装置として機能する形態であってもよい。また本実施の形態においては、データ名を付した画像データを記憶部13に記憶する形態を示したが、本発明のデータ処理装置1は、データ名を付した画像データを通信部18から外部へ送信し、外部の記憶装置に画像データを記憶させる形態であってもよい。また本実施の形態においては、主に情報処理を制御部11で実行する形態を示したが、データ処理装置1は、データ処理装置1に必要な情報処理の一部を夫々に実行する複数の情報処理回路を備え、各情報処理回路で情報処理を分散して実行する形態であってもよい。
In the present embodiment, the data name is generated for the image data generated by the image reading unit 14, but the
(実施の形態2)
実施の形態2では、汎用のコンピュータを用いて本発明のデータ処理装置を実現した形態を示す。図10は、実施の形態2に係る本発明のデータ処理装置2の内部構成を示すブロック図である。本実施の形態に係るデータ処理装置2は、PC又はサーバ装置等の汎用コンピュータを用いて構成されており、演算を行うCPU21と、演算に伴って発生する一時的な情報を記憶するRAM22と、光ディスク又はメモリカード等の記録媒体3から情報を読み取るCD−ROMドライブ等のドライブ部23と、ハードディスク等の記憶部24とを備えている。CPU21は、記録媒体3から本発明のコンピュータプログラム31をドライブ部23に読み取らせ、読み取ったコンピュータプログラム31を記憶部24に記憶させる。コンピュータプログラム31は必要に応じて記憶部24からRAM22へロードされ、ロードされたコンピュータプログラム31に基づいてCPU21はデータ処理装置2に必要な処理を実行する。また記録媒体3には、位置条件テーブル、キーワードテーブル及び形態素連接テーブルが記録されており、位置条件テーブル、キーワードテーブル及び形態素連接テーブルは、ドライブ部23で記録媒体3から読み取られ、記憶部24に記憶される。CPU21は、位置条件テーブル、キーワードテーブル及び形態素連接テーブルを必要に応じて記憶部24からRAM22へ読み出す処理を行う。
(Embodiment 2)
In the second embodiment, a form in which the data processing apparatus of the present invention is realized using a general-purpose computer will be described. FIG. 10 is a block diagram showing the internal configuration of the
またデータ処理装置2は、使用者が操作することによる各種の処理指示等の情報が入力されるキーボード又はポインティングデバイス等の入力部25と、各種の情報を表示する液晶ディスプレイ等の表示部26とを備えている。更にデータ処理装置2は、図示しない外部の通信ネットワークに接続可能な送信部27と、画像データを入力する外部の入力装置4に接続された受信部28とを備えている。送信部27は、ネットワークカード又はモデム等であり、入力装置4は、フラットベッドスキャナ又はフィルムスキャナ等のスキャナ装置である。入力装置4は、文書原稿に記録された画像を光学的に読み取って画像データを生成し、生成した画像データをデータ処理装置2へ送信し、受信部28は、入力装置4から送信された画像データを受信する。また送信部27は、図示しない通信ネットワークを介して、ファクシミリ又は電子メール等の通信方法により外部へデータを送信することができる。
The
CPU21は、本発明のコンピュータプログラム31をRAM22にロードし、ロードしたコンピュータプログラム31に従って、本発明のデータ名生成方法に係る処理を実行する。即ち、受信部28で入力装置4から画像データが入力された場合に、CPU21は、入力された画像データをRAM22に記憶し、コンピュータプログラム31に従って、実施の形態1で説明したステップS2〜S23の処理と同様の情報処理を実行することにより、画像データのデータ名を生成し、データ名を付した画像データを記憶部24に記憶させる処理を行う。
The
以上のように、本実施の形態においても、実施の形態1と同様に、データ処理装置2は、画像データにより表現される画像に含まれる文字で構成される文書中から、文書の内容の趣旨を表した語句を抽出し、抽出した語句を含むデータ名を生成する。なお、本発明のコンピュータプログラム31は、インターネット又はLAN等の通信ネットワークを介して図示しない外部のサーバ装置からデータ処理装置2へダウンロードされて記憶部24に記憶される形態であってもよい。
As described above, also in the present embodiment, as in the first embodiment, the
1、2 データ処理装置
11 制御部
12 ROM
121 位置条件テーブル
122 キーワードテーブル
123 形態素連接テーブル
13、24 記憶部
14 画像読取部
3 記録媒体
31 コンピュータプログラム
1, 2
121 position condition table 122 keyword table 123 morpheme concatenation table 13, 24 storage unit 14
Claims (7)
画像データにより表現される画像に含まれる文字の認識を行う手段と、
認識した文字で構成される文書中から、文書の内容を表す語句を抽出する語句抽出手段と、
前記画像データのデータ名として、抽出した語句を含んだデータ名を生成する手段と
を備えることを特徴とするデータ処理装置。 In a data processing apparatus that performs processing for generating a data name of image data,
Means for recognizing characters contained in an image represented by image data;
A phrase extracting means for extracting a phrase representing the content of the document from a document composed of recognized characters;
A data processing apparatus comprising: means for generating a data name including the extracted phrase as a data name of the image data.
前記語句抽出手段は、
画像データにより表現される画像から、他の文字から離隔した文字列が含まれる領域を抽出する手段と、
抽出した前記領域の前記画像内における位置が、記憶してある前記位置条件に該当するか否かを判定する手段と、
前記領域の位置が前記位置条件に該当する場合に、前記領域に含まれる文字列が意味する語句を抽出する手段と
を有することを特徴とする請求項1に記載のデータ処理装置。 Means for storing a position condition indicating a position where a word representing the contents of the document is arranged in the document;
The phrase extracting means is
Means for extracting a region containing a character string separated from other characters from an image represented by image data;
Means for determining whether the position of the extracted region in the image satisfies the stored position condition;
The data processing apparatus according to claim 1, further comprising: means for extracting a phrase that is meant by a character string included in the area when the position of the area satisfies the position condition.
一又は複数の形態素からなる文字列が名詞句であるための形態素の種類及び順番の条件を定めた文字列条件を記憶する手段とを更に備え、
前記語句抽出手段は、
画像データから得られた文書の形態素解析を行う手段と、
形態素解析を行った前記文書中から、記憶してある前記キーワードを特定する手段と、
特定した前記キーワードについて記憶してある相対位置に前記文書中で配置されている文字列を抽出する手段と、
抽出した文字列が、記憶してある前記文字列条件に該当するか否かを判定する手段と、
抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出する手段と
を有することを特徴とする請求項1に記載のデータ処理装置。 Means for storing a keyword included in the document accompanying a word representing the content of the document, and a relative position of the word with respect to the keyword in the document;
Means for storing a character string condition that defines a condition of the type and order of the morpheme for the character string composed of one or a plurality of morphemes to be a noun phrase;
The phrase extracting means is
Means for performing morphological analysis of a document obtained from image data;
Means for identifying the stored keyword from the document subjected to morphological analysis;
Means for extracting a character string arranged in the document at a relative position stored for the identified keyword;
Means for determining whether or not the extracted character string satisfies the stored character string condition;
The data processing apparatus according to claim 1, further comprising: a unit that extracts a phrase that the character string means when the extracted character string satisfies the character string condition.
前記語句抽出手段は、
画像データから得られた文書の形態素解析を行う手段と、
形態素解析を行った前記文書に含まれる各形態素の前記文書中での使用頻度を求める手段と、
求めた使用頻度が低い順に形態素を選択する手段と、
選択した形態素を含んだ文字列を前記文書中から抽出する手段と、
抽出した文字列が、記憶してある前記文字列条件に該当するか否かを判定する手段と、
抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出する手段と
を有することを特徴とする請求項1に記載のデータ処理装置。 Means further comprising means for storing a character string condition that defines a morpheme type and order condition for a character string composed of one or more morphemes to be a noun phrase;
The phrase extracting means is
Means for performing morphological analysis of a document obtained from image data;
Means for determining the frequency of use of each morpheme included in the document subjected to morphological analysis in the document;
Means for selecting morphemes in ascending order of use frequency obtained;
Means for extracting a character string containing the selected morpheme from the document;
Means for determining whether or not the extracted character string satisfies the stored character string condition;
The data processing apparatus according to claim 1, further comprising: a unit that extracts a phrase that the character string means when the extracted character string satisfies the character string condition.
文書の内容を表す語句に付随して文書中に含まれるキーワード、及び文書中における前記キーワードに対する前記語句の相対位置を記憶する手段と、
一又は複数の形態素からなる文字列が名詞句であるための形態素の種類及び順番の条件を定めた文字列条件を記憶する手段とを更に備え、
前記語句抽出手段は、
画像データにより表現される画像から、他の文字から離隔した文字列が含まれる領域を抽出する手段と、
抽出した前記領域の前記画像内における位置が、記憶してある前記位置条件に該当するか否かを判定する手段と、
前記領域の位置が前記位置条件に該当する場合に、前記領域に含まれる文字列が意味する語句を抽出する手段と、
前記領域の位置が前記位置条件に該当しない場合に、前記画像データから得られた文書の形態素解析を行う手段と、
形態素解析を行った前記文書中から、記憶してある前記キーワードを特定する手段と、
前記キーワードが特定できた場合に、特定した前記キーワードについて記憶してある相対位置に前記文書中で配置されている文字列を抽出する手段と、
抽出した文字列が、記憶してある前記文字列条件に該当するか否かを判定する手段と、
抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出する手段と、
前記文書中から前記キーワードが特定できない場合、又は抽出した文字列が前記文字列条件に該当しない場合に、
形態素解析を行った前記文書に含まれる各形態素の前記文書中での使用頻度を求める手段と、
求めた使用頻度が低い順に形態素を選択する手段と、
選択した形態素を含んだ文字列を前記文書中から抽出する手段と、
抽出した文字列が前記文字列条件に該当するか否かを判定する手段と、
抽出した文字列が前記文字列条件に該当する場合に、前記文字列が意味する語句を抽出する手段と
を有することを特徴とする請求項1に記載のデータ処理装置。 Means for storing a position condition indicating a position where a word representing the content of the document is arranged in the document;
Means for storing a keyword included in the document accompanying a word representing the content of the document, and a relative position of the word with respect to the keyword in the document;
Means for storing a character string condition that defines a condition of the type and order of the morpheme for the character string composed of one or a plurality of morphemes to be a noun phrase;
The phrase extracting means is
Means for extracting a region containing a character string separated from other characters from an image represented by image data;
Means for determining whether the position of the extracted region in the image satisfies the stored position condition;
Means for extracting a phrase that is meant by a character string included in the area when the position of the area satisfies the position condition;
Means for performing a morphological analysis of a document obtained from the image data when the position of the region does not satisfy the position condition;
Means for identifying the stored keyword from the document subjected to morphological analysis;
Means for extracting a character string arranged in the document at a relative position stored for the specified keyword when the keyword can be specified;
Means for determining whether or not the extracted character string satisfies the stored character string condition;
Means for extracting a phrase that the character string means when the extracted character string meets the character string condition;
When the keyword cannot be specified from the document, or when the extracted character string does not meet the character string condition,
Means for determining the frequency of use of each morpheme included in the document subjected to morphological analysis in the document;
Means for selecting morphemes in ascending order of use frequency obtained;
Means for extracting a character string containing the selected morpheme from the document;
Means for determining whether or not the extracted character string satisfies the character string condition;
The data processing apparatus according to claim 1, further comprising: a unit that extracts a phrase that the character string means when the extracted character string satisfies the character string condition.
画像データにより表現される画像に含まれる文字を認識し、
認識した文字で構成される文書中から、文書の内容を表す語句を抽出し、
抽出した語句を含んだデータ名を生成すること
を特徴とするデータ名生成方法。 In the data name generation method for generating the data name of the image data,
Recognize characters in the image represented by the image data,
Extract words that represent the content of the document from the document that consists of recognized characters,
A data name generation method characterized by generating a data name including an extracted word / phrase.
コンピュータに、画像データにより表現される画像に含まれる文字の認識を行わせる手順と、
コンピュータに、認識した文字で構成される文書中から、文書の内容を表す語句を抽出させる手順と、
コンピュータに、前記画像データのデータ名として、抽出した語句を含んだデータ名を生成させる手順と
を含むことを特徴とするコンピュータプログラム。 In a computer program for causing a computer to execute processing for generating a data name of image data,
A procedure for causing a computer to recognize characters included in an image represented by image data;
A procedure for causing a computer to extract a word representing the content of a document from a document composed of recognized characters;
A computer program comprising: causing a computer to generate a data name including an extracted word / phrase as a data name of the image data.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009213422A JP5430312B2 (en) | 2009-09-15 | 2009-09-15 | Data processing apparatus, data name generation method, and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009213422A JP5430312B2 (en) | 2009-09-15 | 2009-09-15 | Data processing apparatus, data name generation method, and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011065255A true JP2011065255A (en) | 2011-03-31 |
JP5430312B2 JP5430312B2 (en) | 2014-02-26 |
Family
ID=43951463
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009213422A Active JP5430312B2 (en) | 2009-09-15 | 2009-09-15 | Data processing apparatus, data name generation method, and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5430312B2 (en) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013157293A1 (en) | 2012-04-19 | 2013-10-24 | 日本碍子株式会社 | Film-type piezoelectric/electrostrictive element |
JP2016165059A (en) * | 2015-03-06 | 2016-09-08 | シャープ株式会社 | Image processor |
JP2018202761A (en) * | 2017-06-06 | 2018-12-27 | 京セラドキュメントソリューションズ株式会社 | Image forming apparatus and authentication method executed by image forming apparatus |
JP2019041150A (en) * | 2017-08-22 | 2019-03-14 | キヤノン株式会社 | Device for setting file name or the like to scan image, control method therefor and program |
WO2019206090A1 (en) * | 2018-04-27 | 2019-10-31 | 中兴通讯股份有限公司 | Media file remarking method, apparatus, mobile terminal and storage medium |
JP2021140328A (en) * | 2020-03-03 | 2021-09-16 | 富士フイルムビジネスイノベーション株式会社 | Information processing equipment, image processing equipment, information processing systems, and programs |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0561903A (en) * | 1991-09-03 | 1993-03-12 | Mitsubishi Electric Corp | Semantic marker adding device |
JPH11328206A (en) * | 1998-05-18 | 1999-11-30 | Ricoh Co Ltd | Keyword extraction device and method and storage medium |
JP2000181936A (en) * | 1998-12-17 | 2000-06-30 | Nippon Telegr & Teleph Corp <Ntt> | Document feature extracting device and document classifying device |
JP2001028041A (en) * | 1999-07-14 | 2001-01-30 | Fujitsu Ltd | Electronic filing system, cover identification processing device, and program recording medium thereof |
JP2002297638A (en) * | 2001-03-29 | 2002-10-11 | Ricoh Co Ltd | Method for extracting title from document image |
JP2005293243A (en) * | 2004-03-31 | 2005-10-20 | Just Syst Corp | Document processing device |
JP2006092346A (en) * | 2004-09-24 | 2006-04-06 | Fuji Xerox Co Ltd | Equipment, method, and program for character recognition |
JP2008176624A (en) * | 2007-01-19 | 2008-07-31 | Seiko Epson Corp | Character recognition result management apparatus and method, and computer program |
JP2009026137A (en) * | 2007-07-20 | 2009-02-05 | Toshiba Corp | Apparatus and method for supporting obtaining of discussion state |
-
2009
- 2009-09-15 JP JP2009213422A patent/JP5430312B2/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0561903A (en) * | 1991-09-03 | 1993-03-12 | Mitsubishi Electric Corp | Semantic marker adding device |
JPH11328206A (en) * | 1998-05-18 | 1999-11-30 | Ricoh Co Ltd | Keyword extraction device and method and storage medium |
JP2000181936A (en) * | 1998-12-17 | 2000-06-30 | Nippon Telegr & Teleph Corp <Ntt> | Document feature extracting device and document classifying device |
JP2001028041A (en) * | 1999-07-14 | 2001-01-30 | Fujitsu Ltd | Electronic filing system, cover identification processing device, and program recording medium thereof |
JP2002297638A (en) * | 2001-03-29 | 2002-10-11 | Ricoh Co Ltd | Method for extracting title from document image |
JP2005293243A (en) * | 2004-03-31 | 2005-10-20 | Just Syst Corp | Document processing device |
JP2006092346A (en) * | 2004-09-24 | 2006-04-06 | Fuji Xerox Co Ltd | Equipment, method, and program for character recognition |
JP2008176624A (en) * | 2007-01-19 | 2008-07-31 | Seiko Epson Corp | Character recognition result management apparatus and method, and computer program |
JP2009026137A (en) * | 2007-07-20 | 2009-02-05 | Toshiba Corp | Apparatus and method for supporting obtaining of discussion state |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013157293A1 (en) | 2012-04-19 | 2013-10-24 | 日本碍子株式会社 | Film-type piezoelectric/electrostrictive element |
US9184368B2 (en) | 2012-04-19 | 2015-11-10 | Ngk Insulators, Ltd. | Film-type piezoelectric/electrostrictive element |
JP2016165059A (en) * | 2015-03-06 | 2016-09-08 | シャープ株式会社 | Image processor |
JP2018202761A (en) * | 2017-06-06 | 2018-12-27 | 京セラドキュメントソリューションズ株式会社 | Image forming apparatus and authentication method executed by image forming apparatus |
JP2019041150A (en) * | 2017-08-22 | 2019-03-14 | キヤノン株式会社 | Device for setting file name or the like to scan image, control method therefor and program |
WO2019206090A1 (en) * | 2018-04-27 | 2019-10-31 | 中兴通讯股份有限公司 | Media file remarking method, apparatus, mobile terminal and storage medium |
JP2021140328A (en) * | 2020-03-03 | 2021-09-16 | 富士フイルムビジネスイノベーション株式会社 | Information processing equipment, image processing equipment, information processing systems, and programs |
JP7400548B2 (en) | 2020-03-03 | 2023-12-19 | 富士フイルムビジネスイノベーション株式会社 | Information processing device, image processing device, information processing system, and program |
Also Published As
Publication number | Publication date |
---|---|
JP5430312B2 (en) | 2014-02-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8335787B2 (en) | Topic word generation method and system | |
US7752032B2 (en) | Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor | |
JP2004348591A (en) | Document search method and device thereof | |
JP5430312B2 (en) | Data processing apparatus, data name generation method, and computer program | |
JP7493937B2 (en) | Method, program and system for identifying a sequence of headings in a document | |
US9881001B2 (en) | Image processing device, image processing method and non-transitory computer readable recording medium | |
JP2006065477A (en) | Character recognition device | |
US7684975B2 (en) | Morphological analyzer, natural language processor, morphological analysis method and program | |
JP2008129793A (en) | Document processing system, apparatus and method, and recording medium with program recorded thereon | |
CN115203445A (en) | Multimedia resource searching method, device, equipment and medium | |
US8135573B2 (en) | Apparatus, method, and computer program product for creating data for learning word translation | |
JP2004334341A (en) | Document retrieval system, document retrieval method, and recording medium | |
JP5025603B2 (en) | Machine translation apparatus, machine translation program, and machine translation method | |
JP5326781B2 (en) | Extraction rule creation system, extraction rule creation method, and extraction rule creation program | |
JP7651962B2 (en) | Information processing device, information processing system, information processing method, and program | |
JP2006343925A (en) | Related-word dictionary creating device, related-word dictionary creating method, and computer program | |
JP5379416B2 (en) | Language processing apparatus and language processing method | |
JP6181890B2 (en) | Literature analysis apparatus, literature analysis method and program | |
CN112905733A (en) | Book storage method, system and device based on OCR recognition technology | |
JP2020135523A (en) | Information processor, information processing method and program | |
JP2004206521A (en) | Document search device and program | |
JPH08115330A (en) | Similar document retrieval method and apparatus | |
JP5521670B2 (en) | Pattern matching device, translation device, translation system, and translation program | |
JP2023094458A (en) | Information processing device, program, and confidentiality level determination method | |
JP2006004050A (en) | Image processing device, image reading device, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110824 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130315 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130326 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130517 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130709 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131007 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20131015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131203 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5430312 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |