JP2007317131A - Document management method, document retrieval method and device, and program - Google Patents
Document management method, document retrieval method and device, and program Download PDFInfo
- Publication number
- JP2007317131A JP2007317131A JP2006148893A JP2006148893A JP2007317131A JP 2007317131 A JP2007317131 A JP 2007317131A JP 2006148893 A JP2006148893 A JP 2006148893A JP 2006148893 A JP2006148893 A JP 2006148893A JP 2007317131 A JP2007317131 A JP 2007317131A
- Authority
- JP
- Japan
- Prior art keywords
- document
- image
- image feature
- database
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書管理方法及び文書検索方法及び装置及びプログラムに係り、特に、紙媒体で管理されている文書を電子化し、画像領域を抽出してデータベース上で蓄積・管理することにより、画像及び画像を含む文書の検索を可能とする、文書管理方法及び文書検索方法及び装置及びプログラムに関する。 The present invention relates to a document management method, a document search method, an apparatus, and a program, and more particularly, by digitizing a document managed on a paper medium, extracting an image area, and storing and managing it on a database. The present invention relates to a document management method, a document retrieval method, an apparatus, and a program that enable retrieval of documents including images.
従来の文書管理技術には、文書の更新履歴を管理する技術(第1の技術)や、HTMLやXML等の言語で記述された文書を対象とした文書管理技術(第2の技術)がある。 Conventional document management techniques include a technique for managing a document update history (first technique) and a document management technique (second technique) for documents written in a language such as HTML or XML. .
上記の第1の技術は、文書の管理情報を印刷時に数字やバーコードで出力し、検索時にそのバーコードの模様をパターンマッチングで検出することにより該当文書の管理情報を得るという技術である(例えば、特許文献1参照)。 The first technique described above is a technique in which document management information is output as numbers or barcodes at the time of printing, and the pattern information of the barcode is detected by pattern matching at the time of retrieval to obtain the management information of the corresponding document ( For example, see Patent Document 1).
一方、上記の第2の技術では、HTMLやXML等で記述された文書がタグ(情報の属性を表すもの)によって構造化されていることを利用し、特定のタグに該当する箇所の情報を抽出し、文書の継承関係と共にデータベース化することにより(構造化)文書の管理を行う技術である(例えば、特許文献2参照)。
しかしながら、上記の第1の技術(特許文献1)、第2の技術(特許文献2)とも、電子文書の作成段階もしくは電子文書が作成済みでデータベースに既に存在することを前提としており、紙媒体のみで管理されている文書は対象外である。 However, both the first technique (Patent Document 1) and the second technique (Patent Document 2) are based on the premise that an electronic document is created or an electronic document has already been created and already exists in a database. Documents that are managed only with this are excluded.
また、上記第1の技術(特許文献1)は、電子文書のバーコード等の情報からメタ情報(改訂履歴や管理情報等)を抽出する方式であり、メタ情報をキーに文書を検索するには、事前にこれらメタ情報をデータベースに格納しておく必要がある。従って、第1の技術をそのまま適用してメタ情報から文書を検索するには不適である。 The first technique (Patent Document 1) is a method of extracting meta information (revision history, management information, etc.) from information such as a barcode of an electronic document. The document is searched using the meta information as a key. Needs to store these meta information in the database in advance. Therefore, it is unsuitable to apply the first technique as it is and search for a document from meta information.
一方、上記第2の技術(特許文献2)は、文書内に記載の情報や画像等を検索することは可能であるが、タグで構造化されていることが前提である。従って、タグが存在しない、文字や画像のみからなる文書から情報を抽出し、管理することはできない。 On the other hand, the second technique (Patent Document 2) can retrieve information, images, and the like described in a document, but is premised on being structured with tags. Therefore, it is impossible to extract and manage information from a document including only characters and images without a tag.
本発明は、上記の点に鑑みなされたもので、紙媒体で管理されている画像混在文書に対して、画像特徴を用いて、同一または類似の画像が使われた画像混在文書を検索することが可能な文書管理方法及び文書検索方法及び装置及びプログラムを提供することを目的とする。 The present invention has been made in view of the above points, and uses an image feature to search for an image mixed document in which the same or similar images are used for an image mixed document managed on a paper medium. It is an object of the present invention to provide a document management method, a document search method, an apparatus, and a program that can execute the above-described process.
図1は、本発明の原理を説明するための図である。 FIG. 1 is a diagram for explaining the principle of the present invention.
本発明(請求項1)は、画像が混在する文書を電子化し、データベースで管理する画像混在文書を管理する文書管理方法であって、
文書入力手段が、電子文書または、紙媒体の文書を入力し、該文書が紙媒体であれば、該文書を電子化する文書入力ステップ(ステップ1)と、
画像領域抽出手段が、入力された電子文書から画像領域を抽出する画像領域抽出ステップ(ステップ2)と、
画像特徴抽出手段が、抽出された画像領域から画像自体の特徴を表す情報列を画像特徴として抽出する画像特徴抽出ステップ(ステップ3)と、
画像特徴登録手段が、画像特徴を文書の識別情報と対応付けてデータベースに登録する画像特徴登録ステップ(ステップ4)と、を行う。
The present invention (Claim 1) is a document management method for managing an image mixed document managed in a database by digitizing a document including mixed images.
A document input unit inputs an electronic document or a paper medium document, and if the document is a paper medium, a document input step (step 1) for digitizing the document;
An image area extracting step (step 2) in which the image area extracting means extracts an image area from the input electronic document;
An image feature extraction step (step 3) in which the image feature extraction means extracts an information sequence representing the feature of the image itself from the extracted image region as an image feature;
The image feature registration means performs an image feature registration step (step 4) for registering the image feature in the database in association with the document identification information.
また、本発明(請求項2)は、画像自体に文書の識別情報を埋め込む文書識別情報埋め込みステップを更に行い、
画像特徴登録ステップにおいて、
画像特徴と文書識別情報が埋め込まれた画像を対応付けてデータベースに登録する。
The present invention (Claim 2) further performs a document identification information embedding step of embedding document identification information in the image itself,
In the image feature registration step,
The image feature and the image in which the document identification information is embedded are associated and registered in the database.
本発明(請求項3)は、データベース内に格納されている画像混在文書に関する情報を管理する文書管理方法であって、
画像特徴検索手段が、画像特徴がデータベース登録される毎に、該データベース内に同一、または/及び類似する画像特徴があるか否かを該データベースを検索して判定する画像特徴検索ステップと、
画像特徴情報更新手段が、画像特徴検索ステップにおいて、同一、または/及び類似する画像特徴がデータベースに存在する場合は、該データベース内の既存の画像特徴情報に対応する文書の識別情報を追記することにより更新し、存在しない場合は、登録された画像特徴の画像特徴情報を該データベースに追加する画像特徴情報更新ステップと、を行う。
The present invention (Claim 3) is a document management method for managing information related to mixed image documents stored in a database,
An image feature search step for determining whether or not there is an identical or / and similar image feature in the database each time the image feature is registered in the database;
When the same or / and similar image feature exists in the database in the image feature search step, the image feature information updating means adds the document identification information corresponding to the existing image feature information in the database. If the image feature information does not exist, the image feature information update step of adding the image feature information of the registered image feature to the database is performed.
図2は、本発明の原理構成図である。 FIG. 2 is a principle configuration diagram of the present invention.
本発明(請求項4)は、画像が混在する文書を電子化し、データベース106で管理する画像混在文書を管理する文書管理装置であって、
電子文書または、紙媒体の文書を入力し、該文書が紙媒体であれば、該文書を電子化する文書入力手段101と、
電子文書から画像領域を抽出する画像領域抽出手段103と、
抽出された画像領域から画像自体の特徴を表す情報列を画像特徴として抽出する画像特徴抽出手段104と、
画像特徴を文書の識別情報と対応付けてデータベース106に登録する画像特徴登録手段105と、を有する。
The present invention (Claim 4) is a document management apparatus that digitizes a document having mixed images and manages the mixed image document managed by the
An electronic document or a paper medium document is input. If the document is a paper medium, a
Image area extraction means 103 for extracting an image area from the electronic document;
Image feature extraction means 104 for extracting an information sequence representing the characteristics of the image itself from the extracted image region as an image feature;
Image feature registration means 105 for registering image features in the
また、本発明(請求項5)は、画像自体に文書の識別情報を埋め込む文書識別情報埋め込み手段を更に有し、
画像特徴登録手段105は、
画像特徴と文書識別情報が埋め込まれた画像を対応付けてデータベースに登録する手段を含む。
The present invention (Claim 5) further includes document identification information embedding means for embedding document identification information in the image itself,
The image feature registration means 105
Means for associating and registering the image feature and the image in which the document identification information is embedded in the database;
本発明(請求項6)は、データベース106内に格納されている画像混在文書に関する情報を管理する文書管理装置であって、
画像特徴が登録される毎に、データベース106内に同一、または/及び類似する画像特徴があるか否かを、該データベースを検索して判定する画像特徴検索手段107と、
画像特徴検索手段107において、同一、または/及び類似する画像特徴がデータベース106に存在する場合は、該データベース106内の既存の画像特徴情報を更新し、存在しない場合は、登録された画像特徴の画像特徴情報を該データベース106に追加する画像特徴情報更新手段108と、
を有する。
The present invention (Claim 6) is a document management apparatus for managing information related to mixed image documents stored in the
Image feature search means 107 that searches the
In the image feature search means 107, when the same or / and similar image feature exists in the
Have
本発明(請求項7)は、電子化された画像混在文書が管理されているデータベースに対して文書内の画像に基づいて検索を行う画像混在文書の検索方法であって、
文書入力手段が、検索対象の画像を含む電子文書、または、検索対象の画像自体、または、紙媒体の文書を入力し、該文書が紙媒体であれば、該文書を電子化する文書入力ステップ(ステップ11)と、
画像領域抽出手段が、電子文書から画像領域を抽出する画像領域抽出ステップ(ステップ12)と、
画像特徴抽出手段が、抽出された画像領域から画像自体の特徴を表す情報列を画像特徴として抽出する画像特徴抽出ステップ(ステップ13)と、
画像特徴検索手段が、画像特徴と同一の画像特徴をデータベースから検索する画像特徴検索ステップ(ステップ14)と、
文書出力手段が、データベースから検索された画像特徴に対応付けられた文書を出力する文書出力ステップ(ステップ15)と、を行う。
The present invention (Claim 7) is an image mixed document search method for performing a search based on an image in a document with respect to a database in which an electronic image mixed document is managed,
A document input step in which the document input means inputs an electronic document including an image to be searched, an image to be searched itself, or a paper medium document, and if the document is a paper medium, the document input step for digitizing the document (Step 11),
An image area extracting step (step 12) in which the image area extracting means extracts an image area from the electronic document;
An image feature extraction step (step 13) in which the image feature extraction means extracts an information string representing the feature of the image itself from the extracted image region as an image feature;
An image feature search step (step 14) in which the image feature search means searches the database for the same image feature as the image feature;
The document output means performs a document output step (step 15) for outputting a document associated with the image feature retrieved from the database.
また、本発明(請求項8)は、画像特徴検索手段が、画像特徴検索ステップで得られた画像特徴に対応付けられた画像から文書識別情報を取得する文書識別情報取得ステップを行い、
文書出力ステップにおいて、
文書識別情報に基づいて、データベースから文書を取得して出力する。
Further, according to the present invention (claim 8), the image feature search means performs a document identification information acquisition step of acquiring the document identification information from the image associated with the image feature obtained in the image feature search step,
In the document output step,
A document is acquired from the database based on the document identification information and output.
本発明(請求項9)は、電子化された画像混在文書が管理されているデータベースに対して文書内の画像に基づいて検索を行う画像混在文書の検索装置であって、
検索対象の画像を含む電子文書、または、検索対象の画像自体、または、紙媒体の文書を入力し、該文書が紙媒体であれば、該文書を電子化する文書入力手段101と、
電子文書から画像領域を抽出する画像領域抽出手段103と、
抽出された画像領域から画像自体の特徴を表す情報列を画像特徴として抽出する画像特徴抽出手段104と、
画像特徴と同一の画像特徴をデータベースから検索する画像特徴検索手段107と、
データベースから検索された画像特徴に対応付けられた文書を出力する文書出力手段110と、を有する。
The present invention (Claim 9) is an image mixed document search apparatus that performs a search based on an image in a document with respect to a database in which the digitized image mixed document is managed,
An electronic document including an image to be searched, an image to be searched itself, or a paper medium document; if the document is a paper medium, a
Image area extraction means 103 for extracting an image area from the electronic document;
Image feature extraction means 104 for extracting an information sequence representing the characteristics of the image itself from the extracted image region as an image feature;
Image feature retrieval means 107 for retrieving the same image feature as the image feature from the database;
Document output means 110 for outputting a document associated with the image feature retrieved from the database.
また、本発明(請求項10)は、画像特徴検索手段107において、
画像特徴検索手段で得られた画像特徴に対応付けられた画像から文書識別情報を取得する文書識別情報取得手段を含み、
文書出力手段110は、
文書識別情報に基づいて、データベース106から文書を取得して出力する手段を含む。
Further, the present invention (Claim 10), in the image feature search means 107
Including document identification information acquisition means for acquiring document identification information from an image associated with the image feature obtained by the image feature search means,
The document output means 110
Means for obtaining and outputting a document from the
本発明(請求項11)は、コンピュータに、請求項4乃至6記載の文書管理装置の各手段を実行させる文書管理プログラムである。 The present invention (Claim 11) is a document management program for causing a computer to execute each means of the document management apparatus according to Claims 4 to 6.
本発明(請求項12)は、コンピュータに、請求項9乃至10記載の文書検索装置の各手段を実行させる文書検索プログラムである。 The present invention (Claim 12) is a document search program for causing a computer to execute each means of the document search apparatus according to Claims 9 to 10.
本発明によれば、紙媒体に印刷されている電子化されていない画像入り文書を電子化し、当該文書から抽出された画像の特徴量を抽出して、当該文書の識別情報と対応付けてデータベースに格納することで、同一または類似の画像が使われた画像混在文書を検索することが可能となる。 According to the present invention, a non-digitized image-containing document printed on a paper medium is digitized, the feature amount of the image extracted from the document is extracted, and the database is associated with the identification information of the document. By storing them in the image, it is possible to search image mixed documents in which the same or similar images are used.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[第1の実施の形態]
本実施の形態では、入力された画像が混在する文書をデータベースに登録する処理について説明する。
[First Embodiment]
In the present embodiment, processing for registering a document in which input images are mixed in a database will be described.
図3は、本発明の第1の実施の形態における文書管理装置の構成を示す。 FIG. 3 shows the configuration of the document management apparatus according to the first embodiment of the present invention.
同図に示す文書管理装置100は、文書入力部101、コンテンツ記憶メモリ102、画像領域抽出部103、画像特徴抽出部104、画像特徴登録部105及びデータベース106から構成される。
A
コンテンツ記憶メモリ102は、文書入力部101によって得られた文書の電子ファイル、画像領域抽出部103で得られた画像、画像特徴抽出部104で得られた各画像に対応する画像特徴を格納する。
The
図4は、本発明の第1の実施の形態における文書管理装置の動作のフローチャートである。以下、図3の装置構成の動作について図4に沿って説明する。 FIG. 4 is a flowchart of the operation of the document management apparatus according to the first embodiment of the present invention. The operation of the apparatus configuration in FIG. 3 will be described below with reference to FIG.
ステップ201)文書入力ステップ:
文書入力部101は、電子文書または紙媒体の文書を入力する。紙媒体で管理されている文書をスキャナ等の入力装置を用いて電子化する。電子化されたデータは、電子ファイルとしてコンテンツ記憶メモリ102に格納される。ここでは、電子化する手段としてスキャナを例にあげているが、デジタルカメラでもよい。
Step 201) Document input step:
The
ステップ202)画像領域抽出ステップ:
画像領域抽出部103は、コンテンツ記憶メモリ102に格納されている電子文書に対して、画像に分類される領域を抽出し、コンテンツ記憶メモリ102に格納する。電子文書から画像領域を抽出するには、例えば、以下のような手法がある。
Step 202) Image region extraction step:
The image
カラー文書を2値化し、文書領域抽出に適したフィルタと図表領域抽出に適したフィルタをそれぞれ同一の文書画像に作用させることにより、前者からは文字領域、後者からは図表領域が抽出されるという技術である(勝山、黒川、武部、藤木、直井:“文字列抽出用/図表抽出用の2種類の2値化方式を使用したカラー文書画像レイアウト解析手法”信学総大、D-12-88, p220 (2006))。当該技術を用いることによって、得られた図表領域を画像領域と見做しても構わないし、また、図表領域から、更に図領域と表領域に分離し、図領域を画像領域として抽出してもよい。なお、図表領域の分離は、水平方向と垂直方向のヒストグラムを求め、両方向のヒストグラムが周期的にピークを持つ場合を表領域とすることによって、図領域のみを抽出することが可能である。 By binarizing a color document and applying a filter suitable for document area extraction and a filter suitable for chart area extraction to the same document image, a character area is extracted from the former and a chart area is extracted from the latter. Technology (Katsuyama, Kurokawa, Takebe, Fujiki, Naoi: "Color document image layout analysis method using two types of binarization methods for character string extraction / chart extraction" Shingaku Sodai, D-12- 88, p220 (2006)). By using this technique, the obtained chart area may be regarded as an image area, or the chart area may be further separated into a chart area and a table area, and the figure area may be extracted as an image area. Good. The chart area can be extracted by obtaining a histogram in the horizontal direction and the vertical direction, and taking the case where the histograms in both directions have peaks periodically as the table area.
ステップ203)画像特徴抽出ステップ:
画像特徴抽出部104は、画像領域抽出部103で得られた画像をコンテンツ記憶メモリ102から取得し、画像が一意に識別される画像特徴を抽出する。一種類の文書から複数の画像が抽出された場合には、全ての画像に対して同様に画像特徴を抽出する。得られた画像特徴はコンテンツ記憶メモリ102に格納される。画像特徴は、例えば、画像をブロックに分割し、ブロック毎の平均画素値を全ブロック分並べたものや(Jia Li, James Z Wang, Gio Wiederhold, “IRM: Integrated Region Matching for Image Retrieval”, Proceedings of the eighth ACM international conference on Multimedia, pp.147-156 (2000))、画像をブロックに分割し、ブロック毎の画素値の平均の全ブロック中における順序(例えば、一番暗い方から数えて何番目かという情報)とするもの等がある(高田、阿部、川村:“変換耐性を備えたコンテンツ識別方法”、画像の認識・理解シンポジウム(MIRU2005),2005)。
Step 203) Image feature extraction step:
The image
ステップ204)画像特徴登録ステップ:
画像特徴登録部105は、画像特徴抽出部104で得られた一文書に含まれる各画像に対応する画像特徴をコンテンツ記憶メモリ102から取り出し、文書情報(文書管理番号)と対応付けてデータベース106に格納する。データベース106に登録する際の、画像特徴と文書情報との対応付けは、例えば、図5に示すように、文書の管理番号と画像特徴を表形式で管理する方法や、図6に示すように、文書の管理番号を画像自体に電子透かしを埋め込み、図7に示すように、画像特徴と画像の在処を示す情報(画像保管場所)を対にして管理する方法がある。
Step 204) Image feature registration step:
The image
[第2の実施の形態]
本実施の形態では、画像特徴と文書情報が格納されているデータベース106を更新する処理を説明する。
[Second Embodiment]
In the present embodiment, a process for updating the
図8は、本発明の第2の実施の形態における文書管理装置の構成を示す。 FIG. 8 shows the configuration of the document management apparatus according to the second embodiment of the present invention.
同図において、図3の構成と同一構成部分には同一符号を付与して、その説明を省略する。 In the figure, the same reference numerals are given to the same components as those in FIG. 3, and the description thereof is omitted.
図8に示す文書管理装置200は、画像特徴を検索する機能、画像特徴情報を更新する機能を含むものであり、画像特徴登録部105、データベース106、画像特徴検索部107、画像特徴情報更新部108、コンテンツ記憶メモリ102から構成される。なお、当該構成は、図3とは分けて記載しているが、図3の構成に、画像特徴検索部107と画像特徴情報更新部108を付加した構成で一体的に構成されていてもよい。
The
以下に、当該文書管理装置200の動作を説明する。
Hereinafter, the operation of the
図9は、本発明の第2の実施の形態における動作のフローチャートである。 FIG. 9 is a flowchart of the operation in the second embodiment of the present invention.
ステップ204)画像特徴登録ステップ:
上記の第1の実施の形態におけるステップ204に対応する。
Step 204) Image feature registration step:
This corresponds to step 204 in the first embodiment.
ステップ205)画像特徴検索ステップ:
上記のステップ204において、画像特徴がデータベース106に登録されている画像特徴に対して、画像特徴検索部107がデータベース106内に同一もしくは類似の画像特徴が存在するか否かを検索し、その結果をコンテンツ記憶メモリ102に一時的に格納する。
Step 205) Image feature search step:
In
以下では、画像特徴情報が図5に示す形式で管理されている場合について説明する。検索においては、入力画像特徴とデータベース106内の画像特徴の文字列が完全に一致すれば同一の画像特徴であると判定し、画像特徴の類似度の高いものがあれば、類似の画像特徴であると判定する。なお、画像特徴の類似度とは、例えば、画像特徴の文字列を多次元ベクトルと見做した場合のベクトル間の内積や、文字列を要素毎に比較した際の不一致個数もしくは、不一致割合に基づいて得られるものであり、前者もしくは後者も数値が小さいほど類似度が高い。画像特徴検索部107により、検索対象の画像と一致もしくは類似と判定された画像を含む管理番号が得られる。
Hereinafter, a case where the image feature information is managed in the format shown in FIG. 5 will be described. In the search, if the input image feature and the character string of the image feature in the
なお、画像特徴情報が図7に示す形式で管理されている場合には、一致もしくは類似の画像特徴を持つ画像の在処(画像保管場所)が得られる。 When the image feature information is managed in the format shown in FIG. 7, the location (image storage location) of the image having the same or similar image feature is obtained.
ステップ206)画像特徴情報更新ステップ:
画像特徴情報更新部108では、画像特徴検索部107にて得られた結果をコンテンツ記憶メモリ102から取り出し、データベース106に格納されている情報を更新する。
Step 206) Image feature information update step:
The image feature
以下では、図5に示す形式で画像特徴情報が管理されている場合を例にとって詳細に説明する。 Hereinafter, a case where image feature information is managed in the format shown in FIG. 5 will be described in detail.
画像特徴情報更新部108は、画像特徴登録部105から入力された画像特徴と一致するものがデータベース106に存在する場合、即ち、図10(a)に示すように、文書管理番号“EF−0099”に含まれる画像の特徴データが“234234567567”と一致する場合、この画像特徴の欄に文書管理番号“EF−0099”を追記することにより、画像特徴情報を更新する。また、画像特徴登録部105から入力された画像特徴がデータベース106内の全ての画像特徴に対して同一とも類似とも判定されない場合は、図10(b)に示すように、文書管理番号“CD−1022”の画像特徴“004567891234”を新規に追加する。さらに、画像特徴登録部105から入力された画像特徴と類似のものがデータベース106上にある場合、即ち、図10(c)に示すように、文書管理番号“EF−0003”の画像特徴“123123123446”が文書管理番号“AB−0001”の画像特徴“123123123446”と類似である場合、新規に画像特徴と対応する文書管理番号を追加すると同時に、類似の画像特徴として検索された画像特徴“123123123456”の欄に類似画像特徴として“123123123446”を追記する。
When the image feature
上述のようにして、画像特徴登録部105から登録された新規の画像特徴と文書管理番号に関してデータベース106上の画像特徴との一致乃至類似を判定することにより、データベース106内の情報を更新する。
As described above, the information in the
また、図7に示すような形式で画像特徴情報が管理されている場合も同様に、情報の更新を行うことができることは自明である。 Also, it is obvious that the information can be updated in the same manner when the image feature information is managed in a format as shown in FIG.
[第3の実施の形態]
本実施の形態では、検索処理について説明する。
[Third Embodiment]
In the present embodiment, search processing will be described.
図11は、本発明の第3の実施の形態における検索装置の構成を示す。同図において、図3、図8と同一構成部分には同一符号を付し、その説明を省略する。 FIG. 11 shows the configuration of the search device according to the third embodiment of the present invention. In this figure, the same components as those in FIGS. 3 and 8 are denoted by the same reference numerals, and description thereof is omitted.
図11に示す検索装置300は、コンテンツ記憶メモリ102、画像領域抽出部103、画像特徴抽出部104、データベース106、画像特徴検索部107、検索情報入力部109、文書出力部110から構成される。
11 includes a
なお、図11に示す検索装置300を独立した構成としているが、図3、図8に示す文書管理装置に含めて構成することも可能である。
Although the
以下では、図3、図8の構成と重複しない構成要素について、図12のフローチャートに従って説明する。なお、図12に示すフローチャートにおいて、図4、図9と同一の動作については同一のステップ番号を付す。 In the following, components that do not overlap with the configurations of FIGS. 3 and 8 will be described with reference to the flowchart of FIG. In the flowchart shown in FIG. 12, the same steps as those in FIGS. 4 and 9 are given the same step numbers.
ステップ207)検索情報入力ステップ:
検索情報入力部109は、検索対象の画像が含まれる文書もしくは、検索対象の画像自体を入力する。入力対象が、紙媒体の場合は、第1の実施の形態と同様にスキャナ等のデバイスを介して電子化を行い、コンテンツ記憶メモリ102に格納する。また、入力対象が電子データである場合は、そのままコンテンツ記憶メモリ102に格納する。
Step 207) Search information input step:
The search
ステップ202)画像領域抽出ステップ:
検索情報入力部109によってコンテンツ記憶メモリ102に格納されたデータが文書の形式である場合は、画像領域抽出部103において、画像領域を抽出し、得られた1乃至複数の画像データをコンテンツ記憶メモリ102に格納する。
Step 202) Image region extraction step:
When the data stored in the
ステップ203)画像特徴抽出ステップ:
コンテンツ記憶メモリ102に格納されている画像データに対して、画像特徴抽出部104で画像特徴を抽出する。
Step 203) Image feature extraction step:
The image
ステップ205)画像特徴検索ステップ:
画像特徴検索部107は、抽出された画像特徴とデータベース106に格納されている画像特徴と一致するものを検索し、入力された画像特徴と一致もしくは、類似の画像が含まれている文書管理番号(図5に示す形式で管理されている場合)、乃至は、画像の格納場所の情報(図7に示す形式で管理されている場合)を得る。なお、後者の場合には、該当の画像自体をモニタ等の外部デバイスに一旦、表示した上で、ユーザがマウスやキーボード等により指定した画像から電子透かし情報として埋め込まれた文書管理情報を検出する。
Step 205) Image feature search step:
The image
ステップ208)文書出力ステップ:
文書出力部110は、画像特徴検索部107から得られた文書管理番号に対応する電子文書を外部デバイスに出力する。ここで、電子文書及び画像自体を表示する外部デバイスとは、CRT等のモニタであっても構わないし、プリンタであっても構わない。
Step 208) Document output step:
The
なお、本発明は、上記の第1〜第3の実施の形態における図3、図8、図11に示す文書管理装置や検索装置の機能をプログラムとして構築し、文書管理装置や検索装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。 In the present invention, the functions of the document management device and the search device shown in FIGS. 3, 8, and 11 in the first to third embodiments are constructed as a program and used as the document management device and the search device. It can be installed and executed on a computer to be distributed, or distributed via a network.
また、構築されたプログラムを、ハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または配布することが可能である。 Further, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
本発明は、画像混在文書を電子化しデータベースで管理するための技術、特に、カラー文書画像認識技術に適用可能である。 The present invention can be applied to a technique for digitizing an image mixed document and managing it in a database, particularly a color document image recognition technique.
100 文書管理装置
101 文書入力手段、文書入力部
102 コンテンツ記憶メモリ
103 画像領域抽出手段、画像領域抽出部
104 画像特徴抽出手段、画像特徴抽出部
105 画像特徴登録手段、画像特徴登録部
106 データベース
107 画像特徴検索手段、画像特徴検索部
108 画像特徴情報更新手段、画像特徴情報更新部
109 検索情報入力手段、検索情報入力部
110 文書出力手段、文書出力部
200 文書管理装置
300 文書検索装置
DESCRIPTION OF
Claims (12)
文書入力手段が、電子文書または、紙媒体の文書を入力し、該文書が紙媒体であれば、該文書を電子化する文書入力ステップと、
画像領域抽出手段が、前記電子文書から画像領域を抽出する画像領域抽出ステップと、
画像特徴抽出手段が、抽出された前記画像領域から画像自体の特徴を表す情報列を画像特徴として抽出する画像特徴抽出ステップと、
画像特徴登録手段が、前記画像特徴を前記文書の識別情報と対応付けてデータベースに登録する画像特徴登録ステップと、
を行うことを特徴とする文書管理方法。 A document management method that digitizes a document containing mixed images and manages the mixed image document managed in a database,
A document input means for inputting an electronic document or a paper medium document, and if the document is a paper medium, a document input step for digitizing the document;
An image region extracting step for extracting an image region from the electronic document;
An image feature extraction step, wherein the image feature extraction means extracts an information sequence representing the feature of the image itself from the extracted image region as an image feature;
An image feature registration means for registering the image feature in the database in association with the identification information of the document;
A document management method characterized by:
前記画像特徴登録ステップにおいて、
前記画像特徴と前記文書識別情報が埋め込まれた画像を対応付けて前記データベースに登録する、
請求項1記載の文書管理方法。 Further performing a document identification information embedding step of embedding the document identification information in the image itself,
In the image feature registration step,
Registering the image feature and the image in which the document identification information is embedded in the database in association with each other;
The document management method according to claim 1.
画像特徴検索手段が、画像特徴が前記データベース登録される毎に、該データベース内に同一、または/及び類似する画像特徴があるか否かを、該データベースを検索して判定する画像特徴検索ステップと、
画像特徴情報更新手段が、前記画像特徴検索ステップにおいて、同一、または/及び類似する画像特徴が前記データベースに存在する場合は、該データベース内の既存の画像特徴情報に対応する文書の識別情報を追記することにより更新し、存在しない場合は、登録された前記画像特徴の画像特徴情報を該データベースに追加する画像特徴情報更新ステップと、
を行うことを特徴とする文書管理方法。 A document management method for managing information related to mixed image documents stored in a database,
An image feature search step for searching the database to determine whether or not there is an identical or / and similar image feature in the database each time the image feature is registered in the database. ,
When the same or / and similar image feature exists in the database in the image feature search step, the image feature information update unit additionally adds document identification information corresponding to the existing image feature information in the database. An image feature information update step of adding the image feature information of the registered image feature to the database,
A document management method characterized by:
電子文書または、紙媒体の文書を入力し、該文書が紙媒体であれば、該文書を電子化する文書入力手段と、
前記電子文書から画像領域を抽出する画像領域抽出手段と、
抽出された前記画像領域から画像自体の特徴を表す情報列を画像特徴として抽出する画像特徴抽出手段と、
前記画像特徴を前記文書の識別情報と対応付けてデータベースに登録する画像特徴登録手段と、
を有することを特徴とする文書管理装置。 A document management apparatus that digitizes a document containing mixed images and manages the mixed image document managed by a database,
An electronic document or a paper medium document is input, and if the document is a paper medium, a document input means for digitizing the document;
Image area extraction means for extracting an image area from the electronic document;
Image feature extraction means for extracting an information string representing the characteristics of the image itself from the extracted image region as an image feature;
Image feature registration means for registering the image feature in a database in association with identification information of the document;
A document management apparatus comprising:
前記画像特徴登録手段は、
前記画像特徴と前記文書識別情報が埋め込まれた画像を対応付けて前記データベースに登録する手段を含む、
請求項4記載の文書管理装置。 A document identification information embedding unit that embeds the document identification information in the image itself;
The image feature registration means includes:
Means for associating and registering the image feature and the image in which the document identification information is embedded in the database;
The document management apparatus according to claim 4.
画像特徴が前記データベース登録される毎に、該データベース内に同一、または/及び類似する画像特徴があるか否かを、該データベースを検索して判定する画像特徴検索手段と、
前記画像特徴検索手段において、同一、または/及び類似する画像特徴が前記データベースに存在する場合は、該データベース内の既存の画像特徴情報に対応する文書の識別情報を追記することにより更新し、存在しない場合は、登録された前記画像特徴の画像特徴情報を該データベースに追加する画像特徴情報更新手段と、
を有することを特徴とする文書管理装置。 A document management apparatus for managing information related to mixed image documents stored in a database,
Image feature search means for determining whether or not there is an identical or / and similar image feature in the database each time the image feature is registered in the database;
In the image feature search means, if the same or / and similar image feature exists in the database, it is updated by adding the identification information of the document corresponding to the existing image feature information in the database. If not, image feature information update means for adding image feature information of the registered image features to the database;
A document management apparatus comprising:
文書入力手段が、検索対象の画像を含む電子文書、または、検索対象の画像自体、または、紙媒体の文書を入力し、該文書が紙媒体であれば、該文書を電子化する文書入力ステップと、
画像領域抽出手段が、前記電子文書から画像領域を抽出する画像領域抽出ステップと、
画像特徴抽出手段が、抽出された前記画像領域から画像自体の特徴を表す情報列を画像特徴として抽出する画像特徴抽出ステップと、
画像特徴検索手段が、前記画像特徴と同一の画像特徴を前記データベースから検索する画像特徴検索ステップと、
文書出力手段が、前記データベースから検索された前記画像特徴に対応付けられた文書を出力する文書出力ステップと、
を行うことを特徴とする文書検索方法。 An image mixed document search method for performing a search based on an image in a document with respect to a database in which an electronic image mixed document is managed,
A document input step in which the document input means inputs an electronic document including an image to be searched, an image to be searched itself, or a paper medium document, and if the document is a paper medium, the document input step for digitizing the document When,
An image region extracting step for extracting an image region from the electronic document;
An image feature extraction step, wherein the image feature extraction means extracts an information sequence representing the feature of the image itself from the extracted image region as an image feature;
An image feature search means for searching the image feature for the same image feature as the image feature from the database;
A document output means for outputting a document associated with the image feature retrieved from the database;
A document search method characterized by:
前記文書出力ステップにおいて、
前記文書識別情報に基づいて、前記データベースから文書を取得して出力する、
請求項7記載の文書検索方法。 The image feature search means performs a document identification information acquisition step of acquiring document identification information from an image associated with the image feature obtained in the image feature search step;
In the document output step,
Obtaining and outputting a document from the database based on the document identification information;
The document search method according to claim 7.
検索対象の画像を含む電子文書、または、検索対象の画像自体、または、紙媒体の文書を入力し、該文書が紙媒体であれば、該文書を電子化する文書入力手段と、
前記電子文書から画像領域を抽出する画像領域抽出手段と、
抽出された前記画像領域から画像自体の特徴を表す情報列を画像特徴として抽出する画像特徴抽出手段と、
前記画像特徴と同一の画像特徴を前記データベースから検索する画像特徴検索手段と、
前記データベースから検索された前記画像特徴に対応付けられた文書を出力する文書出力手段と、
を有することを特徴とする文書検索装置。 An image mixed document search apparatus that performs a search based on an image in a document with respect to a database in which an electronic image mixed document is managed,
An electronic document including a search target image, or a search target image itself, or a paper medium document; if the document is a paper medium, a document input unit that digitizes the document;
Image area extraction means for extracting an image area from the electronic document;
Image feature extraction means for extracting an information sequence representing the characteristics of the image itself from the extracted image region as an image feature;
Image feature search means for searching the database for the same image feature as the image feature;
Document output means for outputting a document associated with the image feature retrieved from the database;
A document search apparatus characterized by comprising:
前記画像特徴検索手段で得られた前記画像特徴に対応付けられた画像から文書識別情報を取得する文書識別情報取得手段を含み、
前記文書出力手段は、
前記文書識別情報に基づいて、前記データベースから文書を取得して出力する手段を含む、
請求項9記載の文書検索装置。 The image feature search means includes:
Including document identification information obtaining means for obtaining document identification information from an image associated with the image feature obtained by the image feature retrieval means,
The document output means includes
Means for obtaining and outputting a document from the database based on the document identification information;
The document search apparatus according to claim 9.
請求項4乃至6記載の文書管理装置の各手段を実行させることを特徴とする文書管理プログラム。 On the computer,
7. A document management program for causing each means of the document management apparatus according to claim 4 to be executed.
請求項9乃至10記載の文書検索装置の各手段を実行させることを特徴とする文書検索プログラム。 On the computer,
11. A document search program for causing each means of the document search apparatus according to claim 9 to be executed.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006148893A JP2007317131A (en) | 2006-05-29 | 2006-05-29 | Document management method, document retrieval method and device, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006148893A JP2007317131A (en) | 2006-05-29 | 2006-05-29 | Document management method, document retrieval method and device, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007317131A true JP2007317131A (en) | 2007-12-06 |
Family
ID=38850909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006148893A Pending JP2007317131A (en) | 2006-05-29 | 2006-05-29 | Document management method, document retrieval method and device, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007317131A (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012221148A (en) * | 2011-04-07 | 2012-11-12 | Hitachi Ltd | Image processing method and image processing system |
CN105956098A (en) * | 2016-05-03 | 2016-09-21 | 华中师范大学 | Method and system for associating paper print with electronic resource |
-
2006
- 2006-05-29 JP JP2006148893A patent/JP2007317131A/en active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012221148A (en) * | 2011-04-07 | 2012-11-12 | Hitachi Ltd | Image processing method and image processing system |
CN105956098A (en) * | 2016-05-03 | 2016-09-21 | 华中师范大学 | Method and system for associating paper print with electronic resource |
CN105956098B (en) * | 2016-05-03 | 2019-04-12 | 华中师范大学 | A kind of correlating method and system of paper printed matter and e-sourcing |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8577882B2 (en) | Method and system for searching multilingual documents | |
JP4461769B2 (en) | Document retrieval / browsing technique and document retrieval / browsing device | |
US20120117051A1 (en) | Multi-modal approach to search query input | |
US20060085442A1 (en) | Document image information management apparatus and document image information management program | |
JP5665125B2 (en) | Image processing method and image processing system | |
JP4860416B2 (en) | Document search apparatus, document search method, and document search program | |
JP2004334334A (en) | Document retrieval system, document retrieval method, and storage medium | |
JP2009122760A (en) | Document processing apparatus, document processing method, and document processing program | |
CN102541948A (en) | Method and device for extracting document structure | |
JP2005151127A5 (en) | ||
JP2022173367A (en) | Document processing device, document processing method, and program | |
CN114692573A (en) | Text structuring method, apparatus, computer device, medium, and product | |
JP2007317131A (en) | Document management method, document retrieval method and device, and program | |
JP2005107931A (en) | Image search apparatus | |
CN115221453B (en) | Media resource management method, device, server and medium | |
CN113486148B (en) | PDF file conversion method, device, electronic device and computer-readable medium | |
JP6171807B2 (en) | Document data processing system, document data processing program | |
CN105095225A (en) | Method and apparatus for obtaining file data | |
JP5445740B2 (en) | Image processing apparatus, image processing system, and processing program | |
CN114299527B (en) | A method and device for digital processing of paper documents | |
JP4521413B2 (en) | Database management system and program | |
JP2009230450A (en) | Document attribute information register and program | |
JP2006350655A (en) | Method, device and program for classifying and presenting result of web image search, and storage medium with the program stored therein | |
JP2005107866A (en) | Program, data processing method and computer | |
CN104484381B (en) | For searching for the method and system of multiple strings |