JP2006059075A - 文書処理装置およびプログラム - Google Patents
文書処理装置およびプログラム Download PDFInfo
- Publication number
- JP2006059075A JP2006059075A JP2004239479A JP2004239479A JP2006059075A JP 2006059075 A JP2006059075 A JP 2006059075A JP 2004239479 A JP2004239479 A JP 2004239479A JP 2004239479 A JP2004239479 A JP 2004239479A JP 2006059075 A JP2006059075 A JP 2006059075A
- Authority
- JP
- Japan
- Prior art keywords
- data
- item
- document
- name
- name data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 claims description 56
- 230000006870 function Effects 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 14
- 230000001174 ascending effect Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 2
- 238000000034 method Methods 0.000 description 20
- 238000012986 modification Methods 0.000 description 18
- 230000004048 modification Effects 0.000 description 18
- 238000004891 communication Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 208000032005 Spinocerebellar ataxia with axonal neuropathy type 2 Diseases 0.000 description 1
- 208000033361 autosomal recessive with axonal neuropathy 2 spinocerebellar ataxia Diseases 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 239000012536 storage buffer Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Processing Or Creating Images (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 文書を電子化して保存する文書処理装置に、文書の各ページの画像に対応するページ画像データが入力された場合に、該ページ画像データを解析し、該ページ画像データに対応する文書に記載されている項目毎にその記載内容を特定し、その記載内容を表す文字列である項目データを抽出する抽出手段と、前記抽出手段により抽出された項目データを連結し、前記文書に付与する名称を表す文字列である名称データを生成する生成手段と、前記生成手段により生成された名称データと前記入力手段へ入力された各ページ画像データとを対応付けて記憶する記憶手段を設ける。
【選択図】 図3
Description
[A:構成]
図1は、本発明の1実施形態に係る文書処理装置110を有する文書電子化システム10の構成例を示すブロック図である。図1の画像読取装置120は、例えばADF(Auto Document Feeder)などの自動給紙機構を備えたスキャナ装置であり、ADFにセットされた紙文書を1ページずつ読み取り、読み取った画像に対応するページ画像データをLAN(Local Area Network)などの通信線130を介して文書処理装置110へ引渡すものである。なお、本実施形態では、通信線130がLANである場合について説明するが、WAN(Wide Area Network)やインターネットなどを含んでいても良いことは勿論である。また、本実施形態では、文書処理装置110と画像読取装置120とを夫々個別のハ
ードウェアとして構成する場合について説明するが、両者を一体のハードウェアで構成するとしても良いことは勿論である。このような態様にあっては、通信線130は、係るハードウェア内で文書処理装置110と画像読取装置120とを接続する内部バスである。
次いで、文書処理装置110が行う動作のうち、その特徴を顕著に示す動作について図面を参照しつつ説明する。
以上、本発明を実施する際の最良の形態について説明したが、以下に述べるような変形を加えても良いことは勿論である。
(C−1:変形例1)
上述した実施形態では、1つの紙文書が画像読取装置120のADFにセットされる場合について説明した。しかしながら、複数の紙文書を上記ADFにセットし、これら複数の紙文書の各々についてその記載内容に応じた名称を付与して電子化することも可能である。このようなことは、各紙文書の区切りを文書処理装置110に検出させ、その区切りが検出されるまでに揮発性記憶部220aに蓄積させたページ画像データに対して上記紙文書電子化処理(図3参照)を施すようにすることで実現される。なお、文書処理装置110に、上記文書の区切りを検出させる手法としては、例えば、各文書間に文書の区切りを表す所定の用紙(以下、「区切り用紙」と呼ぶ)を挿入しておき、その区切り用紙の画像に対応するページ画像データに基づいて、文書の区切りを検出させる手法や、各文書の最終ページの余白に最終ページであることを表すマークなどを付与しておき、そのマークに対応する画像を検出させることで、文書の区切りを検出させる手法などが挙げられる。
上述した実施形態では、ページ画像データを解析して得られる項目データを全て連結してそのページ画像データに付与する名称を表す名称データを生成する場合について説明した。しかしながら、ページ画像データを解析して得られる項目データのうち、そのページ画像データに対応する文書の種類を表す項目の記載内容を表す項目データ(以下、「カテゴリデータ」)を除いて上記名称データを生成するとしても良い。このようなことは、上記カテゴリデータを予め記憶部220に記憶させておくとともに、図3に示す紙文書電子化処理に代えて、図5に示す紙文書電子化処理を制御部200に実行させるようにすることで実現される。
上述した実施形態では、ページ画像データを解析して得られる項目データを全て連結してそのページ画像データに付与する名称を表す名称データを生成する場合について説明した。しかしながら、ファイルに付与することができる名称の文字数(バイト数)については、各OS毎に予め上限値が設けられていることが一般的であるから、上記項目データを連結して名称データを生成する際に、連結する項目データの個数を予め定めておくとして勿論良い。より詳細には、各文書に記載されている項目毎にその重要度を定めておき、ページ画像データを解析して得た項目データのうちで重要度の降順或いは昇順に所定の数だけ連結して上記名称データを生成するとしても良い。このようなことは、以下のようにして実現される。
上述した実施形態では、文書処理装置110の不揮発性記憶部220bに予めページ画像データが格納されていない場合について説明した。しかしながら、既にページ画像データが書き込まれている不揮発性記憶部220bに対してページ画像データの追加書き込みを行うようにしても勿論良い。ただし、このような場合には、既に不揮発性記憶部220bに格納されているページ画像データと新たに格納するページ画像データとで名称が重複しないようにする必要があり、このようなことは、上記実施形態にて説明した文書処理装置を以下に説明するように変形することで実現される。
上述した実施形態では、本発明に係る文書処理装置に特有な機能を制御部200に実現させるためのソフトウェアを不揮発性記憶部220bに予め記憶させておく場合について説明した。しかしながら、例えばCD−ROM(Compact Disk- Read Only Memory)やDVD(Digital Versatile Disk)などのコンピュータ装置読み取り可能な記録媒体に、上記ソフトウェアを記録しておき、このような記録媒体を用いて一般的なコンピュータ装置に上記ソフトウェアをインストールするとしても良いことは勿論である。このようにすると、一般的なコンピュータ装置を本発明に係る文書処理装置として機能させることが可能になるといった効果を奏する。
Claims (6)
- 文書の各ページの画像に対応するページ画像データが入力される入力手段と、
前記入力手段へ入力されたページ画像データを解析し、該ページ画像データに対応する文書に記載されている項目毎にその記載内容を特定し、その記載内容を表す文字列である
項目データを抽出する抽出手段と、
前記抽出手段により抽出された項目データを連結し、前記文書に付与する名称を表す文字列である名称データを生成する生成手段と、
前記生成手段により生成された名称データと前記入力手段へ入力された各ページ画像データとを対応付けて記憶装置へ書き込む書き込み手段と
を有する文書処理装置。 - 文書の種類を表す文字列であるカテゴリデータが記憶されている記憶手段を備え、
前記生成手段は、
前記抽出手段により抽出された項目データのうち、前記記憶手段に記憶されているカテゴリデータと一致するものを除いて、前記名称データを生成する
ことを特徴とする請求項1に記載の文書処理装置。 - 文書に記載されている項目の重要度を表す重要度データがその項目毎に記憶されている
記憶手段を備え、
前記生成手段は、
前記抽出手段により抽出された項目データを連結して前記名称データを生成する際に、
各項目データに対応する項目の重要度を前記記憶手段の記憶内容を参照して特定し、重要度の降順或いは昇順に所定の数だけ連結して前記名称データを生成する
ことを特徴とする請求項1に記載の文書処理装置。 - 文書の各ページに対応するページ画像データに対応付けて該文書について前記生成手段により生成された名称データと該文書の各ページに記載されている項目の一覧を表す項目リストとが記憶されている記憶手段を備え、
前記生成手段は、
前記入力手段へ入力された各ページ画像データに基づいて生成した名称データが、前記記憶手段に記憶されている他の名称データと一致する場合に、前記抽出手段により抽出された項目データのうちで該他の名称データの生成の際に用いられていない項目である未使用項目の記載内容を表す項目データを該他の名称データに対応付けて前記記憶手段に記憶されている項目リストに基づいて特定し、該未使用項目に対応する項目データを用いて名称データを生成し直す
ことを特徴とする請求項1に記載の文書処理装置。 - 文書の各ページに対応するページ画像データに対応付けて該文書について前記生成手段により生成された名称データと該文書の各ページに記載されている項目の一覧を表す項目リストとが記憶されている記憶手段を備え、
前記記憶手段に記憶されている名称データの各々について、前記生成手段により生成された名称データと一致する重複名称データであるか否かを判別する判別手段と、
前記重複名称データであると前記判別手段により判別された名称データについて、該名称データの生成に用いられていない項目である未使用項目を該名称データに対応付けて前記記憶手段に記憶されている項目リストに基づいて特定する特定手段と、
前記重複名称データであると前記判別手段により判別された名称データを、前記特定手段により特定された未使用項目の項目データを用いて生成される新たな名称データで書き換える書換え手段と
を有することを特徴とする請求項1に記載の文書処理装置。 - コンピュータ装置を、
文書の各ページの画像に対応するページ画像データが入力された場合に、該ページ画像データを解析し、該ページ画像データに対応する文書に記載されている項目毎にその記載内容を特定し、その記載内容を表す文字列である項目データを抽出する抽出手段と、
前記抽出手段により抽出された項目データを連結し、前記文書に付与する名称を表す文字列である名称データを生成する生成手段と、
前記生成手段により生成された名称データと前記入力手段へ入力された各ページ画像データとを対応付けて記憶装置へ書き込む書き込み手段
として機能させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004239479A JP2006059075A (ja) | 2004-08-19 | 2004-08-19 | 文書処理装置およびプログラム |
US11/080,621 US20060039045A1 (en) | 2004-08-19 | 2005-03-16 | Document processing device, document processing method, and storage medium recording program therefor |
CNB2005100554130A CN100361493C (zh) | 2004-08-19 | 2005-03-17 | 文档处理装置和文档处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004239479A JP2006059075A (ja) | 2004-08-19 | 2004-08-19 | 文書処理装置およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006059075A true JP2006059075A (ja) | 2006-03-02 |
Family
ID=35909340
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004239479A Pending JP2006059075A (ja) | 2004-08-19 | 2004-08-19 | 文書処理装置およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US20060039045A1 (ja) |
JP (1) | JP2006059075A (ja) |
CN (1) | CN100361493C (ja) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7502789B2 (en) * | 2005-12-15 | 2009-03-10 | Microsoft Corporation | Identifying important news reports from news home pages |
JP4645498B2 (ja) * | 2006-03-27 | 2011-03-09 | ソニー株式会社 | 情報処理装置および方法、並びにプログラム |
JP2008090758A (ja) * | 2006-10-04 | 2008-04-17 | Fuji Xerox Co Ltd | 情報処理システムおよび情報処理プログラム |
US8185452B2 (en) * | 2006-12-19 | 2012-05-22 | Fuji Xerox Co., Ltd. | Document processing system and computer readable medium |
JP2008160760A (ja) * | 2006-12-26 | 2008-07-10 | Fuji Xerox Co Ltd | 文書処理システムおよび文書処理指示装置および文書処理プログラム |
CN101226596B (zh) * | 2007-01-15 | 2012-02-01 | 夏普株式会社 | 文档图像处理装置以及文档图像处理方法 |
CN101226595B (zh) * | 2007-01-15 | 2012-05-23 | 夏普株式会社 | 文档图像处理装置以及文档图像处理方法 |
JP2008234592A (ja) * | 2007-03-23 | 2008-10-02 | Fuji Xerox Co Ltd | 情報処理システム、画像入力表示システム、画像入力システム、情報処理プログラム、画像入力表示プログラム及び画像入力プログラム |
US8073256B2 (en) * | 2007-11-15 | 2011-12-06 | Canon Kabushiki Kaisha | Image processing apparatus and method therefor |
JP2009169536A (ja) * | 2008-01-11 | 2009-07-30 | Ricoh Co Ltd | 情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラム |
JP4517310B2 (ja) * | 2008-03-27 | 2010-08-04 | ソニー株式会社 | 撮像装置、文字情報関連付け方法及び文字情報関連付けプログラム |
US20130124193A1 (en) * | 2011-11-15 | 2013-05-16 | Business Objects Software Limited | System and Method Implementing a Text Analysis Service |
CN105264544A (zh) * | 2013-04-02 | 2016-01-20 | 3M创新有限公司 | 用于管理便条的系统和方法 |
CN105144198B (zh) * | 2013-04-02 | 2021-09-14 | 3M创新有限公司 | 用于便笺识别的系统和方法 |
US10127196B2 (en) | 2013-04-02 | 2018-11-13 | 3M Innovative Properties Company | Systems and methods for managing notes |
US8977047B2 (en) | 2013-07-09 | 2015-03-10 | 3M Innovative Properties Company | Systems and methods for note content extraction and management using segmented notes |
EP3058514B1 (en) | 2013-10-16 | 2020-01-08 | 3M Innovative Properties Company | Adding/deleting digital notes from a group |
WO2015057778A1 (en) | 2013-10-16 | 2015-04-23 | 3M Innovative Properties Company | Note recognition and association based on grouping |
EP3058509A4 (en) | 2013-10-16 | 2017-08-09 | 3M Innovative Properties Company | Note recognition for overlapping physical notes |
US9274693B2 (en) | 2013-10-16 | 2016-03-01 | 3M Innovative Properties Company | Editing digital notes representing physical notes |
US10175845B2 (en) | 2013-10-16 | 2019-01-08 | 3M Innovative Properties Company | Organizing digital notes on a user interface |
US9082184B2 (en) | 2013-10-16 | 2015-07-14 | 3M Innovative Properties Company | Note recognition and management using multi-color channel non-marker detection |
WO2015116799A1 (en) * | 2014-01-31 | 2015-08-06 | 3M Innovative Properties Company | Note capture, recognition, and management with hints on a user interface |
EP3100208B1 (en) | 2014-01-31 | 2021-08-18 | 3M Innovative Properties Company | Note capture and recognition with manual assist |
US9690528B1 (en) | 2016-03-30 | 2017-06-27 | Konica Minolta Laboratory U.S.A., Inc. | Automatically editing print job based on state of the document to be printed |
CN109993619B (zh) * | 2017-12-29 | 2022-09-30 | 北京京东尚科信息技术有限公司 | 数据处理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01251229A (ja) * | 1988-03-31 | 1989-10-06 | Toshiba Corp | キーワード抽出方式 |
JPH08166959A (ja) * | 1994-12-12 | 1996-06-25 | Canon Inc | 画像処理方法 |
JPH11120183A (ja) * | 1997-10-08 | 1999-04-30 | Ntt Data Corp | キーワード抽出方法及び装置 |
JP2000134441A (ja) * | 1998-10-27 | 2000-05-12 | Canon Inc | 画像通信装置及び前記装置における通信制御方法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5202982A (en) * | 1990-03-27 | 1993-04-13 | Sun Microsystems, Inc. | Method and apparatus for the naming of database component files to avoid duplication of files |
JPH08161350A (ja) * | 1994-12-02 | 1996-06-21 | Canon Inc | 電子ファイリング方法および装置 |
JP3696915B2 (ja) * | 1995-01-31 | 2005-09-21 | キヤノン株式会社 | 電子ファイリング方法及び電子ファイリング装置 |
US6263121B1 (en) * | 1998-09-16 | 2001-07-17 | Canon Kabushiki Kaisha | Archival and retrieval of similar documents |
US6885481B1 (en) * | 2000-02-11 | 2005-04-26 | Hewlett-Packard Development Company, L.P. | System and method for automatically assigning a filename to a scanned document |
JP2002074321A (ja) * | 2000-09-04 | 2002-03-15 | Funai Electric Co Ltd | 画像読取装置及びその制御方法 |
JP3862588B2 (ja) * | 2002-04-11 | 2006-12-27 | キヤノン株式会社 | 通信装置及びその制御方法 |
US7143114B2 (en) * | 2002-04-18 | 2006-11-28 | Hewlett-Packard Development Company, L.P. | Automatic renaming of files during file management |
JP2004140551A (ja) * | 2002-10-17 | 2004-05-13 | Ricoh Co Ltd | ネットワーク画像通信装置 |
JP2004213616A (ja) * | 2002-12-16 | 2004-07-29 | Konica Minolta Holdings Inc | データ管理構造書換プログラム |
-
2004
- 2004-08-19 JP JP2004239479A patent/JP2006059075A/ja active Pending
-
2005
- 2005-03-16 US US11/080,621 patent/US20060039045A1/en not_active Abandoned
- 2005-03-17 CN CNB2005100554130A patent/CN100361493C/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01251229A (ja) * | 1988-03-31 | 1989-10-06 | Toshiba Corp | キーワード抽出方式 |
JPH08166959A (ja) * | 1994-12-12 | 1996-06-25 | Canon Inc | 画像処理方法 |
JPH11120183A (ja) * | 1997-10-08 | 1999-04-30 | Ntt Data Corp | キーワード抽出方法及び装置 |
JP2000134441A (ja) * | 1998-10-27 | 2000-05-12 | Canon Inc | 画像通信装置及び前記装置における通信制御方法 |
Also Published As
Publication number | Publication date |
---|---|
US20060039045A1 (en) | 2006-02-23 |
CN100361493C (zh) | 2008-01-09 |
CN1738352A (zh) | 2006-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006059075A (ja) | 文書処理装置およびプログラム | |
US8418053B2 (en) | Division program, combination program and information processing method | |
JP6051827B2 (ja) | 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム | |
JP4926004B2 (ja) | 文書処理装置、文書処理方法及び文書処理プログラム | |
JP2014013534A (ja) | 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム | |
US8634112B2 (en) | Document processing apparatus for generating an electronic document | |
JPH11272654A (ja) | 文書編集装置及び方法 | |
CN100447805C (zh) | 文档处理装置和文档处理方法 | |
JP2005258592A (ja) | フォーマット変換装置およびファイル検索装置 | |
JPS60100223A (ja) | 索引自動作成機能を有する文書作成・管理装置 | |
JPH06131225A (ja) | 文書処理方法及び装置 | |
JP4682747B2 (ja) | 文書処理装置、ルールデータ生成方法およびプログラム | |
JP4457807B2 (ja) | 文書処理装置およびプログラム | |
JP2005267057A (ja) | テキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラム | |
JP2006085583A (ja) | 文書処理装置およびプログラム | |
JP4255766B2 (ja) | イメージ処理システム及びイメージ処理装置 | |
KR100544375B1 (ko) | 문서파일로부터 명함정보를 추출하기 위한 장치와 방법,및 상기 방법을 기록한 기록매체 | |
JP2006004050A (ja) | 画像処理装置、画像読み取り装置およびプログラム | |
KR102253751B1 (ko) | 워드프로세서와 데이터베이스를 연동하여 문서를 생성하는 시스템 및 방법 | |
JP4131847B2 (ja) | 帳合帳票ファイル作成装置及び仕分けシステムとその方法、並びにプログラム | |
JP2023137930A (ja) | 情報処理装置、帳票作成システム、情報処理方法およびプログラム | |
JP2007011683A (ja) | 文書管理支援装置 | |
JP3938469B2 (ja) | 略注記表示文字列作成法、及び略注記表示文字列作成用装置、並びに略注記表示文字列作成用プログラム格納記録媒体 | |
JPS61195455A (ja) | 文書作成装置 | |
JP5233213B2 (ja) | 画像処理装置、画像処理方法および画像処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070719 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100510 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100806 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100914 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101112 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20101130 |