[go: up one dir, main page]

JP2006059075A - 文書処理装置およびプログラム - Google Patents

文書処理装置およびプログラム Download PDF

Info

Publication number
JP2006059075A
JP2006059075A JP2004239479A JP2004239479A JP2006059075A JP 2006059075 A JP2006059075 A JP 2006059075A JP 2004239479 A JP2004239479 A JP 2004239479A JP 2004239479 A JP2004239479 A JP 2004239479A JP 2006059075 A JP2006059075 A JP 2006059075A
Authority
JP
Japan
Prior art keywords
data
item
document
name
name data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004239479A
Other languages
English (en)
Inventor
Naoko Sato
直子 佐藤
Masatoshi Tagawa
昌俊 田川
Michihiro Tamune
道弘 田宗
Atsushi Ito
篤 伊藤
Kiyoshi Tashiro
潔 田代
Hiroshi Masuichi
博 増市
Tsuguaki Ryu
紹明 劉
Kyosuke Ishikawa
恭輔 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2004239479A priority Critical patent/JP2006059075A/ja
Priority to US11/080,621 priority patent/US20060039045A1/en
Priority to CNB2005100554130A priority patent/CN100361493C/zh
Publication of JP2006059075A publication Critical patent/JP2006059075A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 紙文書を電子化して保存する際に、ユーザに何ら負担をかけることなく、その紙文書の記載内容に応じた名称を付与して電子化することを可能にする。
【解決手段】 文書を電子化して保存する文書処理装置に、文書の各ページの画像に対応するページ画像データが入力された場合に、該ページ画像データを解析し、該ページ画像データに対応する文書に記載されている項目毎にその記載内容を特定し、その記載内容を表す文字列である項目データを抽出する抽出手段と、前記抽出手段により抽出された項目データを連結し、前記文書に付与する名称を表す文字列である名称データを生成する生成手段と、前記生成手段により生成された名称データと前記入力手段へ入力された各ページ画像データとを対応付けて記憶する記憶手段を設ける。
【選択図】 図3

Description

紙文書を電子化して蓄積する技術に関し、特に、紙文書毎に固有の名称を付与して電子化し蓄積する技術に関する。
紙文書(以下、単に「文書」ともいう)は、情報の伝達や記録を行うための媒体として優れたものであるが、これを保存するために書庫などのスペースが必要になる、といった問題点がある。また、情報を紙文書に記録して保存している場合、後にその紙文書に記録された情報が必要になったときには、書庫などに収納されている多くの紙文書のなかから目的とする情報が記録された紙文書を探し出さなければならない。つまり、情報を紙文書に記録して保存するという形態は、業務の効率化の観点からも好ましくない。
このような背景の下、紙文書を電子化して保存することが行われるようになってきている。具体的には、スキャナ装置などによって紙文書の各ページに対応する画像を読み取り、その画像に対応する画像データ(以下、「ページ画像データ」と呼ぶ)を紙文書毎にファイル化してハードディスクなどの記憶装置に記憶させることが行われるよになってきている。
ところで、上記ファイルをハードディスクなどに書き込む場合には、各ファイル毎に固有の名称(以下、「ファイル名」とも呼ぶ)を付与する必要があり、このようなことは以下のようにして為されることが一般的であった。すなわち、予めユーザによって指定された情報(例えば、キーボード等を用いて入力された情報や手書き入力された情報)を元に上記ファイル名を決定することや、"Scan1、Scan2…"のようにデフォルト文字列+連続数字でファイル名を生成すること、スキャンした日付や時刻を表す文字列を用いることなどである(例えば、特許文献1参照)。
特開2002−74321号公報
しかしながら、ファイル名を予めユーザに指定させる場合には、大量の紙文書を一括して電子化する場合に、ユーザに非常に重い負担をかけてしまうといった問題点がある。一方、連続数字や、日付等を用いて自動的にファイル名を生成する場合には、大量の紙文書を電子化する場合であっても、このような問題が発生することはない。しかしながら、このようにして付与されたファイル名は、そのファイルに対応する紙文書の内容などを表していないため、後日、必要な情報が含まれているファイルを探し出す際に、ファイルの内容を一々確認しなければならず、甚だ不便である。
本発明は、上記課題に鑑みて為されたものであり、紙文書を電子化して保存する際に、ユーザに何ら負担をかけることなく、その紙文書の内容に応じた名称を付与して電子化することを可能にする技術を提供することを目的としている。
上記課題を解決するために、本発明は、文書の各ページの画像に対応するページ画像データが入力される入力手段と、前記入力手段へ入力されたページ画像データを解析し、該ページ画像データに対応する文書に記載されている項目毎にその記載内容を特定し、その記載内容を表す文字列である項目データを抽出する抽出手段と、前記抽出手段により抽出された項目データを連結し、前記文書に付与する名称を表す文字列である名称データを生成する生成手段と、前記生成手段により生成された名称データと前記入力手段へ入力された各ページ画像データとを対応付けて記憶装置へ書き込む書き込み手段とを有する文書処理装置を提供する。
このような文書処理装置によれば、文書の各ページの画像に対応するページ画像データと、その文書の記載内容に応じた名称データとが互いに対応付けられて上記記憶装置へ書き込まれる。
より好ましい態様においては、文書の種類を表す文字列であるカテゴリデータが予め記憶されている記憶手段を備え、前記生成手段は、前記抽出手段により抽出された項目データのうち、前記記憶手段に記憶されているカテゴリデータと一致するものを除いて、前記名称データを生成することを特徴とする。このような態様にあっては、同種の文書に共通して記載されている項目であって、これら文書を他の種類の文書と分類する際に用いられる項目についての項目データであるカテゴリデータを除いて上記名称データが生成される。これにより、同種の文書に共通して含まれている項目についての項目データを上記名称データから排除すること、すなわち、これら同種の文書については識別性のない項目データを排除して名称データを生成することが可能になる、といった効果を奏する。
より好ましい態様においては、文書の各ページに記載されている項目の重要度を表す重要度データが項目毎に記憶されている記憶手段を備え、前記生成手段は、前記抽出手段により抽出された項目データを連結して前記名称データを生成する際に、各項目データに対応する項目の重要度を前記記憶手段の記憶内容を参照して特定し、重要度の降順或いは昇順に所定の数だけ連結して前記名称データを生成することを特徴とする。このような態様にあっては、各文書に含まれている項目の重要度を反映した名称データが生成される。これにより、各ページ画像データに対応付けて記憶されている名称データを参照することで、そのページ画像データに対応する文書に記載内容の重要度を把握することが可能になるとともに、その名称データのデータ長が増加することを抑止することが可能になる、といった効果を奏する。
より好ましい態様においては、文書の各ページに対応するページ画像データに対応付けて該文書について前記生成手段により生成された名称データと該文書の各ページに記載されている項目の一覧を表す項目リストとが記憶されている記憶手段を備え、前記入力手段へ入力された各ページ画像データに基づいて生成した名称データが、前記記憶手段に記憶されている他の名称データと一致する場合に、前記抽出手段により抽出された項目データのうちで該他の名称データの生成の際に用いられていない項目である未使用項目の記載内容を表す項目データを該他の名称データに対応付けて前記記憶手段に記憶されている項目リストに基づいて特定し、該未使用項目に対応する項目データを用いて名称データを生成し直すことを特徴とする。このような態様にあっては、文書の各ページに対応するページ画像データが既に上記記憶手段に記憶されている場合であっても、その文書に付与されている名称データとは異なる名称データを付与して新たなページ画像データを記憶すること、すなわち、各文書に付与される名称データに重複が発生することを確実に回避することが可能になるといった効果を奏する。
より好ましい態様においては、文書の各ページに対応するページ画像データに対応付けて該文書について前記生成手段により生成された名称データと該文書の各ページに記載されている項目の一覧を表す項目リストとが記憶されている記憶手段を備え、前記記憶手段に記憶されている名称データの各々について、前記生成手段により生成された名称データと一致する重複名称データであるか否かを判別する判別手段と、前記重複名称データであると前記判別手段により判別された名称データについて、該名称データの生成に用いられていない項目である未使用項目を該名称データに対応付けて前記記憶手段に記憶されている項目リストに基づいて特定する特定手段と、前記重複名称データであると前記判別手段により判別された名称データを、前記特定手段により特定された未使用項目の項目データを用いて生成される新たな名称データで書き換える書換え手段とを有することを特徴とする。このような態様も、各文書に付与される名称データに重複が発生することを確実に回避することが可能になるといった効果を奏する。
また、上記課題を解決するために、本発明は、コンピュータ装置を、文書の各ページの画像に対応するページ画像データが入力された場合に、該ページ画像データを解析し、該ページ画像データに対応する文書に記載されている項目毎にその記載内容を特定し、その記載内容を表す文字列である項目データを抽出する抽出手段と、前記抽出手段により抽出された項目データを連結し、前記文書に付与する名称を表す文字列である名称データを生成する生成手段と、前記生成手段により生成された名称データと前記入力手段へ入力された各ページ画像データとを対応付けて記憶装置へ書き込む書き込み手段として機能させるプログラムを提供する。また、本発明の別の態様にあっては、コンピュータ装置読取可能な記録媒体に上記プログラムを記録して提供するとしても良い。
このようなプログラムによれば、文書の各ページの画像に対応するページ画像データとその文書の記載内容に応じた名称データとが互いに対応付けられて上記記憶装置へ書き込まれる。
本発明によれば、紙文書を電子化して保存する際に、繁雑な操作を行うことをユーザに強いることなく、各文書にその内容に応じた名称を付与して電子化することが可能になるといった効果を奏する。
以下、図面を参照しつつ本発明を実施する際の最良の形態について説明する。
[A:構成]
図1は、本発明の1実施形態に係る文書処理装置110を有する文書電子化システム10の構成例を示すブロック図である。図1の画像読取装置120は、例えばADF(Auto Document Feeder)などの自動給紙機構を備えたスキャナ装置であり、ADFにセットされた紙文書を1ページずつ読み取り、読み取った画像に対応するページ画像データをLAN(Local Area Network)などの通信線130を介して文書処理装置110へ引渡すものである。なお、本実施形態では、通信線130がLANである場合について説明するが、WAN(Wide Area Network)やインターネットなどを含んでいても良いことは勿論である。また、本実施形態では、文書処理装置110と画像読取装置120とを夫々個別のハ
ードウェアとして構成する場合について説明するが、両者を一体のハードウェアで構成するとしても良いことは勿論である。このような態様にあっては、通信線130は、係るハードウェア内で文書処理装置110と画像読取装置120とを接続する内部バスである。
図1の文書処理装置110は、画像読取装置120から引渡されたページ画像データをファイル化し、固有の名称を付与して記憶し蓄積するものであり、図2に示す構成を有している。図2に示されているように、文書処理装置110は、制御部200と、通信インターフェイス(以下、IF)部210と、記憶部220と、これら各構成要素間のデータ授受を仲介するバス230と、を備えている。
制御部200は、例えばCPU(Central Processing Unit)であり、後述する記憶部220に記憶されている各種ソフトウェアを実行することによって、文書処理装置110の各部を制御するものである。通信IF部210は、通信線130を介して画像読取装置120に接続されており、この通信線130を介して画像読取装置120から送られてくるページ画像データを受取り、制御部200へ引渡すものである。つまり、この通信IF部210は、画像読取装置120から送られてくるページ画像データが入力される入力手段として機能する。
記憶部220は、図2に示されているように、揮発性記憶部220aと不揮発性記憶部220bとを含んでいる。揮発性記憶部220aは、例えばRAM(Random Access Memory)であり、後述する各種ソフトウェアにしたがって作動している制御部200によってワークエリアとして利用されたり、通信IF部210から引渡されたページ画像データを一時的に蓄積するバッファとして機能する。一方、不揮発性記憶部220bは、例えば、ハードディスクであり、上記ページ画像データをファイル化して記憶し蓄積するためのものである。なお、本実施形態では、文書処理装置110へ入力されたページ画像データをその文書処理装置110に備えられている記憶部へ書き込む場合について説明するが、この文書処理装置110とは別体の記憶装置に上記ページ画像データを文書毎にファイル化して書き込むようにしても良い。また、この不揮発性記憶部220bには、本実施形態に係る文書処理装置110に特有な機能を制御部200に実現させるためのソフトウェアが格納されている。不揮発性記憶部220bに格納されているソフトウェアの一例としては、オペレーティングシステム(Operating System 以下、「OS」)を制御部200に実現させるためのOSソフトウェアや、紙文書電子化ソフトウェアとが挙げられる。ここで、紙文書電子化ソフトウェアとは、上記ページ画像データの内容に基づいてそのページ画像データに対応するページで構成される紙文書に付与する名称を表す名称データを生成し、その名称データと上記ページ画像データとを対応付けて不揮発性記憶部220bへ書き込む処理を制御部200に行わせるためのソフトウェアである。以下、これらソフトウェアを実行することによって制御部200に付与される機能について説明する。
文書処理装置110の電源(図示省略)が投入されると、制御部200は、まず、OSソフトウェアを不揮発性記憶部220bから読み出し実行する。OSソフトウェアにしたがって作動しOSを実現している状態の制御部200には、文書処理装置110の各部を制御する機能や、他のソフトウェアを不揮発性記憶部220bから読み出し実行する機能が付与される。本実施形態では、上記OSソフトウェアの実行を完了し、OSを実現している状態の制御部200は、即座に、上記紙文書電子化ソフトウェアを不揮発性記憶部220bから読み出し、これを実行する。図3は、紙文書電子化ソフトウェアにしたがって作動している制御部200が行う紙文書電子化処理の流れを示すフローチャートである。図3に示されているように、上記紙文書電子化ソフトウェアにしたがって作動している制御部200には、以下に述べる3つの機能が付与される。
第1に、通信IF部210を介して入力され揮発性記憶部220aに蓄積されたページ画像データの内容を解析し、該ページ画像データに対応するページに記載されている項目毎にその記載内容を表す文字列である項目データを抽出する抽出機能である。第2に、上記抽出機能により抽出された項目データを連結し、上記ページ画像データに付与する名称を表す文字列である名称データを生成する生成機能である。そして、第3に、上記生成機能により生成された名称データと上記ページ画像データとを対応付けて不揮発性記憶部220bへ書き込み記憶する記憶機能である。
以上に説明したように、本実施形態に係る文書処理装置110のハードウェア構成は一般的なコンピュータ装置と同一であり、不揮発性記憶部220bに格納されている各種ソフトウェアにしたがって制御部200を作動させることによって、本発明に係る文書処理装置に特有な機能が実現される。このように、本実施形態では、本発明に係る文書処理装置に特有な機能をソフトウェアモジュールで実現する場合について説明したが、これらの機能を担っているハードウェアモジュールで本発明に係る文書処理装置を構成するとしても良いことは勿論である。具体的には、画像読取装置120からページ画像データが入力される入力手段と、上記抽出機能を担っている抽出手段と、上記生成機能を担っている生成手段と、この生成手段により生成された名称データと上記入力手段へ入力されたページ画像データとを対応付けてハードディスクなどの記憶装置へ書き込む書き込み手段とを夫々ハードウェアモジュールで実現し、これらハードウェアモジュールを図3に示すフローチャートにしたがって連携作動させるように組み合わせて、本発明に係る文書処理装置を構成するとしても良い。
[B:動作]
次いで、文書処理装置110が行う動作のうち、その特徴を顕著に示す動作について図面を参照しつつ説明する。
まず、ユーザが画像読取装置120のADFに紙文書をセットし、所定の操作(例えば、画像読取装置120の操作部に設けられている起動ボタンの押下など)を行うと、その紙文書の各ページに対応する画像が画像読取装置120によって読み取られ、各ページの画像に対応するページ画像データが通信線130を介して画像読取装置120から文書処理装置110へ送られる。
一方、文書処理装置110の制御部200は、通信IF部210を介して上記ページ画像データが入力されると、上記紙文書の全てのページについてのページ画像データが入力されるまでそのページ画像データをその入力順に揮発性記憶部220aへ書き込み蓄積する。そして、全てのページについてのページ画像データが入力されると、制御部200は図3に示すフローチャートにしたがって、上記紙文書に付与する名称を表す名称データを生成し、その名称データと上記揮発性記憶部220aに蓄積されているページ画像データとを対応付けて不揮発性記憶部220bへ書き込み、上記紙文書を電子化する。以下、制御部200が行う動作について、図3を参照しつつ説明する。
図3は、制御部200が行う紙文書電子化処理の流れを示すフローチャートである。図3に示されているように、制御部200は、まず、揮発性記憶部220aに蓄積されているページ画像データの各々に対して言語解析やレイアウト解析などの処理を施してその内容を解析し、そのページ画像データに対応するページに記載されている項目毎にその記載内容を表す項目データを抽出する(ステップSA1)。以下では、外出旅費精算のための1ページの紙文書(以下、「文書A」)に対応するページ画像データ(以下、「ページ画像データA」と呼ぶ)が入力され、図4(a)に示す項目データが抽出された場合について説明する。
次いで、制御部200は、上記ステップSA1にて抽出した項目データを連結して、上記文書Aに付与する名称を表す名称データを生成する(ステップSA2)。本実施形態では、上記文書Aに対しては、図4(a)に示す項目データが上記ステップSA1にて抽出されているのであるから、上記ステップSA2にて図4(b)に示す名称データが生成されることになる。
そして、制御部200は、上記ページ画像データAと上記ステップSA2にて生成した名称データとを対応付けて、不揮発性記憶部220bへ書き込み記憶する(ステップSA3)。具体的には、制御部200は、ページ画像データAを不揮発性記憶部220bの空き領域へ書き込むとともに、そのページ画像データAを書き込んだ領域の先頭アドレスやその先頭アドレスを表すデータ(例えば、iノード番号など)と上記名称データとを対応付けて所定の管理ファイル(例えば、ディレクトリファイルやiノードリストなど)へ書き込み、そのページ画像データを記憶する。なお、本動作例では、電子化対象の紙文書が1ページで構成されている場合について説明したが、電子化対象の紙文書が複数ページで構成されている場合には、それら各ページに対応するページ画像データをファイル化した後に上記空き領域へ書き込むようにすれば良い。
以上に説明したように、本実施形態に係る文書処理装置110によれば、ユーザが特別な操作を行わなくても、紙文書の各ページに対応するページ画像データとその紙文書の記載内容に応じた名称データとが対応付けて記憶される。このように、本実施形態に係る文書処理装置110によれば、紙文書を電子化して保存する際に、ユーザに係る負担を軽減しつつ、その紙文書の記載内容に応じた名称を付与して電子化することが可能になる、といった効果を奏する。
[C.変形]
以上、本発明を実施する際の最良の形態について説明したが、以下に述べるような変形を加えても良いことは勿論である。
(C−1:変形例1)
上述した実施形態では、1つの紙文書が画像読取装置120のADFにセットされる場合について説明した。しかしながら、複数の紙文書を上記ADFにセットし、これら複数の紙文書の各々についてその記載内容に応じた名称を付与して電子化することも可能である。このようなことは、各紙文書の区切りを文書処理装置110に検出させ、その区切りが検出されるまでに揮発性記憶部220aに蓄積させたページ画像データに対して上記紙文書電子化処理(図3参照)を施すようにすることで実現される。なお、文書処理装置110に、上記文書の区切りを検出させる手法としては、例えば、各文書間に文書の区切りを表す所定の用紙(以下、「区切り用紙」と呼ぶ)を挿入しておき、その区切り用紙の画像に対応するページ画像データに基づいて、文書の区切りを検出させる手法や、各文書の最終ページの余白に最終ページであることを表すマークなどを付与しておき、そのマークに対応する画像を検出させることで、文書の区切りを検出させる手法などが挙げられる。
(C−2:変形例2)
上述した実施形態では、ページ画像データを解析して得られる項目データを全て連結してそのページ画像データに付与する名称を表す名称データを生成する場合について説明した。しかしながら、ページ画像データを解析して得られる項目データのうち、そのページ画像データに対応する文書の種類を表す項目の記載内容を表す項目データ(以下、「カテゴリデータ」)を除いて上記名称データを生成するとしても良い。このようなことは、上記カテゴリデータを予め記憶部220に記憶させておくとともに、図3に示す紙文書電子化処理に代えて、図5に示す紙文書電子化処理を制御部200に実行させるようにすることで実現される。
図5に示す紙文書電子化処理が図3に示す紙文書電子化処理と異なっている点は、ステップSA1にて抽出された項目データのうち、上記カテゴリデータに一致する項目データをステップSB1にて削除した後に、ステップSA2の処理を実行し名称データを生成する点である。より詳細に説明すると、図5のステップSB1においては、制御部200は、ステップSA1にて抽出された項目データの各々について不揮発性記憶部220bに記憶されているカテゴリデータと一致するか否かを判定し、一致すると判定したものを削除する。これにより、上記カテゴリデータに一致する項目データを除いて上記名称データを生成することが可能になる。
ここで、上記カテゴリデータに一致する項目データを除いて上記名称データを生成する理由は以下の通りである。すなわち、同種の文書については必ず同一のカテゴリデータが含まれており、そのようなカテゴリデータを名称データに含めたとしても、その識別性に寄与しないからである。また、このようなカテゴリデータは、図6に示すように各文書をその種類毎に分類して蓄積する際に、係る分類を行うためのフォルダ名として利用されることが一般的であり、そのようなカテゴリデータを上記名称データに含ませることは冗長だからである。このように、本変形例によれば、同種の文書間での識別性に寄与しない項目データを除外し、冗長性のない名称データを生成することが可能になるといった効果を奏する。
(C−3:変形例3)
上述した実施形態では、ページ画像データを解析して得られる項目データを全て連結してそのページ画像データに付与する名称を表す名称データを生成する場合について説明した。しかしながら、ファイルに付与することができる名称の文字数(バイト数)については、各OS毎に予め上限値が設けられていることが一般的であるから、上記項目データを連結して名称データを生成する際に、連結する項目データの個数を予め定めておくとして勿論良い。より詳細には、各文書に記載されている項目毎にその重要度を定めておき、ページ画像データを解析して得た項目データのうちで重要度の降順或いは昇順に所定の数だけ連結して上記名称データを生成するとしても良い。このようなことは、以下のようにして実現される。
まず、図7に示す重要度テーブルを文書処理装置の不揮発性記憶部220bに格納しておく。この重要度テーブルには、各文書に記載されている項目の重要度を表す重要度データが項目毎に格納されており、重要度データの値が大きい程重要な項目であることを表している。なお、本変形例では、不揮発性記憶部220bに1つの重要度テーブルを予め格納しておく場合について説明するが、文書の種類毎に異なる重要度テーブルを格納しておくとしても勿論良い。その理由は、同一の項目であっても、文書の種類毎にその重要度が異なることがありえるからである。
そして、図3に示す紙文書電子化処理に代えて図8に示す紙文書電子化処理を制御部200に実行させるようにすれば、ページ画像データを解析して得た項目データをその重要度の降順に所定の数だけ連結して上記名称データを生成することが達成される。この図8に示すフローチャートと図3に示すフローチャートとが異なっている点は、ステップSA1にて抽出した項目データのうちから、重要度の高い項目の記載内容を表す項目データを所定の数だけ選択するステップSC1を設け、このステップSC1にて選択された項目データを前述したステップSA2にて連結し名称データを生成するようにした点である。より詳細に説明すると、図7のステップSC1においては、制御部200は、ステップSA1にて抽出した項目データの各々について、その項目データに対応する項目の重要度を上記重要度テーブル(図7参照)の格納内容を参照して特定し、その重要度が高いものから順に所定の数だけ抽出する。例えば、上記所定の数が3である場合には、重要度が高いものから順に3つの項目データが連結されて名称データが生成されるのであるから、図4(a)に示す項目データが抽出されている場合には、図7(b)に示す名称データが生成されることになる。なお、本変形例では、ステップSA1にて抽出した項目データのうちから、対応する項目の重要度が高いものから順に所定の数だけ抽出する場合について説明したが、対応する項目の重要度が低いものから順に所定の数だけ抽出するようにしても勿論良い。このようにすると、上記ステップSA1にて抽出した項目データをその重要度が低い順に所定の数だけ連結して名称データを生成することが可能になる。
(C−4:変形例4)
上述した実施形態では、文書処理装置110の不揮発性記憶部220bに予めページ画像データが格納されていない場合について説明した。しかしながら、既にページ画像データが書き込まれている不揮発性記憶部220bに対してページ画像データの追加書き込みを行うようにしても勿論良い。ただし、このような場合には、既に不揮発性記憶部220bに格納されているページ画像データと新たに格納するページ画像データとで名称が重複しないようにする必要があり、このようなことは、上記実施形態にて説明した文書処理装置を以下に説明するように変形することで実現される。
まず、図9に示す項目リストテーブルを各ページ画像データに対応付けて不揮発性記憶部220bへ格納しておく。この項目リストテーブルには、その項目リストテーブルに対応付けられているページ画像データに対応する文書に記載されている項目を表すデータ(例えば、その項目の名称を表す文字列:以下、項目識別子と呼ぶ)に対応付けて、その項目識別子で示される項目の記載内容を表す項目データが名称データの生成に利用されているか否かを表すデータ(例えば、“0”または“1”の何れかの値を有するフラグ:以下、使用状況フラグ)が格納されている。例えば、図9に示す項目リストテーブルでは、使用状況フラグの値が“0”である項目識別子は、その項目識別子の記載内容に対応する項目データが名称データの生成に利用されていないことを表している。つまり、項目リストテーブルの格納内容を参照することにより、その項目リストテーブルに対応付けられているページ画像データに対応する文書に記載されている項目や、それら項目のうち、何れの項目の記載内容がそのページ画像データの名称に反映されているかを把握することができる。
図10は、本変形例に係る文書処理装置の制御部200が行う紙文書電子化処理の流れを示すフローチャートである。図10に示す紙文書電子化処理が図3に示す紙文書電子化処理と異なっている点は、ステップSA2にて生成した名称データが、不揮発性記憶部220bに既に格納されている名称データと一致するか否かを判定する処理(図10:ステップSD1)と、ステップSD1の判定結果が“Yes”である場合に、ステップSA2にて生成した名称データを生成し直す処理(図10:ステップSD2)とを行うようにした点とである。
より詳細に説明すると、図10のステップSD2においては、制御部200は、ステップSD1にて一致すると判定された名称データに対応付けて不揮発性記憶部220bに格納されている項目リストテーブルを参照し、その名称データの生成に使用されていない項目(以下、「未使用項目」と呼ぶ)を特定する。次いで、制御部200は、ステップSA1にて抽出した項目データのうち、上記未使用項目の記載内容を表す項目データのみを連結して名称データを生成し直す。これにより、不揮発性記憶部220bに既にページ画像データが格納されている場合であっても、同一の名所が重複して付与されることを回避することが可能になる。なお、本変形例では、上記未使用項目に対応する項目データのみを用いて名称データを生成し直す場合について説明したが、生成済みの名称データに上記未使用項目に対応する項目データを付加してその名称データを生成し直すとしても良く、また、名称データの生成に用いられている項目データの一部を上記未使用項目に対応する個目データの一部と入れ替えてその名称データを生成し直すとしても良い。要は、上記未使用項目に対応する項目データを用いて名称データを生成し直し、既存の名称データと異なる名称データを生成する態様であれば何れであっても良い。また、本変形例では、新たに格納するページ画像データに付与する名称を表す名称データを生成し直す場合について説明したが、不揮発性記憶部220bに格納されている名称データ(すなわち、既に不揮発性記憶部220bに格納済みのページ画像データに付与されている名称を表す名称データ)の方を更新するとしても勿論良い。
(C−5:変形例5)
上述した実施形態では、本発明に係る文書処理装置に特有な機能を制御部200に実現させるためのソフトウェアを不揮発性記憶部220bに予め記憶させておく場合について説明した。しかしながら、例えばCD−ROM(Compact Disk- Read Only Memory)やDVD(Digital Versatile Disk)などのコンピュータ装置読み取り可能な記録媒体に、上記ソフトウェアを記録しておき、このような記録媒体を用いて一般的なコンピュータ装置に上記ソフトウェアをインストールするとしても良いことは勿論である。このようにすると、一般的なコンピュータ装置を本発明に係る文書処理装置として機能させることが可能になるといった効果を奏する。
本発明の1実施形態に係る文書処理装置110を有する文書電子化システムの全体構成の一例を示す図である。 同文書処理装置110のハードウェア構成の一例を示す図である。 同文書処理装置110の制御部200が紙文書電子化ソフトウェアにしたがって行う紙文書電子化処理の流れを示すフローチャートである。 同文書処理装置110によって抽出される項目データと、その項目データに基づいて生成される名称データとの関係を示す図である。 変形例2に係る文書処理装置の制御部200が行う紙文書電子化処理の流れを示すフローチャートである。 同変形例2に係る文書処理装置の不揮発性記憶部220b内のディレクトリ構成の一例を示す図である。 変形例3に係る文書処理装置の記憶部220に格納されている重要度テーブルの一例を示す図である。 同変形例3に係る文書処理装置の制御部200が行う紙文書電子化処理の流れを示すフローチャートである。 変形例4に係る文書処理装置の記憶部220に格納されている項目リストテーブルの一例を示す図である。 同変形例4に係る文書処理装置の制御部200が行う紙文書電子化処理の流れを示すフローチャートである。
符号の説明
10…文書電子化システム、110…文書処理装置、120…画像読取装置、130…通信線、200…制御部、210…通信IF部、220…記憶部、220a…揮発性記憶部、220b…不揮発性記憶部。

Claims (6)

  1. 文書の各ページの画像に対応するページ画像データが入力される入力手段と、
    前記入力手段へ入力されたページ画像データを解析し、該ページ画像データに対応する文書に記載されている項目毎にその記載内容を特定し、その記載内容を表す文字列である
    項目データを抽出する抽出手段と、
    前記抽出手段により抽出された項目データを連結し、前記文書に付与する名称を表す文字列である名称データを生成する生成手段と、
    前記生成手段により生成された名称データと前記入力手段へ入力された各ページ画像データとを対応付けて記憶装置へ書き込む書き込み手段と
    を有する文書処理装置。
  2. 文書の種類を表す文字列であるカテゴリデータが記憶されている記憶手段を備え、
    前記生成手段は、
    前記抽出手段により抽出された項目データのうち、前記記憶手段に記憶されているカテゴリデータと一致するものを除いて、前記名称データを生成する
    ことを特徴とする請求項1に記載の文書処理装置。
  3. 文書に記載されている項目の重要度を表す重要度データがその項目毎に記憶されている
    記憶手段を備え、
    前記生成手段は、
    前記抽出手段により抽出された項目データを連結して前記名称データを生成する際に、
    各項目データに対応する項目の重要度を前記記憶手段の記憶内容を参照して特定し、重要度の降順或いは昇順に所定の数だけ連結して前記名称データを生成する
    ことを特徴とする請求項1に記載の文書処理装置。
  4. 文書の各ページに対応するページ画像データに対応付けて該文書について前記生成手段により生成された名称データと該文書の各ページに記載されている項目の一覧を表す項目リストとが記憶されている記憶手段を備え、
    前記生成手段は、
    前記入力手段へ入力された各ページ画像データに基づいて生成した名称データが、前記記憶手段に記憶されている他の名称データと一致する場合に、前記抽出手段により抽出された項目データのうちで該他の名称データの生成の際に用いられていない項目である未使用項目の記載内容を表す項目データを該他の名称データに対応付けて前記記憶手段に記憶されている項目リストに基づいて特定し、該未使用項目に対応する項目データを用いて名称データを生成し直す
    ことを特徴とする請求項1に記載の文書処理装置。
  5. 文書の各ページに対応するページ画像データに対応付けて該文書について前記生成手段により生成された名称データと該文書の各ページに記載されている項目の一覧を表す項目リストとが記憶されている記憶手段を備え、
    前記記憶手段に記憶されている名称データの各々について、前記生成手段により生成された名称データと一致する重複名称データであるか否かを判別する判別手段と、
    前記重複名称データであると前記判別手段により判別された名称データについて、該名称データの生成に用いられていない項目である未使用項目を該名称データに対応付けて前記記憶手段に記憶されている項目リストに基づいて特定する特定手段と、
    前記重複名称データであると前記判別手段により判別された名称データを、前記特定手段により特定された未使用項目の項目データを用いて生成される新たな名称データで書き換える書換え手段と
    を有することを特徴とする請求項1に記載の文書処理装置。
  6. コンピュータ装置を、
    文書の各ページの画像に対応するページ画像データが入力された場合に、該ページ画像データを解析し、該ページ画像データに対応する文書に記載されている項目毎にその記載内容を特定し、その記載内容を表す文字列である項目データを抽出する抽出手段と、
    前記抽出手段により抽出された項目データを連結し、前記文書に付与する名称を表す文字列である名称データを生成する生成手段と、
    前記生成手段により生成された名称データと前記入力手段へ入力された各ページ画像データとを対応付けて記憶装置へ書き込む書き込み手段
    として機能させるプログラム。
JP2004239479A 2004-08-19 2004-08-19 文書処理装置およびプログラム Pending JP2006059075A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004239479A JP2006059075A (ja) 2004-08-19 2004-08-19 文書処理装置およびプログラム
US11/080,621 US20060039045A1 (en) 2004-08-19 2005-03-16 Document processing device, document processing method, and storage medium recording program therefor
CNB2005100554130A CN100361493C (zh) 2004-08-19 2005-03-17 文档处理装置和文档处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004239479A JP2006059075A (ja) 2004-08-19 2004-08-19 文書処理装置およびプログラム

Publications (1)

Publication Number Publication Date
JP2006059075A true JP2006059075A (ja) 2006-03-02

Family

ID=35909340

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004239479A Pending JP2006059075A (ja) 2004-08-19 2004-08-19 文書処理装置およびプログラム

Country Status (3)

Country Link
US (1) US20060039045A1 (ja)
JP (1) JP2006059075A (ja)
CN (1) CN100361493C (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7502789B2 (en) * 2005-12-15 2009-03-10 Microsoft Corporation Identifying important news reports from news home pages
JP4645498B2 (ja) * 2006-03-27 2011-03-09 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP2008090758A (ja) * 2006-10-04 2008-04-17 Fuji Xerox Co Ltd 情報処理システムおよび情報処理プログラム
US8185452B2 (en) * 2006-12-19 2012-05-22 Fuji Xerox Co., Ltd. Document processing system and computer readable medium
JP2008160760A (ja) * 2006-12-26 2008-07-10 Fuji Xerox Co Ltd 文書処理システムおよび文書処理指示装置および文書処理プログラム
CN101226596B (zh) * 2007-01-15 2012-02-01 夏普株式会社 文档图像处理装置以及文档图像处理方法
CN101226595B (zh) * 2007-01-15 2012-05-23 夏普株式会社 文档图像处理装置以及文档图像处理方法
JP2008234592A (ja) * 2007-03-23 2008-10-02 Fuji Xerox Co Ltd 情報処理システム、画像入力表示システム、画像入力システム、情報処理プログラム、画像入力表示プログラム及び画像入力プログラム
US8073256B2 (en) * 2007-11-15 2011-12-06 Canon Kabushiki Kaisha Image processing apparatus and method therefor
JP2009169536A (ja) * 2008-01-11 2009-07-30 Ricoh Co Ltd 情報処理装置、画像形成装置、ドキュメント生成方法、ドキュメント生成プログラム
JP4517310B2 (ja) * 2008-03-27 2010-08-04 ソニー株式会社 撮像装置、文字情報関連付け方法及び文字情報関連付けプログラム
US20130124193A1 (en) * 2011-11-15 2013-05-16 Business Objects Software Limited System and Method Implementing a Text Analysis Service
CN105264544A (zh) * 2013-04-02 2016-01-20 3M创新有限公司 用于管理便条的系统和方法
CN105144198B (zh) * 2013-04-02 2021-09-14 3M创新有限公司 用于便笺识别的系统和方法
US10127196B2 (en) 2013-04-02 2018-11-13 3M Innovative Properties Company Systems and methods for managing notes
US8977047B2 (en) 2013-07-09 2015-03-10 3M Innovative Properties Company Systems and methods for note content extraction and management using segmented notes
EP3058514B1 (en) 2013-10-16 2020-01-08 3M Innovative Properties Company Adding/deleting digital notes from a group
WO2015057778A1 (en) 2013-10-16 2015-04-23 3M Innovative Properties Company Note recognition and association based on grouping
EP3058509A4 (en) 2013-10-16 2017-08-09 3M Innovative Properties Company Note recognition for overlapping physical notes
US9274693B2 (en) 2013-10-16 2016-03-01 3M Innovative Properties Company Editing digital notes representing physical notes
US10175845B2 (en) 2013-10-16 2019-01-08 3M Innovative Properties Company Organizing digital notes on a user interface
US9082184B2 (en) 2013-10-16 2015-07-14 3M Innovative Properties Company Note recognition and management using multi-color channel non-marker detection
WO2015116799A1 (en) * 2014-01-31 2015-08-06 3M Innovative Properties Company Note capture, recognition, and management with hints on a user interface
EP3100208B1 (en) 2014-01-31 2021-08-18 3M Innovative Properties Company Note capture and recognition with manual assist
US9690528B1 (en) 2016-03-30 2017-06-27 Konica Minolta Laboratory U.S.A., Inc. Automatically editing print job based on state of the document to be printed
CN109993619B (zh) * 2017-12-29 2022-09-30 北京京东尚科信息技术有限公司 数据处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01251229A (ja) * 1988-03-31 1989-10-06 Toshiba Corp キーワード抽出方式
JPH08166959A (ja) * 1994-12-12 1996-06-25 Canon Inc 画像処理方法
JPH11120183A (ja) * 1997-10-08 1999-04-30 Ntt Data Corp キーワード抽出方法及び装置
JP2000134441A (ja) * 1998-10-27 2000-05-12 Canon Inc 画像通信装置及び前記装置における通信制御方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5202982A (en) * 1990-03-27 1993-04-13 Sun Microsystems, Inc. Method and apparatus for the naming of database component files to avoid duplication of files
JPH08161350A (ja) * 1994-12-02 1996-06-21 Canon Inc 電子ファイリング方法および装置
JP3696915B2 (ja) * 1995-01-31 2005-09-21 キヤノン株式会社 電子ファイリング方法及び電子ファイリング装置
US6263121B1 (en) * 1998-09-16 2001-07-17 Canon Kabushiki Kaisha Archival and retrieval of similar documents
US6885481B1 (en) * 2000-02-11 2005-04-26 Hewlett-Packard Development Company, L.P. System and method for automatically assigning a filename to a scanned document
JP2002074321A (ja) * 2000-09-04 2002-03-15 Funai Electric Co Ltd 画像読取装置及びその制御方法
JP3862588B2 (ja) * 2002-04-11 2006-12-27 キヤノン株式会社 通信装置及びその制御方法
US7143114B2 (en) * 2002-04-18 2006-11-28 Hewlett-Packard Development Company, L.P. Automatic renaming of files during file management
JP2004140551A (ja) * 2002-10-17 2004-05-13 Ricoh Co Ltd ネットワーク画像通信装置
JP2004213616A (ja) * 2002-12-16 2004-07-29 Konica Minolta Holdings Inc データ管理構造書換プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01251229A (ja) * 1988-03-31 1989-10-06 Toshiba Corp キーワード抽出方式
JPH08166959A (ja) * 1994-12-12 1996-06-25 Canon Inc 画像処理方法
JPH11120183A (ja) * 1997-10-08 1999-04-30 Ntt Data Corp キーワード抽出方法及び装置
JP2000134441A (ja) * 1998-10-27 2000-05-12 Canon Inc 画像通信装置及び前記装置における通信制御方法

Also Published As

Publication number Publication date
US20060039045A1 (en) 2006-02-23
CN100361493C (zh) 2008-01-09
CN1738352A (zh) 2006-02-22

Similar Documents

Publication Publication Date Title
JP2006059075A (ja) 文書処理装置およびプログラム
US8418053B2 (en) Division program, combination program and information processing method
JP6051827B2 (ja) 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
JP4926004B2 (ja) 文書処理装置、文書処理方法及び文書処理プログラム
JP2014013534A (ja) 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
US8634112B2 (en) Document processing apparatus for generating an electronic document
JPH11272654A (ja) 文書編集装置及び方法
CN100447805C (zh) 文档处理装置和文档处理方法
JP2005258592A (ja) フォーマット変換装置およびファイル検索装置
JPS60100223A (ja) 索引自動作成機能を有する文書作成・管理装置
JPH06131225A (ja) 文書処理方法及び装置
JP4682747B2 (ja) 文書処理装置、ルールデータ生成方法およびプログラム
JP4457807B2 (ja) 文書処理装置およびプログラム
JP2005267057A (ja) テキストデータ抽出方法、検索用インデックス作成方法、電子ファイリングシステムおよびプログラム
JP2006085583A (ja) 文書処理装置およびプログラム
JP4255766B2 (ja) イメージ処理システム及びイメージ処理装置
KR100544375B1 (ko) 문서파일로부터 명함정보를 추출하기 위한 장치와 방법,및 상기 방법을 기록한 기록매체
JP2006004050A (ja) 画像処理装置、画像読み取り装置およびプログラム
KR102253751B1 (ko) 워드프로세서와 데이터베이스를 연동하여 문서를 생성하는 시스템 및 방법
JP4131847B2 (ja) 帳合帳票ファイル作成装置及び仕分けシステムとその方法、並びにプログラム
JP2023137930A (ja) 情報処理装置、帳票作成システム、情報処理方法およびプログラム
JP2007011683A (ja) 文書管理支援装置
JP3938469B2 (ja) 略注記表示文字列作成法、及び略注記表示文字列作成用装置、並びに略注記表示文字列作成用プログラム格納記録媒体
JPS61195455A (ja) 文書作成装置
JP5233213B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100309

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100806

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101112

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20101130