[go: up one dir, main page]

JP2006343964A - 文書管理システム、文書管理方法、及びプログラム - Google Patents

文書管理システム、文書管理方法、及びプログラム Download PDF

Info

Publication number
JP2006343964A
JP2006343964A JP2005168449A JP2005168449A JP2006343964A JP 2006343964 A JP2006343964 A JP 2006343964A JP 2005168449 A JP2005168449 A JP 2005168449A JP 2005168449 A JP2005168449 A JP 2005168449A JP 2006343964 A JP2006343964 A JP 2006343964A
Authority
JP
Japan
Prior art keywords
document
document data
group
document management
grouping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005168449A
Other languages
English (en)
Inventor
Shuichi Morisawa
秀一 森澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2005168449A priority Critical patent/JP2006343964A/ja
Publication of JP2006343964A publication Critical patent/JP2006343964A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 多数の文書が廃棄対象となった場合でも、廃棄対象文書に対するメンテナンス作業を簡便に行えるようにする。
【解決手段】 文書データを保管管理する文書管理システム(文書管理サーバ1)において、所定の廃棄条件を満たす文書データが保管されているか否かを判別し、前記所定の廃棄条件を満たすと判別された文書データが複数存在するとき、該複数の文書データを文書内容の類似性に応じてグループ分けする。そして、分けられたグループ毎に、前記複数の文書データを廃棄候補としてリスト表示する。また、分けられたグループ毎に、対応のグループに属する全文書データが表わす文書内容の要約を作成する。
【選択図】 図1

Description

本発明は、文書管理システム、文書管理方法、及びプログラムに関し、特に、複数の文書データを、廃棄期限を設けて保管管理する文書管理システム、該文書管理システムに適用される文書管理方法、及び該文書管理方法をコンピュータに実行させるためのプログラムに関する。
近年、電子文書をインターネット等のネットワークを通じて共有、配信することが盛んに行われているが、電子文書を電子メールに添付するには、データサイズ上の制限がある場合が多い。そのため、電子メールに添付するのではなく、共有の文書管理サーバを設け、該文書管理サーバに、利用する会社や組織に対応したフォルダを登録し、該フォルダを介してファイルをやり取りする文書管理システムが構築されている。そこでは、電子文書のアップロード、コピー、ダウンロードなどの機能を使用して、業務に必要な文書の保管、共有、あるいは配信が行われている。
この種の文書管理システムにおいてよく使用される機能に、文書の保管期限をシステムで管理する自動廃棄機能がある。この機能によれば、保管登録後に所定の期間が経過した文書、または所定の廃棄日時に至った文書が存在する場合に、システムがそれを検出してそれらを自動廃棄対象の候補としてリスト表示する。それを参照したユーザは、廃棄対象文書を実際に廃棄する指示を行ったり、廃棄期限のリセットをして保管の延長を行ったりする処置を取る。
ユーザは、このような廃棄候補のリスト表示において表示される文書の名前や書誌情報などを参照して、その文書を廃棄すべきか否かを判定している(例えば、特許文献1参照)。しかし、その文書の内容を確認してから判断したい場合には、いちいちその電子文書にアクセスしてファイルを開き参照する必要があった。
特開平09−006657号公報
しかしながら、上記従来の文書管理システムにおいて、自動廃棄対象の文書が多数存在する場合には、個々の文書ファイルを開いて内容を確かめたり、概要を表示させたりすることは煩わしいことであった。そのため、せっかく自動廃棄機能が存在しても、ユーザはそれらの確認作業や実際の削除作業をつい先延ばしにしてしまいがちであった。その結果、文書管理サーバ上に不要な文書が多数蓄積されてしまい、真に必要とされる文書へのアクセスを妨げる要因となっていた。
本発明はこのような問題点に鑑みてなされたものであって、多数の文書が廃棄対象となった場合でも、廃棄対象文書に対するメンテナンス作業を簡便に行えるようにした文書管理システム、文書管理方法、及びプログラムを提供することを目的とする。
上記目的を達成するために、請求項1記載の発明によれば、文書データを保管管理する文書管理システムにおいて、所定の廃棄条件を満たす文書データが保管されているか否かを判別する判別手段と、前記判別手段によって前記所定の廃棄条件を満たすと判別された文書データが複数存在するとき、該複数の文書データを文書内容の類似性に応じてグループ分けするグルーピング手段と、前記グルーピング手段によって分けられたグループ毎に、前記複数の文書データを廃棄候補としてリスト表示する表示手段とを有することを特徴とする文書管理システムが提供される。
また、請求項6記載の発明によれば、文書データを保管管理する文書管理システムに適用される文書管理方法において、所定の廃棄条件を満たす文書データが保管されているか否かを判別する判別ステップと、前記判別ステップにおいて前記所定の廃棄条件を満たすと判別された文書データが複数存在するとき、該複数の文書データを文書内容の類似性に応じてグループ分けするグルーピングステップと、前記グルーピングステップにおいて分けられたグループ毎に、前記複数の文書データを廃棄候補としてリスト表示する表示ステップとを有することを特徴とする文書管理方法が提供される。
さらに、上記文書管理方法をコンピュータに実行させるためのプログラムが提供される。
本発明によれば、文書データを保管管理する文書管理システムにおいて、所定の廃棄条件を満たす文書データが保管されているか否かを判別し、前記所定の廃棄条件を満たすと判別された文書データが複数存在するとき、該複数の文書データを文書内容の類似性に応じてグループ分けする。そして、分けられたグループ毎に、前記複数の文書データを廃棄候補としてリスト表示する。また、分けられたグループ毎に、対応のグループに属する全文書データが表わす文書内容の要約を作成する。
これにより、多数の文書データが廃棄対象となった場合でも、グループに属する全文書データの内容を短時間に把握でき、これらの全文書を実際に廃棄してよいか否かの判断が容易に行える。また、グループに属する全文書データに対する削除(保管停止)や廃棄期限の再設定を容易に行うことができ、廃棄対象文書に対するメンテナンス作業、すなわち実際の削除処理や廃棄期限の再設定を簡便に行うことができる。
以下、本発明を実施するための最良の形態について、図面を参照して説明する。
図1は、本発明の一実施の形態に係る文書管理システムを含む文書管理サーバとクライアントマシンとのネットワークを示すブロック図である。
文書管理サーバ1にインターネット2を介してクライアントマシン3が接続される。クライアントマシン3は、図1では1つだけ図示するが、複数存在し得る。クライアントマシン3は、インターネット2経由で文書管理サーバ1と文書データのやり取りを行い、文書管理サーバ1に接続された他のクライアントマシンとの間で文書データの共有や配信を行う。また文書管理サーバ1は記憶装置1aを備え、文書データの保管や検索などの管理用途に用いられる。
図2は、文書管理サーバ1に構築される文書管理システムの機能構成を示すブロック図である。
文書管理サーバ1は、例えば中央演算装置(CPU)、CPUが実行するプログラムを記憶するROM(Read Only Memory)、CPUが演算に使用するRAM(Random Access Memory)、入出力装置等から構成される。CPUがROMに記憶されたプログラムを実行することにより、図2に示す文書管理システムの各機能が実現される。
文書登録部C20は、クライアントマシン3からインターネット2を経由して送信されるユーザの文書データを、文書管理サーバ1の記憶装置1aの所定の記憶位置に格納するためのものである。
文書要約部C21は、文書管理サーバ1の記憶装置1aに格納された文書データの内容を解析し、その要約文を作成するためのものである。文書要約部C21の詳細な構成については、図4を参照して後で説明する。
廃棄期限設定部C22は、文書データを文書管理サーバ1の記憶装置1aに保存しておきたい期限のユーザからの指定を受けて設定するためのものである。この設定された期限に至ると、対応文書は、自動廃棄候補文書として文書管理サーバ1の画像表示装置に表示され、ユーザはその表示画面から実際に削除するか保存期限の再設定を行うかすることができる。廃棄期限設定部C22によって設定可能な廃棄期限の種別としては、指定期間の経過後の廃棄か、指定期日の到来での廃棄か、または無期限の保存かを選択できる。なお、こうした指定期間や指定期日は、文書の登録時に文書登録画面を開いて指定することも、また登録した後で文書の属性表示画面を開いて指定することも可能である。図3は、文書登録画面の一例を示す図であり、文書登録時に保存期限を5年と設定し、登録から5年後に廃棄することを設定している。
廃棄期限監視部C23は、上記のように文書データごとに設定された廃棄条件(廃棄期限)を一定時間ごとに参照し、指定期間が経過したり、指定期日が到来したりした文書データがあれば廃棄期限通知部C24に通知する。
廃棄期限通知部C24は、ユーザが文書管理システムにログインすると、廃棄期限監視部C23から通知された文書の中からユーザがアクセス権を持つ文書だけを選別し、廃棄候補文書として文書管理サーバ1の画像表示装置に表示する。
文書削除部C25は、文書管理サーバ1の記憶装置1aに格納されたユーザの文書データを削除するためのものであり、ユーザが文書一覧画面や検索結果画面、廃棄候補一覧画面などから文書を選択して削除の指示を行ったときに実行される。
文書検索部C26は、全文検索機能と属性検索機能とを実現する。全文検索機能では、文字列をユーザから指定されることによって、文書管理サーバ1の記憶装置1aから、該指定文字列を含む文書データを検索する。属性検索機能では、文書データや該文書データを収納するフォルダの持つ各種属性をユーザから指定されることによって、文書管理サーバ1の記憶装置1aから、該指定された各種属性に対応する文書データやフォルダを検索する。文書データやフォルダの持つ属性としては、文書名、URL(Uniform Resource Locator)、コメント、作成者、作成日時、更新日時、アクセス日時、データサイズ、親フォルダ名、アクセス権、各種ユーザインデックスなどがある。さらにフォルダ特有の属性としては、廃棄期限設定や更新通知設定などがある。これらは文書管理システム側で自動的に付与するものと、ユーザが文書データの登録時に手作業で入力するものとの両方がある。
文書更新部C27は、登録された文書データの内容または属性を更新するためのものである。あるユーザが更新中に他のユーザにより同時に更新が行われないように排他制御を行うべく、チェックイン・チェックアウト機能を備える。
文書コピー/移動部C28は、ユーザによって指定された文書データを別のフォルダや他のキャビネットにコピーしたり、移動したりするためのものである。
図4は、文書要約部C21の詳しい内部構成を示すブロック図である。
要約作成の対象となる文書データが文書入力部C30に入力され、文書入力部C30はこれを受け付けるものであり、文書登録部C20から直接渡されてもよいし、あるいは文書登録後に非同期サーバにより定期的に読み込まれるような実現方法でもよい。そして、文書入力部C30で受け付けた文書データは、文書記憶部C31によって文書管理サーバ1の記憶装置1aに格納される。後で述べるようにこの記憶装置1aには、入力文書データから生成された要約文も併せて格納される。
文書出力部C32は、生成された要約文を文書管理サーバ1の画像表示装置に出力するものであり、この要約文は、要約表示画面として画像表示装置に表示される。
文書処理部C33は、編集/検索等の一般的な文書処理を実施するとともに、以下に説明する文書解析部C34、文脈ベクトル生成部C35、及び文脈ベクトル比較部C36を制御して、入力文書データの要旨や要約を生成する。
文書解析部C34は、文書記憶部C31によって記憶装置1aに格納された入力文書データを読み出して解析し、単語、文および段落に分解する。この文書解析部C34において実行される文書解析方法では、形態素解析を行って文書を単語に分解したり、特定の区切りに注目して文書を段落や文に分解したりする。文脈ベクトル生成部C35は、文書解析部C34による文書解析によって得られた段落、文、単語および元の文書における文脈ベクトルを生成する。
ここで上記文脈ベクトルの生成について簡単に説明する。
文脈ベクトルの生成ではまず、要約抽出の対象となる文書の関連する分野における特徴語を挙げて特徴空間を定義する。すなわち、特徴語の種類や分野、個数については任意であり、選択に当たっての厳密さは要求されず、また特徴語の意味する内容が相互にオーバーラップしていても構わない。要約抽出の対象となる文書の分野に特有の特徴語を充実させることによって、この特徴語に基づいて生成される文脈ベクトルの精度が向上して品質の高い要約を抽出できることになる。例えばオフィスにおいて使用される文書に関連する語句ならば、「報告、承認、会議、企画、営業、勤務管理、OA機器、人事異動」などの特徴語を用意することで、要約の精度が向上できる。
単語辞書C37は、文脈ベクトルを生成する際に参照すべき単語を格納するとともに、単語辞書C37には、これらの単語の上記特徴語との関連性の有無(または関連性の強度)を表す特徴空間が示される。この特徴空間が単語の文脈ベクトルを示し、この文脈ベクトルは単語に対応付けて単語辞書C37に格納される。
図5は、単語辞書C37に格納される単語とその文脈ベクトルとの一例を示す図である。
図5において、各行に1つの単語と、その単語の文脈ベクトルとを示す。この例では単語は「報告、承認、人事異動、OA機器、ネットワーク、コンピュータ、政治、・・・」である。文脈ベクトルを構成する各要素は、各特徴語に対応する。すなわち、図5に示す例では特徴語が単語と一致しており、文脈ベクトルを構成する各要素は、特徴語「報告、承認、人事異動、OA機器、ネットワーク、コンピュータ、政治、・・・」とのそれぞれの関連を示す数字で表される。文脈ベクトルを構成する各要素における数字は、対応する特徴語との関連性(「1」は関連あり、「0」は関連なし。ここでは例示しなかったが、「1」と「0」との間の数字を用いて関連性の強度を表現してもよい)を示す。
具体的には、図5に例示した単語の文脈ベクトルでは以下のことを表現している。すなわち、例えば「承認」という単語は、特徴語「報告、承認、人事異動」とは関連があり、特徴語「OA機器、ネットワーク、コンピュータ、政治」とは関連がないということを表現している。また、例えば「OA機器」という単語は、特徴語「報告、承認、人事異動、政治」とは関連がなく、特徴語「OA機器、ネットワーク、コンピュータ」とは関連があるということを表現している。
なお、本実施の形態において文脈ベクトルを生成する際に用いる単語は、名詞およびサ変名詞(語尾に「する」と付けるとサ行変格活用動詞になる名詞)だけである。したがって、単語辞書C37に登録されている単語も名詞およびサ変名詞である。
図4に戻って、文脈ベクトル生成部C35は、単語辞書C37を参照して、文脈解析部C34によって得られた段落、文、単語および元の文書における文脈ベクトルを生成する。すなわち、先ず単語については、単語辞書C37を参照して同一の単語を検索し、対応の文脈ベクトルを求める。文については、該文を構成する各単語の文脈ベクトルを求め、得られた各文脈ベクトルを要素ごとに加算/正規化して、該文の文脈ベクトルを求める。なお、上記文脈ベクトルの正規化とは、文脈ベクトルの長さを一定の値に揃えることである。
また、段落については、該段落を構成する各文の文脈ベクトルを、上述のようにして求め、得られた各文の文脈ベクトルを要素ごとに加算/正規化して、該段落の文脈ベクトルを求める。同様に、文書については、該文書を構成する各段落の文脈ベクトルを、上述のようにして求め、得られた各段落の文脈ベクトルを要素ごとに加算/正規化して、該文書の文脈ベクトルを求める。
文脈ベクトル比較部C36は、文脈ベクトル生成部C35によって生成された文書、段落、文、単語の各文脈ベクトルに基づいて、下記のような文脈ベクトルの比較を行う。すなわち、文書の文脈ベクトルと該文書を構成する各段落の文脈ベクトルとの比較、文書の文脈ベクトルと該文書を構成する各段落にそれぞれ含まれる各文の文脈ベクトルとの比較、各段落の文脈ベクトルと各段落内の各文の文脈ベクトルとの段落ごとの比較、文書の文脈ベクトルと該文書を構成する各分の文脈ベクトルとの比較を行って、各文脈ベクトル間の距離を算出する。この2つの文脈ベクトル間の距離の算出は、正規化された両文脈ベクトルの内積を求めることによって行われる。そして、内積値が大きいほど2つの文脈ベクトル間の距離が近いと定義する。
文書処理部C33は、文脈ベクトル比較部C36によって算出された文脈ベクトル間距離の値に基づいて、内容的に文書に近い段落や文、および段落に近い文を選出し、これらを用いて、図6を参照して後述するように入力文書データの要約を生成する。こうして生成された文書の要約は、文書記憶部C31によって文書管理サーバ1の記憶装置1aに格納され、必要に応じて文書出力部C32より出力される。
図6は、図4に示す文書要約部C21において行われる要約作成処理の手順を示すフローチャートである。
ステップS51で、要約生成の対象となる文書データが、文書入力部C30を介して文書要約部C21に入力されて本要約作成処理が実行開始される。この文書データは、文書記憶部C31によって文書管理サーバ1の記憶装置1aに格納される。
ステップS52で、文書解析部C34が、記憶装置1aから文書デーを読み出して段落単位に分割する。この分割は、例えば改行を段落の区切りとする。
ステップS53で、文書解析部C34が、段落単位に分割された文書データを文単位に分割する。この分割は、例えば句点を文の区切りとする。
ステップS54で、文書解析部C34は、文単位に分割された文書データを、形態素解析によって単語に分解する。そして、得られた単語のうち名詞およびサ変名詞(以下、両者を単に単語という)のみを、ステップS51において入力された文書、ステップS52において分割された各段落、およびステップS53において分割された各文の単位で文脈ベクトル生成部C35に送出する。
ステップS55で、文脈ベクトル生成部C35が、文書の文脈ベクトル、各段落の文脈ベクトル、および各文の文脈ベクトルを次のようにして生成する。すなわち、先ず、文書を構成する各単語、各段落を構成する各単語、および各文を構成する各単語の文脈ベクトルを、単語辞書C37を参照して求める。次に、各文を構成する各単語の文脈ベクトルを要素ごとに加算し正規化して、各文の文脈ベクトルを算出する。同様に、各段落を構成する各単語の文脈ベクトルを加算し正規化して、各段落の文脈ベクトルを算出し、文書を構成する各単語の文脈ベクトルを加算し正規化して、文書の文脈ベクトルを算出する。
ステップS56で、文書ベクトル比較部C36が、ステップS55で算出された文書の文脈ベクトルと各段落の文脈ベクトルとを比較し、文書と各段落との文脈ベクトル間距離を算出する。また、文書の文脈ベクトルと各段落を構成する各文の文脈ベクトルとを段落毎に比較し、文書と各文との文脈ベクトル間距離を算出する。また、各段落の文脈ベクトルと各段落内の各文の文脈ベクトルとを比較し、各段落と各段落を構成する各文との文脈ベクトル間距離を算出する。さらに、文書の文脈ベクトルと該文書を構成する各文の文脈ベクトルとを比較し、文書と該文書を構成する各文との文脈ベクトル間距離を算出する。
ステップS57で、文書処理部C33は、ステップS56で算出された文書と各段落との文脈ベクトル間距離を参照し、文書の文脈ベクトルに最も近い文脈ベクトルを有する段落を選出する。この選出された段落を、文書記憶部C31によって文書管理サーバ1の記憶装置1aに格納し、必要に応じて文書出力部C32が記憶装置1aから読み出して出力する。
ステップS58で、文書処理部C33は、ステップS56で算出された文書と各段落を構成する各文との文脈ベクトル間距離を参照し、文書の文脈ベクトルに最も近い文脈ベクトルを有する各段落の文を選出する。この選出された段落毎の文を対応の段落の順番に並べて得た文章を、文書記憶部C31によって文書管理サーバ1の記憶装置1aに格納し、必要に応じて文書出力部C32が記憶装置1aから読み出して出力する。
ステップS59で、文書処理部C33は、ステップS56で算出された各段落と各段落内の各文との文脈ベクトル間距離を参照し、各段落の文脈ベクトルに最も近い文脈ベクトルを有する各段落内の文をそれぞれ選出する。この選出された各段落内の文を対応の段落の順番に並べて得た文章を、文書記憶部C31によって文書管理サーバ1の記憶装置1aに格納し、必要に応じて文書出力部C32が記憶装置1aから読み出して出力する。
ステップS60で、文書処理部C33は、ステップS56で算出された文書と該文章を構成する各文との文脈ベクトル間距離を参照し、文書の文脈ベクトルに最も近い文脈ベクトルを有する文から、文脈ベクトルが順に遠くなる所定数の文までを選出する。この選出された複数文を、文書記憶部C31によって文書管理サーバ1の記憶装置1aに格納し、必要に応じて文書出力部C32が記憶装置1aから読み出して出力する。
ステップS61で、ステップS57〜S60で記憶装置1aにそれぞれ格納された文章を文書出力部C32が読み出して出力し、文書処理部C33が、これらを合成して要約を作成する。
ステップS62で、本要約作成処理を終了する。
なお、ステップS61で、文書出力部C32が、ステップS57〜S60で記憶装置1aにそれぞれ格納された文章のうち一部を選択的に用いて合成し、要約を作成するようにしてもよい。また、ステップS57〜S60のうち1つのステップだけを備え、該ステップで記憶装置1aに格納された文章を要約として、文書出力部C32が読み出して出力するようにしてもよい。その場合には、ステップS61も不要である。
ところで、廃棄の対象となる文書が複数個存在する場合について考察して見ると、同時期、同日時に廃棄対象となる文書群は、登録時にも同じタイミングで登録されたか、あるいは内容的に類似していて互いに関連性があることが多いと考えられる。本実施の形態では後者に着目して、複数の廃棄候補文書を、その文書内容の類似性に基づいてグループ分けし、グループに属する全文書をまとめて処理できるようにする。
すなわち、本実施の形態では、廃棄候補となる複数の文書を文書内容に応じてグループ分けして、廃棄候補文書一覧表にリスト表示するとともに、グループごとに、グループに属する全文書の内容を概観できるグループ要約を作成して表示できるようにし、さらにグループごとに実際の削除指定や廃棄期限のリセット等を一括して行えるようにする。
文書管理システムは、所定の時間の経過ごとに廃棄候補文書の発生を監視しており、廃棄文書の発生を検知すると、廃棄候補の対象となった全文書をグルーピングする下記のようなグルーピング処理およびグループ文書要約作成処理を行う。
グルーピング処理では、廃棄候補の対象となった全文書のうちの2つの文書の文脈ベクトル間の距離を計算し、距離が予め定められた値以下ならば、それら2つの文書は同じグループに属すると見なし、距離がそれより大きい場合には、異なるグループに属すると決める。この処理を廃棄候補の全文書に対して行うことにより、廃棄候補となった全文書はいくつかのグループに類別され、各文書はそれぞれ1つのグループに必ず属することになる。このようにして、廃棄候補となった全文書を、内容の近いものどうしをまとめた複数のグループにグルーピングできる。もちろん結果的に全ての廃棄候補が同じグループに分類されることもあり得、そのような場合には1つのグループのみが作成される。
続いて、上記のようにして作成された各グループにそれぞれ属する文書全体の内容の要約を作成するグループ文書要約作成処理について、図7を参照して説明する。このグループ文書要約作成処理も、図2に示す文書要約部C21において行われる。
図7は、文書要約部C21において行われるグループ文書要約作成処理の手順を示すフローチャートである。
まず、廃棄候補の全文書を構成する各単語の文脈ベクトルを求める。そして、それら全ての文脈ベクトルを要素ごとに加算し正規化して、廃棄候補の全文書の文脈ベクトルを算出する(ステップS72)。
続いて、グループに属する各文書を構成する各単語の文脈ベクトルを求める。そして、グループ毎に、グループに属する全ての単語の文脈ベクトルを要素ごとに加算し正規化して、各グループの文脈ベクトルを算出する(ステップS73)。なお、各グループ内に含まれる各文書の文脈ベクトルと、各文書を構成する各文の文脈ベクトルとは、図6に示す処理によって算出されているものとする。
つぎに、全てのグループにおいて、グループの文脈ベクトルと該グループに属する各文書の文脈ベクトルとを比較し、グループと該グループ内の各文書との文脈ベクトル間距離を算出する(ステップS74)。そして、この文脈ベクトル間距離に基づき、グループの文脈ベクトルに最も近い文脈ベクトルを有するグループ内の文書を重要文書に決定する(ステップS75)。
このように決定されたグループ内の重要文書を構成する各文と該グループとの文脈ベクトル間距離を算出し、グループの文脈ベクトルに最も近い文脈ベクトルを有するグループ内の所定数の文を選出する。そして、これらの選出された所定数の文を出力する(ステップS76)。これらの出力された所定数の文を適宜合成して、グループに属する文書全体の内容を表す要約とする(ステップS77)。
こうして得られたグループに属する文書全体の要約は、文書記憶部C31によって文書管理サーバ1の記憶装置1aに格納され、必要に応じて文書出力部C32から出力される。
次に、文書管理システムにおいて廃棄候補文書が存在する場合に、文書管理サーバ1の画像表示装置に表示される各種画面について説明する。
図8は、ユーザが文書管理システムにログインしたときに、文書管理サーバ1の画像表示装置に表示されるメイン画面10を示す図である。
メイン画面10は、フォルダ階層表示部11とフォルダ内文書表示部13とからなり、フォルダ階層表示部11は、文書管理システムが管理する複数の文書を格納する各フォルダを表示する。フォルダ内文書表示部13は、フォルダ階層表示部11において選択されたフォルダ12(例えば、フォルダ「契約書」)に格納される文書を表示する。
ユーザが文書管理システムにログインしたときに、該文書管理システムにおいて廃棄候補文書が存在する場合、廃棄候補文書が存在する旨を示す吹き出しアイコン14が、メイン画面10の上部に表示される。ユーザが任意のタイミングにおいて該吹き出しアイコン14をクリックすると、図9に示すような廃棄候補文書の一覧画面が、文書管理サーバ1の画像表示装置に表示される。
図9は、図8に示す吹き出しアイコン14がクリックされたときに、文書管理サーバ1の画像表示装置に表示される廃棄候補文書の一覧画面の一例を示す図である。この廃棄候補文書一覧画面は、廃棄候補文書のうちで、ログインを行ったユーザがアクセス権限を持つ文書に対して、グルーピング処理およびグループ文書要約作成処理が行われた結果を表示している。
図9において、廃棄候補は全部で9文書存在し、それらは3つのグループに分類され、それぞれ区分して表示される。第1のグループには3文書が属し、第2のグループには4文書、第3のグループには2文書が属している。各文書には文書名、格納フォルダ名、文書作成者、文書作成日、コメントなどの属性情報が表示されており、さらに廃棄文書選択用のチェックボックスが先頭に表示される。チェックボックスには2種類あり、各グループに1個存在するチェックボックスにチェックを入力すると、対応グループの全文書を選択したことになる。また文書ごとに1個ずつ存在するチェックボックスにチェックを入力すると、対応文書だけを選択したことになる。
廃棄候補文書一覧画面の右上には機能ボタンが配置され、チェックボックスにて選択した文書または文書グループに対して各操作を実行させるためのものである。例えば、要約ボタン21を押下すると、選択した文書または文書グループの要約が別画面にて表示される。削除ボタン22を押下すると、選択された文書または選択された文書グループに属する全文書が文書管理サーバ1の記憶装置1aから削除される。再設定ボタン23を押下すると、廃棄期限の再設定画面が文書管理サーバ1の画像表示装置に表示される。
図10は、図9に示す廃棄候補文書一覧画面にて第3の文書グループに対応するチェックボックスにチェックを入力して要約ボタン21を押下したときに、文書管理サーバ1の画像表示装置に表示されるグループ文書要約画面の一例を示す図である。
図11は、図9に示す廃棄候補文書一覧画面にて第1の文書グループに対応するチェックボックスにチェックを入力して削除ボタン22を押下したときに、文書管理サーバ1の画像表示装置に表示される削除確認画面の一例を示す図である。
この画面には、第1の文書グループに属する文書のリストが表示される。各文書名の先頭に配置されたチェックボックスには、デフォルトではすべてのチェックボックスにチェックが表示された状態となっている。ユーザはこれらを確認し、必要に応じて選択を解除し、実行ボタン31を押下することにより、選択した文書だけが実際に削除される。
図12は、図9に示す廃棄候補文書一覧画面にて再設定ボタン23を押下したときに、文書管理サーバ1の画像表示装置に表示される廃棄期限の再設定画面の一例を示す図である。
この廃棄期限の再設定画面において、選択した文書または文書グループに対する廃棄期限を新たに設定できる。本画面にて設定後、OKボタン32の押下により図9の廃棄候補文書一覧画面に戻る。この廃棄候補文書一覧画面では、文書または文書グループに対する新たに再設定された廃棄期限に基づき表示が行われる。この表示ではグレーアウトされ、機能ボタンが操作されても機能実行がされないように制御される。
以上説明したように、所定の廃棄期限の到来した文書が複数存在する場合、それらの文書が、文書内容に応じて適宜グルーピングされ、グループごとにリスト表示される。そして各グループ単位で選択され、各種処理が行われ得る。これにより、ユーザは個々の文書単位ではなく、内容的にまとまりのある文書グループ単位で要旨を把握でき、削除してよいか否かの判断や実際の削除作業をスピーディに行うことができる。
〔他の実施の形態〕
また、本発明の目的は、上記の実施の形態の機能を実現するソフトウェアのプログラムコードを記録した記憶媒体を、システム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)が記憶媒体に格納されたプログラムコードを読み出して実行することによっても達成される。
この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施の形態の機能を実現することになり、そのプログラムコード及び該プログラムコードを記憶した記憶媒体は本発明を構成することになる。
また、プログラムコードを供給するための記憶媒体としては、例えば、フロッピー(登録商標)ディスク、ハードディスク、光磁気ディスク、CD−ROM、CD−R、CD−RW、DVD−ROM、DVD−RAM、DVD−RW、DVD+RW、磁気テープ、不揮発性のメモリカード、ROM等を用いることができる。または、プログラムコードをネットワークを介してダウンロードしてもよい。
また、コンピュータが読み出したプログラムコードを実行することにより、上記実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
更に、記憶媒体から読み出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれる。
また、コンピュータが読み出したプログラムコードを実行することにより、前述した実施の形態の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているOSなどが実際の処理の一部または全部を行い、その処理によって前述した実施の形態の機能が実現される場合も、本発明に含まれることは言うまでもない。
この場合、上記プログラムは、該プログラムを記憶した記憶媒体から直接、又はインターネット、商用ネットワーク、若しくはローカルエリアネットワーク等に接続された不図示の他のコンピュータやデータベース等からダウンロードすることにより供給される。
本発明の一実施の形態に係る文書管理システムを含む文書管理サーバとクライアントマシンとのネットワークを示すブロック図である。 文書管理サーバに構築される文書管理システムの機能構成を示すブロック図である。 文書登録画面の一例を示す図である。 文書要約部の詳しい内部構成を示すブロック図である。 単語辞書に格納される単語とその文脈ベクトルとの一例を示す図である。 図4に示す文書要約部において行われる要約作成処理の手順を示すフローチャートである。 文書要約部において行われるグループ文書要約作成処理の手順を示すフローチャートである。 ユーザが文書管理システムにログインしたときに、文書管理サーバの画像表示装置に表示されるメイン画面を示す図である。 図8に示す吹き出しアイコンがクリックされたときに、文書管理サーバの画像表示装置に表示される廃棄候補文書の一覧画面の一例を示す図である。 図9に示す廃棄候補文書一覧画面にて第3の文書グループに対応するチェックボックスにチェックを入力して要約ボタンを押下したときに、文書管理サーバの画像表示装置に表示されるグループ文書要約画面の一例を示す図である。 図9に示す廃棄候補文書一覧画面にて第1の文書グループに対応するチェックボックスにチェックを入力して削除ボタンを押下したときに、文書管理サーバの画像表示装置に表示される削除確認画面の一例を示す図である。 図9に示す廃棄候補文書一覧画面にて再設定ボタンを押下したときに、文書管理サーバの画像表示装置に表示される廃棄期限の再設定画面の一例を示す図である。
符号の説明
1 文書管理サーバ(文書管理システム、判別手段、グルーピング手段、表示手段)
1a 記憶装置
2 インターネット
3 クライアントマシン
C21 文書要約部
C30 文書入力部
C31 文書記憶部
C32 文書出力部
C33 文書処理部
C34 文書解析部
C35 文脈ベクトル生成部
C36 文脈ベクトル比較部
C37 単語辞書

Claims (11)

  1. 文書データを保管管理する文書管理システムにおいて、
    所定の廃棄条件を満たす文書データが保管されているか否かを判別する判別手段と、
    前記判別手段によって前記所定の廃棄条件を満たすと判別された文書データが複数存在するとき、該複数の文書データを文書内容の類似性に応じてグループ分けするグルーピング手段と、
    前記グルーピング手段によって分けられたグループ毎に、前記複数の文書データを廃棄候補としてリスト表示する表示手段と
    を有することを特徴とする文書管理システム。
  2. 前記判別手段は、前記所定の廃棄条件として、保管開始後に所定の期間が経過した文書データであるか、または所定の廃棄日時に至った文書データであるかを判別することを特徴とする請求項1記載の文書管理システム。
  3. 前記グルーピング手段によって分けられたグループ毎に、対応のグループに属する全文書データが表わす文書内容の要約を作成するグループ要約作成手段を更に有することを特徴とする請求項1記載の文書管理システム。
  4. 前記グルーピング手段によって分けられたグループ毎に、対応のグループに属する全文書データに対してユーザによって行われた削除指示に従って、該全文書データを削除する削除手段を更に有することを特徴とする請求項1記載の文書管理システム。
  5. 前記グルーピング手段によって分けられたグループ毎に、対応のグループに属する全文書データに対してユーザによって行われた廃棄期限の再設定指示に従って、該全文書データに対して既に設定されている廃棄期限の再設定を行う廃棄期限再設定手段を更に有することを特徴とする請求項1記載の文書管理システム。
  6. 文書データを保管管理する文書管理システムに適用される文書管理方法において、
    所定の廃棄条件を満たす文書データが保管されているか否かを判別する判別ステップと、
    前記判別ステップにおいて前記所定の廃棄条件を満たすと判別された文書データが複数存在するとき、該複数の文書データを文書内容の類似性に応じてグループ分けするグルーピングステップと、
    前記グルーピングステップにおいて分けられたグループ毎に、前記複数の文書データを廃棄候補としてリスト表示する表示ステップと
    を有することを特徴とする文書管理方法。
  7. 前記判別ステップは、前記所定の廃棄条件として、保管開始後に所定の期間が経過した文書データであるか、または所定の廃棄日時に至った文書データであるかを判別することを特徴とする請求項6記載の文書管理方法。
  8. 前記グルーピングステップにおいて分けられたグループ毎に、対応のグループに属する全文書データが表わす文書内容の要約を作成するグループ要約作成ステップを更に有することを特徴とする請求項6記載の文書管理方法。
  9. 前記グルーピングステップにおいて分けられたグループ毎に、対応のグループに属する全文書データに対してユーザによって行われた削除指示に従って、該全文書データを削除する削除ステップを更に有することを特徴とする請求項6記載の文書管理方法。
  10. 前記グルーピングステップにおいて分けられたグループ毎に、対応のグループに属する全文書データに対してユーザによって行われた廃棄期限の再設定指示に従って、該全文書データに対して既に設定されている廃棄期限の再設定を行う廃棄期限再設定ステップを更に有することを特徴とする請求項6記載の文書管理方法。
  11. 文書データを保管管理する文書管理システムに適用される文書管理方法を、コンピュータに実行させるためのプログラムにおいて、
    所定の廃棄条件を満たす文書データが保管されているか否かを判別する判別ステップと、
    前記判別ステップにおいて前記所定の廃棄条件を満たすと判別された文書データが複数存在するとき、該複数の文書データを文書内容の類似性に応じてグループ分けするグルーピングステップと、
    前記グルーピングステップにおいて分けられたグループ毎に、前記複数の文書データを廃棄候補としてリスト表示する表示ステップと
    を有することを特徴とするプログラム。
JP2005168449A 2005-06-08 2005-06-08 文書管理システム、文書管理方法、及びプログラム Pending JP2006343964A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005168449A JP2006343964A (ja) 2005-06-08 2005-06-08 文書管理システム、文書管理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005168449A JP2006343964A (ja) 2005-06-08 2005-06-08 文書管理システム、文書管理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2006343964A true JP2006343964A (ja) 2006-12-21

Family

ID=37640896

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005168449A Pending JP2006343964A (ja) 2005-06-08 2005-06-08 文書管理システム、文書管理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2006343964A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107959A (ja) * 2009-11-17 2011-06-02 Ricoh Co Ltd 文書管理システム、文書管理装置、インタフェース装置及び文書管理方法
JP7651387B2 (ja) 2021-06-23 2025-03-26 株式会社デンソーテン 収納支援装置及び方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011107959A (ja) * 2009-11-17 2011-06-02 Ricoh Co Ltd 文書管理システム、文書管理装置、インタフェース装置及び文書管理方法
JP7651387B2 (ja) 2021-06-23 2025-03-26 株式会社デンソーテン 収納支援装置及び方法

Similar Documents

Publication Publication Date Title
US8356045B2 (en) Method to identify common structures in formatted text documents
JP5512489B2 (ja) ファイル管理装置及びファイル管理方法
US20090313539A1 (en) Information processor, information processing method, and recording medium
JP6008693B2 (ja) 情報処理装置及びその制御方法、プログラム
KR101103126B1 (ko) 정보 처리 장치 및 정보 처리 방법
US20080140608A1 (en) Information Managing Apparatus, Method, and Program
JP2011076396A (ja) メタデータ設定方法及びメタデータ設定システム、並びにプログラム
US20070185832A1 (en) Managing tasks for multiple file types
JP2021089666A (ja) 情報処理装置及びプログラム
JP5224532B2 (ja) 評判情報分類装置及びプログラム
JP2020064482A (ja) 属性抽出装置および属性抽出方法
JP7293780B2 (ja) 情報処理装置、文書管理システム及びプログラム
JP2009223679A (ja) 電子文書検索装置、及び電子文書検索プログラム
KR102463120B1 (ko) 문서 다운로드시 사용자 맞춤형 파일명 생성 기능을 제공하는 특허 문서 검색 서버 및 이를 이용한 특허 문서 검색 방법
JP2006343964A (ja) 文書管理システム、文書管理方法、及びプログラム
JP3531344B2 (ja) 情報検索装置
KR102593884B1 (ko) 문서 자동 작성 시스템 및 방법, 컴퓨터로 독출 가능한 기록 매체
JP2002049638A (ja) 文書情報検索装置、方法、文書情報検索プログラム及び文書情報検索プログラムを格納したコンピュータ可読の記録媒体
JP2002014971A (ja) 指定単語関係者情報抽出装置,及び指定単語関係者情報抽出プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2011086156A (ja) 漏洩情報追跡システムおよび漏洩情報追跡プログラム
US20200272393A1 (en) Information processing system and non-transitory computer readable medium
JP3933407B2 (ja) 文書処理装置、文書処理方法および文書処理プログラムが格納された記憶媒体
JP2006072705A (ja) 文書検索装置および方法
JP2003044331A (ja) 知識分析システム、クラスタデータベース表示方法および表示制御プログラム
US20240311396A1 (en) Information processing apparatus, information processing system, information processing method, and non-transitory recording medium

Legal Events

Date Code Title Description
RD05 Notification of revocation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7425

Effective date: 20070626