JP3845046B2 - Document management method and document management apparatus - Google Patents
Document management method and document management apparatus Download PDFInfo
- Publication number
- JP3845046B2 JP3845046B2 JP2002237303A JP2002237303A JP3845046B2 JP 3845046 B2 JP3845046 B2 JP 3845046B2 JP 2002237303 A JP2002237303 A JP 2002237303A JP 2002237303 A JP2002237303 A JP 2002237303A JP 3845046 B2 JP3845046 B2 JP 3845046B2
- Authority
- JP
- Japan
- Prior art keywords
- documents
- document
- context
- phrase
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
この発明は、文書管理方法および文書管理装置に関する。この発明は特に、複数の文書をその内容に基づいて関連づける技術に関する。
【0002】
【従来の技術】
近年、別々の人によって作成された社内文書などの大量のファイルを一元的に管理して有効利用するための技術に注目が集まっている。蓄積された文書は知識とノウハウの凝縮でもあるが、こうした潜在的な資産を真に意味のある情報として共有し活用するには、あらかじめ計画的に文書を管理することが近道となる。その手法としては、データベース化を前提としてはじめから一つの文書を一つのレコードとして扱う方法や、検索用インデックスを各文書に内包させる方法などがある。
【0003】
一方、ひとかたまりの文書を効率的に抽出するために、関連のある文書同士をあらかじめ紐付けしておく手法がある。文書のヘッダなどの領域に、その文書と関連する他の文書の参照情報を付加しておけば紐付けが実現される。例えば、電子メールソフトウエアにおいては、特定の受信メールに対して返信メールを作成するとき、その返信メールのヘッダに受信メールの参照IDを記述してそれらの関連性を保持している。電子掲示板でも同様な手法で参照関係を管理している。
【0004】
【発明が解決しようとする課題】
上記の各方法により管理される文書は、あらかじめ特定の管理方法を前提として作成されるので、インデックスや参照情報が付加されるなどの処理が作成時に施される。しかしながら、そうした処理がなされていない文書は同手法による管理の対象外になってしまう。これらの文書を管理対象にするためにはインデックスを付加する処理や参照関係を見出す処理などを手作業で行う必要があり、多大な時間と手間を要する。一方、計画的に文書同士が関連づけられた場合であっても、与えられた関連性の視点は画一的であり、必ずしも有効に二次利用できるわけではなかった。
【0005】
本発明者は以上の認識に基づき本発明をなしたもので、その目的は、多量の文書ファイルを効率的に管理する技術の提供にある。本発明の別の目的は、文書ファイルの検索キーとして文書の類型を検出する技術の提供にある。さらに別の目的は、文書データベースの構築を支援する技術の提供にある。さらに別の目的は、複数の文書における傾向の分析を支援する技術の提供にある。さらに別の目的は、文書同士の関連性を視覚化する技術の提供にある。
【0006】
【課題を解決するための手段】
本発明のある態様は、文書管理方法に関する。この方法は、文書間において関連性を見出すための視点となる語句を決定する工程と、決定した語句を内容に含む複数の文書を抽出する工程と、抽出した複数の文書を関連づけることによって文書間のコンテキストの存在を認識する工程と、コンテキストの存在が認識された文書を提示する工程と、を含む。
【0007】
「文書」は、例えばワードプロセッサ、プレゼンテーションソフト、電子メールクライアント、スケジューラなどのアプリケーションソフトウエアによって生成されたファイルが該当する。電子掲示板のCGI(Common Gateway Interface)などのサーバプログラムによって生成されたテキストデータであってもよい。「文書」は言語解析処理の対象とするため主にテキストを含むデータファイルを想定するが、データ形式としては必ずしも限定せず、画像ファイルやCADデータファイルなどであってもよい。
【0008】
「語句」は、単語、フレーズ、文節などを含み、語句の長さは問わない。係り受けの関係にある複数語からなるフレーズであってもよい。「語句」は、必ずしも文書中に登場しなくてもよく、文書間に共通する話題や概念を表す語句であってもよい。「文書間のコンテキスト」は、文書間に存在する内容上の関連性であって、複数の文書を作成日時順や更新日時順に並べたときの文書内容の脈絡であってもよい。このコンテキストを文書内容に基づいて自動検出するとともに、その特徴を文書検索のための検索キーとして利用する。
【0009】
複数の文書の関連づけは、相互にリンクを設定することによってスレッドを形成させる手法でもよい。「スレッド」は、話題ごとに区別された複数のデータがそれぞれ時系列的に前後するデータと関連づけられた形式であり、本態様においては視点となる語句ごとにスレッドが形成される。一般的には電子掲示板や電子メールクライアントにスレッド形式が用いられ、本態様における一連の文書間のコンテキストはスレッド形式での表示が可能である。「時系列順」は、文書の作成または更新の日時だけでなく、その文書が参照された日時やその文書が稟議を通った日時に基づいて判断されてもよい。
【0010】
この態様によれば、文書同士の関連性について何も情報が付加されていない複数の文書が自動的に関連づけされる。検出される関連性はあくまでも文書内容に基づいているので、関連性の連鎖が文書間のコンテキストを示すこととなる。これをスレッドのような馴染みやすい形式で表現できるので、文書全体についてその関連性を把握しながら効率的に管理できる。
【0011】
本発明の別の態様は、文書管理装置に関する。この装置は、文書を記憶する格納部と、文書間において関連性を見出すための視点となる語句を決定する条件設定部と、決定した語句を内容に含む複数の文書を格納部から抽出する抽出部と、抽出した複数の文書のうち、所定の規則に従った序列の下で隣接する文書の組み合わせをリンクにより関連づけるとともに、複数のリンクを連鎖させることによって文書間のコンテキストの存在を認識するスレッド管理部と、コンテキストの存在が認識された文書を提示する出力部と、を有する。
【0012】
格納部は、主にハードディスクなどの記憶装置を示す。この格納部を本体から分離した形で構成してもよく、その場合ネットワークを介して本体に接続してもよい。複数の文書の格納位置や格納状態は様々な形態が想定できる。条件設定部、抽出部、スレッド管理部、および出力部は、中央演算装置や制御装置などによって実現される。
【0013】
条件設定部は、視点となる語句を文書内容に含まれる特徴的な語句を自動抽出することによって決定してもよいし、ユーザによる指定に基づいて決定してもよい。「所定の規則に従った序列」は、例えば文書ごとに割り当てられたシリアル番号の昇順でもよいし、各文書に含まれる何らかの属性に着目して客観的な序列が導き出されればよい。「リンク」としては、例えばXML(eXtensible Markup Language)におけるXLinkなどの手法を用いて、文書間で同じ語句同士を結びつけてもよい。
【0014】
本装置をファイルサーバとして実現する場合、新たな文書をそのサーバへ転送するだけで自動的に他の文書と関連づけられる。同様に、すでに大量に蓄積された過去の文書をそのサーバへ入力すれば自動的な関連づけが処理される。これにより、例えば社内文書のように複数人によって多量に作成または編集されるファイルを、その作成者または編集者の手を煩わせずに効率的に管理できる。
【0015】
本発明のさらに別の態様もまた文書管理装置に関する。この装置は、文書を記憶する格納部と、文書間において関連性を見出すための視点となる語句を決定する条件設定部と、決定した語句を内容に含む複数の文書を格納部から抽出する抽出部と、抽出した複数の文書のうち、時系列順で隣接する文書の組み合わせをリンクにより関連づけるとともに、複数のリンクを連鎖させることによって文書間のコンテキストの存在を認識するスレッド管理部と、コンテキストの存在が認識された文書を提示する出力部と、を有する。
【0016】
この態様においても、多量のファイルを効率的に管理できる他、時系列順で関連づけることによって、文書間の因果関係をより直感的に把握できる形で提示できる。
【0017】
本装置は、ネットワーク上に設置されたサーバまたはユーザ端末のいずれかを指す場合と、ネットワークを介して接続されたサーバおよびユーザ端末からなるシステムを指す場合の双方を含み、格納部、条件設定部、抽出部、スレッド管理部、および出力部の各機能ブロックは、サーバ側に設けられてもよいし、ユーザ端末側に設けられてもよい。サーバおよびユーザ端末の双方に設けられてもよいし、その場合の各機能ブロックはそれぞれ同じ名称でもよい。これら各機能は、それぞれプログラムモジュールのかたちで提供され、サーバおよびユーザ端末のいずれかまたは双方にて実行されてもよいし、実行にあたりサーバからユーザ端末へダウンロードされてもよい。
【0018】
なお、以上の構成要素の任意の組合せや、本発明の構成要素や表現を方法、装置、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体、データ構造などの間で相互に置換したものもまた、本発明の態様として有効である。
【0019】
【発明の実施の形態】
本実施形態においては、含まれる語句の共通性をもとに複数の文書を関連づけ、導き出される複数の関連性の分布や連鎖の態様に基づいて文書間のコンテキストを検出する。さらに、各文書をコンテキストの態様に応じて分類してこれを検索条件の一つとして扱う。これにより、あらかじめ関連づけられていない複数の文書から様々な視点による関連性を見出すことができ、それら関連性の傾向から検索インデックスの代用となる情報を生み出す。また、文書から語句を抽出できる限りデータ形式を問わず管理の対象とすることができる。
【0020】
図1は、実施の形態に係る文書管理システムの構成を示す図である。文書管理システム100は、ネットワーク102を介して接続される複数のユーザ端末104および文書管理サーバ10により構成される。文書管理サーバ10は、ウェブサーバを含む構成であってもよいし、ユーザ端末104は、パーソナルコンピュータと、これにインストールされたクライアントソフトウェアを含む構成であってもよい。
【0021】
文書管理サーバ10は、ハードウェア的には、コンピュータのCPUをはじめとする素子で実現でき、ソフトウェア的には言語解析機能やデータ管理機能のあるプログラムなどによって実現されるが、以下説明する図2ではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できる。
【0022】
図2は、実施の形態に係る文書管理装置の基本構成を示す機能ブロック図である。文書管理サーバ10は、入力部12、格納部14、条件設定部16、文書管理部22、出力部36、および通信部42を有する。各部は、通信部42を介してネットワーク上の端末との間でデータを送受信する。通信部42は、データ送受信機能のほか、ルータ機能やサーバ機能を有してもよい。
【0023】
格納部14は、複数の文書を記憶する。格納部14へは入力部12を介して文書が格納される。入力部12はデータ入力のインターフェイスであって、通信部42を介する入力の他、他のデータポートを介するデータ入力を処理してもよい。入力部12は、文書を入出力するためのポータルサイトや電子掲示板などのワークスペースをユーザに提供してもよい。入力部12が外部文書を取り込む場合、取り込む範囲としてネットワーク上のドメインをユーザに指定させてもよい。
【0024】
条件設定部16は、文書間において関連性を見出すための視点となる語句(以下、「視点語句」という。)を決定する機能を有し、文書解析部18および語句決定部20を含む。文書解析部18は、格納部14に格納された文書の内容を解析して特徴的な語句を抽出する。例えば、各文書に共通して多く含まれる語句を抽出してもよいし、固有名詞を含む名詞句を中心に抽出してもよい。形容詞などの修飾語も含んだ形で語句を抽出してもよい。文書のタイトルに含まれる語句か否かに応じて重み付けしてもよいし、文書を要約してから語句を抽出してもよい。抽出語句の優先度をあらかじめ設定しておいてもよい。
【0025】
文書解析部18は、ワークスペースの広狭や部門分けに応じて解析の対象となる文書範囲を決定してもよいし、ユーザが指定するドメイン内の文書を解析の対象としてもよい。
【0026】
語句決定部20は、文書解析部18による抽出結果またはユーザによる指示に基づいて視点語句を決定する。ユーザの指示は、通信部42を介してネットワーク102経由で受け取られる。
【0027】
文書管理部22は、抽出部24、時系列処理部26、およびスレッド管理部28を含む。時系列処理部26は、格納部14に格納された複数の文書を時系列順に並び替える。このとき、各文書が持つ作成日時や更新日時などの時間属性に基づいて並び替えてもよいし、文書生成の経緯に関して別途管理される履歴に基づいて並び替えてもよい。入力部12が提供するワークスペースを通じて履歴を記録してもよい。その履歴は格納部14に格納されてもよい。
【0028】
抽出部24は、条件設定部16により決定された語句を内容に含む複数の文書を格納部14から抽出する。このとき抽出部24は、同じ語句を含む複数の文書のうち時系列順に並べられたときに隣接しあう文書同士をリンク対象として組み合わせる。
【0029】
スレッド管理部28は、リンク処理部30、コンテキスト認識部32、および分類処理部34を含む。リンク処理部30は、リンク対象の文書間において共通する視点語句同士をXLinkなどのリンク方法で文書内に記述することにより相互に関連づける。リンクする対象は、XML文書においてタグで囲まれた要素を単位としてもよい。コンテキスト認識部32は、複数のリンクをスレッドとして連鎖させることによって一連の文書間のコンテキストの存在を認識する。スレッドまたはコンテキストを特定するための情報が分類処理部34へ送られる。
【0030】
分類処理部34は、一連のコンテキストで関連づけられた複数の文書を、それぞれから認識されるコンテキストの態様に応じて分類する。各文書には通常複数のコンテキストが流れており、前後の文書とのリンク形態に見られる一定の傾向からコンテキストの態様をいくつかの類型に分類する。その類型を属性として保存し、後に検索条件の一つに指定できるよう扱う。その属性を各文書内に記述してもよいし、管理データとして格納部14へ一括保存してもよい。これにより、従来にない形での検索の絞り込みやノイズ除去が可能となる。コンテキストの類型については、後述する。
【0031】
出力部36は、複数の文書をコンテキストとともに提示する機能を有し、検索処理部38および表示処理部40を含む。検索処理部38は、コンテキストの態様に関するユーザの指定を検索条件の一つとして取得し、その指定された態様に分類される文書を格納部14から抽出し、検索結果として提示する。表示処理部40は、認識されたコンテキストをスレッドの形式で画面表示させるためのデータをユーザ端末104へ送る機能と、検索処理部38による検索結果をユーザ端末104へ送る機能を有する。表示処理部40は、コンテキストを表示する画面を通じて、ユーザの指示に基づいたコンテキストの修正機能を提供してもよい。
【0032】
図3は、各文書に含まれる語句のリンクによって連鎖する文書間のコンテキストを示す図である。これら一連の文書には複数のコンテキストが流れ、それぞれから認識されるコンテキストの態様に応じて文書をいくつかの類型に分類する。分類処理部34は、各文書においてコンテキストの態様に関する特徴点を見出す。具体的には、コンテキストの態様がその文書において始点、合流点、通過点、分岐点、および終点のいずれに該当するかに基づいて文書を分類する。
【0033】
本図では、各文書から「A社」および「製品B」という視点語句を抽出してリンクを設定する。各文書は時系列的に並べられている。第1の文書50以前の文書からは「A社」および「製品B」の語句は抽出されず、以前の文書とはリンクされていない。そこで、第1の文書50はコンテキストの始点になる傾向が強い類型であると判断する。
【0034】
第1の文書50に含まれる語句「A社」および「製品B」は、それぞれ第2の文書52に含まれる語句「A社」および「製品B」にリンクされ、それがさらに第3の文書54に含まれる語句「A社」および「製品B」にリンクされる。そこで、第2の文書52はコンテキストの通過点になる傾向が強い類型であると判断する。
【0035】
第3の文書54に含まれる語句「A社」は第4の文書56に含まれる語句「A社」にリンクされるが、第3の文書54に含まれる語句「製品B」は第5の文書58に含まれる語句「製品B」にリンクされる。そこで、第3の文書54はコンテキストの分岐点になる傾向が強い類型であると判断する。この類型を、意思決定の要因となった文書と位置づけてもよいし、分岐の態様をさらに細分化してその一つを議事録である可能性が高いと位置づけてもよい。
【0036】
第4の文書56に含まれる語句「A社」および第5の文書58に含まれる語句「製品B」は、それぞれ第6の文書60に含まれる語句「A社」または「製品B」にリンクされる。そこで、第6の文書60はコンテキストの合流点になる傾向が強い類型であると判断する。この類型を、プロジェクトの集束あるいは節目となる文書と位置づけてもよい。
【0037】
第6の文書60に含まれる語句「A社」および「製品B」は、それぞれ第7の文書62に含まれる語句「A社」および「製品B」にリンクされ、以降の文書にはリンクされていない。そこで、第7の文書62はコンテキストの終点になる傾向が強い類型であると判断する。
【0038】
本図では第1のコンテキスト64および第2のコンテキスト66の二つだけを示すが、実際には多数のコンテキスト認識が可能である。認識するコンテキストの数が多いほど態様の傾向が明確になる場合も考えられる。そうした傾向の分類基準を図2の分類処理部34があらかじめ保持してもよい。
【0039】
図4は、時系列的に配置された複数の文書が複数のコンテキストにより関連づけられた状態を示す図である。縦軸がワークスペースの軸であり、横軸が時間軸である。ワークスペースは、例えば社内における各部門や各プロジェクトの広がりを示す空間でもよいし、本装置によって管理の対象とする文書の分類に応じて形成される空間であってもよい。
【0040】
図に示すコンテキストの全体空間をユーザ端末104の画面に表示してもよい。その場合、例えばユーザが特定の視点語句を指定したときに、対応するコンテキストだけを強調表示してもよい。複数のコンテキストからいずれかをユーザに選択させ、選択されたコンテキストの表示をツリー状のスレッド形式に切り替えてもよい。
【0041】
図5は、語句ごとのスレッドをツリー状に表示する画面例を示す図である。第1のスレッド70においては、図3および4の第1のコンテキスト64に含まれる各文書のタイトルと作成日がツリー状に表示される。同様に、第2のスレッド72においては第2のコンテキスト66に含まれる各文書のタイトルと作成日がツリー状に表示される。これにより、ユーザが指定した語句と関連する複数の文書をその時系列の関連性とともに視覚化できる。
【0042】
図6は、実施の形態に係る文書管理装置により実行される処理を示すフローチャートである。格納部14に格納された複数の文書を時系列順に並べ替え(S10)、文書間のコンテキストを見出すための視点語句を決定する(S12)。その視点語句を含んだリンク対象となる文書を抽出し(S14)、時系列的に前後する文書の組み合わせにおいて語句同士のリンクを付加する(S16)。複数のリンクを連鎖させたコンテキストを認識し(S18)、その態様に応じて文書を分類する(S20)。以上の処理によって検索の前提となる前処理が完了する。
【0043】
検索キーワードとともに、文書の分類に関する検索条件をユーザから取得し(S22)、それらの検索条件に基づいて検索を実行する(S24)。検索結果として抽出された文書をユーザ端末104の画面に提示する(S26)。
【0044】
以上、本発明を実施の形態をもとに説明した。この実施の形態は例示であり、その各構成要素や各処理プロセスの組合せにいろいろな変形が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下、変形例を挙げる。
【0045】
実施の形態においては、同じ語句を含む文書同士でリンクを設定するが、変形例においては語句の同一性に関して厳密さを要求せず、文書ごとに語句を正規化したり、類義語辞書や統制語辞書を用いて柔軟性を持たせてもよい。
【0046】
図6において、文書を時系列順に並べ替える処理はS12の前に位置しているが、変形例としてはS12とS14の間に処理してもよい。または、並べ替えの処理をS14とS16の間に実行することとし、文書の抽出後にそれらを時系列順に並べ替える手順を採用してもよい。
【0047】
実施の形態においては、コンテキストの分類を検索条件の一つとして扱うが、変形例においては、文書に流れるコンテキストの本数に応じた重み付けや、オーソリティとハブの関係に応じた重み付けを加えることによって検索結果に優先順位をつけてもよい。
【0048】
入力部12から電子掲示板の投稿データを入力した場合、その電子掲示板上で管理するスレッドと異なるスレッドが形成されることが考えられる。電子掲示板上では一つのスレッドに属する一連のデータが実際には途中で話題が分断していたとき、実施の形態においては自動的に別スレッドに分けることが可能である。
【0049】
【発明の効果】
本発明によれば、蓄積された情報の活用に関してユーザの利便性を高めることができる。
【図面の簡単な説明】
【図1】 実施の形態に係る文書管理システムの構成を示す図である。
【図2】 実施の形態に係る文書管理サーバの基本構成を示す機能ブロック図である。
【図3】 各文書に含まれる語句のリンクによって連鎖する文書間のコンテキストを示す図である。
【図4】 時系列的に配置された複数の文書が複数のコンテキストにより関連づけられた状態を示す図である。
【図5】 語句ごとのスレッドをツリー状に表示する画面例を示す図である。
【図6】 実施の形態に係る文書管理サーバにより実行される処理を示すフローチャートである。
【符号の説明】
10 文書管理サーバ、 14 格納部、 16 条件設定部、 20 語句決定部、 24 抽出部、 28 スレッド管理部、 36 出力部。[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document management method and a document management apparatus. In particular, the present invention relates to a technique for associating a plurality of documents based on their contents.
[0002]
[Prior art]
In recent years, attention has been focused on technologies for centrally managing and effectively using a large number of files such as in-house documents created by different people. Accumulated documents are a condensation of knowledge and know-how, but in order to share and utilize such potential assets as truly meaningful information, managing documents in advance is a shortcut. The methods include a method of handling one document as one record from the beginning on the premise of creating a database, and a method of including a search index in each document.
[0003]
On the other hand, in order to efficiently extract a group of documents, there is a method of associating related documents in advance. Linking is realized by adding reference information of another document related to the document to an area such as a document header. For example, in the electronic mail software, when a reply mail is created for a specific received mail, the reference ID of the received mail is described in the header of the reply mail to maintain the relevance thereof. The reference relationship is also managed in the electronic bulletin board by a similar method.
[0004]
[Problems to be solved by the invention]
Since the document managed by each of the above methods is created in advance on the premise of a specific management method, processing such as addition of an index and reference information is performed at the time of creation. However, a document that has not been subjected to such processing is excluded from management by this method. In order to set these documents as management targets, it is necessary to manually perform an index adding process and a process of finding a reference relationship, which requires a lot of time and labor. On the other hand, even when documents are related to each other in a planned manner, the viewpoint of the given relevance is uniform, and it cannot always be used effectively effectively.
[0005]
The present inventor has made the present invention based on the above recognition, and an object thereof is to provide a technique for efficiently managing a large amount of document files. Another object of the present invention is to provide a technique for detecting a document type as a search key for a document file. Yet another object is to provide a technology that supports the construction of a document database. Yet another object is to provide a technology that supports analysis of trends in a plurality of documents. Yet another object is to provide a technique for visualizing the relationship between documents.
[0006]
[Means for Solving the Problems]
One embodiment of the present invention relates to a document management method. This method includes a step of determining a word / phrase as a viewpoint for finding relevance between documents, a step of extracting a plurality of documents including the determined word / phrase in content, and a step of associating the plurality of extracted documents with each other. Recognizing the presence of the context, and presenting a document with the recognized context.
[0007]
The “document” corresponds to a file generated by application software such as a word processor, presentation software, an e-mail client, and a scheduler. It may be text data generated by a server program such as CGI (Common Gateway Interface) of an electronic bulletin board. The “document” is assumed to be a data file mainly including text in order to be subjected to language analysis processing. However, the data format is not necessarily limited, and may be an image file, a CAD data file, or the like.
[0008]
“Phrase” includes words, phrases, phrases, etc., and the length of the phrase is not limited. A phrase composed of a plurality of words having a dependency relationship may be used. The “word / phrase” does not necessarily appear in the document, and may be a word / phrase representing a topic or concept common to the documents. The “context between documents” is a relationship between contents existing between documents, and may be a context of document contents when a plurality of documents are arranged in order of creation date / time or update date / time. The context is automatically detected based on the document content, and the feature is used as a search key for document search.
[0009]
The association of a plurality of documents may be a technique of forming a thread by setting a link with each other. A “thread” is a format in which a plurality of pieces of data distinguished for each topic are associated with data that precedes and follows in time series. In this aspect, a thread is formed for each word or phrase as a viewpoint. Generally, a thread format is used for an electronic bulletin board or an e-mail client, and a context between a series of documents in this aspect can be displayed in a thread format. “Time-series order” may be determined based not only on the date or time of creation or update of a document, but also on the date and time when the document was referred to or the date and time when the document passed the deliberation.
[0010]
According to this aspect, a plurality of documents to which no information is added regarding the relationship between documents are automatically associated. Since the detected relevance is based solely on the document content, the relevance chain indicates the context between the documents. Since this can be expressed in a familiar format such as a thread, it is possible to efficiently manage the entire document while grasping its relevance.
[0011]
Another aspect of the present invention relates to a document management apparatus. The apparatus includes a storage unit that stores documents, a condition setting unit that determines a word / phrase as a viewpoint for finding relevance between documents, and an extraction that extracts a plurality of documents including the determined word / phrase from the storage unit. A thread that recognizes the existence of a context between documents by associating a combination of adjacent documents with a link among a plurality of extracted documents and a sequence in accordance with a predetermined rule by a link and linking a plurality of links A management unit; and an output unit that presents a document in which the existence of the context is recognized.
[0012]
The storage unit mainly indicates a storage device such as a hard disk. The storage unit may be configured separately from the main body, and in that case, may be connected to the main body via a network. Various forms of storage positions and storage states of a plurality of documents can be assumed. The condition setting unit, the extraction unit, the thread management unit, and the output unit are realized by a central processing unit, a control device, and the like.
[0013]
The condition setting unit may determine a word / phrase as a viewpoint by automatically extracting a characteristic word / phrase included in the document content, or may be determined based on designation by a user. The “order according to a predetermined rule” may be, for example, ascending order of serial numbers assigned to each document, or an objective order may be derived by paying attention to some attribute included in each document. As the “link”, for example, a method such as XML Link in XML (eXtensible Markup Language) may be used to link the same phrases between documents.
[0014]
When this apparatus is realized as a file server, it is automatically associated with another document simply by transferring a new document to the server. Similarly, if past documents already accumulated in large quantities are input to the server, automatic association is processed. As a result, for example, files created or edited in large quantities by a plurality of people such as in-house documents can be efficiently managed without bothering the creator or the editor.
[0015]
Yet another embodiment of the present invention also relates to a document management apparatus. The apparatus includes a storage unit that stores documents, a condition setting unit that determines a word / phrase as a viewpoint for finding relevance between documents, and an extraction that extracts a plurality of documents including the determined word / phrase from the storage unit. And a thread management unit that recognizes the existence of a context between documents by linking a plurality of extracted documents and linking a combination of adjacent documents in chronological order by linking the links. And an output unit for presenting a document whose existence is recognized.
[0016]
Even in this mode, a large amount of files can be managed efficiently, and the causal relationship between documents can be presented in a form that can be grasped more intuitively by associating them in chronological order.
[0017]
This device includes both a case where it points to either a server or a user terminal installed on a network, and a case where it points to a system consisting of a server and a user terminal connected via a network. The functional blocks of the extraction unit, thread management unit, and output unit may be provided on the server side or the user terminal side. It may be provided in both the server and the user terminal, and each functional block in that case may have the same name. Each of these functions is provided in the form of a program module, and may be executed by either or both of the server and the user terminal, or may be downloaded from the server to the user terminal for execution.
[0018]
It should be noted that any combination of the above-described constituent elements, or the constituent elements and expressions of the present invention may be mutually replaced between methods, apparatuses, systems, computer programs, recording media storing computer programs, data structures, etc. This is effective as an embodiment of the present invention.
[0019]
DETAILED DESCRIPTION OF THE INVENTION
In the present embodiment, a plurality of documents are associated with each other based on the commonality of included words, and the context between documents is detected based on a plurality of relevance distributions and linkage modes. Furthermore, each document is classified according to the context mode, and this is handled as one of the search conditions. Thereby, relevance from various viewpoints can be found from a plurality of documents that are not associated in advance, and information serving as a substitute for the search index is generated from the tendency of the relevance. In addition, as long as words can be extracted from a document, they can be managed regardless of the data format.
[0020]
FIG. 1 is a diagram illustrating a configuration of a document management system according to an embodiment. The
[0021]
The
[0022]
FIG. 2 is a functional block diagram showing the basic configuration of the document management apparatus according to the embodiment. The
[0023]
The
[0024]
The
[0025]
The
[0026]
The
[0027]
The
[0028]
The
[0029]
The
[0030]
The
[0031]
The
[0032]
FIG. 3 is a diagram illustrating a context between documents linked by a phrase link included in each document. A plurality of contexts flow in the series of documents, and the documents are classified into several types according to the context modes recognized from the respective contexts. The
[0033]
In this figure, viewpoint words and phrases “Company A” and “Product B” are extracted from each document and links are set. Each document is arranged in time series. The words “Company A” and “Product B” are not extracted from the document before the
[0034]
The phrases “Company A” and “Product B” included in the
[0035]
The phrase “Company A” included in the
[0036]
The phrase “Company A” included in the
[0037]
The phrases “Company A” and “Product B” included in the
[0038]
Although only two of the
[0039]
FIG. 4 is a diagram illustrating a state in which a plurality of documents arranged in time series are associated by a plurality of contexts. The vertical axis is the workspace axis, and the horizontal axis is the time axis. The workspace may be, for example, a space indicating the spread of each department or project in the company, or may be a space formed according to the classification of documents to be managed by this apparatus.
[0040]
The entire context space shown in the figure may be displayed on the screen of the
[0041]
FIG. 5 is a diagram illustrating an example of a screen that displays threads for each phrase in a tree shape. In the
[0042]
FIG. 6 is a flowchart showing processing executed by the document management apparatus according to the embodiment. A plurality of documents stored in the
[0043]
A search condition related to the classification of the document is acquired from the user together with the search keyword (S22), and the search is executed based on the search condition (S24). The document extracted as the search result is presented on the screen of the user terminal 104 (S26).
[0044]
The present invention has been described based on the embodiments. This embodiment is an exemplification, and it is understood by those skilled in the art that various modifications can be made to each component and combination of processing processes, and such modifications are within the scope of the present invention. Hereinafter, modifications will be described.
[0045]
In the embodiment, a link is set between documents containing the same word / phrase, but in a modified example, strictness is not required with respect to the identity of the word / phrase, the word / phrase is normalized for each document, a synonym dictionary or a controlled word dictionary May be used to provide flexibility.
[0046]
In FIG. 6, the process of rearranging the documents in chronological order is located before S12. However, as a modification, the process may be performed between S12 and S14. Alternatively, it is possible to adopt a procedure in which the rearrangement process is executed between S14 and S16, and the documents are rearranged in time series after extraction.
[0047]
In the embodiment, the context classification is handled as one of the search conditions, but in the modified example, the search is performed by adding a weight according to the number of contexts flowing in the document or a weight according to the relationship between the authority and the hub. You may prioritize the results.
[0048]
When posting data on an electronic bulletin board is input from the
[0049]
【The invention's effect】
According to the present invention, it is possible to improve the convenience of the user regarding the use of the accumulated information.
[Brief description of the drawings]
FIG. 1 is a diagram illustrating a configuration of a document management system according to an embodiment.
FIG. 2 is a functional block diagram showing a basic configuration of a document management server according to the embodiment.
FIG. 3 is a diagram showing a context between documents linked by a phrase link included in each document;
FIG. 4 is a diagram illustrating a state in which a plurality of documents arranged in time series are associated by a plurality of contexts.
FIG. 5 is a diagram illustrating an example of a screen that displays a thread for each phrase in a tree shape.
FIG. 6 is a flowchart showing processing executed by the document management server according to the embodiment.
[Explanation of symbols]
10 document management server, 14 storage unit, 16 condition setting unit, 20 phrase determination unit, 24 extraction unit, 28 thread management unit, 36 output unit.
Claims (3)
CPUが、前記決定した語句を内容に含む複数の文書を記憶装置から抽出する工程と、 CPUが、前記抽出した複数の文書のうち、時系列順で隣接する文書の組み合わせをリンクにより関連づけるとともに、複数のリンクを連鎖させることによって文書間のコンテキストの存在を認識する工程と、
出力手段が、前記コンテキストの存在が認識された文書を提示する工程と、
を有し、
前記認識する工程は、前記複数の文書を、それぞれから認識される前記コンテキストの態様がその文書において始点、合流点、通過点、分岐点、および終点のいずれに該当するかに基づいて分類する工程を含み、
前記提示する工程は、前記コンテキストの態様に関するユーザの指定を取得し、その指定された態様に分類される文書を前記記憶装置から抽出して提示する工程を含むことを特徴とする文書管理方法。A step of determining a word / phrase as a viewpoint for the CPU to find relevance between documents;
CPU comprises the steps of extracting a plurality of documents containing phrase to the determined contents from the storage device, the CPU among a plurality of documents the extraction, together with associated by the time the link combinations of adjacent documents in sequential order, Recognizing the existence of a context between documents by chaining multiple links ;
An output means presenting a document in which the existence of the context is recognized;
Have a,
The recognizing step classifies the plurality of documents based on whether the context mode recognized from each of the plurality of documents corresponds to a start point, a merge point, a passage point, a branch point, or an end point in the document. Including
The presenting step includes a step of obtaining a user designation regarding the context mode, extracting a document classified into the specified mode from the storage device, and presenting the document.
文書間において関連性を見出すための視点となる語句を決定する条件設定部と、
前記決定した語句を内容に含む複数の文書を前記格納部から抽出する抽出部と、
前記抽出した複数の文書のうち、時系列順で隣接する文書の組み合わせをリンクにより関連づけるとともに、複数のリンクを連鎖させることによって文書間のコンテキストの存在を認識するスレッド管理部と、
前記コンテキストの存在が認識された文書を提示する出力部と、
を有し、
前記スレッド管理部は、前記複数の文書を、それぞれから認識される前記コンテキストの態様がその文書において始点、合流点、通過点、分岐点、および終点のいずれに該当するかに基づいて分類し、
前記出力部は、前記コンテキストの態様に関するユーザの指定を取得し、その指定された態様に分類される文書を前記格納部から抽出して提示することを特徴とする文書管理装置。A storage unit for storing documents;
A condition setting unit that determines a word / phrase as a viewpoint for finding relevance between documents;
An extraction unit that extracts a plurality of documents including the determined word or phrase from the storage unit;
Among the plurality of extracted documents, a thread management unit that associates a combination of documents adjacent in chronological order with links, and recognizes the presence of a context between documents by linking a plurality of links;
An output unit for presenting a document in which the existence of the context is recognized;
Have a,
The thread management unit classifies the plurality of documents based on whether the aspect of the context recognized from each corresponds to a start point, a junction point, a passage point, a branch point, or an end point in the document,
The document management apparatus , wherein the output unit acquires a user designation regarding the context mode, extracts a document classified into the specified mode from the storage unit, and presents the document.
前記決定した語句を内容に含む複数の文書を抽出する工程と、
前記抽出した複数の文書のうち、時系列順で隣接する文書の組み合わせをリンクにより関連づけるとともに、複数のリンクを連鎖させることによって文書間のコンテキストの存在を認識する工程と、
前記コンテキストの存在が認識された文書を提示する工程と、
をコンピュータに実行させ、
前記認識する工程は、前記複数の文書を、それぞれから認識される前記コンテキストの態様がその文書において始点、合流点、通過点、分岐点、および終点のいずれに該当するかに基づいて分類する工程を含み、
前記提示する工程は、前記コンテキストの態様に関するユーザの指定を取得し、その指定された態様に分類される文書を抽出して提示する工程を含むことを特徴とするコンピュータプログラム。Determining a word or phrase as a viewpoint for finding relevance between documents;
Extracting a plurality of documents containing the determined words in content;
Recognizing the existence of context between documents by associating a combination of adjacent documents in a chronological order among the extracted documents and linking a plurality of links ; and
Presenting a document in which the presence of the context is recognized;
To the computer ,
The recognizing step classifies the plurality of documents based on whether the context mode recognized from each of the plurality of documents corresponds to a start point, a merge point, a passage point, a branch point, or an end point in the document. Including
The presenting step includes a step of obtaining a user's designation regarding the context aspect, extracting and presenting a document classified into the designated aspect .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002237303A JP3845046B2 (en) | 2002-08-16 | 2002-08-16 | Document management method and document management apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002237303A JP3845046B2 (en) | 2002-08-16 | 2002-08-16 | Document management method and document management apparatus |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004078512A JP2004078512A (en) | 2004-03-11 |
JP3845046B2 true JP3845046B2 (en) | 2006-11-15 |
Family
ID=32021106
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002237303A Expired - Fee Related JP3845046B2 (en) | 2002-08-16 | 2002-08-16 | Document management method and document management apparatus |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3845046B2 (en) |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9715678B2 (en) | 2003-06-26 | 2017-07-25 | Microsoft Technology Licensing, Llc | Side-by-side shared calendars |
US8799808B2 (en) | 2003-07-01 | 2014-08-05 | Microsoft Corporation | Adaptive multi-line view user interface |
US7707255B2 (en) | 2003-07-01 | 2010-04-27 | Microsoft Corporation | Automatic grouping of electronic mail |
US8255828B2 (en) | 2004-08-16 | 2012-08-28 | Microsoft Corporation | Command user interface for displaying selectable software functionality controls |
US7703036B2 (en) | 2004-08-16 | 2010-04-20 | Microsoft Corporation | User interface for displaying selectable software functionality controls that are relevant to a selected object |
US7895531B2 (en) | 2004-08-16 | 2011-02-22 | Microsoft Corporation | Floating command object |
US9015621B2 (en) | 2004-08-16 | 2015-04-21 | Microsoft Technology Licensing, Llc | Command user interface for displaying multiple sections of software functionality controls |
US8146016B2 (en) | 2004-08-16 | 2012-03-27 | Microsoft Corporation | User interface for displaying a gallery of formatting options applicable to a selected object |
US7747966B2 (en) | 2004-09-30 | 2010-06-29 | Microsoft Corporation | User interface for providing task management and calendar information |
JP4772378B2 (en) | 2005-05-26 | 2011-09-14 | 株式会社東芝 | Method and apparatus for generating time-series data from a web page |
US8239882B2 (en) | 2005-08-30 | 2012-08-07 | Microsoft Corporation | Markup based extensibility for user interfaces |
US8689137B2 (en) | 2005-09-07 | 2014-04-01 | Microsoft Corporation | Command user interface for displaying selectable functionality controls in a database application |
US9542667B2 (en) * | 2005-09-09 | 2017-01-10 | Microsoft Technology Licensing, Llc | Navigating messages within a thread |
US8627222B2 (en) | 2005-09-12 | 2014-01-07 | Microsoft Corporation | Expanded search and find user interface |
JP4205090B2 (en) | 2005-09-30 | 2009-01-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Apparatus for displaying text information in association with numerical information, and method thereof |
JP4779618B2 (en) | 2005-12-09 | 2011-09-28 | 日本電気株式会社 | Article distribution system, article distribution method and article distribution program used in the system |
US9727989B2 (en) | 2006-06-01 | 2017-08-08 | Microsoft Technology Licensing, Llc | Modifying and formatting a chart using pictorially provided chart elements |
US8605090B2 (en) | 2006-06-01 | 2013-12-10 | Microsoft Corporation | Modifying and formatting a chart using pictorially provided chart elements |
US8484578B2 (en) | 2007-06-29 | 2013-07-09 | Microsoft Corporation | Communication between a document editor in-space user interface and a document editor out-space user interface |
US8762880B2 (en) | 2007-06-29 | 2014-06-24 | Microsoft Corporation | Exposing non-authoring features through document status information in an out-space user interface |
US8201103B2 (en) | 2007-06-29 | 2012-06-12 | Microsoft Corporation | Accessing an out-space user interface for a document editor program |
US9588781B2 (en) | 2008-03-31 | 2017-03-07 | Microsoft Technology Licensing, Llc | Associating command surfaces with multiple active components |
US9665850B2 (en) | 2008-06-20 | 2017-05-30 | Microsoft Technology Licensing, Llc | Synchronized conversation-centric message list and message reading pane |
US8402096B2 (en) | 2008-06-24 | 2013-03-19 | Microsoft Corporation | Automatic conversation techniques |
US9046983B2 (en) | 2009-05-12 | 2015-06-02 | Microsoft Technology Licensing, Llc | Hierarchically-organized control galleries |
-
2002
- 2002-08-16 JP JP2002237303A patent/JP3845046B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2004078512A (en) | 2004-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3845046B2 (en) | Document management method and document management apparatus | |
US10764353B2 (en) | Automatic genre classification determination of web content to which the web content belongs together with a corresponding genre probability | |
US6073170A (en) | Information filtering device and information filtering method | |
US8495049B2 (en) | System and method for extracting content for submission to a search engine | |
US20040261016A1 (en) | System and method for associating structured and manually selected annotations with electronic document contents | |
US20070078889A1 (en) | Method and system for automated knowledge extraction and organization | |
KR20020016514A (en) | Method, system, and program for gathering indexable metadata on content at a data repository | |
JP2020515944A (en) | System and method for direct in-browser markup of elements in Internet content | |
EP1903452B1 (en) | Method and system for processing the input in an XML form | |
KR20090023613A (en) | Multidimensional retrieval system, computer implemented method and computer executable system for performing multidimensional retrieval | |
US20100095157A1 (en) | Problem analysis via matching contiguous stack trace lines to symptom rules | |
KR102222287B1 (en) | Web Crawler System for Collecting a Structured and Unstructured Data in Hidden URL | |
JP4935399B2 (en) | Security operation management system, method and program | |
CN111797297B (en) | Page data processing method and device, computer equipment and storage medium | |
Aliakbary et al. | Web page classification using social tags | |
JP2003196294A (en) | Knowledge analyzing system and method | |
Vording | Harvesting unstructured data in heterogenous business environments; exploring modern web scraping technologies | |
US20160092458A1 (en) | System for automatically generating wrapper for entire websites | |
US20140059051A1 (en) | Apparatus and system for an integrated research library | |
US20070255670A1 (en) | Method and System for Automatically Producing Computer-Aided Control and Analysis Apparatuses | |
KR101078966B1 (en) | System for analyzing documents | |
US20150046437A1 (en) | Search Method | |
JP3725087B2 (en) | Knowledge information collecting system and knowledge information collecting method | |
JP4057997B2 (en) | Document processing apparatus with script, document acquisition apparatus, document processing system with script, document processing method with script, and program for causing computer to execute the method | |
US12105761B2 (en) | System and method for web crawling and content summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060425 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060808 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060817 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120825 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |