JP4345129B2 - Document processing method and apparatus, and recording medium - Google Patents
Document processing method and apparatus, and recording medium Download PDFInfo
- Publication number
- JP4345129B2 JP4345129B2 JP10065399A JP10065399A JP4345129B2 JP 4345129 B2 JP4345129 B2 JP 4345129B2 JP 10065399 A JP10065399 A JP 10065399A JP 10065399 A JP10065399 A JP 10065399A JP 4345129 B2 JP4345129 B2 JP 4345129B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- interest level
- electronic document
- user
- actual interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、電子文書を処理する文書処理方法および装置ならびに電子文書を処理する文書処理プログラムが記録された記録媒体に関する。
【0002】
【従来の技術】
従来、インターネットにおいて、ウィンドウ形式でハイパーテキスト型情報を提供するアプリケーションサービスとしてWWW(World Wide Web)が提供されている。
【0003】
WWWは、文書の作成、公開または共有化の文書処理を実行し、新しいスタイルの文書の在り方を示したシステムである。しかし、文書の実際上の利用の観点からは、文書の内容に基づいた文書の分類や要約といった、WWWを越える高度な文書処理が求められている。このような高度な文書処理には、文書の内容の機械的な処理が不可欠である。
【0004】
しかしながら、文書の内容の機械的な処理は、以下のような理由から依然として困難である。第1に、ハイパーテキストを記述する言語であるHTML(Hyper Text Markup Language)は、文書の表現については規定するが、文書の内容についてはほとんど規定しない。第2に、文書間に構成されたハイパーテキストのネットワークは、文書の読者にとって文書の内容を理解するために必ずしも利用しやすいものではない。第3に、一般に文章の著作者は読者の便宜を念頭に置かずに著作するが、文書の読者の便宜が著作者の便宜と調整されることはない。
【0005】
このように、WWWは新しい文書の在り方を示したシステムであるが、文書を機械的に処理しないので、高度な文書処理をおこなうことができなかった。換言すると、高度な文書処理を実行するためには、文書を機械的に処理することが必要となる。
【0006】
そこで、文書の機械的な処理を目標として、文書の機械的な処理を支援するシステムが自然言語研究の成果に基づいて開発されている。自然言語研究による文書処理として、文書の著作者等による文書の内部構造についての属性情報、いわゆるタグの付与を前提とした、文書に付与されたタグを利用する機械的な文書処理が提案されている。
【0007】
【発明が解決しようとする課題】
ところで、近年のコンピュータの普及や、ネットワーク化の進展に伴い、文章処理や、文書の内容に依存した索引などで、テキスト文書の作成、ラベル付け、変更などをおこなう文書処理の高機能化が求められている。たとえば、ユーザの要望に応じた文書の要約や、文書の分類等が望まれる。
【0008】
本発明は、上述の実情に鑑みて提案されるものであって、文書に対するユーザの関心度を算出するような文書処理方法および装置、ならびに文書に対するユーザの関心度を算出するような文書処理プログラムが記録されてなる記録媒体に関する。
【0009】
【課題を解決するための手段】
上述の課題を解決するために、本発明に係る文書処理方法は、複数の電子文書を処理する文書処理装置の文書処理方法において、受信手段が、複数の電子文書を受信する受信工程と、記録手段が、上記受信工程にて受信された複数の電子文書を記録する記録工程と、表示手段が、上記記録工程にて記録された複数の電子文書のうちユーザによって選択された電子文書及び当該電子文書の要約を表示する表示工程と、入力手段が、上記表示工程にて表示された電子文書に対するユーザの操作情報を入力する入力工程と、実関心度検出手段が、上記表示工程にて表示された電子文書に対して上記入力工程にて入力されたユーザの操作情報に基づいて上記電子文書に対するユーザの実関心度を算出する実関心度検出工程と、優先順位設定手段が、上記実関心度が算出されていない電子文書に対し、上記実関心度検出工程にて実関心度が算出された電子文書のうち上記電子文書の内部構造に基づく関連度が最も高い電子文書の実関心度を予測関心度とし、当該予測関心度に基づいて優先順位を設定する優先順位設定工程と、並べ替え手段が、上記記録工程にて記録された複数の電子文書のうちユーザによって選択されていない電子文書を上記優先順位設定工程にて設定された優先順位に応じて並べ替える並べ替え工程とを有し、上記実関心度検出工程では、上記電子文書及び上記電子文書の要約をそれぞれ表示する各表示領域について、ユーザによって選択された上記電子文書の要素のうち上記電子文書中での出現位置が上記電子文書の先頭から最も遠い位置にある要素の出現位置と上記電子文書のサイズとの比率からなる第1の実関心度要素と、ユーザによって指定されたキーワード数及びユーザによって選択された要素数からなる上記実関心度の第2の実関心度要素と、上記表示工程にて表示される上記電子文書の要約の表示領域のサイズと上記電子文書の表示領域のサイズとの比率からなる第3の上記実関心度要素とを用いて上記実関心度を算出する。
【0010】
本発明に係る文書処理装置は、複数の電子文書を処理する文書処理装置において、複数の電子文書を受信する受信手段と、上記受信手段によって受信された複数の電子文書を記録する記録手段と、上記記録手段によって記録された複数の電子文書のうちユーザによって選択された電子文書及び当該電子文書の要約を表示する表示手段と、上記表示手段によって表示された電子文書に対するユーザの操作情報を入力する入力手段と、上記表示手段によって表示された電子文書に対して上記入力手段によって入力されたユーザの操作情報に基づいて上記電子文書に対するユーザの実関心度を算出する実関心度検出手段と、上記実関心度が算出されていない電子文書に対し、上記実関心度検出手段によって実関心度が算出された電子文書のうち上記電子文書の内部構造に基づく関連度が最も高い電子文書の実関心度を予測関心度とし、当該予測関心度に基づいて優先順位を設定する優先順位設定手段と、上記記録手段によって記録された複数の電子文書のうちユーザによって選択されていない電子文書を上記優先順位設定手段によって設定された優先順位に応じて並べ替える並べ替え手段とを備え、上記実関心度検出手段は、上記電子文書及び上記電子文書の要約をそれぞれ表示する各表示領域について、ユーザによって選択された上記電子文書の要素のうち上記電子文書中での出現位置が上記電子文書の先頭から最も遠い位置にある要素の出現位置と上記電子文書のサイズとの比率からなる第1の実関心度要素と、ユーザによって指定されたキーワード数及びユーザによって選択された要素数からなる上記実関心度の第2の実関心度要素と、上記表示手段によって表示される上記電子文書の要約の表示領域のサイズと上記電子文書の表示領域のサイズとの比率からなる第3の上記実関心度要素とを用いて上記実関心度を算出する。
【0011】
本発明に係る記録媒体は、複数の電子文書を処理する文書処理をコンピュータに実行させる文書処理プログラムが記録されたコンピュータが読み取り可能な記録媒体において、上記文書処理プログラムは、受信手段が、複数の電子文書を受信する受信工程と、上記受信工程にて受信された複数の電子文書を記録する記録工程と、表示手段が、上記記録工程にて記録された複数の電子文書のうちユーザによって選択された電子文書及び当該電子文書の要約を表示する表示工程と、入力手段が、上記表示工程にて表示された電子文書に対するユーザの操作情報を入力する入力工程と、実関心度検出手段が、上記表示工程にて表示された電子文書に対して上記入力工程にて入力されたユーザの操作情報に基づいて上記電子文書に対するユーザの実関心度を算出する実関心度検出工程と、優先順位設定手段が、上記実関心度が算出されていない電子文書に対し、上記実関心度検出工程にて実関心度が算出された電子文書のうち上記電子文書の内部構造に基づく関連度が最も高い電子文書の実関心度を予測関心度とし、当該予測関心度に基づいて優先順位を設定する優先順位設定工程と、並べ替え手段が、上記記録工程にて記録された複数の電子文書のうちユーザによって選択されていない電子文書を上記優先順位設定工程にて設定された優先順位に応じて並べ替える並べ替え工程とをコンピュータに実行させ、上記実関心度検出工程では、上記電子文書及び上記電子文書の要約をそれぞれ表示する各表示領域について、ユーザによって選択された上記電子文書の要素のうち上記電子文書中での出現位置が上記電子文書の先頭から最も遠い位置にある要素の出現位置と上記電子文書のサイズとの比率からなる第1の実関心度要素と、ユーザによって指定されたキーワード数及びユーザによって選択された要素数からなる上記実関心度の第2の実関心度要素と、上記表示工程にて表示される上記電子文書の要約の表示領域のサイズと上記電子文書の表示領域のサイズとの比率からなる第3の上記実関心度要素とを用いて上記実関心度を算出するものである。
【0012】
【発明の実施の形態】
以下、図面を参照して、本発明に係る文書処理方法および装置ならびに記録媒体の実施の形態について説明する。
【0013】
本発明の実施の形態としての文書処理装置は、図1に示すように、制御部11およびインターフェース12を備える本体10と、ユーザからの入力を受けて本体10に送る入力部20と、外部からの信号を受信して本体10に送る受信部21と、本体10からの出力を表示する表示部30と、記録媒体32に対して情報を記録/再生する記録/再生部31とを有している。
【0014】
本体10は、制御部11およびインターフェース12を有し、この文書処理装置の主要な部分を構成している。制御部11は、この文書処理装置における処理を実行するCPU13と、揮発性のメモリであるRAM14と、不揮発性のメモリであるROM15とを有している。CPU13は、たとえばROM15に記録された手順にしたがって、必要な場合にはデータを一時的にRAM14に格納して、プログラムを実行するための制御をおこなう。インターフェース12は、制御部11、入力部20、受信部21、表示部30および記録/再生部31に接続される。インターフェース12は、制御部11の制御の下に、入力部20および受信部21からのデータの入力、表示部30へのデータの送信、記録/再生部31に対するデータの送受信について、データを送信するタイミングを調整したり、データの形式を変換したりする。
【0015】
入力部20は、この文書処理装置に対するユーザの入力を受ける部分である。この入力部20は、たとえばキーボードやマウスにより構成される。ユーザは、この入力部20を用い、キーボードによりキーワードを入力したり、マウスにより表示部30に表示されている電子文書のエレメントを選択して入力したりすることができる。なお、以下では電子文書を単に文書と称することにする。ここで、エレメントとは文書を構成する要素であって、たとえば文書、文および語が含まれる。
【0016】
受信部21は、この文書処理装置に外部からたとえば通信回線を介して送信される信号を受信する部分である。この受信部21は、外部から送信された複数の文書を受信する。受信部21は、受信したデータを本体10に送る。
【0017】
表示部30は、この文書処理装置からの文字や画像情報の出力を表示する。表示部30は、たとえば陰極線管(cathode ray tube;CRT)や液晶表示装置(liquid crystal display;LCD)から構成され、たとえば単数または複数のウィンドウを表示し、このウィンドウ上に文字、図形等を表示したりする。
【0018】
記録/再生部31は、たとえばいわゆるフロッピーディスクのような記録媒体32に対してデータの記録/再生をおこなう。記録媒体32には、文書を処理する文書処理プログラムが記録されている。この記録媒体32についてはさらに後述する。
【0019】
続いて、本実施の形態における文書について説明する。本実施の形態においては、文書処理は、文書に付与された属性情報であるタグを参照しておこなわれる。本実施の形態で用いられるタグには、文書の構造を示す統語論的(syntactic)タグと、多言語間で文書の機械的な内容理解を可能にするような意味的(semantic)・語用論的タグとがある。
【0020】
統語論的なタグとしては、文書の内部構造を記述するものがある。タグ付けによる内部構造は、図2に示すように、文書、文、語彙エレメント等の各エレメントが、通常リンク、参照・被参照リンクによりリンクされて構成されている。図中において、白丸“○”はエレメントを示し、最下位の白丸は文書における最小レベルの語に対応する語彙エレメントである。また、実線は文書、文、語彙エレメント等のエレメント間のつながり示す通常リンク(normal link )である。破線は参照・被参照による係り受け関係を示す参照リンク(reference link)である。文書の内部構造は、上位から下位への順序で、文書(document)、サブディビジョン(subdivision )、段落(paragraph)、文(sentence )、サブセンテンシャルセグメント(subsentential segment )、・・・、語彙エレメントから構成される。このうち、サブディビジョンと段落は、オプションである。
【0021】
一方、意味論・語用論的なタグ付けとしては、多義語の意味のように意味等の情報を記述するものがある。本実施の形態におけるタグ付けは、HTML(Hyper Text Markup Language)と同様なXML(Extended Markup Language)の形式によるものである。
【0022】
タグ付けの一例を次に示すが、文書へのタグ付けはこの方法に限られない。また、以下では英語と日本語の文書の例を示すが、タグ付けによる内部構造の記述は他の言語にも同様に適用することができる。
【0023】
たとえば、“Time flies like an arrow.”という文については、下記のようなタグ付けをすることができる。
【0024】
<文><名詞句 語義=“time0”>time</名詞句>
<動詞句><動詞 語義=“fly1”>flies</動詞>
<形容動詞句><形容動詞 語義=like0>like</形容動詞> <名詞句>an<名詞 語義=“arrow0”>arrow</名詞></名詞句>
</形容動詞句></動詞句>.</文>
ここで<文>、<名詞>、<名詞句>、<動詞>、<動詞句>、<形容動詞>、<形容動詞句>は、それぞれ文、名詞、名詞句、動詞、動詞句、形容詞を含む前置詞句または後置詞句/形容詞句、形容詞句/形容動詞句のような文の統語構造(syntactic structure )を表している。タグは、エレメントの先端の直前および終端の直後に対応して配置される。エレメントの終端の直後に配置されるタグは、記号“/”によりエレメントの終端であることを示している。エレメントは統語的構成素、すなわち句、節、および文を示す。なお、語義(word sense)=“time0”は、語“time”の有する複数の意味、すなわち複数の語義のうちの第0番目の意味を指している。具体的には、語“time”には少なくとも名詞、形容詞、動詞の意味があるが、ここでは語“time”が名詞であることを示している。同様に、語“オレンジ”は少なくとも植物の名前、色、果物の意味があるが、これらも語義によって区別することができる。
【0025】
本実施の形態における文書は、図3に示すように、表示部30のウィンドウ101に統語構造を表示することができる。このウィンドウ101においては、右半面103に語彙エレメントが、左半面102に文の内部構造がそれぞれ表示されている。
【0026】
このウィンドウ101には、タグ付けにより内部構造を記述された次に示すような文書「A氏のB会が終わったC市で、一部の大衆紙と一般紙がその写真報道を自主規制する方針を紙面で明らかにした。」の一部が表示されている。この文書のタグ付けの例を次に示す。
【0027】
<文書><文><形容動詞句 関係=“位置”><名詞句><形容動詞句 場所=“C市”>
<形容動詞句 関係=“主語”><名詞句 識別子=“B会”><形容動詞句 関係=“所属”><人名 識別子=“A氏”>A氏</人名>の</形容動詞句><組織名 識別子=“B会”>B会</組織名></名詞句>が</形容動詞句>
終わった</形容動詞句><地名 識別子=“C市”>C市</地名></名詞句>で、</形容動詞句><形容動詞句 関係=“主語”><名詞句 識別子=“press” 統語=“並列”><名詞句><形容動詞句>一部の</形容動詞句>大衆紙</名詞句>と<名詞>一般紙</名詞></名詞句>が</形容動詞句>
<形容動詞句 関係=“目的語”><形容動詞句 関係=“内容” 主語=“press”><形容動詞句 関係=“目的語”><名詞句><形容動詞句><名詞 共参照=“B会”>そ</名詞>の</形容動詞句>写真報道</名詞句>を</形容動詞句>
自主規制する</形容動詞句>方針を</形容動詞句>
<形容動詞句 関係=“位置”>紙面で</形容動詞句>
明らかにした。</文></文書>
【0028】
この文書においては、「一部の大衆紙と一般紙」は、統語=“並列”というタグにより並列であることが表されている。並列の定義は、係り受け関係を共有すると言うことである。特に何も指定がない場合は、たとえば、<名詞句 関係=x><名詞>A</名詞><名詞>B</名詞></名詞句> はAがBに依存関係のあることを表す。関係=xは関係属性を表す。
【0029】
関係属性は、統語、意味、修辞についての相互関係を記述する。主語、目的語、間接目的語のような文法機能、動作主、被動作者、受益者などのような主題役割、および理由、結果などのような修辞関係はこの関係属性により記述される。本実施の形態では、主語、目的語、間接目的語のような比較的容易な文法機能について関係属性を記述する。
【0030】
また、この文書においては、“A氏”、“B会”、“C市”のような固有名詞について、地名、人名、組織名等のタグにより属性が記述されている。これら地名、人名、組織名等のタグが付与される語は固有名詞である。
【0031】
以下では、本発明に係る実施の形態としての文書処理装置の動作について説明する。文書処理装置は、文書に対する実関心度を検出し、検出した実関心度に基づいて他の文書に優先順位を設定するものである。文書処理装置は、文書を表示し、表示された文書に基づいて実関心度を検出する。実関心度は、ユーザの文書に対する操作に応じて検出される。この実関心度との関連度に基づいて、実関心度が与えられていない文書に対して予測関心度が定義される。予測関心度を用いると、ユーザが操作していない文書に対して優先順位を与えることができる。
【0032】
このような実関心度の説明に先立って、文書の手動分類および文書の自動分類について説明することにする。すなわち、文書処理装置の動作について、(1)文書の手動分類、(2)文書の自動分類、(3)実関心度および予測関心度の順序で説明する。
【0033】
説明の内容を簡単に述べると、(1)文書の手動分類においては、文書処理装置が外部から送られた文書を受信し、ユーザがこの文書を手動分類する動作について説明する。この手動分類により、文書を分類する分類モデルが作成される。(2)文書の自動分類においては、文書の手動分類により作成された分類モデルに基づいて、文書分類間関連度を用いて文書を分類する動作について説明する。(3)実関心度および予測関心度においては、ユーザの操作に基づいて検出される実関心度と、この実関心度および文書間関連度に基づいて得られる予測関心度に基づいておこなわれる処理について説明する。
【0034】
(1)文書の手動分類
本実施の形態では、初期状態では分類モデルが存在しない。初期状態においては、分類モデルを作成するために、外部から送られた文書を手動によって分類する必要がある。このような文書処理装置の手動分類の動作について、図4を参照して説明する。
【0035】
図4のステップS11では、文書処理装置の受信部21は、たとえば通信回線を介して送信された複数の文書を受信する。受信部21は、受信した文書を文書処理装置の本体10に送る。
【0036】
ステップS12では、文書処理装置の制御部11は、受信部21から送られた複数文書の特徴を抽出し、それぞれの文書の特徴情報すなわちインデックスを作成する。制御部11は、受信した複数の文書や、作成したインデックスを、たとえばRAM14に記憶させる。インデックスは、その文書に特徴的な、固有名詞、固有名詞以外の語義などを含む。
【0037】
ここで、インデックスの具体例を示す。
【0038】
<インデックス 日付=“AAAA/BB/CC” 時刻=“DD:EE:FF” 文書アドレス=“1234”>
<ユーザの操作履歴 最大要約サイズ=“100”>
<選択 エレメントの数=“10”>ピクチャーテル</選択>
・・・
</ユーザの操作履歴>
<要約>減税規模、触れず−X首相の会見</要約>
<語 語義=“0003” 中心活性値=“140.6”>触れず</語>
<語 語義=“0105” 識別子=“X” 中心活性値=“67.2”>首相</語>
<人名 識別子=“X” 語 語義=“6103” 中心活性値=“150.2”>X首相</語 /人名>
<語 語義=“5301” 中心活性値=“120.6”>求めた</語>
<語 語義=“2350” 識別子=“X” 中心活性値=“31.4”>首相</語>
<語 語義=“9582” 中心活性値=“182.3”>強調した</語>
<語 語義=“2595” 中心活性値=“93.6”>触れる</語>
<語 語義=“9472” 中心活性値=“12.0”>予告した</語>
<語 語義=“4934” 中心活性値=“46.7”>触れなかった</語>
<語 語義=“0178” 中心活性値=“175.7”>釈明した</語>
<語 語義=“7248” 識別子=“X” 中心活性値=“130.6”>私</語>
<語 語義=“3684” 識別子=“X” 中心活性値=“121.9”>首相</語>
<語 語義=“1824” 中心活性値=“144.4.”>訴えた</語>
<語 語義=“7289” 中心活性値=“176.8”>見せた</語>
</インデックス>
【0039】
このインデックスにおいては、<インデックス>および</インデックス>は、インデックスの始端および終端を、<日付>および<時刻>はこのインデックスが作成された日付および時刻を、<要約>および</要約>はこのインデックスの内容の要約の始端および終端を示している。<語>および</語>は語の始端および終端を、それぞれ示している。語義=“0003”は、第3番目の語義であることを示している。他についても同様である。すなわち、同じ語でも複数の意味を持つ場合があるので、それを区別するために語義ごとに番号が予め決められている。したがって、同じ語に対して単数または複数の語義が存在する。
【0040】
また、<ユーザの操作履歴>および</ユーザの操作履歴>は、ユーザの操作履歴の始端および終端を、<選択>および</選択>は、選択されたエレメントの始端および終端を、それぞれ示している。最大要約サイズ=“100”は、要約の最大のサイズが100文字であることを、エレメントの数=“10”は、選択されたエレメントの数が10であることを示している。
【0041】
図4のステップS13においては、ユーザは、図5の表示の具体例に示すように文書処理装置の表示部30に表示される文書を閲覧する。図5においては、ユーザによる分類前の文書は“他のトピックス”分類され、ウィンドウ301の第1の表示部303の“他のトピックス”に、文書のアイコンやタイトルが表示されている。文書処理装置の制御部11は、このように表示された複数の文書のうちから、ユーザの所望の文書を表示部30に表示するように制御する。制御部11は、入力部20へのユーザの入力に応じて、表示部30に表示する文書を選択する。表示部30には、ユーザにより選択された文書が、その領域の大きさを変更可能なウィンドウにより表示される。このウィンドウに文書の全体が表示できないときには、文書の一部が表示される。
【0042】
なお、ユーザが文書閲覧をおこなうこのステップS13は、ユーザの必要に応じて設けられる。また、図中においてこのステップS13が平行四辺形で表されているのは、ユーザが操作することを示すものである。以下も同様である。
【0043】
ここで、上述の図5で示した表示の具体例について詳細に説明する。この具体例においては、ユーザが自由に文書を分類するカテゴリを設定や変更をすることができるようにしている。このようなカテゴリの設定や変更は、ユーザが手動によりおこなう。
【0044】
表示部30において文書分類の表示に用いられるグラフィックユーザインターフェース(graphic user interface; GUI)の具体例は、図6に示すようになる。この文書分類ウィンドウ301は、画面のウィンドウの状態を初期の位置にもどすポジションリセット(position reset)のボタンと、文書の内容を閲読するブラウザ(browser )を呼び出すブラウザのボタンと、このウィンドウからの脱出(exit)のボタンとを含む操作ボタン302を有している。
【0045】
また、文書分類ウィンドウ301は、上述した“他のトピックス”を表示する第1の分類表示部303、“ビジネスニュース”を表示する第2の分類表示部304、“政治ニュース”を表示する第3の分類表示部305等が表示されている。これらの分類部には、各カテゴリに対応し、そのカテゴリに分類された文書のアイコンと文書のタイトルが表示されている。タイトルがない場合には、一文の要約が表示される。各分類表示部の大きさは固定的ではなく、たとえば入力部20のマウスにて操作することにより、所望の大きさに変更することができる。また、分類表示部のタイトルまたはラベルも自由に変更することができる。
【0046】
第1の分類表示部303の“他のトピックス”には、たとえば第2の分類表示部304以下に対応するカテゴリに分類される前の文書のタイトルが表示される。すなわち、この手動分類の工程では、文書処理装置が受信した文書は、一旦は第1の分類表示部303の“他のトピックス”に表示される。第1の分類表示部303に表示された文書は、以下のようにユーザによりカテゴリに分類される。
【0047】
図4のステップS14においては、ユーザは、ステップS13において文書処理装置の表示部30にて閲覧した複数の文書を分類するための複数のカテゴリからなる分類モデルを作成する。そして、分類モデルの各カテゴリに上記複数の文書を分類する。
【0048】
分類モデルは、文書を分類する複数の分類項目すなわちカテゴリから構成される。カテゴリは、そのカテゴリに特徴的な、固有名詞、固有名詞以外の語義やカテゴリに含まれる文書アドレス等を含んでなるカテゴリインデックスから構成される。カテゴリインデックスは、固有名詞、固有名詞以外の語義を含む文書のインデックスから構成される。
【0049】
たとえば、図7に示す分類モデルは、各カテゴリに対応するカテゴリインデックスについて、固有名詞、固有名詞以外の語義、文書アドレスの欄を有している。この分類モデルにおいては、カテゴリ“スポーツ”、“社会”、“コンピュータ”、“植物”、“美術”および“イベント”に対して、固有名詞“A氏、・・・”、“B氏、・・・”、“C社、G社、・・・”、“D種、・・・”、“E氏、・・・”および“F氏”を、語義“野球(4546)、グランド(2343)、・・・”、“労働(3112)、固有(9821)、・・・”、“モバイル(2102)、・・・”、“桜1(11111)、オレンジ1(9911)”、“桜2(11112)、オレンジ2(9912)”および“桜3(11113)”を、この分類モデルに対応する文書アドレス“SP1、SP2、SP3、・・・”、“SO1、SO2、SO3、・・・”、“CO1、CO2、CO3、・・・”、“PL1、PL2、PL3、・・・”、“AR1、AR2、AR3、・・・”および“EV1、EV2、EV3、・・・”をそれぞれ有している。なお、“桜1”、“桜2”および“桜3”は“桜”の第1の語義(11111)、第2の語義(11112)および第3の語義(11113)を示している。また、“オレンジ1”および“オレンジ2”は、“オレンジ”の第1の語義(9911)および第2の語義(9912)を示している。たとえば“オレンジ1”は植物のオレンジを表し、“オレンジ2”はオレンジ色を表す。
【0050】
分類モデルが更新されると、分類モデルに更新日時が記録される。図中には、更新日時として“1998年12月10日19時56分10秒”が記録されている。
【0051】
分類モデルのカテゴリの作成は、文書分類ウィンドウ301において、各カテゴリに対応する分類表示部を変更や削除したり、新たに分類表示部を設定することにより、ユーザが手動でおこなう。
【0052】
文書のカテゴリへの分類操作は、たとえば、文書分類ウィンドウ301において、分類表示部に表示された文書のタイトルに対応するアイコンを、入力部20のマウスを用い、所望のカテゴリに対応する分類表示部にドラッグすることによりおこなう。カテゴリに分類された文書のタイトルは、文書分類ウィンドウ301において、各カテゴリに対応する分類表示部に表示される。
【0053】
ステップS15においては、文書処理装置の制御部11は、ステップS14においておこなわれたカテゴリの作成と、このカテゴリに応じたユーザの手動による分類操作によって分類された各文書のインデックスに基づいて、分類モデルを作成する。すなわち、文書処理装置の制御部11は、各カテゴリに分類された上記複数の文書のインデックスを集めて、分類モデルを生成する。
【0054】
各カテゴリのカテゴリインデックスは、そのカテゴリに特徴的な固有名詞、固有名詞以外の語義、各カテゴリに分類された文書アドレスからなる。ここで、固有名詞以外の場合に語そのものではなく語義を用いるのは、同じ語でも複数の意味を有することがあるからである。そして、文書処理装置の制御部11は、このように作成した分類モデルをたとえばRAM14に記憶させる。
【0055】
なお、ステップS15における分類モデルの作成は、ステップS14におけるカテゴリの作成と、ユーザの手動による分類操作がおこなわれる度におこなうこともできる。
【0056】
ステップS16では、文書処理装置の制御部11は、ステップS15で作成された分類モデルを登録する。制御部11は、登録した分類モデルをたとえばRAM14に記憶させる。
【0057】
(2)文書の自動分類
次に、文書処理装置が分類モデルに基づいておこなう文書の自動分類について、図8を参照して説明する。この文書分類は、図4に示す処理により分類モデルが作成された後に受信した文書に対しておこなわれる。なお、この例では、一つの文書を受信する毎に図8に示す処理をおこなうこととして説明するが、複数の所定数の文書を受信する度におこなってもよいし、ユーザが図6の画面を開く操作をしたときにそれまでに受信した全文書に対して処理をおこなってもよい。
【0058】
ステップS21では、文書処理装置の受信部21は、外部から文書を受信する。この文書の受信については、ステップS11で説明したので、ここでの説明を省略することにする。
【0059】
ステップS22に進み、文書処理装置の制御部11は、ステップS21でRAM14に記憶された文書を読み出し、インデックスを作成する。このインデックスの作成については、さらに後述する。
【0060】
ステップS23では、文書処理装置の制御部11は、分類モデルに基づいて、インデックスを附された各文書を分類モデルのいずれかのカテゴリに自動分類する。そして、制御部11は、分類の結果をたとえばRAM14に記憶させる。自動分類の詳細については、さらに後述する。
【0061】
ステップS24では、文書処理装置の制御部11は、たとえばRAM14に記憶されたステップS23での新たな文書の自動分類の結果に基づいて、分類モデルを更新する。ステップS25では、文書処理装置の制御部11は、ステップS24で更新された分類モデルを登録する。制御部11は、登録した分類モデルをたとえばRAM14に記憶させる。
【0062】
次に、図4のステップS12および図8のステップS22でのインデックス作成について、図9を参照して説明する。
【0063】
ステップS31においては、文書処理装置の制御部11は、図4のステップS11および図8のステップS21で受信された文書について、エレメントの中心活性値を文書の内部構造に基づいて拡散する活性拡散を実行する。中心活性値の拡散処理については、さらに後述する。制御部11は、活性拡散の結果として得られた各エレメントの中心活性値を、たとえばRAM14に記憶させる。
【0064】
ステップS32においては、文書処理装の制御部11は、ステップS31で得られた各エレメントの中心活性値に基づいて、中心活性値があらかじめ設定された閾値を超えるエレメントを抽出する。制御部11は、このように抽出したエレメントをたとえばRAM14に記憶させる。
【0065】
ステップS33においては、文書処理装置の制御部11は、ステップS32にて抽出したエレメントをたとえばRAM14から読み出す。そして、制御部11は、このエレメントからすべての固有名詞を取り出してインデックスに加える。固有名詞は語義を持たず、辞書に載っていないなどの特殊の性質を有するので固有名詞以外の語とは別に扱うものである。ここで、語義とは、語の有する複数の意味のうちの各意味に対応したものである。
【0066】
文書処理装置の制御部11は、エレメントが固有名詞であるか否か、受信した文書に附されたタグに基づいて判断する。たとえば、図3に示したタグ付けによる内部構造においては、“A氏”、“B会”および“C市”は、タグによる関係属性がそれぞれ“人名”、“組織名”および“地名”であるので固有名詞であることが分かる。そして、制御部11は、取り出した固有名詞をインデックスに加え、その結果をたとえばRAM14に記憶させる。
【0067】
ステップS34においては、文書処理装置の制御部11は、たとえばRAM14から、ステップS32にて抽出したエレメントから、固有名詞以外の語義を取り出してインデックスに加え、その結果をRAM14に記憶させる。
【0068】
このように、文書の特徴を発見してインデックスを作成する手順は、タグ付けされた文書の特徴を発見して、その特徴を配列したインデックスを作るものである。文書の特徴は、文書の内部構造に応じて拡散処理された中心活性値に基づいて判断される。
【0069】
なお、上述のインデックスには、文書の特徴を表す語義および固有名詞とともに、その文書がRAM14において記憶された位置を示す文書アドレスを含めておく。
【0070】
インデックスは文書を代表するような特徴を表す語義および固有名詞を含むので、所望の文書を参照する際に用いることができる。
【0071】
次に、文書の内部構造に基づいて、エレメントに対応する中心活性値を拡散する活性拡散について、図10を参照して説明する。活性拡散は、図9のステップS31他でおこなわれる。活性拡散は、中心活性値の高いエレメントと関わりのあるエレメントにも高い中心活性値を与えるような処理である。この中心活性値は、タグ付けによる内部構造に応じて決定されるので、文書の特徴の抽出等に利用される。
【0072】
ステップS81では、文書処理装置の制御部11は、参照・被参照リンクと通常リンクに関しては、エレメントを連結するリンクの端点の端点活性値を0に設定する。制御部11は、このように付与した端点活性値の初期値を、たとえばRAM14に記憶させる。
【0073】
エレメントとエレメントの連結は、たとえば図11に示すようになる。この図においては、文書を構成するエレメントとリンクの構造の一部として、エレメントEiおよびエレメントEjが示されている。エレメントEiとエレメントEjとは、中心活性値eiおよびejをそれぞれ有し、リンクLijにて接続されている。リンクLijのエレメントEiに接続する端点はTij、エレメントEjに接続する端点はTjiである。エレメントEiは、リンクLijにより接続されるエレメントEjの他に、リンクLik、LilおよびLimによって図示しないエレメントEk、ElおよびEmにそれぞれ接続している。エレメントEjは、エレメントEjを基準としたリンクLijであるLjiにより接続されるエレメントEiの他に、リンクLjp、Lj qおよびLjrによって図示しないエレメントEp、EqおよびErにそれぞれ接続している。
【0074】
ステップS82においては、文書処理装置の制御部11は、文書を構成するエレメントEiを計数するカウンタの初期化をおこなう。すなわち、エレメントを計数するカウンタのカウント値iを1に設定する。このカウンタは、第1番目のエレメントE1を参照することになる。
【0075】
ステップS83においては、文書処理装置の制御部11は、カウンタが参照するエレメントについて、新たな中心活性値を計算するリンク処理を実行する。このリンク処理については、さらに後述する。
【0076】
ステップS84においては、文書処理装置の制御部11は、文書中のすべてのエレメントについて新たな中心活性値の計算が完了したか否かを判断する。そして、制御部11は、文書中のすべてのエレメントについて中心活性値の計算が完了したときには“YES”としてステップS85に処理を進め、文書中のすべてのエレメントについて新たな中心活性値の計算が完了していないときには“NO”としてステップS87に処理を進める。
【0077】
具体的には、制御部11は、カウンタのカウント値iが、文書の含むエレメントの総数に達したか否かを判断する。そして、制御部11は、カウンタのカウント値iが文書に含まれるエレメントの総数に達したときには、すべてのエレメントが計算済みとしてステップS85に処理を進める。制御部11は、カウンタのカウント値iが文書に含まれるエレメントの総数に達していないときにはすべてのエレメントについて計算が終了していないとしてステップS87に処理を進める。
【0078】
ステップS87においては、文書処理装置の制御部11は、カウンタのカウント値iを1増加させて、カウンタのカウント値をi+1とする。このことにより、カウンタはi+1番目Ei+1のエレメント、すなわち次のエレメントを参照する。そして、処理はステップS83にもどり、端点活性値の計算およびこれに続く一連の行程が、次のi+1番目のエレメントEi+1について実行される。
【0079】
ステップS85においては、文書処理装置の制御部11は、文書に含まれるすべてのエレメントの中心活性値の変化分、すなわち新たに計算された中心活性値の元の中心活性値に対する変化分について平均値を計算する。
【0080】
文書処理装置の制御部11は、たとえばRAM14に記憶された元の中心活性値と新たに計算した中心活性値を、文書に含まれるすべてのエレメントについて読み出す。制御部11は、新たに計算した中心活性値の元の中心活性値に対するそれぞれの変化分の総和を文書に含まれるエレメントの総数で除することにより、すべてのエレメントの中心活性値の変化分の平均値を計算する。制御部11は、このように計算したすべてのエレメントの中心活性値の変化分の平均値を、たとえばRAM14に記憶させる。
【0081】
ステップS86においては、制御部11は、ステップS89で計算したすべてのエレメントの中心活性値の変化分の平均値が、あらかじめ設定された閾値以内であるか否かを判断する。そして、制御部11は、上記変化分が閾値以内であると“YES”としてこの一連の行程を終了する。上記制御部11は、上記変化分が閾値以内でないときには“NO”として、ステップS82にてカウンタのカウント値iを1に設定して文書のエレメントの中心活性値を計算する一連の行程を再び実行する。この一連の行程にて構成されるステップS82からステップS84に至るループが繰り返されるごとに上記変化分は徐々に減少する。
【0082】
続いて、図10のステップS83にて実行されるリンク処理について、図12を参照して説明する。ここでは、一のエレメントEiに対する処理を例にとるが、中心活性値の拡散処理の際には、リンク処理はすべてのエレメントに対しておこなわれる。
【0083】
ステップS51では、文書処理装置の制御部11は、文書を構成するエレメントEiと一端が接続されたリンクを計数するカウンタの初期化をおこなう。すなわち、リンクを計数するカウンタのカウント値jを1に設定する。カウンタは、エレメントEiと接続された第1番目のエレメントLi1を参照することになる。
【0084】
ステップS52では、文書処理装置の制御部11は、エレメントEiとEjを接続するリンクLijについて、関係属性のタグを参照することにより通常リンクであるか否かを判断する。制御部11は、リンクLijが通常リンクのときには“YES”としてステップS53に処理を進め、リンクLijが参照リンクのときには“NO”としてステップS54に処理を進める。
【0085】
ステップS53においては、文書処理装置の制御部11は、エレメントEiの通常リンクLijに接続された端点Tijの新たな端点活性値を計算する処理をおこなう。
【0086】
ここでは、ステップS52における判別により、リンクLijは通常リンクであることが明らかになっている。エレメントEiの通常リンクLijに接続される端点Tijの端点活性値tijは、エレメントEjの端点活性値のうち、リンクLij以外のリンクに接続するすべての端点Tjp、Tjq、Tjrの端点活性値tjp、tjq、tjrと、エレメントEiがリンクLijにより接続されるエレメントEjの中心活性値ejを加算し、この加算で得た値を文書に含まれるエレメントの総数で除することにより求められる。
【0087】
文書処理装置の制御部11は、たとえばRAM14から、端点活性値および中心活性値を読み出す。制御部11は、読み出された端点活性値および中心活性値について、上述のようにその通常リンクと接続された端点の新たな端点活性値を計算する。そして制御部11は、このように計算した端点活性値を、たとえばRAM14に記憶させる。
【0088】
ステップS54では、文書処理装置の制御部11は、エレメントEiの参照リンクに接続された端点Tijの端点活性値を計算する処理をおこなう。
【0089】
ステップS52における判別により、リンクLijは参照リンクであることが明らかになっている。エレメントEiの参照リンクLijに接続する端点Tijの新たな端点活性値tijは、エレメントEjの端点活性値のうち、このリンクLijを除いたリンクに接続するすべての端点Tjp、Tjq、Tjrの端点活性値tjp、tjq、tjrと、エレメントEiがリンクLijにより接続されるエレメントEjの中心活性値ejを加算することにより求められる。
【0090】
文書処理装置の制御部11は、たとえばRAM14に記憶された端点活性値および中心活性値から、必要な端点活性値および中心活性値を読み出す。制御部11、読み出された端点活性値および中心活性値を用いて、上述のように参照リンクと接続された新たな端点活性値を計算する。そして制御部11は、このように計算した端点活性値を、たとえばRAM14に記憶させる。
【0091】
ステップS53における通常リンクの処理、およびステップS54における参照リンクの処理は、ステップS52からステップS55に至るループにあるように、カウント値iにより参照されているエレメントEiに接続するすべてのリンクLijに対して実行される。
【0092】
ステップS55では、文書処理装置の制御部11は、エレメントEiに接続するすべてのリンクについて端点活性値が計算されたか否かを判別する。そして、すべてのリンクについて端点活性値が計算されているときには“YES”としてステップS57に進み、すべてのリンクについて端点活性値が計算されていないときには“NO”としてステップS57に進む。
【0093】
ステップS56においては、ステップS55にてエレメントEiのすべてのリンクLijについて端点活性値tijが求められたことが判別されたので、文書処理装置の制御部11は、エレメントEiの中心活性値eiの更新を実行する。
【0094】
エレメントEiの中心活性値eiの新たな値すなわち更新値は、エレメントEiの現在の中心活性値eiとエレメントEiのすべての端点の新たな端点活性値の和ei’=ei+Σtj’をとることにより求められる。ここで、プライム“’”は、新たな値という意味である。
【0095】
文書処理装置の制御部11は、たとえばRAM14に記憶された端点活性値および中心活性値から必要な端点活性値を読み出す。制御部11は、上述したような計算を実行し、そのエレメントEiの中心活性値eiを算出する。そして、制御部11は、計算した新たな中心活性値eiをたとえばRAM14に記憶させる。
【0096】
次に、図8のステップS23での自動分類について、図13を参照して説明する。
【0097】
ステップS71では、文書処理装置の制御部11は、分類モデルのカテゴリCiに含まれる固有名詞の集合と、ステップS21で受信した文書から抽出されインデックスに入れられた語のうちの固有名詞の集合とについて、これらの共通集合の数をP(Ci )とする。そして、制御部11は、このようにして算出した数P(Ci )をたとえばRAM14に記憶させる。
【0098】
ステップS72においては、文書処理装置の制御部11は、その文書のインデックス中に含まれる全語義と各カテゴリCiに含まれる全語義との語義間関連度を、後述する図15に示す語義間関連度の表を参照し、語義間関連度の総和R(Ci )を演算する。すなわち、制御部11は、分類モデルにおける固有名詞以外の語について、全語義間関連度の総和R(Ci )を演算する。そして、制御部11は、演算した語義間関連度の総和R(Ci )をたとえばRAM14に記憶させる。
【0099】
ステップS73においては、文書処理装置の制御部11は、カテゴリCi に対する文書の文書分類間関連度を
Rel(Ci )=m1P(Ci )+n1R(Ci )
と定義する。ここで、係数m1、n1は定数で、それぞれの値の文書分類間関連度への寄与の度合いを表すものである。制御部11は、ステップS72で算出した共通集合の数P(Ci )およびステップS73で算出した語義間関連度の総和R(Ci )をたとえばRAM14から読み出し、上述の式に当てはめて文書分類間関連度Rel(Ci )を算出する。なお、これらの係数m1、n1の値としては、たとえばm1=10、n1=1とすることができる。そして、制御部11は、このように算出した文書分類間関連度Rel(Ci )をたとえばRAM14に記憶させる。
【0100】
係数m1およびn1の値は、統計的手法を使って推定することもできる。すなわち、制御部11は、複数の係数mおよびnの対について文書分類間関連度Rel(Ci )が与えられると、上記係数を最適化により求めることができる。
【0101】
ステップS74においては、文書処理装置の制御部11は、カテゴリCiに対する文書分類間関連度Rel(Ci )が最大で、その文書分類間関連度Rel(Ci )の値がある閾値を越えているとき、そのカテゴリCiに文書を分類する。すなわち、制御部11は、複数のカテゴリに対してそれぞれ文書分類間関連度を作成し、最大の文書分類間関連度が閾値を越えているときには、文書を最大の文書分類間関連度を有する上記カテゴリCiに分類する。最大の文書分類間関連度が閾値を越えていないときには、文書の分類はおこなわない。
【0102】
次に、図13のステップS72で用いられる語義間関連度の演算について、図14を参照して説明する。この図14に示す処理は、図4に示す処理を行う前に一度だけおこなえばよい。
【0103】
ステップS61において、文書処理装置の制御部11は、電子辞書内の語の語義の説明を用いて、この辞書を使って語義のネットワークを作成する。すなわち、辞書における各語義の説明と、この説明中に現れる語義との参照関係から、語義のネットワークを作成する。これにより、辞書を最上位の頂点とするツリー状の語義のネットワークが構成される。ネットワークの内部構造は、上述したようなタグ付けにより記述される。文書処理装置の制御部11は、たとえばRAM14に記憶された電子辞書について、語義とその説明を順に読み出して、ネットワークを作成する。制御部14は、このようにして作成した語義のネットワークをたとえばRAM14に記憶させる。
【0104】
なお、上記ネットワークは、文書処理装置の制御部11が辞書を用いて作成する他に、受信部21にて外部から受信したり、記録/再生部31にて記録媒体32から再生したりすることにより得ることもできる。上記辞書は、受信部21にて外部から受信したり、記録/再生部31にて記録媒体32から再生したりすることにより得られる。
【0105】
ステップS62において、ステップS61で作成された語義のネットワーク上で、各語義のエレメントに対応する中心活性値の拡散処理をおこなう。この活性拡散により、各語義に対応する中心活性値は、上記辞書により与えられたタグ付けによる内部構造に応じて与えられる。中心活性値の拡散処理については、さらに後述する。
【0106】
ステップS63においては、ステップS61で作成された語義のネットワークを構成する一の語義siを選択し、ステップS64においては、この一の語義siに対応する語彙エレメントEiの中心活性値eiの初期値を変化させ、このときの中心活性値の差分Δeiを計算する。
【0107】
ステップS65においては、ステップS64におけるエレメントEiの中心活性値eiの差分Δeiに対応する、他の語義sjに対応するエレメントEjの中心活性値ejの差分Δejを求める。ステップS66においては、ステップS65で求めた差分ΔejをステップS64で求めたΔeiで除した商Δej/Δeiを、語義siの語義sjに対する語義間関連度とする。
【0108】
ステップS67においては、一の語義siと他の語義sjとのすべての対について語義間関連度の演算が終了したか否かについて判断する。そして、すべての語義の対について語義間関連度の演算が終了したときには“YES”として、この一連の処理を終了する。すべての語義の対について語義間関連度の演算が終了していないときには、“NO”として、ステップS63にもどり、語義間関連度の演算が終了していない対について語義間関連度の演算を継続する。
【0109】
ステップS63からステップS67のループにおいて、文書処理装置の制御部11は、必要な値をたとえばRAM14から順に読み出して、上述したように語義間関連度を計算する。制御部11は、計算した語義間関連度をたとえばRAM14に順に記憶させる。
【0110】
このように計算された語義間関連度は、図15に示すように、それぞれの語義と語義の間に定義される。この表においては、語義間関連度は0から1までの値をとるように正規化されている。この表においては“コンピュータ”、“テレビ”、“VTR”の間の相互の語義間関連度が示されている。“コンピュータ”と“テレビ”の語義間関連度は0.55、“コンピュータ”と“VTR”の語義間関連度は0.25、“テレビ”と“VTR”の語義間関連度は0.60である。
【0111】
(3)実関心度および予測関心度
次に、図4のステップS13の詳細について、図16を参照して説明する。この処理をおこなうことで実関心度が検出される。
【0112】
ステップS101では、ユーザは、図6に示す文書分類ウィンドウ301から所望の文書を選択する。たとえば、ユーザは、文書分類ウィンドウ301の分類表示部に表示された文書のタイトルに対応するアイコンを、入力部20のマウスにて選択する。そして、操作ボタン302の“ブラウザ(browser)”のボタンを選択することにより、次のステップS102の表示のステップに進む。
【0113】
ステップS102では、文書処理装置の制御部11は、ステップS101においてユーザが選択した文書を、たとえばRAM14から読み出す。制御部11は、表示部30において、読み出した文書をウィンドウ51の文書表示部53に表示する。上述したように、ウィンドウ51の文書表示部53に文書が全部表示できないときには、その文書の一部が表示される。
【0114】
ステップS103では、ユーザは、ステップS102でウィンドウ51の文書表示部53に表示された文書について、閲読や要約の作成をおこなう。すなわち、ユーザは、ステップS102で表示されたウィンドウ51の文書表示部53にて文書を閲読する。また、ユーザは、ウィンドウ51の操作ボタン56の“要約(summerize)”ボタンを選択することにより、文書表示部53に表示された文書の要約を要約表示部54に表示する。
【0115】
ここで、要約表示部54に要約を作成して表示する際に、文書処理部53に表示された文書について、文書中のユーザが選択したエレメントの重要度をユーザの操作により高める手順を図17に示すフローチャートを参照して説明する。
【0116】
最初のステップS91においては、制御部11は文書中のエレメントがユーザにより選択されたか否かを判断する。この判断は、図18に示す、ユーザによる入力を受け付けるグラフィックユーザインタフェース(grafic user interface; GUI)を用いた選択により行われる。
【0117】
ウィンドウ51は、文書のファイル名を表示するファイル名表示部52と、ファイル名表示部52に表示されたファイル名の文書を表示する文書表示部53と、文書表示部53に表示された文書の要約を表示する要約表示部54を有している。文書表示部53には、ファイル名表示部52にファイル名または文書の先頭部分が表示された文書の全部または一部が表示される。文書表示部53に文書の一部のみが表示されたときには、たとえば文書表示部53に表示されている文書をスクロールすることにより、順次に文書の全体を閲覧することができる。要約表示部53には、この要約表示部54の大きさに対応して、後述する処理によって文書表示部53に表示された文書の要約が表示される。要約表示部53は、また要約が作成されていないので、空白となっている。なお、文書処理部53と要約表示部54のサイズはそれぞれ変更が可能である。このウィンドウ51において取り扱う文書は、たとえば文書処理装置の受信部21で受信されて、記録/再生部31やRAM14に記録されたものである。
【0118】
また、このウインドウ51は、キーワードを入力するキーワード入力部55と、複数のボタンを有するボタン部56とを有している。キーワード入力部55には、キーワードを入力することにより、文書表示部54に表示された語のうちでキーワードと関連度の高い語の重要度が高められる。ボタン部56には、実行した結果をもとに戻す“アンドゥ(Undo)”ボタンと、文書表示部53に表示された文章を要約して要約表示部54に表示する処理を実行する“要約(summarize)”ボタンとを備えている。このうち、“要約”ボタンを選択することにより、たとえば要約表示部54のサイズが変更されたときにも、新たな要約表示部54の新たなサイズに対応するように文書処理部53に表示されている文書の要約が生成され、生成された要約は要約表示部54に表示される。
【0119】
図17のステップS91では、制御部11は、文書処理装置の表示部30に表示されたウィンドウ51において、文書表示部53に表示された文章中のエレメントがユーザによって選択されたか否かを判断する。文書表示部53中のエレメントを選択して入力する文書処理装置の入力部20としては、ポインティングデバイスを用いて、このポインティングデバイスに連動する表示部30に表示されたカーソルを操作することにより行うことができる。たとえば、ポインティングデバイスとしてマウスを採用した場合には、マウスを操作してカーソルを文書処理部53の所望のエレメントにあわせ、マウスでクリックすることによりそのエレメントを選択する。文書表示部53においてエレメントが選択されると、選択されたエレメントを明瞭に示すために、選択されたエレメントがたとえばハイライト表示される。図19においては、ウィンドウ51の文書表示部53においては、選択された最小のエレメントである語彙エレメント“mainframe”57がハイライト表示されている。要約表示部53は、まだ要約が作成されていないので、空白となっている。制御部11は、このようにしてエレメントが選択されると“YES”として処理を次のステップS92に進める。制御部11は、エレメントが選択されないとき、たとえば所定時間内に入力がなかったり、文書表示部53の文章が表示されている部分以外がマウスによってクリックされたときには、“NO”として再びこのステップS91に処理を戻し、エレメントの入力を待つことにする。なお、以下では、説明の便宜のために入力部20のポインティングデバイスとしてはマウスを利用するものとして説明を進める。
【0120】
ステップS92では、文書処理装置の制御部11は、ステップS91において選択されたが、過去にマウスでクリックすることにより選択された語であるか否かが判断される。制御部11は、そのエレメントが過去にマウスでクリックすることにより選択されたエレメントであるときには“YES”として処理をステップS93に進める。制御部11は、そのエレメントが過去にマウスでクリックすることにより選択されたエレメントでないときには、“NO”として処理をステップS94に進める。
【0121】
ステップS93では、文書処理装置の制御部11は、選択されているエレメントが、文章エレメントであるか否かを判別する。制御部11は、レベルが文章エレメントであるときには“YES”として処理をステップS91に戻す。制御部11は、レベルが文章エレメントでないときには“NO”として処理を次のステップS95に進める。
【0122】
ステップS94では、文書処理装置の制御部11は、レベルを、文書の最小のエレメントであって文書のタグ付けによる内部構造の最下位のエレメントである語彙エレメントに設定する。そして、制御部11は、処理をステップS91に戻す。
【0123】
ステップS95では、文書処理装置の制御部11は、レベルを1増加させる。たとえば、このようにレベルが1増加することにより、ステップS91で選択された語彙エレメント“mainframe”57については、図20に示すように、この語彙エレメントを含む次に大きな上位のエレメント“Big mainframe computers”59が選択され、この部分“Big mainframe computers”59がハイライト表示されることになる。同時に、制御部11は、選択された上位のエレメントの重み付け、すなわち中心活性値を選択されていないエレメントよりも高める。そして、制御部11は、処理をステップS11に戻す。
【0124】
ウィンドウ51のボタン部56に表示された“要約”ボタンがマウスのクリックにより選択されると、文書表示部53に表示された文章の要約が要約表示部54に表示される。“要約”ボタンが選択されると、制御部11は、図17に示した一連の工程から処理を割り込みにより脱出するように制御し、要約を作成する処理を開始する。要約は、文書表示部53に表示された文書から、要約表示部54のサイズに合わせて、要約表示部54の領域を満たすように生成される。図21に示すように、要約表示部54に表示された要約には、文書表示部59においてハイライト表示されたエレメント“Big mainframe computers”59に対応するエレメント“Big mainframe computers”60が表示されている。このように、ウィンドウ51の文書表示部53において所望のエレメントを選択して重要度を高めることにより、そのエレメントが要約に含まれる可能性を高くすることができる。なお、要約の生成の詳細については、さらに後述する。
【0125】
図18に示したウィンドウ51においては、文書表示部53に表示された文書中のエレメントの選択はマウスによるクリック以外にも、キーワード入力部55にキーワードを入力することによって選択することができる。制御部11は、このようにキーワード入力部55に入力されたキーワードに関連するエレメントの重要度を上げる処理を行う。キーワードとエレメントの関連度は、たとえばROM15に記録されたテーブルを参照することにより得る。この参照は、キーワードが含まれるエレメントをタグ付けによって参照することによりおこなわれる。
【0126】
図16のステップS104では、文書処理装置の操作部11は、ユーザの文書への実関心度を演算する。実関心度は、ステップS103におけるユーザのウィンドウ51に表示された文書への操作に基づいて演算される。
【0127】
ここで、本実施の形態に用いられる実関心度と予測関心度について説明する。実関心度とは、このステップS104で演算されるものであって、ユーザの操作により検出される、ユーザが操作した文書に対する実際の関心度である。これに対して、予測関心度とは、ユーザの文書に対する関心度を予測したものである。この予測関心度は、たとえば実関心度に基づいて予測される。
【0128】
ステップS105では、制御部11は、ユーザの操作履歴をインデックスに記録する。上述したインデックスにの具体例においては、ユーザの操作履歴として、
<ユーザの操作履歴 最大要約サイズ=“100”>
<選択 エレメントの数=“10”>ピクチャーテル</選択>
・・・
</ユーザの操作履歴>
が例示されていた。ステップS105においては、制御部11は、要約の最大サイズや、選択されたエレメントや、選択されたエレメントの数のような操作履歴を更新する。制御部11は、更新したインデックスを、たとえばRAM14に記憶させる。
【0129】
なお、インデックスには文書の実関心度を含めておくこともできる。たとえば、カテゴリごとに各文書に対する実関心度をインデックスに含めることができる。このような場合には、ステップS105において、その文書に関するインデックスに含まれる実関心度自体も更新される。
【0130】
次に、図16のステップS103でのユーザの操作について、図22、図23、図23および図24を用いて説明する。
【0131】
文書分類ウィンドウ301にタイトルが表示された文書は、たとえば、入力部20のマウスを用いて表示部30において選択することにより、表示部30に表示させることができる。このように文書を表示する文書表示ウィンドウの具体例は、図18に示したので、ここでの説明を省略する。
【0132】
続いて、要約を作成する処理の図4に示すものより詳細の制御を含む例について図22に示すフローチャートを参照して詳細に説明する。この一連の工程は、“要約”ボタン103をオンすることによって開始される。
【0133】
文書から要約を作成する処理は、文書のタグ付けによる内部構造に基づいて実行される。上述したように、ウィンドウ100において要約を表示する表示領域130のサイズは変更することができる。文書処理装置の制御部11は、新たにウィンドウ101が表示部30のウィンドウ100に描画されるか表示領域130のサイズが変更され、実行ボタン103が操作されたときには、表示領域130に適合するようにウィンドウ100の表示領域120に表示されている文書から要約を作成する処理を実行する。
【0134】
図22の最初のステップS120では、文書処理装置の制御部11は、活性拡散を行う。本実施の形態においては、活性拡散により得られた中心活性値を重要度として採用することにより、文書の要約を行う。すなわち、タグ付けによる内部構造を与えられた文書においては、活性拡散と呼ばれる処理を行うことにより、各エレメントにタグ付けによる内部構造に応じた中心活性値を付与することができる。活性拡散は、中心活性値の高いエレメントと関わりのあるエレメントにも高い中心活性値を与えるような処理である。すなわち、活性拡散は、照応(共参照)表現とその先行詞の間で中心活性値が等しくなり、それ以外では中心活性値が減衰するような中心活性値についての演算である。この中心活性値は、タグ付けによる内部構造に応じて決定されるので、タグ付けによる内部構造を考慮した文書の分析に利用することができる。
【0135】
ステップS121では、文書処理装置の制御部11は、表示部30に表示されているウィンドウ51の文書処理部53のサイズ、具体的にはこの文書処理部53に表示可能な最大文字数をwsと設定する。また、文書処理装置の制御部11は、要約の文字列を格納するsを初期化して初期値s0=””と設定する。制御部11は、このように設定した、文書表示部53に表示可能な最大文字数wsおよび要約の文字列を格納するsの初期値s0を、たとえばRAM14に記録する。
【0136】
ステップS122では、文書処理装置の制御部11は、要約の骨格の順次の作成をカウントするカウンタのカウント値iを零に設定する。すなわち、制御部11は、カウント値について、i=0と設定する。制御部11は、このように設定したカウント値iをたとえばRAM14に記録する。
【0137】
ステップS123では、文書処理装置の制御部11は、カウンタのカウント値iについて、文章からi番目に平均中心活性値の高い文の骨格を抽出する。平均中心活性値とは、一つの文を構成する各エレメントの中心活性値を平均したものである。制御部11は、たとえばRAM14に記録した要約を格納するsi-1を読み出し、このsi-1に対して抽出した文の骨格の文字列を加えて、siとする。そして、制御部11は、このようにして得たsiを、たとえばRAM14に記録する。同時に、制御部11は、上記文の骨格に含まれないエレメントの中心活性値順のリストliを作成し、このリストliをたとえばRAM14に記録する。
【0138】
すなわち、このステップS123においては、要約のアルゴリズムは、活性拡散の結果を用いて、平均中心活性値の大きい順に文を選択し、選択された文の骨格の抽出する。文の骨格は、文から抽出した必須要素により構成される。必須要素になりうるのは、エレメントの主辞(head)と、主語(subject)、目的語(object)、間接目的語(indirect object)、所有者(possessor)、原因(cause)、条件(condition)または比較(comparison)の関係属性を有する要素と、等位構造が必須要素のときにはそれに直接含まれるエレメントとが必須要素を構成するものである。そして、文の必須要素をつなげて文の骨格を生成し、要約に加える。
【0139】
ステップS124では、文書処理装置の制御部11は、siの長さがウィンドウ51の要約表示部54の最大文字数wsより大きいか否かを判断する。そして、制御部11は、siの長さが最大文字数wsより大きいときには“YES”としてこの一連の処理を終了する。制御部は、siの長さが最大文字数wsより大きくないときには“NO”として処理をステップS125に進める。すなわち、このステップS124においては、要約が指定された分量に達したときは終了する。まだ余裕がある場合は、次に中心活性値の高い文と省略したエレメントの中心活性値を比較して、高いほうを要約に加えるものである。
【0140】
ステップS129では、文書処理装置の制御部11は、ステップS124でsiの長さが最大文字数wsより大きいと判断されたので、要約をsi-1に設定する。この場合、要約はウィンドウにおさまらないのでsi=s0=“”を出力する。したがって、このときには要約は表示されないこととなる。そして、制御部11は、この一連の工程を終了する。
【0141】
ステップS125では、文書処理装置の制御部11は、i+1番目に平均中心活性値が中心活性値と、ステップS23で作成したリストliの要素の最も中心活性値が高い要素の中心活性値を比較する。そして、制御部11は、i+1番目に平均中心活性値が高い文の中心活性値がリストliの要素の最も中心活性値が高い要素の中心活性値より高いときには“YES”として処理を次のステップS27に進める。制御部11は、i+1番目に平均中心活性値が高い文の中心活性値がリストliの要素の最も中心活性値が高い要素の中心活性値より高くないときには“NO”として処理をステップS126に進める。
【0142】
ステップS126では、文書処理装置の制御部11は、カウンタのカウント値iを1だけ増加させる。そして、制御部11は、処理をステップS123に戻す。
【0143】
ステップS127においては、文書処理装置の制御部11は、リストliの最も中心活性値の高い要素eをsiに加えてssiを生成する。要素eをliから削除する。そして、制御部11は、このようにして生成したssiをたとえばRAM14に記録する。
【0144】
ステップS128においては、文書処理装置の制御部11は、ssiの長さがウィンドウ51の要約表示部54の最大文字数wsより大きいか否かを判別する。制御部11は、ssiの長さがwsより大きいときには“YES”としてこの一連の工程を終了する。制御部11は、ssiの長さがwsより大きくないときには“NO”として処理をステップS125に戻す。
【0145】
ステップS130においては、文書処理装置の制御部11は、ステップS128でSSiの長さが最大文字数wsより大きいと判断されたので、要約文をsiに設定する。これにより、最大文字数wsより大きくならないように要約文が生成される。そして、制御部11は、この一連の工程を終了する。
【0146】
また、このウィンドウ51は、キーワードを入力するキーワード入力部55と、複数のボタンを有するボタン部56とを有している。キーワード入力部55には、キーワードを入力することにより、文書表示部53に表示された語のうちでキーワードと後述する語義間関連度の高い語の実関心度が高められる。ボタン部56には、実行した結果をもとにもどす“アンドゥ(Undo)”ボタンと、文書表示部53に表示された文章を要約して要約表示部54に表示する処理を実行する“要約(summarize)”ボタンとを備えている。このうち、“要約”ボタンを選択することにより、たとえば要約表示部54のサイズが変更されたときにも、要約表示部54の新たなサイズに対応するように文書処理部53に表示されている文書の要約が生成され、生成された要約は要約表示部54に表示される。
【0147】
文書に対するユーザの実関心度は、次のような複数の要素に基づいて演算される。なお、実関心度についての要素は、文書を構成する要素とは、異なるものである。
【0148】
実関心度の演算では、ユーザによって指定されたエレメントのうち、文書中での出現位置が文書の先頭から最も離れたものの位置を第1の要素A(Di)とする。この第1の要素によると、ユーザによって指定されたエレメントのうち、文書中での出現位置が文書の先頭から最も離れたものの位置が大きいほど、ユーザがその文書をより多く読んだと考え、その文書への実関心度も大きいこととする。具体的には、選択されたエレメントの最大出現位置と文書全体のサイズの比率を実関心度の第1の要素A(Di)とする。ここで、Diは第i番目の文書を表している。
【0149】
図23に示すウィンドウ51の文書表示部53においては、第1のエレメント57、第2のエレメント58および第3のエレメント59がユーザによって指定され、ハイライト表示されている。実関心度の計算には、これらのうちで文書の先頭から最も離れた第3のエレメント59が用いられる。
【0150】
また、実関心度の演算では、ウィンドウ51の文書表示部53に表示された文書のエレメントからユーザが選択したものの数や、キーワード入力部55にユーザが入力したキーワードの数を第2の要素E(Di)とする。
【0151】
図23に示すウィンドウ51の文書表示部53においては、第1のエレメント57、第2のエレメント58および第3のエレメント59の指定がユーザにより入力されている。また、キーワード入力部55には、キーワード“AAA”が入力されている。これらエレメントおよびキーワードの入力の数を実関心度の第2の要素E(Di)とする。
【0152】
さらに、実関心度の演算では、ウィンドウ51における要約表示部54の領域のサイズの文章表示部53の領域のサイズに対する比率を第3の要素W(Di)とする。これは、要約表示部54の領域のサイズに応じて要約が表示されるが、ユーザの実関心度が高いほど、ユーザは簡単ではなく詳しい要約、すなわち長い要約を求めるであろうからである。したがって、要約表示部54の領域のサイズの文章表示部53の領域のサイズに対する比率が増大するほど、実関心度が大きいものとすることができる。
【0153】
図24に示すウィンドウ51においては、要約を表示する要約表示部54の最大のサイズの、文書の全部を表示した文書表示部53のサイズに対する比率を実関心度の第3の要素W(Di)とする。
【0154】
実関心度の第1の要素A(Di)、実関心度の第2の要素E(Di)および実関心度の第3の要素W(Di)に基づいて、ユーザの文書Diに対する実関心度IR(Di)は
IR(Di)=l2W(Di)+m2A(Di)+n2E(Di)
と定義される。ここで、係数l2、m2、n2は定数で、それぞれの値の実関心度への寄与を表すものである。なお、これらの係数l2、m2、n2の値としては、l2=m2=10、n2=1とすることができる。また、係数l2,m2,n2の値は、統計的手法を使って推定することもできる。すなわち、制御部11は、複数の係数l2、m2、n2の組について実関心度IR(Di)が与えられると、上記係数を最適化により求めることができる。
【0155】
次に、実関心度を用いて求められる予測関心度に基づいておこなう文書の並べ替えについて、図25を参照して説明する。このような文書の並べ替えは、図6のブラウザが開いた状態でおこなわれる。
【0156】
ステップS111では、文書処理装置の制御部11は、文書を分類するカテゴリを計数するカウンタのカウント値Cを0に設定する。ステップS112では、文書処理装置の制御部11は、文書間関連度を演算する。すなわち、制御部11は、図8のステップS23で分類されたが未読である文書のうち、カウント値Cで示されるカテゴリ内の未読の各文書について、そのカテゴリ内のすでに実関心度が与えられた各文書に対する文書間関連度をそれぞれ演算する。上述のように、実関心度はユーザの操作によって与えられる。文書間関連度の演算は、上述したインデックスに基づいておこなわれる。文書間関連度の演算の詳細については、さらに後述する。
【0157】
ステップS113においては、文書処理装置の制御部11は、予測関心度を演算する。予測関心度は、当該文書と、すでに実関心度が与えられた文書との間の文書間関連度に基づいて演算される。したがって、予測関心度は、実関心度が与えられていない文書に対して演算される。
【0158】
制御部11は、カテゴリ内の一の未読文書について、ステップS112で演算した文書間関連度のうち、最大の値の文書間関連度を有するそのカテゴリ内の他の文書を選択する。制御部11は、選択された他の文書の実関心度を一の未読文書の予測関心度とする。制御部11は、このようにして得た予測関心度を、たとえばRAM14に記憶させる。
【0159】
S118では、文書処理装置の制御部11は、カテゴリ内のすべての文書について予測関心度の演算が終了したか否かによって処理を分岐する。制御部11は、カテゴリ内のすべての文書について演算が終了したときには“YES”として処理をステップS114に進め、そうでないときには“NO”として処理をステップS112にもどす。
【0160】
ステップS114では、文書処理装置の制御部11は、ステップS113で演算した予測関心度に基づいて、カテゴリごとに未読文書を並べ替える。文書の並べ替えの方法としては、予測関心度の高い未読文書に対して高い優先順序を与え、優先順位の高い未読文書ほど未読文書のタイトルの配列の先頭側にあるように配列することができる。優先順位に有意な差がない場合には、受信した日時がより新しいものを上位にする。文書のタイトルは、たとえば文書分類ウィンドウ301の分類表示部303,304,305にカテゴリごとにこのような順序で配列される。
【0161】
ステップS115では、文書処理装置の制御部11は、全カテゴリが終了したか否かを判断する。制御部11は、全カテゴリが終了したときには“YES”として処理をステップS117に進める。制御部11は、全カテゴリが終了していないときには“NO”として処理をステップS116に進める。
【0162】
ステップS116では、文書処理装置の制御部11は、カテゴリをカウントするカウンタ値Cを1だけ増やす。すなわち、制御部11は、C=C+1とする。そして、制御部11は、処理をステップS112にもどす。ステップS117では、制御部11は、ステップS115で全カテゴリについての処理が終了されたことが判断されたので、並べ替えられた文書について表示する。具体的には、図6に示したように、文書のアイコンと文書のタイトルが表示される。文書のタイトルがない場合には、一文の要約が表示される。そして、この一連の工程を終了する。
【0163】
次に、図25のステップS112の文書間関連度を計算する演算について、図26を参照して詳細に説明する。文書間関連度とは、一の文書Diと他の文書Djの関連度である。
【0164】
ステップS41では、文書処理装置の制御部11は、一の文書Di のインデックスに含まれる固有名詞の集合と、図25のステップS111またはS116で指定されたカテゴリにすでに分類された他の文書Djのインデックスに含まれる固有名詞の集合とについて、これらの共通集合の数をP(Di,Dj )とする。そして、制御部11は、このようにして算出した数P(Di,Dj )をたとえばRAM14に記憶させる。
【0165】
ステップS42では、文書処理装置の制御部11は、図15に示す語義間関連度の表を参照して、一の未読文書Diのインデックスに含まれる語義と他の文書Djのインデックスに含まれる語義との語義間関連度の総和R(Di,Dj)を演算する。
【0166】
ステップS42では、文書処理装置の制御部11は、一の未読文書Diの固有名詞以外の語について、語義間関連度の表を参照して、他の文書Djとの語義間関連度の総和R(Di ,Dj)を演算する。そして、制御部11は、演算した語義間関連度の総和R(Di ,Dj)をたとえばRAM14に記憶させる。
【0167】
ステップS43では、文書処理装置の制御部11は、一の文書Di に対する他の文書Djの文書間関連度を
Rel(Di ,Dj)=m3P(Di,Dj )+n3R(Di,Dj )
と定義する。ここで、係数m3、n3は定数で、それぞれの値の文書間関連度への寄与の度合いを表すものである。制御部11は、ステップS41で算出した共通集合の数P(Di ,Dj )およびステップS42で算出した語義間関連度の総和R(Di ,Dj)をたとえばRAM14から読み出し、上述の式に当てはめて文書間関連度Rel(Di ,Dj )を算出する。なお、これらの係数m3、n3の値としては、たとえばm3=10、n3=1とすることができる。
【0168】
係数m3およびn3の値は、統計的手法を使って推定することもできる。すなわち、制御部11は、複数の係数m3およびn3の対について文書間関連度Rel(Di ,Dj)が与えられると、上記係数を最適化により求めることができる。
【0169】
次に、文書処理装置の記録/再生部31において記録/再生される記録媒体32について説明する。記録媒体には、複数のエレメントからタグ付けによる内部構造を有する文書を処理する文書処理プログラムが記録されている。この記録媒体32としては、情報の記録/再生が可能なたとえばフロッピーディスクが利用される。
【0170】
記録媒体32は、文書に対する実関心度を検出する実関心度検出処理と、実関心度検出処理で検出した実関心度に基づいて上記文書に優先順位を設定する優先順位設定処理とを有する。さらに、記録媒体32は、文書を表示する表示処理と、表示処理で表示された文書についての手動による入力を受ける入力処理とをさらに有し、実関心度検出処理は、上記入力手段での入力に基づいて実関心度を検出する。
【0171】
なお、本実施の形態においては、文書へのタグ付けの方法の一例を示したが、本発明がこのタグ付けの方法に限定されないことはもちろんである。また、本実施の形態においては、文書処理装置の受信部21に外部から文書が送信されるとしたが、本発明はこれに限定されない。たとえば、上記文書は、文書処理装置のROM13に書き込まれていたり、記録/再生部31において記録媒体32から読み出されてもよい。
【0172】
また、上述の実施の形態においては、文書処理装置の表示部30に表示された文書から所望のエレメントを選択するデバイスとしてマウスを例示したが、本発明がこれに限定されないことはいうまでもない。文書処理装置におけるエレメントの入力には、タブレット、ライトペン等の他のデバイスを利用することができる。
【0173】
さらに、上述の実施の形態においては、日本語および英語の文章を例示したが、本発明がこれらの言語に限られないことはいうまでもない。
【0174】
【発明の効果】
上述のように、本発明は、電子文書を処理するものであって、電子文書に対する実関心度を検出し、検出した実関心度に基づいて電子文書に優先順位を設定している。また、本発明は、電子文書を表示し、表示された電子文書についての手動による入力を受け付け、この入力に基づいて実関心度を検出している。したがって、本発明は、ユーザの実関心度を反映して電子文書の優先順位を設定することにより、ユーザの便宜を図っている。
【0175】
さらに、本発明は、すでに実関心度が求められた電子文書のうちで最も関連度の高い文書の実関心度を予測関心度として、この予測関心度に基づいて優先順位を設定している。したがって、本実施の形態は、実関心度が与えられていない文書にも優先順位を与えることができる。
【0176】
そして、本発明は、電子文書を複数の分類項目に分類し、分類項目ごとに電子文書に優先順位を設定している。したがって、本発明は、分類項目ごとに優先順位を設定することにより、ユーザに利便性を提供している。
【図面の簡単な説明】
【図1】本実施の形態を適用した文書処理装置の構成を示すブロック図である。
【図2】文書のタグ付けによる内部構造を示す図である。
【図3】文書のタグ付けによる内部構造を表示したウィンドウを示す図である。
【図4】本実施の形態を適用した文書処理装置の動作を示すフローチャートである。
【図5】文書の分類前の文書の分類をおこなうGUIを示す図である。
【図6】文書の分類をおこなうGUIを示す図である。
【図7】分類モデルの表を示す図である。
【図8】文書を自動分類するフローチャートである。
【図9】文書の特徴を発見してインデックスを作成するフローチャートである。
【図10】活性拡散を示すフローチャートである。
【図11】活性拡散の処理を説明する図である。
【図12】活性拡散のリンク処理のフローチャートである。
【図13】文書分類間関連度を演算するフローチャートである。
【図14】語義間関連度の計算のフローチャートである。
【図15】語義間関連度の表を示す図である。
【図16】文書を閲覧して分類操作するフローチャートである。
【図17】文章の任意の部分の重要度を上げる一連の工程を示すフローチャートである。
【図18】要約ウィンドウを示す図である。
【図19】要約ウィンドウにおいて語が選択された状態を示す図である。
【図20】要約ウィンドウにおいて選択された領域をさらにクリックした状態を示す図である。
【図21】要約ウィンドウに要約が表示された状態を示す図である。
【図22】要約作成処理を詳細に示す図である。
【図23】選択エレメントの最大出現位置からの実関心度の計算を説明する図である。
【図24】要約エレメントの最大のサイズと文書全体の比率からの実関心度の算出を説明する図である。
【図25】文書を予測関心度により自動分類するフローチャートである。
【図26】文書間関連度を演算するフローチャートである。
【符号の説明】
10 本体、11 制御部、12 インターフェース、13 CPU、20 入力部、21 受信部、30 表示部、31 記録/再生部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document processing method and apparatus for processing an electronic document, and a recording medium on which a document processing program for processing the electronic document is recorded.
[0002]
[Prior art]
2. Description of the Related Art Conventionally, on the Internet, WWW (World Wide Web) is provided as an application service that provides hypertext type information in a window format.
[0003]
The WWW is a system that performs document processing for creating, publishing, or sharing a document, and shows a new style of document. However, from the viewpoint of practical use of documents, advanced document processing exceeding WWW, such as document classification and summarization based on document contents, is required. For such advanced document processing, mechanical processing of document contents is indispensable.
[0004]
However, mechanical processing of document contents is still difficult for the following reasons. First, HTML (Hyper Text Markup Language), which is a language for describing hypertext, defines the expression of a document but hardly specifies the contents of the document. Second, a hypertext network formed between documents is not always easy to use for the reader of the document to understand the content of the document. Third, in general, the author of the text writes without regard to the convenience of the reader, but the convenience of the reader of the document is not coordinated with the convenience of the author.
[0005]
As described above, the WWW is a system that indicates a new document. However, since the document is not mechanically processed, advanced document processing cannot be performed. In other words, in order to perform advanced document processing, it is necessary to mechanically process the document.
[0006]
Therefore, with the goal of mechanical processing of documents, a system that supports mechanical processing of documents has been developed based on the results of natural language research. As document processing by natural language research, mechanical document processing that uses the tag attached to the document on the premise of the attribute information on the internal structure of the document by the author of the document, so-called tag assignment, has been proposed. Yes.
[0007]
[Problems to be solved by the invention]
By the way, with the spread of computers in recent years and the progress of networking, it is necessary to increase the functionality of document processing that creates, labels, and changes text documents with text processing and indexing depending on the contents of the document. It has been. For example, document summarization or document classification according to the user's request is desired.
[0008]
The present invention is proposed in view of the above-described circumstances, and is a document processing method and apparatus for calculating a user's interest in a document, and a document processing program for calculating a user's interest in a document. Relates to a recording medium on which is recorded.
[0009]
[Means for Solving the Problems]
In order to solve the above problems, a document processing method according to the present invention processes a plurality of electronic documents.Document processing equipmentIn the document processing method,A receiving unit receives a plurality of electronic documents, a recording unit records a plurality of electronic documents received in the receiving step, and a display unit is recorded in the recording step. A display step of displaying an electronic document selected by the user from among the plurality of electronic documents and a summary of the electronic document, and an input step of inputting user operation information for the electronic document displayed in the display step And the actual interest level detection means based on the user operation information input in the input step with respect to the electronic document displayed in the display step.For electronic documentsUser'sActual interestcalculateActual interest level detection process;The priority order setting means has a relevance level based on the internal structure of the electronic document among the electronic documents for which the actual interest level is calculated in the actual interest level detection step with respect to the electronic document for which the actual interest level is not calculated. Based on the predicted interest level, the actual interest level of the highest electronic document is defined as the predicted interest level.A priority setting step for setting priorities;A rearrangement step in which the rearrangement unit rearranges electronic documents not selected by the user among the plurality of electronic documents recorded in the recording step according to the priority set in the priority order setting step; In the actual interest level detection step, for each display area for displaying the electronic document and the summary of the electronic document, the appearance position in the electronic document among the elements of the electronic document selected by the user Is the first actual interest level element that is the ratio of the appearance position of the element farthest from the top of the electronic document and the size of the electronic document, the number of keywords specified by the user, and the element selected by the user A second actual interest level element of the actual interest level consisting of a number, a size of a display area of the summary of the electronic document displayed in the display step, and the electronic document It calculates the actual interest with a third of the actual interest element consisting of the ratio of the size of the display region.
[0010]
A document processing apparatus according to the present invention processes a plurality of electronic documents.Document processing deviceInReceiving means for receiving a plurality of electronic documents; recording means for recording a plurality of electronic documents received by the receiving means; an electronic document selected by a user among the plurality of electronic documents recorded by the recording means; and Display means for displaying a summary of the electronic document, input means for inputting user operation information for the electronic document displayed by the display means, and input by the input means for the electronic document displayed by the display means Based on the user's operation informationFor electronic documentsUser'sActual interestcalculateReal interest level detection means;The actual interest of the electronic document having the highest relevance based on the internal structure of the electronic document among the electronic documents of which the actual interest level is calculated by the actual interest level detection unit with respect to the electronic document for which the actual interest level is not calculated Is the predicted interest level, based on the predicted interest levelPriority setting means for setting the priority;Rearrangement means for rearranging electronic documents not selected by the user among the plurality of electronic documents recorded by the recording means according to the priority order set by the priority order setting means, and the actual interest level For each display area for displaying the electronic document and the summary of the electronic document, the detection means has the most appearance position in the electronic document from the top of the electronic document among the elements of the electronic document selected by the user. A first actual interest level element composed of a ratio between an appearance position of an element at a distant position and the size of the electronic document, and the actual interest level composed of the number of keywords specified by the user and the number of elements selected by the user. The second actual interest level element, the size of the summary display area of the electronic document displayed by the display means, and the display area of the electronic document It calculates the actual interest with a third of the actual interest element consisting of the ratio of the size.
[0011]
The recording medium according to the present invention processes a plurality of electronic documents.Let your computer perform document processingDocument processing program was recordedComputer readableIn the recording medium, the document processing program isA receiving step for receiving a plurality of electronic documents, a recording step for recording the plurality of electronic documents received in the receiving step, and a plurality of electronic documents in which the display means is recorded in the recording step. A display step of displaying an electronic document selected by the user and a summary of the electronic document, an input step of inputting user operation information for the electronic document displayed in the display step, and an actual interest The degree detection means is based on the user operation information input in the input step with respect to the electronic document displayed in the display step.For electronic documentsUser'sActual interestcalculateActual interest level detection process;The priority order setting means has a relevance level based on the internal structure of the electronic document among the electronic documents for which the actual interest level is calculated in the actual interest level detection step with respect to the electronic document for which the actual interest level is not calculated. The priority level setting step of setting the actual interest level of the highest electronic document as the predicted interest level and setting the priority order based on the predicted interest level, and the rearranging means include a plurality of electronic documents recorded in the recording step. The computer executes a rearrangement step of rearranging electronic documents not selected by the user according to the priority order set in the priority order setting step. In the actual interest level detection step, the electronic document and the electronic document For each display area for displaying the summary of the electronic document, the appearance position in the electronic document among the elements of the electronic document selected by the user is from the top of the electronic document. A first actual interest level element composed of a ratio of an appearance position of an element at a far position to the size of the electronic document, and the actual interest level composed of the number of keywords specified by the user and the number of elements selected by the user And the third actual interest level element comprising a ratio of the size of the display area of the summary of the electronic document displayed in the display step and the size of the display area of the electronic document. Calculate the actual interest level usingIs.
[0012]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of a document processing method and apparatus and a recording medium according to the present invention will be described with reference to the drawings.
[0013]
As shown in FIG. 1, a document processing apparatus according to an embodiment of the present invention includes a
[0014]
The
[0015]
The
[0016]
The receiving
[0017]
The display unit 30 displays the output of characters and image information from the document processing apparatus. The display unit 30 is composed of, for example, a cathode ray tube (CRT) or a liquid crystal display (LCD), and displays, for example, one or more windows, and displays characters, figures, etc. on the windows. To do.
[0018]
The recording / reproducing
[0019]
Next, the document in the present embodiment will be described. In the present embodiment, document processing is performed with reference to a tag that is attribute information assigned to a document. The tags used in the present embodiment include a syntactic tag indicating the structure of the document, and a semantic word that enables understanding of the mechanical contents of the document between multiple languages. There is a logical tag.
[0020]
Some syntactic tags describe the internal structure of a document. As shown in FIG. 2, the internal structure by tagging is configured such that each element such as a document, a sentence, and a vocabulary element is linked by a normal link and a reference / referenced link. In the figure, a white circle “◯” indicates an element, and the lowest white circle is a vocabulary element corresponding to the word at the lowest level in the document. A solid line is a normal link indicating a connection between elements such as a document, a sentence, and a vocabulary element. A broken line is a reference link indicating a dependency relationship by reference / reference. The internal structure of the document is from top to bottom, from document, subdivision, paragraph, sentence, subsentential segment, ..., vocabulary elements Composed. Of these, subdivision and paragraph are optional.
[0021]
On the other hand, as semantic / pragmatic tagging, there is one in which information such as meaning is described like the meaning of a multiple meaning word. Tagging in the present embodiment is based on an XML (Extended Markup Language) format similar to HTML (Hyper Text Markup Language).
[0022]
An example of tagging is shown below, but tagging of documents is not limited to this method. Moreover, although the example of an English and Japanese document is shown below, the description of the internal structure by tagging can be applied to other languages similarly.
[0023]
For example, the sentence “Time flies like an arrow.” Can be tagged as follows.
[0024]
<Sentence> <noun phrase meaning = “time0”> time </ noun phrase>
<Verb phrase> <Verb meaning = “fly1”> flies </ verb>
<Adjective verb phrase> <adjective verb meaning = like0> like </ adject verb> <noun phrase> an <noun meaning = “arrow0”> arrow </ noun> </ noun phrase>
</ Adjective verb phrase> </ Verb phrase>. </ Sentence>
Where <sentence>, <noun>, <noun phrase>, <verb>, <verb phrase>, <adjective verb>, and <adjective verb phrase> are sentence, noun, noun phrase, verb, verb phrase, and adjective, respectively. It represents a syntactic structure of a sentence such as a prepositional phrase or a postpositional phrase / adjective phrase, an adjective phrase / adjective verb phrase. The tags are arranged correspondingly immediately before the end of the element and immediately after the end. A tag placed immediately after the end of the element indicates the end of the element by the symbol “/”. Elements represent syntactic constructs, ie phrases, clauses and sentences. Note that word sense = “
[0025]
The document according to the present embodiment can display the syntactic structure in the
[0026]
In this
[0027]
<Document> <Sentence> <Adjective Verb Phrase Relationship = “Position”> <Noun Phrase> <Adjective Verb Phrase Location = “C City”>
<Adjective verb phrase relation = “subject”> <noun phrase identifier = “B society”> <adjective verb phrase relation = “affiliation”> <person name identifier = “Mr. A”> </ adject verb of Mr. A </ person name> Phrase> <organization name identifier = “group B”> group B </ organization name> </ noun phrase> is </ adjective verb phrase>
</ Adjective verb phrase> <place name identifier = “C city”> C city </ place name> </ noun phrase> </ adject verb phrase> <adjective verb phrase relation = “subject”> <noun phrase identifier = "Press" Syntax = "Parallel"> <noun phrase> <adjective verb phrase> Some </ adject verb phrases> popular paper </ noun phrase> and <noun> general paper </ noun> </ noun phrase> </ Adjective verb phrase>
<Adjective verb phrase relation = “object”> <adjective verb phrase relation = “content” subject = “press”> <adjective verb phrase relation = “object”> <noun phrase> <adjective verb phrase> <noun co-reference = "B society"> So </ noun> </ adjective verb phrase> Photo report </ noun phrase> </ adjective verb phrase>
Self-regulating </ adjective verb phrase> policy </ adjective verb phrase>
<Adjective Verb Phrase Relation = “Position”> On the page </ Adjective Verb Phrase>
Revealed. </ Sentence> </ Document>
[0028]
In this document, “some popular papers and general papers” are represented as parallel by the tag “Syntax =“ Parallel ””. The definition of parallel is to share a dependency relationship. If nothing is specified, for example, <noun phrase relationship = x> <noun> A </ noun> <noun> B </ noun> </ noun phrase> indicates that A is dependent on B To express. Relation = x represents a relation attribute.
[0029]
Relational attributes describe the interrelationships between syntax, meaning, and rhetoric. Grammatical functions such as subject, object, indirect object, subject roles such as actors, activists, beneficiaries, and rhetorical relationships such as reasons, results, etc. are described by this relation attribute. In the present embodiment, relational attributes are described for relatively easy grammatical functions such as a subject, object, and indirect object.
[0030]
In this document, the attributes of proper nouns such as “Mr. A”, “Group B”, and “C City” are described by tags such as place names, person names, and organization names. Words to which tags such as place names, person names, and organization names are given are proper nouns.
[0031]
The operation of the document processing apparatus as an embodiment according to the present invention will be described below. The document processing device detects the actual interest level with respect to the document, and sets a priority order for other documents based on the detected actual interest level. The document processing apparatus displays a document and detects an actual interest level based on the displayed document. The actual interest level is detected according to the user's operation on the document. Based on the degree of association with the actual interest level, a predicted interest level is defined for a document for which no actual interest level is given. When the predicted interest level is used, a priority order can be given to a document that is not operated by the user.
[0032]
Prior to describing the actual interest level, manual document classification and automatic document classification will be described. That is, the operation of the document processing apparatus will be described in the order of (1) manual document classification, (2) automatic document classification, (3) actual interest level and predicted interest level.
[0033]
The contents of the explanation will be briefly described. (1) In the manual classification of a document, an operation will be described in which the document processing apparatus receives a document sent from the outside and the user manually classifies the document. With this manual classification, a classification model for classifying documents is created. (2) In the automatic document classification, an operation of classifying a document using the relevance between document classifications based on a classification model created by manual document classification will be described. (3) In the actual interest level and the predicted interest level, processing performed based on the actual interest level detected based on the user's operation and the predicted interest level obtained based on the actual interest level and the inter-document relevance level. Will be described.
[0034]
(1) Manual classification of documents
In this embodiment, there is no classification model in the initial state. In the initial state, it is necessary to manually classify documents sent from the outside in order to create a classification model. The manual classification operation of such a document processing apparatus will be described with reference to FIG.
[0035]
In step S11 of FIG. 4, the receiving
[0036]
In step S12, the
[0037]
Here, a specific example of an index is shown.
[0038]
<Index date = "AAAA / BB / CC" Time = "DD: EE: FF" Document address = "1234">
<User operation history Maximum summary size = "100">
<Number of selected elements = “10”> Picturetel </ Selected>
...
</ User operation history>
<Summary> Tax reduction scale, untouched-Prime Minister X's meeting </ summary>
<Word meaning = “0003” Central activity value = “140.6”> Do not touch </ word>
<Word meaning = “0105” Identifier = “X” Central activity value = “67.2”> Prime Minister </ Word>
<Person name identifier = “X” Word meaning = “6103” Central activity value = “150.2”> Prime Minister X </ word / person name>
<Word meaning = “5301” central activity value = “120.6”> determined </ word>
<Word meaning = “2350” Identifier = “X” Central activity value = “31.4”> Prime Minister </ word>
<Word meaning = “9582” Central activity value = “182.3”> Emphasized </ Word>
<Word meaning = “2595” central activity value = “93.6”> touch </ word>
<Word meaning = "9472" Central activity value = "12.0"> Noticed </ Word>
<Word meaning = "4934" Central activity value = "46.7"> I didn't touch </ Word>
<Word meaning = “0178” central activity value = “175.7”> explained </ word>
<Word meaning = “7248” identifier = “X” central activity value = “130.6”> I </ word>
<Word meaning = “3684” Identifier = “X” Central activity value = “121.9”> Prime Minister </ word>
<Word meaning = “1824” central activity value = “144.4.”> Appealed </ word>
<Word meaning = “7289” central activity value = “176.8”> showed </ word>
</ Index>
[0039]
In this index, <index> and </ index> are the beginning and end of the index, <date> and <time> are the date and time this index was created, and <summary> and </ summary> are It shows the beginning and end of the summary of the contents of this index. <Word> and </ Word> indicate the beginning and end of a word, respectively. The meaning = “0003” indicates the third meaning. The same applies to other cases. That is, since the same word may have a plurality of meanings, a number is predetermined for each meaning in order to distinguish them. Therefore, one or more meanings exist for the same word.
[0040]
<User operation history> and </ User operation history> indicate the start and end of the user operation history, and <Select> and </ Select> indicate the start and end of the selected element, respectively. ing. The maximum summary size = “100” indicates that the maximum size of the summary is 100 characters, and the number of elements = “10” indicates that the number of selected elements is 10.
[0041]
In step S13 in FIG. 4, the user browses the document displayed on the display unit 30 of the document processing apparatus as shown in the specific example of the display in FIG. In FIG. 5, the document before classification by the user is classified as “other topics”, and the icon and title of the document are displayed in “other topics” of the
[0042]
Note that step S13 in which the user browses the document is provided according to the user's needs. In the figure, the step S13 represented by a parallelogram indicates that the user operates. The same applies to the following.
[0043]
Here, a specific example of the display shown in FIG. 5 will be described in detail. In this specific example, a user can freely set or change a category for classifying documents. Such a category setting or change is manually performed by the user.
[0044]
A specific example of a graphic user interface (GUI) used for displaying the document classification in the display unit 30 is as shown in FIG. The
[0045]
The
[0046]
In the “other topics” of the first
[0047]
In step S14 of FIG. 4, the user creates a classification model composed of a plurality of categories for classifying the plurality of documents viewed on the display unit 30 of the document processing apparatus in step S13. Then, the plurality of documents are classified into each category of the classification model.
[0048]
The classification model is composed of a plurality of classification items, that is, categories, for classifying documents. The category is composed of a category index including proper nouns, meanings other than proper nouns, document addresses included in the categories, and the like characteristic of the category. The category index is composed of a document index including proper nouns and meanings other than proper nouns.
[0049]
For example, the classification model shown in FIG. 7 has columns of proper nouns, meanings other than proper nouns, and document addresses for category indexes corresponding to the respective categories. In this classification model, the proper nouns “Mr. A,...”, “Mr. B,. .. ”,“ C company, G company,... ”,“ D type,... ”,“ Mr. E,... ”And“ Mr. F ”, meaning“ baseball (4546), ground (2343) ), ... "," Labor (3112), Unique (9821), ... "," Mobile (2102), ... "," Cherry 1 (11111), Orange 1 (9911) "," Cherry 2 (11112), orange 2 (9912), and “cherry tree 3 (11113)” as document addresses “SP1, SP2, SP3,...”, “SO1, SO2, SO3,.・ ”,“ CO1, CO2, CO3,... ”,“ PL1, PL2, PL3 ··· "," AR1, AR2, AR3, ··· "and" EV1, EV2, EV3, each have a ... ". “
[0050]
When the classification model is updated, the update date and time is recorded in the classification model. In the figure, “Dec. 10, 1998 19:56:10” is recorded as the update date.
[0051]
The category of the classification model is manually created by the user by changing or deleting the classification display section corresponding to each category or setting a new classification display section in the
[0052]
For example, in the
[0053]
In step S15, the
[0054]
The category index of each category includes a proper noun characteristic for the category, a meaning other than the proper noun, and a document address classified into each category. Here, in the case of other than proper nouns, the meaning is used instead of the word itself because the same word may have a plurality of meanings. Then, the
[0055]
The classification model can be created in step S15 each time a category is created in step S14 and a user's manual classification operation is performed.
[0056]
In step S16, the
[0057]
(2) Automatic document classification
Next, automatic document classification performed by the document processing apparatus based on the classification model will be described with reference to FIG. This document classification is performed on a document received after the classification model is created by the processing shown in FIG. In this example, it is assumed that the processing shown in FIG. 8 is performed every time one document is received. However, the processing may be performed every time a predetermined number of documents are received, or the user can display the screen shown in FIG. Processing may be performed on all documents received so far when an operation of opening is performed.
[0058]
In step S21, the receiving
[0059]
In step S22, the
[0060]
In step S23, the
[0061]
In step S24, the
[0062]
Next, index creation in step S12 of FIG. 4 and step S22 of FIG. 8 will be described with reference to FIG.
[0063]
In step S31, the
[0064]
In step S32, the
[0065]
In step S33, the
[0066]
The
[0067]
In step S34, the
[0068]
As described above, the procedure for finding the feature of the document and creating the index is to find the feature of the tagged document and create an index in which the feature is arranged. The feature of the document is determined based on the central activity value that has been subjected to the diffusion processing according to the internal structure of the document.
[0069]
Note that the above-described index includes a document address indicating a position where the document is stored in the RAM 14 together with a meaning and proper noun representing the document characteristics.
[0070]
Since the index includes meanings and proper nouns representing features that represent the document, it can be used when referring to a desired document.
[0071]
Next, active diffusion for diffusing the central active value corresponding to the element based on the internal structure of the document will be described with reference to FIG. The active diffusion is performed in step S31 of FIG. The active diffusion is a process for giving a high central activity value to an element related to an element having a high central activity value. Since this central activity value is determined according to the internal structure by tagging, it is used for extracting document features and the like.
[0072]
In step S81, the
[0073]
The connection between the elements is as shown in FIG. 11, for example. In this figure, element E is part of the structure of the elements and links that make up the document.iAnd element EjIt is shown. Element EiAnd element EjAnd the central activity value eiAnd ejEach with a link LijConnected at. Link LijElement EiThe end point connected to is Tij, Element EjThe end point connected to is TjiIt is. Element EiIs the link LijE connected byjIn addition to link Lik, LilAnd LimElement E (not shown)k, ElAnd EmIs connected to each. Element EjIs element EjLink L based onijLjiE connected byiIn addition to link Ljp, Lj qAnd LjrElement E (not shown)p, EqAnd ErIs connected to each.
[0074]
In step S82, the
[0075]
In step S83, the
[0076]
In step S84, the
[0077]
Specifically, the
[0078]
In step S87, the
[0079]
In step S85, the
[0080]
The
[0081]
In step S86, the
[0082]
Next, the link process executed in step S83 in FIG. 10 will be described with reference to FIG. Here, one element EiAs an example, in the case of the center active value diffusion process, the link process is performed for all elements.
[0083]
In step S51, the
[0084]
In step S52, the
[0085]
In step S53, the
[0086]
Here, the link L is determined by the determination in step S52.ijIs usually a link. Element EiNormal link LijEnd point T connected toijEnd point activation value tijIs element EjLink L of the end point activation values ofijAll end points T connected to links other thanjp, Tjq, TjrEnd point activation value tjp, Tjq, TjrAnd element EiIs link LijE connected byjCenter activity value ejAnd the value obtained by this addition is divided by the total number of elements included in the document.
[0087]
The
[0088]
In step S54, the
[0089]
Based on the determination in step S52, the link LijIs a reference link. Element EiReference link LijEnd point T connected toijNew end point activation value tijIs element EjThis link L of the end point activation values ofijAll end points T connected to the link excludingjp, Tjq, TjrEnd point activation value tjp, Tjq, TjrAnd element EiIs link LijE connected byjCenter activity value ejIs obtained by adding.
[0090]
The
[0091]
The normal link process in step S53 and the reference link process in step S54 are in the loop from step S52 to step S55, and the element E referred to by the count value i is used.iAll links L connected toijIs executed against.
[0092]
In step S55, the
[0093]
In step S56, element E in step S55.iAll links of LijEnd point activation value tijTherefore, the
[0094]
Element EiCenter activity value eiThe new or updated value of is the element EiCurrent central activity value eiAnd element EiThe sum of new endpoint activation values for all endpoints ofi‘= Ei+ ΣtjIt is calculated | required by taking '. Here, the prime “′” means a new value.
[0095]
The
[0096]
Next, automatic classification in step S23 of FIG. 8 will be described with reference to FIG.
[0097]
In step S71, the
[0098]
In step S72, the
[0099]
In step S73, the
Rel (Ci ) = M1P (Ci ) + N1R (Ci )
It is defined as Where the coefficient m1, N1Is a constant and represents the degree of contribution of each value to the degree of association between document classifications. The
[0100]
Coefficient m1And n1The value of can also be estimated using statistical techniques. That is, the
[0101]
In step S74, the
[0102]
Next, the calculation of the degree of association between meanings used in step S72 of FIG. 13 will be described with reference to FIG. The process shown in FIG. 14 need only be performed once before the process shown in FIG.
[0103]
In step S <b> 61, the
[0104]
The network is created by the
[0105]
In step S62, the central activation value corresponding to each semantic element is diffused on the semantic network created in step S61. By this active diffusion, the central activity value corresponding to each meaning is given according to the internal structure by tagging given by the dictionary. The center activity value diffusion process will be described later.
[0106]
In step S63, one meaning s constituting the meaning network created in step S61.iIn step S64, this one meaning siVocabulary element E corresponding toiCenter activity value eiThe initial value of the center activation value at this time is changed.iCalculate
[0107]
In step S65, element E in step S64.iCenter activity value eiDifference ΔeiOther meanings corresponding tojElement E corresponding tojCenter activity value ejDifference ΔejAsk for. In step S66, the difference Δe obtained in step S65.jΔe obtained in step S64iQuotient Δe divided byj/ Δei, MeaningiMeaning ofjIs the degree of relevance between meanings.
[0108]
In step S67, one meaning siAnd other meaningsjIt is determined whether or not the calculation of the relationship between meanings is completed for all pairs. Then, when the calculation of the relationship between meanings is completed for all the meaning pairs, this processing is ended as “YES”. When the calculation of the relationship between meanings is not completed for all semantic pairs, “NO” is returned to step S63, and the calculation of the relationship between meanings is continued for the pair whose calculation of the relationship between meanings is not completed. To do.
[0109]
In the loop from step S63 to step S67, the
[0110]
The degree of association between meanings calculated in this way is defined between each meaning and meaning as shown in FIG. In this table, the degree of association between meanings is normalized so as to take a value from 0 to 1. In this table, the degree of relevance between meanings among “computer”, “television”, and “VTR” is shown. The degree of association between the meanings of “computer” and “TV” is 0.55, the degree of association between the meanings of “computer” and “VTR” is 0.25, and the degree of association between the meanings of “TV” and “VTR” is 0.60. It is.
[0111]
(3) Actual interest level and predicted interest level
Next, details of step S13 in FIG. 4 will be described with reference to FIG. By performing this processing, the actual interest level is detected.
[0112]
In step S101, the user selects a desired document from the
[0113]
In step S102, the
[0114]
In step S <b> 103, the user reads the document displayed in the
[0115]
Here, when a summary is created and displayed on the
[0116]
In the first step S91, the
[0117]
The
[0118]
The
[0119]
In step S91 in FIG. 17, the
[0120]
In step S92, the
[0121]
In step S93, the
[0122]
In step S94, the
[0123]
In step S95, the
[0124]
When the “summary” button displayed on the
[0125]
In the
[0126]
In step S104 of FIG. 16, the
[0127]
Here, the actual interest level and the predicted interest level used in the present embodiment will be described. The actual interest level is calculated in step S104 and is an actual interest level for the document operated by the user, which is detected by the user operation. On the other hand, the predicted interest level is a prediction of the interest level of the user's document. This predicted interest level is predicted based on the actual interest level, for example.
[0128]
In step S105, the
<User operation history Maximum summary size = "100">
<Number of selected elements = “10”> Picturetel </ Selected>
...
</ User operation history>
Was exemplified. In step S105, the
[0129]
The index can include the actual interest level of the document. For example, the actual interest level for each document may be included in the index for each category. In such a case, in step S105, the actual interest level itself included in the index related to the document is also updated.
[0130]
Next, the user operation in step S103 of FIG. 16 will be described with reference to FIG. 22, FIG. 23, FIG. 23, and FIG.
[0131]
The document whose title is displayed in the
[0132]
Next, an example including a more detailed control than that shown in FIG. 4 of the process of creating a summary will be described in detail with reference to the flowchart shown in FIG. This series of steps is started by turning on the “Summary”
[0133]
The process of creating a summary from a document is performed based on the internal structure by tagging the document. As described above, the size of the
[0134]
In the first step S120 in FIG. 22, the
[0135]
In step S121, the
[0136]
In step S122, the
[0137]
In step S123, the
[0138]
That is, in this step S123, the summary algorithm selects sentences in descending order of the average central activity value using the result of active diffusion, and extracts the skeleton of the selected sentence. The skeleton of the sentence is composed of essential elements extracted from the sentence. The required elements can be the element head, subject, object, indirect object, possessor, cause, condition Alternatively, an element having a relation attribute of comparison and an element directly included in the case where the coordinate structure is an essential element constitute an essential element. Then, the skeleton of the sentence is generated by connecting the essential elements of the sentence and added to the summary.
[0139]
In step S124, the
[0140]
In step S129, the
[0141]
In step S125, the
[0142]
In step S126, the
[0143]
In step S127, the
[0144]
In step S128, the
[0145]
In step S130, the
[0146]
The
[0147]
The actual interest level of the user with respect to the document is calculated based on a plurality of factors as follows. It should be noted that the actual interest level element is different from the elements constituting the document.
[0148]
In the calculation of the actual interest level, among the elements designated by the user, the position of the element whose appearance position in the document is farthest from the beginning of the document is the first element A (Di). According to the first element, among the elements specified by the user, the position where the appearance position in the document is farthest from the beginning of the document is larger, and the user thinks that the document has been read more. It is assumed that the actual interest in the document is large. Specifically, the ratio between the maximum appearance position of the selected element and the size of the entire document is set as the first element A (Di). Where DiRepresents the i-th document.
[0149]
In the
[0150]
Further, in the calculation of the actual interest level, the second element E indicates the number of items selected by the user from the document elements displayed on the
[0151]
In the
[0152]
Further, in the calculation of the actual interest level, the ratio of the size of the area of the
[0153]
In the
[0154]
First element A (D of actual interest leveli), Second factor E (Di) And the third element W (Di) Based on the user's document DiThe actual interest level IR (Di) for
IR (Di) = l2W (Di) + m2A (Di) + n2E (Di)
It is defined as Where the coefficient l2, M2, N2Is a constant and represents the contribution of each value to the actual interest level. These coefficients l2, M2, N2The value of is l2= M2= 10, n2= 1. The coefficient l2, M2, N2The value of can also be estimated using statistical techniques. That is, the
[0155]
Next, document rearrangement performed based on the predicted interest level obtained using the actual interest level will be described with reference to FIG. Such document rearrangement is performed with the browser of FIG. 6 open.
[0156]
In step S111, the
[0157]
In step S113, the
[0158]
For one unread document in the category, the
[0159]
In S118, the
[0160]
In step S114, the
[0161]
In step S115, the
[0162]
In step S116, the
[0163]
Next, the calculation for calculating the degree of association between documents in step S112 in FIG. 25 will be described in detail with reference to FIG. The degree of relevance between documents is one document DiAnd other documents DjThe degree of relevance.
[0164]
In step S41, the
[0165]
In step S42, the
[0166]
In step S42, the
[0167]
In step S43, the
Rel (Di , Dj) = MThreeP (Di, Dj ) + NThreeR (Di, Dj )
It is defined as Where the coefficient mThree, NThreeIs a constant and represents the degree of contribution of each value to the inter-document relevance. The
[0168]
Coefficient mThreeAnd nThreeThe value of can also be estimated using statistical techniques. That is, the
[0169]
Next, the
[0170]
The
[0171]
In the present embodiment, an example of a tagging method for a document has been shown, but it is needless to say that the present invention is not limited to this tagging method. In the present embodiment, the document is transmitted from the outside to the receiving
[0172]
In the above-described embodiment, the mouse is exemplified as a device for selecting a desired element from the document displayed on the display unit 30 of the document processing apparatus. However, it goes without saying that the present invention is not limited to this. . Other devices such as a tablet and a light pen can be used to input elements in the document processing apparatus.
[0173]
Furthermore, in the above-described embodiment, Japanese and English sentences are exemplified, but it goes without saying that the present invention is not limited to these languages.
[0174]
【The invention's effect】
As described above, the present invention processes an electronic document, detects an actual interest level for the electronic document, and sets a priority order for the electronic document based on the detected actual interest level. The present invention also displays an electronic document, accepts manual input for the displayed electronic document, and detects the actual interest level based on this input. Therefore, according to the present invention, the priority of the electronic document is set reflecting the actual interest level of the user, so that the convenience of the user is achieved.
[0175]
Furthermore, according to the present invention, the priority level is set based on the predicted interest level, with the actual interest level of the document having the highest relevance among the electronic documents for which the actual interest level has already been obtained as the predicted interest level. Therefore, according to the present embodiment, a priority order can be given to a document to which no actual interest level is given.
[0176]
In the present invention, the electronic document is classified into a plurality of classification items, and the priority order is set for the electronic document for each classification item. Therefore, the present invention provides convenience to the user by setting a priority for each classification item.
[Brief description of the drawings]
FIG. 1 is a block diagram illustrating a configuration of a document processing apparatus to which an exemplary embodiment is applied.
FIG. 2 is a diagram showing an internal structure by tagging a document.
FIG. 3 is a diagram showing a window displaying an internal structure by tagging a document.
FIG. 4 is a flowchart showing an operation of a document processing apparatus to which the embodiment is applied.
FIG. 5 is a diagram illustrating a GUI for performing document classification before document classification;
FIG. 6 is a diagram showing a GUI for classifying documents.
FIG. 7 shows a table of classification models.
FIG. 8 is a flowchart for automatically classifying documents.
FIG. 9 is a flowchart for creating an index by finding document features;
FIG. 10 is a flowchart showing active diffusion.
FIG. 11 is a diagram for explaining active diffusion processing;
FIG. 12 is a flowchart of link processing for active diffusion.
FIG. 13 is a flowchart for calculating the degree of association between document classifications.
FIG. 14 is a flowchart of calculation of the degree of association between meanings.
FIG. 15 is a diagram showing a table of relevance levels between meanings.
FIG. 16 is a flowchart for browsing and sorting documents.
FIG. 17 is a flowchart showing a series of steps for increasing the importance of an arbitrary part of a sentence.
FIG. 18 shows a summary window.
FIG. 19 is a diagram showing a state in which a word is selected in the summary window.
FIG. 20 is a diagram illustrating a state where a region selected in the summary window is further clicked.
FIG. 21 is a diagram showing a state in which a summary is displayed in a summary window.
FIG. 22 is a diagram showing details of the summary creation process.
FIG. 23 is a diagram for explaining the calculation of the actual interest level from the maximum appearance position of the selected element.
FIG. 24 is a diagram for explaining the calculation of the actual interest level from the maximum size of the summary element and the ratio of the entire document.
FIG. 25 is a flowchart for automatically classifying a document based on a predicted interest level.
FIG. 26 is a flowchart for calculating the degree of association between documents.
[Explanation of symbols]
10 main body, 11 control unit, 12 interface, 13 CPU, 20 input unit, 21 receiving unit, 30 display unit, 31 recording / reproducing unit
Claims (6)
受信手段が、複数の電子文書を受信する受信工程と、
記録手段が、上記受信工程にて受信された複数の電子文書を記録する記録工程と、
表示手段が、上記記録工程にて記録された複数の電子文書のうちユーザによって選択された電子文書及び当該電子文書の要約を表示する表示工程と、
入力手段が、上記表示工程にて表示された電子文書に対するユーザの操作情報を入力する入力工程と、
実関心度検出手段が、上記表示工程にて表示された電子文書に対して上記入力工程にて入力されたユーザの操作情報に基づいて上記電子文書に対するユーザの実関心度を算出する実関心度検出工程と、
優先順位設定手段が、上記実関心度が算出されていない電子文書に対し、上記実関心度検出工程にて実関心度が算出された電子文書のうち上記電子文書の内部構造に基づく関連度が最も高い電子文書の実関心度を予測関心度とし、当該予測関心度に基づいて優先順位を設定する優先順位設定工程と、
並べ替え手段が、上記記録工程にて記録された複数の電子文書のうちユーザによって選択されていない電子文書を上記優先順位設定工程にて設定された優先順位に応じて並べ替える並べ替え工程とを有し、
上記実関心度検出工程では、上記電子文書及び上記電子文書の要約をそれぞれ表示する各表示領域について、ユーザによって選択された上記電子文書の要素のうち上記電子文書中での出現位置が上記電子文書の先頭から最も遠い位置にある要素の出現位置と上記電子文書のサイズとの比率からなる第1の実関心度要素と、ユーザによって指定されたキーワード数及びユーザによって選択された要素数からなる上記実関心度の第2の実関心度要素と、上記表示工程にて表示される上記電子文書の要約の表示領域のサイズと上記電子文書の表示領域のサイズとの比率からなる第3の上記実関心度要素とを用いて上記実関心度を算出する文書処理方法。In a document processing method of a document processing apparatus that processes a plurality of electronic documents,
A receiving step in which the receiving means receives a plurality of electronic documents;
A recording step for recording a plurality of electronic documents received in the receiving step;
A display step for displaying an electronic document selected by the user among the plurality of electronic documents recorded in the recording step and a summary of the electronic document;
An input step in which the input means inputs user operation information for the electronic document displayed in the display step;
The actual interest level that the actual interest level detection means calculates the actual interest level of the user for the electronic document based on the operation information of the user input in the input step for the electronic document displayed in the display step A detection process;
The priority order setting means has a relevance level based on the internal structure of the electronic document among the electronic documents for which the actual interest level is calculated in the actual interest level detection step with respect to the electronic document for which the actual interest level is not calculated. A priority setting step in which the actual interest level of the highest electronic document is set as a predicted interest level, and a priority order is set based on the predicted interest level ;
A sorting step in which sorting means sorts electronic documents not selected by the user among the plurality of electronic documents recorded in the recording step according to the priority set in the priority setting step; Have
In the actual interest level detection step, for each display area for displaying the electronic document and the summary of the electronic document, the appearance position in the electronic document among the elements of the electronic document selected by the user is the electronic document. The first actual interest level element composed of the ratio between the appearance position of the element farthest from the head of the document and the size of the electronic document, the number of keywords specified by the user, and the number of elements selected by the user A third actual interest level comprising a second actual interest level element of the actual interest level and a ratio of the size of the display area of the summary of the electronic document displayed in the display step and the size of the display area of the electronic document. A document processing method for calculating the actual interest level using an interest level element .
インデックス記録手段が、上記インデックス作成工程にて作成されたインデックスを記録するインデックス記録工程と、An index recording step in which the index recording means records the index created in the index creation step;
インデックス更新手段が、上記入力工程にて入力されたユーザの操作情報に基づくユーザの操作履歴及び/又は上記実関心度検出工程にて算出された実関心度を上記インデックスに記録する更新処理を行うインデックス更新工程とをさらに有する請求項1記載の文書処理方法。The index update means performs an update process for recording the user's operation history based on the user's operation information input in the input step and / or the actual interest level calculated in the actual interest level detection step in the index. The document processing method according to claim 1, further comprising an index update step.
上記優先順位設定工程では、上記優先順位設定手段が、上記分類工程にて上記分類手段によって分類された分類項目ごとに上記電子文書の優先順位を設定する請求項1記載の文書処理方法。 The classification means further comprises a classification step of classifying the electronic document into a plurality of classification items;
Above the priority setting step, the priority setting unit, the document processing method according to claim 1, wherein to set the priority of the electronic document for each classified category items by the classifying means in the classification step.
複数の電子文書を受信する受信手段と、
上記受信手段によって受信された複数の電子文書を記録する記録手段と、
上記記録手段によって記録された複数の電子文書のうちユーザによって選択された電子文書及び当該電子文書の要約を表示する表示手段と、
上記表示手段によって表示された電子文書に対するユーザの操作情報を入力する入力手段と、
上記表示手段によって表示された電子文書に対して上記入力手段によって入力されたユーザの操作情報に基づいて上記電子文書に対するユーザの実関心度を算出する実関心度検出手段と、
上記実関心度が算出されていない電子文書に対し、上記実関心度検出手段によって実関心度が算出された電子文書のうち上記電子文書の内部構造に基づく関連度が最も高い電子文書の実関心度を予測関心度とし、当該予測関心度に基づいて優先順位を設定する優先順位設定手段と、
上記記録手段によって記録された複数の電子文書のうちユーザによって選択されていない電子文書を上記優先順位設定手段によって設定された優先順位に応じて並べ替える並べ替え手段とを備え、
上記実関心度検出手段は、上記電子文書及び上記電子文書の要約をそれぞれ表示する各表示領域について、ユーザによって選択された上記電子文書の要素のうち上記電子文書中での出現位置が上記電子文書の先頭から最も遠い位置にある要素の出現位置と上記電子文書のサイズとの比率からなる第1の実関心度要素と、ユーザによって指定されたキーワード数及びユーザによって選択された要素数からなる上記実関心度の第2の実関心度要素と、上記表示手段によって表示される上記電子文書の要約の表示領域のサイズと上記電子文書の表示領域のサイズとの比率からなる第3の上記実関心度要素とを用いて上記実関心度を算出する文書処理装置。In a document processing apparatus that processes a plurality of electronic documents,
Receiving means for receiving a plurality of electronic documents;
Recording means for recording a plurality of electronic documents received by the receiving means;
Display means for displaying an electronic document selected by the user among the plurality of electronic documents recorded by the recording means and a summary of the electronic document;
Input means for inputting user operation information for the electronic document displayed by the display means;
Real interest level detection means for calculating the actual interest level of the user for the electronic document based on the user operation information input by the input means for the electronic document displayed by the display means;
The actual interest of the electronic document having the highest relevance based on the internal structure of the electronic document among the electronic documents of which the actual interest level is calculated by the actual interest level detection unit with respect to the electronic document for which the actual interest level is not calculated A priority setting means for setting a priority based on the predicted interest level,
Reordering means for reordering electronic documents not selected by the user among the plurality of electronic documents recorded by the recording means according to the priority set by the priority setting means;
The actual interest level detection means is configured such that, for each display area for displaying the electronic document and the summary of the electronic document, the appearance position in the electronic document among the elements of the electronic document selected by the user is the electronic document. The first actual interest level element composed of the ratio between the appearance position of the element farthest from the head of the document and the size of the electronic document, the number of keywords specified by the user, and the number of elements selected by the user A third actual interest level comprising a second actual interest level element of the actual interest level, and a ratio of the size of the display area of the summary of the electronic document displayed by the display means and the size of the display area of the electronic document. A document processing apparatus that calculates the actual interest level using a degree element .
上記文書処理プログラムは、
受信手段が、複数の電子文書を受信する受信工程と、
記録手段が、上記受信工程にて受信された複数の電子文書を記録する記録工程と、
表示手段が、上記記録工程にて記録された複数の電子文書のうちユーザによって選択された電子文書及び当該電子文書の要約を表示する表示工程と、
入力手段が、上記表示工程にて表示された電子文書に対するユーザの操作情報を入力する入力工程と、
実関心度検出手段が、上記表示工程にて表示された電子文書に対して上記入力工程にて入力されたユーザの操作情報に基づいて上記電子文書に対するユーザの実関心度を算出する実関心度検出工程と、
優先順位設定手段が、上記実関心度が算出されていない電子文書に対し、上記実関心度検出工程にて実関心度が算出された電子文書のうち上記電子文書の内部構造に基づく関連度が最も高い電子文書の実関心度を予測関心度とし、当該予測関心度に基づいて優先順位を設定する優先順位設定工程と、
並べ替え手段が、上記記録工程にて記録された複数の電子文書のうちユーザによって選択されていない電子文書を上記優先順位設定工程にて設定された優先順位に応じて並べ替える並べ替え工程とをコンピュータに実行させ、
上記実関心度検出工程では、上記電子文書及び上記電子文書の要約をそれぞれ表示する各表示領域について、ユーザによって選択された上記電子文書の要素のうち上記電子文書中での出現位置が上記電子文書の先頭から最も遠い位置にある要素の出現位置と上記電子文書のサイズとの比率からなる第1の実関心度要素と、ユーザによって指定されたキーワード数及びユーザによって選択された要素数からなる上記実関心度の第2の実関心度要素と、上記表示工程にて表示される上記電子文書の要約の表示領域のサイズと上記電子文書の表示領域のサイズとの比率からなる第3の上記実関心度要素とを用いて上記実関心度を算出する文書処理プログラムが記録された記録媒体。In a computer-readable recording medium recorded with a document processing program for causing a computer to execute document processing for processing a plurality of electronic documents,
The above document processing program
A receiving step for receiving a plurality of electronic documents;
A recording step for recording a plurality of electronic documents received in the receiving step;
A display step for displaying an electronic document selected by the user among the plurality of electronic documents recorded in the recording step and a summary of the electronic document;
An input step in which the input means inputs user operation information for the electronic document displayed in the display step;
The actual interest level that the actual interest level detection means calculates the actual interest level of the user for the electronic document based on the operation information of the user input in the input step for the electronic document displayed in the display step A detection process;
The priority order setting means has a relevance level based on the internal structure of the electronic document among the electronic documents for which the actual interest level is calculated in the actual interest level detection step with respect to the electronic document for which the actual interest level is not calculated. A priority setting step in which the actual interest level of the highest electronic document is set as a predicted interest level, and a priority order is set based on the predicted interest level;
A sorting step in which sorting means sorts electronic documents not selected by the user among the plurality of electronic documents recorded in the recording step according to the priority set in the priority setting step; Let the computer run,
In the actual interest level detection step, for each display area for displaying the electronic document and the summary of the electronic document, the appearance position in the electronic document among the elements of the electronic document selected by the user is the electronic document. The first actual interest level element composed of the ratio between the appearance position of the element farthest from the head of the document and the size of the electronic document, the number of keywords specified by the user, and the number of elements selected by the user A third actual interest level comprising a second actual interest level element of the actual interest level and a ratio of the size of the display area of the summary of the electronic document displayed in the display step and the size of the display area of the electronic document. A recording medium on which a document processing program for calculating the actual interest level using an interest level element is recorded .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10065399A JP4345129B2 (en) | 1999-04-07 | 1999-04-07 | Document processing method and apparatus, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP10065399A JP4345129B2 (en) | 1999-04-07 | 1999-04-07 | Document processing method and apparatus, and recording medium |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2000293533A JP2000293533A (en) | 2000-10-20 |
JP4345129B2 true JP4345129B2 (en) | 2009-10-14 |
Family
ID=14279787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP10065399A Expired - Fee Related JP4345129B2 (en) | 1999-04-07 | 1999-04-07 | Document processing method and apparatus, and recording medium |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4345129B2 (en) |
-
1999
- 1999-04-07 JP JP10065399A patent/JP4345129B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2000293533A (en) | 2000-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2366545C (en) | System and method for generating a taxonomy from a plurality of documents | |
JP4893243B2 (en) | Image summarization method, image display device, k-tree display system, k-tree display program, and k-tree display method | |
US7721192B2 (en) | User interface for a resource search tool | |
US10108720B2 (en) | Automatically providing relevant search results based on user behavior | |
US7370061B2 (en) | Method for querying XML documents using a weighted navigational index | |
US7992085B2 (en) | Lightweight reference user interface | |
KR101029403B1 (en) | Automatic query clustering | |
US7840524B2 (en) | Method and apparatus for indexing, searching and displaying data | |
KR100461019B1 (en) | web contents transcoding system and method for small display devices | |
US7930309B2 (en) | Document processing method and document processing apparatus, and recording medium | |
US20060106793A1 (en) | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation | |
US20060047649A1 (en) | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation | |
KR20000011423A (en) | Display Screen and Window Size Related Web Page Adaptation System | |
JP2013503381A (en) | Trusted Query System and Method | |
CN101359332A (en) | Design method of visual search interface with semantic classification function | |
JPH07319917A (en) | Document data base managing device and document data base system | |
JPH11161682A (en) | Information retrieval apparatus, information retrieval method, and recording medium | |
JP2806867B2 (en) | Document database construction method, display method, and display device | |
JPH11296537A (en) | Information search system, information providing device, information search terminal device, information search method, and storage medium | |
JP4345129B2 (en) | Document processing method and apparatus, and recording medium | |
JP2000353165A (en) | Method and device for processing document and recording medium | |
US20020078021A1 (en) | Method and system for organizing information into visually distinct groups based on user input | |
JP2000105769A (en) | Document display method | |
JP2000276480A (en) | Method and device for document processing and recording medium | |
CN116028637A (en) | Map construction method and device, and data retrieval method and device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060302 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090223 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090303 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090507 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090623 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090706 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120724 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |