JP3581074B2 - 文書ダイジェスト作成方法、文書検索装置および記録媒体 - Google Patents
文書ダイジェスト作成方法、文書検索装置および記録媒体 Download PDFInfo
- Publication number
- JP3581074B2 JP3581074B2 JP2000062561A JP2000062561A JP3581074B2 JP 3581074 B2 JP3581074 B2 JP 3581074B2 JP 2000062561 A JP2000062561 A JP 2000062561A JP 2000062561 A JP2000062561 A JP 2000062561A JP 3581074 B2 JP3581074 B2 JP 3581074B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- graph
- context
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【発明の属する技術分野】
本発明は、文書から、「文書がどのような内容で書かれているのかを簡潔に表現するダイジェスト」を適切に作成するための方法に関するものであり、文書ダイジェスト作成方法、文書検索装置および記録媒体に関する。
【0002】
【従来の技術】
(従来のダイジェスト作成方法)
ここで言う、ダイジェストとは、文書がどのような内容であるかを簡潔に表現するものである。文書から作成される要約や本のタイトルといった文形式のものから、表紙に書かれている絵や図等も文書の内容を簡潔に表現するという意味で、一種のダイジェストである。電子化された文書から、このようなダイジェストを作成する方法には、以下のものがあった。
(方法a)文書の構造情報を利用し、タイトル,章や節の見出し、概要などのあらかじめ文書に記述されている一部を抜き出してダイジェストとする。
(方法b)言語情報を用いて文書内から重要な文を抽出し、これらを並べてダイジェストとする。例えば、「すなわち」や「つまり」といった接続詞の後の文を重要文としてダイジェストに用いる。
(方法c)文書の中から単語を抽出しそれぞれの単語に重要度を付ける。次に重要度の高い単語が多く含まれている文を重要文として抽出し、これらを並べてダイジェストとする。
(方法d)ユーザが指定した特定の単語を含む文をダイジェストとする。
【0003】
(従来の文書検索装置)
従来の文書検索装置では、以下のステップによって検索を実行し検索結果をユーザに提示していた。
(1)ユーザは単語,単語集合,単語のブール演算子結合,文,文書,文書集合等によって検索キーを指定する。
(2)検索キーに合致する文書IDの集合を文書索引データベースを用いて取得する。
(3)文書IDに対応する文書のダイジェストと本文へのポインタを並べて検索結果とする。
(4)検索結果をユーザに提示する。
【0004】
このように検索結果として、ダイジェストを並べることによって、ユーザはそれぞれの文書本文を読まなくても、それぞれがどのような内容で書かれているのかを概観することができる。
【0005】
これらのダイジェスト作成方法には上記方法a〜方法dのいずれかの方法が利用されてきた(方法dを用いる場合には検索キーに含まれる単語を指定単語として、その単語を含む文をダイジェストとして出力している)。
【0006】
【発明が解決しようとする課題】
しかしながら従来のダイジェスト作成方法を文書検索装置に用いる場合、以下のような解決すべき課題が従来技術にはあった。
【0007】
・文書構造を仮定する必要がある。
方法aでは、文書のどの部分が、タイトル,章や節の見出し、概要に当たるのかと言った文書の構造情報がないとダイジェストを作成することができない。
【0008】
・言語に依存した情報を利用する必要がある。
方法bでは、接続詞の抽出等言語に依存した処理を行なわないといけない。そのため、様々な言語で書かれた文書を同じ方法でダイジェスト作成ができない。
【0009】
・検索キーに応じたダイジェストが作成できない。
方法a,方法b,方法cでは、検索キーに応じてダイジェストを作成することができない。そのためユーザはなぜ、自分が入力した検索キーに対してその文書が合致したのかを即座に理解することができない。
【0010】
・検索キーが複雑になった場合のダイジェストが作成できない。
方法dでは、検索キーが少数個のキーワードの場合、文書内のそれらのキーワードを含む文をすべて結合してダイジェストを作成することができる。しかし、検索キーが複雑になり検索キーに含まれるキーワードの個数が増えるとそれらのキーワードを含む文の個数は多数となり、ダイジェストが大きくなり過ぎてしまう。
【0011】
そこで本発明の目的は、上述の点に鑑みて、文書構造を仮定せず、どのような言語も扱え、ユーザが入力した検索キーに応じたダイジェストを作成可能な、ユーザにとって扱いやすい文書検索装置を構築することができる文書ダイジェスト作成方法、文書検索装置および記録媒体を提供することにある。
【0012】
【課題を解決するための手段】
このような目的を達成するために、本発明の文書ダイジェスト作成方法は、電子化された文書から、該文書の内容を簡潔に表現するダイジェストを情報処理装置により作成する、文書ダイジェスト作成方法であって、ダイジェストを作成する文書本文および、文書グラフからダイジェストを生成するための規定となるコンテクストを単語とその単語の重要度の対の形態で前記情報処理装置に入力し、前記情報処理装置においては、前記文書本文から全単語を抽出し、該単語の重要度と、抽出された単語間の関連度を求め、前記文書本文を、前記単語の重要度をノードの重みと、前記単語間の関連度をリンクの重みとした文書グラフによって表現し、前記文書グラフと前記コンテクストとから、コンテクストの各単語と文書グラフの各単語との間接関連度を求め、間接関連度から抽出すべき部分グラフを構成する単語を決定して部分グラフを抽出し、当該抽出された部分グラフを、元の文書の内容を図的に表現したダイジェストグラフとすることを特徴とする。
【0013】
ここで、前記文書グラフから前記コンテクストに応じた部分グラフを抽出する場合に、前記情報処理装置は、前記コンテクストのそれぞれの単語と、前記文書グラフ上のそれぞれの単語との関連の強さを表す間接関連度を計算し、前記コンテクストのそれぞれの単語毎に、該単語と前記文書グラフ上の全ての単語との間接関連度を並べた間接関連度ベクトルを作成し、前記コンテクストの単語の重要度と前記間接関連度ベクトルとから、前記コンテクストと関連の強い単語からなる関連単語集合を求め、前記文書グラフから、前記関連単語集合に含まれる単語を持つノードだけを抽出することによって、前記部分グラフを作成することを特徴とすることができる。
【0014】
また、前記間接関連度を計算する場合に、前記コンテクストの第1の単語と前記文書グラフ上の第2の単語との間接関連度について、前記情報処理装置は、前記文書グラフ上に前記コンテクストの第1の単語がなければ、前記間接関連度は0となし、もしあった場合には、前記コンテクストの第1の単語から前記文書グラフ上の第2の単語への全てのパスを求め、それぞれのパスの重みを計算し、当該計算されたパスの重みの最大値をもって、前記間接関連度とすることを特徴とすることができる。
【0015】
また、前記パスの重みを計算する場合に、前記情報処理装置は、経由するノード数およびリンク数が少なければ少ないほどパスの重みを大きくし、経由するそれぞれのノードの重みが大きければ大きいほどパスの重みを大きくし、経由するそれぞれのリンクの重みが大きければ大きいほどパスの重みを大きくするようにパスの重みを計算することを特徴とすることができる。
【0016】
また、前記コンテクストの単語毎に作られた前記間接関連度ベクトルから前記関連単語集合を求める場合に、前記情報処理装置は、前記間接関連度ベクトルの単語部分が同じ各要素の間接関連度を、前記コンテクストの単語の重要度が大きいものほどその影響が大きくなるように足し合わせることによって、前記コンテクストの全単語に対して足し合わせた間接関連度ベクトルを求め、前記間接関連度ベクトルに含まれる単語の中で、ある定めた値を越える間接関連度を持つ単語だけを選択するか、または、間接関連度が大きな上位定数個の単語を選択することによって、前記関連単語集合を求めることを特徴とすることができる。
【0017】
また上記目的を達成するために、本発明の文書検索装置は、ユーザに検索キーを入力させる入力手段と、前記検索キーに合致する文書IDの集合を文書索引データベースから取り出す検索実行手段と、前記文書IDに対応したダイジェストを並べて検索結果を作成する検索結果作成手段と、前記検索結果をユーザに提示する結果表示手段とを具え、前記検索結果作成手段は、前記検索キーから単語を抽出し、当該抽出された単語の重要度を計算し、文書グラフからダイジェストを生成するための規定となる、前記単語と前記単語の重要度の対で与えられるコンテクストを作成するコンテクスト作成手段と、それぞれの前記文書IDに対応した文書を文書データベースから取得し、当該取得した文書に対応して、該文書の文書本文から全単語を抽出し、該単語の重要度と、抽出された単語間の関連度を求め、前記文書本文を、前記単語の重要度をノードの重みと、前記単語間の関連度をリンクの重みとした文書グラフによって表現する文書グラフ作成手段と、前記文書グラフの集合と、前記コンテクストとを入力とし、前記文書グラフと前記コンテクストとから、コンテクストの各単語と文書グラフの各単語との間接関連度を求め、間接関連度から抽出すべき部分グラフを構成する単語を決定して部分グラフを抽出し、当該抽出された部分グラフを、元の文書の内容を図的に表現したグラフ形式のダイジェストとするダイジェスト作成手段と、前記グラフ形式のダイジェストと、前記文書の文書本文へのポインタを並べて検索結果とする検索結果作成手段とを具えたことを特徴とする。
【0019】
また上記目的を達成するために、本発明の記録媒体は、電子化された文書から、該文書の内容を簡潔に表現するダイジェストを情報処理装置により作成する、文書ダイジェスト作成プログラムを記録した記録媒体であって、前記プログラムは、ダイジェストを作成する文書本文および、文書グラフからダイジェストを生成するための規定となるコンテクストを単語とその単語の重要度の対の形態で前記情報処理装置に入力するステップと、前記文書本文から全単語を抽出し、該単語の重要度と、抽出された単語間の関連度を求め、前記文書本文を、前記単語の重要度をノードの重みと、前記単語間の関連度をリンクの重みとした文書グラフによって表現するステップと、前記文書グラフと前記コンテクストとから、コンテクストの各単語と文書グラフの各単語との間接関連度を求め、間接関連度から抽出すべき部分グラフを構成する単語を決定して部分グラフを抽出するステップと、当該抽出された部分グラフを、元の文書の内容を図的に表現したダイジェストグラフとするステップとを具えたことを特徴とする。
【0020】
ここで、前記文書グラフから前記コンテクストに応じて部分グラフを抽出するステップは、前記コンテクストのそれぞれの単語と、前記文書グラフ上のそれぞれの単語との関連の強さを表す間接関連度を計算し、前記コンテクストのそれぞれの単語毎に、該単語と前記文書グラフ上の全ての単語との間接関連度を並べた間接関連度ベクトルを作成し、前記コンテクストの単語の重要度と前記間接関連度ベクトルとから、前記コンテクストと関連の強い単語からなる関連単語集合を求め、前記文書グラフから、前記関連単語集合に含まれる単語を持つノードだけを抽出することによって、前記部分グラフを作成することを特徴とすることができる。
【0021】
また、前記間接関連度を計算する場合に、前記コンテクストの第1の単語と前記文書グラフ上の第2の単語との間接関連度について、前記プログラムは、前記文書グラフ上に前記コンテクストの第1の単語がなければ、前記間接関連度は0となし、もしあった場合には、前記コンテクストの第1の単語から前記文書グラフ上の第2の単語への全てのパスを求め、それぞれのパスの重みを計算し、当該計算されたパスの重みの最大値をもって、前記間接関連度とすることを特徴とすることができる。
【0022】
また、前記パスの重みを計算する場合に、前記プログラムは、経由するノード数およびリンク数が少なければ少ないほどパスの重みを大きくし、経由するそれぞれのノードの重みが大きければ大きいほどパスの重みを大きくし、経由するそれぞれのリンクの重みが大きければ大きいほどパスの重みを大きくするようにパスの重みを計算することを特徴とすることができる。
【0023】
また、前記コンテクストの単語毎に作られた前記間接関連度ベクトルから前記関連単語集合を求める場合に、前記プログラムは、前記間接関連度ベクトルの単語部分が同じ各要素の間接関連度を、前記コンテクストの単語の重要度が大きいものほどその影響が大きくなるように足し合わせることによって、前記コンテクストの全単語に対して足し合わせた間接関連度ベクトルを求め、前記間接関連度ベクトルに含まれる単語の中で、ある定めた値を越える間接関連度を持つ単語だけを選択するか、または、間接関連度が大きな上位定数個の単語を選択することによって、前記関連単語集合を求めることを特徴とすることができる。
【0024】
また上記目的を達成するために、本発明の記録媒体は、ユーザに検索キーを入力させるステップと、前記検索キーに合致する文書IDの集合を文書索引データベースから取り出すステップと、前記文書IDに対応したダイジェストを並べて検索結果を作成するステップと、前記検索結果をユーザに提示するステップとを具え、前記検索結果を作成するステップは、前記検索キーから単語を抽出し、当該抽出された単語の重要度を計算し、文書グラフからダイジェストを生成するための規定となる、前記単語と前記単語の重要度の対で与えられるコンテクストを作成するステップと、それぞれの前記文書IDに対応した文書を文書データベースから取得し、当該取得した文書に対応して、該文書の文書本文から全単語を抽出し、該単語の重要度と、抽出された単語間の関連度を求め、前記文書本文を、前記単語の重要度をノードの重みと、前記単語間の関連度をリンクの重みとした文書グラフによって表現するステップと、前記文書グラフの集合と、前記コンテクストとを入力とし、前記文書グラフと前記コンテクストとから、コンテクストの各単語と文書グラフの各単語との間接関連度を求め、間接関連度から抽出すべき部分グラフを構成する単語を決定して部分グラフを抽出し、当該抽出された部分グラフを、元の文書の内容を図的に表現したグラフ形式のダイジェストとするステップと、前記グラフ形式のダイジェストと、前記文書の文書本文へのポインタを並べて検索結果とするステップとを具えた文書検索プログラムを記録したことを特徴とする。
【0026】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を詳細に説明する。
(実施形態1 ダイジェスト作成方法)
本発明に係わる実施形態のダイジェスト作成方法における、ユーザが文書検索装置に入力する情報は、ダイジェストを作成したい「文書本文」とどの様な状況を想定してダイジェストを作成するのかを規定する「コンテクスト」である。
【0027】
コンテクストは単語とその単語の重要度の対の集合で与える。また、本発明におけるダイジェストは通常の要約やタイトルといった文(文書)形式ではなく、図的に文書の内容を表現する。具体的には、単語をノードとし単語間の関連をリンクで結んだグラフ形式とする(図1)。このようなグラフをダイジェストグラフと呼ぶ。ダイジェストグラフを見たユーザはグラフに使用されている単語と単語の関連の仕方を見て文書の内容を簡単に把握することができる。
【0028】
文書DとコンテクストCからダイジェストグラフsD を作成する具体的な手順を以下に示す(詳しくは後述)。
1.文書Dを、単語の重要度をノードの重み、単語間の関連度をリンクの重みとしたグラフで表現する。以下、このグラフを文書グラフgD と呼ぶ。
2.単語kとその単語の重要度wK の対の集合で、コンテクストCを与える。文書グラフgD 上のそれぞれの単語iと単語kとの関連の強さpikを計算する。Pikを間接関連度と呼び、単語k毎に、この値を要素として持つ間接関連度ベクトルpk を作成する。
3.単語k毎の間接関連度ベクトルpk の総和を計算し、コンテクスト全体に対する間接関連度ベクトルpを作成する。pの中である程度大きな間接関連度を持つ単語だけからなる集合(関連単語集合)MD を求める。
4.関連単語集合MD に含まれる単語を持つノードだけを文書グラフgD から、抽出し、部分グラフを作成する。この部分グラフを文書DのダイジェストグラフsD とする。
【0029】
(文書グラフの作成)
文書Dからその文書の内容を表現する文書グラフgD を作成する方法は、特願平10−297321号に記載されている主題グラフの作成法を用いる。ここでは、その方法を簡単に説明する。
【0030】
まず、文書Dに含まれる全ての単語を抽出する。それぞれの単語iの出現頻度情報,出現場所の情報等を用いて、単語の重要度vi を求める。また、単語の共起情報,単語間の係り受け情報を用いて、単語iと単語jの関連の強さを表す関連度rijを求める。このようにして求めた単語の重要度をノードの重み、単語間の関連度をリンクの重みとしたグラフを作成する(図2)。このグラフを文書グラフgD と呼ぶ。文書グラフgD は、以下の2つのベクトルによって表現される。
【0031】
ここで、ND は、文書Dに含まれる全ての単語からなる集合を表し、n=|ND |は、総単語数を表す(|X|は集合Xの要素数)。また、(0≦vi ,rij≦1)となるように正規化する。
【0032】
(単語毎の間接関連度ベクトルの作成)
コンテクストCのそれぞれの単語k毎に間接関連度ベクトルpk を求める方法を述べる。コンテクストCのそれぞれの単語kの重要度をwk とすると、コンテクストCは以下のベクトルで表現される。
【0033】
(w1 ,w2 ,…,wk ,…,wl ) (k∈LC )
ここで、LC は、コンテクストCに含まれる全ての単語からなる集合を表し、l=|LC |は、コンテクストCに含まれる総単語数を表す。次に単語kと文書グラフgD 上のそれぞれの単語iとの間接関連度pikを、以下の方法で計算する。
【0034】
ここで、「パスaの重み」とは、パスaの上の全てのノードの重みとリンクの重みを掛けた値である。これらの値を並べて、コンテクストCのそれぞれの単語k毎に間接関連度ベクトルpk を作成する。
【0035】
pk =(p1k ,p2k ,…,pik…,pnk)
以下に、図3の文書グラフ上で、単語「検索」と単語「ロボット」間の間接関連度を計算する例を示す。301はパス1、302はパス2、303はパス3である。
【0036】
まず、301のパス1では、
となる。ただし、数字(単語A)は単語Aの重要度を表し、数字(単語A−単語B)は単語A,B間の関連度を表す。
【0037】
同様に、302のパス2では、
303のパス3では、
パス3の重み=0.7*0.8 *0.3 *0.7 *0.9 *0.8 *0.8 =0.0677
となり、これらの最大値を取り単語「検索」と「ロボット」間の間接関連度は0.2322となる。
【0038】
同様に図2における単語「検索」と文書グラフgD の全ての単語との間接関連度を求めることによって、以下の間接関連度ベクトルp検索を作成する。
p検索=((検索0.7)(エンジン0.504)(WWW0.3628)…(ロボット0.2322))
同様に単語「ソフトウェア」の間接関連度ベクトルpソフトウェアは、以下のようになる。
pソフトウェア=((検索0.0907)(エンジン0.0653)(WWW 0.1021)…(ロボット
0.0653))
(間接関連度ベクトルの総和)
コンテクストCのそれぞれの単語k毎に求めた間接関連度ベクトルpk を足し合わせて、コンテクストCに対する間接関連度ベクトルpを作成する。この際、コンテクストCで与えられる単語の重要度wk も考慮し、間接関連度ベクトルpは、
【0039】
となる。
【0040】
例えば、コンテクストとして、(検索 0.9)(ソフトウェア0.3)が与えられたとする。前節の方法で、それぞれの単語の間接関連度ベクトルpk は、
p検索=((検索0.7)(エンジン0.504)(WWW0.3628)…(ロボット0.2322))
pソフトウェア=((検索0.0907)(エンジン0.0653)(WWW 0.1021)…(ロボット 0.0653))
と求まる。
【0041】
そのため、
となる。
【0042】
ここで、pの関連単語集合をMD とするとMD は、pに含まれる要素に対応する単語の中で、
・閾値を越える間接関連度を持つ単語を選択する
または、
・間接関連度が大きな上位定数個の単語を選択
することで求める。
例えば、pの上位8単語を関連単語集合MD とすると、
MD =(検索(0.6572), エンジン(0.4732), WWW(0.3572), ロボット(0.2286)
,ソフトウェア(0.2616), システム(0.1998), UNIX(0.1439), 効率(0.0837))
となる。ここで、括弧内の数字は間接関連度であり、参考のために記述してある。
【0043】
(ダイジェストグラフの作成)
関連単語集合MD を単語として持つノードを、gD から抽出することによって、ダイジェストグラフsD を作成する。
MD =(検索,エンジン,WWW,ロボット,ソフトウェア,システム,UNIX,効率)の場合、図2から求めたダイジェストグラフは、図1となる。
【0044】
(実施形態2 文書検索装置)
実施形態1のダイジェストグラフを検索結果としてユーザに提示する文書検索装置として使用可能なコンピュータのシステム構成を図4に示す。
【0045】
図4において、上記コンピュータはCPU401,RAM(Random Access Memory)402、結果表示部403、入力部404、HD(Hard Disk)405、バス406を有する。
【0046】
CPU401はRAM402にロードされたプログラムを実行する。RAM402はCPU401に対する入出力データおよびCPU401が実行するプログラムを記憶する。
【0047】
結果表示部403は、検索結果をユーザに提示するディスプレイ等である。入力部404はマウスのようなポインティングデバイスおよびキーボードを有する。
【0048】
HD405はCPU401が実行するプログラムおよびデータベースを保存目的のために記憶する。HD405は図5に示す文書検索プログラム4051および検索実行時に使用される文書索引データベース4052および文書グラフ作成時に使用される文書データベース4053を記憶している。
【0049】
バス406はシステム・バスであり、アドレスを転送するアドレス・バス、制御信号を転送するコントロール・バス、各種データを転送するデータ・バスを備える。
【0050】
図4および図5のフローチャートを参照して、上記コンピュータで行われる文書検索の処理を説明する。
【0051】
ユーザが文書検索を行う場合には、HD405に記憶された図5の文書検索プログラムを入力部404からの指示で起動する。この指示に応じてCPU401は、HD405に記憶された図5のプログラムをRAM402にロードし、文書検索処理を実行する。
【0052】
CPU401はユーザによって入力部404から入力された検索キーを取り込み、RAM402に一時保存する。ここで検索キーは単なるキーワードだけではなく、単語,単語集合,単語のブール演算子結合,文,文書,文書集合等も指定可能である(ステップS500)。
【0053】
ステップS510でCPU401は、入力部404から取り込んだ検索キーを用いて検索を実行し、文書索引データベース4052から検索キーに合致するそれぞれの文書の文書IDを取得する。CPU401はこれら文書IDの集合をRAM402に一時保存し、ダイジェストグラフ入り検索結果作成処理を行う(ステップS520)。
【0054】
ダイジェストグラフ入り検索結果作成処理において、CPU401はRAM402に保存されている検索キーに基づいて単語を抽出し、それぞれの単語の重要度を計算し、単語と単語の重要度の対の集合を作成する。この集合をコンテクストCとする。ここで、単語の抽出方法、単語の重要度の計算方法は特に限定しない(ステップS540)。
【0055】
ステップS550でCPU401は、RAM402に保存されているそれぞれの文書IDに対応した文書を文書データベース4053から取得し、文書グラフを作成する。文書グラフの作成には、特願平10−297321の方法を用いる。
【0056】
CPU401は上記文書グラフの集合と上記コンテクストCを用いてそれぞれの文書に対応したダイジェストグラフを作成する。ダイジェストグラフの作成方法は実施形態1の方法である(ステップS560)。
【0057】
CPU401はダイジェストグラフとその文書本文へのポインタを並べて検索結果を作成し(ステップS570)、文書検索処理のステップS530へ戻る。
【0058】
ステップS530でCPU401は、結果表示部403に上記検索結果を表示しユーザに提示する。たとえば検索結果は図6のように表示される。
【0059】
このように、検索結果内にダイジェストグラフがあることによって、ユーザは自分が入力した検索キーに対して、なぜ、それぞれの文書が合致したのかを直感的に把握することができる。
【0060】
なお、本発明で言う記録媒体とは、ICメモリ、HD(Hard Disk)、FD(Floppy Disk)、CD−ROMおよびその他の携帯可能な記録媒体を意味する。これらの記録媒体に記録された上述のプログラムは、パソコン等の情報処理装置により実行される場合に、情報処理装置が文書検索装置として機能する。
【0061】
【発明の効果】
以上、説明したように、本発明によれば、文書がどのような構造をしているのかといった情報を全く利用せずにダイジェストを作成することができる。
【0062】
また、品詞等の言語情報を全く必要としない。そのため、どのような言語で書かれた文書でもダイジェストを作成することができる。
【0063】
また、検索キーに含まれる単語情報をコンテクストとし、それに応じて文書グラフから部分グラフを抽出するため、検索キーに応じた適切なダイジェストを作成することができる。
【0064】
さらに、単に単語が含まれている文を出力するのではなく、検索キーに含まれている単語がどの程度重要なのかの情報も考慮することができる。また、最終的にダイジェストグラフとして出力する単語の個数を重要なものから順番に制限して出力することができる。そのため、検索キーが複雑になった場合でも、適切なダイジェストを作成することができる。
【0065】
したがって、本発明によれば、コンテクストとして単語とその単語の重要度の集合を与えるとそれに応じたダイジェストを作成することができる。また、本発明を検索装置に利用することによって、検索キーに応じたダイジェストを作成することができるので、ユーザは自分の探している文書を検索結果の中から簡単に見つけ出すことができる。
【図面の簡単な説明】
【図1】本実施形態1のダイジェストグラフである。
【図2】本実施形態1の文書グラフである。
【図3】本実施形態1の単語「検索」と単語「ロボット」間の間接関連度を計算する例を示す文書グラフである。
【図4】本実施形態2のコンピュータのシステム構成図である。
【図5】本実施形態2の文書検索プログラムのフローチャートである。
【図6】本実施形態2のダイジェストグラフを用いた検索結果の表示の説明図である。
【符号の説明】
301 パス1
302 パス2
303 パス3
401 CPU
402 RAM
403 結果表示部
404 入力部
405 HD
406 バス
4051 文書検索プログラム
4052 文書索引データベース
4053 文書データベース
Claims (12)
- 電子化された文書から、該文書の内容を簡潔に表現するダイジェストを情報処理装置により作成する、文書ダイジェスト作成方法において、
ダイジェストを作成する文書本文および、文書グラフからダイジェストを生成するための規定となるコンテクストを単語とその単語の重要度の対の形態で前記情報処理装置に入力し、
前記情報処理装置においては、前記文書本文から全単語を抽出し、該単語の重要度と、抽出された単語間の関連度を求め、前記文書本文を、前記単語の重要度をノードの重みと、前記単語間の関連度をリンクの重みとした文書グラフによって表現し、
前記文書グラフと前記コンテクストとから、コンテクストの各単語と文書グラフの各単語との間接関連度を求め、間接関連度から抽出すべき部分グラフを構成する単語を決定して部分グラフを抽出し、
当該抽出された部分グラフを、元の文書の内容を図的に表現したダイジェストグラフとする
ことを特徴とする文書ダイジェスト作成方法。 - 請求項1に記載の文書ダイジェスト作成方法において、前記文書グラフから前記コンテクストに応じた部分グラフを抽出する場合に、前記情報処理装置は、前記コンテクストのそれぞれの単語と、前記文書グラフ上のそれぞれの単語との関連の強さを表す間接関連度を計算し、前記コンテクストのそれぞれの単語毎に、該単語と前記文書グラフ上の全ての単語との間接関連度を並べた間接関連度ベクトルを作成し、前記コンテクストの単語の重要度と前記間接関連度ベクトルとから、前記コンテクストと関連の強い単語からなる関連単語集合を求め、前記文書グラフから、前記関連単語集合に含まれる単語を持つノードだけを抽出することによって、前記部分グラフを作成することを特徴とする文書ダイジェスト作成方法。
- 請求項2に記載の文書ダイジェスト作成方法において、前記間接関連度を計算する場合に、前記コンテクストの第1の単語と前記文書グラフ上の第2の単語との間接関連度について、前記情報処理装置は、前記文書グラフ上に前記コンテクストの第1の単語がなければ、前記間接関連度は0となし、もしあった場合には、前記コンテクストの第1の単語から前記文書グラフ上の第2の単語への全てのパスを求め、それぞれのパスの重みを計算し、当該計算されたパスの重みの最大値をもって、前記間接関連度とすることを特徴とする文書ダイジェスト作成方法。
- 請求項3に記載の文書ダイジェスト作成方法において、前記パスの重みを計算する場合に、前記情報処理装置は、経由するノード数およびリンク数が少なければ少ないほどパスの重みを大きくし、経由するそれぞれのノードの重みが大きければ大きいほどパスの重みを大きくし、経由するそれぞれのリンクの重みが大きければ大きいほどパスの重みを大きくするようにパスの重みを計算することを特徴とする文書ダイジェスト作成方法。
- 請求項2に記載の文書ダイジェスト作成方法において、前記コンテクストの単語毎に作られた前記間接関連度ベクトルから前記関連単語集合を求める場合に、前記情報処理装置は、前記間接関連度ベクトルの単語部分が同じ各要素の間接関連度を、前記コンテクストの単語の重要度が大きいものほどその影響が大きくなるように足し合わせることによって、前記コンテクストの全単語に対して足し合わせた間接関連度ベクトルを求め、前記間接関連度ベクトルに含まれる単語の中で、ある定めた値を越える間接関連度を持つ単語だけを選択するか、または、間接関連度が大きな上位定数個の単語を選択することによって、前記関連単語集合を求めることを特徴とする文書ダイジェスト作成方法。
- ユーザに検索キーを入力させる入力手段と、
前記検索キーに合致する文書IDの集合を文書索引データベースから取り出す検索実行手段と、
前記文書IDに対応したダイジェストを並べて検索結果を作成する検索結果作成手段と、
前記検索結果をユーザに提示する結果表示手段と
を具え、
前記検索結果作成手段は、
前記検索キーから単語を抽出し、当該抽出された単語の重要度を計算し、文書グラフからダイジェストを生成するための規定となる、前記単語と前記単語の重要度の対で与えられるコンテクストを作成するコンテクスト作成手段と、
それぞれの前記文書IDに対応した文書を文書データベースから取得し、当該取得した文書に対応して、該文書の文書本文から全単語を抽出し、該単語の重要度と、抽出された単語間の関連度を求め、前記文書本文を、前記単語の重要度をノードの重みと、前記単語間の関連度をリンクの重みとした文書グラフによって表現する文書グラフ作成手段と、
前記文書グラフの集合と、前記コンテクストとを入力とし、前記文書グラフと前記コンテクストとから、コンテクストの各単語と文書グラフの各単語との間接関連度を求め、間接関連度から抽出すべき部分グラフを構成する単語を決定して部分グラフを抽出し、当該抽出された部分グラフを、元の文書の内容を図的に表現したグラフ形式のダイジェストとするダイジェスト作成手段と、
前記グラフ形式のダイジェストと、前記文書の文書本文へのポインタを並べて検索結果とする検索結果作成手段と
を具えたことを特徴とする文書検索装置。 - 電子化された文書から、該文書の内容を簡潔に表現するダイジェストを情報処理装置により作成する、文書ダイジェスト作成プログラムを記録した記録媒体において、前記プログラムは、
ダイジェストを作成する文書本文および、文書グラフからダイジェストを生成するための規定となるコンテクストを単語とその単語の重要度の対の形態で前記情報処理装置に入力するステップと、
前記文書本文から全単語を抽出し、該単語の重要度と、抽出された単語間の関連度を求め、前記文書本文を、前記単語の重要度をノードの重みと、前記単語間の関連度をリンクの重みとした文書グラフによって表現するステップと、
前記文書グラフと前記コンテクストとから、コンテクストの各単語と文書グラフの各単語との間接関連度を求め、間接関連度から抽出すべき部分グラフを構成する単語を決定して部分グラフを抽出するステップと、
当該抽出された部分グラフを、元の文書の内容を図的に表現したダイジェストグラフとするステップと
を具えたことを特徴とする情報処理装置により読み取り可能な記録媒体。 - 請求項7に記載の記録媒体において、前記文書グラフから前記コンテクストに応じて部分グラフを抽出するステップは、前記コンテクストのそれぞれの単語と、前記文書グラフ上のそれぞれの単語との関連の強さを表す間接関連度を計算し、前記コンテクストのそれぞれの単語毎に、該単語と前記文書グラフ上の全ての単語との間接関連度を並べた間接関連度ベクトルを作成し、前記コンテクストの単語の重要度と前記間接関連度ベクトルとから、前記コンテクストと関連の強い単語からなる関連単語集合を求め、前記文書グラフから、前記関連単語集合に含まれる単語を持つノードだけを抽出することによって、前記部分グラフを作成することを特徴とする情報処理装置により読み取り可能な記録媒体。
- 請求項8に記載の記録媒体において、前記間接関連度を計算する場合に、前記コンテクストの第1の単語と前記文書グラフ上の第2の単語との間接関連度について、前記プログラムは、前記文書グラフ上に前記コンテクストの第1の単語がなければ、前記間接関連度は0となし、もしあった場合には、前記コンテクストの第1の単語から前記文書グラフ上の第2の単語への全てのパスを求め、それぞれのパスの重みを計算し、当該計算されたパスの重みの最大値をもって、前記間接関連度とすることを特徴とする情報処理装置により読み取り可能な記録媒体。
- 請求項9に記載の記録媒体において、前記パスの重みを計算する場合に、前記プログラムは、経由するノード数およびリンク数が少なければ少ないほどパスの重みを大きくし、経由するそれぞれのノードの重みが大きければ大きいほどパスの重みを大きくし、経由するそれぞれのリンクの重みが大きければ大きいほどパスの重みを大きくするようにパスの重みを計算することを特徴とする情報処理装置により読み取り可能な記録媒体。
- 請求項8に記載の記録媒体において、前記コンテクストの単語毎に作られた前記間接関連度ベクトルから前記関連単語集合を求める場合に、前記プログラムは、前記間接関連度ベクトルの単語部分が同じ各要素の間接関連度を、前記コンテクストの単語の重要度が大きいものほどその影響が大きくなるように足し合わせることによって、前記コンテクストの全単語に対して足し合わせた間接関連度ベクトルを求め、前記間接関連度ベクトルに含まれる単語の中で、ある定めた値を越える間接関連度を持つ単語だけを選択するか、または、間接関連度が大きな上位定数個の単語を選択することによって、前記関連単語集合を求めることを特徴とする情報処理装置により読み取り可能な記録媒体。
- ユーザに検索キーを入力させるステップと、
前記検索キーに合致する文書IDの集合を文書索引データベースから取り出すステップと、
前記文書IDに対応したダイジェストを並べて検索結果を作成するステップと、
前記検索結果をユーザに提示するステップと
を具え、
前記検索結果を作成するステップは、
前記検索キーから単語を抽出し、当該抽出された単語の重要度を計算し、文書グラフからダイジェストを生成するための規定となる、前記単語と前記単語の重要度の対で与えられるコンテクストを作成するステップと、
それぞれの前記文書IDに対応した文書を文書データベースから取得し、当該取得した文書に対応して、該文書の文書本文から全単語を抽出し、該単語の重要度と、抽出された単語間の関連度を求め、前記文書本文を、前記単語の重要度をノードの重みと、前記単語間の関連度をリンクの重みとした文書グラフによって表現するステップと、
前記文書グラフの集合と、前記コンテクストとを入力とし、前記文書グラフと前記コンテクストとから、コンテクストの各単語と文書グラフの各単語との間接関連度を求め、間接関連度から抽出すべき部分グラフを構成する単語を決定して部分グラフを抽出し、当該抽出された部分グラフを、元の文書の内容を図的に表現したグラフ形式のダイジェストとするステップと、
前記グラフ形式のダイジェストと、前記文書の文書本文へのポインタを並べて検索結果とするステップと
を具えたことを特徴とする文書検索プログラムを記録した、情報処理装置により読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000062561A JP3581074B2 (ja) | 2000-03-07 | 2000-03-07 | 文書ダイジェスト作成方法、文書検索装置および記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000062561A JP3581074B2 (ja) | 2000-03-07 | 2000-03-07 | 文書ダイジェスト作成方法、文書検索装置および記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001249935A JP2001249935A (ja) | 2001-09-14 |
JP3581074B2 true JP3581074B2 (ja) | 2004-10-27 |
Family
ID=18582562
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000062561A Expired - Fee Related JP3581074B2 (ja) | 2000-03-07 | 2000-03-07 | 文書ダイジェスト作成方法、文書検索装置および記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3581074B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7346614B2 (en) * | 2001-10-17 | 2008-03-18 | Japan Science And Technology Corporation | Information searching method, information searching program, and computer-readable recording medium on which information searching program is recorded |
JP4385087B2 (ja) * | 2003-03-24 | 2009-12-16 | 独立行政法人科学技術振興機構 | 生活情報支援システム |
CN102915304B (zh) * | 2011-08-01 | 2016-02-24 | 日电(中国)有限公司 | 文档检索设备和方法 |
CN109558583A (zh) * | 2017-09-27 | 2019-04-02 | 株式会社理光 | 一种自动生成文摘的方法、装置及设备 |
JP7170487B2 (ja) * | 2018-10-04 | 2022-11-14 | Tis株式会社 | 情報処理装置およびプログラム |
JP7275816B2 (ja) * | 2019-04-26 | 2023-05-18 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
-
2000
- 2000-03-07 JP JP2000062561A patent/JP3581074B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001249935A (ja) | 2001-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005122295A (ja) | 関係図作成プログラム、関係図作成方法、および関係図作成装置 | |
KR102059743B1 (ko) | 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템 | |
JP4049317B2 (ja) | 検索支援装置およびプログラム | |
JP3581074B2 (ja) | 文書ダイジェスト作成方法、文書検索装置および記録媒体 | |
JP7180767B2 (ja) | 応答処理プログラム、応答処理方法および情報処理装置 | |
JP2004157931A (ja) | 意図文型種別抽出方式 | |
JP6882975B2 (ja) | 対話ログ群からコンテキストを決定可能な対話シナリオ生成装置、プログラム及び方法 | |
US20070226208A1 (en) | Information retrieval device | |
JP2004206391A (ja) | 文書情報分析装置 | |
JP5332128B2 (ja) | 情報検索装置、情報検索方法およびそのプログラム | |
JP2005092443A (ja) | クラスター分析装置およびクラスター分析方法 | |
JP4754849B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
KR102519955B1 (ko) | 토픽 키워드의 추출 장치 및 방법 | |
JP7238411B2 (ja) | 情報処理装置及びプログラム | |
JP4756764B2 (ja) | プログラム及び情報処理装置並びに情報処理方法 | |
JP3778270B2 (ja) | 選択履歴管理情報、選択履歴情報、情報記憶媒体、及びユーザーインターフェース補助システム | |
JP2007241635A (ja) | 文書検索装置、情報処理装置、検索結果出力方法、検索結果表示方法およびプログラム | |
KR101078966B1 (ko) | 문서 분석 시스템 | |
JP4496797B2 (ja) | 文書管理装置および方法 | |
JP2005234772A (ja) | 文書管理装置および方法 | |
JP4138048B2 (ja) | 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2002215642A (ja) | フィードバック型インターネット検索方法及びその方法を実施するためのシステムとプログラム記録媒体 | |
JP7522885B1 (ja) | 情報処理装置、情報処理システムおよびプログラム | |
JP3444223B2 (ja) | データベース登録装置 | |
JP4574186B2 (ja) | 重要言語識別方法、重要言語識別プログラム、重要言語識別装置、文書検索装置およびキーワード抽出装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040323 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040520 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040713 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040721 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080730 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080730 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090730 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090730 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100730 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |