[go: up one dir, main page]

JP3597697B2 - 文書要約装置およびその方法 - Google Patents

文書要約装置およびその方法 Download PDF

Info

Publication number
JP3597697B2
JP3597697B2 JP7272498A JP7272498A JP3597697B2 JP 3597697 B2 JP3597697 B2 JP 3597697B2 JP 7272498 A JP7272498 A JP 7272498A JP 7272498 A JP7272498 A JP 7272498A JP 3597697 B2 JP3597697 B2 JP 3597697B2
Authority
JP
Japan
Prior art keywords
topics
topic
word
group
important
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7272498A
Other languages
English (en)
Other versions
JPH11272699A (ja
Inventor
由雄 仲尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP7272498A priority Critical patent/JP3597697B2/ja
Priority to US09/176,197 priority patent/US6638317B2/en
Publication of JPH11272699A publication Critical patent/JPH11272699A/ja
Application granted granted Critical
Publication of JP3597697B2 publication Critical patent/JP3597697B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、自然言語などで書かれた機械可読文書の要約を行う装置およびその方法に関し、主として、長めのマニュアルや報告書などの要約(ダイジェスト)を作成し、文書の選別・閲覧のプロセスを支援することを意図している。
【0002】
【従来の技術】
文書を要約するための主要な技術として、文書中の重要語を手掛かりに文を抽出(抜粋)して要約を作成する技術と、文書中の話題のまとまりを認定する技術がある。そこで、これらの従来技術について説明する。
【0003】
まず、要約の作成技術について説明する。従来の文書の要約作成の技術には、大きく分けて2つの方法がある。第1の方法は、文書において重要な部分を認定し、それを抜粋することで要約を作成する方法である。文書の重要な部分は、通常、節、段落、文などの論理要素の単位で抜粋される。以下では、これらを「文」という用語で代表させることにする。
【0004】
第2の方法は、要約として抽出すべき情報の型紙を用意して、その型紙の条件にあった文書中の語句を抽出して要約としたり、その型紙によくあてはまる文を抽出して要約とする方法である。
【0005】
第1の方法は、さらに、何を手掛かりに文の重要性を評価するかによっていくつかの方法に分類される。代表的な方法としては、次の3つが挙げられる。
(1)文書中に出現する単語の頻度と分布を手掛かりとする方法
(2)文と文とのつながり方や文の出現位置を手掛かりとする方法
(3)文の構文的パターンによって重要性を評価する方法
これらのうち、(1)の方法は、まず、文書中に含まれる単語(語句)の重要度を決定し、次に、重要な単語をどれ位含んでいるかによって文の重要度を評価する。そして、評価結果に基づいて重要な文を選択して要約を作成する。
【0006】
単語の重要度を決定する方法としては、文書中の単語の出現頻度(出現度数)そのものを用いる方法、単語の出現度数と一般的な文書集合におけるその単語の出現度数とのずれなどを加味して重みを付ける方法、単語の出現位置に応じて重みを付ける方法などが知られている。単語の出現位置に応じて重みを付ける場合は、例えば、見出しに出現する語を重要とみなすなどの処理が付加される。
【0007】
ここで、対象とする単語は、日本語であれば自立語(特に名詞)のみに、英語であれば内容語のみに限るのが通例である。自立語・内容語とは、実質的な意味を持つ名詞、形容詞、動詞などの語であり、助詞、前置詞、形式名詞など、専ら構文的役割を果たすために使われる語とは区別される。なお、日本語の自立語の形式的定義は、独立した文節を構成できる語というものであるが、ここでは、上述の区別により自立語を定義している。
【0008】
このような要約作成方法には、例えば、次のようなものがある。特開平6−259424「文書表示装置及び文書要約装置並びにディジタル複写装置」とその発明者による文献(亀田雅之、擬似キーワード相関法による重要キーワードと重要文の抽出、言語処理学会第2回年次大会発表論文集、pp.97−100、1996年3月.)では、見出しに含まれる単語を多く含む部分を、見出しに関連の深い重要な部分として抜粋することで要約を作成している。
【0009】
特開平7−36896「文書を要約する方法および装置」では、文書中に現れる表現(単語など)の複雑さ(語の長さなど)から重要な表現の候補(シード)を選び、重要性の高いシードをより多く含む文を抜粋することで要約を作成している。
【0010】
特開平8−297677「主題の要約を生成する自動的な方法」では、文書内の単語の出現頻度が大きい順に「主題の用語」を認定し、重要な「主題の用語」を多く含む文を抽出することで要約を作成している。
【0011】
特開平2−254566「自動抄録生成装置」では、出現頻度の大きい単語を重要語と認定し、重要語が初めて登場する部分や、重要語を多く含む部分、自動的に認定した意味段落の先頭に出現している文などを抜粋することで要約を作成している。
【0012】
次に、文書中の話題のまとまりを認定する方法について説明する。この方法には、大きく分けて次の2つが挙げられる。
(1)文書中で繰り返される語による話題の意味的な結び付き(語彙的結束性:lexical cohesion)に基づく方法
(2)接続詞などで示される文間の連接関係(coherence ralation)から文章構造(rhetorical structure)を求める方法
これらのうち、(1)の語彙的結束性に基づく方法として、まず、Hearstの方法(Marti A. Hearst. Multi−paragraph segmentation of expository text. In Proceedings of the 32nd Annual Meeting of Association for Computational Linguistics, pp.9−16, 1994.)を簡単に説明する。
【0013】
この方法(以下、Hearst法と称する)は、意味的に関係の深い部分には、同一の語彙が繰り返し出現するという性質(語彙的結束性)を利用して、話題の切れ目となる部分を自動的に認定するものである。この方法では、まず、文書中の各位置の前後に、段落程度の大きさ(120語程度)の窓を設定し、その2つの窓にどれくらい同じ語彙が出現しているかを表す類似度を測定する。類似度としては、次式のような余弦測度(cosine measure)と呼ばれる値が用いられている。
【0014】
【数1】
Figure 0003597697
【0015】
ここで、bとbは、それぞれ、左窓(文書の冒頭側の窓)、右窓(文書の末尾側の窓)に含まれる文書の部分を表し、wt,bl、wt,brは、それぞれ、左窓、右窓に出現する単語tの出現頻度を表す。また、(1)式の右辺のΣは、単語tに関する総和を表す。
【0016】
(1)式の類似度は、左右の窓に含まれる語彙に共通のものが多いほど大きくなり(最大1)、共通のものがない時に0となる。つまり、この値が大きい部分は、左右の窓で共通の話題を扱っている可能性が高く、逆に、この値が小さい部分は、話題の境界である可能性が高いことになる。
【0017】
Hearst法は、(1)式の値を文書の冒頭から末尾まである間隔(20語)で測定し、極小となる位置を話題境界と認定するものである。このとき、類似度の細かい振動を無視するために、次のような調整を行っている。まず、極小点mpの周囲の部分を切り出す。この部分には、極小点の左側の単調減少している部分と極小点の右側の単調増加している部分が含まれる。
【0018】
次に、切り出された部分の開始点lp、終了点rpにおける類似度Clp、Crpと、類似度の極小値Cmpとの差をもとに、次式の値ds(depth score )を計算し、これを極小点における類似度の変動量の指標とする。
【0019】
ds=(Clp−Cmp)+(Crp−Cmp) (2)
そして、dsが次式のような閾値hを越えた極小点だけを話題境界として認定している。
【0020】
h=C−σ/2 (3)
ここで、C、σは、それぞれ、文書全体における類似度の平均値と標準偏差である。この方法によれば、類似度がより大きく落ち込んだ部分ほど、話題境界である可能性がより高いとみなされる。また、Hearstは、別法として、繰り返し出現する語の連鎖の開始・終了を手掛かりとして、開始点・終了点の近傍に話題境界を認定する方法も示している。
【0021】
語彙的結束性に基づいて話題のまとまりを認定する方法としては、その他に、日本語の提題助詞「は」のついた文節で始まる文(例えば、「Hearstは、」で始まる文)などを手掛かりとする方法が知られている(特開平7−160711「書き言葉テキストに対する話題構造認識方法および装置」)。また、その方法とHearstの別法に類似する方法とを併用する方法も知られている(望月源、本田岳夫、奥村学、重回帰分析とクラスタ分析を用いたテキストセグメンテーション、言語処理学会第2回年次大会発表論文集、pp.325−328、1996年3月.)。
【0022】
【発明が解決しようとする課題】
しかしながら、上述した従来の文書要約方法には次のような問題がある。
文書における重要語を決定し、重要語を多く含む文を抜粋することで文書の要約を作成する方法では、長めの文書、特に複数の話題に関する文章が混在している複合文書の要約を作成するのが困難である。複数の話題に関する文章が混在している場合、話題毎に重要な単語が異なる可能性が高いので、文書中で出現頻度の大きい単語を単純に重要語とみなすことができない。単純に重要語を決定してしまうと、ある話題に関する重要性を手掛かりに、別の話題の部分から重要でない文が抜粋されてしまうことがあるからである。
【0023】
この問題を解決するためには、文書中の話題のまとまりを認定する必要がある。ここで、語彙的結束性から直接に大きな話題のまとまりを認定する方法がないというもう1つの問題がある。
【0024】
従来の技術では、語彙的結束性に基づいて話題のまとまりを認定する場合、Hearst法のように、数段落程度の大きさあるいは大きくても新聞の1つの記事程度までの大きさのまとまりの認定しか試みられていなかった。そして、それより大きいまとまりは、原文書の章などの書式を手掛かりに認定していた。
【0025】
例えば、前述の特開平2−254566では、内容的に関連度の高い一連の形式段落(字下げなどにより形式的に区切られた段落)を意味段落として自動認定し、文書全体で出現頻度の大きい語だけでなく、それぞれの意味段落で出現頻度の大きい語も重要語として抽出して、要約を作成している。しかし、この方法では、書式を手掛かりに認定した章や節などの切れ目を、自動的に認定した意味段落の分割点より優先しているため、意味段落は章や節などの切れ目を越えることがなく、より大きな話題のまとまりの認定は試みられていない。
【0026】
話題を認定する方法としても、意味段落認定の主な手掛かりは、形式段落2つ分の範囲で繰り返される語彙であるので、大きな話題のまとまりを認定することは困難である。また、語彙が初めて出現する位置の情報も用いているが、大きな間隔で繰り返される語による結束性などを判定するには十分とは言えない。
【0027】
しかしながら、同じ章に属する節であっても意味的なまとまり方に違いのある場合もあり、このような場合にも的確に大きな話題のまとまりを認定できる方法が必要である。また、文書の書式などは特定の種類の文書に関する約束事であるため、様々な種類の文書の要約を行うためには、文書の種類毎にいちいち経験的な規則を用意しなければならないという問題もある。
【0028】
本発明の課題は、語彙的結束性のような文章一般に見られる現象をもとに、文書中の話題構成を自動的に認定して、話題構成に対応する要約を作成する汎用の文書要約装置およびその方法を提供することである。
【0029】
【課題を解決するための手段】
図1は、本発明の文書要約装置の原理図である。図1の文書要約装置は、構成認定手段1、抽出手段2、選択手段3、および出力手段4を備える。
【0030】
構成認定手段1は、与えられた文書中の話題の階層的構成を認定し、抽出手段2は、認定された各話題に関する重要語を抽出する。また、選択手段3は、重要語の出現状況に応じて、各話題のまとまりから重要文を選択し、重要文を用いて要約を生成する。出力手段4は、生成された要約を出力する。
【0031】
ここで、話題の階層的構成とは、文書を構成する複数の話題のまとまりが2段以上の階層構造を成していることを意味する。この階層的構成は、例えば、文書を構成する複数の大きな話題のまとまりの各々が、1つ以上のより小さな話題のまとまりを含み、小さな話題のまとまりの各々が、1つ以上のさらに小さな話題のまとまりを含むというような話題の包含関係に対応する。
【0032】
構成認定手段1は、例えば、文書全体の大きさの1/4〜1/10程度から段落程度の大きさまで、数種類の大きさの窓幅を設定し、語彙的結束性の強さを表す結束度を各窓幅で測定する。これにより、大きな間隔で繰り返される語などによる大局的な結束性と、小さな間隔で繰り返される語などによる局所的な結束性の両方を捉らえることができ、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成を認定することができる。
【0033】
抽出手段2は、例えば、処理対象の話題のまとまりに単語が出現する頻度と、その話題のまとまりを含む大きな話題のまとまりにその単語が出現する頻度とを用いて、その単語が処理対象の話題のまとまりに特徴的であるかどうかを評価する。そして、その評価結果に基づいて、処理対象の話題のまとまりから重要語を抽出する。
【0034】
このように、処理対象の話題のまとまりから重要語を抽出する際に、それを含む上位の話題のまとまりも参照するため、その単語の重要性を上位の話題のまとまりとの関係から評価することができる。このため、話題に関わらず単に多く出現する語を誤って重要語と判定することなく、効率的に重要語を抽出できる。
【0035】
また、抽出手段2は、例えば、要約作成対象の話題のまとまりから局所的な重要語を抽出し、その話題のまとまりを含む大きな話題のまとまりから大局的な重要語を抽出する。そして、選択手段3は、局所的な重要語と大局的な重要語の両方の出現状況に基づいて、要約作成対象の話題のまとまりから重要文を選択し、要約を生成する。
【0036】
このように、要約作成対象の話題のまとまりから重要文を選択する際に、それを含む上位の話題のまとまりに出現する重要語も参照するため、局所的な話題に関する文と大局的な話題に関する文の両方をバランスよく含んだ要約を生成することができる。
【0037】
例えば、図1の構成認定手段1は、後述する図2の話題構成認定部26に対応し、図1の抽出手段2は図2の重要語抽出部29に対応し、図1の選択手段3は図2の重要文選択部30に対応し、図1の出力手段4は図2の出力部31に対応する。
本発明の別の文書要約装置は、構成認定手段1、抽出手段2、選択手段3、出力手段4、およびメモリを備える。構成認定手段1は、与えられた文書中の各位置の前後に設定した2つの窓中に出現している語彙をもとにそれらの窓の部分の語彙的結束度を計算し、得られた結束度に基づいて話題境界を認定し、2つの窓の窓幅を段階的に縮小しながら話題境界の認定を繰り返すことで、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成を認定する。メモリは、認定された話題の階層的構成のデータを格納する。抽出手段2は、メモリに格納された話題の階層的構成のデータに含まれる話題のまとまりを処理対象として、単語が処理対象の話題のまとまりに出現する頻度と処理対象の話題のまとまりを含む大きな話題のまとまりに出現する頻度と、その単語が処理対象の話題のまとまりに出現する頻度の期待値を用いて、その単語が処理対象の話題のまとまりに有意に多く出現するか否かを示す統計的検定値を計算し、その単語が処理対象の話題のまとまりに出現する頻度が期待値より大きく、かつ、得られた検定値が閾値より大きいとき、その単語を処理対象の話題のまとまりにおける重要語として抽出し、重要語のデータをメモリに格納する。選択手段3は、メモリに格納された話題の階層的構成のデータと重要語のデータを用いて、各話題のまとまりからその重要語の出現状況に応じて重要文を選択し、その重要文を用いて要約を生成する。出力手段4は、要約を出力する。
本発明のさらに別の文書要約装置は、構成認定手段1、抽出手段2、選択手段3、出力手段4、およびメモリを備える。構成認定手段1は、与えられた文書中の各位置の前後に設定した2つの窓中に出現している語彙をもとにそれらの窓の部分の語彙的結束度を計算し、得られた結束度に基づいて話題境界を認定し、2つの窓の窓幅を段階的に縮小しながら話題境界の認定を繰り返すことで、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成を認定する。メモリは、認定された話題の階層的構成のデータを格納する。抽出手段2は、メモリに格納された話題の階層的構成のデータに含まれる、要約作成対象となる複数の話題のまとまりのそれぞれから局所的な重要語を抽出し、それらの話題のまとまりを含む大きな話題のまとまりから大局的な重要語を抽出して、抽出された重要語のデータをメモリに格納する。選択手段3は、メモリに格納された重要語のデータに含まれる局所的な重要語に大局的な重要語をマージして注目語リストを作成し、上記複数の話題のまとまりのそれぞれから注目語リストに登録された重要語を含む重要文を選択し、それらの話題のまとまりのうちの第1の話題のまとまりから選択された重要文に含まれる重要語と、第2の話題のまとまりから選択された重要文に含まれる大局的な重要語とを、第1の話題のまとまりの注目語リストから削除する処理を繰り返し、選択された重要文を用いて要約を生成する。出力手段4は、要約を出力する。
【0038】
【発明の実施の形態】
以下、図面を参照しながら、本発明の実施の形態を詳細に説明する。
図2は、本発明の文書要約装置の基本構成を示している。図2において、文書要約装置(digest generator)12は、要約対象文書(input document)11が入力されると、その要約文書13を作成して出力する。
【0039】
文書要約装置12は、入力部(input unit)21、単語認定部(tokenizer )22、単語辞書(machine readable dictionary )24、要約粒度決定部25、話題構成認定部(topic structure detector)26、重要箇所特定部28、重要語抽出部(keyword extractor )29、重要文選択部(sentence selector )30、および出力部31を備える。
【0040】
入力部21は、要約対象文書11を読み込み、単語認定部22に渡す。単語認定部22は、形態素解析部(morphological analyzer)23を含み、それを用いて要約対象文書11を言語的に解析して、文書11に含まれる内容語(名詞・動詞・形容詞・形容動詞など)を切り出す。このとき、形態素解析部23は、単語辞書24を参照して、文書11中の文を、品詞情報付きの単語リストに変換する。単語辞書24は、形態素解析用の単語辞書であって、単語の表記文字列と品詞・活用の情報との対応関係などを記述している。
【0041】
要約粒度決定部25は、文書11の大きさと望ましい要約の大きさから、要約として抽出すべき話題の数を計算し、要約を作成する単位とする話題のまとまりの大きさを決定する。
【0042】
話題構成認定部26は、話題境界候補区間認定部(topic boundary detector )27を含み、それを用いて共通の話題について記述している文書の部分(話題のまとまり)を自動認定する。話題境界候補区間認定部27は、話題構成認定部26のサブモジュールとして、語彙的結束度の小さい区間を話題境界の候補区間として認定する。語彙的結束度とは、文書11中の各位置の近傍領域における語彙的結束性の強さを表す指標であり、例えば、各位置の前後に設定したある幅の窓内に出現する語彙の類似性から求められる。
【0043】
重要箇所特定部28は、語彙的結束度の小さい話題のまとまりを以後の処理の対象から除外し、文書の主要な部分だけが要約に出力されるようにする。重要語抽出部29は、話題構成認定部26が認定した話題のまとまりについて、その範囲に出現する語彙が話題に特徴的であるかどうかを評価し、特徴的に出現している語を重要語として抽出する。
【0044】
重要文選択部30は、それぞれの話題のまとまりについて、重要語を多く含む文を選択し、選択した文を原文書11での出現順に並べる。そして、必要に応じて選択されなかった文の存在を表す印や段落境界などを挿入することで、要約文書13を作成する。出力部31は、作成された要約文書13を処理結果として出力する。
【0045】
図2の文書要約装置12によれば、話題構成認定部26が、共通の話題について記述している文書の部分を話題のまとまりとして認定し、重要語抽出部29が、それぞれの話題のまとまりに特徴的な語を抽出する。このため、話題の異なる複数の文章が混在している複合文書に対しても、精度よく重要語を抽出することができる。また、重要文選択部30が、話題のまとまり毎に、そのまとまりに特徴的な重要語を手掛かりに重要文を選択して要約を作成するので、別の話題の重要語の影響で不要な文が抜粋されてしまうこともない。
【0046】
話題構成認定部26は、語彙的結束度に基づき話題を認定する際に、文書全体の大きさの1/4〜1/10程度の大きい幅の窓により測定した語彙的結束度から、段落程度の大きさの小さい幅の窓により測定した語彙的結束度まで、数種類の語彙的結束度を併用する。このように、大きな間隔で繰り返される語などによる大局的な結束性と、小さな間隔で繰り返される語などによる局所的な結束性の両方に関する情報を利用しているので、話題構成認定部26は、大きな話題のまとまりから小さな話題のまとまりまで、もれなく話題のまとまりを認定できる。
【0047】
さらに、話題構成認定部26のサブモジュールである話題境界候補区間認定部27は、各窓幅の語彙的結束度を移動平均した値を、移動平均の開始点における右結束力および移動平均の終了点における左結束力として扱い、右結束力と左結束力が拮抗している部分(結束力拮抗点)の近傍を、話題境界の候補区間と認定する。
【0048】
移動平均を用いることで、語彙的結束度の小さな変動、すなわち、移動平均区間(移動平均をとる区間)の大きさに比べて小さな範囲内の変動が平滑化される。このため、それぞれの結束力拮抗点の間隔は、ほとんどが移動平均区間の大きさ程度以上となる。これにより、話題構成認定部26は、それぞれの窓幅の語彙的結束度に基づいて、窓幅程度(移動平均区間の幅程度以上)の大きさの話題のまとまりを選択的に認定できるので、話題の階層的構成を正確に認定することができる。
【0049】
また、重要語抽出部29は、統計的検定法により、それぞれの話題のまとまりにおいて有意に多く現れると判定された語を重要語と認定する。このため、話題に関わらず単に多く出現する語を誤って重要語と判定することなく、効率的に重要語を抽出できる。
【0050】
さらに、重要語抽出部29を使って、要約作成対象の話題のまとまりからだけでなく、要約作成対象の話題のまとまりを含むより大きな話題のまとまりからも大局的な重要語を抽出することができる。これにより、小さな話題のまとまりが並んで、より大きな話題のまとまりを構成しているような場合にも、適切に重要語を抽出することができる。すなわち、個々の小さな話題に特徴的な重要語(副主題を表す語)と、それらに共通する大きな話題に特徴的な重要語(主題を表す語)の両方を区別して抽出することができる。
【0051】
そして、重要文選択部30は、主題を表す語と副主題を表す語の両方を手掛かりに重要文を選択して要約を作成する。このため、主題と副主題の両方をバランスよく含んだ要約が作成される。
【0052】
また、話題構成認定部26は、要約粒度決定部25が決定した大きさ程度の話題のまとまりを認定し、重要語抽出部29と重要文選択部30が、この話題のまとまりを単位に要約を作成するので、結果として、抽出すべき話題の数程度で、かつ、同じ程度の大きさの話題を、バランスよく要約に取り込むことができる。
【0053】
さらに、重要箇所特定部28は、話題構成認定部26が認定した話題のまとまりのうち、結束度の小さい区間を要約対象から除外する。このため、単に項目を列挙しただけの部分などを抜粋してしまうことがなく、内容の濃い要約を作成することができる。
【0054】
図2の文書要約装置12は、例えば、図3に示すような情報処理装置(コンピュータ)を用いて構成することができる。図3の情報処理装置は、出力装置41、入力装置42、CPU(中央処理装置)43、ネットワーク接続装置44、媒体駆動装置45、補助記憶装置46、およびメモリ(主記憶)47を備え、それらはバス48により互いに接続されている。
【0055】
メモリ47は、例えば、ROM(read only memory)、RAM(random access memory)などを含み、文書要約処理に用いられるプログラムとデータを格納する。ここでは、図2に示した入力部21、単語認定部22、形態素解析部23、要約粒度決定部25、話題構成認定部26、話題境界候補区間認定部27、重要箇所特定部28、重要語抽出部29、重要文選択部30、および出力部31が、プログラムモジュールとして格納されている。CPU43は、メモリ47を利用してプログラムを実行することにより、必要な処理を行う。
【0056】
出力装置41は、例えば、ディスプレイやプリンタなどであり、ユーザへの問い合わせや要約文書13などの出力に用いられる。入力装置42は、例えば、キーボード、ポインティングデバイス、タッチパネルなどであり、ユーザからの指示や要約対象文書11の入力に用いられる。
【0057】
補助記憶装置46は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク(magneto−optical disk)装置などであり、要約対象文書11、要約文書13、単語辞書24などの情報を格納する。この補助記憶装置46に、上述のプログラムとデータを保存しておき、必要に応じて、それらをメモリ47にロードして使用することもできる。
【0058】
媒体駆動装置45は、可搬記録媒体49を駆動し、その記録内容にアクセスする。可搬記録媒体49としては、メモリカード、フロッピーディスク、CD−ROM(compact disk read only memory )、光ディスク、光磁気ディスクなど、任意のコンピュータ読み取り可能な記録媒体が用いられる。この可搬記録媒体49に上述のプログラムとデータを格納しておき、必要に応じて、それらをメモリ47にロードして使用することもできる。
【0059】
ネットワーク接続装置44は、LAN(local area network)などの任意のネットワーク(回線)を介して外部の装置と通信し、通信に伴うデータ変換を行う。また、必要に応じて、上述のプログラムとデータを外部の装置から受け取り、それらをメモリ47にロードして使用することもできる。
【0060】
図4は、図3の情報処理装置にプログラムとデータを供給することのできるコンピュータ読み取り可能な記録媒体を示している。可搬記録媒体49や外部のデータベース50に保存されたプログラムとデータは、メモリ47にロードされる。そして、CPU43は、そのデータを用いてそのプログラムを実行し、必要な処理を行う。
【0061】
次に、図2の文書要約装置12の各モジュールの動作を、具体例を用いてより詳細に説明する。要約対象文書としては、(社)電子工業振興協会「自然言語処理システムの動向に関する調査報告書」(平成9年3月)第4章「ネットワークアクセス技術専門委員会活動報告」(pp.117−197)を用いた。以下の実施形態では、この文書から文を抜粋してA4、1〜2枚(1500文字)程度の要約の作成を試みる。
【0062】
従来、要約の大きさとしては、原文書の1/4程度の大きさが目安とされてきたが、この要約対象文書は81ページの大きさを持ち、従来の自動要約技術が対象としてきた新聞の社説や記事、数頁程度の論文などに比べて巨大である。また、オンラインで文書を閲覧する場合、画面に一度に表示できるのは2ページ程度が限度である。これらの条件を考慮して、上述のような要約の大きさが決められている。
【0063】
要約対象文書の全体を掲載することは適当ではないので、参考として、要約対象文書中の見出しの一覧を図5から図7に示す。図5は、4.1節および4.2節の見出しを出現順に示しており、図6は、4.3節の見出しを出現順に示しており、図7は、4.4節の見出しを出現順に示している。
【0064】
図8は、単語認定部22による単語認定処理のフローチャートである。単語認定部22は、まず、要約対象文書に形態素解析を施し、品詞付きの単語リストを作成する(ステップS11)。次に、品詞を手掛かりに内容語(名詞・動詞・形容詞・形容動詞)を認定し、内容語に対応する文書の部分に印を付けて(ステップS12)、処理を終了する。図9は、要約対象文書の冒頭部分を示しており、図10は、単語認定部22からの対応する出力を示している。
【0065】
図8のステップS11において、形態素解析部23は、図11に示すような形態素解析処理を行う。形態素解析部23は、まず、単語リストをクリアし(ステップS21)、文書の先頭から句点(またはピリオド)などを手掛かりに文の取り出しを試み(ステップS22)、文が取り出せたかどうかを判定する(ステップS23)。
【0066】
文が取り出せれば、次に、単語辞書24を参照して、文に含まれている単語の候補を求める(ステップS24)。日本語の場合は、図9に示したように、単語と単語の境界が形式的に明示されていないので、文に含まれる部分文字列に対応するすべての単語を候補として求める。例えば、「東京都は大都市だ」という文が取り出された場合、図12に示すように、この文に含まれるすべての部分文字列が単語の候補となる。
【0067】
これに対して、英語の場合は、単語の境界が空白(スペース)により明示されているため、空白で区切られた文字列に対応する単語について、品詞の候補を求めることが主な処理となる。例えば、“Tokyo is the Japanese capital.”という文が取り出された場合、図13に示すように、この文に明示的に含まれる5つの単語の基本形と品詞が求められる。
【0068】
次に、形態素解析部23は、品詞レベルの連接の観点から、妥当な単語の並びを選択し(ステップS25)、選択された単語の並びに品詞と出現位置の情報を付加して、出現順に単語リストに追加する(ステップS26)。次に、次の文の取り出しを試み(ステップS27)、ステップS23以降の処理を繰り返す。そして、ステップS23において文が取り出せなくなると、処理を終了する。
【0069】
図10の単語認定結果において、墨付き括弧で括られた部分が形態素解析部23の認定した内容語である。内容語が活用語(動詞・形容詞)の場合、墨付き括弧内で、スラッシュ(/)の前の部分は語幹を表し、スラッシュの後の部分は終止形の活用語尾を表す。これは、後の処理で単語の区別を行うために用いられる情報であるが、この情報の代わりに、品詞と活用を付加しておいてもよい。要するに、例えば、「い/る」と「い/く」のように、語幹だけでは区別の付かない単語を区別するための識別情報であれば、任意のものを用いることができる。
【0070】
また、ステップS25において、単語の並びの妥当性を評価する方法は、形態素解析法として各種のものが知られており、任意のものを用いることができる。例えば、単語の並びの妥当性を訓練データにより推定された出現確率を用いて評価する方法が報告されている(Eugene Charniak. Hidden markov models and two applications. In Statistical Language Learning, chapter 3, pp.37−73. The MIT Press, 1993. / Masaaki Nagata. A stochastic japanese morphological analyzer using a forward−DP backward−AN−best search algorithm. In Proceedings of COLING’94, pp.201−207, 1994./ 永田昌明、前向きDP後向きAアルゴリズムを用いた確率的日本語形態素解析システム、情処研報 NL−101−10、情報処理学会、1994年5月.)。
【0071】
なお、図10の例では、単語認定部22がすべての内容語を切り出しているが、切り出しの対象を名詞だけに絞っても構わない。また、英語の文書を対象に処理する場合には、形態素解析処理を行う代わりに、空白で区切られたすべての語のうち、話題に関わらずどこにでも出現する語彙(冠詞、前置詞などの機能語や特に高い頻度で出現する語)を取り除いて、単語を切り出してもよい。このような処理は、単語辞書24の代わりに、機能語や特に高い頻度で出現する語を格納したストップワードリスト(stop word list)を用意すれば、容易に実現できる。
【0072】
図14は、要約粒度決定部25による要約粒度決定処理のフローチャートである。要約粒度決定部25は、まず、望ましい要約の大きさS、望ましい各話題の抜粋量S、最小窓幅wmin 、窓幅比rの4つのパラメータをユーザから受け取り(ステップS31)、SをSで割って抽出すべき話題の概数Nを求める(ステップS32)。
【0073】
ところで、図14では、図面の見やすさを考慮して、記号“wmin ”の添字を、“w min”のように下線を付加して記している。他の添字についても、同様の表記法が用いられる場合がある。
【0074】
次に、要約粒度決定部25は、要約対象文書中の延べ語数Wを求める(ステップS33)。そして、WをNで割って抽出すべき話題の大きさの目安wを算出した後、初項をwmin とし公比をrとする等比級数の中から、wを超えない最大の項を選んで基本窓幅wとし(ステップS34)、処理を終了する。このとき、wは、次式により計算される。
【0075】
Figure 0003597697
ここで、**はrをint()乗することを表し、int()は、括弧内の部分の少数点以下を切り捨てて、整数にすることを表している。等比級数の各項は、以降の処理で話題の階層的構成を認定する際に、各層における処理用の窓幅として用いられる。
【0076】
また、別法として、int(W/N)の値をそのままwとして用い、wmin の方をw*(1/r)**n(nは整数)の形で定義してもよい。さらに、等比級数によらずに、他の任意の方法で窓幅を段階的に縮小していくことも可能である。ただし、後述するように、wmin を固定し、2の累乗の値を公比とする等比級数を用いる方法が、計算効率上望ましいことが分かっている。
【0077】
例えば、S=1500(文字)、S=150(文字)、wmin =40(語)、r=2、W=17816(語)とすると、抽出すべき話題の数Nは10(1500文字/150文字)となる。この場合、話題のまとまりの大きさの目安wは1800語程度(17816語/10)になるので、これを越えない値として、1280語(40*2)が基本窓幅wに採用される。
【0078】
新聞記事などの要約実験によれば、話題の内容を理解可能にするためには、それぞれの話題に関して3文程度(見出し1文+2〜3文:120〜150文字程度)以上の文を抜粋する必要があるという経験的知識が得られている。上記の抜粋量Sの値は、このような経験的知識に基づき決定されている。また、窓幅wmin の値は、新聞記事やレポートなどの平均的な語数により決定されている。
【0079】
次に、話題構成認定部26の処理について説明する。本実施形態においては、話題のまとまりは前述のHearst法を拡張した方法により認定される。したがって、文書の各位置の語彙的結束度(以下、結束度と略す)を測定し、結束度の小さい部分に話題境界を認定するという方針が採用されている。本実施形態とHearst法の主な違いは、次のような点にある。
(1)結束度を測定するための窓幅の違い
本実施形態では、結束度の計算に用いる窓として、Hearst法より巨大なもの(要約対象文書の全体の語数の1/4〜1/10程度:上述の例では1280語)から、段落程度の大きさ(数十語から100語程度:上述の例では40語)のものまで、幅の異なるものを数種類併用している。
(2)話題境界の認定手順および認定対象とする話題境界の違い
本実施形態では、Hearst法のように、異なる窓幅で測定したそれぞれの結束度(または類似度)について、結束度が極小となる位置をそのまま話題境界と認定するのではなく、結束度の移動平均(moving average)を用いることで、窓幅程度の大きさのまとまりのみを話題のまとまりとして認定している。
【0080】
これらの違いは、本発明が文書中の話題の階層的構成を認定することに起因する。ここで、話題の階層的構成とは、例えば、ある話題を扱った章の中に関連するいくつかの小さな話題の節が含まれるような、話題の包含関係を有する構成のことである。
【0081】
話題の階層的構成を認定する理由は、小さな話題の部分が並んで、より大きな話題のまとまりを成している場合に、個々の小さな話題に特徴的な重要語(副主題を表す語)と、それらに共通する大きな話題に特徴的な重要語(主題を表す語)の両方を区別して抽出することで、主題と副主題の両方をバランスよく含んだ要約を作成するためである。
【0082】
従来の研究では、数千語レベルの窓幅を使って測定した類似度が、実際の文章における話題の推移と対応するのかどうか、すなわち、実際の文章の話題のまとまりの認定に使えるのかどうかは確かめられていなかった。これを確かめようとした研究がなかったのは、このような単純な測定法で数千語レベルの窓幅を使ってしまうと、測定結果が雑音だらけになって、無意味な変動しか示さないだろうという先入観があったものと推察される。
【0083】
例えば、前述のHearstの文献の結論によれば、シソーラス(類語辞典)などのもっと複雑な情報を使ってより精密な境界認定を実現する可能性が示唆されているが、窓幅については、実験方法の説明の中で簡単に述べられてるだけである。したがって、本実施形態のように、窓幅を極端に変更した場合にどうなるのかなどについての考察は見られない。
【0084】
Hearstは、実験対象毎に微調整して提示した程度の窓幅が、この方法における最適値であり、文章中の副主題に関する数段落程度の大きさの話題のまとまり(passage )を認定するという問題設定が、この方法の限界であろうと考えていた可能性が高い。また、Hearstの目的は、このような数段落程度のまとまりを認定することに限られていたとも考えられる。
【0085】
そこで、Hearstの文献で用いられているものより5〜10倍程度巨大な窓幅によって測定した類似度が、意味のある変動を示すのかどうかを確かめるために、上述の要約対象文書の話題境界をHearst法により認定する実験を行った。この実験により得られた類似度を結束度としてプロットした結果、図15および図16のような結束度分布が得られた。
【0086】
これらの図において、横軸の文書における位置は、文書の冒頭から各位置までの間に出現した内容語の延べ数を表す。また、点線は、要約対象文書内の各節の開始位置を表し、長い点線ほど大きい節に対応している。さらに、記号◇でプロットした折れ線グラフは、(1)式の余弦測度により求めた結束度の系列を表し、記号*の付いた棒グラフは、結束度の極小点における(2)式のdepth score を表し、水平線は(3)式の閾値を表す。
【0087】
結束度の計算においては、図15では1280語幅の窓が用いられ、図16では640語幅の窓が用いられている。また、結束度の系列は、それぞれの窓幅の1/8(160語または80語)の刻み幅で計算され、プロットされている。
【0088】
図15および図16を見ると、点線で示された各節の開始位置付近に、閾値を越えるdepth score が付与されており、数千語レベルの窓幅を使って測定した結束度も意味のある変動を示すことが分かる。このように、巨大な窓幅による語彙的結束度を用いれば、章・節レベルの話題境界も認定可能である。また、図15および図16を比較すると、大きな窓幅の結束度を使うと大きな話題の切れ目が認定でき、小さな窓幅の結束度を使うと小さな話題の切れ目が認定できるという傾向も見てとれる。
【0089】
しかしながら、この実験結果によれば、Hearst法における次のような問題点が指摘される。
(1)大きな窓幅で認定した話題境界と小さな窓幅で認定した話題境界の対応付けが明確でない。
(2)結束度がおおむね単調減少または単調増加している部分の途中に小さな極値が挟まるだけで、depth score は大きく変化してしまうので、これは安定な指標とは言えない。
【0090】
これらの問題点は、例えば、要約対象文書の4.3節の末尾にある参考文献の部分(参)から4.4.1(1)節の部分までに対応する処理結果に現れている。図15では、この部分は、大局的に見れば、結束度の1つの谷である。この傾向は、図16でも変わらない。
【0091】
しかし、図16では、4.3節(参)の部分の幅の狭い小さな山P1と、4.4.1(2)節の半ばから4.4.1(3)節まであたりの谷P2とが明確に現れている。このため、640語幅の話題境界は、1280語幅の話題境界と大きくずれており、このずれは図15の刻み幅以上に達する。
【0092】
話題の階層的構成を認定する場合、4.4節の開始位置を大きな話題の切れ目と認定し、4.3節(参)の開始位置などはより小さな話題の切れ目と認定したい。しかし、Hearst法のdepth score は安定でないので、これを話題境界に対応する話題の大きさの指標とすることには無理がある。
【0093】
また、depth score が安定でないため、大きな窓幅の結束度により認定された話題境界が、必ずしも小さな窓幅の結束度により認定されるとは限らない。さらに、大きな窓幅の結束度により大きな話題の切れ目だけが話題境界と認定されるわけでもない。このため、Hearst法は、大きな窓幅で大きな話題の切れ目を認定し、小さな窓幅で小さな話題の切れ目を認定するという処理には使えない。
【0094】
本実施形態の話題境界候補区間認定部27は、これらの問題点を解決するために、移動平均法を応用して、話題境界の区間推定を行う。このとき、各窓幅毎に、結束度を移動平均した値を、移動平均の開始点における右結束力および移動平均の終了点における左結束力として扱い、右結束力と左結束力の拮抗点の近傍を話題境界の候補区間と認定する。
【0095】
移動平均を用いることで、結束度の小さな変動、すなわち、移動平均区間の大きさに比べて小さな範囲内の変動が平滑化される。このため、それぞれの結束力拮抗点の間隔は、ほとんどが移動平均区間の大きさ程度以上となる。
【0096】
これにより、話題構成認定部26において、次のような話題の階層的構成の認定手順が実現される。
(1)大きな窓幅では大きな話題に対応する話題境界だけを選択的に認定する。
(2)話題境界を区間推定し、大きな窓幅による話題境界と、区間の範囲内で一致しているとみなせるより小さな窓幅による話題境界を求める。そして、両者を同一の話題境界とみなす。
【0097】
図17は、話題構成認定部26による話題構成認定処理のフローチャートである。話題構成認定部26は、まず、基本窓幅w、最小窓幅wmin 、窓幅比rの3つのパラメータを要約粒度決定部25から受け取り(ステップS41)、結束度を測定するための窓幅の集合Wを求める(ステップS42)。窓幅の集合Wは、初項wをw*rとし、公比を1/rとする等比級数から、wmin 以上の大きさの項を集めて作成される。このとき、Wにおける最大窓幅は、w=w*rとなる。
【0098】
なお、前述したように、窓幅の集合Wの選び方はこれ以外の方法であってもよいが、計算効率上は、wmin を固定し、rとして2の累乗の値を用いる方法が望ましい。
【0099】
=1280(語)、wmin =40(語)、窓幅比r=2の場合は、最大窓幅wは2560語(1280*2)となる。
次に、話題構成認定部26は、図10に示したように、内容語に印が付けられた文書をもとに、文書中の各位置の結束度を、W中のそれぞれの窓幅毎に計算し、結束度系列として記録する(ステップS43)。
【0100】
ここでは、まず、文書の各位置(基準点)の前後に設定した2つの窓の中に出現している語彙(ここでは内容語)を比較し、共通している語彙が多い程大きくなるような値を計算して、その位置における結束度とする。そして、窓の位置を文書の冒頭から末尾に向かって一定の刻み幅ticでずらしながら、結束度の計算を繰り返し、計算した結束度を、文書の冒頭から末尾に向かう系列として記録する。
【0101】
なお、刻み幅ticは、窓幅より小さければいずれの値でも構わないが、例えば、窓幅の1/8というように、窓幅に比例するように設定するのが効率的である。このticの値は、ユーザにより指定される。
【0102】
図18は、図10の単語認定結果において設定された2つの窓を示している。ここでは、40番目の内容語「サービス/する」と41番目の内容語「内容」の間を基準点として、その前後に窓幅40語の左窓W1と右窓W2が設定されている。この位置における結束度は、次のように計算される。
【0103】
まず、図19に示すように、左窓W1と右窓W2中に出現している内容語の異なり数(窓中の出現語彙数)を数える。図18では、この出現語彙数は、W1、W2ともに29語ずつである。次に、左窓W1と右窓W2の両方に出現している内容語の異なり数(共通語彙数)を数える。図18では、W1、W2中に下線を付けて示した6語が共通語彙となる。
【0104】
最後に、左窓W1における共通語彙数と出現語彙数の比を右結束度とし、右窓W2における共通語彙数と出現語彙数の比を左結束度として、これらの結束度の算術平均を求め、これを基準点における結束度とする。ここでは、次のような結果が得られる。
【0105】
Figure 0003597697
(5)、(6)、(7)式により得られた各結束度には、次のような意味がある。ある窓に含まれる語がその右側(文書の末尾へ向かう方向)の部分にも出現している場合、その数が多い程、その窓の部分は右側との結び付きが強いと考えられる。この指標が、(5)式の右結束度である。同様に、ある窓とその左側(文書の冒頭へ向かう方向)部分との結び付きの強さを示す指標が、(6)式の左結束度である。そして、基準点においてこれらの2種類の結び付きの強さの指標を平均したものが、(7)式の結束度である。
【0106】
なお、結束度としては、(7)式の値でなくても、文書中の各位置の近傍領域における語彙的結束性の強さを表す指標として妥当な値であれば、どんなものを用いてもよい。例えば、Hearst法のように、左右の窓中の語彙の類似性を表す余弦測度を結束度として用いても構わない。
【0107】
また、文書中の各位置の近傍領域を2つの窓に分割せずに、その近傍領域に一定回数以上出現している単語の数を結束度とすることもできる。実際、各位置を中心とする近傍領域に、類義語や関連語(例えば、「ウェイター」と「レストラン」)などの意味的に関連する単語が出現する割合に対応する値を、結束度として用いることも報告されている(小嶋秀樹、古郡延治、単語の結束性にもとづいてテキストを場面に分割する試み、電気情報通信学会、信学技報NLC93−7、1993年5月.)。
【0108】
ただし、(7)式に示した結束度の方が、計算が単純であり、解釈もしやすい。以下の説明において、(7)式の結束度を他の結束度と区別する必要がある場合には、「共通語彙比による結束度」と称することにする。
【0109】
次に、図20は、ステップS43で記録された結束度の系列を示している。ここでは、窓幅wの1/4が刻み幅ticとして用いられており、文書領域a1〜a11は、刻み幅ticに対応する一定幅の領域である。また、c1は、文書中のa4とa5の境界を基準点として計算した、窓幅wの結束度を表す。すなわち、c1は、文書領域a1〜a4の部分を左窓の範囲とし、a5〜a8の部分を右窓の範囲として計算された結束度である。
【0110】
次のc2は、窓をtic分だけ右へずらして計算された結束度を表し、a5とa6の境界を基準点とする窓幅wの結束度である。このようにして、窓をtic分ずつ順に右へずらして計算したc1,c2,c3,c4,...を、文書の冒頭から末尾へ向かう窓幅wの結束度系列と呼んでいる。
【0111】
図21は、上述の単語認定結果において、文書の冒頭から各基準点までの間に出現した内容語の延べ数を横軸にとり、640語の窓幅の結束度系列をプロットしたグラフである。例えば、図20の結束度c2の場合は、a1〜a5の領域中の内容語の延べ数が、文書における基準点の位置となる。ここでは、640語の窓幅の1/8(80語)を刻み幅ticとして、文書の冒頭から末尾に向かって結束度を計算している。
【0112】
ここで、wmin を固定し、窓幅比rとして2の累乗の値を用いるのが計算効率上望ましいとした理由について説明する。
窓幅比rとして2の累乗の値を用いるのが望ましいのは、次の理由による。各窓幅の結束度の計算においては、文書中のそれぞれの位置で、その位置の前後に設定した2つの窓内の領域とそれらを合わせた領域の3種類の領域に出現する語彙を調べる必要がある。例えば、共通語彙比による結束度を用いる場合には、この3種類の領域に出現する語彙の異なり語数を集計する必要があり、余弦測度による結束度を用いる場合には、この3種類の領域に出現する語彙の出現頻度を集計する必要がある。
【0113】
図19では、左窓と右窓の各々の中の語彙数と、これらに共通する共通語彙の数を集計しているが、これらの2つの窓を合わせた領域中の語彙数は、左窓中の語彙数と右窓中の語彙数の和から共通語彙数を差し引いた結果に一致する。したがって、図19の集計は、上述した3種類の領域に出現する語彙数を集計する処理と同値であり、必要な計算量もほとんど変わらない。
【0114】
このとき、rを2の累乗の値にしておくと、小さな窓幅の結束度の計算のために集計した語彙数(または出現頻度)を、大きい窓幅の結束度の計算でも利用できるようになる。例えば、rとして2を用いると、窓幅wの結束度の計算において前後の窓を合わせた領域で集計した語彙数(または出現頻度)が、窓幅wの結束度の計算における片方の窓内における語彙数(または出現頻度)としても使用できることになる。
【0115】
また、wmin を固定しておくことが望ましいのは次の理由による。wmin を固定し、窓幅比rとして2の累乗の値を用い、さらに結束度計算の刻み幅ticを各窓幅の1/n(nは整数)としておくと、要約粒度決定部25がWdを数えるために文書全体を走査する際に、文書をwmin /nの領域に分割して、結束度系列の計算に便利な形に変換することができる。
【0116】
例えば、各出現語彙を、ハッシュ表などを用いて、語彙の異なりを識別する語彙番号に変換(数値化)し、wmin /n幅の各領域に、出現語彙の語彙番号とその出現頻度を記録しておくことなどが可能になる。こうしておけば、少なくとも結束度系列の計算においては、原文書にアクセスする必要がなくなるので、計算効率が向上する。
【0117】
また、一般的なOS(オペレーティングシステム)は、原文書の中までアクセスしなくても、原文書の物理的な大きさ(バイト数)を簡単に取得できる機能を持っているのが普通である。
【0118】
このようなOS上では、最初に、原文書の物理的な大きさで最大窓幅の大体の大きさ(例えば、上限)の見当をつけておき、Wdを数えるために文書全体を走査する際に、結束度系列の計算も同時に行うように工夫することも考えられる。この方法によれば、利用可能な1次メモリの容量が小さい環境でも、原文書へのアクセス回数を減らすことができる。その他にも、計算上の色々な工夫が考えられる。
【0119】
次に、話題構成認定部26は、サブモジュールの話題境界候補区間認定部27を使って、それぞれの窓幅の結束度系列を解析し、結束度の低い区間を話題境界候補区間として認定する(ステップS44)。
【0120】
図21に示したように、結束度系列における極小点は、実際の話題境界(点線で示した節の境界)に対応することが多いが、すべての極小点が話題境界に対応するわけではない。話題境界候補区間認定部27は、結束度系列の極小点を手掛かりに、それぞれの結束度系列の窓幅程度の大きさの話題のまとまりの境界位置を区間推定する。本実施形態では、この処理を、移動平均法を用いて実現している。
【0121】
次に、話題構成認定部26は、異なる窓幅の結束度系列に基づいて求めた話題境界候補区間を統合し、大きな窓幅の結束度系列から得られた大きな話題に関する境界と、小さい窓幅の結束度系列からのみ得られる小さい話題に関する境界とを区別して出力する(ステップS45)。これにより、話題構成認定処理が終了する。
【0122】
ここで、出力される最終的な話題境界は、統合された話題境界候補区間のうち最も小さい窓幅、すなわち最小窓幅の話題境界候補区間を使って認定される。最終的な話題境界の認定に最小窓幅の話題境界候補区間を使う理由は、大きな窓幅の結束度系列は、窓位置の移動に対して鈍感であり、それだけを用いて認定すると、境界位置を十分精密に求めることができないからである。
【0123】
次に、図17のステップS44における話題境界候補区間認定処理について、図20および図22を使って説明する。ここで用いられる移動平均法は、株価の変動などの統計的分析方法である時系列分析(time series analysis)において、細かい変動を取り除いて大局的な傾向を把握するために使われている。本実施形態では、結束度系列の移動平均値を細かい変動を無視するために用いるだけでなく、それを移動平均の開始点における右結束力および移動平均の終了点における左結束力とみなすことで、話題境界候補区間(低結束度の区間)認定のための直接的な手掛かりとしている。
【0124】
図20は、前述したように、結束度の系列c1〜c4と文書領域a1〜a11との関係を示している。結束度系列の移動平均値とは、例えば、(c1+c2)/2(2項の移動平均)、(c1+c2+c3)/3(3項の移動平均)、(c1+c2+c3+c4)/4(4項の移動平均)のように、結束度系列において連続するn個の値を算術平均した値である。
【0125】
図22は、図20の結束度系列の移動平均の例と文書領域との関係を示している。ここでは、移動平均の例として、図20の結束度の2項〜4項の移動平均が示され、それぞれの移動平均に関わる結束度の計算において、各文書領域が使用された回数が示されている。このうち、下線を付けた値は、対応する文書領域が移動平均に関わるすべての結束度の計算に用いられていることを表す。
【0126】
例えば、左上角の値“1”は、c1〜c4までの4項の移動平均において、文書領域a1が一度だけ左窓の一部として扱われたことを示している。また、その右の値“2”は、c1〜c4までの4項の移動平均において、文書領域a2が2回左窓の一部として扱われたことを示している。他の使用回数についても、同様である。
【0127】
結束度は境界の前後の部分の結び付きの強さを表す指標であるので、領域a1を左窓に含んで得られた結束度c1を用いて計算された移動平均値も、領域a1が右の方向に結び付いているかどうかを示す指標の1つと考えられる。
【0128】
言い換えれば、移動平均値は、移動平均をとった結束度の左窓部分の領域(c1〜c4の4項平均に対してはa1〜a7)が右方向に引っ張られる強さ(右結束力)の指標になっていると言える。一方、逆に、移動平均をとった結束度の右窓部分の領域(c1〜c4の4項平均に対してa5〜a11)が左方向に引っ張られる強さ(左結束力)の指標になっているとも言える。
【0129】
ここで、結束力の指標とそれぞれの文書領域との関連性を考察すると、結束度の計算においてより多く窓に含まれていた領域との関連が強いと考えられる。また、語彙的結束性は、一般に、近傍で繰り返される語彙に基づくものほど強いと考えられるので、移動平均をとった結束度の基準点(左右の窓の境界位置)に近い位置にある領域ほど関連が強いとも言える。
【0130】
例えば、図22の4項の移動平均については、結束度の基準点は、a4とa5の境界、a5とa6の境界、a6とa7の境界、およびa7とa8の境界の4つである。この場合、a4は最も多く左窓に含まれており、かつ、これらの基準点に最も近いことが分かる。また、a8は最も多く右窓に含まれており、かつ、これらの基準点に最も近いことが分かる。したがって、移動平均値と最も関連の強い領域は、左窓についてはa4、右窓についてはa8となる。
【0131】
同様にして、3項の移動平均と最も関連の強い領域を選ぶと、左窓についてはa4、右窓についてはa7となり、2項の移動平均と最も関連の強い領域を選ぶと、左窓についてはa4、右窓についてはa6となる。これらの領域の使用回数は、図22では斜線を付けて示されている。
【0132】
以上の考察に基づき、話題境界候補区間認定部27は、結束度の移動平均値を、移動平均をとった領域内の最初の基準点における右結束力および最後の基準点における左結束力の指標として取り扱う。例えば、c1〜c4の4項の移動平均値は、a4とa5の境界における右結束力およびa7とa8の境界における左結束力となる。
【0133】
図23は、話題境界候補区間認定部27による話題境界候補区間認定処理のフローチャートである。候補区間認定部27は、まず、話題構成認定部26から結束度系列の刻み幅ticを受け取り、ユーザから移動平均の項数nを受け取る(ステップS51)。
【0134】
これらのパラメータの値の目安は、刻み幅ticについては、例えば、窓幅wの1/8〜1/10程度の大きさであり、項数nについては、w/ticの半分(4〜5)程度である。また、移動平均をとる領域の最初の基準点から最後の基準点までの隔たりを、(n−1)*ticにより計算して、それを移動平均の幅d(語)とする。
【0135】
次に、文書中の各位置pについて、p〜p+dの範囲内で結束度の移動平均をとり、平均値を位置pにおける右結束力として記録する(ステップS52)。この値は、同時に、移動平均をとった範囲の終了位置p+dにおける左結束力としても記録される。
【0136】
次に、記録された右結束力をもとに、文書中の冒頭から末尾に向かって各位置における右結束力と左結束力の差(右結束力−左結束力)を調べ、その値が負から正に変化する位置を負の結束力拮抗点として記録する(ステップS53)。
【0137】
負の結束力拮抗点とは、その位置の左では左結束力が優勢であり、その位置の右では右結束力が優勢であるような点である。したがって、この点の左右の部分は意味的な結び付きが弱いと考えられ、負の結束力拮抗点は話題境界の候補位置となる。
【0138】
次に、認定された結束力拮抗点の直前のd語以内の範囲で、右結束力が最小となる位置mpを求め、区間[mp,mp+d]を話題境界候補区間と認定して(ステップS53)、処理を終了する。
【0139】
ここで、左右の結束力の差に基づいて話題境界候補区間を認定する意味を、図24を使って説明する。図24は、図21の5000語の近傍(4600語〜5400語付近)における320語幅の窓による結束度と左右の結束力の分布を示している。刻み幅ticとしては、窓幅の1/8を採用している。
【0140】
図24において、記号◇でプロットした折れ線グラフは、結束度Cの系列を表し、記号□でプロットした折れ線グラフは、右結束力FCの系列を表し、記号×でプロットした折れ線グラフは、左結束力BCの系列を表す。話題境界候補区間と結束力拮抗点を表す2重矩形で示された領域については、後述することにする。
【0141】
また、点線で示されたbp1、bp2、bp3は、左右の結束力の差が0になる3つの点(結束力拮抗点)を表す。最初の点bp1の左側では、左結束力が右結束力より優勢であり、その右側から次の点bp2までは、右結束力が左結束力より優勢である。さらに、その右側から最後の点bp3までは、左結束力が右結束力より優勢であり、その右側では、右結束力が左結束力より優勢である。
【0142】
したがって、bp1とbp3は、右結束力と左結束力の差が負から正に変化する負の結束力拮抗点であり、bp2は、その差が正から負に変化する正の結束力拮抗点である。
【0143】
このような結束力の変化から、最初の点bp1の左側の領域は、それより左側のいずれかの部分と比較的強い結束性を示しており、真中の点bp2の両側の領域は、bp2に向かって強い結束性を示しており、最後の点bp3の右側の領域は、それより右側のいずれかの部分と比較的強い結束性を示していることが分かる。実際、左右の結束力と共にプロットした結束度は、bp1とbp3の近傍で極小値をとり、bp2の近傍で極大値をとっている。このように、左右の結束力の変化と結束度の変化は密接に関連している。
【0144】
例えば、図24の結束力拮抗点bp3の近傍の曲線で囲まれた部分P3は、結束度が極小となる部分の1つである。このため、この部分P3の移動平均(ここでは、4項平均)の値も、P4およびP5における結束力が示しているように、、通常は、極小値をとる。ただし、移動平均をとる領域より狭い範囲で細かい変動がある場合には、移動平均の平滑化作用により、移動平均値すなわち結束力が極小値をとらないこともある。
【0145】
また、右結束力は移動平均値を移動平均をとる領域の開始位置に記録した指標であるので、右結束力の極小位置は結束度の極小位置の左になる。同様の理由により、左結束力の極小位置は結束度の極小位置の右になる。そして、結束度の変動が十分に大きければ、移動平均をとる領域内に結束力拮抗点が生成されることになる。
【0146】
また、負の結束力拮抗点の直前のd語以内の範囲に右結束力の極小点が存在することは、次のようにして保証される。まず、ある点pにおける右結束力、左結束力を、それぞれ、FC(p)、BC(p)とおくと、結束力の定義から、
FC(p−d)≡BC(p) (8)
であり、拮抗点bp3では左右の結束力が等しいので、
FC(bp3−d)(≡BC(bp3))=FC(bp3) (9)
が成り立つ。したがって、拮抗点bp3の直前の点の右結束力がbp3の値より小さければ、bp3−dからbp3までの範囲、すなわち、bp3から左にd語以内の範囲に、右結束力の極小値が存在することになる。
【0147】
また、拮抗点bp3の直前の点の右結束力がbp3の値より小さくない場合は、bp3の左側において、
Figure 0003597697
が成り立つ。さらに、bp3の右側において、
FC(bp3)<FC(bp3+1) (11)
または、
FC(bp3)≧FC(bp3+1) (12)
が成り立つ。(11)式が成り立つとき、(10)、(11)より、bp3−dからbp3までの範囲内に、右結束力の極小値が存在することになる。また、(12)式が成り立つとき、
Figure 0003597697
となる。したがって、(10)、(13)式より、bp3−dからbp3までの範囲内に、右結束力の極小値が存在することになる。
【0148】
図25は、図17のステップS45において行われる話題境界認定処理のフローチャートである。話題構成認定部26は、まず、認定された話題境界候補区間を、認定に使った結束度系列の窓幅と、話題境界候補区間内の結束力拮抗点の文書における出現位置とによってソートしてまとめ、話題境界候補区間データの系列B(i)[p]を作成する(ステップS61)。
【0149】
ここで、制御変数iは、窓幅wの結束度系列により認定されたことを表す系列番号であり、制御変数pは、系列内の各話題境界候補区間を表すデータ番号である。実際には、iは、窓幅の大きい順に0,1,2,...のような値をとり、pは、結束力拮抗点の出現順に1,2,...のような値をとる。それぞれのデータB(i)[p]は、次のような要素データを含む。
【0150】
・B(i)[p].level:話題境界のレベル。初期値はi。
・B(i)[p].range:話題境界候補区間。(開始位置、終了位置)の組。
【0151】
・B(i)[p].bp:結束力拮抗点。(開始位置、終了位置)の組。
ここで、結束力拮抗点は理論的には点であるが、前述のように、右結束力と左結束力の差の符号が反転する地点を拮抗点として認定しているので、差が負の点を開始位置とし、差が正の点を終了位置とする小さな区間で表される。この区間の幅は、多くの場合、話題境界候補区間の認定に用いられた刻み幅ticに一致する。
【0152】
B(i)[p].bpとしては、(開始位置、終了位置)の組を用いる代わりに、別法として、次のような位置データを用いてもよい。まず、結束力拮抗点の開始位置lpと終了位置rpにおける(右結束力−左結束力)の値を、それぞれ、DC(lp)とDC(rp)とする。そして、左右の結束力が0になる点bpを、次式により補間して求めて、それをB(i)[p].bpとする。
【0153】
Figure 0003597697
次に、話題構成認定部26は、出力対象とする話題境界のレベルの範囲Lを決定する(ステップS62)。出力対象とする話題境界が、基本窓幅w、基本窓幅よりひとまわり大きい窓幅(最大窓幅)w、および基本窓幅よりひとまわり小さい窓幅wの3種類の窓幅によって認定された話題境界候補区間に対応する場合は、L={0,1,2}となる。
【0154】
基本窓幅wによる話題境界だけでなく、それに準ずる大きさの窓幅w、wによる話題境界も出力対象とするのは、次に行われる重要語抽出処理で話題に特徴的な語彙を選択する際に、これらの話題境界が使われるからである。窓幅比rが2で、基本窓幅wが1280語の場合、w=2560(語)、w=1280(語)、およびw=640(語)の3種類の窓幅の話題境界が出力対象となる。
【0155】
次に、話題構成認定部26は、窓幅の異なる話題境界候補区間データを統合する処理を行う。ここでは、1つの系列に属するB(i)[p]をまとめてB(i)と記し、さらに、次のような表記法を用いて、以下の処理を説明する。
【0156】
・w:B(i)の系列番号iに対応する窓幅。
・d:B(i)に対応する話題境界候補区間の幅(移動平均の幅)。
・ie:最小窓幅wmin に対応する系列番号。
【0157】
・|B(i)|:B(i)におけるデータ番号pの最大値。
まず、処理対象を表す系列番号iを0に初期化する(ステップS63)。これにより、最大窓幅wによる話題境界候補区間の系列が処理対象に設定される。次に、処理対象の系列B(i)に含まれるデータB(i)[p]のうち、出力対象外のデータを取り除く(ステップS64)。すなわち、B(i)[p].level∈LとなるデータB(i)[p]だけを残し、その他のデータをB(i)から除外する。
【0158】
そして、iをインクリメントしながら、i+1≦ieである限り、B(i+1)を統合対象の系列とする統合処理を行う。この統合処理では、処理対象系列中のそれぞれの話題境界候補区間データB(i)[p](p=1,...,|B(i)|)について、それと同じ付近を境界候補としている統合対象系列中のデータB(i+1)[q]が検出され、両者のデータが統合される。
【0159】
この処理を途中で打ち切ることも可能であるが、大きい窓幅に対応する系列で処理を打ち切ると境界位置の精密度が落ちることになる。また、この処理にはそれほどの計算量は必要ないので、通常は、最小窓幅に対応する系列まで処理を繰り返す。
【0160】
具体的な手順は以下の通りである。まず、i+1とieを比較し(ステップS65)、i+1≦ieであれば、pに1を代入して(ステップS66)、pと|B(i)|を比較する(ステップS67)。p≦|B(i)|であれば、図26の統合処理を行い(ステップS68)、p=p+1とおいて(ステップS69)、ステップS67以降の処理を繰り返す。そして、ステップS67において、pが|B(i)|を越えれば、i=i+1とおいて(ステップS70)、ステップS64以降の処理を繰り返す。
【0161】
そして、ステップS65において、i+1がieを越えれば、統合処理を終了する。ここで、系列B(ie)のそれぞれのデータB(ie)[p]について、B(ie)[p].rangeの区間内で窓幅wieの結束度が最小となる位置mpを求め、mpとB(ie)[p].levelとを対応付けて出力する(ステップS71)。これにより、話題境界認定処理が終了する。
【0162】
次に、図26の統合処理について説明する。話題構成認定部26は、まず、統合対象系列中のデータB(i+1)[q](q=1,...,|B(i+1)|)の中から、B(i+1)[q].bp∩B(i)[p].range≠φであり、かつ、B(i+1)[q].bpがB(i)[p].bpに最も近いデータを、統合対象データとして選択する(ステップS81)。
【0163】
ここで、B(i+1)[q].bp∩B(i)[p].range≠φという条件は、B(i)[p]の話題境界候補区間とB(i+1)[q]の結束力拮抗点の区間とが、少なくとも部分的に重複していることを表す。B(i+1)[q].bpが点で指定されている場合は、代わりに、B(i+1)[q].bp∈B(i)[p].rangeという条件が用いられる。
【0164】
図27は、統合対象データの選択例を示している。図27において、記号◇でプロットした折れ線グラフは、処理対象に対応する640語幅の窓による右結束力の系列を表し、記号+でプロットした折れ線グラフは、640語幅の窓による左結束力の系列を表す。また、記号□でプロットした折れ線グラフは、統合対象に対応する320語幅の窓による右結束力の系列を表し、記号×でプロットした折れ線グラフは、320語幅の窓による左結束力の系列を表す。
【0165】
また、2重矩形で示された領域のうち、大きな矩形領域が話題境界候補区間に対応し、それに含まれている小さな矩形領域が結束度拮抗点に対応する。ここでは、処理対象データB(i)[p]の話題境界候補区間と統合対象系列のデータB(i+1)[q]を照合する際に、B(i)[p]の話題境界候補区間の幅を、前述の[mp,mp+d]よりtic/2だけ左右に拡大し、[mp−tic/2,mp+d+tic/2]としている。tic/2は、B(i+1)[q]に対応する結束度の刻み幅である。
【0166】
これは、話題境界候補区間の認定精度が結束度系列の刻み幅ticに依存するため、mpの本当の位置は(mp−tic,mp+tic)の間と推定されるからである。したがって、処理対象データの話題境界候補区間を広めにとった場合には、(mp−tic,mp+d+tic)の範囲となる。
【0167】
ここでは、統合対象データの結束度の刻み幅がtic/2であるため、[mp−tic/2,mp+d+tic/2]を処理対象データの話題境界候補区間としている。このような話題境界候補区間を設定すれば、その幅はd+tic=n*ticとなる。一方、tic=w/8、n=4であるから、話題境界候補区間の幅は、丁度、窓幅の半分w/2となる。
【0168】
例えば、処理対象データをB(2)[6]とすると、その話題境界候補区間B(2)[6].rangeには、統合対象系列の2つのデータの結束力拮抗点B(3)[11].bpとB(3)[12].bpが含まれている。このため、B(3)[11]とB(3)[12]が統合対象データの候補となる。これらのうち、B(3)[12].bpの方が、処理対象データの結束力拮抗点B(2)[6].bpにより近いので、B(3)[12]が統合対象データとして選択される。
【0169】
次に、話題構成認定部26は、統合対象データが選択できたかどうかを判定し(ステップS82)、統合対象データが選択できれば、ステップS84の処理を行う。ステップS81において、条件を満たすデータが見つからなかった場合には、処理対象データを認定するときに使った結束度を手掛かりに、擬似的な統合対象データを作成し、B(i+1)の系列に挿入する(ステップS83)。そして、ステップS84の処理を行う。
【0170】
ステップS83では、まず、B(i)[p].rangeの範囲内で、窓幅wの結束度が最小となる位置mpを求める。次に、B(i+1)[q].bp=[mp,mp]、B(i+1)[q].range=[mp−di+1 /2,mp+di+1 /2]と設定して、mpに対応する新たなデータB(i+1)[q]を作成する。
【0171】
そして、系列B(i+1)の中で、B(i+1)[q−1].bp<mpかつB(i+1)[q+1].bp>mpとなるような位置に、作成したデータB(i+1)[q]を挿入する。これにより、疑似的な統合対象データのデータ番号qが決定され、それ以降の既存データのデータ番号は書き換えられる。ここで、擬似的な話題境界候補区間データを作成するのは、以降の処理において統合探索範囲を狭め、精密な境界認定を行うためである。
【0172】
例えば、図27のB(2)[6]を処理対象データとすると、通常の統合対象データの話題境界候補区間B(3)[12].rangeの幅は、d(160語)である。このときに、もし、B(3)[11]とB(3)[12]のいずれも存在しなかった場合には、図28に示すように、B(2)[6].rangeの範囲内における窓幅w(640語)の結束度が最小値をとる位置mpを求める。
【0173】
そして、その近傍にB(3)[10].rangeなどの通常の話題境界候補区間と同じ幅dのB(3)[q].rangeを持つ疑似的なデータB(3)[q]を作成する。これにより、ステップS84の処理において、B(2)[6].rangeの幅d(320語)をd(160語)に絞り込むことができる。
【0174】
この操作は、処理対象データの話題境界候補区間において、結束度の極小点が明確に1点に決まる場合には、大抵の場合有効である。しかし、話題境界候補区間において結束度にほとんど変動が見られない場合には、その話題境界候補区間を縮小せずに、そのまま用いた方がよいこともある。ただし、経験的には、話題境界候補区間において結束度がほとんど変動しないような状況は、あまり多く現れない。
【0175】
ステップS84では、統合対象データの話題境界レベルB(i+1)[q].levelを処理対象データの話題境界レベルB(i)[p].levelに変更して、処理対象データB(i)[p]と統合対象データB(i+1)[q]の情報を統合する。この処理は、統合対象データB(i+1)[q]の話題境界レベルを小さくすることに対応する。例えば、図27の統合対象データB(3)[12]の場合は、B(3)[12].level=B(2)[6].levelとなる。
【0176】
これにより、次にステップS64の処理を行うとき、新たに処理対象となる系列B(i+1)の中のデータのうち、少なくとも統合対象データB(i+1)[q]は除外されずに残されることになる。したがって、処理対象データを統合対象データに順次置き換えながら、話題境界候補区間を徐々に絞り込んでいくことができる。
【0177】
最終的には、統合対象データが系列B(ie)から選択され、それぞれの統合対象データB(ie)[p]について、ステップS71の処理が行われる。こうして出力された位置mpが、その話題境界レベルB(ie)[p].levelにおける話題境界として認定される。
【0178】
図29は、こうして得られた話題境界の認定結果を示している。図29において、2560語、1280語、640語の各窓幅に対応して2重矩形で示された領域のうち、大きな矩形領域が話題境界候補区間に対応し、それに含まれている小さな矩形領域が結束度拮抗点に対応する。B(0)、B(1)、B(2)は、それぞれ、2560語、1280語、640語の各窓幅に対応する系列を表し、2重矩形に添えられた番号[1],[2],...などは、各系列内のデータ番号を表す。
【0179】
また、上にある矩形領域ほど大きな窓幅(小さな話題境界レベル)に対応し、下にある矩形領域ほど小さな窓幅(大きな話題境界レベル)に対応する。そして、記号*の付いた棒グラフは、最終的に求められた話題境界の位置を表す。
【0180】
後述する重要語抽出処理では、大きな窓幅の結束度に基づいて認定された境界ほど(棒グラフが長いほど)、大きな話題のまとまりに関する境界(話題境界レベルの小さな境界)であるとみなされる。また、小さな窓幅の結束度に基づいて認定された境界ほど(棒グラフが短いほど)、小さな話題のまとまりに関する境界(話題境界レベルの大きな境界)であるとみなされる。
【0181】
図29の認定結果では、4.3節の開始位置に対応する境界P11より、その前の境界P12(4.2.2(3)節の開始位置に対応)の方が、大きな話題の境界であると認定されている。このような若干の食い違いはあるものの、大旨、大きな窓幅によって認定された境界ほど大きな話題の切れ目に対応するという傾向にあることが見てとれる。
【0182】
また、図30は、共通語彙比による結束度の代わりに、余弦測度による結束度を用いた場合の話題境界の認定結果を示している。図30においても、大旨、図29と同様の傾向が見てとれる。
【0183】
図31から図36までは、各窓幅の結束度を手掛かりに認定された話題境界(認定境界)の特徴を表すデータの集計結果を示している。このうち、図31から図33までは、(7)式により求めた共通語彙比による結束度を使った場合の結果を表し、図34から図36までは、余弦測度による結束度を使った場合の結果を表す。
【0184】
図31と図34は、本発明の狙い通りに、窓幅に応じた大きさの話題のまとまりが認定できているかどうかを調べるために、認定境界の間隔を集計した結果である。これらの集計結果から、窓幅の1〜2倍程度の間隔で話題境界が認定されていることが分かる。
【0185】
また、図32、33、35、36は、窓幅程度の間隔で認定された境界が、実際に、その大きさ程度の話題のまとまりと対応しているかどうかを調べた結果である。図32と図35では、上述の要約対象文書に含まれる節の各境界について、その前後の節の大きさを調べ、小さい方の節の大きさが窓幅以上であるような境界を正解データとして、各窓幅毎に再現率と適合率を集計している。再現率と適合率は、次式により計算された。
【0186】
再現率=(正解数/節境界数)*100(%) (15)
適合率=(正解数/認定境界数)*100(%) (16)
ここで、節境界数は、各窓幅における正解データの数を表し、認定境界数は、各窓幅の話題境界レベルに対応する認定境界の数を表し、正解数は、各窓幅において、正解データとの隔たりが4語以内であるような認定境界の数を表す。
【0187】
例えば、4.4節の先頭の境界は、4.3節(6,067語)と4.4節(6,670語)の間にあり、小さい方の節の大きさは6,067語である。これは最大窓幅の2,560語より大きいため、4.4節の先頭の境界は、すべての窓幅において正解データとして扱われる。
【0188】
また、4.4.1節の先頭の境界は、4.4節の先頭から4.4.1節の先頭までの部分(115語)と4.4.1節(2,643語)の間にあり、小さい方の節の大きさは115語である。したがって、4.4.1節の先頭の境界は、80語と40語の窓幅においてのみ、正解データとして扱われる。
【0189】
また、図33と図36では、要約対象文書に含まれる節の各境界について、その前後の節の大きさを調べ、小さい方の節の大きさが窓幅の1/2以上であるような境界を正解データとして、(15)、(16)式により再現率と適合率を集計している。
【0190】
これらの結果を比較すると、共通語彙比による結果より、余弦測度による結果の方が若干精度が高い。一方、同じ窓幅の結束度に関しては、共通語彙比による結果の方が、認定境界が多めになっている。これは、共通語彙比による結束度の方が、余弦測度による結束度より、繰り返される語彙数の変化に敏感であることによるものと考えられる。
【0191】
このため、共通語彙比による結束度は、小さい窓幅では局所的な特異点の影響を受けやすくなり、±4語(合わせて1文程度の大きさ)の精度においては、若干見劣りのする結果を与えている。逆に、大きな窓幅においては、共通語彙比による結束度は、余弦測度による結束度では感知できない変動を拾うことができたものと考えられる。
【0192】
本発明の実施に当たっては、これらの性質と結束度の計算のためのコストとを考慮し、適切な結束度の計算方法を選択あるいは併用することが望ましい。一般に、共通語彙比による結束度は計算コストが比較的低いため、計算効率を重視する場合にはこれを用いることが推奨される。
【0193】
次に、結束度と文書中の書式を用いて、話題境界をより精度高く認定する方法を説明する。話題境界候補区間は、図29に見られるように、実際の節境界を含んでいる確率が高い。このため、図37に示すような簡単な書式の特徴を手掛かりとして、認定境界の位置を微調整することで、認定結果の精度を上げることが可能である。
【0194】
図37には、この調整で用いる書式パタンと境界レベルの関係が示されている。書式パタンとしては、節境界を認定する手掛かりとなる特徴的な文字列が、一般的なOSで用いられている正規表現(regular expression)記法により示されている。例えば、「 外1 」は、「4.1」などのようにピリオドで区切られ
【0195】
【外1】
Figure 0003597697
【0196】
た2つの数字で始まり、句点「。」を含まない行を表す。また、境界レベルとしては、上述の話題境界レベルと同様に、小さいほど大きな話題境界に対応するような番号が割り振られている。例えば、4.1節などはレベル1の境界であり、空行(「 外2 」)はレベル4の境界となる。
【0197】
【外2】
Figure 0003597697
【0198】
図38は、このような特定の書式パタンを用いた統合処理のフローチャートである。この統合処理は、図25のステップS68で行われる。図37のような書式パタンと境界レベルの関係は、あらかじめユーザにより指定されるものとする。
【0199】
話題構成認定部26は、まず、与えられた書式パタンを参照しながら、処理対象データの話題境界候補区間B(i)[p].range内を走査し、最も境界レベルが小さく、B(i)[p].bpに最も近い節境界の位置hpを求める(ステップS91)。そして、統合対象系列中のデータB(i+1)[q](q=1,...,|B(i+1)|)の中から、hp∈B(i+1)[q].rangeとなるようなデータB(i+1)[q]を、統合対象データとして選択する(ステップS92)。
【0200】
次に、統合対象データが選択できたかどうかを判定し(ステップS93)、統合対象データが選択できれば、ステップS95の処理を行う。ステップS92において、条件を満たすデータが見つからなかった場合には、節境界hpを用いて擬似的な統合対象データを作成し、B(i+1)の系列に挿入する(ステップS94)。そして、ステップS95の処理を行う。
【0201】
ステップS94では、B(i+1)[q].bp=[hp,hp]、B(i+1)[q].range=[hp−di+1 /2,hp+di+1 /2]と設定して、hpに対応する新たなデータB(i+1)[q]を作成する。
【0202】
そして、系列B(i+1)の中で、B(i+1)[q−1].bp<hpかつB(i+1)[q+1].bp>hpとなるような位置に、作成したデータB(i+1)[q]を挿入する。これにより、疑似的な統合対象データのデータ番号qが決定され、それ以降の既存データのデータ番号は書き換えられる。
【0203】
ステップS95では、図26のステップS84と同様に、統合対象データの話題境界レベルB(i+1)[q].levelを処理対象データの話題境界レベルB(i)[p].levelに変更して、処理対象データB(i)[p]と統合対象データB(i+1)[q]の情報を統合する。
【0204】
このような統合処理を採用した場合は、図25のステップS71において、結束度の最小位置mpを求める代わりに、図38のステップS91と同様にして、B(ie)[p].range内で境界レベルの最も小さい節境界の位置hpを求める。そして、hpとB(ie)[p].levelを対応付けて出力する。
【0205】
図38の統合処理によれば、要約対象文書に含まれる実際の書式パタンを手掛かりとして話題境界が認定されるため、図26の統合処理に比べて、認定結果の精度が向上する。
【0206】
次に、重要箇所特定部28の処理について説明する。重要箇所特定部28は、話題構成認定部26が認定した話題境界で区切られた3つのレベルの話題区間のうち、結束度の低いものを以降の要約処理の対象から除外する。
【0207】
ここで、3つのレベルの話題区間とは、最大窓幅wの結束度によって求められた話題境界により区切られた区間と、基本窓幅w以上の窓幅の結束度によって求められた話題境界で区切られた区間と、基本窓幅の次に小さい窓幅w(=w/r)以上の窓幅の結束度によって求められた話題境界で区切られた区間の3種類の話題区間を指す。低結束度の区間を処理対象から除外するのは、このような区間は、例えば、項目を羅列しただけの部分のように、内容が薄い部分であることが多いためである。
【0208】
ここでは、ある話題区間の結束度を、話題の階層的構成における親の話題区間における結束度の平均値と比較することで、その話題区間が低結束度区間であるかどうかを判定する。具体的には、判定対象の話題区間をbとし、bの窓幅をwとし、話題区間bの中心付近における窓幅wによる結束度の最大値をcとし、窓幅wn−1 の話題区間のうちbを含むものを親話題区間aとし、aにおける窓幅wによる結束度の平均値をmcとする。そして、次のような関係が成り立てば、話題区間bを低結束度区間であると判定する。
【0209】
c<mc+α (17)
ここで、αは、低結束度判定の感度を変更するためのパラメータであり、この値が大きいほど、低結束度区間と判定される区間が増える。αとしては、0または親話題区間aにおけるwの標準偏差などを用いることが望ましい。
【0210】
図39および図40は、重要箇所特定部28による重要箇所特定処理のフローチャートである。重要箇所特定部28は、まず、文書全体を親話題区間として設定し(図39、ステップS101)、最大窓幅wにより決められた話題区間から、低結束度区間を除外する(ステップS102)。ここで、文書全体を親話題区間とするのは、wに基づく話題境界より上位の話題境界は存在しないためである。
【0211】
最大窓幅wの話題区間は、直接には以後の要約処理の対象とはならないが、wの話題区間が除外されると、その中に含まれる基本窓幅wの話題区間もすべて除外されるため、要約処理の対象となる話題区間が減少する。
【0212】
次に、基本窓幅wに基づく話題区間から、低結束度区間を除外する。基本窓幅wの話題区間の親話題区間は、最大窓幅wの話題区間であるので、ステップS102の処理によって除外されなかったwの話題区間を1つずつ取り出し、その中に含まれるwの話題区間を除外する。
【0213】
ここでは、まず、最大窓幅wの最初の話題区間を取り出し、それを親話題区間として(ステップS103)、基本窓幅wの話題区間から、低結束度区間を除外する(ステップS104)。次に、最大窓幅wの次の話題区間を取り出し、それを親話題区間とする(ステップS105)。そして、親話題区間が取り出せたかどうかを判定し(ステップS106)、それが取り出せた場合は、ステップS104以降の処理を繰り返す。
【0214】
親話題区間が取り出せなかった場合は、基本窓幅wの話題区間の除外処理が終了したものとみなし、次に、基本窓幅の次に小さい窓幅wの話題区間の除外処理を行う。窓幅wの話題区間の親話題区間は窓幅wの話題区間であるので、ステップS104の処理によって除外されなかったwの話題区間を1つずつ取り出し、その中に含まれるwの話題区間を除外する。
【0215】
の話題区間を除外することは、要約処理の対象である窓幅wの話題区間の中から内容的にまとまりの薄い部分を取り除くことに対応する。これにより、基本窓幅wの話題区間の要約文として、余分な内容が抜粋されることを防止できる。
【0216】
ここでは、まず、基本窓幅wの最初の話題区間を取り出し、それを親話題区間として(図40、ステップS107)、窓幅wの話題区間から、低結束度区間を除外する(ステップS108)。次に、基本窓幅wの次の話題区間を取り出し、それを親話題区間とする(ステップS109)。そして、親話題区間が取り出せたかどうかを判定し(ステップS110)、それが取り出せた場合は、ステップS108以降の処理を繰り返す。
【0217】
親話題区間が取り出せなかった場合は、窓幅wの話題区間の除外処理が終了したものとみなし、処理を終了する。
図41は、図39のステップS102、S104、および図40のステップS108において呼び出される話題区間除外処理のフローチャートである。話題区間除外処理のサブモジュールは、まず、話題区間の窓幅wとその親話題区間aを呼び出し元から受け取る(ステップS111)。そして、親話題区間aにおいて、処理対象の窓幅wの結束度の平均値mcを求め、次式により、判定の基準となる基準結束度c0を決定する(ステップS112)。
【0218】
c0=mc+α (18)
次に、親話題区間aにおいて、窓幅wの最初の話題区間を取り出し、それを処理対象話題区間とする(ステップS113)。そして、処理対象話題区間の中心付近における最大結束度cを求める(ステップS114)。
【0219】
次に、cとc0を比較し(ステップS115)、c<c0であれば、処理対象話題区間を要約処理の対象から除外する(ステップS116)。そして、親話題区間aにおいて、窓幅wの次の話題区間を取り出し、それを処理対象話題区間とする(ステップS117)。c≧c0であれば、処理対象話題区間を残したまま、ステップS117の処理を行う。
【0220】
次に、処理対象話題区間が取り出せたかどうかを判定し(ステップS118)、それが取り出せた場合は、ステップS114以降の処理を繰り返す。そして、処理対象話題区間が取り出せなくなれば、処理を終了する。
【0221】
図42は、図41のステップS114において呼び出される最大結束度計算処理のフローチャートである。最大結束度計算処理のサブモジュールは、まず、処理対象話題区間bとその話題区間の窓幅wを呼び出し元から受け取り(ステップS121)、話題区間bの大きさとwを比較する(ステップS122)。
【0222】
話題区間bの大きさがwより大きければ、話題区間bから、その両端w/2の部分を除外した区間における最大結束度を求め、その値をcとして記録して(ステップS123)、処理を終了する。また、話題区間bの大きさがw以下であれば、話題区間bの中心位置における結束度をcとして記録し(ステップS124)、処理を終了する。
【0223】
図43は、α=0として、重要箇所特定処理を上述の要約対象文書に適用した結果を示している。図43において、斜線部分P21、P22、およびP23は、窓幅w(1280語)の低結束度区間の除外処理により除外された話題区間を表す。また、横線は、窓幅wの各話題区間における窓幅wの結束度の平均値mcを表し、矢印は、窓幅wの各話題区間の中心付近において、最大結束度cに対応する点を表す。
【0224】
例えば、4000語付近の斜線部分P21を見ると、矢印が指す極大値cは、明らかに平均値mcより低い値を示しているのが分かる。このため、この話題区間は要約対象から除外されている。他の斜線部分P22、P23についても同様である。
【0225】
また、ハッチングされた部分P24およびP25は、窓幅w(640語)の低結束度区間の除外処理により除外された話題区間を表す。この処理により除外されなった部分、すなわち、P21、P22、P23、P24、およびP25以外の部分は、要約処理の対象となる重要箇所であると認定される。
【0226】
図39および図40の重要箇所特定処理では、結束度が閾値より低い話題区間を除外することで重要な話題区間を特定してるが、その代わりに、結束度が閾値以上の話題区間を抽出する処理を行っても、同様の結果が得られる。
【0227】
次に、重要語抽出部29の処理について説明する。重要語抽出部29は、話題構成認定部26が認定し、重要箇所特定部28が絞り込んだ基本窓幅wおよび最大窓幅wの話題区間のそれぞれに特徴的に出現している内容語を選択し、話題区間との対応を付けてそれらを抽出する。
【0228】
ここでは、ある内容語tの話題区間bにおける出現頻度(出現度数)が期待値を上回り、かつ、次式の対数尤度比Lが与えられた閾値(統計的有意水準に対応するχ値)以上であるとき、内容語tは話題区間bに特徴的であると判定される。
【0229】
【数2】
Figure 0003597697
【0230】
(19)式において、Fbtは、話題区間bにおける単語tの出現頻度を表し、Fatは、話題区間bの親話題区間aにおける単語tの出現頻度を表し、E(Fbt)は、話題区間bにおける単語tの出現頻度の期待値を表す。E(Fbt)は、親話題区間aにおける単語tの出現密度(出現確率)に、話題区間bの大きさを乗じることで得られる。ここで、ある区間における単語の出現密度とは、単語の出現頻度と区間の大きさの比を意味する。
【0231】
(19)式のLは、単語tの出現確率が話題区間bとそれ以外の領域との区別に対して独立であるかどうかに関する尤度比検定の値であり、この値が大きいほど、単語の出現確率がその区別に依存していることを表す。Lの自由度νは1であるので、有意水準が10%なら閾値を6.63490とし、有意水準が5%なら閾値を7.87994とし、有意水準が1%なら閾値を10.8276とすればよい。あるいは、閾値を用いる代わりに、Lの大きい順に上位のいくつかの単語を重要語として抽出しても構わない。
【0232】
なお、最大窓幅wの話題区間と基本窓幅wの話題区間が一致している場合や、窓幅wの話題区間のほとんどを1つの基本窓幅wの話題区間が占めている場合には、このような検定方法は必ずしもうまく機能しない。このため、bの直接の上位の話題区間(例えば、bを含む窓幅wの話題区間)の大きさがbの大きさの2倍未満の場合には、親話題区間として文書全体を用いることにする。
【0233】
図44および図45は、重要語抽出部29による重要語抽出処理のフローチャートである。重要語抽出部29は、まず、パラメータχ値の統計的有意水準に対応する閾値hを、ユーザから受け取る(図44、ステップS131)。そして、文書全体を親話題区間候補a0とし、a0の大きさとa0に出現しているそれぞれの内容語wの出現頻度を求め、それぞれ、S0とF0wとして記録する(ステップS132)。
【0234】
次に、最大窓幅wの先頭の話題区間を取り出し、それを親話題区間候補a1とする(ステップS133)。そして、親話題区間候補a1の大きさとa1に出現しているそれぞれの内容語wの出現頻度を求め、それぞれ、S1とF1wとして記録する(ステップS134)。
【0235】
次に、F1wに記録されたそれぞれの内容語の出現頻度の対数尤度比を、a0を基準にして求め、それを閾値hと比較して重要語を抽出する(ステップS135)。そして、a1において、基本窓幅w1の最初の話題区間を取り出し、それを重要語抽出対象区間bとする(ステップS136)。
【0236】
次に、重要語抽出対象区間bの大きさと、bに出現しているそれぞれの内容語wの出現頻度を求め、それぞれ、SbとFbwとして記録する(図45、ステップS137)。そして、S1と2Sbを比較する(ステップS138)。ここで、S1<2Sbであれば、親話題区間としてa0を選択し(ステップS139)、S1≧2Sbであれば、親話題区間としてa1を選択して(ステップS140)、ステップS141の処理を行う。
【0237】
ステップS141では、重要語抽出部29は、Fbwとして記録された各内容語の出現頻度の対数尤度比を求め、それを閾値hと比較して重要語を抽出する。そして、a1において、基本窓幅w1の次の話題区間を取り出し、それを重要語抽出対象区間bとする(ステップS142)。
【0238】
次に、bが取り出せたかどうかを判定し(ステップS143)、それが取り出せた場合は、ステップS137以降の処理を繰り返す。そして、bが取り出せなくなると、次に、最大窓幅wの次の話題区間を取り出し、それを親話題区間候補a1とする(ステップS144)。
【0239】
次に、a1が取り出せたかどうかを判定し(ステップS145)、それが取り出せた場合は、図44のステップS134以降の処理を繰り返す。そして、a1が取り出せなくなると、処理を終了する。
【0240】
図46および図47は、図44のステップS135および図45のステップS141において呼び出される尤度比検定処理のフローチャートである。尤度比検定処理のサブモジュールは、まず、閾値h、親話題区間の大きさSa(S0またはS1)、親話題区間における単語の出現頻度Faw(F0wまたはF1w)のリスト、検定対象話題区間の大きさSb、および検定対象話題区間における単語の出現頻度Fbwのリストを呼び出し元から受け取る(図46、ステップS151)。
【0241】
次に、Fbwのリストから最初の単語を取り出し、それを検定単語tとする(ステップS152)。そして、tが取り出せたかどうかを判定し(ステップS153)、それが取り出せた場合は、Fbtを1と比較する(図47、ステップS154)。
【0242】
btが1より大きければ、Fbtの期待値(理論値)E(Fbt)を次式により計算して(ステップS155)、それをFbtと比較する(ステップS156)。
E(Fbt)=Fat*Sb/Sa (20)
ここで、FbtがE(Fbt)より大きければ、(19)式によりtの尤度比Lを求め(ステップS157)、それを閾値hと比較する(ステップS158)。Lがh以上であれば、tを重要語として抽出する(ステップS159)。そして、Fbwのリストから次の単語を取り出し、それを検定単語tとして(ステップS160)、図46のステップS153以降の処理を繰り返す。
【0243】
ステップS158においてLがh以上である場合は、話題区間bにおける単語tの出現頻度が、親話題区間aにおける出現頻度に比べて特異に大きいものとみなされ、tが重要語として抽出される。
【0244】
ステップS154、S156、およびS158で判定結果がNOの場合は、tを重要語として抽出せずに、ステップS160以降の処理を行う。そして、ステップS153においてtが取り出せなかった場合は、すべての単語の検定が終了したものとみなし、処理を終了する。
【0245】
図48は、上述の要約対象文書の見出しのうち、先頭の重要語抽出対象区間(窓幅w=1280語の話題区間)に含まれる見出しの例を示しており、図49は、その区間から抽出された重要語を示している。ここでは、有意水準5%に対応する閾値を用いた。
【0246】
次に、重要文選択部30の処理について説明する。重要文選択部30は、出願人による先願の特願平9−006777「文書要約装置およびその方法」に示された技術を応用して、要約の一部となる重要文を抽出する。
【0247】
本実施形態における重要文選択処理の特徴は、要約を作成する単位である基本窓幅wの話題区間と、話題構成においてそれらの直接の上位に位置する最大窓幅wの話題区間の両方に対して、重要語が与えられるという点である。このように、階層的に構成された話題区間のそれぞれに重要語を与えて、異なる階層の重要語を併用して重要文を選択するという点において、重要文選択処理は先願の方法とは異なっている。
【0248】
基本窓幅wの話題区間に与えられる重要語は、その語に関連の深い文をその話題区間からのみ抜粋するために用いられる局所的な(ローカルな)重要語である。一方、最大窓幅wの話題区間に与えられる重要語は、その下位に位置する複数の要約対象話題区間のそれぞれから関連の深い文を抜粋するために用いられる大局的な重要語である。
【0249】
特願平9−006777は、少ない抜粋量でも要約文書に重要語を幅広く取り入れることができる方法を示している。この方法によれば、多くの種類の重要語を含む要約文書を生成することができる。これは、1つの文を選択する度に、重要語のリストから、選択された文に含まれる語を取り除いているためである。
【0250】
このリストは、ユーザの質問文の単語も含んでいるため、注目語リストと呼ばれている。ここで、注目語とは、文書の作成者が書こうとした内容を示すキーワード(端的には、見出しや強調語句)と、ユーザが閲覧したいと思っている文書の事柄を示すキーワード(端的には、文書検索時にユーザが入力する質問文)の両方を含んでいる。
【0251】
本実施形態においても、数十ページの文書を1ページ程度に要約することを念頭においているため、重要文を選択する度に、注目語リストを更新するという方法を踏襲する。
【0252】
図50および図51は、重要文選択部30による重要文選択処理のフローチャートである。重要文選択部30は、まず、最大窓幅wの先頭の話題区間を親話題区間aとして取り出し(図50、ステップS161)、aに対応する重要語を親区間の注目語リストkwlaに登録する(ステップS162)。そして、aの先頭部分に見出しが存在するかどうかを判定する(ステップS163)。見出しの判定には、例えば、図37に示した書式パタンが用いられる。
【0253】
見出しが存在する場合には、その見出しに印を付けて必須出力文(必ず要約に含める文)とし、見出しに含まれる内容語を抽出して注目語リストkwlaに加える(ステップS164)。これにより、見出しに関連する文も、自動的に要約に抜粋されるようになる。
【0254】
次に、aに含まれる要約対象の各話題区間をbnとし、bnの注目語リストkwlnを作成する。注目語リストkwlnには、まず、各話題区間bnに固有の重要語が登録され(ステップS165)、次に、親話題区間aの注目語リストkwlaの注目語がマージされる(ステップS166)。ステップS163において見出し語が存在しない場合には、そのままステップS165以降の処理を行う。
【0255】
次に、aを親話題区間とするすべてのbnを一度に処理して、それぞれの区間から要約に出力する文を1文ずつ選択する(図51、ステップS167)。ここで、同じ話題区間aを親に持つ子話題区間bnを一度にまとめて処理するのは、aの注目語に関連する文をなるべく多くのbnから抜粋することを意図しているためである。このとき、選択された文には、選択済であることを示す印が付けられる。
【0256】
次に、文が選択できなかった話題区間bnに対応するkwlnを削除して、その区間に対する選択処理を終了する(ステップS168)。また、文が選択された話題区間bnについては、選択された文に含まれる注目語を、対応する注目語リストkwlnから削除する(ステップS169)。さらに、親話題区間aの注目語リストkwlaのみに由来する注目語であって、話題区間bnに固有の注目語ではないものが、別の話題区間bxで選択された文に含まれている場合には、その注目語をbnの注目語リストkwlnから削除する(ステップS170)。
【0257】
次に、注目語リストkwlnが残っているかどうか、すなわち、まだ文を選択する余地のある話題区間bnがあるかどうかを判定する(ステップS171)。そのような注目語リストが残っている場合には、ステップS167以降の処理を繰り返す。このとき、ステップS169、S170の処理により空になってしまった注目語リストkwlnについては、bnに固有の注目語リストとaの注目語リストをマージして、注目語リストkwlnの初期状態を復元しておく(ステップS172)。
【0258】
また、ステップS171において、注目語リストkwlnが残っていない場合は、最大窓幅wの次の話題区間を親話題区間aとして取り出す(ステップS173)。そして、親話題区間aを取り出せたかどうかを判定し(ステップS174)、それが取り出せた場合は、図50のステップS162以降の処理を繰り返す。
【0259】
そして、親話題区間が取り出せなかった場合は、ステップS164で印を付けられた必須出力文とステップS167で選択された文とをマージし、出現順に並べて要約を作成して(ステップS175)、処理を終了する。作成された要約に、選択されなかった文の存在を示す印や段落境界などを挿入することで、要約の可読性を高めることも可能である。
【0260】
ところで、ステップS167において文を選択できない場合としては、抜粋量の制約により文選択が打ち切られた場合、その時点の注目語リストに含まれている注目語(重要語)を含む文が見つからなかった場合などがある。後者の場合には、もう一度注目語リストの初期状態を復元して文選択を試みることにより、選択可能な文の範囲を広げることができる。
【0261】
また、ここでは、ユーザが入力した質問文を利用することは示されていないが、例えば、ステップS162において、質問文から内容語を抽出して注目語リストに加えれば、質問文を容易に処理することができる。
【0262】
なお、図50のステップS165、S166において、aを親話題区間とするすべての話題区間bnを重要文選択の対象とするのではなく、bnとして重要な話題区間を1つ選び、それだけを対象にして重要文を選択してもよい。この方法は、なるべく短い要約を作成したい場合に有効である。
【0263】
例えば、非常に短い要約を作成したい場合には、複数の話題区間から重要文を選択すると、それぞれの話題区間について抜粋できる量が、読んで理解できる量を下回ってしまうことがある。そのような場合には、要約作成の対象とする話題を絞って要約することで、その話題については理解可能な量の文を抜粋することができる。これにより、すべての話題を網羅していても理解するのが困難な要約に比べて、より好ましい要約を作成することができる。
【0264】
図52は、このような重要文選択処理のフローチャートである。図52において、ステップS161からステップS164までの処理は、図50と同様である。重要文選択部30は、次に、aを親話題区間とする基本窓幅wの話題区間の中から、aの注目語リストkwlaに含まれる注目語が最も多く出現する区間を選択し、それをb0nとする(ステップS165a)。そして、b0nに固有の重要語を、b0nの注目語リストkwlnに登録する。
【0265】
次に、親話題区間aの注目語リストkwlaの重要語を、kwlnにマージする(ステップS165b)。そして、b0nを親話題区間とする窓幅wの話題区間の中から、b0nの注目語リストkwlaに含まれる注目語が最も多く出現する区間を選択し、それを要約対象の話題区間bnとする(ステップS165c)。こうして、1つの親話題区間aから1つの要約対象の話題区間bnを選択した後、図51の処理を行う。
【0266】
ここで、1つの親話題区間aからただ1つの要約対象の話題区間bnを選択する代わりに、注目語の出現頻度の大きい順に適当な数の話題区間bnを選択するようにしてもよい。また、要約対象として選択した話題区間bnから十分な量の文を抜粋できない場合には、注目語が次に多く出現する話題区間からも文を選択するようにしてもよい。さらに、ステップS161およびステップS173において、ユーザが入力した質問文の内容語に基づき、特定の親話題区間aのみを処理対象に選ぶことも可能である。
【0267】
図53および図54は、図51のステップS167において呼び出される選択処理のフローチャートである。選択処理のサブモジュールは、まず、要約全体の大きさの上限U1と各話題区間の抜粋量の上限U2を、ユーザから受け取る(図53、ステップS181)。通常、U1は、前述の望ましい要約の大きさSより大きく設定され、U2は、前述の望ましい話題の抜粋量Sより大きく設定される。これらのパラメータは、SおよびSをもとにして自動的に算出することもできる。
【0268】
次に、各話題区間bn毎に、bn内に存在する各文と注目語リストkwln内の注目語とを比較し、注目語の出現数(異なり数と延べ数)を、各文毎に記録する(ステップS182)。そして、U2を越えない長さの未選択の文の中で、注目語の出現数が最大のものを各話題区間bnから1文ずつ選択する(ステップS183)。
【0269】
このとき、bn内でそれまでに選択済の文があれば、それらの長さの和(bnの抜粋量)と新たに選択する文の長さの合計がU2を越えないように、新たな文を選択する。注目語の出現数としては、異なり数と延べ数のいずれか一方を用いてもよく、両方の合計を用いてもよい。そして、選択された文に選択済であることを示す印を付け、bnの抜粋量に選択された文の長さを加算する。
【0270】
次に、文が選択できなかった話題区間bnに選択終了の印を付け(ステップS184)、選択済のすべての文の長さの合計sを求める(ステップS185)。そして、sをU1と比較し(図54、ステップS186)、sがU1以下であれば、処理を終了する。
【0271】
s>U1であれば、すべての話題区間bnに選択終了の印を付け(ステップS187)、選択された文の中で注目語の出現数が最小のものを除外して、sとbnの抜粋量をその長さだけ減ずる(ステップS188)。そして、再びsをU1と比較し(ステップS189)、まだなおs>U1であれば、sがU1以下になるまでステップS188の処理を繰り返す。
【0272】
このような選択処理によれば、最終的に出力される要約文書の大きさは、指定された上限U1以内であることが保証される。上述の要約対象文書の場合、図55、56、および57に示すような要約文書が出力される。ここでは、図面の制約上、1つの要約文書を3つの図に分けて掲載している。この要約文書において、各文の前後に挿入された記号“...”は、選択されなかった文の存在を示している。
【0273】
次に、英語の要約対象文書として、米国出願の明細書の原稿(23,000語)を用いた例について説明する。ここでは、次のような処理方法およびパラメータを採用した。
(1)単語認定の方法:ストップワードリストを用いた方法
(2)結束度計算用の窓の幅:
最大窓幅w=2560(語)
基本窓幅w=1280(語)
窓幅w=640(語)
(3)話題境界認定の方法:書式パタンを用いた方法
(4)重要箇所特定処理における低結束度判定用の感度α:
用;α=−σ0/2(σ0は、窓幅wの結束度の標準偏差)
およびw用;α=0
(5)重要語抽出の閾値:h=6.63490(有意水準10%)
(6)重要文選択における抜粋量の上限値:
U1=3,000(bytes )
U2=600(bytes )
要約対象文書の全体を掲載することは適当ではないので、参考として、要約対象文書中の見出しの一覧を図58に示す。図58において、()内の表現は、説明のために付加された見出しの省略形であり、要約対象文書には含まれていない。
【0274】
図59は、入力された要約対象文書の先頭部分を示しており、図60は、その部分に対する単語認定処理の結果を示している。図60において、[]で括られた部分が、認定された単語に対応する。先頭の1文字のみが大文字の単語は、[]では、すべて小文字に置き換えられている。
【0275】
ここでは、空白および“,”、“.”、“:”、“;”などの区切り記号を手掛かりに単語が切り出され、それらの単語のうち、図61に示すストップワードリストに含まれる単語が取り除かれた。ストップワードリストとは、重要語として抽出したくない冠詞、前置詞などの単語を、あらかじめ定義したリストである。
【0276】
また、図62は、図38の統合処理において節境界を求めるために用いた書式パタンとその境界レベルを示している。ここでは、先頭が大文字のアルファベットで始まっている行を、境界レベル0の節境界とみなし、最初の空白でない文字が“[”である行を、境界レベル1の節境界とみなしている。
【0277】
話題境界認定処理においては、話題境界候補区間にこれらの書式パタンに一致する行が見つかった場合は図38の統合処理を採用し、そうでない場合は図26の統合処理を採用した。その結果、図63に示すような認定結果が得られた。
【0278】
図63において、節境界の近くに記された(Bg)、<1>などは、図58に示された見出しの省略形を表す。話題境界候補区間データB(i)[p]のうち、<1>の節境界P31に対応するB(0)[1]は、書式パタンを用いなければ、B(1)[3]と統合されるべきデータである。ここでは、書式パタンを用いた結果として節境界P31が検出されている。ところが、B(1)およびB(2)の系列には、P31の位置を含むデータが含まれていなかったため、B(1)[2]およびB(2)[3]のような疑似的な統合対象データが生成されている。
【0279】
図64は、重要箇所特定処理の結果を示している。図64において、斜線部分P41およびP42は、窓幅w(1280語)の低結束度区間の除外処理により除外された話題区間を表す。また、横線は、窓幅wの各話題区間における窓幅wの結束度の平均値を表し、矢印は、窓幅wの各話題区間の中心付近において、最大結束度に対応する点を表す。また、ハッチングされた部分P43、P44、およびP45は、窓幅w(640語)の低結束度区間の除外処理により除外された話題区間を表す。
【0280】
なお、窓幅wの話題区間に関して低結束度区間の除外処理の感度パラメータαを前述のように調整したのは、要約対象文書の(Claims)に対応する節の結束度が他の節に比べて異常に高かったためである。このことは、窓幅wの結束度の標準偏差が大きかったことに対応している。実際、窓幅wの結束度の平均値が0.43であるのに対して、その標準偏差は0.11であった。この認定結果に基づき、図65、66、および67に示すような要約文書が生成された。
【0281】
以上説明した実施形態においては、日本語および英語の文書を例に挙げて要約処理を説明したが、本発明は、これらの文書以外にも、任意の言語および任意の形式の文書に対して適用され、同様の結果を得ることができる。
【0282】
また、要約対象文書は、必ずしもディジタル化された電子文書である必要はなく、例えば、紙媒体などに記載された文書でもよい。この場合、イメージスキャナなどの光電変換装置により文書画像を取り込み、文字認識を行うことで、単語認定可能な文書データを作成することができる。
【0283】
【発明の効果】
本発明によれば、数十頁に渡るような長い文書についても、文書サイズの1/2〜1/4程度の大きな話題のまとまりから、段落程度の大きさ(数十語から100語程度)の話題のまとまりまで、任意の大きさの話題のまとまりの階層的構成を、語彙的結束性という文章一般に見られる現象に基づいて認定することができる。
【0284】
さらに、それぞれの話題のまとまりから適切な内容を抜粋して、話題の階層的構成に対応する要約を作成することができる。これにより、従来は取り扱いが難しかった、複数の話題に関する文章が混在した複合文書の要約が可能になる。
【0285】
また、要約作成の単位とする話題のまとまりの大きさを自動的に決定し、要約対象を重要な話題のまとまりに絞り込むことで、要約として出力すべき大きさに応じて、適切な粒度の話題をバランスよく取り込んだ要約を作成することが可能になる。
【図面の簡単な説明】
【図1】本発明の文書要約装置の原理図である。
【図2】本発明の文書要約装置の構成図である。
【図3】情報処理装置の構成図である。
【図4】記録媒体を示す図である。
【図5】第1の要約対象文書中の見出しを示す図(その1)である。
【図6】第1の要約対象文書中の見出しを示す図(その2)である。
【図7】第1の要約対象文書中の見出しを示す図(その3)である。
【図8】単語認定処理のフローチャートである。
【図9】第1の入力文書を示す図である。
【図10】第1の単語認定結果を示す図である。
【図11】形態素解析処理のフローチャートである。
【図12】日本語の辞書引きの例を示す図である。
【図13】英語の辞書引きの例を示す図である。
【図14】要約粒度決定処理のフローチャートである。
【図15】第1の結束度分布を示す図である。
【図16】第2の結束度分布を示す図である。
【図17】話題構成認定処理のフローチャートである。
【図18】左窓と右窓を示す図である。
【図19】窓内の語彙数を示す図である。
【図20】結束度の系列を示す図である。
【図21】第3の結束度分布を示す図である。
【図22】移動平均と文書領域の関係を示す図である。
【図23】話題境界候補区間認定処理のフローチャートである。
【図24】結束力分布を示す図である。
【図25】話題境界認定処理のフローチャートである。
【図26】第1の統合処理のフローチャートである。
【図27】統合対象データを示す図である。
【図28】疑似データの作成方法を示す図である。
【図29】話題構成の第1の認定結果を示す図である。
【図30】話題構成の第2の認定結果を示す図である。
【図31】第1の話題境界の間隔を示す図である。
【図32】第1の再現率と適合率を示す図である。
【図33】第2の再現率と適合率を示す図である。
【図34】第2の話題境界の間隔を示す図である。
【図35】第3の再現率と適合率を示す図である。
【図36】第4の再現率と適合率を示す図である。
【図37】第1の書式パタンと境界レベルを示す図である。
【図38】第2の統合処理のフローチャートである。
【図39】重要箇所特定処理のフローチャート(その1)である。
【図40】重要箇所特定処理のフローチャート(その2)である。
【図41】話題区間除外処理のフローチャートである。
【図42】最大結束度計算処理のフローチャートである。
【図43】重要箇所の第1の特定結果を示す図である。
【図44】重要語抽出処理のフローチャート(その1)である。
【図45】重要語抽出処理のフローチャート(その2)である。
【図46】尤度比検定処理のフローチャート(その1)である。
【図47】尤度比検定処理のフローチャート(その2)である。
【図48】話題区間中に含まれている見出しを示す図である。
【図49】話題区間から抽出された重要語を示す図である。
【図50】重要文選択処理のフローチャート(その1)である。
【図51】重要文選択処理のフローチャート(その2)である。
【図52】重要文選択処理の他のフローチャートである。
【図53】選択処理のフローチャート(その1)である。
【図54】選択処理のフローチャート(その2)である。
【図55】第1の要約結果を示す図(その1)である。
【図56】第1の要約結果を示す図(その2)である。
【図57】第1の要約結果を示す図(その3)である。
【図58】第2の要約対象文書中の見出しを示す図である。
【図59】第2の入力文書を示す図である。
【図60】第2の単語認定結果を示す図である。
【図61】ストップワードを示す図である。
【図62】第2の書式パタンと境界レベルを示す図である。
【図63】話題構成の第3の認定結果を示す図である。
【図64】重要箇所の第2の特定結果を示す図である。
【図65】第2の要約結果を示す図(その1)である。
【図66】第2の要約結果を示す図(その2)である。
【図67】第2の要約結果を示す図(その3)である。
【符号の説明】
1 構成認定手段
2 抽出手段
3 選択手段
4 出力手段
11 要約対象文書
12 文書要約装置
13 要約文書
21 入力部
22 単語認定部
23 形態素解析部
24 単語辞書
25 要約粒度決定部
26 話題構成認定部
27 話題境界候補区間認定部
28 重要箇所特定部
29 重要語抽出部
30 重要文選択部
31 出力部
41 出力装置
42 入力装置
43 CPU
44 ネットワーク接続装置
45 媒体駆動装置
46 補助記憶装置
47 メモリ
48 バス
49 可搬記録媒体
50 データベース

Claims (13)

  1. 与えられた文書中の各位置の前後に設定した2つの窓中に出現している語彙をもとに該2つの窓の部分の語彙的結束度を計算し、得られた結束度に基づいて話題境界を認定し、該2つの窓の窓幅を段階的に縮小しながら話題境界の認定を繰り返すことで、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成を認定する構成認定手段と、
    認定された話題の階層的構成のデータを格納するメモリと、
    前記メモリに格納された話題の階層的構成のデータに含まれる話題のまとまりを処理対象として、単語が処理対象の話題のまとまりに出現する頻度と該処理対象の話題のまとまりを含む大きな話題のまとまりに出現する頻度と、該単語が該処理対象の話題のまとまりに出現する頻度の期待値を用いて、該単語が該処理対象の話題のまとまりに有意に多く出現するか否かを示す統計的検定値を計算し、該単語が該処理対象の話題のまとまりに出現する頻度が該期待値より大きく、かつ、得られた検定値が閾値より大きいとき、該単語を該処理対象の話題のまとまりにおける重要語として抽出し、該重要語のデータを前記メモリに格納する抽出手段と、
    前記メモリに格納された話題の階層的構成のデータと重要語のデータを用いて、各話題のまとまりから該重要語の出現状況に応じて重要文を選択し、該重要文を用いて要約を生成する選択手段と、
    前記要約を出力する出力手段と
    を備えることを特徴とする文書要約装置。
  2. 前記構成認定手段は、前記2つの窓のそれぞれに出現している語彙の数を出現語彙数とし、両方に共通している語彙の数を共通語彙数として、前の窓における共通語彙数と出現語彙数の比と後の窓における共通語彙数と出現語彙数の比を用いて、前記2つの窓の部分の語彙的結束度を計算することを特徴とする請求項1記載の文書要約装置。
  3. 前記構成認定手段は、前の窓に単語が出現する頻度と後の窓に該単語が出現する頻度を用いて、前記2つの窓中の語彙の類似性を表す語彙的結束度を計算することを特徴とする請求項1記載の文書要約装置。
  4. 前記構成認定手段は、前記結束度を移動平均した値を、移動平均の開始点における右結束力および移動平均の終了点における左結束力として前記メモリに記録し、各位置における右結束力と左結束力の差を調べることにより、右結束力と左結束力が拮抗している位置の近傍を話題境界の候補区間と認定する候補区間認定手段を含み、該候補区間を用いて話題境界を認定することを特徴とする請求項1、2、または3記載の文書要約装置。
  5. 前記メモリに格納された話題の階層的構成のデータを用いて、前記大きな話題のまとまりに含まれる小さな話題のまとまりを認定するために用いた窓幅による結束度の平均値を、該大きな話題のまとまりの区間内で求め、該小さな話題のまとまりの中心付近における該窓幅による結束度が該平均値に基づく基準結束度より小さいとき、該小さな話題のまとまりを処理対象から除外して、該結束度の大きな領域を重要部分として抽出する重要箇所特定手段をさらに備え、前記選択手段は、該重要部分に対応する話題のまとまりから前記重要文を選択することを特徴とする請求項1、2、または3記載の文書要約装置。
  6. 前記抽出手段は、前記処理対象の話題のまとまりとそれ以外の領域との区別に対する前記単語の出現確率の依存性を表す尤度比検定の値を、前記統計的検定値として計算することを特徴とする請求項1、2、または3記載の文書要約装置。
  7. 前記抽出手段は、要約作成対象となる複数の話題のまとまりのそれぞれから局所的な重要語を抽出し、該複数の話題のまとまりを含む大きな話題のまとまりから大局的な重要語を抽出し、前記選択手段は、該局所的な重要語に該大局的な重要語をマージして注目語リストを作成し、該複数の話題のまとまりのそれぞれから該注目語リストに登録された重要語を含む重要文を選択し、該複数の話題のまとまりのうちの第1の話題のまとまりから選択された重要文に含まれる重要語と、第2の話題のまとまりから選択された重要文に含まれる大局的な重要語とを、該第1の話題のまとまりの注目語リストから削除する処理を繰り返すことを特徴とする請求項1、2、または3記載の文書要約装置。
  8. 前記与えられた文書の語数を望ましい要約の大きさから求めた話題数で割り算することで、前記話題のまとまりの大きさの目安を決定する決定手段をさらに備えることを特徴とする請求項1、2、または3記載の文書要約装置。
  9. 与えられた文書中の各位置の前後に設定した2つの窓中に出現している語彙をもとに該2つの窓の部分の語彙的結束度を計算し、得られた結束度に基づいて話題境界を認定し、該2つの窓の窓幅を段階的に縮小しながら話題境界の認定を繰り返すことで、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成を認定する構成認定手段と、
    認定された話題の階層的構成のデータを格納するメモリと、
    前記メモリに格納された話題の階層的構成のデータに含まれる、要約作成対象となる複数の話題のまとまりのそれぞれから局所的な重要語を抽出し、該複数の話題のまとまりを含む大きな話題のまとまりから大局的な重要語を抽出して、抽出された重要語のデータを前記メモリに格納する抽出手段と、
    前記メモリに格納された重要語のデータに含まれる前記局所的な重要語に前記大局的な重要語をマージして注目語リストを作成し、前記複数の話題のまとまりのそれぞれから該注目語リストに登録された重要語を含む重要文を選択し、該複数の話題のまとまりのうちの第1の話題のまとまりから選択された重要文に含まれる重要語と、第2の話題のまとまりから選択された重要文に含まれる大局的な重要語とを、該第1の話題のまとまりの注目語リストから削除する処理を繰り返し、選択された重要文を用いて要約を生成する選択手段と、
    前記要約を出力する出力手段と
    を備えることを特徴とする文書要約装置。
  10. コンピュータのためのプログラムを記録した記録媒体であって、
    前記プログラムは、
    与えられた文書中の各位置の前後に設定した2つの窓中に出現している語彙をもとに該2つの窓の部分の語彙的結束度を計算し、得られた結束度に基づいて話題境界を認定し、該2つの窓の窓幅を段階的に縮小しながら話題境界の認定を繰り返すことで、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成を認定して、認定された話題の階層的構成のデータをメモリに格納し、
    前記メモリに格納された話題の階層的構成のデータに含まれる話題のまとまりを処理対象として、単語が処理対象の話題のまとまりに出現する頻度と該処理対象の話題のまとまりを含む大きな話題のまとまりに出現する頻度と、該単語が該処理対象の話題のまとまりに出現する頻度の期待値を用いて、該単語が該処理対象の話題のまとまりに有意に多く出現するか否かを示す統計的検定値を計算し、
    前記単語が前記処理対象の話題のまとまりに出現する頻度が前記期待値より大きく、かつ、得られた検定値が閾値より大きいとき、該単語を該処理対象の話題のまとまりにおける重要語として抽出して、該重要語のデータを前記メモリに格納し、
    前記メモリに格納された話題の階層的構成のデータと重要語のデータを用いて、各話題のまとまりから該重要語の出現状況に応じて重要文を選択し、
    前記重要文を用いて要約を生成し、
    前記要約を出力する
    処理を前記コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  11. コンピュータのためのプログラムを記録した記録媒体であって、
    前記プログラムは、
    与えられた文書中の各位置の前後に設定した2つの窓中に出現している語彙をもとに該2つの窓の部分の語彙的結束度を計算し、得られた結束度に基づいて話題境界を認定し、 該2つの窓の窓幅を段階的に縮小しながら話題境界の認定を繰り返すことで、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成を認定して、認定された話題の階層的構成のデータをメモリに格納し、
    前記メモリに格納された話題の階層的構成のデータに含まれる、要約作成対象となる複数の話題のまとまりのそれぞれから局所的な重要語を抽出し、該複数の話題のまとまりを含む大きな話題のまとまりから大局的な重要語を抽出して、抽出された重要語のデータを前記メモリに格納し、
    前記メモリに格納された重要語のデータに含まれる前記局所的な重要語に前記大局的な重要語をマージして注目語リストを作成し、前記複数の話題のまとまりのそれぞれから該注目語リストに登録された重要語を含む重要文を選択し、該複数の話題のまとまりのうちの第1の話題のまとまりから選択された重要文に含まれる重要語と、第2の話題のまとまりから選択された重要文に含まれる大局的な重要語とを、該第1の話題のまとまりの注目語リストから削除する処理を繰り返し、
    選択された重要文を用いて要約を生成し、
    前記要約を出力する
    処理を前記コンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  12. 構成認定手段が、与えられた文書中の各位置の前後に設定した2つの窓中に出現している語彙をもとに該2つの窓の部分の語彙的結束度を計算し、得られた結束度に基づいて話題境界を認定し、該2つの窓の窓幅を段階的に縮小しながら話題境界の認定を繰り返すことで、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成を認定して、認定された話題の階層的構成のデータをメモリに格納し、
    抽出手段が、前記メモリに格納された話題の階層的構成のデータに含まれる話題のまとまりを処理対象として、単語が処理対象の話題のまとまりに出現する頻度と該処理対象の話題のまとまりを含む大きな話題のまとまりに出現する頻度と、該単語が該処理対象の話題のまとまりに出現する頻度の期待値を用いて、該単語が該処理対象の話題のまとまりに有意に多く出現するか否かを示す統計的検定値を計算し、該単語が該処理対象の話題のまとまりに出現する頻度が該期待値より大きく、かつ、得られた検定値が閾値より大きいとき、該単語を該処理対象の話題のまとまりにおける重要語として抽出して、該重要語のデータを前記メモリに格納し、
    選択手段が、前記メモリに格納された話題の階層的構成のデータと重要語のデータを用いて、各話題のまとまりから該重要語の出現状況に応じて重要文を選択し、該重要文を用いて要約を生成し、
    出力手段が、前記要約を出力する
    ことを特徴とする文書要約方法。
  13. 構成認定手段が、与えられた文書中の各位置の前後に設定した2つの窓中に出現している語彙をもとに該2つの窓の部分の語彙的結束度を計算し、得られた結束度に基づいて話題境界を認定し、該2つの窓の窓幅を段階的に縮小しながら話題境界の認定を繰り返すことで、大きな話題のまとまりから小さな話題のまとまりに至る話題の階層的構成を認定して、認定された話題の階層的構成のデータをメモリに格納し、
    抽出手段が、前記メモリに格納された話題の階層的構成のデータに含まれる、要約作成対象となる複数の話題のまとまりのそれぞれから局所的な重要語を抽出し、該複数の話題のまとまりを含む大きな話題のまとまりから大局的な重要語を抽出して、抽出された重要語のデータを前記メモリに格納し、
    選択手段が、前記メモリに格納された重要語のデータに含まれる前記局所的な重要語に前記大局的な重要語をマージして注目語リストを作成し、前記複数の話題のまとまりのそれぞれから該注目語リストに登録された重要語を含む重要文を選択し、該複数の話題のまとまりのうちの第1の話題のまとまりから選択された重要文に含まれる重要語と、第2の話題のまとまりから選択された重要文に含まれる大局的な重要語とを、該第1の話題のまとまりの注目語リストから削除する処理を繰り返し、選択された重要文を用いて要約を生成し、
    出力手段が、前記要約を出力する
    ことを特徴とする文書要約方法。
JP7272498A 1998-03-20 1998-03-20 文書要約装置およびその方法 Expired - Fee Related JP3597697B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP7272498A JP3597697B2 (ja) 1998-03-20 1998-03-20 文書要約装置およびその方法
US09/176,197 US6638317B2 (en) 1998-03-20 1998-10-21 Apparatus and method for generating digest according to hierarchical structure of topic

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7272498A JP3597697B2 (ja) 1998-03-20 1998-03-20 文書要約装置およびその方法

Publications (2)

Publication Number Publication Date
JPH11272699A JPH11272699A (ja) 1999-10-08
JP3597697B2 true JP3597697B2 (ja) 2004-12-08

Family

ID=13497602

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7272498A Expired - Fee Related JP3597697B2 (ja) 1998-03-20 1998-03-20 文書要約装置およびその方法

Country Status (2)

Country Link
US (1) US6638317B2 (ja)
JP (1) JP3597697B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101740926B1 (ko) 2015-10-08 2017-05-29 주식회사 한글과컴퓨터 문서 서식 기반의 문서 줄임 장치 및 그를 이용한 문서 요약 방법
US20240062018A1 (en) * 2022-08-16 2024-02-22 Microsoft Technology Licensing, Llc Pre-training a unified natural language model with corrupted span and replaced token detection
US12026199B1 (en) * 2022-03-09 2024-07-02 Amazon Technologies, Inc. Generating description pages for media entities

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US6977574B1 (en) * 1997-02-14 2005-12-20 Denso Corporation Stick-type ignition coil having improved structure against crack or dielectric discharge
US7904187B2 (en) 1999-02-01 2011-03-08 Hoffberg Steven M Internet appliance system and method
JP3791879B2 (ja) 1999-07-19 2006-06-28 富士通株式会社 文書要約装置およびその方法
US7039863B1 (en) * 1999-07-23 2006-05-02 Adobe Systems Incorporated Computer generation of documents using layout elements and content elements
JP3621008B2 (ja) * 1999-11-08 2005-02-16 日本電信電話株式会社 テキストコンテンツ簡略閲覧表示装置及びその処理プログラムを記憶した記憶媒体
JP3652214B2 (ja) * 2000-04-25 2005-05-25 日本電信電話株式会社 テキストコンテンツ簡略閲覧表示装置及びテキストコンテンツ簡略閲覧表示プログラムを記録した記録媒体
US7813915B2 (en) 2000-09-25 2010-10-12 Fujitsu Limited Apparatus for reading a plurality of documents and a method thereof
JP4299963B2 (ja) * 2000-10-02 2009-07-22 ヒューレット・パッカード・カンパニー 意味的まとまりに基づいて文書を分割する装置および方法
US8122236B2 (en) 2001-10-24 2012-02-21 Aol Inc. Method of disseminating advertisements using an embedded media player page
US7849160B2 (en) 2000-10-24 2010-12-07 Aol Inc. Methods and systems for collecting data for media files
US20020103920A1 (en) 2000-11-21 2002-08-01 Berkun Ken Alan Interpretive stream metadata extraction
JP2002230035A (ja) * 2001-01-05 2002-08-16 Internatl Business Mach Corp <Ibm> 情報整理方法、情報処理装置、情報処理システム、記憶媒体、およびプログラム伝送装置
US7139977B1 (en) * 2001-01-24 2006-11-21 Oracle International Corporation System and method for producing a virtual online book
US20020116470A1 (en) * 2001-02-20 2002-08-22 Dyer Daniel J. Document distribution system and method
JP2002288091A (ja) * 2001-03-28 2002-10-04 Seiko Epson Corp メール、データの表示
JP3685733B2 (ja) * 2001-04-11 2005-08-24 株式会社ジェイ・フィット マルチメディアデータ検索装置、マルチメディアデータ検索方法およびマルチメディアデータ検索プログラム
JP4489994B2 (ja) * 2001-05-11 2010-06-23 富士通株式会社 話題抽出装置、方法、プログラム及びそのプログラムを記録する記録媒体
JP4303921B2 (ja) * 2001-08-08 2009-07-29 株式会社東芝 テキストマイニングシステム及び方法並びにプログラム
US20040205457A1 (en) * 2001-10-31 2004-10-14 International Business Machines Corporation Automatically summarising topics in a collection of electronic documents
JP4142881B2 (ja) * 2002-03-07 2008-09-03 富士通株式会社 文書類似度算出装置、クラスタリング装置および文書抽出装置
GB2390704A (en) 2002-07-09 2004-01-14 Canon Kk Automatic summary generation and display
US8660960B2 (en) * 2002-11-27 2014-02-25 Adobe Systems Incorporated Document digest allowing selective changes to a document
GB2399427A (en) * 2003-03-12 2004-09-15 Canon Kk Apparatus for and method of summarising text
US7735144B2 (en) * 2003-05-16 2010-06-08 Adobe Systems Incorporated Document modification detection and prevention
JP2004348241A (ja) * 2003-05-20 2004-12-09 Hitachi Ltd 情報提供方法、サーバ及びプログラム
US20050138067A1 (en) * 2003-12-19 2005-06-23 Fuji Xerox Co., Ltd. Indexing for contexual revisitation and digest generation
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US8081849B2 (en) 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
WO2008028674A2 (en) 2006-09-08 2008-03-13 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US7805291B1 (en) 2005-05-25 2010-09-28 The United States Of America As Represented By The Director National Security Agency Method of identifying topic of text using nouns
WO2007030192A2 (en) * 2005-09-08 2007-03-15 Medhand International Inc. Method for rendering information on a display
US8036889B2 (en) * 2006-02-27 2011-10-11 Nuance Communications, Inc. Systems and methods for filtering dictated and non-dictated sections of documents
WO2007113903A1 (ja) * 2006-04-04 2007-10-11 Fujitsu Limited 要約文書作成プログラム、要約文書作成装置、要約文書作成方法及びコンピュータ読み取り可能記録媒体
US9633356B2 (en) 2006-07-20 2017-04-25 Aol Inc. Targeted advertising for playlists based upon search queries
US8396331B2 (en) * 2007-02-26 2013-03-12 Microsoft Corporation Generating a multi-use vocabulary based on image data
US7873640B2 (en) * 2007-03-27 2011-01-18 Adobe Systems Incorporated Semantic analysis documents to rank terms
US9286385B2 (en) * 2007-04-25 2016-03-15 Samsung Electronics Co., Ltd. Method and system for providing access to information of potential interest to a user
JP2009277183A (ja) * 2008-05-19 2009-11-26 Hitachi Ltd 情報識別装置及び情報識別システム
KR101255557B1 (ko) * 2008-12-22 2013-04-17 한국전자통신연구원 음절 분리에 기반한 문자열 검색 시스템 및 그 방법
WO2010096191A2 (en) 2009-02-18 2010-08-26 Exbiblio B.V. Automatically capturing information, such as capturing information using a document-aware device
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
DE202010018551U1 (de) 2009-03-12 2017-08-24 Google, Inc. Automatische Bereitstellung von Inhalten, die mit erfassten Informationen, wie etwa in Echtzeit erfassten Informationen, verknüpft sind
US9646079B2 (en) 2012-05-04 2017-05-09 Pearl.com LLC Method and apparatus for identifiying similar questions in a consultation system
US9904436B2 (en) 2009-08-11 2018-02-27 Pearl.com LLC Method and apparatus for creating a personalized question feed platform
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
JP5284990B2 (ja) * 2010-01-08 2013-09-11 インターナショナル・ビジネス・マシーンズ・コーポレーション キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム
US8434001B2 (en) 2010-06-03 2013-04-30 Rhonda Enterprises, Llc Systems and methods for presenting a content summary of a media item to a user based on a position within the media item
US9326116B2 (en) 2010-08-24 2016-04-26 Rhonda Enterprises, Llc Systems and methods for suggesting a pause position within electronic text
US9069754B2 (en) 2010-09-29 2015-06-30 Rhonda Enterprises, Llc Method, system, and computer readable medium for detecting related subgroups of text in an electronic document
US8682873B2 (en) 2010-12-01 2014-03-25 International Business Machines Corporation Efficient construction of synthetic backups within deduplication storage system
US8990241B2 (en) * 2010-12-23 2015-03-24 Yahoo! Inc. System and method for recommending queries related to trending topics based on a received query
JP5775466B2 (ja) * 2012-01-13 2015-09-09 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム
US9501580B2 (en) 2012-05-04 2016-11-22 Pearl.com LLC Method and apparatus for automated selection of interesting content for presentation to first time visitors of a website
US8280888B1 (en) 2012-05-04 2012-10-02 Pearl.com LLC Method and apparatus for creation of web document titles optimized for search engines
US9275038B2 (en) 2012-05-04 2016-03-01 Pearl.com LLC Method and apparatus for identifying customer service and duplicate questions in an online consultation system
US9569413B2 (en) * 2012-05-07 2017-02-14 Sap Se Document text processing using edge detection
US8914452B2 (en) 2012-05-31 2014-12-16 International Business Machines Corporation Automatically generating a personalized digest of meetings
US20140289260A1 (en) * 2013-03-22 2014-09-25 Hewlett-Packard Development Company, L.P. Keyword Determination
JP6099046B2 (ja) * 2013-06-11 2017-03-22 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 文を検索する装置および方法
US9940099B2 (en) * 2014-01-03 2018-04-10 Oath Inc. Systems and methods for content processing
WO2016179755A1 (en) * 2015-05-08 2016-11-17 Microsoft Technology Licensing, Llc. Mixed proposal based model training system
TWI571756B (zh) * 2015-12-11 2017-02-21 財團法人工業技術研究院 用以分析瀏覽記錄及其文件之方法及其系統
US10152462B2 (en) * 2016-03-08 2018-12-11 Az, Llc Automatic generation of documentary content
US10943036B2 (en) 2016-03-08 2021-03-09 Az, Llc Virtualization, visualization and autonomous design and development of objects
CN106777236B (zh) * 2016-12-27 2020-11-03 北京百度网讯科技有限公司 基于深度问答的查询结果的展现方法和装置
US10304550B1 (en) 2017-11-29 2019-05-28 Sandisk Technologies Llc Sense amplifier with negative threshold sensing for non-volatile memory
US11042896B1 (en) 2018-03-12 2021-06-22 Inmar Clearing, Inc. Content influencer scoring system and related methods
EP3660699A1 (en) * 2018-11-29 2020-06-03 Tata Consultancy Services Limited Method and system to extract domain concepts to create domain dictionaries and ontologies
US10643695B1 (en) 2019-01-10 2020-05-05 Sandisk Technologies Llc Concurrent multi-state program verify for non-volatile memory
US11238219B2 (en) * 2019-06-06 2022-02-01 Rakuten Group, Inc. Sentence extraction system, sentence extraction method and information storage medium
US11024392B1 (en) 2019-12-23 2021-06-01 Sandisk Technologies Llc Sense amplifier for bidirectional sensing of memory cells of a non-volatile memory
CN111241267B (zh) * 2020-01-10 2022-12-06 科大讯飞股份有限公司 摘要提取和摘要抽取模型训练方法及相关装置、存储介质
CN111507005B (zh) * 2020-04-20 2023-08-29 中国气象局广州热带海洋气象研究所(广东省气象科学研究所) 后向水汽追踪结果目标区域信息自动提取程序的方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02254566A (ja) 1989-03-29 1990-10-15 Nippon Telegr & Teleph Corp <Ntt> 自動抄録生成装置
JP2792293B2 (ja) * 1991-11-29 1998-09-03 日本電気株式会社 情報検索装置
JP2944346B2 (ja) * 1993-01-20 1999-09-06 シャープ株式会社 文書要約装置
US5384703A (en) * 1993-07-02 1995-01-24 Xerox Corporation Method and apparatus for summarizing documents according to theme
JP3082890B2 (ja) 1993-12-07 2000-08-28 日本電信電話株式会社 書き言葉テキストに対する話題構造認識方法および装置
US6460036B1 (en) * 1994-11-29 2002-10-01 Pinpoint Incorporated System and method for providing customized electronic newspapers and target advertisements
US5689716A (en) * 1995-04-14 1997-11-18 Xerox Corporation Automatic method of generating thematic summaries
US5768580A (en) * 1995-05-31 1998-06-16 Oracle Corporation Methods and apparatus for dynamic classification of discourse
US5907836A (en) * 1995-07-31 1999-05-25 Kabushiki Kaisha Toshiba Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore
US5892842A (en) * 1995-12-14 1999-04-06 Xerox Corporation Automatic method of identifying sentence boundaries in a document image
US5848191A (en) * 1995-12-14 1998-12-08 Xerox Corporation Automatic method of generating thematic summaries from a document image without performing character recognition
JPH09319768A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 要点抽出方法
US5832495A (en) * 1996-07-08 1998-11-03 Survivors Of The Shoah Visual History Foundation Method and apparatus for cataloguing multimedia data
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US5983216A (en) * 1997-09-12 1999-11-09 Infoseek Corporation Performing automated document collection and selection by providing a meta-index with meta-index values indentifying corresponding document collections
US6067539A (en) * 1998-03-02 2000-05-23 Vigil, Inc. Intelligent information retrieval system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101740926B1 (ko) 2015-10-08 2017-05-29 주식회사 한글과컴퓨터 문서 서식 기반의 문서 줄임 장치 및 그를 이용한 문서 요약 방법
US12026199B1 (en) * 2022-03-09 2024-07-02 Amazon Technologies, Inc. Generating description pages for media entities
US20240062018A1 (en) * 2022-08-16 2024-02-22 Microsoft Technology Licensing, Llc Pre-training a unified natural language model with corrupted span and replaced token detection

Also Published As

Publication number Publication date
US20020184267A1 (en) 2002-12-05
US6638317B2 (en) 2003-10-28
JPH11272699A (ja) 1999-10-08

Similar Documents

Publication Publication Date Title
JP3597697B2 (ja) 文書要約装置およびその方法
JP3791879B2 (ja) 文書要約装置およびその方法
Zhang et al. Keyword extraction using support vector machine
CN102576358B (zh) 单词对取得装置、单词对取得方法及其程序
US7007069B2 (en) Method and apparatus for clustering hierarchically related information
US8594998B2 (en) Multilingual sentence extractor
US7280957B2 (en) Method and apparatus for generating overview information for hierarchically related information
JP5008024B2 (ja) 風評情報抽出装置及び風評情報抽出方法
Quispe et al. Using virtual edges to improve the discriminability of co-occurrence text networks
CN113377927A (zh) 一种相似文档检测方法、装置、电子设备及存储介质
US20050050066A1 (en) Processing XML node sets
Ehsan et al. Candidate document retrieval for cross-lingual plagiarism detection using two-level proximity information
CN102918532A (zh) 在搜索结果排序中对垃圾的检测
JP7281905B2 (ja) 文書評価装置、文書評価方法及びプログラム
Ahmed et al. A systematic approach to map the research articles’ sections to IMRAD
RU2681356C1 (ru) Обучение классификаторов, используемых для извлечения информации из текстов на естественном языке
CN118862843A (zh) 一种面向科技项目文档的查重及自动批注方法及系统
JP4108948B2 (ja) 複数の文書を閲覧するための装置および方法
Muntean et al. Weighting passages enhances accuracy
KR100837797B1 (ko) 약어 생성 유형을 고려하는 약어 사전 자동 구축 방법, 그기록 매체 및 약어 생성 유형을 고려하는 약어 사전 자동구축 장치
Orasan Comparative evaluation of modular automatic summarisation systems using CAST
JP4047417B2 (ja) 文書処理装置、文書処理プログラムが記憶された記憶媒体および文書処理方法
JP2005326952A (ja) 概念辞書への単語登録方法、装置、およびプログラム
Cook et al. Automatic identification of words with novel but infrequent senses
Kumamoto et al. Improving a method for quantifying readers’ impressions of news articles with a regression equation

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040416

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040804

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040907

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040909

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080917

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080917

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090917

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090917

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100917

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100917

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110917

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120917

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120917

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130917

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees