JP2009514076A - テキスト表現の類似性を定量化するコンピュータを用いた自動類似度計算システム - Google Patents
テキスト表現の類似性を定量化するコンピュータを用いた自動類似度計算システム Download PDFInfo
- Publication number
- JP2009514076A JP2009514076A JP2008537004A JP2008537004A JP2009514076A JP 2009514076 A JP2009514076 A JP 2009514076A JP 2008537004 A JP2008537004 A JP 2008537004A JP 2008537004 A JP2008537004 A JP 2008537004A JP 2009514076 A JP2009514076 A JP 2009514076A
- Authority
- JP
- Japan
- Prior art keywords
- text
- similarity
- expression
- similarity calculation
- expressions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000014509 gene expression Effects 0.000 title claims abstract description 254
- 238000004364 calculation method Methods 0.000 title claims abstract description 97
- 238000011524 similarity measure Methods 0.000 claims abstract description 39
- 238000013500 data storage Methods 0.000 claims abstract description 9
- 238000010276 construction Methods 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 6
- 238000012217 deletion Methods 0.000 claims description 5
- 230000037430 deletion Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 230000006872 improvement Effects 0.000 claims description 4
- 230000003287 optical effect Effects 0.000 claims description 4
- 230000008707 rearrangement Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims 1
- 230000010354 integration Effects 0.000 claims 1
- 230000002452 interceptive effect Effects 0.000 claims 1
- 238000000034 method Methods 0.000 abstract description 57
- 241000282326 Felis catus Species 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 8
- 238000009795 derivation Methods 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000000540 analysis of variance Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 230000003750 conditioning effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】本発明はコンピュータを用いてテキスト表現の類似度を自動的に重み付けする装置および方法に関する。
【解決手段】本発明によるシステムまたは方法は、(1)文書データ保存部と、(2)候補表現メモリ部と、(3)類似度重み値計算部を備える。類似度重み値agw(t1、t2)は、個々の表現ペアについて、表現ペアをなす二つの表現がいくつかのテキストセグメントからなる集合内の同じテキストセグメントにおいて共起する総頻度と、このテキストセグメントの集合における異なる文脈表現の総数の両方を考慮に入れた類似尺度occ_con(t1、t2)に基づいて算出される。
【選択図】図4
【解決手段】本発明によるシステムまたは方法は、(1)文書データ保存部と、(2)候補表現メモリ部と、(3)類似度重み値計算部を備える。類似度重み値agw(t1、t2)は、個々の表現ペアについて、表現ペアをなす二つの表現がいくつかのテキストセグメントからなる集合内の同じテキストセグメントにおいて共起する総頻度と、このテキストセグメントの集合における異なる文脈表現の総数の両方を考慮に入れた類似尺度occ_con(t1、t2)に基づいて算出される。
【選択図】図4
Description
本発明は、デジタル形式で保存された一つまたはいくつかのテキスト文書由来のテキスト表現(以下「表現」と略する)の意味類似度をコンピュータを用いて自動的にペア単位で調べることのできるシステムおよび対応する類似度計算方法に関する。
したがって、本発明はコンピュータを用いた自動的な情報の構築の分野、特にコンピュータを用いたシソーラスの構築および/またはオントロジーの構築の分野に用いることができる。
まず、下記で使用するいくつかの言葉を以下に定義する。この他の言葉についても、必要に応じて以下の説明中の該当する箇所で定義していく。
まず、「表現」(同意語:「言葉」または「概念」)あるいは「テキスト表現」という言葉は、全体が一つの単語またはいくつかの単語(テキスト中の一語表現または多語表現)からなるひとつながりの文字を指すものとする。ここでの「単語」は空白文字あるいは句読記号で区切られた文字列を指す。類似度は一組つまり二つのこのような表現について決定できる。ここでの「類似度」は与えられた意味関係(「意味論」:自然言語の意味)を意味する。このような二つの言葉すなわち二つの表現間の類似性は統計的手法(二つの表現間の類似度の計算)を用いて定量できる。以下、「類似度」とはこの意味関係を表しかつ以降「類似度重み値」とも称される統計的な指標数を意味する。この値は文献においては「類似尺度」とも称される。表現間の「関係」すなわち「(連合)関係」という言葉もこの「類似度」という言葉と同義語として用いる。
以下「シソーラス」とは、表現すなわち言葉の集合であって、この表現間の関係すなわち類似度の集合を含めたものとする。手動であるいは自動的に作成されたシソーラスが複数存在している。シソーラスは、上記関係つまり連合関係を多数の文書の集りあるいは編集物(集り:個別のテキスト文書の集合)内の個々のテキスト文書またはこの文書内の個々のセクション、文章あるいは文章の部分における単語の共起性から導き出すことによって自動作成される。個々の言葉の出現を調べる対象となるこれらのテキスト部分つまりセクションは、以下テキストセグメントとも称する。したがってこのようなテキストセグメントは、例えばテキスト文書全体、この文書の一つのセクション、あるいはある規定数の連続した個別の単語を含むワードウィンドウを含んでもよい。このようなシソーラスは(シンプルな)オントロジーの記述、すなわち構造化知識ベースとみなすこともできる。
自動的にシソーラスを構築する工程は三つの過程に分けられる:
1.語彙の構築すなわち表現の選択
2.選択された語彙の表現ペア間の統計的な類似度の計算
3.語彙の組織化すなわち構造化(クラスタリング)
1.語彙の構築すなわち表現の選択
2.選択された語彙の表現ペア間の統計的な類似度の計算
3.語彙の組織化すなわち構造化(クラスタリング)
ここで本発明はポイント2、すなわち言葉のペア間の統計的な類似度の計算に関する。
この集りの個々のテキスト文書に前処理(正規化)を行うことは、特に語彙の選択にとって有益であるだけでなく、あるテキストセグメント中である表現が出現しているかいないかの判断にも有益である。この表現の正規化は基本的に二つのパート、つまりストップワードの削除と基本形への還元を通じて行われる。ストップワードの削除では、基本的に形容詞と副詞、前置詞と冠詞、数字と非常に一般的な単語(andやorなど)がテキスト文書から取り除かれる。必要な場合は固有名詞を取り除くこともできる。語幹への還元では、個々の表現つまり単語はその語幹に還元される。その結果、派生(元の単語から新しい単語を形成すること)語および語形変化(単語の曲用あるいは活用)した語がその語幹の下にまとめられる。以下、「語幹への還元」は「基本形への還元」すなわち「屈折語尾の削除」と同義に用いることとする(以降異なる派生語の還元は行わず、また考慮もしない)。
それぞれの表現ペアすなわち二つの表現間の統計的な類似度の計算が、自動的なシソーリ作成における要点である。したがって、対応する計算方法は従来技術にすでに存在している。方法の第1のグループはテキストセグメントにおける表現の出現頻度に基づいた方法である。このグループを以降「出現に基づく計算方法(英語:occurrence)」と呼ぶ。これらの方法はテキストセグメント中の一つの表現ペア中の二つの表現の共起に基づいているが、この表現ペアが出現する文脈の実際の内容は考慮していない。以降、「文脈」という言葉、すなわちある言語単位つまり表現の前後のテキスト(すなわち表現が出現する意味の文脈)、を「テキストセグメント」(すなわち表現あるいは表現ペアの出現つまり存在の有無が調べられるテキストの、決められたセクション)と同義として用いる。
したがって、最近の方法では表現が含まれる文脈の実際の内容を合わせて考慮する試みが行われている。以降、「内容(content)」または表現の内容環境とは、一つのテキストセグメントまたはテキストセグメントの集合において特定の表現と共起する表現の集合または数を意味するものとする。内容に基づいた従来技術のこの方法の欠点は、重要すなわち本質的な内容と、無関係すなわち本質的でない内容を区別できない点にある。以下の記述では、従来技術のこれらの問題をより詳細に論じる。
上述した従来技術の問題のために、表現ペア間の統計的な類似関係の判断、すなわち類似度重み値の計算は不満足な方法でしか行われていない。このため、意味類似性が存在する表現ペアであるにも関わらずこのペアに低い類似度重み値が誤って割り当てられてしまう場合や、また逆に意味類似性が非常に薄いあるいは全く存在しない表現ペアに高すぎる類似度重み値が誤って割り当てられてしまう場合が少なからずある。
したがって本発明の目的は、表現ペア間の類似度重み値を改良された方法で計算することができ、統計的に決定されるこの表現ペア間の類似度重み値が表現ペアの二つの表現の意味の実際の類似性をより反映する、装置および方法を提供することにある。
この目的は請求項1に記載の類似度計算システムにより達成され、また請求項31に記載の類似度計算方法によっても達成される。本発明による類似度計算システムの有利な実施の形態および対応する計算方法が各独立請求項に述べられている。
本発明の目的は、二つの表現t1、t2(表現ペア(t1、t2))に対して改良された類似尺度occ_con(t1、t2)を与えることで達成される。この類似尺度はテキストセグメント内のこの二つの表現の共起とこのテキストセグメント内の異なる文脈表現の数(文脈表現とは、少なくとも一つのテキストセグメントでt1とともに出現しかつ少なくとも一つの他のテキストセグメントでt2とともに出現しているが、t1とt2のいずれとも一致しない表現である)の両方を考慮に入れたものである。本発明によるこの類似尺度occ_conは出現および内容文脈(occは出現を表し、conは内容を表す)を組み合わせるもので、表現ペアの類似度重み値agw(t1、t2)の計算に使用される。
以下に詳述するように、本発明によるこの類似尺度はコサイン類似度重み付けやPMI(相互情報量)類似度重み付けなどの従来技術による類似度重み付けに用いることができる。しかし、本発明の本質をなす特徴は、本発明による類似尺度、特にいくつかの個別の重み値の積に基づいた重み付けrel_combを用いて計算される新しい類似度重み付けつまり類似度重み値を可能にした点にある。rel_combについては以下に詳述する。この点については、後述の実施の形態でより詳細に説明する。
本発明による類似尺度および本発明による類似度重み値あるいは本発明による類似度計算システム/方法は最先端の技術と比して非常に優れている。本発明による類似尺度を用いて計算された本発明の類似度重み値を用いた場合、従来技術の文書ベースの出現に基づいた方法よりもF値で70%改善した結果が得られることが実験により示されている。
コンピュータを用いた自動類似度計算システムまたは対応する類似度計算方法は、以下の例で詳細に説明するように実行あるいは使用できる。
以下の実施の形態の説明は、大まかには二つのセクションに分かれている。まず、従来技術による基本的な方法、従来技術で既知の類似度重み付け、またそれらの問題点について示す。続く二番目のセクションでは、本発明による類似尺度occ_con(t1、t2)をどのように計算するか、および本発明による類似度重み値つまり重み付けagw(t1、t2)をどのように計算するかを説明する。
テキストの集りの統計分析に基づいた表現間の類似度すなわち関係の決定は多くの用途に重要なものであり、特に自動シソーラス構築の分野あるいは情報検索(IR)の分野において重要である。これらの方法はすべて、類似度重み値を用いて定量化される表現の共通文脈の特定の言葉(または特定の概念)に基づいている。表現の個々の文脈をその共通文脈(すなわちあるテキストセグメント内で両者が共起する場合のみの出現)と比較する。類似度重み値が高いとは、表現ペア(t1、t2)の二つの表現t1、t2間に意味関係が存在することを意味する。既知の類似度重み値はどれも特定のタスクにのみ有利に用いることができるが、その一方で他のタスクにはあまり適していない。本発明は、特に自動的なシソーラスの作成に最適化された類似尺度の導出、およびこの尺度を用いてこのタスクに最適化された類似度重み値の計算に関する。
以下、基本的に与えられたテキストの集りに重要な表現はすでに指定されており、本発明は特にこの指定された表現の集合(以下候補表現tiの集合と称する場合もある)内の表現ペアの最適化された類似度重み値の算出にのみ関わると前提する。この候補表現の集合は、例えば以下の文献に示される選択アルゴリズムに基づいて候補表現選択部により編纂される。L. Chen, U. Thiel, M. L'Abbate著「Automatic Thesaurus Production and Query Expansion in an E-commerce Application」 Proceedings 8th International Symposium for Information Technology, 2002、181〜199頁 (以下「文献1」)。
以下、まず最先端の方法による類似度重み付けの概略を説明する。次に最先端の技術で既知の、非常に重要な二つの共通文脈の項について論じる。続けて関連する確率の形式でこれら既知の二つの共通文脈の項を説明する。後者は特に本発明による類似尺度occ_conに基づいた、本発明による有利な類似度重み値agw(t1、t2)の導出の準備となる。後者の導出の詳細については、後続のセクションで示す。まず本発明による共通文脈の新しい項の導入を説明し、それは本発明による類似尺度に直接つながる。その後に本発明による類似度重み付け、特に組合せ類似度重み付け形式での類似度重み付けを説明する。最後に、本発明による組合せ類似度重み付けの利点を最先端の類似度重み付けと比較して示すセクションが続く。後者は自動的に決定される関係すなわち類似度重み付けと黄金標準シソーラスの比較によって行う。
最先端の技術による統計的な類似性の定量化
a)類似度重み付け
二つの表現すなわち言葉の意味類似関係は、通常その言葉の共通特性に基づいている。類似関係の統計的な定量化は、文脈、言い換えるとテキストの集りやテキスト本文内でのある表現の前後のテキストやこの表現が出現するつながり、を特性としてみなすという原則を利用して行う。(一つの)表現の文脈は、その表現が個別に出現するすべてのテキストセグメントの集合(もしくは数)と定義することができる。二つの表現の共通文脈は、その二つの表現が共に(すなわち同一のテキストセグメントに)出現するすべてのテキストセグメントの集合(もしくは数)と定義することができる。前述の二つの定義は最新技術の出現に基づいた方法、つまり言葉の共起を分析する方法と関係している。ここで、個々のテキストセグメントの内容は考慮されない。これとは逆に、最新技術の内容に基づいた方法では、既に説明したように、テキストセグメント内の調査対象の表現の周辺で出現する内容(すなわちそのテキストセグメント内の他の表現)を用いる。後者の方法の場合、共通文脈は、(調査対象のテキストセグメントの集合に対して)一つのテキストセグメントで表現ペア(t1、t2)の第1の表現t1と少なくとも一回共起しかつある一つのテキストセグメントで表現ペアの第2の表現t2と少なくとも一回共起する表現の論理積(またはこの論理積内の対応する表現数)として与えられる。以下、第1の文脈の定義を出現文脈と称し、第2の文脈の定義を内容文脈と称する。
a)類似度重み付け
二つの表現すなわち言葉の意味類似関係は、通常その言葉の共通特性に基づいている。類似関係の統計的な定量化は、文脈、言い換えるとテキストの集りやテキスト本文内でのある表現の前後のテキストやこの表現が出現するつながり、を特性としてみなすという原則を利用して行う。(一つの)表現の文脈は、その表現が個別に出現するすべてのテキストセグメントの集合(もしくは数)と定義することができる。二つの表現の共通文脈は、その二つの表現が共に(すなわち同一のテキストセグメントに)出現するすべてのテキストセグメントの集合(もしくは数)と定義することができる。前述の二つの定義は最新技術の出現に基づいた方法、つまり言葉の共起を分析する方法と関係している。ここで、個々のテキストセグメントの内容は考慮されない。これとは逆に、最新技術の内容に基づいた方法では、既に説明したように、テキストセグメント内の調査対象の表現の周辺で出現する内容(すなわちそのテキストセグメント内の他の表現)を用いる。後者の方法の場合、共通文脈は、(調査対象のテキストセグメントの集合に対して)一つのテキストセグメントで表現ペア(t1、t2)の第1の表現t1と少なくとも一回共起しかつある一つのテキストセグメントで表現ペアの第2の表現t2と少なくとも一回共起する表現の論理積(またはこの論理積内の対応する表現数)として与えられる。以下、第1の文脈の定義を出現文脈と称し、第2の文脈の定義を内容文脈と称する。
表現ペアの類似性の定量用の類似度重み付けの最先端の方法がいくつか知られている。例として、コサイン係数COSやいわゆるdice係数DICE(L.R. Dice著「Measures of the Amount of Ecologic Association between Species」 J. of Ecology, 26, 297〜302頁)やJACCARD係数JAC(例えばVan Rijsbergen著「Information Retrieval 2nd Edition」1979参照)や相互情報量PMI(Pointwise Mutual Information)(K. Church等著「Word Association Norms, Mutual Information and Lexicography」Computational Linguistics, 16. 1, 22〜29頁, 1990参照)を使用した方法が挙げられる。これらの表現ペア(t1、t2)の類似度重み値は、図1Aに示すように、通常分割表で示される四通りの組合せによって表すことができる。ここで、tiと¬tiは一つの文脈での文脈表現ti(i=1、2)有りまたは無しを示す。ft1、t2は両方の表現t1、t2が文脈つまりテキストセグメントで共起する頻度を表す。f¬t1、f2およびft1、f¬t2は二つの表現の一方のみが文脈つまりテキストセグメントで出現する頻度を表す。最後に、f¬t1、¬t2は二つの表現のいずれも文脈つまりテキストセグメントに出現しない頻度を表す。Nは考慮対象のテキストセグメントの総数を示す(N=ft1+f¬t1=ft2+f¬t2)。例えば文章全体がテキストセグメントとして選択され、考慮対象の文書の集りが105個の異なる文章を含む場合、t1=「猫」に対してft1=10とは、「猫」が105個の文章の中の10個のテキストセグメントつまり10個の文章に出現していることを意味する。このときf¬t1は9990である。例えばt2=「犬」に対してft2=20、ft1,t2=3とは、表現ペア(t1、t2)=(「猫」、「犬」)が105個の文章中の3個の文章で共起していることを意味する。
図1BはCOS、DICE、JAC、PMIの各係数がこれらの頻度からどのように計算されるかを示すものである。もちろん、同一のテキストセグメント中の二つの表現の共起を示す頻度ft1、t2が、図示されている類似度重み付けの最も重要な因子をなす。
図1Bに示される類似度重み付けの式の上から三つ(すなわちCOS、DICE、JAC)は、用いられる頻度fがある表現が出現するテキストセグメントの数だけでなく、ある表現がテキストセグメント内で出現する頻度も各テキストセグメントについて表すように一般化することもできる。例えばCOS係数は次のように一般化することができる:
ここでtiはt1あるいはt2を意味する。出現文脈の場合、「fc(t1,t2)、ti」はt1とt2の共通テキストセグメントc、すなわちc(t1、t2)における言葉tiの頻度を表し(t1とt2の共通テキストセグメントとは、t1とt2の両方が出現するテキストセグメントのこと)、「fc(ti)、ti」はtiのテキストセグメントc、つまりc(ti)における言葉tiの頻度を表す(tiのテキストセグメントcとは、tiが出現するテキストセグメントのことである)。
内容文脈の場合、c(t1,t2)は少なくとも一つのテキストセグメントでt1と共起し、かつ(他の)少なくとも一つのテキストセグメントでt2と共起する表現cを指す。「fc(t1、t2)、ti」はc(t1,t2)とtiのすべての共通テキストセグメント内での表現c(t1,t2)の総頻度を表す。c(ti)は少なくとも一つのテキストセグメントでtiと共起する表現cを表す。「fc(ti)、ti」はc(ti)とtiのすべての共通テキストセグメント内での表現c(ti)の総頻度を表す。
以下、COS_ALLG(t1、t2)は二つの表現t1とt2間の一般化した形でのコサイン距離を表すものとする。
b)条件付き確率モデル:
個別的な文脈と一般的な文脈という異なる項に適用できる条件付き確率モデルを以下に説明する(最先端の技術による出現文脈と内容文脈および本発明による組合せ文脈についても後述する)。
個別的な文脈と一般的な文脈という異なる項に適用できる条件付き確率モデルを以下に説明する(最先端の技術による出現文脈と内容文脈および本発明による組合せ文脈についても後述する)。
この方法は、一方の表現の他方の表現に対する条件付けの強さ、より一般的に言うと表現ペアの内の表現t1の個別的な文脈が一般的な文脈(すなわち表現t1とt2両方の出現)に条件付けられる確かさの大小によって二つの表現間の関係の強さが左右されるという考えに基づいている。これは条件付き確率P(t1|t2)、つまり表現t2という条件のもとで(すなわちt2が考慮対象のテキストセグメントで既に出現しているとの条件のもとで)表現t1が出現する確率によって決定できる。この条件付き確率P(t1|t2)は、t1とt2の共通文脈に対する確率P(t1,t2)(すなわちt1とt2が一つのテキストで共起する確率)およびt1が出現またはt1が出現しないt2の文脈の確率P(t2)(すなわち考慮対象のテキストセグメント内にt2が出現する確率)から通常通り計算することができる:
ある表現ペア(t1、t2)の二つの表現がどの程度相互に依存しているかを決めるには、この条件付き確率を両方向つまり二つの表現それぞれについて乗ずる。その結果、共通条件付き確率が次のように求められる:
c)最先端の技術の出現文脈:
出現文脈は使用されることでもっとも知られている文脈タイプの一つである。(目的)表現tの出現文脈はその表現tを含むテキストセグメントの集合(または数)として定義される(ここではテキストセグメントにまだ含まれるかも知れない内容あるいは表現は考慮しない)。既に説明したように、例えば文書全体または文書の一部をテキストセグメントとして用いることができる。後者の場合、例えば複数の段落、複数の文章全体、あるいは一定のウィンドウ幅のテキストウィンドウ(すなわち厳密に規定された数の表現を含むテキストセクション)もテキストセグメントとして用いることができる。このとき、大きなテキストセグメント(特に複数の文書全体)は、表現間の関係性を決定する際に通常信頼できる基準とならない、比較的非特異的な文脈を示す。したがって、小さいテキストセグメントを用いた方が有利である。
出現文脈は使用されることでもっとも知られている文脈タイプの一つである。(目的)表現tの出現文脈はその表現tを含むテキストセグメントの集合(または数)として定義される(ここではテキストセグメントにまだ含まれるかも知れない内容あるいは表現は考慮しない)。既に説明したように、例えば文書全体または文書の一部をテキストセグメントとして用いることができる。後者の場合、例えば複数の段落、複数の文章全体、あるいは一定のウィンドウ幅のテキストウィンドウ(すなわち厳密に規定された数の表現を含むテキストセクション)もテキストセグメントとして用いることができる。このとき、大きなテキストセグメント(特に複数の文書全体)は、表現間の関係性を決定する際に通常信頼できる基準とならない、比較的非特異的な文脈を示す。したがって、小さいテキストセグメントを用いた方が有利である。
ウィンドウすなわちテキストセグメントを、目的の言葉すなわち目的の表現t用のウィンドウ(以降「テキストセグメント|tεテキストセグメント」とも称する)と、二つの目的の言葉t1、t2用のウィンドウ(以降「テキストセグメント|t1、t2εテキストセグメント」とも称する)からなる二種類のウィンドウすなわちテキストセグメントに分けると有利である。このようなテキストウィンドウの距離の単位、または位置も、常に一つの表現であり、この表現は既に定義したように一つの単語あるいは複数の単語さえ含んでなる。
本実施の形態では、目的の表現およびその右および左にそれぞれ規定数の表現を含んでなるテキストセグメントが用いられる。この規定数はおよそ20とすると有利である。ちょうど20とした場合、合計で41表現のウィンドウ幅となる。目的の表現tの上記ウィンドウにおいて、目的の表現tのウィンドウは常に文書中の目的の表現tの位置に関連付けられ、特定の位置にあるtのウィンドウは、その位置から左にn個および右にn個の表現を含んでいる(ただし文書の範囲はウィンドウの両端を超えないことに留意すべきである)。
表現tの出現文脈は以下のように定義される:
ここでocc(t)は、表現tがそれぞれ考慮対象のテキストセグメント内で出現するすべてのテキストセグメントの集合を表す(より正確にはocc(t)はこれらのテキストセグメントの数を表す)。表現tがあるテキストセグメントで出現する確率はこのようなテキストセグメントの相対数から次のように推定することができる:
ここでNはテキストの集りの中の全テキストセグメント数を表す。|occ(t)|は集合occ(t)の基数すなわちこの集合の要素数を表す。以下、この基数には、表現|occ(t)|とその省略形である表現occ(t)のいずれも用いることとする(これは|occ_con(t1、t2)|等の他の基数ついてもあてはまる)。したがって、例えば「occ(t)」がその集合そのものとその基数の省略形のいずれを指しているのかは、それぞれの意味文脈による。
二つの表現t1とt2の共通文脈はそれぞれt1とt2が共起するテキストセグメントの集合(より正確にはその数で表される)として定義される:
ここで用いられる二つの目的の表現t1とt2のウィンドウは常に両方の目的の言葉の位置pos(t1)とpos(t2)に関連付けられ、この二つの目的の言葉間の距離がn個の言葉つまり表現を超えることはない。すなわち|pos(t1)−pos(t2)|≦nが成立する。この一般原則を制限することなくpos(t2)>pos(t1)と仮定すると、二つの言葉t1とt2のウィンドウはpos(t2)から左へn個の表現分だけ延び、pos(t1)から右へn個の言葉分だけ延びる。
前述した種類のウィンドウ(一つの目的の言葉用のウィンドウと二つの目的の言葉用のウィンドウ)はいずれも動的、すなわち文書上をスライドするように移動可能であるため、重ねることができる。
再び表現t1とt2の両方が一つのテキストセグメントすなわち共通文脈で共起する(これを以降「t1 with t2」と略す)確率は共通テキストセグメントの相対数から推定することができる。
共通の条件付き確率(すなわちこの二つの表現が互いに従属する確率)は以下の式から求められる:
ここで|・・・|は、再び対応する集合の基数を表す。
d)最先端の技術による内容文脈:
セクションc)で述べたように、出現に基づいた方法の主な問題は、内容(すなわちテキストセグメント内で対象となっている表現t1とt2と共起する表現)を考慮に入れない点にある。このため、調べる対象となっている表現t1とt2が同じ内容文脈が複数回共起している(例えばt1とt2がそれぞれ出現する同一の文章が二つある)場合、このペア(t1、t2)の類似度重み付けが不適切に大きくなる。この問題を避ける方法の一つが、実際にt1および/またはt2と文脈中で共起する表現を含めて考慮することである。
セクションc)で述べたように、出現に基づいた方法の主な問題は、内容(すなわちテキストセグメント内で対象となっている表現t1とt2と共起する表現)を考慮に入れない点にある。このため、調べる対象となっている表現t1とt2が同じ内容文脈が複数回共起している(例えばt1とt2がそれぞれ出現する同一の文章が二つある)場合、このペア(t1、t2)の類似度重み付けが不適切に大きくなる。この問題を避ける方法の一つが、実際にt1および/またはt2と文脈中で共起する表現を含めて考慮することである。
この方法は、内容文脈を次のように定義することで行う:
ここで、「tconwith t」は表現tconが表現tと同じテキストセグメントで共起することを意味する。したがってcont(t)は、考慮対象のテキストセグメントの集合内の一つのテキストセグメントでそれぞれtと共起する表現tconすべての集合(より正確にはその数)を意味する。
したがって、二つの表現t1とt2の共通内容文脈は以下のように言葉t1とt2の二つの(個別の)文脈の論理積を用いて定義できる:
上記個別の内容文脈と共通内容文脈の二つの定義は共通条件付き確率の定義にも使用できる:
この定義に文脈の内容も考慮に入れた場合、このペアの二つの言葉t1とt2が一つのテキスト内では共起しないが同じ文脈表現内ではそれぞれ個別に出現する場合にも、言葉t1とt2間の関係すなわち類似度が設定できる。こうすることで、例えば考慮対象のテキストセグメントの集合内にテキストセグメント「猫が丘を走り下りる」とテキストセグメント「犬が丘を走り下りる」が出現する場合、たとえ表現「猫」と「犬」が一つのテキストセグメントに共起していなくても表現t1=「猫」およびt2=「犬」間の関係すなわち類似度が導出される。本セクションd)で説明したように、特に自動的なシソーラスの構築の分野では、内容にのみ基づいた方法はあまりうまく機能しない。その理由は、一般的な言葉(すなわち比較的広範囲の内容を持つ言葉)は調査対象のテキストセグメント内で多数の表現tconと共起するが、それらの言葉tconがこのような一般的な言葉の独特の特徴を何ら示唆できないことにあると推察される。t1とt2がこのような一般的な言葉であるとすると、少なくともあるテキストセグメント内で第一の一般的な言葉t1と一回共起しかつ少なくとも他のテキストセグメント内で第二の一般的な言葉t2と一回共起する表現tconが多数生じる、言い換えるとcon(t1、t2)つまり対応する論理積から多数得られることになる。しかし、この場合con(t1、t2)から内容についての意味関係は何も導出されない。上述した例で「男の子が丘を走り下りる」というテキストセグメントが含まれる場合、この言葉のペアの意味類似度が実際には非常に低い場合にも「犬」と「男の子」間に関係性があることになる(「猫」と「男の子」間にも関係性つまり類似度があることになる)。ここでの問題は、内容表現tcon「丘を走り下りる」は多くの動く物体と共起するため、この内容表現が「男の子」と「猫」間(あるいは「犬」と「男の子」間)に重要な共通の特徴があることを示すものではないということである。
本発明による類似度重み付け
上述の最先端の技術の問題を解決するため、本発明では出現文脈と内容文脈を共通出現および共通内容に基づいた共通文脈の一つの項に組み合わせることを提案している。すなわち、表現ペアの表現t1とt2の両方がテキストセグメントで共起する総頻度と、このテキストセグメントからなる集合内の異なる文脈表現の総数の両方を考慮に入れて類似尺度occ_con(t1、t2)を作成することを提案している。ここでの文脈表現とは、テキストセグメントの集合内の少なくとも一つのテキストセグメントで表現t1と共起しかつこの集合の他の少なくとも一つのテキストセグメントで表現t2と共起するが、t1でもt2でもない(すなわちt1とt2のいずれとも一致しない)表現である。
上述の最先端の技術の問題を解決するため、本発明では出現文脈と内容文脈を共通出現および共通内容に基づいた共通文脈の一つの項に組み合わせることを提案している。すなわち、表現ペアの表現t1とt2の両方がテキストセグメントで共起する総頻度と、このテキストセグメントからなる集合内の異なる文脈表現の総数の両方を考慮に入れて類似尺度occ_con(t1、t2)を作成することを提案している。ここでの文脈表現とは、テキストセグメントの集合内の少なくとも一つのテキストセグメントで表現t1と共起しかつこの集合の他の少なくとも一つのテキストセグメントで表現t2と共起するが、t1でもt2でもない(すなわちt1とt2のいずれとも一致しない)表現である。
このような本発明による類似尺度は特に有利であり、以下のように計算される:
このように定義された類似尺度occ_con(t1、t2)(基数で表記すると|occ_con(t1、t2)|)は、同一のテキストセグメント内でt1 およびt2と共起するすべての文脈表現tconの集合(より正確にはその数)に対応する。内容という観点から見ると、この数式の本発明による有利な類似尺度occ_con(t1、t2)はt1とt2が共起するテキストセグメントの内容を考慮に含めた内容文脈を表しており、一方出現という観点からは、この数式の指標数によると、二つの対象となっている表現t1とt2もそれぞれ同一のテキストセグメントで出現している必要がある。前述した出現のみに基づいた共通文脈とは異なり、本発明によるこの有利な類似尺度は出現と内容に基づいており、同じテキストセグメント内でt1とt2と共起する異なる文脈表現tconのすべてを同じ重要度を持つとして考慮に含める。その際に、t1とt2のこのような共通文脈が実際に特定のtconと出現する頻度は無視する。したがって同一の内容環境で表現t1とt2が複数回共起していても、類似尺度occ_con(t1、t2)には影響しない(したがってこれをもとに算出される本発明による類似度重み値agw(t1、t2)も影響を受けない。これについては後述する)。前述した内容にのみ基づいた共通文脈と比較すると、この本発明による有利な類似尺度は一つのテキストセグメントでt1 およびt2と共起する文脈表現tconを考慮に入れるだけであるため、この類似尺度は、二つの表現t1とt2の共通の特徴の重要性、すなわち実際に意味類似性が存在することをよりよく示す。
本実施の形態(すなわち前述した類似尺度occ_con(t1、t2))で用いた共通文脈の有利な項を用いて、以下説明する二種類の条件付き確率を計算する(これらの条件付き確率は、それぞれ直接あるいは組み合わせた形で本発明による表現ペアの類似度重み値agw(t1、t2)の計算に用いられる):
a)上述した類似尺度occ_con(t1、t2)を出現文脈を用いて正規化する第一の条件付き確率と、
b)上述した類似尺度occ_con(t1、t2)を共通文脈を用いて正規化する第二の条件付き確率
a)上述した類似尺度occ_con(t1、t2)を出現文脈を用いて正規化する第一の条件付き確率と、
b)上述した類似尺度occ_con(t1、t2)を共通文脈を用いて正規化する第二の条件付き確率
a)第一の条件付き確率:
これは、あるテキストセグメントにおいて第一の表現t1が存在した場合に第二の表現t2が同じテキストセグメントで共通文脈表現tconと共起する頻度と、その逆の頻度を測るものである。
この共通条件付き確率は、t1とt2が同じ(あるいは類似の)内容文脈で複数回共起することによる前述の問題を考慮に入れている。本発明による第一の類似度重み値agw(t1、t2)を次のように直接求めることにより、最先端の技術による既知のコサイン類似度重み付けCOSとの比較がよりよく行える(最新の技術によるocc(ti)の定義については、前のセクションc)参照):
これは、あるテキストセグメントにおいて第一の表現t1が存在した場合に第二の表現t2が同じテキストセグメントで共通文脈表現tconと共起する頻度と、その逆の頻度を測るものである。
b)第二の条件付き確率:
これは、二つの表現t1とt2の両方が別々にある共通文脈の言葉tconと共起(すなわちt1が第1のテキストセグメントでtconと共起)し、t2が第二のテキストセグメントでtconと共起するという条件が満たされた場合に、この表現t1とt2が共起する確率を測るものである。この第二の条件付き確率は次のように定義され、
本発明による類似度重み値agw(t1、t2)としてこのまま用いることができる(con(t1、t2)の定義については前のセクションd)の最先端の技術参照)。こうして計算された類似度重み値agw(t1、t2)は「アスペクト比(t1、t2)」とも呼ばれる。
これは、二つの表現t1とt2の両方が別々にある共通文脈の言葉tconと共起(すなわちt1が第1のテキストセグメントでtconと共起)し、t2が第二のテキストセグメントでtconと共起するという条件が満たされた場合に、この表現t1とt2が共起する確率を測るものである。この第二の条件付き確率は次のように定義され、
こうしてF2)で計算した条件付き確率は、指標数con(t1、t2)には含まれるが指標数occ_con(t1、t2)には含まれない共通文脈表現tconの問題を考慮に入れている。このように計算された類似度重み値(アスペクト比)によって、共通の文脈表現を多く有する傾向のある(その結果con(t1、t2)が大きくなる)一般的な言葉(「月」「星」など)間のみかけの関係性を排除することができる。ここで、このアスペクト比は一般的な言葉と非常に特殊な言葉(例えば「望遠鏡」と「リッチー・クレチアン望遠鏡」など)間に実際に存在する関係性は排除しないという効果がある。後者の効果は、特殊な表現とそれ以外の表現との共通内容文脈は通常比較的低いという事実によるものである。
類似尺度occ_con(t1、t2)の正規化において、occ_conはすでに述べたように一方の観点から見ると二つの表現t1とt2が共起する総頻度を考慮に入れた出現文脈であり、他方の観点から見ると異なる文脈表現の総数を考慮に入れた内容文脈である。したがって、観点が異なると、occ_con(t1、t2)を次のように異なる方法で正規化することが考えられる:
1.出現文脈という観点からは、occ_conは個別の出現文脈、すなわちocc(t1)とocc(t2)で正規化される。
2.内容文脈という観点からは、基本的に更に二通りの正規化が考えられる。:
2.1.occ_conは個別の内容文脈、すなわちocc(t1)とocc(t2)で正規化される:
2.2.occ_conはt1とt2の共通内容文脈、すなわちcon(t1、t2)で正規化され、この場合アスペクト比が得られる。
1.出現文脈という観点からは、occ_conは個別の出現文脈、すなわちocc(t1)とocc(t2)で正規化される。
2.1.occ_conは個別の内容文脈、すなわちocc(t1)とocc(t2)で正規化される:
実験にて確認されたように、1.と2.1.からは関係性の計算で非常に似た結果が得られ、1.からは2.1.よりもややよい結果が得られる。出現文脈occの大きな問題点は、t1とt2が同じあるいは類似の内容環境で複数回共起する場合、t1とt2の関係が過大に推定されてしまうことである。この場合、内容環境が似ているため、共通出現の頻度が比較的大きくかつ|occ_con(t1、t2)|、con(t1)、con(t2)の値が比較的低くなり、その結果|occ(t1)|と|occ(t2)|の値は比較的大きくなる。したがって、後者の三つの集合または基数は異なる文脈表現を少ししか含まない。このように分子と分母が小さい2.1.からは比較的大きな比が得られるが、これは間違っている。反対に、分子が小さく分母が大きな1.の比は常に小さく、これは正しい。2.2.は実は常に2.1.と同じ問題を有するが、前述したように、関係性の計算に2.2.は1.および2.1.とは異なる相関性を用いる。したがって、本発明では1.および2.2.を用いるかあるいは組み合わせている。
本発明によると、まず類似度重み値F1あるいは類似度重み値F2を用いて二つの表現t1とt2の類似性を定量化する。しかし、本発明によると、F1×F2、F1×F3、またはF2×F3の組合せの積の一つを類似度重み値agw(t1、t2)として用いるとより有利である。しかし、本発明によると、これら三つの類似度重み値すべてを組合せた積F1×F2×F3、つまり以下の式を用いると特に有利である:
この三重積の組合せrel_comb(t1、t2)が有利なのは、特に言葉t1とt2間に意味関係性が存在することを示すそれぞれの指標について、異なる統計情報を考慮に入れてその関係性を決定しているからである。
本発明による類似度定量化と最先端の技術による類似度定量化の比較
本発明による類似度計算システムは、候補表現ペア(ti1,ti2)(i=1、...、m)の設定可能な数m(m≧2である自然数mε)を類似度重み値agw(t1、t2)に基づいて選択することができる目的表現ペア選択部を有しており、有利である。このシステムの重要な要素は既にここまでに説明してある(以降図4を参照してそれぞれの要素についてより正確に説明する)。ここで、m個の候補表現ペアが最大の計算類似度重み値を持つように選択されることが好ましい。これらのm個の選択された候補表現ペアは以降「目的表現ペア」と称する場合もある。
本発明による類似度計算システムは、候補表現ペア(ti1,ti2)(i=1、...、m)の設定可能な数m(m≧2である自然数mε)を類似度重み値agw(t1、t2)に基づいて選択することができる目的表現ペア選択部を有しており、有利である。このシステムの重要な要素は既にここまでに説明してある(以降図4を参照してそれぞれの要素についてより正確に説明する)。ここで、m個の候補表現ペアが最大の計算類似度重み値を持つように選択されることが好ましい。これらのm個の選択された候補表現ペアは以降「目的表現ペア」と称する場合もある。
本発明による類似度重み値を、このような選択されたm個の目的表現ペアの集合を用いて評価することができる。
この評価においてまずは異なる類似度重み付け方法のそれぞれについて比較するため、候補表現ペアの類似度重み値を計算する。m個の目的表現ペアの選択は、特定の指標数よりも類似度重み値が低い候補表現ペアを排除するための閾値の設定とみなすことができる。
完璧な類似度重み付け方法というものは存在しないため、m個の目的の表現の集合がノイズ、すなわち実際には関係性が存在しないにも関わらず誤って高い類似度重み値が与えられる表現ペアを含んでしまうのは避けられない。以下説明する評価の原則は、正確な類似度重み付け方法では実際に存在するつまり関連性がある意味関係に対して不正確な方法よりも高い類似度重み値を設定するので、m個の選択された目的表現ペア中に不正確な類似度重み付け方法の場合よりも多くのペアが意味関係(以降「関連性がある関係」と称する場合もある)を実際に有するという事実に基づいている。
実際に特定の表現ペア(ti1、ti2)間に関連性があるか否かは、考慮対象の文書の集りについて手作業で作成したシソーラスと自動比較して評価する。つまり、関連性がある関係であるとみなされた目的表現ペアが、手作業で作成されたシソーラス(黄金標準)内で関連性がある関係と定義されている場合は、正しく分類されている。
類似度重み付け方法の効果は、その精度PR(m)と合致率R(m)を、与えられた黄金標準に対する選択された目的表現ペアの個数であるmの関数として計算することによって評価できる。Lが金基準に存在するペア単位の関係の総数、すなわち関連性がある関係の総数と定義した場合、mは類似度重み値(ここでは文書中、ペアの両方が黄金標準にも用いられている表現ペアの重み値のみを算出)について対象の方法で選択された目的表現ペアの個数である。y(m)を黄金標準で意味関連性がある関係を持つm個の中から選択された目的表現ペアの個数とすると、精度および合致率は次のように定義できる:
F値(Van Rijsbergen著「Information Retrieval」1979年参照)を用いることで、これら二つの尺度値を一つの尺度値に組合せて記録することができる。
ここでそれぞれ選択されたm個の目的表現ペアとそれに関連したF値F(m)を座標にプロットし、異なるF(m)カーブを参照することによって異なる類似度重み値を比較することができる。ある類似度重み付け方法の特定の値mに対するF(m)カーブが他の類似度重み付け方法のF(m)カーブよりも上にあるならば、この方法はこの値mに関してより正確な方法である。
以降示す比較の結果は、次のようにして得たものである:
・テキストの集りとして、天文学分野の約8000個のテキスト文書を用いた。このテキスト文書には前述した前処理を行った。
・手作業で作成した約2900個の個別の言葉を含む天文学のシソーラスを黄金標準として用いた。
・自動的なシソーラスの構築で通常行われるように、第一のステップで適切な表現選択方法を用いて(例えば参考文献1に記述されているように)適切な重み値を各表現に割り当て、それらについて類似度重み値agw(t1、t2)をペア単位で計算することによって候補表現tiの集合を選択するのではなく、黄金標準表現のペアは、各ペアの表現t1とt2の両方がそれぞれテキストの集りのうち少なくとも三つの文書で共起するような、簡単な方法で決定された。この結果、約40000の候補表現ペアが作成された。関連性がある関係(L=743)が黄金標準シソーラス内の候補表現の743個に割り当てられた。類似度重み付け方法の比較の対象は、選択されたm個の、もっとも高い重み付けをされた目的表現ペア(ti1、ti2)のうち黄金標準で関連性がある関係に割り当てられたy個のペアに属するものがいくつあるかで表される(したがってmは1〜40000の範囲内の値を取りうる)。異なる類似度重み付け方法による黄金標準の関連性がある関係の抽出は次のセクションで再現される。
・テキストの集りとして、天文学分野の約8000個のテキスト文書を用いた。このテキスト文書には前述した前処理を行った。
・手作業で作成した約2900個の個別の言葉を含む天文学のシソーラスを黄金標準として用いた。
・自動的なシソーラスの構築で通常行われるように、第一のステップで適切な表現選択方法を用いて(例えば参考文献1に記述されているように)適切な重み値を各表現に割り当て、それらについて類似度重み値agw(t1、t2)をペア単位で計算することによって候補表現tiの集合を選択するのではなく、黄金標準表現のペアは、各ペアの表現t1とt2の両方がそれぞれテキストの集りのうち少なくとも三つの文書で共起するような、簡単な方法で決定された。この結果、約40000の候補表現ペアが作成された。関連性がある関係(L=743)が黄金標準シソーラス内の候補表現の743個に割り当てられた。類似度重み付け方法の比較の対象は、選択されたm個の、もっとも高い重み付けをされた目的表現ペア(ti1、ti2)のうち黄金標準で関連性がある関係に割り当てられたy個のペアに属するものがいくつあるかで表される(したがってmは1〜40000の範囲内の値を取りうる)。異なる類似度重み付け方法による黄金標準の関連性がある関係の抽出は次のセクションで再現される。
図2は最先端の技術で既知のPMI重み付け方法の、異なる方法による結果を示す。方法が異なると、個々の頻度fの計算の種類も異なる。例えば図2Aの1行目で示した方法の例では、本発明による類似尺度occ_con(t1、t2)を用いて頻度ft1、t2を計算した一方、言葉t1またはt2の個別の文脈の頻度は上述したocc(ti)値(i=1、2)を用いて計算した。これに対し、2行目に示した方法では、共通文脈は例えば最先端の技術による指標数occ(t1、t2)を用いて計算した(個別の文脈は1行目に示した方法と同様に計算した)。図2Aの上から3行に示される方法では、テキストセグメントの大きさは41(それぞれ中央にある目的の表現と、その左右に20表現ずつ)に設定した。
一方、4行目に選択された方法(PMI_occ_doc)だけは、対応する頻度の指標数occ(ti)つまりocc(t1、t2)は完全なテキスト文書の形のテキストセグメントに基づいて計算した(したがって指標数すなわちその値をocc_doc(ti)またはocc_doc(t1、t2)と称する)。図2Bは、図2Aに示す最先端の技術において既知のPMI重み付けのうち異なる方法による推移を示す。なお、上述したように、異なる方法では、個別の文脈と共通文脈に用いた項がそれぞれ異なる。
図2Bに示すように、完全なテキスト文書の形でのテキストセグメントに基づいて計算した方法のF値が最小であり、したがって四つの類似度重み付け方法のうちでもっとも劣っている。予想通り小さいテキストセグメントを用いた方法は、この方法より優れた結果を示した。しかし、内容文脈に基づいた方法PMI_conは、ほんの少し優れているにすぎない。出現文脈のみに基づいた方法PMI_occは、内容文脈にのみ基づいた方法PMI_conよりもずっと優れている。一番良い結果は、比較的少しの差でしか上回っていないのだが、共通文脈を本発明による類似尺度occ_con(t1、t2)に基づいて計算したPMI類似度重み付け方法、つまりPMI_occ_conによって達成された。類似度重み付けをこのように、本発明による類似尺度occ_con(t1、t2)をPMI類似度重み付けなどの最先端の技術で既知の類似度重み付けに含めることにより、文脈にのみあるいは出現にのみ基づいた共通文脈を用いる方法よりもよい結果が得られることがこの例からわかる。
しかしながら、図3に示すように、本発明による類似尺度occ_con(t1、t2)の利点が完全に発揮されるのは後者を前述した本発明による類似度重み付けに用いた場合である。図3はこれらの類似度重み付けを出現にのみ基づいたコサイン類似度重み付けCOS_occ_doc_ALLGと比較したものである。COS_occ_doc_ALLGは最先端の技術でよく用いられており、テキスト文書全体の形でのテキストセグメントに基づいている(COS値は前述したように一般化した指標数COS_ALLGによって計算したものである)。比較のため、出現にのみ基づいた類似度重み付けF3、すなわちrel_occ(t1、t2)も図示してある(前を参照)。予想通りではあるが、文書に基づいた類似度重み付けCOS_occ_doc_ALLGがもっとも悪く、しかも大きな差がついている。部分因子F1あるいはF2にのみ基づいた本発明による類似度重み付けrel_occ_occ(t1、t2)やアスペクト比(t1、t2)の方が顕著に優れている。出現にのみ基づいた類似度重み付けrel_occ(t1、t2)でさえも、比較的優れている。これら三つの個別の部分因子F1、F2、F3(前を参照)はそれぞれ異なる統計上の裏付けに基づいて関係性の有無を決めるので、実際に関連性のある関係の指標としての類似度重み付けの本発明による類似度重み値agw(t1、t2)の精度は、乗算で結合される個別の因子の数が多いほどさらに高まる。このようにF2×F3あるいはF1×F3の二重積の組合せ(アスペクト比×rel_occあるいはrel_occ_con×rel_occ)がF値を明らかに改善することは既に示した(第三の組合せF1×F2すなわちrel_occ_con×アスペクト比は他の二組の組合せと非常に似ているため、ここでは示さない)。しかしながら、明らかに最良の結果を示すのは、三つの個別の因子F1、F2およびF3すべてを組合せた積に基づいて計算される、本発明による類似度重み付けrel_comb(t1、t2)である。
これより得られるF値の最大値は0.2407であり、COS_occ_doc_ALLG(F値の最大値=0.1424)から約70%改善したことになる。ここでCOS_occ_doc_ALLGを比較用の類似度重み付けてとして採用した理由は、自動的なシソーラスの構築の分野においてこの計算方法が現在もっともよく用いられるからである。
最後に、図4は本発明による自動的な、コンピュータを用いた類似度計算システムの具体的な構成を示す。この例では、システムはパーソナルコンピュータPC(R)を用いたコンピュータシステムとして構成されている。このシステムはまず文書メモリ部すなわち文書データ保存部(1)を含む。ここにはテキスト文書が電子形式で保存される。メモリ部(1)の入力側はCD/DVDリーダであるアダプタ(10)に接続されている。この例では、文書データメモリ部(1)に保存されるテキスト文書の集りはまず光ディスクCD(9)上にテキスト文書の集り(1a)として保存される。それぞれのテキスト文書はアダプタ(10)によって光ディスクから読み込まれ、文書データ保存部(1)に保存される。
文書データ保存部(1)の出力側はテキスト文書前処理部(5)に接続されている。テキスト文書前処理部(5)において、個々のテキスト文書は前述したように前処理される。例えば、htmlコントロールコマンドなどのコントロールワードやストップワードを個々のテキスト文書から削除することができる。同様に語幹への還元も行うことができる。ここでのテキスト文書前処理部(5)は前処理されたテキスト文書を保存するメモリを有する。対象となっている文書の集りに特徴的な個別の表現、すなわち候補表現tiの集合がこの前処理されたテキスト文書から候補表現選択部(4)によって選択される。このような候補表現をテキスト文書から選択する方法は最先端の技術で既知であり、ここでは詳細を説明しない。一例のみ挙げると、例えば参考文献1で述べられているように、特定のテキストカテゴリに対するカテゴリ限定表現(例えば天文学を主題とする分野に関する内容のテキスト文書)が分散分析を用いて選択される。選択された候補表現tiの集合は、候補表現選択部(4)に接続された候補表現メモリ部(2)に保存される。
図示の類似度計算システムの核となるのは類似度重み値計算部(3)であり、その入力側は文書前処理部(5)と候補表現メモリ部(2)の両方に接続されている。類似度重み値計算部(3)は既に詳細に説明したようにメモリ部(2)から候補表現(t1、t2)のペアを選択し、前処理部(5)に保存されたテキスト文書のテキストセグメント内でのペアの個別の表現あるいは両方の表現の出現を調べ、前述したようなこの他の必要なステップをすべて行い、本発明によるペアの類似度重み値agw(t1、t2)を計算する。計算部(3)は算出された類似度重み値agwを保存可能なメモリ部を同様に有する。
類似度重み値計算部(3)の出力側は目的表現ペア選択部(6)に接続されている。この選択部(6)は候補表現ペア(ti1、ti2)の規定数m(i=1、...m)を既に計算部(3)によって算出された類似度重み値agw(ti1、ti2)に基づいて選択できる。目的表現ペア選択部(6)が、重み値が計算された候補表現ペアの集合から、算出される類似度重み値agw(ti1、ti2)(i=1、...m)が最も高くなるようなm個の候補表現ペアを選択することが好ましい。目的表現ペア選択部(6)はハードウェア回路として形成されてもよいし、あるいは対応するプログラムコードとしてメモリ部に保存されてもよい。同様のことが上記の前処理部(5)、候補表現選択部(4)、および以下説明する構築部(8)についてもあてはまる。一部をハードウェア回路とし、一部をプログラムコードとして形成しても良い。最も高い類似度重み値を持つm個の候補表現ペアを選択するため、目的表現ペア選択部(6)は重み値に従って候補表現ペアを並び替えることができる目的表現ペア並び替え部(7)を有している。
選択部(6)の出力側は目的表現ペア構築部(8)に接続されている。目的表現ペア構築部(8)は、m個の選択された目的表現ペアの個別の表現をこの目的表現ペアのm個の関連する類似度重み値に基づいて階層構造に適切な方法で分類することができる。このような構築部あるいは構築方法は最先端の技術で既知であり、ここではこれ以上取り扱わない。例えば参照文献1記載のレイヤーシード法を用いた階層構築が考えられる。
その後、構築部(8)によって決定された階層構造を、またはm個の選択された目的表現ペアも、モニタに表示してもよい(11)。
1 文書データ保存部
2 候補表現メモリ部
3 類似度重み値計算部
4 候補表現選択部
5 テキスト文書前処理部
6 目的表現ペア選択部
7 目的表現ペア並び替え部
8 目的表現ペア構築部
9 メモリ装置
10 データ転送装置(アダプタ)
2 候補表現メモリ部
3 類似度重み値計算部
4 候補表現選択部
5 テキスト文書前処理部
6 目的表現ペア選択部
7 目的表現ペア並び替え部
8 目的表現ペア構築部
9 メモリ装置
10 データ転送装置(アダプタ)
Claims (54)
- 少なくとも一つのテキスト文書を含むテキスト文書の集りをデジタル形式で保存可能でありかつ/または保存する文書データ保存部(1)と、
それぞれ前記集りのテキスト文書の少なくとも一つに出現する表現tiをいくつか含む候補表現tiの集合を保存可能でありかつ/または保存する候補表現メモリ部(2)と、
少なくとも一組の候補表現t1とt2を前記候補表現の集合から選択可能であって、少なくとも前記一組の選択された表現ペアについて類似度重み値agw(t1、t2)を計算可能な類似度重み値計算部(3)とを備え、
前記類似度重み値agw(t1、t2)は、前記テキスト文書の集りから選択可能もしくは選択されたいくつかのテキストセグメントからなるテキストセグメントの集合内の同一テキストセグメントで前記表現ペアの二つの表現t1とt2が共起する総頻度と、このテキストセグメントの集合内の異なる文脈表現の総数の両方を考慮に入れた類似尺度|occ_con(t1、t2)|に基づいて計算可能であり、
文脈表現は、このテキストセグメントの集合の少なくとも一つのテキストセグメントで表現t1と共起しかつ少なくとも一つのセグメントで表現t2と共起する表現であって、t1とt2のいずれとも一致しない表現であること、
を特徴とする、表現ペアの二つの表現の類似度を定量化する表現ペアの類似度重み値を計算するための、コンピュータを用いた類似度自動計算システム。 - 文脈表現が、前記テキストセグメントの集合の少なくとも一つのテキストセグメントで表現t1とt2の両方と共起するテキストセグメントであること、
を特徴とする先行する請求項に記載の類似度計算システム。 - 前記類似尺度occ_con(t1、t2)は前記テキストセグメントの集合の少なくとも一つのテキストセグメントで表現t1と表現t2の両方と共起しかつt1とt2のいずれとも対応または一致しない文脈表現の総数であり、一つ以上のテキストセグメントで同じ形で出現する文脈表現は一回の共起としてのみカウントすることで異なる文脈表現の数だけを考慮に入れること、
を特徴とする先行する請求項のいずれか一項に記載の類似度計算システム。 - 前記類似度重み値agw(t1、t2)は、一つあるいは複数の第一表現があるテキストセグメント内で出現しているという条件のもとでこのテキストセグメントに一つあるいは複数の第二の表現が出現する少なくとも一つの条件付き確率に基づいて、あるいはこのような条件付き確率の概算値に基づいて計算可能であること、
を特徴とする先行する請求項のいずれか一項に記載の類似度計算システム。 - 前記条件付き確率は二つの条件付き確率または同条件付き確率の二つの概算値の積であること、を特徴とする先行する請求項に記載の類似度計算システム。
- 前記二つの条件付き確率の一方の条件は一つのテキストセグメント内でt1が出現することであり、他方の条件は一つのテキストセグメント内でt2が出現すること、を特徴とする先行する請求項に記載の類似度計算システム。
- 前記類似度重み値agw(t1、t2)は正規化された類似性尺度occ_con(t1、t2)に基づいて計算され、occ_con(t1、t2)の正規化は、前記テキストセグメントの集合内でt1が出現するテキストセグメントの総数と前記テキストセグメントの集合内でt2が出現するテキストセグメントの総数の積を用いて行うこと、
を特徴とする先行する請求項のいずれか一項および請求項3に記載の類似度計算システム。 - 前記テキストセグメントの集合の少なくとも一つのテキストセグメントが完全なテキスト文書であること、を特徴とする先行する請求項のいずれか一項に記載の類似度計算システム。
- 前記テキストセグメントの集合の少なくとも一つのテキストセグメントがあるテキスト文書の一部であること、を特徴とする先行する請求項のいずれか一項に記載の類似度計算システム。
- 前記一部は章、節、テキスト段落、一文、もしくは二つの句読点に挟まれた一文の一部であり、あるいは前記一部は空白文字で区切られかつ連続している規定数n個の前記テキスト文書の個別の表現あるいは単語(ウィンドウ幅がnであるテキストウィンドウ)に対応すること、を特徴とする先行する請求項に記載の類似度計算システム。
- 3≦n≦101、好ましくは11≦n≦81、好ましくは21≦n≦61、好ましくは31≦n≦51、特に好ましくはn=41が適用されること、を特徴とする先行する請求項に記載の類似度計算システム。
- 前記テキストセグメントの集合の少なくとも二つのテキストセグメントが互いに重なり合う、すなわち少なくとも一つの共通セグメントセクションを有すること、を特徴とする先行する二つの請求項の一項に記載の類似度計算システム。
- 候補表現tiを前記テキスト文書あるいは前記集りの文書から選択可能であり、かつ候補表現メモリ部(2)に送信可能な候補表現選択部(4)を備えること、を特徴とする先行する請求項のいずれか一項に記載の類似度計算システム。
- 前記候補表現tiが選択されて候補表現メモリ部(2)に送信される前に前記集りのテキスト文書を前処理することができるテキスト文書前処理部(5)を備えること、を特徴とする先行する請求項のいずれか一項に記載の類似度計算システム。
- テキスト文書前処理部(5)が、
テキスト文書に含まれるコントロールワードを減らすことができるコントロールワード削除部、特にHTMLコントロールコマンド削除部および/または、
テキスト文書に含まれるストップワードを減らすことが可能なストップワード削除部および/または
テキスト文書に含まれる言葉をそれぞれの語幹まで還元することによってテキスト文書を語幹の集りへ還元可能な語幹還元部とを有すること、
を特徴とする先行する請求項に記載の類似度計算システム。 - 算出された類似度重み値agw(ti1、ti2)に基づいて決定可能な数である候補表現ペアti1およびti2の数m(i=1、...、m)(mは自然数であってm≧2)を選択可能な目的表現ペア選択部(6)を備えること、を特徴とする先行する請求項のいずれか一項に記載の類似度計算システム。
- 前記目的表現ペア選択部(6)は候補表現ペアをそれぞれの重み値の大きさの昇順あるいは降順に並び替えることができる目的表現ペア並び替え部(7)を有し、前記目的表現ペア選択部(6)は算出された類似度重み値が最も高いm個の候補表現ペアを選択可能であること、を特徴とする先行する請求項に記載の類似度計算システム。
- m個の選択された目的表現ペアの個別の表現を前記目的表現ペアのm個の類似度重み値に基づいて階層構造に配置することができる目的表現ペア構築部(8)を備えること、を特徴とする先行する二つの請求項の一項に記載の類似度計算システム。
- テキストセグメントでの表現の出現は大文字/小文字表記の違い、ハイフンの有無、および/または連続した個別の単語間の空白文字の数の違いを無視して決定できること、を特徴とする先行する請求項のいずれか一項に記載の類似度計算システム。
- コンピュータシステム(R)、特に、前記文書データ保存部(1)、前記候補表現メモリ部(2)および/または前記類似度重み値計算部(3)を配置可能でありかつ/あるいは配置したパーソナルコンピュータPCを備えること、を特徴とする先行する請求項のいずれか一項に記載の類似度計算システム。
- 前記文書データ保存部(1)、前記候補表現メモリ部(2)および/または前記類似度重み値計算部(3)が少なくとも部分的にコンピュータシステム(R1)の前記物理メインメモリあるいはその一部によって構成可能でありかつ/あるいは構成されていること、を特徴とする先行する請求項に記載の類似度計算システム。
- 前記文書データ保存部(1)の少なくとも一部を配置可能でありかつ/または配置された少なくとも一つの好ましくは持ち運び可能なメモリ装置(9)を備えること、を特徴とする先行する請求項のいずれか一項に記載の類似度計算システム。
- 前記メモリ装置(9)は光ディスク、特にCDまたはDVD、もしくはポータブルハードディスクであること、を特徴とする先行する請求項に記載の類似度計算システム。
- 前記コンピュータシステム(R)は少なくとも一つのデータ転送装置(10)、特に光学読取り装置あるいはハードディスクアダプタを、前記メモリ装置(9)へのデータ転送、特にテキスト文書をデジタル形式で転送するために有すること、を特徴とする先行する二つの請求項および請求項24の一つに記載の類似度計算システム。
- デジタル形式で保存された少なくとも一つのテキスト文書を含むテキスト文書の集りと、
保存されている表現であって、それぞれ前記集りのテキスト文書の少なくとも一つに出現する表現tiをいくつか含む候補表現tiの集合と、
前記候補表現の集合から選択され、かつ類似度重み値agw(t1、t2)が計算されている少なくとも一組の候補表現ペアt1とt2とを備え、
前記類似度重み値agw(t1、t2)は、前記テキスト文書の集りから選択可能もしくは選択された、いくつかのテキストセグメントからなるテキストセグメントの集合内の同一テキストセグメントで前記表現ペアの二つの表現t1とt2が共起する総頻度と、このテキストセグメントの集合内の異なる文脈表現の総数の両方を考慮に入れた類似尺度occ_con(t1、t2)に基づいて計算され、
文脈表現は、このテキストセグメントの集合の少なくとも一つのテキストセグメントで表現t1と共起しかつ少なくとも一つのセグメントで表現t2と共起する表現であって、t1とt2のいずれとも一致しない表現であること、
を特徴とする、表現ペアの二つの表現の類似性を定量化する類似度重み値を計算するための、コンピュータを用いた自動類似度計算方法。 - 請求項1から28のいずれか一項に記載の類似度計算システムを用いたこと、を特徴とする先行する請求項に記載の類似度計算方法。
- 文脈表現として、前記テキストセグメントの集合内で少なくとも一つのテキストセグメントにおいて表現t1とt2の両方と共起する表現のみを考慮に入れること、を特徴とする先行する二つの請求項の一項に記載の類似度計算方法。
- 前記類似尺度occ_con(t1、t2)として、前記テキストセグメントの集合の少なくとも一つのテキストセグメントで表現t1と表現t2の両方と共起しかつt1とt2のいずれとも対応または一致しない文脈表現の総数であり、一つ以上のテキストセグメントで同じ形で出現する文脈表現は一回の共起としてのみカウントすることで異なる文脈表現の数だけを考慮に入れること、
を特徴とする先行する三つの請求項のいずれか一項に記載の類似度計算方法。 - 前記類似度重み値agw(t1、t2)は、一つあるいは複数の第一表現があるテキストセグメント内で出現しているという条件のもとでこのテキストセグメントに一つあるいは複数の第二の表現が出現する少なくとも一つの条件付き確率に基づいて、あるいはこのような条件付き確率の概算値に基づいて計算されること、
を特徴とする請求項29から32の一項に記載の類似度計算方法。 - 前記条件付き確率は二つの条件付き確率または同条件付き確率の二つの概算値の積であること、を特徴とする先行する請求項に記載の類似度計算方法。
- 前記二つの条件付き確率の一方の条件は一つのテキストセグメント内でのt1の出現であり、他方の条件は一つのテキストセグメント内でのt2の出現であること、を特徴とする先行する請求項に記載の類似度計算方法。
- 前記類似度重み値agw(t1、t2)は正規化された類似性尺度occ_con(t1、t2)に基づいて計算され、前記occ_con(t1、t2)の正規化は、前記テキストセグメントの集合内でt1が出現するテキストセグメントの総数と前記テキストセグメントの集合内でt2が出現するテキストセグメントの総数の積を用いて行うこと、
を特徴とする請求項29から35の一項および請求項32に記載の類似度計算方法。 - 前記テキストセグメントの集合の少なくとも一つのテキストセグメントが完全なテキスト文書であること、を特徴とする請求項29から40の一項に記載の類似度計算方法。
- 前記テキストセグメントの集合の少なくとも一つのテキストセグメントがあるテキスト文書の一部であること、を特徴とする請求項29から41の一項に記載の類似度計算方法。
- 前記一部は章、節、テキスト段落、一文、または二つの句読記号に挟まれた一文の一部であり、もしくは前記一部はテキスト文書の中の空白文字で区切られかつ連続している規定数n個の個別の表現あるいは単語(ウィンドウ幅がnであるテキストウィンドウ)に対応すること、を特徴とする先行する請求項に記載の類似度計算方法。
- 3≦n≦101、好ましくは11≦n≦81、好ましくは21≦n≦61、好ましくは31≦n≦51、特に好ましくはn=41が適用されること、を特徴とする先行する請求項に記載の類似度計算方法。
- 前記テキストセグメントの集合の少なくとも二つのテキストセグメントが互いに重なり合う、すなわち少なくとも一つの共通セグメントセクションを有すること、を特徴とする先行する二つの請求項の一項に記載の類似度計算方法。
- テキストセグメントでの表現の出現は大文字/小文字表記の違い、ハイフンの有無、および/または連続した個別の単語間の空白文字の数の違いを無視して決定されること、を特徴とする請求項29から45の一項に記載の類似度計算方法。
- コンピュータを用いて、テキストセグメントの集合から情報、表現、または言葉を自動的に選択および/あるいは情報、表現、または言葉を自動的に構築するための類似度計算システムもしくは類似度計算方法の使用。
- コンピュータを用いた自動的なシソーラスの構築および/またはオントロジーの構築の分野における、請求項1から46の一項に記載された類似度計算システムまたは類似度計算方法の使用。
- 前記シソーラスおよび/または前記オントロジーの言葉間の意味関係の構築の分野における先行する請求項に記載の使用。
- コンピュータを用いたテキスト文書の自動分類の分野における、請求項1から46の一項に記載された類似度計算システムまたは類似度計算方法の使用。
- インターネット検索マシンおよび/またはデータバンク検索マシンにおける、コンピュータを用いた自動的な問合せ拡張および/あるいは問合せの改善、特にコンピュータを用いた完全自動および/または一部自動の対話型問合せ拡張および/あるいは問合せの改善の分野における、
請求項1から46の一項に記載された類似度計算システムまたは類似度計算方法の使用。 - 異なる種類のテキスト文書データバンクを統合する目的でのコンピュータを用いた自動的な意味ネットワークの構築の分野における、請求項1から46の一項に記載された類似度計算システムまたは類似度計算方法の使用。
- コンピュータを用いた対象範囲の概要説明および/または対象範囲の内容要約の自動作成の分野における、請求項1から46の一項に記載された類似度計算システムまたは類似度計算方法の使用。
- 自動化された統合および/または検索索引の構築における、請求項1から46の一項に記載された類似度計算システムまたは類似度計算方法の使用。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102005051617A DE102005051617B4 (de) | 2005-10-27 | 2005-10-27 | Automatisches, computerbasiertes Ähnlichkeitsberechnungssystem zur Quantifizierung der Ähnlichkeit von Textausdrücken |
PCT/EP2006/010332 WO2007048607A2 (de) | 2005-10-27 | 2006-10-26 | Automatisches, computerbasiertes ähnlichkeitsberechnungssystem zur quantifizierung der ähnlichkeit von textausdrücken |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009514076A true JP2009514076A (ja) | 2009-04-02 |
Family
ID=37820638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008537004A Pending JP2009514076A (ja) | 2005-10-27 | 2006-10-26 | テキスト表現の類似性を定量化するコンピュータを用いた自動類似度計算システム |
Country Status (6)
Country | Link |
---|---|
US (1) | US20090157656A1 (ja) |
EP (1) | EP1941404A2 (ja) |
JP (1) | JP2009514076A (ja) |
CN (1) | CN101361066A (ja) |
DE (1) | DE102005051617B4 (ja) |
WO (1) | WO2007048607A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010231766A (ja) * | 2009-03-02 | 2010-10-14 | Fujitsu Ltd | 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法 |
JP2013114383A (ja) * | 2011-11-28 | 2013-06-10 | Denso Corp | プライバシー保護方法、車両用装置、車両用通信システムおよび携帯端末 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100530183C (zh) * | 2006-05-19 | 2009-08-19 | 华为技术有限公司 | 一种收集用户数据的系统及方法 |
US8156142B2 (en) * | 2008-12-22 | 2012-04-10 | Sap Ag | Semantically weighted searching in a governed corpus of terms |
US8166051B1 (en) * | 2009-02-03 | 2012-04-24 | Sandia Corporation | Computation of term dominance in text documents |
JP5382651B2 (ja) * | 2009-09-09 | 2014-01-08 | 独立行政法人情報通信研究機構 | 単語対取得装置、単語対取得方法、およびプログラム |
US8356045B2 (en) * | 2009-12-09 | 2013-01-15 | International Business Machines Corporation | Method to identify common structures in formatted text documents |
CN101908041B (zh) * | 2010-05-06 | 2012-07-04 | 江苏省现代企业信息化应用支撑软件工程技术研发中心 | 一种基于多代理机制的多词表达抽取系统及方法 |
JP2013149061A (ja) * | 2012-01-19 | 2013-08-01 | Nec Corp | 文書類似性評価システム、文書類似性評価方法およびコンピュータ・プログラム |
CN102622411A (zh) * | 2012-02-17 | 2012-08-01 | 清华大学 | 一种结构化摘要的生成方法 |
CN102595214A (zh) * | 2012-03-06 | 2012-07-18 | 浪潮(山东)电子信息有限公司 | 一种数字电视节目关联推荐的方法 |
US10691737B2 (en) * | 2013-02-05 | 2020-06-23 | Intel Corporation | Content summarization and/or recommendation apparatus and method |
US20160179868A1 (en) * | 2014-12-18 | 2016-06-23 | GM Global Technology Operations LLC | Methodology and apparatus for consistency check by comparison of ontology models |
RU2623902C2 (ru) * | 2015-07-13 | 2017-06-29 | Федеральное государственное бюджетное учреждение "4 Центральный научно-исследовательский институт" Министерства обороны Российской Федерации | Устройство выявления предпочтительного средства защиты информации |
CN106649650B (zh) * | 2016-12-10 | 2020-08-18 | 宁波财经学院 | 一种需求信息双向匹配方法 |
CN108804617B (zh) * | 2018-05-30 | 2021-08-10 | 广州杰赛科技股份有限公司 | 领域术语抽取方法、装置、终端设备及存储介质 |
CN111159499B (zh) * | 2019-12-31 | 2022-04-29 | 南方电网调峰调频发电有限公司 | 一种基于字符串间相似性的电力系统模型搜索排序方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030126561A1 (en) * | 2001-12-28 | 2003-07-03 | Johannes Woehler | Taxonomy generation |
WO2003060766A1 (en) * | 2002-01-16 | 2003-07-24 | Elucidon Ab | Information data retrieval, where the data is organized in terms, documents and document corpora |
JP2004355224A (ja) * | 2003-05-28 | 2004-12-16 | Oki Electric Ind Co Ltd | 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7251637B1 (en) * | 1993-09-20 | 2007-07-31 | Fair Isaac Corporation | Context vector generation and retrieval |
US6757646B2 (en) * | 2000-03-22 | 2004-06-29 | Insightful Corporation | Extended functionality for an inverse inference engine based web search |
JP2002169834A (ja) * | 2000-11-20 | 2002-06-14 | Hewlett Packard Co <Hp> | 文書のベクトル解析を行うコンピュータおよび方法 |
US7552385B2 (en) * | 2001-05-04 | 2009-06-23 | International Business Machines Coporation | Efficient storage mechanism for representing term occurrence in unstructured text documents |
US6847966B1 (en) * | 2002-04-24 | 2005-01-25 | Engenium Corporation | Method and system for optimally searching a document database using a representative semantic space |
-
2005
- 2005-10-27 DE DE102005051617A patent/DE102005051617B4/de not_active Expired - Fee Related
-
2006
- 2006-10-26 US US12/091,578 patent/US20090157656A1/en not_active Abandoned
- 2006-10-26 EP EP06818299A patent/EP1941404A2/de not_active Withdrawn
- 2006-10-26 WO PCT/EP2006/010332 patent/WO2007048607A2/de active Application Filing
- 2006-10-26 CN CNA2006800484412A patent/CN101361066A/zh active Pending
- 2006-10-26 JP JP2008537004A patent/JP2009514076A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030126561A1 (en) * | 2001-12-28 | 2003-07-03 | Johannes Woehler | Taxonomy generation |
WO2003060766A1 (en) * | 2002-01-16 | 2003-07-24 | Elucidon Ab | Information data retrieval, where the data is organized in terms, documents and document corpora |
JP2004355224A (ja) * | 2003-05-28 | 2004-12-16 | Oki Electric Ind Co Ltd | 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010231766A (ja) * | 2009-03-02 | 2010-10-14 | Fujitsu Ltd | 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法 |
US9785635B2 (en) | 2009-03-02 | 2017-10-10 | Fujitsu Limited | Document checking apparatus, computer-readable recording medium, and document checking method |
JP2013114383A (ja) * | 2011-11-28 | 2013-06-10 | Denso Corp | プライバシー保護方法、車両用装置、車両用通信システムおよび携帯端末 |
Also Published As
Publication number | Publication date |
---|---|
CN101361066A (zh) | 2009-02-04 |
WO2007048607A3 (de) | 2007-06-21 |
WO2007048607A2 (de) | 2007-05-03 |
DE102005051617A1 (de) | 2007-05-03 |
US20090157656A1 (en) | 2009-06-18 |
DE102005051617B4 (de) | 2009-10-15 |
EP1941404A2 (de) | 2008-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009514076A (ja) | テキスト表現の類似性を定量化するコンピュータを用いた自動類似度計算システム | |
US9971974B2 (en) | Methods and systems for knowledge discovery | |
US8849787B2 (en) | Two stage search | |
JP5990178B2 (ja) | キーワード抽出に関するシステム及び方法 | |
US12007939B1 (en) | Method and apparatus for determining search result demographics | |
KR101201037B1 (ko) | 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증 | |
US20160188568A1 (en) | System and method for determining the meaning of a document with respect to a concept | |
US20050080613A1 (en) | System and method for processing text utilizing a suite of disambiguation techniques | |
US8832002B2 (en) | Computer implemented method for the automatic classification of instrumental citations | |
Ehsan et al. | Candidate document retrieval for cross-lingual plagiarism detection using two-level proximity information | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
JP5321583B2 (ja) | 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
JPH03172966A (ja) | 類似文書検索装置 | |
CN110222192A (zh) | 语料库建立方法及装置 | |
US20140089246A1 (en) | Methods and systems for knowledge discovery | |
Devi et al. | A hybrid document features extraction with clustering based classification framework on large document sets | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
EP3876137A1 (en) | System for identifying named entities with dynamic parameters | |
US11868313B1 (en) | Apparatus and method for generating an article | |
Wongchaisuwat | Automatic keyword extraction using textrank | |
RU2618375C2 (ru) | Расширение возможностей информационного поиска | |
JP2000105769A (ja) | 文書表示方法 | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム | |
RU2538303C1 (ru) | Способ автоматизированного семантического сравнения текстов на естественном языке |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090807 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111122 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120516 |