[go: up one dir, main page]

JP2001243230A - 類似性判別方法 - Google Patents

類似性判別方法

Info

Publication number
JP2001243230A
JP2001243230A JP2000049948A JP2000049948A JP2001243230A JP 2001243230 A JP2001243230 A JP 2001243230A JP 2000049948 A JP2000049948 A JP 2000049948A JP 2000049948 A JP2000049948 A JP 2000049948A JP 2001243230 A JP2001243230 A JP 2001243230A
Authority
JP
Japan
Prior art keywords
word
similarity
base
concept
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000049948A
Other languages
English (en)
Inventor
Kibo Inago
希望 稲子
Kaname Kasahara
要 笠原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000049948A priority Critical patent/JP2001243230A/ja
Publication of JP2001243230A publication Critical patent/JP2001243230A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 複数の単語ベースにおいて類似性判別を行う
2つの単語が1つの単語ベースに含まれていない場合で
も、複数の単語ベースを組み合わせて類似度を計算して
類似性判別を行うことができる類似性判別方法を提供す
る。 【解決手段】 単語ベース1,2に共通に登録されてい
る単語を単語集合αとして検索し(ステップS15)、
この単語集合αの中の個々の単語と単語aの類似度を単
語ベース1を用いて計算し(ステップS17)、この計
算した類似度が高い単語を単語集合αから検索して単語
集合βとし(ステップS19)、この単語集合βの中の
個々の単語と単語bの類似度を単語ベース2を用いて計
算し(ステップS21)、上述したように計算した単語
aの類似度と単語bの類似度を用いて、単語aと単語b
の類似度を計算する(ステップS23)。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、2つの単語の類似
度を計算して両単語の類似性を判別する類似性判別方法
に関し、特に単語の特徴のデータベースを用いて単語の
類似性を判別する類似性判別方法に関する。
【0002】
【従来の技術】近年、インターネットの発展により、膨
大なテキストデータを閲覧することが可能となってい
る。また、CR−ROM等の記憶媒体のコストの低下に
より、個人であっても、容易に多量のテキストデータを
保存できるようになっている。そのため、膨大なテキス
トデータの中から必要な情報を取得する検索が重視され
ている。
【0003】検索を行う際には、ユーザの入力単語と適
合するテキストデータをいかにして探すかが問題であ
り、一般的には、テキスト中の単語と比較することが行
われる。その場合、ユーザの入力単語の類義語や類似語
についても比較することにより、従来得られなかった適
切なテキストデータを得ることができる(特願平6−2
24990号、特願平6−293130号)。そのため
には、単語同士の似ている度合いを判定する類似性判別
が必須になる。
【0004】類似性判別を行う場合には、指定された2
つの単語の似ている度合いである類似度を出力する方法
が必要となり、そのために、2つの単語がどの程度似て
いるかを与えるデータベースである単語ベースを用意す
る。一般には、似ている単語同士を予め分類した類語辞
典が単語ベースとして用いられる。この類語辞典は、人
手で作成されるので時間とコストを要するので、新語や
流行語等のような含まれていない単語を適宜追加するこ
とは困難である。
【0005】そのための技術の1つとして、概念ベース
を単語ベースとした類似性判別が行われている。概念ベ
ースとは、単語に関する特徴を設定し、各単語に対して
その特徴の重みを付与することにより、単語の意味をベ
クトル表現したものである。類似性判別では、2つの単
語に対応する単語ベクトルを比較して類似度を計算し、
その値によって似ている度合いを決定する。類似度は、
値が大きい程2つの単語の似ている度合いが高くなり、
同じ単語同士の類似度が最大となるような尺度であれ
ば、どのようなものであってもかまわない。類似度を単
語ベクトルより計算する方法としては、ベクトル同士の
距離の逆数とする方法や、2つのベクトルのなす角度の
余弦を用いる方法等種々存在する。例えば概念ベースに
おいて、単語「馬」の単語ベクトルと単語「豚」の単語
ベクトルが図2のように表されている場合、単語ベクト
ルの余弦で表された「馬」と「豚」の類似度は、
【数1】 と計算される。
【0006】概念ベース中の単語ベクトルを作成する方
法としては様々あるが、対象とする単語ベクトルの数が
多くなる場合には人手で作成することが困難であり、既
存のテキストデータを利用して作成されることが一般的
である。その方法の1つとして、国語辞書をテキストデ
ータとして用いる方法がある(特願平4−251513
号)。これは、辞書中の見出し語に対する説明文中の単
語を見出し語の特徴とし、説明文中での特徴の出現頻度
を重みとした単語ベクトルを生成するものである。この
ような概念ベースを辞書型概念ベースと呼ぶ。
【0007】また、テキストコーパス中で、主語−述語
や複合名詞を構成する名詞−名詞のような2つの単語の
関係である共起に着目し、ある語に対して、その語と共
起する単語を特徴、その出現頻度を重みとして概念ベー
スを自動構成する方法(特願平10−313588号、
Hindle,D.:Noun Clasification from Predicate-Argume
nt Structures.,In Proc.of ACL,p.268-275(1990)、以
降“Hindle90"と呼ぶ、等)が存在する。このような概
念ベースをコーパス型概念ベースと呼ぶ。
【0008】テキストデータより単語ベクトルを構成す
る方法は、上記の通り様々存在し、更に、その方法に応
じて最適となるように、2つの単語の間の類似度を決定
する方法が定められている。従って、同じ単語に対応す
る単語ベクトルであっても、異なるテキストデータや方
法により作成された場合、その扱われ方は異なり、単語
ベクトルの特徴同士の比較や加算や比較等の括的な扱い
はできず、個々の概念ベースにおいてそこに含まれる単
語同士においてのみ類似性判別が可能となっている。
【0009】
【発明が解決しようとする課題】上述した従来の単語の
類似性判別方法では、複数の単語ベースを用いて、単語
同士の類似度を計算しようとする場合、単語ベースの生
成の目的や生成の方法、類似度の計算方法などが単語ベ
ースによって異なるため、複数の単語ベースを単純に一
括して扱うことができず、従って個々の単語ベースにの
み登録されている単語同士の類似度を計算することがで
きないという問題がある。
【0010】本発明は、上記に鑑みてなされたもので、
その目的とするところは、複数の単語ベースにおいて類
似性判別を行う2つの単語が1つの単語ベースに含まれ
ていない場合でも、複数の単語ベースを組み合わせて類
似度を計算して類似性判別を行うことができる類似性判
別方法を提供することにある。
【0011】
【課題を解決するための手段】上記目的を達成するた
め、請求項1記載の本発明は、2つの単語の類似度を計
算して両単語の類似性を判別する類似性判別方法であっ
て、2つの単語の類似度が複数登録されているデータベ
ースである第1および第2の2つの単語ベースにおいて
第1の単語ベースにのみ登録されている第1の単語と第
2の単語ベースにのみ登録されている第2の単語に対し
て第1および第2の両方の単語ベースに含まれる単語を
仲介することにより前記第1および第2の2つの単語の
類似性を判別することを要旨とする。
【0012】請求項1記載の本発明にあっては、第1の
単語ベースにのみ登録されている第1の単語と第2の単
語ベースにのみ登録されている第2の単語に対して両単
語ベースに含まれる単語を仲介することにより第1およ
び第2の2つの単語の類似性を判別するため、従来同時
に扱うことができなかった複数の単語ベースを複合的に
扱うことができるようになり、利便性を向上することが
できる。
【0013】また、請求項2記載の本発明は、2つの単
語の類似度を計算して両単語の類似性を判別する類似性
判別方法であって、2つの単語の類似度が複数登録され
ているデータベースである第1および第2の2つの単語
ベースにおいて第1の単語ベースにのみ登録されている
第1の単語と第2の単語ベースにのみ登録されている第
2の単語との類似度を計算するに当たり、第1および第
2の単語ベースに共通に登録されている単語を第1の単
語集合として検索し、この第1の単語集合の中の個々の
単語と第1の単語の類似度を第1の単語ベースを用いて
計算し、この計算した類似度が高い単語を第1の単語集
合から検索して第2の単語集合とし、この第2の単語集
合の中の個々の単語と第2の単語の類似度を第2の単語
ベースを用いて計算し、上述したように計算した第1の
単語の類似度と第2の単語の類似度を用いて、第1の単
語と第2の単語の類似度を計算することを要旨とする。
【0014】請求項2記載の本発明にあっては、第1お
よび第2の単語ベースに共通に登録されている単語を第
1の単語集合とし、この第1の単語集合の中の個々の単
語と第1の単語の類似度を第1の単語ベースを用いて計
算し、この類似度が高い単語を第1の単語集合から検索
して第2の単語集合とし、この第2の単語集合の中の個
々の単語と第2の単語の類似度を第2の単語ベースを用
いて計算し、第1の単語の類似度と第2の単語の類似度
を用いて、第1の単語と第2の単語の類似度を計算する
ため、従来同時に扱うことができなかった複数の単語ベ
ースを複合的に扱うことができるようになり、利便性を
向上することができる。
【0015】更に、請求項3記載の本発明は、請求項2
記載の発明において、前記第1および第2の単語ベース
の代わりに、単語に対する特徴の重みからなる概念ベク
トルが登録されている概念ベースを用いることを要旨と
する。
【0016】請求項3記載の本発明にあっては、単語ベ
ースの代わりに概念ベースを用いるため、単語の類似性
判別を行う適用範囲を拡張することができる。
【0017】請求項4記載の本発明は、請求項2記載の
発明において、前記第1および第2の単語ベースの代わ
りに、テキストコーパスにおいてある単語と一定条件下
で共に現れる単語を特徴とし、その出現頻度を重みとし
た概念ベースであるコーパス型概念ベースと辞書におけ
る見出し語に対する説明文中の単語を特徴とし、その出
現頻度を重みとした概念ベースである辞書型概念ベース
をそれぞれ用いることを要旨とする。
【0018】請求項4記載の本発明にあっては、単語ベ
ースの代わりにコーパス型概念ベースと辞書型概念ベー
スを用いるため、テキストコーパスや辞書などの既存の
テキストデータを利用して、大規模な語彙の類似性判別
を行うことができる。
【0019】請求項5記載の本発明は、請求項1記載の
発明において、単語ベースとして単語に対する特徴の重
みからなる概念ベクトルが登録されている第1および第
2の概念ベースを使用し、第1の概念ベースにのみ登録
されている第1の単語と第2の概念ベースにのみ登録さ
れている第2の単語に対して、第1および第2の両概念
ベースに共通に登録されている単語のうちで第1の概念
ベースにおいて第1の単語と類似度が高い単語群を選択
し、この単語群の第2の概念ベースにおける概念ベクト
ルを組み合わせて、第1の単語の第2の概念ベースにお
ける概念ベクトルを生成し、この生成した概念ベクトル
と第2の概念ベースにおける第2の単語の概念ベクトル
との類似度を求めることにより、第1の単語と第2の単
語の類似度を計算することを要旨とする。
【0020】請求項5記載の本発明にあっては、第1お
よび第2の概念ベースを使用し、第1の概念ベースにの
み登録されている第1の単語と第2の概念ベースにのみ
登録されている第2の単語に対して、両概念ベースに共
通に登録されている単語のうちで第1の概念ベースにお
いて第1の単語と類似度が高い単語群を選択し、この単
語群の第2の概念ベースにおける概念ベクトルを組み合
わせて、第1の単語の第2の概念ベースにおける概念ベ
クトルを生成し、この生成した概念ベクトルと第2の概
念ベースにおける第2の単語の概念ベクトルとの類似度
を求めることにより、第1の単語と第2の単語の類似度
を計算するため、単語の類似性判別を行う適用範囲を拡
張することができる。
【0021】更に、請求項6記載の本発明は、請求項5
記載の発明において、前記第1および第2の概念ベース
の代わりに、テキストコーパスにおいてある単語と一定
条件下で共に現れる単語を特徴とし、その出現頻度を重
みとした概念ベースであるコーパス型概念ベースと辞書
における見出し語に対する説明文中の単語を特徴とし、
その出現頻度を重みとした概念ベースである辞書型概念
ベースをそれぞれ用いることを要旨とする。
【0022】請求項6記載の本発明にあっては、概念ベ
ースの代わりにコーパス型概念ベースと辞書型概念ベー
スをそれぞれ用いるため、テキストコーパスや辞書など
の既存のテキストデータを利用して、大規模な語彙の類
似性判別を行うことができる。
【0023】
【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を説明する。図1は、本発明の第1の実施形態に
係る類似性判別方法の処理手順を示すフローチャートで
ある。この第1の実施形態の類似性判別方法は、複数の
単語を対象とし、任意の2つの単語についての類似度を
与えることができる単語ベース1と単語ベース2を使用
している。単語ベースとしては、類語辞典、概念ベー
ス、具体的に2つの単語の類似度が列挙されたデータベ
ース等のように含まれる単語中に任意の2つの単語の類
似度を計算できるものであれば、どのようなものでもよ
い。また、単語ベース1と単語ベース2は、対象となる
単語の一部を共通して含んでいれば、異なるテキストデ
ータを元にしていても構わず、更に、個々の単語ベース
において類似度を計算する方法が異なっていても構わな
い。
【0024】まず、単語ベース1のみに含まれる単語a
と単語ベース2のみに含まれる単語bを選択する(ステ
ップS11,S13)。次に、単語ベース1と単語ベー
ス2に共通する単語を検索する。共通する単語の数は、
1つ以上であればいくつでも構わない。共通する単語の
集合を単語集合αとする(ステップS15)。そして、
単語ベース1を用いて単語集合α中の各単語と単語aの
類似度を計算する(ステップS17)。得られた類似度
に基づいて、単語集合αから単語aと類似した単語を検
索する(ステップS19)。検索する方法としては、単
語aと最も類似度の高い単語を検索結果とする方法や、
一定の類似度以上の単語を検索結果とする方法など、類
似度に基づくものであればどのようなものであっても構
わない。検索結果で得られた単語の集合を単語集合βと
する。
【0025】次に、単語ベース2を用い、単語bと単語
集合β中の各々の単語との類似度を計算する(ステップ
S21)。最後に、得られた類似度に基づいて単語aと
単語bの類似度を計算する(ステップS23)。計算す
る方法としては、類似度の平均値、類似度を検索順位で
除算した和、最も類似度の高い単語集合β中の単語と単
語bの類似度を単語aとの類似度とする等、集合β中の
各々の単語と単語bの類似度を利用するものであれば、
どのようなものであっても構わない。
【0026】図1に挙げた処理の手順に従って、単語の
類似性判別を行う例を次に説明する。ここでは、図3と
図4に挙げる単語ベースを用いる。図3の単語ベース1
は、{馬、豚、羊、新聞}中の任意の2語の類似度を与
えるもので、図4の単語ベース2は、{豚、羊、新聞、
駱駝}中の任意の2語の類似度を与える。ここでは、単
語ベース1のみに含まれる単語a「馬」と、単語ベース
2のみに含まれる単語b「駱駝」の類似度を計算する。
【0027】最初に、2つの単語ベースで共通する単語
集合αを検索する(ステップS15)。この場合単語集
合αは、{豚、羊、新聞}となる。次に、単語ベース1
において、単語a「馬」と、単語集合αの個々の単語の
類似度を求める。この場合は、「馬」に対する「豚」、
「羊」、「新聞」の類似度はそれぞれ、5,4,1とな
る(ステップS17)。次に、これらの類似度に従っ
て、単語集合βを決定する。ここでは、類似度2以上の
単語集合α中の単語とすると、単語集合βは、{豚、
羊}となる(ステップS19)。
【0028】次に、単語ベース2を用い、単語b「駱
駝」と単語集合β中の単語の類似度を求める。この場合
は、図4より、「豚」、「羊」との類似度はそれぞれ、
0.8,0.9となる(ステップS21)。最後に、こ
れらの類似度を用いて単語a「馬」と単語b「駱駝」の
類似度を決定する。類似度を決定する方法として、ここ
では、類似度の平均を単語aと単語bの類似度とする。
この場合、類似度は、 (0.8+0.9)/2=0.85 として計算される(ステップS23)。
【0029】次に、本発明の第2の実施形態について説
明する。この第2の実施形態は、図1で行われる処理に
おいて、単語ベース1として、概念ベース1、単語ベー
ス2として概念ベース2を用いるものである。概念ベー
スとしては、図5および図6のような、含まれる単語に
ついて単語の特徴に対する重みを要素とする単語ベクト
ルで表現されていれば、どのようなものであっても構わ
ない。また、各概念ベースにおける単語の類似度は、比
較する単語に対応する2つの単語ベクトル中の同じ特徴
に対する重みの比較を通して行われるものであれば、距
離の逆数、2つの単語ベクトルの余弦の値など、どのよ
うな尺度であっても構わない。
【0030】上記手順に従って行われる単語の類似性判
別の例を以下に説明する。図5で表される概念ベース1
と、図6で表される概念ベース2を用いる。
【0031】ここでは、概念ベース1のみに含まれる単
語a「馬」と、概念ベース2のみに含まれる単語b「駱
駝」の類似度を計算する。最初に、2つの概念ベースで
共通する単語集合αを検索する(ステップS15)。こ
の場合単語集合αは、{豚、羊、新聞}となる。次に、
概念ベース1において、単語a「馬」と、単語集合αの
個々の単語の類似度を求める(ステップS17)。類似
度として、2つの単語ベクトルの距離の逆数を用いる。
この場合は、「馬」に対する「豚」、「羊」、「新聞」
の類似度はそれぞれ、
【数2】 となる。
【0032】次に、これらの類似度に従って、単語集合
αから単語集合βを決定する(ステップS19)。ここ
では、最も類似度が高い単語集合α中の単語とすると、
単語集合βは、{豚}となる。次に、概念ベース2を用
い、単語b「駱駝」と単語集合β中の単語の類似度を求
める(ステップS21)。概念ベース2において類似度
は、2つの単語ベクトルのなす角度の余弦とする。図6
より、「豚」と「駱駝」の類似度は、
【数3】 となる。最後に、この結果を用いて単語a「馬」と単語
b「駱駝」の類似度を決定する。類似度を決定する方法
としてここでは、単語集合β中で単語aと最も類似度が
高い単語の単語bとの類似度とする。この場合、最終的
に得られる類似度は0.92となる(ステップS2
3)。
【0033】次に、本発明の第3の実施形態について説
明する。この第3の実施形態は、図1で行われる処理に
おいて、単語ベース1として、コーパス型概念ベース、
単語ベース2として辞書型概念ベースを用いる。辞書型
概念ベースとしては、例えば特願平4−251513号
のような、見出し語に対する説明文を基本構造とする辞
書より、見出し語の単語ベクトルを獲得するものであれ
ばどのようなものであってもよい。また、コーパス型概
念ベースとしては、テキストコーパスより、主語−述
語、述語−目的語、近接語、複合語の構成語(特願平1
0−313588号)等の単語の共起頻度を計算し、各
語について、共起する語の出現頻度を重みとする単語ベ
クトルを要素とするものであれば、どのようなものであ
っても構わない。また、各概念ベースにおける単語の類
似度は、比較する単語に対応する2つの単語ベクトル中
の同じ特徴に対する重みの比較を通して行われるもので
あれば、距離の逆数、2つの単語ベクトルの余弦の値な
ど、どのような尺度であっても構わない。
【0034】上記手順に従って行われる単語の類似性判
別の例を以下に説明する。この説明では、図7で表され
るコスト型概念ベースと、図8で表される辞書型概念ベ
ースを用いる。コーパス型概念ベースにおける共起は、
目的語−述語関係とする。
【0035】ここでは、概念ベース1のみに含まれる単
語a「馬」と、概念ベース2のみに含まれる単語b「駱
駝」の類似度を計算する。最初に、2つの概念ベースで
共通する単語集合αを検索する(ステップS15)。こ
の場合単語集合αは、{豚、羊、新聞}となる。次に、
概念ベース1において、単語a「馬」と、単語集合αの
個々の単語の類似度を求める(ステップS17)。類似
度として、2つの単語ベクトルの距離の逆数を用いる。
この場合は、「馬」に対する「豚」、「羊」、「新聞」
の類似度はそれぞれ、
【数4】 となる。
【0036】次に、これらの類似度に従って、単語集合
αから単語集合βを決定する(ステップS19)。ここ
では、類似度が0.2以上の単語集合α中の単語とする
と、単語集合βは、{豚、羊}となる。次に概念ベース
2を用い、単語b「駱駝」と単語集合β中の単語の類似
度を求める(ステップS21)。概念ベース2において
類似度は、2つの単語ベクトルのなす角度の余弦とす
る。図8より、「豚」、「羊」と「駱駝」、の類似度
は、
【数5】 となる。最後に、この結果を用いて単語a「馬」と単語
b「駱駝」の類似度を決定する。類似度を決定する方法
として、ここでは、上記で得られた類似度を概念ベース
1で得られた類似度で重み付けした値とする。この場
合、類似度は、
【数6】0.89×0.44/(0.44+0.70)
+0.98×0.70/(0.44+0.70)=0.
94 として与えられる。
【0037】上記説明では、単語ベース1として、コー
パス型概念ベース、単語ベース2として、辞書型概念ベ
ースを用いたが、反対に、単語ベース1として、辞書型
概念ベース、単語ベース2として、コーパス型概念ベー
スを用いることが可能なことは言うまでもない。
【0038】
【発明の効果】以上説明したように、本発明によれば、
第1の単語ベースにのみ登録されている第1の単語と第
2の単語ベースにのみ登録されている第2の単語に対し
て両単語ベースに含まれる単語を仲介することにより第
1および第2の2つの単語の類似性を判別するので、従
来同時に扱うことができなかった複数の単語ベースを複
合的に扱うことができるようになり、利便性を向上する
ことができる。
【0039】また、本発明によれば、第1および第2の
単語ベースに共通に登録されている単語を第1の単語集
合とし、この第1の単語集合の中の個々の単語と第1の
単語の類似度を第1の単語ベースを用いて計算し、この
類似度が高い単語を第1の単語集合から検索して第2の
単語集合とし、この第2の単語集合の中の個々の単語と
第2の単語の類似度を第2の単語ベースを用いて計算
し、第1の単語の類似度と第2の単語の類似度を用い
て、第1の単語と第2の単語の類似度を計算するので、
従来同時に扱うことができなかった複数の単語ベースを
複合的に扱うことができるようになり、利便性を向上す
ることができる。
【0040】更に、本発明によれば、単語ベースの代わ
りに概念ベースを用いるので、単語の類似性判別を行う
適用範囲を拡張することができる。
【0041】本発明によれば、単語ベースの代わりにコ
ーパス型概念ベースと辞書型概念ベースを用いるので、
テキストコーパスや辞書などの既存のテキストデータを
利用して、大規模な語彙の類似性判別を行うことができ
る。
【0042】また、本発明によれば、第1および第2の
概念ベースを使用し、第1の概念ベースにのみ登録され
ている第1の単語と第2の概念ベースにのみ登録されて
いる第2の単語に対して、両概念ベースに共通に登録さ
れている単語のうちで第1の概念ベースにおいて第1の
単語と類似度が高い単語群を選択し、この単語群の第2
の概念ベースにおける概念ベクトルを組み合わせて、第
1の単語の第2の概念ベースにおける概念ベクトルを生
成し、この生成した概念ベクトルと第2の概念ベースに
おける第2の単語の概念ベクトルとの類似度を求めるこ
とにより、第1の単語と第2の単語の類似度を計算する
ので、単語の類似性判別を行う適用範囲を拡張すること
ができる。
【0043】更に、本発明によれば、概念ベースの代わ
りにコーパス型概念ベースと辞書型概念ベースをそれぞ
れ用いるので、テキストコーパスや辞書などの既存のテ
キストデータを利用して、大規模な語彙の類似性判別を
行うことができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る類似性判別方法
の処理手順を示すフローチャートである。
【図2】単語ベクトルの例を示す表である。
【図3】図1の実施形態に使用される単語ベース1の例
を示す表である。
【図4】図1の実施形態に使用される単語ベース2の例
を示す表である。
【図5】本発明の第2の実施形態に使用される概念ベー
ス1の例を示す表である。
【図6】本発明の第2の実施形態に使用される概念ベー
ス2の例を示す表である。
【図7】本発明の第3の実施形態に使用されるコーパス
型概念ベースの例を示す表である。
【図8】本発明の第3の実施形態に使用される辞書型概
念ベースの例を示す表である。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 2つの単語の類似度を計算して両単語の
    類似性を判別する類似性判別方法であって、 2つの単語の類似度が複数登録されているデータベース
    である第1および第2の2つの単語ベースにおいて第1
    の単語ベースにのみ登録されている第1の単語と第2の
    単語ベースにのみ登録されている第2の単語に対して第
    1および第2の両方の単語ベースに含まれる単語を仲介
    することにより前記第1および第2の2つの単語の類似
    性を判別することを特徴とする類似性判別方法。
  2. 【請求項2】 2つの単語の類似度を計算して両単語の
    類似性を判別する類似性判別方法であって、 2つの単語の類似度が複数登録されているデータベース
    である第1および第2の2つの単語ベースにおいて第1
    の単語ベースにのみ登録されている第1の単語と第2の
    単語ベースにのみ登録されている第2の単語との類似度
    を計算するに当たり、第1および第2の単語ベースに共
    通に登録されている単語を第1の単語集合として検索
    し、 この第1の単語集合の中の個々の単語と第1の単語の類
    似度を第1の単語ベースを用いて計算し、 この計算した類似度が高い単語を第1の単語集合から検
    索して第2の単語集合とし、 この第2の単語集合の中の個々の単語と第2の単語の類
    似度を第2の単語ベースを用いて計算し、 上述したように計算した第1の単語の類似度と第2の単
    語の類似度を用いて、第1の単語と第2の単語の類似度
    を計算することを特徴とする類似性判別方法。
  3. 【請求項3】 前記第1および第2の単語ベースの代わ
    りに、単語に対する特徴の重みからなる概念ベクトルが
    登録されている概念ベースを用いることを特徴とする請
    求項2記載の類似性判別方法。
  4. 【請求項4】 前記第1および第2の単語ベースの代わ
    りに、テキストコーパスにおいてある単語と一定条件下
    で共に現れる単語を特徴とし、その出現頻度を重みとし
    た概念ベースであるコーパス型概念ベースと辞書におけ
    る見出し語に対する説明文中の単語を特徴とし、その出
    現頻度を重みとした概念ベースである辞書型概念ベース
    をそれぞれ用いることを特徴とする請求項2記載の類似
    性判別方法。
  5. 【請求項5】 単語ベースとして単語に対する特徴の重
    みからなる概念ベクトルが登録されている第1および第
    2の概念ベースを使用し、第1の概念ベースにのみ登録
    されている第1の単語と第2の概念ベースにのみ登録さ
    れている第2の単語に対して、第1および第2の両概念
    ベースに共通に登録されている単語のうちで第1の概念
    ベースにおいて第1の単語と類似度が高い単語群を選択
    し、 この単語群の第2の概念ベースにおける概念ベクトルを
    組み合わせて、第1の単語の第2の概念ベースにおける
    概念ベクトルを生成し、 この生成した概念ベクトルと第2の概念ベースにおける
    第2の単語の概念ベクトルとの類似度を求めることによ
    り、第1の単語と第2の単語の類似度を計算することを
    特徴とする請求項1記載の類似性判別方法。
  6. 【請求項6】 前記第1および第2の概念ベースの代わ
    りに、テキストコーパスにおいてある単語と一定条件下
    で共に現れる単語を特徴とし、その出現頻度を重みとし
    た概念ベースであるコーパス型概念ベースと辞書におけ
    る見出し語に対する説明文中の単語を特徴とし、その出
    現頻度を重みとした概念ベースである辞書型概念ベース
    をそれぞれ用いることを特徴とする請求項5記載の類似
    性判別方法。
JP2000049948A 2000-02-25 2000-02-25 類似性判別方法 Pending JP2001243230A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000049948A JP2001243230A (ja) 2000-02-25 2000-02-25 類似性判別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000049948A JP2001243230A (ja) 2000-02-25 2000-02-25 類似性判別方法

Publications (1)

Publication Number Publication Date
JP2001243230A true JP2001243230A (ja) 2001-09-07

Family

ID=18571805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000049948A Pending JP2001243230A (ja) 2000-02-25 2000-02-25 類似性判別方法

Country Status (1)

Country Link
JP (1) JP2001243230A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004110835A (ja) * 2002-09-19 2004-04-08 Microsoft Corp 確認文を検索するための方法およびシステム
JP2006252090A (ja) * 2005-03-10 2006-09-21 Nippon Telegr & Teleph Corp <Ntt> 評判情報取得装置、評判情報取得方法、プログラムおよび記憶媒体
JP2018124729A (ja) * 2017-01-31 2018-08-09 Kpmgコンサルティング株式会社 マッチング測定装置、方法およびプログラム
JP2019128788A (ja) * 2018-01-24 2019-08-01 株式会社リコー 言語処理装置、言語処理方法及びプログラム
JP2019164577A (ja) * 2018-03-20 2019-09-26 ヤフー株式会社 情報処理装置、情報処理方法及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146955A (ja) * 1995-11-17 1997-06-06 Oki Electric Ind Co Ltd 単語間概念関係の抽出方法及びシステム
JPH10171812A (ja) * 1996-12-09 1998-06-26 Nippon Telegr & Teleph Corp <Ntt> 連想推論方法および装置
JPH10312396A (ja) * 1997-03-10 1998-11-24 Toshiba Corp データベースシステムおよびデータベース検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11312168A (ja) * 1998-04-28 1999-11-09 Nippon Telegr & Teleph Corp <Ntt> 同義語計算装置及びその方法並びに同義語計算プログラムを記録した媒体

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09146955A (ja) * 1995-11-17 1997-06-06 Oki Electric Ind Co Ltd 単語間概念関係の抽出方法及びシステム
JPH10171812A (ja) * 1996-12-09 1998-06-26 Nippon Telegr & Teleph Corp <Ntt> 連想推論方法および装置
JPH10312396A (ja) * 1997-03-10 1998-11-24 Toshiba Corp データベースシステムおよびデータベース検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH11312168A (ja) * 1998-04-28 1999-11-09 Nippon Telegr & Teleph Corp <Ntt> 同義語計算装置及びその方法並びに同義語計算プログラムを記録した媒体

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004110835A (ja) * 2002-09-19 2004-04-08 Microsoft Corp 確認文を検索するための方法およびシステム
US7974963B2 (en) 2002-09-19 2011-07-05 Joseph R. Kelly Method and system for retrieving confirming sentences
JP2006252090A (ja) * 2005-03-10 2006-09-21 Nippon Telegr & Teleph Corp <Ntt> 評判情報取得装置、評判情報取得方法、プログラムおよび記憶媒体
JP4513098B2 (ja) * 2005-03-10 2010-07-28 日本電信電話株式会社 評判情報取得装置、評判情報取得方法、プログラムおよび記憶媒体
JP2018124729A (ja) * 2017-01-31 2018-08-09 Kpmgコンサルティング株式会社 マッチング測定装置、方法およびプログラム
JP2019128788A (ja) * 2018-01-24 2019-08-01 株式会社リコー 言語処理装置、言語処理方法及びプログラム
JP7073740B2 (ja) 2018-01-24 2022-05-24 株式会社リコー 言語処理装置、言語処理方法及びプログラム
JP2019164577A (ja) * 2018-03-20 2019-09-26 ヤフー株式会社 情報処理装置、情報処理方法及びプログラム
JP7168334B2 (ja) 2018-03-20 2022-11-09 ヤフー株式会社 情報処理装置、情報処理方法及びプログラム

Similar Documents

Publication Publication Date Title
US7516125B2 (en) Processor for fast contextual searching
JP3719415B2 (ja) 情報検索方法、情報検索システム、およびプログラム
US6366908B1 (en) Keyfact-based text retrieval system, keyfact-based text index method, and retrieval method
Wu et al. Domain-specific keyphrase extraction
US20090193005A1 (en) Processor for Fast Contextual Matching
JPH0424869A (ja) 文書処理システム
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
Gopan et al. Comparative study on different approaches in keyword extraction
Kanapala et al. Passage-based text summarization for legal information retrieval
JP4347226B2 (ja) 情報抽出プログラムおよびその記録媒体、情報抽出装置ならびに情報抽出規則作成方法
JPH1049543A (ja) 文書検索装置
Gupta et al. Text analysis and information retrieval of text data
Zhang et al. A comparative study on key phrase extraction methods in automatic web site summarization
JP2001243230A (ja) 類似性判別方法
Lin et al. Biological question answering with syntactic and semantic feature matching and an improved mean reciprocal ranking measurement
JP2002183175A (ja) テキストマイニング方法
JP2004258723A (ja) 話題抽出装置、話題抽出方法およびプログラム
JPH10149370A (ja) 文脈情報を用いた文書検索方法および装置
JP3848014B2 (ja) 文書検索方法および文書検索装置
JP2003085181A (ja) 事典システム
KR100952077B1 (ko) 키워드를 이용한 표제어 선정 장치 및 방법
JP2004110435A (ja) プロファイル生成装置および情報提供装置
Zheng et al. An improved focused crawler based on text keyword extraction
Huang et al. Constructing personal knowledge base: automatic key-phrase extraction from multiple-domain web pages

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040727

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040924

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20041102