JP2001243230A

JP2001243230A - 類似性判別方法

Info

Publication number: JP2001243230A
Application number: JP2000049948A
Authority: JP
Inventors: Kibo Inago; 希望稲子; Kaname Kasahara; 要笠原
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2000-02-25
Filing date: 2000-02-25
Publication date: 2001-09-07

Abstract

(57)【要約】【課題】複数の単語ベースにおいて類似性判別を行う
２つの単語が１つの単語ベースに含まれていない場合で
も、複数の単語ベースを組み合わせて類似度を計算して
類似性判別を行うことができる類似性判別方法を提供す
る。【解決手段】単語ベース１，２に共通に登録されてい
る単語を単語集合αとして検索し（ステップＳ１５）、
この単語集合αの中の個々の単語と単語ａの類似度を単
語ベース１を用いて計算し（ステップＳ１７）、この計
算した類似度が高い単語を単語集合αから検索して単語
集合βとし（ステップＳ１９）、この単語集合βの中の
個々の単語と単語ｂの類似度を単語ベース２を用いて計
算し（ステップＳ２１）、上述したように計算した単語
ａの類似度と単語ｂの類似度を用いて、単語ａと単語ｂ
の類似度を計算する（ステップＳ２３）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、２つの単語の類似
度を計算して両単語の類似性を判別する類似性判別方法
に関し、特に単語の特徴のデータベースを用いて単語の
類似性を判別する類似性判別方法に関する。

【０００２】

【従来の技術】近年、インターネットの発展により、膨
大なテキストデータを閲覧することが可能となってい
る。また、ＣＲ−ＲＯＭ等の記憶媒体のコストの低下に
より、個人であっても、容易に多量のテキストデータを
保存できるようになっている。そのため、膨大なテキス
トデータの中から必要な情報を取得する検索が重視され
ている。

【０００３】検索を行う際には、ユーザの入力単語と適
合するテキストデータをいかにして探すかが問題であ
り、一般的には、テキスト中の単語と比較することが行
われる。その場合、ユーザの入力単語の類義語や類似語
についても比較することにより、従来得られなかった適
切なテキストデータを得ることができる（特願平６−２
２４９９０号、特願平６−２９３１３０号）。そのため
には、単語同士の似ている度合いを判定する類似性判別
が必須になる。

【０００４】類似性判別を行う場合には、指定された２
つの単語の似ている度合いである類似度を出力する方法
が必要となり、そのために、２つの単語がどの程度似て
いるかを与えるデータベースである単語ベースを用意す
る。一般には、似ている単語同士を予め分類した類語辞
典が単語ベースとして用いられる。この類語辞典は、人
手で作成されるので時間とコストを要するので、新語や
流行語等のような含まれていない単語を適宜追加するこ
とは困難である。

【０００５】そのための技術の１つとして、概念ベース
を単語ベースとした類似性判別が行われている。概念ベ
ースとは、単語に関する特徴を設定し、各単語に対して
その特徴の重みを付与することにより、単語の意味をベ
クトル表現したものである。類似性判別では、２つの単
語に対応する単語ベクトルを比較して類似度を計算し、
その値によって似ている度合いを決定する。類似度は、
値が大きい程２つの単語の似ている度合いが高くなり、
同じ単語同士の類似度が最大となるような尺度であれ
ば、どのようなものであってもかまわない。類似度を単
語ベクトルより計算する方法としては、ベクトル同士の
距離の逆数とする方法や、２つのベクトルのなす角度の
余弦を用いる方法等種々存在する。例えば概念ベースに
おいて、単語「馬」の単語ベクトルと単語「豚」の単語
ベクトルが図２のように表されている場合、単語ベクト
ルの余弦で表された「馬」と「豚」の類似度は、

【数１】と計算される。

【０００６】概念ベース中の単語ベクトルを作成する方
法としては様々あるが、対象とする単語ベクトルの数が
多くなる場合には人手で作成することが困難であり、既
存のテキストデータを利用して作成されることが一般的
である。その方法の１つとして、国語辞書をテキストデ
ータとして用いる方法がある（特願平４−２５１５１３
号）。これは、辞書中の見出し語に対する説明文中の単
語を見出し語の特徴とし、説明文中での特徴の出現頻度
を重みとした単語ベクトルを生成するものである。この
ような概念ベースを辞書型概念ベースと呼ぶ。

【０００７】また、テキストコーパス中で、主語−述語
や複合名詞を構成する名詞−名詞のような２つの単語の
関係である共起に着目し、ある語に対して、その語と共
起する単語を特徴、その出現頻度を重みとして概念ベー
スを自動構成する方法（特願平１０−３１３５８８号、
Hindle,D.:Noun Clasification from Predicate-Argume
nt Structures.,In Proc.of ACL,p.268-275(1990)、以
降“Hindle90"と呼ぶ、等）が存在する。このような概
念ベースをコーパス型概念ベースと呼ぶ。

【０００８】テキストデータより単語ベクトルを構成す
る方法は、上記の通り様々存在し、更に、その方法に応
じて最適となるように、２つの単語の間の類似度を決定
する方法が定められている。従って、同じ単語に対応す
る単語ベクトルであっても、異なるテキストデータや方
法により作成された場合、その扱われ方は異なり、単語
ベクトルの特徴同士の比較や加算や比較等の括的な扱い
はできず、個々の概念ベースにおいてそこに含まれる単
語同士においてのみ類似性判別が可能となっている。

【０００９】

【発明が解決しようとする課題】上述した従来の単語の
類似性判別方法では、複数の単語ベースを用いて、単語
同士の類似度を計算しようとする場合、単語ベースの生
成の目的や生成の方法、類似度の計算方法などが単語ベ
ースによって異なるため、複数の単語ベースを単純に一
括して扱うことができず、従って個々の単語ベースにの
み登録されている単語同士の類似度を計算することがで
きないという問題がある。

【００１０】本発明は、上記に鑑みてなされたもので、
その目的とするところは、複数の単語ベースにおいて類
似性判別を行う２つの単語が１つの単語ベースに含まれ
ていない場合でも、複数の単語ベースを組み合わせて類
似度を計算して類似性判別を行うことができる類似性判
別方法を提供することにある。

【００１１】

【課題を解決するための手段】上記目的を達成するた
め、請求項１記載の本発明は、２つの単語の類似度を計
算して両単語の類似性を判別する類似性判別方法であっ
て、２つの単語の類似度が複数登録されているデータベ
ースである第１および第２の２つの単語ベースにおいて
第１の単語ベースにのみ登録されている第１の単語と第
２の単語ベースにのみ登録されている第２の単語に対し
て第１および第２の両方の単語ベースに含まれる単語を
仲介することにより前記第１および第２の２つの単語の
類似性を判別することを要旨とする。

【００１２】請求項１記載の本発明にあっては、第１の
単語ベースにのみ登録されている第１の単語と第２の単
語ベースにのみ登録されている第２の単語に対して両単
語ベースに含まれる単語を仲介することにより第１およ
び第２の２つの単語の類似性を判別するため、従来同時
に扱うことができなかった複数の単語ベースを複合的に
扱うことができるようになり、利便性を向上することが
できる。

【００１３】また、請求項２記載の本発明は、２つの単
語の類似度を計算して両単語の類似性を判別する類似性
判別方法であって、２つの単語の類似度が複数登録され
ているデータベースである第１および第２の２つの単語
ベースにおいて第１の単語ベースにのみ登録されている
第１の単語と第２の単語ベースにのみ登録されている第
２の単語との類似度を計算するに当たり、第１および第
２の単語ベースに共通に登録されている単語を第１の単
語集合として検索し、この第１の単語集合の中の個々の
単語と第１の単語の類似度を第１の単語ベースを用いて
計算し、この計算した類似度が高い単語を第１の単語集
合から検索して第２の単語集合とし、この第２の単語集
合の中の個々の単語と第２の単語の類似度を第２の単語
ベースを用いて計算し、上述したように計算した第１の
単語の類似度と第２の単語の類似度を用いて、第１の単
語と第２の単語の類似度を計算することを要旨とする。

【００１４】請求項２記載の本発明にあっては、第１お
よび第２の単語ベースに共通に登録されている単語を第
１の単語集合とし、この第１の単語集合の中の個々の単
語と第１の単語の類似度を第１の単語ベースを用いて計
算し、この類似度が高い単語を第１の単語集合から検索
して第２の単語集合とし、この第２の単語集合の中の個
々の単語と第２の単語の類似度を第２の単語ベースを用
いて計算し、第１の単語の類似度と第２の単語の類似度
を用いて、第１の単語と第２の単語の類似度を計算する
ため、従来同時に扱うことができなかった複数の単語ベ
ースを複合的に扱うことができるようになり、利便性を
向上することができる。

【００１５】更に、請求項３記載の本発明は、請求項２
記載の発明において、前記第１および第２の単語ベース
の代わりに、単語に対する特徴の重みからなる概念ベク
トルが登録されている概念ベースを用いることを要旨と
する。

【００１６】請求項３記載の本発明にあっては、単語ベ
ースの代わりに概念ベースを用いるため、単語の類似性
判別を行う適用範囲を拡張することができる。

【００１７】請求項４記載の本発明は、請求項２記載の
発明において、前記第１および第２の単語ベースの代わ
りに、テキストコーパスにおいてある単語と一定条件下
で共に現れる単語を特徴とし、その出現頻度を重みとし
た概念ベースであるコーパス型概念ベースと辞書におけ
る見出し語に対する説明文中の単語を特徴とし、その出
現頻度を重みとした概念ベースである辞書型概念ベース
をそれぞれ用いることを要旨とする。

【００１８】請求項４記載の本発明にあっては、単語ベ
ースの代わりにコーパス型概念ベースと辞書型概念ベー
スを用いるため、テキストコーパスや辞書などの既存の
テキストデータを利用して、大規模な語彙の類似性判別
を行うことができる。

【００１９】請求項５記載の本発明は、請求項１記載の
発明において、単語ベースとして単語に対する特徴の重
みからなる概念ベクトルが登録されている第１および第
２の概念ベースを使用し、第１の概念ベースにのみ登録
されている第１の単語と第２の概念ベースにのみ登録さ
れている第２の単語に対して、第１および第２の両概念
ベースに共通に登録されている単語のうちで第１の概念
ベースにおいて第１の単語と類似度が高い単語群を選択
し、この単語群の第２の概念ベースにおける概念ベクト
ルを組み合わせて、第１の単語の第２の概念ベースにお
ける概念ベクトルを生成し、この生成した概念ベクトル
と第２の概念ベースにおける第２の単語の概念ベクトル
との類似度を求めることにより、第１の単語と第２の単
語の類似度を計算することを要旨とする。

【００２０】請求項５記載の本発明にあっては、第１お
よび第２の概念ベースを使用し、第１の概念ベースにの
み登録されている第１の単語と第２の概念ベースにのみ
登録されている第２の単語に対して、両概念ベースに共
通に登録されている単語のうちで第１の概念ベースにお
いて第１の単語と類似度が高い単語群を選択し、この単
語群の第２の概念ベースにおける概念ベクトルを組み合
わせて、第１の単語の第２の概念ベースにおける概念ベ
クトルを生成し、この生成した概念ベクトルと第２の概
念ベースにおける第２の単語の概念ベクトルとの類似度
を求めることにより、第１の単語と第２の単語の類似度
を計算するため、単語の類似性判別を行う適用範囲を拡
張することができる。

【００２１】更に、請求項６記載の本発明は、請求項５
記載の発明において、前記第１および第２の概念ベース
の代わりに、テキストコーパスにおいてある単語と一定
条件下で共に現れる単語を特徴とし、その出現頻度を重
みとした概念ベースであるコーパス型概念ベースと辞書
における見出し語に対する説明文中の単語を特徴とし、
その出現頻度を重みとした概念ベースである辞書型概念
ベースをそれぞれ用いることを要旨とする。

【００２２】請求項６記載の本発明にあっては、概念ベ
ースの代わりにコーパス型概念ベースと辞書型概念ベー
スをそれぞれ用いるため、テキストコーパスや辞書など
の既存のテキストデータを利用して、大規模な語彙の類
似性判別を行うことができる。

【００２３】

【発明の実施の形態】以下、図面を用いて本発明の実施
の形態を説明する。図１は、本発明の第１の実施形態に
係る類似性判別方法の処理手順を示すフローチャートで
ある。この第１の実施形態の類似性判別方法は、複数の
単語を対象とし、任意の２つの単語についての類似度を
与えることができる単語ベース１と単語ベース２を使用
している。単語ベースとしては、類語辞典、概念ベー
ス、具体的に２つの単語の類似度が列挙されたデータベ
ース等のように含まれる単語中に任意の２つの単語の類
似度を計算できるものであれば、どのようなものでもよ
い。また、単語ベース１と単語ベース２は、対象となる
単語の一部を共通して含んでいれば、異なるテキストデ
ータを元にしていても構わず、更に、個々の単語ベース
において類似度を計算する方法が異なっていても構わな
い。

【００２４】まず、単語ベース１のみに含まれる単語ａ
と単語ベース２のみに含まれる単語ｂを選択する（ステ
ップＳ１１，Ｓ１３）。次に、単語ベース１と単語ベー
ス２に共通する単語を検索する。共通する単語の数は、
１つ以上であればいくつでも構わない。共通する単語の
集合を単語集合αとする（ステップＳ１５）。そして、
単語ベース１を用いて単語集合α中の各単語と単語ａの
類似度を計算する（ステップＳ１７）。得られた類似度
に基づいて、単語集合αから単語ａと類似した単語を検
索する（ステップＳ１９）。検索する方法としては、単
語ａと最も類似度の高い単語を検索結果とする方法や、
一定の類似度以上の単語を検索結果とする方法など、類
似度に基づくものであればどのようなものであっても構
わない。検索結果で得られた単語の集合を単語集合βと
する。

【００２５】次に、単語ベース２を用い、単語ｂと単語
集合β中の各々の単語との類似度を計算する（ステップ
Ｓ２１）。最後に、得られた類似度に基づいて単語ａと
単語ｂの類似度を計算する（ステップＳ２３）。計算す
る方法としては、類似度の平均値、類似度を検索順位で
除算した和、最も類似度の高い単語集合β中の単語と単
語ｂの類似度を単語ａとの類似度とする等、集合β中の
各々の単語と単語ｂの類似度を利用するものであれば、
どのようなものであっても構わない。

【００２６】図１に挙げた処理の手順に従って、単語の
類似性判別を行う例を次に説明する。ここでは、図３と
図４に挙げる単語ベースを用いる。図３の単語ベース１
は、｛馬、豚、羊、新聞｝中の任意の２語の類似度を与
えるもので、図４の単語ベース２は、｛豚、羊、新聞、
駱駝｝中の任意の２語の類似度を与える。ここでは、単
語ベース１のみに含まれる単語ａ「馬」と、単語ベース
２のみに含まれる単語ｂ「駱駝」の類似度を計算する。

【００２７】最初に、２つの単語ベースで共通する単語
集合αを検索する（ステップＳ１５）。この場合単語集
合αは、｛豚、羊、新聞｝となる。次に、単語ベース１
において、単語ａ「馬」と、単語集合αの個々の単語の
類似度を求める。この場合は、「馬」に対する「豚」、
「羊」、「新聞」の類似度はそれぞれ、５，４，１とな
る（ステップＳ１７）。次に、これらの類似度に従っ
て、単語集合βを決定する。ここでは、類似度２以上の
単語集合α中の単語とすると、単語集合βは、｛豚、
羊｝となる（ステップＳ１９）。

【００２８】次に、単語ベース２を用い、単語ｂ「駱
駝」と単語集合β中の単語の類似度を求める。この場合
は、図４より、「豚」、「羊」との類似度はそれぞれ、
０．８，０．９となる（ステップＳ２１）。最後に、こ
れらの類似度を用いて単語ａ「馬」と単語ｂ「駱駝」の
類似度を決定する。類似度を決定する方法として、ここ
では、類似度の平均を単語ａと単語ｂの類似度とする。
この場合、類似度は、（０．８＋０．９）／２＝０．８５として計算される（ステップＳ２３）。

【００２９】次に、本発明の第２の実施形態について説
明する。この第２の実施形態は、図１で行われる処理に
おいて、単語ベース１として、概念ベース１、単語ベー
ス２として概念ベース２を用いるものである。概念ベー
スとしては、図５および図６のような、含まれる単語に
ついて単語の特徴に対する重みを要素とする単語ベクト
ルで表現されていれば、どのようなものであっても構わ
ない。また、各概念ベースにおける単語の類似度は、比
較する単語に対応する２つの単語ベクトル中の同じ特徴
に対する重みの比較を通して行われるものであれば、距
離の逆数、２つの単語ベクトルの余弦の値など、どのよ
うな尺度であっても構わない。

【００３０】上記手順に従って行われる単語の類似性判
別の例を以下に説明する。図５で表される概念ベース１
と、図６で表される概念ベース２を用いる。

【００３１】ここでは、概念ベース１のみに含まれる単
語ａ「馬」と、概念ベース２のみに含まれる単語ｂ「駱
駝」の類似度を計算する。最初に、２つの概念ベースで
共通する単語集合αを検索する（ステップＳ１５）。こ
の場合単語集合αは、｛豚、羊、新聞｝となる。次に、
概念ベース１において、単語ａ「馬」と、単語集合αの
個々の単語の類似度を求める（ステップＳ１７）。類似
度として、２つの単語ベクトルの距離の逆数を用いる。
この場合は、「馬」に対する「豚」、「羊」、「新聞」
の類似度はそれぞれ、

【数２】となる。

【００３２】次に、これらの類似度に従って、単語集合
αから単語集合βを決定する（ステップＳ１９）。ここ
では、最も類似度が高い単語集合α中の単語とすると、
単語集合βは、｛豚｝となる。次に、概念ベース２を用
い、単語ｂ「駱駝」と単語集合β中の単語の類似度を求
める（ステップＳ２１）。概念ベース２において類似度
は、２つの単語ベクトルのなす角度の余弦とする。図６
より、「豚」と「駱駝」の類似度は、

【数３】となる。最後に、この結果を用いて単語ａ「馬」と単語
ｂ「駱駝」の類似度を決定する。類似度を決定する方法
としてここでは、単語集合β中で単語ａと最も類似度が
高い単語の単語ｂとの類似度とする。この場合、最終的
に得られる類似度は０．９２となる（ステップＳ２
３）。

【００３３】次に、本発明の第３の実施形態について説
明する。この第３の実施形態は、図１で行われる処理に
おいて、単語ベース１として、コーパス型概念ベース、
単語ベース２として辞書型概念ベースを用いる。辞書型
概念ベースとしては、例えば特願平４−２５１５１３号
のような、見出し語に対する説明文を基本構造とする辞
書より、見出し語の単語ベクトルを獲得するものであれ
ばどのようなものであってもよい。また、コーパス型概
念ベースとしては、テキストコーパスより、主語−述
語、述語−目的語、近接語、複合語の構成語（特願平１
０−３１３５８８号）等の単語の共起頻度を計算し、各
語について、共起する語の出現頻度を重みとする単語ベ
クトルを要素とするものであれば、どのようなものであ
っても構わない。また、各概念ベースにおける単語の類
似度は、比較する単語に対応する２つの単語ベクトル中
の同じ特徴に対する重みの比較を通して行われるもので
あれば、距離の逆数、２つの単語ベクトルの余弦の値な
ど、どのような尺度であっても構わない。

【００３４】上記手順に従って行われる単語の類似性判
別の例を以下に説明する。この説明では、図７で表され
るコスト型概念ベースと、図８で表される辞書型概念ベ
ースを用いる。コーパス型概念ベースにおける共起は、
目的語−述語関係とする。

【００３５】ここでは、概念ベース１のみに含まれる単
語ａ「馬」と、概念ベース２のみに含まれる単語ｂ「駱
駝」の類似度を計算する。最初に、２つの概念ベースで
共通する単語集合αを検索する（ステップＳ１５）。こ
の場合単語集合αは、｛豚、羊、新聞｝となる。次に、
概念ベース１において、単語ａ「馬」と、単語集合αの
個々の単語の類似度を求める（ステップＳ１７）。類似
度として、２つの単語ベクトルの距離の逆数を用いる。
この場合は、「馬」に対する「豚」、「羊」、「新聞」
の類似度はそれぞれ、

【数４】となる。

【００３６】次に、これらの類似度に従って、単語集合
αから単語集合βを決定する（ステップＳ１９）。ここ
では、類似度が０．２以上の単語集合α中の単語とする
と、単語集合βは、｛豚、羊｝となる。次に概念ベース
２を用い、単語ｂ「駱駝」と単語集合β中の単語の類似
度を求める（ステップＳ２１）。概念ベース２において
類似度は、２つの単語ベクトルのなす角度の余弦とす
る。図８より、「豚」、「羊」と「駱駝」、の類似度
は、

【数５】となる。最後に、この結果を用いて単語ａ「馬」と単語
ｂ「駱駝」の類似度を決定する。類似度を決定する方法
として、ここでは、上記で得られた類似度を概念ベース
１で得られた類似度で重み付けした値とする。この場
合、類似度は、

【数６】０．８９×０．４４／（０．４４＋０．７０）
＋０．９８×０．７０／（０．４４＋０．７０）＝０．
９４として与えられる。

【００３７】上記説明では、単語ベース１として、コー
パス型概念ベース、単語ベース２として、辞書型概念ベ
ースを用いたが、反対に、単語ベース１として、辞書型
概念ベース、単語ベース２として、コーパス型概念ベー
スを用いることが可能なことは言うまでもない。

【００３８】

【発明の効果】以上説明したように、本発明によれば、
第１の単語ベースにのみ登録されている第１の単語と第
２の単語ベースにのみ登録されている第２の単語に対し
て両単語ベースに含まれる単語を仲介することにより第
１および第２の２つの単語の類似性を判別するので、従
来同時に扱うことができなかった複数の単語ベースを複
合的に扱うことができるようになり、利便性を向上する
ことができる。

【００３９】また、本発明によれば、第１および第２の
単語ベースに共通に登録されている単語を第１の単語集
合とし、この第１の単語集合の中の個々の単語と第１の
単語の類似度を第１の単語ベースを用いて計算し、この
類似度が高い単語を第１の単語集合から検索して第２の
単語集合とし、この第２の単語集合の中の個々の単語と
第２の単語の類似度を第２の単語ベースを用いて計算
し、第１の単語の類似度と第２の単語の類似度を用い
て、第１の単語と第２の単語の類似度を計算するので、
従来同時に扱うことができなかった複数の単語ベースを
複合的に扱うことができるようになり、利便性を向上す
ることができる。

【００４０】更に、本発明によれば、単語ベースの代わ
りに概念ベースを用いるので、単語の類似性判別を行う
適用範囲を拡張することができる。

【００４１】本発明によれば、単語ベースの代わりにコ
ーパス型概念ベースと辞書型概念ベースを用いるので、
テキストコーパスや辞書などの既存のテキストデータを
利用して、大規模な語彙の類似性判別を行うことができ
る。

【００４２】また、本発明によれば、第１および第２の
概念ベースを使用し、第１の概念ベースにのみ登録され
ている第１の単語と第２の概念ベースにのみ登録されて
いる第２の単語に対して、両概念ベースに共通に登録さ
れている単語のうちで第１の概念ベースにおいて第１の
単語と類似度が高い単語群を選択し、この単語群の第２
の概念ベースにおける概念ベクトルを組み合わせて、第
１の単語の第２の概念ベースにおける概念ベクトルを生
成し、この生成した概念ベクトルと第２の概念ベースに
おける第２の単語の概念ベクトルとの類似度を求めるこ
とにより、第１の単語と第２の単語の類似度を計算する
ので、単語の類似性判別を行う適用範囲を拡張すること
ができる。

【００４３】更に、本発明によれば、概念ベースの代わ
りにコーパス型概念ベースと辞書型概念ベースをそれぞ
れ用いるので、テキストコーパスや辞書などの既存のテ
キストデータを利用して、大規模な語彙の類似性判別を
行うことができる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係る類似性判別方法
の処理手順を示すフローチャートである。

【図２】単語ベクトルの例を示す表である。

【図３】図１の実施形態に使用される単語ベース１の例
を示す表である。

【図４】図１の実施形態に使用される単語ベース２の例
を示す表である。

【図５】本発明の第２の実施形態に使用される概念ベー
ス１の例を示す表である。

【図６】本発明の第２の実施形態に使用される概念ベー
ス２の例を示す表である。

【図７】本発明の第３の実施形態に使用されるコーパス
型概念ベースの例を示す表である。

【図８】本発明の第３の実施形態に使用される辞書型概
念ベースの例を示す表である。

Claims

【特許請求の範囲】

【請求項１】２つの単語の類似度を計算して両単語の
類似性を判別する類似性判別方法であって、２つの単語の類似度が複数登録されているデータベース
である第１および第２の２つの単語ベースにおいて第１
の単語ベースにのみ登録されている第１の単語と第２の
単語ベースにのみ登録されている第２の単語に対して第
１および第２の両方の単語ベースに含まれる単語を仲介
することにより前記第１および第２の２つの単語の類似
性を判別することを特徴とする類似性判別方法。
【請求項２】２つの単語の類似度を計算して両単語の
類似性を判別する類似性判別方法であって、２つの単語の類似度が複数登録されているデータベース
である第１および第２の２つの単語ベースにおいて第１
の単語ベースにのみ登録されている第１の単語と第２の
単語ベースにのみ登録されている第２の単語との類似度
を計算するに当たり、第１および第２の単語ベースに共
通に登録されている単語を第１の単語集合として検索
し、この第１の単語集合の中の個々の単語と第１の単語の類
似度を第１の単語ベースを用いて計算し、この計算した類似度が高い単語を第１の単語集合から検
索して第２の単語集合とし、この第２の単語集合の中の個々の単語と第２の単語の類
似度を第２の単語ベースを用いて計算し、上述したように計算した第１の単語の類似度と第２の単
語の類似度を用いて、第１の単語と第２の単語の類似度
を計算することを特徴とする類似性判別方法。
【請求項３】前記第１および第２の単語ベースの代わ
りに、単語に対する特徴の重みからなる概念ベクトルが
登録されている概念ベースを用いることを特徴とする請
求項２記載の類似性判別方法。
【請求項４】前記第１および第２の単語ベースの代わ
りに、テキストコーパスにおいてある単語と一定条件下
で共に現れる単語を特徴とし、その出現頻度を重みとし
た概念ベースであるコーパス型概念ベースと辞書におけ
る見出し語に対する説明文中の単語を特徴とし、その出
現頻度を重みとした概念ベースである辞書型概念ベース
をそれぞれ用いることを特徴とする請求項２記載の類似
性判別方法。
【請求項５】単語ベースとして単語に対する特徴の重
みからなる概念ベクトルが登録されている第１および第
２の概念ベースを使用し、第１の概念ベースにのみ登録
されている第１の単語と第２の概念ベースにのみ登録さ
れている第２の単語に対して、第１および第２の両概念
ベースに共通に登録されている単語のうちで第１の概念
ベースにおいて第１の単語と類似度が高い単語群を選択
し、この単語群の第２の概念ベースにおける概念ベクトルを
組み合わせて、第１の単語の第２の概念ベースにおける
概念ベクトルを生成し、この生成した概念ベクトルと第２の概念ベースにおける
第２の単語の概念ベクトルとの類似度を求めることによ
り、第１の単語と第２の単語の類似度を計算することを
特徴とする請求項１記載の類似性判別方法。
【請求項６】前記第１および第２の概念ベースの代わ
りに、テキストコーパスにおいてある単語と一定条件下
で共に現れる単語を特徴とし、その出現頻度を重みとし
た概念ベースであるコーパス型概念ベースと辞書におけ
る見出し語に対する説明文中の単語を特徴とし、その出
現頻度を重みとした概念ベースである辞書型概念ベース
をそれぞれ用いることを特徴とする請求項５記載の類似
性判別方法。