JP2006285419A

JP2006285419A - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP2006285419A
Application number: JP2005101964A
Authority: JP
Inventors: Hiroshi Tateno; 啓舘野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2005-03-31
Filing date: 2005-03-31
Publication date: 2006-10-19
Also published as: WO2006106740A1; CN101185073A; KR20070118154A; US20090132229A1; EP1868117A1

Abstract

【課題】クラスタ数やクラスタの代表が人間の認知モデルに即して決定されるように、クラスタリングするようにする
【解決手段】プロトタイプ意味論における「典型的な例」と「周辺的な例」（図２Ａ）の考え方を発展させると、２つのアイテム間の認知におけるこのような方向性を、図２Ｂに示すように、「典型的な例」から「周辺的な例」へ向かう距離は、「周辺的な例」から「典型的な例」へ向かう距離よりも長いという非対称な距離尺度で表すことができる。２つのアイテム間に、２つのアイテム間の非対称な数理的な距離を対応付けて、２つアイテムを「典型的な例」と「周辺的な例」との関係で連結させるようにすることで、人間の認知モデルに即してクラスタ数やクラスタの代表が決定されるクラスタリングが実現する。
【選択図】図２

Description

本発明は、情報処理装置および方法、並びにプログラムに関し、特に、クラスタリングを適切に行うことができるようにする情報処理装置および方法、並びにプログラムに関する。

クラスタリング技術は、機械学習やデータマイニングの分野で非常に重要な役割をもっている。例えば、画像認識、圧縮におけるベクトル量子化や、自然言語処理における単語シソーラスの自動生成などでは、クラスタリングの能力がその精度に直結する。

従来のクラスタリング技術は、大きく分けて階層型、分割最適化型に分類される。

階層型クラスタリングは、アイテム間の距離が定義できる場合に、１つのアイテムからなるクラスタから始まり、クラスタ同士をマージして徐々に大きなクラスタを生成する手法である。

分割最適化型クラスタリング(非特許文献１および２参照)は、距離と絶対位置が定義される空間上に配置されたアイテムが、事前に決めたクラスタ中心にどの程度帰属するかを求め、それに基づいてクラスタ中心を繰り返し計算する手法である。

MacQueen, J., "Some Methods for Classification and Analysis of Multivariate Observations," Proc. of the 5th Berkeley Symposium on Mathematical Statistics and Probability, pp.281-297, 1967. Zhang, B. et al., "K-Harmonic Means - a Data Clustering Algorithm," Hewlett-Packard Labs Technical Report HPL-1999-124, 1999.

しかしながら、階層型クラスタリングでは、クラスタ間の距離の定義（例えば、最短距離法、最長距離法、群平均法によって定義された距離）によって様々な形態のクラスタが生成され、その選択基準は明確ではない。

また、通常、クラスタが１個になるまでマージが行われるが、所定の数のクラスタが生成された時点で停止したい場合、通常、予めアドホックに決めたクラスタ数や距離の閾値で停止するようになされている。MDL基準やAICなどが利用されることもあるが、実際上有用であるという報告は得られていない。

分割最適化型クラスタリングも、やはりクラスタ数は事前に決定しておかなければならない。

また、階層型クラスタリングおよび分割最適化型クラスタリングのいずれにおいても、生成された各クラスタにおいてそれを代表するアイテムを取り出す基準は存在しない。例えば分割最適化型クラスタリングであれば、通常、最終的なクラスタ中心に最も近いアイテムがそのクラスタの代表とされるが、それが人間の認知おいて意味するところは明らかではない。

本発明は、このような状況に鑑みてなされたものであり、人間の認知モデルに即してクラスタの数やクラスタの代表が決定されるようにクラスタリングするものである。

本発明の情報処理装置は、クラスタリングを行うアイテムを、注目アイテムとして順次選択する第１の選択手段と、クラスタリングを行うアイテムの中から、注目アイテムに近接するアイテムを対象アイテムとして選択する第２の選択手段と、注目アイテムと対象アイテム間の人間の認知における方向性に対応するそれらのアイテム間の距離を算出する算出手段と、算出手段より算出された距離に基づいて、注目アイテムと対象アイテムを連結する連結手段とを備えることを特徴とする。

連結手段は、算出手段により算出された距離に基づいて、注目アイテムと対象アイテムの一方を親とし、他方を子として、注目アイテムと対象アイテムを親子関係で連結することができる。

第２の選択手段は、注目アイテムに最も近接する１個のアイテムを対象アイテムとして選択することができる。

第２の選択手段は、注目アイテムに近接する所定の数のアイテムを対象アイテムとして選択することができる。

連結手段は、注目アイテムが複数の親を有することを認めて、注目アイテムと対象アイテムを親子関係で連結することができる。

連結手段により、クラスタリングを行うアイテムの全てについての連結が行われた結果得られたクラスタのルートノードをクラスタの代表アイテムとすることができる。

本発明の情報処理方法は、クラスタリングを行うアイテムを、注目アイテムとして順次選択する第１の選択ステップと、クラスタリングを行うアイテムの中から、注目アイテムに近接するアイテムを対象アイテムとして選択する第２の選択ステップと、注目アイテムと対象アイテム間の人間の認知における方向性に対応するそれらのアイテム間の距離を算出する算出ステップと、算出ステップより算出された距離に基づいて、注目アイテムと対象アイテムを連結する連結ステップとを含むことを特徴とする。

本発明のプログラムは、クラスタリングを行うアイテムを、注目アイテムとして順次選択する第１の選択ステップと、クラスタリングを行うアイテムの中から、注目アイテムに近接するアイテムを対象アイテムとして選択する第２の選択ステップと、注目アイテムと対象アイテム間の人間の認知における方向性に対応するそれらのアイテム間の距離を算出する算出ステップと、算出ステップより算出された距離に基づいて、注目アイテムと対象アイテムを連結する連結ステップとを含むことを特徴とする。

本発明の情報処理装置および方法、並びにプログラムにおいては、クラスタリングを行うアイテムが、注目アイテムとして順次選択され、クラスタリングを行うアイテムの中から、注目アイテムに近接するアイテムが対象アイテムとして選択され、注目アイテムと対象アイテム間の人間の認知における方向性に対応するそれらのアイテム間の距離が算出され、算出された距離に基づいて、注目アイテムと対象アイテムが連結される。

本発明によれば、人間の認知モデルに即してクラスタの数やクラスタの代表が決定されるクラスタリングを実現することができる。

以下に本発明の最良の形態を説明するが、開示される発明と実施の形態との対応関係を例示すると、次のようになる。明細書中には記載されているが、発明に対応するものとして、ここには記載されていない実施の形態があったとしても、そのことは、その実施の形態が、その発明に対応するものではないことを意味するものではない。逆に、実施の形態が発明に対応するものとしてここに記載されていたとしても、そのことは、その実施の形態が、その発明以外の発明には対応しないものであることを意味するものでもない。

さらに、この記載は、明細書に記載されている発明の全てを意味するものではない。換言すれば、この記載は、明細書に記載されている発明であって、この出願では請求されていない発明の存在、すなわち、将来、分割出願されたり、補正により出現し、追加される発明の存在を否定するものではない。

請求項１の情報処理装置は、
クラスタリングを行うアイテムを、注目アイテムとして順次選択する第１の選択手段（例えば、図１のクラスタリング部２６）と、
クラスタリングを行うアイテムの中から、注目アイテムに近接するアイテムを対象アイテムとして選択する第２の選択手段（例えば、図１のクラスタリング部２６）と、
注目アイテムと対象アイテム間の人間の認知における方向性に対応するそれらのアイテム間の距離を算出する算出手段（例えば、図１のクラスタリング部２６）と、
算出手段より算出された距離に基づいて、注目アイテムと対象アイテムを連結する連結手段（例えば、図１のクラスタリング部２６）と
を備えることを特徴とする。

請求項２の情報処理装置は、
連結手段は、算出手段により算出された距離に基づいて、注目アイテムと対象アイテムの一方を親とし、他方を子として、注目アイテムと対象アイテムを親子関係で連結する（例えば、図４のステップＳ８またはステップＳ９）
ことを特徴とする。

請求項３の情報処理装置は、
第２の選択手段は、注目アイテムに最も近接する１個のアイテムを対象アイテムとして選択する（例えば、図４のステップＳ２）
ことを特徴とする

請求項４の情報処理装置は、
第２の選択手段は、注目アイテムに近接する所定の数のアイテムを対象アイテムとして選択する（例えば、図４のステップＳ２）
ことを特徴とする。

請求項５の情報処理装置は、
連結手段は、注目アイテムが複数の親を有することを認めて、注目アイテムと対象アイテムを親子関係で連結する（例えば、ステップＳ８またはステップＳ９）
ことを特徴とする。

請求項６の情報処理装置は、
連結手段により、クラスタリングを行うアイテムの全てについての連結が行われた結果得られたクラスタ（例えば、図８）のルートノード（例えば、「温かい」および「ワイルド」）をクラスタの代表アイテムとする（例えば、図４のステップＳ１１）
ことを特徴とする。

請求項７の情報処理方法は、
クラスタリングを行うアイテムを、注目アイテムとして順次選択する第１の選択ステップ（例えば、図４のステップＳ１）と、
クラスタリングを行うアイテムの中から、注目アイテムに近接するアイテムを対象アイテムとして選択する第２の選択ステップ（例えば、図４のステップＳ２）と、
注目アイテムと対象アイテム間の人間の認知における方向性に対応するそれらのアイテム間の距離を算出する算出ステップ（例えば、図４のステップＳ４）と、
算出ステップより算出された距離に基づいて、注目アイテムと対象アイテムを連結する連結ステップ（例えば、図４のステップＳ８またはステップＳ９）と
を含むことを特徴とする。

請求項８に記載のプログラムの各ステップの具体例も、請求項７に記載の情報処理方法の各ステップの発明の実施の形態における具体例と同様である。

図１は、本発明の情報処理装置１の構成例を示している。この情報処理装置１は、人間の認知モデルに即してクラスタ数やクラスタの代表が決定されるように、与えられたアイテムをクラスタリングする。

はじめに本発明におけるクラスタリングの原理について説明する。本発明におけるクラスタリングは、認知心理学におけるプロトタイプ意味論に基づく認知モデルを利用して行われる。

プロトタイプ意味論とは、人間によるあるカテゴリー内にある概念（例えば、あるカテゴリー内の単語）の認知においては、「典型的な例」と「周辺的な例」が存在するというものである。

例えば鳥類というカテゴリー内にある「スズメ」、「ダチョウ」、「ペンギン」を例にとり、
質問１：「スズメ」は「ダチョウ」に似ているか
質問２：「ダチョウ」は「スズメ」に似ているか
という、似ているかを問う対象を入れ替えた２つの質問をすると、
図２Ａに示すように、質問１に対しては、「似ていない」、質問２に対しては、「似ている」という結果が得られる。「スズメ」と「ペンギン」についても同様に、質問１（「スズメ」は「ペンギン」に似ているか）に対しては、「似ていない」、質問２（「ペンギン」は「スズメ」に似ているか）に対しては、「似ている」という結果が得られる。

すなわち「スズメ」は、鳥類において「典型的な例」であり、「ダチョウ」と「ペンギン」は、「周辺的な例」となる。

ここでこのプロトタイプ意味論における「典型的な例」と「周辺的な例」の考え方を発展させると、２つのアイテム間の認知におけるこのような方向性（似ているか否かの対象を入れ替えることによってその回答が異なるような性質）を、図２Ｂに示すように、「典型的な例」から「周辺的な例」へ向かう距離（「典型例な例」が「周辺的な例」に似ているという度合い）は、「周辺的な例」から「典型的な例」へ向かう距離（「周辺的な例」が「典型的な例」に似ているという度合い）よりも長い（小さい）という非対称な距離尺度で表すことができる。

アイテム間のこのような方向性に対応する非対称な距離尺度として、Kullback-Leibler Divergence(以下、KL距離と称する)が存在する。

KL距離では、アイテムａ_iとａ_jが確率分布ｐ_i (x)とｐ_j (x)で表現される場合において、距離Ｄ(ａ_i ||ａ_j)が、式（１）に示すように定義されるスカラー量となるが、「なでらかな確率分布」から「偏った確率分布」への距離の方が、「偏った確率分布」から「なでらかな確率分布」への距離よりも長くなる傾向がある。一般的なアイテムの確率分布は「なでらかなもの」となり、特殊なアイテムの確率分布は「偏ったもの」となる。

例えば、アイテムａ_iとａ_jに対して、確率変数ｚ_k (k=0,1,2)が定義される場合であって、確率分布ｐ(ｚ_k|ａ_i)= (0.3, 0.3, 0.4) で、確率分布ｐ(ｚ_k|ａ_j)= (0.1, 0.2, 0.7)であり、確率分布ｐ(ｚ_k|ａ_i)の方が確率分布ｐ(ｚ_k|ａ_j)よりなでらかなとき（アイテムａ_iとアイテムａ_jの対比において、アイテムａ_iが一般的なアイテム（典型的な例）で、アイテムａ_jが特殊なアイテム（周辺的な例）であるとき）、KL(ｐ_i||ｐ_j)=0.0987＞KL(ｐ_j||ｐ_i)=0.0872とうい結果が得られる。

このようにKL距離は、「一般性の高いアイテム（典型的な例）」から「一般性の低いアイテム(周辺的な例)」への距離Ｄ(一般的なアイテム||周辺的なアイテム)の方が、その逆の距離Ｄ(周辺的なアイテム||一般的なアイテム)よりも大きくなるという、プロトタイプ意味論の認知モデルにおける「典型的な例」と「周辺的な例」の非対称の距離関係に対応している。

すなわち本発明は、２つのアイテム間に、２つのアイテム間の、非対称な数理的な距離（例えば、KL距離）を対応付けて、２つアイテムを「典型的な例」と「周辺的な例」との関係で連結させるようにすることで、人間の認知モデルに即してクラスタ数やクラスタの代表が決定されるクラスタリングを実現するものである。

KL距離は、任意の分布ｐ,ｑに対してKL(ｐ||ｑ)≧0であるが、一般にKL(ｐ||ｑ)≠KL(ｑ||ｐ)で、また一般の距離で成り立つ三角不等式も成り立たないため、厳密な意味での距離ではない。

なおこのKL距離を利用して、方向性のあるアイテム間の類似度を定義することができる。例えばexp(-KL(ｐ_i||ｐ_j))や、KL(ｐ_i||ｐ_j)^-1など、距離に対して単調減少するものであれば、任意である。

また２つのアイテムに対応付ける距離の条件は、「一般性の高いアイテム（典型的な例）」から「一般性の低いアイテム(周辺的な例)」への距離の方が、その逆の距離よりも大きくなるという、プロトタイプ意味論の認知モデルに一致する非対称性を持つものであれば、KL距離以外でも、他の情報論的なスカラー量や、ベクトル空間上でのベクトルの大きさを重みとした方向性を持つ修正Euclid距離（式（２））などでも良い。

図１に戻り情報処理装置１の構成例を説明する。

なおこの例の場合、単語のクラスタリングを行うものとする。確率変数ｚ_k(k=0,1,...,M-1)を、たとえば共起単語の出現確率やPLSA(Probabilistic Latent Semantic Analysis)の潜在変数とした場合、特殊な単語（周辺的な例）の確率分布は「偏りが大きいもの」となり、一般的な単語（典型的な例）の確率分布は「なだらかなもの」となる傾向があるので、対比する２つの単語の数理的な距離（例えば、KL距離）に応じて、一方を「典型的な例」（この例のでは親）とし、他方を「周辺的な例」（子）として連結することができる。

例えば単語ｗ_i、ｗ_jに対してKL距離によって定義される距離Ｄにおいて、Ｄ(ｗ_i||ｗ_j)(=KL(ｐ_i||ｐ_j))＞Ｄ(ｗ_j||ｗ_i) (=KL(ｐ_j ||ｐ_i))となれば単語ｗ_iが「典型的な例」で、単語ｗ_jが「周辺的で例」あるので、単語ｗ_iは親とされ、単語ｗ_jは子とされて、両者が連結される。

文書記憶部２１には、クラスタリングされるアイテム（この例の場合、単語）を含む元データとしての文章（テキストデータ）が記憶されている。

形態素解析部２２は、文書記憶部２１に記憶されているテキストデータ（文書）を、単語（例えば、「温かい」、「優しい」、「ぬくもり」、「ワイルド」、「荒々しい」、「ガッツ」、「荒削り」など）に切り分けて、単語モデル生成部２３に供給する。

単語モデル生成部２３は、形態素解析部２２から供給された各単語を、単語間の関連性（距離）を見るために数理モデル化し、その結果得られた単語モデルを、単語モデル記憶部２４に記憶する。

単語モデルとしては、PLSAやSAM(Semantic Aggregate Model)などの確率モデルがある。これらは、文章と単語または単語と単語の共起の背後に潜在的な変数が存在し、その確率的な生起によって個々の表出が決定される。

PLSAは、「Hofmann, T., “Probabilistic Latent Semantic Analysis,” Proc. of Uncertainty in Artificial Intelligence, 1999.」に、SAMは、「持橋大地, 松本裕治, “意味の確率的表現,” 情処研報2002-NL-147, pp.77-84, 2002.」に紹介されている。

例えばSAMの場合、単語ｗ_iと単語ｗ_jの共起確率は、潜在的な確率変数ｃ（予め決められたｋ個のｃ₀，ｃ₁,・・・ｃ_k-1の値を取りうる変数）を用いて、式（３）で表され、式（３）から式（４）に示すように、単語ｗに対する確率分布P(ｃ|ｗ)を定義することができ、それが単語モデルとなる。式（３）中、確率変数ｃは潜在的な変数であり、確率分布P(ｗ|ｃ)および確率分布P(ｃ)は、EMアルゴリズムによって求められる。

図３には、ｋ＝４の場合の単語「温かい」、「優しい」、「ぬくもり」、「ワイルド」、「荒々しい」、「ガッツ」、および「荒削り」の単語モデル（PLSA等を利用した潜在変数の確率分布）の例が示されている。

単語モデルとしては、PLSAやSAMなどの確率モデルの他、文書ベクトルや共起ベクトル、LSA(Latent Semantic Analysis)などで次元圧縮された意味ベクトルなどがあり、いずれを採用するかは任意である。なおPLSAやSAMは、このように潜在的な確率変数の空間で単語が表現されるので、通常の共起ベクトルなどを利用するよりも、意味的な傾向を把握しやすいとされている。

図１に戻りクラスタリング部２５は、上述した原理に基づいて単語のクラスタリングを行い、クラスタリング結果を、クラスタリング結果記憶部２６に記憶する。

処理部２７は、クラスタリング結果記憶部２６に記憶されたクラスタリング結果を利用して所定の処理を実行する（後述）。

次に、本発明におけるクラスタリング処理を説明するが、はじめに、図４のフローチャートを参照してその概略を説明し、その後、具体例に基づいて再度説明する。

ステップＳ１において、クラスタリング部２５は、単語モデル記憶部２４に単語モデルが記憶されている単語の１つに注目し、その単語ｗ_iの単語モデルを選択する。

ステップＳ２において、クラスタリング部２５は、単語モデル記憶部２４に記憶されている単語モデルを利用して、単語ｗ_iに対してもっとも近接する（例えば共起しやすいまたは意味的に類似する）単語を、以下の処理で単語ｗ_iと連結する単語ｗ_j（対象単語）として選択する。

具体的には、クラスタリング部２５は、例えば、式（５）に示すように、単語ｗ_iから単語ｗ_jへの距離（例えば、KL距離）が最も小さい単語、または式（６）に示すように、単語ｗ_iから単語ｗ_jへの距離と、単語ｗ_jから単語ｗ_iへの距離との合計が最小となる単語を単語ｗ_jとする。

ステップＳ３において、クラスタリング部２５は、単語ｗ_jが単語ｗ_iの親または子であるか否かを判定する。

後述するステップＳ８またはステップＳ９で、２つの単語の距離関係から「典型的な例」となる単語が親とされ、「周辺的な例」となる単語が子とされるので、ここでは、単語ｗ_jが、先に行われたその処理で、既に、単語ｗ_iの親または子とされているかが判定される。

ステップＳ３で、単語ｗ_jが単語ｗ_iの親でも子でもないと判定された場合、ステップＳ４に進む。

ステップＳ４において、クラスタリング部２５は、相互の、距離Ｄ(ｗ_i|| ｗ_j)（=KL (ｐ_i||ｐ_j)）と距離Ｄ(ｗ_j|| ｗ_i)（=KL (ｐ_j ||ｐ_i)）を求めるとともに、距離Ｄ(ｗ_i||ｗ_j)＞距離Ｄ(ｗ_j||ｗ_i)であるか否かを判定する。

ステップＳ４で、距離Ｄ(ｗ_i ||ｗ_j)＞距離Ｄ(ｗ_j ||ｗ_i)であると判定された場合、すなわち、単語ｗ_iと単語ｗ_jとの対比において、単語ｗ_iが「典型的な例」で、単語ｗ_jが「周辺的な例」であるとき（図２）、ステップＳ５に進む。

ステップＳ５において、クラスタリング部２５は、単語ｗ_j（いまの場合子となり得る単語）に親が存在するか（単語ｗ_jが他の単語ｗ_kの子になっているか）否かを判定し、親が存在すると判定した場合、ステップＳ６に進む。

ステップＳ６において、クラスタリング部２５は、単語ｗ_jから単語ｗ_iへの距離Ｄ(ｗ_j||ｗ_i)と、単語ｗ_jから単語ｗ_kへの距離Ｄ(ｗ_j||ｗ_k)をそれぞれ求めるとともに、距離Ｄ(ｗ_j||ｗ_i)＜距離Ｄ(ｗ_j||ｗ_k)であるか否かを判定し、その式が成り立つと判定した場合（単語ｗ_iへの距離の方が、単語ｗ_kへの距離より短い場合）、ステップＳ７に進み、単語ｗ_jと単語ｗ_kの親子関係を解消する。

ステップＳ５で、単語ｗ_jに親が存在しないと判定されたとき、またはステップＳ７で単語ｗ_jと単語ｗ_kとの親子関係が解消されたとき、ステップＳ８に進み、クラスタリング部２５は、単語ｗ_iを単語ｗ_jの親とし、単語ｗ_jを単語ｗ_iの子として、単語ｗ_iと単語ｗ_jを連結する。

ステップＳ４で、距離Ｄ(ｗ_i||ｗ_j)＞距離Ｄ(ｗ_j||ｗ_i)ではないと判定されたとき、ステップＳ９に進み、クラスタリング部２５は、単語ｗ_iを単語ｗ_jの子とし、単語ｗ_jを単語ｗ_iの親として、単語ｗ_iと単語ｗ_jを連結する。

ステップＳ３で、単語ｗ_jが単語ｗ_iの親または子である場合（すでに単語ｗ_iと単語ｗ_jが連結されている場合）、ステップＳ６で距離Ｄ(ｗ_j||ｗ_i)＜距離(ｗ_j||ｗ_k)でないと判定されたとき（単語ｗ_kへの距離の方が、単語ｗ_iへの距離より短い場合）、またはステップＳ８若しくはステップＳ９で、単語ｗ_iと単語ｗ_jとが連結されたとき、すなわち単語ｗ_iが単語ｗ_jまたは単語ｗ_kと連結された場合、ステップＳ１０に進む。

ステップＳ１０において、クラスタリング部２５は、単語モデル記憶部２４に記憶されている全単語モデル（単語）を選択したか否かを判定し、選択していない単語が残っていると判定した場合、ステップＳ１に戻り、次の単語を選択して、ステップＳ２以降の処理を同様に実行する。

ステップＳ１０で、全単語を選択したと判定された場合、ステップＳ１１に進み、ステップＳ１乃至ステップＳ１０の処理を繰り返すことで形成されたクラスタのルートノードのアイテム（単語）をそのクラスタの代表アイテム（単語）として抽出し、形成されたクラスタとともに、クラスタ結果記憶部２６に記憶する。

次に、単語モデル記憶部２４に記憶されている、図３に示したような、「温かい」等の単語モデルを例として、クラスタリング処理を具体的に説明する。なお「温かい」、「優しい」、「ぬくもり」、「ワイルド」、「荒々しい」、「ガッツ」、および「荒削り」の単語のそれぞれに対するKL距離は、図５に示すようになっているものとする。図５中、各セルに示される数値が、表中の行要素から列要素へのKL距離である。

はじめに単語「温かい」が単語ｗ_iして選択される（その単語モデルが選択される）（ステップＳ１）。なおステップＳ１では、「温かい」、「優しい」、「ぬくもり」、「ワイルド」、「荒々しい」、「ガッツ」、そして「荒削り」の順で各単語の単語モデルが選択されるものとする。

「温かい」ｗ_iが選択されると、「温かい」ｗ_iの最近接単語ｗ_jが選択される（ステップＳ２）。なお、ここで最近接単語は、距離Ｄ（=KL(単語ｗ_i ||単語ｗ_j)）（式（５））が最も短い単語が単語ｗ_jとして選択されるものとする。

図５に示す、「温かい」ｗ_iと、他の単語との距離から、「ぬくもり」への距離Ｄ（=KL(「温かい」||「ぬくもり」)）が0.0125で最小であるので、「ぬくもり」が単語ｗ_jとして選択される。

いまの場合、「ぬくもり」ｗ_jは、単語「温かい」ｗ_iの親でもなく子でもないので（ステップＳ３）、次に両者の親子関係が判定される（ステップＳ４）。

距離Ｄ（＝KL(「温かい」ｗ_i ||「ぬくもり」ｗ_j)）が0.0125で、距離Ｄ（=KL(「ぬくもり」ｗ_j||「温かい」ｗ_i)）が0.0114で、距離Ｄ(「温かい」ｗ_i ||「ぬくもり」ｗ_j)＞距離Ｄ(「ぬくもり」ｗ_j||「温かい」ｗ_i)となるので（図６Ａ）、次に「ぬくもり」ｗ_jに親があるか否かが判定される（ステップＳ５）。

いまの場合、「ぬくもり」ｗ_jに親はいないので、「温かい」ｗ_iが「ぬくもり」ｗ_jの親とされ、「ぬくもり」ｗ_jが「温かい」ｗ_iの子とされて、「温かい」と「ぬくもり」が連結される（図６Ｂ）（ステップＳ８）。図６に示す矢印の根元が「子」となる単語を、矢印の先が「親」となる単語を示している。図７Ｂにおいても同様である。

次に「優しい」（図３）が単語ｗ_iとして選択され（ステップＳ１）、「優しい」ｗ_iの最近接単語ｗ_jが選択される（ステップＳ２）。

図５に示す、「優しい」ｗ_iと、他の単語との距離から、「温かい」への距離Ｄ（=KL(「優しい」||「温かい」)が0.0169で最小となるので、「温かい」が単語ｗ_jとして選択される。

いまの場合、「温かい」ｗ_jは「優しい」ｗ_iの親でもなく子でもないので（ステップＳ３）、次に親子関係が判定される（ステップＳ４）。

距離Ｄ(「優しい」ｗ_i ||「温かい」ｗ_j)が0.0169で、距離Ｄ(「温かい」ｗ_j ||「優しい」ｗ_i)が0.0174で、距離Ｄ(「優しい」ｗ_i ||「温かい」ｗ_j)＜距離Ｄ(「温かい」ｗ_j ||「優しい」ｗ_i)となるので（図７Ａ）、「優しい」ｗ_iが「温かい」ｗ_jの子とされ、「温かい」ｗ_jが「優しい」ｗ_iの親とされて、「優しい」と「温かい」が連結される（図７Ｂ）（ステップＳ９）。

次に「ぬくもり」（図３）が単語ｗ_iとして選択され（ステップＳ１）、「ぬくもり」ｗ_iの最近接単語ｗ_jが選択される。

図５に示す、「ぬくもり」ｗ_iと、他の単語との距離から、「温かい」への距離Ｄが0.0114で最小となるので、「温かい」が単語ｗ_jとして選択される。

しかしいまの場合、「温かい」ｗ_jは、先の処理で「ぬくもり」ｗ_iの親されているので（親子関係が成立しているので）（図６Ｂ）、その親子関係はそのまま維持され、次の「ワイルド」が単語ｗ_iとして選択される（ステップＳ１）。

「ワイルド」、並びにその後に選択される「荒々しい」、「ガッツ」、および「荒削り」（図３）に対しても同様な処理が行われる。

以上のように、「温かい」乃至「荒削り」（図３）に対してクラスタリング処理が行われると、図８に示すような、「温かい」、「ぬくもり」、および「優しい」からなるクラスタと、「ワイルド」、「荒々しい」、「ガッツ」、および「荒削り」からなるクラスタが形成される。すなわちこの７個の単語からは２個のクラスタが形成され、それぞれのクラスタの代表語は「温かい」と「ワイルド」となる。

クラスタのルートノードの単語（「温かい」、「ワイルド」）は、その単語に近接する単語(１個以上の単語)は自分の子にしかならず、かつ親も持っていないという状態になり、ルートノード周辺の空間において子方向以外に疎になるので、クラスタが自動的に区切られる。

また、抽象度(一般性)の高い単語ほど親になりやすいので、ルートノードをクラスタの代表とすることで、そのクラスタの中でもっとも抽象度(一般性)の高い単語をクラスタの代表とすることができる。

このように人間の認知に即してクラスタ数やクラスタの代表が決定される。

なお以上においては、アイテムｗ_iと親子関係を結ぶアイテムｗ_jを、最近接アイテムの１個にしたが（図４のステップＳ２）、上位N個(Nは全アイテム数より小さい)をアイテムｗ_jとして選択することができる。このように複数のアイテムをアイテムｗ_jとし、アイテムｗ_iとそれらとの親子関係を成立させれば、クラスタの裾を広げることができる（換言すれば、その数によりクラスタの広がりを調整することができる）。なお、Nを大きくとりすぎると全てのアイテムが１つのクラスタに含まれるような結果が得られてしまう場合がある。

また、複数の近接アイテムｗ_jに対する関係を見るときに、注目しているアイテムｗ_iが複数のアイテムの子になる(即ちアイテムｗ_iが複数の親を持つ)ことを許せば（例えば、図４のステップＳ５乃至ステップＳ７の処理を省略すれば）、ひとつのアイテムが複数のクラスタにまたがって所属することになる。この場合、ルートノード以外での親子関係の接続はクラスタ同士の接続とはせずに、ルートから子方向へたどれるアイテムをそのルートノードを代表アイテムとするクラスタの成員とすることができる（例えば、図４のステップＳ１１）。これにより、あるアイテムが複数のクラスタへの帰属を持つソフトクラスタリングが実現される。その帰属度は、等価、直上の単語への類似度、またはルートとなる単語への類似度などで定義できる。

さらに上述したクラスタリング処理において以下のような制約条件を加えることができる。

全く類似しないアイテム同士が親子関係を結ばないように、アイテムｗ_jを選択する際に（図４のステップＳ２）、距離の閾値を決め、それ以上の距離となるアイテムをアイテムｗ_jとして選択しないようにすることもできる。

また類似性をより確実なものとするために、アイテム内の最大成分が同じ要素となるなどの制約を加えることもできる。

例えば、アイテムｗ_ikをアイテムｗ_iのｋ番目の要素(単語ベクトルのｋ番目の要素やｐ(ｚ_k|ｗ_i))として、それが一致することを（式（７））、アイテムｗ_jの選択の条件とすることもできる。

また親子関係を確実なものにするために、例えばアイテムが確率分布で表現される場合、エントロピー(式（８）)を一般性の指標とし、かならずエントロピーの大きいアイテムを親とするなどの制約も加えることができる（図４のステップＳ８およびステップＳ９）。

例えばｐ(ｚ_k|ｗ_i)=(0.3, 0.3, 0.4)、ｐ(ｚ_k|ｗ_j)=(0.1, 0.2, 0.7)の場合、エントロピーはそれぞれ0.473と0.348となり、一般的な分布を持つアイテムｗ_iの方が、エントロピーが大きくなる。この場合、この２個の単語が親子関係を結べるとき(いずれかの最近接単語がもう片方となるとき)、アイテムｗ_iが必ず親となる。

またアイテムをベクトル表現した場合は、一般性の尺度として例えば単語なら総出現頻度や、文書に対するχ²値の逆数などを利用することができる。

なおχ²値は、「長尾 et al, “日本語文献における重要語の自動抽出,” 情報処理, Vol.17, No.2, 1976.」に紹介されている。

次に、図１の処理部２７の、以上のようにして得られたクラスタリング結果に基づく処理の具体例を説明する。

例えば、文書記憶部２１に音楽ＣＤのレビュー文が記憶され、レビュー文を構成する単語についてクラスタリングされて、その結果がクラスタリング結果記憶部２６に記憶されている場合、処理部２７は、クラスタリング結果記憶部２６に記憶されているクラスタを利用して、ユーザより入力されたキーワードに応じたＣＤを検索する処理を行う。

具体的には、処理部２７は、入力されたキーワードが属するクラスタを検出し、そのクラスタに属する単語を、レビュー文の特徴的な単語（ＣＤの内容を端的に表す単語）とするＣＤを検索する。なおレビュー文のＣＤの内容を端的に表す単語は予め決められているものとする。

レビュー文の筆者の違い、または微妙な表記や表現の揺れによって同じような内容の音楽ＣＤであっても、そのＣＤの内容を端的に表す単語が異なる場合があるが、本発明によるクラスタリング結果を利用すれば、同じような内容の音楽ＣＤの内容を端的に表す単語は通常同じクラスタに属するものと考えられるので、同じような内容の音楽ＣＤを適切に検索することができる。

なお検索したＣＤを紹介する際に、キーワードが属するクラスタの代表単語をユーザに提供することもできる。

また文書記憶部２１にコンテンツのメタデータ（コンテンツに関連する文書）が記憶され、そのメタデータを構成する単語についてクラスタリングされて、その結果がクラスタリング結果記憶部２６に記憶されている場合、処理部２７は、ユーザの嗜好情報とメタデータのマッチングを行って、そのマッチング結果に基づいて、ユーザが好むと思われるコンテンツを推薦する処理を行う。

具体的には、処理部２７は、マッチングをとる際に、意味的に類似した単語（同じクラスタに属する単語）を１種類のメタデータとして扱ってマッチングを行う。

メタデータに出現する単語をそのまま利用すると非常にスパースになってアイテム同士のマッチングが上手くいかない場合が生じるが、このように、意味的に類似した単語を１種類のメタデータとして扱えば、そのようなスパースネスが解消される。さらにアイテム同士のマッチングに強く寄与したメタデータをユーザに提示するような場合でも、代表的な(一般性の高い)単語（クラスタの代表単語）を提示するようにすれば、ユーザは直感的にアイテムを把握できるようになる。

上述したクラスタリング処理などの一連の処理は、専用のハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアによって行う場合、例えば、その一連の処理は、図９に示されるような（パーソナル）コンピュータにプログラムを実行させることにより実現することができる。

図９において、CPU（Central Processing Unit）１１１は、ROM（Read Only Memory）１１２に記憶されているプログラム、またはハードディスク１１４からRAM（Random Access Memory）１１３にロードされたプログラムに従って各種の処理を実行する。RAM１１３にはまた、CPU１１１が各種の処理を実行する上において必要なデータなども適宜記憶される。

CPU１１１、ROM１１２、およびRAM１１３は、バス１１５を介して相互に接続されている。このバス１１５にはまた、入出力インタフェース１１６も接続されている。

入出力インタフェース１１６には、キーボード、マウス、入力端子などよりなる入力部１１８、CRT(Cathode Ray Tube)，LCD(Liquid Crystal display)などよりなるディスプレイ、出力端子、並びにスピーカなどよりなる出力部１１７、ターミナルアダプタ、ADSL（Asymmetric Digital Subscriber Line）モデムや、LAN (Local Area Network)カード等より構成される通信部１１９が接続されている。通信部１１９は、インターネットなどの各種のネットワークを介しての通信処理を行う。

入出力インタフェース１１６にはまた、ドライブ１２０が接続され、磁気ディスク（フロッピディスクを含む）１３１、光ディスク（CD-ROM(Compact Disk-Read Only Memory) DVD Digital Versatile Disk）を含む）１３２、光磁気ディスク（MD（Mini-Disk）を含む）１３３、或いは半導体メモリなどのリムーバブルメディア（記録媒体）１３４が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じてハードディスク１１４にインストールされる。

なお、本明細書において、フローチャートに記述されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。

また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

本発明の情報処理装置１の構成例を示すブロック図である。本発明におけるクラスタリング処理の原理を説明する図である。単語モデルの例を示す図である。本発明におけるクラスタリング処理を説明するフローチャートである。単語間のKL距離の例を示す図である。親子関係を示す図である。他の親子関係を示す図である。クラスタリング結果を示す図である。パーソナルコンピュータの構成例を示す図である。

符号の説明

２１文書記憶部，２２形態素解析部，２３単語モデル生成部，２４単語モデル記憶部，２５クラスタリング部，２６クラスタ結果記憶部，２７処理部

Claims

クラスタリングを行うアイテムを、注目アイテムとして順次選択する第１の選択手段と、
クラスタリングを行うアイテムの中から、前記注目アイテムに近接するアイテムを対象アイテムとして選択する第２の選択手段と、
前記注目アイテムと前記対象アイテム間の人間の認知における方向性に対応するそれらのアイテム間の距離を算出する算出手段と、
前記算出手段より算出された前記距離に基づいて、前記注目アイテムと前記対象アイテムを連結する連結手段と
を備えることを特徴とする情報処理装置。
前記連結手段は、前記算出手段により算出された前記距離に基づいて、前記注目アイテムと前記対象アイテムの一方を親とし、他方を子として、前記注目アイテムと前記対象アイテムを親子関係で連結する
ことを特徴とする請求項１に記載の情報処理装置。
前記第２の選択手段は、前記注目アイテムに最も近接する１個のアイテムを前記対象アイテムとして選択する
ことを特徴とする請求項１に記載の情報処理装置。
前記第２の選択手段は、前記注目アイテムに近接する所定の数のアイテムを前記対象アイテムとして選択する
ことを特徴とする請求項１に記載の情報処理装置。
前記連結手段は、前記注目アイテムが複数の親を有することを認めて、前記注目アイテムと前記対象アイテムを親子関係で連結する
ことを特徴とする請求項１に記載の情報処理装置。
前記連結手段により、前記クラスタリングを行うアイテムの全てについての連結が行われた結果得られたクラスタのルートノードをクラスタの代表アイテムとする
ことを特徴とする請求項１に記載の情報処理装置。
クラスタリングを行うアイテムを、注目アイテムとして順次選択する第１の選択ステップと、
クラスタリングを行うアイテムの中から、前記注目アイテムに近接するアイテムを対象アイテムとして選択する第２の選択ステップと、
前記注目アイテムと前記対象アイテム間の人間の認知における方向性に対応するそれらのアイテム間の距離を算出する算出ステップと、
前記算出ステップより算出された前記距離に基づいて、前記注目アイテムと前記対象アイテムを連結する連結ステップと
を含むことを特徴とする情報処理方法。
クラスタリング処理を行うプロセッサに実行させるプログラムにおいて、
クラスタリングを行うアイテムを、注目アイテムとして順次選択する第１の選択ステップと、
クラスタリングを行うアイテムの中から、前記注目アイテムに近接するアイテムを対象アイテムとして選択する第２の選択ステップと、
前記注目アイテムと前記対象アイテム間の人間の認知における方向性に対応するそれらのアイテム間の距離を算出する算出ステップと、
前記算出ステップより算出された前記距離に基づいて、前記注目アイテムと前記対象アイテムを連結する連結ステップと
を含むことを特徴とするプログラム。