JP5214523B2

JP5214523B2 - 関連キーワード提示装置及びプログラム

Info

Publication number: JP5214523B2
Application number: JP2009093020A
Authority: JP
Inventors: 光正近藤; 匡内山
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-04-07
Filing date: 2009-04-07
Publication date: 2013-06-19
Anticipated expiration: 2029-04-07
Also published as: JP2010244339A

Description

本発明は、あるキーワードに関連するキーワードである関連キーワードを提示する装置及びプログラムに関する。

従来、あるキーワードに関連するキーワードを提示する場合、キーワードの関連性だけを考慮してキーワードを提示している（たとえば、非特許文献１参照）。

佐々木靖広、佐藤理史、宇津呂武仁著「関連用語収集問題とその解法」、言語処理学会、自然言語処理 Vol.13 No.3、pp.151-175，2006年7月

キーワードの関連性だけを考慮してキーワードを提示すると、重要な関連キーワードを上位に順序付けしてキーワード提示することができない。

したがって、上記従来例では、関連性はあるが、内容的には重要でないキーワードが、上位に順序付けされるという問題がある。

また、上記従来例では、関連キーワードの候補を絞り込むことができないという問題がある。

さらに、上記従来例では、『○○稲荷東京別院』等のように、「複数形態素から構成される事象を一意に示す複合語の切り出し」をいかにするかが問題がある。ちなみに、『○○稲荷東京別院』を形態素解析する場合、／○○／稲荷／東京／別院／となる。

つまり、上記従来例では、あるキーワードの関連キーワードを提示する場合、一般的に連想されやすい関連キーワード候補を上位に多く提示することができないという問題がある。

本発明は、あるキーワードの関連キーワードを提示する場合、キーワードの関連性だけでなく、キーワード自体の重要度を考慮した関連キーワードを提示することができる関連キーワード提示装置及びそのプログラムを提供することを目的とする。

つまり、本発明は、あるキーワードの関連キーワードを提示する場合、一般的に連想されやすい関連キーワード候補を上位に多く提示することができる関連キーワード提示装置及びそのプログラムを提供することを目的とする。

本願発明の関連キーワード提示装置は、
文書集合内において全ての文書で一意の見出し語を持つ文書であり、かつ文書集合内において参照関係または引用関係を持つ文書の集合において、各文書の見出し語と当該文書の参照関係もしくは引用関係を用いて、または、各見出し語の表記が文書内で共起するもしくは文内で共起する手法を用いて、入力されたキーワードの関連キーワード候補を文書の見出し語から絞り込む手段と；
検索エンジンを大規模コーパスとみなし、検索ＨＩＴ数を用いる手法、または、全文検索用に取得した大規模文書集合内におけるキーワード出現共起を用いる手法によって、上記入力されたキーワードと上記各関連キーワード候補とのキーワード間の関連度を算出する手段と；
各文書のテキスト量、自リンクの数と被リンクの数との比率、または、当該文書の被リンクの文書の重要度を用いてリンク構造による重要度を算出し、当該リンク構造による重要度から関連キーワード候補の固有重要度を算出する手段と；
入力されたキーワードと関連キーワード候補とのキーワード間の関連度と、関連キーワード候補の固有重要度とから、入力されたキーワードに対する関連キーワード候補の最終スコアを算出する手段と；
算出された最終スコアに基づいて、関連キーワード候補を提示する提示手段と；
を有することを特徴とする。

本発明は、あるキーワードの関連キーワードを提示する場合、キーワードの関連度とキーワード自体が持つ重要度とを考慮することで、一般的に連想されやすい関連キーワード候補を上位に多く提示することができるという効果を奏する。

関連キーワード提示装置１００を示す図である。手法１（Ｗｉｋｉｐｅｄｉａ内の双方向リンクを用いる手法）の概要を説明する図である。手法２（Ｗｉｋｉｐｅｄｉａ内の片方向リンクを用いる手法）の概要を説明する図である。実施例１において、キーワード固有重要度を算出する動作を示すフローチャートである。スコア付き関連キーワードＤＢ６０のカラムを示す図である。本関連キーワード提示装置１００の効果の一例を示す図である。

発明を実施するための形態は、以下の実施例である。

図１は、関連キーワード提示装置１００を示す図である。

関連キーワード提示装置１００は、キーワード入力手段１０と、関連キーワード候補の絞込み手段２０と、キーワード間の関連度算出手段３０と、キーワードの重要度算出手段４０と、最終的な関連キーワードのスコア算出手段５０と、スコア付き関連キーワードＤＢ６０と、スコア付き関連キーワード出力手段７０とを有する。

また、関連キーワード提示装置１００がキーワードを提示する際に、予め作成したデータにアクセスする。つまり、関連キーワード候補の絞込み手段２０と、キーワード間の関連度算出手段３０と、キーワードの重要度算出手段４０と、最終的な関連キーワードのスコア算出手段５０とによって、関連キーワードを作成する。

さらに、関連キーワード提示装置１００は、キーワードの関連度と、キーワードそのものの重要度とを考慮して、関連キーワードを提示する装置である。上記「キーワードの関連度」は、あるキーワードが与えられた場合に、そのキーワードに関連するキーワードを数値で表したものである。つまり、「キーワードの関連度」は、キーワード間の関連性の強弱を示す指標である。

また、上記「キーワードの重要度」は、知名度や話題性が高く、つまり内容の深いキーワード程重要である。

このために、関連キーワード提示装置１００は、より具体的で重要である関連キーワードを提示することができる。関連キーワード提示装置１００において、関連キーワードを出力したいキーワードを入力し、スコア付きの関連キーワード集合を出力する。

次に、関連キーワード候補の絞込み手段２０について説明する。

関連キーワード提示装置１００では、「文書集合内において一意の見出し語を持つ文書であり、かつ文書集合内において引用関係または参照関係を持つ文書の集合」を用いて、関連キーワードを作成する。

上記「文書集合内において一意の見出し語を持つ文書であり、かつ文書集合内において引用関係または参照関係を持つ文書の集合」の例は、オンライン百科事典であるＷｉｋｉｐｅｄｉａや、はてなブックマーク、マイペディアである。

キーワード候補として、上記各文書集合における文書の見出し語を用いる。一意の見出し語を有する文書集合の見出し語を用いることによって、「複数形態素から構成される事象を一意に示す複合語」を切り出することができる。さらに、上記見出し語は、一般的に重要だと思われるキーワードを網羅しているので、掲載されている見出し語をキーワード候補として用いることによって、重要なキーワードを絞り込むことができる。

関連キーワード提示装置１００における関連キーワード算出処理において、あるキーワードについて、関連キーワード候補集合を用意する必要がある。したがって、関連キーワード集合を、目的に応じて変更させる。

関連キーワード提示装置１００において、対象とする文書集合は、「文書集合内において一意の見出し語を持つ文書であり、かつ文書集合内において引用関係または参照関係を持つ文書の集合」であり、この文書集合として、以下では、Ｗｉｋｉｐｅｄｉａを例に挙げて説明する。

次に、キーワード間の関連度算出手段３０について説明する。

次に、Ｗｉｋｉｐｅｄｉａ内のアンカーリンクを用いて、関連キーワード候補を抽出する手法について説明する。

Ｗｉｋｉｐｅｄｉａでは、１つの見出し語（キーワード）について、１つの文書が存在し、この文書内には、各見出し語の文書へのアンカーリンクが張られている。本手法では、この文書内アンカーリンクを用いて、関連キーワード候補を作成する。

図２は、手法１（Ｗｉｋｉｐｅｄｉａ内の双方向リンクを用いる手法）の概要を説明する図である。

上記手法１は、Ｗｉｋｉｐｅｄｉａ内の双方向リンクを用いる手法であり、Ｗｉｋｉｐｅｄｉａ内で双方向からリンクが張られているキーワード（文書）を、関連キーワード候補とする手法である。

この手法１を用いると、関連キーワード候補の数は、次に説明する手法２よりも少ないが、精度の高い関連キーワード候補を取得することができる。このために、上記手法１は、関連キーワードの量よりも質を重視したい場合に適している。

図３は、手法２（Ｗｉｋｉｐｅｄｉａ内の片方向リンクを用いる手法）の概要を説明する図である。

上記手法２は、Ｗｉｋｉｐｅｄｉａ内の片方向リンクを用いる手法であり、文書間の片方向のリンクを用いて関連キーワード候補を作成する手法である。

この手法２は、文書間の双方向リンクではなく、片方向のリンクを用いて関連キーワード候補を作成する手法であるので、手法１よりも、関連キーワード候補の数を重視した手法である。また、手法２は、リンクの方向性を考慮するか、考慮しないかによって、次のように、２つの手法に分けられる。

図３（１）は、リンクの方向性を考慮した手法の説明図である。

この「リンクの方向性を考慮する手法」は、ある見出し語の文書内に存在するアンカーリンク先のキーワードを、関連キーワード候補とする手法である。この「リンクの方向性を考慮する手法」の特徴は、見出し語の文書内に含まれているアンカーリンクを用いるので、精度は手法１とほぼ変わらずに、関連キーワードの候補数を増やすことができる点が長所である。手法１で、関連キーワード候補数が少ないと感じた場合や、計算量的に余裕がある場合、上記「リンクの方向性を考慮する手法」を用いるとよい。

図３（２）は、リンクの方向性を考慮しない手法の説明図である。

上記「リンクの方向性を考慮する手法」は、自文書にあるアンカーリンク先を関連語候補とするが、上記「リンクの方向性を考慮しない手法」では、自文書にリンクしている（被リンク）キーワードも対象とする手法である。よって、方向性を考慮した場合に比べて、関連キーワード候補数が増える傾向にある。上記「リンクの方向性を考慮しない手法」は、関連キーワード候補数の精度はやや落ちるが、計算量的に余裕があり、関連語候補数をさらに増やしたい場合に有効である。

以上が、Ｗｉｋｉｐｅｄｉａのリンクを用いた関連キーワード候補の作成手法である。

次に、文書集合内の出現共起を用いる手法、つまり、ユーザが用意した文書集合内におけるキーワードの出現共起を用いる手法について説明する。用意する文書集合は、できる限りデータ量の多いものが好ましい。分野を問わずに関連キーワード提示装置１００を構築する場合、Ｗｅｂ文書のような分野を問わずに、できる限り大規模な文書集合を用いる。また、ある特定の分野に特化した関連キーワード提示装置１００を構築したい場合、その分野に特化したできる限り大規模な文書集合を用いる。

次に、手法３（文内共起を用いる手法）について説明する。

手法３は、文書集合内における各文書の文内において、あるキーワードと別のキーワードとが同時に出現している場合、そのキーワードを「関連キーワード候補」とする手法である。つまり、手法３において、関連キーワード候補は、文書集合を構成する各文書の文内において、あるキーワードと別のキーワードとが同時に出現していた場合における別のキーワードである。

具体例を挙げると、「Ｘ社の光ファイバー加入者数がＡＤＳＬを上回る。」という一文内において、「Ｘ社」、「光ファイバー」、「ＡＤＳＬ」が文内で同時に出現している。したがって、「Ｘ社」の関連キーワード候補は、「光ファイバー」、「ＡＤＳＬ」である。同じく「光ファイバー」の関連キーワード候補は、「Ｘ社」、「ＡＤＳＬ」である。

手法３（文内共起を用いる手法）は、Ｗｉｋｉｐｅｄｉａのリンクを用いる手法と比較すると、キーワード候補数が多くなるので、キーワード間の関連度算出手段３０における算出の際に、計算量が多いものの、関連キーワードの出力数が格段に増えるので、関連キーワードの数を増やしたい場合に有効である。

次に、手法４（文書内共起を用いる手法）について説明する。

手法４は、文書集合内における各文書において、あるキーワードと別のキーワードとが同時に出現している場合、そのキーワードを「関連キーワード候補」とする手法である。つまり、上記手法４は、文内ではなく文書内で出現していれば、関連キーワード候補とする点が、上記手法３とは異なる。

手法４において、関連キーワード候補は、文書集合を構成する各文書内において、あるキーワードと別のキーワードとが同時に出現している場合におけるそのキーワードである。手法４は、手法３と同じく関連キーワード候補数が多いが、手法３よりも候補数が多い。このために、手法４は、関連キーワード数を、手法３よりもさらに増やしたい場合に有効である。

すなわち、上記手法１〜手法４は、文書集合内の出現共起を用いて関連キーワード候補集合を作成する手法である。

関連キーワードの再現率については、手法４、手法３、手法２、手法1の順で、関連キーワードの再現率が高く、手法１、手法２、手法３、手法４の順で、計算量が少なく、計算時間が短い。目的用途に応じて、手法を選ぶとよい。

次に、キーワード間関連度を算出する手法について説明する。

キーワード間関連度を算出する手法は、検索エンジンを大規模コーパスとみなし、検索ＨＩＴ数を用いる手法と、全文検索用に取得した大規模文書集合内におけるキーワード出現共起を用いる手法とである。

次に、検索エンジンを大規模コーパスとみなし、検索ＨＩＴ数を用いる手法について説明する。

この手法は、検索エンジンにキーワードを入力し、その結果得られたＨＩＴ数に基づいて、キーワード間の関連度を算出する手法である。関連度の尺度には、ｊａｃｃａｒｄ係数を用いる。検索エンジンのＨＩＴ数を用いたキーワード間関連度ｒｅｌａｔｉｖｅは、次の式（１）で表される。

relative（k₁,k₂）＝hit（k₁∩k₂）／{hit（k₁∩k₂）＋hit（k₁）＋hit（k₂）}…式（１）

ここで、ｋ_１は、関連キーワードを出力したいキーワードであり、ｋ_２は、関連キーワードである。ｈｉｔ（ｋ_１∩ｋ_２）は、キーワードｋ_１とキーワードｋ_２とをＡＮＤ検索した場合のＨＩＴ数であり、ｈｉｔ（ｋ）は、キーワードｋを検索した場合のＨＩＴ数である。

次に、大規模文書集合内におけるキーワード出現共起を用いる手法について説明する。

大規模文書集合を用いる手法は、検索エンジンを用いる手法と同じく、キーワードの出現共起を用いてキーワード間関連度を算出する手法である。

検索エンジンを大規模コーパスとみなし、検索ＨＩＴ数を用いる手法は、関連キーワード候補集合を全て検索エンジンに投入しなければならないので、計算時間がかかり、大きな関連キーワード候補集合を用いることができない。また、検索エンジンを用いる手法は、文書内共起しか算出できないので、文内共起を算出することができない。このために、大規模文書集合内におけるキーワード出現共起を用いる手法は、計算時間的に優れ、また、文内共起を取得できる点で優れている。

大規模文書集合を用いたキーワード間関連度ｒｅｌａｔｉｖｅは、次の式（２）で表される。

relative（k₁,k₂）＝co−occur（k₁∩k₂）／{co−occur （k₁∩k₂）＋freq（k₁）＋freq（k₂）} …式（２）

ここで、ｋ_１は、関連キーワードを出力したいキーワードであり、ｋ_２は、関連キーワードである。ｃｏ−ｏｃｃｕｒ（ｋ_１∩ｋ_２）は、キーワードｋ_１とキーワードｋ_２とが文書内共起（文内共起）した場合の数であり、ｆｒｅｑ（ｋ）は、キーワードｋを出現文書数（出現文数）である。

ここで用いる大規模文書集合は、データ量が大きければ大きい程、良い結果をもたらす。このために、全文検索エンジンのためにクロールしたＷｅｂ文書等を用いるのが良い。また、逐次的に新しいＷｅｂ文書を追加することによって、時代に即した関連キーワードを抽出することができる。

次に、キーワード固有重要度の算出について説明する。

キーワードの重要度は、知名度や話題性が高く、内容が深いキーワード程重要であり、その度合いである。このキーワードの重要度を、「キーワード固有重要度」と呼ぶ。

図４は、実施例１において、キーワード固有重要度を算出する動作を示すフローチャートである。

まず、Ｓ１で、リンク構造（リンク解析）を用いた手法（後述の式（６））を実行し、Ｓ２では、Ｓ１で算出したキーワード順位を用いたキーワード固有重要度を算出する後述の式（７）を実行する。一方、Ｓ３で、検索エンジンの検索クエリ投入回数を用いたキーワード順序付けをし、Ｓ４では、Ｓ３で算出したキーワード順位を用いたキーワード固有重要度（後述の式（８））を算出する。Ｓ５では、Ｓ２で算出したキーワード固有重要度と、Ｓ４で算出したキーワード固有重要度とを線形和し（後述の式（９）を実行し）、Ｓ６で、キーワードスコアを作成する。

次に、Ｗｉｋｉｐｅｄｉａ内のリンク構造（リンク解析）を用いる手法について説明する。つまり、Ｗｉｋｉｐｅｄｉａ内のリンク構造を用いて、キーワード固有重要度を算出する手法について説明する。

ＨＩＴＳやＰａｇｅＲａｎｋ等の一般的なＷｅｂ文書のランキング手法では、Ｗｅｂページのリンク構造を用い、Ｗｅｂ文書をランキングする。しかし、Ｗｉｋｉｐｅｄｉａの文書には、１つの文書について１つの見出し語（キーワード）が付いているので、Ｗｉｋｉｐｅｄｉａのリンク構造から得られた文書のランキングを、キーワードのランキングであるとみなすことができる。

したがって、関連キーワード提示装置１００では、Ｗｉｋｉｐｅｄｉａに特化したランキング手法を適用することによって、キーワード固有重要度を算出する。ベースとなるアルゴリズムとして、ＨＩＴＳアルゴリズムを用いる。

上記ＨＩＴＳアルゴリズムは、全てのＷｅｂ文書は、ａｕｔｈｏｒｉｔｙ（コンテンツ）とｈｕｂ（リンク集）との２つから構成されていると定義する。そして、良いｈｕｂから多数リンクされるａｕｔｈｏｒｉｔｙ程、良いａｕｔｈｏｒｉｔｙであるという仮説と、良いａｕｔｈｏｒｉｔｙに多数リンクしているｈｕｂ程、良いｈｕｂであるという仮説との２つの仮説を繰り返し実行することによって、Ｗｅｂ文書をランキングする。

しかし、ＨＩＴＳアルゴリズムは、Ｗｅｂ世界におけるＷｅｂ文書のリンク構造をモデルにしたアルゴリズムであるので、リンク構造が非常に密なＷｉｋｉｐｅｄｉａに、そのまま適用すると、やや難がある。そこで、関連キーワード提供装置１００は、Ｗｉｋｉｐｅｄｉａの特徴的な構造と密なリンク構造とに対応させている。そして、本アルゴリズムから算出したａｕｔｈｏｒｉｔｙの値による順位を、以下で説明する減衰関数を用いて、最終的なキーワード固有重要度を算出する。上記減衰関数は、後述の式（４）である。

［テキスト量の考慮］
Ｗｉｋｉｐｅｄｉａの見出し語において、知名度が高く、話題性の高い見出し語程、テキストの記述量が多いという傾向がある。そこで、ａｕｔｈｏｒｉｔｙ値を算出する際に、自文書のテキスト量が多ければ多い程、その文書は重要であり、この重要度に応じて、重みｔｅｘｔ（ｋ）を付ける。

［自リンクと被リンクの比率］
一般的に、Ｗｉｋｉｐｅｄｉａの見出し語は、有名なキーワード程、自リンクと被リンクとの数が多い。しかし、地名やジャンル名のような広い概念を持つキーワードでは、引用しやすいキーワードであるので、自リンク数に比べると、被リンクの数が圧倒的に多い。

通常のＨＩＴＳアルゴリズムでは、良いｈｕｂから多数リンクされているａｕｔｈｏｒｉｔｙは、良いａｕｔｈｏｒｉｔｙであるという仮説を用いるが、圧倒的に被リンクが多い場合、これらの仮説は成り立たないと予想される。また、その一方で、最近知名度が高くなった新人俳優や話題語等の見出し語は、誕生してから日が浅いので、引用数は少ないが、自リンクは多い傾向にある。このために、少ない被リンク数でも、ａｕｔｈｏｒｉｔｙを高める必要があるという被リンクの問題がある。これらの被リンクの問題を解決するために、ａｕｔｈｏｒｉｔｙ値を算出する際に、ｆｌｉｎｋ（ｋ）／ｂｌｉｎｋ（ｋ）を考慮する。上記ｆｌｉｎｋ（ｋ）は、キーワードkの文書内に含まれている自リンクの数であり、上記ｂｌｉｎｋ（ｋ）は、キーワードｋの文書にリンクしている被リンク数の数である。

［明らかにａｕｔｈｏｒｉｔｙ算出とならない見出し語の扱い］
Ｗｉｋｉｐｅｄｉａの見出し語には、「〜年」や「〜一覧」等、明らかにａｕｔｈｏｒｉｔｙとはならない見出し語が存在する。これらの見出し語は、自リンクが非常に多く、被リンクも非常に多い場合があるので、ノイズになりやすい。そこで、明らかにａｕｔｈｏｒｉｔｙとならない見出し語のａｕｔｈｏｒｉｔｙ値を、常に変更しないことによって、上記問題に対処する。

［ｈｕｂの平均的なリンクの質］
Ｗｉｋｉｐｅｄｉａの文書には、自リンクが多数あるが、ｈｕｂとして質の悪い文書がある。そこで、リンク先キーワードのａｕｔｈｏｒｉｔｙが、平均的に高いｈｕｂは、重要であるという仮説に変更することによって、自リンクは多いがｈｕｂとして質の低い文書におけるｈｕｂ値を下げる重み

を考慮する。

［リダイレクトの扱い］
Ｗｉｋｉｐｅｄｉａの文書には、見出し語の異表記を解消するために、ｒｅｄｉｒｅｃｔが存在する。たとえば、「マラチャ県」には、「マラチャ・テレゴ県」、「マラチャ＝テレゴ県」のｒｅｄｉｒｅｃｔがある。Ｒｅｄｉｒｅｃｔは、異表記のキーワードを一意にまとめる効果だけでなく、キーワードの被リンク構造に大きな影響を持つので、ｒｅｄｉｒｅｃｔキーワードを、親ノードにまとめることによって、異表記のキーワード固有重要度を算出し、上記被リンクの問題も解決する。

そして、最終的なＷｉｋｉｐｅｄｉａランキングアルゴリズムは、次の式（３）で定義される。つまり、キーワードｋのａｕｔｈｏｒｉｔｙ値ａ（ｋ）を求め、ｈｕｂ値ｈ（ｋ）を求める。

ここで、ｆｌｉｎｋ（ｋ）は、キーワードｋからの自リンク数であり、ｂｌｉｎｋ（ｋ）は、キーワードｋからの被リンク数である。また、ｔｅｘｔ（ｋ）は、キーワードｋが見出し語になっているＷｉｋｉｐｅｄｉａ文書の文字数（アンカーリンク対象の文字列は除く）であり、Ｋ’は、キーワードｋが見出し語になっているＷｉｋｉｐｅｄｉａ文書内に含まれているリンクの総数である。

そして、上記式（３）で算出したａｕｔｈｏｒｉｔｙ値ａ（ｋ）を用いて、降順にキーワードを順位付けする。これによって、キーワードの候補数（ｘ軸の要素数）に左右されることなく、また上界と下界を設定でき、またキーワードの候補数の上位２０％以内において、最大値と最小値の差が３０％〜７０％以内に収まる減衰曲線を描き、そしてパラメータ係数において、整数値を用いることによって、小数点を考慮した細かい数値設定を考慮することなく、減衰度合いを容易に設定できる特徴をもつスコア関数である。なお、実数値でも、減衰度合いを設定することができる。

実施例１では、次の式（４）で示すキーワード固有重要度算出式を用いて、スコアを算出し、Ｗｉｋｉｐｅｄｉａ内のリンク構造を用いたキーワード固有重要度ＷＫＩＳ（ｋ）とする。次の式（４）は、減衰関数である。

ここで、ｙ_１は、キーワード固有重要度の上界であり、ｙ_０は、キーワード固有重要度の下界である。ｋ_ｒは、キーワードｋのａｕｔｈｏｒｉｔｙの値による順位であり、Ｋは、キーワードの総数であり、ａは、スコアの勾配係数であり、スコアの勾配係数ａの値が大きくなればなる程、スコアの勾配が急になる。ｙ_１、ｙ_０の推奨値は、それぞれ１、０．１であり、勾配係数の推奨値は、３から７である。

一般的なｅｘｐを用いた減衰関数は、キーワードの総数によって最大スコアの値と最小スコアの値とが大きく変わるという問題があるが、上記式（４）では、キーワードの総数に影響を受けずに、特性の近いスコア関数を算出することができ、また最大スコアと最小スコアの値とを、ｙ_１、ｙ_０の値を指定するだけで、簡単に設定することができる。また減衰関数の勾配も、ａを指定するだけで柔軟に変更することができる。

Ｗｉｋｉｐｅｄｉａ内のリンク構造から算出したキーワード固有重要度は、ユーザ参加型オンライン百科事典のＷｉｋｉｐｅｄｉａ内においての重要なキーワードが上位に位置付けられるので、一般的に知名度は低いが、実際には内容が深く重要なキーワードが、上位に位置付けられる。

次に、検索エンジンの検索クエリ投入回数を用いた手法について説明する。

この手法は、実際の検索エンジンに投入された回数が多い検索クエリ程、重要なキーワードであるとみなす手法である。検索クエリの投入回数は、ポータルサイト上で投入された検索クエリのような大規模データであることが好ましい。この手法もＷｉｋｉｐｅｄｉａ内のリンク構造を用いた手法と同じく、上記式（４）のキーワード固有重要度算出式を用いてスコアを算出し、検索クエリを投入した回数を用いたキーワード固有重要度ＱＫＩＳ（ｋ）とする。

ここで、ｙ_１はキーワード固有重要度の上界であり、ｙ_０はキーワード固有重要度の下界である。そしてｋ_ｒはキーワードｋの検索回数による順位、Ｋはキーワードの総数、ａはスコアの勾配係数で、ａの値が大きくなればなるほどスコアの勾配が急になる。

また、Ｗｉｋｉｐｅｄｉａには見出し語として存在するが、検索エンジンの検索クエリには見出し語が存在しない場合がある。この場合は、ｙ_０を該当キーワードのスコアとする。

検索エンジンの検索クエリ投入回数から算出したキーワード固有重要度は、実際の検索クエリ投入回数によって重要度が決まるため、検索クエリとして投入されやすく、重要なキーワードが上位に来る傾向にある。

上記のように、Ｗｉｋｉｐｅｄｉａ内のリンク構造から算出したキーワード固有重要度ＷＫＩＳ（ｋ）と、検索エンジンの検索クエリ投入回数から算出したキーワード固有重要度ＱＫＩＳ（ｋ）について説明した。しかし、検索エンジンの検索クエリ投入回数から算出したキーワード固有重要度ＱＫＩＳ（ｋ）は、検索クエリデータの収集期間が短い場合、その間にインターネット上でおきた話題に強く影響されるという問題があり、さらにインターネットサイト名等の生活的クエリが多く含まれる傾向にある。したがって、Ｗｉｋｉｐｅｄｉａ内のリンク構造から算出したキーワード固有重要度ＷＫＩＳ（ｋ）と、検索エンジンの検索クエリ投入回数から算出したキーワード固有重要度ＱＫＩＳ（ｋ）との線形和を、最終的なキーワード固有重要度Keyword_score(k)とすることによって、話題性が高くつまり内容が深く、かつ検索クエリとして投入されやすいキーワードを上位に位置付ける重要度を算出する。

Keyword_score(k)＝α・WKIS(k)＋(1−α)・QKIS(k) …式（６）
検索エンジンの検索クエリ投入回数から算出したキーワード固有重要度ＱＫＩＳ（ｋ）よりも、Ｗｉｋｉｐｅｄｉａ内のリンク構造を用いたキーワード固有重要度ＷＫＩＳ（ｋ）が、一般的に精度が良いことが実験により確認できたので、αの値は０．５〜０．８辺りの範囲で調整する。

次に、最終的な関連キーワードのスコア算出について説明する。

上記キーワード間の関連度と上記キーワード固有重要度とを乗ずることによって、最終的な関連キーワードのスコアfinal_relative(k₁,k₂)とする。

final_relative(k₁,k₂)＝relative(k₁,k₂)・keyword_score(k₂) …式（７）
最終的な関連キーワードｆｉｎａｌ＿ｒｅｌａｔｉｖｅのスコアが高ければ高い程、キーワードｋ_１の関連キーワード候補ｋ_２は、関連度が高く、重要な関連キーワードである。これにより、キーワード間の関連度だけでなく、キーワード自体の重要度を考慮した関連キーワードの順序付けが実現できる。スコア付きキーワードＤＢは、ｆｉｎａｌ＿ｒｅｌａｔｉｖｅの値（スコア）、キーワードｋ_１、キーワードｋ_２によって構成される。

次に、関連キーワード提示装置１００について説明する。

上記関連キーワード作成手法を用いて、スコア付き関連キーワードＤＢを作成する。関連キーワードを提示したいキーワードを、キーワード入力手段に入力することによって、この入力されたキーワードに関連するスコア付き関連キーワードが、スコア付きキーワード手段７０から出力される。

図５は、スコア付き関連キーワードＤＢ６０のカラムを示す図である。

なお、関連キーワードを作成する場合、図１に示す構成の代わりに、キーワードの重要度算出手段４０、関連キーワード候補の絞込み手段２０、キーワード間の関連度算出手段３０の順で信号が流れる（処理が実行される）ようにしてもよい。そして、この場合、最終的な関連キーワードのスコア算出手段５０で最終的な関連キーワードのスコアを算出するようにしてもよい。

図６は、関連キーワード提示装置１００の効果の一例を示す図である。

従来は、キーワードの関連度しか考慮していないので、「上杉氏」や、「御館の乱」が上位に位置付けられるが、上記実施例では、関連度だけでなく、キーワードの重要度を考慮しているので、「前田利家」、「伊達正宗」、「上杉謙信」等、より重要なキーワードが上位に位置付けられる。

上記実施例の特徴は、キーワード自体が持つ重要度（キーワード固有重要度）を考慮する点と、キーワード自体の重要度を算出する点とである。

つまり、上記実施例は、文書集合内において一意の見出し語を持つ文書であり、かつ文書集合内において引用関係または参照関係を持つ文書の集合において、あるキーワードに関連するキーワードである関連キーワードの候補である関連キーワード候補を、双方向リンクを用いて絞り込む手段と、上記絞り込まれた関連キーワード候補を提示する提示手段とを有することを特徴とする関連キーワード提示装置の例である。

また、上記実施例は、文書集合内において一意の見出し語を持つ文書であり、かつ文書集合内において引用関係または参照関係を持つ文書の集合において、あるキーワードに関連するキーワードである関連キーワードの候補である関連キーワード候補を、片方向リンクを用いて絞り込む手段と、上記絞り込まれた関連キーワード候補を提示する提示手段とを有することを特徴とする関連キーワード提示装置の例である。

さらに、上記実施例は、文書内共起を用いる手法、または文内共起を用いる手法によって、関連キーワード候補を絞り込む手段と、上記絞り込まれた関連キーワード候補を提示する提示手段とを有することを特徴とする関連キーワード提示装置の例である。

しかも、上記実施例は、検索エンジンを大規模コーパスとみなし、検索ＨＩＴ数を用いる手法、または、全文検索用に取得した大規模文書集合内におけるキーワード出現共起を用いる手法によって、キーワード間の関連度を算出することを特徴とするキーワード間の関連度算出装置の例である。

そして、上記実施例は、テキスト量、自リンクと被リンクとの比率、ｈｕｂの平均的なリンクの質、またはリダイレクトを用いることによって、キーワードの重要度を算出することを特徴とするキーワードの重要度算出装置の例である。

加えて、上記実施例は、実際の検索システムにおいて、検索クエリを投入した回数を用いることによって、キーワードの重要度を算出することを特徴とするキーワードの重要度算出装置の例である。

また、上記実施例は、テキスト量、自リンクと被リンクとの比率、ｈｕｂの平均的なリンクの質、またはリダイレクトを用いることによって、キーワードの重要度を算出し、しかも、実際の検索システムにおいて、検索クエリを投入した回数を用いることによって、キーワードの重要度を算出することを特徴とするキーワードの重要度算出装置の例である。つまり、上記実施例は、上記線形和によって、キーワード順位を用いて最終的なキーワード固有重要度Keyword_score(k)を算出する例である。

さらに、上記実施例は、キーワード間の関連度とキーワード固有重要度とを乗ずることによって、最終的な関連キーワードのスコアを算出することを特徴とする最終的な関連キーワードのスコア算出装置の例である。

上記実施例における各手段を工程に置き換えれば、上記実施例は、方法の発明として把握することができる。つまり、上記実施例は、たとえば、テキスト量、自リンクと被リンクとの比率、ｈｕｂの平均的なリンクの質、またはリダイレクトを用いることによって、キーワードの重要度を算出し、記憶装置に記憶することを特徴とするキーワードの重要度算出方法の例である。

また、上記実施例をプログラムとして把握することができる。つまり、上記実施例は、上記実施例の装置を構成する各手段としてコンピュータを機能させるプログラムの例であり、すなわち、請求項１または請求項２に記載の装置を構成する各手段としてコンピュータを機能させるプログラムの例である。

上記実施例によれば、あるキーワードの関連キーワードを提示する場合、キーワードの関連度だけでなく、キーワード自体の重要度を考慮した関連キーワードを提示することができる。

また、上記実施例によれば、Ｗｉｋｉｐｅｄｉａの見出し語やリンク構造を用いることによって、重要な関連キーワード候補の絞込みが可能であり、また、『○○稲荷東京別院』等のように「複数形態素から構成される事象を一意に示す複合語の切り出し」が可能である。

さらに、上記実施例によれば、関連キーワード候補の絞込みを、本原稿で提案した複数手法を用いれば、精度を重視する場合または再現率を重視する場合等の調整が可能である。

そして、上記実施例によれば、Ｗｅｂ閲覧やＩＰＴＶ閲覧の際に関連検索キーワードとして提示するので、情報検索や情報ナビゲーション等を実現する場合、文字入力を必要としない。

１００…関連キーワード提示装置、
１０…キーワード入力手段、
２０…関連キーワード候補の作成手段、
３０…キーワード間関連度算出手段、
４０…キーワードの重要度算出手段、
５０…最終的な関連キーワードのスコア算出手段、
６０…スコア付き関連キーワードＤＢ、
７０…スコア付き関連キーワード手段。

Claims

文書集合内において全ての文書で一意の見出し語を持つ文書であり、かつ文書集合内において参照関係または引用関係を持つ文書の集合において、各文書の見出し語と当該文書の参照関係もしくは引用関係を用いて、または、各見出し語の表記が文書内で共起するもしくは文内で共起する手法を用いて、入力されたキーワードの関連キーワード候補を文書の見出し語から絞り込む手段と；
検索エンジンを大規模コーパスとみなし、検索ＨＩＴ数を用いる手法、または、全文検索用に取得した大規模文書集合内におけるキーワード出現共起を用いる手法によって、上記入力されたキーワードと上記各関連キーワード候補とのキーワード間の関連度を算出する手段と；
各文書のテキスト量、自リンクの数と被リンクの数との比率、または、当該文書の被リンクの文書の重要度を用いてリンク構造による重要度を算出し、当該リンク構造による重要度から関連キーワード候補の固有重要度を算出する手段と；
入力されたキーワードと関連キーワード候補とのキーワード間の関連度と、関連キーワード候補の固有重要度とから、入力されたキーワードに対する関連キーワード候補の最終スコアを算出する手段と；
算出された最終スコアに基づいて、関連キーワード候補を提示する提示手段と；
を有することを特徴とする関連キーワード提示装置。
請求項１において、
上記固有重要度を算出する手段は、
実際の検索システムにおいて、検索クエリを投入した回数を用いることによって、キーワードの検索クエリの投入回数による重要度を算出し、当該キーワードの検索クエリの投入回数による重要度と上記リンク構造による重要度とから、上記関連キーワード候補の固有重要度を算出する、
ことを特徴とする関連キーワード提示装置。
請求項１または請求項２に記載の関連キーワード提示装置を構成する各手段としてコンピュータを機能させるプログラム。