[go: up one dir, main page]

JP5214523B2 - 関連キーワード提示装置及びプログラム - Google Patents

関連キーワード提示装置及びプログラム Download PDF

Info

Publication number
JP5214523B2
JP5214523B2 JP2009093020A JP2009093020A JP5214523B2 JP 5214523 B2 JP5214523 B2 JP 5214523B2 JP 2009093020 A JP2009093020 A JP 2009093020A JP 2009093020 A JP2009093020 A JP 2009093020A JP 5214523 B2 JP5214523 B2 JP 5214523B2
Authority
JP
Japan
Prior art keywords
keyword
document
importance
related keyword
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009093020A
Other languages
English (en)
Other versions
JP2010244339A (ja
Inventor
光正 近藤
匡 内山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009093020A priority Critical patent/JP5214523B2/ja
Publication of JP2010244339A publication Critical patent/JP2010244339A/ja
Application granted granted Critical
Publication of JP5214523B2 publication Critical patent/JP5214523B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、あるキーワードに関連するキーワードである関連キーワードを提示する装置及びプログラムに関する。
従来、あるキーワードに関連するキーワードを提示する場合、キーワードの関連性だけを考慮してキーワードを提示している(たとえば、非特許文献1参照)。
佐々木靖広、佐藤理史、宇津呂武仁著「関連用語収集問題とその解法」、言語処理学会、自然言語処理 Vol.13 No.3、pp.151-175,2006年7月
キーワードの関連性だけを考慮してキーワードを提示すると、重要な関連キーワードを上位に順序付けしてキーワード提示することができない。
したがって、上記従来例では、関連性はあるが、内容的には重要でないキーワードが、上位に順序付けされるという問題がある。
また、上記従来例では、関連キーワードの候補を絞り込むことができないという問題がある。
さらに、上記従来例では、『○○稲荷東京別院』等のように、「複数形態素から構成される事象を一意に示す複合語の切り出し」をいかにするかが問題がある。ちなみに、『○○稲荷東京別院』を形態素解析する場合、/○○/稲荷/東京/別院/となる。
つまり、上記従来例では、あるキーワードの関連キーワードを提示する場合、一般的に連想されやすい関連キーワード候補を上位に多く提示することができないという問題がある。
本発明は、あるキーワードの関連キーワードを提示する場合、キーワードの関連性だけでなく、キーワード自体の重要度を考慮した関連キーワードを提示することができる関連キーワード提示装置及びそのプログラムを提供することを目的とする。
つまり、本発明は、あるキーワードの関連キーワードを提示する場合、一般的に連想されやすい関連キーワード候補を上位に多く提示することができる関連キーワード提示装置及びそのプログラムを提供することを目的とする。
本願発明の関連キーワード提示装置は、
文書集合内において全ての文書で一意の見出し語を持つ文書であり、かつ文書集合内において参照関係または引用関係を持つ文書の集合において、各文書の見出し語と当該文書の参照関係もしくは引用関係を用いて、または、各見出し語の表記が文書内で共起するもしくは文内で共起する手法を用いて、入力されたキーワードの関連キーワード候補を文書の見出し語から絞り込む手段と;
検索エンジンを大規模コーパスとみなし、検索HIT数を用いる手法、または、全文検索用に取得した大規模文書集合内におけるキーワード出現共起を用いる手法によって、上記入力されたキーワードと上記各関連キーワード候補とのキーワード間の関連度を算出する手段と;
各文書のテキスト量、自リンクの数と被リンクの数との比率、または、当該文書の被リンクの文書の重要度を用いてリンク構造による重要度を算出し、当該リンク構造による重要度から関連キーワード候補の固有重要度を算出する手段と;
入力されたキーワードと関連キーワード候補とのキーワード間の関連度と、関連キーワード候補の固有重要度とから、入力されたキーワードに対する関連キーワード候補の最終スコアを算出する手段と;
算出された最終スコアに基づいて、関連キーワード候補を提示する提示手段と;
を有することを特徴とする。
本発明は、あるキーワードの関連キーワードを提示する場合、キーワードの関連度とキーワード自体が持つ重要度とを考慮することで、一般的に連想されやすい関連キーワード候補を上位に多く提示することができるという効果を奏する。
関連キーワード提示装置100を示す図である。 手法1(Wikipedia内の双方向リンクを用いる手法)の概要を説明する図である。 手法2(Wikipedia内の片方向リンクを用いる手法)の概要を説明する図である。 実施例1において、キーワード固有重要度を算出する動作を示すフローチャートである。 スコア付き関連キーワードDB60のカラムを示す図である。 本関連キーワード提示装置100の効果の一例を示す図である。
発明を実施するための形態は、以下の実施例である。
図1は、関連キーワード提示装置100を示す図である。
関連キーワード提示装置100は、キーワード入力手段10と、関連キーワード候補の絞込み手段20と、キーワード間の関連度算出手段30と、キーワードの重要度算出手段40と、最終的な関連キーワードのスコア算出手段50と、スコア付き関連キーワードDB60と、スコア付き関連キーワード出力手段70とを有する。
また、関連キーワード提示装置100がキーワードを提示する際に、予め作成したデータにアクセスする。つまり、関連キーワード候補の絞込み手段20と、キーワード間の関連度算出手段30と、キーワードの重要度算出手段40と、最終的な関連キーワードのスコア算出手段50とによって、関連キーワードを作成する。
さらに、 関連キーワード提示装置100は、キーワードの関連度と、キーワードそのものの重要度とを考慮して、関連キーワードを提示する装置である。上記「キーワードの関連度」は、あるキーワードが与えられた場合に、そのキーワードに関連するキーワードを数値で表したものである。つまり、「キーワードの関連度」は、キーワード間の関連性の強弱を示す指標である。
また、上記「キーワードの重要度」は、知名度や話題性が高く、つまり内容の深いキーワード程重要である。
このために、関連キーワード提示装置100は、より具体的で重要である関連キーワードを提示することができる。関連キーワード提示装置100において、関連キーワードを出力したいキーワードを入力し、スコア付きの関連キーワード集合を出力する。
次に、関連キーワード候補の絞込み手段20について説明する。
関連キーワード提示装置100では、「文書集合内において一意の見出し語を持つ文書であり、かつ文書集合内において引用関係または参照関係を持つ文書の集合」を用いて、関連キーワードを作成する。
上記「文書集合内において一意の見出し語を持つ文書であり、かつ文書集合内において引用関係または参照関係を持つ文書の集合」の例は、オンライン百科事典であるWikipediaや、はてなブックマーク、マイペディアである。
キーワード候補として、上記各文書集合における文書の見出し語を用いる。一意の見出し語を有する文書集合の見出し語を用いることによって、「複数形態素から構成される事象を一意に示す複合語」を切り出することができる。さらに、上記見出し語は、一般的に重要だと思われるキーワードを網羅しているので、掲載されている見出し語をキーワード候補として用いることによって、重要なキーワードを絞り込むことができる。
関連キーワード提示装置100における関連キーワード算出処理において、あるキーワードについて、関連キーワード候補集合を用意する必要がある。したがって、関連キーワード集合を、目的に応じて変更させる。
関連キーワード提示装置100において、対象とする文書集合は、「文書集合内において一意の見出し語を持つ文書であり、かつ文書集合内において引用関係または参照関係を持つ文書の集合」であり、この文書集合として、以下では、Wikipediaを例に挙げて説明する。
次に、キーワード間の関連度算出手段30について説明する。
次に、Wikipedia内のアンカーリンクを用いて、関連キーワード候補を抽出する手法について説明する。
Wikipediaでは、1つの見出し語(キーワード)について、1つの文書が存在し、この文書内には、各見出し語の文書へのアンカーリンクが張られている。本手法では、この文書内アンカーリンクを用いて、関連キーワード候補を作成する。
図2は、手法1(Wikipedia内の双方向リンクを用いる手法)の概要を説明する図である。
上記手法1は、Wikipedia内の双方向リンクを用いる手法であり、Wikipedia内で双方向からリンクが張られているキーワード(文書)を、関連キーワード候補とする手法である。
この手法1を用いると、関連キーワード候補の数は、次に説明する手法2よりも少ないが、精度の高い関連キーワード候補を取得することができる。このために、上記手法1は、関連キーワードの量よりも質を重視したい場合に適している。
図3は、手法2(Wikipedia内の片方向リンクを用いる手法)の概要を説明する図である。
上記手法2は、Wikipedia内の片方向リンクを用いる手法であり、文書間の片方向のリンクを用いて関連キーワード候補を作成する手法である。
この手法2は、文書間の双方向リンクではなく、片方向のリンクを用いて関連キーワード候補を作成する手法であるので、手法1よりも、関連キーワード候補の数を重視した手法である。また、手法2は、リンクの方向性を考慮するか、考慮しないかによって、次のように、2つの手法に分けられる。
図3(1)は、リンクの方向性を考慮した手法の説明図である。
この「リンクの方向性を考慮する手法」は、ある見出し語の文書内に存在するアンカーリンク先のキーワードを、関連キーワード候補とする手法である。この「リンクの方向性を考慮する手法」の特徴は、見出し語の文書内に含まれているアンカーリンクを用いるので、精度は手法1とほぼ変わらずに、関連キーワードの候補数を増やすことができる点が長所である。手法1で、関連キーワード候補数が少ないと感じた場合や、計算量的に余裕がある場合、上記「リンクの方向性を考慮する手法」を用いるとよい。
図3(2)は、リンクの方向性を考慮しない手法の説明図である。
上記「リンクの方向性を考慮する手法」は、自文書にあるアンカーリンク先を関連語候補とするが、上記「リンクの方向性を考慮しない手法」では、自文書にリンクしている(被リンク)キーワードも対象とする手法である。よって、方向性を考慮した場合に比べて、関連キーワード候補数が増える傾向にある。上記「リンクの方向性を考慮しない手法」は、関連キーワード候補数の精度はやや落ちるが、計算量的に余裕があり、関連語候補数をさらに増やしたい場合に有効である。
以上が、Wikipediaのリンクを用いた関連キーワード候補の作成手法である。
次に、文書集合内の出現共起を用いる手法、つまり、ユーザが用意した文書集合内におけるキーワードの出現共起を用いる手法について説明する。用意する文書集合は、できる限りデータ量の多いものが好ましい。分野を問わずに関連キーワード提示装置100を構築する場合、Web文書のような分野を問わずに、できる限り大規模な文書集合を用いる。また、ある特定の分野に特化した関連キーワード提示装置100を構築したい場合、その分野に特化したできる限り大規模な文書集合を用いる。
次に、手法3(文内共起を用いる手法)について説明する。
手法3は、文書集合内における各文書の文内において、あるキーワードと別のキーワードとが同時に出現している場合、そのキーワードを「関連キーワード候補」とする手法である。つまり、手法3において、関連キーワード候補は、文書集合を構成する各文書の文内において、あるキーワードと別のキーワードとが同時に出現していた場合における別のキーワードである。
具体例を挙げると、「X社の光ファイバー加入者数がADSLを上回る。」という一文内において、「X社」、「光ファイバー」、「ADSL」が文内で同時に出現している。したがって、「X社」の関連キーワード候補は、「光ファイバー」、「ADSL」である。同じく「光ファイバー」の関連キーワード候補は、「X社」、「ADSL」である。
手法3(文内共起を用いる手法)は、Wikipediaのリンクを用いる手法と比較すると、キーワード候補数が多くなるので、キーワード間の関連度算出手段30における算出の際に、計算量が多いものの、関連キーワードの出力数が格段に増えるので、関連キーワードの数を増やしたい場合に有効である。
次に、手法4(文書内共起を用いる手法)について説明する。
手法4は、文書集合内における各文書において、あるキーワードと別のキーワードとが同時に出現している場合、そのキーワードを「関連キーワード候補」とする手法である。つまり、上記手法4は、文内ではなく文書内で出現していれば、関連キーワード候補とする点が、上記手法3とは異なる。
手法4において、関連キーワード候補は、文書集合を構成する各文書内において、あるキーワードと別のキーワードとが同時に出現している場合におけるそのキーワードである。手法4は、手法3と同じく関連キーワード候補数が多いが、手法3よりも候補数が多い。このために、手法4は、関連キーワード数を、手法3よりもさらに増やしたい場合に有効である。
すなわち、上記手法1〜手法4は、文書集合内の出現共起を用いて関連キーワード候補集合を作成する手法である。
関連キーワードの再現率については、手法4、手法3、手法2、手法1の順で、関連キーワードの再現率が高く、手法1、手法2、手法3、手法4の順で、計算量が少なく、計算時間が短い。目的用途に応じて、手法を選ぶとよい。
次に、キーワード間関連度を算出する手法について説明する。
キーワード間関連度を算出する手法は、検索エンジンを大規模コーパスとみなし、検索HIT数を用いる手法と、全文検索用に取得した大規模文書集合内におけるキーワード出現共起を用いる手法とである。
次に、検索エンジンを大規模コーパスとみなし、検索HIT数を用いる手法について説明する。
この手法は、検索エンジンにキーワードを入力し、その結果得られたHIT数に基づいて、キーワード間の関連度を算出する手法である。関連度の尺度には、jaccard係数を用いる。検索エンジンのHIT数を用いたキーワード間関連度relativeは、次の式(1)で表される。
relative(k1,k2)=hit(k1∩k2)/{hit(k1∩k2)+hit(k1)+hit(k2)}…式(1)
ここで、kは、関連キーワードを出力したいキーワードであり、kは、関連キーワードである。hit(k∩k)は、キーワードkとキーワードkとをAND検索した場合のHIT数であり、hit(k)は、キーワードkを検索した場合のHIT数である。
次に、大規模文書集合内におけるキーワード出現共起を用いる手法について説明する。
大規模文書集合を用いる手法は、検索エンジンを用いる手法と同じく、キーワードの出現共起を用いてキーワード間関連度を算出する手法である。
検索エンジンを大規模コーパスとみなし、検索HIT数を用いる手法は、関連キーワード候補集合を全て検索エンジンに投入しなければならないので、計算時間がかかり、大きな関連キーワード候補集合を用いることができない。また、検索エンジンを用いる手法は、文書内共起しか算出できないので、文内共起を算出することができない。このために、大規模文書集合内におけるキーワード出現共起を用いる手法は、計算時間的に優れ、また、文内共起を取得できる点で優れている。
大規模文書集合を用いたキーワード間関連度relativeは、次の式(2)で表される。
relative(k1,k2)=co−occur(k1∩k2)/{co−occur (k1∩k2)+freq(k1)+freq(k2)} …式(2)
ここで、kは、関連キーワードを出力したいキーワードであり、kは、関連キーワードである。co−occur(k∩k)は、キーワードkとキーワードkとが文書内共起(文内共起)した場合の数であり、freq(k)は、キーワードkを出現文書数(出現文数)である。
ここで用いる大規模文書集合は、データ量が大きければ大きい程、良い結果をもたらす。このために、全文検索エンジンのためにクロールしたWeb文書等を用いるのが良い。また、逐次的に新しいWeb文書を追加することによって、時代に即した関連キーワードを抽出することができる。
次に、キーワード固有重要度の算出について説明する。
キーワードの重要度は、知名度や話題性が高く、内容が深いキーワード程重要であり、その度合いである。このキーワードの重要度を、「キーワード固有重要度」と呼ぶ。
図4は、実施例1において、キーワード固有重要度を算出する動作を示すフローチャートである。
まず、S1で、リンク構造(リンク解析)を用いた手法(後述の式(6))を実行し、S2では、S1で算出したキーワード順位を用いたキーワード固有重要度を算出する後述の式(7)を実行する。一方、S3で、検索エンジンの検索クエリ投入回数を用いたキーワード順序付けをし、S4では、S3で算出したキーワード順位を用いたキーワード固有重要度(後述の式(8))を算出する。S5では、S2で算出したキーワード固有重要度と、S4で算出したキーワード固有重要度とを線形和し(後述の式(9)を実行し)、S6で、キーワードスコアを作成する。
次に、Wikipedia内のリンク構造(リンク解析)を用いる手法について説明する。つまり、Wikipedia内のリンク構造を用いて、キーワード固有重要度を算出する手法について説明する。
HITSやPageRank等の一般的なWeb文書のランキング手法では、Webページのリンク構造を用い、Web文書をランキングする。しかし、Wikipediaの文書には、1つの文書について1つの見出し語(キーワード)が付いているので、Wikipediaのリンク構造から得られた文書のランキングを、キーワードのランキングであるとみなすことができる。
したがって、関連キーワード提示装置100では、Wikipediaに特化したランキング手法を適用することによって、キーワード固有重要度を算出する。ベースとなるアルゴリズムとして、HITSアルゴリズムを用いる。
上記HITSアルゴリズムは、全てのWeb文書は、authority(コンテンツ)とhub(リンク集)との2つから構成されていると定義する。そして、良いhubから多数リンクされるauthority程、良いauthorityであるという仮説と、良いauthorityに多数リンクしているhub程、良いhubであるという仮説との2つの仮説を繰り返し実行することによって、Web文書をランキングする。
しかし、HITSアルゴリズムは、Web世界におけるWeb文書のリンク構造をモデルにしたアルゴリズムであるので、リンク構造が非常に密なWikipediaに、そのまま適用すると、やや難がある。そこで、関連キーワード提供装置100は、Wikipediaの特徴的な構造と密なリンク構造とに対応させている。そして、本アルゴリズムから算出したauthorityの値による順位を、以下で説明する減衰関数を用いて、最終的なキーワード固有重要度を算出する。上記減衰関数は、後述の式(4)である。
[テキスト量の考慮]
Wikipediaの見出し語において、知名度が高く、話題性の高い見出し語程、テキストの記述量が多いという傾向がある。そこで、authority値を算出する際に、自文書のテキスト量が多ければ多い程、その文書は重要であり、この重要度に応じて、重みtext(k)を付ける。
[自リンクと被リンクの比率]
一般的に、Wikipediaの見出し語は、有名なキーワード程、自リンクと被リンクとの数が多い。しかし、地名やジャンル名のような広い概念を持つキーワードでは、引用しやすいキーワードであるので、自リンク数に比べると、被リンクの数が圧倒的に多い。
通常のHITSアルゴリズムでは、良いhubから多数リンクされているauthorityは、良いauthorityであるという仮説を用いるが、圧倒的に被リンクが多い場合、これらの仮説は成り立たないと予想される。また、その一方で、最近知名度が高くなった新人俳優や話題語等の見出し語は、誕生してから日が浅いので、引用数は少ないが、自リンクは多い傾向にある。このために、少ない被リンク数でも、authorityを高める必要があるという被リンクの問題がある。これらの被リンクの問題を解決するために、authority値を算出する際に、flink(k)/blink(k)を考慮する。上記flink(k)は、キーワードkの文書内に含まれている自リンクの数であり、上記blink(k)は、キーワードkの文書にリンクしている被リンク数の数である。
[明らかにauthority算出とならない見出し語の扱い]
Wikipediaの見出し語には、「〜年」や「〜一覧」等、明らかにauthorityとはならない見出し語が存在する。これらの見出し語は、自リンクが非常に多く、被リンクも非常に多い場合があるので、ノイズになりやすい。そこで、明らかにauthorityとならない見出し語のauthority値を、常に変更しないことによって、上記問題に対処する。
[hubの平均的なリンクの質]
Wikipediaの文書には、自リンクが多数あるが、hubとして質の悪い文書がある。そこで、リンク先キーワードのauthorityが、平均的に高いhubは、重要であるという仮説に変更することによって、自リンクは多いがhubとして質の低い文書におけるhub値を下げる重み
Figure 0005214523

を考慮する。
[リダイレクトの扱い]
Wikipediaの文書には、見出し語の異表記を解消するために、redirectが存在する。たとえば、「マラチャ県」には、「マラチャ・テレゴ県」、「マラチャ=テレゴ県」のredirectがある。Redirectは、異表記のキーワードを一意にまとめる効果だけでなく、キーワードの被リンク構造に大きな影響を持つので、redirectキーワードを、親ノードにまとめることによって、異表記のキーワード固有重要度を算出し、上記被リンクの問題も解決する。
そして、最終的なWikipediaランキングアルゴリズムは、次の式(3)で定義される。つまり、キーワードkのauthority値a(k)を求め、hub値h(k)を求める。
Figure 0005214523
ここで、flink(k)は、キーワードkからの自リンク数であり、blink(k)は、キーワードkからの被リンク数である。また、text(k)は、キーワードkが見出し語になっているWikipedia文書の文字数(アンカーリンク対象の文字列は除く)であり、K’は、キーワードkが見出し語になっているWikipedia文書内に含まれているリンクの総数である。
そして、上記式(3)で算出したauthority値a(k)を用いて、降順にキーワードを順位付けする。これによって、キーワードの候補数(x軸の要素数)に左右されることなく、また上界と下界を設定でき、またキーワードの候補数の上位20%以内において、最大値と最小値の差が30%〜70%以内に収まる減衰曲線を描き、そしてパラメータ係数において、整数値を用いることによって、小数点を考慮した細かい数値設定を考慮することなく、減衰度合いを容易に設定できる特徴をもつスコア関数である。なお、実数値でも、減衰度合いを設定することができる。
実施例1では、次の式(4)で示すキーワード固有重要度算出式を用いて、スコアを算出し、 Wikipedia内のリンク構造を用いたキーワード固有重要度WKIS(k)とする。次の式(4)は、減衰関数である。
Figure 0005214523
ここで、yは、キーワード固有重要度の上界であり、yは、キーワード固有重要度の下界である。kは、キーワードkのauthorityの値による順位であり、Kは、キーワードの総数であり、aは、スコアの勾配係数であり、スコアの勾配係数aの値が大きくなればなる程、スコアの勾配が急になる。y、yの推奨値は、それぞれ1、0.1であり、勾配係数の推奨値は、3から7である。
一般的なexpを用いた減衰関数は、キーワードの総数によって最大スコアの値と最小スコアの値とが大きく変わるという問題があるが、上記式(4)では、キーワードの総数に影響を受けずに、特性の近いスコア関数を算出することができ、また最大スコアと最小スコアの値とを、y、yの値を指定するだけで、簡単に設定することができる。また減衰関数の勾配も、aを指定するだけで柔軟に変更することができる。
Wikipedia内のリンク構造から算出したキーワード固有重要度は、ユーザ参加型オンライン百科事典のWikipedia内においての重要なキーワードが上位に位置付けられるので、一般的に知名度は低いが、実際には内容が深く重要なキーワードが、上位に位置付けられる。
次に、検索エンジンの検索クエリ投入回数を用いた手法について説明する。
この手法は、実際の検索エンジンに投入された回数が多い検索クエリ程、重要なキーワードであるとみなす手法である。検索クエリの投入回数は、ポータルサイト上で投入された検索クエリのような大規模データであることが好ましい。この手法もWikipedia内のリンク構造を用いた手法と同じく、上記式(4)のキーワード固有重要度算出式を用いてスコアを算出し、検索クエリを投入した回数を用いたキーワード固有重要度QKIS(k)とする。
Figure 0005214523
ここで、yはキーワード固有重要度の上界であり、yはキーワード固有重要度の下界である。そしてkはキーワードkの検索回数による順位、Kはキーワードの総数、aはスコアの勾配係数で、aの値が大きくなればなるほどスコアの勾配が急になる。
また、Wikipediaには見出し語として存在するが、検索エンジンの検索クエリには見出し語が存在しない場合がある。この場合は、yを該当キーワードのスコアとする。
検索エンジンの検索クエリ投入回数から算出したキーワード固有重要度は、実際の検索クエリ投入回数によって重要度が決まるため、検索クエリとして投入されやすく、重要なキーワードが上位に来る傾向にある。
上記のように、Wikipedia内のリンク構造から算出したキーワード固有重要度WKIS(k)と、検索エンジンの検索クエリ投入回数から算出したキーワード固有重要度QKIS(k)について説明した。しかし、検索エンジンの検索クエリ投入回数から算出したキーワード固有重要度QKIS(k)は、検索クエリデータの収集期間が短い場合、その間にインターネット上でおきた話題に強く影響されるという問題があり、さらにインターネットサイト名等の生活的クエリが多く含まれる傾向にある。したがって、Wikipedia内のリンク構造から算出したキーワード固有重要度WKIS(k)と、検索エンジンの検索クエリ投入回数から算出したキーワード固有重要度QKIS(k)との線形和を、最終的なキーワード固有重要度Keyword_score(k)とすることによって、話題性が高くつまり内容が深く、かつ検索クエリとして投入されやすいキーワードを上位に位置付ける重要度を算出する。
Keyword_score(k)=α・WKIS(k)+(1−α)・QKIS(k) …式(6)
検索エンジンの検索クエリ投入回数から算出したキーワード固有重要度QKIS(k)よりも、Wikipedia内のリンク構造を用いたキーワード固有重要度WKIS(k)が、一般的に精度が良いことが実験により確認できたので、αの値は0.5〜0.8辺りの範囲で調整する。
次に、最終的な関連キーワードのスコア算出について説明する。
上記キーワード間の関連度と上記キーワード固有重要度とを乗ずることによって、最終的な関連キーワードのスコアfinal_relative(k1,k2)とする。
final_relative(k1,k2)=relative(k1,k2)・keyword_score(k2) …式(7)
最終的な関連キーワードfinal_relativeのスコアが高ければ高い程、キーワードkの関連キーワード候補kは、関連度が高く、重要な関連キーワードである。これにより、キーワード間の関連度だけでなく、キーワード自体の重要度を考慮した関連キーワードの順序付けが実現できる。スコア付きキーワードDBは、final_relativeの値(スコア)、キーワードk、キーワードkによって構成される。
次に、関連キーワード提示装置100について説明する。
上記関連キーワード作成手法を用いて、スコア付き関連キーワードDBを作成する。関連キーワードを提示したいキーワードを、キーワード入力手段に入力することによって、この入力されたキーワードに関連するスコア付き関連キーワードが、スコア付きキーワード手段70から出力される。
図5は、スコア付き関連キーワードDB60のカラムを示す図である。
なお、関連キーワードを作成する場合、図1に示す構成の代わりに、キーワードの重要度算出手段40、関連キーワード候補の絞込み手段20、キーワード間の関連度算出手段30の順で信号が流れる(処理が実行される)ようにしてもよい。そして、この場合、最終的な関連キーワードのスコア算出手段50で最終的な関連キーワードのスコアを算出するようにしてもよい。
図6は、関連キーワード提示装置100の効果の一例を示す図である。
従来は、キーワードの関連度しか考慮していないので、「上杉氏」や、「御館の乱」が上位に位置付けられるが、上記実施例では、関連度だけでなく、キーワードの重要度を考慮しているので、「前田利家」、「伊達正宗」、「上杉謙信」等、より重要なキーワードが上位に位置付けられる。
上記実施例の特徴は、キーワード自体が持つ重要度(キーワード固有重要度)を考慮する点と、キーワード自体の重要度を算出する点とである。
つまり、上記実施例は、文書集合内において一意の見出し語を持つ文書であり、かつ文書集合内において引用関係または参照関係を持つ文書の集合において、あるキーワードに関連するキーワードである関連キーワードの候補である関連キーワード候補を、双方向リンクを用いて絞り込む手段と、上記絞り込まれた関連キーワード候補を提示する提示手段とを有することを特徴とする関連キーワード提示装置の例である。
また、上記実施例は、文書集合内において一意の見出し語を持つ文書であり、かつ文書集合内において引用関係または参照関係を持つ文書の集合において、あるキーワードに関連するキーワードである関連キーワードの候補である関連キーワード候補を、片方向リンクを用いて絞り込む手段と、上記絞り込まれた関連キーワード候補を提示する提示手段とを有することを特徴とする関連キーワード提示装置の例である。
さらに、上記実施例は、文書内共起を用いる手法、または文内共起を用いる手法によって、関連キーワード候補を絞り込む手段と、上記絞り込まれた関連キーワード候補を提示する提示手段とを有することを特徴とする関連キーワード提示装置の例である。
しかも、上記実施例は、検索エンジンを大規模コーパスとみなし、検索HIT数を用いる手法、または、全文検索用に取得した大規模文書集合内におけるキーワード出現共起を用いる手法によって、キーワード間の関連度を算出することを特徴とするキーワード間の関連度算出装置の例である。
そして、上記実施例は、テキスト量、自リンクと被リンクとの比率、hubの平均的なリンクの質、またはリダイレクトを用いることによって、キーワードの重要度を算出することを特徴とするキーワードの重要度算出装置の例である。
加えて、上記実施例は、実際の検索システムにおいて、検索クエリを投入した回数を用いることによって、キーワードの重要度を算出することを特徴とするキーワードの重要度算出装置の例である。
また、上記実施例は、テキスト量、自リンクと被リンクとの比率、hubの平均的なリンクの質、またはリダイレクトを用いることによって、キーワードの重要度を算出し、しかも、実際の検索システムにおいて、検索クエリを投入した回数を用いることによって、キーワードの重要度を算出することを特徴とするキーワードの重要度算出装置の例である。つまり、上記実施例は、上記線形和によって、キーワード順位を用いて最終的なキーワード固有重要度Keyword_score(k)を算出する例である。
さらに、上記実施例は、キーワード間の関連度とキーワード固有重要度とを乗ずることによって、最終的な関連キーワードのスコアを算出することを特徴とする最終的な関連キーワードのスコア算出装置の例である。
上記実施例における各手段を工程に置き換えれば、上記実施例は、方法の発明として把握することができる。つまり、上記実施例は、たとえば、テキスト量、自リンクと被リンクとの比率、hubの平均的なリンクの質、またはリダイレクトを用いることによって、キーワードの重要度を算出し、記憶装置に記憶することを特徴とするキーワードの重要度算出方法の例である。
また、上記実施例をプログラムとして把握することができる。つまり、上記実施例は、上記実施例の装置を構成する各手段としてコンピュータを機能させるプログラムの例であり、すなわち、請求項1または請求項2に記載の装置を構成する各手段としてコンピュータを機能させるプログラムの例である。
上記実施例によれば、あるキーワードの関連キーワードを提示する場合、キーワードの関連度だけでなく、キーワード自体の重要度を考慮した関連キーワードを提示することができる。
また、上記実施例によれば、Wikipediaの見出し語やリンク構造を用いることによって、重要な関連キーワード候補の絞込みが可能であり、また、『○○稲荷東京別院』等のように「複数形態素から構成される事象を一意に示す複合語の切り出し」が可能である。
さらに、上記実施例によれば、関連キーワード候補の絞込みを、本原稿で提案した複数手法を用いれば、精度を重視する場合または再現率を重視する場合等の調整が可能である。
そして、上記実施例によれば、Web閲覧やIPTV閲覧の際に関連検索キーワードとして提示するので、情報検索や情報ナビゲーション等を実現する場合、文字入力を必要としない。
100…関連キーワード提示装置、
10…キーワード入力手段、
20…関連キーワード候補の作成手段、
30…キーワード間関連度算出手段、
40…キーワードの重要度算出手段、
50…最終的な関連キーワードのスコア算出手段、
60…スコア付き関連キーワードDB、
70…スコア付き関連キーワード手段。

Claims (3)

  1. 文書集合内において全ての文書で一意の見出し語を持つ文書であり、かつ文書集合内において参照関係または引用関係を持つ文書の集合において、各文書の見出し語と当該文書の参照関係もしくは引用関係を用いて、または、各見出し語の表記が文書内で共起するもしくは文内で共起する手法を用いて、入力されたキーワードの関連キーワード候補を文書の見出し語から絞り込む手段と;
    検索エンジンを大規模コーパスとみなし、検索HIT数を用いる手法、または、全文検索用に取得した大規模文書集合内におけるキーワード出現共起を用いる手法によって、上記入力されたキーワードと上記各関連キーワード候補とのキーワード間の関連度を算出する手段と;
    各文書のテキスト量、自リンクの数と被リンクの数との比率、または、当該文書の被リンクの文書の重要度を用いてリンク構造による重要度を算出し、当該リンク構造による重要度から関連キーワード候補の固有重要度を算出する手段と;
    入力されたキーワードと関連キーワード候補とのキーワード間の関連度と、関連キーワード候補の固有重要度とから、入力されたキーワードに対する関連キーワード候補の最終スコアを算出する手段と;
    算出された最終スコアに基づいて、関連キーワード候補を提示する提示手段と;
    を有することを特徴とする関連キーワード提示装置。
  2. 請求項1において、
    上記固有重要度を算出する手段は、
    実際の検索システムにおいて、検索クエリを投入した回数を用いることによって、キーワードの検索クエリの投入回数による重要度を算出し、当該キーワードの検索クエリの投入回数による重要度と上記リンク構造による重要度とから、上記関連キーワード候補の固有重要度を算出する、
    ことを特徴とする関連キーワード提示装置。
  3. 請求項1または請求項2に記載の関連キーワード提示装置を構成する各手段としてコンピュータを機能させるプログラム。
JP2009093020A 2009-04-07 2009-04-07 関連キーワード提示装置及びプログラム Active JP5214523B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009093020A JP5214523B2 (ja) 2009-04-07 2009-04-07 関連キーワード提示装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009093020A JP5214523B2 (ja) 2009-04-07 2009-04-07 関連キーワード提示装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2010244339A JP2010244339A (ja) 2010-10-28
JP5214523B2 true JP5214523B2 (ja) 2013-06-19

Family

ID=43097287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009093020A Active JP5214523B2 (ja) 2009-04-07 2009-04-07 関連キーワード提示装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5214523B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013152383A (ja) * 2012-01-26 2013-08-08 Mitsubishi Electric Corp 簡略地図生成装置、簡略地図生成方法、簡略地図表示装置、及び簡略地図表示方法
KR101557960B1 (ko) 2013-07-15 2015-10-06 주식회사 다음카카오 핵심 키워드 선정 장치, 핵심 키워드 선정 방법 및 이를 이용한 검색 서비스 제공 방법
CN111222040B (zh) * 2019-12-30 2023-06-13 航天信息股份有限公司企业服务分公司 一种基于培训需求的方案自匹配处理方法及系统
CN114661893A (zh) * 2022-03-29 2022-06-24 联想(北京)有限公司 摘要生成方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09245058A (ja) * 1996-03-11 1997-09-19 Dainippon Printing Co Ltd データベースシステムおよびキーワードネットワークの構築装置
JP2007027269A (ja) * 2005-07-13 2007-02-01 Matsushita Electric Ind Co Ltd バイポーラトランジスタ及び電力増幅器
JP4937812B2 (ja) * 2007-03-30 2012-05-23 株式会社野村総合研究所 検索システム

Also Published As

Publication number Publication date
JP2010244339A (ja) 2010-10-28

Similar Documents

Publication Publication Date Title
CN100481077C (zh) 用于增强搜索结果导航的可视化方法及装置
CN107092615B (zh) 来自文档的查询建议
Koutrika et al. Data clouds: summarizing keyword search results over structured data
US6792419B1 (en) System and method for ranking hyperlinked documents based on a stochastic backoff processes
US7996379B1 (en) Document ranking using word relationships
US20130124512A1 (en) Negative associations for generation of refinement options
US20040064447A1 (en) System and method for management of synonymic searching
JP2010204866A (ja) 重要キーワード抽出装置及び方法及びプログラム
Strzelecki et al. Direct answers in Google search results
JP5214523B2 (ja) 関連キーワード提示装置及びプログラム
Sharma et al. Semantic approaches for query expansion
JP5427694B2 (ja) 関連コンテンツ提示装置及びプログラム
US20150193436A1 (en) Search result processing
CN111177514B (zh) 基于网站特征分析的信源评价方法、装置及存储设备、程序
Leturia et al. Morphological query expansion and language-filtering words for improving Basque web retrieval
JP4613346B2 (ja) キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置
Mostafa Webpage keyword extraction using term frequency
Kanakaraj et al. NLP based intelligent news search engine using information extraction from e-newspapers
Matošević Text summarization techniques for meta description generation in process of search engine optimization
Leung et al. Constructing concept relation network and its application to personalized web search
JP2012104051A (ja) 文書インデックス作成装置
Kanwal et al. Adaptively intelligent meta-search engine with minimum edit distance
Medelyan et al. Language Specific and Topic Focused Web Crawling.
JP5530393B2 (ja) 文書要約装置、文書要約方法、及びプログラム
JP5389683B2 (ja) 重要キーワード抽出装置及び方法及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120406

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120604

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121026

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130118

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130128

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130227

R150 Certificate of patent or registration of utility model

Ref document number: 5214523

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160308

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350