JP5214523B2 - 関連キーワード提示装置及びプログラム - Google Patents
関連キーワード提示装置及びプログラム Download PDFInfo
- Publication number
- JP5214523B2 JP5214523B2 JP2009093020A JP2009093020A JP5214523B2 JP 5214523 B2 JP5214523 B2 JP 5214523B2 JP 2009093020 A JP2009093020 A JP 2009093020A JP 2009093020 A JP2009093020 A JP 2009093020A JP 5214523 B2 JP5214523 B2 JP 5214523B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- document
- importance
- related keyword
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
文書集合内において全ての文書で一意の見出し語を持つ文書であり、かつ文書集合内において参照関係または引用関係を持つ文書の集合において、各文書の見出し語と当該文書の参照関係もしくは引用関係を用いて、または、各見出し語の表記が文書内で共起するもしくは文内で共起する手法を用いて、入力されたキーワードの関連キーワード候補を文書の見出し語から絞り込む手段と;
検索エンジンを大規模コーパスとみなし、検索HIT数を用いる手法、または、全文検索用に取得した大規模文書集合内におけるキーワード出現共起を用いる手法によって、上記入力されたキーワードと上記各関連キーワード候補とのキーワード間の関連度を算出する手段と;
各文書のテキスト量、自リンクの数と被リンクの数との比率、または、当該文書の被リンクの文書の重要度を用いてリンク構造による重要度を算出し、当該リンク構造による重要度から関連キーワード候補の固有重要度を算出する手段と;
入力されたキーワードと関連キーワード候補とのキーワード間の関連度と、関連キーワード候補の固有重要度とから、入力されたキーワードに対する関連キーワード候補の最終スコアを算出する手段と;
算出された最終スコアに基づいて、関連キーワード候補を提示する提示手段と;
を有することを特徴とする。
Wikipediaの見出し語において、知名度が高く、話題性の高い見出し語程、テキストの記述量が多いという傾向がある。そこで、authority値を算出する際に、自文書のテキスト量が多ければ多い程、その文書は重要であり、この重要度に応じて、重みtext(k)を付ける。
一般的に、Wikipediaの見出し語は、有名なキーワード程、自リンクと被リンクとの数が多い。しかし、地名やジャンル名のような広い概念を持つキーワードでは、引用しやすいキーワードであるので、自リンク数に比べると、被リンクの数が圧倒的に多い。
Wikipediaの見出し語には、「〜年」や「〜一覧」等、明らかにauthorityとはならない見出し語が存在する。これらの見出し語は、自リンクが非常に多く、被リンクも非常に多い場合があるので、ノイズになりやすい。そこで、明らかにauthorityとならない見出し語のauthority値を、常に変更しないことによって、上記問題に対処する。
Wikipediaの文書には、自リンクが多数あるが、hubとして質の悪い文書がある。そこで、リンク先キーワードのauthorityが、平均的に高いhubは、重要であるという仮説に変更することによって、自リンクは多いがhubとして質の低い文書におけるhub値を下げる重み
Wikipediaの文書には、見出し語の異表記を解消するために、redirectが存在する。たとえば、「マラチャ県」には、「マラチャ・テレゴ県」、「マラチャ=テレゴ県」のredirectがある。Redirectは、異表記のキーワードを一意にまとめる効果だけでなく、キーワードの被リンク構造に大きな影響を持つので、redirectキーワードを、親ノードにまとめることによって、異表記のキーワード固有重要度を算出し、上記被リンクの問題も解決する。
検索エンジンの検索クエリ投入回数から算出したキーワード固有重要度QKIS(k)よりも、Wikipedia内のリンク構造を用いたキーワード固有重要度WKIS(k)が、一般的に精度が良いことが実験により確認できたので、αの値は0.5〜0.8辺りの範囲で調整する。
最終的な関連キーワードfinal_relativeのスコアが高ければ高い程、キーワードk1の関連キーワード候補k2は、関連度が高く、重要な関連キーワードである。これにより、キーワード間の関連度だけでなく、キーワード自体の重要度を考慮した関連キーワードの順序付けが実現できる。スコア付きキーワードDBは、final_relativeの値(スコア)、キーワードk1、キーワードk2によって構成される。
10…キーワード入力手段、
20…関連キーワード候補の作成手段、
30…キーワード間関連度算出手段、
40…キーワードの重要度算出手段、
50…最終的な関連キーワードのスコア算出手段、
60…スコア付き関連キーワードDB、
70…スコア付き関連キーワード手段。
Claims (3)
- 文書集合内において全ての文書で一意の見出し語を持つ文書であり、かつ文書集合内において参照関係または引用関係を持つ文書の集合において、各文書の見出し語と当該文書の参照関係もしくは引用関係を用いて、または、各見出し語の表記が文書内で共起するもしくは文内で共起する手法を用いて、入力されたキーワードの関連キーワード候補を文書の見出し語から絞り込む手段と;
検索エンジンを大規模コーパスとみなし、検索HIT数を用いる手法、または、全文検索用に取得した大規模文書集合内におけるキーワード出現共起を用いる手法によって、上記入力されたキーワードと上記各関連キーワード候補とのキーワード間の関連度を算出する手段と;
各文書のテキスト量、自リンクの数と被リンクの数との比率、または、当該文書の被リンクの文書の重要度を用いてリンク構造による重要度を算出し、当該リンク構造による重要度から関連キーワード候補の固有重要度を算出する手段と;
入力されたキーワードと関連キーワード候補とのキーワード間の関連度と、関連キーワード候補の固有重要度とから、入力されたキーワードに対する関連キーワード候補の最終スコアを算出する手段と;
算出された最終スコアに基づいて、関連キーワード候補を提示する提示手段と;
を有することを特徴とする関連キーワード提示装置。 - 請求項1において、
上記固有重要度を算出する手段は、
実際の検索システムにおいて、検索クエリを投入した回数を用いることによって、キーワードの検索クエリの投入回数による重要度を算出し、当該キーワードの検索クエリの投入回数による重要度と上記リンク構造による重要度とから、上記関連キーワード候補の固有重要度を算出する、
ことを特徴とする関連キーワード提示装置。 - 請求項1または請求項2に記載の関連キーワード提示装置を構成する各手段としてコンピュータを機能させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009093020A JP5214523B2 (ja) | 2009-04-07 | 2009-04-07 | 関連キーワード提示装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009093020A JP5214523B2 (ja) | 2009-04-07 | 2009-04-07 | 関連キーワード提示装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010244339A JP2010244339A (ja) | 2010-10-28 |
JP5214523B2 true JP5214523B2 (ja) | 2013-06-19 |
Family
ID=43097287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009093020A Active JP5214523B2 (ja) | 2009-04-07 | 2009-04-07 | 関連キーワード提示装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5214523B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013152383A (ja) * | 2012-01-26 | 2013-08-08 | Mitsubishi Electric Corp | 簡略地図生成装置、簡略地図生成方法、簡略地図表示装置、及び簡略地図表示方法 |
KR101557960B1 (ko) | 2013-07-15 | 2015-10-06 | 주식회사 다음카카오 | 핵심 키워드 선정 장치, 핵심 키워드 선정 방법 및 이를 이용한 검색 서비스 제공 방법 |
CN111222040B (zh) * | 2019-12-30 | 2023-06-13 | 航天信息股份有限公司企业服务分公司 | 一种基于培训需求的方案自匹配处理方法及系统 |
CN114661893A (zh) * | 2022-03-29 | 2022-06-24 | 联想(北京)有限公司 | 摘要生成方法和装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09245058A (ja) * | 1996-03-11 | 1997-09-19 | Dainippon Printing Co Ltd | データベースシステムおよびキーワードネットワークの構築装置 |
JP2007027269A (ja) * | 2005-07-13 | 2007-02-01 | Matsushita Electric Ind Co Ltd | バイポーラトランジスタ及び電力増幅器 |
JP4937812B2 (ja) * | 2007-03-30 | 2012-05-23 | 株式会社野村総合研究所 | 検索システム |
-
2009
- 2009-04-07 JP JP2009093020A patent/JP5214523B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010244339A (ja) | 2010-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100481077C (zh) | 用于增强搜索结果导航的可视化方法及装置 | |
CN107092615B (zh) | 来自文档的查询建议 | |
Koutrika et al. | Data clouds: summarizing keyword search results over structured data | |
US6792419B1 (en) | System and method for ranking hyperlinked documents based on a stochastic backoff processes | |
US7996379B1 (en) | Document ranking using word relationships | |
US20130124512A1 (en) | Negative associations for generation of refinement options | |
US20040064447A1 (en) | System and method for management of synonymic searching | |
JP2010204866A (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
Strzelecki et al. | Direct answers in Google search results | |
JP5214523B2 (ja) | 関連キーワード提示装置及びプログラム | |
Sharma et al. | Semantic approaches for query expansion | |
JP5427694B2 (ja) | 関連コンテンツ提示装置及びプログラム | |
US20150193436A1 (en) | Search result processing | |
CN111177514B (zh) | 基于网站特征分析的信源评价方法、装置及存储设备、程序 | |
Leturia et al. | Morphological query expansion and language-filtering words for improving Basque web retrieval | |
JP4613346B2 (ja) | キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置 | |
Mostafa | Webpage keyword extraction using term frequency | |
Kanakaraj et al. | NLP based intelligent news search engine using information extraction from e-newspapers | |
Matošević | Text summarization techniques for meta description generation in process of search engine optimization | |
Leung et al. | Constructing concept relation network and its application to personalized web search | |
JP2012104051A (ja) | 文書インデックス作成装置 | |
Kanwal et al. | Adaptively intelligent meta-search engine with minimum edit distance | |
Medelyan et al. | Language Specific and Topic Focused Web Crawling. | |
JP5530393B2 (ja) | 文書要約装置、文書要約方法、及びプログラム | |
JP5389683B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120406 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120604 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20121026 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130118 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130128 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130227 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5214523 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160308 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |