JP2010055164A - 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 - Google Patents
文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 Download PDFInfo
- Publication number
- JP2010055164A JP2010055164A JP2008216556A JP2008216556A JP2010055164A JP 2010055164 A JP2010055164 A JP 2010055164A JP 2008216556 A JP2008216556 A JP 2008216556A JP 2008216556 A JP2008216556 A JP 2008216556A JP 2010055164 A JP2010055164 A JP 2010055164A
- Authority
- JP
- Japan
- Prior art keywords
- site
- search
- query
- unit
- access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 文章検索装置1の解析部A123および解析部B124は、入力されたクエリを用いてサイトがクリックされた履歴であるクリックログDB126を解析する。解析結果統合部122は、前記両解析部123.124の解析結果からアクセスが集中しているサイトを特定する。情報抽出部128は、アクセスが集中しているサイトのタイトルと概要文とを抽出する。拡張語選択部120は、抽出したタイトルと概要文から検索に用いる拡張語を選択する。検索実行部140は、前記拡張語と前記クエリとを用いて検索を行い、検索結果を出力する。
【選択図】 図1
Description
"Probabilistic Query Expansion Using Query Logs".Hang Cui,et al.(2002) S.E.Robertson,"On term selection for query expansion",Journal of Documentation,46,pages 359−364,1990.
前記表示部100には、利用者がクエリ(検索語)を入力するクエリ入力画面101および前記検索実行部140から得た検索結果を表示する結果表示画面102がブラウザを介して表示される。ここでは、利用者は前記クエリ入力画面101にて前記キーボードなどを用いてクエリを入力する。
前記検索式生成部110は、前記クエリ入力画面101において入力された前記クエリを受信し、受信したクエリおよび該クエリに対する拡張語の要求を前記拡張語選択部120へ送信する。また、前記拡張語選択部120から拡張語を受信すると、この拡張語を用いて初期のクエリに対する検索結果を並び替える処理を行う検索式を生成し、これを前記検索実行部140へ送信する。この検索式を用いて、入力されたクエリに対する初回の検索結果のランキングを、前記拡張語を用いてより精度の高いランキングに並び替えている。
前記拡張語選択部120は、命令部121、解析結果統合部122、解析部A123、解析部B124、解析部C125、情報抽出部128、照合部129、検索結果取得部130、機能語抽出・名詞句生成部133、拡張語の重み・順序付け部134、クリックログフィードバック処理部150と、3つのDB(データベース)、即ちクリックログDB126、クリック確率DB127、インデックスDB132と、検索エンジン131とを有している。このうち前記各DB126.127.132は、前記ハードディスクドライブ装置上に構築されている。
前記検索実行部140は、前記検索式生成部110から検索式を受信すると、これを前記検索エンジン131へ投入し、対応する検索結果を受信する。そして、この検索結果を前記結果表示画面102へ表示する。
前記文章検索装置1は、利用者から入力されたクエリを基にクリックログを解析して拡張語を取得し、この拡張語を用いてクエリ拡張をすることによりさらに精度の高い検索結果を得ている。この一連の処理は主に4つのフェーズ、即ちクエリ入力フェーズ、クリックログ解析フェーズ、拡張語取得フェーズ、検索実行フェーズから構成されている。以下、この各フェーズの詳細な処理内容について、図2〜7に基づき説明する。
図2は、クエリ入力フェーズの処理フローを示している。まず、利用者は前記クエリ入力画面101においてクエリを入力する。入力されたクエリは、前記検索式生成部110へ送信される。前記検索式生成部110は、前記拡張語選択部120へ前記クエリとともに拡張語の抽出・選択要求を送信する。
クリックログ解析フェーズでは、入力されたクエリを用いてクリックログを解析する。この目的は、クリックログ中のサイトにおいてアクセスの集中するサイトを特定することにある。なぜなら閲覧者は、検索結果中のサイトを選択する(クリックする)際、そのサイトのタイトルとスニペット(概要文)を見て判断すると考えられ、アクセスの集中するサイトのタイトルとスニペットには、閲覧者が有用だと判断したキーワードがあると期待できるからである。そして、このキーワードでクエリ拡張をすることにより、大幅な検索の精度向上が望めると考えられる。ここではそのようなサイトをアクセス集中サイト(ACS)とし、そのタイトルとスニペット(Titles and Snippets)をTSと呼ぶ。クリックログ解析フェーズでは、入力されたクエリを用いてクリックログを解析することにより、アクセス集中サイト(ACS)の特定を行っている。
拡張語取得フェーズでは、クリックログ解析フェーズで特定したアクセス集中サイト(ACS)のタイトルと概要文(スニペット)から、クエリ拡張を行うための拡張語を取得する。これは、アクセスの集中するサイトのタイトルとスニペットには閲覧者が有用だと判断したキーワードがあり、このキーワードでクエリ拡張をすることで大幅な検索の精度向上が期待できるためである。
検索実行フェーズでは、拡張語取得フェーズで取得した拡張語を用いて検索式を生成し、この検索式による検索を実行するとともに、検索結果に対する利用者の判断(クリック)をクリックログに反映させる。
前記クリックログDB126と前記インデックスDB132とは、必ずしも前記文章検索装置1に実装される必要はなく、例えば前記文章検索装置1にネットワークを介して接続された図外のサーバ内に実装した態様であってもよい。この場合に、前記両DB126.132への接続は前記通信デバイスを介して行われる。
100…表示部
101…クエリ入力画面
102…結果表示画面
110…検索式生成部
120…拡張語選択部
121…命令部
122…解析結果統合部
123…解析部A(第1解析手段)
124…解析部B(第2解析手段)
125…解析部C
126…クリックログDB
127…クリック確率DB
128…情報抽出部
129…照合部
130…検索結果取得部
131…検索エンジン
132…インデックスDB
133…機能語抽出・名詞句生成部
134…拡張語の重み・順序付け部
140…検索実行部
150…クリックログフィードバック処理部
Claims (10)
- 入力されたクエリに関連する拡張語を取得し、該拡張語と前記クエリとを用いてサイトを検索する文章検索装置であって、
前記クエリに対するクリックログを解析して、アクセスの集中するサイトを特定するクリックログ解析手段と、
前記アクセスの集中するサイトのタイトルと概要文とを解析して、前記拡張語を取得する拡張語取得手段と、
を備えることを特徴とする文章検索装置。 - 前記クリックログ解析手段は、
前記クリックログに存在する複数サイト間の相対的クリック回数を解析してサイトのアクセス集中度合を求める第1解析手段と、
前記クリックログに存在するサイトのクリック回数の生起確率を解析してアクセスの集中するサイトの候補を求める第2解析手段と、
前記両解析手段の解析結果を統合してアクセスの集中するサイトを特定する解析結果統合手段とを有する
ことを特徴とする請求項1記載の文章検索装置。 - 前記拡張語取得手段は、
前記アクセスの集中するサイトのタイトルと概要文とを解析して拡張語の候補群を求める手段と、
前記拡張語の各候補に対して順序付けを行う手段と、
前記順序付けられた各候補の順位に基づいて拡張語を選択する手段とを有する
ことを特徴とする請求項1または2のいずれか1項に記載の文章検索装置。 - 前記クエリと前記拡張語とを用いてサイトを検索し、検索結果を出力する検索実行手段と、
前記検索実行手段の検索結果に対する利用者のクリック情報を前記クリックログに反映させるクリックログフィードバック処理手段とをさらに備える
ことを特徴とする請求項1〜3のいずれか1項に記載の文章検索装置。 - 入力されたクエリに関連する拡張語を取得し、該拡張語と前記クエリとを用いてサイトを検索する文章検索方法であって、
クリックログ解析手段が、前記クエリに対するクリックログを解析してアクセスの集中するサイトを特定する第1ステップと、
拡張語取得手段が、前記アクセスの集中するサイトのタイトルと概要文とを解析して前記拡張語を取得する第2ステップと、
を有することを特徴とする文章検索方法。 - 前記第1ステップは、
前記クリックログに存在する複数サイト間の相対的クリック回数を解析してサイトのアクセス集中度合を求めるステップと、
前記クリックログに存在するサイトのクリック回数の生起確率を解析してアクセスの集中するサイトの候補を求めるステップと、
前記両ステップの解析結果を統合してアクセスの集中するサイトを特定するステップとを有する
ことを特徴とする請求項5記載の文章検索方法。 - 前記第2ステップは、
前記アクセスの集中するサイトのタイトルと概要文とを解析して拡張語の候補群を求めるステップと、
前記拡張語の各候補に対して順序付けを行うステップと、
前記順序付けられた各候補の順位に基づいて拡張語を選択するステップとを有する
ことを特徴とする請求項5または6のいずれか1項に記載の文章検索方法。 - 検索実行手段が、前記クエリと前記拡張語とを用いてサイトを検索し検索結果を出力するステップと、
クリックログフィードバック処理手段が、前記ステップの検索結果に対する利用者のクリック情報を前記クリックログに反映させるステップとをさらに有する
ことを特徴とする請求項5〜7のいずれか1項に記載の文章検索方法。 - 請求項5〜8のいずれか1項に記載の文章検索方法の各ステップをコンピュータに実行させることを特徴とする文章検索プログラム。
- 請求項9記載の文章検索プログラムを記録したことを特徴とするコンピュータの読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008216556A JP4759600B2 (ja) | 2008-08-26 | 2008-08-26 | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008216556A JP4759600B2 (ja) | 2008-08-26 | 2008-08-26 | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010055164A true JP2010055164A (ja) | 2010-03-11 |
JP4759600B2 JP4759600B2 (ja) | 2011-08-31 |
Family
ID=42071050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008216556A Active JP4759600B2 (ja) | 2008-08-26 | 2008-08-26 | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4759600B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011209999A (ja) * | 2010-03-30 | 2011-10-20 | Yahoo Japan Corp | 情報処理装置、データ抽出方法及びプログラム |
JP2011221754A (ja) * | 2010-04-08 | 2011-11-04 | Yahoo Japan Corp | 検索結果更新システム、サーバ及び方法 |
WO2012121011A1 (ja) * | 2011-03-04 | 2012-09-13 | 楽天株式会社 | 集合拡張処理装置、集合拡張処理方法、プログラム、及び、非一時的な記録媒体 |
JP2017508214A (ja) * | 2014-03-21 | 2017-03-23 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 検索推奨の提供 |
CN112685361A (zh) * | 2020-12-24 | 2021-04-20 | 北京浪潮数据技术有限公司 | 一种信息查询方法、装置和计算机可读存储介质 |
-
2008
- 2008-08-26 JP JP2008216556A patent/JP4759600B2/ja active Active
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011209999A (ja) * | 2010-03-30 | 2011-10-20 | Yahoo Japan Corp | 情報処理装置、データ抽出方法及びプログラム |
JP2011221754A (ja) * | 2010-04-08 | 2011-11-04 | Yahoo Japan Corp | 検索結果更新システム、サーバ及び方法 |
WO2012121011A1 (ja) * | 2011-03-04 | 2012-09-13 | 楽天株式会社 | 集合拡張処理装置、集合拡張処理方法、プログラム、及び、非一時的な記録媒体 |
JP2012185666A (ja) * | 2011-03-04 | 2012-09-27 | Rakuten Inc | 集合拡張処理装置、集合拡張処理方法、プログラム、及び、記録媒体 |
KR101243457B1 (ko) | 2011-03-04 | 2013-03-13 | 라쿠텐 인코포레이티드 | 집합 확장 처리 장치, 집합 확장 처리 방법, 및 비일시적인 기록 매체 |
CN102971733A (zh) * | 2011-03-04 | 2013-03-13 | 乐天株式会社 | 集合扩展处理装置、集合扩展处理方法、程序、及非暂时性记录媒体 |
US9268821B2 (en) | 2011-03-04 | 2016-02-23 | Rakuten, Inc. | Device and method for term set expansion based on semantic similarity |
JP2017508214A (ja) * | 2014-03-21 | 2017-03-23 | アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited | 検索推奨の提供 |
CN112685361A (zh) * | 2020-12-24 | 2021-04-20 | 北京浪潮数据技术有限公司 | 一种信息查询方法、装置和计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP4759600B2 (ja) | 2011-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2501078C2 (ru) | Ранжирование результатов поиска с использованием расстояния редактирования и информации о документе | |
US7849104B2 (en) | Searching heterogeneous interrelated entities | |
JP4638439B2 (ja) | ウェブ検索の個人化 | |
US7890521B1 (en) | Document-based synonym generation | |
US20090299978A1 (en) | Systems and methods for keyword and dynamic url search engine optimization | |
US8631097B1 (en) | Methods and systems for finding a mobile and non-mobile page pair | |
US10152478B2 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
JP2009525520A (ja) | 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン | |
KR20080066496A (ko) | 검색 결과를 제공하는 방법 및 상기 방법을 수행하는시스템 | |
US20150169576A1 (en) | Dynamic Search Results | |
KR100954842B1 (ko) | 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 | |
JP4896132B2 (ja) | 情報価値を反映した情報検索方法及びその装置 | |
US8234584B2 (en) | Computer system, information collection support device, and method for supporting information collection | |
JP2010097461A (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP2009122807A (ja) | 連想検索システム | |
JP4759600B2 (ja) | 文章検索装置、文章検索方法、文章検索プログラムおよびその記録媒体 | |
US8019758B2 (en) | Generation of a blended classification model | |
KR101178208B1 (ko) | 키워드 추출 장치 및 방법 | |
JP5302614B2 (ja) | 施設関連情報の検索データベース形成方法および施設関連情報検索システム | |
JP4912384B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP2003173352A (ja) | 検索ログ解析方法および装置、文書情報検索方法および装置、検索ログ解析プログラム、文書情報検索プログラム、および記録媒体 | |
KR20020089677A (ko) | 문서 자동 분류 방법 및 이를 수행하기 위한 시스템 | |
JP2013054606A (ja) | 文書検索装置及び方法及びプログラム | |
JP2011100191A (ja) | 文書検索装置、文書検索方法、及び文書検索プログラム | |
JP2004054882A (ja) | 類義語検索装置、方法、プログラム及び記憶媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20100608 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110215 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110531 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110606 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4759600 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140610 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |