JP5303500B2 - 文書検索装置及び方法及びプログラム - Google Patents
文書検索装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP5303500B2 JP5303500B2 JP2010064845A JP2010064845A JP5303500B2 JP 5303500 B2 JP5303500 B2 JP 5303500B2 JP 2010064845 A JP2010064845 A JP 2010064845A JP 2010064845 A JP2010064845 A JP 2010064845A JP 5303500 B2 JP5303500 B2 JP 5303500B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- word
- search
- time
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 17
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000017105 transposition Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 description 12
- 238000007781 pre-processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
単語、該単語が出現する文書番号、該単語が該文書中に出現する回数、該単語が該文書中で出現位置情報及び、該文書の最終更新時刻を格納した転置インデックス記憶手段102と、
検索語、キャッシュエントリの最終格納時刻tc、検索結果の文書ID、該文書のスコア、該文書の更新時刻を格納するスコアキャッシュ記憶手段104と、
単語毎に、該単語を含む文書群のうち、最も新しい最終更新時刻ntを格納する単語−最終時刻記憶手段103と、
検索語が入力されると、該検索語に基づいてスコアキャッシュ記憶手段104を参照し、キャッシュエントリの最終格納時刻tcを取得し、該検索語中の各単語に基づいて単語−最終時刻記憶手段103を参照し、該単語に対する最終更新時刻ntを取得し、該最終格納時刻tcと該最終更新時刻ntとを比較して、該最終更新時刻ntのうち該最終格納時刻tcよりも古いものがあれば何も出力せず、古いものがなければ該検索語中の各単語に基づいて転置インデックス記憶手段102を参照し、転置リストを出力する転置インデクス展開手段121と、
転置リストの各文書の最終更新時刻ntが最終格納時刻tcよりも新しいかを判定し、新しい場合は該文書のスコアを計算し、該文書の検索語、該最終格納時刻tc、文書ID、該文書のスコア、該文書の最終更新時刻ntをスコアキャッシュ記憶手段104に格納するスコア計算手段122と、
入力された検索語に基づいて前記スコアキャッシュ記憶手段104を参照し、該検索語に対応するエントリを取得して、文書のスコアの高い順に文書IDを出力するランキング計算手段123と、を有する。
単語、該単語が出現する文書番号、該単語が該文書中に出現する回数、該単語が該文書中で出現位置情報及び、該文書の最終更新時刻を格納した転置インデックス記憶手段と、
検索語、キャッシュエントリの最終格納時刻tc、検索結果の文書ID、該文書のスコア、該文書の更新時刻を格納するスコアキャッシュ記憶手段と、
単語毎に、該単語を含む文書群のうち、最も新しい最終更新時刻ntを格納する単語−最終時刻記憶手段と、を有する装置が、
検索語が入力されると、該検索語に基づいてスコアキャッシュ記憶手段を参照し、キャッシュエントリの最終格納時刻tcを取得し、該検索語中の各単語に基づいて単語−最終時刻記憶手段を参照し、該単語に対する最終更新時刻ntを取得し(ステップ1)、該最終格納時刻tcと該最終更新時刻ntとを比較して、該最終更新時刻ntのうち該最終格納時刻tcよりも古いものがあれば(ステップ2、Yes)何も出力せず、古いものがなければ(ステップ2、No)該検索語中の各単語に基づいて転置インデックス記憶手段を参照し、転置リストを出力する(ステップ3)インデックス展開ステップと、
転置リストの各文書の最終更新時刻ntが最終格納時刻tcよりも新しいかを判定し、新しい場合は(ステップ4、Yes)該文書のスコアを計算し、該文書の検索語、該最終格納時刻tc、文書ID、該文書のスコア、該文書の最終更新時刻ntをスコアキャッシュ記憶手段に格納する(ステップ5)スコア計算ステップと、
入力された検索語に基づいてスコアキャッシュ記憶手段を参照し、該検索語に対応するエントリを取得して、文書のスコアの高い順に文書IDを出力する(ステップ6)ランキングステップと、を行う。
・当該単語が出現する文書の番号;
・当該文書内における単語の出現回数
・当該文書内での単語の出現位置;
・当該文書の最終更新時刻
を抽出し、これをインデクスとして転置インデクス記憶部102に格納する。また、転置インデクス作成部111は、単語毎にその単語を含む文書群のうち、最も新しい最終更新時刻を抽出し、単語と共に単語−最新時刻DB103に格納する。
101 文書集合
102 転置インデクス記憶手段、転置インデックス記憶部
103 単語−最新時刻記憶手段、単語−最新時刻記憶部
104 スコアキャッシュ記憶手段、スコアキャッシュDB(データベース)
121 転置インデクス展開手段、転置インデクス展開部
122 スコア計算手段、スコア計算部
123 ランキング計算手段、ランキング計算部
124 転置リスト記憶部
Claims (5)
- 文書集合中から入力された検索語を含む文書を検索する文書検索装置であって、
単語、該単語が出現する文書番号、該単語が該文書中に出現する回数、該単語が該文書中で出現位置情報及び、該文書の最終更新時刻を格納した転置インデックス記憶手段と、
検索語、キャッシュエントリの最終格納時刻tc、検索結果の文書ID、該文書のスコア、該文書の更新時刻を格納するスコアキャッシュ記憶手段と、
単語毎に、該単語を含む文書群のうち、最も新しい最終更新時刻ntを格納する単語−最終時刻記憶手段と、
検索語が入力されると、該検索語に基づいて前記スコアキャッシュ記憶手段を参照し、前記キャッシュエントリの最終格納時刻tcを取得し、該検索語中の各単語に基づいて前記単語−最終時刻記憶手段を参照し、該単語に対する最終更新時刻ntを取得し、該最終格納時刻tcと該最終更新時刻ntとを比較して、該最終更新時刻ntのうち該最終格納時刻tcよりも古いものがあれば何も出力せず、古いものがなければ該検索語中の各単語に基づいて前記転置インデックス記憶手段を参照し、転置リストを出力する転置インデクス展開手段と、
前記転置リストの各文書の最終更新時刻ntが前記最終格納時刻tcよりも新しいかを判定し、新しい場合は該文書のスコアを計算し、該文書の検索語、該最終格納時刻tc、文書ID、該文書のスコア、該文書の最終更新時刻ntを前記スコアキャッシュ記憶手段に格納するスコア計算手段と、
入力された前記検索語に基づいて前記スコアキャッシュ記憶手段を参照し、該検索語に対応するエントリを取得して、文書のスコアの高い順に文書IDを出力するランキング計算手段と、
を有することを特徴とする文書検索装置。 - 前記スコア計算手段は、
AND条件や、フレーズ条件を満たす文書を前記転置リストとする
請求項1記載の文書検索装置。 - 文書集合中から入力された検索語を含む文書を検索する文書検索方法であって、
単語、該単語が出現する文書番号、該単語が該文書中に出現する回数、該単語が該文書中で出現位置情報及び、該文書の最終更新時刻を格納した転置インデックス記憶手段と、
検索語、キャッシュエントリの最終格納時刻tc、検索結果の文書ID、該文書のスコア、該文書の更新時刻を格納するスコアキャッシュ記憶手段と、
単語毎に、該単語を含む文書群のうち、最も新しい最終更新時刻ntを格納する単語−最終時刻記憶手段と、を有する装置が、
検索語が入力されると、該検索語に基づいて前記スコアキャッシュ記憶手段を参照し、前記キャッシュエントリの最終格納時刻tcを取得し、該検索語中の各単語に基づいて前記単語−最終時刻記憶手段を参照し、該単語に対する最終更新時刻ntを取得し、該最終格納時刻tcと該最終更新時刻ntとを比較して、該最終更新時刻ntのうち該最終格納時刻tcよりも古いものがあれば何も出力せず、古いものがなければ該検索語中の各単語に基づいて前記転置インデックス記憶手段を参照し、転置リストを出力するインデックス展開ステップと、
前記転置リストの各文書の最終更新時刻ntが前記最終格納時刻tcよりも新しいかを判定し、新しい場合は該文書のスコアを計算し、該文書の検索語、該最終格納時刻tc、文書ID、該文書のスコア、該文書の最終更新時刻ntを前記スコアキャッシュ記憶手段に格納するスコア計算ステップと、
入力された前記検索語に基づいて前記スコアキャッシュ記憶手段を参照し、該検索語に対応するエントリを取得して、文書のスコアの高い順に文書IDを出力するランキングステップと、
を行うことを特徴とする文書検索方法。 - 前記スコア計算ステップにおいて、
AND条件や、フレーズ条件を満たす文書を前記転置リストとする
請求項3記載の文書検索方法。 - 請求項1または2記載の文書検索装置を構成する各手段としてコンピュータを機能させるための文書検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010064845A JP5303500B2 (ja) | 2010-03-19 | 2010-03-19 | 文書検索装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010064845A JP5303500B2 (ja) | 2010-03-19 | 2010-03-19 | 文書検索装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011198113A JP2011198113A (ja) | 2011-10-06 |
JP5303500B2 true JP5303500B2 (ja) | 2013-10-02 |
Family
ID=44876213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010064845A Expired - Fee Related JP5303500B2 (ja) | 2010-03-19 | 2010-03-19 | 文書検索装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5303500B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107918622B (zh) * | 2016-10-10 | 2022-06-03 | 阿里巴巴集团控股有限公司 | 内容推荐、展示方法、客户端、服务器和系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10289135A (ja) * | 1997-04-14 | 1998-10-27 | Casio Comput Co Ltd | 検索結果のキャッシュ機能を有するデータベース検索方式 |
JP4223228B2 (ja) * | 2002-04-26 | 2009-02-12 | 三菱電機株式会社 | データベース検索装置および検索方法 |
JP4579501B2 (ja) * | 2003-03-27 | 2010-11-10 | 富士通株式会社 | アプリケーションサーバおよびアプリケーションプログラム |
JP2004318506A (ja) * | 2003-04-16 | 2004-11-11 | Nippon Telegr & Teleph Corp <Ntt> | 文書情報検索装置及び文書検索方法並びにそのプログラム |
JP2009175896A (ja) * | 2008-01-22 | 2009-08-06 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体 |
-
2010
- 2010-03-19 JP JP2010064845A patent/JP5303500B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011198113A (ja) | 2011-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7788253B2 (en) | Global anchor text processing | |
US9652483B1 (en) | Index server architecture using tiered and sharded phrase posting lists | |
US7895195B2 (en) | Method and apparatus for constructing a link structure between documents | |
US20050165718A1 (en) | Pipelined architecture for global analysis and index building | |
JP2008102765A (ja) | 検索処理方法及び検索システム | |
JP2009525520A (ja) | 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン | |
JP2010257488A (ja) | 対話形サーチクエリー改良のためのシステム及び方法 | |
JP2008520037A (ja) | 表意文字と表音文字とを有する言語のための自動補完方法およびシステム | |
NO338518B1 (no) | Flerregisterbasert informasjonsgjenfinningssystem | |
JP2007515721A (ja) | ドキュメント拡張方法 | |
US20180246896A1 (en) | Corpus Specific Generative Query Completion Assistant | |
Zhuang et al. | Re-ranking search results using query logs | |
JP4237813B2 (ja) | 構造化文書管理システム | |
CN103064846B (zh) | 检索装置和检索方法 | |
JP4091146B2 (ja) | 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP2006178599A (ja) | 文書検索装置および方法 | |
JP2008117351A (ja) | 検索システム | |
JP5303500B2 (ja) | 文書検索装置及び方法及びプログラム | |
JP6212639B2 (ja) | 検索方法 | |
JP2011159100A (ja) | 逐次類似文書検索装置、逐次類似文書検索方法およびプログラム | |
US20110022591A1 (en) | Pre-computed ranking using proximity terms | |
Olsson | Using Elasticsearch for full-text searches on unstructured data | |
JP2007133682A (ja) | 全文検索システム、及び、その全文検索方法 | |
JP5437219B2 (ja) | 文書検索装置および文書検索プログラム | |
Butakov et al. | Detecting text similarity on a scalable no-SQL database platform |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130607 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130618 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130624 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5303500 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |