JP5560971B2 - 文書検索装置、文書検索方法、及びプログラム - Google Patents
文書検索装置、文書検索方法、及びプログラム Download PDFInfo
- Publication number
- JP5560971B2 JP5560971B2 JP2010153273A JP2010153273A JP5560971B2 JP 5560971 B2 JP5560971 B2 JP 5560971B2 JP 2010153273 A JP2010153273 A JP 2010153273A JP 2010153273 A JP2010153273 A JP 2010153273A JP 5560971 B2 JP5560971 B2 JP 5560971B2
- Authority
- JP
- Japan
- Prior art keywords
- key
- search
- document
- index
- mixed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 18
- 230000006870 function Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
実施の形態
図1は、本発明の実施の形態による文書検索装置10の構成を示すブロック図である。
文書検索装置10は、入力部1、出力部2、検索部3、検索キーインデックス記憶部4、混合bi−gramインデックス(混合N−gramインデックス)記憶部5、及びインデックス作成部6を備えている。なお、文書検索装置10はN−gram方式の中でも、2文字ずつに文書を分割するbi−gram方式を用いている。
なお、一般の検索装置では、フォルダと時間等を指定すると、指定されたフォルダの配下にあるフォルダ内の文書ファイルを定期的に参照し、更新されたファイルがあったら、その更新内容をインデックスに反映させるような仕組みで運用される。また、Web上の文書ファイルを検索対象とする場合は、フォルダをたどる代わりに、htmlファイル内のURLをたどってインデックスを更新する。ここでは、単純化のため、ファイルを指定すると、そのファイルに関してインデックスを更新する仕組みとする。
インデックス作成部6は、文書ファイルfile1.txtやfile2.txtなどから、混合bi−gramインデックスを作成する。図2に示すように、fil1.txtの内容は、「今日は良い天気です。・・・」であり、fil2.txtの内容は、「今日は良い日です。・・・」である。
まず、検索部3は、利用者が入力部1を介して入力した検索キーを取得する(ステップS11)。
まず、検索部3は、利用者が入力部1を介して入力した検索キーを取得する(ステップS21)。
(付記1)文書を分割して生成したN(Nは自然数)文字の文字列、又は検索時にキーワードとして使用される頻度が一定条件を超えるN+1文字以上の文字列をキーとし、そのキーを含む文書の識別子、及びその文書におけるキーの出現位置を保持する混合N−gramインデックスを作成する、インデックス作成部と、
前記混合N−gramインデックスを参照することにより、入力された検索キーを含む文書のリストを出力する検索部と、を備え、
前記検索部は、まず、前記検索キーそのもので前記混合N−gramインデックスを検索し、前記検索キーと一致するキーが存在する場合には、そのキーを含む文書のリストを出力し、前記検索キーと一致するキーが存在しない場合には、前記検索キーをN文字の文字列に分割し、分割した各々の文字列で前記混合N−gramインデックスを検索し、各々の文字列と一致するキーが存在する場合には、そのキーを含む文書におけるキーの出現位置に基づいて、その文書が前記検索キーを含むか否かを判定し、前記検索キーを含むと判断された文書のリストを出力する、文書検索装置。
検索時にキーワードとして使用された文字列をキーとし、そのキーワードの使用回数を保持する検索キーインデックスを作成し、
前記インデックス作成部は、
前記検索キーインデックスを参照し、前記使用回数が一定条件を超えるN+1文字以上のキーを混合N−gramインデックスのキーとして登録する、付記1に記載の文書検索装置。
前記混合N−gramインデックスを参照することにより、入力された検索キーを含む文書のリストを出力する工程と、を備え、
前記文書のリストを出力する工程では、まず、前記検索キーそのもので前記混合N−gramインデックスを検索し、前記検索キーと一致するキーが存在する場合には、そのキーを含む文書のリストを出力し、前記検索キーと一致するキーが存在しない場合には、前記検索キーをN文字の文字列に分割し、分割した各々の文字列で前記混合N−gramインデックスを検索し、各々の文字列と一致するキーが存在する場合には、そのキーを含む文書におけるキーの出現位置に基づいて、その文書が前記検索キーを含むか否かを判定し、前記検索キーを含むと判断された文書のリストを出力する、文書検索方法。
文書を分割して生成したN(Nは自然数)文字の文字列、又は検索時にキーワードとして使用される頻度が一定条件を超えるN+1文字以上の文字列をキーとし、そのキーを含む文書の識別子、及びその文書におけるキーの出現位置を保持する混合N−gramインデックスを作成する、インデックス作成部と、
前記混合N−gramインデックスを参照することにより、入力された検索キーを含む文書のリストを出力する検索部と、して機能させるプログラムであって、
前記検索部は、まず、前記検索キーそのもので前記混合N−gramインデックスを検索し、前記検索キーと一致するキーが存在する場合には、そのキーを含む文書のリストを出力し、前記検索キーと一致するキーが存在しない場合には、前記検索キーをN文字の文字列に分割し、分割した各々の文字列で前記混合N−gramインデックスを検索し、各々の文字列と一致するキーが存在する場合には、そのキーを含む文書におけるキーの出現位置に基づいて、その文書が前記検索キーを含むか否かを判定し、前記検索キーを含むと判断された文書のリストを出力する、プログラム。
Claims (4)
- 文書を分割して生成したN(Nは自然数)文字の文字列、又は検索時にキーワードとして使用される頻度が一定条件を超えるN+1文字以上の文字列をキーとし、そのキーを含む文書の識別子、及びその文書におけるキーの出現位置を保持する混合N−gramインデックスを作成する、インデックス作成部と、
前記混合N−gramインデックスを参照することにより、入力された検索キーを含む文書のリストを出力する検索部と、を備え、
前記インデックス作成部は、前記文書のある位置からN文字分の文字列を前記混合N−gramインデックスに登録すると共に、前記ある位置からN+1文字以上N+M(Mは2以上の自然数)文字以下の各々の文字列について、検索時にキーワードとして使用される頻度が一定条件を超える場合には、前記混合N−gramインデックスに登録し、
前記検索部は、まず、前記検索キーそのもので前記混合N−gramインデックスを検索し、前記検索キーと一致するキーが存在する場合には、そのキーを含む文書のリストを出力し、前記検索キーと一致するキーが存在しない場合には、前記検索キーをN文字の文字列に分割し、分割した各々の文字列で前記混合N−gramインデックスを検索し、各々の文字列と一致するキーが存在する場合には、そのキーを含む文書におけるキーの出現位置に基づいて、その文書が前記検索キーを含むか否かを判定し、前記検索キーを含むと判断された文書のリストを出力する、文書検索装置。 - 前記検索部は、
検索時にキーワードとして使用された文字列をキーとし、そのキーワードの使用回数を保持する検索キーインデックスを作成し、
前記インデックス作成部は、
前記検索キーインデックスを参照し、前記使用回数が一定条件を超えるN+1文字以上のキーを混合N−gramインデックスのキーとして登録する、請求項1に記載の文書検索装置。 - 文書を分割して生成したN(Nは自然数)文字の文字列、又は検索時にキーワードとして使用される頻度が一定条件を超えるN+1文字以上の文字列をキーとし、そのキーを含む文書の識別子、及びその文書におけるキーの出現位置を保持する混合N−gramインデックスを作成する工程と、
前記混合N−gramインデックスを参照することにより、入力された検索キーを含む文書のリストを出力する工程と、を備え、
前記インデックスを作成する工程では、前記文書のある位置からN文字分の文字列を前記混合N−gramインデックスに登録すると共に、前記ある位置からN+1文字以上N+M(Mは2以上の自然数)文字以下の各々の文字列について、検索時にキーワードとして使用される頻度が一定条件を超える場合には、前記混合N−gramインデックスに登録し、
前記文書のリストを出力する工程では、まず、前記検索キーそのもので前記混合N−gramインデックスを検索し、前記検索キーと一致するキーが存在する場合には、そのキーを含む文書のリストを出力し、前記検索キーと一致するキーが存在しない場合には、前記検索キーをN文字の文字列に分割し、分割した各々の文字列で前記混合N−gramインデックスを検索し、各々の文字列と一致するキーが存在する場合には、そのキーを含む文書におけるキーの出現位置に基づいて、その文書が前記検索キーを含むか否かを判定し、前記検索キーを含むと判断された文書のリストを出力する、文書検索方法。 - コンピュータを、
文書を分割して生成したN(Nは自然数)文字の文字列、又は検索時にキーワードとして使用される頻度が一定条件を超えるN+1文字以上の文字列をキーとし、そのキーを含む文書の識別子、及びその文書におけるキーの出現位置を保持する混合N−gramインデックスを作成する、インデックス作成部と、
前記混合N−gramインデックスを参照することにより、入力された検索キーを含む文書のリストを出力する検索部と、して機能させるプログラムであって、
前記インデックス作成部は、前記文書のある位置からN文字分の文字列を前記混合N−gramインデックスに登録すると共に、前記ある位置からN+1文字以上N+M(Mは2以上の自然数)文字以下の各々の文字列について、検索時にキーワードとして使用される頻度が一定条件を超える場合には、前記混合N−gramインデックスに登録し、
前記検索部は、まず、前記検索キーそのもので前記混合N−gramインデックスを検索し、前記検索キーと一致するキーが存在する場合には、そのキーを含む文書のリストを出力し、前記検索キーと一致するキーが存在しない場合には、前記検索キーをN文字の文字列に分割し、分割した各々の文字列で前記混合N−gramインデックスを検索し、各々の文字列と一致するキーが存在する場合には、そのキーを含む文書におけるキーの出現位置に基づいて、その文書が前記検索キーを含むか否かを判定し、前記検索キーを含むと判断された文書のリストを出力する、プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010153273A JP5560971B2 (ja) | 2010-07-05 | 2010-07-05 | 文書検索装置、文書検索方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010153273A JP5560971B2 (ja) | 2010-07-05 | 2010-07-05 | 文書検索装置、文書検索方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012014646A JP2012014646A (ja) | 2012-01-19 |
JP5560971B2 true JP5560971B2 (ja) | 2014-07-30 |
Family
ID=45600956
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010153273A Expired - Fee Related JP5560971B2 (ja) | 2010-07-05 | 2010-07-05 | 文書検索装置、文書検索方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5560971B2 (ja) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09198395A (ja) * | 1996-01-16 | 1997-07-31 | Fuji Xerox Co Ltd | 文書検索装置 |
JPH10307835A (ja) * | 1997-05-08 | 1998-11-17 | Canon Inc | 情報処理装置及びその方法 |
JP3620968B2 (ja) * | 1998-08-05 | 2005-02-16 | 株式会社日立製作所 | 文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体 |
JP4439496B2 (ja) * | 2006-07-18 | 2010-03-24 | 株式会社東芝 | 検索処理装置及びプログラム |
-
2010
- 2010-07-05 JP JP2010153273A patent/JP5560971B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012014646A (ja) | 2012-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5437557B2 (ja) | 検索処理方法及び検索システム | |
JP5138046B2 (ja) | 検索システム、検索方法およびプログラム | |
JP4961043B2 (ja) | 関連性に基づくユーザー・ブラウザー履歴のソーティング | |
JP4922692B2 (ja) | 検索クエリー作成装置 | |
EP1826692A2 (en) | Query correction using indexed content on a desktop indexer program. | |
JP2009003541A (ja) | データベースのインデックス作成システム、方法及びプログラム | |
JP5185402B2 (ja) | 文書検索装置、文書検索方法、及び文書検索プログラム | |
US20060179039A1 (en) | Method and system for performing secondary search actions based on primary search result attributes | |
JP2008217157A (ja) | 操作履歴を利用した自動情報整理装置、方法、およびプログラム | |
JP2001109754A (ja) | 索引ファイルを使用した検索方法及びそれに用いる装置 | |
JP5560971B2 (ja) | 文書検索装置、文書検索方法、及びプログラム | |
JP2004220176A (ja) | データベース検索システム、その検索方法及び検索に用いられるデータファイルの作成方法並びにデータファイルを格納した記録媒体 | |
JP5127553B2 (ja) | 情報処理装置、情報処理方法、プログラム及び記録媒体 | |
JP5374881B2 (ja) | 情報検索システム、情報検索方法およびプログラム | |
US9230013B1 (en) | Suffix searching on documents | |
JP5585489B2 (ja) | 検索支援装置、プログラム及び方法 | |
JP2010146273A (ja) | 文書検索装置およびプログラム | |
JP5184987B2 (ja) | 索引情報作成装置、索引情報作成方法及びプログラム | |
US20110022591A1 (en) | Pre-computed ranking using proximity terms | |
JP2007133682A (ja) | 全文検索システム、及び、その全文検索方法 | |
JP5303500B2 (ja) | 文書検索装置及び方法及びプログラム | |
JP5483166B2 (ja) | 文書検索装置、文書検索方法、及びプログラム | |
JP4304226B2 (ja) | 構造化文書管理システム、構造化文書管理方法及びプログラム | |
JPH09212523A (ja) | 全文検索方法 | |
CN119293296A (zh) | 基于字符串的资料查找方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130613 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140117 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140123 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140324 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140513 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140526 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5560971 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |