JP5483166B2 - 文書検索装置、文書検索方法、及びプログラム - Google Patents
文書検索装置、文書検索方法、及びプログラム Download PDFInfo
- Publication number
- JP5483166B2 JP5483166B2 JP2009158191A JP2009158191A JP5483166B2 JP 5483166 B2 JP5483166 B2 JP 5483166B2 JP 2009158191 A JP2009158191 A JP 2009158191A JP 2009158191 A JP2009158191 A JP 2009158191A JP 5483166 B2 JP5483166 B2 JP 5483166B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- word
- document
- index
- transposed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
このような全文検索装置は、大別して2種類に分けられる。1つはサーチ(走査)方式であり、もう1つはインデックス方式である。サーチ方式は、蓄積されている文書データに対し、検索キーと文書中の文字列の比較を順次行う方法である。代表的なものとしてUNIX(登録商標)のgrepコマンドなどがある。インデックス方式は、文書データに対して事前にインデックスを作成し、このインデックスに対して検索キーを照合することにより検索を行う方式である。
例えば特許文献1には、インデックス方式において、元の文書データに対してインデックス部分のデータが増加する問題に対し、インデックス部のデータを圧縮することで、全体のデータ量を減少させることが記載されている。
また、特許文献2には、インデックスを作成する時間がかかる問題に対し、副インデックスを作成することにより、インデックス作成のために検索処理が阻害されないようにすることが記載されている。
特許文献3には、転置インデックスを用いて文書を高速に検索することが記載されている。
また、特許文献4には、文書を修正した際に、文字連鎖インデックスの修正を短縮することが記載されている。
図1は、本発明による文書検索装置の機能構成を示すブロック図である。図に示すように、文書検索装置は、データ入力部1、インデックス作成部2、転置データ蓄積部3、検索キーワード入力部4、検索部5、検索結果出力部6、データ修正入力部7、データ修正反映部8、を備えている。
データ入力部1、検索キーワード入力部4、データ修正入力部7は、例えばキーボード、マウス、タッチパネル等の入力手段であり、ユーザが文書検索装置に処理の指示を与えたり、データやパラメータを入力するために用いられる。また、USB(Universal Serial Bus)インターフェイスを介して、メモリ媒体などからデータを読み込むことも可能である。
検索結果出力部6は、表示装置やプリンタ等である。
まず、ステップS1において、データ入力部1を介して入力された文書データ、またはデータ修正入力部7を介して入力された修正後の文書データを読み込む。
インデックス作成部2、検索部5、データ修正反映部8は、電子回路やコンピュータのプロセッサにプログラムを実行させることにより実現することができる。
Claims (5)
- 検索の対象となる文書データを入力するためのデータ入力部と、
前記データ入力部を介して入力された前記文書データから転置インデックスを作成するインデックス作成部と、
前記インデックス作成部で作成された前記転置インデックスを記憶する転置データ蓄積部と、
前記検索のためのキーワードを入力するための検索キーワード入力部と、
前記検索キーワード入力部を介して入力されたキーワードを前記転置インデックスと照合し、前記キーワードと一致する文字列を検出する検索部と、
前記文字列を含む文書データの情報、及び前記文字列を含む文書データの一部を出力する検索結果出力部と、
前記文書データの修正要求を受付けるデータ修正入力部と、
前記修正要求に基づいて、前記転置データ蓄積部に記憶された前記転置インデックスを修正するデータ修正反映部と、を備え、
前記転置インデックスは、前記文書データから抽出された単語をインデックスキーとして含むと共に、各々のインデックスキーに対応する転置データを含み、前記転置データは、当該単語のデータ番号、当該単語が抽出された文書の番号、当該単語の前の単語のデータ番号、および当該単語の次の単語のデータ番号を含み、
前記データ修正反映部は、前記修正要求に基づいて、修正された単語の転置データを削除して修正後の単語の転置データを追加すると共に、前記修正された単語の前の単語の転置データに含まれる次の単語のデータ番号と、前記修正された単語の次の単語の転置データに含まれる前の単語のデータ番号を修正する、文書検索装置。 - 請求項1に記載の文書検索装置の各部の機能が、マイクロチップによって実現される、文書検索装置。
- 請求項1または2に記載の文書検索装置の各部の機能がネットワークを介して外部のコンピュータから利用可能である、文書検索装置。
- 検索の対象となる文書データの入力を受け付ける工程と、
前記文書データから転置インデックスを作成する工程と、
前記転置インデックスを記憶装置に記憶する工程と、
前記検索のためのキーワードの入力を受け付ける工程と、
前記キーワードを前記転置インデックスと照合し、前記キーワードと一致する文字列を検出する工程と、
前記文字列を含む文書データの情報、及び前記文字列を含む文書データの一部を出力する工程と、
前記文書データの修正要求を受け付けた場合には、前記修正要求に基づいて、前記転置インデックスを修正する工程と、を備え、
前記転置インデックスは、前記文書データから抽出された単語をインデックスキーとして含むと共に、各々のインデックスキーに対応する転置データを含み、前記転置データは、当該単語のデータ番号、当該単語が抽出された文書の番号、当該単語の前の単語のデータ番号、および当該単語の次の単語のデータ番号を含み、
前記転置インデックスを修正する工程では、前記修正要求に基づいて、修正された単語の転置データを削除して修正後の単語の転置データを追加すると共に、前記修正された単語の前の単語の転置データに含まれる次の単語のデータ番号と、前記修正された単語の次の単語の転置データに含まれる前の単語のデータ番号を修正する、文書検索方法。 - コンピュータを
検索の対象となる文書データを入力するためのデータ入力部と、
前記データ入力部を介して入力された前記文書データから転置インデックスを作成するインデックス作成部と、
前記検索のためのキーワードを入力するための検索キーワード入力部と、
前記検索キーワード入力部を介して入力されたキーワードを前記転置インデックスと照合し、前記キーワードと一致する文字列を検出する検索部と、
前記文字列を含む文書データの情報、及び前記文字列を含む文書データの一部を出力する検索結果出力部と、
前記文書データの修正要求を受付けるデータ修正入力部と、
前記修正要求に基づいて、前記転置インデックスを修正するデータ修正反映部、として機能させ、
前記転置インデックスは、前記文書データから抽出された単語をインデックスキーとして含むと共に、各々のインデックスキーに対応する転置データを含み、前記転置データは、当該単語のデータ番号、当該単語が抽出された文書の番号、当該単語の前の単語のデータ番号、および当該単語の次の単語のデータ番号を含み、
前記データ修正反映部は、前記修正要求に基づいて、修正された単語の転置データを削除して修正後の単語の転置データを追加すると共に、前記修正された単語の前の単語の転置データに含まれる次の単語のデータ番号と、前記修正された単語の次の単語の転置データに含まれる前の単語のデータ番号を修正する、プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009158191A JP5483166B2 (ja) | 2009-07-02 | 2009-07-02 | 文書検索装置、文書検索方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009158191A JP5483166B2 (ja) | 2009-07-02 | 2009-07-02 | 文書検索装置、文書検索方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011013984A JP2011013984A (ja) | 2011-01-20 |
JP5483166B2 true JP5483166B2 (ja) | 2014-05-07 |
Family
ID=43592787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009158191A Expired - Fee Related JP5483166B2 (ja) | 2009-07-02 | 2009-07-02 | 文書検索装置、文書検索方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5483166B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6376534B2 (ja) | 2014-12-17 | 2018-08-22 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | データを集計するシステム、方法およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3459053B2 (ja) * | 1995-01-12 | 2003-10-20 | 株式会社日立製作所 | 文書検索方法および装置 |
JP3832545B2 (ja) * | 1999-07-02 | 2006-10-11 | 株式会社日立製作所 | 文書検索方法および装置 |
JP2001249943A (ja) * | 2000-03-03 | 2001-09-14 | Ricoh Co Ltd | 文書検索システム、文書検索方法およびその方法を実施するためのプログラムを記憶した記憶媒体 |
JP2006011851A (ja) * | 2004-06-25 | 2006-01-12 | Oki Electric Ind Co Ltd | 文書合致度演算システム、文書合致度演算方法及び文書合致度演算プログラム |
-
2009
- 2009-07-02 JP JP2009158191A patent/JP5483166B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011013984A (ja) | 2011-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9299342B2 (en) | User query history expansion for improving language model adaptation | |
JP5437557B2 (ja) | 検索処理方法及び検索システム | |
JP5138046B2 (ja) | 検索システム、検索方法およびプログラム | |
US8560302B2 (en) | Method and system for generating derivative words | |
JP5124885B2 (ja) | 文書保存システム | |
JP6176017B2 (ja) | 検索装置、検索方法、およびプログラム | |
WO2004061713A1 (ja) | 構造化文書の構造変換装置、構造変換方法、記録媒体 | |
CN113535642B (zh) | 一种文件搜索方法及计算设备 | |
JP5483166B2 (ja) | 文書検索装置、文書検索方法、及びプログラム | |
US20090234851A1 (en) | Browser Use of Directory Listing for Predictive Type-Ahead | |
JP5488792B2 (ja) | データベース操作装置、データベース操作方法、及びプログラム | |
JP2010250449A (ja) | 情報処理装置、情報処理方法 | |
JP6194180B2 (ja) | 文章マスク装置及び文章マスクプログラム | |
WO2015075920A1 (ja) | 入力支援装置、入力支援方法及び記録媒体 | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
US8898122B1 (en) | Method and system for managing versioned structured documents in a database | |
JP2011154495A (ja) | 文字コード変換装置、文字コード変換方法、および文字コード変換プログラム | |
JP5696280B1 (ja) | 用語統一システム及び用語統一プログラム、並びに用語統一方法 | |
JP5441791B2 (ja) | 検索機能付きファイルストレージ装置及びプログラム | |
JP2002269136A (ja) | 文書検索システム及びプログラム | |
JP5906810B2 (ja) | 全文検索装置、プログラム及び記録媒体 | |
JP7377915B2 (ja) | 個別データ検索サービスを提供する方法、コンピュータ装置、およびコンピュータプログラム | |
JP4982154B2 (ja) | 構造化文書の構文解析方法及び装置 | |
JP2007133682A (ja) | 全文検索システム、及び、その全文検索方法 | |
JP4521413B2 (ja) | データベース管理システム及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130723 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130725 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130919 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140124 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140206 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5483166 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |