JP5184987B2 - 索引情報作成装置、索引情報作成方法及びプログラム - Google Patents
索引情報作成装置、索引情報作成方法及びプログラム Download PDFInfo
- Publication number
- JP5184987B2 JP5184987B2 JP2008158477A JP2008158477A JP5184987B2 JP 5184987 B2 JP5184987 B2 JP 5184987B2 JP 2008158477 A JP2008158477 A JP 2008158477A JP 2008158477 A JP2008158477 A JP 2008158477A JP 5184987 B2 JP5184987 B2 JP 5184987B2
- Authority
- JP
- Japan
- Prior art keywords
- index information
- character string
- document
- document number
- creating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
したがって、索引の作成に関する工夫や、文字列の検索に関する工夫を行うことによって、検索処理を高速化することができる。
例えば、索引の作成に関する技術として、特許文献1がある。
特許文献1では、予め指定した文字列を削除することによって、索引のサイズを縮小して、検索処理を高速化する技術が開示されている。
昨今では数多くのポータルサイトが存在し、膨大な情報量に対する検索技術が必要とされている。しかしながら、検索対象の文書数(情報量)が増大すると、索引のサイズが増大し、その結果として、検索処理を実行する情報処理装置(コンピュータ)等のメモリ等のリソースを多く消費してしまっている問題がある。
図1は、索引情報作成装置の一例である情報処理装置1のハードウェア構成の一例を示す図である。図1に示されるように情報処理装置1は、ハードウェア構成として、CPU11を含む。CPU11が、記憶装置13に記憶されているプログラムに基づき処理を行うことによって、後述する索引情報作成等の機能、又はフローチャートに係る処理を実現する。
CPU11には、バス10を介して、入力装置12、記憶装置13及び表示装置14が接続されている。記憶装置13は、例えば、ROM、RAM、ハードディスク装置等からなり、上述した各プログラム以外に、プログラムに基づく処理で用いられるデータを記憶する。表示装置14は、情報を表示する例えばディスプレイ等である。入力装置12は、情報を入力する例えば操作キー等である。
なお、入力装置12及び表示装置14は、情報処理装置1の必須の構成要素ではない。
検索対象文書抽出部20は、検索対象となる複数の文書を抽出(又は選択)する。図3は、検索対象文書抽出部20が抽出した文書を識別する文書番号と、前記文書の内容と、を示す図である。
文字列抽出部21は、検索対象文書抽出部20が抽出した、検索対象となる複数の文書から、文書間で共通する文字列を抽出する。例えば、文字列抽出部21は、検索対象となる複数の文書が図3に示すような場合、"ありがとう"の文字列を文書間で共通する文字列として抽出する。図3は、文書番号及び文書の内容の一例を示す図である。
なお、文字列抽出部21は、文書に記載されたデータを木構造で表し、木構造の各ノードを通る毎にインクリメントするカウンタを備えて、カウンタ値を基に頻出文字列を抽出するようにしてもよい。
そして、文字列抽出部21は、抽出した文字列(例えば"ありがとう")と、前記文字列を含む文書の文書番号のグループと、を対応付けた、図4に示すような情報を作成し、記憶装置13の例えばRAM上に一時的に保持する。ここで、図4は、文書間で共通する文字列と、前記文字列を含む文書の文書番号のグループと、を対応付けた情報の一例を示す図である。
なお、置き換え部22は、新たな文書番号として置き換える際、"X"のような文字では無く、文書番号として使用されていない数字(図4の例であれば、1、2、3、5、6、9、10以外の数字である"−1")を、新たな文書番号として用い、置き換えを行うようにしてもよい。
なお、置き換え部22は、置き換えた文書番号のグループと、新たな文字番号と、を対応付けた、図5に示されるような情報(文書番号変換情報)を、記憶装置13のHDD上に保存されている、検索の際に用いられる索引辞書データに追加して保存する。
一方、図8は、従来の方法で作成された索引情報の一例を示す図である。
図7と、図8と、を比較すると、本実施形態の方法で作成した索引情報の方が、記憶容量が少なくて済むことが解かる。例えば、図8の例では、文書番号の最大を10としているが、実際、本発明が対象としている検索対象の文書数(文書番号)は1億程度を想定している。このような場合、図8に示されるような索引情報だけで相当な記憶領域を必要とする。一方、本実施形態で作成された索引情報では、共通する文字列を含む文書の文書番号のグループを、一つの文字等で表される新たな文書番号に置き換えているので、従来に比べて、索引(索引情報)のサイズが小さくなり、必要とする記憶領域を削減することができる。
なお、索引情報作成部23は、勿論、検索対象文書抽出部20が抽出した文書に含まれる他の文字列(他の文書に共通して含まれていない文字等)に基づき、上述した索引情報以外の索引情報も作成する。図3を例に説明を行うと、索引情報作成部23は、索引語:三橋、文書番号:1の索引情報や、索引語:橋で、文書番号:1等の索引情報も作成する。
ステップS10において、検索対象文書抽出部20は、検索対象となる複数の文書を抽出(又は選択)する。
ステップS11において、文字列抽出部21は、検索対象文書抽出部20が抽出した、検索対象となる複数の文書から、文書間で共通する文字列を抽出する。また、文字列抽出部21は、抽出した文字列と、前記文字列を含む文書の文書番号のグループと、を対応付けた、図4に示すような情報を作成し、記憶装置13のRAM上に一時的に保持する。
図12は、本実施形態の方法で作成された索引情報の一例を示す図である。図12に示されるように、本実施形態の方法で作成された索引情報の記憶容量は、新たにn+1個の文書番号変換情報の記憶領域が増えるので、(n+1)×b+(m−1)×b=(m+n)×bバイトである。
よって、本実施形態の方法(又は処理)により、削減することができる記憶容量は、(m−1)×n×b−(m+n)×b={(n−1)×(m−2)−2}×bバイトとなる。
従って、文字列抽出部21によって長い文字列の頻出文字列を抽出することによって、m、nは大きくなり、より記憶容量を削減することが可能になる。
以下、上述した実施形態1と異なる点について主に説明を行う。
上述した実施形態では、索引情報作成部23が、文書間で共通する文字列をN−gram(実施形態1の例ではN=2のバイグラム)で分割し、図7に示されるような索引情報を作成した。
しかしながら、索引情報作成部23は、文書間で共通する文字列を、形態素解析エンジン等を用いて、意味のある文字列に分解し、索引情報を作成するようにしてもよい。このようにすることに、例えば図7、又は図12に示される索引語が意味のある文字列になる。
本実施形態の索引情報も、索引語が意味のある文字列になるだけで、共通する文字列を含む文書の文書番号のグループは、一つの文字で表される新たな文書番号に置き換えられるので、従来に比べて、索引(索引情報)のサイズが小さくなり、必要とする記憶領域を削減することができる。
以下、上述した実施形態と異なる点について主に説明を行う。
上述した実施形態では、情報処理装置1は、検索対象文書から共通する文字列を抽出し、前記文字列を共通に含む文書の文書番号のグループを一つの文字で表される新たな文書番号に置き換えるよう処理を行った。
しかしながら、情報処理装置1は、検索対象文書から索引情報を作成し、作成した索引情報から共通する文書番号のグループを抽出し、抽出した文書番号のグループを一つの文字で表される新たな文書番号に置き換えるよう処理を行ってもよい。
検索対象文書抽出部30は、検索対象となる複数の文書を抽出(又は選択)する。
索引情報作成部31は、検索対象文書抽出部30が抽出した文書に含まれる文字列をN−gram(本実施形態の例ではN=2のバイグラム)で分割し、索引語を作成し、前記索引語と、前記索引語が含まれる文書を識別する文書番号又は文書番号のグループと、から図14に示されるような索引(索引情報)を作成する。
なお、文書番号グループ抽出部32は、文書番号を木構造で表し、木構造の各ノードを通る毎にインクリメントするカウンタを備えて、カウンタ値を基に頻出の文書番号を抽出するようにしてもよい。
置き換え部33は、文書番号グループ抽出部32が抽出した文書番号のグループを一つの文字で表される新たな文書番号(例えば、"x")に置き換える。図15は、置き換え部33が置き換えを行った後の索引情報の一例を示す図である。
本実施形態の場合、置き換え部33が、図15に示されるような索引情報を、記憶装置13のHDD上に保存されている、検索の際に用いられる索引辞書データに追加して保存する。また、本実施形態の場合、置き換え部33が、新たな文書番号と、前記新たな文書番号と置き換えを行った文書番号のグループと、を対応付けた、情報(文書番号変換情報)を、記憶装置13のHDD上に保存されている、前記索引辞書データに追加して保存する。
ステップS20において、検索対象文書抽出部30は、検索対象となる複数の文書を抽出(又は選択)する。
ステップS21において、索引情報作成部31は、ステップS20で抽出された文書に含まれる文字列をN−gram(本実施形態の例ではN=2のバイグラム)で分割し、索引語を作成し、前記索引語と、前記索引語が含まれる文書を識別する文書番号又は文書番号のグループと、から図14に示されるような索引(索引情報)を作成する。
ステップS23において、置き換え部33は、ステップS22で抽出された文書番号のグループを一つの文字で表される新たな文書番号(例えば、"x")に置き換え、例えば、図15に示されるような索引情報を作成する。また、置き換え部33は、作成した索引情報を、記憶装置13のHDD上に保存されている、検索の際に用いられる索引辞書データに追加して保存する。また、置き換え部33は、新たな文書番号と、前記新たな文書番号と置き換えを行った文書番号のグループと、を対応付けた、情報(文書番号変換情報)を、記憶装置13のHDD上に保存されている、前記索引辞書データに追加して保存する。
なお、置き換え部33は、新たな文書番号として置き換える際、上述の実施形態1と同様、"X"のような文字では無く、文書番号として使用されていない数字(例えば"−1")を、新たな文書番号として用い、置き換えを行うようにしてもよい。
上述した実施形態では情報処理装置1を索引情報作成装置の一例として説明を行った。しかしながら、情報処理装置1に索引情報作成装置の機能と共に、検索装置の機能を実装するようにしてもよい。
以下、本実施形態では、上述した実施形態1の情報処理装置1に、検索の機能を実装した一例を示す。なお、上述した実施形態2及び3の情報処理装置1に検索の機能を実装するようにしてもよい。
検索文字列分割部25は、検索文字列受け取り部24が受け取った検索文字列をN−gram(本実施形態の例ではN=2のバイグラム)で分割する。なお、実施形態2の情報処理装置1に検索の機能を実装する場合、検索文字列分割部25は、検索文字列受け取り部24が受け取った検索文字列を、形態素解析エンジン等を用いて、意味のある文字列に分解する。実施形態1の情報処理装置1に検索機能を実装する場合と、実施形態2の情報処理装置1に検索機能を実装する場合と、では、この点が異なるのみである。
検索結果出力部27は、検索実行部26が検索し、取得した文書IDを検索結果として出力する。なお、検索実行部26が、上述した実施形態1の文書ID"x"等を検索結果として取得した場合、検索結果出力部27は、文書ID"x"に基づき、索引辞書データに含まれる文書番号変換情報を検索し、文書ID"x"に対応する文書番号のグループ("1、2、3、5、6、9、10")を検索結果として出力する。なお、検索結果出力部27は、文書番号のグループ(又は文書番号)を出力する代わりに、文書番号が指し示す文書の題名等の属性情報を検索結果として出力するようにしてもよい。なお、文書番号に対応する文書の属性情報は、記憶装置13のHDD等に記憶されているものとする。
ステップS30において、検索文字列受け取り部24は、例えばユーザが入力装置12等を利用して入力した、又はユーザがネットワークを介して接続された他の情報処理装置等を利用して入力した、検索文字列を受け取る。
ステップS31において、検索文字列分割部25は、ステップS30で受け取られた検索文字列をN−gram(本実施形態の例ではN=2のバイグラム)で分割する。
ステップS33において、検索結果出力部27は、ステップS32で検索の結果、取得された文書ID(又は文書IDが指し示す文書の文書名等)を検索結果として例えば表示装置14又はネットワークを介して接続された他の情報処理装置等に出力する。
例えば、上述した実施形態では、文書に書かれている言語の一例として日本語を用いて説明を行ったが、本発明の実施は、これらに限定されるものではなく、文書はどのような言語で書かれていてもよい。
12 入力装置
13 記憶装置
14 表示装置
Claims (11)
- 共通する文字列を含む検索対象の文書の文書番号のグループを、一つの文字或いは数値で表される新たな文書番号に置き換える置き換え手段と、
前記文字列と、前記新たな文書番号と、に基づいて、検索の際に用いられる索引情報を作成する索引情報作成手段と、
を有することを特徴とする索引情報作成装置。 - 検索対象の複数の文書から、文書間で共通する文字列を抽出する文字列抽出手段を更に有し、
前記置き換え手段は、前記文字列抽出手段で抽出された文字列を共通して含む文書の文書番号のグループを、一つの文字或いは数値で表される新たな文書番号に置き換えることを特徴とする請求項1に記載の索引情報作成装置。 - 前記索引情報作成手段は、前記文字列と、前記新たな文書番号と、を対応付けて前記索引情報を作成することを特徴とする請求項1又は2に記載の索引情報作成装置。
- 前記索引情報作成手段は、前記文字列をN−gramで分割し、分割した語と、前記新たな文書番号と、を対応付けて前記索引情報を作成することを特徴とする請求項1又は2に記載の索引情報作成装置。
- 検索対象の文書に含まれる文字列と、前記文字列を含む文書の文書番号と、を対応付けて検索の際に用いられる索引情報を作成する索引情報作成手段と、
前記索引情報作成手段で作成された複数の索引情報に共通して表れる文書番号のグループを一つの文字或いは数値で表される新たな文書番号に置き換える置き換え手段と、
を有することを特徴とする索引情報作成装置。 - 前記索引情報作成手段で作成された索引情報に基づいて、複数の索引情報に共通して表れる文書番号のグループを抽出する文書番号グループ抽出手段を更に有し、
前記置き換え手段は、前記文書番号グループ抽出手段で抽出された文書番号のグループを、一つの文字或いは数値で表される新たな文書番号に置き換えることを特徴とする請求項5に記載の索引情報作成装置。 - 前記置き換え手段で置き換えられた、前記文書番号のグループと、前記新たな文書番号と、の対応関係情報を記憶装置に記憶する対応関係情報記憶手段を更に有することを特徴とする請求項1乃至6の何れか1項に記載の索引情報作成装置。
- 索引情報作成装置における索引情報作成方法であって、
共通する文字列を含む検索対象の文書の文書番号のグループを、一つの文字或いは数値で表される新たな文書番号に置き換える置き換えステップと、
前記文字列と、前記新たな文書番号と、に基づいて、検索の際に用いられる索引情報を作成する索引情報作成ステップと、
を有することを特徴とする索引情報作成方法。 - 索引情報作成装置における索引情報作成方法であって、
検索対象の文書に含まれる文字列と、前記文字列を含む文書の文書番号と、を対応付けて検索の際に用いられる索引情報を作成する索引情報作成ステップと、
前記索引情報作成ステップで作成された複数の索引情報に共通して表れる文書番号のグループを一つの文字或いは数値で表される新たな文書番号に置き換える置き換えステップと、
を有することを特徴とする索引情報作成方法。 - コンピュータを、
共通する文字列を含む検索対象の文書の文書番号のグループを、一つの文字或いは数値で表される新たな文書番号に置き換える置き換え手段と、
前記文字列と、前記新たな文書番号と、に基づいて、検索の際に用いられる索引情報を作成する索引情報作成手段と、
して機能させることを特徴とするプログラム。 - コンピュータを、
検索対象の文書に含まれる文字列と、前記文字列を含む文書の文書番号と、を対応付けて検索の際に用いられる索引情報を作成する索引情報作成手段と、
前記索引情報作成手段で作成された複数の索引情報に共通して表れる文書番号のグループを一つの文字或いは数値で表される新たな文書番号に置き換える置き換え手段と、
して機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008158477A JP5184987B2 (ja) | 2008-06-17 | 2008-06-17 | 索引情報作成装置、索引情報作成方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008158477A JP5184987B2 (ja) | 2008-06-17 | 2008-06-17 | 索引情報作成装置、索引情報作成方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009301511A JP2009301511A (ja) | 2009-12-24 |
JP5184987B2 true JP5184987B2 (ja) | 2013-04-17 |
Family
ID=41548310
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008158477A Active JP5184987B2 (ja) | 2008-06-17 | 2008-06-17 | 索引情報作成装置、索引情報作成方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5184987B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5366709B2 (ja) * | 2008-09-04 | 2013-12-11 | 新日鉄住金ソリューションズ株式会社 | 情報処理装置、共通文字列出力方法及びプログラム |
JP5601121B2 (ja) * | 2010-09-27 | 2014-10-08 | カシオ計算機株式会社 | Nグラム検索のための転置インデックスの生成方法および生成装置、当該転置インデックスを用いた検索方法および検索装置、ならびに、コンピュータプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001022775A (ja) * | 1999-07-08 | 2001-01-26 | Matsushita Electric Ind Co Ltd | 情報検索装置、情報検索装置の情報圧縮方法および記録媒体 |
JP2001312517A (ja) * | 2000-05-02 | 2001-11-09 | Mitsubishi Electric Corp | インデクス生成装置及び文書検索装置 |
JP2004192546A (ja) * | 2002-12-13 | 2004-07-08 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法、装置、プログラム、および記録媒体 |
-
2008
- 2008-06-17 JP JP2008158477A patent/JP5184987B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009301511A (ja) | 2009-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4848317B2 (ja) | データベースのインデックス作成システム、方法及びプログラム | |
JP5138046B2 (ja) | 検索システム、検索方法およびプログラム | |
CN100483417C (zh) | 获取限制词信息的方法、优化输出的方法和输入法系统 | |
US20170277672A1 (en) | Information processing device, information processing method, and computer program product | |
CN102591897A (zh) | 文件检索装置以及文件检索方法 | |
JP2011238159A (ja) | 計算機システム | |
JP5345987B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
JP5184987B2 (ja) | 索引情報作成装置、索引情報作成方法及びプログラム | |
JP5169456B2 (ja) | 文書検索システム、文書検索方法および文書検索プログラム | |
JP5162215B2 (ja) | データ処理装置、データ処理方法、および、プログラム | |
JP2016018279A (ja) | 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法 | |
JP6221275B2 (ja) | 文字入力用のプログラムおよび文字入力装置 | |
JP2018181121A (ja) | 分析装置、分析プログラム及び分析方法 | |
JP5494066B2 (ja) | 検索装置、検索方法および検索プログラム | |
JP2007257149A (ja) | 文書処理装置及び文書処理方法 | |
JP5380130B2 (ja) | ファイル検索装置及びファイル検索方法、並びにプログラム | |
US7840583B2 (en) | Search device and recording medium | |
JP5366709B2 (ja) | 情報処理装置、共通文字列出力方法及びプログラム | |
JP2003099429A (ja) | 用語集生成装置及び用語集生成プログラム並びに用語集検索装置 | |
JP5324500B2 (ja) | ファイル共有装置 | |
JP2007133682A (ja) | 全文検索システム、及び、その全文検索方法 | |
JP2010501927A (ja) | コンテンツ検索システムを搭載した情報端末機 | |
JP4612469B2 (ja) | 漏洩源業務調査システム及び漏洩源業務調査方法 | |
JP5944368B2 (ja) | 情報更新装置、情報更新方法、プログラム | |
JP6476638B2 (ja) | 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110615 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121225 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130117 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5184987 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160125 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |