JP5249848B2 - Information retrieval method and apparatus, program, and computer-readable recording medium - Google Patents
Information retrieval method and apparatus, program, and computer-readable recording medium Download PDFInfo
- Publication number
- JP5249848B2 JP5249848B2 JP2009111147A JP2009111147A JP5249848B2 JP 5249848 B2 JP5249848 B2 JP 5249848B2 JP 2009111147 A JP2009111147 A JP 2009111147A JP 2009111147 A JP2009111147 A JP 2009111147A JP 5249848 B2 JP5249848 B2 JP 5249848B2
- Authority
- JP
- Japan
- Prior art keywords
- index
- position information
- information
- document
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、情報検索方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、蓄積された文書群の文書内に出現する単語の位置情報を利用してフレーズ検索や複合語の検索を高速かつ省メモリで行う検索インデックスを作成するための情報検索方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。 The present invention relates to an information search method, apparatus and program, and a computer-readable recording medium, and in particular, performs phrase search and compound word search using position information of words appearing in a document of an accumulated document group. The present invention relates to an information search method and apparatus and program for creating a search index that is performed at high speed and in a memory-saving manner, and a computer-readable recording medium.
図10は、一般的な情報検索装置の構成を示す。 FIG. 10 shows a configuration of a general information search apparatus.
同図に示す情報検索装置は、インデックスを作成し、検索インデックス記憶部3に格納するインデックス作成部1、検索インデックス記憶部3の作成されたインデックスを参照して検索結果集合を特定し、検索結果を返却する検索結果集合特定部2からなる。インデクス作成部10は、形態素解析部11、転置リスト作成部12、転置インデクス追加部13を有する。
The information search apparatus shown in FIG. 1 creates an index, specifies an
ここで、本発明の対象であるインデックス作成部1に着目すると、フレーズや複合語を効率的に検索するために、一般的には転置インデックスに単語の位置情報を保持する。この位置情報のリストを「転置リスト」と呼ぶ。最もシンプルな転置リストの保持方法として、単語の位置情報を図11のように保存する転置リストがある(例えば、非特許文献1参照)。この方式は、単語word_1が文書ID1に4回出現し、その位置情報が[1,3,54,58]であることを示す。当該方式のインデックスでは単語の位置情報を文書の先頭から数えて何番目に出現するかを保持している。この位置情報は検索語が複合語やフレーズの時に利用される。例えば、"東京都"というフレーズで検索した場合、word_1が"東京"、word_2が"都"だったとすると、ID1の文書は1番目の単語がword_1で、2番目の単語がword_2なので、"東京都"がフレーズとして出現したことがわかる。一方、ID144の文書は、word_1とword_2が隣り合って出現していないので、"東京"と"都"という単語が文書内で共起しているものの、フレーズでは出現していないことがわかる。このフレーズで出現しているかどうかチェックする処理を「連接処理」と呼ぶ。
Here, focusing on the
具体的に、下記のような文書が入力された場合を例に、転置リストの作成方法を説明する。 Specifically, a method for creating a transposed list will be described by taking a case where the following document is input as an example.
例文:
ID=1:『東京で東京都知事選挙が行われた。…。東京出身で東京都知事に立候補したのは3人で、…』
上記の例文において、東京の転置リストを作成する。図12に、転置インデックス作成の詳細なフローを示す。
Example sentences:
ID = 1: “The Tokyo Governor Election was held in Tokyo. …. Three people from Tokyo who were running as governors of Tokyo ... ”
In the above example, create a transpose list in Tokyo. FIG. 12 shows a detailed flow of creating an inverted index.
まず、インデックス作成部1の形態素解析部11は、文字列を単語に分割する(ステップ10)。
First, the
分割方法としては既存技術である「mecab(http://mecab.sourceforege.net/)」や「chasen(http://chasen.naist.jp/hiki/ChaSen/)」等の形態素解析を用いる。下記が上記の例文を形態素解析し、単語毎に分割した結果である。 As a division method, morphological analysis such as “mecab (http://mecab.sourceforege.net/)” or “chasen (http://chasen.naist.jp/hiki/ChaSen/)” which is an existing technology is used. The following is the result of dividing the above example sentence into words by morphological analysis.
例文:
ID=1:東京/で/東京/都/知事/選挙/が/行わ/れ/た/。/…/。/東京/出身/で/東京/都/知事/に/立候補/した/の/は/3人/で/…
上記のスラッシュで区切られた区間が単語である。
Example sentences:
ID = 1: Tokyo / de / Tokyo / metro / governor / election / ga / done / do / ta /. /.../. / Tokyo / Born / De / Tokyo / Metro / Governor / Ni / Candidate / Done / Has / 3 /
The section delimited by the slash is a word.
次に、転置リスト作成部12がi=0と空の転置リストを作成する(ステップ11)。
Next, the transposed
転置リストとは転置インデックスの各要素である。 An inverted list is each element of an inverted index.
i番目の単語word(i)が行末(文書の末尾)かどうかを判定する(ステップ12)。末尾でない場合は、word(i)に該当する転置リストにiを追加する(ステップ13)。この時のiの値は位置情報を表す。例えば、上記文書が入力となった場合、word(1)は"東京"であり、行末ではないので、word(i)の転置リストに位置情報iを追加する。 It is determined whether the i-th word word (i) is at the end of the line (the end of the document) (step 12). If it is not the end, i is added to the transposition list corresponding to word (i) (step 13). The value of i at this time represents position information. For example, when the above document is input, word (1) is “Tokyo”, not the end of the line, so position information i is added to the transposed list of word (i).
次にiを1つ進め(ステップ14)、ステップ12から繰り返す。
Next, i is incremented by 1 (step 14), and the process is repeated from
ステップ12において、行末まで達した場合はステップ15で全体の転置インデックスに作成した転置リストを検索インデックス記憶部300に追加する。具体的には、上記の例文が文書番号1で、word_1が"東京"であったとすると、"東京"は、1,3,65,69番目の形態素として出現しているので、word_1の先頭の転置リストは図11のようになっているのがわかる。これを全ての文書で繰り返すことで、検索の転置インデックスが作成される。
In
以上示したように、従来技術の転置インデックスは位置情報をその文書に出現する回数だけ保存されるため、インデックスサイズの肥大化を招く。 As described above, the inverted index of the prior art stores the position information as many times as it appears in the document, which causes an increase in index size.
しかしながら、上記従来技術のインデックス形式の場合、連接処理のために保存される位置情報やメモリの使用量が大きく、また、連接処理を行う場合に文書内に出現する全ての単語について調べる必要があり、速度が遅いという課題がある。 However, in the case of the index format of the above prior art, the position information and the memory used for the concatenation process are large, and it is necessary to examine all words appearing in the document when the concatenation process is performed. There is a problem that the speed is slow.
本発明は、上記の点に鑑みなされたもので、連接処理の誤検出が起こり得るもののインデックスサイズを削減することが可能な情報検索方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。 The present invention has been made in view of the above points, and provides an information search method and apparatus, a program, and a computer-readable recording medium capable of reducing the index size although misdetection of concatenation processing can occur. With the goal.
図1は、本発明の原理を説明するための図である。 FIG. 1 is a diagram for explaining the principle of the present invention.
本発明は、文書データベースに蓄積された文書群からインデックスを作成し、転置インデックスを格納する検索インデックス記憶手段に格納し、作成されたインデックスから検索結果として返却する検索結果集合を特定する情報検索方法であって、
文書データベースから文書を読み込み、該文書の文字列を単語毎に分割し(ステップ1)、各単語が先頭から数えて何番目に位置するかを示す位置情報の数を、予め設定された固定長以下の数値で集約し、第1の記憶手段に格納する(ステップ2)位置情報集約ステップと、
第1の記憶手段から位置情報集約ステップで得られた位置情報の列を取得して、第2の記憶手段の1つの転置リストにマッピングするマッピングステップ(ステップ3)と、
第2の記憶手段からマッピングステップでマッピングされた転置リストを取得して、転置インデックス記憶手段に追加する転置インデックス追加ステップ(ステップ4)と、を行う。
This onset Ming, information retrieval indexed from documents stored in the document database, stored in the search index storage means for storing an inverted index, which identifies the result set to return as a search result from the index created A method,
A document is read from the document database, the character string of the document is divided into words (step 1), and the number of position information indicating how many positions each word is counted from the top is set to a predetermined fixed length. Aggregating with the following numerical values and storing them in the first storage means (Step 2):
A mapping step (step 3) of acquiring a sequence of position information obtained in the position information aggregation step from the first storage means and mapping it to one transposed list of the second storage means;
The transposed list mapped in the mapping step is acquired from the second storage unit, and the transposed index adding step (step 4) for adding to the transposed index storage unit is performed.
図2は、本発明の原理構成図である。 FIG. 2 is a principle configuration diagram of the present invention.
本発明(請求項1)は、文書データベース30に蓄積された文書群からインデックスを作成し、転置インデックスを格納する検索インデックス記憶手段300に格納するインデックス作成手段00と、作成されたインデックスから検索結果として返却する検索結果集合を特定する検索結果集合特定手段200と、を有する情報検索装置であって、
インデックス作成手段100は、
文書データベース30から文書を読み込み、該文書の文字列を単語毎に分割する単語分割手段110と、
分割された各単語が先頭から数えて何番目に位置するかを示す位置情報の数を、予め設定された固定長以下の数値で集約し、第1の記憶手段に格納する位置情報集約手段130と、
第1の記憶手段から位置情報集約手段130で得られた位置情報の列を取得して、第2の記憶手段の1つの転置リストにマッピングする位置情報マッピング手段140と、
第2の記憶手段から位置情報マッピング手段140でマッピングされた転置リストを取得して、転置インデックス記憶手段300に追加する転置インデックス追加手段150と、を有する。
The present invention (claim 1 ) creates an index from a document group stored in the
The index creation means 100
A
A position
A position information mapping means 140 for acquiring a position information column obtained by the position
An inverted
また、本発明(請求項2)は、位置情報を集約する際に、固定長を用いる代わりに、位置情報の数を任意に指定された区切り文字を用いて集約する手段を含む位置情報集約手段130を有する。 Further, the present invention (Claim 2 ) includes position information aggregating means including means for aggregating the number of position information using arbitrarily designated delimiters instead of using a fixed length when aggregating position information. 130.
本発明(請求項3)は、請求項3または4記載の情報検索装置を構成する各手段としてコンピュータを機能させるための情報検索プログラムである。
The present invention (Claim 3 ) is an information retrieval program for causing a computer to function as each means constituting the information retrieval apparatus according to
本発明(請求項4)は、請求項3記載の情報検索プログラムを格納したコンピュータ読み取り可能な記録媒体である。 The present invention (Claim 4 ) is a computer-readable recording medium storing the information search program according to Claim 3 .
上述のように本発明では、各単語に保存される位置情報をセグメントに分割し、固定長を用いてそのセグメントの先頭から数えた数に位置情報を集約することで、連接処理の誤検出が起こり得るもののインデックスサイズを大きく削減できる。 As described above, in the present invention, the position information stored in each word is divided into segments, and the position information is aggregated into a number counted from the beginning of the segment using a fixed length, thereby preventing erroneous detection of the concatenation process. The index size can be greatly reduced.
また、区切り文字を用いることで、連接していない場合でも連接しているかのように動作することを防ぐことができる。 In addition, by using a delimiter character, it is possible to prevent the operation as if they are connected even when they are not connected.
以下、図面と共に本発明の実施の形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図3は、本発明の一実施の形態における情報処理装置の構成を示す。 FIG. 3 shows the configuration of the information processing apparatus according to the embodiment of the present invention.
本発明の情報処理装置は、図10に示した従来の情報検索装置と同様にインデクス作成部100と検索結果集合特定部200、検索インデックス記憶部300から構成されるが、インデックス作成部100の構成が異なる。
The information processing apparatus of the present invention includes an
本発明のインデックス作成部100は、外部の文書DB30から文書群を読み込んで、文書毎に単語に分割する形態素解析部110、各単語毎に転置インデックスと単語の位置情報からなる転置リストを作成し、メモリ(図示せず)に格納する転置リスト作成部120、メモリ(図示せず)に格納されている各単語の位置情報の数を集約し、メモリ(図示せず)に格納する位置情報集約部130、メモリ(図示せず)から位置情報を取得して配列にマッピングする位置マッピング部140、マッピングされた配列を転置インデックス記憶部300に追加書き込みする転置インデックス追加部150を有する。つまり、図10の構成に、文書に含まれる位置情報の数を集約する位置情報集約部130と、その位置情報を配列にマッピングする位置情報マッピング部140を付加した構成である。
The
前述の従来技術の転置インデックスは、位置情報をその文書に出現する回数だけ保存されるため、インデックスサイズが大きくなるが、本発明では、位置情報の絶対値を固定長Lに圧縮する。具体的には固定長Lを予め設定し、その固定長内にインデックスが収まるようにインデックスを集約させることで実現する。 Since the above-described conventional inverted index stores the position information as many times as it appears in the document, the index size increases. In the present invention, the absolute value of the position information is compressed to a fixed length L. Specifically, this is realized by setting a fixed length L in advance and collecting the indexes so that the indexes are within the fixed length.
図4に、図11で示した転置インデックスのword_1を固定長L=64で集約した例を示す。まず、従来技術では、文書ID=1について、検索インデックス記憶部3に位置情報が「1,3,65,69」と保存されているが、本発明では、これを64以下の数値に収めるために、位置情報集約部130において、位置情報の数値を「64」の剰余に変換し、固定長L以下の数値で集約する。例えば、「65」は「64」で剰余をとると「1」となる。よって、「1,3,1,4」という列が得られる。これを位置情報マッピング部140で1つの転置リストにマッピングして本発明の転置インデックスである「1,3,4」という位置情報を最終的に得る。
FIG. 4 shows an example in which word_1 of the inverted index shown in FIG. 11 is aggregated with a fixed length L = 64. First, in the prior art, the position information “1, 3, 65, 69” is stored in the search index storage unit 3 for the document ID = 1, but in the present invention, this is stored in a numerical value of 64 or less. In addition, the position
図5に本発明を利用して全ての数値が「64」以下になった転置インデックスの例を示す。同図中の全ての位置情報の値が「64」以下になっている。これを利用して従来技術と同様の連接処理をする場合、実際には連接処理を行っても連接していないケースが起こる可能性があるが、インデックスサイズと計算量を大きく削減することができるというメリットがある。 FIG. 5 shows an example of an inverted index in which all numerical values are “64” or less using the present invention. The values of all position information in the figure are “64” or less. When using this to perform the same connection process as in the prior art, there is a possibility that the connection will not be connected even if the connection process is actually performed, but the index size and calculation amount can be greatly reduced. There is a merit.
図6は、本発明の一実施の形態におけるインデックスの作成のフローチャートである。 FIG. 6 is a flowchart for creating an index according to an embodiment of the present invention.
ステップ201) 形態素解析部110で文書DB30から文書を読み込み、当該文書の文字列を単語毎に分割する。形態素解析の方法は従来技術と同様である。
Step 201) The
ステップ202) 転置リスト作成部120は、position=0、i=0,1をセットし、メモリ(図示せず)上に空のインデックスを作成する。固定長Lは任意の値を与えることが可能であるが、値が小さければ小さいほどインデックスサイズが小さくなる代わりに、連接処理の誤検出も増える。
Step 202) The transposed
ステップ203) word_(i)が行末であるかどうかをチェックし、行末でない場合はステップ204に移行し、行末の場合はステップ209に移行する。 Step 203) It is checked whether word_ (i) is at the end of the line. If it is not at the end of the line, the process proceeds to Step 204. If it is at the end of the line, the process proceeds to Step 209.
ステップ204) 位置情報集約部130は、iが固定長Lより大きいかを確認し、大きい場合はステップ206に移行し、小さい場合はステップ205に移行する。
Step 204) The position
ステップ205) 位置情報集約部130は、固定長Lより小さい場合は、positionを1つ進め、ステップ207に移行する。
Step 205) When the position
ステップ206) 位置情報集約部130は、positionを0に戻し、ステップ207に移行する。
Step 206) The position
ステップ207) 転置リスト作成部120は、メモリ(図示せず)上のword(i)の転置リストにpositionを追加する。
Step 207) The transposed
ステップ208) iを1進め、ステップ203に戻る。
Step 208) Advance i by 1 and return to
ステップ209) ステップ203において行末である場合は、位置情報マッピング部130はメモリ(図示せず)から転置リストを読み込み、位置情報のマッピングを行う。マッピングは同じ位置情報をひとつにまとめることを指す。例えば、図4の例の場合は、文書ID=1の位置情報[1,3,65,69](図4(a))を固定長Lを利用して集約すると、[1,3,1,4](図4(b))となり、同じ位置情報である[ID=1]をマッピングすると[1,3,4](図4(c))となる。このようにマッピングされた位置情報をメモリ(図示せず)に格納する。
Step 209) If the line is at the end in
ステップ210) 転置インデックス追加部150は、メモリ(図示せず)からマッピングされた転置リストを読み込み、全体の転置インデックスに当該転置リストを追加し、検索インデックス記憶部300に格納し、インデックス作成部100側の処理を終了する。
Step 210) The inverted
これにより、固定長L以下の位置情報で構成された転置インデックスが作成される。 As a result, a transposed index composed of position information having a fixed length L or less is created.
[第2の実施の形態]
前述した位置情報の集約方法はLを固定長で限定するため、ある文を区切ってしまう可能性がある。例文1において、固定長「4」で区切った場合は、下記のようになる。
[Second Embodiment]
Since the above-described location information aggregation method limits L to a fixed length, there is a possibility that a sentence is divided. In the
例文(ID=1):/東京/で/東京/都
/知事/選挙/が/行わ
/れ/た/。/…/
よって、「都知事」と検索された場合、誤検出だけでなく検出漏れが起きることがある。そこで、本実施の形態では、第1の実施の形態で用いた固定長ではなく、区切り文字を利用したインデックス作成方法を示す。
Example sentences (ID = 1): / Tokyo / De / Tokyo / Miyako
/ Governor / election / ga / do
/ Re / ta /. /.../
Therefore, when searching for “Governor of Tokyo”, not only erroneous detection but also detection failure may occur. Therefore, in this embodiment, an index creation method using a delimiter instead of the fixed length used in the first embodiment is shown.
図7は、本発明の第2の実施の形態における情報検索装置の構成を示す。 FIG. 7 shows a configuration of an information search apparatus according to the second embodiment of the present invention.
同図に示す情報検索装置は、図3の位置情報集約部130の代わりに、区切り文字を用いて位置情報を集約する区切り文字位置情報集約部230を設けた構成である。
The information search apparatus shown in the figure is configured by providing a delimiter character position
区切り文字は任意に指定できるが、"。"を区切り文字にした場合は下記のようになる。 The delimiter can be specified arbitrarily, but when "." Is used as the delimiter, it is as follows.
例文(ID=1):
/東京/で/東京/都/知事/選挙/が/行わ/れ/た/。
Example sentence (ID = 1):
/ Tokyo / De / Tokyo / Tokyo / Governor / Election /
…
/東京/出身/で/東京/都/知事/に/立候補/した/の/は/3人/で/…
これにより誤検出は起きる可能性があるものの、検出漏れを防ぐことができる。
...
/ Tokyo / Born / De / Tokyo / Metro / Governor / Ni / Candidate / Done / Has / 3 /
As a result, erroneous detection may occur, but detection omission can be prevented.
図8に区切り文字を利用して位置情報を集約した例を示す。図4との違いは64以下の数値であっても、文の区切れがある場合は位置情報が集約されている点である。例えば、文書ID=170は、従来技術の転置インデックスにおいては、[2,6,8,10]であるのに対し、6番目の単語が文の区切りであったため、[2,6,2,6]と集約し、最終的に[2,6]にマッピングされている。このように文頭には同じ文字列が出現する可能性が高いため、こうしたマッピングはインデックスサイズ削減に貢献する可能性がある。 FIG. 8 shows an example in which position information is collected using delimiters. The difference from FIG. 4 is that even if the numerical value is 64 or less, the position information is collected when there is a sentence break. For example, the document ID = 170 is [2, 6, 8, 10] in the conventional inverted index, whereas the sixth word is a sentence break, so [2, 6, 2, 6] and finally mapped to [2, 6]. Since there is a high possibility that the same character string appears at the beginning of the sentence in this way, such mapping may contribute to index size reduction.
図9は、本発明の第2の実施の形態における転置インデックス作成のフローチャートである。 FIG. 9 is a flow chart for creating an inverted index according to the second embodiment of this invention.
以下では図6との違いのみを詳細に説明する。 Only the differences from FIG. 6 will be described in detail below.
ステップ302) 区切り文字位置情報集約部230は、区切り文字をセットする。例えば、"。"や"."などをセットすることができる。また、区切り文字を正規表現などのパターンで与えることも考えられる。
Step 302) The delimiter character position
ステップ304) 区切り文字位置情報集約部230は、word(i)が前述した区切り文字であるかどうかを判断する。これが区切り文字である場合はステップ306に移行し、区切り文字でない場合はステップ305に移行する。
Step 304) The delimiter character position
ステップ305) 区切り文字でない場合はpositionを1つ進め、ステップ307に移行する。 Step 305) If it is not a delimiter, the position is advanced by one, and the process proceeds to Step 307.
ステップ306) 区切り文字である場合はpositionを0としてステップ307に移行する。 Step 306) If it is a delimiter, the position is set to 0 and the process proceeds to Step 307.
ステップ307) 転置リスト作成部120は、メモリ(図示せず)上のword(i)の転置リストにpositionを追加する。
Step 307) The transposed
上記以外の処理は図6の動作と同様である。 Processing other than the above is the same as the operation of FIG.
このような手順により区切り文字を利用した転置リストを作成することができる。 Through such a procedure, a transposed list using a delimiter can be created.
なお、上記の情報処理装置の構成要素の各動作をプログラムとして構築し、情報処理装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。 In addition, each operation | movement of the component of said information processing apparatus can be constructed | assembled as a program, and it can install and run in the computer utilized as an information processing apparatus, or can distribute | distribute it via a network.
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。 Further, the constructed program can be stored in a portable storage medium such as a hard disk, a flexible disk, or a CD-ROM, and can be installed or distributed in a computer.
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。 The present invention is not limited to the above-described embodiment, and various modifications and applications can be made within the scope of the claims.
30 文書データベース(DB)
100 インデックス作成手段、インデックス作成部
110 単語分割手段、単語分割部
120 転置リスト作成部
130 位置情報集約手段、位置情報集約部
140 位置情報マッピング手段、位置情報マッピング部
150 転置インデックス追加手段、転置インデックス追加部
200 検索結果集合特定手段、検索結果集合特定部
230 区切り文字位置情報集約部
300 転置インデックス記憶手段、転置インデックス記憶部
30 Document database (DB)
100 Index creation means,
Claims (4)
前記インデックス作成手段は、
前記文書データベースから文書を読み込み、該文書の文字列を単語毎に分割する単語分割手段と、
分割された各単語が先頭から数えて何番目に位置するかを示す位置情報の数を、予め設定された固定長以下の数値で集約し、第1の記憶手段に格納する位置情報集約手段と、
前記第1の記憶手段から前記位置情報集約ステップで得られた位置情報の列を取得して第2の記憶手段の1つの転置リストにマッピングする位置情報マッピング手段と、
前記位置情報マッピング手段でマッピングされた前記転置リストを前記第2の記憶手段から取得して前記転置インデックス記憶手段に追加する転置インデックス追加手段と、
を有することを特徴とする情報検索装置。 A search result set for creating an index from a document group stored in a document database and storing it in a search index storage means for storing a transposed index, and a search result set to be returned as a search result from the created index An information retrieval device comprising:
The index creation means includes:
Word dividing means for reading a document from the document database and dividing the character string of the document into words;
Position information aggregating means for aggregating the number of pieces of position information indicating how many positions each divided word is counted from the head with a numerical value not more than a preset fixed length and storing the number in a first storage means; ,
Position information mapping means for acquiring a column of position information obtained in the position information aggregation step from the first storage means and mapping it to one transposed list of the second storage means;
An inverted index adding means for acquiring the inverted list mapped by the positional information mapping means from the second storage means and adding the inverted list to the inverted index storage means;
An information retrieval apparatus comprising:
前記位置情報を集約する際に、前記固定長を用いる代わりに、前記位置情報の数を任意に指定された区切り文字を用いて集約する手段を含む
請求項1記載の情報検索装置。 The position information aggregation means includes
Wherein when aggregating location information, instead of using the fixed length, the information retrieval apparatus according to claim 1 further comprising a means for aggregating using arbitrarily specified delimiter number of said position information.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009111147A JP5249848B2 (en) | 2009-04-30 | 2009-04-30 | Information retrieval method and apparatus, program, and computer-readable recording medium |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2009111147A JP5249848B2 (en) | 2009-04-30 | 2009-04-30 | Information retrieval method and apparatus, program, and computer-readable recording medium |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JP2010262379A JP2010262379A (en) | 2010-11-18 |
| JP5249848B2 true JP5249848B2 (en) | 2013-07-31 |
Family
ID=43360405
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2009111147A Active JP5249848B2 (en) | 2009-04-30 | 2009-04-30 | Information retrieval method and apparatus, program, and computer-readable recording medium |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP5249848B2 (en) |
Families Citing this family (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP5380566B2 (en) * | 2012-03-21 | 2014-01-08 | 株式会社東芝 | Language processing apparatus, program, and method |
Family Cites Families (3)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2000285116A (en) * | 1999-03-31 | 2000-10-13 | Just Syst Corp | Document creation device, document creation method, and computer-readable recording medium recording a program for causing a computer to execute the method |
| JP3318834B2 (en) * | 1999-07-30 | 2002-08-26 | 三菱電機株式会社 | Data file system and data retrieval method |
| JP4848317B2 (en) * | 2007-06-19 | 2011-12-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Database indexing system, method and program |
-
2009
- 2009-04-30 JP JP2009111147A patent/JP5249848B2/en active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JP2010262379A (en) | 2010-11-18 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| Briscoe et al. | Evaluating the accuracy of an unlexicalized statistical parser on the PARC DepBank | |
| KR20120063442A (en) | Method for extracting semantic distance of mathematical sentence and classifying mathematical sentence by semantic distance, apparatus and computer-readable recording medium with program therefor | |
| KR101873101B1 (en) | Method and apparatus for collecting web page by web clawling based potal including similar text | |
| Líška et al. | Similarity search for mathematics: Masaryk university team at the ntcir-10 math task | |
| JP2019082931A (en) | Retrieval device, similarity calculation method, and program | |
| JP4769031B2 (en) | Method for creating language model, kana-kanji conversion method, apparatus, computer program, and computer-readable storage medium | |
| JP5249848B2 (en) | Information retrieval method and apparatus, program, and computer-readable recording medium | |
| US10810236B1 (en) | Indexing data in information retrieval systems | |
| JP6303148B2 (en) | Document feature extraction device, document feature extraction method, document classification device, document classification method, document search device, document search method, computer program, and recording medium on which computer program is recorded | |
| Liu et al. | Mining local gazetteers of literary chinese with CRF and pattern based methods for biographical information in Chinese history | |
| JP6486789B2 (en) | Speech recognition apparatus, speech recognition method, and program | |
| CN118916441A (en) | Knowledge base construction method, retrieval method and related device for large language model | |
| JPWO2009113289A1 (en) | NEW CASE GENERATION DEVICE, NEW CASE GENERATION METHOD, AND NEW CASE GENERATION PROGRAM | |
| KR101113787B1 (en) | Apparatus and method for indexing text | |
| JP5285491B2 (en) | Information retrieval system, method and program, index creation system, method and program, | |
| Schrimpf | Using rhetorical topics for automatic summarization | |
| JP4954674B2 (en) | Software development support method, software development support device, software development support program, and computer system | |
| JP2010176285A (en) | Unknown word registration method, device and program, and computer readable recording medium | |
| JP5741448B2 (en) | Information estimation apparatus, information estimation method, and program | |
| KR101100848B1 (en) | A method of generating a lexical database and a computer readable medium storing the lexical database | |
| JP6790328B2 (en) | Word addition device, word addition method and word addition program | |
| CN120337907B (en) | Text processing methods, devices, media and products | |
| JP2014115718A (en) | Morphological analysis device, method, and program | |
| JP5066147B2 (en) | Document processing apparatus and program | |
| JP2009129373A (en) | Same name and same name document separation device and program |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110825 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130128 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130205 |
|
| A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130318 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130409 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130412 |
|
| R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160419 Year of fee payment: 3 |
|
| S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |