[go: up one dir, main page]

JP2002132789A - 文書検索方法 - Google Patents

文書検索方法

Info

Publication number
JP2002132789A
JP2002132789A JP2000318787A JP2000318787A JP2002132789A JP 2002132789 A JP2002132789 A JP 2002132789A JP 2000318787 A JP2000318787 A JP 2000318787A JP 2000318787 A JP2000318787 A JP 2000318787A JP 2002132789 A JP2002132789 A JP 2002132789A
Authority
JP
Japan
Prior art keywords
word
search
document
frequency
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000318787A
Other languages
English (en)
Inventor
Katsumi Tada
勝己 多田
Takuya Okamoto
卓哉 岡本
Natsuko Sugaya
菅谷  奈津子
Tadataka Matsubayashi
忠孝 松林
Yasuhiko Inaba
靖彦 稲場
Yasushi Kawashita
靖司 川下
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2000318787A priority Critical patent/JP2002132789A/ja
Publication of JP2002132789A publication Critical patent/JP2002132789A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 英語、ドイツ語やフランス語のなどの表音文
字で記述された大規模文書データベースに対して、高頻
度語を含むフレーズが検索タームに指定された場合に
も、高速に全文検索可能なシステムを安価に提供する。 【解決手段】 高頻度語(a,the,of等)のリスト(1210)を
設け、文書をデータベースに登録する際、単語を抽出し
て(1120)、該単語について、文書識別子と単語の文書中
での位置を有する検索用インデクスを作成し(1140)、抽
出した単語について前記リストを参照して、該単語が高
頻度語である場合には(1130)、該単語に続く1単語の組
に対して検索用インデクスを作成する(1140)。検索時に
は、検索ターム中の単語に高頻度語がある場合には、高
頻度語である単語に続く1単語の組を検索タームにおけ
る単語として扱い、この単語の組を含む検索タームによ
り検索処理を行う。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、大規模な文書デー
タベースを対象として、指定された文字列を含む文書を
検索する全文検索の方法に係わり、特に英語、ドイツ語
やフランス語などの表音文字で記載された文書を対象と
したデータベース、文書管理システム、文書ファイリン
グシステムおよびDTP(Desk Top Publishing)システムな
どに適用されるものである。
【0002】
【従来の技術】近年、情報化社会の急速な進展に伴い、
ワードプロセッサやパーソナルコンピュータなどを用い
て作成される電子化文書情報も爆発的な勢いで増加しつ
つある。このような状況下で、蓄積された膨大な電子化
文書群の中から、必要とする情報を含んだ文書を高速か
つ高精度に検索したいという要求が高まっている。この
よう要求に応える技術として全文検索がある。全文検索
では、文書の登録時に登録対象文書中のテキスト全体を
計算機システムに入力してデータベース化し、検索時に
は該当データベース中からユーザの指定した文字列(以
下、検索タームと呼ぶ)を含む全ての文書を探し出すこ
とにより、登録時にキーワード付けを行なうことなく、
目的とする文書を漏れなく検索することが可能である。
【0003】一般に、英語、ドイツ語、フランス語のな
どの表音文字で記載された文書を対象とした全文検索に
は、単語インデクス方式と呼ばれる方式が用いられてい
る。単語インデクス方式の概要について簡単に説明す
る。英語、ドイツ語やフランス語などの表音文字で記載
された文書では、一般に“ ”(スペース)、“,”(コン
マ)や“.”(ピリオド)などの文字で単語が分かち書き
されている。すなわち、これらの文字を単語の区切れ目
として抽出することにより、登録対象文書から単語を抽
出することができる。そして、これらの単語に対し、文
書データベース中で該当文書を識別するための文書識別
情報および該当文書中での出現単語位置を抽出し、これ
を検索用のインデクスデータとして格納しておく。そし
て検索時には、検索条件に指定された語句の各々に対し
検索用インデクスを参照し、検索タームとして指定され
た単語群が同一文書中にあり、かつ各単語の並びが検索
条件における単語の並びと同一である文書を抽出するこ
とにより、検索ノイズのない全文検索を実現するもので
ある。
【0004】しかし、本方式による全文検索システムで
は、検索ターム中に登録済み文書中での出現頻度の高い
語(以下、高頻度語と呼ぶ)が含まれる場合に、検索レ
スポンスが低下するという問題がある。すなわち、高頻
度語に関するインデクスデータは通常の語に比べ著しく
大きくなるため、磁気ディスクなどの二次記憶上に格納
されたインデクスデータを参照するのに要する時間が長
くなり、検索に時間がかかってしまう。英文における高
頻度語としては、“a”や“the”などの接続詞、“an
d”や“but”などの接続詞、 および“of”や“to”な
どの前置詞などがある。これらの語は登録済み文書中の
大半に含まれ、検索タームとして意味を持つことが少な
いため、一般には「Information Retrieval」(PRENTICE
HALL発行、William B.Frakes, Ricardo Baeza-Yates
著)(以下、公知例1と呼ぶ)113ページ以降に示されて
いるように、該当語をストップワード(排除語)として定
義し、これらに対しては検索用インデクスを作成しない
方式が提案されている。
【0005】
【発明が解決しようとする課題】しかし、公知例1にお
ける英文検索方法では、ストップワードを含むフレーズ
(句)を検索することができないという問題がある。す
なわち、“a”や“the”などの定冠詞、“and”や“bu
t”などの接続詞、および“of”や“to”などの前置詞
そのものが検索タームとして意味を持つものは少ない
が、それを含むフレーズが検索タームとして意味を持つ
ものも少なくない。例えば、定冠詞“the”については
“タイムズ紙”を表す“the Times”は“the”を伴って
始めて本来の意味を表すものであり、“the”を伴わな
い“Times”では“回数”等としての意味しか持たな
い。つまり、“the”を含むフレーズが検索できない場
合には、“Times”のみで検索するしか方法はなく、
“回数”などの意味で用いられている不要文書がノイズ
として検索されてしまうという問題がある。“the Whit
e House”(ホワイトハウス)や“the West”(西洋)、“T
he East”(東洋)なども、“the”を伴って始めて所定の
意味を示す語の一例である。
【0006】また、接続詞“and”における例として
は、例えば“バターのついたパン”を表すフレーズ“br
ead and butter”を検索することができない。このた
め、“bread”と“butter”のAND条件で検索を行うこと
になるが、“bread”と“butter”を含むが“bread and
butter”というフレーズで用いられていない不要文書
がノイズとして検索されてしまう。さらに、接続詞“o
f”についても同様に、例えば“アメリカ銀行”を表す
フレーズ“Bank of America”を検索することができな
いため、“Bank”と“America”のAND条件で検索を行う
ことになるが、“Bank”と“America”を含むが“Banko
f America”というフレーズとして用いられていない不
要文書がノイズとして検索されてしまうという問題があ
る。
【0007】この問題を解決するために、従来の方法で
は “a”や“the”などの定冠詞、“and”や“but”な
どの接続詞、 および“of”や“to”などの前置詞につ
いても検索用インデクスを作成することになるが、例え
ば“the East”というフレーズを検索する際に、非常に
容量の大きい“the”に関するインデクスデータを磁気
ディスクなどの二次記憶から読み出す必要がある。そし
て、“East”に関するインデクスデータと単語位置の比
較を行い、同一文書中にあり、かつ単語位置が1単語隣
接して現れるものを抽出する必要があるため、“East”
1単語を検索する場合に比べ著しく検索レスポンスが低
下してしまう。すなわち、本発明の解決しようとする課
題は、英語、ドイツ語やフランス語のなどの表音文字で
記述された大規模文書データベースに対して、“a”や
“the”などの定冠詞、“and”や“but”などの接続
詞、 および“of”や“to”などの前置詞などの高頻度
語を含むフレーズが検索タームに指定された場合にも、
高速に全文検索可能なシステムを安価に提供することで
ある。
【0008】
【課題を解決するための手段】上記課題を解決するため
に、本発明による文書検索方法は以下に示すステップを
備える。すなわち、本発明による文書検索方法におい
て、文書の登録処理は、登録対象文書に対し、スペー
ス、コンマやピリオドなどの区切り文字を識別すること
により単語を抽出する登録用単語抽出ステップと、該抽
出された単語が、高頻度語として定義された単語である
か否かを判定する高頻度語判定ステップと、該高頻度語
判定ステップにおける判定結果が高頻度語であった場合
には、該高頻度語に接続する1単語を抽出し、該高頻度
語と該抽出した1単語からなる単語列に対して検索用イ
ンデクスデータを作成し、また該高頻度語判定ステップ
における判定結果が高頻度語でなかった場合には、前記
抽出された単語に対して検索用インデクスデータを作成
し、登録する検索用インデクス作成登録ステップを有す
る。また、本発明による文書検索方法において登録済み
文書の検索処理は、検索タームに対し、スペース、コン
マやピリオドなどの区切り文字を識別することにより単
語を抽出する検索用単語抽出ステップと、該抽出された
単語が、高頻度語として定義された単語であるか否かを
判定する高頻度語判定ステップと、該高頻度語判定ステ
ップにおける判定結果が高頻度語であった場合には、該
高頻度語に接続する1単語を抽出し、該高頻度語と該抽
出した1単語からなる単語列に対して検索用インデクス
データを、また高頻度語判定ステップにおける判定結果
が高頻度語でなかった場合には、前記抽出された単語に
関する検索用インデクスデータを、参照することによ
り、指定された検索タームを含む文書を検索する検索実
行ステップを有する。
【0009】
【発明の実施の形態】本発明を適用した第一の実施例に
ついて、図面を用いて説明する。はじめに、本実施例の
システム構成について説明する。図1は、本発明による
文書検索システムの第一の実施例の全体構成を示す図で
ある。図1に示す通り、本実施例における文書検索シス
テムは、登録用サブシステム1000、文書検索サーバ
2000、検索クライアント3000および4000、
ネットワーク5000から構成される。文書登録サブシ
ステム1000は、登録対象となる文書を入力として、
検索時に必要となる検索用インデクスを作成する。この
インデクスデータはネットワーク5000を介して文書
検索サーバ2000に転送され、後に文書検索サーバ2
000が全文検索処理を行う際に用いられる。文書検索
サーバ2000は、検索クライアント3000および4
000から検索コマンドを受け取り、文書登録サブシス
テム1000が作成した検索用インデクスを用いて、該
検索コマンドで指定された条件に適合する文書を検索
し、検索結果データを要求元の検索クライアントに送り
返す。検索クライアント3000および4000は、ユ
ーザが対話的に検索条件を指定するための画面をディス
プレイ上に表示し、この面上でユーザが指定した検索条
件を、文書検索サーバ2000で解釈可能な検索コマン
ドの形に変換し、このコマンドをネットワーク5000
を介して文書検索サーバ2000に送信する。文書検索
サーバ2000で、前述した通り検索コマンドに対応す
る検索処理を行い検索結果データを送り返してくると、
検索クライアント3000および4000は受け取った
検索結果データを検索結果画面としてユーザに提示す
る。なお、図1では2台のコンピュータ3000および
4000が検索用クライアントとして接続されている構
成例を示したが、検索クライアントが1台のみとする構
成を取ることもできる。また、3台以上の構成を取るこ
ともできる。最後に、ネットワーク5000はローカル
エリアネットワーク(LAN)または広域ネットワーク(WAN)
により構成され、文書登録サブシステム1000、文書
検索サーバ2000、検索クライアント3000および
4000が各種データやコマンドを交換するために用い
られる。
【0010】なお、図1では文書登録サブシステム10
00から文書検索サーバ2000に対し検索用インデク
スデータを転送するために、ネットワーク5000を使
用するものとしたが、代わりにフロッピー(登録商標)
ディスクや光磁気ディスクなどの可搬型媒体を使用する
構成を取ることもできる。あるいは、文書登録サブシス
テム1000と文書検索サーバ2000を1台のコンピ
ュータ上に実装し、データ転送を行わない構成を取るこ
ともできる。さらに、図1では検索クライアント300
0および4000を文書検索サーバ2000と別のコン
ピュータ上に構成するものとしたが、1個以上の検索ク
ライアントを文書検索サーバ2000と同一のコンピュ
ータ上で実行する構成を取ることもできる。以上が本実
施例におけるシステム構成に関する説明である。
【0011】次に、本実施例における文書登録サブシス
テム、すなわち図1における1000について図を用い
て説明する。図2は、本実施例における文書登録サブシ
ステム1000の構成を示す図である。本図に示す文書
登録サブシステム1000は、処理の実行状況などを表
示するディスプレイ1010、登録用のコマンド等を入
力するキーボード1020、登録処理を実行する中央演
算処理装置CPU1030、フロッピディスクからデー
タを読み出すフロッピディスクドライバ1040、デー
タベースへの登録対象となる文書データを格納したフロ
ッピディスク1050、登録用のプログラムならびにデ
ータなどを一時的に格納する主メモリ1060、各種デ
ータおよびプログラムを格納する磁気ディスク1070
およびこれらを接続するバス1080で構成される。ま
た、主メモリ1060にはシステム制御プログラム11
00、登録制御プログラム1110、登録用単語抽出プ
ログラム1120、登録用高頻度語判定プログラム11
30、検索用インデクス作成登録プログラム1140が
磁気ディスク1070から読み出されるとともに、ワー
クエリア1150が確保される。また、磁気ディスク1
070には区切り文字テーブル格納領域1200、高頻
度語リスト格納領域1210、検索用インデクス格納領
域1220、各種プログラム格納領域1230が確保さ
れている。なお、本実施例ではこれらの格納領域を磁気
ディスク上1070上に確保したが、光磁気ディスク装
置など他の二次記憶装置であっても構わない。以上が文
書登録サブシステム1000の構成である。
【0012】次に、本実施例における文書登録処理の手
順について説明する。始めに、キーボード1020から
入力される登録コマンドによりシステム制御プログラム
1100は登録制御プログラム1110を起動し、文書
の登録処理を開始する。以下、文書登録時の処理につい
て図3に示すPAD(Problem Analysis Diagram)を用いて
説明する。登録制御プログラム1110は、フロッピデ
ィスク1050に格納されている全ての登録対象文書に
ついて、ステップ1310からステップ1350までに
示す一連の処理を繰り返し実行する(ステップ130
0)。まず、ステップ1310ではフロッピディスクド
ライバ1040を通じてフロッピディスク1050に格
納されている登録対象文書群から未処理の文書を1個選
択し、主メモリ1060上のワークエリア1150に読
み出す。次に、ステップ1320を実行し、ステップ1
310で読み込んだ登録対象文書に対し、文書データベ
ース中で該当文書を一意に識別するための番号である文
書識別子を割り当てる。さらに、ステップ1330にお
いて登録用単語抽出プログラム1120を実行し、主メ
モリ1060上の登録対象文書から単語を抽出する。す
なわち、登録対象文書の先頭から末尾にかけて、各文字
に対し磁気ディスク1070上の区切り文字テーブル1
200を参照していくことにより、登録対象文書から区
切り文字を識別する。そして、区切り文字と区切り文字
の間に囲まれた一連の文字列を単語として抽出する。次
に、ステップ1340で登録用高頻度語判定プログラム
1130を実行し、ステップ1330により抽出した各
単語が高頻度語であるか否かを判定する。すなわち、磁
気ディスク1070上の高頻度語リスト格納領域121
0に格納されている高頻度語リストを参照しながら、各
単語が高頻度語リスト中に定義されているか否かを判定
することにより、各単語が高頻度語であるか否かを判定
する。最後に、ステップ1350で検索用インデクス作
成登録プログラム1140を実行し、ステップ1330
で抽出した単語に対し、検索用インデクスデータの作成
登録処理を実行する。
【0013】また、ステップ1350における処理内
容、すなわち検索用インデクス作成登録プログラム11
40の処理内容について、図4を用いてもう少し詳細に
説明する。登録用インデクス作成登録プログラム114
0では、ステップ1330で抽出した全ての単語に対し
ステップ1410〜1430に示す一連の処理を実行す
る(ステップ1400)。まず、ステップ1410でス
テップ1340における登録用高頻度語判定プログラム
1130での判定結果を元に、検索用インデクスの作成
処理を場合分けする。すなわち、該当単語が高頻度語で
あった場合には、ステップ1420を実行することによ
り高頻度語用の検索用インデクスの作成処理を行う。ま
た、該当単語が高頻度語でなかった場合には、ステップ
1430を実行することにより、高頻度語以外の一般語
としての検索用インデクスの作成処理を行う。ステップ
1420では、高頻度語用の検索用インデクス作成処理
として、該当単語に続く1単語の組に対して該当文書の
文書識別子と該当文書中での単語位置の組として、主メ
モリ1060上のワークエリア1150に格納すること
により検索用インデクスデータを作成する。また、ステ
ップ1430では、高頻度語以外の一般語としての検索
用インデクス作成処理として、該当単語に対して該当文
書の文書識別子と該当文書中での単語位置の組として、
主メモリ1060上のワークエリア1150に格納する
ことにより検索用インデクスデータを作成する。以上の
処理が、ステップ1330で抽出した全ての単語につい
て完了すると、ステップ1440において検索用インデ
クスの更新処理を行う。すなわち主メモリ1060上の
ワークエリア1150内に格納した各単語に関する検索
用インデクスデータを、磁気ディスク1070上の検索
用インデクス格納領域に追加、更新する。以上が、本実
施例における文書登録処理手順である。
【0014】次に、本実施例における文書登録処理につ
いて、“The president of Bank ofAmerica has decide
d …”という文書が登録された場合を例として具体的に
説明する。始めに、ステップ1300における繰り返し
処理では、まずステップ1310において登録対象文書
に対応する“The president of Bank of America has d
ecided …”をフロッピーディスク1050から読み出
し、主メモリ1060上のワークエリア1150に格納
する。そして、ステップ1320において、該当文書に
対する文書識別子として初期値1を設定する。次に、ス
テップ1330では、磁気ディスク1070上の区切り
文字テーブル格納領域1200に格納されている区切り
文字テーブルを参照しながら単語の抽出処理を行う。な
お、本実施例における区切り文字テーブルの構成を図5
に示す。区切り文字テーブルは各文字の文字コードをエ
ントリとして、単語間の区切れ目を表す区切り文字に対
しては“1”を、そしてそれ以外の文字については
“0”を区切り文字フラグとして設定しておく。すなわ
ち、図5に示す例においては“ ”(スペース)、“!”
(エクスプラネーションマーク)および“/”などを区切
り文字として定義している。そして、登録対象文書内テ
キスト“The president of Bank of America has decid
ed …”の各文字に対し、区切り文字テーブルを参照し
ていき、その値が1となる文字(本例では“ ”(スペー
ス))を境界として識別することにより、図6に示すよ
うに“The”、“president”、“of”、“Bank”、“o
f”、“America”、“has”、“decided”、等の単語を
抽出していく。
【0015】そしてステップ1340では、ステップ1
330において抽出した各単語に対し、磁気ディスク1
070上の高頻度語リスト格納領域1210に格納され
ている高頻度語リストを参照しながら、高頻度語の判定
処理を行う。本実施例では、高頻度語リストとして公知
例1において記載されているストップリストに相当する
単語が登録されることを想定しており、例えば図7に示
す単語などが高頻度語として格納されている場合には、
“the”、“of”および“has”に対する高頻度語フラグ
として“1”が付加されて出力される。最後にステップ
1350では、ステップ1340において高頻度語フラ
グを付与された単語に対し検索用インデクスデータを生
成する。すなわち、高頻度語フラグの値が“1”である
か“0”であるかを判定し、“1”の場合には高頻度語
として該当単語とそれに続く1語について、該当文書識
別子と該当単語の文書先頭からの単語位置の組みを検索
用インデクスデータとして生成する。また、“0”の場
合には高頻度語以外の一般語として、該当単語1語につ
いて該当文書識別子と該当単語の文書先頭からの単語位
置の組みを検索用インデクスデータとして生成する。
【0016】すなわち、図8に示す例において、まず最
初に“The”が入力されるが、該当語に関する項頻度語
フラグは“1”であるため、高頻度語として“The”に
続く1単語“president”を併せた“The president”に
ついて検索用インデクスデータを生成する。つまり、文
書識別子としてはD1(“D”は文書識別子であることを示
す)を、単語位置としては該当文書の先頭にあたるので
初期値P1(“P”は単語位置であることを示す)を設定
し、この組みでもって“The president”に対し検索用
インデクスデータを生成する。次に、“president”が
入力されるが、該当語に関する項頻度語フラグは“0”
であるため、高頻度語以外の一般語として該当単語“pr
esident”について検索用インデクスデータを生成す
る。つまり、文書識別子としてD1、単語位置としてP2を
設定し、この組みでもって“president”に対し検索用
インデクスデータを生成する。以下、同様の処理を繰り
返すことにより、該当文書に対し検索用インデクスデー
タを主メモリ上1060のワークエリア1150に生成
していき、全入力データについて処理が完了すると、こ
れを磁気ディスク1070上の検索用インデクス格納領
域1220に追加格納する。そして、ステップ1310
において次の登録対象文書を主メモリ上1060のワー
クエリア1150に読み出し、全登録対象文書について
同様の処理を繰り返す(ステップ1300)。以上が、
本実施例における文書登録処理例である。なお、本実施
例において主メモリ上1060ワークエリア1150で
の検索用インデクスデータを生成、および磁気ディスク
1070上の検索用インデクス格納領域1220への更
新の処理単位を登録対象文書1件毎としたが、これを複
数件単位として処理することも可能である。
【0017】次に、本実施例における文書検索サーバ、
すなわち図1における2000について図を用いて説明
する。図9は、本実施例における文書検索サーバ200
0の構成を示す図である。本図に示す文書検索サーバ2
000は、処理の実行状況などを表示するディスプレイ
2010、サーバの起動や停止などのコマンド等を入力
するキーボード2020、検索処理を実行する中央演算
処理装置CPU2030、検索用のプログラムならびに
データなどを一時的に格納する主メモリ2040、各種
データおよびプログラムを格納する磁気ディスク205
0およびこれらを接続するバス2060で構成される。
また、主メモリ2040にはシステム制御プログラム2
100、検索制御プログラム2110、検索用単語抽出
プログラム2120、検索用高頻度語判定プログラム2
130、検索実行プログラム2140が磁気ディスク2
050から読み出されて格納されるとともに、ワークエ
リア2150が確保される。なお、検索用抽出単語プロ
グラム2120および検索用高頻度語判定プログラム2
130は、それぞれ登録用単語抽出プログラム(図2に
おける1120)および登録用高頻度語判定プログラム
1130と別プログラムとして記載しているが、本実施
例においては実行する処理内容は同じものである。ま
た、磁気ディスク2050には区切り文字テーブル格納
領域2200、高頻度語リスト格納領域2210、検索
用インデクス格納領域2220、各種プログラム格納領
域2230が確保されている。
【0018】なお、全体システムの概要説明において述
べたように、区切り文字テーブル格納領域2200、高
頻度語リスト格納領域2210および検索用インデクス
格納領域2220は文書登録サブシステム1000から
ネットワーク5000を介してデータ転送されるもので
あり、本実施例においては、それぞれ図2における区切
り文字テーブル格納領域1200、高頻度語リスト格納
領域1210および検索用インデクス格納領域1220
と同じ内容のデータが格納されることになる。また、本
実施例ではこれらの格納領域を磁気ディスク上2050
上に確保したが、光磁気ディスク装置など他の二次記憶
装置であっても構わない。以上が文書検索サーバ200
0の構成である。
【0019】次に、本実施例における文書検索処理の手
順について説明する。始めに、図1における文書検索ク
ライアント3000ないしは4000から、検索ターム
が検索コマンドとして入力されると、検索コマンドはネ
ットワーク5000を介して文書検索サーバ2000に
伝えられる。そして、文書検索サーバ2000が検索コ
マンドを受け取ると、システム制御プログラム2100
が検索制御プログラム2110を起動し、文書の検索処
理を開始する。以下、文書検索時の処理について図10
に示すPADを用いて説明する。検索制御プログラム21
10は、ステップ2300において検索用単語抽出プロ
グラム2120を実行し、検索タームの先頭から末尾に
かけて、各文字に対し磁気ディスク2050上の区切り
文字テーブル2200を参照していくことにより、検索
タームから区切り文字を識別する。そして、区切り文字
と区切り文字の間に囲まれた一連の文字列を単語として
抽出する。次に、ステップ2310で、検索用高頻度語
判定プログラム2130を実行し、ステップ2300に
おいて抽出した各単語が高頻度語であるか否かを判定す
る。すなわち、磁気ディスク2050上の高頻度語リス
ト格納領域2210に格納されている高頻度語リストを
参照しながら、各単語が高頻度語リスト中に定義されて
いるか否かを判定することにより、各単語が高頻度語で
あるか否かを判定する。最後に、ステップ2320で検
索実行プログラム2140を実行し、磁気ディスク20
50上の検索用インデクス格納領域2220に格納され
ている検索用インデクスを参照し、文書の検索処理を実
行する。
【0020】さらに、ステップ2320における処理内
容、すなわち検索実行プログラム2140の処理内容に
ついて、図11を用いてもう少し詳細に説明する。検索
実行プログラム2140では、まず始めにステップ24
00において、ステップ2310における判定結果を元
に、先頭の単語が高頻度語であるか否かを判定する。そ
して、ステップ2400における判定結果が高頻度語で
あった場合には、ステップ2410において該当単語と
それに続く1単語の組に関する検索用インデクスデータ
を参照し、ステップ2420において後のインデクス間
の隣接判定処理時に使用する隣接判定語数として2を設
定する。また、ステップ2400における判定結果が高
頻度語以外の一般語であった場合には、ステップ243
0において該当単語に関する検索用インデクスデータを
参照し、ステップ2440において隣接判定語数として
1を設定する。さらに、ステップ2450において着目
している単語が検索ターム末尾であるか否かを判定す
る。その結果、末尾でなかった場合にはステップ246
0からステップ2540に至る一連の処理を行い、その
検索タームにおいて該当単語の後に続く単語に関するイ
ンデクスデータとの隣接判定を行いながら検索タームの
照合処理を行う。すなわちステップ2460では、イン
デクス間の隣接判定処理の前準備として、ステップ24
10またはステップ2430において抽出した検索用イ
ンデクスデータを主メモリ2040上のワークエリア2
150に確保した隣接判定対象領域に移動する。そし
て、ステップ2470において検索タームの末尾に至る
まで、ステップ2480からステップ2530における
一連の処理を繰り返す。まず、ステップ2480では、
着目している単語が高頻度語であるか否かを判定する。
そして、高頻度語であった場合にはステップ2490に
おいて該当単語とそれに続く1単語に関する検索用イン
デクスデータを参照し、隣接判定対象領域に格納された
インデクスデータと隣接判定処理を行う。この際、隣接
判定結果となるタームの単語数は2単語分増加するた
め、ステップ2500において隣接判定語数として2を
加算する。また、ステップ2480における判定処理の
結果が高頻度語でない一般語であった場合には、ステッ
プ2510において該当単語に関する検索用インデクス
データを参照し、隣接判定対象領域に格納されたインデ
クスデータと隣接判定処理を行う。この際、隣接判定結
果となるタームの単語数は1単語分増加するため、ステ
ップ2520において隣接判定語数として1を加算す
る。そして、次の単語との隣接判定処理を行うための準
備として、ステップ2530において隣接判定結果を主
メモリ2040上のワークエリア2150に格納してあ
る隣接判定対象領域に移動しておく。こうした処理を検
索ターム末尾まで繰り返し、ステップ2470における
繰り返し処理が完了すると、ステップ2540において
隣接判定対象領域にあるデータを該当検索タームに関す
る検索結果として出力して処理を終了する。また、ステ
ップ2450における判定処理の結果、検索ターム末尾
だった場合にはステップ2550を実行し、ステップ2
410またステップ2430で抽出した検索用インデク
スデータを検索タームに関する検索結果として出力して
処理を終了する。以上が、本実施例における文書検索処
理手順である。
【0021】次に、本実施例における文書検索処理につ
いて、“Bank of America”という検索タームが指定さ
れた場合を例に図を用いて説明する。始めに、図10に
おけるステップ2300における繰り返し処理では、検
索ターム“Bank of America”について区切り文字テー
ブルを参照しながら単語の抽出処理を行う。なお、本実
施例における区切り文字テーブルは、登録時に用いるも
のと同じく、図5に示す構成を取るものとする。すなわ
ち、検索ターム“Bank of America”からは“ ”(スペ
ース)を区切り文字として、図12に示すように“Ban
k”、“of”および“America”が抽出される。そしてス
テップ2310では、ステップ2300において抽出し
た各単語に対し、磁気ディスク1070上の高頻度語リ
スト格納領域1210に格納されている高頻度語リスト
を参照しながら、高頻度語の判定処理を行う。高頻度語
リストについても、区切り文字テーブルと同様に、登録
時に用いた高頻度語リスト(図7)と同じものを参照す
るものとする。この結果、図13に示すように高頻度語
フラグとして“of”に対し“1”が、“Bank”および
“America”については“0”が付加されて出力され
る。最後にステップ2320では、図11に示した処理
手順に従い、ステップ2310において高頻度語フラグ
を付与された単語列について検索処理を実行する。この
際の処理例について図14と図15を用いて説明する。
まず始めに、図14において単語列“Bank”、“of”お
よび“America”における先頭語である“Bank”に着目
する。そして、図11のステップ2400における判定
処理の結果、“Bank”に関する高頻度語フラグの値が
“0”であるため高頻度語以外の一般語として処理され
る。すなわちステップ2430において“Bank”に関す
る検索用インデクスデータを磁気ディスク2050上の
検索用インデクス格納領域2220から読み出し、ステ
ップ2440において隣接判定語数として“1”を設定
する。次に、図11におけるステップ2450で、“Ba
nk”検索タームの末尾語であるか否化の判定を行う。本
例では、続く語として“of America”が存在し、末尾で
はないためステップ2460以降の一連の処理を実行す
る。すなわち、ステップ2460において、“Bank”に
関する検索用インデクスデータを主メモリ2040上の
ワークエリア2150に確保されている隣接判定対象領
域に移動する。次に、図15に示す通りステップ248
0において“Bank”に続く単語である“of”が高頻度語
であるか否かを判定する。その結果、“of”については
高頻度語フラグの値が“1”であり、高頻度語と判断さ
れる。その結果、ステップ2490が実行されることと
なり、該当単語とそれに続く1語の組、すなわち“of B
ank”に関する検索用インデクスデータを参照する。こ
れに対し、隣接判定語数“1”として隣接判定対象領域
に格納されている“Bank”の検索用インデクスデータと
隣接判定する(すなわち同一文書中に“Bank”と“of A
merica”が存在し、かつ“Bank”と“of America”の単
語位置が1だけ違うものを抽出する)ことにより、“Ba
nk of America”に関する検索結果を得る。また、ステ
ップ2500において、この時点での隣接判定語数
“1”に対し隣接判定語数として“2”を加算すること
により隣接判定語数は3となる(この時点で検索ターム
の末尾となるため、この値は実際には使用されない)。
そして、“of”に続く“America”は検索ターム末尾で
あるため、ステップ2470における繰り返し処理は、
ここで終了することになる。最後に、ステップ2540
において隣接判定結果、すなわち“Bank of America”
に関する検索結果を検索タームに関する検索結果として
出力し、検索処理を終了する。以上が、本実施例におけ
る検索処理の例である。
【0022】なお、本実施例において、検索タームとし
て“Bank”一語が指定された場合には、上記処理におい
てステップ2450における判定結果が検索ターム末尾
となる。すなわち、この場合にはステップ2550を実
行することになり、“Bank”に関して参照した検索用イ
ンデクスデータそのものを検索結果として出力すること
になる。また、本実施例において、例えば“Bank of Am
erica has decided”というように検索タームとして“B
ank of America”の後にいくつかの単語が続く場合に
は、ステップ2480における処理をさらに繰り返すこ
とにより、“Bank of America”に続く“has decided”
などについて検索用インデクスの参照、隣接判定し検索
結果を得ることができる。以上が本実施例における文書
検索時の処理内容である。
【0023】このように、本発明によると文書の登録時
には、登録対象文書中の高頻度語については、該当高頻
度語に続く一単語を組として検索用インデクスを作成す
る。そして、検索時に、高頻度語を含むフレーズについ
ては、高頻度語に続く1単語の組に対して検索用インデ
クスデータを参照することにより、検索時に読み出す検
索用インデクスデータの容量を削減し、ひいてはフレー
ズ検索の検索性能を大幅に向上することが可能になる。
なお、本実施例においては高頻度語に続く一単語を組み
として検索用インデクスデータを作成する方法について
説明したが、これを2単語以上の連続する単語列を組み
することにより、さらに検索性能を向上することも可能
である。また、本実施例では高頻度語リストに登録され
る高頻度語を、例えば公知例1においてストップリスト
として挙げられているストップワード(排除語)として
定義してたが、例えば所定数のサンプル文書群における
出現頻度情報などの統計的情報に基づき定義したもので
あっても構わない。また、検索履歴情報を用いて、エン
ドユーザから入力された検索ターム内で検索に時間を要
した検索タームの中から選択して定義したものであって
も構わない。さらに、本実施例において検索対象として
英文のデータを対象とした場合について説明を行った
が、ドイツ語、フランス語を始めとするその他の文書に
ついても適用することができる。
【0024】以上述べたように、本発明の第一の実施例
では高頻度語リストとして公知例1において記載されて
いるストップリストに相当する単語が登録されることを
想定し、文書の登録時に予め定義された高頻度語リスト
を参照しながら、登録対象文書から高頻度語を抽出する
方法について述べた。しかし、本実施例における文書検
索方法では、データベース固有の高頻度語を含むフレー
ズについて、十分な検索性能が得られないという問題が
ある。すなわち、英文特許明細書を格納したデータベー
スにおいては、“step”、“metod”や“apparatus”な
どの出現頻度が高いと考えられる。しかし、ストップリ
ストによる高頻度語には、これらの語が高頻度語として
定義されていないため、これらの単語を含む“step roc
ket”(多段式ロケット)や“step function”(階段関数)
などのフレーズについては高頻度語“step”のインデク
スデータと、それに接続する単語のインデクスデータを
磁気ディスクなどの二次記憶から読み出し、これらの隣
接判定を行う必要がある。このため、検索時間が著しく
長くなってしまうという問題がある。そこで、本発明第
二の実施例では、文書登録サブシステムにおいて、検索
用インデクス作成登録時に各単語のインデクスデータが
所定のインデクス容量を越えたか否かを判定する。そし
て、所定のインデクス容量を越えた単語については、該
当単語に接続する1単語を併せた、連続する2単語に関
するインデクスを生成し登録するとともに、該当単語を
高頻度リストに登録する。これにより、登録文書中に多
く出現した単語を動的に高頻度語リストに登録し、かつ
該当単語を含むフレーズを高速に検索できる文書検索シ
ステムを実現することが可能になるものである。
【0025】本発明の第二の実施例における文書登録サ
ブシステムの構成を図16に示す。本実施例における文
書登録サブシステムは、図2に示す第一の実施例におけ
る文書登録サブシステムとほぼ同様の構成を取るが、図
2における検索用インデクス作成登録プログラム114
0が高頻度単語抽出型検索用インデクス作成登録プログ
ラム1141に置き換わり、かつ検索用インデクス拡張
プログラム1160が新たに加わったものである。次
に、本実施例における文書登録処理の手順について図1
7に示すPADを用いて説明する。なお、本実施例におけ
る文書登録処理手順は、図3に示す第一の実施例におけ
る処理手順とほとんどが同じであるため、ここでは第一
の実施例と異なるステップ1351および1360につ
いて説明を補足する。まずステップ1351では、検索
用インデクス作成登録プログラム1141を実行し、図
3におけるステップ1350と同じくステップ1330
で抽出した単語に対し、検索用インデクスデータの作成
登録処理を実行する。また、ここで登録した各単語に関
するインデクスデータの容量が所定の値より大きいか否
かを判定し、大きいと判定された場合には該当単語を高
頻度単語として抽出し、これを主メモリ1060上のワ
ークエリア1150に格納する。そして、ステップ13
60では主メモリ1060上のワークエリア1150を
参照し、新たに抽出された高頻度単語が存在するか否か
を判定し、存在する場合にはステップ1370およびス
テップ1380を実行する。すなわち、ステップ137
0では登録済みテキスト(図示せず)に対して主メモリ
1060上のワークエリア1150に格納された高頻度
単語を探索する。そして、ステップ1351において得
られた高頻度単語と接続する1単語を抽出するととも
に、これらの併せた連続する2単語について全文検索用
インデクスデータの作成処理を行う(なお、ここでの検
索用インデクスデータの作成処理については、図4にお
けるステップ1420等で示した方法を用いるものとす
る)。最後にステップ1380において、ステップ13
51において得られた高頻度単語を高頻度語リスト格納
領域1210に追加格納し、文書の登録処理を完了す
る。以上が本発明第二の実施例における登録処理の概要
である。
【0026】このように本実施例によると、文書登録時
に各単語に関するインデクス容量が所定のインデクス容
量より大きいか否かを判定する。そして、所定のインデ
クス容量を越えた単語については、高頻度語であるもの
として、登録済みのテキストから該当単語に接続する1
単語を併せた、連続する2単語に関するインデクスデー
タを作成、登録する。また、該当単語を高頻度語リスト
に追加登録する。これにより、該当単語を含むフレーズ
については検索時にそれを含む2単語に関する検索用イ
ンデクスを参照するものとし、任意の高頻度語に対し該
当高頻度語を含むフレーズ検索を高速に実現することが
可能になる。
【0027】なお、ステップ1351において高頻度語
であるか否かの判定基準である基準インデクス容量は、
本実施例では所定の値というように記載していたが、こ
れらの値をシステムにおけるコンフィグレーション情報
として設定する方式であっても構わない。また、本実施
例においては文書登録の都度、ステップ1351におけ
る高頻度語の抽出とステップ1360〜1380におけ
る検索用インデクスの拡張処理ならびに高頻度単語とし
ての登録処理を実行するものとした。しかし、ステップ
1360〜1380における処理を暫くの間保留してお
き、データベースの保守を行うのに好適なタイミングで
もって、これらの処理を実行することも可能である。ま
た、本実施例において、ステップ1360〜1380に
おける一連の処理は、文書登録時に抽出した高頻度単語
に対し実行するものであったが、図18に示す構成を取
ることにより、外部から高頻度語として入力指定した単
語に対して実行することも可能である。
【0028】
【発明の効果】本発明によると、高頻度語を含むフレー
ズが検索タームに指定された際には、予め文書登録時に
作成しておいた、高頻度語に続く1単語の組みに関する
検索用インデクスデータを参照することにより、検索時
に読み出す検索用インデクスデータの容量を削減するこ
とが可能になり、ひいてはフレーズ検索の検索性能を大
幅に向上することが可能になる。
【図面の簡単な説明】
【図1】本発明の第一の実施例における構成を示す図で
ある。
【図2】第一の実施例における文書登録サブシステムの
構成を示す図である。
【図3】第一の実施例における文書登録時の処理フロー
を示す図である。
【図4】第一の実施例における検索用インデクス作成登
録プログラムの処理フローを示す図である。
【図5】第一の実施例における区切り文字テーブルの構
成を示す図である。
【図6】第一の実施例における文書登録時の単語抽出処
理の概要を示す図である。
【図7】第一の実施例における文書登録時の高頻度語判
定処理の概要を示す図である。
【図8】第一の実施例における文書登録時の検索用イン
デクス作成登録処理の概要を示す図である。
【図9】第一の実施例における検索サーバの構成を示す
図である。
【図10】第一の実施例における文書検索時の処理フロ
ーを示す図である。
【図11】第一の実施例における検索実行プログラムの
処理フローを示す図である。
【図12】第一の実施例における検索時の単語抽出処理
の概要を示す図である。
【図13】第一の実施例における検索時の高頻度語判定
処理の概要を示す図である。
【図14】第一の実施例における検索時の処理内容を示
す図である。
【図15】第一の実施例における検索時の処理内容を示
す図である。
【図16】本発明の第二の実施例における文書登録サブ
システムの構成を示す図である。
【図17】第二の実施例における文書登録時の処理フロ
ーを示す図である。
【図18】外部からの入力指定による高頻度語の追加を
実現するための文書登録サブシステムの構成を示す図で
ある。
【符号の説明】
1000 文書登録サブシステム 2000 文書検索サーバ 3000 検索クライアント1 4000 検索クライアント2 5000 ネットワーク 1010 ディスプレイ 1020 キーボード 1030 中央演算処理装置(CPU) 1040 フロッピディスクドライバ 1050 フロッピディスク 1060 主メモリ 1070 磁気ディスク 1100 システム制御プログラム 1110 登録制御プログラム 1120 登録用単語抽出プログラム 1130 登録用高頻度語判定プログラム 1140 検索用インデクス作成登録プログラム 1141 高頻度単語抽出型検索用インデクス作成登録
プログラム 1150 ワークエリア 1160 検索用インデクス拡張プログラム 1170 高頻度単語入力指定プログラム 1200 区切り文字テーブル格納領域 1210 高頻度語リスト格納領域 1220 検索用インデクス格納領域 1230 各種プログラム格納領域 2010 ディスプレイ 2020 キーボード 2030 中央演算処理装置(CPU) 2040 主メモリ 2050 磁気ディスク 2100 システム制御プログラム 2110 検索制御プログラム 2120 検索用単語抽出プログラム 2130 検索用高頻度語判定プログラム 2140 検索実行プログラム 2150 ワークエリア 2200 区切り文字テーブル格納領域 2210 高頻度語リスト格納領域 2220 検索用インデクス格納領域 2230 各種プログラム格納領域
───────────────────────────────────────────────────── フロントページの続き (72)発明者 菅谷 奈津子 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所ビジネスソリューション開 発本部内 (72)発明者 松林 忠孝 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所ビジネスソリューション開 発本部内 (72)発明者 稲場 靖彦 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所ビジネスソリューション開 発本部内 (72)発明者 川下 靖司 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内 Fターム(参考) 5B075 NK02 NK12 NK24 NK32 5B082 EA05 GC04

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 予め登録した文書の集合から、検索ター
    ムとして指定された文字列を含む文書を検索する文書検
    索システムにおける文書検索方法において、 文書の登録を行う処理が、 登録対象文書から、1個以上の文字の並びを単語として
    抽出する登録用単語抽出ステップと、 該抽出された単語が、高頻度語として定義された単語で
    あるか否かを判定する高頻度語判定ステップと、 該高頻度語判定ステップにおける判定結果が高頻度語で
    あった場合には、該高頻度語に接続する1単語を抽出
    し、該高頻度語と該抽出した1単語からなる単語列に対
    して検索用インデクスデータを作成し登録する検索用イ
    ンデクス作成登録ステップを有することを特徴とする文
    書検索方法。
  2. 【請求項2】 予め登録した文書の集合から、検索ター
    ムとして指定された文字列を含む文書を検索する文書検
    索システムにおける文書検索方法において、 文書の検索を行う処理が、 検索タームとして指定された文字列から、1個以上の文
    字の並びを単語として抽出する検索用単語抽出ステップ
    と該抽出された単語が、高頻度語として定義された単語
    であるか否かを判定する高頻度語判定ステップと、 該高頻度語判定ステップにおける判定結果が高頻度語で
    あった場合には、該高頻度語に接続する1単語を抽出
    し、該高頻度語と該抽出した1単語からなる単語列に対
    して検索用インデクスデータを参照し検索を行う検索実
    行ステップを有することを特徴とする文書検索方法。
  3. 【請求項3】 請求項1または請求項2記載の文書検索
    方法において、 前記文書検索システムの文書データベース中での出現頻
    度の高いと考えられる単語群を予め定義しておき、前記
    高頻度語判定ステップは前記抽出された単語が前記単語
    群に含まれる単語であるか否かを判定することを特徴と
    する文書検索方法。
  4. 【請求項4】 請求項1または請求項2記載の文書検索
    方法において、 前記文書検索システムの文書データベース中に登録され
    た各単語に関する出現頻度情報などの統計的情報に基づ
    き出現頻度の高いと考えられる単語群を予め定義してお
    き、前記高頻度語判定ステップは前記抽出された単語が
    前記単語群に含まれる単語であるか否かを判定すること
    を特徴とする文書検索方法。
  5. 【請求項5】 予め登録した文書の集合から、検索ター
    ムとして指定された文字列を含む文書を検索する文書検
    索システムにおける文書検索方法において、 文書の登録を行う処理が、 登録対象文書から、1個以上の文字の並びを単語として
    抽出する登録用単語抽出ステップと、 登録用単語抽出ステップにおいて抽出された単語が、登
    録済み文書の集合において出現頻度の高い高頻度語であ
    るか否かを判定する登録用高頻度語判定ステップと、 高頻度語判定ステップにおける判定結果が高頻度語であ
    った場合には、該高頻度語に接続する1単語を抽出し、
    該高頻度語と該抽出した1単語からなる単語列に対して
    検索用インデクスデータを作成し登録するとともに、高
    頻度語でなかった場合には該当単語に関するインデクス
    データのインデクス容量が予め定めたインデクス容量よ
    りも大きいか否かを判定し、大きい場合には、該当単語
    を新たに高頻度単語として判定、抽出する高頻度単語抽
    出型検索用インデクス作成登録ステップと、 前記高頻度単語抽出型検索用インデクス作成登録ステッ
    プにおいて新たに抽出された高頻度単語について、登録
    済み文書の集合を参照し、該単語と該単語に接続する1
    単語からなる単語列を抽出し、該単語列に対して検索用
    インデクスデータを作成し登録するとともに、該高頻度
    単語を高頻度語として新規に登録する検索用インデクス
    拡張ステップを有することを特徴とする文書検索方法。
  6. 【請求項6】 請求項5記載の文書検索方法において、
    高頻度単語の判定基準となるインデクス容量を設定する
    ためのコンフィグレーション情報を有することを特徴と
    する文書検索方法。
  7. 【請求項7】 予め登録した文書の集合から、検索ター
    ムとして指定された文字列を含む文書を検索する文書検
    索システムにおける文書検索方法において、 文書の登録を行う処理が、 登録対象文書から、1個以上の文字の並びを単語として
    抽出する登録用単語抽出ステップと、 登録用単語抽出ステップにおいて抽出された単語が、登
    録済み文書に集合において出現頻度の高い高頻度語であ
    るか否かを判定する登録用高頻度語判定ステップと、 高頻度語判定ステップにおける判定結果が高頻度語であ
    った場合には、該高頻度語に接続する1単語を抽出し、
    該高頻度語と該抽出した1単語からなる単語列に対して
    検索用インデクスデータを作成し登録する検索用インデ
    クス作成登録ステップと、 新たに高頻度単語として登録するべき単語群を入力指定
    する高頻度単語入力指定ステップと、 前記高頻度単語入力指定ステップにおいて入力された単
    語について、登録済み文書の集合を参照し、該単語と該
    単語に接続する1単語からなる単語列を抽出し、該単語
    列に対して検索用インデクスデータを作成し登録すると
    ともに、該高頻度単語を高頻度語として新規に登録する
    検索用インデクス拡張ステップを有することを特徴とす
    る文書検索方法。
  8. 【請求項8】 予め登録した文書の集合から、検索ター
    ムとして指定された文字列を含む文書を検索する文書検
    索システムにおける文書登録処理を行うための文書登録
    プログラムであり、登録対象文書から1個以上の文字の
    並びを単語として抽出する登録用単語抽出手順と、該抽
    出された単語が、高頻度語として定義された単語である
    か否かを判定する高頻度語判定手順と、該高頻度語判定
    手順における判定結果が高頻度語であった場合には、該
    高頻度語に接続する1単語を抽出し、該高頻度語と該抽
    出した1単語からなる単語列に対して検索用インデクス
    データを作成し登録する検索用インデクス作成登録手順
    を有する文書登録プログラムを記録したコンピュータ読
    み取り可能な記録媒体。
  9. 【請求項9】 予め登録した文書の集合から、検索ター
    ムとして指定された文字列を含む文書を検索する文書検
    索システムにおける文書検索処理を行うための文書検索
    プログラムであり、検索タームとして指定された文字列
    から1個以上の文字の並びを単語として抽出する検索用
    単語抽出手順と、該抽出された単語が高頻度語として定
    義された単語であるか否かを判定する高頻度語判定手順
    と、該高頻度語判定手順における判定結果が高頻度語で
    あった場合には、該高頻度語に接続する1単語を抽出
    し、該高頻度語と該抽出した1単語からなる単語列に対
    して検索用インデクスデータを参照し検索を行う検索実
    行手順を有する文書検索プログラムを記録したコンピュ
    ータ読み取り可能な記録媒体。
JP2000318787A 2000-10-19 2000-10-19 文書検索方法 Pending JP2002132789A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000318787A JP2002132789A (ja) 2000-10-19 2000-10-19 文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000318787A JP2002132789A (ja) 2000-10-19 2000-10-19 文書検索方法

Publications (1)

Publication Number Publication Date
JP2002132789A true JP2002132789A (ja) 2002-05-10

Family

ID=18797361

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000318787A Pending JP2002132789A (ja) 2000-10-19 2000-10-19 文書検索方法

Country Status (1)

Country Link
JP (1) JP2002132789A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048685A (ja) * 2004-07-26 2006-02-16 Google Inc 情報検索システムにおけるフレーズに基づくインデックス化方法
US8078629B2 (en) 2004-07-26 2011-12-13 Google Inc. Detecting spam documents in a phrase based information retrieval system
US8108412B2 (en) 2004-07-26 2012-01-31 Google, Inc. Phrase-based detection of duplicate documents in an information retrieval system
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
US8560550B2 (en) 2004-07-26 2013-10-15 Google, Inc. Multiple index based information retrieval system
US8612427B2 (en) 2005-01-25 2013-12-17 Google, Inc. Information retrieval system for archiving multiple document versions

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9569505B2 (en) 2004-07-26 2017-02-14 Google Inc. Phrase-based searching in an information retrieval system
US9037573B2 (en) 2004-07-26 2015-05-19 Google, Inc. Phase-based personalization of searches in an information retrieval system
US8108412B2 (en) 2004-07-26 2012-01-31 Google, Inc. Phrase-based detection of duplicate documents in an information retrieval system
US10671676B2 (en) 2004-07-26 2020-06-02 Google Llc Multiple index based information retrieval system
KR101223173B1 (ko) * 2004-07-26 2013-01-17 구글 인코포레이티드 정보 검색 시스템에서의 문구 기반 인덱싱
US8489628B2 (en) 2004-07-26 2013-07-16 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US8560550B2 (en) 2004-07-26 2013-10-15 Google, Inc. Multiple index based information retrieval system
US9990421B2 (en) 2004-07-26 2018-06-05 Google Llc Phrase-based searching in an information retrieval system
US8078629B2 (en) 2004-07-26 2011-12-13 Google Inc. Detecting spam documents in a phrase based information retrieval system
US9361331B2 (en) 2004-07-26 2016-06-07 Google Inc. Multiple index based information retrieval system
US9817886B2 (en) 2004-07-26 2017-11-14 Google Llc Information retrieval system for archiving multiple document versions
US9384224B2 (en) 2004-07-26 2016-07-05 Google Inc. Information retrieval system for archiving multiple document versions
JP2006048685A (ja) * 2004-07-26 2006-02-16 Google Inc 情報検索システムにおけるフレーズに基づくインデックス化方法
US9817825B2 (en) 2004-07-26 2017-11-14 Google Llc Multiple index based information retrieval system
US8612427B2 (en) 2005-01-25 2013-12-17 Google, Inc. Information retrieval system for archiving multiple document versions
US8631027B2 (en) 2007-09-07 2014-01-14 Google Inc. Integrated external related phrase information into a phrase-based indexing information retrieval system
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system

Similar Documents

Publication Publication Date Title
JP3696745B2 (ja) 文書検索方法及び文書検索システム及び文書検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US9031935B2 (en) Search system, search method, and program
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
JPS6211932A (ja) 情報検索方法
WO2001080077A1 (en) Method and system for retrieving information based on meaningful core word
JPH1145241A (ja) かな漢字変換システムおよびそのシステムの各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2006099428A (ja) 文書要約作成システム、方法、及びプログラム
JP4065346B2 (ja) 単語間の共起性を用いたキーワードの拡張方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3784060B2 (ja) データベース検索システム、その検索方法及びプログラム
JP2002132789A (ja) 文書検索方法
JP2009086903A (ja) 検索サービス装置
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JPH08314966A (ja) 文書検索装置のインデックス作成方法及び文書検索装置
JPH11143902A (ja) n−gramを用いた類似文書検索方法
JP2001005830A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ
JP2535629B2 (ja) 検索システムの入力文字列正規化方式
JP2004086307A (ja) 情報検索装置、情報登録装置、情報検索方法、及びコンピュータ読み取り可能なプログラム
JPH1145254A (ja) 文書検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0916616A (ja) 索引データ生成検索装置
JP3325677B2 (ja) 文書検索装置
JP3693734B2 (ja) 情報検索装置およびその情報検索方法
JPH08314950A (ja) テキストの検索方法及び装置
JP2001092831A (ja) 文書検索装置及び文書検索方法
JPH09212523A (ja) 全文検索方法
JPH07296005A (ja) 日本語テキスト登録・検索装置

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040318

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080408

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080826