WO2012120560A1

WO2012120560A1 - 検索装置及び検索方法

Info

Publication number: WO2012120560A1
Application number: PCT/JP2011/001336
Authority: WO
Inventors: 脇阪直樹
Original assignee: 株式会社日立製作所
Priority date: 2011-03-07
Filing date: 2011-03-07
Publication date: 2012-09-13

Abstract

　新たな文書から第１のタームを抽出し、抽出した第１のタームが管理情報に登録されているときには、対応するリストに当該新たな文書の識別情報を登録し、第１のタームが管理情報に登録されていないときには、その第１のタームを管理情報に新たに登録すると共に、対応するリストに当該新たな文書の識別情報を登録する一方、第１のタームに対応するリストに新たな文書の識別情報を登録する際、そのリストに登録された文書の識別情報の総数が既定の閾値を越えるときには、そのリストの属性を、そのリストに登録された文書が対応する第１のタームを含む第１の属性から、当該リストに登録された文書がその第１のタームを含まない第２の属性に変換し、管理情報に、リストの属性が第１又は第２の属性のいずれであるかを表すリストごとの属性情報を含ませるようにした。

Description

検索装置及び検索方法

　本発明は、検索装置及び検索方法に関し、例えばハイブリッド型検索方式による文書検索処理を実行する全文検索装置に適用して好適なものである。

　近年、業務や日常生活のあらゆる場面で文書を検索することが行われており、これに伴い、全文検索装置の重要性が非常に高くなってきている。従来、全文検索装置において実行される文書検索方式として、スキャン型検索方式と、インデックス型検索方式とが存在する。

　スキャン型検索方式は、検索対象となる文書群内の各文書を逐次全文スキャン検索することによって検索キーワードを含む文書を特定する方式である。またインデックス型検索方式は、検索対象となる文書群内の各文書から所定文字数の文字列（以下、これをタームと呼ぶ）を抽出（以下、これを切り出すと呼ぶ）し、切り出したタームをキーとして転置インデックスを予め作成し、この転置インデックスを利用した検索処理により、かかる検索対象となる文書群の中から検索キーワードを含む文書を特定する方式である。なお、転置インデックスとは、各キーと、そのキーを含む文書の文書番号のリスト（以下、これを文書番号リストと呼ぶ）とを対応付けた管理情報を指す。

　また近年では、かかるスキャン型検索方式及びインデックス型検索方式を組み合わせたハイブリッド検索方式も提案されている（特許文献１参照）。

特開２００８－３０５１７５号公報

　ところが、上述のインデックス型検索方式やハイブリッド検索方式によると、検索対象の文書番号数が増加した場合に、個々のタームを含む文書番号数も増えることとなり、転置インデックスを構成する個々の文書番号リストのデータ容量が増大化する問題があった。

　本発明は以上の点を考慮してなされたもので、管理情報の情報量の増大化を抑制し得る検索装置及び検索方法を提案しようとするものである。

　かかる課題を解決するため本発明においては、登録された文書群から検索キーワードを含む文書を検索する検索装置において、上位装置からの登録要求に応じて、新たな文書を前記文書群に登録する文書登録部と、前記新たな文書から前記第１のタームを抽出し、抽出した前記第１のタームが前記管理情報に登録されているときには、当該第１のタームに対応する前記リストに当該新たな文書の識別情報を登録し、抽出した前記第１のタームが前記管理情報に登録されていないときには、当該第１のタームを前記管理情報に新たに登録し、当該第１のタームに対応するリストに当該新たな文書の識別情報を登録するインデックス生成処理を実行するインデックス生成部と、指定された検索キーワードから前記第１のタームと同じ文字数の第２のタームを抽出し、抽出した前記第２のタームと、前記管理情報とに基づいて、前記検索キーワードを含む文書を特定するインデックス検索部とを設け、前記インデックス生成部が、前記第１のタームに対応する前記リストに前記新たな文書の識別情報を登録する際、当該リストに登録された前記文書の識別情報の総数が既定の閾値を越えるときには、当該リストの属性を、当該リストに登録された文書が対応する前記第１のタームを含む第１の属性から、当該リストに登録された文書が対応する前記第１のタームを含まない第２の属性に変換する属性変換処理を実行し、前記管理情報に、前記リストの属性が前記第１又は第２の属性のいずれであるかを表す前記リストごとの属性情報を含ませるようにした。

　また本発明においては、登録された文書群から検索キーワードを含む文書を検索する検索方法において、上位装置からの登録要求に応じて、新たな文書を前記文書群に登録する第１のステップと、前記新たな文書から前記第１のタームを抽出し、抽出した前記第１のタームが前記管理情報に登録されているときには、当該第１のタームに対応する前記リストに当該新たな文書の識別情報を登録し、抽出した前記第１のタームが前記管理情報に登録されていないときには、当該第１のタームを前記管理情報に新たに登録し、当該第１のタームに対応するリストに当該新たな文書の識別情報を登録するインデックス生成処理を実行する第２のステップと、指定された検索キーワードから前記第１のタームと同じ文字数の第２のタームを抽出し、抽出した前記第２のタームと、前記管理情報とに基づいて、前記検索キーワードを含む文書を特定する第３のステップとを設け、前記第２のステップでは、前記第１のタームに対応する前記リストに前記新たな文書の識別情報を登録する際、当該リストに登録された前記文書の識別情報の総数が既定の閾値を越えるときには、当該リストの属性を、当該リストに登録された文書が対応する前記第１のタームを含む第１の属性から、当該リストに登録された文書が対応する前記第１のタームを含まない第２の属性に変換する属性変換処理を実行し、前記管理情報に、前記リストの属性が前記第１又は第２の属性のいずれであるかを表す前記リストごとの属性情報を含ませるようにした。

　本発明によれば、既定の閾値の設定により、リストに登録される文書の識別情報の数を削減することができ、かくして管理情報の情報量の増大化を抑制することができる。

第１及び第２実施の形態による全文検索システムの全体構成を示すブロック図である。第１及び第２の実施の形態によるインデックス管理テーブルの構成を示す概念図である。文書管理テーブルの構成を示す概念図である。第１～第３の実施の形態による文書登録処理の処理手順を示すフローチャートである。第１の実施の形態によるインデックス生成処理の処理手順を示すフローチャートである。インデックス生成処理後のインデックス管理テーブルの構成例を示す概念図である。文書検索処理の処理手順を示すフローチャートである。インデックス型検索処理の処理手順を示すフローチャートである。文書管理テーブルの構成例を示す概念図である。インデックス管理テーブルの構成例を示す概念図である。インデックス管理テーブルの構成例を示す概念図である。インデックス生成及びインデックスメンテナンス処理の処理手順を示すフローチャートである。インデックスメンテナンス処理の処理手順を示すフローチャートである。インデックス管理テーブルの構成例を示す概念図である。第３実施の形態による全文検索システムの全体構成を示すブロック図である。第３の実施の形態によるインデックス管理テーブルの構成を示す概念図である。文書番号管理テーブルの構成を示す概念図である。第３の実施の形態によるインデックス生成処理の処理手順を示すフローチャートである。混成インデックス生成処理の処理手順を示すフローチャートである。第３の実施の形態によるインデックス管理テーブルの構成例を示す概念図である。第３の実施の形態によるインデックス型検索処理の処理手順を示すフローチャートである。第３の実施の形態によるインデックス型検索処理の処理手順を示すフローチャートである。表インデックス変換処理の処理手順を示すフローチャートである。裏インデックス補完処理の処理手順を示すフローチャートである。定期メンテナンス処理の処理手順を示すフローチャートである。第４実施の形態による全文検索システムの全体構成を示すブロック図である。第４の実施の形態による文書管理テーブルの構成例を示す概念図である。第４の実施の形態による文書登録処理の処理手順を示すフローチャートである。第５実施の形態による全文検索システムの全体構成を示すブロック図である。インデックス属性変換閾値設定画面の画面構成例を示す略線図である。インデックス属性変換閾値設定画面表示処理の処理手順を示すフローチャートである。閾値設定処理の処理手順を示すフローチャートである。

　以下図面について、本発明の一実施の形態を詳述する。

（１）第１の実施の形態
（１－１）本実施の形態による全文検索システムの構成
　図１において、１は全体として本実施の形態による全文検索システムを示す。この全文検索システム１は、クライアント２及び全文検索装置３を備えて構成される。そしてこれらクライアント２及び全文検索装置３はネットワーク４を介して接続されている。

　クライアント２は、ＣＰＵ（Central Processing Unit）及び記憶装置（例えばメモリやハードディスク装置）等の情報処理資源を備えたコンピュータ装置であり、例えばパーソナルコンピュータ等により構成される。クライアント２は、全文検索装置３に登録されている文書の中からユーザにより指定された検索キーワードを含む文書の検索を全文検索装置３に要求することができ、全文検索装置３から送信されるこの要求に従った文書検索処理の処理結果を表示することができる。

　全文検索装置３は、ＣＰＵ１０、主記憶装置１１、補助記憶装置１２、入力装置１３及び出力装置１４を備えたコンピュータ装置であり、例えばパーソナルコンピュータ、ワークステーション又はメインフレームなどから構成される。

　ＣＰＵ１０は、全文検索装置３全体の動作制御を司るプロセッサである。また主記憶装置１１は、例えばＤＲＡＭ（Dynamic Random Access Memory）などの半導体メモリから構成され、各種制御プログラムや各種制御情報などを記憶するために利用されるほか、ＣＰＵ１０のワークメモリとしても利用される。後述する文書登録プログラム２０、インデックス生成プログラム２１、インデックス検索プログラム２２、文書検索プログラム２３及び検索結果返却プログラム２４もこの主記憶装置１１に格納されて保持される。主記憶装置１１に格納された制御プログラムをＣＰＵ１０が実行することにより、全文検索装置３全体としての各種処理が実行される。

　補助記憶装置１２は、ハードディスク装置や光ディスク装置などの大容量の記憶デバイスから構成される。上述した各種制御プログラムは、初期時にはこの補助記憶装置１２に保存されており、全文検索装置３の起動時やその制御プログラムの実行時に補助記憶装置１２から読み出されて主記憶装置１１に格納される。また補助記憶装置１２には、全文検索装置３に登録された各文書のファイルデータ（以下、これを文書データ２５と呼ぶ）２５が格納されるほか、後述するインデックス管理テーブル２６及び文書管理テーブル２７もこの補助記憶装置に格納されて保持される。

　入力装置１３は、キーボード及びマウスなどから構成され、ユーザが各種操作を入力するために用いられる。また出力装置１４は、ディスプレイ及びスピーカなどから構成され、ＣＰＵの制御のもとに各種のＧＵＩ（Graphical User Interface）や各種情報を表示する。

（１－２）本実施の形態によるハイブリッド型検索方式
　次に、かかる全文検索システム１において採用されている本実施の形態のハイブリッド型検索方式について説明する。これに際して、まず、上述の特許文献１において提案されている従来のハイブリッド型検索方式について説明する。

　かかる従来のハイブリッド型検索方式では、検索対象となる文書を検索装置に登録する際、その登録対象の文書（以下、これを登録対象文書と呼ぶ）の文書番号やその登録対象文書に含まれるタームを「N-gram」方式により転置インデックスに登録する文書登録処理が行われる。

　ここで、「N-gram」方式とは、登録対象文書から所定文字数の文字列を順次切り出し、切り出した文字列（以下、これをタームと呼ぶ）を転置インデックスのキーとする方式である。「N-gram」の「Ｎ」は、登録対象文書から切り出すタームの文字数を表す。従って、Ｎ＝２の場合、登録対象文書の先頭から順次２文字単位で文字列を切り出すことによりタームを作成することを意味し、例えば「株式会社」という文字列からは、「株式」、「式会」及び「会社」というタームが順次切り出されることになる。

　上述の文書登録処理では、登録対象文書から切り出したタームが既に転置インデックスに登録されている場合、当該タームと対応付けられた文書番号リストの末尾にその登録対象文書の文書番号を追加し、登録対象文書から切り出したタームが転置インデックスに登録されていない場合には、当該タームを転置インデックスに新規に登録すると共に、そのタームと対応付けられた文書番号リストにその登録対象文書の文書番号を登録する。なお、各文書の文書番号は、その文書を全文検索装置に登録する際に全文検索装置内で一意となるように全文検索装置が割り当てる。また文書番号は、後に登録される文書の方が必ず大きい番号となるように割り当てられる。

　一方、かかるハイブリッド型検索方式による文書検索処理では、まず、インデックス型検索処理が実行される。具体的に、ユーザ等により指定された検索キーワードから、タームの文字数（上述の「Ｎ」）と同じ文字数の文字列（以下、これを検索キーワードタームと呼ぶ）を順次切り出す。また切り出した検索キーワードタームごとに、その検索キーワードタームを含む文書の文書番号リストを転置インデックスからそれぞれ取得し、取得したすべての文書番号リストに存在する文書番号を求める。このようにして求めた文書番号が付与された文書に、検索キーワードが含まれている可能性がある。

　ただし、このようなインデックス型検索処理だけでは、その文書中にすべての検索キーワードタームが含まれていることが分かるだけで、検索キーワード自体が含まれていることは確定できない。例えば、検索キーワードが「株式会社」である場合、この「株式会社」を含む文書を転置インデックスを利用して検索すると、「株式」、「式会」及び「会社」という３つの検索キーワードタームをすべて含む文書を特定できるが、検出した文書が「株式会社」という検索キーワード自体を含んでいるかは分からない。これは、「株式会社」という文字列を含まない文書であっても、「株式会員の会社」という文字列を含む場合には、その文書がインデックス型検索処理により検出されてしまうからである。

　そこで、かかるハイブリッド型検索方式では、上述のようにすべての検索キーワードタームを含むすべての文書（上の例では、「株式」、「式会」及び「会社」の３つのタームを含むすべての文書）を特定した後、特定した各文書について、それぞれ検索キーワードを含むか否かをスキャン型検索方式により全文検索を行うことにより判定する。そして、検索キーワードを含む文書を検出した場合に、その文書の文書番号を要求元に返却する。

　ところで、以上のようなハイブリッド型検索方式について開示された上述の特許文献１では、転置インデックスの文書番号リストに登録される文書番号数が膨大になった場合については何ら考慮されていない。このため、文書に頻繁に登場するタームが転置インデックスに登録されている場合、そのタームと対応付けられた文書番号リストに登録される文書番号の数が多くなり、これに伴って転置インデックスのデータ容量が大きくなる問題がある。

　そこで、本実施の形態の全文検索装置３では、上述のハイブリッド型検索方式において、容量が大きくなる可能性がある文書番号リスト（登録される文書番号が多くなる文書番号リスト）については、その容量が小さくなるようにリスト構造を変更する点を特徴とする。具体的には、転置インデックスに新たな文書を登録する際に、その文書の文書番号を追加すべき文書番号リストに登録されている文書番号の総数が、その新たな文書の文書番号を追加したときに全文検索装置３に登録されている総文書番号数の所定割合（以下においては50パーセントとする）を越える場合には、その文書番号リストを、その文書番号リストに対応するタームを含まない文書の文書番号が登録されたリストに変換すると共に、その旨を表す情報（以下、これをインデックス属性情報と呼ぶ）を転置インデックスに登録する。

　例えば、図２の例では、「会社」というタームに対応する文書番号リストには、「１」、「３」、「５」、「７」及び「９」という５つの文書番号が登録されており、この文書番号数は全文検索装置３に登録されている総文書番号数の50パーセントを越えている。よって、このような場合には、文書番号リストに登録されている文書番号が、「会社」というタームを含まない文書の文書番号（具体的には、「２」、「４」、「６」及び「８」）が登録された文書番号リストに変換されることになる。

　また本実施の形態の全文検索装置で３は、このような変換を行った場合、その文書番号リストについて上述のような変換を行った旨の情報を転置インデックスに登録しておく。そして、文書検索処理時には、この情報に基づいて、かかる変換を行ったタームを含む文書を検索する際には、対応する文書番号リストに登録されていない文書番号が付与された文書を検索する。

　以上のような本実施の形態による全文検索処理を実行するための手段として、図１に示すように、全文検索装置３の主記憶装置１１には、文書登録プログラム２０、インデックス生成プログラム２１、インデックス検索プログラム２２、文書検索プログラム２３及び検索結果返却プログラム２４が格納され、補助記憶装置１２には、インデックス管理テーブル２６及び文書管理テーブル２７が格納されている。

　このうち文書登録プログラム２０は、ユーザ操作に応じてクライアント２から文書データ２５が送信される登録対象文書を全文検索装置３に登録するための各種処理を実行するためのプログラムであり、インデックス生成プログラム２１は、転置インデックスを作成するためのプログラムである。

　またインデックス検索プログラム２２は、全文検索装置３に登録された全文書の中から検索キーワードを含む文書をインデックス型検索方式の検索処理により特定するプログラムであり、文書検索プログラムは、インデックス検索プログラム２２により特定された各文書の中から検索キーワードを含む文書をスキャン型検索方式の検索処理により特定するプログラムである。さらに検索結果返却プログラム２４は、文書検索プログラム２３により特定された各文書の文書番号を、要求元のクライアント２に返却（送信）するプログラムである。

　一方、インデックス管理テーブル２６は、上述の転置インデックスに相当するものであり、図２に示すように、ターム欄２６Ａ、インデックス属性欄２６Ｂ、文書番号数欄２６Ｃ及び文書番号リスト欄２６Ｄから構成される。

　そしてターム欄２６Ａには、全文検索装置３に登録された各文書から切り出された各タームがそれぞれ格納され、文書番号リスト欄２６Ｄには、対応するタームを含むすべての文書の文書番号が登録された文書番号リストが格納される。また文書番号数欄２６Ｃには、対応する文書番号リストに登録されている文書番号の総数（以下、これを文書番号数と呼ぶ）が格納される。

　さらにインデックス属性欄２６Ｂには、対応する文書番号リストが対応するタームを含む文書のリストであるか否かを表すインデックス属性情報が格納される。具体的には、対応する文書番号リストが、対応するタームを含む文書のリスト（以下、適宜、これを表インデックスと呼ぶ）である場合には、インデックス属性欄２６Ｂに「表」という情報が格納され、対応する文書番号リストが、対応するタームを含まない文書のリスト（以下、適宜、これを裏インデックスと呼ぶ）である場合には、インデックス属性欄２６Ｂに「裏」という情報が格納される。

　よって図２の例では、全文検索装置３に登録された文書のうち、「株式」というタームを含む文書は、「１」、「７」又は「８」という文書番号がそれぞれ付与された「３」つの文書のみであり、対応する文書番号リスト欄２６Ｄに格納されている文書番号リストのインデックス属性は「表」であることが示されている。

　他方、文書管理テーブル２７は、全文検索装置３に登録された文書を管理するために利用されるテーブルであり、図３に示すように、文書番号欄２７Ａ、ファイル名欄２７Ｂ及び格納先アドレス欄２７Ｃから構成される。

　そして文書番号欄２７Ａには、全文検索装置３に登録されている各文書にそれぞれ付与されている文書番号が格納され、ファイル名欄２７Ｂには、対応する文書番号が付与された文書の文書ファイルのファイル名（拡張子も含む）が格納される。また格納先アドレス欄２７Ｃには、対応する文書の文書ファイルの格納先のアドレスが格納される。

（１－３）本実施の形態によるハイブリッド型検索方式に関する各種処理の内容
　次に、上述のような本実施の形態によるハイブリッド型検索方式に関する各種処理の具体的な内容について説明する。なお、以下においては、各種処理の処理主体を「プログラム」として説明するが、実際上は、その「プログラム」に基づいてＣＰＵ１０がその処理を実行することは言うまでもない。
（１－３－１）文書登録処理
　図４は、クライアント２から全文検索装置３に対して文書の登録要求（以下、これを文書登録要求と呼ぶ）及び登録対象文書の文書データ２５が与えられたときに、当該全文検索装置３の文書登録プログラム２０により実行される文書登録処理の処理手順を示す。文書登録プログラム２０は、クライアント２から文書登録要求が与えられた時点で、インデックス管理テーブル２６に登録されている各タームとそれぞれ対応付けられた文書管理リストのインデックス属性がすべて「表」である場合に、この図４に示す処理手順に従って、登録対象文書に関する必要な情報を文書管理テーブル２７に登録する。

　実際上、文書登録プログラム２０は、かかる文書登録要求及びかかる文書データ２５を受信すると、この文書登録処理を開始し、まず、その登録対象文書のファイルのファイル名及び文書データ２５を受け付け（ＳＰ１）、この後、その文書データ２５を補助記憶装置１２に格納する（ＳＰ２）。これにより、その登録対象文書が、この後実行される文書検索処理において、検索対象となる文書群に登録される。

　続いて、文書登録プログラム２０は、登録対象文書を文書管理テーブル２７に登録する（ＳＰ３）。具体的に、文書登録プログラム２０は、登録対象文書に対して未使用の文書番号のうちの最も小さい文書番号を付与すると共に、文書管理テーブル２７に新たな行を作成し、登録対象文書に付与した文書番号をその行の文書番号欄２７Ａに格納する。また文書登録プログラム２０は、その行のファイル名欄２７Ｂに、ステップＳＰ１において受け付けたファイル名を格納すると共に、当該行の格納先アドレス欄２７Ｃに、ステップＳＰ２でその登録対象文書を格納した補助記憶装置１２内のアドレスを格納する。

　次いで、文書登録プログラム２０は、インデックス生成プログラム２１を起動し（ＳＰ４）、この後、この文書登録処理を終了する。

　なお、上述の文書登録処理のステップＳＰ４において文書登録プログラム２０により起動されたインデックス生成プログラム２１により実行されるインデックス生成処理の処理手順を図５に示す。インデックス生成プログラム２１は、この図５に示す処理手順に従って、そのとき文書登録プログラム２０により文書管理テーブル２７に登録された登録対象文書についてのインデックスを生成する。

　実際上、インデックス生成プログラム２１は、文書登録プログラム２０により起動されると、このインデックス生成処理を開始し、まず、文書管理テーブル２７を参照して、登録対象文書の文書データ２５を補助記憶装置１２から読み出し、読み出した文書データ２５に基づいて、予め定められた文字数の文字列（ターム）をその登録対象文書の先頭から１つ切り出す（ＳＰ１０）。

　続いてインデックス生成プログラム２１は、インデックス管理テーブル２６を参照して、ステップＳＰ１０で切り出したタームが既にインデックス管理テーブル２６に登録されているか否かを判断する（ＳＰ１１）。

　インデックス生成プログラム２１は、この判断で否定結果を得ると、そのタームをインデックス管理テーブル２６に新規に登録する（ＳＰ１２）。具体的に、インデックス生成プログラム２１は、インデックス管理テーブル２６に新しい行を作成し、その行のターム欄２１Ａにそのタームを格納する。またインデックス生成プログラム２１は、その行の文書番号リスト欄２６Ｄに、その登録対象文書に付与された文書番号を格納し、さらにその行のインデックス属性欄２６Ｂに、その文書番号リスト欄２６Ｄに格納された文書番号リストのインデックス属性（ここでは「表」）を格納する。そして、インデックス生成プログラム２１は、この後、ステップＳＰ１７に進む。

　これに対してインデックス生成プログラム２１は、ステップＳＰ１１の判断で肯定結果を得ると、インデックス管理テーブル２６においてそのタームと対応付けられた文書番号リストのインデックス属性が「表」であるか否かを判断する（ＳＰ１３）。

　インデックス生成プログラム２１は、この判断で否定結果を得るとステップＳＰ１７に進み、これに対して肯定結果を得ると、インデックス管理テーブル２６上でそのタームと対応付けられた文書番号リストに登録されている文書の総数に１を加えた値が、現在の文書番号の最大値の半分の値よりも大きいか否かを判断する（ＳＰ１４）。

　この判断で否定結果を得ることは、インデックス管理テーブル２６上でそのタームと対応付けられた文書番号リストにその登録対象文書の文書番号を追加したとしても、その文書番号リストに登録された文書番号の総数が、全文検索装置３に登録されている文書（登録対象文書を含む）の総数の50パーセント以下であることを意味する。

　かくして、このときインデックス生成プログラム２１は、インデックス管理テーブル２６上でそのタームと対応付けられている文書番号リストに、登録対象文書の文書番号を追加すると共に、インデックス管理テーブル２６における同じそのタームに対応する文書番号数欄２６Ｃに格納されている文書番号数を、現在の値に１を加えた値に変更する（ＳＰ１５）。そして、インデックス生成プログラムは、この後、ステップＳＰ１７に進む。

　これに対して、ステップＳＰ１４の判断で肯定結果を得ることは、インデックス管理テーブル２６上でそのタームと対応付けられた文書番号リストにその登録対象文書の文書番号を追加した場合に、その文書番号リストに登録された文書番号の総数が、全文検索装置３に登録されている文書（登録対象文書を含む）の総数の50パーセントよりも大きくなることを意味する。

　かくして、このときインデックス生成プログラム２１は、インデックス管理テーブル２６上のそのタームと対応付けられた行（そのタームがターム欄２６Ａに格納されている行）のインデックス属性欄２６Ｂに格納されているインデックス属性を「裏」に変更するようインデックス管理テーブル２６を更新する（ＳＰ１６）。

　具体的に、インデックス生成プログラム２１は、インデックス管理テーブル２６上のそのタームと対応付けられた行の文書番号リスト欄２６Ｄに格納されている文書番号リストを、現在、全文検索装置３に登録されているすべての文書の文書番号の集合から、その文書番号リストに登録された文書番号を除いた差集合に含まれる文書番号のリストに変換する。またインデックス生成プログラム２１は、その行のインデックス属性欄２６Ｂに格納されているインデックス属性を、同じ行の文書番号リスト欄２６Ｄに格納された文書番号リストのインデックス属性が「裏」であることを表す「裏」に更新する。さらにインデックス生成プログラム２１は、その行の文書番号数欄２６Ｃに格納されている文書番号数を、差集合に含まれる文書番号のリストのリスト数に変更する。

　続いて、インデックス生成プログラム２１は、登録対象文書からタームを切り出す処理がその登録対象文書の最後まで完了したか否かを判断する（ＳＰ１７）。そしてインデックス生成プログラム２１は、この判断で否定結果を得るとステップＳＰ１０に戻り、この後、ステップＳＰ１０において切り出すタームの位置を順次１文字ずつ登録対象文書の最後に向けて順次ずらしながら、ステップＳＰ１０～ステップＳＰ１７の処理を繰り返す。

　そしてインデックス生成プログラム２１は、やがて登録対象文書からすべてのタームを切り出し終えることによりステップＳＰ１７で肯定結果を得ると、このインデックス生成処理を終了する。

　図６は、図３のように全文検索装置３に10個の文書が登録され、インデックス管理テーブル２６が図２のように生成されている状態から、「株式」、「式会」及び「特許」というタームは含まず、「会社」というタームを含む文書が全文検索装置３に登録された後のインデックス管理テーブル２６の様子を示す。

　この例の場合、「会社」というタームを含む文書が登録されたことにより対応する文書番号リストに登録される文書番号数が全文書番号数の50パーセントを越えるため、当該文書番号リストのインデックス属性が表インデックスから裏インデックスに変更されている。この結果、「会社」というタームに対応する文書番号リストに登録されている文書番号の数が「５」となっているが、当該文書番号リストのインデックス属性を変更しない場合、この文書番号リストに登録される文書番号の数が「６」であることを考慮すると、上述のようにかかる文書番号リストのインデックス属性を変更することにより文書番号リストに登録される文書番号数を低減できたことが分かる。

　また、今後、「会社」を含む文書が登録されればされるほど、かかる文書番号インデックスのインデックス属性を変更しない場合に比べて、より少ない容量で文書番号リストを構築することが可能となる。

（１－３－３）文書検索処理
　他方、図７は、クライアント２から送信された文書検索要求と、当該文書検索要求と共にクライアント２から送信されたユーザ等により指定された検索キーワードとを受信した全文検索装置３において実行される文書検索処理の処理手順を示す。全文検索装置３は、この図７に示す処理手順に従って、ハイブリッド型検索方式による文書検索処理を実行する。

　実際上、本全文検索装置３の場合、クライアント２から文書検索要求及び検索キーワードを受信すると、インデックス検索プログラム２２がその検索キーワードを受け付ける（ＳＰ２０）。またインデックス検索プログラム２２は、インデックス管理テーブル２６を用いて、この検索キーワードを用いたインデックス型検索処理を実行することによりその検索キーワードを含む可能性があるすべての文書の文書番号が登録された図示しないリスト（以下、これを検索結果リストと呼ぶ）を作成する（ＳＰ２１）。そしてインデックス検索プログラム２２は、この後、文書検索プログラム２３を起動する。

　文書検索プログラム２３は、インデックス検索プログラム２２により起動されると、かかる検索結果リストに文書番号が登録されているすべての文書について、その文書の文書データ２５を補助記憶装置１２から読み出し、読み出した文書データ２５に対してスキャン型検索処理を実行する（ＳＰ２０）。これにより、検索結果リストに登録されているすべての文書の中から、検索キーワードを含む文書が検出される。そして文書検索プログラム２３は、検索結果リストに文書番号が登録されている各文書に対する上述の検索処理（スキャン型検索処理）を完了すると、検索結果返却プログラム２４を起動する。

　検索結果返却プログラム２４は、文書検索プログラム２３により起動されると、ステップＳＰ２２の処理により検出された、検索キーワードを含むすべての文書の文書番号を、上述の文書検索要求の送信元のクライアントに送信する（ＳＰ２３）。そして全文検索装置３は、この後、この文書検索処理を終了する。

　図８は、上述した文書検索処理（図７）のステップＳＰ２１において、インデックス検索プログラム２２により実行されるインデックス型検索処理の具体的な処理内容を示す。インデックス検索プログラム２２は、この図８に示す手順に従って、インデックス型検索処理を実行して検索結果リストを作成する。

　実際上、インデックス検索プログラム２２は、文書検索処理のステップＳＰ２１に進むと、このインデックス型検索処理を開始し、まず、インデックス管理テーブル２６に登録されているタームと同じ文字数の検索キーワードタームを検索キーワードから順次切り出す（ＳＰ３０）。従って、検索キーワードが「株式会社」で、タームの文字数が「２」の場合には、「株式」、「式会」及び「会社」という３つの検索キーワードタームが検索キーワードから切り出されることになる。

　続いて、インデックス検索プログラム２２は、文書番号が登録されていない空の（初期状態の）検索結果リストを作成し（ＳＰ３１）、この後、検索キーワードから切り出した検索キーワードタームのうちの先頭の検索キーワードタームをキーとしてインデックス管理テーブル２６を検索することにより、その検索キーワードタームを含む文書の文書番号が登録された文書番号リストを「文書番号リスト１」として取得する（ＳＰ３２）。例えば、そのときの検索キーワードタームが「株式」であり、インデックス管理テーブル２６が図２の状態であるときには、文書番号リストとして、「１」、「７」及び「８」という３つの文書番号が登録された文書番号リスト（図２の一番上の文書番号リスト）が「文書番号リスト１」として取得されることになる。

　次いで、インデックス検索プログラム２２は、未処理の検索キーワードタームのうち、最も早い段階で切り出された検索キーワードターム（この段階では２番目に切り出された「式会」という検索キーワードターム）を選択し（ＳＰ３３）、選択した検索キーワードタームをキーとしてインデックス管理テーブル２６を検索することにより、その検索キーワードタームを含む文書の文書番号が登録された文書番号リストを「文書番号リスト２」として取得する（ＳＰ３４）。上述の例では、検索キーワードタームが「式会」であるため、「文書番号リスト２」として、「１」、「７」、「８」及び「９」という４つの文書番号が登録された文書番号リスト（図２の上から２番目の文書番号リスト）が「文書番号リスト１」として取得されることになる。

　この後、インデックス検索プログラム２２は、インデックス管理テーブル２６を参照して、「文書番号リスト１」及び「文書番号リスト２」のインデックス属性が共に「表」であるか否かを判断する（ＳＰ３５）。そしてインデックス検索プログラム２２は、この判断で肯定結果を得ると、「文書番号リスト１」に登録されている文書番号と、「文書番号リスト２」に登録されている文書番号との積集合を求め、対応するすべての文書番号を検索結果リストに格納し（ＳＰ３６）、この後ステップＳＰ４２に進む。

　一方、インデックス検索プログラム２２は、ステップＳＰ３５の判断で否定結果を得ると、インデックス管理テーブル２６を参照して、「文書番号リスト１」のインデックス属性が「表」で、「文書番号リスト２」のインデックス属性が「裏」であるか否かを判断する（ＳＰ３７）。そしてインデックス検索プログラム２２は、この判断で肯定結果を得ると、「文書番号リスト１」に登録されている文書番号から、「文書番号リスト２」に登録されている文書番号をすべて取り除いた差集合を求め、対応するすべての文書番号を検索結果リストに格納し（ＳＰ３８）、この後ステップＳＰ４２に進む。

　他方、インデックス検索プログラム２２は、ステップＳＰ３７の判断で否定結果を得ると、インデックス管理テーブル２６を参照して、「文書番号リスト１」のインデックス属性が「裏」で、「文書番号リスト２」のインデックス属性が「表」であるか否かを判断する（ＳＰ３９）。そしてインデックス検索プログラム２２は、この判断で肯定結果を得ると、「文書番号リスト２」に登録されている文書番号から、「文書番号リスト１」に登録されている文書番号をすべて取り除いた差集合を求め、対応するすべての文書番号を検索結果リストに格納し（ＳＰ４０）、この後ステップＳＰ４２に進む。

　これに対して、インデックス検索プログラム２２は、ステップＳＰ３９の判断で否定結果を得ると、「文書番号リスト１」に登録されている文書番号と、「文書番号リスト２」に登録されている文書番号との和集合の補集合を求め、対応するすべての文書番号を検索結果リストに格納し（ＳＰ４１）、この後ステップＳＰ４２に進む。

　そしてインデックス検索プログラム２２は、ステップＳＰ４２に進むと、検索結果リストを「文書番号リスト１」にコピーし（ＳＰ４２）、この後、すべての検索キーワードタームについてステップＳＰ３３～ステップＳＰ４２の処理を実行し終えたか否かを判断する（ＳＰ４３）。

　インデックス検索プログラム２２は、この判断で否定結果を得るとステップＳＰ３３に戻り、この後ステップＳＰ３３において選択する検索キーワードタームを順次他の検索キーワードタームに切り替えながら、ステップＳＰ３３～ステップＳＰ４３の処理を繰り返す。そしてインデックス検索プログラムは、やがて、すべての検索キーワードタームについてステップＳＰ３３～ステップＳＰ４３の処理を実行し終えることによりステップＳＰ４３で肯定結果を得ると、このインデックス型検索処理を終了する。

（１－４）本実施の形態の効果
　以上のように本実施の形態の全文検索システム１によれば、インデックス管理テーブル２６に新たな文書を登録する際、その文書の文書番号を追加すべき文書番号リストに登録されている文書番号の総数が、その新たな文書の文書番号を追加したときに全文検索装置３に登録されている総文書番号数の50パーセントを越える場合には、その文書番号リストを、当該文書番号リストに対応するタームを含まない文書の文書番号が登録されたリストに変換するようにしているため、このような場合にその文書番号リストに登録される文書番号の総数を抑えることができる。かくするにつき、インデックス管理テーブル２６の情報量の増大化を抑制し得る全文検索システムを実現できる。

（２）第２の実施の形態
　図１において３０は全体として第２の実施の形態による全文検索システムを示す。この全文検索システム３０は、新たな文書を全文検索装置３１に登録する際に全文検索装置３１のインデックス生成プログラム３２により実行されるインデックス生成処理の処理内容が異なる点を除いて、第１の実施の形態による全文検索システム１と同様に構成されている。

　すなわち、図４について上述した第１の実施の形態によるインデックス生成処理は、クライアントからの文書登録要求が全文検索装置３に与えられた時点で、インデックス管理テーブル２６に登録されているすべての文書番号リストのインデックス属性が「表」であることが前提となっている。

　しかしながら、全文検索装置３に登録される文書が増えれば、いずれかはインデックス管理テーブル２６に格納されている文書番号リストの中からインデックス属性が「裏」に変換される文書番号リストが登場することになる。そしてこのようなインデックス属性が「裏」の文書番号リストがインデックス管理テーブル２６内に存在する状態で、新たな登録対象文書をインデックス管理テーブル２６に登録する場合、当該登録対象文書がその文書番号リストに対応するタームを含まないときには、その文書番号リストにその登録対象文書の文書番号を登録する必要がある。

　例えば、文書管理テーブル２７が図９のような状態（つまり11個の文書が登録されている状態）にあり、現在のインデックス管理テーブル２６が図１０のような状態にあるものとする。この状態から「株式会社」という文字列は含むが「特許」という文字列は含まない文書を新たに全文検索装置３１に登録する場合を考える。

　この場合、新たに登録される文書の文書番号は「12」となり、この文書には「株式」、「式会」及び「会社」というタームが含まれるため、図４について上述した第１の実施の形態による文書登録処理の終了後のインデックス管理テーブル２６は図１１のような状態になる。

　この図１１からも明らかなように、第１の実施の形態の文書検索処理によると、新たに登録する文書に含まれるタームに対応する文書番号リストのうちのインデックス属性が「表」の文書番号リスト（「株式」や「式会」に対応する文書番号リスト）には、その新たな文書の文書番号が登録され、新たに登録する文書に含まれるタームに対応する文書番号リストのうちのインデックス属性が「裏」の文書番号リスト（「会社」に対応する文書番号リスト）には、その新たな文書の文書番号が登録されないため問題はない。

　ところが、新たに登録する文書に含まれないタームに対応する文書番号リストのうちのインデックス属性が「裏」の文書番号リスト（「特許」に対応する文書番号リスト）については、「特許」というタームがその文書には含まれないにも係わらず、そのタームに対応する文書番号リストには、その文書の文書番号が登録されないままとなる。

　そこで、本実施の形態の全文検索システム３０においては、インデックス生成プログラム３２が、新たな文書をインデックス管理テーブル２６に登録した後に、インデックス管理テーブル２６上において、その文書に含まれない各タームとそれぞれ対応付けられた文書番号リストのうち、インデックス属性が「裏」の文書番号リストが存在する場合には、その文書番号リストに対して、その新たな文書の文書番号を追加登録する処理（以下、これをインデックスメンテナンス処理と呼ぶ）を実行することを特徴の１つとする。

　図１２は、図５について上述した第１の実施の形態によるインデックス生成処理に代えてインデックス生成プログラム３２により実行される本実施の形態によるインデックス生成及びインデックスメンテナンス処理の具体的な処理内容を示す。インデックス生成プログラム３２は、文書登録プログラム２０により実行される図４について上述した文書登録処理のステップＳＰ４において起動されると、この図１２に示す処理手順に従って、登録対象文書をインデックス管理テーブル２６に登録した後に、上述のインデックスメンテナンス処理を実行する。

　実際上、インデックス生成プログラム３２は、文書登録プログラム２０により起動されると、このインデックス生成及びインデックスメンテナンス処理を開始し、ステップＳＰ５０～ステップＳＰ５７（インデックス生成処理）を図５について上述した第１の実施の形態によるインデックス生成処理のステップＳＰ１０～ステップＳＰ１７と同様に処理する。

　続いて、インデックス生成プログラム３２は、上述のインデックスメンテナンス処理を実行し（ＳＰ５８）、この後、このインデックス生成及びインデックスメンテナンス処理を終了する。

　図１３は、かかるインデックス生成及びインデックスメンテナンス処理（図１２）のステップＳＰ５８においてインデックス生成プログラム３２により実行されるインデックスメンテナンス処理の具体的な処理内容を示す。

　インデックス生成プログラム３２は、上述のインデックス生成処理（図１２）のステップＳＰ５８に進むと、このインデックスメンテナンス処理を開始し、まず、インデックス管理テーブル２６の行のうち、後述するステップＳＰ６０～ステップＳＰ６６の処理を未実行の行を１つ選択する（ＳＰ６０）。

　続いて、インデックス生成プログラム３２は、ステップＳＰ６０において選択した行のターム欄２６Ａに格納されているタームが、そのとき実行されたインデックス生成及びインデックスメンテナンス処理（図１２）のステップＳＰ５２及びステップ５５においてインデックス管理テーブル２６に対して処理したタームであるか否かを判断する（ＳＰ６１）。

　インデックス生成プログラム３２は、この判断で肯定結果を得るとステップＳＰ６６に進み、これに対して否定結果を得ると、インデックス管理テーブル２６を参照して、そのタームに対応する文書番号リストのインデックス属性が「表」であるか否かを判断する（ＳＰ６２）。

　インデックス生成プログラム３２は、この判断で否定結果を得るとステップＳＰ６６に進み、これに対して肯定結果を得ると、インデックス管理テーブル２６上でそのタームと対応付けられた文書番号リストに登録されている文書の総数に１を加えた値が、現在の文書番号の最大値の半分の値よりも大きいか否かを判断する（ＳＰ６３）。

　この判断で否定結果を得ることは、インデックス管理テーブル２６上でそのタームと対応付けられた文書番号リスト（インデックス属性は「裏」）にその対象文書の文書番号を追加したとしても、その文書番号リストに登録された文書番号の総数が、全文検索装置３１に登録されている文書（対象文書を含む）の総数の50パーセント以下であることを意味する。

　かくして、このときインデックス生成プログラム３２は、ステップＳＰ６０において選択した行のタームに対応する文書番号リストにそのとき対象としている文書の文書番号を追加登録し（ＳＰ６４）、この後ステップＳＰ６６に進む。

　これに対して、ステップＳＰ６３の判断で肯定結果を得ることは、インデックス管理テーブル２６上でそのタームと対応付けられた文書番号リスト（インデックス属性は「裏」）にその対象文書の文書番号を追加した場合に、その文書番号リストに登録された文書番号の総数が、全文検索装置３１に登録されている文書（対象文書を含む）の総数の50パーセントよりも大きくなることを意味する。

　かくして、このときインデックス生成プログラム３２は、インデックス管理テーブル２６上のそのタームと対応付けられた行（そのタームがターム欄２６Ａに格納されている行）のインデックス属性欄２６Ｂに格納されているインデックス属性を「裏」から「表」に変更するようインデックス管理テーブル２６を更新する（ＳＰ６５）。

　具体的に、インデックス生成プログラム３２は、インデックス管理テーブル２６上のそのタームと対応付けられた行の文書番号リスト欄２６Ｄに格納されている文書番号リストを、現在、全文検索装置３１に登録されているすべての文書の文書番号の集合から、その文書番号リストに登録された文書番号を除いた差集合に含まれる文書番号のリストに変換する。またインデックス生成プログラムは３２、その行のインデックス属性欄２６Ｂに格納されているインデックス属性を「表」に更新する。さらにインデックス生成プログラム３２は、その行の文書番号数欄２６Ｃに格納されている文書番号数を、現在の値に１を加えた値に変更する。

　続いて、インデックス生成プログラム３２は、上述の処理をインデックス管理テーブル２６の最後の行まで実行し終えたか否かを判断する（ＳＰ６６）。そしてインデックス生成プログラム３２は、この判断で否定結果を得るとステップＳＰ６０に戻り、この後、ステップＳＰ６０において選択するインデックス管理テーブル２６上の行を順次次の行に切り替えながら、ステップＳＰ６０～ステップＳＰ６６の処理を繰り返す。

　そしてインデックス生成プログラム３２は、やがてインデックス管理テーブル２６のすべての行について上述のステップＳＰ６０～ステップＳＰ６６の処理を実行し終えることによりステップＳＰ６６で肯定結果を得ると、このインデックスメンテナンス処理を終了する。

　ここで、図１１の状態（インデックス生成処理のステップＳＰ５０～ステップＳＰ５７を終えた状態）のインデックス管理テーブル２６に対して、かかるインデックスメンテナンス処理を実行した後のインデックス管理テーブル２６の様子を図１４に示す。ここでは、登録対象文書の文書番号が「12」であり、この登録対象文書に「特許」というタームが含まれていないものとする。

　この図１４からも明らかなように、インデックスメンテナンス処理前のインデックス管理テーブル２６では、「特許」というタームに対応する文書番号リストには、登録対象文書の文書番号である「12」が登録されていないが、インデックスメンテナンス処理後のインデックス管理テーブル２６では、「特許」というタームに対応する文書番号リストに「12」という文書番号が登録されている。

　このように、インデックス生成処理を実行した後に、かかるインデックスメンテナンス処理を実行することによって、インデックス管理テーブル２６上にインデックス属性が「裏」の文書番号リストが存在する場合であって、その文書番号リストに対応するタームが登録対象文書に含まれないときにも、その登録対象文書の文書番号をかかる文書番号リストに登録することができる。

　この場合において、例えば上述の例において、図１１のように「特許」というタームに対応する文書番号リストに「12」という文書番号が登録されないままの場合、「12」という文書番号の文書が「特許」というタームを含むことを意味することになる。このため、例えば検索キーワードとして「株式会社特許」という文字列が与えられた場合に、文書番号「12」までがスキャン型検索処理の対象として抽出されてしまうことになり、本来「特許」というタームを含まない文書に対してまでもスキャン型検索処理を実行することになる。しかしながら、かかるインデックスメンテナンス処理を実行することによって、このような無駄なスキャン型検索処理の手間を未然に回避することが可能となる。

　以上のように本実施の形態の全文検索システム３０によれば、インデックス生成処理の後にインデックスメンテナンス処理を実行するため、不要なスキャン型検索処理の実行を未然かつ有効に抑えることができる。かくするにつき、第１の実施の形態により得られる効果に加えて、文書検索処理の処理速度も向上させ得る全文検索システムを実現できる。

（３）第３の実施の形態
（３－１）本実施の形態による全文検索システムの構成
　図１との対応部分に同一符号を付して示す図１５は、以上のような本実施の形態によるハイブリッド型検索方式を適用した第３の実施の形態による全文検索システム４０を示す。この全文検索システム４０は、全文検索装置４１における登録文書のインデックスの管理方法が第１及び第２の実施の形態による全文検索システム１，３０と相違する。

　すなわち第１及び第２の実施の形態においては、インデックス管理テーブルに登録されたタームに対応する文書番号リストに登録されている文書番号の数が全文検索装置に登録された文書の総数の50パーセントを越える場合に、その文書番号リストのインデックス属性を「裏」に変換することにより、当該文書番号リストに登録される文書番号数の削減を図っている。

　このようなインデックス管理方法によると、新たな登録対象文書を全文検索装置に登録する際、インデックス管理テーブルに登録されているタームのうちのその登録対象文書に含まれないタームであって、文書番号リストのインデックス属性が「裏」のタームについては対応する文書番号リストにその登録対象文書の文書番号を登録する必要がある。このようなタームが数多く存在する場合、かかる新たな文書の文書番号を登録すべき文書番号リストの数も多くなり、インデックス管理テーブル２６全体としての情報量が多くなる問題がある。

　そこで、本実施の形態においては、文書番号リストのインデックス属性として「混成」というインデックス属性を設ける。この「混成」というインデックス属性は、文書番号リストに登録されたある文書番号（以下、これを表インデックス番号と呼ぶ）の１つ前に登録された文書番号までは、インデックス属性が「裏」であり、表インデックス番号以降は「表」のインデックス属性を表す。

　そして本実施の形態の場合、かかる表インデックス番号としては、その文書番号リストのインデックス属性を「裏」に変換してから最初にその文書番号リストに対応するタームを含む文書が全文検索装置４１に登録された場合のその文書の文書番号を適用する。従って、文書番号リストのインデックス属性を「混成」に変換した場合、その後その文書番号リストに登録される文書番号に関する当該文書番号リストのインデックス属性は「表」となる。

　これにより本実施の形態においては、新たな文書を全文検索装置４１に登録する際、インデックス管理テーブル４２（図１５）に登録されているタームのうちのその文書に含まれるタームであって、文書番号リストのインデックス属性が「裏」のタームについては、対応する文書番号インデックスのインデックス属性を「混成」に変換することによって、第２の実施形態で実施したインデックスメンテナンスの処理を不要にすることができ、インデックス管理テーブル４２全体としての情報量を低減することができる。

　ただし、「混成」というインデックス属性を設けた場合、そのままでは例えば図８について上述したインデックス型検索処理の際に文書番号リスト同士の集合演算を行うことができない。そこで、本実施の形態においては、インデックス型検索処理時、インデックス属性が「混成」の文書番号リストについては、インデックス属性を「表」に変換してから集合演算を実行する。

　またインデックス属性が「裏」の文書番号リストについては、第２の実施形態で実施したインデックスメンテナンスの処理を実施しないため、インデックス属性が「裏」であれば登録されるべき文書番号が登録されていないことになる。

　そこで、本実施の形態においては、インデックス属性が「裏」の文書番号リストについては、インデックス属性が「裏」に変換された後もそのままインデックス属性が「裏」であれば登録されるべき文書番号を補完する裏インデックス補完処理を、対応する文書番号リストについてインデックス型検索処理時に実行すると共に、インデックス属性が「裏」のすべての文書番号リストについて、定期的にかかる裏インデックス補完処理を実行する。

　以上のような本実施の形態によるインデックス管理方法を適用したハイブリッド型検索方式を実現するための手段として、全文検索装置４１の補助記憶装置１２には、文書管理テーブル２７と、当該全文検索装置４１に登録された各文書の文書データ２５（文書データ２５）とに加えて、図１６のように構成されたインデックス管理テーブル４２と、図１７のように構成された文書番号管理テーブル４３とが格納されている。

　このうちインデックス管理テーブル４２は、図１６からも明らかなように、ターム欄４２Ａ、インデックス属性欄４２Ｂ、文書番号数欄４２Ｃ、表インデックス番号欄４２Ｄ及び文書番号リスト欄４２Ｅから構成されている。そしてターム欄４２Ａ、文書番号数欄４２Ｃ及び文書番号リスト欄４２Ｅには、それぞれ第１の実施の形態によるインデックス管理テーブル２６（図２）と同様の情報が格納される。

　またインデックス属性欄４２Ｂには、同じ行の文書番号リスト欄４２Ｅに格納された文書番号リストのインデックス属性が格納される。この場合におけるインデックス属性としては、「表」及び「裏」に加えて、上述のように「混成」というインデックス属性が存在する。そして対応する文書番号リストのインデックス属性が「混成」である場合には、その旨の情報（「混成」）がそのインデックス属性欄４２Ｂに格納される。

　さらに表インデックス番号欄４２Ｄには、対応する文書番号リストのインデックス属性が「混成」である場合に、その文書番号リストに登録された文書番号のうち、インデックス属性が「裏」から「表」に切り替わる文書番号が格納される。なお、対応する文書番号リストのインデックス属性が「表」又は「裏」である場合には、表インデックス番号欄４２Ｄには、値がないことを表す情報（「－」）が格納される。

　従って、図２０の例では、「会社」というタームに対応する文書番号リストのインデックス属性は「混成」であり、当該文書番号リストに登録された複数の文書番号のうち、「12」という文書番号からその文書番号リストのインデックス属性が「表」に切り替わることが示されている。よって、この例の場合、「会社」というタームを含む文書は、それぞれ「１」、「３」、「５」、「７」、「９」、「11」又は「12」という文書番号が付与された合計７個の文書となる。

　一方、文書番号管理テーブル４３は、図２４について後述する定期メンテナンス処理が最後に実行された時点における、全文検索装置４１に登録された各文書にそれぞれ付与された文書番号のうちの最大の文書番号（以下、これを最大文書番号と呼ぶ）を管理するためのテーブルであり、図２７に示すように、最大文書番号欄４３Ａから構成される。そして最大文書番号欄４３Ａに、上述の最大文書番号が格納される。

（３－２）本実施の形態によるハイブリッド型検索方式に関する各種処理の内容
　次に、上述のような本実施の形態によるハイブリッド型検索方式に関する各種処理の具体的な内容について説明する。
（３－２－１）文書登録処理
　図１８は、図５について上述した第１の実施の形態によるインデックス生成処理に代えてインデックス生成プログラム４４により実行される本実施の形態によるインデックス生成処理の処理手順を示す。

　このインデックス生成処理では、ステップＳＰ７０～ステップＳＰ７３が第１の実施の形態によるインデックス生成処理のステップＳＰ１０～ステップＳＰ１３と同様に処理され、ステップＳＰ７５～ステップＳＰ７８が当該第１の実施の形態によるインデックス生成処理のステップＳＰ１４～ステップＳＰ１７と同様に処理される。

　つまり本実施の形態のインデックス生成処理は、ステップＳＰ７３で否定結果が得られた場合に、インデックス生成プログラム４４が、登録対象文書に対応する文書番号リストのインデックス属性を「混成」に変換した後、インデックス生成処理を終了する点を除いて第１の実施の形態によるインデックス生成処理と同様である。

　図１９は、かかる本実施の形態によるインデックス生成処理のステップＳＰ７３においてインデックス生成プログラム４４により実行される混成インデックス生成処理の具体的な処理内容を示す。

　インデックス生成プログラム４４は、インデックス生成処理のステップＳＰ７３に進むとこの混成インデックス生成処理を開始し、インデックス管理テーブル４２（図１６）における登録対象文書に対応するインデックス属性欄４２Ｂに格納されているインデックス属性を「混成」に変更する。またインデックス生成プログラム４４は、登録対象文書に対応する表インデックス番号欄４２Ｄに、その登録対象文書の文書番号を格納することにより、その登録対象文書の文書番号を表インデックス番号に設定する。さらにインデックス生成プログラム４４は、対応する文書番号リストにその登録対象文書の文書番号を追加する（ＳＰ８０）。

　そして、インデックス生成プログラム４４は、この後、この混成インデックス生成処理を終了する。

　ここで、図１６の状態のインデックス管理テーブル４２に対して、かかる混成インデックス処理を実行した後のインデックス管理テーブル４２の様子を図２０に示す。ここでは、登録対象文書の文書番号が「12」であり、この登録対象文書には、「株式」、「式会」及び「会社」というタームは含まれているが、「特許」というタームは含まれていないものとする。

　この場合、図１６及び図２０からも明らかなように、登録対象文書を全文検索装置４１に登録する前のインデックス管理テーブル４２では、「株式」及び「式会」というタームにそれぞれ対応する文書番号リストのインデックス属性はいずれも「表」であり、登録対象文書を全文検索装置４１に登録した場合においても、これら文書番号リストに登録されている文書番号の総数が全文検索装置４１に登録されている文書の総数（「12」）の50パーセントを越えなかったため、これら文書番号リストのインデックス属性が変換されることなく、これらの文書番号リストに登録対象文書の文書番号が登録されている。

　これに対して、登録対象文書を全文検索装置４１に登録する前のインデックス管理テーブル４２では、「会社」というタームに対応する文書番号リストのインデックス属性が「裏」であったため、インデックス管理テーブル４２への登録対象文書の登録に伴い、図２０に示すように、この文書番号リストのインデックス属性が「混成」に変換されると共に、「12」という文書番号が表インデックス番号として表インデックス番号欄４２Ｄに格納され、その文書番号リストの末尾に「12」という文書番号が追加されている。

　一方、図２１Ａ及び図２１Ｂは、図８について上述した第１の実施の形態によるインデックス型検索処理に代えて、インデックス検索プログラム４５により実行される本実施の形態によるインデックス型検索処理の処理手順を示す。

　上述のように、本全文検索システム４０では、文書番号リストのインデックス属性として「混成」が存在するため、インデックス型検索処理において文書番号リストに登録された文書番号の集合演算を行うことができない。そこで、本実施の形態によるインデックス型検索処理は、これに対応するための処理をステップＳＰ９５～ステップＳＰ９８において実行する点を特徴とする。

　実際上、インデックス検索プログラム４５は、図７について上述した文書検索処理のステップＳＰ２０において、クライアント２からの検索キーワードを受け付けると、この図２１Ａ及び図２１Ｂに示す本実施の形態によるインデックス型検索処理を開始し、ステップＳＰ９０～ステップＳＰ９４を図８について上述した第１の実施の形態によるインデックス型検索処理のステップＳＰ３０～ステップＳＰ３４と同様に処理する。

　続いて、インデックス検索プログラム４５は、文書番号リスト１又は文書番号リスト２のインデックス属性が「混成」であるか否かを判断する（ＳＰ９５）。インデックス検索プログラム４５は、この判断で否定結果を得るとステップＳＰ９７に進み、これに対して肯定結果を得ると、インデックス属性が「混成」の文書番号リスト１又は文書番号リスト２のインデックス属性を「表」に変換する表インデックス変換処理を実行する（ＳＰ９６）。

　次いで、インデックス検索プログラム４５は、文書番号リスト１又は文書番号リスト２のインデックス属性が「裏」であるか否かを判断する（ＳＰ９７）。インデックス検索プログラム４５は、この判断で否定結果を得るとステップＳＰ９９に進み、これに対して肯定結果を得ると図２３について後述する裏インデックス補完処理を実行する（ＳＰ９８）。

　そしてインデックス検索プログラム４５は、この後ステップＳＰ９９～ステップＳＰ１０７の処理を図８のステップＳＰ３５～ステップＳＰ４３と同様に処理し、この後、検索キーワードから切り出したすべての検索キーワードタームについて同様の処理（ステップＳＰ３３～ステップＳＰ４３）を繰り返す。

　そしてインデックス検索プログラム４５は、やがて検索キーワードから切り出したすべての検索キーワードタームについてステップＳＰ３３～ステップＳＰ４３の処理を実行し終えることによりステップＳＰ４３で肯定結果を得ると、このインデックス型検索処理を終了する。

　なお、かかるインデックス型検索処理のステップＳＰ９６において実行される表インデックス変換処理の具体的な処理内容を図２２に示す。

　インデックス検索プログラム４５は、上述のインデックス型検索処理（図２１Ａ及び図２１Ｂ）のステップＳＰ９６に進むと、この図２２に示す表インデックス変換処理を開始し、まず、そのとき対象とすべき文書番号リスト（以下、これを対象文書番号リストと呼ぶ）として文書番号リスト１を選択する（ＳＰ１１０）。

　続いて、インデックス検索プログラム４５は、インデックス管理テーブル４２を参照して、対象文書番号リストのインデックス属性が「混成」であるか否かを判断し（ＳＰ１１１）、否定結果を得るとステップＳＰ１２１に進む。これに対してインデックス検索プログラム４５は、この判断で肯定結果を得ると、文書番号管理テーブル４３（図１７）に格納されている最大文書番号の値を取得する（ＳＰ１１２）。

　次いで、インデックス検索プログラム４５は、最大文書番号の値以下の文書番号の集合を一時裏インデックス１として取得する（ＳＰ１１３）。よって、一時裏インデックス１は、最後に定期メンテナンス処理が実行される前に全文検索装置４１に登録された文書のうち、対象文書番号リストに対応するタームを含まない文書の文書番号の集合を表す。

　またインデックス検索プログラム４５は、インデックス管理テーブル４２から、対象文書番号リストに関する表インデックス番号の値を取得し（ＳＰ１１４）、この後、文書管理テーブル２７（図１５）に登録されている文書番号のうち、最大文書番号の値よりも大きく、かつ表インデックス番号の値よりも小さい文書番号の集合を一時裏インデックス２として取得する（ＳＰ１１５）。よって、一時裏インデックス２は、最後に定期メンテナンス処理が実行された後、そのとき対象としている文書番号リストのインデックス属性が「混成」に変更されるまでの間に全文検索装置４１に登録された文書であって、当該文書番号リストに対応するタームを含まない文書の文書番号の集合を表す。

　続いて、インデックス検索プログラム４５は、一時裏インデックス１に含まれる文書番号と、一時裏インデックス２に含まれる文書番号との和集合を一時裏インデックス３として取得する（ＳＰ１１６）。

　次いで、インデックス検索プログラム４５は、文書管理テーブル２７に登録されている文書番号のうち、対象文書番号リストの表インデックス番号の値よりも小さな文書番号の集合から、一時裏インデックス３を除いた差集合を求め、これを一時表インデックス１とする（ＳＰ１１７）。

　またインデックス検索プログラム４５は、対象文書番号リストに登録された文書番号のうち、表インデックス番号以上の文書番号の集合を一時表インデックス２として取得する（ＳＰ１１８）。

　さらにインデックス検索プログラム４５は、一時表インデックス１及び一時表インデックス２の和集合を一時表インデックス３として取得し（ＳＰ１１９）、この後、この一時表インデックス３を対象文書番号リストに格納する（ＳＰ１２０）。

　続いて、インデックス検索プログラム４５は、文書番号リスト１及び文書番号リスト２の双方について上述のステップＳＰ１１１～ステップＳＰ１２０の処理を実行し終えたか否かを判断する（ＳＰ１２１）。そしてインデックス検索プログラム４５は、この判断で否定結果を得ると、対象文書番号リストとして文書番号リスト２を選択し（ＳＰ１２２）、ステップＳＰ１１１に戻る。そしてインデックス検索プログラム４５は、この後、ステップＳＰ１１１～ステップＳＰ１２０を同様に処理する。

　そしてインデックス検索プログラム４５は、やがて文書番号リスト１及び文書番号リスト２に対するステップＳＰ１１１～ステップＳＰ１２０の処理を実行し終えることによりステップＳＰ１２１で肯定結果を得ると、この表インデックス変換処理を終了する。

　一方、図２３は、図２１Ａ及び図２１Ｂについて上述した本実施の形態によるインデックス型検索処理のステップＳＰ９８においてインデックス検索プログラム４５により実行される裏インデックス補完処理の具体的な処理内容を示す。

　インデックス検索プログラム４５は、インデックス型検索処理のステップＳＰ９８に進むと、この図２３に示す裏インデックス補完処理を開始し、まず、対象文書番号リストとして文書番号リスト１を選択する（ＳＰ１３０）。

　続いて、インデックス検索プログラム４５は、対象文書番号リストのインデックス属性が「裏」であるか否かを判断し（ＳＰ１３１）、否定結果を得るとステップＳＰ１３９に進む。これに対してインデックス検索プログラム４５は、この判断で肯定結果を得ると、文書番号管理テーブル４３（図１７）に格納されている最大文書番号の値を取得する（ＳＰ１３２）。

　次いで、インデックス検索プログラム４５は、最大文書番号の値以下の文書番号の集合を一時裏インデックス１として取得する（ＳＰ１３３）。またインデックス検索プログラム４５は、文書管理テーブル２７から文書番号の最大値を取得し（ＳＰ１３４）、この後、文書管理テーブル２７（図１５）に登録されている文書番号のうち、最大文書番号の値よりも大きく、かつステップＳＰ１３４で取得した文書番号の最大値以下の文書番号の集合を一時裏インデックス２として取得する（ＳＰ１３５）。

　続いて、インデックス検索プログラム４５は、一時裏インデックス１に含まれる文書番号と、一時裏インデックス２に含まれる文書番号との和集合を一時裏インデックス３として取得し（ＳＰ１３６）、取得した一時裏インデックス３を文書番号リストに格納する（ＳＰ１３７）。

　続いて、インデックス検索プログラム４５は、文書番号リスト１及び文書番号リスト２の双方について上述のステップＳＰ１３１～ステップＳＰ１３７の処理を実行し終えたか否かを判断する（ＳＰ１３８）。そしてインデックス検索プログラム４５は、この判断で否定結果を得ると、対象文書番号リストとして文書番号リスト２を選択し（ＳＰ１３９）、ステップＳＰ１３１に戻る。そしてインデックス検索プログラム４５は、この後、ステップＳＰ１３１～ステップＳＰ１３７を同様に処理する。

　そしてインデックス検索プログラム４５は、やがて文書番号リスト１及び文書番号リスト２に対するステップＳＰ１３１～ステップＳＰ１３７の処理を実行し終えることによりステップＳＰ１３８で肯定結果を得ると、この裏インデックス補完処理を終了する。

（３－２－２）定期メンテナンス処理
　他方、図２４は、インデックス生成プログラム４４（図１５）により定期的に実行される文書番号リストの補完処理（以下、これを定期メンテナンス処理と呼ぶ）の処理手順を示す。インデックス生成プログラム４４は、この図２４に示す処理手順に従って、定期的にインデックス管理テーブル４２のメンテナンスを実行する。

　実際上、インデックス生成プログラム４４は、この定期メンテナンス処理を開始すると、まず、インデックス管理テーブル４２に登録されているタームのうち、未処理のタームを１つ選択し（ＳＰ１５０）、そのターム（以下、これを対象タームと呼ぶ）に対応する文書番号リストのインデックス属性が「表」であるか否かを判断する（ＳＰ１５１）。

　そしてインデックス生成プログラム４４は、この判断で肯定結果を得るとステップＳＰ１６２に進み、これに対して否定結果を得ると、対象タームに対応する文書番号リストのインデックス属性が「裏」であるか否かを判断する（ＳＰ１５２）。

　インデックス生成プログラム４４は、この判断で肯定結果を得ると、その文書番号リストについて図２３について上述した裏インデックス補完処理を実行することにより裏インデックス補完を行った文書番号リストを作成し（ＳＰ１５３）、作成した文書番号リストに登録されている文書番号数が全文検索装置４１に登録されている全文書番号数の50パーセントを越えているか否かを判断する（ＳＰ１５４）。

　インデックス生成プログラム４４は、この判断で肯定結果を得ると、その文書番号リストに対して図２２について上述した表インデックス変換処理を実行することにより、当該文書番号リストをインデックス属性を「表」の文書番号リストに変換する（ＳＰ１５６）。この際、インデックス生成プログラム４４は、インデックス管理テーブル４２上の対象タームに対応する行のインデックス属性欄４２Ｂ（図１６）に格納されているインデックス属性を「表」に変更すると共に、当該行の文書番号数欄４２Ｃに格納されている文書番号数を、インデックス属性を「表」に変更した後の文書番号リストに登録されている文書番号数に変更する。さらにインデックス生成プログラム４４は、インデックス管理テーブル４２上の対象タームに対応する表インデックス番号欄４２Ｄに格納されている表インデックス番号を「－」に設定する。そしてインデックス生成プログラム４４は、この後、ステップＳＰ１６２に進む。

　これに対して、インデックス生成プログラム４４は、ステップＳＰ１５４の判断で否定結果を得ると、ステップＳＰ１５３において作成した文書番号リストを、インデックス管理テーブル４２上の対応する文書番号リストに上書きするように登録する（ＳＰ１５５）。この際、インデックス生成プログラム４４は、インデックス管理テーブル４２上の対象タームに対応する行のインデックス属性欄４２Ｂに格納されているインデックス属性を「裏」に設定すると共に、その文書番号リストに登録されている文書番号数をその行の文書番号数欄４２Ｃに設定する。さらにインデックス生成プログラム４４は、インデックス管理テーブル４２上の対象タームに対応する表インデックス番号欄４２Ｄに格納されている表インデックス番号を「－」に変更する。そしてインデックス生成プログラム４４は、この後、ステップＳＰ１６２に進む。

　一方、インデックス生成プログラム４４は、ステップＳＰ１５２の判断で否定結果を得ると、対象タームに対応する文書番号リストのインデックス属性が「混成」であるか否かを判断する（ＳＰ１５７）。

　そして、インデックス生成プログラム４４は、この判断で否定結果を得るとステップＳＰ１６２に進み、これに対して肯定結果を得ると、対象タームの文書番号リストに対して図２２について上述した表インデックス変換処理を実行することにより、当該文書番号リストをインデックス属性が「表」の文書番号リストに変換する（ＳＰ１５８）。

　次いで、インデックス生成プログラム４４は、ステップＳＰ１５８の表インデックス変換処理により作成した文書番号リストに登録された文書番号数が全文検索装置４１に登録されている全文書番号数の50パーセントを越えているか否かを判断する（ＳＰ１５９）。

　インデックス生成プログラム４４は、この判断で否定結果を得ると、ステップＳＰ１５８においてインデックス属性を「表」に変換した対応する文書番号リストを、インデックス管理テーブル４２上の対応する文書番号リストに上書きするように登録する（ＳＰ１６０）。この際、インデックス生成プログラム４４は、インデックス管理テーブル４２上の対象タームに対応する行のインデックス属性欄４２Ｂに格納されているインデックス属性を「表」に設定すると共に、その文書番号リストに登録されている文書番号数をその行の文書番号数欄４２Ｃに格納する。さらにインデックス生成プログラムは、インデックス管理テーブル上の対象タームに対応する表インデックス番号欄に格納されている表インデックス番号を「－」に変更する。この後、ステップＳＰ１６２に進む。

　これに対して、インデックス生成プログラム４４は、ステップＳＰ１５９の判断で肯定結果を得ると、その文書番号リストを、インデックス属性が「裏」の文書番号リストに変換する（ＳＰ１６１）。この際、インデックス生成プログラム４４は、インデックス管理テーブル４２上の対象タームに対応する行のインデックス属性欄４２Ｂに格納されているインデックス属性を「裏」に設定すると共に、当該行の文書番号数欄４２Ｃに格納されている文書番号数を、インデックス属性を「裏」に変更した後の文書番号リストに登録されている文書番号数に設定する。さらにインデックス生成プログラム４４は、インデックス管理テーブル４２上の対象タームに対応する表インデックス番号欄４２Ｄに格納されている表インデックス番号を「－」に設定する。そしてインデックス生成プログラム４４は、この後、ステップＳＰ１６２に進む。

　インデックス生成プログラム４４は、ステップＳＰ１６２に進むと、インデックス管理テーブル４２のすべての行（インデックス管理テーブル４２に登録されたすべてのターム）について上述のステップＳＰ１５０～ステップＳＰ１６１の処理を実行し終えたか否かを判断する（ＳＰ１６２）。そしてインデックス生成プログラム４４は、この判断で否定結果を得るとステップＳＰ１５０に戻り、この後、ステップＳＰ１５０において順次異なる未処理のタームを選択しながら、ステップＳＰ１５０～ステップＳＰ１６２の処理を繰り返す。

　またインデックス生成プログラム４４は、やがてインデックス管理テーブル４２に登録されたすべてのタームについてステップＳＰ１５０～ステップＳＰ１６１の処理を実行し終えることによりステップＳＰ１６２で肯定結果を得ると、文書管理テーブル２７（図５）に登録されている文書番号の最大値を最大文書番号として文書番号管理テーブル４３（図１７）に登録し（ＳＰ１６３）、この後、この定期メンテナンス処理を終了する。

（３－３）本実施の形態の効果
　以上のように本実施の形態の全文検索システム４０によれば、文書番号リストのインデックス属性として「混成」というインデックス属性を設けるようにしたことにより、インデックス管理テーブル４２に対する文書番号の登録数を抑えることができ、かくしてインデックス管理テーブル４２の情報量が増加化をより一層と抑制し得る全文検索システムを実現できる。

（４）第４の実施の形態
（４－１）本実施の形態による全文検索システムの構成
　図１との対応部分に同一符号を付して示す図２５は、第４の実施の形態による全文検索システム５０を示す。この全文検索システム５０は、全文検索装置５２と、１又は複数のＷｅｂサーバ５５とがネットワーク５４を介して接続されることにより構成されている。

　そして本実施の形態による全文検索システム５０の場合、全文検索装置５２には、クライアント５１から与えられた登録対象文書の文書データ２５が格納されず、当該文書データ２５がネットワーク５４を介してＷｅｂサーバ５５から取得されインデックスが生成される点が第１の実施の形態による全文検索システム１と相違する。

　このため本全文検索システム５０の場合、クライアント５１は、全文検索装置５２に文書を登録する際には、その登録対象文書の文書ファイル名と共に、当該登録対象文書を取得するＵＲＩ（Uniform Resource Identifier）を指定した文書登録要求を全文検索装置５２に送信する。

　一方、これら文書登録要求受信した全文検索装置５２は、その文書登録要求において指定されたＵＲＩと対応付けられたＷｅｂサーバ５５から文書データ２５を取得する。

　また全文検索装置５２は、第１の実施の形態と同様にして、その登録対象文書をインデックス管理テーブル２６及び文書管理テーブル２７に登録する。この際、全文検索装置５２は、図２６に示すように、その登録対象文書の格納先アドレスとして、文書登録要求において指定されたＵＲＩを文書管理テーブル２７に登録する。

（４－２）本実施の形態による文書登録処理
　ここで、図２７は、クライアント５１から全文検索装置５２に対して文書登録要求及び登録対象文書のＵＲＩが与えられたときに、当該全文検索装置５２内の文書登録プログラム５３（図２５）により実行される文書登録処理の処理手順を示す。

　文書登録プログラム５３は、かかる文書登録要求及びＵＲＩを受信すると、まず、その登録対象文書のファイルのファイル名及びＵＲＩを受け付け（ＳＰ１７０）、この後、その文書データ２５を対応するＷｅｂサーバ５５から取得する（ＳＰ１７１）。

　続いて、文書登録プログラム５３は、登録対象文書を文書管理テーブル２７に登録する（ＳＰ１７２）。具体的に、文書登録プログラム５３は、登録対象文書に対して未使用の文書番号のうちの最も小さい文書番号を付与すると共に、文書管理テーブル２７に新たな行を作成し、登録対象文書に付与した文書番号をその行の文書番号欄２７Ａに格納する。また文書登録プログラム５３は、その行のファイル名欄２７Ｂに、ステップＳＰ１７０において受け付けたファイル名を格納すると共に、当該行の格納先アドレス欄２７Ｃに、ステップＳＰ１７２で受け付けたその文書を格納すべきＵＲＩを格納する。また文書登録プログラム５３は、登録対象文書をインデックス管理テーブル２６にも登録するが（ＳＰ１７２）、この処理は第１の実施の形態と同様であるため、ここでの説明は省略する。

　次いで、文書登録プログラム５３は、インデックス生成プログラム１７２を起動し（ＳＰ１７３）、この後、この文書登録処理を終了する。

　なお、この後、インデックス生成プログラム２１により実行されるインデックス生成処理や、さらにこの後、クライアント５１からの文書検索要求が与えられたときにインデックス検索プログラム２２、文書検索プログラム２３及び検索結果返却プログラム２４により実行される各種処理の処理内容は、第１の実施の形態と同様であるため、ここでの説明は省略する。

（４－３）本実施の形態の効果
　以上のように本実施の形態の全文検索システム５０によれば、全文検索装置５２に登録された文書の文書データ２５を外部のＷｅｂサーバ５５から取得する場合においても、第１の実施の形態と同様の効果を得ることができる。

（５）第５の実施の形態
　例えば、第３の実施の形態においては、図５について上述したインデックス生成処理のステップＳＰ１４において、文書番号リストのインデックス属性を変更するか否かの判断基準値（以下、これをインデックス属性変換閾値と呼ぶ）が、文書番号リストに対象とする文書の文書番号を追加した場合に、その文書番号リストに登録された文書番号の総数が、全文検索装置４１に登録されている総文書番号数の50パーセントと予め定められており、このインデックス属性変換閾値は固定であった。

　しかしながら、このインデックス属性変換閾値をユーザが自在に設定できれば、ユーザにとっての利便性を向上させることができるものと考えられる。そこで、本実施の形態においては、このインデックス属性変換閾値をユーザが自在に設定できる点を特徴としている。

　図２８は、このような機能（以下、これをインデックス属性変換閾値変更機能と呼ぶ）が搭載された本実施の形態による全文検索システム６０を示す。本全文検索システム６０は、全文検索装置６１に上述のインデックス属性変換閾値変更機能が搭載されている点と、当該インデックス属性変換閾値変更機能を用いてユーザにより設定されたインデックス属性変換閾値に基づいて、全文検索装置６１に実装されたインデックス生成プログラム６２が、そのとき対象としている文書番号リストのインデックス属性を他のインデックス属性に変換するか否かを判断する点を除いて第３の実施の形態による全文検索システム３０（図１）と同様に構成されている。

　実際上、本全文検索システム６０の場合、全文検索装置６１は、図２４について上述した定期メンテナンス処理の終了後に、例えば図２９に示すようなインデックス属性変換閾値設定画面７０を出力装置１４に表示する。

　このインデックス属性変換閾値設定画面７０は、インデックス状態表示フィールド７１と、閾値設定フィールド７２と、ＯＫボタン７３及びキャンセルボタン７４とから構成される。

　そしてインデックス状態表示フィールド７１には、インデックス管理テーブル４２に登録された各タームのうち、文書番号リストのインデックス属性が「表」のタームについては文書番号数の昇順で、インデックス属性が「裏」のタームについては文書番号の降順で並ぶように、各タームにそれぞれ対応させて、そのタームの文書番号数に応じた長さの棒グラフ７５が表示される。この場合、これら棒グラフ７５のうち、文書番号リストのインデックス属性が「表」のタームに対応する棒グラフ７５ついては実線で表示され、文書番号リストのインデックス属性が「裏」のタームに対応する棒グラフ７５については破線で表示される。また、インデックス状態表示フィールド７１には、これらの棒グラフと対応付けて、現在設定されているインデックス属性変換閾値を表す二点鎖線が表示される。

　一方、閾値設定フィールド７２には、「半数より多い」という文字列及び「指定した割合より多い」という文字列と、これら文字列にそれぞれ対応付けられた第１及び第２の選択ボタン７６Ａ，７６Ｂとが表示される。そしてユーザは、第１の選択ボタン７６Ａを選択することによって、インデックス属性変換閾値の値として固定値の50パーセントを指定することができ、また第２の選択ボタン７６Ｂを指定すると共に、割合指定欄７７に所望の割合を入力することによって、このとき割合指定欄７７に入力した数値をインデックス属性変換閾値に指定することができる。なお本実施の形態においては、初期状態では、第１の選択ボタン７６Ａが選択され、インデックス属性変換閾値として固定値の50パーセントが設定されているものとする。

　かくしてユーザは、上述のように閾値設定フィールド７２においてインデックス属性変換閾値として所望の数値を指定した後、ＯＫボタン７３をクリックすることによって、インデックス属性変換閾値をそのとき閾値設定フィールド７２において指定した数値に設定することができる。そして、このとき設定されたインデックス属性変換閾値が閾値管理テーブル６３（図２８）に格納され、当該閾値管理テーブル６３が全文検索装置６１の補助記憶装置１２内に格納される。またユーザは、キャンセルボタン７４をクリックすることによって、インデックス属性変換閾値を設定又は変更することなく、インデックス属性変換閾値設定画面７０を閉じることができる。

　図３０は、かかるインデックス属性変換閾値設定画面７０に関してインデックス生成プログラム６２により実行されるインデックス属性変換閾値設定画面表示処理の処理手順を示す。インデックス生成プログラム６２（図２８）は、この図３０に示す処理手順に従って、インデックス属性変換閾値設定画面７０を出力装置１４に表示させる。

　実際上、インデックス生成プログラム６２は、一定の間隔あるいはユーザから指定されたタイミングにおいてこのインデックス属性変換閾値設定画面表示処理を開始し、まず、インデックス管理テーブル４２（図１６）から、対応する文書番号リストのインデックス属性が「表」のタームをすべて抽出し、抽出したタームを対応する文書番号リストに登録された文書番号数（文書番号数欄４２Ｃに格納された文書番号数）の昇順に並べたリストをリスト１として作成する（ＳＰ１８０）。

　次いで、インデックス生成プログラム６２は、インデックス管理テーブル４２から、対応する文書番号リストのインデックス属性が「裏」のタームをすべて抽出し、抽出したタームを、対応する文書番号リストに登録された文書番号数の降順に並べたリストをリスト２として作成する（ＳＰ１８１）。

　この後、インデックス生成プログラム６２は、ステップＳＰ１８０において作成したリスト１と、ステップＳＰ１８１において作成したリスト２とを、リスト１及びリスト２の順で連結することにより、表示用リストを作成する（ＳＰ１８２）。

　続いて、インデックス生成プログラム６２は、インデックス属性変換閾値設定画面７０を出力装置１４に表示させる（ＳＰ１８３）。この際、インデックス生成プログラム６２は、上述のように、そのインデックス属性変換閾値設定画面７０のインデックス状態表示フィールド７１に、表示用リストにリストアップされた順番で、各タームにそれぞれ対応する文書番号リストに登録された文書番号の数を棒グラフ７５で表示する。また、この際、インデックス生成プログラム６２は、文書番号リストのインデックス属性が「表」のタームについては実線、当該インデックス属性が「裏」のタームについては破線で棒グラフ７５を表示させる。

　一方、図３１は、かかるインデックス属性変換閾値設定画面７０上でインデックス属性変換閾値が設定された後にＯＫボタン７３がクリックされたときに、インデックス生成プログラム６２により実行される閾値設定処理の処理手順を示す。インデックス生成プログラム６２は、この図３１に示す処理手順に従って、インデックス属性変換閾値をインデックス属性変換閾値設定画面７０上で設定された数値に設定する。

　実際上、インデックス生成プログラム６２は、インデックス属性変換閾値設定画面７０のＯＫボタン７３がクリックされると、この閾値設定処理を開始し、まず、インデックス属性変換閾値設定画面７０上で設定されたインデックス属性変換閾値が、現在、閾値管理テーブル６３（図２８）に登録されている数値と異なるか否かを判断する（ＳＰ１９０）。

　そして、インデックス生成プログラム６２は、この判断で否定結果を得ると、この閾値設定処理を終了する。

　これに対して、インデックス生成プログラム６２は、この判断で肯定結果を得ると、閾値管理テーブル６３に格納されているインデックス属性変換閾値を、インデックス属性変換閾値設定画面７０上でインデックス属性変換閾値として設定された数値に更新し（ＳＰ１９１）、この後、インデックス管理テーブル４２の各行のうち、後述するステップＳＰ１９２～ステップＳＰ１９８の処理を未だ実行していない行を１つ選択する（ＳＰ１９２）。

　続いて、インデックス生成プログラム６２は、ステップＳＰ１９２において選択した行のインデックス属性欄４２Ｂ（図１６）に格納されている対応する文書番号リストのインデックス属性が「表」であるか否かを判断する（ＳＰ１９３）。

　インデックス生成プログラム６２は、この判断で否定結果を得ると、ステップＳＰ１９２において選択した行の文書番号数欄４２Ｃ（図１６）に格納されている文書番号数が、文書管理テーブル２７（図２８）に登録されている文書番号の最大値×閾値よりも大きいか否かを判断する（ＳＰ１９４）。

　そしてインデックス生成プログラム６２は、この判断で否定結果を得るとステップＳＰ１９８に進み、これに対して肯定結果を得ると、その行の文書番号リスト欄４２Ｅ（図１６）に格納されている文書番号リストのインデックス属性を「表」に変換する変換処理を実行し（ＳＰ１９６）、この後、ステップＳＰ１９８に進む。

　これに対して、インデックス生成プログラム６２は、ステップＳＰ１９３の判断で肯定結果を得ると、ステップＳＰ１９２において選択した行の文書番号数欄４２Ｃに格納されている文書番号数が、文書管理テーブル２７に登録されている文書番号の最大値×閾値よりも大きいか否かを判断する（ＳＰ１９６）。

　そしてインデックス生成プログラム６２は、この判断で否定結果を得るとステップＳＰ１９８に進み、これに対して肯定結果を得ると、その行の文書番号リスト欄４２Ｅに格納されている文書番号リストのインデックス属性を「裏」に変換する変換処理を実行し（ＳＰ１９７）、この後、ステップＳＰ１９８に進む。

　続いて、インデックス生成プログラム６２は、インデックス管理テーブル４２のすべての行についてステップＳＰ１９４～ステップＳＰ１９８の処理を実行し終えたか否かを判断する（ＳＰ１９８）。そしてインデックス生成プログラム６２は、この判断で否定結果を得るとステップＳＰ１９２に戻り、この後、ステップＳＰ１９２において選択する行を順次他の行に切り替えながら、ステップＳＰ１９２～ステップＳＰ１９７の処理を繰り返す。

　そしてインデックス生成プログラム６２は、やがてインデックス管理テーブル４２のすべての行についてステップＳＰ１９４～ステップＳＰ１９７の処理を実行し終えることによりステップＳＰ１９８で肯定結果を得ると、この閾値設定処理を終了する。

　なお、この後、文書登録プログラム２０により実行される文書登録処理や、インデックス生成プログラム６２により実行されるインデックス生成処理、クライアント５１からの文書検索要求が与えられたときにインデックス検索プログラム２２、文書検索プログラム２３及び検索結果返却プログラム２４により実行される各種処理の処理内容は、第３の実施の形態と同様であるため、ここでの説明は省略する。

　以上のように本実施の形態による全文検索システム６０によれば、インデックス属性変換閾値をユーザが自在に設定及び変更できるため、第３の実施の形態により得られる効果に加えて、ユーザにとっての利便性を向上させる全文検索システムを実現できる。

（５）他の実施の形態
　なお上述の第１～第５の実施の形態においては、本発明をハイブリッド型検索方式による文書検索処理を実行する全文検索装置３，３１，４１，５２，６１に適用するようにした場合について述べたが、本発明はこれに限らず、インデックス型検索方式による文書検索処理を実行する検索装置にも適用することができる。

　また上述の第１～第５の実施の形態においては、全文検索装置３，３１，４１，５２，６１に登録された文書のインデックスを管理する管理情報としての転置インデックスを図２又は図１６のように構成する場合について述べたが、本発明はこれに限らず、転置インデックスの構成としては、この他種々の構成を広く適用することができる。

　さらに上述の第１～第５の実施の形態においては、全文検索装置３，３１，４１，５２，６１に登録された文書に付与する識別情報として番号（文書番号）を適用するようにした場合について述べたが、本発明はこれに限らず、例えばアルファベットを組み合わせたＩＤなど、文書の登録順番を認識可能なこの他種々の識別情報を広く適用することができる。

　さらに上述の第４の実施の形態においては、文書データ２５を保存する外部記憶装置としてＷｅｂサーバ５５を適用するようにした場合について述べたが、本発明はこれに限らず、例えばディスクアレイ装置等の記憶装置を適用するようにしても良い。

　本発明は、インデックス型検索方式の文書検索処理を実行する種々の構成の検索装置に広く適用することができる。

　１，３０，４０，５０，６０……全文検索システム、２，５１……クライアント、３，３１，４１，５２，６１……全文検索装置、１０……ＣＰＵ、２０，５３……文書登録プログラム、２１，４４，６２……インデックス生成プログラム、２２，４５……インデックス検索プログラム、２３……文書検索プログラム、２４……検索結果返却プログラム、２５……文書データ２５、２６，４２……インデックス管理テーブル、２７……文書管理テーブル、４３……文書番号管理テーブル、５５……Ｗｅｂサーバ、６３……閾値管理テーブル、７０……インデックス属性変換閾値設定画面。

Claims

　登録された文書群から検索キーワードを含む文書を検索する検索装置において、
　上位装置からの登録要求に応じて、新たな文書を前記文書群に登録する文書登録部と、
　前記新たな文書から前記第１のタームを抽出し、抽出した前記第１のタームが前記管理情報に登録されているときには、当該第１のタームに対応する前記リストに当該新たな文書の識別情報を登録し、抽出した前記第１のタームが前記管理情報に登録されていないときには、当該第１のタームを前記管理情報に新たに登録し、当該第１のタームに対応するリストに当該新たな文書の識別情報を登録するインデックス生成処理を実行するインデックス生成部と、
　指定された検索キーワードから前記第１のタームと同じ文字数の第２のタームを抽出し、抽出した前記第２のタームと、前記管理情報とに基づいて、前記検索キーワードを含む文書を特定するインデックス検索部と
　を備え、
　前記インデックス生成部は、
　前記第１のタームに対応する前記リストに前記新たな文書の識別情報を登録する際、当該リストに登録された前記文書の識別情報の総数が既定の閾値を越えるときには、当該リストの属性を、当該リストに登録された文書が対応する前記第１のタームを含む第１の属性から、当該リストに登録された文書が対応する前記第１のタームを含まない第２の属性に変換する属性変換処理を実行し、
　前記管理情報は、
　前記リストの属性が前記第１又は第２の属性のいずれであるかを表す前記リストごとの属性情報を含む
　ことを特徴とする検索装置。
　前記インデックス検索部により特定された個々の文書をそれぞれ全文検索することにより、前記検索キーワードを含む文書を特定する文書検索部を備える
　ことを特徴とする請求項１に記載の検索装置。
　前記インデックス生成部は、
　前記インデックス生成処理の終了後に、前記管理情報に含まれる前記リストのうち、属性が第２の属性の各前記リストであって、当該インデックス生成処理により前記新たな文書の文書番号が登録された前記リスト以外の前記リストに対して、当該新たな文書の識別情報を登録する
　ことを特徴とする請求項１に記載の検索装置。
　前記リストの属性として、属性が前記第２の属性から前記第１の属性に切り替わる第３の属性が設けられ、
　前記インデックス生成部は、
　前記管理情報に含まれる前記リストの属性が前記第２の属性である場合に、当該リストに対応する前記第１のタームを含む新たな文書が前記文書群に登録されたときには、当該新たな文書の識別情報を当該リストに登録すると共に、当該リストの属性を、当該識別情報よりも前を前記第１の属性とし、当該識別情報以降を前記第２の属性とする前記第３の属性に設定する
　ことを特徴とする請求項１に記載の検索装置。
　前記文書登録部は、
　登録された各前記文書の文書データを、外部記憶装置に転送して当該外部記憶装置に格納する
　ことを特徴とする請求項１に記載の検索装置。
　前記閾値を設定するための所定の設定画面を表示する出力装置を備え、
　前記インデックス生成部は、
　当該設定画面を用いて設定された前記閾値を用いて前記属性変換処理を実行する
　ことを特徴とする請求項１に記載の検索装置。
　登録された文書群から検索キーワードを含む文書を検索する検索方法において、
　上位装置からの登録要求に応じて、新たな文書を前記文書群に登録する第１のステップと、
　前記新たな文書から前記第１のタームを抽出し、抽出した前記第１のタームが前記管理情報に登録されているときには、当該第１のタームに対応する前記リストに当該新たな文書の識別情報を登録し、抽出した前記第１のタームが前記管理情報に登録されていないときには、当該第１のタームを前記管理情報に新たに登録し、当該第１のタームに対応するリストに当該新たな文書の識別情報を登録するインデックス生成処理を実行する第２のステップと、
　指定された検索キーワードから前記第１のタームと同じ文字数の第２のタームを抽出し、抽出した前記第２のタームと、前記管理情報とに基づいて、前記検索キーワードを含む文書を特定する第３のステップと
　を備え、
　前記第２のステップでは、
　前記第１のタームに対応する前記リストに前記新たな文書の識別情報を登録する際、当該リストに登録された前記文書の識別情報の総数が既定の閾値を越えるときには、当該リストの属性を、当該リストに登録された文書が対応する前記第１のタームを含む第１の属性から、当該リストに登録された文書が対応する前記第１のタームを含まない第２の属性に変換する属性変換処理を実行し、
　前記管理情報は、
　前記リストの属性が前記第１又は第２の属性のいずれであるかを表す前記リストごとの属性情報を含む
　ことを特徴とする検索方法。
　前記第３のステップで特定された個々の文書をそれぞれ全文検索することにより、前記検索キーワードを含む文書を特定する第４のステップを備える
　ことを特徴とする請求項７に記載の検索方法。
　前記第２のステップでは、
　前記インデックス生成処理の終了後に、前記管理情報に含まれる前記リストのうち、属性が第２の属性の各前記リストであって、当該インデックス生成処理により前記新たな文書の文書番号が登録された前記リスト以外の前記リストに対して、当該新たな文書の識別情報を登録する
　ことを特徴とする請求項７に記載の検索方法。
　前記リストの属性として、属性が前記第２の属性から前記第１の属性に切り替わる第３の属性が設けられ、
　前記第２のステップでは、
　前記管理情報に含まれる前記リストの属性が前記第２の属性である場合に、当該リストに対応する前記第１のタームを含む新たな文書が前記文書群に登録されたときには、当該新たな文書の識別情報を当該リストに登録すると共に、当該リストの属性を、当該識別情報よりも前を前記第１の属性とし、当該識別情報以降を前記第２の属性とする前記第３の属性に設定する
　ことを特徴とする請求項７に記載の検索方法。
　前記第１のステップでは、
　登録された各前記文書の文書データを、外部記憶装置に転送して当該外部記憶装置に格納する
　ことを特徴とする請求項７に記載の検索方法。
　前記第２のステップでは、
　前記閾値を設定するための所定の設定画面を用いて設定された前記閾値を用いて前記属性変換処理を実行する
　ことを特徴とする請求項７に記載の検索方法。