JP3564999B2 - Information retrieval device - Google Patents
Information retrieval device Download PDFInfo
- Publication number
- JP3564999B2 JP3564999B2 JP06658598A JP6658598A JP3564999B2 JP 3564999 B2 JP3564999 B2 JP 3564999B2 JP 06658598 A JP06658598 A JP 06658598A JP 6658598 A JP6658598 A JP 6658598A JP 3564999 B2 JP3564999 B2 JP 3564999B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- unit
- search engine
- bibliographic
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は電子化された文書データから情報検索を行なう場合において、複数の検索エンジンで構成された場合でも、高速に書誌一覧の取得が可能な情報検索装置に関するものである。
【0002】
【従来の技術】
近年、ワープロやパソコンの普及により、大量の文書情報が蓄積され、必要に応じて文書情報を検索する文書データベースに対する関心が高まってきている。また、文書情報に対して、キーワードを付けずに文書の内容から検索する全文検索方式が注目され、インターネットのホームページ検索等で利用されている。この全文検索方式を用いた検索システムは、サーバー・クライアント、またはWWWサーバと接続した形態でユーザが使用できる。このような検索システでは、1つのユーザに検索システムを専有させるのではなく、検索結果の一覧を表示する場合には数十件単位で表示することで、ユーザ要求を同時に処理する方法が取られている。更に、検索結果一覧は単に登録順に出力するのではなく、文書と検索条件の間にある基準を設けて数値化(スコア)し、得られたスコアに従って書誌一覧を順位付けしている。このようにすることで、ユーザの要望に近い検索結果を出力することができる。ここで、「数値化」とは、一律に数値化しているだけでなく、検索対象となる文章(例えば短い文章は長い文章よりも重みづける等)、単語によって重みづけをつけて数値化することも含む意味である。また、「書誌一覧」とは、文書番号だけではユーザにわかりにくいので、例えばホームページのタイトルやURL(Universal Resource Locator)などを意味する。
【0003】
以下、従来の情報検索装置について説明する。
図8は従来の情報検索装置の構成を示すものである。図8において、81−1,81−2、・・・・、81−nはクライアント部で、82は通信部で、83は検索エンジン部で、84は索引格納部で、85は書誌格納部である。
【0004】
以上のように構成された情報検索装置について、以下その動作について説明する。まず、各クライアント部81−1,81−2、・・・・、81−nでユーザからの検索要求を通信部82に送る。通信部82は複数のクライアント部からの検索要求を内部に格納し、検索エンジン部83に送る。検索エンジン部83は索引格納部84から索引情報を読み出して高速に検索を行ない通信部82に返す。通信部82では検索結果件数をクライアント部81−1,81−2、・・・・、81−nに返す。またクライアント部81−1,81−2、・・・・、81−nから検索にヒットした書誌一覧の要求を通信部82に送る。通信部82は書誌一覧要求を検索エンジン部83に送る。検索エンジン部83は、書誌格納部85から書誌一覧を読み出して書誌一覧の作成を行ない、通信部82に返す。通信部82では書誌一覧をクライアント部81−1,81−2、・・・・、81−nに返す。
【0005】
【発明が解決しようとする課題】
しかしながら上記の従来の構成では、格納する文書件数が数千万件を増えるような場合には、1つの計算機では検索性能の低下や、ハードディスクやメモリなどの物理的な計算機資源の制約によって限界があり、複数の計算機で対応する必要があった。しかしながら、複数の計算機で対応するには複数の検索エンジン部で対応することになり、順序付けされた書誌一覧を取得する場合において、検索エンジン間の通信負荷が大きくなるために、全体の性能が低下するという課題を有していた。
【0006】
本発明は上記従来技術の課題を解決するもので、複数検索エンジンの構成で順序付けされた書誌一覧を取得する場合でも通信負荷を最小限にすることを目的とする。
【0007】
【課題を解決するための手段】
この目的を達成するために本発明における情報検索装置は、第1に、少なくとも文書データの検索と書誌一覧の作成と検索結果をある基準値に従って順序付けをそれぞれ独立して行なう複数の検索エンジン部と、検索を行うための検索情報を格納する索引格納部と、書誌一覧を作成するための情報を格納する書誌格納部と、複数の検索エンジン部の検索結果の全体を順序付けする全体ソート部とを備え、全体ソート部で、検索結果の先頭から所定の順序付けられた基準値までを各検索エンジン部から取得することにより、検索結果の書誌一覧を取得することを特徴とする。上記構成によって、書誌一覧を高速に作成することができる。
【0008】
第2に、全体ソート部は、検索結果全体の半分以降に位置づけられた書誌一覧を取得する場合に、検索エンジン部の検索結果の末尾から順序付けの基準値を取得することを特徴とする。これにより、複数の検索エンジン部で書誌一覧を取得する場合に、全体ソート部において複数の検索エンジン部の検索履歴のスコアを全て抽出するのではなく、検索結果の先頭または末尾からの取得番号と取得件数に応じて部分的にスコアを抽出することにより、高速に書誌一覧の作成することができる。
【0009】
第3に、全体ソート部は、検索結果を順序付けの基準値でn分割し(n≧2)、各々分割された基準値の下限値以上の件数を各検索エンジンから最初に取得して、各範囲内の件数を累計することで、目的の書誌一覧の位置を割り出すことを可能にした。これにより、スコアの件数分布を各検索エンジン部から取得して、件数分布から必要となる検索結果の位置を再度計算してスコアを部分的に取得することで、高速に書誌一覧の作成することができる。
【0010】
【発明の実施の形態】
(実施の形態1)
以下、本発明の第1の実施例について、図面を参照しながら説明する。
【0011】
図1は本発明の一実施例における情報検索装置の構成図である。図1において、11−1、11−2、・・・・、11−nはクライアント部、12は通信部、13−1、13−2、・・・・、13−nは検索エンジン部、14は全体ソート部、15は高スコア記憶部、16は索引格納部、17は書誌格納部である。
【0012】
以上のように構成された情報検索装置について、その動作を説明する。まず、各クライアント部11−1、11−2、・・・・、11−nでユーザからの検索要求を通信部12に転送し、通信部12は検索要求がきた場合には各検索エンジン部13に対して検索件数の要求を行ない、各検索エンジン部13−1、13−2、・・・・、13−nは索引格納部16から検索するための索引情報を読み出して検索し、検索結果件数を通信部12に渡す。通信部12は各検索エンジン部13−1、13−2、・・・・、13−nの検索結果件数を合計してクライアント部に返す。また通信部12はクライアント部11−1、11−2、・・・・、11−nから書誌一覧の要求がきた場合には、全体ソート部14に対して書誌一覧の先頭からの番号と取得する件数を送る。全体ソート部14は各検索エンジン部13−1、13−2、・・・・、13−nに対して検索結果の情報が格納される検索履歴中の検索要求と文書間である基準で求めた値(スコア)を({取得開始番号}+{取得件数}−1)件分だけ要求する。検索エンジン部13−1、13−2、・・・・、13−nはスコアに従ってソートし、要求された件数分だけスコアを全体ソート部14に返す。全体ソート部14では得られた各検索エンジン部13−1、13−2、・・・・、13−nのスコアをスコア順に並べ変え、各検索エンジン部13−1、13−2、・・・・、13−nの開始番号と取得件数を求める。全体ソート部14は求めた開始番号と取得件数を各検索エンジン部13−1、13−2、・・・・、13−nに送り、各検索エンジン部13−1、13−2、・・・・、13−nは開始番号から検索履歴の文書番号を読み出して、文書番号から書誌格納部17から書誌内容を作成して全体ソート部14に送る。全体ソート部14は各検索エンジン部133−1、13−2、・・・・、13−nから得られた書誌の内容と、スコア順に並べ変えた情報から書誌を並べ変えることで書誌一覧を作成し通信部12に返す。通信部12はクライアント部11−1、11−2、・・・・、11−nに書誌一覧を転送して処理が終了する。
【0013】
図2は検索エンジン部13−1、13−2、・・・・、13−nで格納されている検索結果の情報である検索履歴の例を示し、ここでは3台の検索エンジンの検索履歴を示す。21は第1検索エンジン部の検索履歴で、22は第2検索エンジン部の検索履歴で、23は第3検索エンジン部の検索履歴である。それぞれの履歴は、スコアで降順にソートされている状態を示す。この検索履歴に対して、取得開始番号が1で取得件数が10件の書誌一覧を取得する場合には、全体ソート部14で、{1+10−1=10}件のスコアの取得要求を各検索エンジン部13に送ることになり、各検索エンジン部13−1、13−2、・・・・、13−nは上位10件のスコアを取り出した例が、24、25、26である。24は第1検索エンジン部の10件分のスコアを示し、25は第2検索エンジン部の10件分のスコアを表し、26は第3検索エンジン部の10件分のスコアを表す。以上の例に示すように、各検索エンジンで上位のスコアを求めることができる。
【0014】
図3は図2のスコアを全体ソート部14でソートした例を示す図である。
この図では3台の検索エンジンのそれぞれ10件ずつの検索履歴を取得し、全体で30件の検索履歴をスコア順に並べ変えたものである。この例では取得開始番号が1で取得件数が10件なので、1〜10番目の検索履歴がクライアント部11−1、11−2、・・・・、11−nに返す書誌一覧になる。この検索履歴から各々の検索エンジン部13−1、13−2、・・・・、13−nに対する開始番号と取得件数を求めた図が図3である。この例では第1検索エンジン部には開始番号1で取得件数2、第2検索エンジン部には開始番号1で取得件数4、第3検索エンジン部には開始番号1で取得件数4になる。以上の例に示すように、全体ソート部14でスコアをソートして、各検索エンジン部13−1、13−2、・・・・、13−nに要求するための開始番号と取得件数を求めることができる。
【0015】
図4は図3の各検索エンジン部の開始番号と取得件数から書誌を取得し、書誌一覧を作成する過程を示す図である。
【0016】
各検索エンジン部13−1、13−2、・・・・、13−nで検索履歴から文書番号を求めて、書誌格納部17から文書番号に該当する書誌内容を読み出し、全体ソート部14に各検索エンジン部13−1、13−2、・・・・、13−nで得られた書誌を転送する。全体ソート部14では各々の書誌をスコア順に並び替えて書誌一覧を作成し、通信部12に書誌一覧を返す。
【0017】
以上の例に示すように、各検索エンジンの開始番号と取得件数から書誌内容を作成し、全体ソート部で再度並べ替えることで、書誌一覧を作成することができる。
【0018】
以上のように本実施例によれば、複数検索エンジン部で構成された情報検索装置において、スコアなどで順序付けされた検索結果から目的の書誌一覧を取得する場合に、全体ソート部と高スコア記憶部を設けることにより、必要な検索履歴を部分的に取得するだけで、書誌一覧を高速に作成することができる。
【0019】
なお、実施の形態1においてクライアント部と通信部と検索エンジン部と全体ソート部はつの計算機で行なってもよいし、全て別々の計算機で行なってもよい。また部分的に1つの計算機で行なってもよいものとする。
【0020】
また、実施の形態1において通信部は各検索エンジン部の検索結果件数を保持して全体ソート部に渡すことで、全体ソート部が検索結果件数が0件の検索エンジン部に対しては、書誌の取得要求を行なわないことで、0件の検索エンジン部との通信時間を低減することができる。
【0021】
(実施の形態2)
以下、本発明の実施の形態2について、図面を参照しながら説明する。
【0022】
図5は本発明の一実施例における情報検索装置を示す図である。
図5において、51−1、51−2、・・・・、51−nはクライアント部、52は通信部、53−1、53−2、・・・・、53−nは検索エンジン部、56は索引格納部、57は書誌格納部で、以上は図1の構成と同様なものである。図1の構成と異なるのは全体ソート部54とスコア記憶部55を、検索履歴からスコア情報を取得する場合に、スコアの高い順に取得して記憶するのではなく、取得開始番号の位置によって、スコアの高い順に取得するかスコアの低い順に取得するかを自動的に選択することができるようにした点である。
【0023】
例えば、新聞記事が日付順に並んでいない場合であって、新しい記事を取得したい場合には、先頭から取得するよりも、末尾から取得した方が効率的に検索できる場合がある。
【0024】
上記のように構成された情報検索装置について、以下その動作を説明する。
まず、クライアント部51−1、51−2、・・・・、51−nでユーザからの検索要求を通信部52に転送し、通信部52は検索要求がきた場合には各検索エンジン部53−1、53−2、・・・・、53−nに対して検索件数の要求を行ない、各検索エンジン部53−1、53−2、・・・・、53−nは索引格納部56から検索するための索引情報を読み出して検索し、検索結果件数を通信部52に渡す。通信部52は各検索エンジン部53−1、53−2、・・・・、53−nの検索結果件数を合計してクライアント部51に返す。また通信部52は書誌一覧の要求がきた場合には、全体ソート部54に対して書誌一覧の取得開始番号と取得件数を送る。全体ソート部54は各検索エンジン部53−1、53−2、・・・・、53−nに対して、全体の検索結果件数を2で割った値より取得開始番号が大きい場合には、検索履歴の末尾から({全体の検索結果件数}−{取得開始番号}−{取得件数}+2)番目で({全体の検索結果件数}−{取得開始番号}+1)件取得することを要求する。検索エンジン部53−1、53−2、・・・・、53−nはスコアに従ってソートし、ソートした結果の先頭または末尾から要求された件数分だけ、スコアを全体ソート部54に返す。全体ソート部54では得られた各検索エンジン部53−1、53−2、・・・・、53−nのスコアを、先頭から取得した場合は、降順にスコアに並べ替え、末尾から取得した場合は、昇順にスコアを並び替えて、各検索エンジン部53−1、53−2、・・・・、53−nの開始番号と取得件数を求める。全体ソート部54は求めた開始番号と取得件数を各検索エンジン部53−1、53−2、・・・・、53−nに送り、各検索エンジン部53−1、53−2、・・・・、53−nは開始番号から検索履歴の文書番号を読み出して、文書番号から書誌格納部57から書誌内容を作成して全体ソート部54に送る。全体ソート部54は各検索エンジン部533−1、53−2、・・・・、53−nから得られた書誌の内容と、スコア順に並べ替えた情報から書誌を並べ変えることで書誌一覧を作成し通信部52に返す。通信部はクライアント部51−1、51−2、・・・・、51−nに書誌一覧を転送して処理が終了する。
【0025】
以上のように、全体ソート部が書誌一覧の取得する位置に応じて先頭または末尾から検索履歴のスコアを取得することで、全体ソート部に転送するスコアが少なくなり、更に全体ソート部54でソートする件数も少なくなり、より高速な書誌一覧の取得を行なうことができる。
【0026】
なお、実施の形態2において検索履歴の末尾から取得するとしたが、検索エンジン部でのソートを降順から昇順にソートすることで、先頭から取得するようにしてもよい。
【0027】
(実施の形態3)
以下、本発明の実施の形態3について、図面を参照しながら説明する。
【0028】
図6は本発明の一実施例における情報検索装置を示す図である。
図6において、61−1、61−2、・・・・、61−nはクライアント部、62は通信部、63−1、63−2、・・・・、63−nは検索エンジン部、67は索引格納部、67は書誌格納部で、以上は図1の構成と同様なものである。図1の構成と異なるのは全体ソート部64とスコア記憶部65とスコア分布記憶部66であり、書誌一覧を取得する場合に全体ソート部64でスコアと件数の分布情報を検索エンジン部63−1、63−2、・・・・、63−nから取得して、各スコア範囲内で件数を合計(累計)することで、検索エンジン部63−1、63−2、・・・・、63−nから取得するスコア件数を減らすことができる。
【0029】
上記のように構成された情報検索装置について、以下その動作を説明する。
まず、クライアント部61−1、61−2、・・・・、61−nでユーザからの検索要求を通信部62に転送し、通信部62は検索要求がきた場合には各検索エンジン部63−1、63−2、・・・・、63−nに対して検索件数の要求を行ない、各検索エンジン部63−1、63−2、・・・・、63−nは索引格納部67から検索するための索引情報を読み出して検索し、検索結果件数を通信部62に渡す。通信部62は各検索エンジン部63−1、63−2、・・・・、63−nの検索結果件数を合計してクライアント部61に返す。
【0030】
また、通信部62は書誌一覧の要求がきた場合には、全体ソート部64に対して書誌一覧の先頭からの番号と取得する件数を送る。全体ソート部64はスコアの最大値をmとして0〜mまでのスコアをn分割した各スコア範囲内ではスコアの下限値以上の件数を検索エンジン部63−1、63−2、・・・・、63−nから取得するように要求する。検索エンジン部63−1、63−2、・・・・、63−nでは検索履歴のスコアから各スコア範囲内の下限値以上の件数を求め、全体ソート部64に送る。全体ソート部か各検索エンジンから得られたスコア分布をスコア分布記憶部66に格納し、全体のスコア分布を作成する。これにより、書誌一覧の取得開始番号がどのスコア範囲内に位置するかわかるので、再度検索エンジン部63−1、63−2、・・・・、63−nに対してスコアがs以下で、かつ({取得開始番号}−{1つ上のスコア範囲の下限スコア以上の値を持つ件数}+{取得件数}−1)件のスコアと通し番号を取得して、全体ソート部64に送る。全体ソート部64では得られた各検索エンジン部63−1、63−2、・・・・、63−nのスコアをスコア順に並べ変え、各検索エンジン部63−1、63−2、・・・・、63−nの開始番号と取得件数を求める。全体ソート部64は求めた開始番号と取得件数を各検索エンジン部63−1、63−2、・・・・、63−nに送り、各検索エンジン部63−1、63−2、・・・・、63−nは開始番号から検索履歴の文書番号を読み出して、文書番号から書誌格納部68から書誌内容を作成して全体ソート部64に送る。全体ソート部64は各検索エンジン部63−1、63−2、・・・・、63−nから得られた書誌の内容と、スコア順に並べ変えた情報から書誌を並べ変えることで書誌一覧を作成し通信部62に返す。通信部62はクライアント部61−1、61−2、・・・・、61−nに書誌一覧を転送して処理が終了する。
【0031】
図7は検索エンジン部でスコア分布を作成した例を示す図である。3つの検索エンジンが検索履歴のスコアから各スコア範囲の下限値以上の件数を求めたものが71、72、73である。それぞれのスコア分布は全体ソート部64に送られ、74に示すように各スコア範囲内で3つの検索エンジン部63のスコアが全体ソート部64で合計される。この図の例では、取得開始番号が501番目で取得件数が20件の場合は、スコアが800以上が476件であるため、501番目はスコアが801以下である。このため、全体ソート部64は、各検索エンジンに対して、スコアが801以下で、46件(501−476+20+1=46件)のスコアと通し番号を取得する。更に、全体ソート部64は各検索エンジンから取得したスコアを降順に並び替えて、34件目(501番目−476件)から20件のエンジン番号と通し番号と件数を取得することで、目的の書誌一覧を各検索エンジン部63から取得することができる。
【0032】
なお、実施の形態3において全体ソート部は検索履歴の分割個数をnとしたが、検索結果件数に応じてnを変動させてもよい。例えば検索結果件数が多い場合にはnを大きくし、少ない場合にはnを小さくする。またスコア範囲内の平均件数を同じにすることで、分割個数nを変動させてもよい。
【0033】
また、実施の形態3において全体ソート部は検索結果件数と書誌一覧を取得する位置に応じて第1の実施例と第2の実施例の処理を組み合わせてもよい。例えば検索結果件数が100件程度の少ない件数であれば、スコア分布を取得しないで、第1の実施例の処理方法で行なえばよい。また検索結果件数が多い場合でも先頭からの20件程度であれば、スコア分布を取得しないで、実施の形態1の処理方法で行なえばよい。
【0034】
また、実施の形態3において全体ソート部でスコアの最大値をmとしたが、Mは検索エンジンから件数を取得すると同時にスコアの最大値を求め、それを用いてもよい。
【0035】
また、実施の形態1において検索履歴を並べ変える基準として、検索要求と文書間の関係を数値化したスコアを用いたが、日付けなどの数値情報を用いて並べ変えてもよいものとする。この数値情報を用いることは、第2と第3の実施例でも同じように処理できることは言うまでもない。
【0036】
【発明の効果】
以上のように本発明は、少なくとも文書データの検索と書誌一覧の作成と検索結果をある基準値に従って順序付けをそれぞれ独立して行なう複数の検索エンジン部と、検索を行うための検索情報を格納する索引格納部と、書誌一覧を作成するための情報を格納する書誌格納部と、複数の検索エンジン部の検索結果の全体を順序付けする全体ソート部とを備え、全体ソート部で、検索結果の先頭から所定の順序付けられた基準値までを各検索エンジン部から取得することにより、書誌一覧を取得するために全体ソート部と各検索エンジン部の通信量を減らし、複数検索エンジンの環境でも高速に書誌一覧を取得することができるという効果を有する。
【0037】
また、全体ソート部は、検索結果全体の半分以降に位置づけられた書誌一覧を取得する場合に、検索エンジン部の検索結果の末尾から順序付けの基準値を取得するようにしたので、全体ソート部において複数の検索エンジン部の検索履歴のスコアを全て抽出するのではなく、検索結果の先頭または末尾からの取得番号と取得件数に応じて部分的にスコアを抽出することにより、高速に書誌一覧の作成することができるという効果を有する。
【0038】
また、検索結果を順序付けの基準値でn分割し、各々分割された基準値の下限値以上の件数を各検索エンジンから取得して、これらの件数を累計することにより、スコアの件数分布を各検索エンジン部から取得して、件数分布から必要となる検索結果の位置を再度計算してスコアを部分的に取得することで、高速に書誌一覧の作成することができるという効果を有する。
【図面の簡単な説明】
【図1】本発明の実施の形態1における情報検索装置の構成図
【図2】実施の形態1における検索エンジン部の動作例を示す図
【図3】実施の形態1における全体ソート部の動作例を示す図
【図4】実施の形態1における書誌一覧作成例を示す図
【図5】本発明の実施の形態2における情報検索装置の構成図
【図6】本発明の実施の形態3における情報検索装置の構成図
【図7】実施の形態3における全体ソート部の動作例を示す図
【図8】従来の情報検索装置の構成図
【符号の説明】
11−1 11−2 11−n クライアント部
12 通信部
13−1 13−2 13−n 検索エンジン部
14 全体ソート部
15 高スコア記憶部
16 索引格納部
17 書誌格納部
51−1 51−2 51−n クライアント部
52 通信部
53−1 53−2 53−n 検索エンジン部
54 全体ソート部
55 スコア記憶部
56 索引格納部
57 書誌格納部
61−1 61−2 61−n クライアント部
62 通信部
63−1 63−2 63−n 検索エンジン部
64 全体ソート部
65 スコア分布記憶部
66 スコア記憶部
67 索引格納部
68 書誌格納部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an information search apparatus capable of obtaining a bibliographic list at a high speed even when a plurality of search engines are used to search for information from digitized document data.
[0002]
[Prior art]
In recent years, with the spread of word processors and personal computers, a large amount of document information has been accumulated, and interest in a document database for searching document information as necessary has been increasing. Also, a full-text search method for searching the document information from the contents of the document without adding a keyword has attracted attention, and is used in a homepage search on the Internet. A search system using this full-text search method can be used by a user in a form connected to a server client or a WWW server. In such a search system, a method of processing user requests simultaneously by displaying a list of search results in units of dozens when displaying a list of search results instead of letting one user occupy the search system is adopted. ing. Further, the search result list is not simply output in the order of registration, but is digitized (score) by setting a reference between the document and the search condition, and the bibliographic list is ranked according to the obtained score. By doing so, it is possible to output a search result close to the user's request. Here, "quantification" means not only uniform numerical conversion but also numerical conversion by weighting words to be searched (for example, short sentences are weighted more than long sentences, etc.) and words. The meaning also includes. Also, the “bibliographic list” is difficult for the user to understand only by the document number, and thus means, for example, the title of a homepage or a URL (Universal Resource Locator).
[0003]
Hereinafter, a conventional information retrieval apparatus will be described.
FIG. 8 shows a configuration of a conventional information retrieval apparatus. In FIG. 8, 81-1, 81-2,..., 81-n are client units, 82 is a communication unit, 83 is a search engine unit, 84 is an index storage unit, and 85 is a bibliographic storage unit. It is.
[0004]
The operation of the information retrieval device configured as described above will be described below. First, each client unit 81-1, 81-2,..., 81-n sends a search request from the user to the
[0005]
[Problems to be solved by the invention]
However, in the above-described conventional configuration, when the number of documents to be stored is increased by tens of millions, a single computer has a limit due to a decrease in search performance and a limitation of physical computer resources such as a hard disk and a memory. Yes, it was necessary to deal with multiple computers. However, when multiple computers are used, multiple search engines are used, and when an ordered bibliographic list is obtained, the communication load between the search engines increases, and the overall performance decreases. Had the problem of doing so.
[0006]
An object of the present invention is to solve the above-mentioned problems of the prior art, and to minimize the communication load even when an ordered bibliographic list is obtained with a configuration of a plurality of search engines.
[0007]
[Means for Solving the Problems]
In order to achieve this object, an information retrieval apparatus according to the present invention comprises, firstly, a plurality of search engine units each independently performing at least retrieval of document data, creation of a bibliographic list, and ordering of retrieval results according to a certain reference value. An index storage unit for storing search information for performing a search, a bibliographic storage unit for storing information for creating a bibliographic list, and an entire sort unit for ordering the entire search results of a plurality of search engine units. In addition, a bibliographic list of search results is obtained by obtaining, from each search engine unit, up to a predetermined ordered reference value from the beginning of the search results in the overall sort unit. With the above configuration, a bibliographic list can be created at high speed.
[0008]
Secondly, when the bibliographic list positioned after half of the entire search result is obtained, the entire sort unit obtains a reference value for ordering from the end of the search result of the search engine unit. With this, when a bibliography list is acquired by a plurality of search engine units, the entire sort unit does not extract all the scores of the search histories of the plurality of search engine units, but obtains the acquisition number from the beginning or end of the search result. By extracting a score partially according to the number of acquisitions, a bibliographic list can be created at high speed.
[0009]
Third, the entire sort unit divides the search result into n parts by the reference value for ordering (n ≧ 2), first obtains the number of records that are equal to or more than the lower limit of the divided reference values from each search engine, and By accumulating the number of cases within the range, it was possible to determine the position of the target bibliographic list. As a result, a bibliographic list can be created at high speed by obtaining the number distribution of scores from each search engine unit, calculating the position of the required search result from the number distribution again, and partially obtaining the score. Can be.
[0010]
BEST MODE FOR CARRYING OUT THE INVENTION
(Embodiment 1)
Hereinafter, a first embodiment of the present invention will be described with reference to the drawings.
[0011]
FIG. 1 is a configuration diagram of an information search device according to an embodiment of the present invention. In FIG. 1, 11-1, 11-2,..., 11-n are client units, 12 is a communication unit, 13-1, 13-2,. 14 is an overall sort unit, 15 is a high score storage unit, 16 is an index storage unit, and 17 is a bibliographic storage unit.
[0012]
The operation of the information retrieval device configured as described above will be described. First, each of the client units 11-1, 11-2,..., 11-n transfers a search request from a user to the
[0013]
FIG. 2 shows an example of a search history that is information of search results stored in the search engine units 13-1, 13-2,..., 13-n. Is shown. 21 is a search history of the first search engine unit, 22 is a search history of the second search engine unit, and 23 is a search history of the third search engine unit. Each history indicates a state in which the history is sorted in descending order by score. When a bibliography list having an acquisition start number of 1 and the number of acquisitions of 10 is acquired for the search history, the
[0014]
FIG. 3 is a diagram showing an example in which the scores of FIG.
In this figure, ten search histories of each of three search engines are obtained, and a total of 30 search histories are rearranged in the order of score. In this example, since the acquisition start number is 1 and the number of acquisitions is 10, the first to tenth search histories are bibliographic lists to be returned to the client units 11-1, 11-2,..., 11-n. FIG. 3 is a diagram in which the start numbers and the number of acquisitions for each of the search engine units 13-1, 13-2,..., 13-n are obtained from the search history. In this example, the first search engine unit has the
[0015]
FIG. 4 is a diagram showing a process of acquiring a bibliography from the start number and the number of acquisitions of each search engine unit in FIG. 3 and creating a bibliography list.
[0016]
.., 13-n finds the document number from the search history, reads the bibliographic contents corresponding to the document number from the
[0017]
As shown in the above example, a bibliographic list can be created by creating bibliographic contents from the start number of each search engine and the number of acquisitions, and rearranging them again in the overall sort unit.
[0018]
As described above, according to the present embodiment, in an information search device including a plurality of search engine units, when acquiring a target bibliographic list from search results ordered by scores or the like, an overall sort unit and a high score storage By providing the section, a bibliographic list can be created at high speed only by acquiring a necessary search history partially.
[0019]
In the first embodiment, the client unit, the communication unit, the search engine unit, and the overall sorting unit may be performed by one computer, or may be performed by separate computers. In addition, it may be partially performed by one computer.
[0020]
Also, in the first embodiment, the communication unit holds the number of search results of each search engine unit and passes it to the overall sort unit, so that the overall sort unit performs bibliography on the search engine unit with zero search results. By not making an acquisition request, the communication time with zero search engine units can be reduced.
[0021]
(Embodiment 2)
Hereinafter, a second embodiment of the present invention will be described with reference to the drawings.
[0022]
FIG. 5 is a diagram showing an information search device according to one embodiment of the present invention.
In FIG. 5, 51-1, 51-2,..., 51-n are client units, 52 is a communication unit, 53-1, 53-2,.
[0023]
For example, when newspaper articles are not arranged in chronological order and a new article is to be acquired, retrieval may be more efficiently performed by acquiring from the end than acquiring from the beginning.
[0024]
The operation of the information retrieval device configured as described above will be described below.
First, the client unit 51-1, 51-2,..., 51-n transfers a search request from the user to the
[0025]
As described above, by acquiring the score of the search history from the beginning or end according to the position where the bibliography list is acquired, the overall sorting unit reduces the number of scores to be transferred to the overall sorting unit. The number of cases to be retrieved is reduced, and a faster bibliographic list can be obtained.
[0026]
Although the search history is obtained from the end of the search history in the second embodiment, the search in the search engine unit may be performed from the descending order to the ascending order to obtain the search history from the start.
[0027]
(Embodiment 3)
Hereinafter, a third embodiment of the present invention will be described with reference to the drawings.
[0028]
FIG. 6 is a diagram showing an information retrieval device according to one embodiment of the present invention.
6, 61-n are client units, 62 is a communication unit, 63-1, 63-2, ..., 63-n is a search engine unit,
[0029]
The operation of the information retrieval device configured as described above will be described below.
First, the client unit 61-1, 61-2,..., 61-n transfers a search request from the user to the
[0030]
When a request for a bibliographic list is received, the
[0031]
FIG. 7 is a diagram showing an example in which a score distribution is created by the search engine unit. The
[0032]
In the third embodiment, the number of divisions of the search history is set to n in the overall sort unit. However, n may be changed according to the number of search results. For example, when the number of search results is large, n is increased, and when the number is small, n is decreased. The number n of divisions may be changed by making the average number of records within the score range the same.
[0033]
Further, in the third embodiment, the overall sorting unit may combine the processes of the first and second embodiments according to the number of search results and the position where the bibliographic list is obtained. For example, when the number of search results is as small as about 100, the processing may be performed by the processing method of the first embodiment without acquiring the score distribution. Even when the number of search results is large, if the number is about 20 from the top, the processing may be performed by the processing method of the first embodiment without acquiring a score distribution.
[0034]
In the third embodiment, the maximum value of the score is m in the overall sorting unit. However, M may obtain the maximum value of the score at the same time as obtaining the number of cases from the search engine, and use the maximum value.
[0035]
In the first embodiment, a score obtained by quantifying the relationship between a search request and a document is used as a criterion for rearranging the search history. However, the score may be rearranged using numerical information such as date. It is needless to say that the use of this numerical information can be processed in the same manner in the second and third embodiments.
[0036]
【The invention's effect】
As described above, the present invention stores a plurality of search engine units that independently perform at least search of document data, creation of a bibliographic list, and ordering of search results according to a certain reference value, and search information for performing the search. An index storage unit, a bibliographic storage unit for storing information for creating a bibliographic list, and an overall sort unit for ordering the entire search results of the plurality of search engine units, wherein the overall sort unit starts the search results To a predetermined ordered reference value from each search engine unit, reducing the communication volume of the entire sort unit and each search engine unit to obtain a bibliography list, and bibliography at high speed even in the environment of multiple search engines This has the effect that a list can be obtained.
[0037]
Also, when obtaining the bibliographic list positioned after half of the entire search result, the overall sort unit obtains the ordering reference value from the end of the search result of the search engine unit. Creates a bibliographic list at high speed by extracting partial scores according to the acquisition number and the number of acquisitions from the beginning or end of the search results instead of extracting all the scores of the search history of multiple search engine parts It has the effect that it can be done.
[0038]
In addition, the search result is divided into n by the reference value for ordering, the number of cases that are equal to or more than the lower limit of the divided reference values is obtained from each search engine, and the number of cases is accumulated, thereby distributing the number distribution of scores to each. The bibliographic list can be created at high speed by acquiring from the search engine unit, recalculating the position of the necessary search result from the number distribution, and partially acquiring the score.
[Brief description of the drawings]
FIG. 1 is a configuration diagram of an information search device according to a first embodiment of the present invention; FIG. 2 is a diagram illustrating an operation example of a search engine unit according to the first embodiment; FIG. FIG. 4 is a diagram showing an example. FIG. 4 is a diagram showing an example of creating a bibliographic list in the first embodiment. FIG. 5 is a configuration diagram of an information search device in the second embodiment of the present invention. FIG. 7 is a diagram showing an operation example of an overall sorting unit according to the third embodiment. FIG. 8 is a diagram showing the configuration of a conventional information search device.
11-1 11-2 11-
Claims (4)
前記全体ソート部で、検索結果の先頭から取得開始番号と取得件数より求められる件数分までのスコアを前記各検索エンジン部から取得して、取得した前記スコアをマージして前記各検索エンジン部から取得する書誌一覧の位置と件数を割り出すことにより、割り出した書誌一覧の位置と件数にしたがって、全体ソート部が前記検索エンジン部に書誌内容を要求し、書誌一覧を作成することを特徴とする情報検索装置。At least a plurality of search engine units that independently search document data, create a bibliography list, and order search results according to scores, create an index storage unit that stores search information for performing a search, and create a bibliography list A bibliographic storage unit for storing information for, and an overall sorting unit for ordering the entire search results of the plurality of search engine units,
In the overall sorting unit, the scores from the beginning of the search result to the number obtained from the acquisition start number and the number of acquisitions are obtained from each of the search engine units, and the obtained scores are merged to obtain the scores from each of the search engine units. By determining the position and number of bibliographic lists to be obtained, the overall sort unit requests bibliographic contents from the search engine unit according to the determined position and number of bibliographic lists, and creates a bibliographic list. Search device.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06658598A JP3564999B2 (en) | 1998-03-17 | 1998-03-17 | Information retrieval device |
CN 99104149 CN1114880C (en) | 1998-03-17 | 1999-03-17 | Device and method for information retrieval |
HK00101297A HK1022538A1 (en) | 1998-03-17 | 2000-03-01 | Device and method for information retrieval |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP06658598A JP3564999B2 (en) | 1998-03-17 | 1998-03-17 | Information retrieval device |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11265393A JPH11265393A (en) | 1999-09-28 |
JP3564999B2 true JP3564999B2 (en) | 2004-09-15 |
Family
ID=13320180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP06658598A Expired - Fee Related JP3564999B2 (en) | 1998-03-17 | 1998-03-17 | Information retrieval device |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP3564999B2 (en) |
CN (1) | CN1114880C (en) |
HK (1) | HK1022538A1 (en) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NO992269D0 (en) * | 1999-05-10 | 1999-05-10 | Fast Search & Transfer Asa | ° engine with two-dimensional scalable, parallel architecture |
KR20000006664A (en) * | 1999-09-29 | 2000-02-07 | 문성일 | Meta search engine be set on computer of end user |
KR100382600B1 (en) * | 2000-01-31 | 2003-05-01 | 주식회사 제이.이.씨 | Method for providing integrated web search service through network system and computer-readable medium recording the method |
JP3555869B2 (en) | 2000-09-28 | 2004-08-18 | Necソフト株式会社 | Encrypted file search method and apparatus, and computer-readable recording medium |
AUPR894801A0 (en) * | 2001-11-20 | 2001-12-13 | Unisearch Limited | A system and method for searching data sources |
US9805032B2 (en) | 2002-06-14 | 2017-10-31 | Koninklijke Philips N.V. | Client-server protocol |
JP4041080B2 (en) * | 2004-03-23 | 2008-01-30 | 東芝ソリューション株式会社 | Data search device and data search program |
JP2005332476A (en) * | 2004-05-19 | 2005-12-02 | Sony Corp | Information processor |
CN100401300C (en) * | 2006-04-29 | 2008-07-09 | 上海世纪互联信息系统有限公司 | Searching engine with automating sorting function |
CN100456293C (en) * | 2006-10-19 | 2009-01-28 | 腾讯科技(深圳)有限公司 | Information fast searching device, client end, system and method |
JP5374881B2 (en) * | 2008-02-05 | 2013-12-25 | 日本電気株式会社 | Information search system, information search method and program |
JP5110162B2 (en) * | 2008-07-01 | 2012-12-26 | 富士通株式会社 | Search device and search method |
JP2010092401A (en) * | 2008-10-10 | 2010-04-22 | Panasonic Corp | Network device, apparatus, method of retrieving information thereof and program thereof |
JPWO2010058519A1 (en) * | 2008-11-18 | 2012-04-19 | 日本電気株式会社 | Hybrid search system, hybrid search method, and hybrid search program |
CN101546342B (en) * | 2009-05-08 | 2012-07-04 | 阿里巴巴集团控股有限公司 | Method and system for implementing search service |
JP5281516B2 (en) * | 2009-08-18 | 2013-09-04 | 日本電信電話株式会社 | Document storage device and document storage program |
JP6027473B2 (en) * | 2013-03-25 | 2016-11-16 | 株式会社Nttドコモ | Content search result providing apparatus, content search result providing method, and content search result providing system |
CN116910232B (en) * | 2023-09-13 | 2024-01-09 | 之江实验室 | Astronomical literature search method and astronomical literature search method |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3395208B2 (en) * | 1991-07-10 | 2003-04-07 | 株式会社日立製作所 | How to sort and access a distributed database |
JPH1021250A (en) * | 1996-06-14 | 1998-01-23 | Infoseek Corp | Method for retrieving plural data bases and method for searching document between plural data bases |
-
1998
- 1998-03-17 JP JP06658598A patent/JP3564999B2/en not_active Expired - Fee Related
-
1999
- 1999-03-17 CN CN 99104149 patent/CN1114880C/en not_active Expired - Fee Related
-
2000
- 2000-03-01 HK HK00101297A patent/HK1022538A1/en not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
HK1022538A1 (en) | 2000-08-11 |
CN1229218A (en) | 1999-09-22 |
CN1114880C (en) | 2003-07-16 |
JPH11265393A (en) | 1999-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3564999B2 (en) | Information retrieval device | |
Brin et al. | Reprint of: The anatomy of a large-scale hypertextual web search engine | |
US7966337B2 (en) | System and method for prioritizing websites during a webcrawling process | |
US7213198B1 (en) | Link based clustering of hyperlinked documents | |
US7676117B1 (en) | Systems and methods for using image duplicates to assign labels to images | |
US6567800B1 (en) | System and method for searching information stored on a network | |
US8285724B2 (en) | System and program for handling anchor text | |
US5943670A (en) | System and method for categorizing objects in combined categories | |
US20090125504A1 (en) | Systems and methods for visualizing web page query results | |
US6907425B1 (en) | System and method for searching information stored on a network | |
US7398461B1 (en) | Method for ranking web page search results | |
US7523109B2 (en) | Dynamic grouping of content including captive data | |
WO2004025391A2 (en) | System and method of searching data utilizing automatic categorization | |
JP2006048683A (en) | Phrase identification method in information retrieval system | |
JP2011175670A (en) | Phrase-based searching in information retrieval system | |
US6622139B1 (en) | Information retrieval apparatus and computer-readable recording medium having information retrieval program recorded therein | |
JP2006048686A (en) | Generation method for document explanation based on phrase | |
JP2006048685A (en) | Indexing method based on phrase in information retrieval system | |
JP2009525520A (en) | Evaluation method for ranking and sorting electronic documents in search result list based on relevance, and database search engine | |
JP2005182808A (en) | Dynamic content clustering | |
US7305610B1 (en) | Distributed crawling of hyperlinked documents | |
Dolin et al. | Scalable collection summarization and selection | |
Ru et al. | Indexing the invisible web: a survey | |
JPH06301732A (en) | Document retrieval processing method | |
KR100434718B1 (en) | Method and system for indexing document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20031209 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040202 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040224 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040419 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040518 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080618 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090618 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100618 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |