[go: up one dir, main page]

JP3564999B2 - Information retrieval device - Google Patents

Information retrieval device Download PDF

Info

Publication number
JP3564999B2
JP3564999B2 JP06658598A JP6658598A JP3564999B2 JP 3564999 B2 JP3564999 B2 JP 3564999B2 JP 06658598 A JP06658598 A JP 06658598A JP 6658598 A JP6658598 A JP 6658598A JP 3564999 B2 JP3564999 B2 JP 3564999B2
Authority
JP
Japan
Prior art keywords
search
unit
search engine
bibliographic
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP06658598A
Other languages
Japanese (ja)
Other versions
JPH11265393A (en
Inventor
正雄 伊藤
隆正 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP06658598A priority Critical patent/JP3564999B2/en
Priority to CN 99104149 priority patent/CN1114880C/en
Publication of JPH11265393A publication Critical patent/JPH11265393A/en
Priority to HK00101297A priority patent/HK1022538A1/en
Application granted granted Critical
Publication of JP3564999B2 publication Critical patent/JP3564999B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は電子化された文書データから情報検索を行なう場合において、複数の検索エンジンで構成された場合でも、高速に書誌一覧の取得が可能な情報検索装置に関するものである。
【0002】
【従来の技術】
近年、ワープロやパソコンの普及により、大量の文書情報が蓄積され、必要に応じて文書情報を検索する文書データベースに対する関心が高まってきている。また、文書情報に対して、キーワードを付けずに文書の内容から検索する全文検索方式が注目され、インターネットのホームページ検索等で利用されている。この全文検索方式を用いた検索システムは、サーバー・クライアント、またはWWWサーバと接続した形態でユーザが使用できる。このような検索システでは、1つのユーザに検索システムを専有させるのではなく、検索結果の一覧を表示する場合には数十件単位で表示することで、ユーザ要求を同時に処理する方法が取られている。更に、検索結果一覧は単に登録順に出力するのではなく、文書と検索条件の間にある基準を設けて数値化(スコア)し、得られたスコアに従って書誌一覧を順位付けしている。このようにすることで、ユーザの要望に近い検索結果を出力することができる。ここで、「数値化」とは、一律に数値化しているだけでなく、検索対象となる文章(例えば短い文章は長い文章よりも重みづける等)、単語によって重みづけをつけて数値化することも含む意味である。また、「書誌一覧」とは、文書番号だけではユーザにわかりにくいので、例えばホームページのタイトルやURL(Universal Resource Locator)などを意味する。
【0003】
以下、従来の情報検索装置について説明する。
図8は従来の情報検索装置の構成を示すものである。図8において、81−1,81−2、・・・・、81−nはクライアント部で、82は通信部で、83は検索エンジン部で、84は索引格納部で、85は書誌格納部である。
【0004】
以上のように構成された情報検索装置について、以下その動作について説明する。まず、各クライアント部81−1,81−2、・・・・、81−nでユーザからの検索要求を通信部82に送る。通信部82は複数のクライアント部からの検索要求を内部に格納し、検索エンジン部83に送る。検索エンジン部83は索引格納部84から索引情報を読み出して高速に検索を行ない通信部82に返す。通信部82では検索結果件数をクライアント部81−1,81−2、・・・・、81−nに返す。またクライアント部81−1,81−2、・・・・、81−nから検索にヒットした書誌一覧の要求を通信部82に送る。通信部82は書誌一覧要求を検索エンジン部83に送る。検索エンジン部83は、書誌格納部85から書誌一覧を読み出して書誌一覧の作成を行ない、通信部82に返す。通信部82では書誌一覧をクライアント部81−1,81−2、・・・・、81−nに返す。
【0005】
【発明が解決しようとする課題】
しかしながら上記の従来の構成では、格納する文書件数が数千万件を増えるような場合には、1つの計算機では検索性能の低下や、ハードディスクやメモリなどの物理的な計算機資源の制約によって限界があり、複数の計算機で対応する必要があった。しかしながら、複数の計算機で対応するには複数の検索エンジン部で対応することになり、順序付けされた書誌一覧を取得する場合において、検索エンジン間の通信負荷が大きくなるために、全体の性能が低下するという課題を有していた。
【0006】
本発明は上記従来技術の課題を解決するもので、複数検索エンジンの構成で順序付けされた書誌一覧を取得する場合でも通信負荷を最小限にすることを目的とする。
【0007】
【課題を解決するための手段】
この目的を達成するために本発明における情報検索装置は、第1に、少なくとも文書データの検索と書誌一覧の作成と検索結果をある基準値に従って順序付けをそれぞれ独立して行なう複数の検索エンジン部と、検索を行うための検索情報を格納する索引格納部と、書誌一覧を作成するための情報を格納する書誌格納部と、複数の検索エンジン部の検索結果の全体を順序付けする全体ソート部とを備え、全体ソート部で、検索結果の先頭から所定の順序付けられた基準値までを各検索エンジン部から取得することにより、検索結果の書誌一覧を取得することを特徴とする。上記構成によって、書誌一覧を高速に作成することができる。
【0008】
第2に、全体ソート部は、検索結果全体の半分以降に位置づけられた書誌一覧を取得する場合に、検索エンジン部の検索結果の末尾から順序付けの基準値を取得することを特徴とする。これにより、複数の検索エンジン部で書誌一覧を取得する場合に、全体ソート部において複数の検索エンジン部の検索履歴のスコアを全て抽出するのではなく、検索結果の先頭または末尾からの取得番号と取得件数に応じて部分的にスコアを抽出することにより、高速に書誌一覧の作成することができる。
【0009】
第3に、全体ソート部は、検索結果を順序付けの基準値でn分割し(n≧2)、各々分割された基準値の下限値以上の件数を各検索エンジンから最初に取得して、各範囲内の件数を累計することで、目的の書誌一覧の位置を割り出すことを可能にした。これにより、スコアの件数分布を各検索エンジン部から取得して、件数分布から必要となる検索結果の位置を再度計算してスコアを部分的に取得することで、高速に書誌一覧の作成することができる。
【0010】
【発明の実施の形態】
(実施の形態1)
以下、本発明の第1の実施例について、図面を参照しながら説明する。
【0011】
図1は本発明の一実施例における情報検索装置の構成図である。図1において、11−1、11−2、・・・・、11−nはクライアント部、12は通信部、13−1、13−2、・・・・、13−nは検索エンジン部、14は全体ソート部、15は高スコア記憶部、16は索引格納部、17は書誌格納部である。
【0012】
以上のように構成された情報検索装置について、その動作を説明する。まず、各クライアント部11−1、11−2、・・・・、11−nでユーザからの検索要求を通信部12に転送し、通信部12は検索要求がきた場合には各検索エンジン部13に対して検索件数の要求を行ない、各検索エンジン部13−1、13−2、・・・・、13−nは索引格納部16から検索するための索引情報を読み出して検索し、検索結果件数を通信部12に渡す。通信部12は各検索エンジン部13−1、13−2、・・・・、13−nの検索結果件数を合計してクライアント部に返す。また通信部12はクライアント部11−1、11−2、・・・・、11−nから書誌一覧の要求がきた場合には、全体ソート部14に対して書誌一覧の先頭からの番号と取得する件数を送る。全体ソート部14は各検索エンジン部13−1、13−2、・・・・、13−nに対して検索結果の情報が格納される検索履歴中の検索要求と文書間である基準で求めた値(スコア)を({取得開始番号}+{取得件数}−1)件分だけ要求する。検索エンジン部13−1、13−2、・・・・、13−nはスコアに従ってソートし、要求された件数分だけスコアを全体ソート部14に返す。全体ソート部14では得られた各検索エンジン部13−1、13−2、・・・・、13−nのスコアをスコア順に並べ変え、各検索エンジン部13−1、13−2、・・・・、13−nの開始番号と取得件数を求める。全体ソート部14は求めた開始番号と取得件数を各検索エンジン部13−1、13−2、・・・・、13−nに送り、各検索エンジン部13−1、13−2、・・・・、13−nは開始番号から検索履歴の文書番号を読み出して、文書番号から書誌格納部17から書誌内容を作成して全体ソート部14に送る。全体ソート部14は各検索エンジン部133−1、13−2、・・・・、13−nから得られた書誌の内容と、スコア順に並べ変えた情報から書誌を並べ変えることで書誌一覧を作成し通信部12に返す。通信部12はクライアント部11−1、11−2、・・・・、11−nに書誌一覧を転送して処理が終了する。
【0013】
図2は検索エンジン部13−1、13−2、・・・・、13−nで格納されている検索結果の情報である検索履歴の例を示し、ここでは3台の検索エンジンの検索履歴を示す。21は第1検索エンジン部の検索履歴で、22は第2検索エンジン部の検索履歴で、23は第3検索エンジン部の検索履歴である。それぞれの履歴は、スコアで降順にソートされている状態を示す。この検索履歴に対して、取得開始番号が1で取得件数が10件の書誌一覧を取得する場合には、全体ソート部14で、{1+10−1=10}件のスコアの取得要求を各検索エンジン部13に送ることになり、各検索エンジン部13−1、13−2、・・・・、13−nは上位10件のスコアを取り出した例が、24、25、26である。24は第1検索エンジン部の10件分のスコアを示し、25は第2検索エンジン部の10件分のスコアを表し、26は第3検索エンジン部の10件分のスコアを表す。以上の例に示すように、各検索エンジンで上位のスコアを求めることができる。
【0014】
図3は図2のスコアを全体ソート部14でソートした例を示す図である。
この図では3台の検索エンジンのそれぞれ10件ずつの検索履歴を取得し、全体で30件の検索履歴をスコア順に並べ変えたものである。この例では取得開始番号が1で取得件数が10件なので、1〜10番目の検索履歴がクライアント部11−1、11−2、・・・・、11−nに返す書誌一覧になる。この検索履歴から各々の検索エンジン部13−1、13−2、・・・・、13−nに対する開始番号と取得件数を求めた図が図3である。この例では第1検索エンジン部には開始番号1で取得件数2、第2検索エンジン部には開始番号1で取得件数4、第3検索エンジン部には開始番号1で取得件数4になる。以上の例に示すように、全体ソート部14でスコアをソートして、各検索エンジン部13−1、13−2、・・・・、13−nに要求するための開始番号と取得件数を求めることができる。
【0015】
図4は図3の各検索エンジン部の開始番号と取得件数から書誌を取得し、書誌一覧を作成する過程を示す図である。
【0016】
各検索エンジン部13−1、13−2、・・・・、13−nで検索履歴から文書番号を求めて、書誌格納部17から文書番号に該当する書誌内容を読み出し、全体ソート部14に各検索エンジン部13−1、13−2、・・・・、13−nで得られた書誌を転送する。全体ソート部14では各々の書誌をスコア順に並び替えて書誌一覧を作成し、通信部12に書誌一覧を返す。
【0017】
以上の例に示すように、各検索エンジンの開始番号と取得件数から書誌内容を作成し、全体ソート部で再度並べ替えることで、書誌一覧を作成することができる。
【0018】
以上のように本実施例によれば、複数検索エンジン部で構成された情報検索装置において、スコアなどで順序付けされた検索結果から目的の書誌一覧を取得する場合に、全体ソート部と高スコア記憶部を設けることにより、必要な検索履歴を部分的に取得するだけで、書誌一覧を高速に作成することができる。
【0019】
なお、実施の形態1においてクライアント部と通信部と検索エンジン部と全体ソート部はつの計算機で行なってもよいし、全て別々の計算機で行なってもよい。また部分的に1つの計算機で行なってもよいものとする。
【0020】
また、実施の形態1において通信部は各検索エンジン部の検索結果件数を保持して全体ソート部に渡すことで、全体ソート部が検索結果件数が0件の検索エンジン部に対しては、書誌の取得要求を行なわないことで、0件の検索エンジン部との通信時間を低減することができる。
【0021】
(実施の形態2)
以下、本発明の実施の形態2について、図面を参照しながら説明する。
【0022】
図5は本発明の一実施例における情報検索装置を示す図である。
図5において、51−1、51−2、・・・・、51−nはクライアント部、52は通信部、53−1、53−2、・・・・、53−nは検索エンジン部、56は索引格納部、57は書誌格納部で、以上は図1の構成と同様なものである。図1の構成と異なるのは全体ソート部54とスコア記憶部55を、検索履歴からスコア情報を取得する場合に、スコアの高い順に取得して記憶するのではなく、取得開始番号の位置によって、スコアの高い順に取得するかスコアの低い順に取得するかを自動的に選択することができるようにした点である。
【0023】
例えば、新聞記事が日付順に並んでいない場合であって、新しい記事を取得したい場合には、先頭から取得するよりも、末尾から取得した方が効率的に検索できる場合がある。
【0024】
上記のように構成された情報検索装置について、以下その動作を説明する。
まず、クライアント部51−1、51−2、・・・・、51−nでユーザからの検索要求を通信部52に転送し、通信部52は検索要求がきた場合には各検索エンジン部53−1、53−2、・・・・、53−nに対して検索件数の要求を行ない、各検索エンジン部53−1、53−2、・・・・、53−nは索引格納部56から検索するための索引情報を読み出して検索し、検索結果件数を通信部52に渡す。通信部52は各検索エンジン部53−1、53−2、・・・・、53−nの検索結果件数を合計してクライアント部51に返す。また通信部52は書誌一覧の要求がきた場合には、全体ソート部54に対して書誌一覧の取得開始番号と取得件数を送る。全体ソート部54は各検索エンジン部53−1、53−2、・・・・、53−nに対して、全体の検索結果件数を2で割った値より取得開始番号が大きい場合には、検索履歴の末尾から({全体の検索結果件数}−{取得開始番号}−{取得件数}+2)番目で({全体の検索結果件数}−{取得開始番号}+1)件取得することを要求する。検索エンジン部53−1、53−2、・・・・、53−nはスコアに従ってソートし、ソートした結果の先頭または末尾から要求された件数分だけ、スコアを全体ソート部54に返す。全体ソート部54では得られた各検索エンジン部53−1、53−2、・・・・、53−nのスコアを、先頭から取得した場合は、降順にスコアに並べ替え、末尾から取得した場合は、昇順にスコアを並び替えて、各検索エンジン部53−1、53−2、・・・・、53−nの開始番号と取得件数を求める。全体ソート部54は求めた開始番号と取得件数を各検索エンジン部53−1、53−2、・・・・、53−nに送り、各検索エンジン部53−1、53−2、・・・・、53−nは開始番号から検索履歴の文書番号を読み出して、文書番号から書誌格納部57から書誌内容を作成して全体ソート部54に送る。全体ソート部54は各検索エンジン部533−1、53−2、・・・・、53−nから得られた書誌の内容と、スコア順に並べ替えた情報から書誌を並べ変えることで書誌一覧を作成し通信部52に返す。通信部はクライアント部51−1、51−2、・・・・、51−nに書誌一覧を転送して処理が終了する。
【0025】
以上のように、全体ソート部が書誌一覧の取得する位置に応じて先頭または末尾から検索履歴のスコアを取得することで、全体ソート部に転送するスコアが少なくなり、更に全体ソート部54でソートする件数も少なくなり、より高速な書誌一覧の取得を行なうことができる。
【0026】
なお、実施の形態2において検索履歴の末尾から取得するとしたが、検索エンジン部でのソートを降順から昇順にソートすることで、先頭から取得するようにしてもよい。
【0027】
(実施の形態3)
以下、本発明の実施の形態3について、図面を参照しながら説明する。
【0028】
図6は本発明の一実施例における情報検索装置を示す図である。
図6において、61−1、61−2、・・・・、61−nはクライアント部、62は通信部、63−1、63−2、・・・・、63−nは検索エンジン部、67は索引格納部、67は書誌格納部で、以上は図1の構成と同様なものである。図1の構成と異なるのは全体ソート部64とスコア記憶部65とスコア分布記憶部66であり、書誌一覧を取得する場合に全体ソート部64でスコアと件数の分布情報を検索エンジン部63−1、63−2、・・・・、63−nから取得して、各スコア範囲内で件数を合計(累計)することで、検索エンジン部63−1、63−2、・・・・、63−nから取得するスコア件数を減らすことができる。
【0029】
上記のように構成された情報検索装置について、以下その動作を説明する。
まず、クライアント部61−1、61−2、・・・・、61−nでユーザからの検索要求を通信部62に転送し、通信部62は検索要求がきた場合には各検索エンジン部63−1、63−2、・・・・、63−nに対して検索件数の要求を行ない、各検索エンジン部63−1、63−2、・・・・、63−nは索引格納部67から検索するための索引情報を読み出して検索し、検索結果件数を通信部62に渡す。通信部62は各検索エンジン部63−1、63−2、・・・・、63−nの検索結果件数を合計してクライアント部61に返す。
【0030】
また、通信部62は書誌一覧の要求がきた場合には、全体ソート部64に対して書誌一覧の先頭からの番号と取得する件数を送る。全体ソート部64はスコアの最大値をmとして0〜mまでのスコアをn分割した各スコア範囲内ではスコアの下限値以上の件数を検索エンジン部63−1、63−2、・・・・、63−nから取得するように要求する。検索エンジン部63−1、63−2、・・・・、63−nでは検索履歴のスコアから各スコア範囲内の下限値以上の件数を求め、全体ソート部64に送る。全体ソート部か各検索エンジンから得られたスコア分布をスコア分布記憶部66に格納し、全体のスコア分布を作成する。これにより、書誌一覧の取得開始番号がどのスコア範囲内に位置するかわかるので、再度検索エンジン部63−1、63−2、・・・・、63−nに対してスコアがs以下で、かつ({取得開始番号}−{1つ上のスコア範囲の下限スコア以上の値を持つ件数}+{取得件数}−1)件のスコアと通し番号を取得して、全体ソート部64に送る。全体ソート部64では得られた各検索エンジン部63−1、63−2、・・・・、63−nのスコアをスコア順に並べ変え、各検索エンジン部63−1、63−2、・・・・、63−nの開始番号と取得件数を求める。全体ソート部64は求めた開始番号と取得件数を各検索エンジン部63−1、63−2、・・・・、63−nに送り、各検索エンジン部63−1、63−2、・・・・、63−nは開始番号から検索履歴の文書番号を読み出して、文書番号から書誌格納部68から書誌内容を作成して全体ソート部64に送る。全体ソート部64は各検索エンジン部63−1、63−2、・・・・、63−nから得られた書誌の内容と、スコア順に並べ変えた情報から書誌を並べ変えることで書誌一覧を作成し通信部62に返す。通信部62はクライアント部61−1、61−2、・・・・、61−nに書誌一覧を転送して処理が終了する。
【0031】
図7は検索エンジン部でスコア分布を作成した例を示す図である。3つの検索エンジンが検索履歴のスコアから各スコア範囲の下限値以上の件数を求めたものが71、72、73である。それぞれのスコア分布は全体ソート部64に送られ、74に示すように各スコア範囲内で3つの検索エンジン部63のスコアが全体ソート部64で合計される。この図の例では、取得開始番号が501番目で取得件数が20件の場合は、スコアが800以上が476件であるため、501番目はスコアが801以下である。このため、全体ソート部64は、各検索エンジンに対して、スコアが801以下で、46件(501−476+20+1=46件)のスコアと通し番号を取得する。更に、全体ソート部64は各検索エンジンから取得したスコアを降順に並び替えて、34件目(501番目−476件)から20件のエンジン番号と通し番号と件数を取得することで、目的の書誌一覧を各検索エンジン部63から取得することができる。
【0032】
なお、実施の形態3において全体ソート部は検索履歴の分割個数をnとしたが、検索結果件数に応じてnを変動させてもよい。例えば検索結果件数が多い場合にはnを大きくし、少ない場合にはnを小さくする。またスコア範囲内の平均件数を同じにすることで、分割個数nを変動させてもよい。
【0033】
また、実施の形態3において全体ソート部は検索結果件数と書誌一覧を取得する位置に応じて第1の実施例と第2の実施例の処理を組み合わせてもよい。例えば検索結果件数が100件程度の少ない件数であれば、スコア分布を取得しないで、第1の実施例の処理方法で行なえばよい。また検索結果件数が多い場合でも先頭からの20件程度であれば、スコア分布を取得しないで、実施の形態1の処理方法で行なえばよい。
【0034】
また、実施の形態3において全体ソート部でスコアの最大値をmとしたが、Mは検索エンジンから件数を取得すると同時にスコアの最大値を求め、それを用いてもよい。
【0035】
また、実施の形態1において検索履歴を並べ変える基準として、検索要求と文書間の関係を数値化したスコアを用いたが、日付けなどの数値情報を用いて並べ変えてもよいものとする。この数値情報を用いることは、第2と第3の実施例でも同じように処理できることは言うまでもない。
【0036】
【発明の効果】
以上のように本発明は、少なくとも文書データの検索と書誌一覧の作成と検索結果をある基準値に従って順序付けをそれぞれ独立して行なう複数の検索エンジン部と、検索を行うための検索情報を格納する索引格納部と、書誌一覧を作成するための情報を格納する書誌格納部と、複数の検索エンジン部の検索結果の全体を順序付けする全体ソート部とを備え、全体ソート部で、検索結果の先頭から所定の順序付けられた基準値までを各検索エンジン部から取得することにより、書誌一覧を取得するために全体ソート部と各検索エンジン部の通信量を減らし、複数検索エンジンの環境でも高速に書誌一覧を取得することができるという効果を有する。
【0037】
また、全体ソート部は、検索結果全体の半分以降に位置づけられた書誌一覧を取得する場合に、検索エンジン部の検索結果の末尾から順序付けの基準値を取得するようにしたので、全体ソート部において複数の検索エンジン部の検索履歴のスコアを全て抽出するのではなく、検索結果の先頭または末尾からの取得番号と取得件数に応じて部分的にスコアを抽出することにより、高速に書誌一覧の作成することができるという効果を有する。
【0038】
また、検索結果を順序付けの基準値でn分割し、各々分割された基準値の下限値以上の件数を各検索エンジンから取得して、これらの件数を累計することにより、スコアの件数分布を各検索エンジン部から取得して、件数分布から必要となる検索結果の位置を再度計算してスコアを部分的に取得することで、高速に書誌一覧の作成することができるという効果を有する。
【図面の簡単な説明】
【図1】本発明の実施の形態1における情報検索装置の構成図
【図2】実施の形態1における検索エンジン部の動作例を示す図
【図3】実施の形態1における全体ソート部の動作例を示す図
【図4】実施の形態1における書誌一覧作成例を示す図
【図5】本発明の実施の形態2における情報検索装置の構成図
【図6】本発明の実施の形態3における情報検索装置の構成図
【図7】実施の形態3における全体ソート部の動作例を示す図
【図8】従来の情報検索装置の構成図
【符号の説明】
11−1 11−2 11−n クライアント部
12 通信部
13−1 13−2 13−n 検索エンジン部
14 全体ソート部
15 高スコア記憶部
16 索引格納部
17 書誌格納部
51−1 51−2 51−n クライアント部
52 通信部
53−1 53−2 53−n 検索エンジン部
54 全体ソート部
55 スコア記憶部
56 索引格納部
57 書誌格納部
61−1 61−2 61−n クライアント部
62 通信部
63−1 63−2 63−n 検索エンジン部
64 全体ソート部
65 スコア分布記憶部
66 スコア記憶部
67 索引格納部
68 書誌格納部
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to an information search apparatus capable of obtaining a bibliographic list at a high speed even when a plurality of search engines are used to search for information from digitized document data.
[0002]
[Prior art]
In recent years, with the spread of word processors and personal computers, a large amount of document information has been accumulated, and interest in a document database for searching document information as necessary has been increasing. Also, a full-text search method for searching the document information from the contents of the document without adding a keyword has attracted attention, and is used in a homepage search on the Internet. A search system using this full-text search method can be used by a user in a form connected to a server client or a WWW server. In such a search system, a method of processing user requests simultaneously by displaying a list of search results in units of dozens when displaying a list of search results instead of letting one user occupy the search system is adopted. ing. Further, the search result list is not simply output in the order of registration, but is digitized (score) by setting a reference between the document and the search condition, and the bibliographic list is ranked according to the obtained score. By doing so, it is possible to output a search result close to the user's request. Here, "quantification" means not only uniform numerical conversion but also numerical conversion by weighting words to be searched (for example, short sentences are weighted more than long sentences, etc.) and words. The meaning also includes. Also, the “bibliographic list” is difficult for the user to understand only by the document number, and thus means, for example, the title of a homepage or a URL (Universal Resource Locator).
[0003]
Hereinafter, a conventional information retrieval apparatus will be described.
FIG. 8 shows a configuration of a conventional information retrieval apparatus. In FIG. 8, 81-1, 81-2,..., 81-n are client units, 82 is a communication unit, 83 is a search engine unit, 84 is an index storage unit, and 85 is a bibliographic storage unit. It is.
[0004]
The operation of the information retrieval device configured as described above will be described below. First, each client unit 81-1, 81-2,..., 81-n sends a search request from the user to the communication unit 82. The communication unit 82 internally stores search requests from a plurality of client units and sends them to the search engine unit 83. The search engine unit 83 reads out the index information from the index storage unit 84, performs a high-speed search, and returns it to the communication unit 82. The communication unit 82 returns the number of search results to the client units 81-1, 81-2,..., 81-n. Also, the client unit 81-1, 81-2,..., 81-n sends to the communication unit 82 a request for a list of bibliographies hit in the search. The communication unit 82 sends a bibliography list request to the search engine unit 83. The search engine unit 83 reads the bibliographic list from the bibliographic storage unit 85, creates a bibliographic list, and returns it to the communication unit 82. The communication unit 82 returns the bibliography list to the client units 81-1, 81-2,..., 81-n.
[0005]
[Problems to be solved by the invention]
However, in the above-described conventional configuration, when the number of documents to be stored is increased by tens of millions, a single computer has a limit due to a decrease in search performance and a limitation of physical computer resources such as a hard disk and a memory. Yes, it was necessary to deal with multiple computers. However, when multiple computers are used, multiple search engines are used, and when an ordered bibliographic list is obtained, the communication load between the search engines increases, and the overall performance decreases. Had the problem of doing so.
[0006]
An object of the present invention is to solve the above-mentioned problems of the prior art, and to minimize the communication load even when an ordered bibliographic list is obtained with a configuration of a plurality of search engines.
[0007]
[Means for Solving the Problems]
In order to achieve this object, an information retrieval apparatus according to the present invention comprises, firstly, a plurality of search engine units each independently performing at least retrieval of document data, creation of a bibliographic list, and ordering of retrieval results according to a certain reference value. An index storage unit for storing search information for performing a search, a bibliographic storage unit for storing information for creating a bibliographic list, and an entire sort unit for ordering the entire search results of a plurality of search engine units. In addition, a bibliographic list of search results is obtained by obtaining, from each search engine unit, up to a predetermined ordered reference value from the beginning of the search results in the overall sort unit. With the above configuration, a bibliographic list can be created at high speed.
[0008]
Secondly, when the bibliographic list positioned after half of the entire search result is obtained, the entire sort unit obtains a reference value for ordering from the end of the search result of the search engine unit. With this, when a bibliography list is acquired by a plurality of search engine units, the entire sort unit does not extract all the scores of the search histories of the plurality of search engine units, but obtains the acquisition number from the beginning or end of the search result. By extracting a score partially according to the number of acquisitions, a bibliographic list can be created at high speed.
[0009]
Third, the entire sort unit divides the search result into n parts by the reference value for ordering (n ≧ 2), first obtains the number of records that are equal to or more than the lower limit of the divided reference values from each search engine, and By accumulating the number of cases within the range, it was possible to determine the position of the target bibliographic list. As a result, a bibliographic list can be created at high speed by obtaining the number distribution of scores from each search engine unit, calculating the position of the required search result from the number distribution again, and partially obtaining the score. Can be.
[0010]
BEST MODE FOR CARRYING OUT THE INVENTION
(Embodiment 1)
Hereinafter, a first embodiment of the present invention will be described with reference to the drawings.
[0011]
FIG. 1 is a configuration diagram of an information search device according to an embodiment of the present invention. In FIG. 1, 11-1, 11-2,..., 11-n are client units, 12 is a communication unit, 13-1, 13-2,. 14 is an overall sort unit, 15 is a high score storage unit, 16 is an index storage unit, and 17 is a bibliographic storage unit.
[0012]
The operation of the information retrieval device configured as described above will be described. First, each of the client units 11-1, 11-2,..., 11-n transfers a search request from a user to the communication unit 12, and the communication unit 12 receives the search request from each of the search engine units. , 13-n read index information for search from the index storage unit 16 and perform search. The number of results is passed to the communication unit 12. The communication unit 12 sums up the number of search results of each of the search engine units 13-1, 13-2,..., 13-n and returns the total to the client unit. When a request for a bibliography list is received from the client units 11-1, 11-2,..., 11-n, the communication unit 12 obtains the number from the top of the bibliography list and obtains the number from the top of the bibliography list. Send the number to do. .., 13-n for the search engine units 13-1, 13-2,..., 13-n. The requested values (scores) are requested for ({acquisition start number} + {acquisition number} −1). The search engine units 13-1, 13-2,..., 13-n sort according to the scores, and return the scores to the overall sorting unit 14 by the requested number. In the overall sort unit 14, the obtained scores of the search engine units 13-1, 13-2,..., 13-n are rearranged in the order of scores, and the search engine units 13-1, 13-2,. ··· Find the start number of 13-n and the number of acquisitions. The whole sort unit 14 sends the obtained start number and the number of obtained records to each of the search engine units 13-1, 13-2,..., 13-n, and the search engine units 13-1, 13-2,. .., 13-n reads the document number of the search history from the start number, creates bibliographic contents from the bibliographic storage unit 17 from the document number, and sends it to the overall sorting unit 14. The whole sort unit 14 sorts the bibliography list by sorting the bibliographies from the contents of the bibliographies obtained from the search engine units 133-1, 13-2,..., 13-n and the information sorted in the score order. Create and return to communication unit 12. The communication unit 12 transfers the bibliography list to the client units 11-1, 11-2,..., 11-n, and the process ends.
[0013]
FIG. 2 shows an example of a search history that is information of search results stored in the search engine units 13-1, 13-2,..., 13-n. Is shown. 21 is a search history of the first search engine unit, 22 is a search history of the second search engine unit, and 23 is a search history of the third search engine unit. Each history indicates a state in which the history is sorted in descending order by score. When a bibliography list having an acquisition start number of 1 and the number of acquisitions of 10 is acquired for the search history, the entire sort unit 14 retrieves {1 + 10-1 = 10} score acquisition requests in each search. The search engine units 13-1, 13-2,..., 13-n extract the top ten scores from the search engine units 13, 24, 25, and 26, respectively. Reference numeral 24 denotes the score of the first search engine unit for ten searches, reference numeral 25 denotes the score of the second search engine unit for ten searches, and reference numeral 26 denotes the score of the third search engine unit for ten searches. As shown in the above example, a higher score can be obtained by each search engine.
[0014]
FIG. 3 is a diagram showing an example in which the scores of FIG.
In this figure, ten search histories of each of three search engines are obtained, and a total of 30 search histories are rearranged in the order of score. In this example, since the acquisition start number is 1 and the number of acquisitions is 10, the first to tenth search histories are bibliographic lists to be returned to the client units 11-1, 11-2,..., 11-n. FIG. 3 is a diagram in which the start numbers and the number of acquisitions for each of the search engine units 13-1, 13-2,..., 13-n are obtained from the search history. In this example, the first search engine unit has the start number 1 and the number of acquisitions is 2, the second search engine unit has the start number 1 and the acquisition number is 4, and the third search engine unit has the start number 1 and the acquisition number is 4. As shown in the above example, the scores are sorted by the overall sorting unit 14 and the start numbers and the number of acquired records for requesting the search engine units 13-1, 13-2,. You can ask.
[0015]
FIG. 4 is a diagram showing a process of acquiring a bibliography from the start number and the number of acquisitions of each search engine unit in FIG. 3 and creating a bibliography list.
[0016]
.., 13-n finds the document number from the search history, reads the bibliographic contents corresponding to the document number from the bibliographic storage unit 17, and sends the bibliographic contents to the overall sort unit 14. The bibliographies obtained by the respective search engine units 13-1, 13-2, ..., 13-n are transferred. The overall sorting unit 14 sorts the bibliographies in the order of score, creates a bibliographic list, and returns the bibliographic list to the communication unit 12.
[0017]
As shown in the above example, a bibliographic list can be created by creating bibliographic contents from the start number of each search engine and the number of acquisitions, and rearranging them again in the overall sort unit.
[0018]
As described above, according to the present embodiment, in an information search device including a plurality of search engine units, when acquiring a target bibliographic list from search results ordered by scores or the like, an overall sort unit and a high score storage By providing the section, a bibliographic list can be created at high speed only by acquiring a necessary search history partially.
[0019]
In the first embodiment, the client unit, the communication unit, the search engine unit, and the overall sorting unit may be performed by one computer, or may be performed by separate computers. In addition, it may be partially performed by one computer.
[0020]
Also, in the first embodiment, the communication unit holds the number of search results of each search engine unit and passes it to the overall sort unit, so that the overall sort unit performs bibliography on the search engine unit with zero search results. By not making an acquisition request, the communication time with zero search engine units can be reduced.
[0021]
(Embodiment 2)
Hereinafter, a second embodiment of the present invention will be described with reference to the drawings.
[0022]
FIG. 5 is a diagram showing an information search device according to one embodiment of the present invention.
In FIG. 5, 51-1, 51-2,..., 51-n are client units, 52 is a communication unit, 53-1, 53-2,. Reference numeral 56 denotes an index storage unit, and reference numeral 57 denotes a bibliographic storage unit, which has the same configuration as that of FIG. The difference from the configuration of FIG. 1 is that when the score information is acquired from the search history, the overall sorting unit 54 and the score storage unit 55 are not acquired and stored in descending order of the score, but by the position of the acquisition start number. The point is that it is possible to automatically select whether to acquire in the order of higher score or lower score.
[0023]
For example, when newspaper articles are not arranged in chronological order and a new article is to be acquired, retrieval may be more efficiently performed by acquiring from the end than acquiring from the beginning.
[0024]
The operation of the information retrieval device configured as described above will be described below.
First, the client unit 51-1, 51-2,..., 51-n transfers a search request from the user to the communication unit 52. , 53-2,..., 53-n, and the search engine units 53-1, 53-2,. The index information for the search is read out and searched, and the number of search results is passed to the communication unit 52. The communication unit 52 sums up the number of search results of each of the search engine units 53-1, 53-2,..., 53-n and returns the result to the client unit 51. When a request for a bibliography list is received, the communication unit 52 sends the bibliography list acquisition start number and the number of acquisitions to the overall sorting unit 54. If the acquisition start number is larger than the value obtained by dividing the total number of search results by 2 with respect to each of the search engine units 53-1, 53-2,. From the end of the search history, request that ({the total number of search results}-開始 acquisition start number}-{acquisition number} +2) (番 目 the total number of search results}-{acquisition start number} +1) be acquired I do. The search engine units 53-1, 53-2,..., 53-n sort according to the scores, and return the scores to the overall sorting unit 54 for the number of requests requested from the beginning or end of the sorted result. In the overall sorting unit 54, when the obtained scores of the search engine units 53-1, 53-2,..., 53-n are obtained from the top, the scores are rearranged in descending order and obtained from the end. In this case, the scores are rearranged in ascending order, and the start numbers and the number of obtained search engines 53-1, 53-2,..., 53-n are obtained. The whole sort unit 54 sends the obtained start number and the number of obtained records to each of the search engine units 53-1, 53-2,..., 53-n, and the search engine units 53-1, 53-2,. .., 53-n reads the document number of the search history from the start number, creates bibliographic contents from the bibliographic storage unit 57 from the document number, and sends it to the overall sort unit 54. The whole sort unit 54 sorts the bibliography list from the contents of the bibliographies obtained from the respective search engine units 533-1, 53-2,... Created and returned to communication unit 52. The communication unit transfers the bibliography list to the client units 51-1, 51-2,..., 51-n, and the process ends.
[0025]
As described above, by acquiring the score of the search history from the beginning or end according to the position where the bibliography list is acquired, the overall sorting unit reduces the number of scores to be transferred to the overall sorting unit. The number of cases to be retrieved is reduced, and a faster bibliographic list can be obtained.
[0026]
Although the search history is obtained from the end of the search history in the second embodiment, the search in the search engine unit may be performed from the descending order to the ascending order to obtain the search history from the start.
[0027]
(Embodiment 3)
Hereinafter, a third embodiment of the present invention will be described with reference to the drawings.
[0028]
FIG. 6 is a diagram showing an information retrieval device according to one embodiment of the present invention.
6, 61-n are client units, 62 is a communication unit, 63-1, 63-2, ..., 63-n is a search engine unit, Reference numeral 67 denotes an index storage unit, and reference numeral 67 denotes a bibliographic storage unit. The above is the same as the configuration shown in FIG. 1 is different from the configuration of FIG. 1 in an overall sort section 64, a score storage section 65, and a score distribution storage section 66. When a bibliographic list is acquired, the overall sort section 64 obtains scores and distribution information of the number of records by the search engine section 63-. , 63-n, and by summing (accumulating) the number of cases within each score range, the search engine units 63-1, 63-2,. It is possible to reduce the number of scores obtained from 63-n.
[0029]
The operation of the information retrieval device configured as described above will be described below.
First, the client unit 61-1, 61-2,..., 61-n transfers a search request from the user to the communication unit 62. When the search request comes, the communication unit 62 , 63-2,..., 63-n, and the search engine units 63-1, 63-2,. Then, the index information for the search is read out and searched, and the number of search results is passed to the communication unit 62. The communication unit 62 sums up the number of search results of each of the search engine units 63-1, 63-2,..., 63-n and returns the result to the client unit 61.
[0030]
When a request for a bibliographic list is received, the communication unit 62 sends the number from the head of the bibliographic list and the number of records to be obtained to the overall sorting unit 64. The whole sort unit 64 determines the number of cases equal to or larger than the lower limit of the score within each score range obtained by dividing the score from 0 to m into n, with the maximum value of the score being m, by the search engine units 63-1, 63-2,. , 63-n. The search engine units 63-1, 63-2,..., 63-n obtain the number of cases equal to or more than the lower limit value in each score range from the scores of the search history, and send them to the overall sort unit 64. The score distribution obtained from the entire sort unit or each search engine is stored in the score distribution storage unit 66, and the entire score distribution is created. With this, it is possible to know in which score range the acquisition start number of the bibliographic list is located, so that the score is again smaller than or equal to s for the search engine units 63-1, 63-2, ..., 63-n. And ({acquisition start number} − {number of items having a value equal to or more than the lower limit score of the score range higher by one} + {number of acquired items} −1) and the serial number are acquired and sent to the overall sorting section 64. The overall sorter 64 rearranges the obtained scores of the search engines 63-1, 63-2,..., 63-n in the order of the scores, and searches the search engines 63-1, 63-2,. .., 63-n start number and number of acquisitions. The overall sort unit 64 sends the obtained start number and the number of obtained records to each of the search engine units 63-1, 63-2,..., 63-n, and the search engine units 63-1, 63-2,. , 63-n reads the document number of the search history from the start number, creates bibliographic contents from the bibliographic storage unit 68 from the document number, and sends the bibliographic contents to the overall sort unit 64. The overall sort unit 64 sorts the bibliography list by rearranging the bibliographies from the bibliographic contents obtained from the search engine units 63-1, 63-2, ..., 63-n and the information rearranged in the score order. Created and returned to communication unit 62. The communication unit 62 transfers the bibliography list to the client units 61-1, 61-2,..., 61-n, and the process ends.
[0031]
FIG. 7 is a diagram showing an example in which a score distribution is created by the search engine unit. The numbers 71, 72, and 73 are obtained by the three search engines obtaining the number of cases equal to or more than the lower limit of each score range from the scores of the search history. Each score distribution is sent to the overall sort section 64, and the scores of the three search engine sections 63 are summed up by the overall sort section 64 within each score range as shown at 74. In the example of this figure, when the acquisition start number is 501 and the number of acquisitions is 20, since the score is 800 or more and 476, the score of the 501st is 801 or less. Therefore, the overall sorting unit 64 acquires 46 scores (501-476 + 20 + 1 = 46) and serial numbers for each search engine with a score of 801 or less. Further, the overall sorting unit 64 sorts the scores obtained from the respective search engines in descending order, and obtains 20 engine numbers, serial numbers, and numbers from the 34th (501st-476), thereby obtaining the target bibliography. The list can be obtained from each search engine unit 63.
[0032]
In the third embodiment, the number of divisions of the search history is set to n in the overall sort unit. However, n may be changed according to the number of search results. For example, when the number of search results is large, n is increased, and when the number is small, n is decreased. The number n of divisions may be changed by making the average number of records within the score range the same.
[0033]
Further, in the third embodiment, the overall sorting unit may combine the processes of the first and second embodiments according to the number of search results and the position where the bibliographic list is obtained. For example, when the number of search results is as small as about 100, the processing may be performed by the processing method of the first embodiment without acquiring the score distribution. Even when the number of search results is large, if the number is about 20 from the top, the processing may be performed by the processing method of the first embodiment without acquiring a score distribution.
[0034]
In the third embodiment, the maximum value of the score is m in the overall sorting unit. However, M may obtain the maximum value of the score at the same time as obtaining the number of cases from the search engine, and use the maximum value.
[0035]
In the first embodiment, a score obtained by quantifying the relationship between a search request and a document is used as a criterion for rearranging the search history. However, the score may be rearranged using numerical information such as date. It is needless to say that the use of this numerical information can be processed in the same manner in the second and third embodiments.
[0036]
【The invention's effect】
As described above, the present invention stores a plurality of search engine units that independently perform at least search of document data, creation of a bibliographic list, and ordering of search results according to a certain reference value, and search information for performing the search. An index storage unit, a bibliographic storage unit for storing information for creating a bibliographic list, and an overall sort unit for ordering the entire search results of the plurality of search engine units, wherein the overall sort unit starts the search results To a predetermined ordered reference value from each search engine unit, reducing the communication volume of the entire sort unit and each search engine unit to obtain a bibliography list, and bibliography at high speed even in the environment of multiple search engines This has the effect that a list can be obtained.
[0037]
Also, when obtaining the bibliographic list positioned after half of the entire search result, the overall sort unit obtains the ordering reference value from the end of the search result of the search engine unit. Creates a bibliographic list at high speed by extracting partial scores according to the acquisition number and the number of acquisitions from the beginning or end of the search results instead of extracting all the scores of the search history of multiple search engine parts It has the effect that it can be done.
[0038]
In addition, the search result is divided into n by the reference value for ordering, the number of cases that are equal to or more than the lower limit of the divided reference values is obtained from each search engine, and the number of cases is accumulated, thereby distributing the number distribution of scores to each. The bibliographic list can be created at high speed by acquiring from the search engine unit, recalculating the position of the necessary search result from the number distribution, and partially acquiring the score.
[Brief description of the drawings]
FIG. 1 is a configuration diagram of an information search device according to a first embodiment of the present invention; FIG. 2 is a diagram illustrating an operation example of a search engine unit according to the first embodiment; FIG. FIG. 4 is a diagram showing an example. FIG. 4 is a diagram showing an example of creating a bibliographic list in the first embodiment. FIG. 5 is a configuration diagram of an information search device in the second embodiment of the present invention. FIG. 7 is a diagram showing an operation example of an overall sorting unit according to the third embodiment. FIG. 8 is a diagram showing the configuration of a conventional information search device.
11-1 11-2 11-n Client unit 12 Communication unit 13-1 13-2 13-n Search engine unit 14 Overall sort unit 15 High score storage unit 16 Index storage unit 17 Bibliographic storage unit 51-1 51-2 51 -N client unit 52 communication unit 53-1 53-2 53-n search engine unit 54 overall sort unit 55 score storage unit 56 index storage unit 57 bibliographic storage unit 61-1 61-2 61-n client unit 62 communication unit 63 -1 63-2 63-n Search engine unit 64 Overall sort unit 65 Score distribution storage unit 66 Score storage unit 67 Index storage unit 68 Bibliographic storage unit

Claims (4)

少なくとも文書データの検索と書誌一覧の作成と検索結果をスコアに従って順序付けをそれぞれ独立して行なう複数の検索エンジン部と、検索を行うための検索情報を格納する索引格納部と、書誌一覧を作成するための情報を格納する書誌格納部と、前記複数の検索エンジン部の検索結果の全体を順序付けする全体ソート部とを備え、
前記全体ソート部で、検索結果の先頭から取得開始番号と取得件数より求められる件数分までのスコアを前記各検索エンジン部から取得して、取得した前記スコアをマージして前記各検索エンジン部から取得する書誌一覧の位置と件数を割り出すことにより、割り出した書誌一覧の位置と件数にしたがって、全体ソート部が前記検索エンジン部に書誌内容を要求し、書誌一覧を作成することを特徴とする情報検索装置。
At least a plurality of search engine units that independently search document data, create a bibliography list, and order search results according to scores, create an index storage unit that stores search information for performing a search, and create a bibliography list A bibliographic storage unit for storing information for, and an overall sorting unit for ordering the entire search results of the plurality of search engine units,
In the overall sorting unit, the scores from the beginning of the search result to the number obtained from the acquisition start number and the number of acquisitions are obtained from each of the search engine units, and the obtained scores are merged to obtain the scores from each of the search engine units. By determining the position and number of bibliographic lists to be obtained, the overall sort unit requests bibliographic contents from the search engine unit according to the determined position and number of bibliographic lists, and creates a bibliographic list. Search device.
前記検索要求を処理するクライアント部と、このクライアント部からの検索要求を前記検索エンジン部と全体ソート部に転送して検索結果をクライアント部に返す通信部をさらに備えたことを特徴とする請求項1記載の情報検索装置。The system according to claim 1, further comprising: a client unit that processes the search request; and a communication unit that transfers the search request from the client unit to the search engine unit and the overall sort unit and returns a search result to the client unit. 1. The information retrieval device according to 1. 前記全体ソート部は、検索結果全体の半分以降に位置づけられた書誌一覧を取得する場合に、前記各検索エンジン部の検索結果の末尾から全体の検索結果件数と取得開始番号より求められる件数分のスコアを前記各検索エンジン部から取得して、前記スコアを用いて前記各検索エンジン部から取得する書誌一覧の位置と件数を割り出して書誌一覧を取得することにより、割り出した書誌一覧の位置と件数にしたがって、全体ソート部が前記検索エンジン部に書誌内容を要求し、書誌一覧を作成することを特徴とする請求項1記載の情報検索装置。The overall sort unit, when acquiring a bibliographic list positioned after half of the entire search result, the number of search results from the end of the search results of each search engine unit and the number of search results obtained from the number of search results and the acquisition start number to obtain a score from each of the search engine unit, by acquiring the bibliography list indexing the position and number of bibliographic list acquired from each of the search engine by using the score, the position and number of bibliographic list of indexing 2. The information retrieval apparatus according to claim 1, wherein the entire sort unit requests the search engine unit for bibliographic contents in accordance with the following, and creates a bibliographic list . 前記全体ソート部は、検索結果のスコアをn分割し(n≧2)、各々分割されたスコアに対する件数を各検索エンジンから取得してスコア分布記憶部に格納し、格納した件数を累計して各検索エンジンから該当部分のスコアを取得してスコア記憶部に格納し、格納したスコアをマージして前記各検索エンジン部から取得する書誌一覧の位置と件数を割り出すことで、割り出した書誌一覧の位置と件数にしたがって、全体ソート部が前記検索エンジン部に書誌内容を要求し、書誌一覧を作成することを可能にした請求項1記載の情報検索装置。The overall sorting unit divides the score of the search result into n (n ≧ 2), acquires the number of cases for each divided score from each search engine, stores it in the score distribution storage unit, and accumulates the number of stored cases. By obtaining the score of the corresponding portion from each search engine and storing it in the score storage unit, merging the stored scores and calculating the position and number of bibliographic lists obtained from each search engine unit , 2. The information search apparatus according to claim 1, wherein the entire sort unit requests the search engine unit for bibliographic contents in accordance with the position and the number of cases, and creates a bibliographic list .
JP06658598A 1998-03-17 1998-03-17 Information retrieval device Expired - Fee Related JP3564999B2 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP06658598A JP3564999B2 (en) 1998-03-17 1998-03-17 Information retrieval device
CN 99104149 CN1114880C (en) 1998-03-17 1999-03-17 Device and method for information retrieval
HK00101297A HK1022538A1 (en) 1998-03-17 2000-03-01 Device and method for information retrieval

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06658598A JP3564999B2 (en) 1998-03-17 1998-03-17 Information retrieval device

Publications (2)

Publication Number Publication Date
JPH11265393A JPH11265393A (en) 1999-09-28
JP3564999B2 true JP3564999B2 (en) 2004-09-15

Family

ID=13320180

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06658598A Expired - Fee Related JP3564999B2 (en) 1998-03-17 1998-03-17 Information retrieval device

Country Status (3)

Country Link
JP (1) JP3564999B2 (en)
CN (1) CN1114880C (en)
HK (1) HK1022538A1 (en)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NO992269D0 (en) * 1999-05-10 1999-05-10 Fast Search & Transfer Asa ° engine with two-dimensional scalable, parallel architecture
KR20000006664A (en) * 1999-09-29 2000-02-07 문성일 Meta search engine be set on computer of end user
KR100382600B1 (en) * 2000-01-31 2003-05-01 주식회사 제이.이.씨 Method for providing integrated web search service through network system and computer-readable medium recording the method
JP3555869B2 (en) 2000-09-28 2004-08-18 Necソフト株式会社 Encrypted file search method and apparatus, and computer-readable recording medium
AUPR894801A0 (en) * 2001-11-20 2001-12-13 Unisearch Limited A system and method for searching data sources
US9805032B2 (en) 2002-06-14 2017-10-31 Koninklijke Philips N.V. Client-server protocol
JP4041080B2 (en) * 2004-03-23 2008-01-30 東芝ソリューション株式会社 Data search device and data search program
JP2005332476A (en) * 2004-05-19 2005-12-02 Sony Corp Information processor
CN100401300C (en) * 2006-04-29 2008-07-09 上海世纪互联信息系统有限公司 Searching engine with automating sorting function
CN100456293C (en) * 2006-10-19 2009-01-28 腾讯科技(深圳)有限公司 Information fast searching device, client end, system and method
JP5374881B2 (en) * 2008-02-05 2013-12-25 日本電気株式会社 Information search system, information search method and program
JP5110162B2 (en) * 2008-07-01 2012-12-26 富士通株式会社 Search device and search method
JP2010092401A (en) * 2008-10-10 2010-04-22 Panasonic Corp Network device, apparatus, method of retrieving information thereof and program thereof
JPWO2010058519A1 (en) * 2008-11-18 2012-04-19 日本電気株式会社 Hybrid search system, hybrid search method, and hybrid search program
CN101546342B (en) * 2009-05-08 2012-07-04 阿里巴巴集团控股有限公司 Method and system for implementing search service
JP5281516B2 (en) * 2009-08-18 2013-09-04 日本電信電話株式会社 Document storage device and document storage program
JP6027473B2 (en) * 2013-03-25 2016-11-16 株式会社Nttドコモ Content search result providing apparatus, content search result providing method, and content search result providing system
CN116910232B (en) * 2023-09-13 2024-01-09 之江实验室 Astronomical literature search method and astronomical literature search method

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3395208B2 (en) * 1991-07-10 2003-04-07 株式会社日立製作所 How to sort and access a distributed database
JPH1021250A (en) * 1996-06-14 1998-01-23 Infoseek Corp Method for retrieving plural data bases and method for searching document between plural data bases

Also Published As

Publication number Publication date
HK1022538A1 (en) 2000-08-11
CN1229218A (en) 1999-09-22
CN1114880C (en) 2003-07-16
JPH11265393A (en) 1999-09-28

Similar Documents

Publication Publication Date Title
JP3564999B2 (en) Information retrieval device
Brin et al. Reprint of: The anatomy of a large-scale hypertextual web search engine
US7966337B2 (en) System and method for prioritizing websites during a webcrawling process
US7213198B1 (en) Link based clustering of hyperlinked documents
US7676117B1 (en) Systems and methods for using image duplicates to assign labels to images
US6567800B1 (en) System and method for searching information stored on a network
US8285724B2 (en) System and program for handling anchor text
US5943670A (en) System and method for categorizing objects in combined categories
US20090125504A1 (en) Systems and methods for visualizing web page query results
US6907425B1 (en) System and method for searching information stored on a network
US7398461B1 (en) Method for ranking web page search results
US7523109B2 (en) Dynamic grouping of content including captive data
WO2004025391A2 (en) System and method of searching data utilizing automatic categorization
JP2006048683A (en) Phrase identification method in information retrieval system
JP2011175670A (en) Phrase-based searching in information retrieval system
US6622139B1 (en) Information retrieval apparatus and computer-readable recording medium having information retrieval program recorded therein
JP2006048686A (en) Generation method for document explanation based on phrase
JP2006048685A (en) Indexing method based on phrase in information retrieval system
JP2009525520A (en) Evaluation method for ranking and sorting electronic documents in search result list based on relevance, and database search engine
JP2005182808A (en) Dynamic content clustering
US7305610B1 (en) Distributed crawling of hyperlinked documents
Dolin et al. Scalable collection summarization and selection
Ru et al. Indexing the invisible web: a survey
JPH06301732A (en) Document retrieval processing method
KR100434718B1 (en) Method and system for indexing document

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20031209

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040419

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040518

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080618

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090618

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100618

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees