JP2004259083A - Method, server and program for retrieving information - Google Patents
Method, server and program for retrieving information Download PDFInfo
- Publication number
- JP2004259083A JP2004259083A JP2003050314A JP2003050314A JP2004259083A JP 2004259083 A JP2004259083 A JP 2004259083A JP 2003050314 A JP2003050314 A JP 2003050314A JP 2003050314 A JP2003050314 A JP 2003050314A JP 2004259083 A JP2004259083 A JP 2004259083A
- Authority
- JP
- Japan
- Prior art keywords
- user
- page
- www
- www page
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 239000011159 matrix material Substances 0.000 claims abstract description 53
- 239000000284 extract Substances 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 abstract 2
- 238000013138 pruning Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 239000003550 marker Substances 0.000 description 6
- 230000000644 propagated effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報を前記クライアントに送信する情報検索方法、情報検索サーバ、及び情報検索プログラムに関するものである。
【0002】
【従来の技術】
WWWの普及により、膨大な量の情報が電子化されてWWWページとしてアクセス可能となっており、大量のWWWページによる情報が様々な分野で広く利用されている。このようなWWW上の膨大な量の情報の中から、ユーザが所望の目的の情報を効率よく得るためには、WWW上で効率よく情報検索を行い、所望のWWWページを素早く表示できることが非常に重要である。このような情報検索を行うために、従来より様々な検索エンジンが利用されている。
【0003】
従来の検索エンジンによる情報検索システムの概要を説明するに、まず、ユーザがクライアントにおいて、所望の情報を得るためのキーワードを入力し、該キーワードをサーバに送信する。キーワードを受信したサーバは、キーワード・ページ対応表から、該キーワードに該当するWWWページ情報を抽出してWWWページリストを生成し、該WWWページリストをクライアントに表示する。ユーザは、表示された各WWWページ情報のURLを用いて所望のWWWページを表示させることができる。また、表示されたWWWページリストのWWWページ情報数が多い場合には、更にキーワードを入力して絞込みを行う。なお、前記キーワード・ページ対応表は、サーバが予め検索対象となるWWWページを収集し、各WWWページに含まれるキーワードを抽出することにより作成されている。
【0004】
一般に、検索エンジンにより検索可能なWWWページ数は膨大であり、慣用されている用語や多用されている用語をキーワードとして情報検索を行うと、該キーワードを有するWWWページが膨大に存在するので、WWWページリストに表示されるWWWページ情報数も膨大となる。従って、更にキーワードを入力してWWWページの絞込みを行う必要がある。例えば、ユーザが、ある田中氏の情報を得るために従来の検索エンジンで「田中」をキーワードとして情報検索を行うと、百数十万件のWWWページがヒットする。これらWWWページリストの中には、様々な分野における「田中」を氏とする者の情報が混在するので、該WWWページリストの中から、ユーザが所望の田中氏の情報を有するWWWページを探し出すことは困難である。更に、音楽関係の田中氏の情報を得たいので、「田中」と「音楽」とをキーワードとして絞込みを行っても、二十数万件がヒットし、これらの中から所望の田中氏の情報を有するWWWページを探し出すことも困難である。従って、WWW上で情報検索を行う場合には、所望のWWWページに含まれ、且つ慣用語や多用語でないと推測されるキーワードを使うことが望まれるが、該キーワードを的確に想定して効率のよい情報検索を行うことは、WWWページにおける慣用語や多用語を把握した熟練者でないと難しい。
【0005】
他方、従来の検索エンジンでは、情報検索に不慣れなユーザや的確なキーワードを幾つも思いつかない場合等でも、ユーザが所望のWWWページを効率よく表示させることができるように、検索結果を順位付けしてWWWページリストに表示するようにしている。このような検索結果の順位付けには、WWWページのアクセス数や被リンク数を基準としている場合が多く、アクセス数の多いものは、多くのユーザに対して人気が高いので、情報検索を行ったユーザが望むWWWページに該当する可能性が高く、また、被リンク数が多いものは、多くのWWWページからリンクが貼られていることからWWWページの客観的な重用度が高いので、同様に、ユーザの望むWWWページに該当する可能性が高いと考えられる(特許文献1及び特許文献2参照)。
【0006】
図10は、従来の情報検索システムの処理の一例を示す図であるが、まず、クライアントに入力されたキーワードにより、サーバが予め作成されたキーワード・ページ対応表を用いて該当するキーワードを有するWWWページを検索する。
【0007】
図11は、前記キーワード・ページ対応表であり、縦軸をWWWページ、横軸をキーワードとして、「0」は対応するキーワードを有しないことを、「1」は対応するキーワードを有することを表示している。このようなキーワード・ページ対応表は、ロボット検索等により一定期間毎にWWWページを巡回してキーワードが抽出されて随時更新されている。このようなキーワード・ページ対応表により、クライアントが入力したキーワードを含むWWWページが抽出される。
【0008】
次に、検索された複数のWWWページに対して、ページ優先度表を用いて各WWWページの順位付けを行う。このページ優先度表には、WWWページのアクセス数や被リンク数を基準として各WWWページ毎に優先度を示す数値が記録されている。図12は、前記ページ優先度表であり、各WWWページ毎のアクセス数又は被リンク数に応じてランク付けがされており、数値が大きいもの程、アクセス数又は被リンク数が多く、優先度が高いことを示している。この順位付けに従って、検索されたWWWページ情報を優先度の高い順から降順としてWWWページリストを生成してクライアントに表示する。
【0009】
例えば、クライアントがキーワード「c」を入力して検索を行った場合、情報検索システムとして機能するサーバは、前記キーワード・ページ対応表よりWWWページC,D,Eが抽出する。さらに、前記ページ優先度表から、抽出されたWWWページC,E,Dの優先度を得て、優先度の高い順にC,E,Dの順序でWWWページリストが生成され、クライアントに表示される。
【0010】
ユーザはクライアントに表示されたWWWページリストの各WWWページ情報から任意のWWWページを選択して表示させるが、アクセス数又は被リンク数の多いWWWページは、多くのユーザにとって有用なものであるから、情報検索を行っている当該ユーザにとっても有用である可能性が高い。このように、アクセス数や被リンク数を指標として、広くユーザに有用であるWWWページから順位付けしたWWWページリストを生成することにより、ユーザが望んでいる情報を有するWWWページが上位に含まれる可能性が高くなり、効率のよい情報検索を提供することができる。
【0011】
【特許文献1】
特開2002−202992号公報
【特許文献2】
特開2002−215671号公報
【0012】
【発明が解決しようとする課題】
しかし、WWW上で提供される情報の種類が多様化するとともに、情報検索の目的もユーザ毎に多様となっており、更にWWWの利用層が広がることにより、情報検索を利用する各ユーザの嗜好も様々となっている。従って、情報検索を行った特定のユーザが望んでいる情報を有するWWWページが、必ずしも、全ユーザに人気の高いものや重要なものであるとは限らないので、アクセス数や被リンク数を基準とした順位付けは、多種多様なユーザすべての検索効率を高めるものではない。
【0013】
例えば、若年層のユーザに人気のあるWWWページが、高齢層のユーザにとっても人気があるとは限らないように、特定のユーザが自分の嗜好にあった情報を検索しようとしても、全ユーザのアクセス数や被リンク数を基準として順位付けされたWWWページリストでは、当該ユーザが望む情報を有するWWWページが上位に含まれるとは限らないので、当該ユーザはWWWページリストによる順位付けに関係なく各WWWページを順次表示させることにより、各々のWWWページに所望の情報が含まれているかを確認せねばならず、結局、情報検索に時間と手間を要することとなり非効率である。
【0014】
本発明は、これらに鑑みてなされたものであり、WWW上で効率のよい情報検索を行うことができる情報検索システム及び情報検索方法、特に情報検索を行う特定のユーザの嗜好を反映させた情報検索を行うことができる情報検索方法、情報検索サーバ、及び情報検索プログラムを提供することを目的とする。
【0015】
【課題を解決するための手段】
本発明の請求項1に係る情報検索方法は、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報を前記クライアントに送信する情報検索方法であって、前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索し、前記ユーザIDとWWWページ検索結果とを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、前記ユーザと前記キーワードにおいて類似した傾向を有するユーザのコミュニティを求め、該コミュニティに属するWWWページを選択し、該コミュニティに属するユーザのアクセス頻度に基づいて、前記コミュニティに属するWWWページを順位付けて各WWWページ情報を示したWWWページリストを生成し、該WWWページリストを前記クライアントに送信するものである。
【0016】
また、本発明の請求項2に係る情報検索方法は、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報を前記クライアントに送信する情報検索方法であって、前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索し、前記ユーザIDに基づいて、予め各ユーザの好みを記録したユーザプロファイルから、該ユーザと好みが類似するユーザのコミュニティを求め、前記WWWページ検索結果と前記コミュニティに属するユーザとを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、該領域に属するWWWページを選択し、前記領域に属するユーザのアクセス頻度に基づいて、前記領域に属するWWWページを順位付けて各WWWページ情報を示したWWWページリストを生成し、該WWWページリストを前記クライアントに送信するものである。
【0017】
また、本発明(請求項3)は、請求項1又は2に記載の情報検索方法において、前記クライアントからのキーワードが、ユーザが入力したものである。
【0018】
また、本発明(請求項4)は、請求項1又は2に記載の情報検索方法において、前記クライアントからのキーワードが、クライアントに表示されたキーワード群からユーザが選択したものである。
【0019】
また、本発明(請求項5)は、請求項1又は2に記載の情報検索方法において、前記クライアントからのキーワードは、クライアントに表示されているWWWページから抽出されたものである。
【0020】
また、本発明(請求項6)は、請求項1に記載の情報検索方法において、前記ユーザ・ページ対応表から、要求元のユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものである。
【0021】
また、本発明(請求項7)は、請求項6に記載の情報検索方法において、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ以外のものを対象外とするものである。
【0022】
また、本発明(請求項8)は、請求項2に記載の情報検索方法において、前記ユーザ・ページ対応表から、前記コミュニティに属するユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザと前記コミュニティに属するユーザとを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものである。
【0023】
また、本発明(請求項9)は、請求項8に記載の情報検索方法において、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ又は前記コミュニティに属するユーザ以外のものを対象外とするものである。
【0024】
また、本発明(請求項10)は、請求項1又は2に記載の情報検索方法において、前記WWWページリストは、前記コミュニティ又は領域に属するWWWページを、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が高いWWWページと、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が低いWWWページと、前記キーワードを含まないがコミュニティ又は領域のアクセスが頻度が高いWWWページとに分類し、各分類毎に順位付けて各WWWページ情報を示したものである。
【0025】
また、本発明の請求項11に係る情報検索サーバは、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報をWWWページリストとして前記クライアントに送信する情報検索サーバであって、前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段と、前記ユーザIDとページ検索手段の検索結果とを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、前記ユーザと前記キーワードにおいて類似した傾向を有するユーザのコミュニティを求め、該コミュニティに属するWWWページを選択して、該WWWページとコミュニティのアクセス頻度とを出力するコミュニティ検索手段と、前記コミュニティに属するユーザのアクセス頻度に基づき、前記コミュニティ検索手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段と、を具備してなるものである。
【0026】
また、本発明の請求項12に係る情報検索サーバは、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報をWWWページリストとして前記クライアントに送信する情報検索サーバであって、前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段と、前記ユーザIDに基づいて、予め各ユーザの好みを記録したユーザプロファイルから、該ユーザと好みが類似するユーザのコミュニティを求め、該コミュニティに属するユーザIDを出力するコミュニティ検索手段と、前記検索結果と前記コミュニティに属するユーザIDとを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、該領域に属するWWWページを選択して、該WWWページとアクセス頻度とを出力するマトリクスクラスタリング手段と、前記アクセス頻度に基づき、前記マトリクスクラスタリング手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段と、を具備してなるものである。
【0027】
また、本発明(請求項13)は、請求項11又は12に記載の情報検索サーバにおいて、前記ページ検索手段は、ユーザが前記クライアントに入力したキーワードに基づいて、WWWページを検索するものである。
【0028】
また、本発明(請求項14)は、請求項11又は12に記載の情報検索サーバにおいて、前記ページ検索手段は、前記クライアントにキーワード群を表示し、該キーワード群からユーザが選択したキーワードに基づいて、WWWページを検索するものである。
【0029】
また、本発明(請求項15)は、請求項11又は12に記載の情報検索サーバにおいて、前記ページ検索手段は、前記クライアントに表示されているWWWページからキーワードを抽出し、該キーワードに基づいて、WWWページを検索するものである。
【0030】
また、本発明(請求項16)は、請求項11に記載の情報検索サーバにおいて、前記コミュニティ検索手段は、前記ユーザ・ページ対応表から、要求元のユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものである。
【0031】
また、本発明(請求項17)は、請求項16に記載の情報検索サーバにおいて、前記コミュニティ検索手段は、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ以外のものを対象外とするものである。
【0032】
また、本発明(請求項18)は、請求項12に記載の情報検索サーバにおいて、前記マトリクスクラスタリング手段は、前記ユーザ・ページ対応表から、前記コミュニティに属するユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザと前記コミュニティに属するユーザとを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものである。
【0033】
また、本発明(請求項19)は、請求項18に記載の情報検索サーバにおいて、前記マトリクスクラスタリング手段は、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ又は前記コミュニティに属するユーザ以外のものを対象外とするものである。
【0034】
また、本発明(請求項20)は、請求項11又は12に記載の情報検索サーバにおいて、前記ページリスト生成手段は、前記コミュニティ又は前記領域に属するWWWページを、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が高いWWWページと、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が低いWWWページと、前記キーワードを含まないがコミュニティ又は領域のアクセスが頻度が高いWWWページとに分類し、各分類毎に順位付けて各WWWページ情報を示したWWWページリストを生成するものである。
【0035】
また、本発明の請求項21に係る情報検索プログラムは、コンピュータを、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報をWWWページリストとして前記クライアントに送信する情報検索サーバとして機能させるための情報検索プログラムであって、コンピュータを、前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段、前記ユーザIDとページ検索手段の検索結果とを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、前記ユーザと前記キーワードにおいて類似した傾向を有するユーザのコミュニティを求め、該コミュニティに属するWWWページを選択して、該WWWページとコミュニティのアクセス頻度とを出力するコミュニティ検索手段、前記コミュニティに属するユーザのアクセス頻度に基づき、前記コミュニティ検索手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段、として機能させるものである。
【0036】
また、本発明の請求項22に係る情報検索プログラムは、コンピュータを、要求元のクライアントからのキーワード及びユーザIDに基づいて、WWWページ上で提供されている情報からユーザが所望する情報を検索して、該情報を有するWWWページ情報をWWWページリストとして前記クライアントに送信する情報検索サーバとして機能させるための情報検索プログラムであって、コンピュータを、前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段、前記ユーザIDに基づいて、予め各ユーザの好みを記録したユーザプロファイルから、該ユーザと好みが類似するユーザのコミュニティを求め、該コミュニティに属するユーザIDを出力するコミュニティ検索手段、前記検索結果と前記コミュニティに属するユーザIDとを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、該領域に属するWWWページを選択して、該WWWページとアクセス頻度とを出力するマトリクスクラスタリング手段、前記アクセス頻度に基づき、前記マトリクスクラスタリング手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段、として機能させるものである。
【0037】
また、本発明(請求項23)は、請求項21又は22に記載の情報検索プログラムにおいて、前記ページ検索手段を、ユーザが前記クライアントに入力したキーワードに基づいて、WWWページを検索するものとして機能させるものである。
【0038】
また、本発明(請求項24)は、請求項21又は22に記載の情報検索プログラムにおいて、前記ページ検索手段を、前記クライアントにキーワード群を表示し、該キーワード群からユーザが選択したキーワードに基づいて、WWWページを検索するものとして機能させるものである。
【0039】
また、本発明(請求項25)は、請求項21又は22に記載の情報検索プログラムにおいて、前記ページ検索手段を、前記クライアントに表示されているWWWページからキーワードを抽出し、該キーワードに基づいて、WWWページを検索するものとして機能させるものである。
【0040】
また、本発明(請求項26)は、請求項21に記載の情報検索プログラムにおいて、前記コミュニティ検索手段を、前記ユーザ・ページ対応表から、要求元のユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものとして機能させるものである。
【0041】
また、本発明(請求項27)は、請求項26に記載の情報検索プログラムにおいて、前記コミュニティ検索手段を、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ以外のものを対象外とするものとして機能させるものである。
【0042】
また、本発明(請求項28)は、請求項22に記載の情報検索プログラムにおいて、前記マトリクスクラスタリング手段を、前記ユーザ・ページ対応表から、前記コミュニティに属するユーザがアクセスしたWWWページと前記キーワードを含むWWWページとを次の対象として選択し、対象となったWWWページにアクセスしたユーザと前記コミュニティに属するユーザとを、その次の対象として選択し、これを所定の収束条件を満たすまで繰り返すことにより、アクセス履歴が密集した領域を抽出するものとして機能させるものである。
【0043】
また、本発明(請求項29)は、請求項28に記載の情報検索プログラムにおいて、前記マトリクスクラスタリング手段を、前記ユーザ・ページ対応表から、WWWページ又はユーザを次の対象として選択する際に、各WWWページ又はユーザのアクセス頻度が所定の閾値以下のものであって前記キーワードを含むWWWページ又は前記コミュニティに属するユーザ以外のものを対象外とするものとして機能させるものである。
【0044】
また、本発明(請求項30)は、請求項21又は22に記載の情報検索プログラムにおいて、前記ページリスト生成手段を、前記コミュニティ又は前記領域に属するWWWページを、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が高いWWWページと、前記キーワードを含み且つ前記コミュニティ又は領域のアクセス頻度が低いWWWページと、前記キーワードを含まないがコミュニティ又は領域のアクセスが頻度が高いWWWページとに分類し、各分類毎に順位付けて各WWWページ情報を示したWWWページリストを生成するものとして機能させるものである。
【0045】
【発明の実施の形態】
以下、本発明の実施の形態を図面に基づき具体的に説明する。
〔第1の実施の形態〕
図1に示すように、本実施の形態に係る情報検索システム1は、情報検索サーバ2と複数のクライアント3とが、ネットワーク4を介して双方通信可能な状態で接続されて構成されている。情報検索サーバ2及びクライアント3は、計算機とソフトウェア等によって構成されている。該計算機は、例えばパーソナルコンピュータであり、CPU、RAM、ハードディスク、CRT等の表示装置、キーボードやマウス等の入力装置、LANボード等の通信装置等から構成される。ネットワーク4は、広域網や公衆網、LAN等であり、本実施の形態ではインターネットを例に説明する。
【0046】
本実施の形態にように、インターネットを介して情報検索サーバ2にクライアント3がアクセスされる場合では、一般に、情報検索サーバ2は検索エンジンを提供するWWWサーバであり、クライアント3はインターネットブラウザ等のインタフェースを具備し、該インタフェースにより検索エンジンやWWWページを閲覧することができるものである。ユーザがクライアント3からWWW上の情報検索を行う際には、クライアント3のインタフェースに表示された検索エンジンにおいてキーワードを入力することにより、該クライアント3からネットワーク4を介して情報検索サーバ2に前記キーワード及びユーザIDが送信され、これに対し、情報検索サーバ2が該キーワード及びユーザIDに基づいてWWWページの検索を行い、検索結果を順位付けしてWWWページリストを生成し、クライアント3へ送信する。ユーザはクライアント3のインタフェースに表示されたWWWページリストから所望のWWWページを選択することにより、クライアント3にWWWページを閲覧する。
【0047】
前記情報検索サーバ2は、管理部20、ページ検索部21、コミュニティ検索部22、ページリスト生成部23を備えてなるものである。
管理部20は、ページ検索部21、コミュニティ検索部22、ページリスト生成部23の機能の管理とネットワーク4との接続の確保を行っており、クライアント3から送信されたキーワード及びユーザIDは管理部20が受信して、ページ検索部21及びコミュニティ検索部22へ送信するようになっている。また、ページリスト生成部23により作成されたWWWページリストを所定のクライアント3に送信するようになっている。さらに、管理部20は、予め定められた一定周期毎にWWW上のWWWページを巡回して、各WWWページに含まれるキーワードを抽出し、該キーワードとWWWページIDとを対応させたキーワード・ページ対応表として記録し、且つ、WWWページのURLやページ運営者、ページ要約等のWWWページ情報をWWWページIDと対応させたWWWページ情報データベースとして記録するロボット検索機能と、アクセスログ等から各ユーザのWWWページへのアクセス履歴を、ユーザIDとWWWページIDとを対応させたユーザ・ページ対応表として記録する機能とを有している。このように機能する管理部20は、例えばCPU及び通信装置により実現することができる。
【0048】
ページ検索部21は、前記管理部20からキーワードを受け、ロボット検索等を用いて蓄積されたキーワード・ページ対応表を用いて、該キーワードを有するWWWページIDを検索して、コミュニティ検索部21へ出力するものである。WWWページIDは、URL等、WWWページを識別できるものであればよい。キーワード・ページ対応表は、例えばハードディスクに格納されており、ページ検索部21は、例えばCPUにより実現することができる。
【0049】
コミュニティ検索部22は、前記管理部20からユーザIDを、前記ページ検索部21からWWWページの検索結果、即ち抽出されたWWWページIDを受け、該ユーザIDとWWWページIDを初期値として、ユーザ・ページ対応表からマトリクスクラスタリングを行って情報検索を行っているユーザのコミュニティを求め、該コミュニティに属するユーザのアクセスが多いWWWページIDと前記キーワードを含むWWWページIDとをページリスト生成部22へ出力するものである。マトリクスクラスタリングは、「1」と「0」との2値をもつ行列から密な部分行列を抽出する手法であるが、詳細については後述する。コミュニティとは、マトリクスクラスタリングにより抽出された密な部分行列に含まれるユーザ群であり、情報検索を行っているユーザがアクセスしたWWWページ又は前記キーワードを含むWWWページにアクセスしたことがあるユーザの集まりとしてマトリクスクラスタリングにより求められる。即ち、コミュニティとは、情報検索を行っているユーザの嗜好と同様の嗜好を持つユーザ群である。ユーザ・ページ対応表は、例えばハードディスクに格納されており、コミュニティ検索部22は、例えばCPUにより実現することができる。
【0050】
ページリスト生成部23は、前記コミュニティ検索部22からコミュニティに属するユーザのアクセス頻度が高いWWWページIDと前記キーワードを含むWWWページIDとを受けて、一定の優先順位に基づいてWWWページIDを順位付けし、WWWページ情報データベースからWWWページ情報を読み出してWWWページリストを生成するものである。前記コミュニティに属するユーザのアクセス頻度が高いWWWページIDと前記キーワードを含むWWWページIDとから、(1)キーワードを含み且つコミュニティのアクセス頻度が高いWWWページ、(2)キーワードを含み且つコミュニティのアクセス頻度が低いWWWページ、(3)キーワードを含まないがコミュニティのアクセス頻度が高いWWWページの3種類のWWWページに分類することができるので、予め、これらに所定の優先順位を設定しておく。一般に、(1)に分類されるWWWページが情報検索を行っているユーザにとって有用度が高いと考えられるので、(1)を優先し、(2)又は(3)のいずれを優先させるかを設定しておけばよい。また、(1),(2),(3)内夫々におけるWWWページの優先度はコミュニティのアクセス頻度により順位付けする。
【0051】
次に、本情報検索システム1の処理手順を図2〜4を用いて説明する。
まず、ユーザPは、クライアント3から、ネットワーク4を介して情報検索サーバ2にアクセスし、クライアント3のインタフェースに検索エンジンのページを表示する。ユーザPが望む情報を有するWWWページを検索するために、手器等と思われるキーワードを当該ページ上に入力する。例えば、キーワードとして「c」と「d」とをand検索で入力したとする。クライアント3から、該キーワードc,dとユーザPのユーザIDとが情報検索サーバ2に送信され、これを受けて該情報検索サーバ2は情報検索処理を実行する。
【0052】
図2は、前記情報検索サーバ2の検索処理手順を示すものであるが、図に示すように、前記キーワードc,dとユーザPのユーザIDとを受けた情報検索サーバ2は、まず、キーワードc,dを含むWWWページを検索するページ検索を行う(S1)。詳細には、キーワードc,dとユーザPのユーザIDとを受けた管理部20から、キーワードc,dがページ検索部21に出力され、該ページ検索部21がキーワード・ページ対応表からキーワードc,dを含むWWWページIDを抽出する。図3は、キーワード・ページ対応表の一例を示すものであり、縦軸をWWWページID、横軸をキーワードとして、WWWページがキーワードを有する場合は「1」で、有しない場合は「0」で表現されている。いま、入力されているキーワードは「c」and「d」であるので、ページ検索部21は、WWWページC,DのWWWページIDを抽出して、コミュニティ検索部22へ出力することとなる。
【0053】
管理部20からユーザPのユーザIDを、ページ検索部21からWWWページC,DのWWWページIDを受けたコミュニティ検索部22は、これらユーザIDとWWWページIDとを初期値として、ユーザ・ページ対応表のマトリクスクラスタリングを実行する(S2)。図4は、ユーザ・ページ対応表の一例を示すものであり、縦軸をユーザID、横軸をWWWページIDとして、ユーザがWWWページにアクセスした場合は「1」で、アクセスしていない場合は「0」で表現されている。従って、例えばユーザPはWWWページA,Bを閲覧したことがある。マトリクスクラスタリングは、1と0との2値をもつ行列から初期値を含む密な部分行列を抽出する手法であり、指定された行又は列からマーカ伝播と枝刈りと繰り返すことにより密な部分行列を見つける。
【0054】
以下、初期値をユーザP、WWWページC,Dとして、ユーザPの列から行方向に向かってマトリクスクラスタリングを行っていく過程を、図5を用いて説明する。
まず、図5(a)に示すように、ユーザ・ページ対応表からユーザPの列から要素が1である行、即ちWWWページA,Bに向かってマーカが伝播される。この際、WWWページC,Dはキーワードc,dを含むので、強制的にマーカ伝播される。従って、WWWページA,B,C,Dが生き残る。次に、図5(b)に示すように、WWWページA,B,C,Dの行から要素が1である列、即ちユーザP,Q,R,S,T,U,Vに向かってマーカが伝播される。その後、図5(c)に示すように、列において受信したマーカ数により枝刈りが行われる。マーカ数1以下に対して枝刈りを行うと、ユーザS,T,U,Vが消去され、ユーザP,Q,Rが生き残る。同様に、行において受信したマーカ数により枝刈りが行われるが、WWWページCはマーカ数が0であるもののキーワードc,dを含むので、マーカ数に拘わらず強制的に生き残る。WWWページDはマーカ数が2であり枝刈りの対象にはならないが、仮に枝刈りの対象になったとしてもキーワードc,dを含むので、強制的に生き残る。このように、所定のマーカ数を閾値として枝刈りを行うことにより、最終的な部分行列を所望の大きさに絞り込むことが可能となり、また、マトリクスクラスタリングが効率化されて処理速度が速くなるので、ユーザ・ぺージ対応表が膨大な場合に効果的である。
【0055】
その他のWWWページA,Bはマーカ数が2であるので、枝刈りは行われない。この後、マーカ伝播を繰り返しても行列は変化しないので、マトリクスクラスタリングにより得られる密な部分行列は図5(c)に示すものとなる。当該部分行列は、キーワードc,dに関してユーザPと類似したアクセス履歴を有するコミュニティP,Q,Rを示している。このようなコミュニティは、同一ユーザPに対してもキーワードにより決定される初期値により異なる。即ち、一人のユーザは検索しようとする情報毎に複数のコミュニティに属しており、本コミュニティ検索部22が行うマトリクスクラスタリングによれば、このような予め想定できないようなユーザ間の関係であるコミュニティを容易且つ高速に抽出することができる。
【0056】
このようにして、前記コミュニティ検索部22は、コミュニティに属するユーザP,Q,Rのアクセス頻度が高いものとしてWWWページA,B,C,Dの各WWWページIDを、コミュニティの各WWWページへのアクセス頻度とともに、即ち、WWWページAに対し3,WWWページBに対し3、WWWページCに対し0、WWWページDに対し2を関連付けて出力する。また、出力キーワードc,dを含むものとしてWWWページC,DのWWWページIDを出力する。なお、このWWWページC,DのWWWページIDは前記ページ検索部21からページリスト生成部23へ出力するようにしてもよい。
【0057】
コミュニティ検索部22から、コミュニティのアクセス頻度が高いWWWページIDと、キーワードを含むWWWページIDとを受けたページリスト生成部23は、これらに基づいてWWWページの順位付けを行う(S3)。前述したように、これらWWWページは、(1)キーワードc,dを含み且つコミュニティP,Q,Rのアクセス頻度が高いWWWページD、(2)キーワードc、dを含み且つコミュニティP,Q,Rのアクセス頻度が低いWWWページC、(3)キーワードc,dを含まないがコミュニティP,Q,Rのアクセス頻度が高いWWWページA,Bの3種類のWWWページに分類することができるので、予め設定された順位に基づいて順位付けを行う。例えば、(1),(3),(2)の順で順位付けを行うように設定されている場合には、WWWページの優先順位は、D,A,B,Cの順となる。
【0058】
さらに、ページリスト生成部23は、WWWページD,C,A,BのWWWページ情報をWWWページ情報データベースから読み出してWWWページリストを作成し、管理部20へ出力する(S4)。前記WWWページ情報にはWWWページのURL等が含まれており、WWWページリストには該URLにハイパーリングが付されて表示される。管理部20は、該WWWページリストをクライアント3へ送信し(S5)、一連の情報検索処理が終了する。ユーザはクライアント3のインタフェースに表示されたWWWページリストから所望のWWWページを選択することにより、クライアント3にWWWページを閲覧することができる。
【0059】
本実施の形態において、従来の情報検索のようにWWWページの全アクセス数により順位付けをした場合には、アクセス数が4であるWWWページCがアクセス数2であるWWWページDより優先順位が高くなるが、WWWページCは、ユーザPと同様の嗜好を持つユーザQ,Rのアクセス頻度が低い。一方、WWWページDはユーザQ,Rのアクセス頻度が高い。従って、ユーザPの嗜好を考慮すれば、ユーザPにとって有用な情報はWWWページDである可能性が高いと考えられ、従来の優先順位ではユーザPの嗜好を反映していないこととなる。
【0060】
本実施の形態に係る情報検索システム1によれば、コミュニティP,Q,Rに属するユーザのアクセス頻度の高いWWWページDをWWWページリストの上位に優先して表示することができ、ユーザPの嗜好に適合した情報検索が可能となり、特に、入力されたキーワードを含むWWWページ数が膨大な場合に有用である。また、キーワードc,dを有しないWWWページA,Bをも検索結果として表示させることができ、キーワードのゆらぎに対しても強い情報検索が可能となる。
【0061】
なお、本実施の形態では、ユーザはクライアント3にキーワードを入力するものとしたが、前記ページ検索部21により、情報検索サーバ2にアクセスしたクライアント3に一定のキーワード群を表示させて、ユーザが、キーワードの入力に代えて、表示されたキーワード群からキーワードを選択するような形態としてもよい。また、前記ページ検索部21により、ユーザが現在閲覧しているWWWページに含まれる情報をキーワードとして抽出させることも可能である。
【0062】
〔第2の実施の形態〕
図6に示すように、本実施の形態に係る情報検索システム5は、情報検索サーバ6と複数のクライアント3とが、ネットワーク4を介して双方通信可能な状態で接続されて構成されている。なお、クライアント3及びネットワーク4は前記第1の実施の形態と同様であるので説明を省略し、ここでは、情報検索サーバ6について詳述する。
【0063】
前記情報検索サーバ6は、管理部60、ページ検索部61、コミュニティ検索部62、マトリクスクラスタリング部63、ページリスト生成部64を備えてなるものである。
【0064】
管理部60は、ページ検索部61、コミュニティ検索部62、マトリクスクラスタリング部63、ページリスト生成部64の機能の管理とネットワーク4との接続の確保を行っており、クライアント3から送信されたキーワード及びユーザIDは管理部60が受信して、ページ検索部61及びコミュニティ検索部62へ送信するようになっている。また、ページリスト生成部64により作成されたWWWページリストを所定のクライアント3に送信するようになっている。
【0065】
さらに、管理部60は、予め定められた一定周期毎にWWW上のWWWページを巡回して、各WWWページに含まれるキーワードを抽出し、該キーワードとWWWページIDとを対応させたキーワード・ページ対応表として記録し、且つ、WWWページのURLやページ運営者、ページ要約等のWWWページ情報をWWWページIDと対応させたWWWページ情報データベースとして記録するロボット検索機能と、アクセスログ等から各ユーザのWWWページへのアクセス履歴を、ユーザIDとWWWページIDとを対応させたユーザ・ページ対応表として記録する機能とを有している。また、情報検索サーバ6にアクセスしたユーザが新規ユーザか否かを判定し、新規ユーザである場合にはユーザプロファイルの登録画面をクライアント3に表示させ、入力されたユーザプロファイルをデータベースに記録する。また、既登録ユーザのプロファイルの変更等も同様に行う。このように機能する管理部60は、例えばCPU及び通信装置により実現することができる。
【0066】
ページ検索部61は、前記管理部60からキーワードを受け、ロボット検索等を用いて蓄積されたキーワード・ページ対応表を用いて、該キーワードを有するWWWページIDを検索して、マトリクスクラスタリング部63へ出力するものである。WWWページIDは、WWWページを識別できるものであれば、URL等であってもよい。キーワード・ページ対応表は、例えばハードディスクに格納されており、ページ検索部61は、例えばCPUにより実現することができる。
【0067】
コミュニティ検索部62は、前記管理部60からユーザIDを受け、ユーザプロファイルから情報検索を行っているユーザのコミュニティを求め、該コミュニティに属するユーザIDをマトリクスクラスタリング部63へ出力するものである。該コミュニティは、例えば、ユーザプロファイル間の相関係数を求めることにより行うが、これについては後述する。前記ユーザプロファイルは、例えばハードディスクに格納されており、コミュニティ検索部62は、例えばCPUにより実現することができる。
【0068】
マトリクスクラスタリング部63は、前記ページ検索部61からWWWページIDを、前記コミュニティ検索部62からユーザIDを受け、これを初期値として、ユーザ・ページ対応表に対してマトリクスクラスタリングを行って密な部分行列を抽出し、該部分行列に含まれるWWWページIDをページリスト生成部64へ出力する。前記ユーザ・ページ対応表は、例えばハードディスクに格納されており、コミュニティ検索部63は、例えばCPUにより実現することができる。
【0069】
ページリスト生成部64は、前記コミュニティ検索部63からWWWページIDとを受けて、一定の優先順位に基づいてWWWページIDを順位付けし、WWWページ情報データベースからWWWページ情報を読み出してWWWページリストを生成するものである。前記コミュニティに属するユーザのアクセス頻度が高いWWWページIDと前記キーワードを含むWWWページIDとから、(1)キーワードを含み且つコミュニティのアクセス頻度が高いWWWページ、(2)キーワードを含み且つコミュニティのアクセス頻度が低いWWWページ、(3)キーワードを含まないがコミュニティのアクセス頻度が高いWWWページの3種類のWWWページに分類することができるので、予め、これらに所定の優先順位を設定しておく。また、(1),(2),(3)各種類内におけるWWWページの優先度はコミュニティのアクセス頻度により順位付けする。
【0070】
次に、本情報検索システム5の処理手順を図7〜9を用いて説明する。
まず、ユーザPは、クライアント3から、ネットワーク4を介して情報検索サーバ6にアクセスし、クライアント3のインタフェースに検索エンジンのページを表示する。ユーザPが望む情報を有するWWWページを検索するために、手器等と思われるキーワードを当該ページ上に入力する。ここでは、第1の実施の形態と同様に、キーワードとして「c」と「d」とをand検索したとする。クライアント3から、該キーワードc,dとユーザPのユーザIDとが情報検索サーバ6に送信され、これを受けて該情報検索サーバ6は情報検索処理を実行する。
【0071】
図7は、前記情報検索サーバ6の検索処理手順を示すものであるが、図に示すように、前記キーワードaとユーザPのユーザIDとを受けた情報検索サーバ6は、まず、キーワードc,dを含むWWWページを検索するページ検索を行う(S10)。詳細には、キーワードc,dとユーザPのユーザIDとを受けた管理部60から、キーワードc,dがページ検索部61に出力され、該ページ検索部61が、図3に示すキーワード・ページ対応表からキーワードc,dを含むWWWページC,Dを抽出して、WWWページIDをマトリクスクラスタリング部63へ出力する。
【0072】
一方、管理部60からユーザPのユーザIDを受けたコミュニティ検索部62は、ユーザプロファイルからユーザPの属するコミュニティを抽出する(S11)。該コミュニティは、例えば、プロファイル間の相関係数を求めることにより行われる。このような相関係数を算出する方法は多種あるが、ここでは平均自乗誤差による方法を例に説明する。図8は、ユーザプロファイルの一例を示すものであり、縦軸をユーザID、横軸を例えばスポーツや音楽、映画のような好みの分野として、ユーザが好む分野を好みの度合いに応じて5段階で表現し、好まない場合は「0」で表現されている。このようなユーザプロファイルは、ユーザが情報検索サーバ5にはじめてアクセスした場合にユーザIDに対応して登録され、必要に応じて更新することも可能となっている。
【0073】
前記ユーザプロファイルから、ユーザPの嗜好は分野イ,ロ,ヘであり、まず、該カテゴリを好みの分野とした他のユーザを判定すると、ユーザPと共通の分野イ,ロ,ヘを好むのは、ユーザQ,Rであると判定される。次に、ユーザPとユーザQとのプロファイルの相関係数が、両者が共通に評価している分野のロとヘの好みの度合いの自乗の差から以下のように求められる。
(3−5)2+(1−1)2=4
同様に、ユーザPとユーザRについては、共通する分野がイとロであるので、
(5−5)2+(3−1)2=4
となる。得られた相関係数を比較すると同じであるので、ユーザPの好みに対し、ユーザQ,Rは同様に類似していると判定できる。なお、ユーザPと好みの分野が共通するユーザが多数ある場合には、求められた相関係数が閾値以下であることを条件としたり、相関係数による順位付けでコミュニティに属するユーザを選定することとしてもよい。このようにして得られたコミュニティに属するユーザIDをマトリクスクラスタリング部63へ出力する。
【0074】
ページ検索部61からWWWページC,DのWWWページIDを,コミュニティ検索部62からユーザPの属するコミュニティのユーザP,Q,RのユーザIDを受けたマトリクスクラスタリング部63は、これらユーザIDとWWWページIDとを初期値として、ユーザ・ページ対応表のマトリクスクラスタリングを実行する(S12)。図9(a)は、ユーザ・ページ対応表の一例を示すものであり、縦軸をユーザID、横軸をWWWページIDとして、ユーザがWWWページにアクセスした場合は「1」で、アクセスしていない場合は「0」で表現されている。初期値をユーザP,Q,R、WWWページC,Dとして、ユーザP,Q,Rの列から要素が1である行、即ちWWWページA,B,D,Fに向かってマーカが伝播される。この際、WWWページCはキーワードC,Dを含むので、強制的にマーカ伝播される。従って、図9(b)に示すように、WWWページA,B,C,D,Fが生き残る。その後、図9(c)に示すように、行において受信したマーカ数により枝刈りが行われる。マーカ数1以下に対して枝刈りを行うと、WWWページC,Fが消去され、WWWページA,B,Dが生き残ることとなるが、WWWページCはマーカ数が0であるもののキーワードc,dを含むので、マーカ数に拘わらず強制的に生き残る。WWWページDはマーカ数が2であり枝刈りの対象にはならないが、仮に枝刈りの対象になったとしてもキーワードc,dを含むので、強制的に生き残る。その他のWWWページA,Bはマーカ数が2であるので、枝刈りは行われない。従って、図9(c)に示すように、WWWページA,B,C,Dが生き残る。一方、列において受信したマーカ数により枝刈りを行う場合には、コミュニティに属するユーザP,Q,Rはマーカ数に拘わらず強制的に生き残るようにする。
【0075】
この後、マーカ伝播を繰り返しても行列は変化しないので、マトリクスクラスタリングにより得られる密な部分行列は図9(c)に示すものとなる。このようにして得られたWWWページA,B,C,Dを、ユーザP,Q,Rのアクセス頻度とともに、即ち、WWWページAに対し3,WWWページBに対し3、WWWページCに対し0、WWWページDに対し2を関連付けて出力する。また、出力キーワードc,dを含むものとしてWWWページC,DのWWWページIDを出力する。
【0076】
コミュニティ検索部22から、コミュニティのアクセス頻度が高いWWWページIDと、キーワードを含むWWWページIDとを受けたページリスト生成部64は、これらに基づいてWWWページの順位付けを行う(S13)。該順位付けは、第1の実施の形態と同様に行うと、D,A,B,Cの順となる。さらに、ページリスト生成部64は、WWWページD,C,A,BのWWWページ情報をWWWページ情報データベースから読み出してWWWページリストを作成し、管理部60へ出力する(S14)。管理部60は、該WWWページリストをクライアント3へ送信し(S15)、一連の情報検索処理が終了する。
【0077】
本実施の形態のように、予め登録されたユーザプロファイルによりユーザのコミュニティを抽出することとすれば、各ユーザのWWWページアクセス履歴から検出する場合より精度が高くなり、ユーザの嗜好を的確に反映した情報検索が可能となる。
【0078】
なお、前記各実施の形態に係る情報検索サーバ2,6は、専用のシステムの他、前述した情報検索方法の各処理ステップを行わせるためのプログラムとして実現し、例えば、該プログラムを記録したCD−ROM等の記録媒体を用いて、汎用コンピュータに該プログラムをインストールすることにより実現することも可能である。
【0079】
【発明の効果】
以上説明したように、本発明によれば、情報検索を行ったユーザと同じ嗜好をもつ特定のコミュニティに属するユーザをアクセス履歴又はユーザプロファイルから求め、該コミュニティの嗜好を反映させてWWWページの検索及びその順位付けをすることができ、ユーザの好みの情報を有するWWWページを効率よく検索できることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態に係る情報検索システムの構成を示す図である。
【図2】情報検索の処理手順を示すフローチャートである。
【図3】キーワード・ページ対応表の一例を示す図である。
【図4】ユーザ・ページ対応表の一例を示す図である。
【図5】マトリクスクラスタリングの処理過程を示す図である。
【図6】本発明の第2の実施の形態に係る情報検索システムの構成を示す図である。
【図7】情報検索の処理手順を示すフローチャートである。
【図8】ユーザプロファイルの一例を示す図である。
【図9】マトリクスクラスタリングの処理過程を示す図である。
【図10】従来の情報検索の処理手順の一例を示すフローチャートである。
【図11】従来のキーワード・ページ対応表の一例を示す図である。
【図12】従来のページ優先度表の一例を示す図である。
【符号の説明】
1,5 情報検索システム
2,6 情報検索サーバ
3 クライアント
4 ネットワーク
20,60 管理部
21,61 ページ検索部
22,62 コミュニティ検索部
23,64 ページリスト生成部
63 マトリクスクラスタリング部[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention searches for information desired by a user from information provided on a WWW page based on a keyword and a user ID from a requesting client, and transmits WWW page information having the information to the client. The present invention relates to an information search method, an information search server, and an information search program.
[0002]
[Prior art]
With the spread of the WWW, a huge amount of information has been digitized and can be accessed as a WWW page, and information based on a large amount of WWW pages is widely used in various fields. In order for the user to efficiently obtain desired information from such a vast amount of information on the WWW, it is very necessary to efficiently search for information on the WWW and quickly display a desired WWW page. Is important. Conventionally, various search engines have been used to perform such information search.
[0003]
To explain the outline of an information search system using a conventional search engine, first, a user inputs a keyword for obtaining desired information at a client, and transmits the keyword to a server. The server that has received the keyword extracts WWW page information corresponding to the keyword from the keyword / page correspondence table, generates a WWW page list, and displays the WWW page list on the client. The user can display a desired WWW page using the URL of each displayed WWW page information. When the displayed WWW page list has a large number of WWW page information, a keyword is further input to narrow down. The keyword-page correspondence table is created by the server collecting WWW pages to be searched in advance and extracting keywords included in each WWW page.
[0004]
In general, the number of WWW pages that can be searched by a search engine is enormous, and when information is searched using keywords that are commonly used or frequently used, there are a huge number of WWW pages that have the keywords. The number of WWW page information displayed on the page list also becomes enormous. Therefore, it is necessary to further narrow down the WWW pages by inputting a keyword. For example, when a user performs an information search with “Tanaka” as a keyword using a conventional search engine to obtain information on a certain Mr. Tanaka, hundreds of thousands of WWW pages are hit. In these WWW page lists, information of persons whose name is "Tanaka" in various fields is mixed. Therefore, the user searches the WWW page list for a WWW page having desired information of Mr. Tanaka. It is difficult. Furthermore, we want to obtain information on Mr. Tanaka related to music, so even if we narrow down using "Tanaka" and "Music" as keywords, there are more than 200,000 hits, It is also difficult to find a WWW page having Therefore, when performing an information search on the WWW, it is desirable to use a keyword that is included in a desired WWW page and is presumed not to be an idiomatic term or a multilingual term. It is difficult to perform a good information search without a skilled person who has grasped the idioms and multiple terms in the WWW page.
[0005]
On the other hand, the conventional search engine ranks search results so that a user can efficiently display a desired WWW page even if the user is unfamiliar with information search or does not think of a number of accurate keywords. Displayed on the WWW page list. In many cases, the ranking of such search results is based on the number of accesses and the number of linked pages of the WWW page, and the information with a large number of accesses is popular among many users. It is highly likely that the user corresponds to the WWW page desired by the user, and the one with a large number of linked pages has a high degree of objective importance of the WWW page because links are attached from many WWW pages. In addition, it is considered that there is a high possibility that the page corresponds to the WWW page desired by the user (see
[0006]
FIG. 10 is a diagram showing an example of the processing of a conventional information search system. First, a server inputs a WWW having a corresponding keyword by using a keyword / page correspondence table created in advance by a keyword. Search for a page.
[0007]
FIG. 11 shows the keyword / page correspondence table, in which the vertical axis indicates a WWW page and the horizontal axis indicates a keyword, where "0" indicates that there is no corresponding keyword, and "1" indicates that there is a corresponding keyword. are doing. In such a keyword / page correspondence table, keywords are extracted from the WWW page at regular intervals by a robot search or the like, and are updated as needed. From such a keyword / page correspondence table, a WWW page including the keyword input by the client is extracted.
[0008]
Next, the plurality of WWW pages searched are ranked using the page priority table. In this page priority table, a numerical value indicating the priority for each WWW page is recorded based on the number of accesses to the WWW page and the number of links. FIG. 12 is the page priority table, which is ranked according to the number of accesses or the number of linked pages for each WWW page. Is high. According to this ranking, the searched WWW page information is generated in descending order of priority and a WWW page list is generated and displayed on the client.
[0009]
For example, when the client performs a search by inputting the keyword "c", the server functioning as an information search system extracts WWW pages C, D, and E from the keyword / page correspondence table. Furthermore, the priority of the extracted WWW pages C, E, and D is obtained from the page priority table, and a WWW page list is generated in the order of C, E, and D in descending order of priority, and displayed on the client. You.
[0010]
The user selects and displays an arbitrary WWW page from each WWW page information of the WWW page list displayed on the client, but a WWW page with a large number of accesses or a number of linked pages is useful for many users. Therefore, it is highly likely that the information search is useful for the user performing the information search. As described above, by generating the WWW page list in which the WWW pages that are widely useful to the user are ranked using the number of accesses and the number of links as indices, the WWW pages having the information desired by the user are included in the top. The likelihood increases and an efficient information search can be provided.
[0011]
[Patent Document 1]
JP 2002-202992 A
[Patent Document 2]
JP-A-2002-215671
[0012]
[Problems to be solved by the invention]
However, as the types of information provided on the WWW are diversified, the purpose of information search is also diversified for each user. Further, as the use layer of the WWW is expanded, the preferences of each user who uses the information search are changed. Are also various. Therefore, a WWW page having information desired by a specific user who has performed an information search is not always popular or important to all users. The above ranking does not improve the search efficiency of all the various users.
[0013]
For example, so that a WWW page that is popular with younger users is not always popular with older users, even if a specific user tries to search for information that suits his or her preferences, all users can search for information. In the WWW page list ranked on the basis of the number of accesses and the number of links, the WWW page having the information desired by the user is not always included in the higher rank. By sequentially displaying each WWW page, it is necessary to check whether desired information is included in each WWW page. As a result, it takes time and effort to retrieve information, which is inefficient.
[0014]
The present invention has been made in view of the above, and an information search system and an information search method capable of performing efficient information search on the WWW, particularly information reflecting a preference of a specific user performing the information search An object of the present invention is to provide an information search method, an information search server, and an information search program capable of performing a search.
[0015]
[Means for Solving the Problems]
An information search method according to
[0016]
The information search method according to
[0017]
According to a third aspect of the present invention, in the information search method according to the first or second aspect, the keyword from the client is input by a user.
[0018]
Further, according to the present invention (claim 4), in the information search method according to
[0019]
According to the present invention (claim 5), in the information search method according to
[0020]
Further, according to the present invention (claim 6), in the information search method according to
[0021]
Further, according to the present invention (claim 7), in the information search method according to
[0022]
Further, according to the present invention (claim 8), in the information search method according to
[0023]
Further, according to the present invention (claim 9), in the information search method according to claim 8, when a WWW page or a user is selected as the next target from the user page correspondence table, each WWW page or user is selected. The access frequency is not more than a predetermined threshold and is not a WWW page including the keyword or a user other than a user belonging to the community.
[0024]
Also, according to the present invention (claim 10), in the information search method according to
[0025]
The information search server according to claim 11 of the present invention searches for information desired by a user from information provided on a WWW page based on a keyword and a user ID from a requesting client. An information retrieval server for transmitting WWW page information having information to a client as a WWW page list, wherein a keyword included in a WWW page is recorded in association with each WWW page based on the keyword. A page search means for searching a table for a WWW page including the keyword and outputting a search result; and using the user ID and the search result of the page search means as initial values, each WWW page and each user as row components. The user who expressed the access history of each user to each WWW page as a column component in a two-dimensional space. By extracting an area where access histories are dense from the page correspondence table, a community of a user having a similar tendency to the user and the keyword is obtained, a WWW page belonging to the community is selected, and the WWW page belonging to the community is selected. Community search means for outputting the access frequency of the community; and WWW pages selected by the community search means are ranked based on the access frequency of the user belonging to the community, and a WWW page list indicating each WWW page information is displayed. And a page list generating means for generating and outputting.
[0026]
The information search server according to claim 12 of the present invention searches for information desired by a user from information provided on a WWW page based on a keyword and a user ID from a requesting client. An information retrieval server for transmitting WWW page information having information to a client as a WWW page list, wherein a keyword included in a WWW page is recorded in association with each WWW page based on the keyword. A page search means for searching a table for a WWW page including the keyword and outputting a search result, and a user profile similar to the user based on the user ID based on the user profile in which the user's preferences are recorded in advance. Community that seeks the community of the user and outputs the user ID belonging to the community. Means for searching, and using the search results and user IDs belonging to the community as initial values, using each WWW page and each user as row components and column components, and storing the access history of each user to each WWW page in a two-dimensional space. A matrix clustering means for selecting a WWW page belonging to the area by extracting an area where access history is dense from the user / page correspondence table expressed in the above, and outputting the WWW page and the access frequency; Page list generating means for ranking the WWW pages selected by the matrix clustering means based on the frequency, generating and outputting a WWW page list indicating each WWW page information.
[0027]
According to a thirteenth aspect of the present invention, in the information search server according to the eleventh or twelfth aspect, the page search means searches a WWW page based on a keyword input to the client by a user. .
[0028]
According to a fourteenth aspect of the present invention, in the information search server according to the eleventh or twelfth aspect, the page search means displays a keyword group on the client, and displays a keyword group selected by the user from the keyword group. Thus, a WWW page is searched.
[0029]
Further, according to the present invention (claim 15), in the information search server according to claim 11 or 12, the page search means extracts a keyword from a WWW page displayed on the client, and based on the keyword, , WWW pages.
[0030]
Further, according to the present invention (claim 16), in the information search server according to
[0031]
Further, according to the present invention (claim 17), in the information search server according to claim 16, when the community search means selects a WWW page or a user as the next target from the user page correspondence table, Each WWW page or a user whose access frequency is equal to or less than a predetermined threshold and other than the WWW page including the keyword is excluded.
[0032]
Further, according to the present invention (claim 18), in the information search server according to
[0033]
Further, according to the present invention (claim 19), in the information search server according to claim 18, when the matrix clustering means selects a WWW page or a user as the next target from the user page correspondence table, The access frequency of each WWW page or user is equal to or less than a predetermined threshold value and is not a WWW page including the keyword or a user other than the user belonging to the community.
[0034]
Further, according to the present invention (claim 20), in the information search server according to claim 11 or 12, the page list generating means stores a WWW page belonging to the community or the area, including the keyword and the community or WWW page. Classifying into a WWW page having a high access frequency to a region, a WWW page including the keyword and having a low access frequency to the community or the region, and a WWW page not including the keyword but having a high frequency of access to the community or the region, A WWW page list indicating each WWW page information is generated by ranking each classification.
[0035]
An information search program according to claim 21 of the present invention searches a computer for information desired by a user from information provided on a WWW page based on a keyword and a user ID from a requesting client. An information search program for causing the computer to function as an information search server that transmits WWW page information having the information to the client as a WWW page list, the computer recognizing a keyword included in the WWW page based on the keyword. A page search means for searching a WWW page containing the keyword from a keyword / page correspondence table recorded in correspondence with each WWW page and outputting a search result, and initial values of the user ID and the search result of the page search means As a row component and a column component for each WWW page and each user. By extracting an area where access histories are dense from a user / page correspondence table expressing the access histories of each user on each WWW page in a two-dimensional space, the users having similar tendencies in the keywords with the users are extracted. A community search means for obtaining a community, selecting a WWW page belonging to the community, and outputting the WWW page and the access frequency of the community, and selecting the community search means based on an access frequency of a user belonging to the community; The function is to function as a page list generating unit that ranks WWW pages and generates and outputs a WWW page list indicating each WWW page information.
[0036]
Further, the information search program according to claim 22 of the present invention searches a computer for information desired by a user from information provided on a WWW page based on a keyword and a user ID from a requesting client. An information search program for causing the computer to function as an information search server that transmits WWW page information having the information to the client as a WWW page list, the computer recognizing a keyword included in the WWW page based on the keyword. A page search means for searching a WWW page including the keyword from a keyword / page correspondence table recorded in correspondence with each WWW page and outputting a search result, and pre-recording each user's preference based on the user ID. From a user profile that has been created, A community search means for finding the community of the user and outputting a user ID belonging to the community, and setting each of the WWW pages and each user as a row component and a column component with the search result and the user ID belonging to the community as initial values. By extracting an area where access histories are dense from a user / page correspondence table expressing a user's access history to each WWW page in a two-dimensional space, a WWW page belonging to the area is selected, and the WWW page is selected. Clustering means for outputting a WWW page list indicating each WWW page information by ranking the WWW pages selected by the matrix clustering means based on the access frequency. It functions as generating means.
[0037]
According to a twenty-third aspect of the present invention, in the information search program according to the twenty-first or twenty-second aspect, the page search means is configured to search for a WWW page based on a keyword input to the client by the user. It is to let.
[0038]
According to the present invention (claim 24), in the information search program according to claim 21 or 22, the page search means displays a keyword group on the client, and performs a search based on a keyword selected by the user from the keyword group. Thus, it is made to function as a search for a WWW page.
[0039]
According to the present invention (claim 25), in the information search program according to claim 21 or 22, the page search means extracts a keyword from a WWW page displayed on the client and performs a search based on the keyword. , WWW pages.
[0040]
According to the present invention (claim 26), in the information search program according to
[0041]
According to the present invention (claim 27), in the information search program according to claim 26, when the community search means selects a WWW page or a user as the next target from the user page correspondence table, Each WWW page or a user whose access frequency is equal to or less than a predetermined threshold and which is not a WWW page including the keyword is excluded from the target.
[0042]
According to the present invention (claim 28), in the information search program according to
[0043]
According to the present invention (claim 29), in the information search program according to claim 28, when the matrix clustering means selects a WWW page or a user as the next target from the user page correspondence table, Each WWW page or a user whose access frequency is equal to or less than a predetermined threshold and which is not a WWW page including the keyword or a user other than a user belonging to the community is made to function as a target.
[0044]
According to the present invention (claim 30), in the information search program according to claim 21 or 22, the page list generating means may be configured to include a WWW page belonging to the community or the area, including the keyword, and Classifying into a WWW page having a high access frequency to a region, a WWW page including the keyword and having a low access frequency to the community or the region, and a WWW page not including the keyword but having a high frequency of access to the community or the region, The function is such that a WWW page list indicating each WWW page information is generated by ranking each classification.
[0045]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be specifically described with reference to the drawings.
[First Embodiment]
As shown in FIG. 1, an
[0046]
When the
[0047]
The
The
[0048]
The
[0049]
The
[0050]
The page
[0051]
Next, a processing procedure of the
First, the user P accesses the
[0052]
FIG. 2 shows a search processing procedure of the
[0053]
The
[0054]
Hereinafter, a process of performing matrix clustering from the column of the user P in the row direction with the initial values of the user P and the WWW pages C and D will be described with reference to FIG.
First, as shown in FIG. 5A, the marker is propagated from the column of the user P to the row where the element is 1, ie, the WWW pages A and B, from the user / page correspondence table. At this time, since the WWW pages C and D include the keywords c and d, the markers are forcibly propagated. Therefore, WWW pages A, B, C, and D survive. Next, as shown in FIG. 5B, from the rows of the WWW pages A, B, C, and D, the columns whose elements are 1, that is, the users P, Q, R, S, T, U, and V The marker is propagated. Thereafter, as shown in FIG. 5C, pruning is performed based on the number of markers received in the column. When pruning is performed on the number of markers of 1 or less, the users S, T, U, and V are deleted, and the users P, Q, and R survive. Similarly, pruning is performed based on the number of markers received in the row. However, although the number of markers is 0, the WWW page C includes keywords c and d, so that the WWW page C is forcibly survived regardless of the number of markers. The WWW page D has two markers and is not targeted for pruning. However, even if it is targeted for pruning, it contains keywords c and d, and thus survives forcibly. In this way, by performing pruning with a predetermined number of markers as a threshold, it becomes possible to narrow down the final sub-matrix to a desired size, and the matrix clustering becomes more efficient and the processing speed becomes faster. This is effective when the user page correspondence table is enormous.
[0055]
Since the other WWW pages A and B have two markers, pruning is not performed. Thereafter, even if marker propagation is repeated, the matrix does not change, so that the dense partial matrix obtained by matrix clustering is as shown in FIG. The sub-matrix indicates communities P, Q, and R having an access history similar to that of the user P with respect to the keywords c and d. Such a community differs for the same user P depending on an initial value determined by a keyword. That is, one user belongs to a plurality of communities for each piece of information to be searched, and according to the matrix clustering performed by the
[0056]
In this way, the
[0057]
The page
[0058]
Further, the page
[0059]
In the present embodiment, when ranking is performed based on the total number of accesses to WWW pages as in the conventional information search, WWW page C having an access number of 4 has priority over WWW page D having an access number of 2. Although higher, the access frequency of the users Q and R having the same preference as the user P on the WWW page C is low. On the other hand, the access frequency of the users Q and R on the WWW page D is high. Therefore, considering the preferences of the user P, it is considered that the useful information for the user P is likely to be the WWW page D, and the priorities of the priorities do not reflect the preferences of the user P.
[0060]
According to the
[0061]
In the present embodiment, the user inputs a keyword to the
[0062]
[Second embodiment]
As shown in FIG. 6, an
[0063]
The
[0064]
The
[0065]
Further, the
[0066]
The
[0067]
The
[0068]
The
[0069]
The page
[0070]
Next, a processing procedure of the
First, the user P accesses the
[0071]
FIG. 7 shows a search processing procedure of the
[0072]
On the other hand, the
[0073]
From the user profile, the preference of the user P is the fields A, B, and F. First, when the other users who set the category as the favorite field are determined, the user P prefers the fields A, B, and F common to the user P. Are determined to be users Q and R. Next, the correlation coefficient of the profile of the user P and the profile of the user Q is obtained as follows from the difference between the squares of the degree of preference for the fields b and f in the fields that are commonly evaluated.
(3-5) 2 + (1-1) 2 = 4
Similarly, for the user P and the user R, since the common field is a and b,
(5-5) 2 + (3-1) 2 = 4
It becomes. Since the obtained correlation coefficients are the same, it can be determined that the users Q and R are similarly similar to the preference of the user P. If there are a large number of users who share a favorite field with the user P, a condition that the obtained correlation coefficient is equal to or less than a threshold is used, or a user belonging to the community is selected by ranking based on the correlation coefficient. It may be good. The user IDs belonging to the community thus obtained are output to the
[0074]
The
[0075]
Thereafter, the matrix does not change even if marker propagation is repeated, so that the dense partial matrix obtained by matrix clustering is as shown in FIG. 9C. The WWW pages A, B, C, and D obtained in this manner are used together with the access frequencies of the users P, Q, and R, that is, 3 for the WWW page A, 3 for the WWW page B, and 3 for the WWW page C. 0 and 2 are output in association with WWW page D. Also, the WWW page IDs of the WWW pages C and D are output as including the output keywords c and d.
[0076]
The page
[0077]
If the user's community is extracted from a user profile registered in advance as in the present embodiment, the accuracy is higher than when the user's community is detected from the WWW page access history of each user, and the user's preferences are accurately reflected. This enables information retrieval.
[0078]
The
[0079]
【The invention's effect】
As described above, according to the present invention, a user belonging to a specific community having the same preference as a user who has performed an information search is obtained from an access history or a user profile, and a search of a WWW page is performed by reflecting the preference of the community. And WWW pages having user's favorite information can be searched efficiently.
[Brief description of the drawings]
FIG. 1 is a diagram showing a configuration of an information search system according to a first embodiment of the present invention.
FIG. 2 is a flowchart illustrating a procedure of an information search process.
FIG. 3 is a diagram illustrating an example of a keyword / page correspondence table.
FIG. 4 is a diagram showing an example of a user / page correspondence table.
FIG. 5 is a diagram showing a process of matrix clustering.
FIG. 6 is a diagram showing a configuration of an information search system according to a second embodiment of the present invention.
FIG. 7 is a flowchart illustrating a procedure of an information search process.
FIG. 8 is a diagram illustrating an example of a user profile.
FIG. 9 is a diagram showing a process of matrix clustering.
FIG. 10 is a flowchart illustrating an example of a conventional information search processing procedure.
FIG. 11 is a diagram showing an example of a conventional keyword / page correspondence table.
FIG. 12 is a diagram showing an example of a conventional page priority table.
[Explanation of symbols]
1,5 Information retrieval system
2,6 Information search server
3 clients
4 Network
20,60 Management Department
21, 61 Page search section
22,62 Community Search Department
23, 64 page list generator
63 Matrix clustering unit
Claims (30)
前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索し、
前記ユーザIDとWWWページ検索結果とを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、前記ユーザと前記キーワードにおいて類似した傾向を有するユーザのコミュニティを求め、該コミュニティに属するWWWページを選択し、
該コミュニティに属するユーザのアクセス頻度に基づいて、前記コミュニティに属するWWWページを順位付けて各WWWページ情報を示したWWWページリストを生成し、
該WWWページリストを前記クライアントに送信することを特徴とする情報検索方法。An information search method for searching for information desired by a user from information provided on a WWW page based on a keyword and a user ID from a requesting client, and transmitting WWW page information having the information to the client And
Based on the keyword, a keyword / page correspondence table recorded by associating a keyword included in the WWW page with each WWW page is searched for a WWW page including the keyword,
User page correspondence expressing the access history of each user to each WWW page in a two-dimensional space using the user ID and the WWW page search result as initial values, each WWW page and each user as row components and column components. By extracting an area where access histories are dense from the table, a community of a user having a similar tendency to the user and the keyword is obtained, and a WWW page belonging to the community is selected.
On the basis of the access frequency of the user belonging to the community, the WWW pages belonging to the community are ranked and a WWW page list indicating each WWW page information is generated;
Transmitting the WWW page list to the client.
前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索し、
前記ユーザIDに基づいて、予め各ユーザの好みを記録したユーザプロファイルから、該ユーザと好みが類似するユーザのコミュニティを求め、
前記WWWページ検索結果と前記コミュニティに属するユーザとを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、該領域に属するWWWページを選択し、
前記領域に属するユーザのアクセス頻度に基づいて、前記領域に属するWWWページを順位付けて各WWWページ情報を示したWWWページリストを生成し、
該WWWページリストを前記クライアントに送信することを特徴とする情報検索方法。An information search method for searching for information desired by a user from information provided on a WWW page based on a keyword and a user ID from a requesting client, and transmitting WWW page information having the information to the client And
Based on the keyword, a keyword / page correspondence table recorded by associating a keyword included in the WWW page with each WWW page is searched for a WWW page including the keyword,
Based on the user ID, from a user profile in which the preferences of each user are recorded in advance, a community of users whose preferences are similar to the user is obtained.
A user who expresses the access history of each user on each WWW page in a two-dimensional space using the WWW page search result and the user belonging to the community as initial values, and using each WWW page and each user as row components and column components. -By extracting a region where access history is dense from the page correspondence table, a WWW page belonging to the region is selected,
On the basis of the access frequency of the user belonging to the area, the WWW pages belonging to the area are ranked, and a WWW page list indicating each WWW page information is generated,
Transmitting the WWW page list to the client.
前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段と、
前記ユーザIDとページ検索手段の検索結果とを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、前記ユーザと前記キーワードにおいて類似した傾向を有するユーザのコミュニティを求め、該コミュニティに属するWWWページを選択して、該WWWページとコミュニティのアクセス頻度とを出力するコミュニティ検索手段と、
前記コミュニティに属するユーザのアクセス頻度に基づき、前記コミュニティ検索手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段と、を具備してなるものであることを特徴とする情報検索サーバ。Based on the keyword and user ID from the requesting client, search for information desired by the user from the information provided on the WWW page, and transmit WWW page information having the information to the client as a WWW page list Information retrieval server,
Page search means for searching a WWW page including the keyword from a keyword / page correspondence table recorded by associating a keyword included in the WWW page with each WWW page based on the keyword and outputting a search result;
Using the user ID and the search result of the page search means as initial values, each WWW page and each user are represented as a row component and a column component, and the access history of each user to each WWW page is represented in a two-dimensional space. By extracting an area where access histories are dense from the page correspondence table, a community of a user having a similar tendency to the user and the keyword is obtained, a WWW page belonging to the community is selected, and the WWW page and the community are selected. Community search means to output the access frequency of
Page list generating means for ranking the WWW pages selected by the community search means based on the access frequency of a user belonging to the community, and generating and outputting a WWW page list indicating each WWW page information. An information retrieval server, characterized in that the information retrieval server comprises:
前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段と、
前記ユーザIDに基づいて、予め各ユーザの好みを記録したユーザプロファイルから、該ユーザと好みが類似するユーザのコミュニティを求め、該コミュニティに属するユーザIDを出力するコミュニティ検索手段と、
前記検索結果と前記コミュニティに属するユーザIDとを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、該領域に属するWWWページを選択して、該WWWページとアクセス頻度とを出力するマトリクスクラスタリング手段と、
前記アクセス頻度に基づき、前記マトリクスクラスタリング手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段と、を具備してなるものであることを特徴とする情報検索サーバ。Based on the keyword and user ID from the requesting client, search for information desired by the user from the information provided on the WWW page, and transmit WWW page information having the information to the client as a WWW page list Information retrieval server,
Page search means for searching a WWW page including the keyword from a keyword / page correspondence table recorded by associating a keyword included in the WWW page with each WWW page based on the keyword and outputting a search result;
Community search means for obtaining, from a user profile in which the preferences of each user are recorded in advance based on the user ID, a community of a user having similar preferences to the user, and outputting a user ID belonging to the community;
A user who expresses the access history of each user on each WWW page in a two-dimensional space using each of the WWW pages and each user as a row component and a column component using the search result and the user ID belonging to the community as initial values. Matrix clustering means for extracting a region where access histories are dense from the page correspondence table, selecting a WWW page belonging to the region, and outputting the WWW page and the access frequency;
Page list generating means for ranking the WWW pages selected by the matrix clustering means based on the access frequency, generating and outputting a WWW page list indicating each WWW page information. An information retrieval server, characterized in that it is located.
コンピュータを、
前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段、
前記ユーザIDとページ検索手段の検索結果とを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、前記ユーザと前記キーワードにおいて類似した傾向を有するユーザのコミュニティを求め、該コミュニティに属するWWWページを選択して、該WWWページとコミュニティのアクセス頻度とを出力するコミュニティ検索手段、
前記コミュニティに属するユーザのアクセス頻度に基づき、前記コミュニティ検索手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段、として機能させることを特徴とする情報検索プログラム。A computer searches for information desired by a user from information provided on a WWW page based on a keyword and a user ID from a requesting client, and stores WWW page information having the information as a WWW page list. An information search program for functioning as an information search server to be transmitted to the client,
Computer
Page search means for searching a WWW page including the keyword from a keyword / page correspondence table recorded in association with the keyword included in the WWW page in correspondence with each WWW page based on the keyword, and outputting a search result;
Using the user ID and the search result of the page search means as initial values, each WWW page and each user are represented as a row component and a column component, and the access history of each user to each WWW page is represented in a two-dimensional space. By extracting an area where access histories are dense from the page correspondence table, a community of a user having a similar tendency to the user and the keyword is obtained, a WWW page belonging to the community is selected, and the WWW page and the community are selected. Community search means to output the access frequency of
Based on the access frequency of the user belonging to the community, the WWW pages selected by the community search unit are ranked, and a WWW page list indicating each WWW page information is generated and output as a page list generation unit. An information retrieval program characterized in that:
コンピュータを、
前記キーワードに基づいて、WWWページに含まれるキーワードを各WWWページに対応させて記録されたキーワード・ページ対応表から、該キーワードを含むWWWページを検索して検索結果を出力するページ検索手段、
前記ユーザIDに基づいて、予め各ユーザの好みを記録したユーザプロファイルから、該ユーザと好みが類似するユーザのコミュニティを求め、該コミュニティに属するユーザIDを出力するコミュニティ検索手段、
前記検索結果と前記コミュニティに属するユーザIDとを初期値として、各WWWページと各ユーザとを行成分と列成分として各ユーザの各WWWページへのアクセス履歴を2次元空間上に表現したユーザ・ページ対応表から、アクセス履歴が密集した領域を抽出することにより、該領域に属するWWWページを選択して、該WWWページとアクセス頻度とを出力するマトリクスクラスタリング手段、
前記アクセス頻度に基づき、前記マトリクスクラスタリング手段により選択されたWWWページを順位付けて、各WWWページ情報を示したWWWページリストを生成して出力するページリスト生成手段、として機能させることを特徴とする情報検索プログラム。A computer searches for information desired by a user from information provided on a WWW page based on a keyword and a user ID from a requesting client, and stores WWW page information having the information as a WWW page list. An information search program for functioning as an information search server to be transmitted to the client,
Computer
Page search means for searching a WWW page including the keyword from a keyword / page correspondence table recorded in association with the keyword included in the WWW page in correspondence with each WWW page based on the keyword, and outputting a search result;
Community search means for obtaining, from a user profile in which preferences of each user are recorded in advance based on the user IDs, of a user having similar preferences to the user, and outputting a user ID belonging to the community;
A user who expresses the access history of each user on each WWW page in a two-dimensional space using each of the WWW pages and each user as a row component and a column component using the search result and the user ID belonging to the community as initial values. Matrix clustering means for extracting a region where access histories are dense from the page correspondence table, selecting a WWW page belonging to the region, and outputting the WWW page and the access frequency;
On the basis of the access frequency, the WWW pages selected by the matrix clustering unit are ranked, and a WWW page list indicating each WWW page information is generated and output as a page list generating unit. Information retrieval program.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003050314A JP2004259083A (en) | 2003-02-27 | 2003-02-27 | Method, server and program for retrieving information |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2003050314A JP2004259083A (en) | 2003-02-27 | 2003-02-27 | Method, server and program for retrieving information |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| JP2004259083A true JP2004259083A (en) | 2004-09-16 |
Family
ID=33115759
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2003050314A Pending JP2004259083A (en) | 2003-02-27 | 2003-02-27 | Method, server and program for retrieving information |
Country Status (1)
| Country | Link |
|---|---|
| JP (1) | JP2004259083A (en) |
Cited By (7)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009509254A (en) * | 2005-09-20 | 2009-03-05 | フランス テレコム | Method for accessing data relating to at least one user and subsequently allowing contact with said user |
| JP2009265754A (en) * | 2008-04-22 | 2009-11-12 | Ntt Docomo Inc | Information providing system, information providing method, and information providing program |
| JP2010503081A (en) * | 2006-08-31 | 2010-01-28 | クゥアルコム・インコーポレイテッド | Method and apparatus for obtaining or providing search results using user-based bias |
| JP2012079311A (en) * | 2010-09-30 | 2012-04-19 | Nhn Corp | System and method for providing search result based on personal networks |
| CN103440297A (en) * | 2013-08-20 | 2013-12-11 | 苏州迈科网络安全技术股份有限公司 | Method for recording and reading user operation log information |
| JP2014523049A (en) * | 2011-07-13 | 2014-09-08 | アリババ・グループ・ホールディング・リミテッド | Ranking and searching method and apparatus based on distance between individuals |
| CN111382364A (en) * | 2020-03-19 | 2020-07-07 | 北京字节跳动网络技术有限公司 | Method and device for processing information |
-
2003
- 2003-02-27 JP JP2003050314A patent/JP2004259083A/en active Pending
Cited By (9)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP2009509254A (en) * | 2005-09-20 | 2009-03-05 | フランス テレコム | Method for accessing data relating to at least one user and subsequently allowing contact with said user |
| JP2010503081A (en) * | 2006-08-31 | 2010-01-28 | クゥアルコム・インコーポレイテッド | Method and apparatus for obtaining or providing search results using user-based bias |
| JP2013008371A (en) * | 2006-08-31 | 2013-01-10 | Qualcomm Inc | Method and apparatus of obtaining or providing search results using user-based biases |
| JP2009265754A (en) * | 2008-04-22 | 2009-11-12 | Ntt Docomo Inc | Information providing system, information providing method, and information providing program |
| JP2012079311A (en) * | 2010-09-30 | 2012-04-19 | Nhn Corp | System and method for providing search result based on personal networks |
| JP2014523049A (en) * | 2011-07-13 | 2014-09-08 | アリババ・グループ・ホールディング・リミテッド | Ranking and searching method and apparatus based on distance between individuals |
| CN103440297A (en) * | 2013-08-20 | 2013-12-11 | 苏州迈科网络安全技术股份有限公司 | Method for recording and reading user operation log information |
| CN111382364A (en) * | 2020-03-19 | 2020-07-07 | 北京字节跳动网络技术有限公司 | Method and device for processing information |
| CN111382364B (en) * | 2020-03-19 | 2023-08-18 | 北京字节跳动网络技术有限公司 | Method and device for processing information |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP4638439B2 (en) | Personalized web search | |
| JP5114380B2 (en) | Reranking and enhancing the relevance of search results | |
| JP5623431B2 (en) | Identifying query aspects | |
| US8150846B2 (en) | Content searching and configuration of search results | |
| JP5116593B2 (en) | SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM USING PUBLIC SEARCH ENGINE | |
| KR101994987B1 (en) | Related entities | |
| US7349896B2 (en) | Query routing | |
| KR101171405B1 (en) | Personalization of placed content ordering in search results | |
| US8527506B2 (en) | Media discovery and playlist generation | |
| JP5638031B2 (en) | Rating method, search result classification method, rating system, and search result classification system | |
| US7818314B2 (en) | Search fusion | |
| US20110270818A1 (en) | Domain expert search | |
| US20130173599A1 (en) | Query disambigution | |
| CN102999560A (en) | Improvement of relevance of search engine result page between name and other search queries by using social network features | |
| WO2002048921A1 (en) | Method and apparatus for searching a database and providing relevance feedback | |
| CN102063468B (en) | Device and method for confirming query sort of query sequence | |
| JP2016509703A (en) | System and method for retrieving labeled primarily non-text items | |
| JP4874828B2 (en) | Method and apparatus for creating search index by community extraction | |
| JP5010624B2 (en) | Search device | |
| JP2011108034A (en) | Web page recommendation method using multiple attributes | |
| EP1839209A2 (en) | Routing queries to information sources and sorting and filtering query results | |
| JP2004259083A (en) | Method, server and program for retrieving information | |
| JP2002108912A (en) | System and method for retrieval | |
| Manjula et al. | An efficient approach for indexing web pages using various similarity features | |
| Chou et al. | Instant Web Retrieval for Instance-Attribute Queries |