JP7626924B2

JP7626924B2 - 情報処理システム、情報処理方法、プログラム

Info

Publication number: JP7626924B2
Application number: JP2020218462A
Authority: JP
Inventors: 靖大田中
Original assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc
Current assignee: Canon Marketing Japan Inc; Canon IT Solutions Inc
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2025-02-05
Anticipated expiration: 2040-12-28
Also published as: JP2022103684A

Description

本発明は、情報処理システム、情報処理方法、プログラムに関する。

企業において、様々な電子データが作成され蓄積が進み、蓄積した電子データの有効活用が望まれるようになってきている。しかしながら、蓄積されたデータは膨大であり、有用なデータ、欲しいデータを見つけ出すことに多くの時間が費やされることが大きな課題となっている。

近年、エンタープライズサーチに代表されるような全文検索システムがデータを効率よく見つけ出すという課題に対する解決手段の一つとして大きな関心が向けられるようになってきている。

全文検索においては、一般的に検索結果を提示する際の順位を決めるためにスコアリングが行われている。スコアリングの手法についてはｔｆ・ｉｄｆやＢＭ２５などに基づいた様々な提案がなされているが、ユーザの使用語彙や検索意図・観点によって適したスコアリング手法は異なる。

ユーザが検索時に自分に適したスコアリング手法を選択することは現実的ではない。また検索システムを利用するユーザ全体に対して、最もバランスのよいスコアリング手法を事前に選択することも困難である。

ランキング学習は、クリックログ（閲覧履歴）または、検索クエリに対するアノテーション（検索者による検索結果に対する明示的評価）を、検索クエリに対する適合文書と定義し、学習データとして利用する。

そして、検索クエリに対するスコアリング手法によるスコアを１つの素性（ランキング素性）と考え、複数のスコアリング手法のスコアの組み合わせを特徴と捉えて、学習データにおける適合文書が上位になるように学習し、ユーザのクリックログやアノテーションにおける適合文書を検索結果の上位に提示することが可能となる。

特許文献１には、学習データから過去に使用した検索クエリまたは検索クエリから抽出した言語的特徴を抽出し、登録文書に対する新たなフィールド（以降、「検索クエリフィールド」と呼ぶ）に保存し、ランキング素性として利用することで、過去の検索クエリに対しクリック（またはアノテート）された文書を上位に提示する精度の向上を可能とする技術が記載されている。

特開２０２０－７１６７８号公報

しかし、検索対象として登録されている全ての文書に対して、学習データ（クリックログまたはアノテーション）が存在することは稀である。

特許文献１においては、検索クエリフィールドに値が存在しない登録文書が存在することになり、検索クエリフィールドに対するスコアが０となってしまう。逆に、検索クエリフィールドに値があれば、僅かな言語的特徴の一致があればスコアを得ることになり、関係の薄い文書でも値のない文書よりスコアが高くなり、上位になってしまう可能性が著しく高くなってしまう。

クリックログやアノテーションは検索結果から選択されるため、上位に提示された文書ほど学習データが集まりやすい傾向がある。結果として学習初期に上位に出現した文書が、その後も上位に出現し続けることになり、学習データの偏りが助長され、使用語彙や検索意図の変化に対応できない状況が発生するという課題がある。

そのため、適切な検索結果を得るためには、登録文書に対する学習データの有無が、検索結果における順位に与える影響を少なくすることが望まれる。

そこで、本発明は、適切な検索結果を得られる仕組みを提供することを目的とする。

本発明の情報処理システムは、文書に、当該文書を検索した際の検索クエリを補完情報として対応付けて記憶し、前記検索クエリが存在しない文書については、当該文書の構成要素を補完情報として対応付けて記憶する記憶手段と、ユーザから受け付けた検索クエリを用いて、前記記憶手段に記憶された文書と、当該文書に対応付けて記憶された補完情報とを検索対象として検索を行う検索手段と、を備えることを特徴とする。

本発明によれば、適切な検索結果を得ることが可能となる。

本発明の実施形態における、全文検索装置のシステム構成の一例を示す図である。本発明の実施形態における、全文検索装置、クライアント端末のハードウェア構成の一例を示すブロック図である。本発明の実施形態における、全文検索装置の機能構成の一例を示す図である。本発明の実施形態における、全文検索装置における学習処理の一例を示すフローチャートである。本発明の実施形態における、学習データ保存領域の構成の一例を示す図である。本発明の実施形態における、検索対象保存領域の構成の一例を示す図である。本発明の実施形態における、検索クエリフィールド追加の処理の一例を示すフローチャートである。本発明の実施形態における、学習データ生成処理の一例を示すフローチャートである。本発明の実施形態における、検索クエリに対する特徴ベクトル生成処理の一例を示すフローチャートである。本発明の実施形態における、閲覧履歴の一例を示す図である。本発明の実施形態における、文書保存テーブルの一例を示す図である。本発明の実施形態における、検索クエリを集約した閲覧履歴の一例を示す図である。本発明の実施形態における、検索クエリフィールド補完後の文書保存テーブルの一例を示す図である。本発明の実施形態における、検索クエリに対する特徴ベクトルの一例を示す図である。本発明の実施形態における、ランキング学習に対する学習データの一例を示す図である。本発明の実施形態における、ランキング学習の結果取得した学習モデルの一例を示す図である。本発明の実施形態における、特徴ベクトル生成処理の概略を示す図である。本発明の実施形態における、検索処理の一例を示すフローチャートである。本発明の実施形態における、検索クエリに対する特徴ベクトルの一例を示す図である。本発明の実施形態における、検索結果の一例を示す図である。

以下、図面を参照して、本発明の実施形態を詳細に説明する。

図１は、本発明における情報処理システムの構成の一例を示す図である。

図１は、本発明の実施形態における全文検索装置のシステム構成の一例を示す図である。

全文検索装置１００は、クライアント端末１１０がＬＡＮ１２０を介して接続される構成となっている。

全文検索装置１００は、一般的な全文検索システムの機能を有し、事前に登録されている文書に対し、検索要求に対して適合する文書の一覧を検索結果として返し、検索結果のうち任意の文書の内容を確認する機能を提供する。

さらに、全文検索装置１００は、検索者による閲覧の履歴または検索結果の評価を取得して検索クエリと関連付けて保存する。

クライアント端末１１０は、ブラウザを介して全文検索装置１００の機能をユーザに提供する。

図２は、本発明の情報処理装置のハードウェア構成の一例を示すブロック図である。

図２に示すように、情報処理装置は、システムバス２００を介してＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）２０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）２０３、記憶装置２０４、入力コントローラ２０５、音声コントローラ２０６、ビデオコントローラ２０７、メモリコントローラ２０８、よび通信Ｉ／Ｆコントローラ２０９が接続される。

ＣＰＵ２０１は、システムバス２００に接続される各デバイスやコントローラを統括的に制御する。

ＲＯＭ２０２あるいは外部メモリ２１３は、ＣＰＵ２０１が実行する制御プログラムであるＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔ／ＯｕｔｐｕｔＳｙｓｔｅｍ）やＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ（データテーブルを含む）を保持している。

ＲＡＭ２０３は、ＣＰＵ２０１の主メモリ、ワークエリア等として機能する。ＣＰＵ２０１は、処理の実行に際して必要なプログラム等をＲＯＭ２０２あるいは外部メモリ２１３からＲＡＭ２０３にロードし、ロードしたプログラムを実行することで各種動作を実現する。

入力コントローラ２０５は、キーボード２１０や不図示のマウス等のポインティングデバイス等の入力装置からの入力を制御する。入力装置がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下（指等でタッチ）することにより、各種の指示を行うことができることとする。

また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。

ビデオコントローラ２０７は、ディスプレイ２１２などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作を受け付け可能な装置については、入力装置も提供する。

なおビデオコントローラ２０７は、表示制御を行うためのビデオメモリ（ＶＲＡＭ）を制御することが可能で、ビデオメモリ領域としてＲＡＭ２０３の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。

メモリコントローラ２０８は、外部メモリ２１３へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置（ハードディスク）、フレキシブルディスク（ＦＤ）、或いはＰＣＭＣＩＡカードスロットにアダプタを介して接続されるコンパクトフラッシュ（登録商標）メモリ等を利用可能である。

通信Ｉ／Ｆコントローラ２０９は、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、ＴＣＰ／ＩＰを用いた通信やＩＳＤＮなどの電話回線、および携帯電話の４Ｇ回線、５Ｇ回線等を用いた通信が可能である。

尚、ＣＰＵ２０１は、例えばＲＡＭ２０３内の表示情報用領域へアウトラインフォントの展開（ラスタライズ）処理を実行することにより、ディスプレイ２１２上での表示を可能としている。また、ＣＰＵ２０１は、ディスプレイ２１２上の不図示のマウスカーソル等でのユーザ指示を可能とする。

次に図３を用いて、本実施例における情報処理システムの機能を説明する。

クライアント端末１１０はＷｅｂブラウザ３１０を介して全文検索装置１００の機能をユーザに提供するものである。Ｗｅｂブラウザ３１０は、ユーザから検索クエリの入力を受け付ける画面や、全文検索装置１００により検索された結果を表示するための画面を表示する機能を備える。

全文検索装置１００の学習処理部３０１は、学習データ保存領域３０２や検索対象保存領域３０３に記憶されたデータを用いて、学習モデルを生成する機能を備える。

学習データ保存領域３０２は、ユーザにより閲覧された文書と、当該閲覧をされた際の検索クエリとを対応付けた閲覧履歴が記録された閲覧履歴保存テーブルや、学習処理部３０１における学習結果である学習モデル等を記憶している。

検索対象保存領域３０３は、検索対象となる文書のインデックスが登録された文書保存テーブルを記憶している。

検索処理部３０４は、学習データ保存領域３０２に記憶された閲覧履歴の検索クエリに対する特徴ベクトルの生成や、ユーザからＷｅｂブラウザ３１０を介して受け付けた検索クエリに基づき、検索対象保存領域３０３に記憶された文書保存テーブルを検索し、検索結果をＷｅｂブラウザ３１０に返す機能を備える。

（学習処理）
次に図４のフローチャートを用いて、本発明の実施形態における全文検索装置が実行する学習処理について説明する。

図４は、全文検索装置１００のＣＰＵ２０１が所定の制御プログラムを読み出して実行する処理であり、所定の期間ごとに実行される過去の閲覧履歴を学習する処理を示すフローチャートである。

ステップＳ４０１では、学習処理部３０１は、図５に示す学習データ保存領域３０２の閲覧履歴保存テーブル５０１から過去の閲覧履歴を取得する。

ステップＳ４０２では、学習処理部３０１は、図６に示す検索対象保存領域３０３の文書保存テーブル６０１に対して、ステップＳ４０１で取得した閲覧履歴を検索クエリフィールドに追加する。詳細については後述する。

文書保存テーブル６０１は、一般的な全文検索システムと同等の管理構造を有し、文書の各部を格納する複数のフィールドと、フィールドを高速に全文検索するためのインデックスを有する。
また各フィールドは、検索語や登録文書の単語の識別方法（形態素解析、ｎ－ｇｒａｍなど）やスコアリングの方法（ｔｆ・ｉｄｆやＢＭ２５など）に応じた複数のインデックスを持つことを可能とする。

ステップＳ４０３では、学習処理部３０１は、ステップＳ４０１で取得した閲覧履歴から学習データを生成する。詳細については後述する。

ステップＳ４０４では、学習処理部３０１は、ステップＳ４０３で生成した学習データに基づき、ランキング学習を行い、学習結果として学習モデルを取得する。
ステップＳ４０５では、学習処理部３０１は、ステップＳ４０４の学習結果である学習モデルを学習データ保存領域３０２における学習モデル保存テーブル５０２に保存する。

（検索クエリフィールド追加）
次に図７のフローチャートを用いて、前述したステップＳ４０２の検索クエリフィールド追加処理について説明する。

ステップＳ７０１では、学習処理部３０１は、文書保存テーブル６０１に検索クエリフィールドを追加する。

ステップＳ７０２では、学習処理部３０１は、処理対象の閲覧履歴を関連文書の文書ＩＤごとに検索クエリを１つのテキストに集約する。

ステップＳ７０３では、学習処理部３０１は、集約した関連文書ごとに、ステップＳ７０５までの繰り返し処理を開始する。

ステップＳ７０４では、学習処理部３０１は、処理対象の集約した関連文書に対し、検索クエリを関連文書の文書ＩＤと関連付けて、文書保存テーブル６０１の検索クエリフィールドに追加する。

ステップＳ７０５では、学習処理部３０１は、処理対象となる集約した関連文書がまだあれば、ステップＳ７０３の繰り返し処理を実施する。処理対象となる集約した関連文書がなければ、ステップＳ７０６に処理を移す。

ステップＳ７０６では、学習処理部３０１は、文書保存テーブル６０１の登録文書ごとに、ステップＳ７０８までの繰り返し処理を開始する。

ステップＳ７０７では、学習処理部３０１は、処理対象の登録文書に対する検索クエリフィールドが空の場合、ステップＳ７０８に処理を移す。登録文書に対する検索クエリフィールドが空でなければ、ステップＳ７０９に処理を移す。

ステップＳ７０８では、学習処理部３０１は、処理対象の登録文書の別フィールドの値に基づいた補完文字列を検索クエリフィールドに代入する。本実施の例においては、「タイトル」および「本文」を結合した文字列を用いる。

閲覧履歴に代入する値は、特定のフィールドだけに限定してもよいし、文字列の長さが近いなどの統計的特徴により、登録文書ごとに選択してもよいし、更には、他の文書との比較において、特徴的な単語（特徴語）または文を抽出して用いてもよい。

ステップＳ７０９では、学習処理部３０１は、処理対象となる登録文書がまだあれば、ステップＳ７０６からの処理を実施する。処理対象となる登録文書がなければ、ステップＳ７１０に処理を移す。

ステップＳ７１０では、学習処理部３０１は、検索クエリフィールドに対して、インデックスを作成する。本実施の例においては、「形態素解析」と「ｎ－ｇｒａｍ」の２つの単語の抽出方法に対して、ＢＭ２５によるスコアリングを行うものとする。

このように、過去に文書が閲覧された際の検索クエリを当該文書と対応付けて記憶し、当該検索クエリについても検索対象として以降の検索処理を実行することで、ユーザの求める文書を適切に検索することが可能となる。また、過去に文書が閲覧された際の検索クエリが存在しない文書については、当該文書に関する要素を検索クエリとみなして対応付けて記憶することで、過去に閲覧履歴がない文書などについても、適切な検索スコアを算出でき、適切なランキングで検索結果を表示することが可能となる。
（学習データ生成処理）
次に図８のフローチャートを用いて、前述したステップＳ４０３の学習データ生成処理について説明する。

ステップＳ８０１では、学習処理部３０１は、一時領域にある学習データを初期化する。

ステップＳ８０２では、学習処理部３０１は、ステップＳ４０１で取得した閲覧履歴ごとに、ステップＳ８０６までの繰り返し処理を開始する。

ステップＳ８０３では、学習処理部３０１は、処理対象の閲覧履歴の検索クエリに対して、検索処理部３０４に特徴ベクトルの生成を要求し、取得する。検索処理部３０４における特徴ベクトルの生成については後述する。

ステップＳ８０４では、学習処理部３０１は、ステップＳ８０３で取得した特徴ベクトルが、処理対象の閲覧履歴における文書を含んでいる場合、処理をステップＳ８０５に移す。含んでいない場合、処理をステップＳ８０６に移す。

ステップＳ８０５では、学習処理部３０１は、ステップＳ８０３で取得した検索クエリに対する特徴ベクトルの中で、処理対象の閲覧履歴における文書に対応する特徴ベクトルを、文書と関連付けて、一時領域の学習データに追加する。

ステップＳ８０６では、学習処理部３０１は、処理対象となる閲覧履歴がまだあれば、ステップＳ８０２からの繰り返し処理を実施する。処理対象となる閲覧履歴がなければ処理を終了する。

（検索クエリに対する特徴ベクトル生成処理）
次に図９のフローチャートを用いて、前述したステップＳ８０３における検索処理部３０４の検索クエリに対する特徴ベクトル生成処理について説明する。

ステップＳ９０１では、検索処理部３０４は、処理対象である検索クエリに対する特徴ベクトルを一時領域に作成し初期化する。

ステップＳ９０２では、検索処理部３０４は、検索対象保存領域３０３の文書保存テーブル６０１において、検索クエリフィールドを含めて登録文書に対して指定された全文検索対象のフィールドごとに、ステップＳ９１１までの繰り返し処理を開始する。

ステップＳ９０３では、検索処理部３０４は、処理対象のフィールドに対し付与されたインデックスごとに、ステップＳ９１０までの繰り返し処理を開始する。

ステップＳ９０４では、検索処理部３０４は、処理対象の検索クエリを用いて、処理対象のインデックスを検索し、検索結果として文書とスコアを取得する。

ステップＳ９０５では、検索処理部３０４は、ステップＳ９０４で取得した検索結果の文書ごとに、ステップＳ９０９までの繰り返し処理を開始する。

ステップＳ９０６では、検索処理部３０４は、文書に対する特徴ベクトルが、一時領域に存在すれば、処理をステップＳ９０８に移す。文書に対する特徴ベクトルが一時領域になければ、処理をステップＳ９０７に移す。

ステップＳ９０７では、検索処理部３０４は、初期化した特徴ベクトルを一時領域に文書と関連付けて追加する。文書に対する特徴ベクトルは、各検索フィールドの各インデックスに対するスコアを要素として０で初期化される。

ステップＳ９０８では、検索処理部３０４は、文書に対する特徴ベクトルにおける、処理対象のフィールドとインデックスに対する要素として、検索結果における文書のスコアを代入する。

ステップＳ９０９では、検索処理部３０４は、処理対象となる文書が検索結果にまだあれば、ステップＳ９０５からの繰り返し処理を実施する。処理対象の文書がなければ、ステップＳ９１０に処理を移す。

ステップＳ９１０では、検索処理部３０４は、処理対象となるインデックスがまだあれば、ステップＳ９０３からの繰り返し処理を実施する。処理対象のインデックスがなければ、ステップＳ９１１に処理を移す。

ステップＳ９１１では、検索処理部３０４は、処理対象となるフィールドがまだあれば、ステップＳ９０２からの繰り返し処理を実施する。処理対象のフィールドがなければ、処理を終了する。図１７は、特徴ベクトルの生成処理を概念的に示した図である。

（学習処理の具体例）
次に、学習処理の具体例として、図１０に示す閲覧履歴保存テーブル５０１および図１１に示す文書保存テーブル６０１に対して、図４に示す学習処理が実施された場合について説明する。

ステップＳ４０１では、学習処理部３０１は、図１０に示す閲覧履歴保存テーブル５０１から過去の閲覧履歴を取得する。

図１０に示すとおり、閲覧履歴保存テーブル５０１には、閲覧履歴として、閲覧された文書を一意に特定するための文書ＩＤと、当該文書を閲覧した際の検索クエリとが対応付けて保存されている。例えば、図１０の１００１のレコードは、「スクリプトを実行するには」という検索クエリによって検索処理が実行され、文書ＩＤ「ｄ３」の文書が閲覧されたことを示している。

ステップＳ４０２では、学習処理部３０１は、図１１に示す文書保存テーブル６０１に対して、ステップＳ４０１で取得した閲覧履歴を追加する図７のフローチャートで示した検索クエリフィールドの追加処理を開始する。
ステップＳ７０１では、学習処理部３０１は、文書保存テーブル６０１に検索クエリフィールド１１０１を追加する。

ステップＳ７０２では、学習処理部３０１は、図１０の閲覧履歴テーブル５０１に対して、図１２に示す関連文書の文書ＩＤで集約された閲覧履歴１２０１を取得する。

図１２に示す通り、ステップＳ７０２の処理によって、同一の文書ＩＤと対応付けられた検索クエリが集約される。

ステップＳ７０３では、学習処理部３０１は、関連文書に対して、ステップＳ７０５までの繰り返し処理を開始する。

ステップＳ７０４では、学習処理部３０１は、集約された検索クエリ１２０２を、文書保存テーブル６０１における同じ文書ＩＤ（ｄ１）の登録文書１１０２の検索クエリフィールドに追加する。

以下同様に、学習処理部３０１は、集約した関連文書全てに対して、ステップＳ７０３からステップＳ７０５の繰り返し処理を実施し、文書保存テーブル６０１は図１１に示すような状態となる。

図１１に示すとおり、文書保存テーブル６０１には、文書を一意に特定するための文書ＩＤ、文書のタイトル、文書の内容である本文、集約された検索クエリから構成される。
ステップＳ７０６では、学習処理部３０１は、文書保存テーブル６０１の登録文書１１０２に対して、ステップＳ７０８までの繰り返し処理を開始する。

ステップＳ７０７では、学習処理部３０１は、登録文書１１０２に対する検索クエリフィールドが空ではないので、ステップＳ７０９に処理を移す。

ステップＳ７０９では、学習処理部３０１は、処理対象となる登録文書１１０３がまだあるので、ステップＳ７０６からの処理を実施する。

ステップＳ７０６では、学習処理部３０１は、文書保存テーブル６０１の登録文書１１０３に対して、ステップＳ７０８までの繰り返し処理を開始する。

ステップＳ７０７では、学習処理部３０１は、処理対象の登録文書１１０３に対する検索クエリフィールドが空なので、ステップＳ７０８に処理を移す。

ステップＳ７０８では、学習処理部３０１は、処理対象の登録文書１１０３の「タイトル」および「本文」フィールドの値を結合して登録文書１１０３の検索クエリフィールドに代入する。

以下同様に、学習処理部３０１は、集約した関連文書全てに対して、ステップＳ７０６からステップＳ７０９の繰り返し処理を実施し、文書保存テーブル６０１は図１３に示すような状態となる。

図１３に示す通り、ステップＳ７０５までの処理によって作成された文書保存テーブル（図１１）において検索クエリ欄が空であったレコードについて、検索クエリの内容（本実施例においてはタイトル及び本文を結合した値）が追加されている。

ステップＳ７１０では、学習処理部３０１は、検索クエリフィールド１１０１に対して、インデックスを作成する。

ステップＳ４０３では、学習処理部３０１は、閲覧履歴テーブルの５０１の閲覧履歴に対し、図８に示す学習データ生成処理を実施する。

ステップＳ８０２では、学習処理部３０１は、閲覧履歴テーブルの５０１の閲覧履歴１００１の検索クエリに対して、ステップＳ８０６までの繰り返し処理を開始する。

ステップＳ８０３では、学習処理部３０１は、処理対象の閲覧履歴１００１の検索クエリに対する図９に示す特徴ベクトル生成処理を検索処理部３０４に要求して、図１４に示すような特徴ベクトル１４０１を取得する。

特徴ベクトルの生成については、ここでは図１７に概略図を示すにとどめ具体的な説明は省略する。

ステップＳ８０４では、学習処理部３０１は、ステップＳ８０３で生成した特徴ベクトル１４０１が処理対象の閲覧履歴における文書（ＩＤ＝ｄ３）を含んでいるので、処理をステップＳ８０５に移す。

ステップＳ８０５では、学習処理部３０１は、処理対象の閲覧履歴１００１における文書と対応する特徴ベクトル１４０２を関連付けて、一時領域の学習データ１５０１に追加する（１５０２）。

ステップＳ８０６では、学習処理部３０１は、処理対象となる閲覧履歴１００２がまだあるので、ステップＳ８０３からの繰り返し処理を実施する。

以下、同様の処理を繰り返し、学習データを生成する。

ステップＳ４０４では、学習処理部３０１は、ステップＳ４０３で生成した学習データに基づき、ランキング学習を行い、図１６に示すような学習モデルを獲得する。

ステップＳ４０５では、学習処理部３０１は、ステップＳ４０４の学習結果である学習モデルを学習データ保存領域３０２における学習モデル保存テーブル５０２に保存する。

（検索処理）
次に図１８のフローチャートを用いて、ステップＳ４０４で獲得した学習モデルを用いた検索処理について説明する。

図１８は、全文検索装置１００のＣＰＵ２０１が所定の制御プログラムを読み出して実行する処理であり、クライアント端末１１０のブラウザ３１０を介したユーザからの検索要求に対して登録文書の中から適合する文書を検索する処理を示すフローチャートである。

ステップＳ１８０１では、検索処理部３０４は、ユーザからの検索要求として、検索クエリを取得する。

ステップＳ１８０２では、検索処理部３０４は、図９に示した処理により、ステップＳ１８０１で取得した検索クエリに対する特徴ベクトルを生成する。

ステップＳ１８０３では、検索処理部３０４は、取得した検索クエリに対する特徴ベクトルに含まれる特徴ベクトルごとに、ステップＳ１８０５までの繰り返し処理を開始する。

ステップＳ１８０４では、検索処理部３０４は、処理対象の特徴ベクトルに対して、学習データ保存領域３０２における学習モデル保存テーブル５０２における学習モデルを参照して、処理対象の特徴ベクトルから関連付けられた文書に対するスコアを算出する。

ステップＳ１８０５では、検索処理部３０４は、処理対象となる特徴ベクトルがまだあれば、ステップＳ１８０３からの繰り返し処理を実施する。処理対象となる特徴ベクトルがなければステップＳ１８０６に処理を移す。

ステップＳ１８０６では、検索処理部３０４は、Ｓ１８０４で求めたスコアに応じて特徴ベクトルに関連付けられた文書を並び替えて、検索結果とする。

（検索処理具体例）
次に、検索処理の具体例として、閲覧履歴に含まれない文書ｄ２を対象とした検索クエリ「スクリプトの編集について」に対して、図１６に示した学習モデルを用い、図１８に示す検索処理が実施した場合について説明する。

ステップＳ１８０１では、検索処理部３０４は、ユーザからの検索要求として、検索クエリ「スクリプトを編集について」を取得する。

ステップＳ１８０２では、検索処理部３０４は、図９に示した処理により、ステップＳ１８０１で取得した検索クエリ「スクリプトの編集について」に対する特徴ベクトルとして、図１９に示す特徴ベクトル１９０１を生成する。

ステップＳ１８０３では、検索処理部３０４は、取得した検索クエリ「スクリプトの編集について」に対する特徴ベクトル１９０１に含まれる特徴ベクトル１９０２に対して、ステップＳ１８０５までの繰り返し処理を開始する。

ステップＳ１８０４では、検索処理部３０４は、処理対象の特徴ベクトル１９０２に対して、図１６に示す学習モデルを参照して、特徴ベクトル１９０２に関連付けられた文書ｄ２に対するスコアとして１６７．７０５を算出する。

ステップＳ１８０５では、検索処理部３０４は、処理対象となる特徴ベクトル１９０３がまだあるので、ステップＳ１８０３からの繰り返し処理を実施する。

以下同様の処理を繰り返して、図２０に示す計算結果２００１を取得する。

ステップＳ１８０６では、検索処理部３０４は、Ｓ１８０４で求めたスコアに応じて特徴ベクトルを並び替えて、検索結果とする。

文書ｄ２は閲覧履歴に含まれていない。しかしながら検索クエリフィールドに対する補完が行われているので、特徴ベクトルにおける検索クエリに対する値（２００４、２００５）は０とならず、文書ｄ２のスコアは文書ｄ１および文書ｄ７より上位となる。

このように、検索クエリフィールドを補完することで、閲覧履歴に含まれない文書に対しても、適切なスコアを得ることができ、表示順位における悪影響を抑えることが可能となる。

以上説明した通り、本願発明においては、過去に文書が閲覧された際の検索クエリを当該文書と対応付けて記憶し、当該検索クエリについても検索対象として以降の検索処理を実行することで、ユーザの求める文書を適切に検索することが可能となる。また、過去に文書が閲覧された際の検索クエリが存在しない文書については、当該文書に関する要素を検索クエリとみなして対応付けて記憶することで、過去に閲覧履歴がない文書などについても、適切な検索スコアを算出でき、適切なランキングで検索結果を表示することが可能となる。
本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。

また、本発明におけるプログラムは、図４、図７～図９、図１８に示すフローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は図４、図７～図９、図１８の処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは図４、図７～図９、図１８の各装置の処理方法ごとのプログラムであってもよい。

以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。

この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。

プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ－ＲＯＭ、磁気テープ、不揮発性のメモリカード、ＲＯＭ、ＥＥＰＲＯＭ、シリコンディスク等を用いることが出来る。

また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵ等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。

また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。

さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。

１００全文検索装置
１１０クライアント端末
１２０ＬＡＮ

Claims

文書に、当該文書が検索された際の検索クエリを補完情報として対応付けて記憶し、前記検索クエリが存在しない文書については、当該文書の内容に基づく情報を補完情報として対応付けて記憶する記憶手段と、
ユーザから受け付けた検索クエリを用いて、前記記憶手段に記憶された文書の内容と、当該文書に対応付けて記憶された補完情報とを検索対象として検索を行う検索手段と、
を備えることを特徴とする情報処理システム。
前記記憶手段は、前記検索クエリが存在しない文書について、当該文書における複数の項目に係る内容を結合した情報を補完情報として、当該文書に対応付けて記憶することを特徴とする請求項１に記載の情報処理システム。
前記記憶手段は、前記検索クエリが存在しない文書について、当該文書から抽出した特徴語を補完情報として、当該文書に対応付けて記憶することを特徴とする請求項１または２に記載の情報処理システム。
前記記憶手段は、前記文書が検索され閲覧された場合に、当該文書が検索された際の検索クエリを補完情報として対応付けて記憶することを特徴とする請求項１乃至３のいずれか１項に記載の情報処理システム。
情報処理システムの記憶手段が、文書に、当該文書が検索された際の検索クエリを補完情報として対応付けて記憶し、前記検索クエリが存在しない文書については、当該文書の内容に基づく情報を補完情報として対応付けて記憶する記憶工程と、
前記情報処理システムの検索手段が、ユーザから受け付けた検索クエリを用いて、前記記憶手段に記憶された文書の内容と、当該文書に対応付けて記憶された補完情報とを検索対象として検索を行う検索工程と、
を備えることを特徴とする情報処理方法。
コンピュータを、請求項１乃至４のいずれか１項に記載の各手段として機能させるためのプログラム。