[go: up one dir, main page]

JP7626924B2 - 情報処理システム、情報処理方法、プログラム - Google Patents

情報処理システム、情報処理方法、プログラム Download PDF

Info

Publication number
JP7626924B2
JP7626924B2 JP2020218462A JP2020218462A JP7626924B2 JP 7626924 B2 JP7626924 B2 JP 7626924B2 JP 2020218462 A JP2020218462 A JP 2020218462A JP 2020218462 A JP2020218462 A JP 2020218462A JP 7626924 B2 JP7626924 B2 JP 7626924B2
Authority
JP
Japan
Prior art keywords
document
search
search query
processing unit
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020218462A
Other languages
English (en)
Other versions
JP2022103684A5 (ja
JP2022103684A (ja
Inventor
靖大 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Canon IT Solutions Inc
Original Assignee
Canon Marketing Japan Inc
Canon IT Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc, Canon IT Solutions Inc filed Critical Canon Marketing Japan Inc
Priority to JP2020218462A priority Critical patent/JP7626924B2/ja
Publication of JP2022103684A publication Critical patent/JP2022103684A/ja
Publication of JP2022103684A5 publication Critical patent/JP2022103684A5/ja
Application granted granted Critical
Publication of JP7626924B2 publication Critical patent/JP7626924B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理システム、情報処理方法、プログラムに関する。
企業において、様々な電子データが作成され蓄積が進み、蓄積した電子データの有効活用が望まれるようになってきている。しかしながら、蓄積されたデータは膨大であり、有用なデータ、欲しいデータを見つけ出すことに多くの時間が費やされることが大きな課題となっている。
近年、エンタープライズサーチに代表されるような全文検索システムがデータを効率よく見つけ出すという課題に対する解決手段の一つとして大きな関心が向けられるようになってきている。
全文検索においては、一般的に検索結果を提示する際の順位を決めるためにスコアリングが行われている。スコアリングの手法についてはtf・idfやBM25などに基づいた様々な提案がなされているが、ユーザの使用語彙や検索意図・観点によって適したスコアリング手法は異なる。
ユーザが検索時に自分に適したスコアリング手法を選択することは現実的ではない。また検索システムを利用するユーザ全体に対して、最もバランスのよいスコアリング手法を事前に選択することも困難である。
ランキング学習は、クリックログ(閲覧履歴)または、検索クエリに対するアノテーション(検索者による検索結果に対する明示的評価)を、検索クエリに対する適合文書と定義し、学習データとして利用する。
そして、検索クエリに対するスコアリング手法によるスコアを1つの素性(ランキング素性)と考え、複数のスコアリング手法のスコアの組み合わせを特徴と捉えて、学習データにおける適合文書が上位になるように学習し、ユーザのクリックログやアノテーションにおける適合文書を検索結果の上位に提示することが可能となる。
特許文献1には、学習データから過去に使用した検索クエリまたは検索クエリから抽出した言語的特徴を抽出し、登録文書に対する新たなフィールド(以降、「検索クエリフィールド」と呼ぶ)に保存し、ランキング素性として利用することで、過去の検索クエリに対しクリック(またはアノテート)された文書を上位に提示する精度の向上を可能とする技術が記載されている。
特開2020-71678号公報
しかし、検索対象として登録されている全ての文書に対して、学習データ(クリックログまたはアノテーション)が存在することは稀である。
特許文献1においては、検索クエリフィールドに値が存在しない登録文書が存在することになり、検索クエリフィールドに対するスコアが0となってしまう。逆に、検索クエリフィールドに値があれば、僅かな言語的特徴の一致があればスコアを得ることになり、関係の薄い文書でも値のない文書よりスコアが高くなり、上位になってしまう可能性が著しく高くなってしまう。
クリックログやアノテーションは検索結果から選択されるため、上位に提示された文書ほど学習データが集まりやすい傾向がある。結果として学習初期に上位に出現した文書が、その後も上位に出現し続けることになり、学習データの偏りが助長され、使用語彙や検索意図の変化に対応できない状況が発生するという課題がある。
そのため、適切な検索結果を得るためには、登録文書に対する学習データの有無が、検索結果における順位に与える影響を少なくすることが望まれる。
そこで、本発明は、適切な検索結果を得られる仕組みを提供することを目的とする。
本発明の情報処理システムは、文書に、当該文書を検索した際の検索クエリを補完情報として対応付けて記憶し、前記検索クエリが存在しない文書については、当該文書の構成要素を補完情報として対応付けて記憶する記憶手段と、ユーザから受け付けた検索クエリを用いて、前記記憶手段に記憶された文書と、当該文書に対応付けて記憶された補完情報とを検索対象として検索を行う検索手段と、を備えることを特徴とする。
本発明によれば、適切な検索結果を得ることが可能となる。
本発明の実施形態における、全文検索装置のシステム構成の一例を示す図である。 本発明の実施形態における、全文検索装置、クライアント端末のハードウェア構成の一例を示すブロック図である。 本発明の実施形態における、全文検索装置の機能構成の一例を示す図である。 本発明の実施形態における、全文検索装置における学習処理の一例を示すフローチャートである。 本発明の実施形態における、学習データ保存領域の構成の一例を示す図である。 本発明の実施形態における、検索対象保存領域の構成の一例を示す図である。 本発明の実施形態における、検索クエリフィールド追加の処理の一例を示すフローチャートである。 本発明の実施形態における、学習データ生成処理の一例を示すフローチャートである。 本発明の実施形態における、検索クエリに対する特徴ベクトル生成処理の一例を示すフローチャートである。 本発明の実施形態における、閲覧履歴の一例を示す図である。 本発明の実施形態における、文書保存テーブルの一例を示す図である。 本発明の実施形態における、検索クエリを集約した閲覧履歴の一例を示す図である。 本発明の実施形態における、検索クエリフィールド補完後の文書保存テーブルの一例を示す図である。 本発明の実施形態における、検索クエリに対する特徴ベクトルの一例を示す図である。 本発明の実施形態における、ランキング学習に対する学習データの一例を示す図である。 本発明の実施形態における、ランキング学習の結果取得した学習モデルの一例を示す図である。 本発明の実施形態における、特徴ベクトル生成処理の概略を示す図である。 本発明の実施形態における、検索処理の一例を示すフローチャートである。 本発明の実施形態における、検索クエリに対する特徴ベクトルの一例を示す図である。 本発明の実施形態における、検索結果の一例を示す図である。
以下、図面を参照して、本発明の実施形態を詳細に説明する。
図1は、本発明における情報処理システムの構成の一例を示す図である。
図1は、本発明の実施形態における全文検索装置のシステム構成の一例を示す図である。
全文検索装置100は、クライアント端末110がLAN120を介して接続される構成となっている。
全文検索装置100は、一般的な全文検索システムの機能を有し、事前に登録されている文書に対し、検索要求に対して適合する文書の一覧を検索結果として返し、検索結果のうち任意の文書の内容を確認する機能を提供する。
さらに、全文検索装置100は、検索者による閲覧の履歴または検索結果の評価を取得して検索クエリと関連付けて保存する。
クライアント端末110は、ブラウザを介して全文検索装置100の機能をユーザに提供する。
図2は、本発明の情報処理装置のハードウェア構成の一例を示すブロック図である。
図2に示すように、情報処理装置は、システムバス200を介してCPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、記憶装置204、入力コントローラ205、音声コントローラ206、ビデオコントローラ207、メモリコントローラ208、よび通信I/Fコントローラ209が接続される。
CPU201は、システムバス200に接続される各デバイスやコントローラを統括的に制御する。
ROM202あるいは外部メモリ213は、CPU201が実行する制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ(データテーブルを含む)を保持している。
RAM203は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ213からRAM203にロードし、ロードしたプログラムを実行することで各種動作を実現する。
入力コントローラ205は、キーボード210や不図示のマウス等のポインティングデバイス等の入力装置からの入力を制御する。入力装置がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下(指等でタッチ)することにより、各種の指示を行うことができることとする。
また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。
ビデオコントローラ207は、ディスプレイ212などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作を受け付け可能な装置については、入力装置も提供する。
なおビデオコントローラ207は、表示制御を行うためのビデオメモリ(VRAM)を制御することが可能で、ビデオメモリ領域としてRAM203の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。
メモリコントローラ208は、外部メモリ213へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置(ハードディスク)、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等を利用可能である。
通信I/Fコントローラ209は、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信やISDNなどの電話回線、および携帯電話の4G回線、5G回線等を用いた通信が可能である。
尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ212上での表示を可能としている。また、CPU201は、ディスプレイ212上の不図示のマウスカーソル等でのユーザ指示を可能とする。
次に図3を用いて、本実施例における情報処理システムの機能を説明する。
クライアント端末110はWebブラウザ310を介して全文検索装置100の機能をユーザに提供するものである。Webブラウザ310は、ユーザから検索クエリの入力を受け付ける画面や、全文検索装置100により検索された結果を表示するための画面を表示する機能を備える。
全文検索装置100の学習処理部301は、学習データ保存領域302や検索対象保存領域303に記憶されたデータを用いて、学習モデルを生成する機能を備える。
学習データ保存領域302は、ユーザにより閲覧された文書と、当該閲覧をされた際の検索クエリとを対応付けた閲覧履歴が記録された閲覧履歴保存テーブルや、学習処理部301における学習結果である学習モデル等を記憶している。
検索対象保存領域303は、検索対象となる文書のインデックスが登録された文書保存テーブルを記憶している。
検索処理部304は、学習データ保存領域302に記憶された閲覧履歴の検索クエリに対する特徴ベクトルの生成や、ユーザからWebブラウザ310を介して受け付けた検索クエリに基づき、検索対象保存領域303に記憶された文書保存テーブルを検索し、検索結果をWebブラウザ310に返す機能を備える。
(学習処理)
次に図4のフローチャートを用いて、本発明の実施形態における全文検索装置が実行する学習処理について説明する。
図4は、全文検索装置100のCPU201が所定の制御プログラムを読み出して実行する処理であり、所定の期間ごとに実行される過去の閲覧履歴を学習する処理を示すフローチャートである。
ステップS401では、学習処理部301は、図5に示す学習データ保存領域302の閲覧履歴保存テーブル501から過去の閲覧履歴を取得する。
ステップS402では、学習処理部301は、図6に示す検索対象保存領域303の文書保存テーブル601に対して、ステップS401で取得した閲覧履歴を検索クエリフィールドに追加する。詳細については後述する。
文書保存テーブル601は、一般的な全文検索システムと同等の管理構造を有し、文書の各部を格納する複数のフィールドと、フィールドを高速に全文検索するためのインデックスを有する。
また各フィールドは、検索語や登録文書の単語の識別方法(形態素解析、n-gramなど)やスコアリングの方法(tf・idfやBM25など)に応じた複数のインデックスを持つことを可能とする。
ステップS403では、学習処理部301は、ステップS401で取得した閲覧履歴から学習データを生成する。詳細については後述する。
ステップS404では、学習処理部301は、ステップS403で生成した学習データに基づき、ランキング学習を行い、学習結果として学習モデルを取得する。
ステップS405では、学習処理部301は、ステップS404の学習結果である学習モデルを学習データ保存領域302における学習モデル保存テーブル502に保存する。
(検索クエリフィールド追加)
次に図7のフローチャートを用いて、前述したステップS402の検索クエリフィールド追加処理について説明する。
ステップS701では、学習処理部301は、文書保存テーブル601に検索クエリフィールドを追加する。
ステップS702では、学習処理部301は、処理対象の閲覧履歴を関連文書の文書IDごとに検索クエリを1つのテキストに集約する。
ステップS703では、学習処理部301は、集約した関連文書ごとに、ステップS705までの繰り返し処理を開始する。
ステップS704では、学習処理部301は、処理対象の集約した関連文書に対し、検索クエリを関連文書の文書IDと関連付けて、文書保存テーブル601の検索クエリフィールドに追加する。
ステップS705では、学習処理部301は、処理対象となる集約した関連文書がまだあれば、ステップS703の繰り返し処理を実施する。処理対象となる集約した関連文書がなければ、ステップS706に処理を移す。
ステップS706では、学習処理部301は、文書保存テーブル601の登録文書ごとに、ステップS708までの繰り返し処理を開始する。
ステップS707では、学習処理部301は、処理対象の登録文書に対する検索クエリフィールドが空の場合、ステップS708に処理を移す。登録文書に対する検索クエリフィールドが空でなければ、ステップS709に処理を移す。
ステップS708では、学習処理部301は、処理対象の登録文書の別フィールドの値に基づいた補完文字列を検索クエリフィールドに代入する。本実施の例においては、「タイトル」および「本文」を結合した文字列を用いる。
閲覧履歴に代入する値は、特定のフィールドだけに限定してもよいし、文字列の長さが近いなどの統計的特徴により、登録文書ごとに選択してもよいし、更には、他の文書との比較において、特徴的な単語(特徴語)または文を抽出して用いてもよい。
ステップS709では、学習処理部301は、処理対象となる登録文書がまだあれば、ステップS706からの処理を実施する。処理対象となる登録文書がなければ、ステップS710に処理を移す。
ステップS710では、学習処理部301は、検索クエリフィールドに対して、インデックスを作成する。本実施の例においては、「形態素解析」と「n-gram」の2つの単語の抽出方法に対して、BM25によるスコアリングを行うものとする。
このように、過去に文書が閲覧された際の検索クエリを当該文書と対応付けて記憶し、当該検索クエリについても検索対象として以降の検索処理を実行することで、ユーザの求める文書を適切に検索することが可能となる。また、過去に文書が閲覧された際の検索クエリが存在しない文書については、当該文書に関する要素を検索クエリとみなして対応付けて記憶することで、過去に閲覧履歴がない文書などについても、適切な検索スコアを算出でき、適切なランキングで検索結果を表示することが可能となる。
(学習データ生成処理)
次に図8のフローチャートを用いて、前述したステップS403の学習データ生成処理について説明する。
ステップS801では、学習処理部301は、一時領域にある学習データを初期化する。
ステップS802では、学習処理部301は、ステップS401で取得した閲覧履歴ごとに、ステップS806までの繰り返し処理を開始する。
ステップS803では、学習処理部301は、処理対象の閲覧履歴の検索クエリに対して、検索処理部304に特徴ベクトルの生成を要求し、取得する。検索処理部304における特徴ベクトルの生成については後述する。
ステップS804では、学習処理部301は、ステップS803で取得した特徴ベクトルが、処理対象の閲覧履歴における文書を含んでいる場合、処理をステップS805に移す。含んでいない場合、処理をステップS806に移す。
ステップS805では、学習処理部301は、ステップS803で取得した検索クエリに対する特徴ベクトルの中で、処理対象の閲覧履歴における文書に対応する特徴ベクトルを、文書と関連付けて、一時領域の学習データに追加する。
ステップS806では、学習処理部301は、処理対象となる閲覧履歴がまだあれば、ステップS802からの繰り返し処理を実施する。処理対象となる閲覧履歴がなければ処理を終了する。
(検索クエリに対する特徴ベクトル生成処理)
次に図9のフローチャートを用いて、前述したステップS803における検索処理部304の検索クエリに対する特徴ベクトル生成処理について説明する。
ステップS901では、検索処理部304は、処理対象である検索クエリに対する特徴ベクトルを一時領域に作成し初期化する。
ステップS902では、検索処理部304は、検索対象保存領域303の文書保存テーブル601において、検索クエリフィールドを含めて登録文書に対して指定された全文検索対象のフィールドごとに、ステップS911までの繰り返し処理を開始する。
ステップS903では、検索処理部304は、処理対象のフィールドに対し付与されたインデックスごとに、ステップS910までの繰り返し処理を開始する。
ステップS904では、検索処理部304は、処理対象の検索クエリを用いて、処理対象のインデックスを検索し、検索結果として文書とスコアを取得する。
ステップS905では、検索処理部304は、ステップS904で取得した検索結果の文書ごとに、ステップS909までの繰り返し処理を開始する。
ステップS906では、検索処理部304は、文書に対する特徴ベクトルが、一時領域に存在すれば、処理をステップS908に移す。文書に対する特徴ベクトルが一時領域になければ、処理をステップS907に移す。
ステップS907では、検索処理部304は、初期化した特徴ベクトルを一時領域に文書と関連付けて追加する。文書に対する特徴ベクトルは、各検索フィールドの各インデックスに対するスコアを要素として0で初期化される。
ステップS908では、検索処理部304は、文書に対する特徴ベクトルにおける、処理対象のフィールドとインデックスに対する要素として、検索結果における文書のスコアを代入する。
ステップS909では、検索処理部304は、処理対象となる文書が検索結果にまだあれば、ステップS905からの繰り返し処理を実施する。処理対象の文書がなければ、ステップS910に処理を移す。
ステップS910では、検索処理部304は、処理対象となるインデックスがまだあれば、ステップS903からの繰り返し処理を実施する。処理対象のインデックスがなければ、ステップS911に処理を移す。
ステップS911では、検索処理部304は、処理対象となるフィールドがまだあれば、ステップS902からの繰り返し処理を実施する。処理対象のフィールドがなければ、処理を終了する。図17は、特徴ベクトルの生成処理を概念的に示した図である。
(学習処理の具体例)
次に、学習処理の具体例として、図10に示す閲覧履歴保存テーブル501および図11に示す文書保存テーブル601に対して、図4に示す学習処理が実施された場合について説明する。
ステップS401では、学習処理部301は、図10に示す閲覧履歴保存テーブル501から過去の閲覧履歴を取得する。
図10に示すとおり、閲覧履歴保存テーブル501には、閲覧履歴として、閲覧された文書を一意に特定するための文書IDと、当該文書を閲覧した際の検索クエリとが対応付けて保存されている。例えば、図10の1001のレコードは、「スクリプトを実行するには」という検索クエリによって検索処理が実行され、文書ID「d3」の文書が閲覧されたことを示している。
ステップS402では、学習処理部301は、図11に示す文書保存テーブル601に対して、ステップS401で取得した閲覧履歴を追加する図7のフローチャートで示した検索クエリフィールドの追加処理を開始する。
ステップS701では、学習処理部301は、文書保存テーブル601に検索クエリフィールド1101を追加する。
ステップS702では、学習処理部301は、図10の閲覧履歴テーブル501に対して、図12に示す関連文書の文書IDで集約された閲覧履歴1201を取得する。
図12に示す通り、ステップS702の処理によって、同一の文書IDと対応付けられた検索クエリが集約される。
ステップS703では、学習処理部301は、関連文書に対して、ステップS705までの繰り返し処理を開始する。
ステップS704では、学習処理部301は、集約された検索クエリ1202を、文書保存テーブル601における同じ文書ID(d1)の登録文書1102の検索クエリフィールドに追加する。
以下同様に、学習処理部301は、集約した関連文書全てに対して、ステップS703からステップS705の繰り返し処理を実施し、文書保存テーブル601は図11に示すような状態となる。
図11に示すとおり、文書保存テーブル601には、文書を一意に特定するための文書ID、文書のタイトル、文書の内容である本文、集約された検索クエリから構成される。
ステップS706では、学習処理部301は、文書保存テーブル601の登録文書1102に対して、ステップS708までの繰り返し処理を開始する。
ステップS707では、学習処理部301は、登録文書1102に対する検索クエリフィールドが空ではないので、ステップS709に処理を移す。
ステップS709では、学習処理部301は、処理対象となる登録文書1103がまだあるので、ステップS706からの処理を実施する。
ステップS706では、学習処理部301は、文書保存テーブル601の登録文書1103に対して、ステップS708までの繰り返し処理を開始する。
ステップS707では、学習処理部301は、処理対象の登録文書1103に対する検索クエリフィールドが空なので、ステップS708に処理を移す。
ステップS708では、学習処理部301は、処理対象の登録文書1103の「タイトル」および「本文」フィールドの値を結合して登録文書1103の検索クエリフィールドに代入する。
以下同様に、学習処理部301は、集約した関連文書全てに対して、ステップS706からステップS709の繰り返し処理を実施し、文書保存テーブル601は図13に示すような状態となる。
図13に示す通り、ステップS705までの処理によって作成された文書保存テーブル(図11)において検索クエリ欄が空であったレコードについて、検索クエリの内容(本実施例においてはタイトル及び本文を結合した値)が追加されている。
ステップS710では、学習処理部301は、検索クエリフィールド1101に対して、インデックスを作成する。
ステップS403では、学習処理部301は、閲覧履歴テーブルの501の閲覧履歴に対し、図8に示す学習データ生成処理を実施する。
ステップS801では、学習処理部301は、一時領域にある学習データを初期化する。
ステップS802では、学習処理部301は、閲覧履歴テーブルの501の閲覧履歴1001の検索クエリに対して、ステップS806までの繰り返し処理を開始する。
ステップS803では、学習処理部301は、処理対象の閲覧履歴1001の検索クエリに対する図9に示す特徴ベクトル生成処理を検索処理部304に要求して、図14に示すような特徴ベクトル1401を取得する。
特徴ベクトルの生成については、ここでは図17に概略図を示すにとどめ具体的な説明は省略する。
ステップS804では、学習処理部301は、ステップS803で生成した特徴ベクトル1401が処理対象の閲覧履歴における文書(ID=d3)を含んでいるので、処理をステップS805に移す。
ステップS805では、学習処理部301は、処理対象の閲覧履歴1001における文書と対応する特徴ベクトル1402を関連付けて、一時領域の学習データ1501に追加する(1502)。
ステップS806では、学習処理部301は、処理対象となる閲覧履歴1002がまだあるので、ステップS803からの繰り返し処理を実施する。
以下、同様の処理を繰り返し、学習データを生成する。
ステップS404では、学習処理部301は、ステップS403で生成した学習データに基づき、ランキング学習を行い、図16に示すような学習モデルを獲得する。
ステップS405では、学習処理部301は、ステップS404の学習結果である学習モデルを学習データ保存領域302における学習モデル保存テーブル502に保存する。
(検索処理)
次に図18のフローチャートを用いて、ステップS404で獲得した学習モデルを用いた検索処理について説明する。
図18は、全文検索装置100のCPU201が所定の制御プログラムを読み出して実行する処理であり、クライアント端末110のブラウザ310を介したユーザからの検索要求に対して登録文書の中から適合する文書を検索する処理を示すフローチャートである。
ステップS1801では、検索処理部304は、ユーザからの検索要求として、検索クエリを取得する。
ステップS1802では、検索処理部304は、図9に示した処理により、ステップS1801で取得した検索クエリに対する特徴ベクトルを生成する。
ステップS1803では、検索処理部304は、取得した検索クエリに対する特徴ベクトルに含まれる特徴ベクトルごとに、ステップS1805までの繰り返し処理を開始する。
ステップS1804では、検索処理部304は、処理対象の特徴ベクトルに対して、学習データ保存領域302における学習モデル保存テーブル502における学習モデルを参照して、処理対象の特徴ベクトルから関連付けられた文書に対するスコアを算出する。
ステップS1805では、検索処理部304は、処理対象となる特徴ベクトルがまだあれば、ステップS1803からの繰り返し処理を実施する。処理対象となる特徴ベクトルがなければステップS1806に処理を移す。
ステップS1806では、検索処理部304は、S1804で求めたスコアに応じて特徴ベクトルに関連付けられた文書を並び替えて、検索結果とする。
(検索処理具体例)
次に、検索処理の具体例として、閲覧履歴に含まれない文書d2を対象とした検索クエリ「スクリプトの編集について」に対して、図16に示した学習モデルを用い、図18に示す検索処理が実施した場合について説明する。
ステップS1801では、検索処理部304は、ユーザからの検索要求として、検索クエリ「スクリプトを編集について」を取得する。
ステップS1802では、検索処理部304は、図9に示した処理により、ステップS1801で取得した検索クエリ「スクリプトの編集について」に対する特徴ベクトルとして、図19に示す特徴ベクトル1901を生成する。
ステップS1803では、検索処理部304は、取得した検索クエリ「スクリプトの編集について」に対する特徴ベクトル1901に含まれる特徴ベクトル1902に対して、ステップS1805までの繰り返し処理を開始する。
ステップS1804では、検索処理部304は、処理対象の特徴ベクトル1902に対して、図16に示す学習モデルを参照して、特徴ベクトル1902に関連付けられた文書d2に対するスコアとして167.705を算出する。
ステップS1805では、検索処理部304は、処理対象となる特徴ベクトル1903がまだあるので、ステップS1803からの繰り返し処理を実施する。
以下同様の処理を繰り返して、図20に示す計算結果2001を取得する。
ステップS1806では、検索処理部304は、S1804で求めたスコアに応じて特徴ベクトルを並び替えて、検索結果とする。
文書d2は閲覧履歴に含まれていない。しかしながら検索クエリフィールドに対する補完が行われているので、特徴ベクトルにおける検索クエリに対する値(2004、2005)は0とならず、文書d2のスコアは文書d1および文書d7より上位となる。
このように、検索クエリフィールドを補完することで、閲覧履歴に含まれない文書に対しても、適切なスコアを得ることができ、表示順位における悪影響を抑えることが可能となる。
以上説明した通り、本願発明においては、過去に文書が閲覧された際の検索クエリを当該文書と対応付けて記憶し、当該検索クエリについても検索対象として以降の検索処理を実行することで、ユーザの求める文書を適切に検索することが可能となる。また、過去に文書が閲覧された際の検索クエリが存在しない文書については、当該文書に関する要素を検索クエリとみなして対応付けて記憶することで、過去に閲覧履歴がない文書などについても、適切な検索スコアを算出でき、適切なランキングで検索結果を表示することが可能となる。
本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
また、本発明におけるプログラムは、図4、図7~図9、図18に示すフローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は図4、図7~図9、図18の処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは図4、図7~図9、図18の各装置の処理方法ごとのプログラムであってもよい。
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることが出来る。
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
100 全文検索装置
110 クライアント端末
120 LAN

Claims (6)

  1. 文書に、当該文書検索された際の検索クエリを補完情報として対応付けて記憶し、前記検索クエリが存在しない文書については、当該文書の内容に基づく情報を補完情報として対応付けて記憶する記憶手段と、
    ユーザから受け付けた検索クエリを用いて、前記記憶手段に記憶された文書の内容と、当該文書に対応付けて記憶された補完情報とを検索対象として検索を行う検索手段と、
    を備えることを特徴とする情報処理システム。
  2. 前記記憶手段は、前記検索クエリが存在しない文書について、当該文書における複数の項目に係る内容を結合した情報を補完情報として、当該文書に対応付けて記憶することを特徴とする請求項1に記載の情報処理システム。
  3. 前記記憶手段は、前記検索クエリが存在しない文書について、当該文書から抽出した特徴語を補完情報として、当該文書に対応付けて記憶することを特徴とする請求項1または2に記載の情報処理システム。
  4. 前記記憶手段は、前記文書が検索され閲覧された場合に、当該文書が検索された際の検索クエリを補完情報として対応付けて記憶することを特徴とする請求項1乃至3のいずれか1項に記載の情報処理システム。
  5. 情報処理システムの記憶手段が、文書に、当該文書検索された際の検索クエリを補完情報として対応付けて記憶し、前記検索クエリが存在しない文書については、当該文書の内容に基づく情報を補完情報として対応付けて記憶する記憶工程と、
    前記情報処理システムの検索手段が、ユーザから受け付けた検索クエリを用いて、前記記憶手段に記憶された文書の内容と、当該文書に対応付けて記憶された補完情報とを検索対象として検索を行う検索工程と、
    を備えることを特徴とする情報処理方法。
  6. コンピュータを、請求項1乃至4のいずれか1項に記載の各手段として機能させるためのプログラム。
JP2020218462A 2020-12-28 2020-12-28 情報処理システム、情報処理方法、プログラム Active JP7626924B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020218462A JP7626924B2 (ja) 2020-12-28 2020-12-28 情報処理システム、情報処理方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020218462A JP7626924B2 (ja) 2020-12-28 2020-12-28 情報処理システム、情報処理方法、プログラム

Publications (3)

Publication Number Publication Date
JP2022103684A JP2022103684A (ja) 2022-07-08
JP2022103684A5 JP2022103684A5 (ja) 2024-01-22
JP7626924B2 true JP7626924B2 (ja) 2025-02-05

Family

ID=82279540

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020218462A Active JP7626924B2 (ja) 2020-12-28 2020-12-28 情報処理システム、情報処理方法、プログラム

Country Status (1)

Country Link
JP (1) JP7626924B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004145706A (ja) 2002-10-25 2004-05-20 Canon Inc マルチメディアデータ検索システム
JP2013033488A (ja) 2012-09-21 2013-02-14 Panasonic Healthcare Co Ltd 検索システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004145706A (ja) 2002-10-25 2004-05-20 Canon Inc マルチメディアデータ検索システム
JP2013033488A (ja) 2012-09-21 2013-02-14 Panasonic Healthcare Co Ltd 検索システム

Also Published As

Publication number Publication date
JP2022103684A (ja) 2022-07-08

Similar Documents

Publication Publication Date Title
US11693864B2 (en) Methods of and systems for searching by incorporating user-entered information
CN107402954B (zh) 建立排序模型的方法、基于该模型的应用方法和装置
RU2628200C2 (ru) Обеспечение руководства тематическим поиском
US7861149B2 (en) Key phrase navigation map for document navigation
US9846744B2 (en) Media discovery and playlist generation
JP5497022B2 (ja) 入力文字列からのリソースロケータの提案
CN102625936B (zh) 来自文档的查询建议
US7958128B2 (en) Query-independent entity importance in books
KR101554293B1 (ko) 교차 언어 정보 검색
US7769771B2 (en) Searching a document using relevance feedback
US9613003B1 (en) Identifying topics in a digital work
US20090055394A1 (en) Identifying key terms related to similar passages
EP2727026A2 (en) Exposing search history by category
CN109952571B (zh) 基于上下文的图像搜索结果
JP2022069790A (ja) 情報処理装置、情報処理方法、プログラム
JP7626924B2 (ja) 情報処理システム、情報処理方法、プログラム
US20130036354A1 (en) Music interface
JP7614705B2 (ja) 情報処理システム、情報処理方法、プログラム
JP7545061B2 (ja) 情報処理システム、情報処理方法、プログラム
JP7174268B2 (ja) 情報処理システム、情報処理装置、情報処理方法、プログラム
JP7587171B2 (ja) 情報処理装置、制御方法、プログラム
JP2006163645A (ja) 情報検索方法、情報検索装置、情報検索プログラム及びコンピュータで読み取り可能な記録媒体並びに記録した機器
JP2023078847A (ja) 文書管理装置、文書管理方法及び文書管理プログラム
JP2024062159A (ja) 情報処理装置、制御方法、プログラム
Reddy et al. Cross lingual information retrieval using search engine and data mining

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231227

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20241108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20241224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250106

R150 Certificate of patent or registration of utility model

Ref document number: 7626924

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150