[go: up one dir, main page]

JP5179564B2 - クエリセグメント位置決定装置 - Google Patents

クエリセグメント位置決定装置 Download PDF

Info

Publication number
JP5179564B2
JP5179564B2 JP2010292481A JP2010292481A JP5179564B2 JP 5179564 B2 JP5179564 B2 JP 5179564B2 JP 2010292481 A JP2010292481 A JP 2010292481A JP 2010292481 A JP2010292481 A JP 2010292481A JP 5179564 B2 JP5179564 B2 JP 5179564B2
Authority
JP
Japan
Prior art keywords
search
query
segment position
separator
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010292481A
Other languages
English (en)
Other versions
JP2012141681A (ja
Inventor
純平 三宅
浩司 塚本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2010292481A priority Critical patent/JP5179564B2/ja
Publication of JP2012141681A publication Critical patent/JP2012141681A/ja
Application granted granted Critical
Publication of JP5179564B2 publication Critical patent/JP5179564B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索エンジン等における検索クエリに対する操作技術に関する。
インターネット上には、膨大な情報の中から所望の情報を探し出すためのツールとして検索エンジンと呼ばれるサイトが設けられている。
検索エンジンには、予め機械的あるいは人的に、検索キーワードと当該検索キーワードが含まれるページとを対応付けた検索DB(Data Base)が設けられており、ユーザが端末装置から入力した検索クエリに基づいて検索DBを検索し、ヒットしたページのタイトルやスニペット等をURL(Uniform Resource Locator)リンクを伴って検索結果として端末装置に表示する。ユーザはタイトルやスニペット等を見た上で実際のページを見てみようと思った場合、タイトル等を選択することでリンクされたページに画面が遷移する。
ところで、検索クエリとしては、一つの単語等を指定する場合のほかに、「まんが□立ち読み」といったように、スペース「□」等をセパレータとして指定する場合が多い。この場合、「まんが」と「立ち読み」の両者を含むページが検索(AND検索)される。検索エンジンは、「まんが」に基づく検索結果と「立ち読み」に基づく検索結果とをAND演算し、最終的な検索結果としてユーザに返す。なお、セパレータにより区切ることはセグメンテーションと呼ばれ、検索クエリ上のセパレータの位置はクエリセグメント位置と呼ばれる。
しかし、ユーザが適切な位置にセパレータを入れるとは限らず、セパレータを除けば同じ文字列であっても、クエリセグメント位置の違いによって検索結果が変わってしまい、所望の検索結果が得られない場合がある。例えば、上記の例「まんが□立ち読み」に代えて「まんが立ち□読み」と入力された場合、検索エンジンは「まんが立ち」と「読み」を個別に検索し、それぞれの検索結果のAND演算を行うため、「まんが□立ち読み」の最終的な検索結果とは異なってしまう。より現実的な例としては、芸能人の楽曲のタイトル等を検索しようとした場合、楽曲のタイトルが2つ以上の語に分割できる場合に、連続して検索クエリにした場合と途中にセパレータを入れて検索クエリにした場合とで検索結果が異なってしまう。この場合、楽曲のタイトルは分割されずに検索DBに登録される場合が多いため、分割せずに連続して検索クエリにした場合は所望の検索結果が得られるが、分割した場合は一般用語のノイズに紛れて所望の検索結果が見つけられないことが多い。
特開2009−301140号公報
上述したようにユーザの入力した検索クエリに基づいて単に検索を行ったのでは検索精度の低下を招くこととなり、検索精度を向上する対策が求められていた。
一方、特許文献1には、テキストデータベースに蓄積されたテキストデータに対してテキストセグメンテーションを行う技術が開示されているが、検索クエリを対象としたものではない。
本発明は上記の従来の問題点に鑑み提案されたものであり、その目的とするところは、ユーザにより入力された検索クエリのクエリセグメント位置を適正な位置に修正することで、検索精度を高めることにある。
上記の課題を解決するため、本発明にあっては、請求項1に記載されるように、検索ログを取得する検索ログ取得手段と、取得した検索ログの検索クエリからセパレータを削除するセパレータ削除手段と、セパレータが削除された検索クエリを複数の文字列に分割するクエリ分割手段と、分割された文字列に基づいて検索データベースを検索する第1検索手段と、検索結果に基づいて、分割された一の文字列が隣接する文字列と連接共起する頻度をスコアとして算出する解析手段と、算出されたスコアに基づいてクエリセグメント位置を決定するクエリセグメント位置決定手段とを備えるクエリセグメント位置決定装置を要旨としている。
また、請求項2に記載されるように、請求項1に記載のクエリセグメント位置決定装置において、前記クエリ分割手段は、形態素解析により検索クエリを複数の文字列に分割するようにすることができる。
また、請求項3に記載されるように、請求項1に記載のクエリセグメント位置決定装置において、前記クエリ分割手段は、検索ログから最も分割数の多いパターンを選択することで検索クエリを複数の文字列に分割するようにすることができる。
また、請求項4に記載されるように、請求項1に記載のクエリセグメント位置決定装置において、前記クエリ分割手段は、検索ログから文字列の結合モデルを複数生成することで検索クエリを複数の文字列に分割するようにすることができる。
また、請求項5に記載されるように、検索ログを取得する検索ログ取得手段と、取得した検索ログの検索クエリからセパレータを削除するセパレータ削除手段と、セパレータが削除された検索クエリを複数の文字列に分割するクエリ分割手段と、分割された文字列に基づいて検索データベースを検索する第1検索手段と、検索結果に基づいて、分割された一の文字列が隣接する文字列と連接共起する頻度をスコアとして算出する解析手段と、算出されたスコアに基づいてクエリセグメント位置を決定するクエリセグメント位置決定手段と、決定されたクエリセグメント位置に基づいてパターン認識部の学習を行う学習手段と、ユーザから入力された検索クエリを前記パターン認識部によりクエリセグメント位置の適否を判断し、適正なクエリセグメント位置に修正を行うクエリ修正手段と、修正された検索クエリに基づいて前記検索データベースを検索する第2検索手段とを備える検索装置として構成することができる。
また、請求項6に記載されるように、ユーザから検索クエリを受け付ける受付手段と、受け付けた検索クエリからセパレータを削除するセパレータ削除手段と、セパレータが削除された検索クエリを複数の文字列に分割するクエリ分割手段と、分割された文字列に基づいて検索データベースを検索する第1検索手段と、検索結果に基づいて、分割された一の文字列が隣接する文字列と連接共起する頻度をスコアとして算出する解析手段と、算出されたスコアに基づいてクエリセグメント位置を決定するクエリセグメント位置決定手段と、決定されたクエリセグメント位置決定手段に基づいて検索クエリを修正するクエリ修正手段と、修正された検索クエリに基づいて前記検索データベースを検索する第2検索手段とを備える検索装置として構成することができる。
また、請求項7に記載されるように、検索装置の制御部が、検索ログを取得する検索ログ取得工程と、前記制御部が、取得した検索ログの検索クエリからセパレータを削除するセパレータ削除工程と、前記制御部が、セパレータが削除された検索クエリを複数の文字列に分割するクエリ分割工程と、前記制御部が、分割された文字列に基づいて検索データベースを検索する第1検索工程と、前記制御部が、検索結果に基づいて、分割された一の文字列が隣接する文字列と連接共起する頻度をスコアとして算出する解析工程と、前記制御部が、算出されたスコアに基づいてクエリセグメント位置を決定するクエリセグメント位置決定工程と、前記制御部が、決定されたクエリセグメント位置に基づいてパターン認識部の学習を行う学習工程と、前記制御部が、ユーザから入力された検索クエリを前記パターン認識部によりクエリセグメント位置の適否を判断し、適正なクエリセグメント位置に修正を行うクエリ修正工程と、前記制御部が、修正された検索クエリに基づいて前記検索データベースを検索する第2検索工程とを備える検索制御方法として構成することができる。
また、請求項8に記載されるように、検索装置の制御部が、ユーザから検索クエリを受け付ける受付工程と、前記制御部が、受け付けた検索クエリからセパレータを削除するセパレータ削除工程と、前記制御部が、セパレータが削除された検索クエリを複数の文字列に分割するクエリ分割工程と、前記制御部が、分割された文字列に基づいて検索データベースを検索する第1検索工程と、前記制御部が、検索結果に基づいて、分割された一の文字列が隣接する文字列と連接共起する頻度をスコアとして算出する解析工程と、前記制御部が、算出されたスコアに基づいてクエリセグメント位置を決定するクエリセグメント位置決定工程と、前記制御部が、決定されたクエリセグメント位置決定手段に基づいて検索クエリを修正するクエリ修正工程と、前記制御部が、修正された検索クエリに基づいて前記検索データベースを検索する第2検索工程とを備える検索制御方法として構成することができる。
また、請求項9に記載されるように、検索装置を構成するコンピュータを、検索ログを取得する検索ログ取得手段、取得した検索ログの検索クエリからセパレータを削除するセパレータ削除手段、セパレータが削除された検索クエリを複数の文字列に分割するクエリ分割手段、分割された文字列に基づいて検索データベースを検索する第1検索手段、検索結果に基づいて、分割された一の文字列が隣接する文字列と連接共起する頻度をスコアとして算出する解析手段、算出されたスコアに基づいてクエリセグメント位置を決定するクエリセグメント位置決定手段、決定されたクエリセグメント位置に基づいてパターン認識部の学習を行う学習手段、ユーザから入力された検索クエリを前記パターン認識部によりクエリセグメント位置の適否を判断し、適正なクエリセグメント位置に修正を行うクエリ修正手段、修正された検索クエリに基づいて前記検索データベースを検索する第2検索手段として機能させる検索制御プログラムとして構成することができる。
また、請求項10に記載されるように、検索装置を構成するコンピュータを、ユーザから検索クエリを受け付ける受付手段、受け付けた検索クエリからセパレータを削除するセパレータ削除手段、セパレータが削除された検索クエリを複数の文字列に分割するクエリ分割手段、分割された文字列に基づいて検索データベースを検索する第1検索手段、検索結果に基づいて、分割された一の文字列が隣接する文字列と連接共起する頻度をスコアとして算出する解析手段、算出されたスコアに基づいてクエリセグメント位置を決定するクエリセグメント位置決定手段、決定されたクエリセグメント位置決定手段に基づいて検索クエリを修正するクエリ修正手段、修正された検索クエリに基づいて前記検索データベースを検索する第2検索手段として機能させる検索制御プログラムとして構成することができる。
本発明にあっては、ユーザにより入力された検索クエリのクエリセグメント位置を適正な位置に修正することで、検索精度を高めることができる。
本発明の第1の実施形態にかかるシステムの構成例を示す図である。 検索ログのデータ構造例を示す図である。 検索DBのデータ構造例を示す図である。 検索装置のハードウェア構成例を示す図である。 第1の実施形態の処理例を示すフローチャートである。 データの遷移の様子を示す図(その1)である。 学習データの例を示す図である。 データの遷移の様子を示す図(その2)である。 本発明の第2の実施形態にかかるシステムの構成例を示す図である。 第2の実施形態の処理例を示すフローチャートである。
以下、本発明の好適な実施形態につき説明する。
<第1の実施形態>
図1は本発明の第1の実施形態にかかるシステムの構成例を示す図である。
図1において、インターネット等のネットワーク1には、ユーザが操作するPC(Personal Computer)、携帯電話、PDA(Personal Digital
Assistants)等のユーザ端末2が複数接続されている。ユーザ端末2は、一般的なブラウザ(Webブラウザ)21を備えている。ブラウザ21は、インターネットの標準プロトコルであるHTTP(Hyper Text Transfer Protocol)等に従い、HTML(Hyper
Text Markup Language)等の言語で記述されたページデータの要求・取得・表示およびフォームデータの送信等を行う機能を有している。
一方、ネットワーク1には、ユーザの操作するユーザ端末2のブラウザ21からのアクセスに対してWeb検索を行って検索結果をユーザ端末2のブラウザ21に返送する検索装置3が接続されている。
検索装置3は、機能部として、クエリセグメント位置学習部301とパターン認識部309と検索クエリ受付部310と検索クエリ修正部311と検索部312と検索結果応答部313とを備えている。クエリセグメント位置学習部301は、検索ログ取得部302とセパレータ削除部303とクエリ分割部304と検索部305と検索結果解析部306とクエリセグメント位置決定部307と学習データ生成・学習要求部308とを備えている。
これらの機能部は、検索装置3を構成するコンピュータのCPU(Central Processing Unit)、ROM(Read Only
Memory)、RAM(Random Access Memory)等のハードウェア資源上で実行されるコンピュータプログラムによって実現されるものである。これらの機能部は、単一のコンピュータ上に配置される必要はなく、必要に応じて分散される形態であってもよい。
また、検索装置3が利用するデータベースとして、検索ログ314と検索DB315とが設けられている。これらのデータベースは、検索装置3を構成するコンピュータ内のHDD(Hard Disk Drive)等の記憶媒体上に所定のデータを体系的に保持するものである。なお、検索ログ314と検索DB315は検索装置3内に配置される必要はなく、他の装置上に配置してもよい。
図2は検索ログ314のデータ構造例を示す図である。検索ログ314は、検索ログ生データと検索ログ集計データとを含んでいる。検索ログ生データは、「検索日時」「検索クエリ」等の項目を含んでいる。「検索日時」は検索が実行された日時である。「検索クエリ」は検索に用いられた検索式である。検索ログ集計データは、「検索クエリ」「検索回数(頻度)」等の項目を含んでいる。「検索クエリ」は、検索に用いられた検索式である。「検索回数(頻度)」は、同じ検索クエリについて検索された回数もしくは頻度である。
図3は検索DB315のデータ構造例を示す図である。検索DB315は、「検索キーワード」「ページURL」「タイトル」「要約」等の項目を含んでいる。「検索キーワード」は、検索に用いた文字列である。「ページURL」は、検索キーワードが含まれるページのアドレスである。「タイトル」は、ページのタイトルである。「要約」は、ページの内容の一部もしくは全部の文字列である。
図1に戻り、検索装置3のクエリセグメント位置学習部301は、バッチ処理として動作し、検索ログ314に基づいて検索DB315を検索し、適正なクエリセグメント位置を決定して、SVM(Support Vector Machine)等のパターン認識部309を学習させる機能を有している。
検索ログ取得部302は、検索ログ314の検索ログ生データから検索クエリを取得する機能を有している。
セパレータ削除部303は、検索ログ取得部302の取得した検索クエリからスペース等のセパレータを削除する機能を有している。
クエリ分割部304は、セパレータ削除部303でセパレータが削除された検索クエリを意味のある範囲で複数の文字列に分割する機能を有している。
検索部305は、クエリ分割部304で分割された複数の文字列に基づいて検索DB315を検索する機能を有している。
検索結果解析部306は、検索部305の検索で得られた検索結果を解析し、クエリ分割部304で分割された複数の文字列のそれぞれが隣接する文字列と接続された状態でページ上に存在(連接共起)する頻度を表わすスコアを算出する機能を有している。
クエリセグメント位置決定部307は、検索結果解析部306の算出したスコアに基づいて適正なクエリセグメント位置を決定する機能を有している。
学習データ生成・学習要求部308は、クエリセグメント位置決定部307で決定されたクエリセグメント位置の特徴を示す学習データを生成し、その学習データに基づいてパターン認識部309に学習を行うことを要求する機能を有している。
パターン認識部309は、周知のSVM等のメカニズムを有し、特徴ベクトルおよび教師信号に基づいて学習を行い、パターン認識時には、入力された特徴ベクトルがいずれのクラス(本例では、検索クエリとしてクエリセグメント位置が適正か否か)に属するかを示す認識結果を出力する機能を有している。
検索クエリ受付部310は、ユーザ端末2のブラウザ21からの検索要求時に検索クエリを受け付ける機能を有している。
検索クエリ修正部311は、検索クエリ受付部310の受け付けた検索クエリのクエリセグメント位置が適正か否かパターン認識部309によって、全ての文字列間を順番にクエリセグメント位置をずらすことで検索クエリを修正する機能を有している。
検索部312は、検索クエリ修正部311を経由した検索クエリ(必要に応じて修正された検索クエリ)に基づいて検索DB315を検索する機能を有している。
検索結果応答部313は、検索部312の検索結果を要求元のユーザ端末2のブラウザ21に返送する機能を有している。
図4は検索装置3のハードウェア構成例を示す図である。
図4において、検索装置3は、システムバス31に接続されたCPU32、ROM33、RAM34、NVRAM(Non-Volatile Random Access Memory)35、I/F(Interface)36と、I/F36に接続された、キーボード、マウス、モニタ、CD/DVD(Compact Disk/Digital Versatile Disk)ドライブ等のI/O(Input/Output Device)37、HDD(Hard Disk Drive)38、NIC(Network Interface Card)39等を備えている。Mはプログラムもしくはデータが格納されたCD/DVD等のメディア(記録媒体)である。
図5は第1の実施形態の処理例を示すフローチャートである。
図5(a)において、処理を開始すると(ステップS101)、検索装置3のクエリセグメント位置学習部301の検索ログ取得部302は、検索ログ314の検索ログ生データから検索クエリを取得する(ステップS102)。図6(a)は取得した検索クエリの例を示している。
次いで、図5(a)に戻り、クエリセグメント位置学習部301のセパレータ削除部303は、検索ログ取得部302の取得した検索クエリからスペース等のセパレータを削除する(ステップS103)。図6(b)は図6(a)の検索クエリからセパレータを削除した状態を示している。
次いで、図5(a)に戻り、クエリセグメント位置学習部301のクエリ分割部304は、セパレータを削除した検索クエリを意味のある範囲で複数の文字列に分割する(ステップS104)。検索クエリの分割手法としては、例えば、次の3つの手法がある。
(1)形態素解析により分割する手法:この手法では、一定の精度で分割が可能であるメリットがある反面、辞書に登録されていない未知語に弱いというデメリットがある。
(2)検索ログから最も分割数の多いパターンを選択する手法:すなわち、検索ログ314からスペース等のセパレータを削除した状態で同一となる検索クエリを全て抽出し、その中で最も分割数の多いものを選択する。また、相対的に検索回数(頻度)の低い検索クエリや、文字列の連接確率モデルより顕著に確率の低い検索クエリは棄却する。この手法では、形態素解析辞書にあまり入っていないようなテレビゲーム名やアイドルグループ名など、具体的な固有名詞についてもデータを有する可能性が高いのでこれらの分割に強いというメリットがある反面、棄却する基準となる頻度が明確でないというデメリットがある。
(3)検索ログから計算した文字列の連接確率モデルで分割する手法:この手法では、未知語にも対応できるメリットがある反面、意味のない文字列が含まれるというデメリットがある。
上記の各手法を採用する選択基準としては、素早く実装し、適当な精度を得たい場合は(1)を、未知語の分割も行ない、更に検索精度も考慮したい場合は(2)か(3)がよい。(2)は最適な分割のパターンを選択するだけなので実装が容易である。(3)は文字列間毎に分割するかどうかを解析する必要がありコストの高い実装である。(2)と(3)は精度で大きな差は少ないが、(3)の方が細かい単位で文字列が分割されるため、より精度改善が期待される。
図6(c)は図6(b)の状態から分割を行った状態を示している。
次いで、図5(a)に戻り、クエリセグメント位置学習部301の検索部305は、クエリ分割部304で分割された検索クエリの個々の文字列に基づいて検索DB315を検索する(ステップS105)。
次いで、クエリセグメント位置学習部301の検索結果解析部306は、検索部305の検索で得られた検索結果を解析し、個々の文字列のヒット件数の他に、検索結果として得られた要約(スニペット)おいて、分割された複数の文字列のそれぞれが隣接する文字列と接続された状態でページ上に存在する連接共起数をカウントし、連接共起頻度を表わすスコアを算出する(ステップS106)。スコアとしては、シンプソン係数や相互情報量が用いられる。
シンプソン係数によるスコア
=(word1とword2の連接状態でのヒット数)/min(word1のヒット数,word2のヒット数)
相互情報量によるスコア
=log(P(word1,word2))/(P(word1)P(word2))
ここで、minは括弧内の数値のうち小さい方を表わす。また、P(word1,word2)はword1とword2の同時分布関数、P(word1)はword1の周辺確率分布関数、P(word2)はword2の周辺確率分布関数である。
なお、検索結果解析部306で要約(スニペット)から連接共起数をカウントすることに代え、検索部305で隣接する文字列を接続した状態で検索DB315の検索を行ってもよい。
次いで、クエリセグメント位置学習部301のクエリセグメント位置決定部307は、検索結果解析部306の算出したスコアに基づいて適正なクエリセグメント位置を決定する(ステップS107)。図6(d)では「まんが□立ち」のスコアが、設定した閾値のスコアより低いとすると、図6(e)のように「まんが」と「立ち」の間を適正なクエリセグメント位置と決定する。
次いで、図5(a)に戻り、クエリセグメント位置学習部301の学習データ生成・学習要求部308は、クエリセグメント位置決定部307で決定されたクエリセグメント位置の特徴を示す学習データを生成し、その学習データに基づいてパターン認識部309に学習を行うことを要求する(ステップS108)。
図7は「まんが□立ち読み」の学習データの例を示しており、窓幅を「3」とした例である。すなわち、学習データの各行は、「評価値:文字列特徴」という形式をとっている。「1-gram」「2-gram」「3-gram」はN-gramのタイプを表わすとともに、評価値として例えば「1」を示している。「Qcount」は検索クエリの検索回数(頻度)を示し、「Wcount」はWeb検索のヒット件数を示している。「L_All/」はクエリセグメント位置より左の全文字列を示し、「R_All/」はクエリセグメント位置より右の全文字列を示している。「I*/」は注目しているクエリセグメント位置を跨いでる文字列を示している。
次いで、図5(a)に戻り、処理を終了する(ステップS109)。
次に、上述した学習の行われたパターン認識部309を用いた実際の検索処理について説明する。
図5(b)において、処理を開始すると(ステップS111)、検索装置3の検索クエリ受付部310は、ユーザ端末2のブラウザ21からの検索要求時に検索クエリを受け付ける(ステップS112)。
次いで、検索装置3の検索クエリ修正部311は、検索クエリ受付部310の受け付けた検索クエリのクエリセグメント位置が適正か否かパターン認識部309によって、全ての文字列間を順番にクエリセグメント位置をずらすことで検索クエリを修正する(ステップS113)。予めクエリセグメント位置を変えた候補を作成し、いずれが適正かをパターン認識により判断するようにしてもよい。
図8は受け付けた検索クエリからクエリセグメント位置を修正する処理例を示したものであり、受け付けた検索クエリの特徴を示す「1-gram:〜」「2-gram:〜」「3-gram:〜」を各文字列間毎にクエリセグメント位置をずらしながら生成し、パターン認識部309に入力する。この場合のクエリセグメント位置は適正でない箇所があるため、適正でない箇所でパターン認識の結果は不適正となる。そして、パターン認識の結果が適正を示す位置にクエリセグメント位置を決定し、検索クエリを修正する。
次いで、図5(b)に戻り、検索装置3の検索部312は修正後(適正であるため修正されない場合もある)の検索クエリで検索DB315を検索し(ステップS114)、検索装置3の検索結果応答部313は、検索部312の検索結果を要求元のユーザ端末2のブラウザ21に返送する(ステップS115)。そして、処理を終了する(ステップS116)。
<第2の実施形態>
図9は本発明の第2の実施形態にかかるシステムの構成例を示す図である。前述した第1の実施形態ではバッチ処理によりクエリセグメント位置の学習を行い、学習結果に基づいて受け付けた検索クエリを修正する場合について説明したが、この第2の実施形態では、受け付けた検索クエリを逐次に修正するようにしている。
図9において、検索装置3は、検索クエリ受付部310とセパレータ削除部303とクエリ分割部304と検索部305と検索結果解析部306とクエリセグメント位置決定部307と検索クエリ修正部311と検索部312と検索結果応答部313と検索DB315とを備えている。図1とは各部の配置が若干異なっているが、同じ名称で同じ符号を付した機能部はほぼ同様の機能を有している。
図10は第2の実施形態の処理例を示すフローチャートである。
図10において、処理を開始すると(ステップS201)、検索装置3の検索クエリ受付部310は、ユーザ端末2のブラウザ21からの検索要求時に検索クエリを受け付ける(ステップS202)。
次いで、検索装置3のセパレータ削除部303は、検索クエリ受付部310の受け付けた検索クエリからスペース等のセパレータを削除する(ステップS203)。
次いで、検索装置3のクエリ分割部304は、セパレータを削除した検索クエリを意味のある範囲で複数の文字列に分割する(ステップS204)。
次いで、検索装置3の検索部305は、クエリ分割部304で分割された検索クエリの個々の文字列に基づいて検索DB315を検索する(ステップS205)。
次いで、検索装置3の検索結果解析部306は、検索部305の検索で得られた検索結果を解析し、個々の文字列のヒット件数の他に、検索結果として得られた要約(スニペット)おいて、分割された複数の文字列のそれぞれが隣接する文字列と接続された状態でページ上に存在する連接共起数をカウントし、連接共起頻度を表わすスコアを算出する(ステップS206)。なお、検索結果解析部306で要約(スニペット)から連接共起数をカウントすることに代え、検索部305で隣接する文字列を接続した状態で検索DB315の検索を行ってもよい。
次いで、検索装置3のクエリセグメント位置決定部307は、検索結果解析部306の算出したスコアに基づいて適正なクエリセグメント位置を決定する(ステップS207)。
次いで、検索装置3の検索クエリ修正部311は、クエリセグメント位置決定部307で決定されたクエリセグメント位置に基づいて検索クエリを修正する(ステップS208)。
次いで、検索装置3の検索部312は、修正後(適正であるため修正されない場合もある)の検索クエリで検索DB315を検索し(ステップS209)、検索結果応答部313は、検索部312の検索結果を要求元のユーザ端末2のブラウザ21に返送する(ステップS210)。そして、処理を終了する(ステップS211)。
<総括>
以上説明したように、本実施形態によれば、ユーザにより入力された検索クエリのクエリセグメント位置を適正な位置に修正することで、検索精度を高めることができる。
以上、本発明の好適な実施の形態により本発明を説明した。ここでは特定の具体例を示して本発明を説明したが、特許請求の範囲に定義された本発明の広範な趣旨および範囲から逸脱することなく、これら具体例に様々な修正および変更を加えることができることは明らかである。すなわち、具体例の詳細および添付の図面により本発明が限定されるものと解釈してはならない。
1 ネットワーク
2 ユーザ端末
21 ブラウザ
3 検索装置
301 クエリセグメント位置学習部
302 検索ログ取得部
303 セパレータ削除部
304 クエリ分割部
305 検索部
306 検索結果解析部
307 クエリセグメント位置決定部
308 学習データ生成・学習要求部
309 パターン認識部
310 検索クエリ受付部
311 検索クエリ修正部
312 検索部
313 検索結果応答部
314 検索ログ
315 検索DB

Claims (10)

  1. 検索ログを取得する検索ログ取得手段と、
    取得した検索ログの検索クエリからセパレータを削除するセパレータ削除手段と、
    セパレータが削除された検索クエリを複数の文字列に分割するクエリ分割手段と、
    分割された文字列に基づいて検索データベースを検索する第1検索手段と、
    検索結果に基づいて、分割された一の文字列が隣接する文字列と連接共起する頻度をスコアとして算出する解析手段と、
    算出されたスコアに基づいてクエリセグメント位置を決定するクエリセグメント位置決定手段と
    を備えたことを特徴とするクエリセグメント位置決定装置。
  2. 請求項1に記載のクエリセグメント位置決定装置において、
    前記クエリ分割手段は、形態素解析により検索クエリを複数の文字列に分割する
    ことを特徴とするクエリセグメント位置決定装置。
  3. 請求項1に記載のクエリセグメント位置決定装置において、
    前記クエリ分割手段は、検索ログから最も分割数の多いパターンを選択することで検索クエリを複数の文字列に分割する
    ことを特徴とするクエリセグメント位置決定装置。
  4. 請求項1に記載のクエリセグメント位置決定装置において、
    前記クエリ分割手段は、検索ログから文字列の結合モデルを複数生成することで検索クエリを複数の文字列に分割する
    ことを特徴とするクエリセグメント位置決定装置。
  5. 検索ログを取得する検索ログ取得手段と、
    取得した検索ログの検索クエリからセパレータを削除するセパレータ削除手段と、
    セパレータが削除された検索クエリを複数の文字列に分割するクエリ分割手段と、
    分割された文字列に基づいて検索データベースを検索する第1検索手段と、
    検索結果に基づいて、分割された一の文字列が隣接する文字列と連接共起する頻度をスコアとして算出する解析手段と、
    算出されたスコアに基づいてクエリセグメント位置を決定するクエリセグメント位置決定手段と、
    決定されたクエリセグメント位置に基づいてパターン認識部の学習を行う学習手段と、
    ユーザから入力された検索クエリを前記パターン認識部によりクエリセグメント位置の適否を判断し、適正なクエリセグメント位置に修正を行うクエリ修正手段と、
    修正された検索クエリに基づいて前記検索データベースを検索する第2検索手段と
    を備えたことを特徴とする検索装置。
  6. ユーザから検索クエリを受け付ける受付手段と、
    受け付けた検索クエリからセパレータを削除するセパレータ削除手段と、
    セパレータが削除された検索クエリを複数の文字列に分割するクエリ分割手段と、
    分割された文字列に基づいて検索データベースを検索する第1検索手段と、
    検索結果に基づいて、分割された一の文字列が隣接する文字列と連接共起する頻度をスコアとして算出する解析手段と、
    算出されたスコアに基づいてクエリセグメント位置を決定するクエリセグメント位置決定手段と、
    決定されたクエリセグメント位置決定手段に基づいて検索クエリを修正するクエリ修正手段と、
    修正された検索クエリに基づいて前記検索データベースを検索する第2検索手段と
    を備えたことを特徴とする検索装置。
  7. 検索装置の制御部が、検索ログを取得する検索ログ取得工程と、
    前記制御部が、取得した検索ログの検索クエリからセパレータを削除するセパレータ削除工程と、
    前記制御部が、セパレータが削除された検索クエリを複数の文字列に分割するクエリ分割工程と、
    前記制御部が、分割された文字列に基づいて検索データベースを検索する第1検索工程と、
    前記制御部が、検索結果に基づいて、分割された一の文字列が隣接する文字列と連接共起する頻度をスコアとして算出する解析工程と、
    前記制御部が、算出されたスコアに基づいてクエリセグメント位置を決定するクエリセグメント位置決定工程と、
    前記制御部が、決定されたクエリセグメント位置に基づいてパターン認識部の学習を行う学習工程と、
    前記制御部が、ユーザから入力された検索クエリを前記パターン認識部によりクエリセグメント位置の適否を判断し、適正なクエリセグメント位置に修正を行うクエリ修正工程と、
    前記制御部が、修正された検索クエリに基づいて前記検索データベースを検索する第2検索工程と
    を備えたことを特徴とする検索制御方法。
  8. 検索装置の制御部が、ユーザから検索クエリを受け付ける受付工程と、
    前記制御部が、受け付けた検索クエリからセパレータを削除するセパレータ削除工程と、
    前記制御部が、セパレータが削除された検索クエリを複数の文字列に分割するクエリ分割工程と、
    前記制御部が、分割された文字列に基づいて検索データベースを検索する第1検索工程と、
    前記制御部が、検索結果に基づいて、分割された一の文字列が隣接する文字列と連接共起する頻度をスコアとして算出する解析工程と、
    前記制御部が、算出されたスコアに基づいてクエリセグメント位置を決定するクエリセグメント位置決定工程と、
    前記制御部が、決定されたクエリセグメント位置決定手段に基づいて検索クエリを修正するクエリ修正工程と、
    前記制御部が、修正された検索クエリに基づいて前記検索データベースを検索する第2検索工程と
    を備えたことを特徴とする検索制御方法。
  9. 検索装置を構成するコンピュータを、
    検索ログを取得する検索ログ取得手段、
    取得した検索ログの検索クエリからセパレータを削除するセパレータ削除手段、
    セパレータが削除された検索クエリを複数の文字列に分割するクエリ分割手段、
    分割された文字列に基づいて検索データベースを検索する第1検索手段、
    検索結果に基づいて、分割された一の文字列が隣接する文字列と連接共起する頻度をスコアとして算出する解析手段、
    算出されたスコアに基づいてクエリセグメント位置を決定するクエリセグメント位置決定手段、
    決定されたクエリセグメント位置に基づいてパターン認識部の学習を行う学習手段、
    ユーザから入力された検索クエリを前記パターン認識部によりクエリセグメント位置の適否を判断し、適正なクエリセグメント位置に修正を行うクエリ修正手段、
    修正された検索クエリに基づいて前記検索データベースを検索する第2検索手段
    として機能させる検索制御プログラム。
  10. 検索装置を構成するコンピュータを、
    ユーザから検索クエリを受け付ける受付手段、
    受け付けた検索クエリからセパレータを削除するセパレータ削除手段、
    セパレータが削除された検索クエリを複数の文字列に分割するクエリ分割手段、
    分割された文字列に基づいて検索データベースを検索する第1検索手段、
    検索結果に基づいて、分割された一の文字列が隣接する文字列と連接共起する頻度をスコアとして算出する解析手段、
    算出されたスコアに基づいてクエリセグメント位置を決定するクエリセグメント位置決定手段、
    決定されたクエリセグメント位置決定手段に基づいて検索クエリを修正するクエリ修正手段、
    修正された検索クエリに基づいて前記検索データベースを検索する第2検索手段
    として機能させる検索制御プログラム。
JP2010292481A 2010-12-28 2010-12-28 クエリセグメント位置決定装置 Active JP5179564B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010292481A JP5179564B2 (ja) 2010-12-28 2010-12-28 クエリセグメント位置決定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010292481A JP5179564B2 (ja) 2010-12-28 2010-12-28 クエリセグメント位置決定装置

Publications (2)

Publication Number Publication Date
JP2012141681A JP2012141681A (ja) 2012-07-26
JP5179564B2 true JP5179564B2 (ja) 2013-04-10

Family

ID=46677941

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010292481A Active JP5179564B2 (ja) 2010-12-28 2010-12-28 クエリセグメント位置決定装置

Country Status (1)

Country Link
JP (1) JP5179564B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6571053B2 (ja) * 2016-08-15 2019-09-04 株式会社トヨタマップマスター 施設検索装置、施設検索方法、コンピュータプログラム及びコンピュータプログラムを記録した記録媒体
JP6577925B2 (ja) * 2016-09-20 2019-09-18 株式会社トヨタマップマスター 施設検索装置、施設検索方法、コンピュータプログラム及びコンピュータプログラムを記録した記録媒体
JP6813776B2 (ja) * 2016-10-27 2021-01-13 キヤノンマーケティングジャパン株式会社 情報処理装置、その制御方法及びプログラム
JP7258988B2 (ja) * 2019-02-08 2023-04-17 ヤフー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003005776A (ja) * 2001-06-21 2003-01-08 Nec Corp 音声合成装置
JP2006079454A (ja) * 2004-09-10 2006-03-23 Fujitsu Ltd 検索キーワード分析方法、検索キーワード分析プログラムおよび検索キーワード分析装置
JP5041802B2 (ja) * 2006-12-26 2012-10-03 ヤフー株式会社 クエリ分析サーバ、評価観点語データベース及び語句データベース生成方法
JP5314493B2 (ja) * 2009-05-15 2013-10-16 日本電信電話株式会社 情報検索方法、情報検索装置、情報検索プログラム

Also Published As

Publication number Publication date
JP2012141681A (ja) 2012-07-26

Similar Documents

Publication Publication Date Title
EP2798540B1 (en) Extracting search-focused key n-grams and/or phrases for relevance rankings in searches
US7769771B2 (en) Searching a document using relevance feedback
JP4961043B2 (ja) 関連性に基づくユーザー・ブラウザー履歴のソーティング
US8713024B2 (en) Efficient forward ranking in a search engine
CA2638558C (en) Topic word generation method and system
US8332208B2 (en) Information processing apparatus, information processing method, and program
KR20100047221A (ko) 사전 단어 및 어구 판정
JP2009525520A (ja) 検索結果リストにおける電子文書を関連性に基づきランク付けおよびソートする評価方法、およびデータベース検索エンジン
KR20070092755A (ko) 로컬 항목 추출
JP5179564B2 (ja) クエリセグメント位置決定装置
CN105550217B (zh) 场景音乐搜索方法及场景音乐搜索装置
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
JP2010123036A (ja) 文書検索装置、文書検索方法、および文書検索プログラム
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP5364529B2 (ja) 辞書登録装置、文書ラベル判定システムおよび辞書登録プログラム
JP2012104051A (ja) 文書インデックス作成装置
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
JP5332128B2 (ja) 情報検索装置、情報検索方法およびそのプログラム
JP6173958B2 (ja) 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法
JP4959032B1 (ja) ウェブページ解析装置およびウェブページ解析用プログラム
JP4426893B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JP2010282403A (ja) 文書検索方法
US8005845B2 (en) System and method for automatically ranking lines of text
JP5199168B2 (ja) 検索装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130109

R150 Certificate of patent or registration of utility model

Ref document number: 5179564

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250