[go: up one dir, main page]

JP6034674B2 - 検索情報難読化装置、検索情報難読化方法、およびプログラム - Google Patents

検索情報難読化装置、検索情報難読化方法、およびプログラム Download PDF

Info

Publication number
JP6034674B2
JP6034674B2 JP2012258906A JP2012258906A JP6034674B2 JP 6034674 B2 JP6034674 B2 JP 6034674B2 JP 2012258906 A JP2012258906 A JP 2012258906A JP 2012258906 A JP2012258906 A JP 2012258906A JP 6034674 B2 JP6034674 B2 JP 6034674B2
Authority
JP
Japan
Prior art keywords
search
phrase
search information
obfuscation
obfuscated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012258906A
Other languages
English (en)
Other versions
JP2014106723A (ja
Inventor
亮博 小林
亮博 小林
啓一郎 帆足
啓一郎 帆足
服部 元
元 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2012258906A priority Critical patent/JP6034674B2/ja
Publication of JP2014106723A publication Critical patent/JP2014106723A/ja
Application granted granted Critical
Publication of JP6034674B2 publication Critical patent/JP6034674B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、インターネット上の検索における検索情報を難読化する検索情報難読化装置、検索情報難読化方法、およびプログラムに関する。
近年、ユーザはインターネット上の検索システムを用いて様々な情報収集を行なっている。ユーザがインターネット上の検索エンジンを用いる場合、検索クエリにキーワード等(以下、検索キーワードという)を入力して検索エンジンに問い合わせを行なっている。この検索キーワードは、ユーザが何を欲しているかを表し、情報価値は極めて高い。そのため、検索キーワードの統計情報を取ることにより、ユーザの趣味や嗜好を調べてマーケティングに活用する検索エンジンも存在している(例えば、非特許文献1参照)。
一方で、趣味や嗜好を他人に知られることをプライバシーの侵害と考えるユーザや、企業の研究機関のように現在どういった事柄に着目していてどんな内容を中心に情報収集しているか知られたくないユーザは、例えマーケティング目的であっても検索キーワードを第三者に取得されたくない。
ここで、検索時に、検索キーワードが漏えいする経路としては2種類考えられる。ひとつは、ユーザが検索エンジンに検索キーワードを含む検索クエリを送信する間で盗聴されるケースであって、もうひとつは、検索エンジン内部にて検索キーワードが収集されるケースである。一つ目のケースに対しては、通信経路では検索クエリを暗号化することによって検索キーワードが漏えいすることを防ぐ手法がよく用いられる(例えば、非特許文献2参照)。非特許文献2で述べられている手法では、検索エンジンや検索用データベースがクラウドサービス等の外部にあった場合でもセキュアに検索を行うことができる。
しかしながら、この手法においても、検索エンジンから適切な検索結果を得るためには、暗号化された検索クエリは検索エンジンで復号される必要があり、検索エンジン内部にて検索キーワードが収集される二つ目のケースによる検索キーワードの漏えいを防ぐことはできないという問題点があった。
googleプライバシーポリシ「http://www.google.co.jp/intl/ja/policies/privacy/」[2012年11月15日検索] 数値を含むテキストの類似検索が可能なフィンガープリント技術:高杰,片山佳則,森川郁也,津田宏,情報処理学会研究報告.情報学基礎研究会報告2011−IFAT−104(2),1−7,2011−11−15
そこで、特開2009−198175号公報に記載されている、周囲の環境と同等の信号を出すことで、攻撃者からの観測を困難にする技術を利用して、一の検索ユーザが、多数の検索クエリを検索エンジンに送信する手法が考えられる。この手法では、どの検索クエリに含まれる検索キーワードが検索ユーザにとって重要な情報であるか、検索エンジン側で分析することを困難にし、二つ目のケースによる検索キーワードの漏えいを防ぐことができる。
しかしながら、多数の検索クエリを作成したり、多数の検索クエリを検索エンジンに送信したりするには、極めて大きな設備とコストが必要になると問題点があった。また、多数の検索クエリを送信するために、ユーザが必要な情報を取得するまでに時間を要するといった問題点もあった。
そこで、本発明は、上述の課題に鑑みてなされたものであり、検索情報の語句を他の語句に置き換えることや、検索情報の言語傾向を難読化する語句を検索情報と組み合わせることによって、難読化した検索情報で検索を行うことにより、セキュアなインターネット検索を実現する検索情報難読化装置、検索情報難読化方法、およびプログラムを提供することを目的とする。また、秘密情報の言語傾向を統計的に難読化することを目的とする。
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。
(1) 本発明は、インターネット検索に関する検索情報における言語傾向を、第三者から難読化する検索情報難読化装置(例えば、図1の検索情報難読化装置100に相当)であって、語句間の関連を示す辞書データを記憶する辞書記憶手段(例えば、図1の辞書記憶部120に相当)と、前記検索情報に含まれる検索語句に関連する関連検索語句を前記辞書記憶手段から難読化語句として取得する関連語句取得手段(例えば、図1の関連語句取得部111に相当)と、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれについて関連が低い低関連検索語句を前記辞書記憶手段から前記難読化語句として取得する低関連検索語句取得手段(例えば、図1の低関連検索語句取得部112に相当)と、前記関連語句取得手段および前記低関連検索語句取得手段で取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する難読検索情報生成手段(例えば、図1の難読検索情報生成部130に相当)と、を備えることを特徴とする検索情報難読化装置を提案している。
この発明によれば、辞書記憶手段は、語句間の関連を示す辞書データを記憶する。関連語句取得手段は、検索情報に含まれる検索語句に関連する関連検索語句を辞書記憶手段から難読化語句として取得する。低関連検索語句取得手段は、辞書記憶手段から取得した語句と関連する語句を辞書記憶手段から取得する処理を1回以上繰り返し、取得した語句群それぞれについて関連が低い低関連検索語句を辞書記憶手段から前記難読化語句として取得する。難読検索情報生成手段は、関連語句取得手段および低関連検索語句取得手段で取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する。したがって、検索情報に、検索情報と関連する関連語句および検索情報と階層状に関連する関連語句群ぞれぞれと関連の低い低関連検索語句を組み合わせて、検索情報の言語傾向と異なる言語傾向を持った難読検索情報を用いて検索することにより、第三者に検索情報を欺瞞することができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。
(2) 本発明は、(1)の検索情報難読化装置について、前記低関連検索語句取得手段が、前記検索情報に含まれる検索語句と関連が低い低関連検索語句を、前記辞書記憶手段から取得し、当該取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群を前記難読化語句として取得することを特徴とする検索情報難読化装置を提案している。
この発明によれば、低関連検索語句取得手段が、検索情報に含まれる検索語句と関連が低い低関連検索語句を、辞書記憶手段から取得し、取得した語句と関連する語句を辞書記憶手段から取得する処理を1回以上繰り返し、取得した語句群を難読化語句として取得する。したがって、検索情報に、検索語句と関連が低い低関連検索語句および低関連検索語句に階層状に関連する語句群を組み合わせることにより、第三者が難読検索情報を解析した際に、低関連検索語句と低関連検索語句に階層状に関連する語句群とから得られる言語傾向を抽出させて、本当の検索情報の言語傾向を抽出させなくすることができる。その結果、第三者に検索情報がより漏えいしにくい、よりセキュアなインターネット検索を実現することができる。
(3) 本発明は、(1)または(2)の検索情報難読化装置について、前記難読化語句取得手段が、前記検索情報に含まれる前記インターネット検索の主体を特定する検索主体情報と関連がある検索主体関連語句を、前記辞書記憶手段から前記難読化語句として取得する検索主体関連語句取得手段(例えば、図1の検索主体関連語句取得部113に相当)を備え、前記難読検索情報生成手段が、前記検索主体関連語句取得手段で取得した前記難読化語句を、前記検索情報に組み合わせて難読検索情報を生成することを特徴とする検索情報難読化装置を提案している。
この発明によれば、検索主体関連語句取得手段は、検索情報に含まれるインターネット検索の主体を特定する検索主体情報と関連がある検索主体関連語句を、辞書記憶手段から難読化語句として取得する。難読検索情報生成手段が、検索主体関連語句取得手段で取得した難読化語句を、検索情報に組み合わせて難読検索情報を生成する。したがって、検索情報に検索主体と関連がある検索主体関連語句を組み合わせることにより、検索情報の言語傾向と異なる言語傾向を持った難読検索情報によって検索を行うことができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。
(4) 本発明は、(3)の検索情報難読化装置について、前記検索情報に含まれる前記検索主体情報と関連が低い低関連検索主体語句を、前記辞書記憶手段から前記難読化語句として取得する低関連検索主体語句取得手段(例えば、図1の低関連検索主体語句取得部114に相当)を備え、前記難読検索情報生成手段が、前記低関連検索主体語句取得手段で取得した前記難読化語句を、前記検索情報に組み合わせて難読検索情報を生成することを特徴とする検索情報難読化装置を提案している。
この発明によれば、低関連検索主体語句取得手段は、検索情報に含まれる検索主体情報と関連が低い低関連検索主体語句を、辞書記憶手段から難読化語句として取得する。難読検索情報生成手段が、低関連検索主体語句取得手段で取得した難読化語句を、検索情報に組み合わせて難読検索情報を生成する。したがって、検索情報に検索主体と関連が低い低関連検索主体語句を組み合わせることにより、検索情報の言語傾向と異なる言語傾向を持った難読検索情報によって検索を行うことができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。
(5) 本発明は(4)の検索情報難読化装置について、前記低関連検索主体語句取得手段が、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれと関連する低関連検索主体語句を前記辞書記憶手段から前記難読化語句として取得することを特徴とする検索情報難読化装置を提案している。
この発明によれば、低関連検索主体語句取得手段は、辞書記憶手段から取得した語句と関連する語句を辞書記憶手段から取得する処理を1回以上繰り返し、取得した語句群それぞれと関連する低関連検索主体語句を辞書記憶手段から難読化語句として取得する。したがって、検索情報に検索主体と関連が低い低関連検索主体語句および低関連検索語句に階層状に関連する語句群を組み合わせることにより、第三者が難読検索情報を解析した際に、低関連検索語句に階層状に関連する語句群とから得られる言語傾向を抽出させて、本当の検索情報の言語傾向を抽出させなくすることができる。その結果、第三者に検索情報がより漏えいしにくい、よりセキュアなインターネット検索を実現することができる。
(6) 本発明は、(1)から(5)の検索情報難読化装置について、前記難読検索情報による前記インターネット検索により取得されたコンテンツを、当該難読検索情報に対応する当該検索情報と対応付けて記憶する検索コンテンツ記憶手段(例えば、図3の検索コンテンツ記憶部150に相当)と、前記検索コンテンツ記憶手段に記憶されているコンテンツと当該コンテンツに対応付けられている前記検索情報とに基づいて、当該検索情報に含まれる検索語句の出現頻度に基づいて、前記難読検索情報に含める難読化語句数を決定する難読化語句数決定手段(例えば、図3の難読化語句数決定部160に相当)と、を備え、前記難読検索情報生成手段が、前記難読化語句数決定手段で決定された難読化語句数に基づいて、前記難読化語句から前記難読検索情報に含める前記難読化語句を選択することを特徴とする検索情報難読化装置を提案している。
この発明によれば、検索コンテンツ記憶手段は、難読検索情報によるインターネット検索により取得されたコンテンツを、難読検索情報に対応する検索情報と対応付けて記憶する。難読化語句数決定手段は、検索コンテンツ記憶手段に記憶されているコンテンツとコンテンツに対応付けられている検索情報とに基づいて、検索情報に含まれる検索語句の出現頻度に基づいて、難読検索情報に含める難読化語句数を決定する。難読検索情報生成手段は、難読化語句数決定手段で決定された難読化語句数に基づいて、難読化語句から難読検索情報に含める難読化語句を選択する。したがって、検索結果のコンテンツに含まれる検索情報の出現頻度に応じて、検索に用いる難読検索情報に含める難読化語句数を決定することによって、検索情報の言語傾向を統計的に難読化することができる。その結果、検索情報の漏えいしにくさ、すなわち、検索情報の機密性の度合を任意に設定することができる。
(7) 本発明は、インターネット検索に関する検索情報の言語傾向を、第三者から難読化する検索情報難読化装置における検索情報難読化方法であって、前記検索情報難読化装置が、語句間の関連を示す辞書データを記憶する辞書記憶手段、関連語句取得手段、低関連検索語句取得手段、および難読検索情報生成手段を備え、前記関連語句取得手段が、前記検索情報に含まれる検索語句に関連する関連検索語句を前記辞書記憶手段から難読化語句として取得する第1のステップ(例えば、図2のステップS1に相当)と、前記低関連検索語句取得手段が、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれについて関連が低い低関連検索語句を前記辞書記憶手段から前記難読化語句として取得する第2のステップ(例えば、図2のステップS2に相当)と、前記難読検索情報生成手段が、前記第1のステップおよび前記第2のステップで取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する第3のステップ(例えば、図2のステップS2に相当)と、を含むことを特徴とする検索情報難読化方法を提案している。
この発明によれば、まず、第1のステップにおいて、関連語句取得手段が、検索情報に含まれる検索語句に関連する関連検索語句を辞書記憶手段から難読化語句として取得する。次に、第2のステップにおいて、低関連検索語句取得手段が、辞書記憶手段から取得した語句と関連する語句を辞書記憶手段から取得する処理を1回以上繰り返し、取得した語句群それぞれについて関連が低い低関連検索語句を辞書記憶手段から難読化語句として取得する次に、第3のステップにおいて、難読検索情報生成手段が、第1のステップおよび第2のステップで取得した難読化語句と検索情報とに基づいて、難読検索情報を生成する。したがって、検索情報に、検索情報と関連する関連語句および検索情報と階層状に関連する関連語句群ぞれぞれと関連の低い低関連検索語句を組み合わせて、検索情報の言語傾向と異なる言語傾向を持った難読検索情報を用いて検索することにより、第三者に検索情報を欺瞞することができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。
(8) 本発明は、インターネット検索に関する検索情報の言語傾向を、第三者から難読化する検索情報難読化装置における検索情報難読化方法をコンピュータに実行させるためのプログラムであって、前記検索情報難読化装置が、語句間の関連を示す辞書データを記憶する辞書記憶手段、関連語句取得手段、低関連検索語句取得手段、および難読検索情報生成手段を備え、前記関連語句取得手段が、前記検索情報に含まれる検索語句に関連する関連検索語句を前記辞書記憶手段から難読化語句として取得する第1のステップ(例えば、図2のステップS1に相当)と、前記低関連検索語句取得手段が、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれについて関連が低い低関連検索語句を前記辞書記憶手段から前記難読化語句として取得する第2のステップ(例えば、図2のステップS2に相当)と、前記難読検索情報生成手段が、前記第1のステップおよび前記第2のステップで取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する第3のステップ(例えば、図2のステップS2に相当)と、をコンピュータに実行させるためのプログラムを提案している。
この発明によれば、まず、第1のステップにおいて、関連語句取得手段が、検索情報に含まれる検索語句に関連する関連検索語句を辞書記憶手段から難読化語句として取得する。次に、第2のステップにおいて、低関連検索語句取得手段が、辞書記憶手段から取得した語句と関連する語句を辞書記憶手段から取得する処理を1回以上繰り返し、取得した語句群それぞれについて関連が低い低関連検索語句を辞書記憶手段から難読化語句として取得する次に、第3のステップにおいて、難読検索情報生成手段が、第1のステップおよび第2のステップで取得した難読化語句と検索情報とに基づいて、難読検索情報を生成する。したがって、検索情報に、検索情報と関連する関連語句および検索情報と階層状に関連する関連語句群ぞれぞれと関連の低い低関連検索語句を組み合わせて、検索情報の言語傾向と異なる言語傾向を持った難読検索情報を用いて検索することにより、第三者に検索情報を欺瞞することができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。
本発明によれば、検索情報の語句を他の語句に置き換えることや、検索情報の言語傾向を難読化する語句を検索情報と組み合わせることによって、難読化した検索情報で検索を行うことにより、セキュアなインターネット検索を実現することができる。また、秘密情報の言語傾向を統計的に難読化することができる。
本発明の第1の実施形態における検索情報難読化装置の機能構成を示す図である。 本発明の第1の実施形態における検索情報難読化装置における検索情報難読化処理のフロー図である。 本発明の第2の実施形態における検索情報難読化装置の機能構成を示す図である。 本発明の第3の実施形態における検索情報難読化装置の機能構成を示す図である。
以下、図面を用いて、本発明の実施形態について詳細に説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。
<第1の実施形態>
<検索情報難読化装置>
図1は、本発明の第1の実施形態における検索情報難読化装置100の機能構成を示す図である。検索情報難読化装置100は、検索情報が第三者に漏えいすることを防ぐために、検索エンジンに送信する検索クエリに含める検索情報の言語傾向を難読化する装置である。ここで、検索情報とは、1以上の検索キーワード、および検索を行ったユーザ(以下、検索ユーザ)の情報から構成されている情報である。図1に示すように、検索情報難読化装置100は、難読化語句取得部110、辞書記憶部120、難読検索情報生成部130、検索部140から構成される。
なお、本実施形態において、検索情報難読化装置100に検索部140が備えられているが、検索情報難読化装置100は検索部140を備えなくてもよい。この場合、検索情報難読化装置100は、他の端末から検索クエリに含まれる検索情報を取得し、取得した検索情報の言語傾向を難読化し、言語傾向を難読化した検索情報を他の端末に返す。
辞書記憶部120は、語句間の関連が定義された辞書データを記憶する。具体的には、辞書記憶部120は、関連する語句が互いに対応付けられて、関連する語句間の関連関係が定義された辞書データが記憶されている。ここで、関連関係とは、類義関係、同義関係、上下関係、包含関係、共起関係、連想関係等の関係である。例えば、関連辞書データには、シソーラス辞書データや共起語辞書データが挙げられる。また、辞書記憶部120は、関連が低い、または、関連がない語句が互いに対応付けられた辞書データを記憶してもよい。更に、辞書記憶部120の辞書データには、関連する語句間の関連度合が含まれてもよい。なお、辞書記憶部120の辞書データに含まれる語は日本語に限らず、英語等の外国語であってもよい。
難読化語句取得部110は、検索エンジンに送信する検索クエリに含まれる検索情報の言語傾向を難読化するために用いる語句を取得する。本実施形態において、検索情報の言語傾向を難読化するために用いる語句には、検索情報と関連する語句、検索ユーザと関連する語句、および、検索情報や検索ユーザとの関連が低い、または、関連がない語句を用いる。図1に示すように、難読化語句取得部110は、検索情報の言語傾向を難読化するために用いる各語句を取得する、関連語句取得部111、低関連検索語句取得部112、検索主体関連語句取得部113、および低関連検索主体語句取得部114から構成される。
関連語句取得部111は、検索情報に含まれる各検索キーワードと関連する語句を辞書記憶部120から取得する。例えば、検索キーワードが「太陽電池」の場合には、関連語句取得部111は、辞書記憶部120から、類義関係にある「光電池」、同義関係にある「ソーラーパネル」、共起関係にある「太陽光発電」等を取得する。また、関連語句取得部111は、関連する語句間の関係に基づいて、検索情報に含まれる各検索キーワードと関連する語句を辞書記憶部120から取得してもよい。例えば、関連語句取得部111は、共起関係にある語句のみや連想関係にある語句のみを取得対象とすることができる。なお、関連語句取得部111は、検索情報に含まれる各検索キーワードの情報と関連する語句を辞書記憶部120から全て取得してもよいし、予め設定した数取得してもよい。
辞書記憶部120の辞書データが関連する語句間の関連度合を含む場合には、関連語句取得部111は、関連度合に基づいて、検索情報に含まれる各検索キーワードと関連する語句を辞書記憶部120から取得する。例えば、関連語句取得部111は、検索情報に含まれる各検索キーワードとの関連度合が所定値以上の語句を、検索情報に含まれる各検索キーワードと関連する語句として辞書記憶部120から取得する。
低関連検索語句取得部112は、検索情報に含まれる各検索キーワードと関連が低い、または、関連がない語句(以下、低関連検索語句という)を辞書記憶部120から取得する。具体的には、低関連検索語句取得部112は、まず、検索情報に含まれる各検索キーワードと関連する語句を辞書記憶部120から取得する。次に、低関連検索語句取得部112は、辞書記憶部120から取得した語句と関連する語句を辞書記憶部120から取得する処理を所定回数繰り返し、検索情報に含まれる各検索キーワードを基点として関連する語句群を取得する。なお、辞書記憶部120から取得した語句と関連する語句を辞書記憶部120から取得する処理を繰り返す所定回数は0回であってもよい。
そして、低関連検索語句取得部112は、辞書記憶部120において、検索情報に含まれる各検索キーワードを基点とする関連する語句群を除いた語句から、低関連検索語句を取得する。取得方法については、例えば、取得された順に予め設定された所定数分取得してもよいし、乱数等を用いてランダムに所定数分取得してもよい。低関連検索語句取得部112が、辞書記憶部120から取得した語句と関連する語句を辞書記憶部120から取得する処理を所定回数繰り返すことにより、検索情報に含まれる各検索キーワードとの関連がより低い語句を低関連検索語句として取得することができるようになる。
辞書記憶部120が、関連が低い、または、関連がない語句が互いに対応付けられた辞書データを記憶している場合には、この辞書データから検索情報に含まれる各検索キーワードと関連が低い、または、関連がない語句を辞書記憶部120から取得する。また、辞書記憶部120の辞書データに関連する語句間の関連度合が含まれる場合には、低関連検索語句取得部112は、関連度合が低い語句を低関連検索語句として辞書記憶部120から取得する。例えば、関連度合が所定値以下の語句を低関連検索語句として取得したり、関連度合が低い順に所定数の語句を低関連検索語句として取得したりする。
また、低関連検索語句取得部112は、取得した低関連検索語句に関連する第二の低関連検索語句や、第二の低関連検索語句に関連する第三の低関連検索語句等、低関連検索語句を基点として関連する語句を低関連検索語句として辞書記憶部120から取得してもよい。低関連検索語句を基点として関連する語句も含む低関連検索語句を難読検索情報の生成に用いることにより、第三者が難読検索情報を解析した際に、低関連検索語句と低関連検索語句を基点として関連する語句とから得られる言語傾向を抽出させて、本当の検索情報の言語傾向を抽出させなくすることにより、第三者に検索情報がより漏えいしにくくなる。なお、低関連検索語句を基点として関連する語句のみを低関連検索語句としてもよい。
検索主体関連語句取得部113は、検索情報に含まれる検索ユーザの情報と関連する語句を辞書記憶部120から取得する。ここで、検索ユーザの情報とは、検索ユーザの属性情報であって、例えば、検索ユーザが所属する会社名や学校名、検索ユーザの業種等である。例えば、検索ユーザが所属する会社名が「KDDI株式会社」である場合に、共起関係にある「au」や「LISMO!」等を辞書記憶部120から取得する。検索主体関連語句取得部113は、検索情報に含まれる検索ユーザの情報と関連する語句を辞書記憶部120から全て取得してもよいし、予め設定した数取得してもよい。
検索主体関連語句取得部113は、関連語句取得部111と同様に、関連する語句間の関係に基づいて、検索情報に含まれる各検索キーワードと関連する語句を辞書記憶部120から取得してもよい。また、辞書記憶部120が関連する語句間の関連度合を併せて記憶している場合には、検索主体関連語句取得部113は、関連語句取得部111と同様に、関連度合に基づいて、検索情報に含まれる各検索キーワードと関連する語句を辞書記憶部120から取得することもできる。
低関連検索主体語句取得部114は、検索情報に含まれる検索ユーザの情報と関連が低い、または、関連がない語句を辞書記憶部120から取得する。低関連検索主体語句取得部114の具体的な処理は、低関連検索語句取得部112と同様であって、検索情報に含まれる検索ユーザの情報を基点として関連する語句群を取得し、辞書記憶部120において、検索情報に含まれる検索ユーザの情報を基点として関連する語句群を除いた語句から、低関連検索主体語句を取得する。
辞書記憶部120が、関連が低い、または、関連がない語句が互いに対応付けられた辞書データを記憶している場合も低関連検索語句取得部112と同様であって、低関連検索主体語句取得部114は、この辞書データから検索情報に含まれる検索ユーザの情報と関連が低い、または、関連がない語句を辞書記憶部120から取得する。また、辞書記憶部120の辞書データに関連する語句間の関連度合が含まれる場合も低関連検索語句取得部112と同様であって、低関連検索主体語句取得部114は、検索情報に含まれる検索ユーザの情報と関連度合が低い語句を低関連検索語句として辞書記憶部120から取得する。
また、低関連検索主体語句取得部114は、取得した低関連検索主体語句に関連する第二の低関連検索主体語句や第二の低関連検索主体語句に関連する第三の低関連検索主体語句等、低関連検索主体語句を基点として関連する語句を低関連主体語句として辞書記憶部120から取得してもよい。
低関連検索主体語句を基点として関連する語句も含む低関連検索主体語句を難読検索情報の生成に用いることにより、第三者が難読検索情報を解析した際に、低関連検索主体語句と低関連検索主体語句を基点として関連する語句とから得られる言語傾向を抽出させて、本当の検索情報の言語傾向を抽出させなくすることにより、第三者に検索情報がより漏えいしにくくなる。なお、低関連検索主体語句を基点として関連する語句のみを低関連検索主体語句としてもよい。
難読検索情報生成部130は、難読化語句取得部110で取得した難読化語句と検索情報とに基づいて、難読検索情報を生成する。なお、難読化語句には、検索キーワードと関連する語句、検索キーワードと関連が低いまたは関連がない語句、検索ユーザと関連する語句、および検索ユーザと関連が低いまたは関連がない語句の少なくとも一つが含まれる。
具体的には、難読検索情報生成部130は、関連語句取得部111で検索キーワードと関連する語句を難読化語句として取得した場合は、各検索キーワードを難読化語句、すなわち、各検索キーワードと関連する語句に置き換えることにより、難読検索情報を生成する。各検索キーワードと関連する語句に置き換えることにより検索情報の言語傾向をずらした結果、難読検索情報の言語傾向は検索情報の言語傾向とは異なり、第三者に検索情報を欺瞞することができる。
難読検索情報生成部130は、低関連検索語句取得部112で検索キーワードと関連が低い、または、関連がない語句を難読化語句として取得した場合は、検索キーワードと難読化語句とを組み合わせて難読検索情報を生成する。検索キーワードと関連が低い、または、関連がない語句である難読化語句により検索情報の言語傾向を変えた結果、難読検索情報の言語傾向は検索情報の言語傾向とは異なり、第三者に検索情報を欺瞞することができる。
難読検索情報生成部130は、検索主体関連語句取得部113で検索ユーザと関連する語句を難読化語句として取得した場合は、検索キーワードと難読化語句とを組み合わせて難読検索情報を生成する。検索キーワードと関係のない語句である難読化語句により検索情報の言語傾向を変えた結果、難読検索情報の言語傾向は検索情報の言語傾向とは異なり、第三者に検索情報を欺瞞することができる。なお、検索ユーザが自身に関連する語に興味を持っていることは自然であるため、難読化語句として検索ユーザの情報と関連する語句とすることは適切である。また、検索情報が漏洩した場合には、情報漏えい発見の精度を上げる意味でも有効である。
難読検索情報生成部130は、低関連検索主体語句取得部114で検索ユーザと関連が低い、または関連がない語句を難読化語句として取得した場合には、検索キーワードと難読化語句とを組み合わせて難読検索情報を生成する。検索キーワードと関係が低い、または関連がない語句である難読化語句により検索情報の言語傾向を変えた結果、難読検索情報の言語傾向は検索情報の言語傾向とは異なり、第三者に検索情報を欺瞞することができる。
なお、検索ユーザと関連する語句を難読化語句とした場合には、検索ユーザに関連する語は検索情報を難読化するための語句と判断されて、検索ユーザと関連する語句を除いて統計解析が行われる可能性がある。しかし、検索ユーザと関連が低い、または関連がない語句の場合は、その語句に検索ユーザが興味を持っているのか検索情報を難読化するための語句なのか判断ができないためので、第三者に検索情報がより漏えいしにくくなる。
検索部140は、難読検索情報生成部130で生成した難読検索情報を含む検索クエリを検索エンジンに送信し、検索結果を取得する。
図2は、本発明の第1の実施形態に係る検索情報難読化装置における検索情報難読化方法の処理フローを示す図である。検索クエリに含まれる検索情報取得すると処理が開始する。
まず、ステップS1において、難読化語句取得部110は、検索情報に含まれる検索キーワードおよび検索ユーザの情報の少なくとも一つに基づいて、難読化語句を辞書記憶部120から取得する。
次に、ステップS2において、難読検索情報生成部130は、ステップS1で取得した難読化語句と検索情報とに基づいて、難読検索情報を生成する。
以上説明したように、本実施形態によれば、検索情報の言語傾向と異なる言語傾向を持った難読検索情報を用いて検索することにより、第三者に検索情報を欺瞞することができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。
<第2の実施形態>
図3を用いて、本発明の第2の実施形態について説明する。なお、本実施形態における検索情報難読化装置は、検索情報の言語傾向を統計的に難読化することができる。なお、第1の実施形態と同一の符号を付す構成要素については、同一の機能を有することから、その詳細な説明は省略する。
<検索情報難読化装置>
図3は、本発明の第2の実施形態における検索情報難読化装置101の機能構成を示す図である。検索情報難読化装置101は、検索情報が第三者に漏えいすることを防ぐために、検索エンジンに送信する検索クエリに含める検索情報の言語傾向を難読化する装置である。ここで、検索情報とは、1以上の検索キーワード、および検索を行ったユーザ(以下、検索ユーザ)の情報から構成されている情報である。図1に示すように、検索情報難読化装置101は、難読化語句取得部110、辞書記憶部120、難読検索情報生成部130、検索部140、検索コンテンツ記憶部150、および難読化語句数決定部160から構成される。
なお、本実施形態において、検索情報難読化装置101に検索部140が備えられているが、検索情報難読化装置101は検索部140を備えなくてもよい。この場合、検索情報難読化装置101は、他の端末から検索クエリに含まれる検索情報を取得し、取得した検索情報の言語傾向を難読化し、言語傾向を難読化した検索情報を他の端末に返す。
検索コンテンツ記憶部150は、検索部140で取得した検索結果のコンテンツを記憶する。具体的には、検索コンテンツ記憶部150は、検索情報、難読検索情報、および難読検索情報にて検索部140で取得した検索結果のコンテンツを対応付けて記憶する。
難読化語句数決定部160は、まず、検索コンテンツ記憶部150に記憶されている検索情報と、検索情報に対応付けられているコンテンツとに基づいて、コンテンツにおける、検索情報の出現頻度を算出する。検索情報の出現頻度とは、検索情報を構成する各検索キーワードの出現頻度の和として求めることができる。各検索キーワードの出現頻度は、以下の(1)式により算出する。なお、難読化語句数決定部160は、検索コンテンツ記憶部150に記憶されている検索情報毎に、検索情報の出現頻度を算出する。
Figure 0006034674
・・・(1)
次に、難読化語句数決定部160は、検索コンテンツ記憶部150に記憶されている検索情報と難読検索情報とから、各検索情報に含まれる難読化語句数を取得する。次に、難読化語句数決定部160は、検索情報毎に算出した、検索情報の出現頻度と難読化語句数との関係に基づいて、難読化語句数を決定する。例えば、難読化語句数決定部160は、検索情報の出現頻度と難読化語句数との関係から、予め設定された出現頻度以下となる最も少ない難読化語句数を取得し、難読検索情報に含める難読化語句数として決定する。そして、難読化語句数決定部160は、決定した難読検索情報に含める難読化語句数を難読検索情報生成部130に送信する。
難読検索情報生成部130は、まず、難読化語句数決定部160から受信した、検索情報に含める難読化語句数の難読化語句を、難読化語句取得部110で取得した難読化語句の中から選択する。選択方法については、例えば、取得された順に難読化語句数分取得してもよいし、乱数等を用いてランダムに難読化語句数分取得してもよい。そして、難読検索情報生成部130は、選択した難読化語句と検索情報とに基づいて、難読検索情報を生成する。具体的な難読検索情報の生成方法については、第1の実施形態の難読検索情報生成部130と同様である。
以上説明したように、本実施形態によれば、検索結果のコンテンツに含まれる検索情報の出現頻度に応じて、検索に用いる難読検索情報に含める難読化語句数を決定することによって、検索情報の言語傾向を統計的に難読化することができる。その結果、検索情報の漏えいしにくさ、すなわち、検索情報の機密性の度合を任意に設定することができる。
<第3の実施形態>
図4を用いて、本発明の第3の実施形態について説明する。なお、本実施形態における検索情報難読化装置は、Web上でよく用いられる語句を用いて検索情報を難読化する。なお、第1の実施形態と同一の符号を付す構成要素については、同一の機能を有することから、その詳細な説明は省略する。
図4は、本発明の第3の実施形態における検索情報難読化装置102の機能構成を示す図である。検索情報難読化装置102は、検索情報が第三者に漏えいすることを防ぐために、検索エンジンに送信する検索クエリに含める検索情報の言語傾向を難読化する装置であって、ネットワークを介してWeb200と接続されている。ここで、検索情報とは、1以上の検索キーワード、および検索を行ったユーザ(以下、検索ユーザ)の情報から構成されている情報である。図1に示すように、検索情報難読化装置102は、難読化語句取得部170、難読検索情報生成部130、および検索部140から構成される。
難読化語句取得部170は、Web200上で使用されている語句のうち、Web200上において出現頻度が予め設定した所定値以上の語句を難読化語句として取得する。具体的には、Web200上のコンテンツにおける出現頻度が予め設定した所定値以上の語句を難読化語句として取得する。また、Web200上にある検索エンジンから取得した検索ログにおける出現頻度が予め設定した所定値以上の語句を難読化語句として取得する。
以上説明したように、本実施形態によれば、検索キーワードとの関連に関わらず、Web上でありふれている語句や、「検索流行語」といったWeb上で話題になっているために多くのユーザが検索するような語句を用いて、検索情報の言語傾向を難読化することにより、第三者に検索情報を欺瞞することができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。
なお、検索情報難読化装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを機器に読み込ませ、実行することによって本発明の検索情報難読化装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。更に、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
100 検索情報難読化装置
110 難読化語句取得部
111 関連語句取得部
112 低関連検索語句取得部
113 検索主体関連語句取得部
114 低関連検索主体語句取得部
120 辞書記憶部
130 難読検索情報生成部
140 検索部

Claims (8)

  1. インターネット検索に関する検索情報における言語傾向を、第三者から難読化する検索情報難読化装置であって、
    語句間の関連を示す辞書データを記憶する辞書記憶手段と、
    前記検索情報に含まれる検索語句に関連する関連検索語句を前記辞書記憶手段から難読化語句として取得する関連語句取得手段と、
    前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれについて関連が低い低関連検索語句を前記辞書記憶手段から前記難読化語句として取得する低関連検索語句取得手段と、
    前記関連語句取得手段および前記低関連検索語句取得手段で取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する難読検索情報生成手段と、
    を備えることを特徴とする検索情報難読化装置。
  2. 前記低関連検索語句取得手段が、前記検索情報に含まれる検索語句と関連が低い低関連検索語句を、前記辞書記憶手段から取得し、当該取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群を前記難読化語句として取得することを特徴とする請求項1に記載の検索情報難読化装置。
  3. 前記難読化語句取得手段が、前記検索情報に含まれる前記インターネット検索の主体を特定する検索主体情報と関連がある検索主体関連語句を、前記辞書記憶手段から前記難読化語句として取得する検索主体関連語句取得手段を備え、
    前記難読検索情報生成手段が、前記検索主体関連語句取得手段で取得した前記難読化語句を、前記検索情報に組み合わせて難読検索情報を生成することを特徴とする請求項1または請求項2に記載の検索情報難読化装置。
  4. 前記検索情報に含まれる前記検索主体情報と関連が低い低関連検索主体語句を、前記辞書記憶手段から前記難読化語句として取得する低関連検索主体語句取得手段を備え、
    前記難読検索情報生成手段が、前記低関連検索主体語句取得手段で取得した前記難読化語句を、前記検索情報に組み合わせて難読検索情報を生成することを特徴とする請求項3に記載の検索情報難読化装置。
  5. 前記低関連検索主体語句取得手段が、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれと関連する低関連検索主体語句を前記辞書記憶手段から前記難読化語句として取得することを特徴とする請求項4に記載の検索情報難読化装置。
  6. 前記難読検索情報による前記インターネット検索により取得されたコンテンツを、当該難読検索情報に対応する当該検索情報と対応付けて記憶する検索コンテンツ記憶手段と、
    前記検索コンテンツ記憶手段に記憶されているコンテンツと当該コンテンツに対応付けられている前記検索情報とに基づいて、当該検索情報に含まれる検索語句の出現頻度に基づいて、前記難読検索情報に含める難読化語句数を決定する難読化語句数決定手段と、
    備え、
    前記難読検索情報生成手段が、前記難読化語句数決定手段で決定された難読化語句数に基づいて、前記難読化語句から前記難読検索情報に含める前記難読化語句を選択することを特徴とする請求項1から請求項5のいずれかに記載の検索情報難読化装置。
  7. インターネット検索に関する検索情報の言語傾向を、第三者から難読化する検索情報難読化装置における検索情報難読化方法であって、
    前記検索情報難読化装置が、語句間の関連を示す辞書データを記憶する辞書記憶手段、関連語句取得手段、低関連検索語句取得手段、および難読検索情報生成手段を備え、
    前記関連語句取得手段が、前記検索情報に含まれる検索語句に関連する関連検索語句を前記辞書記憶手段から難読化語句として取得する第1のステップと、
    前記低関連検索語句取得手段が、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれについて関連が低い低関連検索語句を前記辞書記憶手段から前記難読化語句として取得する第2のステップと、
    前記難読検索情報生成手段が、前記第1のステップおよび前記第2のステップで取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する第3のステップと、
    を含むことを特徴とする検索情報難読化方法。
  8. インターネット検索に関する検索情報の言語傾向を、第三者から難読化する検索情報難読化装置における検索情報難読化方法をコンピュータに実行させるためのプログラムであって、
    前記検索情報難読化装置が、語句間の関連を示す辞書データを記憶する辞書記憶手段、関連語句取得手段、低関連検索語句取得手段、および難読検索情報生成手段を備え、
    前記関連語句取得手段が、前記検索情報に含まれる検索語句に関連する関連検索語句を前記辞書記憶手段から難読化語句として取得する第1のステップと、
    前記低関連検索語句取得手段が、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれについて関連が低い低関連検索語句を前記辞書記憶手段から前記難読化語句として取得する第2のステップと、
    前記難読検索情報生成手段が、前記第1のステップおよび前記第2のステップで取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する第3のステップと、
    をコンピュータに実行させるためのプログラム。
JP2012258906A 2012-11-27 2012-11-27 検索情報難読化装置、検索情報難読化方法、およびプログラム Active JP6034674B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012258906A JP6034674B2 (ja) 2012-11-27 2012-11-27 検索情報難読化装置、検索情報難読化方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012258906A JP6034674B2 (ja) 2012-11-27 2012-11-27 検索情報難読化装置、検索情報難読化方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2014106723A JP2014106723A (ja) 2014-06-09
JP6034674B2 true JP6034674B2 (ja) 2016-11-30

Family

ID=51028156

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012258906A Active JP6034674B2 (ja) 2012-11-27 2012-11-27 検索情報難読化装置、検索情報難読化方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP6034674B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7169628B2 (ja) * 2018-06-15 2022-11-11 大学共同利用機関法人情報・システム研究機構 情報検索システム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3581009B2 (ja) * 1998-03-12 2004-10-27 株式会社日立製作所 データ検索システム及びデータ検索方法
JP3827936B2 (ja) * 2000-10-18 2006-09-27 シャープ株式会社 情報提供制御装置、情報提供方法、情報提供プログラムを記録した記録媒体および情報提供システム
JP2004118262A (ja) * 2002-09-24 2004-04-15 Toshiba Corp 文書検索装置、文書検索方法及び文書検索プログラム
JP5306356B2 (ja) * 2008-08-26 2013-10-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 公開された検索エンジンを用いた検索装置、検索方法及び検索プログラム
JP5321258B2 (ja) * 2009-06-09 2013-10-23 日本電気株式会社 情報収集システムおよび情報収集方法ならびにそのプログラム
US8725762B2 (en) * 2009-07-28 2014-05-13 International Business Machines Corporation Preventing leakage of information over a network
EP2680251B1 (en) * 2011-02-22 2016-05-25 Mitsubishi Electric Corporation Search system, search method for search system, information processing device, search program, corresponding keyword management device and corresponding keyword management system

Also Published As

Publication number Publication date
JP2014106723A (ja) 2014-06-09

Similar Documents

Publication Publication Date Title
Fu et al. Enabling central keyword-based semantic extension search over encrypted outsourced data
US10013574B2 (en) Method and apparatus for secure storage and retrieval of encrypted files in public cloud-computing platforms
US9576005B2 (en) Search system
US11550833B2 (en) Architecture for semantic search over encrypted data in the cloud
EP2336908B1 (en) Search device, search method and search program using open search engine
Arampatzis et al. A query scrambler for search privacy on the internet
Henzinger et al. Private web search with Tiptoe
CN107704768A (zh) 一种密文的多关键字分级安全检索方法
Viejo et al. Profiling social networks to provide useful and privacy‐preserving web search
Chatterjee et al. Why does this entity matter? support passage retrieval for entity retrieval
Sasikumar et al. A survey of natural language question answering system
Wang et al. ReSLLM: Large language models are strong resource selectors for federated search
KR20200089893A (ko) 빅데이터 텍스트 마이닝과 블록체인 기술을 이용한 건강정보 저장 및 서칭 시스템
JP6034674B2 (ja) 検索情報難読化装置、検索情報難読化方法、およびプログラム
Faggioli et al. Query Obfuscation for Information Retrieval Through Differential Privacy
KR20130032660A (ko) 개인정보 유출 검색 시스템 및 방법
EP2775420A1 (en) Semantic search over encrypted data
JP2023518111A (ja) ボリューム漏洩が低減された、暗号化されたデータに対する暗号化されたサーチ
Grzebala et al. Private record linkage: Comparison of selected techniques for name matching
Nobili Review OSINT tool for social engineering
Chaudhari et al. An In-Depth Analysis on Efficiency and Vulnerabilities on a Cloud-Based Searchable Symmetric Encryption Solution
Sousa et al. Privacy in open search: A review of challenges and solutions
Fang et al. A novel storage and search scheme in cloud computing
Zhang Privacy-preserving Statistical Tools: Differential Privacy and Beyond
Yamamoto et al. A study on the information content leaked from queries to search engines and its reduction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160802

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161025

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161028

R150 Certificate of patent or registration of utility model

Ref document number: 6034674

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150