JP6034674B2 - Search information obfuscation device, search information obfuscation method, and program - Google Patents
Search information obfuscation device, search information obfuscation method, and program Download PDFInfo
- Publication number
- JP6034674B2 JP6034674B2 JP2012258906A JP2012258906A JP6034674B2 JP 6034674 B2 JP6034674 B2 JP 6034674B2 JP 2012258906 A JP2012258906 A JP 2012258906A JP 2012258906 A JP2012258906 A JP 2012258906A JP 6034674 B2 JP6034674 B2 JP 6034674B2
- Authority
- JP
- Japan
- Prior art keywords
- search
- phrase
- search information
- obfuscation
- obfuscated
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 37
- 238000012545 processing Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000000470 constituent Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、インターネット上の検索における検索情報を難読化する検索情報難読化装置、検索情報難読化方法、およびプログラムに関する。 The present invention relates to a search information obfuscation apparatus, a search information obfuscation method, and a program for obfuscating search information in a search on the Internet.
近年、ユーザはインターネット上の検索システムを用いて様々な情報収集を行なっている。ユーザがインターネット上の検索エンジンを用いる場合、検索クエリにキーワード等(以下、検索キーワードという)を入力して検索エンジンに問い合わせを行なっている。この検索キーワードは、ユーザが何を欲しているかを表し、情報価値は極めて高い。そのため、検索キーワードの統計情報を取ることにより、ユーザの趣味や嗜好を調べてマーケティングに活用する検索エンジンも存在している(例えば、非特許文献1参照)。 In recent years, users have collected various information using a search system on the Internet. When a user uses a search engine on the Internet, a keyword or the like (hereinafter referred to as a search keyword) is input as a search query to make an inquiry to the search engine. This search keyword represents what the user wants, and the information value is extremely high. For this reason, there are search engines that take statistical information of search keywords to examine user hobbies and preferences and use them in marketing (see, for example, Non-Patent Document 1).
一方で、趣味や嗜好を他人に知られることをプライバシーの侵害と考えるユーザや、企業の研究機関のように現在どういった事柄に着目していてどんな内容を中心に情報収集しているか知られたくないユーザは、例えマーケティング目的であっても検索キーワードを第三者に取得されたくない。 On the other hand, it is known what kind of content is focused on and what information is currently collected, such as users who think that hobbies and preferences are known to others as infringement of privacy and corporate research institutions. Users who do not want to search do not want to be acquired by a third party even for marketing purposes.
ここで、検索時に、検索キーワードが漏えいする経路としては2種類考えられる。ひとつは、ユーザが検索エンジンに検索キーワードを含む検索クエリを送信する間で盗聴されるケースであって、もうひとつは、検索エンジン内部にて検索キーワードが収集されるケースである。一つ目のケースに対しては、通信経路では検索クエリを暗号化することによって検索キーワードが漏えいすることを防ぐ手法がよく用いられる(例えば、非特許文献2参照)。非特許文献2で述べられている手法では、検索エンジンや検索用データベースがクラウドサービス等の外部にあった場合でもセキュアに検索を行うことができる。
Here, there are two possible routes through which search keywords leak during search. One is a case where the user is eavesdropped while transmitting a search query including a search keyword to the search engine, and the other is a case where the search keyword is collected inside the search engine. For the first case, a technique for preventing a search keyword from leaking by encrypting a search query in a communication path is often used (for example, see Non-Patent Document 2). With the technique described in Non-Patent
しかしながら、この手法においても、検索エンジンから適切な検索結果を得るためには、暗号化された検索クエリは検索エンジンで復号される必要があり、検索エンジン内部にて検索キーワードが収集される二つ目のケースによる検索キーワードの漏えいを防ぐことはできないという問題点があった。 However, even in this method, in order to obtain an appropriate search result from the search engine, the encrypted search query needs to be decrypted by the search engine, and the search keyword is collected inside the search engine. There was a problem that the leakage of search keywords due to the eye case could not be prevented.
そこで、特開2009−198175号公報に記載されている、周囲の環境と同等の信号を出すことで、攻撃者からの観測を困難にする技術を利用して、一の検索ユーザが、多数の検索クエリを検索エンジンに送信する手法が考えられる。この手法では、どの検索クエリに含まれる検索キーワードが検索ユーザにとって重要な情報であるか、検索エンジン側で分析することを困難にし、二つ目のケースによる検索キーワードの漏えいを防ぐことができる。 Therefore, by using a technique described in Japanese Patent Application Laid-Open No. 2009-198175 that makes it difficult to observe from an attacker by outputting a signal equivalent to the surrounding environment, A method for transmitting a search query to a search engine is conceivable. This technique makes it difficult for the search engine to analyze which search query includes the search keyword that is important information for the search user, and prevents leakage of the search keyword due to the second case.
しかしながら、多数の検索クエリを作成したり、多数の検索クエリを検索エンジンに送信したりするには、極めて大きな設備とコストが必要になると問題点があった。また、多数の検索クエリを送信するために、ユーザが必要な情報を取得するまでに時間を要するといった問題点もあった。 However, in order to create a large number of search queries and to send a large number of search queries to a search engine, there is a problem that extremely large equipment and cost are required. In addition, since a large number of search queries are transmitted, there is a problem that it takes time until the user acquires necessary information.
そこで、本発明は、上述の課題に鑑みてなされたものであり、検索情報の語句を他の語句に置き換えることや、検索情報の言語傾向を難読化する語句を検索情報と組み合わせることによって、難読化した検索情報で検索を行うことにより、セキュアなインターネット検索を実現する検索情報難読化装置、検索情報難読化方法、およびプログラムを提供することを目的とする。また、秘密情報の言語傾向を統計的に難読化することを目的とする。 Therefore, the present invention has been made in view of the above-described problems, and is difficult to read by replacing a phrase of the search information with another phrase or combining a phrase that obfuscates the language tendency of the search information with the search information. It is an object of the present invention to provide a search information obfuscation device, a search information obfuscation method, and a program that realize secure Internet search by performing a search with the converted search information. Another objective is to statistically obfuscate the language tendency of confidential information.
本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。 The present invention proposes the following matters in order to solve the above problems. In addition, in order to make an understanding easy, although the code | symbol corresponding to embodiment of this invention is attached | subjected and demonstrated, it is not limited to this.
(1) 本発明は、インターネット検索に関する検索情報における言語傾向を、第三者から難読化する検索情報難読化装置(例えば、図1の検索情報難読化装置100に相当)であって、語句間の関連を示す辞書データを記憶する辞書記憶手段(例えば、図1の辞書記憶部120に相当)と、前記検索情報に含まれる検索語句に関連する関連検索語句を前記辞書記憶手段から難読化語句として取得する関連語句取得手段(例えば、図1の関連語句取得部111に相当)と、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれについて関連が低い低関連検索語句を前記辞書記憶手段から前記難読化語句として取得する低関連検索語句取得手段(例えば、図1の低関連検索語句取得部112に相当)と、前記関連語句取得手段および前記低関連検索語句取得手段で取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する難読検索情報生成手段(例えば、図1の難読検索情報生成部130に相当)と、を備えることを特徴とする検索情報難読化装置を提案している。
(1) The present invention is a search information obfuscation device (e.g., equivalent to the search
この発明によれば、辞書記憶手段は、語句間の関連を示す辞書データを記憶する。関連語句取得手段は、検索情報に含まれる検索語句に関連する関連検索語句を辞書記憶手段から難読化語句として取得する。低関連検索語句取得手段は、辞書記憶手段から取得した語句と関連する語句を辞書記憶手段から取得する処理を1回以上繰り返し、取得した語句群それぞれについて関連が低い低関連検索語句を辞書記憶手段から前記難読化語句として取得する。難読検索情報生成手段は、関連語句取得手段および低関連検索語句取得手段で取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する。したがって、検索情報に、検索情報と関連する関連語句および検索情報と階層状に関連する関連語句群ぞれぞれと関連の低い低関連検索語句を組み合わせて、検索情報の言語傾向と異なる言語傾向を持った難読検索情報を用いて検索することにより、第三者に検索情報を欺瞞することができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。 According to the present invention, the dictionary storage means stores dictionary data indicating the relationship between words. The related phrase acquisition unit acquires a related search phrase related to the search phrase included in the search information from the dictionary storage unit as an obfuscated phrase. The low-related search phrase acquisition unit repeats the process of acquiring a phrase related to the phrase acquired from the dictionary storage unit from the dictionary storage unit one or more times, and the dictionary storage unit stores the low-related search phrase that is low in relation to each acquired phrase group. From the obfuscated word. The obfuscation search information generation means generates the obfuscation search information based on the obfuscated words and the search information acquired by the related phrase acquisition means and the low related search phrase acquisition means . Therefore, by combining the search information with related terms and phrases related to the search information and low related search terms that are less relevant to the search information and related terms and phrases related to the hierarchy, the language tendency is different from the language tendency of the search information. The search information can be deceived by a third party by searching using the obfuscated search information having the. As a result, it is possible to realize a secure Internet search that is difficult to leak search information to a third party.
(2) 本発明は、(1)の検索情報難読化装置について、前記低関連検索語句取得手段が、前記検索情報に含まれる検索語句と関連が低い低関連検索語句を、前記辞書記憶手段から取得し、当該取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群を前記難読化語句として取得することを特徴とする検索情報難読化装置を提案している。 (2) The present invention relates to the search information obfuscation device of (1), wherein the low-related search word acquisition unit extracts a low-related search word / phrase having a low relationship with the search word / phrase included in the search information from the dictionary storage unit. A retrieval information obfuscation apparatus, characterized in that a process of acquiring and acquiring a phrase related to the acquired phrase from the dictionary storage means is repeated one or more times, and the acquired phrase group is acquired as the obfuscated phrase. is suggesting.
この発明によれば、低関連検索語句取得手段が、検索情報に含まれる検索語句と関連が低い低関連検索語句を、辞書記憶手段から取得し、取得した語句と関連する語句を辞書記憶手段から取得する処理を1回以上繰り返し、取得した語句群を難読化語句として取得する。したがって、検索情報に、検索語句と関連が低い低関連検索語句および低関連検索語句に階層状に関連する語句群を組み合わせることにより、第三者が難読検索情報を解析した際に、低関連検索語句と低関連検索語句に階層状に関連する語句群とから得られる言語傾向を抽出させて、本当の検索情報の言語傾向を抽出させなくすることができる。その結果、第三者に検索情報がより漏えいしにくい、よりセキュアなインターネット検索を実現することができる。 According to this invention, the low-related search phrase acquisition unit acquires from the dictionary storage unit the low-related search phrase that is not related to the search phrase included in the search information, and the phrase related to the acquired phrase from the dictionary storage unit. The process of acquiring is repeated one or more times, and the acquired phrase group is acquired as an obfuscated phrase. Therefore, when a third party analyzes the obfuscated search information by combining the search information with a low-related search phrase that is not related to the search phrase and a group of words related to the low-related search phrase in a hierarchical manner, the low-relevance search It is possible to extract the linguistic tendency obtained from the phrase and the phrase group related in a hierarchical manner to the phrase and the low-relevance search phrase, so that the linguistic tendency of the real search information is not extracted. As a result, it is possible to realize a more secure Internet search that is less likely to leak search information to a third party.
(3) 本発明は、(1)または(2)の検索情報難読化装置について、前記難読化語句取得手段が、前記検索情報に含まれる前記インターネット検索の主体を特定する検索主体情報と関連がある検索主体関連語句を、前記辞書記憶手段から前記難読化語句として取得する検索主体関連語句取得手段(例えば、図1の検索主体関連語句取得部113に相当)を備え、前記難読検索情報生成手段が、前記検索主体関連語句取得手段で取得した前記難読化語句を、前記検索情報に組み合わせて難読検索情報を生成することを特徴とする検索情報難読化装置を提案している。
(3) The present invention relates to the search information obfuscation device according to (1) or (2), wherein the obfuscation word acquisition unit is related to search subject information that identifies the subject of the Internet search included in the search information. Search obfuscation search information generation means comprising search subject related phrase acquisition means (for example, equivalent to the search subject related
この発明によれば、検索主体関連語句取得手段は、検索情報に含まれるインターネット検索の主体を特定する検索主体情報と関連がある検索主体関連語句を、辞書記憶手段から難読化語句として取得する。難読検索情報生成手段が、検索主体関連語句取得手段で取得した難読化語句を、検索情報に組み合わせて難読検索情報を生成する。したがって、検索情報に検索主体と関連がある検索主体関連語句を組み合わせることにより、検索情報の言語傾向と異なる言語傾向を持った難読検索情報によって検索を行うことができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。 According to this invention, the search subject-related phrase acquisition unit acquires, as an obfuscated phrase, from the dictionary storage unit, a search subject-related phrase that is related to the search subject information that identifies the subject of the Internet search included in the search information. The obfuscated search information generating means generates the obfuscated search information by combining the obfuscated words acquired by the search subject related word acquiring means with the search information. Therefore, by combining the search information with a search subject-related phrase that is related to the search subject in the search information, it is possible to perform a search using the obfuscated search information having a language tendency different from the language tendency of the search information. As a result, it is possible to realize a secure Internet search that is difficult to leak search information to a third party.
(4) 本発明は、(3)の検索情報難読化装置について、前記検索情報に含まれる前記検索主体情報と関連が低い低関連検索主体語句を、前記辞書記憶手段から前記難読化語句として取得する低関連検索主体語句取得手段(例えば、図1の低関連検索主体語句取得部114に相当)を備え、前記難読検索情報生成手段が、前記低関連検索主体語句取得手段で取得した前記難読化語句を、前記検索情報に組み合わせて難読検索情報を生成することを特徴とする検索情報難読化装置を提案している。
(4) In the search information obfuscation device according to (3), the present invention obtains, as the obfuscated phrase, from the dictionary storage means, a low-relevance search subject phrase that is not related to the search subject information included in the search information. The obfuscation obtained by the obfuscated search information generating unit is acquired by the low related search subject phrase acquiring unit (for example, the low related search subject
この発明によれば、低関連検索主体語句取得手段は、検索情報に含まれる検索主体情報と関連が低い低関連検索主体語句を、辞書記憶手段から難読化語句として取得する。難読検索情報生成手段が、低関連検索主体語句取得手段で取得した難読化語句を、検索情報に組み合わせて難読検索情報を生成する。したがって、検索情報に検索主体と関連が低い低関連検索主体語句を組み合わせることにより、検索情報の言語傾向と異なる言語傾向を持った難読検索情報によって検索を行うことができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。 According to this invention, the low-related search subject phrase acquisition unit acquires, as an obfuscated phrase, from the dictionary storage unit, the low-related search subject phrase that is not related to the search subject information included in the search information. The obfuscation search information generation unit generates the obfuscation search information by combining the obfuscated words acquired by the low-related search subject word acquisition unit with the search information. Therefore, by combining the search information with a low-relevance search subject word / phrase having a low relationship with the search subject, it is possible to perform a search using the obfuscated search information having a language tendency different from the language tendency of the search information. As a result, it is possible to realize a secure Internet search that is difficult to leak search information to a third party.
(5) 本発明は、(4)の検索情報難読化装置について、前記低関連検索主体語句取得手段が、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれと関連する低関連検索主体語句を前記辞書記憶手段から前記難読化語句として取得することを特徴とする検索情報難読化装置を提案している。 (5) The present invention is, for search information obfuscation device (4), wherein the low Related searches main word acquisition unit, a process of acquiring a word associated with the word acquired from the dictionary storage means from the dictionary storage means A search information obfuscation apparatus is proposed, characterized in that it repeats one or more times, and acquires the low-relevance search subject word / phrase associated with each of the acquired word / phrase groups as the obfuscated word / phrase from the dictionary storage means .
この発明によれば、低関連検索主体語句取得手段は、辞書記憶手段から取得した語句と関連する語句を辞書記憶手段から取得する処理を1回以上繰り返し、取得した語句群それぞれと関連する低関連検索主体語句を辞書記憶手段から難読化語句として取得する。したがって、検索情報に検索主体と関連が低い低関連検索主体語句および低関連検索語句に階層状に関連する語句群を組み合わせることにより、第三者が難読検索情報を解析した際に、低関連検索語句に階層状に関連する語句群とから得られる言語傾向を抽出させて、本当の検索情報の言語傾向を抽出させなくすることができる。その結果、第三者に検索情報がより漏えいしにくい、よりセキュアなインターネット検索を実現することができる。 According to this invention, the low-relevance search subject phrase acquisition unit repeats the process of acquiring the phrase related to the phrase acquired from the dictionary storage unit from the dictionary storage unit one or more times , and the low-relevance search subject phrase acquisition unit relates to each acquired phrase group. The search subject phrase is acquired from the dictionary storage means as an obfuscated phrase . Therefore, when a third party analyzes the obfuscated search information by combining the search information with a low-relevance search subject phrase that is not related to the search subject and a low-relevance search phrase in a hierarchical manner, It is possible to extract the linguistic tendency obtained from the phrase group related to the phrase in a hierarchical manner, and not to extract the linguistic tendency of the real search information. As a result, it is possible to realize a more secure Internet search that is less likely to leak search information to a third party.
(6) 本発明は、(1)から(5)の検索情報難読化装置について、前記難読検索情報による前記インターネット検索により取得されたコンテンツを、当該難読検索情報に対応する当該検索情報と対応付けて記憶する検索コンテンツ記憶手段(例えば、図3の検索コンテンツ記憶部150に相当)と、前記検索コンテンツ記憶手段に記憶されているコンテンツと当該コンテンツに対応付けられている前記検索情報とに基づいて、当該検索情報に含まれる検索語句の出現頻度に基づいて、前記難読検索情報に含める難読化語句数を決定する難読化語句数決定手段(例えば、図3の難読化語句数決定部160に相当)と、を備え、前記難読検索情報生成手段が、前記難読化語句数決定手段で決定された難読化語句数に基づいて、前記難読化語句から前記難読検索情報に含める前記難読化語句を選択することを特徴とする検索情報難読化装置を提案している。
(6) The present invention relates to the search information obfuscation device of (1) to (5), and associates the content acquired by the Internet search with the obfuscation search information with the search information corresponding to the obfuscation search information. Search content storage means (for example, corresponding to the search
この発明によれば、検索コンテンツ記憶手段は、難読検索情報によるインターネット検索により取得されたコンテンツを、難読検索情報に対応する検索情報と対応付けて記憶する。難読化語句数決定手段は、検索コンテンツ記憶手段に記憶されているコンテンツとコンテンツに対応付けられている検索情報とに基づいて、検索情報に含まれる検索語句の出現頻度に基づいて、難読検索情報に含める難読化語句数を決定する。難読検索情報生成手段は、難読化語句数決定手段で決定された難読化語句数に基づいて、難読化語句から難読検索情報に含める難読化語句を選択する。したがって、検索結果のコンテンツに含まれる検索情報の出現頻度に応じて、検索に用いる難読検索情報に含める難読化語句数を決定することによって、検索情報の言語傾向を統計的に難読化することができる。その結果、検索情報の漏えいしにくさ、すなわち、検索情報の機密性の度合を任意に設定することができる。 According to this invention, the search content storage means stores the content acquired by the Internet search using the obfuscated search information in association with the search information corresponding to the obfuscated search information. The obfuscation word count determining means is based on the content stored in the search content storage means and the search information associated with the content, and based on the appearance frequency of the search words included in the search information, Determine the number of obfuscated words to include. The obfuscation search information generation unit selects the obfuscation words to be included in the obfuscation search information from the obfuscation words based on the number of obfuscation words determined by the obfuscation word number determination unit. Therefore, it is possible to statistically obfuscate the linguistic tendency of the search information by determining the number of obfuscated words included in the obfuscated search information used for the search according to the appearance frequency of the search information included in the search result content. it can. As a result, it is possible to arbitrarily set the difficulty of leaking search information, that is, the degree of confidentiality of search information.
(7) 本発明は、インターネット検索に関する検索情報の言語傾向を、第三者から難読化する検索情報難読化装置における検索情報難読化方法であって、前記検索情報難読化装置が、語句間の関連を示す辞書データを記憶する辞書記憶手段、関連語句取得手段、低関連検索語句取得手段、および難読検索情報生成手段を備え、前記関連語句取得手段が、前記検索情報に含まれる検索語句に関連する関連検索語句を前記辞書記憶手段から難読化語句として取得する第1のステップ(例えば、図2のステップS1に相当)と、前記低関連検索語句取得手段が、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれについて関連が低い低関連検索語句を前記辞書記憶手段から前記難読化語句として取得する第2のステップ(例えば、図2のステップS2に相当)と、前記難読検索情報生成手段が、前記第1のステップおよび前記第2のステップで取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する第3のステップ(例えば、図2のステップS2に相当)と、を含むことを特徴とする検索情報難読化方法を提案している。 (7) The present invention relates to a search information obfuscation method in a search information obfuscation device that obfuscates a language tendency of search information related to Internet search from a third party, wherein the search information obfuscation device is a term between words. A dictionary storage means for storing dictionary data indicating association, a related phrase acquisition means, a low-related search phrase acquisition means, and an obfuscated search information generation means are provided, and the related phrase acquisition means is related to a search phrase included in the search information A first step (for example, corresponding to step S1 in FIG. 2) of acquiring the related search phrase as an obfuscated phrase from the dictionary storage means, and the phrase acquired by the low related search phrase acquisition means from the dictionary storage means The process of acquiring a word or phrase related to the word from the dictionary storage means is repeated one or more times, and low related search phrases that are less relevant for each of the acquired word groups are stored in the dictionary. A second step (for example, corresponding to step S2 in FIG. 2) acquired from the storage means as the obfuscated phrase, and the obfuscation search information generating means acquired in the first step and the second step. A search information obfuscation method comprising: a third step (for example, corresponding to step S2 of FIG. 2) for generating obfuscation search information based on the vocabulary and the search information Yes.
この発明によれば、まず、第1のステップにおいて、関連語句取得手段が、検索情報に含まれる検索語句に関連する関連検索語句を辞書記憶手段から難読化語句として取得する。次に、第2のステップにおいて、低関連検索語句取得手段が、辞書記憶手段から取得した語句と関連する語句を辞書記憶手段から取得する処理を1回以上繰り返し、取得した語句群それぞれについて関連が低い低関連検索語句を辞書記憶手段から難読化語句として取得する。次に、第3のステップにおいて、難読検索情報生成手段が、第1のステップおよび第2のステップで取得した難読化語句と検索情報とに基づいて、難読検索情報を生成する。したがって、検索情報に、検索情報と関連する関連語句および検索情報と階層状に関連する関連語句群ぞれぞれと関連の低い低関連検索語句を組み合わせて、検索情報の言語傾向と異なる言語傾向を持った難読検索情報を用いて検索することにより、第三者に検索情報を欺瞞することができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。 According to this invention, first, in a first step, the related phrase acquisition unit acquires a related search phrase related to the search phrase included in the search information from the dictionary storage unit as an obfuscated phrase. Next, in the second step, the low-related search phrase acquisition unit repeats the process of acquiring the phrase related to the phrase acquired from the dictionary storage unit from the dictionary storage unit one or more times, and the relationship is obtained for each acquired phrase group. A low low-related search phrase is obtained as an obfuscated phrase from the dictionary storage means . Next, in the third step, the obfuscated search information generating means generates the obfuscated search information based on the obfuscated words and the search information acquired in the first step and the second step. Therefore, by combining the search information with related terms and phrases related to the search information and low related search terms that are less relevant to the search information and related terms and phrases related to the hierarchy, the language tendency is different from the language tendency of the search information. The search information can be deceived by a third party by searching using the obfuscated search information having the. As a result, it is possible to realize a secure Internet search that is difficult to leak search information to a third party.
(8) 本発明は、インターネット検索に関する検索情報の言語傾向を、第三者から難読化する検索情報難読化装置における検索情報難読化方法をコンピュータに実行させるためのプログラムであって、前記検索情報難読化装置が、語句間の関連を示す辞書データを記憶する辞書記憶手段、関連語句取得手段、低関連検索語句取得手段、および難読検索情報生成手段を備え、前記関連語句取得手段が、前記検索情報に含まれる検索語句に関連する関連検索語句を前記辞書記憶手段から難読化語句として取得する第1のステップ(例えば、図2のステップS1に相当)と、前記低関連検索語句取得手段が、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれについて関連が低い低関連検索語句を前記辞書記憶手段から前記難読化語句として取得する第2のステップ(例えば、図2のステップS2に相当)と、前記難読検索情報生成手段が、前記第1のステップおよび前記第2のステップで取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する第3のステップ(例えば、図2のステップS2に相当)と、をコンピュータに実行させるためのプログラムを提案している。 (8) The present invention is a program for causing a computer to execute a search information obfuscation method in a search information obfuscation apparatus that obfuscates a language tendency of search information related to Internet search from a third party. The obfuscation apparatus includes a dictionary storage unit that stores dictionary data indicating a relationship between phrases, a related phrase acquisition unit, a low-related search phrase acquisition unit, and an obfuscation search information generation unit, and the related phrase acquisition unit includes the search A first step (for example, corresponding to step S1 in FIG. 2) of acquiring a related search phrase related to a search phrase included in information as an obfuscated phrase from the dictionary storage unit, and the low-related search phrase acquisition unit, Repeat the process of acquiring a phrase related to the phrase acquired from the dictionary storage means from the dictionary storage means at least once, and each of the acquired phrase groups A second step (for example, corresponding to step S2 in FIG. 2) of acquiring a low-relevance search phrase having a low relation from the dictionary storage unit as the obfuscated phrase; And causing the computer to execute a third step (for example, corresponding to step S2 in FIG. 2) of generating obfuscated search information based on the obfuscated phrase acquired in the step and the second step and the search information. A program for this is proposed.
この発明によれば、まず、第1のステップにおいて、関連語句取得手段が、検索情報に含まれる検索語句に関連する関連検索語句を辞書記憶手段から難読化語句として取得する。次に、第2のステップにおいて、低関連検索語句取得手段が、辞書記憶手段から取得した語句と関連する語句を辞書記憶手段から取得する処理を1回以上繰り返し、取得した語句群それぞれについて関連が低い低関連検索語句を辞書記憶手段から難読化語句として取得する。次に、第3のステップにおいて、難読検索情報生成手段が、第1のステップおよび第2のステップで取得した難読化語句と検索情報とに基づいて、難読検索情報を生成する。したがって、検索情報に、検索情報と関連する関連語句および検索情報と階層状に関連する関連語句群ぞれぞれと関連の低い低関連検索語句を組み合わせて、検索情報の言語傾向と異なる言語傾向を持った難読検索情報を用いて検索することにより、第三者に検索情報を欺瞞することができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。 According to this invention, first, in a first step, the related phrase acquisition unit acquires a related search phrase related to the search phrase included in the search information from the dictionary storage unit as an obfuscated phrase. Next, in the second step, the low-related search phrase acquisition unit repeats the process of acquiring the phrase related to the phrase acquired from the dictionary storage unit from the dictionary storage unit one or more times, and the relationship is obtained for each acquired phrase group. A low low-related search phrase is obtained as an obfuscated phrase from the dictionary storage means . Next, in the third step, the obfuscated search information generating means generates the obfuscated search information based on the obfuscated words and the search information acquired in the first step and the second step. Therefore, by combining the search information with related terms and phrases related to the search information and low related search terms that are less relevant to the search information and related terms and phrases related to the hierarchy, the language tendency is different from the language tendency of the search information. The search information can be deceived by a third party by searching using the obfuscated search information having the. As a result, it is possible to realize a secure Internet search that is difficult to leak search information to a third party.
本発明によれば、検索情報の語句を他の語句に置き換えることや、検索情報の言語傾向を難読化する語句を検索情報と組み合わせることによって、難読化した検索情報で検索を行うことにより、セキュアなインターネット検索を実現することができる。また、秘密情報の言語傾向を統計的に難読化することができる。 According to the present invention, a secure search is performed by performing a search with obfuscated search information by replacing a search phrase with another phrase, or by combining a phrase that obfuscates the language tendency of the search information with the search information. Internet search can be realized. Moreover, it is possible to statistically obfuscate the language tendency of the secret information.
以下、図面を用いて、本発明の実施形態について詳細に説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Note that the constituent elements in the present embodiment can be appropriately replaced with existing constituent elements and the like, and various variations including combinations with other existing constituent elements are possible. Therefore, the description of the present embodiment does not limit the contents of the invention described in the claims.
<第1の実施形態>
<検索情報難読化装置>
図1は、本発明の第1の実施形態における検索情報難読化装置100の機能構成を示す図である。検索情報難読化装置100は、検索情報が第三者に漏えいすることを防ぐために、検索エンジンに送信する検索クエリに含める検索情報の言語傾向を難読化する装置である。ここで、検索情報とは、1以上の検索キーワード、および検索を行ったユーザ(以下、検索ユーザ)の情報から構成されている情報である。図1に示すように、検索情報難読化装置100は、難読化語句取得部110、辞書記憶部120、難読検索情報生成部130、検索部140から構成される。
<First Embodiment>
<Search information obfuscation device>
FIG. 1 is a diagram showing a functional configuration of a search
なお、本実施形態において、検索情報難読化装置100に検索部140が備えられているが、検索情報難読化装置100は検索部140を備えなくてもよい。この場合、検索情報難読化装置100は、他の端末から検索クエリに含まれる検索情報を取得し、取得した検索情報の言語傾向を難読化し、言語傾向を難読化した検索情報を他の端末に返す。
In the present embodiment, the search
辞書記憶部120は、語句間の関連が定義された辞書データを記憶する。具体的には、辞書記憶部120は、関連する語句が互いに対応付けられて、関連する語句間の関連関係が定義された辞書データが記憶されている。ここで、関連関係とは、類義関係、同義関係、上下関係、包含関係、共起関係、連想関係等の関係である。例えば、関連辞書データには、シソーラス辞書データや共起語辞書データが挙げられる。また、辞書記憶部120は、関連が低い、または、関連がない語句が互いに対応付けられた辞書データを記憶してもよい。更に、辞書記憶部120の辞書データには、関連する語句間の関連度合が含まれてもよい。なお、辞書記憶部120の辞書データに含まれる語は日本語に限らず、英語等の外国語であってもよい。
The
難読化語句取得部110は、検索エンジンに送信する検索クエリに含まれる検索情報の言語傾向を難読化するために用いる語句を取得する。本実施形態において、検索情報の言語傾向を難読化するために用いる語句には、検索情報と関連する語句、検索ユーザと関連する語句、および、検索情報や検索ユーザとの関連が低い、または、関連がない語句を用いる。図1に示すように、難読化語句取得部110は、検索情報の言語傾向を難読化するために用いる各語句を取得する、関連語句取得部111、低関連検索語句取得部112、検索主体関連語句取得部113、および低関連検索主体語句取得部114から構成される。
The obfuscated
関連語句取得部111は、検索情報に含まれる各検索キーワードと関連する語句を辞書記憶部120から取得する。例えば、検索キーワードが「太陽電池」の場合には、関連語句取得部111は、辞書記憶部120から、類義関係にある「光電池」、同義関係にある「ソーラーパネル」、共起関係にある「太陽光発電」等を取得する。また、関連語句取得部111は、関連する語句間の関係に基づいて、検索情報に含まれる各検索キーワードと関連する語句を辞書記憶部120から取得してもよい。例えば、関連語句取得部111は、共起関係にある語句のみや連想関係にある語句のみを取得対象とすることができる。なお、関連語句取得部111は、検索情報に含まれる各検索キーワードの情報と関連する語句を辞書記憶部120から全て取得してもよいし、予め設定した数取得してもよい。
The related
辞書記憶部120の辞書データが関連する語句間の関連度合を含む場合には、関連語句取得部111は、関連度合に基づいて、検索情報に含まれる各検索キーワードと関連する語句を辞書記憶部120から取得する。例えば、関連語句取得部111は、検索情報に含まれる各検索キーワードとの関連度合が所定値以上の語句を、検索情報に含まれる各検索キーワードと関連する語句として辞書記憶部120から取得する。
When the dictionary data in the
低関連検索語句取得部112は、検索情報に含まれる各検索キーワードと関連が低い、または、関連がない語句(以下、低関連検索語句という)を辞書記憶部120から取得する。具体的には、低関連検索語句取得部112は、まず、検索情報に含まれる各検索キーワードと関連する語句を辞書記憶部120から取得する。次に、低関連検索語句取得部112は、辞書記憶部120から取得した語句と関連する語句を辞書記憶部120から取得する処理を所定回数繰り返し、検索情報に含まれる各検索キーワードを基点として関連する語句群を取得する。なお、辞書記憶部120から取得した語句と関連する語句を辞書記憶部120から取得する処理を繰り返す所定回数は0回であってもよい。
The low-related search
そして、低関連検索語句取得部112は、辞書記憶部120において、検索情報に含まれる各検索キーワードを基点とする関連する語句群を除いた語句から、低関連検索語句を取得する。取得方法については、例えば、取得された順に予め設定された所定数分取得してもよいし、乱数等を用いてランダムに所定数分取得してもよい。低関連検索語句取得部112が、辞書記憶部120から取得した語句と関連する語句を辞書記憶部120から取得する処理を所定回数繰り返すことにより、検索情報に含まれる各検索キーワードとの関連がより低い語句を低関連検索語句として取得することができるようになる。
Then, the low-related search word /
辞書記憶部120が、関連が低い、または、関連がない語句が互いに対応付けられた辞書データを記憶している場合には、この辞書データから検索情報に含まれる各検索キーワードと関連が低い、または、関連がない語句を辞書記憶部120から取得する。また、辞書記憶部120の辞書データに関連する語句間の関連度合が含まれる場合には、低関連検索語句取得部112は、関連度合が低い語句を低関連検索語句として辞書記憶部120から取得する。例えば、関連度合が所定値以下の語句を低関連検索語句として取得したり、関連度合が低い順に所定数の語句を低関連検索語句として取得したりする。
When the
また、低関連検索語句取得部112は、取得した低関連検索語句に関連する第二の低関連検索語句や、第二の低関連検索語句に関連する第三の低関連検索語句等、低関連検索語句を基点として関連する語句を低関連検索語句として辞書記憶部120から取得してもよい。低関連検索語句を基点として関連する語句も含む低関連検索語句を難読検索情報の生成に用いることにより、第三者が難読検索情報を解析した際に、低関連検索語句と低関連検索語句を基点として関連する語句とから得られる言語傾向を抽出させて、本当の検索情報の言語傾向を抽出させなくすることにより、第三者に検索情報がより漏えいしにくくなる。なお、低関連検索語句を基点として関連する語句のみを低関連検索語句としてもよい。
In addition, the low-related search
検索主体関連語句取得部113は、検索情報に含まれる検索ユーザの情報と関連する語句を辞書記憶部120から取得する。ここで、検索ユーザの情報とは、検索ユーザの属性情報であって、例えば、検索ユーザが所属する会社名や学校名、検索ユーザの業種等である。例えば、検索ユーザが所属する会社名が「KDDI株式会社」である場合に、共起関係にある「au」や「LISMO!」等を辞書記憶部120から取得する。検索主体関連語句取得部113は、検索情報に含まれる検索ユーザの情報と関連する語句を辞書記憶部120から全て取得してもよいし、予め設定した数取得してもよい。
The search subject related
検索主体関連語句取得部113は、関連語句取得部111と同様に、関連する語句間の関係に基づいて、検索情報に含まれる各検索キーワードと関連する語句を辞書記憶部120から取得してもよい。また、辞書記憶部120が関連する語句間の関連度合を併せて記憶している場合には、検索主体関連語句取得部113は、関連語句取得部111と同様に、関連度合に基づいて、検索情報に含まれる各検索キーワードと関連する語句を辞書記憶部120から取得することもできる。
Similarly to the related
低関連検索主体語句取得部114は、検索情報に含まれる検索ユーザの情報と関連が低い、または、関連がない語句を辞書記憶部120から取得する。低関連検索主体語句取得部114の具体的な処理は、低関連検索語句取得部112と同様であって、検索情報に含まれる検索ユーザの情報を基点として関連する語句群を取得し、辞書記憶部120において、検索情報に含まれる検索ユーザの情報を基点として関連する語句群を除いた語句から、低関連検索主体語句を取得する。
The low-related search subject
辞書記憶部120が、関連が低い、または、関連がない語句が互いに対応付けられた辞書データを記憶している場合も低関連検索語句取得部112と同様であって、低関連検索主体語句取得部114は、この辞書データから検索情報に含まれる検索ユーザの情報と関連が低い、または、関連がない語句を辞書記憶部120から取得する。また、辞書記憶部120の辞書データに関連する語句間の関連度合が含まれる場合も低関連検索語句取得部112と同様であって、低関連検索主体語句取得部114は、検索情報に含まれる検索ユーザの情報と関連度合が低い語句を低関連検索語句として辞書記憶部120から取得する。
When the
また、低関連検索主体語句取得部114は、取得した低関連検索主体語句に関連する第二の低関連検索主体語句や第二の低関連検索主体語句に関連する第三の低関連検索主体語句等、低関連検索主体語句を基点として関連する語句を低関連主体語句として辞書記憶部120から取得してもよい。
The low-related search subject
低関連検索主体語句を基点として関連する語句も含む低関連検索主体語句を難読検索情報の生成に用いることにより、第三者が難読検索情報を解析した際に、低関連検索主体語句と低関連検索主体語句を基点として関連する語句とから得られる言語傾向を抽出させて、本当の検索情報の言語傾向を抽出させなくすることにより、第三者に検索情報がより漏えいしにくくなる。なお、低関連検索主体語句を基点として関連する語句のみを低関連検索主体語句としてもよい。 By using low-relevance search subject words and phrases that include related words from low-relevance search subject words as the starting point, the low-relevance search subject words and low-relationships are analyzed when a third party analyzes the obfuscation search information. By extracting the linguistic tendency obtained from the search subject word / phrase and related words / phrases and not extracting the linguistic tendency of the real search information, it becomes more difficult for a third party to leak the search information. Note that only words related to a low-related search subject word may be used as a low-related search subject word.
難読検索情報生成部130は、難読化語句取得部110で取得した難読化語句と検索情報とに基づいて、難読検索情報を生成する。なお、難読化語句には、検索キーワードと関連する語句、検索キーワードと関連が低いまたは関連がない語句、検索ユーザと関連する語句、および検索ユーザと関連が低いまたは関連がない語句の少なくとも一つが含まれる。
The obfuscation search
具体的には、難読検索情報生成部130は、関連語句取得部111で検索キーワードと関連する語句を難読化語句として取得した場合は、各検索キーワードを難読化語句、すなわち、各検索キーワードと関連する語句に置き換えることにより、難読検索情報を生成する。各検索キーワードと関連する語句に置き換えることにより検索情報の言語傾向をずらした結果、難読検索情報の言語傾向は検索情報の言語傾向とは異なり、第三者に検索情報を欺瞞することができる。
Specifically, the obfuscated search
難読検索情報生成部130は、低関連検索語句取得部112で検索キーワードと関連が低い、または、関連がない語句を難読化語句として取得した場合は、検索キーワードと難読化語句とを組み合わせて難読検索情報を生成する。検索キーワードと関連が低い、または、関連がない語句である難読化語句により検索情報の言語傾向を変えた結果、難読検索情報の言語傾向は検索情報の言語傾向とは異なり、第三者に検索情報を欺瞞することができる。
The obfuscated search
難読検索情報生成部130は、検索主体関連語句取得部113で検索ユーザと関連する語句を難読化語句として取得した場合は、検索キーワードと難読化語句とを組み合わせて難読検索情報を生成する。検索キーワードと関係のない語句である難読化語句により検索情報の言語傾向を変えた結果、難読検索情報の言語傾向は検索情報の言語傾向とは異なり、第三者に検索情報を欺瞞することができる。なお、検索ユーザが自身に関連する語に興味を持っていることは自然であるため、難読化語句として検索ユーザの情報と関連する語句とすることは適切である。また、検索情報が漏洩した場合には、情報漏えい発見の精度を上げる意味でも有効である。
When the search subject related
難読検索情報生成部130は、低関連検索主体語句取得部114で検索ユーザと関連が低い、または関連がない語句を難読化語句として取得した場合には、検索キーワードと難読化語句とを組み合わせて難読検索情報を生成する。検索キーワードと関係が低い、または関連がない語句である難読化語句により検索情報の言語傾向を変えた結果、難読検索情報の言語傾向は検索情報の言語傾向とは異なり、第三者に検索情報を欺瞞することができる。
The obfuscated search
なお、検索ユーザと関連する語句を難読化語句とした場合には、検索ユーザに関連する語は検索情報を難読化するための語句と判断されて、検索ユーザと関連する語句を除いて統計解析が行われる可能性がある。しかし、検索ユーザと関連が低い、または関連がない語句の場合は、その語句に検索ユーザが興味を持っているのか検索情報を難読化するための語句なのか判断ができないためので、第三者に検索情報がより漏えいしにくくなる。 If the words related to the search user are obfuscated words, the words related to the search user are determined as words for obfuscating the search information, and statistical analysis is performed except for the words related to the search user. May be performed. However, in the case of a phrase that has low or no relation to the search user, it cannot be determined whether the search user is interested in the phrase or the phrase to obfuscate the search information. Search information is more difficult to leak.
検索部140は、難読検索情報生成部130で生成した難読検索情報を含む検索クエリを検索エンジンに送信し、検索結果を取得する。
The
図2は、本発明の第1の実施形態に係る検索情報難読化装置における検索情報難読化方法の処理フローを示す図である。検索クエリに含まれる検索情報取得すると処理が開始する。 FIG. 2 is a diagram showing a processing flow of the search information obfuscation method in the search information obfuscation apparatus according to the first embodiment of the present invention. The process starts when the search information included in the search query is acquired.
まず、ステップS1において、難読化語句取得部110は、検索情報に含まれる検索キーワードおよび検索ユーザの情報の少なくとも一つに基づいて、難読化語句を辞書記憶部120から取得する。
First, in step S <b> 1, the obfuscated
次に、ステップS2において、難読検索情報生成部130は、ステップS1で取得した難読化語句と検索情報とに基づいて、難読検索情報を生成する。
Next, in step S2, the obfuscation search
以上説明したように、本実施形態によれば、検索情報の言語傾向と異なる言語傾向を持った難読検索情報を用いて検索することにより、第三者に検索情報を欺瞞することができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。 As described above, according to the present embodiment, the search information can be deceived by a third party by searching using the obfuscated search information having a language tendency different from the language tendency of the search information. As a result, it is possible to realize a secure Internet search that is difficult to leak search information to a third party.
<第2の実施形態>
図3を用いて、本発明の第2の実施形態について説明する。なお、本実施形態における検索情報難読化装置は、検索情報の言語傾向を統計的に難読化することができる。なお、第1の実施形態と同一の符号を付す構成要素については、同一の機能を有することから、その詳細な説明は省略する。
<Second Embodiment>
A second embodiment of the present invention will be described with reference to FIG. Note that the search information obfuscation apparatus according to the present embodiment can statistically obfuscate the language tendency of the search information. In addition, about the component which attaches | subjects the same code | symbol as 1st Embodiment, since it has the same function, the detailed description is abbreviate | omitted.
<検索情報難読化装置>
図3は、本発明の第2の実施形態における検索情報難読化装置101の機能構成を示す図である。検索情報難読化装置101は、検索情報が第三者に漏えいすることを防ぐために、検索エンジンに送信する検索クエリに含める検索情報の言語傾向を難読化する装置である。ここで、検索情報とは、1以上の検索キーワード、および検索を行ったユーザ(以下、検索ユーザ)の情報から構成されている情報である。図1に示すように、検索情報難読化装置101は、難読化語句取得部110、辞書記憶部120、難読検索情報生成部130、検索部140、検索コンテンツ記憶部150、および難読化語句数決定部160から構成される。
<Search information obfuscation device>
FIG. 3 is a diagram illustrating a functional configuration of the search
なお、本実施形態において、検索情報難読化装置101に検索部140が備えられているが、検索情報難読化装置101は検索部140を備えなくてもよい。この場合、検索情報難読化装置101は、他の端末から検索クエリに含まれる検索情報を取得し、取得した検索情報の言語傾向を難読化し、言語傾向を難読化した検索情報を他の端末に返す。
In the present embodiment, the search
検索コンテンツ記憶部150は、検索部140で取得した検索結果のコンテンツを記憶する。具体的には、検索コンテンツ記憶部150は、検索情報、難読検索情報、および難読検索情報にて検索部140で取得した検索結果のコンテンツを対応付けて記憶する。
The search
難読化語句数決定部160は、まず、検索コンテンツ記憶部150に記憶されている検索情報と、検索情報に対応付けられているコンテンツとに基づいて、コンテンツにおける、検索情報の出現頻度を算出する。検索情報の出現頻度とは、検索情報を構成する各検索キーワードの出現頻度の和として求めることができる。各検索キーワードの出現頻度は、以下の(1)式により算出する。なお、難読化語句数決定部160は、検索コンテンツ記憶部150に記憶されている検索情報毎に、検索情報の出現頻度を算出する。
The obfuscation word
次に、難読化語句数決定部160は、検索コンテンツ記憶部150に記憶されている検索情報と難読検索情報とから、各検索情報に含まれる難読化語句数を取得する。次に、難読化語句数決定部160は、検索情報毎に算出した、検索情報の出現頻度と難読化語句数との関係に基づいて、難読化語句数を決定する。例えば、難読化語句数決定部160は、検索情報の出現頻度と難読化語句数との関係から、予め設定された出現頻度以下となる最も少ない難読化語句数を取得し、難読検索情報に含める難読化語句数として決定する。そして、難読化語句数決定部160は、決定した難読検索情報に含める難読化語句数を難読検索情報生成部130に送信する。
Next, the obfuscated phrase
難読検索情報生成部130は、まず、難読化語句数決定部160から受信した、検索情報に含める難読化語句数の難読化語句を、難読化語句取得部110で取得した難読化語句の中から選択する。選択方法については、例えば、取得された順に難読化語句数分取得してもよいし、乱数等を用いてランダムに難読化語句数分取得してもよい。そして、難読検索情報生成部130は、選択した難読化語句と検索情報とに基づいて、難読検索情報を生成する。具体的な難読検索情報の生成方法については、第1の実施形態の難読検索情報生成部130と同様である。
First, the obfuscated search
以上説明したように、本実施形態によれば、検索結果のコンテンツに含まれる検索情報の出現頻度に応じて、検索に用いる難読検索情報に含める難読化語句数を決定することによって、検索情報の言語傾向を統計的に難読化することができる。その結果、検索情報の漏えいしにくさ、すなわち、検索情報の機密性の度合を任意に設定することができる。 As described above, according to the present embodiment, by determining the number of obfuscated phrases included in the obfuscated search information used for the search according to the appearance frequency of the search information included in the content of the search result, Language trends can be statistically obfuscated. As a result, it is possible to arbitrarily set the difficulty of leaking search information, that is, the degree of confidentiality of search information.
<第3の実施形態>
図4を用いて、本発明の第3の実施形態について説明する。なお、本実施形態における検索情報難読化装置は、Web上でよく用いられる語句を用いて検索情報を難読化する。なお、第1の実施形態と同一の符号を付す構成要素については、同一の機能を有することから、その詳細な説明は省略する。
<Third Embodiment>
A third embodiment of the present invention will be described with reference to FIG. Note that the search information obfuscation apparatus according to the present embodiment obfuscates the search information using words that are often used on the Web. In addition, about the component which attaches | subjects the same code | symbol as 1st Embodiment, since it has the same function, the detailed description is abbreviate | omitted.
図4は、本発明の第3の実施形態における検索情報難読化装置102の機能構成を示す図である。検索情報難読化装置102は、検索情報が第三者に漏えいすることを防ぐために、検索エンジンに送信する検索クエリに含める検索情報の言語傾向を難読化する装置であって、ネットワークを介してWeb200と接続されている。ここで、検索情報とは、1以上の検索キーワード、および検索を行ったユーザ(以下、検索ユーザ)の情報から構成されている情報である。図1に示すように、検索情報難読化装置102は、難読化語句取得部170、難読検索情報生成部130、および検索部140から構成される。
FIG. 4 is a diagram illustrating a functional configuration of the search
難読化語句取得部170は、Web200上で使用されている語句のうち、Web200上において出現頻度が予め設定した所定値以上の語句を難読化語句として取得する。具体的には、Web200上のコンテンツにおける出現頻度が予め設定した所定値以上の語句を難読化語句として取得する。また、Web200上にある検索エンジンから取得した検索ログにおける出現頻度が予め設定した所定値以上の語句を難読化語句として取得する。
The obfuscated
以上説明したように、本実施形態によれば、検索キーワードとの関連に関わらず、Web上でありふれている語句や、「検索流行語」といったWeb上で話題になっているために多くのユーザが検索するような語句を用いて、検索情報の言語傾向を難読化することにより、第三者に検索情報を欺瞞することができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。 As described above, according to the present embodiment, many users have a topic on the Web such as a common phrase or “search buzzword” on the Web regardless of the relationship with the search keyword. The search information can be deceived by a third party by obfuscating the linguistic tendency of the search information by using a phrase that is searched for. As a result, it is possible to realize a secure Internet search that is difficult to leak search information to a third party.
なお、検索情報難読化装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを機器に読み込ませ、実行することによって本発明の検索情報難読化装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。 Note that the search information obfuscation device of the present invention is realized by recording the processing of the search information obfuscation device on a computer-readable recording medium, causing the device to read and execute the program recorded on the recording medium. Can do. The computer system here includes an OS and hardware such as peripheral devices.
また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。 Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW (World Wide Web) system is used. The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。更に、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。 The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, what is called a difference file (difference program) may be sufficient.
以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。 The embodiments of the present invention have been described in detail with reference to the drawings. However, the specific configuration is not limited to the embodiments, and includes designs and the like that do not depart from the gist of the present invention.
100 検索情報難読化装置
110 難読化語句取得部
111 関連語句取得部
112 低関連検索語句取得部
113 検索主体関連語句取得部
114 低関連検索主体語句取得部
120 辞書記憶部
130 難読検索情報生成部
140 検索部
DESCRIPTION OF
Claims (8)
語句間の関連を示す辞書データを記憶する辞書記憶手段と、
前記検索情報に含まれる検索語句に関連する関連検索語句を前記辞書記憶手段から難読化語句として取得する関連語句取得手段と、
前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれについて関連が低い低関連検索語句を前記辞書記憶手段から前記難読化語句として取得する低関連検索語句取得手段と、
前記関連語句取得手段および前記低関連検索語句取得手段で取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する難読検索情報生成手段と、
を備えることを特徴とする検索情報難読化装置。 A search information obfuscation device that obfuscates language trends in search information related to Internet search from a third party,
Dictionary storage means for storing dictionary data indicating the relationship between words;
Related phrase acquisition means for acquiring a related search phrase related to a search phrase included in the search information as an obfuscated phrase from the dictionary storage means;
The process of acquiring the phrase related to the phrase acquired from the dictionary storage means from the dictionary storage means is repeated one or more times, and the low-relevance search phrase having low association with each of the acquired phrase groups is obfuscated from the dictionary storage means. Low-related search phrase acquisition means to acquire as a phrase;
Obfuscation search information generating means for generating obfuscation search information based on the obfuscated words acquired by the related phrase acquisition means and the low related search phrase acquisition means and the search information;
A search information obfuscation device comprising:
前記難読検索情報生成手段が、前記検索主体関連語句取得手段で取得した前記難読化語句を、前記検索情報に組み合わせて難読検索情報を生成することを特徴とする請求項1または請求項2に記載の検索情報難読化装置。 Retrieval subject-related, wherein the obfuscated phrase acquisition unit acquires, as the obfuscated phrase from the dictionary storage unit, a search subject-related phrase that is related to search subject information that identifies the subject of the Internet search included in the search information With word acquisition means ,
3. The obfuscated search information generation unit generates the obfuscation search information by combining the obfuscated phrase acquired by the search subject-related phrase acquisition unit with the search information. Search information obfuscation device.
前記難読検索情報生成手段が、前記低関連検索主体語句取得手段で取得した前記難読化語句を、前記検索情報に組み合わせて難読検索情報を生成することを特徴とする請求項3に記載の検索情報難読化装置。 Low-relevance search subject phrase acquisition means for acquiring a low-relevance search subject phrase that is not related to the search subject information included in the search information as the obfuscated phrase from the dictionary storage means,
4. The search information according to claim 3, wherein the obfuscation search information generation unit generates the obfuscation search information by combining the obfuscation word acquired by the low-related search subject word acquisition unit with the search information. Obfuscation device.
前記検索コンテンツ記憶手段に記憶されているコンテンツと当該コンテンツに対応付けられている前記検索情報とに基づいて、当該検索情報に含まれる検索語句の出現頻度に基づいて、前記難読検索情報に含める難読化語句数を決定する難読化語句数決定手段と、
を備え、
前記難読検索情報生成手段が、前記難読化語句数決定手段で決定された難読化語句数に基づいて、前記難読化語句から前記難読検索情報に含める前記難読化語句を選択することを特徴とする請求項1から請求項5のいずれかに記載の検索情報難読化装置。 Search content storage means for storing content acquired by the Internet search using the obfuscated search information in association with the search information corresponding to the obfuscated search information;
Based on the content stored in the search content storage means and the search information associated with the content, the obfuscation included in the obfuscation search information based on the appearance frequency of the search terms included in the search information An obfuscation word number determination means for determining the number of word phrases;
Equipped with a,
The obfuscation search information generation means selects the obfuscation words to be included in the obfuscation search information from the obfuscation words based on the number of obfuscation words determined by the obfuscation word number determination means. The search information obfuscation apparatus according to any one of claims 1 to 5 .
前記検索情報難読化装置が、語句間の関連を示す辞書データを記憶する辞書記憶手段、関連語句取得手段、低関連検索語句取得手段、および難読検索情報生成手段を備え、
前記関連語句取得手段が、前記検索情報に含まれる検索語句に関連する関連検索語句を前記辞書記憶手段から難読化語句として取得する第1のステップと、
前記低関連検索語句取得手段が、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれについて関連が低い低関連検索語句を前記辞書記憶手段から前記難読化語句として取得する第2のステップと、
前記難読検索情報生成手段が、前記第1のステップおよび前記第2のステップで取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する第3のステップと、
を含むことを特徴とする検索情報難読化方法。 A search information obfuscation method in a search information obfuscation device that obfuscates a language tendency of search information related to Internet search from a third party,
The search information obfuscation device includes dictionary storage means for storing dictionary data indicating a relation between words, related word acquisition means, low related search word acquisition means, and obfuscation search information generation means,
A first step in which the related phrase acquisition unit acquires a related search phrase related to a search phrase included in the search information as an obfuscated phrase from the dictionary storage unit;
The low-related search phrase acquisition unit repeats the process of acquiring a phrase related to the phrase acquired from the dictionary storage unit from the dictionary storage unit one or more times, and the low-related search phrase that is low in relation to each of the acquired word groups A second step of acquiring from the dictionary storage means as the obfuscated phrase;
A third step in which the obfuscated search information generating means generates obfuscated search information based on the obfuscated words and the search information acquired in the first step and the second step;
A search information obfuscation method characterized by comprising:
前記検索情報難読化装置が、語句間の関連を示す辞書データを記憶する辞書記憶手段、関連語句取得手段、低関連検索語句取得手段、および難読検索情報生成手段を備え、
前記関連語句取得手段が、前記検索情報に含まれる検索語句に関連する関連検索語句を前記辞書記憶手段から難読化語句として取得する第1のステップと、
前記低関連検索語句取得手段が、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれについて関連が低い低関連検索語句を前記辞書記憶手段から前記難読化語句として取得する第2のステップと、
前記難読検索情報生成手段が、前記第1のステップおよび前記第2のステップで取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する第3のステップと、
をコンピュータに実行させるためのプログラム。 A program for causing a computer to execute a search information obfuscation method in a search information obfuscation device that obfuscates a language tendency of search information related to Internet search from a third party,
The search information obfuscation device includes dictionary storage means for storing dictionary data indicating a relation between words, related word acquisition means, low related search word acquisition means, and obfuscation search information generation means,
A first step in which the related phrase acquisition unit acquires a related search phrase related to a search phrase included in the search information as an obfuscated phrase from the dictionary storage unit;
The low-related search phrase acquisition unit repeats the process of acquiring a phrase related to the phrase acquired from the dictionary storage unit from the dictionary storage unit one or more times, and the low-related search phrase that is low in relation to each of the acquired word groups A second step of acquiring from the dictionary storage means as the obfuscated phrase;
A third step in which the obfuscated search information generating means generates obfuscated search information based on the obfuscated words and the search information acquired in the first step and the second step;
A program that causes a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012258906A JP6034674B2 (en) | 2012-11-27 | 2012-11-27 | Search information obfuscation device, search information obfuscation method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012258906A JP6034674B2 (en) | 2012-11-27 | 2012-11-27 | Search information obfuscation device, search information obfuscation method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014106723A JP2014106723A (en) | 2014-06-09 |
JP6034674B2 true JP6034674B2 (en) | 2016-11-30 |
Family
ID=51028156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012258906A Active JP6034674B2 (en) | 2012-11-27 | 2012-11-27 | Search information obfuscation device, search information obfuscation method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6034674B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7169628B2 (en) * | 2018-06-15 | 2022-11-11 | 大学共同利用機関法人情報・システム研究機構 | Information retrieval system |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3581009B2 (en) * | 1998-03-12 | 2004-10-27 | 株式会社日立製作所 | Data search system and data search method |
JP3827936B2 (en) * | 2000-10-18 | 2006-09-27 | シャープ株式会社 | Information providing control device, information providing method, recording medium recording information providing program, and information providing system |
JP2004118262A (en) * | 2002-09-24 | 2004-04-15 | Toshiba Corp | Document search device, document search method, and document search program |
JP5306356B2 (en) * | 2008-08-26 | 2013-10-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM USING PUBLIC SEARCH ENGINE |
JP5321258B2 (en) * | 2009-06-09 | 2013-10-23 | 日本電気株式会社 | Information collecting system, information collecting method and program thereof |
US8725762B2 (en) * | 2009-07-28 | 2014-05-13 | International Business Machines Corporation | Preventing leakage of information over a network |
EP2680251B1 (en) * | 2011-02-22 | 2016-05-25 | Mitsubishi Electric Corporation | Search system, search method for search system, information processing device, search program, corresponding keyword management device and corresponding keyword management system |
-
2012
- 2012-11-27 JP JP2012258906A patent/JP6034674B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2014106723A (en) | 2014-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fu et al. | Enabling central keyword-based semantic extension search over encrypted outsourced data | |
US10013574B2 (en) | Method and apparatus for secure storage and retrieval of encrypted files in public cloud-computing platforms | |
US9576005B2 (en) | Search system | |
US11550833B2 (en) | Architecture for semantic search over encrypted data in the cloud | |
EP2336908B1 (en) | Search device, search method and search program using open search engine | |
Arampatzis et al. | A query scrambler for search privacy on the internet | |
Henzinger et al. | Private web search with Tiptoe | |
CN107704768A (en) | A kind of multiple key classification safety search method of ciphertext | |
Viejo et al. | Profiling social networks to provide useful and privacy‐preserving web search | |
Chatterjee et al. | Why does this entity matter? support passage retrieval for entity retrieval | |
Sasikumar et al. | A survey of natural language question answering system | |
Wang et al. | ReSLLM: Large language models are strong resource selectors for federated search | |
KR20200089893A (en) | The health information storage and searching system using Big-data text mining and Block-chain technology | |
JP6034674B2 (en) | Search information obfuscation device, search information obfuscation method, and program | |
Faggioli et al. | Query Obfuscation for Information Retrieval Through Differential Privacy | |
KR20130032660A (en) | System and method for searching leakage of individual information | |
EP2775420A1 (en) | Semantic search over encrypted data | |
JP2023518111A (en) | Encrypted search for encrypted data with reduced volume leakage | |
Grzebala et al. | Private record linkage: Comparison of selected techniques for name matching | |
Nobili | Review OSINT tool for social engineering | |
Chaudhari et al. | An In-Depth Analysis on Efficiency and Vulnerabilities on a Cloud-Based Searchable Symmetric Encryption Solution | |
Sousa et al. | Privacy in open search: A review of challenges and solutions | |
Fang et al. | A novel storage and search scheme in cloud computing | |
Zhang | Privacy-preserving Statistical Tools: Differential Privacy and Beyond | |
Yamamoto et al. | A study on the information content leaked from queries to search engines and its reduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150828 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160630 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160802 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160926 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161025 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161028 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6034674 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |