[go: up one dir, main page]

JP6034674B2 - Search information obfuscation device, search information obfuscation method, and program - Google Patents

Search information obfuscation device, search information obfuscation method, and program Download PDF

Info

Publication number
JP6034674B2
JP6034674B2 JP2012258906A JP2012258906A JP6034674B2 JP 6034674 B2 JP6034674 B2 JP 6034674B2 JP 2012258906 A JP2012258906 A JP 2012258906A JP 2012258906 A JP2012258906 A JP 2012258906A JP 6034674 B2 JP6034674 B2 JP 6034674B2
Authority
JP
Japan
Prior art keywords
search
phrase
search information
obfuscation
obfuscated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012258906A
Other languages
Japanese (ja)
Other versions
JP2014106723A (en
Inventor
亮博 小林
亮博 小林
啓一郎 帆足
啓一郎 帆足
服部 元
元 服部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2012258906A priority Critical patent/JP6034674B2/en
Publication of JP2014106723A publication Critical patent/JP2014106723A/en
Application granted granted Critical
Publication of JP6034674B2 publication Critical patent/JP6034674B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、インターネット上の検索における検索情報を難読化する検索情報難読化装置、検索情報難読化方法、およびプログラムに関する。   The present invention relates to a search information obfuscation apparatus, a search information obfuscation method, and a program for obfuscating search information in a search on the Internet.

近年、ユーザはインターネット上の検索システムを用いて様々な情報収集を行なっている。ユーザがインターネット上の検索エンジンを用いる場合、検索クエリにキーワード等(以下、検索キーワードという)を入力して検索エンジンに問い合わせを行なっている。この検索キーワードは、ユーザが何を欲しているかを表し、情報価値は極めて高い。そのため、検索キーワードの統計情報を取ることにより、ユーザの趣味や嗜好を調べてマーケティングに活用する検索エンジンも存在している(例えば、非特許文献1参照)。   In recent years, users have collected various information using a search system on the Internet. When a user uses a search engine on the Internet, a keyword or the like (hereinafter referred to as a search keyword) is input as a search query to make an inquiry to the search engine. This search keyword represents what the user wants, and the information value is extremely high. For this reason, there are search engines that take statistical information of search keywords to examine user hobbies and preferences and use them in marketing (see, for example, Non-Patent Document 1).

一方で、趣味や嗜好を他人に知られることをプライバシーの侵害と考えるユーザや、企業の研究機関のように現在どういった事柄に着目していてどんな内容を中心に情報収集しているか知られたくないユーザは、例えマーケティング目的であっても検索キーワードを第三者に取得されたくない。   On the other hand, it is known what kind of content is focused on and what information is currently collected, such as users who think that hobbies and preferences are known to others as infringement of privacy and corporate research institutions. Users who do not want to search do not want to be acquired by a third party even for marketing purposes.

ここで、検索時に、検索キーワードが漏えいする経路としては2種類考えられる。ひとつは、ユーザが検索エンジンに検索キーワードを含む検索クエリを送信する間で盗聴されるケースであって、もうひとつは、検索エンジン内部にて検索キーワードが収集されるケースである。一つ目のケースに対しては、通信経路では検索クエリを暗号化することによって検索キーワードが漏えいすることを防ぐ手法がよく用いられる(例えば、非特許文献2参照)。非特許文献2で述べられている手法では、検索エンジンや検索用データベースがクラウドサービス等の外部にあった場合でもセキュアに検索を行うことができる。   Here, there are two possible routes through which search keywords leak during search. One is a case where the user is eavesdropped while transmitting a search query including a search keyword to the search engine, and the other is a case where the search keyword is collected inside the search engine. For the first case, a technique for preventing a search keyword from leaking by encrypting a search query in a communication path is often used (for example, see Non-Patent Document 2). With the technique described in Non-Patent Document 2, a search can be performed securely even when a search engine or a search database is outside a cloud service or the like.

しかしながら、この手法においても、検索エンジンから適切な検索結果を得るためには、暗号化された検索クエリは検索エンジンで復号される必要があり、検索エンジン内部にて検索キーワードが収集される二つ目のケースによる検索キーワードの漏えいを防ぐことはできないという問題点があった。   However, even in this method, in order to obtain an appropriate search result from the search engine, the encrypted search query needs to be decrypted by the search engine, and the search keyword is collected inside the search engine. There was a problem that the leakage of search keywords due to the eye case could not be prevented.

googleプライバシーポリシ「http://www.google.co.jp/intl/ja/policies/privacy/」[2012年11月15日検索]Google privacy policy “http://www.google.co.jp/intl/ja/policy/privacy/” [retrieved on November 15, 2012] 数値を含むテキストの類似検索が可能なフィンガープリント技術:高杰,片山佳則,森川郁也,津田宏,情報処理学会研究報告.情報学基礎研究会報告2011−IFAT−104(2),1−7,2011−11−15Fingerprint technology that enables similar retrieval of text containing numbers: Takatsuki, Yoshinori Katayama, Junya Morikawa, Hiroshi Tsuda, Information Processing Society of Japan. Report of Basic Research Group on Informatics 2011-IFAT-104 (2), 1-7, 2011-11-15

そこで、特開2009−198175号公報に記載されている、周囲の環境と同等の信号を出すことで、攻撃者からの観測を困難にする技術を利用して、一の検索ユーザが、多数の検索クエリを検索エンジンに送信する手法が考えられる。この手法では、どの検索クエリに含まれる検索キーワードが検索ユーザにとって重要な情報であるか、検索エンジン側で分析することを困難にし、二つ目のケースによる検索キーワードの漏えいを防ぐことができる。   Therefore, by using a technique described in Japanese Patent Application Laid-Open No. 2009-198175 that makes it difficult to observe from an attacker by outputting a signal equivalent to the surrounding environment, A method for transmitting a search query to a search engine is conceivable. This technique makes it difficult for the search engine to analyze which search query includes the search keyword that is important information for the search user, and prevents leakage of the search keyword due to the second case.

しかしながら、多数の検索クエリを作成したり、多数の検索クエリを検索エンジンに送信したりするには、極めて大きな設備とコストが必要になると問題点があった。また、多数の検索クエリを送信するために、ユーザが必要な情報を取得するまでに時間を要するといった問題点もあった。   However, in order to create a large number of search queries and to send a large number of search queries to a search engine, there is a problem that extremely large equipment and cost are required. In addition, since a large number of search queries are transmitted, there is a problem that it takes time until the user acquires necessary information.

そこで、本発明は、上述の課題に鑑みてなされたものであり、検索情報の語句を他の語句に置き換えることや、検索情報の言語傾向を難読化する語句を検索情報と組み合わせることによって、難読化した検索情報で検索を行うことにより、セキュアなインターネット検索を実現する検索情報難読化装置、検索情報難読化方法、およびプログラムを提供することを目的とする。また、秘密情報の言語傾向を統計的に難読化することを目的とする。   Therefore, the present invention has been made in view of the above-described problems, and is difficult to read by replacing a phrase of the search information with another phrase or combining a phrase that obfuscates the language tendency of the search information with the search information. It is an object of the present invention to provide a search information obfuscation device, a search information obfuscation method, and a program that realize secure Internet search by performing a search with the converted search information. Another objective is to statistically obfuscate the language tendency of confidential information.

本発明は、上記の課題を解決するために、以下の事項を提案している。なお、理解を容易にするために、本発明の実施形態に対応する符号を付して説明するが、これに限定されるものではない。   The present invention proposes the following matters in order to solve the above problems. In addition, in order to make an understanding easy, although the code | symbol corresponding to embodiment of this invention is attached | subjected and demonstrated, it is not limited to this.

(1) 本発明は、インターネット検索に関する検索情報における言語傾向を、第三者から難読化する検索情報難読化装置(例えば、図1の検索情報難読化装置100に相当)であって、語句間の関連を示す辞書データを記憶する辞書記憶手段(例えば、図1の辞書記憶部120に相当)と、前記検索情報に含まれる検索語句に関連する関連検索語句を前記辞書記憶手段から難読化語句として取得する関連語句取得手段(例えば、図1の関連語句取得部111に相当)と、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれについて関連が低い低関連検索語句を前記辞書記憶手段から前記難読化語句として取得する低関連検索語句取得手段(例えば、図1の低関連検索語句取得部112に相当)と、前記関連語句取得手段および前記低関連検索語句取得手段で取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する難読検索情報生成手段(例えば、図1の難読検索情報生成部130に相当)と、を備えることを特徴とする検索情報難読化装置を提案している。 (1) The present invention is a search information obfuscation device (e.g., equivalent to the search information obfuscation device 100 of FIG. 1) that obfuscates a language tendency in search information related to Internet search from a third party. Dictionary storage means for storing dictionary data indicating the relationship of the search information (for example, equivalent to the dictionary storage unit 120 in FIG. 1), and related search phrases related to the search phrases included in the search information are obfuscated from the dictionary storage means As a related phrase acquisition unit (for example, equivalent to the related phrase acquisition unit 111 of FIG. 1), and a process of acquiring a phrase related to the phrase acquired from the dictionary storage unit from the dictionary storage unit one or more times, Low-related search phrase acquisition means (for example, FIG. 1) that acquires a low-relevance search phrase that is low in relation to each acquired phrase group from the dictionary storage means as the obfuscated phrase. The low-related search phrase acquisition unit 112) , the obfuscation search information that generates the obfuscation search information based on the search information and the obfuscation phrases acquired by the related phrase acquisition means and the low-relevance search phrase acquisition means A search information obfuscation apparatus is proposed that includes a generation unit (e.g., corresponding to the obfuscation search information generation unit 130 in FIG. 1).

この発明によれば、辞書記憶手段は、語句間の関連を示す辞書データを記憶する。関連語句取得手段は、検索情報に含まれる検索語句に関連する関連検索語句を辞書記憶手段から難読化語句として取得する。低関連検索語句取得手段は、辞書記憶手段から取得した語句と関連する語句を辞書記憶手段から取得する処理を1回以上繰り返し、取得した語句群それぞれについて関連が低い低関連検索語句を辞書記憶手段から前記難読化語句として取得する。難読検索情報生成手段は、関連語句取得手段および低関連検索語句取得手段で取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する。したがって、検索情報に、検索情報と関連する関連語句および検索情報と階層状に関連する関連語句群ぞれぞれと関連の低い低関連検索語句を組み合わせて、検索情報の言語傾向と異なる言語傾向を持った難読検索情報を用いて検索することにより、第三者に検索情報を欺瞞することができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。 According to the present invention, the dictionary storage means stores dictionary data indicating the relationship between words. The related phrase acquisition unit acquires a related search phrase related to the search phrase included in the search information from the dictionary storage unit as an obfuscated phrase. The low-related search phrase acquisition unit repeats the process of acquiring a phrase related to the phrase acquired from the dictionary storage unit from the dictionary storage unit one or more times, and the dictionary storage unit stores the low-related search phrase that is low in relation to each acquired phrase group. From the obfuscated word. The obfuscation search information generation means generates the obfuscation search information based on the obfuscated words and the search information acquired by the related phrase acquisition means and the low related search phrase acquisition means . Therefore, by combining the search information with related terms and phrases related to the search information and low related search terms that are less relevant to the search information and related terms and phrases related to the hierarchy, the language tendency is different from the language tendency of the search information. The search information can be deceived by a third party by searching using the obfuscated search information having the. As a result, it is possible to realize a secure Internet search that is difficult to leak search information to a third party.

(2) 本発明は、(1)の検索情報難読化装置について、前記低関連検索語句取得手段が、前記検索情報に含まれる検索語句と関連が低い低関連検索語句を、前記辞書記憶手段から取得し、当該取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群を前記難読化語句として取得することを特徴とする検索情報難読化装置を提案している。 (2) The present invention relates to the search information obfuscation device of (1), wherein the low-related search word acquisition unit extracts a low-related search word / phrase having a low relationship with the search word / phrase included in the search information from the dictionary storage unit. A retrieval information obfuscation apparatus, characterized in that a process of acquiring and acquiring a phrase related to the acquired phrase from the dictionary storage means is repeated one or more times, and the acquired phrase group is acquired as the obfuscated phrase. is suggesting.

この発明によれば、低関連検索語句取得手段が、検索情報に含まれる検索語句と関連が低い低関連検索語句を、辞書記憶手段から取得し、取得した語句と関連する語句を辞書記憶手段から取得する処理を1回以上繰り返し、取得した語句群を難読化語句として取得する。したがって、検索情報に、検索語句と関連が低い低関連検索語句および低関連検索語句に階層状に関連する語句群を組み合わせることにより、第三者が難読検索情報を解析した際に、低関連検索語句と低関連検索語句に階層状に関連する語句群とから得られる言語傾向を抽出させて、本当の検索情報の言語傾向を抽出させなくすることができる。その結果、第三者に検索情報がより漏えいしにくい、よりセキュアなインターネット検索を実現することができる。 According to this invention, the low-related search phrase acquisition unit acquires from the dictionary storage unit the low-related search phrase that is not related to the search phrase included in the search information, and the phrase related to the acquired phrase from the dictionary storage unit. The process of acquiring is repeated one or more times, and the acquired phrase group is acquired as an obfuscated phrase. Therefore, when a third party analyzes the obfuscated search information by combining the search information with a low-related search phrase that is not related to the search phrase and a group of words related to the low-related search phrase in a hierarchical manner, the low-relevance search It is possible to extract the linguistic tendency obtained from the phrase and the phrase group related in a hierarchical manner to the phrase and the low-relevance search phrase, so that the linguistic tendency of the real search information is not extracted. As a result, it is possible to realize a more secure Internet search that is less likely to leak search information to a third party.

(3) 本発明は、(1)または(2)の検索情報難読化装置について、前記難読化語句取得手段が、前記検索情報に含まれる前記インターネット検索の主体を特定する検索主体情報と関連がある検索主体関連語句を、前記辞書記憶手段から前記難読化語句として取得する検索主体関連語句取得手段(例えば、図1の検索主体関連語句取得部113に相当)を備え、前記難読検索情報生成手段が、前記検索主体関連語句取得手段で取得した前記難読化語句を、前記検索情報に組み合わせて難読検索情報を生成することを特徴とする検索情報難読化装置を提案している。 (3) The present invention relates to the search information obfuscation device according to (1) or (2), wherein the obfuscation word acquisition unit is related to search subject information that identifies the subject of the Internet search included in the search information. Search obfuscation search information generation means comprising search subject related phrase acquisition means (for example, equivalent to the search subject related phrase acquisition unit 113 in FIG. 1) for acquiring a search subject related phrase as the obfuscated phrase from the dictionary storage means However, the search information obfuscation apparatus is characterized in that the obfuscation search information is generated by combining the obfuscation phrase acquired by the search subject related phrase acquisition unit with the search information.

この発明によれば、検索主体関連語句取得手段は、検索情報に含まれるインターネット検索の主体を特定する検索主体情報と関連がある検索主体関連語句を、辞書記憶手段から難読化語句として取得する。難読検索情報生成手段が、検索主体関連語句取得手段で取得した難読化語句を、検索情報に組み合わせて難読検索情報を生成する。したがって、検索情報に検索主体と関連がある検索主体関連語句を組み合わせることにより、検索情報の言語傾向と異なる言語傾向を持った難読検索情報によって検索を行うことができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。 According to this invention, the search subject-related phrase acquisition unit acquires, as an obfuscated phrase, from the dictionary storage unit, a search subject-related phrase that is related to the search subject information that identifies the subject of the Internet search included in the search information. The obfuscated search information generating means generates the obfuscated search information by combining the obfuscated words acquired by the search subject related word acquiring means with the search information. Therefore, by combining the search information with a search subject-related phrase that is related to the search subject in the search information, it is possible to perform a search using the obfuscated search information having a language tendency different from the language tendency of the search information. As a result, it is possible to realize a secure Internet search that is difficult to leak search information to a third party.

(4) 本発明は、(3)の検索情報難読化装置について、前記検索情報に含まれる前記検索主体情報と関連が低い低関連検索主体語句を、前記辞書記憶手段から前記難読化語句として取得する低関連検索主体語句取得手段(例えば、図1の低関連検索主体語句取得部114に相当)を備え、前記難読検索情報生成手段が、前記低関連検索主体語句取得手段で取得した前記難読化語句を、前記検索情報に組み合わせて難読検索情報を生成することを特徴とする検索情報難読化装置を提案している。 (4) In the search information obfuscation device according to (3), the present invention obtains, as the obfuscated phrase, from the dictionary storage means, a low-relevance search subject phrase that is not related to the search subject information included in the search information. The obfuscation obtained by the obfuscated search information generating unit is acquired by the low related search subject phrase acquiring unit (for example, the low related search subject phrase acquiring unit 114 of FIG. 1). A search information obfuscation apparatus has been proposed in which obfuscation search information is generated by combining a phrase with the search information .

この発明によれば、低関連検索主体語句取得手段は、検索情報に含まれる検索主体情報と関連が低い低関連検索主体語句を、辞書記憶手段から難読化語句として取得する。難読検索情報生成手段が、低関連検索主体語句取得手段で取得した難読化語句を、検索情報に組み合わせて難読検索情報を生成する。したがって、検索情報に検索主体と関連が低い低関連検索主体語句を組み合わせることにより、検索情報の言語傾向と異なる言語傾向を持った難読検索情報によって検索を行うことができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。 According to this invention, the low-related search subject phrase acquisition unit acquires, as an obfuscated phrase, from the dictionary storage unit, the low-related search subject phrase that is not related to the search subject information included in the search information. The obfuscation search information generation unit generates the obfuscation search information by combining the obfuscated words acquired by the low-related search subject word acquisition unit with the search information. Therefore, by combining the search information with a low-relevance search subject word / phrase having a low relationship with the search subject, it is possible to perform a search using the obfuscated search information having a language tendency different from the language tendency of the search information. As a result, it is possible to realize a secure Internet search that is difficult to leak search information to a third party.

(5) 本発明は(4)の検索情報難読化装置について、前記低関連検索主体語句取得手段が、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれと関連する低関連検索主体語句を前記辞書記憶手段から前記難読化語句として取得することを特徴とする検索情報難読化装置を提案している。 (5) The present invention is, for search information obfuscation device (4), wherein the low Related searches main word acquisition unit, a process of acquiring a word associated with the word acquired from the dictionary storage means from the dictionary storage means A search information obfuscation apparatus is proposed, characterized in that it repeats one or more times, and acquires the low-relevance search subject word / phrase associated with each of the acquired word / phrase groups as the obfuscated word / phrase from the dictionary storage means .

この発明によれば、低関連検索主体語句取得手段は、辞書記憶手段から取得した語句と関連する語句を辞書記憶手段から取得する処理を1回以上繰り返し、取得した語句群それぞれと関連する低関連検索主体語句を辞書記憶手段から難読化語句として取得する。したがって、検索情報に検索主体と関連が低い低関連検索主体語句および低関連検索語句に階層状に関連する語句群を組み合わせることにより、第三者が難読検索情報を解析した際に、低関連検索語句に階層状に関連する語句群とから得られる言語傾向を抽出させて、本当の検索情報の言語傾向を抽出させなくすることができる。その結果、第三者に検索情報がより漏えいしにくい、よりセキュアなインターネット検索を実現することができる。 According to this invention, the low-relevance search subject phrase acquisition unit repeats the process of acquiring the phrase related to the phrase acquired from the dictionary storage unit from the dictionary storage unit one or more times , and the low-relevance search subject phrase acquisition unit relates to each acquired phrase group. The search subject phrase is acquired from the dictionary storage means as an obfuscated phrase . Therefore, when a third party analyzes the obfuscated search information by combining the search information with a low-relevance search subject phrase that is not related to the search subject and a low-relevance search phrase in a hierarchical manner, It is possible to extract the linguistic tendency obtained from the phrase group related to the phrase in a hierarchical manner, and not to extract the linguistic tendency of the real search information. As a result, it is possible to realize a more secure Internet search that is less likely to leak search information to a third party.

(6) 本発明は、(1)から(5)の検索情報難読化装置について、前記難読検索情報による前記インターネット検索により取得されたコンテンツを、当該難読検索情報に対応する当該検索情報と対応付けて記憶する検索コンテンツ記憶手段(例えば、図3の検索コンテンツ記憶部150に相当)と、前記検索コンテンツ記憶手段に記憶されているコンテンツと当該コンテンツに対応付けられている前記検索情報とに基づいて、当該検索情報に含まれる検索語句の出現頻度に基づいて、前記難読検索情報に含める難読化語句数を決定する難読化語句数決定手段(例えば、図3の難読化語句数決定部160に相当)と、を備え、前記難読検索情報生成手段が、前記難読化語句数決定手段で決定された難読化語句数に基づいて、前記難読化語句から前記難読検索情報に含める前記難読化語句を選択することを特徴とする検索情報難読化装置を提案している。 (6) The present invention relates to the search information obfuscation device of (1) to (5), and associates the content acquired by the Internet search with the obfuscation search information with the search information corresponding to the obfuscation search information. Search content storage means (for example, corresponding to the search content storage unit 150 in FIG. 3), the content stored in the search content storage means, and the search information associated with the content. The number of obfuscation phrases determining means for determining the number of obfuscation phrases included in the obfuscation search information based on the appearance frequency of the search phrases included in the search information (for example, equivalent to the obfuscation phrase count determination unit 160 in FIG. 3) ), And the obfuscation search information generation means is based on the number of obfuscation words determined by the obfuscation word number determination means. It proposes a search information obfuscation apparatus characterized by selecting the obfuscated phrase including al the obfuscation search information.

この発明によれば、検索コンテンツ記憶手段は、難読検索情報によるインターネット検索により取得されたコンテンツを、難読検索情報に対応する検索情報と対応付けて記憶する。難読化語句数決定手段は、検索コンテンツ記憶手段に記憶されているコンテンツとコンテンツに対応付けられている検索情報とに基づいて、検索情報に含まれる検索語句の出現頻度に基づいて、難読検索情報に含める難読化語句数を決定する。難読検索情報生成手段は、難読化語句数決定手段で決定された難読化語句数に基づいて、難読化語句から難読検索情報に含める難読化語句を選択する。したがって、検索結果のコンテンツに含まれる検索情報の出現頻度に応じて、検索に用いる難読検索情報に含める難読化語句数を決定することによって、検索情報の言語傾向を統計的に難読化することができる。その結果、検索情報の漏えいしにくさ、すなわち、検索情報の機密性の度合を任意に設定することができる。 According to this invention, the search content storage means stores the content acquired by the Internet search using the obfuscated search information in association with the search information corresponding to the obfuscated search information. The obfuscation word count determining means is based on the content stored in the search content storage means and the search information associated with the content, and based on the appearance frequency of the search words included in the search information, Determine the number of obfuscated words to include. The obfuscation search information generation unit selects the obfuscation words to be included in the obfuscation search information from the obfuscation words based on the number of obfuscation words determined by the obfuscation word number determination unit. Therefore, it is possible to statistically obfuscate the linguistic tendency of the search information by determining the number of obfuscated words included in the obfuscated search information used for the search according to the appearance frequency of the search information included in the search result content. it can. As a result, it is possible to arbitrarily set the difficulty of leaking search information, that is, the degree of confidentiality of search information.

(7) 本発明は、インターネット検索に関する検索情報の言語傾向を、第三者から難読化する検索情報難読化装置における検索情報難読化方法であって、前記検索情報難読化装置が、語句間の関連を示す辞書データを記憶する辞書記憶手段、関連語句取得手段、低関連検索語句取得手段、および難読検索情報生成手段を備え、前記関連語句取得手段が、前記検索情報に含まれる検索語句に関連する関連検索語句を前記辞書記憶手段から難読化語句として取得する第1のステップ(例えば、図2のステップS1に相当)と、前記低関連検索語句取得手段が、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれについて関連が低い低関連検索語句を前記辞書記憶手段から前記難読化語句として取得する第2のステップ(例えば、図2のステップS2に相当)と、前記難読検索情報生成手段が、前記第1のステップおよび前記第2のステップで取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する第3のステップ(例えば、図2のステップS2に相当)と、を含むことを特徴とする検索情報難読化方法を提案している。 (7) The present invention relates to a search information obfuscation method in a search information obfuscation device that obfuscates a language tendency of search information related to Internet search from a third party, wherein the search information obfuscation device is a term between words. A dictionary storage means for storing dictionary data indicating association, a related phrase acquisition means, a low-related search phrase acquisition means, and an obfuscated search information generation means are provided, and the related phrase acquisition means is related to a search phrase included in the search information A first step (for example, corresponding to step S1 in FIG. 2) of acquiring the related search phrase as an obfuscated phrase from the dictionary storage means, and the phrase acquired by the low related search phrase acquisition means from the dictionary storage means The process of acquiring a word or phrase related to the word from the dictionary storage means is repeated one or more times, and low related search phrases that are less relevant for each of the acquired word groups are stored in the dictionary. A second step (for example, corresponding to step S2 in FIG. 2) acquired from the storage means as the obfuscated phrase, and the obfuscation search information generating means acquired in the first step and the second step. A search information obfuscation method comprising: a third step (for example, corresponding to step S2 of FIG. 2) for generating obfuscation search information based on the vocabulary and the search information Yes.

この発明によれば、まず、第1のステップにおいて、関連語句取得手段が、検索情報に含まれる検索語句に関連する関連検索語句を辞書記憶手段から難読化語句として取得する。次に、第2のステップにおいて、低関連検索語句取得手段が、辞書記憶手段から取得した語句と関連する語句を辞書記憶手段から取得する処理を1回以上繰り返し、取得した語句群それぞれについて関連が低い低関連検索語句を辞書記憶手段から難読化語句として取得する次に、第3のステップにおいて、難読検索情報生成手段が、第1のステップおよび第2のステップで取得した難読化語句と検索情報とに基づいて、難読検索情報を生成する。したがって、検索情報に、検索情報と関連する関連語句および検索情報と階層状に関連する関連語句群ぞれぞれと関連の低い低関連検索語句を組み合わせて、検索情報の言語傾向と異なる言語傾向を持った難読検索情報を用いて検索することにより、第三者に検索情報を欺瞞することができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。 According to this invention, first, in a first step, the related phrase acquisition unit acquires a related search phrase related to the search phrase included in the search information from the dictionary storage unit as an obfuscated phrase. Next, in the second step, the low-related search phrase acquisition unit repeats the process of acquiring the phrase related to the phrase acquired from the dictionary storage unit from the dictionary storage unit one or more times, and the relationship is obtained for each acquired phrase group. A low low-related search phrase is obtained as an obfuscated phrase from the dictionary storage means . Next, in the third step, the obfuscated search information generating means generates the obfuscated search information based on the obfuscated words and the search information acquired in the first step and the second step. Therefore, by combining the search information with related terms and phrases related to the search information and low related search terms that are less relevant to the search information and related terms and phrases related to the hierarchy, the language tendency is different from the language tendency of the search information. The search information can be deceived by a third party by searching using the obfuscated search information having the. As a result, it is possible to realize a secure Internet search that is difficult to leak search information to a third party.

(8) 本発明は、インターネット検索に関する検索情報の言語傾向を、第三者から難読化する検索情報難読化装置における検索情報難読化方法をコンピュータに実行させるためのプログラムであって、前記検索情報難読化装置が、語句間の関連を示す辞書データを記憶する辞書記憶手段、関連語句取得手段、低関連検索語句取得手段、および難読検索情報生成手段を備え、前記関連語句取得手段が、前記検索情報に含まれる検索語句に関連する関連検索語句を前記辞書記憶手段から難読化語句として取得する第1のステップ(例えば、図2のステップS1に相当)と、前記低関連検索語句取得手段が、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれについて関連が低い低関連検索語句を前記辞書記憶手段から前記難読化語句として取得する第2のステップ(例えば、図2のステップS2に相当)と、前記難読検索情報生成手段が、前記第1のステップおよび前記第2のステップで取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する第3のステップ(例えば、図2のステップS2に相当)と、をコンピュータに実行させるためのプログラムを提案している。 (8) The present invention is a program for causing a computer to execute a search information obfuscation method in a search information obfuscation apparatus that obfuscates a language tendency of search information related to Internet search from a third party. The obfuscation apparatus includes a dictionary storage unit that stores dictionary data indicating a relationship between phrases, a related phrase acquisition unit, a low-related search phrase acquisition unit, and an obfuscation search information generation unit, and the related phrase acquisition unit includes the search A first step (for example, corresponding to step S1 in FIG. 2) of acquiring a related search phrase related to a search phrase included in information as an obfuscated phrase from the dictionary storage unit, and the low-related search phrase acquisition unit, Repeat the process of acquiring a phrase related to the phrase acquired from the dictionary storage means from the dictionary storage means at least once, and each of the acquired phrase groups A second step (for example, corresponding to step S2 in FIG. 2) of acquiring a low-relevance search phrase having a low relation from the dictionary storage unit as the obfuscated phrase; And causing the computer to execute a third step (for example, corresponding to step S2 in FIG. 2) of generating obfuscated search information based on the obfuscated phrase acquired in the step and the second step and the search information. A program for this is proposed.

この発明によれば、まず、第1のステップにおいて、関連語句取得手段が、検索情報に含まれる検索語句に関連する関連検索語句を辞書記憶手段から難読化語句として取得する。次に、第2のステップにおいて、低関連検索語句取得手段が、辞書記憶手段から取得した語句と関連する語句を辞書記憶手段から取得する処理を1回以上繰り返し、取得した語句群それぞれについて関連が低い低関連検索語句を辞書記憶手段から難読化語句として取得する次に、第3のステップにおいて、難読検索情報生成手段が、第1のステップおよび第2のステップで取得した難読化語句と検索情報とに基づいて、難読検索情報を生成する。したがって、検索情報に、検索情報と関連する関連語句および検索情報と階層状に関連する関連語句群ぞれぞれと関連の低い低関連検索語句を組み合わせて、検索情報の言語傾向と異なる言語傾向を持った難読検索情報を用いて検索することにより、第三者に検索情報を欺瞞することができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。 According to this invention, first, in a first step, the related phrase acquisition unit acquires a related search phrase related to the search phrase included in the search information from the dictionary storage unit as an obfuscated phrase. Next, in the second step, the low-related search phrase acquisition unit repeats the process of acquiring the phrase related to the phrase acquired from the dictionary storage unit from the dictionary storage unit one or more times, and the relationship is obtained for each acquired phrase group. A low low-related search phrase is obtained as an obfuscated phrase from the dictionary storage means . Next, in the third step, the obfuscated search information generating means generates the obfuscated search information based on the obfuscated words and the search information acquired in the first step and the second step. Therefore, by combining the search information with related terms and phrases related to the search information and low related search terms that are less relevant to the search information and related terms and phrases related to the hierarchy, the language tendency is different from the language tendency of the search information. The search information can be deceived by a third party by searching using the obfuscated search information having the. As a result, it is possible to realize a secure Internet search that is difficult to leak search information to a third party.

本発明によれば、検索情報の語句を他の語句に置き換えることや、検索情報の言語傾向を難読化する語句を検索情報と組み合わせることによって、難読化した検索情報で検索を行うことにより、セキュアなインターネット検索を実現することができる。また、秘密情報の言語傾向を統計的に難読化することができる。   According to the present invention, a secure search is performed by performing a search with obfuscated search information by replacing a search phrase with another phrase, or by combining a phrase that obfuscates the language tendency of the search information with the search information. Internet search can be realized. Moreover, it is possible to statistically obfuscate the language tendency of the secret information.

本発明の第1の実施形態における検索情報難読化装置の機能構成を示す図である。It is a figure which shows the function structure of the search information obfuscation apparatus in the 1st Embodiment of this invention. 本発明の第1の実施形態における検索情報難読化装置における検索情報難読化処理のフロー図である。It is a flowchart of the search information obfuscation process in the search information obfuscation apparatus in the 1st Embodiment of this invention. 本発明の第2の実施形態における検索情報難読化装置の機能構成を示す図である。It is a figure which shows the function structure of the search information obfuscation apparatus in the 2nd Embodiment of this invention. 本発明の第3の実施形態における検索情報難読化装置の機能構成を示す図である。It is a figure which shows the function structure of the search information obfuscation apparatus in the 3rd Embodiment of this invention.

以下、図面を用いて、本発明の実施形態について詳細に説明する。なお、本実施形態における構成要素は適宜、既存の構成要素等との置き換えが可能であり、また、他の既存の構成要素との組み合わせを含む様々なバリエーションが可能である。したがって、本実施形態の記載をもって、特許請求の範囲に記載された発明の内容を限定するものではない。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. Note that the constituent elements in the present embodiment can be appropriately replaced with existing constituent elements and the like, and various variations including combinations with other existing constituent elements are possible. Therefore, the description of the present embodiment does not limit the contents of the invention described in the claims.

<第1の実施形態>
<検索情報難読化装置>
図1は、本発明の第1の実施形態における検索情報難読化装置100の機能構成を示す図である。検索情報難読化装置100は、検索情報が第三者に漏えいすることを防ぐために、検索エンジンに送信する検索クエリに含める検索情報の言語傾向を難読化する装置である。ここで、検索情報とは、1以上の検索キーワード、および検索を行ったユーザ(以下、検索ユーザ)の情報から構成されている情報である。図1に示すように、検索情報難読化装置100は、難読化語句取得部110、辞書記憶部120、難読検索情報生成部130、検索部140から構成される。
<First Embodiment>
<Search information obfuscation device>
FIG. 1 is a diagram showing a functional configuration of a search information obfuscation apparatus 100 according to the first embodiment of the present invention. The search information obfuscation apparatus 100 is an apparatus that obfuscates the language tendency of the search information included in the search query transmitted to the search engine in order to prevent the search information from leaking to a third party. Here, the search information is information composed of one or more search keywords and information of a user who performs a search (hereinafter referred to as a search user). As shown in FIG. 1, the search information obfuscation apparatus 100 includes an obfuscation word acquisition unit 110, a dictionary storage unit 120, an obfuscation search information generation unit 130, and a search unit 140.

なお、本実施形態において、検索情報難読化装置100に検索部140が備えられているが、検索情報難読化装置100は検索部140を備えなくてもよい。この場合、検索情報難読化装置100は、他の端末から検索クエリに含まれる検索情報を取得し、取得した検索情報の言語傾向を難読化し、言語傾向を難読化した検索情報を他の端末に返す。   In the present embodiment, the search information obfuscation apparatus 100 includes the search unit 140, but the search information obfuscation apparatus 100 may not include the search unit 140. In this case, the search information obfuscation apparatus 100 acquires the search information included in the search query from another terminal, obfuscates the language tendency of the acquired search information, and sets the search information obfuscated the language tendency to the other terminal. return.

辞書記憶部120は、語句間の関連が定義された辞書データを記憶する。具体的には、辞書記憶部120は、関連する語句が互いに対応付けられて、関連する語句間の関連関係が定義された辞書データが記憶されている。ここで、関連関係とは、類義関係、同義関係、上下関係、包含関係、共起関係、連想関係等の関係である。例えば、関連辞書データには、シソーラス辞書データや共起語辞書データが挙げられる。また、辞書記憶部120は、関連が低い、または、関連がない語句が互いに対応付けられた辞書データを記憶してもよい。更に、辞書記憶部120の辞書データには、関連する語句間の関連度合が含まれてもよい。なお、辞書記憶部120の辞書データに含まれる語は日本語に限らず、英語等の外国語であってもよい。   The dictionary storage unit 120 stores dictionary data in which associations between words are defined. Specifically, the dictionary storage unit 120 stores dictionary data in which related words are associated with each other and a related relationship between related words is defined. Here, the relationship is a relationship such as a synonym relationship, a synonym relationship, a vertical relationship, an inclusion relationship, a co-occurrence relationship, an associative relationship, or the like. For example, the related dictionary data includes thesaurus dictionary data and co-occurrence word dictionary data. In addition, the dictionary storage unit 120 may store dictionary data in which words that are not related or are not related are associated with each other. Further, the dictionary data in the dictionary storage unit 120 may include the degree of association between related words. The words included in the dictionary data in the dictionary storage unit 120 are not limited to Japanese, but may be a foreign language such as English.

難読化語句取得部110は、検索エンジンに送信する検索クエリに含まれる検索情報の言語傾向を難読化するために用いる語句を取得する。本実施形態において、検索情報の言語傾向を難読化するために用いる語句には、検索情報と関連する語句、検索ユーザと関連する語句、および、検索情報や検索ユーザとの関連が低い、または、関連がない語句を用いる。図1に示すように、難読化語句取得部110は、検索情報の言語傾向を難読化するために用いる各語句を取得する、関連語句取得部111、低関連検索語句取得部112、検索主体関連語句取得部113、および低関連検索主体語句取得部114から構成される。   The obfuscated phrase acquisition unit 110 acquires a phrase used to obfuscate the language tendency of the search information included in the search query transmitted to the search engine. In the present embodiment, the phrase used to obfuscate the language tendency of the search information includes a phrase related to the search information, a phrase related to the search user, and a low relationship with the search information and the search user, or Use unrelated words. As shown in FIG. 1, the obfuscation phrase acquisition unit 110 acquires each phrase used to obfuscate the language tendency of the search information, the related phrase acquisition unit 111, the low-related search phrase acquisition unit 112, and the search subject-related A word acquisition unit 113 and a low-related search subject word acquisition unit 114 are included.

関連語句取得部111は、検索情報に含まれる各検索キーワードと関連する語句を辞書記憶部120から取得する。例えば、検索キーワードが「太陽電池」の場合には、関連語句取得部111は、辞書記憶部120から、類義関係にある「光電池」、同義関係にある「ソーラーパネル」、共起関係にある「太陽光発電」等を取得する。また、関連語句取得部111は、関連する語句間の関係に基づいて、検索情報に含まれる各検索キーワードと関連する語句を辞書記憶部120から取得してもよい。例えば、関連語句取得部111は、共起関係にある語句のみや連想関係にある語句のみを取得対象とすることができる。なお、関連語句取得部111は、検索情報に含まれる各検索キーワードの情報と関連する語句を辞書記憶部120から全て取得してもよいし、予め設定した数取得してもよい。   The related phrase acquisition unit 111 acquires a phrase related to each search keyword included in the search information from the dictionary storage unit 120. For example, when the search keyword is “solar battery”, the related phrase acquisition unit 111 has a similar relationship “photocell”, a synonymous “solar panel”, and a co-occurrence relationship from the dictionary storage unit 120. Acquire “solar power generation”. Further, the related phrase acquisition unit 111 may acquire a phrase related to each search keyword included in the search information from the dictionary storage unit 120 based on the relationship between the related phrases. For example, the related phrase acquisition unit 111 can acquire only words having a co-occurrence relationship or words having an association relationship. The related phrase acquisition unit 111 may acquire all the phrases related to the information of each search keyword included in the search information from the dictionary storage unit 120, or may acquire a preset number.

辞書記憶部120の辞書データが関連する語句間の関連度合を含む場合には、関連語句取得部111は、関連度合に基づいて、検索情報に含まれる各検索キーワードと関連する語句を辞書記憶部120から取得する。例えば、関連語句取得部111は、検索情報に含まれる各検索キーワードとの関連度合が所定値以上の語句を、検索情報に含まれる各検索キーワードと関連する語句として辞書記憶部120から取得する。   When the dictionary data in the dictionary storage unit 120 includes the degree of association between the related words, the related word acquisition unit 111 displays the word / phrase related to each search keyword included in the search information based on the degree of association. Obtain from 120. For example, the related phrase acquisition unit 111 acquires, from the dictionary storage unit 120, a phrase that has a degree of association with each search keyword included in the search information as a word or phrase related to each search keyword included in the search information.

低関連検索語句取得部112は、検索情報に含まれる各検索キーワードと関連が低い、または、関連がない語句(以下、低関連検索語句という)を辞書記憶部120から取得する。具体的には、低関連検索語句取得部112は、まず、検索情報に含まれる各検索キーワードと関連する語句を辞書記憶部120から取得する。次に、低関連検索語句取得部112は、辞書記憶部120から取得した語句と関連する語句を辞書記憶部120から取得する処理を所定回数繰り返し、検索情報に含まれる各検索キーワードを基点として関連する語句群を取得する。なお、辞書記憶部120から取得した語句と関連する語句を辞書記憶部120から取得する処理を繰り返す所定回数は0回であってもよい。   The low-related search phrase acquisition unit 112 acquires, from the dictionary storage unit 120, a phrase that is low or not related to each search keyword included in the search information (hereinafter referred to as a low-related search phrase). Specifically, the low-related search phrase acquisition unit 112 first acquires a phrase related to each search keyword included in the search information from the dictionary storage unit 120. Next, the low-related search phrase acquisition unit 112 repeats the process of acquiring the phrase related to the phrase acquired from the dictionary storage unit 120 from the dictionary storage unit 120 a predetermined number of times, and uses each search keyword included in the search information as a base point. Get a group of words to do. It should be noted that the predetermined number of times of repeating the process of acquiring the phrase related to the phrase acquired from the dictionary storage unit 120 from the dictionary storage unit 120 may be zero.

そして、低関連検索語句取得部112は、辞書記憶部120において、検索情報に含まれる各検索キーワードを基点とする関連する語句群を除いた語句から、低関連検索語句を取得する。取得方法については、例えば、取得された順に予め設定された所定数分取得してもよいし、乱数等を用いてランダムに所定数分取得してもよい。低関連検索語句取得部112が、辞書記憶部120から取得した語句と関連する語句を辞書記憶部120から取得する処理を所定回数繰り返すことにより、検索情報に含まれる各検索キーワードとの関連がより低い語句を低関連検索語句として取得することができるようになる。   Then, the low-related search word / phrase acquisition unit 112 acquires a low-related search word / phrase from the word / phrase excluding the related word / phrase group based on each search keyword included in the search information in the dictionary storage unit 120. Regarding the acquisition method, for example, a predetermined number of presets may be acquired in the order of acquisition, or a predetermined number may be acquired randomly using random numbers or the like. The low-related search phrase acquisition unit 112 repeats the process of acquiring the phrase related to the phrase acquired from the dictionary storage unit 120 from the dictionary storage unit 120 a predetermined number of times, so that the relationship with each search keyword included in the search information is more A low word can be acquired as a low related search word.

辞書記憶部120が、関連が低い、または、関連がない語句が互いに対応付けられた辞書データを記憶している場合には、この辞書データから検索情報に含まれる各検索キーワードと関連が低い、または、関連がない語句を辞書記憶部120から取得する。また、辞書記憶部120の辞書データに関連する語句間の関連度合が含まれる場合には、低関連検索語句取得部112は、関連度合が低い語句を低関連検索語句として辞書記憶部120から取得する。例えば、関連度合が所定値以下の語句を低関連検索語句として取得したり、関連度合が低い順に所定数の語句を低関連検索語句として取得したりする。   When the dictionary storage unit 120 stores dictionary data in which words that are not related or are not related to each other are stored in the dictionary storage unit 120, the search data included in the search information from the dictionary data has a low relationship. Alternatively, words that are not related are acquired from the dictionary storage unit 120. In addition, when the degree of association between words related to the dictionary data in the dictionary storage unit 120 is included, the low-related search phrase acquisition unit 112 acquires a word / phrase with a low degree of association from the dictionary storage unit 120 as a low-related search word / phrase. To do. For example, a phrase having a relevance degree equal to or less than a predetermined value is acquired as a low-relevance search phrase, or a predetermined number of phrases are acquired as a low-relevance search phrase in descending order of relevance.

また、低関連検索語句取得部112は、取得した低関連検索語句に関連する第二の低関連検索語句や、第二の低関連検索語句に関連する第三の低関連検索語句等、低関連検索語句を基点として関連する語句を低関連検索語句として辞書記憶部120から取得してもよい。低関連検索語句を基点として関連する語句も含む低関連検索語句を難読検索情報の生成に用いることにより、第三者が難読検索情報を解析した際に、低関連検索語句と低関連検索語句を基点として関連する語句とから得られる言語傾向を抽出させて、本当の検索情報の言語傾向を抽出させなくすることにより、第三者に検索情報がより漏えいしにくくなる。なお、低関連検索語句を基点として関連する語句のみを低関連検索語句としてもよい。   In addition, the low-related search phrase acquisition unit 112 has a low-related relation such as a second low-related search phrase related to the acquired low-related search phrase and a third low-related search phrase related to the second low-related search phrase. A related phrase based on the search phrase may be acquired from the dictionary storage unit 120 as a low-related search phrase. By using low-related search phrases that include related words based on low-related search phrases in the generation of obfuscated search information, when a third party analyzes the obfuscated search information, the low-related search phrases and the low-related search phrases By extracting the linguistic tendency obtained from the related phrase as a base point and not extracting the linguistic tendency of the real search information, it becomes more difficult for a third party to leak the search information. Note that only low-relevance search terms may be used as low-relevance search terms.

検索主体関連語句取得部113は、検索情報に含まれる検索ユーザの情報と関連する語句を辞書記憶部120から取得する。ここで、検索ユーザの情報とは、検索ユーザの属性情報であって、例えば、検索ユーザが所属する会社名や学校名、検索ユーザの業種等である。例えば、検索ユーザが所属する会社名が「KDDI株式会社」である場合に、共起関係にある「au」や「LISMO!」等を辞書記憶部120から取得する。検索主体関連語句取得部113は、検索情報に含まれる検索ユーザの情報と関連する語句を辞書記憶部120から全て取得してもよいし、予め設定した数取得してもよい。   The search subject related phrase acquisition unit 113 acquires the phrase related to the search user information included in the search information from the dictionary storage unit 120. Here, the search user information is attribute information of the search user, for example, a company name or a school name to which the search user belongs, a business type of the search user, and the like. For example, when the company name to which the search user belongs is “KDDI Corporation”, “au”, “LISMO!”, And the like having a co-occurrence relationship are acquired from the dictionary storage unit 120. The search subject-related phrase acquisition unit 113 may acquire all the phrases related to the search user information included in the search information from the dictionary storage unit 120, or may acquire a preset number.

検索主体関連語句取得部113は、関連語句取得部111と同様に、関連する語句間の関係に基づいて、検索情報に含まれる各検索キーワードと関連する語句を辞書記憶部120から取得してもよい。また、辞書記憶部120が関連する語句間の関連度合を併せて記憶している場合には、検索主体関連語句取得部113は、関連語句取得部111と同様に、関連度合に基づいて、検索情報に含まれる各検索キーワードと関連する語句を辞書記憶部120から取得することもできる。   Similarly to the related phrase acquisition unit 111, the search subject related phrase acquisition unit 113 may acquire a phrase related to each search keyword included in the search information from the dictionary storage unit 120 based on the relationship between the related phrases. Good. In addition, when the dictionary storage unit 120 also stores the degree of association between related words, the search subject-related word acquisition unit 113 searches based on the degree of association similarly to the related word acquisition unit 111. Words and phrases related to each search keyword included in the information can also be acquired from the dictionary storage unit 120.

低関連検索主体語句取得部114は、検索情報に含まれる検索ユーザの情報と関連が低い、または、関連がない語句を辞書記憶部120から取得する。低関連検索主体語句取得部114の具体的な処理は、低関連検索語句取得部112と同様であって、検索情報に含まれる検索ユーザの情報を基点として関連する語句群を取得し、辞書記憶部120において、検索情報に含まれる検索ユーザの情報を基点として関連する語句群を除いた語句から、低関連検索主体語句を取得する。   The low-related search subject phrase acquisition unit 114 acquires, from the dictionary storage unit 120, a phrase that has low or no relation to the search user information included in the search information. The specific processing of the low-relevance search subject phrase acquisition unit 114 is the same as that of the low-relevance search phrase acquisition unit 112, acquires a related phrase group based on the search user information included in the search information, and stores the dictionary The unit 120 acquires a low-relevance search subject word / phrase from a word / phrase excluding a related word / phrase group based on search user information included in the search information.

辞書記憶部120が、関連が低い、または、関連がない語句が互いに対応付けられた辞書データを記憶している場合も低関連検索語句取得部112と同様であって、低関連検索主体語句取得部114は、この辞書データから検索情報に含まれる検索ユーザの情報と関連が低い、または、関連がない語句を辞書記憶部120から取得する。また、辞書記憶部120の辞書データに関連する語句間の関連度合が含まれる場合も低関連検索語句取得部112と同様であって、低関連検索主体語句取得部114は、検索情報に含まれる検索ユーザの情報と関連度合が低い語句を低関連検索語句として辞書記憶部120から取得する。   When the dictionary storage unit 120 stores dictionary data in which words that are not related or not related are associated with each other, the dictionary storage unit 120 is similar to the low-related search word acquisition unit 112 and acquires a low-related search subject word / phrase. The unit 114 acquires, from the dictionary storage unit 120, words / phrases that are low or unrelated to the search user information included in the search information from the dictionary data. Further, when the degree of association between words related to the dictionary data in the dictionary storage unit 120 is included, it is the same as the low-related search word acquisition unit 112, and the low-related search subject word acquisition unit 114 is included in the search information. A phrase having a low degree of association with the information of the search user is acquired from the dictionary storage unit 120 as a low-related search phrase.

また、低関連検索主体語句取得部114は、取得した低関連検索主体語句に関連する第二の低関連検索主体語句や第二の低関連検索主体語句に関連する第三の低関連検索主体語句等、低関連検索主体語句を基点として関連する語句を低関連主体語句として辞書記憶部120から取得してもよい。   The low-related search subject phrase acquisition unit 114 also includes a second low-relevance search subject phrase related to the acquired low-relevance search subject phrase and a third low-related search subject phrase related to the second low-relevance search subject phrase. For example, a related phrase based on the low-relevance search subject phrase may be acquired from the dictionary storage unit 120 as a low-relevance subject phrase.

低関連検索主体語句を基点として関連する語句も含む低関連検索主体語句を難読検索情報の生成に用いることにより、第三者が難読検索情報を解析した際に、低関連検索主体語句と低関連検索主体語句を基点として関連する語句とから得られる言語傾向を抽出させて、本当の検索情報の言語傾向を抽出させなくすることにより、第三者に検索情報がより漏えいしにくくなる。なお、低関連検索主体語句を基点として関連する語句のみを低関連検索主体語句としてもよい。   By using low-relevance search subject words and phrases that include related words from low-relevance search subject words as the starting point, the low-relevance search subject words and low-relationships are analyzed when a third party analyzes the obfuscation search information. By extracting the linguistic tendency obtained from the search subject word / phrase and related words / phrases and not extracting the linguistic tendency of the real search information, it becomes more difficult for a third party to leak the search information. Note that only words related to a low-related search subject word may be used as a low-related search subject word.

難読検索情報生成部130は、難読化語句取得部110で取得した難読化語句と検索情報とに基づいて、難読検索情報を生成する。なお、難読化語句には、検索キーワードと関連する語句、検索キーワードと関連が低いまたは関連がない語句、検索ユーザと関連する語句、および検索ユーザと関連が低いまたは関連がない語句の少なくとも一つが含まれる。   The obfuscation search information generation unit 130 generates the obfuscation search information based on the obfuscation phrases acquired by the obfuscation phrase acquisition unit 110 and the search information. The obfuscated phrase includes at least one of a phrase related to the search keyword, a phrase that is low or unrelated to the search keyword, a phrase related to the search user, and a phrase that is low or not related to the search user. included.

具体的には、難読検索情報生成部130は、関連語句取得部111で検索キーワードと関連する語句を難読化語句として取得した場合は、各検索キーワードを難読化語句、すなわち、各検索キーワードと関連する語句に置き換えることにより、難読検索情報を生成する。各検索キーワードと関連する語句に置き換えることにより検索情報の言語傾向をずらした結果、難読検索情報の言語傾向は検索情報の言語傾向とは異なり、第三者に検索情報を欺瞞することができる。   Specifically, the obfuscated search information generating unit 130, when the related phrase acquisition unit 111 acquires a phrase related to the search keyword as an obfuscated phrase, each search keyword is related to the obfuscated phrase, that is, each search keyword. The obfuscated search information is generated by substituting it with the words to be used. As a result of shifting the linguistic tendency of the search information by substituting with words related to each search keyword, the linguistic tendency of the obfuscated search information is different from the linguistic tendency of the search information, and the search information can be deceived by a third party.

難読検索情報生成部130は、低関連検索語句取得部112で検索キーワードと関連が低い、または、関連がない語句を難読化語句として取得した場合は、検索キーワードと難読化語句とを組み合わせて難読検索情報を生成する。検索キーワードと関連が低い、または、関連がない語句である難読化語句により検索情報の言語傾向を変えた結果、難読検索情報の言語傾向は検索情報の言語傾向とは異なり、第三者に検索情報を欺瞞することができる。   The obfuscated search information generation unit 130, when the low-related search phrase acquisition unit 112 acquires a phrase that is low or unrelated to the search keyword as an obfuscation phrase, combines the search keyword with the obfuscation phrase to obfuscate Generate search information. As a result of changing the linguistic tendency of search information by obfuscated words, which are words that are low or irrelevant to the search keyword, the linguistic tendency of the obfuscated search information is different from the linguistic tendency of the search information. Information can be deceived.

難読検索情報生成部130は、検索主体関連語句取得部113で検索ユーザと関連する語句を難読化語句として取得した場合は、検索キーワードと難読化語句とを組み合わせて難読検索情報を生成する。検索キーワードと関係のない語句である難読化語句により検索情報の言語傾向を変えた結果、難読検索情報の言語傾向は検索情報の言語傾向とは異なり、第三者に検索情報を欺瞞することができる。なお、検索ユーザが自身に関連する語に興味を持っていることは自然であるため、難読化語句として検索ユーザの情報と関連する語句とすることは適切である。また、検索情報が漏洩した場合には、情報漏えい発見の精度を上げる意味でも有効である。   When the search subject related phrase acquisition unit 113 acquires the phrase related to the search user as an obfuscated phrase, the obfuscated search information generation unit 130 generates the obfuscated search information by combining the search keyword and the obfuscated phrase. As a result of changing the linguistic tendency of search information by obfuscated words that are not related to the search keyword, the linguistic tendency of the obfuscated search information is different from the linguistic tendency of the search information, and the search information may be deceived by a third party. it can. In addition, since it is natural that the search user is interested in a word related to the search user, it is appropriate to use a phrase related to the information of the search user as an obfuscated word. In addition, when search information is leaked, it is also effective in increasing the accuracy of finding information leaks.

難読検索情報生成部130は、低関連検索主体語句取得部114で検索ユーザと関連が低い、または関連がない語句を難読化語句として取得した場合には、検索キーワードと難読化語句とを組み合わせて難読検索情報を生成する。検索キーワードと関係が低い、または関連がない語句である難読化語句により検索情報の言語傾向を変えた結果、難読検索情報の言語傾向は検索情報の言語傾向とは異なり、第三者に検索情報を欺瞞することができる。   The obfuscated search information generating unit 130 combines the search keyword and the obfuscated phrase when the low related search subject phrase acquiring unit 114 acquires a phrase that is low or unrelated to the search user as an obfuscated phrase. Generate obfuscated search information. As a result of changing the linguistic tendency of search information by obfuscated words, which are words that have low or no relation to the search keyword, the linguistic tendency of the obfuscated search information is different from the linguistic tendency of the search information. Can be deceived.

なお、検索ユーザと関連する語句を難読化語句とした場合には、検索ユーザに関連する語は検索情報を難読化するための語句と判断されて、検索ユーザと関連する語句を除いて統計解析が行われる可能性がある。しかし、検索ユーザと関連が低い、または関連がない語句の場合は、その語句に検索ユーザが興味を持っているのか検索情報を難読化するための語句なのか判断ができないためので、第三者に検索情報がより漏えいしにくくなる。   If the words related to the search user are obfuscated words, the words related to the search user are determined as words for obfuscating the search information, and statistical analysis is performed except for the words related to the search user. May be performed. However, in the case of a phrase that has low or no relation to the search user, it cannot be determined whether the search user is interested in the phrase or the phrase to obfuscate the search information. Search information is more difficult to leak.

検索部140は、難読検索情報生成部130で生成した難読検索情報を含む検索クエリを検索エンジンに送信し、検索結果を取得する。   The search unit 140 transmits a search query including the obfuscation search information generated by the obfuscation search information generation unit 130 to the search engine, and acquires a search result.

図2は、本発明の第1の実施形態に係る検索情報難読化装置における検索情報難読化方法の処理フローを示す図である。検索クエリに含まれる検索情報取得すると処理が開始する。   FIG. 2 is a diagram showing a processing flow of the search information obfuscation method in the search information obfuscation apparatus according to the first embodiment of the present invention. The process starts when the search information included in the search query is acquired.

まず、ステップS1において、難読化語句取得部110は、検索情報に含まれる検索キーワードおよび検索ユーザの情報の少なくとも一つに基づいて、難読化語句を辞書記憶部120から取得する。   First, in step S <b> 1, the obfuscated phrase acquisition unit 110 acquires an obfuscated phrase from the dictionary storage unit 120 based on at least one of the search keyword and the search user information included in the search information.

次に、ステップS2において、難読検索情報生成部130は、ステップS1で取得した難読化語句と検索情報とに基づいて、難読検索情報を生成する。   Next, in step S2, the obfuscation search information generation unit 130 generates the obfuscation search information based on the obfuscated words and search information acquired in step S1.

以上説明したように、本実施形態によれば、検索情報の言語傾向と異なる言語傾向を持った難読検索情報を用いて検索することにより、第三者に検索情報を欺瞞することができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。   As described above, according to the present embodiment, the search information can be deceived by a third party by searching using the obfuscated search information having a language tendency different from the language tendency of the search information. As a result, it is possible to realize a secure Internet search that is difficult to leak search information to a third party.

<第2の実施形態>
図3を用いて、本発明の第2の実施形態について説明する。なお、本実施形態における検索情報難読化装置は、検索情報の言語傾向を統計的に難読化することができる。なお、第1の実施形態と同一の符号を付す構成要素については、同一の機能を有することから、その詳細な説明は省略する。
<Second Embodiment>
A second embodiment of the present invention will be described with reference to FIG. Note that the search information obfuscation apparatus according to the present embodiment can statistically obfuscate the language tendency of the search information. In addition, about the component which attaches | subjects the same code | symbol as 1st Embodiment, since it has the same function, the detailed description is abbreviate | omitted.

<検索情報難読化装置>
図3は、本発明の第2の実施形態における検索情報難読化装置101の機能構成を示す図である。検索情報難読化装置101は、検索情報が第三者に漏えいすることを防ぐために、検索エンジンに送信する検索クエリに含める検索情報の言語傾向を難読化する装置である。ここで、検索情報とは、1以上の検索キーワード、および検索を行ったユーザ(以下、検索ユーザ)の情報から構成されている情報である。図1に示すように、検索情報難読化装置101は、難読化語句取得部110、辞書記憶部120、難読検索情報生成部130、検索部140、検索コンテンツ記憶部150、および難読化語句数決定部160から構成される。
<Search information obfuscation device>
FIG. 3 is a diagram illustrating a functional configuration of the search information obfuscation apparatus 101 according to the second embodiment of the present invention. The search information obfuscation device 101 is a device that obfuscates the language tendency of the search information included in the search query transmitted to the search engine in order to prevent the search information from leaking to a third party. Here, the search information is information composed of one or more search keywords and information of a user who performs a search (hereinafter referred to as a search user). As shown in FIG. 1, the search information obfuscation apparatus 101 includes an obfuscated word acquisition unit 110, a dictionary storage unit 120, an obfuscation search information generation unit 130, a search unit 140, a search content storage unit 150, and an obfuscation word number determination. Part 160.

なお、本実施形態において、検索情報難読化装置101に検索部140が備えられているが、検索情報難読化装置101は検索部140を備えなくてもよい。この場合、検索情報難読化装置101は、他の端末から検索クエリに含まれる検索情報を取得し、取得した検索情報の言語傾向を難読化し、言語傾向を難読化した検索情報を他の端末に返す。   In the present embodiment, the search information obfuscation apparatus 101 includes the search unit 140, but the search information obfuscation apparatus 101 may not include the search unit 140. In this case, the search information obfuscation apparatus 101 acquires the search information included in the search query from another terminal, obfuscates the language tendency of the acquired search information, and sets the search information obfuscated by the language tendency to the other terminal. return.

検索コンテンツ記憶部150は、検索部140で取得した検索結果のコンテンツを記憶する。具体的には、検索コンテンツ記憶部150は、検索情報、難読検索情報、および難読検索情報にて検索部140で取得した検索結果のコンテンツを対応付けて記憶する。   The search content storage unit 150 stores the search result content acquired by the search unit 140. Specifically, the search content storage unit 150 stores the search information, the obfuscated search information, and the content of the search result acquired by the search unit 140 in association with the obfuscation search information in association with each other.

難読化語句数決定部160は、まず、検索コンテンツ記憶部150に記憶されている検索情報と、検索情報に対応付けられているコンテンツとに基づいて、コンテンツにおける、検索情報の出現頻度を算出する。検索情報の出現頻度とは、検索情報を構成する各検索キーワードの出現頻度の和として求めることができる。各検索キーワードの出現頻度は、以下の(1)式により算出する。なお、難読化語句数決定部160は、検索コンテンツ記憶部150に記憶されている検索情報毎に、検索情報の出現頻度を算出する。   The obfuscation word number determination unit 160 first calculates the appearance frequency of the search information in the content based on the search information stored in the search content storage unit 150 and the content associated with the search information. . The appearance frequency of search information can be obtained as the sum of the appearance frequencies of search keywords constituting the search information. The appearance frequency of each search keyword is calculated by the following equation (1). The obfuscated word number determination unit 160 calculates the appearance frequency of the search information for each search information stored in the search content storage unit 150.

Figure 0006034674
・・・(1)
Figure 0006034674
... (1)

次に、難読化語句数決定部160は、検索コンテンツ記憶部150に記憶されている検索情報と難読検索情報とから、各検索情報に含まれる難読化語句数を取得する。次に、難読化語句数決定部160は、検索情報毎に算出した、検索情報の出現頻度と難読化語句数との関係に基づいて、難読化語句数を決定する。例えば、難読化語句数決定部160は、検索情報の出現頻度と難読化語句数との関係から、予め設定された出現頻度以下となる最も少ない難読化語句数を取得し、難読検索情報に含める難読化語句数として決定する。そして、難読化語句数決定部160は、決定した難読検索情報に含める難読化語句数を難読検索情報生成部130に送信する。   Next, the obfuscated phrase number determination unit 160 acquires the number of obfuscated phrases included in each search information from the search information and the obfuscation search information stored in the search content storage unit 150. Next, the obfuscation word number determination unit 160 determines the number of obfuscation words based on the relationship between the appearance frequency of the search information and the number of obfuscation words calculated for each search information. For example, the obfuscated word count determining unit 160 acquires the smallest number of obfuscated words that is equal to or lower than a preset appearance frequency from the relationship between the appearance frequency of the search information and the number of obfuscated words, and includes it in the obfuscated search information. Determine the number of obfuscated words. Then, the obfuscated word number determination unit 160 transmits the obfuscation word number included in the determined obfuscation search information to the obfuscation search information generation unit 130.

難読検索情報生成部130は、まず、難読化語句数決定部160から受信した、検索情報に含める難読化語句数の難読化語句を、難読化語句取得部110で取得した難読化語句の中から選択する。選択方法については、例えば、取得された順に難読化語句数分取得してもよいし、乱数等を用いてランダムに難読化語句数分取得してもよい。そして、難読検索情報生成部130は、選択した難読化語句と検索情報とに基づいて、難読検索情報を生成する。具体的な難読検索情報の生成方法については、第1の実施形態の難読検索情報生成部130と同様である。   First, the obfuscated search information generation unit 130 receives the obfuscation phrases of the number of obfuscation phrases included in the search information received from the obfuscation phrase number determination unit 160 from the obfuscation phrases acquired by the obfuscation phrase acquisition unit 110. select. Regarding the selection method, for example, the number of obfuscation words may be acquired in the order of acquisition, or the number of obfuscation words may be acquired at random using a random number or the like. Then, the obfuscation search information generation unit 130 generates the obfuscation search information based on the selected obfuscation word and the search information. A specific method of generating the obfuscated search information is the same as that of the obfuscated search information generating unit 130 of the first embodiment.

以上説明したように、本実施形態によれば、検索結果のコンテンツに含まれる検索情報の出現頻度に応じて、検索に用いる難読検索情報に含める難読化語句数を決定することによって、検索情報の言語傾向を統計的に難読化することができる。その結果、検索情報の漏えいしにくさ、すなわち、検索情報の機密性の度合を任意に設定することができる。   As described above, according to the present embodiment, by determining the number of obfuscated phrases included in the obfuscated search information used for the search according to the appearance frequency of the search information included in the content of the search result, Language trends can be statistically obfuscated. As a result, it is possible to arbitrarily set the difficulty of leaking search information, that is, the degree of confidentiality of search information.

<第3の実施形態>
図4を用いて、本発明の第3の実施形態について説明する。なお、本実施形態における検索情報難読化装置は、Web上でよく用いられる語句を用いて検索情報を難読化する。なお、第1の実施形態と同一の符号を付す構成要素については、同一の機能を有することから、その詳細な説明は省略する。
<Third Embodiment>
A third embodiment of the present invention will be described with reference to FIG. Note that the search information obfuscation apparatus according to the present embodiment obfuscates the search information using words that are often used on the Web. In addition, about the component which attaches | subjects the same code | symbol as 1st Embodiment, since it has the same function, the detailed description is abbreviate | omitted.

図4は、本発明の第3の実施形態における検索情報難読化装置102の機能構成を示す図である。検索情報難読化装置102は、検索情報が第三者に漏えいすることを防ぐために、検索エンジンに送信する検索クエリに含める検索情報の言語傾向を難読化する装置であって、ネットワークを介してWeb200と接続されている。ここで、検索情報とは、1以上の検索キーワード、および検索を行ったユーザ(以下、検索ユーザ)の情報から構成されている情報である。図1に示すように、検索情報難読化装置102は、難読化語句取得部170、難読検索情報生成部130、および検索部140から構成される。   FIG. 4 is a diagram illustrating a functional configuration of the search information obfuscation apparatus 102 according to the third embodiment of the present invention. The search information obfuscation apparatus 102 obfuscates the language tendency of the search information included in the search query transmitted to the search engine in order to prevent the search information from leaking to a third party. Connected with. Here, the search information is information composed of one or more search keywords and information of a user who performs a search (hereinafter referred to as a search user). As shown in FIG. 1, the search information obfuscation apparatus 102 includes an obfuscation phrase acquisition unit 170, an obfuscation search information generation unit 130, and a search unit 140.

難読化語句取得部170は、Web200上で使用されている語句のうち、Web200上において出現頻度が予め設定した所定値以上の語句を難読化語句として取得する。具体的には、Web200上のコンテンツにおける出現頻度が予め設定した所定値以上の語句を難読化語句として取得する。また、Web200上にある検索エンジンから取得した検索ログにおける出現頻度が予め設定した所定値以上の語句を難読化語句として取得する。   The obfuscated word acquisition unit 170 acquires, as obfuscated words, words whose appearance frequency is higher than a predetermined value set in advance on the Web 200 among the words used on the Web 200. Specifically, a phrase whose appearance frequency in the content on the Web 200 is equal to or higher than a predetermined value is acquired as an obfuscated phrase. In addition, a phrase whose appearance frequency in a search log acquired from a search engine on the Web 200 is a predetermined value or more is acquired as an obfuscated phrase.

以上説明したように、本実施形態によれば、検索キーワードとの関連に関わらず、Web上でありふれている語句や、「検索流行語」といったWeb上で話題になっているために多くのユーザが検索するような語句を用いて、検索情報の言語傾向を難読化することにより、第三者に検索情報を欺瞞することができる。その結果、第三者に検索情報が漏えいしにくい、セキュアなインターネット検索を実現することができる。   As described above, according to the present embodiment, many users have a topic on the Web such as a common phrase or “search buzzword” on the Web regardless of the relationship with the search keyword. The search information can be deceived by a third party by obfuscating the linguistic tendency of the search information by using a phrase that is searched for. As a result, it is possible to realize a secure Internet search that is difficult to leak search information to a third party.

なお、検索情報難読化装置の処理をコンピュータ読み取り可能な記録媒体に記録し、この記録媒体に記録されたプログラムを機器に読み込ませ、実行することによって本発明の検索情報難読化装置を実現することができる。ここでいうコンピュータシステムとは、OSや周辺装置等のハードウェアを含む。   Note that the search information obfuscation device of the present invention is realized by recording the processing of the search information obfuscation device on a computer-readable recording medium, causing the device to read and execute the program recorded on the recording medium. Can do. The computer system here includes an OS and hardware such as peripheral devices.

また、「コンピュータシステム」は、WWW(World Wide Web)システムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。   Further, the “computer system” includes a homepage providing environment (or display environment) if a WWW (World Wide Web) system is used. The program may be transmitted from a computer system storing the program in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium. Here, the “transmission medium” for transmitting the program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.

また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。更に、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。   The program may be for realizing a part of the functions described above. Furthermore, what can implement | achieve the function mentioned above in combination with the program already recorded on the computer system, what is called a difference file (difference program) may be sufficient.

以上、この発明の実施形態につき、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。   The embodiments of the present invention have been described in detail with reference to the drawings. However, the specific configuration is not limited to the embodiments, and includes designs and the like that do not depart from the gist of the present invention.

100 検索情報難読化装置
110 難読化語句取得部
111 関連語句取得部
112 低関連検索語句取得部
113 検索主体関連語句取得部
114 低関連検索主体語句取得部
120 辞書記憶部
130 難読検索情報生成部
140 検索部
DESCRIPTION OF SYMBOLS 100 Search information obfuscation apparatus 110 Obfuscation phrase acquisition part 111 Related phrase acquisition part 112 Low related search phrase acquisition part 113 Search subject related phrase acquisition part 114 Low related search subject phrase acquisition part 120 Dictionary storage part 130 Obfuscation search information generation part 140 Search part

Claims (8)

インターネット検索に関する検索情報における言語傾向を、第三者から難読化する検索情報難読化装置であって、
語句間の関連を示す辞書データを記憶する辞書記憶手段と、
前記検索情報に含まれる検索語句に関連する関連検索語句を前記辞書記憶手段から難読化語句として取得する関連語句取得手段と、
前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれについて関連が低い低関連検索語句を前記辞書記憶手段から前記難読化語句として取得する低関連検索語句取得手段と、
前記関連語句取得手段および前記低関連検索語句取得手段で取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する難読検索情報生成手段と、
を備えることを特徴とする検索情報難読化装置。
A search information obfuscation device that obfuscates language trends in search information related to Internet search from a third party,
Dictionary storage means for storing dictionary data indicating the relationship between words;
Related phrase acquisition means for acquiring a related search phrase related to a search phrase included in the search information as an obfuscated phrase from the dictionary storage means;
The process of acquiring the phrase related to the phrase acquired from the dictionary storage means from the dictionary storage means is repeated one or more times, and the low-relevance search phrase having low association with each of the acquired phrase groups is obfuscated from the dictionary storage means. Low-related search phrase acquisition means to acquire as a phrase;
Obfuscation search information generating means for generating obfuscation search information based on the obfuscated words acquired by the related phrase acquisition means and the low related search phrase acquisition means and the search information;
A search information obfuscation device comprising:
前記低関連検索語句取得手段が、前記検索情報に含まれる検索語句と関連が低い低関連検索語句を、前記辞書記憶手段から取得し、当該取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群を前記難読化語句として取得することを特徴とする請求項1に記載の検索情報難読化装置。The low-related search phrase acquisition unit acquires from the dictionary storage unit a low-related search phrase that is not related to the search phrase included in the search information, and acquires a phrase related to the acquired phrase from the dictionary storage unit The search information obfuscation apparatus according to claim 1, wherein the processing is repeated one or more times, and the acquired phrase group is acquired as the obfuscated phrase. 前記難読化語句取得手段が、前記検索情報に含まれる前記インターネット検索の主体を特定する検索主体情報と関連がある検索主体関連語句を、前記辞書記憶手段から前記難読化語句として取得する検索主体関連語句取得手段を備え、
前記難読検索情報生成手段が、前記検索主体関連語句取得手段で取得した前記難読化語句を、前記検索情報に組み合わせて難読検索情報を生成することを特徴とする請求項1または請求項2に記載の検索情報難読化装置。
Retrieval subject-related, wherein the obfuscated phrase acquisition unit acquires, as the obfuscated phrase from the dictionary storage unit, a search subject-related phrase that is related to search subject information that identifies the subject of the Internet search included in the search information With word acquisition means ,
3. The obfuscated search information generation unit generates the obfuscation search information by combining the obfuscated phrase acquired by the search subject-related phrase acquisition unit with the search information. Search information obfuscation device.
前記検索情報に含まれる前記検索主体情報と関連が低い低関連検索主体語句を、前記辞書記憶手段から前記難読化語句として取得する低関連検索主体語句取得手段を備え、
前記難読検索情報生成手段が、前記低関連検索主体語句取得手段で取得した前記難読化語句を、前記検索情報に組み合わせて難読検索情報を生成することを特徴とする請求項3に記載の検索情報難読化装置。
Low-relevance search subject phrase acquisition means for acquiring a low-relevance search subject phrase that is not related to the search subject information included in the search information as the obfuscated phrase from the dictionary storage means,
4. The search information according to claim 3, wherein the obfuscation search information generation unit generates the obfuscation search information by combining the obfuscation word acquired by the low-related search subject word acquisition unit with the search information. Obfuscation device.
前記低関連検索主体語句取得手段が、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれと関連する低関連検索主体語句を前記辞書記憶手段から前記難読化語句として取得することを特徴とする請求項4に記載の検索情報難読化装置。 The low-related search subject phrase acquisition unit repeats the process of acquiring a phrase related to the phrase acquired from the dictionary storage unit one or more times from the dictionary storage unit, and the low-related search subject related to each of the acquired phrase groups 5. The search information obfuscation apparatus according to claim 4 , wherein a phrase is acquired as the obfuscated phrase from the dictionary storage means . 前記難読検索情報による前記インターネット検索により取得されたコンテンツを、当該難読検索情報に対応する当該検索情報と対応付けて記憶する検索コンテンツ記憶手段と、
前記検索コンテンツ記憶手段に記憶されているコンテンツと当該コンテンツに対応付けられている前記検索情報とに基づいて、当該検索情報に含まれる検索語句の出現頻度に基づいて、前記難読検索情報に含める難読化語句数を決定する難読化語句数決定手段と、
備え、
前記難読検索情報生成手段が、前記難読化語句数決定手段で決定された難読化語句数に基づいて、前記難読化語句から前記難読検索情報に含める前記難読化語句を選択することを特徴とする請求項1から請求項5のいずれかに記載の検索情報難読化装置。
Search content storage means for storing content acquired by the Internet search using the obfuscated search information in association with the search information corresponding to the obfuscated search information;
Based on the content stored in the search content storage means and the search information associated with the content, the obfuscation included in the obfuscation search information based on the appearance frequency of the search terms included in the search information An obfuscation word number determination means for determining the number of word phrases;
Equipped with a,
The obfuscation search information generation means selects the obfuscation words to be included in the obfuscation search information from the obfuscation words based on the number of obfuscation words determined by the obfuscation word number determination means. The search information obfuscation apparatus according to any one of claims 1 to 5 .
インターネット検索に関する検索情報の言語傾向を、第三者から難読化する検索情報難読化装置における検索情報難読化方法であって、
前記検索情報難読化装置が、語句間の関連を示す辞書データを記憶する辞書記憶手段、関連語句取得手段、低関連検索語句取得手段、および難読検索情報生成手段を備え、
前記関連語句取得手段が、前記検索情報に含まれる検索語句に関連する関連検索語句を前記辞書記憶手段から難読化語句として取得する第1のステップと、
前記低関連検索語句取得手段が、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれについて関連が低い低関連検索語句を前記辞書記憶手段から前記難読化語句として取得する第2のステップと、
前記難読検索情報生成手段が、前記第1のステップおよび前記第2のステップで取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する第3のステップと、
を含むことを特徴とする検索情報難読化方法。
A search information obfuscation method in a search information obfuscation device that obfuscates a language tendency of search information related to Internet search from a third party,
The search information obfuscation device includes dictionary storage means for storing dictionary data indicating a relation between words, related word acquisition means, low related search word acquisition means, and obfuscation search information generation means,
A first step in which the related phrase acquisition unit acquires a related search phrase related to a search phrase included in the search information as an obfuscated phrase from the dictionary storage unit;
The low-related search phrase acquisition unit repeats the process of acquiring a phrase related to the phrase acquired from the dictionary storage unit from the dictionary storage unit one or more times, and the low-related search phrase that is low in relation to each of the acquired word groups A second step of acquiring from the dictionary storage means as the obfuscated phrase;
A third step in which the obfuscated search information generating means generates obfuscated search information based on the obfuscated words and the search information acquired in the first step and the second step;
A search information obfuscation method characterized by comprising:
インターネット検索に関する検索情報の言語傾向を、第三者から難読化する検索情報難読化装置における検索情報難読化方法をコンピュータに実行させるためのプログラムであって、
前記検索情報難読化装置が、語句間の関連を示す辞書データを記憶する辞書記憶手段、関連語句取得手段、低関連検索語句取得手段、および難読検索情報生成手段を備え、
前記関連語句取得手段が、前記検索情報に含まれる検索語句に関連する関連検索語句を前記辞書記憶手段から難読化語句として取得する第1のステップと、
前記低関連検索語句取得手段が、前記辞書記憶手段から取得した語句と関連する語句を当該辞書記憶手段から取得する処理を1回以上繰り返し、当該取得した語句群それぞれについて関連が低い低関連検索語句を前記辞書記憶手段から前記難読化語句として取得する第2のステップと、
前記難読検索情報生成手段が、前記第1のステップおよび前記第2のステップで取得した難読化語句と前記検索情報とに基づいて、難読検索情報を生成する第3のステップと、
をコンピュータに実行させるためのプログラム。
A program for causing a computer to execute a search information obfuscation method in a search information obfuscation device that obfuscates a language tendency of search information related to Internet search from a third party,
The search information obfuscation device includes dictionary storage means for storing dictionary data indicating a relation between words, related word acquisition means, low related search word acquisition means, and obfuscation search information generation means,
A first step in which the related phrase acquisition unit acquires a related search phrase related to a search phrase included in the search information as an obfuscated phrase from the dictionary storage unit;
The low-related search phrase acquisition unit repeats the process of acquiring a phrase related to the phrase acquired from the dictionary storage unit from the dictionary storage unit one or more times, and the low-related search phrase that is low in relation to each of the acquired word groups A second step of acquiring from the dictionary storage means as the obfuscated phrase;
A third step in which the obfuscated search information generating means generates obfuscated search information based on the obfuscated words and the search information acquired in the first step and the second step;
A program that causes a computer to execute.
JP2012258906A 2012-11-27 2012-11-27 Search information obfuscation device, search information obfuscation method, and program Active JP6034674B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012258906A JP6034674B2 (en) 2012-11-27 2012-11-27 Search information obfuscation device, search information obfuscation method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012258906A JP6034674B2 (en) 2012-11-27 2012-11-27 Search information obfuscation device, search information obfuscation method, and program

Publications (2)

Publication Number Publication Date
JP2014106723A JP2014106723A (en) 2014-06-09
JP6034674B2 true JP6034674B2 (en) 2016-11-30

Family

ID=51028156

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012258906A Active JP6034674B2 (en) 2012-11-27 2012-11-27 Search information obfuscation device, search information obfuscation method, and program

Country Status (1)

Country Link
JP (1) JP6034674B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7169628B2 (en) * 2018-06-15 2022-11-11 大学共同利用機関法人情報・システム研究機構 Information retrieval system

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3581009B2 (en) * 1998-03-12 2004-10-27 株式会社日立製作所 Data search system and data search method
JP3827936B2 (en) * 2000-10-18 2006-09-27 シャープ株式会社 Information providing control device, information providing method, recording medium recording information providing program, and information providing system
JP2004118262A (en) * 2002-09-24 2004-04-15 Toshiba Corp Document search device, document search method, and document search program
JP5306356B2 (en) * 2008-08-26 2013-10-02 インターナショナル・ビジネス・マシーンズ・コーポレーション SEARCH DEVICE, SEARCH METHOD, AND SEARCH PROGRAM USING PUBLIC SEARCH ENGINE
JP5321258B2 (en) * 2009-06-09 2013-10-23 日本電気株式会社 Information collecting system, information collecting method and program thereof
US8725762B2 (en) * 2009-07-28 2014-05-13 International Business Machines Corporation Preventing leakage of information over a network
EP2680251B1 (en) * 2011-02-22 2016-05-25 Mitsubishi Electric Corporation Search system, search method for search system, information processing device, search program, corresponding keyword management device and corresponding keyword management system

Also Published As

Publication number Publication date
JP2014106723A (en) 2014-06-09

Similar Documents

Publication Publication Date Title
Fu et al. Enabling central keyword-based semantic extension search over encrypted outsourced data
US10013574B2 (en) Method and apparatus for secure storage and retrieval of encrypted files in public cloud-computing platforms
US9576005B2 (en) Search system
US11550833B2 (en) Architecture for semantic search over encrypted data in the cloud
EP2336908B1 (en) Search device, search method and search program using open search engine
Arampatzis et al. A query scrambler for search privacy on the internet
Henzinger et al. Private web search with Tiptoe
CN107704768A (en) A kind of multiple key classification safety search method of ciphertext
Viejo et al. Profiling social networks to provide useful and privacy‐preserving web search
Chatterjee et al. Why does this entity matter? support passage retrieval for entity retrieval
Sasikumar et al. A survey of natural language question answering system
Wang et al. ReSLLM: Large language models are strong resource selectors for federated search
KR20200089893A (en) The health information storage and searching system using Big-data text mining and Block-chain technology
JP6034674B2 (en) Search information obfuscation device, search information obfuscation method, and program
Faggioli et al. Query Obfuscation for Information Retrieval Through Differential Privacy
KR20130032660A (en) System and method for searching leakage of individual information
EP2775420A1 (en) Semantic search over encrypted data
JP2023518111A (en) Encrypted search for encrypted data with reduced volume leakage
Grzebala et al. Private record linkage: Comparison of selected techniques for name matching
Nobili Review OSINT tool for social engineering
Chaudhari et al. An In-Depth Analysis on Efficiency and Vulnerabilities on a Cloud-Based Searchable Symmetric Encryption Solution
Sousa et al. Privacy in open search: A review of challenges and solutions
Fang et al. A novel storage and search scheme in cloud computing
Zhang Privacy-preserving Statistical Tools: Differential Privacy and Beyond
Yamamoto et al. A study on the information content leaked from queries to search engines and its reduction

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150828

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160802

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161025

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161028

R150 Certificate of patent or registration of utility model

Ref document number: 6034674

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150