[go: up one dir, main page]

JP6506099B2 - DATA MASKING DEVICE, DATA MASKING METHOD, AND COMPUTER PROGRAM - Google Patents

DATA MASKING DEVICE, DATA MASKING METHOD, AND COMPUTER PROGRAM Download PDF

Info

Publication number
JP6506099B2
JP6506099B2 JP2015102954A JP2015102954A JP6506099B2 JP 6506099 B2 JP6506099 B2 JP 6506099B2 JP 2015102954 A JP2015102954 A JP 2015102954A JP 2015102954 A JP2015102954 A JP 2015102954A JP 6506099 B2 JP6506099 B2 JP 6506099B2
Authority
JP
Japan
Prior art keywords
character string
original
replacement
item
information items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015102954A
Other languages
Japanese (ja)
Other versions
JP2016218738A (en
Inventor
俊彦 佐々木
俊彦 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2015102954A priority Critical patent/JP6506099B2/en
Publication of JP2016218738A publication Critical patent/JP2016218738A/en
Application granted granted Critical
Publication of JP6506099B2 publication Critical patent/JP6506099B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Description

この発明は、データ処理技術に関し、特にデータマスキング技術に関する。   The present invention relates to data processing technology, and more particularly to data masking technology.

本出願人は、個人情報をマスクした後の文書について、テストデータとしての品質低下を抑制するための技術を提案している(例えば特許文献1参照)。特許文献1のデータ変換装置は、マスク対象となる個人情報を示す文字列をそのハッシュ値で置換する。   The applicant has proposed a technique for suppressing deterioration in quality as test data for a document after masking personal information (see, for example, Patent Document 1). The data conversion device of Patent Document 1 replaces a character string indicating personal information to be masked with the hash value.

特開2013−246547号公報JP, 2013-246547, A

本発明者は、マスク後の文字列から元の文字列が推測できる場合、マスクの意義が没却されかねないと考えた。また、漢字姓とかな姓のように互いに関連する複数の情報項目の文字列を1つの項目単位でマスクした場合、情報項目間の関連性が崩れてしまい、テストデータとしての価値が低下すると考えた。本発明は、本発明者の上記課題認識に基づいてなされたものであり、主たる目的は、情報をマスクした後の文書の有用性を一層高めるためのデータマスキング技術を提供することである。   The inventor considered that if the original character string can be inferred from the masked character string, the significance of the mask may be forfeited. Also, if character strings of multiple information items related to each other such as kanji surnames and kana surnames are masked in units of one item, the relevance between the information items is broken, and it is thought that the value as test data decreases. The The present invention has been made based on the above-mentioned problem recognition of the inventor, and a main object of the present invention is to provide a data masking technology for further enhancing the usefulness of a document after information masking.

上記課題を解決するために、本発明のある態様のデータマスキング装置は、原本データに記録された複数の情報項目の原本文字列の組み合わせに基づいて、複数の情報項目の置換文字列を決定する置換文字列決定部と、原本データに記録された複数の情報項目の原本文字列を、置換文字列決定部により決定された置換文字列へ置換する文字列置換部と、を備える。   In order to solve the above problems, a data masking device according to an aspect of the present invention determines replacement strings of a plurality of information items based on a combination of original character strings of a plurality of information items recorded in the original data. A replacement character string determination unit, and a character string replacement unit that replaces original character strings of a plurality of information items recorded in the original data with replacement character strings determined by the replacement character string determination unit.

本発明の別の態様は、データマスキング方法である。この方法は、原本データに記録された複数の情報項目の原本文字列の組み合わせに基づいて、複数の情報項目の置換文字列を決定するステップと、原本データに記録された複数の情報項目の原本文字列を、決定するステップで決定された置換文字列へ置換するステップと、をデータマスキング装置が実行する。   Another aspect of the invention is a data masking method. This method comprises the steps of: determining a replacement character string of a plurality of information items based on a combination of original character strings of a plurality of information items recorded in the original data; and original text of a plurality of information items recorded in the original data. Replacing the string with the replacement string determined in the determining step, the data masking device performing.

なお、以上の構成要素の任意の組合せ、本発明の表現を、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で変換したものもまた、本発明の態様として有効である。   Note that any combination of the above-described components, and one obtained by converting the expression of the present invention between a system, a computer program, a recording medium storing a computer program, and the like are also effective as an aspect of the present invention.

本発明によれば、情報をマスクした後の文書の有用性を一層高めることができる。   According to the present invention, the usefulness of the document after masking information can be further enhanced.

第1実施形態の情報処理システムの構成を示す図である。It is a figure showing composition of an information processing system of a 1st embodiment. 図1のデータマスキング装置の構成を示すブロック図である。It is a block diagram which shows the structure of the data masking apparatus of FIG. 第1実施形態の変換辞書保持部に保持される変換辞書を示す図である。It is a figure which shows the conversion dictionary hold | maintained at the conversion dictionary holding part of 1st Embodiment. 変形例の変換辞書を示す図である。It is a figure which shows the conversion dictionary of a modification. 第2実施形態の変換辞書保持部に保持される変換辞書を示す図である。It is a figure which shows the conversion dictionary hold | maintained at the conversion dictionary holding part of 2nd Embodiment. 第2実施形態の変換辞書保持部に保持される変換辞書を示す図である。It is a figure which shows the conversion dictionary hold | maintained at the conversion dictionary holding part of 2nd Embodiment. 変形例の変換辞書を示す図である。It is a figure which shows the conversion dictionary of a modification. 第3実施形態の変換辞書保持部に保持される変換辞書を示す図である。It is a figure which shows the conversion dictionary hold | maintained at the conversion dictionary holding part of 3rd Embodiment.

実施の形態の情報処理システムの構成を説明する前に、実施の形態のデータマスキングの概要を述べる。以下では、データをマスキングする前のオリジナルの文書データを原本文書と呼び、データをマスキングした後の文書データを変換文書と呼ぶ。また、原本文書に記録された文字列であり、すなわち元データとしてのオリジナル文字列を原本文字列と呼ぶ。また、原本文字列を置換するための文字列であり、すなわち変換文書において原本文字列に代えて記録される文字列を置換文字列と呼ぶ。   Before describing the configuration of the information processing system of the embodiment, an outline of data masking of the embodiment will be described. Hereinafter, original document data before masking data is referred to as an original document, and document data after masking data is referred to as a conversion document. Also, it is a character string recorded in the original document, that is, an original character string as original data is called an original character string. In addition, a character string for replacing the original character string, that is, a character string recorded in place of the original character string in the converted document is called a replacement character string.

実施の形態のデータマスキングは、原本文書における原本文字列を、それとは異なる置換文字列へ置換えることである。また、データの形式を維持しつつも、データが指し示す情報内容を不可視化、隠蔽することとも言える。   Data masking in the embodiment is to replace the original character string in the original document with a different substitution character string. In addition, while maintaining the format of the data, it can also be said that the information content pointed to by the data is made invisible or concealed.

データマスキングにおいて本発明者が認識した第1の課題を説明する。個人情報をマスキングする方法として、これまでは原本文字列をランダムな文字列に置換える方法が採用されることがあった。例えば、人の姓に関する原本文字列「山田」「佐々木」「田中」をそれぞれ「じえ」「いうい」「山う」に置換えることがあった。また別の方法として、原本文字列を固定的な文字列に置換える方法が採用されることもあった。例えば、原本文字列「山田」「佐々木」「田中」をそれぞれ「佐藤01」「佐藤02」「佐藤03」に置き換えることがあった。   The first problem recognized by the inventor in data masking will be described. As a method of masking personal information, a method of replacing an original character string with a random character string has been employed in the past. For example, the original character strings "Yamada", "Sasaki", and "Tanaka" relating to the surname of a person may be replaced with "Jee", "Roii", and "Yamaou", respectively. As another method, the original character string may be replaced with a fixed character string. For example, the original character strings "Yamada", "Sasaki" and "Tanaka" may be replaced with "Sato 01", "Sato 02" and "Sato 03", respectively.

しかし、このような方法では原本文字列と置換文字列の整合性が維持されない。例えば、変換文書の情報項目「姓」に「じえ」「いうい」「山う」が設定される場合、変換文書の利用者はそれらの文字列が「姓」であることを直感的に判別しづらい。また、変換文書の情報項目「姓」に「佐藤01」「佐藤02」「佐藤03」が設定される場合、変換文書の利用者が違和感を抱くこともある。また、このような変換文書でテストを実施した場合、そのテスト結果が正しいか否かを判別しにくくなることもあった。   However, such a method does not maintain the integrity of the original string and the replacement string. For example, when "Jewe", "Say", and "Yamu" are set in the information item "surname" of the converted document, the user of the converted document intuitively recognizes that their character string is "surname". Hard to determine. When "Sato 01", "Sato 02" and "Sato 03" are set in the information item "surname" of the converted document, the user of the converted document may feel uncomfortable. In addition, when a test is performed on such a converted document, it may be difficult to determine whether the test result is correct.

なお、このような問題は、原本文字列をハッシュ文字列へ置換える場合も同様に起こりうる。例えば、変換文書の情報項目「姓」にハッシュ値が設定されるため、変換文書の利用者はそれらの文字列が「姓」であることを直感的に判別しづらく、違和感を抱くこともある。また、変換文書を用いたテスト結果が正しいか否かを判別しにくくなることもあった。   Such a problem may occur similarly when replacing an original character string with a hash character string. For example, since a hash value is set to the information item "surname" of the converted document, the user of the converted document may have difficulty in intuitively determining that those character strings are "surnames", and may be uncomfortable. . In addition, it may be difficult to determine whether the test result using the converted document is correct.

このように、ランダムな文字列や固定文字列によりマスキングすると、変換文書の利用観点からの品質を低下させることがあった。そこで別の方法として、何らかの規則にしたがってマスキングする方法が採用されることもあった。例えば、「鈴木」を「三田村」、「佐藤」を「守屋」、「菊池」を「中田」に対応付けた辞書を設け、原本文字列「鈴木」「佐藤」「菊池」をそれぞれ「三田村」「守屋」「中田」に置換えることがあった。   As described above, when masking is performed using a random character string or a fixed character string, the quality from the viewpoint of using the converted document may be degraded. Therefore, as another method, a method of masking in accordance with some rules has been adopted. For example, a dictionary in which “Suzuki” is associated with “Mitamura”, “Sato” with “Moriya”, and “Kikuchi” with “Nakata” is provided, and the original character strings “Suzuki”, “Sato” and “Kikuchi” are each “Mitamura”. It sometimes replaced with "Moriya" and "Nakata".

しかし、この方法では辞書で予め定められた規則による文字列置換となるため、置換文字列から元の原本文字列を推測されやすいという問題があった。例えば、変換文書の情報項目「姓」における「三田村」「守屋」の出現頻度が高いため、「三田村」「守屋」は実際には「鈴木」「佐藤」(日本人に多い姓)でないかと推測されてしまう。また、マスキング前の元データをある程度把握している人には、特定の置換文字列の登場傾向によって元の原本文字列の推測が容易であった。   However, in this method, since character string replacement is performed according to a predetermined rule in the dictionary, there is a problem that the original original character string can be easily estimated from the replacement character string. For example, since the appearance frequency of "Mitamura" and "Moriya" in the information item "surname" of the converted document is high, it is presumed that "Mitamura" and "Moriya" are not actually "Suzuki" or "Sato" (surname often used by Japanese) It will be done. Also, for those who have grasped the original data before masking to some extent, it was easy to guess the original original character string due to the appearance tendency of the specific replacement character string.

次に、データマスキングにおいて本発明者が認識した第2の課題を説明する。互いに関連する複数の情報項目が置換対象である場合、1つの情報項目単位でマスクすると、複数の情報項目の原本文字列間の関係が、マスキング後のそれら複数の情報項目の置換文字列間に反映されない。例えば、情報項目「漢字姓」と「かな姓」が置換対象である場合、「漢字姓」と「かな姓」の置換文字列を個別に決定すると、マスキング後は漢字と読みの関係がくずれてしまう。   Next, the second problem recognized by the inventor in data masking will be described. When multiple information items related to one another are to be replaced, if masking is performed in units of one information item, the relationship between the original character strings of the multiple information items is between the replacement strings of the multiple information items after masking. Not reflected. For example, when the information items "Kanji surname" and "Kana surname" are to be replaced, if the replacement character strings of "Kanji surname" and "Kana surname" are individually determined, the relationship between kanji and reading is broken after masking. I will.

具体的には、情報項目「漢字姓」の原本文字列「山田」「佐々木」「中田」をそれぞれ置換文字列「佐藤」「鈴木」「中田」に置き換えるとする。その一方、情報項目「かな姓」の原本文字列「やまだ」「さとう」「なかた」をそれぞれ置換文字列「たにぐち」「かわぐち」「おさない」に置き換えるとする。この場合、原本文書の「山田」「やまだ」は、変換文書では「佐藤」「たにぐち」となり、変換文書の利用者が違和感を抱くことがある。また、このような変換文書で、かな姓によるソート機能や検索機能のテストを実施した場合、テスト結果の正否を判別しにくくなることもあった。   Specifically, it is assumed that the original character strings "Yamada", "Sasaki" and "Nakata" of the information item "Kanji surname" are replaced with replacement character strings "Sato", "Suzuki" and "Nakata", respectively. On the other hand, it is assumed that the original character strings "Yayama", "Sato" and "Nanakata" of the information item "Kana surname" are replaced with substitution characters "Tanaguchi", "Kawaguchi" and "Osanai", respectively. In this case, "Yamada" and "Yayama" in the original document become "Sato" and "Taniguchi" in the converted document, and the user of the converted document may feel uncomfortable. In addition, when a test of sorting function or searching function by kana surname is performed on such a converted document, it may be difficult to determine whether the test result is correct or not.

実施の形態のデータマスキング技術は、第1の課題を解決するために、特徴1として、複数の情報項目(例えば姓と名)の原本文字列の組み合わせに基づいて置換文字列を決定する。また、第2の課題を解決するために、特徴2として、原本文書における情報項目間の関連性(関係性)を反映した変換辞書を保持し、その変換辞書を参照して、原本文書における情報項目間の関連性を維持したマスキングを実行する。   In order to solve the first problem, the data masking technology according to the embodiment determines a replacement character string as a feature 1 based on a combination of original character strings of a plurality of information items (for example, a surname and a first name). In addition, in order to solve the second problem, as a feature 2, a conversion dictionary that reflects the relationship (relationship) between information items in the original document is stored, and the information in the original document is referenced with reference to the conversion dictionary. Perform masking that maintains the relationship between items.

以下、特徴1に関して第1の実施の形態(以下「第1実施形態」と呼ぶ。)にて説明し、特徴2に関して第2の実施の形態(以下「第2実施形態」と呼ぶ。)にて説明する。また、特徴1と特徴2を組み合わせる実施例を第3の実施の形態(以下「第3実施形態」と呼ぶ。)にて説明する。   Hereinafter, the feature 1 will be described in the first embodiment (hereinafter referred to as the “first embodiment”), and the feature 2 will be described in the second embodiment (hereinafter referred to as the “second embodiment”). Explain. In addition, an example in which the feature 1 and the feature 2 are combined will be described in a third embodiment (hereinafter, referred to as “third embodiment”).

(第1実施形態)
図1は、第1実施形態の情報処理システムの構成を示す。情報処理システム100は、本番機10、試験機12、データマスキング装置14を備える。本番機10は、本番環境(商用環境)に設置された情報処理装置であり、例えばウェブサーバや、アプリケーションサーバ、データベースサーバ、ディレクトリサーバである。試験機12は、開発環境や試験環境に設置された情報処理装置であり、例えば本番機10にデプロイするアプリケーションの開発やテストを実行するPCやサーバである。
First Embodiment
FIG. 1 shows the configuration of the information processing system of the first embodiment. The information processing system 100 includes a production machine 10, a testing machine 12, and a data masking device 14. The production machine 10 is an information processing apparatus installed in a production environment (commercial environment), and is, for example, a web server, an application server, a database server, or a directory server. The test machine 12 is an information processing apparatus installed in a development environment or a test environment, and is, for example, a PC or a server that executes development and testing of an application deployed on the production machine 10.

本番機10は、企業の顧客やエンドユーザ、従業員の個人情報等、秘密にすべき情報や、公開が許可されない情報を保持する。試験機12は、本番機10から抽出されたテストデータにてテストを実行するが、このテストデータでは上記の秘密情報は隠蔽される必要がある。データマスキング装置14は、個人情報等の様々な秘密情報をマスキングする情報処理装置である。データマスキング装置14は、本番機10に保持される情報が記録された原本文書16を取得し、原本文書16に記録された秘密情報をマスキングした変換文書18を生成する。変換文書18は、テストデータとして試験機12へ提供される。   The production machine 10 holds information that should be kept secret or information that is not permitted to be released, such as personal information of a customer, an end user, or an employee of a company. The tester 12 executes a test on test data extracted from the production machine 10. In this test data, the above-mentioned secret information needs to be concealed. The data masking device 14 is an information processing device that masks various secret information such as personal information. The data masking device 14 acquires the original document 16 in which the information held in the production machine 10 is recorded, and generates a converted document 18 in which the secret information recorded in the original document 16 is masked. The conversion document 18 is provided to the tester 12 as test data.

実施の形態の原本文書16、変換文書18は、複数の情報項目それぞれのコンテンツ(具体的には文字列)により構成されるレコードを複数記録した表形式(言い換えればテーブル構造)のデータ(例えばCSVファイル)とする。ただし、原本文書16、変換文書18は、情報項目の識別が可能であれば表形式のデータに限られない。例えば、各種オフィススイートの文書データであってもよく、RDBMSのテーブルデータであってもよく、プレーンテキストファイルであってもよい。   The original document 16 and the conversion document 18 according to the embodiment are data (for example, CSV) in tabular form (in other words, table structure) in which a plurality of records composed of contents (specifically, character strings) of a plurality of information items are recorded. File). However, the original document 16 and the conversion document 18 are not limited to tabular data as long as the information item can be identified. For example, document data of various office suites may be used, table data of RDBMS may be used, and a plain text file may be used.

図2は、図1のデータマスキング装置14の構成を示すブロック図である。データマスキング装置14は、制御部20、記憶部22、I/F部24を備える。制御部20は、各種データ処理を実行する。記憶部22は、制御部20により参照され、また更新されるデータを記憶する記憶領域である。I/F部24は、外部装置とのインタフェース機能を提供し、種々の通信プロトコルにしたがって外部装置と通信する。I/F部24は通信部とも言える。制御部20は、I/F部24を介して、本番機10および試験機12とデータを送受する。   FIG. 2 is a block diagram showing the configuration of the data masking device 14 of FIG. The data masking device 14 includes a control unit 20, a storage unit 22, and an I / F unit 24. The control unit 20 executes various data processing. The storage unit 22 is a storage area for storing data to be referred to and updated by the control unit 20. The I / F unit 24 provides an interface function with an external device, and communicates with the external device according to various communication protocols. The I / F unit 24 can also be referred to as a communication unit. The control unit 20 transmits and receives data to and from the production machine 10 and the test machine 12 via the I / F unit 24.

本明細書のブロック図において示される各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。   Each block shown in the block diagram of the present specification can be realized by hardware as an element such as a CPU of a computer or a mechanical device, and as software as a computer program or the like. It depicts the functional blocks realized by the coordination of them. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by a combination of hardware and software.

例えば、制御部20内の各ブロックに対応するモジュールを含むデータマスキングプログラムがDVD等の記録媒体に格納され、データマスキング装置14にインストールされてもよい。そして、データマスキング装置14のプロセッサ(CPU等)が、ローカルのストレージに格納されたデータマスキングプログラムを、メインメモリに読出し、実行することで、制御部20内の各ブロックの機能を発揮してもよい。記憶部22は、データマスキング装置14のストレージやメモリがデータを記憶することで実現されてよい。   For example, a data masking program including a module corresponding to each block in the control unit 20 may be stored in a recording medium such as a DVD and installed in the data masking device 14. Then, even if the processor (CPU or the like) of the data masking device 14 reads out the data masking program stored in the local storage to the main memory and executes it, the function of each block in the control unit 20 is exhibited. Good. The storage unit 22 may be realized by the storage or memory of the data masking device 14 storing data.

記憶部22は、置換対象情報保持部30と変換辞書保持部32を含む。置換対象情報保持部30は、マスキング対象、言い換えれば置換対象となる情報項目の識別情報を保持する。置換対象情報保持部30は、複数の情報項目、例えば「契約者姓」「契約者名」「年齢」「性別」「住所」等を示す文字列を項目識別情報として保持してもよい。また、原本文書16における複数の情報項目の原本文字列それぞれの記録位置、例えばレコードの先頭位置からのバイト長や文字列長等を示す情報を項目識別情報として保持してもよい。   The storage unit 22 includes a replacement target information storage unit 30 and a conversion dictionary storage unit 32. The replacement target information holding unit 30 holds identification information of a masking target, in other words, an information item to be replaced. The replacement target information holding unit 30 may hold, as item identification information, a character string indicating a plurality of information items, for example, “contractor surname”, “contractor name”, “age”, “sex”, “address” and the like. Further, information indicating the recording positions of the original character strings of the plurality of information items in the original document 16, for example, the byte length from the head position of the record, the character string length, etc. may be held as item identification information.

変換辞書保持部32は、文字列置換時に参照される辞書のデータ(以下「変換辞書」とも呼ぶ。)を保持する。実施の形態の変換辞書は、文字列置換対象となる複数の情報項目の置換文字列を、ハッシュ値と対応付けて記録したものである。ハッシュ値は、複数の情報項目の原本文字列の組み合わせのIDと言え、複数の情報項目の置換文字列の組み合わせのIDとも言える。また、置換文字列検索用のキーとも言える。   The conversion dictionary holding unit 32 holds dictionary data (hereinafter also referred to as “conversion dictionary”) referred to at the time of character string substitution. In the conversion dictionary of the embodiment, replacement character strings of a plurality of information items to be character string replacement targets are recorded in association with hash values. The hash value can be said to be an ID of a combination of original character strings of a plurality of information items, and can also be said to be an ID of a combination of substitution strings of a plurality of information items. It can also be said that it is a key for replacement character string search.

図3は、第1実施形態の変換辞書保持部32に保持される変換辞書の例を示す。同図の変換辞書は、ハッシュ値と、複数の情報項目「契約者姓」「契約者名」それぞれの置換文字列(例えば架空の姓や名)を対応付けている。変換辞書の1行(1レコード)が置換文字列の候補となり、変換辞書は置換文字列の複数の候補を複数のレコードに亘って定めている。変換辞書保持部32は、置換文字列の複数の候補を異なる位置(すなわち変換辞書の異なるレコード)に保持する候補文字列保持部とも言える。なお変換辞書は、ハッシュ値を記録しない構成であってもよい。また変換辞書保持部32は、複数の情報項目のそれぞれについて独立した別個の変換辞書を保持してもよい。   FIG. 3 shows an example of the conversion dictionary held in the conversion dictionary holding unit 32 of the first embodiment. The conversion dictionary in the same figure associates a hash value with a replacement character string (for example, a fictitious surname or first name) of each of a plurality of information items "contractor surname" and "contractor name". One line (one record) of the conversion dictionary is a candidate for the replacement character string, and the conversion dictionary defines a plurality of candidates for the replacement character string across a plurality of records. The conversion dictionary holding unit 32 can also be said to be a candidate character string holding unit that holds a plurality of replacement character string candidates at different positions (that is, records with different conversion dictionaries). The conversion dictionary may be configured not to record the hash value. The conversion dictionary holding unit 32 may hold independent separate conversion dictionaries for each of the plurality of information items.

図2に戻り、制御部20は、原本文書取得部34、原本文字列取得部36、置換文字列決定部38、文字列変換部40、変換文書出力部42を含む。原本文書取得部34は、本番機10から出力された原本文書16を読み込む。原本文書取得部34は、I/F部24を介して本番機10と通信し、本番機10に保持された原本文書16を取得してもよい。また原本文書取得部34は、本番機10が出力した原本文書16を記録したメディア(DVDやUSBメモリ等)から、原本文書16を読み込んでもよい。   Returning to FIG. 2, the control unit 20 includes an original document acquisition unit 34, an original character string acquisition unit 36, a replacement character string determination unit 38, a character string conversion unit 40, and a converted document output unit 42. The original document acquisition unit 34 reads the original document 16 output from the production machine 10. The original document acquisition unit 34 may communicate with the production machine 10 via the I / F unit 24 to acquire the original document 16 held by the production machine 10. The original document acquisition unit 34 may read the original document 16 from a medium (such as a DVD or a USB memory) on which the original document 16 output from the production machine 10 is recorded.

原本文字列取得部36は、置換対象情報保持部30を参照して置換対象となる複数の情報項目を識別し、それら複数の情報項目の原本文字列を原本文書から取得する。例えば、原本文書16における置換対象情報項目のカラムから原本文字列を取得してもよく、原本文書16における置換対象情報項目の記録位置から原本文字列を取得してもよい。   The original character string acquisition unit 36 identifies a plurality of information items to be substituted with reference to the replacement object information holding unit 30, and acquires original character strings of the plurality of information items from the original document. For example, the original character string may be acquired from the column of the replacement target information item in the original document 16, or the original character string may be acquired from the recording position of the replacement target information item in the original document 16.

置換文字列決定部38は、原本データに記録された複数の情報項目の原本文字列の組み合わせに基づいて、前記複数の情報項目の置換文字列を決定する。具体的には、変換辞書保持部32の変換辞書に記録された置換文字列の複数の候補のうち、複数の情報項目の原本文字列の組み合わせに基づき特定される辞書内の位置に記録された候補を置換文字列として決定する。さらに具体的には、複数の情報項目の原本文字列の組み合わせを所定の一方向関数にて変換した値を取得し、その値に基づき特定される辞書内の位置に保持された候補を置換文字列として決定する。   The replacement character string determination unit 38 determines replacement character strings of the plurality of information items based on a combination of the original character strings of the plurality of information items recorded in the original data. Specifically, among a plurality of replacement character string candidates recorded in the conversion dictionary of the conversion dictionary holding unit 32, the information is recorded at a position in the dictionary specified based on a combination of original character strings of a plurality of information items. Determine the candidate as a replacement string. More specifically, a value obtained by converting a combination of original character strings of a plurality of information items by a predetermined one-way function is acquired, and a candidate held at a position in the dictionary specified based on the value is substituted character Determined as a column.

実施の形態の置換文字列決定部38は、原本文字列取得部36により取得された置換対象となる複数の情報項目の原本文字列を結合する。そして結合した文字列を、予め定められた所定のハッシュ関数(例えばMD5やSHA−1等)に入力してハッシュ値を取得する。例えば、置換対象となる複数の情報項目が「契約者姓」「契約者名」の場合、「契約者姓」の原本文字列「山田」、「契約者名」の原本文字列「太郎」を結合した文字列「山田太郎」のハッシュ値を取得する。   The replacement character string determination unit 38 according to the embodiment combines original character strings of a plurality of information items to be replaced acquired by the original character string acquisition unit 36. Then, the combined character string is input to a predetermined hash function (for example, MD5 or SHA-1 or the like) determined in advance to obtain a hash value. For example, when a plurality of information items to be replaced are "contractor surname" and "contractor name", the original character string "Yamada" of "contractor surname" and the original character string "taro" of "contractor name" Get the hash value of the combined character string "Taro Yamada".

置換文字列決定部38は、取得したハッシュ値に対応する置換対象となる複数の情報項目の置換文字列を、変換辞書保持部32に保持された変換辞書を参照して識別する。置換文字列決定部38は、複数の情報項目の原本文字列を結合した文字列から得られたハッシュ値に対応する変換辞書の行位置に記録された置換文字列をマスキングに使用する置換文字列として決定する。例えば、ハッシュ値として「1」〜「999」の値を取得してもよい。そして、変換辞書においてハッシュ値が示す行位置(ハッシュ値が「500」であれば500行目)に記録された置換文字列をマスキングに使用する置換文字列として決定する。   The replacement character string determination unit 38 identifies replacement character strings of a plurality of information items to be replaced corresponding to the acquired hash value with reference to the conversion dictionary stored in the conversion dictionary storage unit 32. The replacement character string determination unit 38 uses, for masking, a replacement character string recorded at a line position of a conversion dictionary corresponding to a hash value obtained from a character string obtained by combining original character strings of a plurality of information items. Decide as. For example, you may acquire the value of "1"-"999" as a hash value. Then, the replacement character string recorded in the line position (500 line if the hash value is “500”) indicated by the hash value in the conversion dictionary is determined as a replacement character string used for masking.

なお、置換文字列決定部38は、異なる原本文字列間でハッシュ値が重複すること、いわゆるシノニムの発生を回避する処理を実行してもよいが、一方でシノニムの発生を回避する処理を抑制してもよい。変換文書18は、典型的には開発用・テスト用のデータであり、異なる原本文字列に対して同じ置換文字列を割当てても問題は生じにくいからである。また、シノニムを許容することにより、変換辞書保持部32が保持する変換辞書のレコード数、すなわち置換文字列の候補数は、原本文字列として記録されうる情報数に比べて少なく抑えることができる。   Although the replacement character string determination unit 38 may execute processing to avoid the occurrence of so-called synonyms, in which hash values overlap between different original character strings, on the other hand, the processing to avoid the generation of synonyms is suppressed. You may The converted document 18 is typically data for development and testing, and problems are less likely to occur even if the same replacement character string is assigned to different original character strings. Further, by allowing synonyms, the number of records of the conversion dictionary held by the conversion dictionary holding unit 32, that is, the number of candidates for the replacement character string can be suppressed smaller than the number of information that can be recorded as the original character string.

文字列変換部40は、原本文書16に記録された置換対象となる複数の情報項目の原本文字列を、置換文字列決定部38により決定された置換文字列へ置換える。例えば、原本文書16の1つのレコードにおける契約者姓と契約者名の原本文字列「山田」「太郎」を、置換文字列決定部38により決定された置換文字列「栗山」「高次」に置換する。文字列変換部40は、原本文字列を置換文字列に変換した変換文書18を生成する。   The character string conversion unit 40 replaces the original character strings of the plurality of information items to be replaced recorded in the original document 16 with the replacement character string determined by the replacement character string determination unit 38. For example, the original character strings “Yamada” and “Taro” of the contractor's surname and the contractor name in one record of the original document 16 are replaced with the replacement character string “Kuriyama” “high order” determined by the replacement character string determination unit Replace. The character string conversion unit 40 generates a converted document 18 in which the original character string is converted into a replacement character string.

変換文書出力部42は、文字列変換部40により生成された変換文書18を所定の装置へ出力する。例えば変換文書出力部42は、I/F部24を介して、変換文書18を試験機12へ送信してもよい。また、変換文書18をローカルのストレージや、所定の記録メディアへ保存してもよい。   The converted document output unit 42 outputs the converted document 18 generated by the character string conversion unit 40 to a predetermined device. For example, the converted document output unit 42 may transmit the converted document 18 to the tester 12 via the I / F unit 24. Also, the converted document 18 may be stored in a local storage or a predetermined recording medium.

以上の構成によるデータマスキング装置14の動作を以下説明する。
情報処理システム100の開発担当者やテスト担当者は、本番機10に保持された顧客や社員の個人情報を含む原本文書16を記録メディアに出力させ、その記録メディアをデータマスキング装置14に読み込ませる。データマスキング装置14の原本文書取得部34は、その記録メディアから原本文書16を読み込む。原本文字列取得部36は、置換対象情報保持部30に予め格納された項目識別情報にしたがって、原本文書16に記録された置換対象となる複数の情報項目の原本文字列を読み込む。
The operation of the data masking device 14 having the above configuration will be described below.
A developer or a tester in charge of the information processing system 100 causes the recording medium to output the original document 16 including the personal information of the customer or the employee held in the production machine 10 and causes the data masking device 14 to read the recording medium. . The original document acquisition unit 34 of the data masking device 14 reads the original document 16 from the recording medium. The original character string acquisition unit 36 reads the original character strings of a plurality of information items to be replaced recorded in the original document 16 according to the item identification information stored in advance in the replacement object information holding unit 30.

置換文字列決定部38は、変換辞書保持部32の変換辞書を参照し、置換対象となる複数の情報項目の原本文字列の組み合わせにより特定される置換文字列を決定する。文字列変換部40は、原本文書16の原本文字列を置換文字列に置換えた変換文書18を生成する。変換文書出力部42は、個人情報をマスキングしたテストデータとして変換文書18を所定の記録メディアへ出力する。開発担当者やテスト担当者は、データマスキング装置14が出力し変換文書18を試験機12に読み込ませ、アプリケーションの開発やテストを実施する。   The replacement character string determination unit 38 refers to the conversion dictionary of the conversion dictionary holding unit 32 and determines a replacement character string specified by a combination of original character strings of a plurality of information items to be replaced. The character string conversion unit 40 generates a converted document 18 in which the original character string of the original document 16 is replaced with a replacement character string. The converted document output unit 42 outputs the converted document 18 to a predetermined recording medium as test data in which personal information is masked. The developers and testers output the data masking device 14 and read the converted document 18 into the tester 12 to develop and test the application.

第1実施形態のデータマスキング装置14によると、複数の情報項目を単位として、複数の情報項目の原本文字列の組み合わせに基づいて置換文字列を決定する。これにより、原本文書16における特定の原本文字列の出現傾向が変換文書18に反映されることを抑制できる。例えば、複数の情報項目の少なくとも1つが、特定の原本文字列の出現頻度が高いものであっても、他の情報項目の原本文字列との組み合わせで置換文字列を決定するため、特定の原本文字列の出現頻度が特定の置換文字列の出現頻度に反映されることを抑制できる。この結果、変換文書18に記録された置換文字列から元の原本文字列を推測することを困難なものにでき、変換文書18による情報漏洩のリスクを低減できる。   According to the data masking device 14 of the first embodiment, a replacement character string is determined based on a combination of original character strings of a plurality of information items in units of a plurality of information items. As a result, it is possible to suppress that the appearance tendency of the specific original character string in the original document 16 is reflected in the converted document 18. For example, even if at least one of the plurality of information items has a high frequency of appearance of a specific original character string, the specific original document is determined because a replacement character string is determined in combination with the original character strings of other information items. It can be suppressed that the appearance frequency of a character string is reflected in the appearance frequency of a specific replacement character string. As a result, it is difficult to estimate the original original character string from the replacement character string recorded in the converted document 18, and the risk of information leakage due to the converted document 18 can be reduced.

例えば、複数の情報項目が「契約者姓」「契約者名」で、原本文書16の第1レコードが「鈴木」「太郎」、第2レコードが「鈴木」「次郎」、第3レコードが「鈴木」「三郎」であるとする。この場合、第1実施形態のデータマスキングにより、例えば変換文書18の第1レコードが「佐藤」「信長」、第2レコードが「山口」「秀吉」、第3レコードが「佐々木」「家康」となる。「契約者姓」の「鈴木」が特定の1つの置換文字列(例えば「三田村」)に置換される場合、変換文書18における「三田村」の登場回数が多ければ、「三田村」は実際には「鈴木」や「佐藤」等であると推測できてしまう。第1実施形態のデータマスキング装置14では、単純に「鈴木」が「三田村」に置換されるのではなく、様々な文字列に置換されるため、置換文字列から原本文字列の推測が困難になる。   For example, a plurality of information items are "contractor surname" and "contractor name", the first record of the original document 16 is "Suzuki" and "Taro", the second record is "Suzuki" and "Jiro", and the third record is " Suzuki "Saburo" is assumed. In this case, for example, the first record of the converted document 18 is “Sato” “Nobunaga”, the second record is “Yamaguchi” “Hideyoshi”, and the third record is “Sasaki” “Ieyasu” by the data masking of the first embodiment. Become. When “Suzuki” of “Contractor's surname” is replaced with one specific substitution string (for example, “Mitamura”), “Mitamura” is actually determined if “Mitamura” appears more frequently in converted document 18 I can guess that it is "Suzuki" or "Sato". In the data masking device 14 of the first embodiment, "Suzuki" is not simply replaced with "Mitamura", but replaced with various character strings, so it is difficult to deduce the original character string from the substituted character string. Become.

このように、複数の情報項目の原本文字列の組み合わせにより置換文字列を決定することが好適な情報項目は、特定の原本文字列の出現頻度に何らかの傾向がある情報項目である。例えば、人の姓以外にも、住所等における都道府県名や、所属する部署名が挙げられる。都道府県名の場合、人口が多い原本文字列の「東京都」や「大阪府」が置換文字列から推測されてしまうことを防止しやすくなる。また部署名の場合、所属する従業員が多い部署名が置換文字列から推測されてしまうことを防止しやすくなる。実施の形態の技術思想は、複数の情報項目の原本文字列の組み合わせにより、それら複数の情報項目のうち原本文字列の出現頻度に傾向が現れやすい少なくとも1つの情報項目の置換文字列を決定することとも言える。   As described above, an information item suitable for determining a replacement character string by a combination of original character strings of a plurality of information items is an information item having some tendency in the appearance frequency of a specific original character string. For example, besides the surname of a person, the name of a prefecture in an address etc., and a department name to which the user belongs can be mentioned. In the case of the prefecture name, it becomes easy to prevent that "Tokyo" and "Osaka Prefecture" of the original character strings having a large population are inferred from the replacement strings. Also, in the case of departmental signatures, it becomes easy to prevent the departmental signatures with many employees belonging to being inferred from the replacement character string. The technical idea of the embodiment determines a replacement character string of at least one information item in which a tendency tends to appear in the appearance frequency of the original character string among the plurality of information items, by combining the original character strings of the plurality of information items. It can be said that.

また第1実施形態のデータマスキング装置14によると、変換辞書において異なる位置に記録された複数の置換文字列候補のうち、複数の情報項目の原本文字列の組み合わせで特定される位置に記録された候補を、原本文字列の置換に用いる置換文字列とする。この構成によると、特定の原本文字列の組み合わせが特定の置換文字列へ一意に変換されることになり、変換の一意性を保証できる。   Further, according to the data masking device 14 of the first embodiment, among the plurality of replacement character string candidates recorded at different positions in the conversion dictionary, the data is recorded at the position specified by the combination of original character strings of a plurality of information items. Let the candidate be a replacement string used to replace the original string. According to this configuration, a specific combination of original character strings is uniquely converted to a specific replacement string, and the uniqueness of conversion can be guaranteed.

また第1実施形態のデータマスキング装置14によると、複数の情報項目の原本文字列を結合した文字列をハッシュ関数に入力してハッシュ値を取得する。そして、変換辞書において異なる位置に記録された複数の置換文字列候補のうち、ハッシュ値により特定される変換辞書の位置に記録された候補を、原本文字列の置換に用いる置換文字列とする。この構成によると、変換辞書にはハッシュ値と置換文字列の対応関係のみ記録されるため、変換辞書を見ただけでは置換文字列に対応する原本文字列を把握することが困難であり、データマスキングの安全性を向上できる。   Further, according to the data masking device 14 of the first embodiment, a character string obtained by combining original character strings of a plurality of information items is input to a hash function to acquire a hash value. Then, among the plurality of replacement character string candidates recorded at different positions in the conversion dictionary, the candidate recorded at the position of the conversion dictionary specified by the hash value is set as a replacement character string used for replacement of the original character string. According to this configuration, only the correspondence between the hash value and the replacement character string is recorded in the conversion dictionary, so it is difficult to grasp the original character string corresponding to the replacement character string only by looking at the conversion dictionary. The safety of masking can be improved.

以上、本発明を第1実施形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。   The present invention has been described above based on the first embodiment. It will be understood by those skilled in the art that this embodiment is an exemplification, and that various modifications can be made to the combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. is there.

第1実施形態の第1変形例を説明する。原本文書16に第1情報項目と第2情報項目が含まれる場合に、置換文字列決定部38は、第1情報項目の原本文字列と第2情報項目の原本文字列を第1態様で組み合わせた文字列に基づき特定される位置に保持された候補を第1情報項目の置換文字列として決定してもよい。その一方、置換文字列決定部38は、第1情報項目の原本文字列と第2情報項目の原本文字列を第1態様とは異なる第2態様で組み合わせた文字列に基づき特定される位置に保持された候補を第2情報項目の置換文字列として決定してもよい。   A first modified example of the first embodiment will be described. When the original document 16 includes the first information item and the second information item, the replacement character string determination unit 38 combines the original character string of the first information item and the original character string of the second information item in the first mode. The candidate held at the position specified based on the character string may be determined as a replacement character string of the first information item. On the other hand, the replacement character string determination unit 38 determines a position specified based on a character string obtained by combining the original character string of the first information item and the original character string of the second information item in a second mode different from the first mode. The held candidate may be determined as a replacement string of the second information item.

図3の変換辞書を用いた具体例を示す。第1情報項目が契約者姓、第2情報項目が契約者名である場合、置換文字列決定部38は、先頭から契約者姓、契約者名の順に原本文字列を結合した文字列(例えば「山田太郎」)をハッシュ関数に入力してハッシュ値を取得し、そのハッシュ値に対応するレコードを識別する。そして、そのレコードに記録された置換文字列を契約者姓の置換文字列として決定してもよい。ハッシュ値が「123」であれば、契約者姓の置換文字列は「栗山」になる。   The example using the conversion dictionary of FIG. 3 is shown. When the first information item is the contractor's surname and the second information item is the contractor's name, the replacement character string determination unit 38 combines the original character strings in the order of the contractor's surname and the contractor's name from the top (for example, "Yamada Taro" is input to the hash function to obtain a hash value, and a record corresponding to the hash value is identified. Then, the replacement character string recorded in the record may be determined as the replacement character string of the contractor surname. If the hash value is "123", the replacement string of the contractor surname will be "Kuriyama".

また置換文字列決定部38は、先頭から契約者名、契約者姓の順に原本文字列を結合した文字列(例えば「太郎山田」)をハッシュ関数に入力してハッシュ値を取得し、そのハッシュ値に対応するレコードを識別する。そして、そのレコードに記録された置換文字列を契約者姓の置換文字列として決定してもよい。ハッシュ値が「422」であれば、契約者名の置換文字列は「平次」になる。   Further, the replacement character string determination unit 38 inputs a character string (for example, “Taro Yamada”) obtained by combining the original character string in the order of the contractor name and the contractor surname from the top (for example, “Taro Yamada”) into a hash function to obtain a hash value. Identifies the record that corresponds to the value. Then, the replacement character string recorded in the record may be determined as the replacement character string of the contractor surname. If the hash value is "422", the replacement string of the contractor name will be "plain".

第1変形例の構成によると、マスキングの対象となる複数の情報項目の置換文字列の組み合わせが一層多様化して、置換文字列から原本文字列を推測することが一層困難になる。例えば図3の変換辞書では、契約者姓の置換文字列が「栗山」の場合、契約者名の置換文字列は常に「高次」になるわけではなく、「平次」や「光太郎」になるかもしれない。また、変換辞書を見て置換文字列に対応する原本文字列を把握することを一層困難なものにできる。   According to the configuration of the first modification, the combinations of replacement character strings of a plurality of information items to be masked become more diversified, and it becomes more difficult to estimate the original character string from the replacement character strings. For example, in the conversion dictionary of FIG. 3, when the replacement string of the contractor surname is "Kuriyama", the replacement string of the contractor's name is not always "high order", but is "hiraji" or "photon" It may be. In addition, it can be made more difficult to grasp the original character string corresponding to the replacement character string by looking at the conversion dictionary.

第1実施形態の第2変形例を説明する。上記実施の形態では、置換文字列決定部38は、置換対象となる複数の情報項目の原本文字列を結合してハッシュ値を取得した。変形例として、各情報項目の原本文字列を結合後、所定の文字列操作やビット演算を実行した後にハッシュ値を取得してもよい。また、各情報項目の原本文字列に対して所定の文字列操作やビット演算を実行した後、操作・演算後の文字列を結合してハッシュ値を取得してもよい。また、各情報項目の原本文字列個々にハッシュ値を取得後、個々のハッシュ値を所定の演算により合成し、その合成値に基づいて置換文字列を決定してもよい。   A second modified example of the first embodiment will be described. In the above embodiment, the replacement character string determination unit 38 combines the original character strings of a plurality of information items to be replaced to obtain a hash value. As a modification, after the original character strings of the information items are combined, a hash value may be acquired after performing a predetermined character string operation or bit operation. In addition, after a predetermined character string operation or bit operation is performed on the original character string of each information item, the character string after the operation / operation may be combined to obtain a hash value. In addition, after obtaining the hash value for each original character string of each information item, the individual hash values may be combined by a predetermined operation, and the replacement string may be determined based on the combined value.

第1実施形態の第3変形例を説明する。上記実施の形態では、ハッシュ値に対応する行位置に記録された置換文字列をマスキングに使用する置換文字列として決定した。変形例として、置換文字列決定部38は、複数の情報項目の原本文字列を結合した文字列から得られたハッシュ値に対応付けられた複数の情報項目の置換文字列を、変換辞書保持部32に保持された変換辞書を参照して識別してもよい。すなわち、結合した文字列から得られたハッシュ値が記録された変換辞書のレコードを識別し、そのレコードに記録された置換文字列をマスキングに使用する文字列として決定してもよい。例えば、図3の変換辞書を参照し、かつ、原本文字列を結合した「山田太郎」のハッシュ値が「123」である場合、「契約者姓」の置換文字列を「栗山」に決定し、「契約者名」の置換文字列を「高次」に決定してもよい。   A third modified example of the first embodiment will be described. In the above embodiment, the replacement string recorded at the line position corresponding to the hash value is determined as the replacement string used for masking. As a modification, the replacement character string determination unit 38 converts a replacement character string of a plurality of information items associated with a hash value obtained from a character string obtained by combining original character strings of a plurality of information items into a conversion dictionary storage unit. The conversion dictionary held in 32 may be referred to and identified. That is, a record of a conversion dictionary in which a hash value obtained from a combined character string is recorded may be identified, and a replacement character string recorded in the record may be determined as a character string to be used for masking. For example, when referring to the conversion dictionary of FIG. 3 and the hash value of “Yamada Taro” obtained by combining the original character strings is “123”, the replacement character string of “Subscriber surname” is determined as “Kuriyama”. , And the replacement string of “contractor name” may be determined to be “high order”.

第1実施形態の第4変形例を説明する。変換辞書保持部32が保持する変換辞書は、原本文字列と置換文字列を直接対応付けてもよい。図4は、変形例の変換辞書を示す。同図の変換辞書では、複数の情報項目「契約者姓」「契約者名」の原本文字列(図中の「原本契約者姓」「原本契約者名」のデータ)を、それらの情報項目の置換文字列(図中の「置換契約者姓」「置換契約者名」のデータ)に対応付けている。この場合、置換文字列決定部38は、複数の情報項目の原本文字列の組み合わせそのものをキーとして変換辞書を検索してもよい。図4の例では、原本契約者姓と原本契約者名の組み合わせが「山田」「太郎」の場合、置換文字列決定部38は、置換契約者姓と置換契約者名の組み合わせとして「栗山」「高次」を決定する。   A fourth modified example of the first embodiment will be described. The conversion dictionary held by the conversion dictionary holding unit 32 may directly associate the original character string and the replacement character string. FIG. 4 shows a conversion dictionary of the modification. In the conversion dictionary of the same figure, the original character strings of the plurality of information items "contractor surname" and "contractor name" (data of "original contractor surname" and "original contractor name" in the figure) Is associated with the replacement character string (data of “replacement contractor surname” and “replacement contractor name” in the figure). In this case, the replacement character string determination unit 38 may search the conversion dictionary using a combination of original character strings of a plurality of information items as a key. In the example of FIG. 4, when the combination of the original contractor surname and the original contractor name is “Yamada” and “Taro”, the replacement character string determination unit 38 “Kuriyama” as a combination of the replacement contractor surname and the replacement contractor name. Determine "high order".

(第2実施形態)
第2実施形態では、置換対象となる複数の情報項目の原本文字列間の関係を、それら複数の情報項目の置換文字列間でも維持するデータマスキング技術を説明する。第2実施形態の情報処理システム100の構成は第1実施形態と同じ(図1)であり、第2実施形態のデータマスキング装置14の機能ブロックも第1実施形態と同じ(図2)である。以下、第1実施形態と重複する説明は省略し、異なる点を主に説明する。
Second Embodiment
In the second embodiment, a data masking technique will be described in which the relationship between original character strings of a plurality of information items to be replaced is maintained even between replacement character strings of the plurality of information items. The configuration of the information processing system 100 of the second embodiment is the same as that of the first embodiment (FIG. 1), and the functional blocks of the data masking device 14 of the second embodiment are also the same as that of the first embodiment (FIG. 2). . Hereinafter, the description overlapping with the first embodiment will be omitted, and different points will be mainly described.

第2実施形態でマスキング対象となる複数の情報項目には、互いに関連した内容の原本文字列が記録される。例えば複数の情報項目には、ある対象・事物を第1態様で表記した原本文字列が設定される第1情報項目と、同じ対象・事物を第1態様とは異なる第2態様で表記した原本文字列が設定される第2情報項目を含む。言い換えれば、複数の情報項目には、同じ対象・事物を外観上異なる態様で表記した文字列がそれぞれ設定される。例えば、第1情報項目が契約者の姓の漢字表記が設定される「契約者漢字姓」である場合、第2情報項目は契約者の姓のかな表記が設定される「契約者かな姓」が該当する。   In a plurality of information items to be masked in the second embodiment, original character strings having contents related to each other are recorded. For example, in a plurality of information items, a first information item in which an original character string in which an object or thing is described in a first mode is set, and an original in which the same object or thing is described in a second mode different from the first mode It contains the second information item in which the character string is set. In other words, character strings in which the same object or thing is described in different appearances are respectively set to the plurality of information items. For example, if the first information item is a "contractor kanji surname" in which the kanji notation of the contractor's surname is set, the second information item is a "contractor kana surname" in which the Kana notation of the contractor's surname is set. Is the case.

互いに関連した内容の原本文字列が記録される複数の情報項目、すなわち第2実施形態のマスキングが有効な複数の情報項目は、漢字姓とかな姓以外にも様々なものが考えられる。例えば、人の名と性別、ID(例えば都道府県コード)とそのIDにより特定される情報(例えば都道府県名)、都道府県名と市区町村名、姓とメールアドレス(メールアドレスのローカル部に姓のローマ字を設定する規則がある場合)が挙げられる。   A plurality of information items in which original character strings having mutually related contents are recorded, that is, a plurality of information items effective for masking in the second embodiment, can be considered various other than kanji surnames and kana surnames. For example, a person's name and gender, an ID (for example, a prefecture code) and information specified by the ID (for example, a prefecture name), a prefecture name and a municipality name, a surname and an e-mail address If there is a rule to set roman letters).

変換辞書保持部32は、原本文書16に記録された複数の情報項目であり、かつ互いに関連した複数の情報項目の置換文字列を示す変換辞書を保持する。図5は、第2実施形態の変換辞書保持部32に保持される変換辞書の例を示す。この変換辞書が定める複数の情報項目の置換文字列間では、原本文書16に記録される複数の情報項目の原本文字列間の関係が維持されている。すなわち図5の変換辞書では、ハッシュ値と、情報項目「契約者漢字姓」「契約者かな姓」の置換文字列を対応付けており、あるレコードの「契約者かな姓」には、同じレコードの「契約者漢字姓」の読み仮名が設定される。   The conversion dictionary holding unit 32 holds a conversion dictionary indicating a plurality of information items recorded in the original document 16 and indicating replacement character strings of a plurality of information items related to each other. FIG. 5 shows an example of the conversion dictionary held in the conversion dictionary holding unit 32 of the second embodiment. Between the replacement character strings of the plurality of information items defined by the conversion dictionary, the relationship between the original character strings of the plurality of information items recorded in the original document 16 is maintained. That is, in the conversion dictionary of FIG. 5, the hash value is associated with the replacement character string of the information items "contractor kanji surname" and "contractor kana surname", and the same record is registered in "contractor kana surname" of a certain record. The phonetic alphabet of "Subscriber Kanji surname" is set.

図6も、第2実施形態の変換辞書保持部32に保持される変換辞書の例を示す。この変換辞書が定める複数の情報項目の置換文字列間でも、原本文書16に記録された複数の情報項目の原本文字列間の関係が維持されている。すなわち、同じレコード内の都道府県コード、都道府県名、市区町村名には、互いに整合する文字列が設定されている。   FIG. 6 also shows an example of the conversion dictionary held in the conversion dictionary holding unit 32 of the second embodiment. The relationships among the original character strings of the plurality of information items recorded in the original document 16 are maintained among the replacement character strings of the plurality of information items defined by the conversion dictionary. That is, character strings matching each other are set for the prefecture code, the prefecture name, and the city name in the same record.

図2に戻り、置換対象情報保持部30は、置換対象となる情報項目として、互いに関連した複数の情報項目の識別情報を保持する。原本文字列取得部36は、置換対象情報保持部30を参照し、互いに関連した複数の情報項目のそれぞれに設定された原本文字列を取得する。   Returning to FIG. 2, the replacement target information holding unit 30 holds identification information of a plurality of mutually related information items as the information items to be replaced. The original character string acquisition unit 36 refers to the replacement target information holding unit 30 and acquires an original character string set for each of a plurality of mutually related information items.

置換文字列決定部38は、変換辞書保持部32の変換辞書に記録された置換文字列の複数の候補のうち、互いに関連する複数の情報項目の少なくとも1つの原本文字列に基づいて特定される辞書内の位置に記録された候補を複数の情報項目の置換文字列として決定する。置換文字列決定部38は、互いに関連する複数の情報項目の原本文字列の組み合わせに基づいて特定される辞書内の位置に記録された候補を複数の情報項目の置換文字列として決定してもよい。また、互いに関連する複数の情報項目の原本文字列の組み合わせを所定の一方向関数にて変換した値を取得し、その値に基づき特定される位置に保持された候補を置換文字列として決定してもよい。   The replacement character string determination unit 38 is specified based on at least one original character string of a plurality of information items related to each other among the plurality of candidates for the replacement character string recorded in the conversion dictionary of the conversion dictionary storage unit 32. A candidate recorded at a position in the dictionary is determined as a replacement string of a plurality of information items. The replacement character string determination unit 38 determines a candidate recorded at a position in the dictionary specified based on a combination of original character strings of a plurality of information items related to each other as a replacement character string of a plurality of information items. Good. Further, a value obtained by converting a combination of original character strings of a plurality of mutually related information items by a predetermined one-way function is acquired, and a candidate held at a position specified based on the value is determined as a substituted character string. May be

実施の形態の置換文字列決定部38は、原本文字列取得部36が取得した複数の情報項目の原本文字列を結合し、結合した文字列を所定のハッシュ関数に入力してハッシュ値を取得する。例えば、置換対象となる複数の情報項目が「契約者漢字姓」「契約者かな姓」である場合、「契約者漢字姓」の原本文字列「山田」、「契約者かな姓」の原本文字列「やまだ」を結合した文字列「山田やまだ」のハッシュ値を取得する。   The replacement character string determination unit 38 according to the embodiment combines original character strings of a plurality of information items acquired by the original character string acquisition unit 36, inputs the combined character string into a predetermined hash function, and acquires a hash value. Do. For example, when a plurality of information items to be replaced are "contractor kanji surname" and "contractor kana surname", the original character strings of "contractor kanji surname" original characters of "Yamada" and "contractor kana surname" Gets the hash value of the string "Yamada Yamada" that combines the column "Yamada".

置換文字列決定部38は、第1実施形態と同様に、取得したハッシュ値に対応する変換辞書の行位置に記録された置換文字列をマスキングに使用する置換文字列として決定する。例えば、「山田やまだ」のハッシュ値が「500」であれば、変換辞書の500行目に記録された置換文字列をマスキングに使用する文字列として決定する。変形例として、置換文字列決定部38は、第1実施形態の第3変形例と同様に、取得したハッシュ値が記録された変換辞書のレコードを識別し、そのレコードに記録された置換文字列をマスキングに使用する文字列として決定してもよい。例えば、図5の変換辞書を参照し、かつ、「山田やまだ」のハッシュ値が「123」である場合、「契約者漢字姓」の置換文字列を「栗山」に決定し、「契約者かな姓」の置換文字列を「くりやま」に決定してもよい。   Similar to the first embodiment, the replacement character string determination unit 38 determines a replacement character string recorded at a line position of the conversion dictionary corresponding to the acquired hash value as a replacement character string used for masking. For example, if the hash value of "Yamada Yamada" is "500", the replacement character string recorded on the 500th line of the conversion dictionary is determined as the character string to be used for masking. As a modification, as in the third modification of the first embodiment, the replacement character string determination unit 38 identifies a record of the conversion dictionary in which the acquired hash value is recorded, and the replacement character string recorded in the record. May be determined as a string to be used for masking. For example, referring to the conversion dictionary of FIG. 5 and when the hash value of "Yamada Yamada" is "123", the replacement character string of "contractor kanji surname" is determined as "Kuriyama", and is "contractor Kana" The replacement string of the surname may be determined as "Kuriyama".

文字列変換部40は、原本文書16に記録された置換対象の複数の情報項目の原本文字列を、変換辞書保持部32が保持する変換辞書で定められたそれら複数の情報項目の置換文字列へ置換する。具体的には、文字列変換部40は、互いに関連する複数の情報項目の原本文字列を、置換文字列決定部38により決定された各情報項目の置換文字列へ置き換える。   The character string conversion unit 40 substitutes the original character strings of the plurality of information items to be substituted recorded in the original document 16 with the replacement character strings of the plurality of information items defined by the conversion dictionary held by the conversion dictionary holding unit 32. Replace to Specifically, the character string conversion unit 40 replaces original character strings of a plurality of information items related to each other with replacement character strings of the respective information items determined by the replacement character string determination unit 38.

第2実施形態のデータマスキング装置14の動作は、第1実施形態のデータマスキング装置14の動作と同様である。置換文字列決定部38は、互いに関連する複数の情報項目の原本文字列の組み合わせにしたがって、変換辞書保持部32の変換辞書が定めるそれら複数の情報項目の置換文字列を決定する。文字列変換部40は、互いに関連する複数の情報項目の原本文字列を、変換辞書保持部32の変換辞書が定めるそれら複数の情報項目の置換文字列へ置換えることにより変換文書18を生成する。   The operation of the data masking device 14 of the second embodiment is similar to the operation of the data masking device 14 of the first embodiment. The replacement character string determination unit 38 determines replacement character strings of the plurality of information items defined by the conversion dictionary of the conversion dictionary holding unit 32 according to the combination of the original character strings of the plurality of information items related to each other. The character string conversion unit 40 generates the converted document 18 by replacing original character strings of a plurality of information items related to each other with replacement character strings of the plurality of information items defined by the conversion dictionary of the conversion dictionary storage unit 32. .

第2実施形態のデータマスキング装置14によると、原本文書16および変換文書18に記録される互いに関連する複数の情報項目について、それらの情報項目の原本文字列間の関係を置換文字列間でも維持することができる。これにより、テストデータ等として利用する観点から有効性が高い変換文書18を生成できる。例えば、図5の変換辞書の場合、漢字姓の置換文字列と、かな姓の置換文字列が整合する。また図6の変換辞書の場合、都道府県コードと都道府県名、市区町村名それぞれの置換文字列が整合する。   According to the data masking device 14 of the second embodiment, with respect to a plurality of mutually related information items recorded in the original document 16 and the converted document 18, the relationship between the original character strings of the information items is maintained even among the replacement character strings. can do. As a result, it is possible to generate a converted document 18 that is highly effective in terms of using as test data or the like. For example, in the case of the conversion dictionary of FIG. 5, the replacement string of the kanji surname matches the replacement string of the kana surname. Further, in the case of the conversion dictionary shown in FIG. 6, the replacement codes of the prefecture code and the name of the prefecture and the name of the city are matched.

したがって、漢字姓が「栗山」でありながら、かな姓が「ありた」になることや、住所の都道府県名が「東京都」でありながら、市町村名が「横浜市西区」になること等、変換文書18の利用者に違和感を抱かせてしまうことを回避できる。また、変換文書18を用いたテストの結果、例えば都道府県名をキーとした検索結果等の判定が困難になることも回避できる。すなわち、変換文書18の利用者に、複数の情報項目の文字列間の関係に不自然さを感じさせない変換文書18を生成でき、マスキング後のデータの有用性を高めることができる。   Therefore, while the kanji surname is "Kuriyama", the kana surname is "there was" or that the municipality name is "Yokohama City Nishi Ward" while the prefecture name of the address is "Tokyo". The user of the converted document 18 can be prevented from feeling discomfort. In addition, it is possible to avoid that it becomes difficult to determine, for example, a search result with the prefecture name as a key as a result of a test using the converted document 18. That is, it is possible to generate the converted document 18 that does not make the user of the converted document 18 feel unnaturalness in the relationship between character strings of a plurality of information items, and it is possible to enhance the usefulness of the data after masking.

また第2実施形態のデータマスキング装置14によると、互いに関連する複数の情報項目の特定の原本文字列が特定の置換文字列へ一意に変換され、変換の一意性を担保できる。また、変換辞書にはハッシュ値と置換文字列の対応関係のみ記録されるため、変換辞書を見ただけでは置換文字列に対応する原本文字列を把握することが困難であり、データマスキングの安全性を向上できる。   Further, according to the data masking device 14 of the second embodiment, a specific original character string of a plurality of information items related to one another can be uniquely converted into a specific replacement character string, and the uniqueness of conversion can be secured. Further, since only the correspondence between the hash value and the replacement character string is recorded in the conversion dictionary, it is difficult to grasp the original character string corresponding to the replacement character string only by looking at the conversion dictionary, and data masking safety I can improve the nature.

以上、本発明を第2実施形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。   The present invention has been described above based on the second embodiment. It will be understood by those skilled in the art that this embodiment is an exemplification, and that various modifications can be made to the combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. is there.

第1実施形態の第2変形例〜第4変形例は、第2実施形態の変形例としても有用である。例えば、変換辞書保持部32が保持する変換辞書は、原本文字列と置換文字列を直接対応付けてもよい。図7は、変形例の変換辞書を示す。置換文字列決定部38は、複数の情報項目の原本文字列の組み合わせをキーとして変換辞書を検索してもよい。図7の例では、原本契約者漢字姓と原本契約者かな姓の組み合わせが「山田」「やまだ」の場合、置換文字列決定部38は、置換契約者漢字姓と置換契約者かな姓の組み合わせとして「栗山」「くりやま」を決定する。   The second to fourth modifications of the first embodiment are also useful as modifications of the second embodiment. For example, the conversion dictionary held by the conversion dictionary holding unit 32 may directly associate the original character string and the replacement character string. FIG. 7 shows a conversion dictionary of the modification. The replacement character string determination unit 38 may search the conversion dictionary using a combination of original character strings of a plurality of information items as a key. In the example of FIG. 7, when the combination of the original contractor kanji surname and the original contractor kana surname is "Yamada" or "Yayama", the replacement character string determination unit 38 combines the replacement contractor kanji surname and the replacement contractor kana surname. As "Kuriyama" "Kuriyama" is decided.

(第3実施形態)
第3実施形態のデータマスキング装置14は、第1実施形態の特徴と第2実施形態の特徴の両方を備える。第3実施形態の情報処理システム100の構成は第1実施形態、第2実施形態と同じ(図1)であり、第2実施形態のデータマスキング装置14の機能ブロックも第1実施形態、第2実施形態と同じ(図2)である。以下、第1実施形態、第2実施形態と重複する説明は省略し、異なる点を主に説明する。
Third Embodiment
The data masking device 14 of the third embodiment comprises both the features of the first embodiment and the features of the second embodiment. The configuration of the information processing system 100 of the third embodiment is the same as that of the first embodiment and the second embodiment (FIG. 1), and the functional blocks of the data masking device 14 of the second embodiment are also the first embodiment, the second embodiment. It is the same as the embodiment (FIG. 2). Hereinafter, descriptions overlapping with the first embodiment and the second embodiment will be omitted, and different points will be mainly described.

図8は、第3実施形態の変換辞書保持部32に保持される変換辞書の例を示す。第3実施形態の変換辞書の各レコードは、互いに関連する複数の情報項目を含む第1項目群と、互いに関連する複数の情報項目を含む第2項目群について、第1項目群と第2項目群それぞれの置換文字列とハッシュ値との対応関係を記録する。第1項目群は図8の例では契約者漢字姓と契約者かな姓の組み合わせであり、第2項目群は図8の例では契約者漢字名と契約者かな名の組み合わせである。第1項目群と第2項目群の間では関連姓はないことが望ましい。例えば、姓と名の間には直接の関連性はないと言える。   FIG. 8 shows an example of the conversion dictionary held in the conversion dictionary holding unit 32 of the third embodiment. Each record of the conversion dictionary of the third embodiment includes a first item group and a second item for a first item group including a plurality of information items related to each other and a second item group including a plurality of information items related to each other Record the correspondence between the replacement string of each group and the hash value. The first item group is a combination of a contractor kanji surname and a contractor kana surname in the example of FIG. 8, and the second item group is a combination of a contractor kanji name and a contractor kana name in the example of FIG. It is desirable that there is no related surname between the first and second item groups. For example, it can be said that there is no direct relationship between surnames and first names.

図2に戻り、置換対象情報保持部30は、置換対象となる情報項目として、第1項目群に含まれる複数の情報項目の識別情報と、第2項目群に含まれる複数の情報項目の識別情報を保持する。原本文字列取得部36は、置換対象情報保持部30を参照し、第1項目群に含まれる複数の情報項目それぞれに設定された原本文字列と、第2項目群に含まれる複数の情報項目それぞれに設定された原本文字列を取得する。   Returning to FIG. 2, the replacement target information holding unit 30 identifies the identification information of the plurality of information items included in the first item group and the identification of the plurality of information items included in the second item group as the information items to be replaced. Hold information The original character string acquisition unit 36 refers to the replacement target information holding unit 30, and the original character string set for each of the plurality of information items included in the first item group and the plurality of information items included in the second item group Get the original character string set for each.

置換文字列決定部38は、変換辞書保持部32の変換辞書に記録された置換文字列の複数の候補のうち、第1項目群の少なくとも1つの原本文字列と、第2項目群の少なくとも1つの原本文字列の組み合わせに基づいて特定される辞書内の位置に記録された候補を置換文字列として決定する。置換文字列決定部38は、第1項目群に含まれる複数の情報項目の複数の原本文字列と、第2項目群に含まれる複数の情報項目の複数の原本文字列の全てを組み合わせた文字列を使用して置換文字列を決定してもよい。   The replacement character string determination unit 38 selects at least one original character string of the first item group and at least one of the second item group among the plurality of replacement character string candidates recorded in the conversion dictionary of the conversion dictionary storage unit 32. A candidate recorded at a position in the dictionary specified based on a combination of two original character strings is determined as a replacement character string. The replacement character string determination unit 38 is a character combining all original character strings of a plurality of information items included in the first item group and a plurality of original character strings of a plurality of information items included in the second item group. Columns may be used to determine replacement strings.

実施の形態の置換文字列決定部38は、原本文字列取得部36が取得した複数の情報項目の原本文字列の全てを結合し、結合した文字列を所定のハッシュ関数に入力してハッシュ値を取得する。例えば、第1項目群の契約者漢字姓の原本文字列「山田」と契約者かな姓の原本文字列「やまだ」、第2項目群の契約者漢字名の原本文字列「太郎」と契約者かな名の原本文字列「たろう」を結合した「山田やまだ太郎たろう」のハッシュ値を取得する。   The replacement character string determination unit 38 according to the embodiment combines all of the original character strings of the plurality of information items acquired by the original character string acquisition unit 36, inputs the combined character string into a predetermined hash function, and transmits the hash value. To get For example, the original character string "Yamada" of the contractor kanji surname of the first item group, the original character string "Yayama" of the contractor kana surname, the original character string "Taro" of the contractor kanji name of the second item group and the contractor The hash value of "Yamada Yamada Taro Taro" combining the original character string "Taro" of Kana name is acquired.

置換文字列決定部38は、第1実施形態と同様に、取得したハッシュ値に対応する変換辞書の行位置に記録された置換文字列をマスキングに使用する置換文字列として決定する。例えば、「山田やまだ太郎たろう」のハッシュ値が「500」であれば、変換辞書の500行目に記録された置換文字列をマスキングに使用する文字列として決定する。変形例として、置換文字列決定部38は、第1実施形態の第3変形例と同様に、取得したハッシュ値が記録された変換辞書のレコードを識別し、そのレコードに記録された置換文字列をマスキングに使用する文字列として決定してもよい。例えば、図8の変換辞書を参照し、かつ、「山田やまだ太郎たろう」のハッシュ値が「123」である場合、契約者漢字姓の置換文字列を「栗山」に決定し、契約者かな姓の置換文字列を「くりやま」に決定してもよい。それとともに、契約者漢字名の置換文字列を「高次」に決定し、契約者かな名の置換文字列を「こうじ」に決定してもよい。他の構成および動作は、第1実施形態、第2実施形態と同様である。   Similar to the first embodiment, the replacement character string determination unit 38 determines a replacement character string recorded at a line position of the conversion dictionary corresponding to the acquired hash value as a replacement character string used for masking. For example, if the hash value of "Yamada or still Taro Taro" is "500", the replacement character string recorded on the 500th line of the conversion dictionary is determined as the character string to be used for masking. As a modification, as in the third modification of the first embodiment, the replacement character string determination unit 38 identifies a record of the conversion dictionary in which the acquired hash value is recorded, and the replacement character string recorded in the record. May be determined as a string to be used for masking. For example, if the conversion dictionary in FIG. 8 is referred to and the hash value of "Yamada Yamada Taro" is "123", the replacement character string of the contractor kanji surname is determined as "Kuriyama" and the contractor kana surname The replacement string of may be determined as "Kuriyama". At the same time, the replacement character string of the contractor kanji name may be determined as "high order", and the replacement character string of the contractor kana name may be determined as "Koji". Other configurations and operations are similar to those of the first embodiment and the second embodiment.

第3実施形態のデータマスキング装置14によると、第1実施形態の効果と第2実施形態の効果を両立できる。すなわち、置換文字列から元の原本文字列を推測することを困難にでき、また、互いに関連する複数の情報項目の原本文字列間の関係を、マスキング後の置換文字列間でも維持できる。これにより、情報漏洩防止とデータ利用の両面においてマスク後のデータの有用性を高めることができる。   According to the data masking device 14 of the third embodiment, the effects of the first embodiment and the effects of the second embodiment can be compatible. That is, it is difficult to infer the original original character string from the substitute character string, and the relationship between the original character strings of a plurality of information items related to each other can be maintained even between the masked replacement character strings. This makes it possible to enhance the usefulness of the data after masking in both information leakage prevention and data utilization.

以上、本発明を第3実施形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。また、第1実施例の変形例および第2実施形態の変形例は第3実施形態にも有用である。例えば、図8の変換辞書において、ハッシュ値に代えて原本文字列を置換文字列に直接対応付けてもよい。   The present invention has been described above based on the third embodiment. It will be understood by those skilled in the art that this embodiment is an exemplification, and that various modifications can be made to the combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. is there. The modification of the first embodiment and the modification of the second embodiment are also useful in the third embodiment. For example, in the conversion dictionary of FIG. 8, the original character string may be directly associated with the replacement character string instead of the hash value.

請求項に記載の各構成要件が果たすべき機能は、実施の形態および変形例において示された各構成要素の単体もしくはそれらの連携によって実現されることも当業者には理解されるところである。   It is also understood by those skilled in the art that the functions to be performed by the respective constituent features described in the claims are realized by a single member of each constituent shown in the embodiment and the modification or a combination thereof.

14 データマスキング装置、 30 置換対象情報保持部、 32 変換辞書保持部、 34 原本文書取得部、 36 原本文字列取得部、 38 置換文字列決定部、 40 文字列変換部、 42 変換文書出力部。   14 data masking device 30 replacement target information storage unit 32 conversion dictionary storage unit 34 original document acquisition unit 36 original character string acquisition unit 38 replacement character string determination unit 40 character string conversion unit 42 conversion document output unit

Claims (3)

原本データに記録された複数の情報項目の原本文字列の組み合わせに基づいて、前記複数の情報項目の置換文字列を決定する置換文字列決定部と、
前記原本データに記録された前記複数の情報項目の原本文字列を、前記置換文字列決定部により決定された置換文字列へ置換する文字列置換部と、
前記置換文字列となりうる複数の候補を異なる位置に保持する候補文字列保持部と、
を備え、
前記置換文字列決定部は、前記複数の情報項目の原本文字列の組み合わせに基づき特定される位置に保持された候補を前記置換文字列として決定し、
前記複数の情報項目は、第1項目と第2項目を含み、
前記置換文字列決定部は、前記第1項目の原本文字列と第2項目の原本文字列を第1の態様で組み合わせた文字列に基づき特定される位置に保持された候補を前記第1項目の置換文字列として決定し、前記第1項目の原本文字列と第2項目の原本文字列を前記第1の態様とは異なる第2の態様で組み合わせた文字列に基づき特定される位置に保持された候補を前記第2項目の置換文字列として決定することを特徴とするデータマスキング装置。
A replacement character string determination unit that determines replacement character strings of the plurality of information items based on a combination of original character strings of a plurality of information items recorded in the original data;
A character string replacement unit that replaces original character strings of the plurality of information items recorded in the original data with a replacement character string determined by the replacement character string determination unit;
A candidate character string holding unit that holds, at different positions, a plurality of candidates that can be the replacement character string;
Equipped with
The replacement character string determination unit determines, as the replacement character string, a candidate held at a position specified based on a combination of original character strings of the plurality of information items.
The plurality of information items include a first item and a second item,
The replacement character string determination unit determines, as the first item, a candidate held at a position specified based on a character string obtained by combining the original character string of the first item and the original character string of the second item in a first mode. And the original character string of the first item and the original character string of the second item are determined based on the character string obtained by combining in a second mode different from the first mode. A data masking apparatus characterized in that the determined candidate is determined as a replacement string of the second item.
原本データに記録された複数の情報項目の原本文字列の組み合わせに基づいて、前記複数の情報項目の置換文字列を決定するステップと、
前記原本データに記録された前記複数の情報項目の原本文字列を、前記決定するステップで決定された置換文字列へ置換するステップと、
前記置換文字列となりうる複数の候補を異なる位置に保持するステップと、
を備え、
前記決定するステップは、前記複数の情報項目の原本文字列の組み合わせに基づき特定される位置に保持された候補を前記置換文字列として決定し、
前記複数の情報項目は、第1項目と第2項目を含み、
前記決定するステップは、前記第1項目の原本文字列と第2項目の原本文字列を第1の態様で組み合わせた文字列に基づき特定される位置に保持された候補を前記第1項目の置換文字列として決定し、前記第1項目の原本文字列と第2項目の原本文字列を前記第1の態様とは異なる第2の態様で組み合わせた文字列に基づき特定される位置に保持された候補を前記第2項目の置換文字列として決定することをデータマスキング装置が実行することを特徴とするデータマスキング方法。
Determining a replacement character string of the plurality of information items based on a combination of the original character strings of the plurality of information items recorded in the original data;
Replacing the original character string of the plurality of information items recorded in the original data with the replacement character string determined in the determining step;
Holding, at different positions, a plurality of candidates for the replacement character string;
Equipped with
The determining step determines a candidate held at a position specified based on a combination of original character strings of the plurality of information items as the replacement character string.
The plurality of information items include a first item and a second item,
In the determining, the candidate held at the position specified based on the character string obtained by combining the original character string of the first item and the original character string of the second item in the first aspect is replaced with the first item It is determined as a character string, and is held at a position specified based on a character string obtained by combining the original character string of the first item and the original character string of the second item in a second mode different from the first mode. A data masking method characterized in that the data masking device executes determining a candidate as a replacement string of the second item.
原本データに記録された複数の情報項目の原本文字列の組み合わせに基づいて、前記複数の情報項目の置換文字列を決定する機能と、
前記原本データに記録された前記複数の情報項目の原本文字列を、前記決定するステップで決定された置換文字列へ置換する機能と、
前記置換文字列となりうる複数の候補を異なる位置に保持する機能と、
を備え、
前記決定する機能は、前記複数の情報項目の原本文字列の組み合わせに基づき特定される位置に保持された候補を前記置換文字列として決定し、
前記複数の情報項目は、第1項目と第2項目を含み、
前記決定する機能は、前記第1項目の原本文字列と第2項目の原本文字列を第1の態様で組み合わせた文字列に基づき特定される位置に保持された候補を前記第1項目の置換文字列として決定し、前記第1項目の原本文字列と第2項目の原本文字列を前記第1の態様とは異なる第2の態様で組み合わせた文字列に基づき特定される位置に保持された候補を前記第2項目の置換文字列として決定することをデータマスキング装置に実現させるためのコンピュータプログラム。
A function of determining a replacement character string of the plurality of information items based on a combination of the original character strings of the plurality of information items recorded in the original data;
A function of replacing original character strings of the plurality of information items recorded in the original data with replacement character strings determined in the determining step;
A function of holding a plurality of candidates that can be the replacement character string at different positions;
Equipped with
The function to determine determines a candidate held at a position specified based on a combination of original character strings of the plurality of information items as the replacement character string.
The plurality of information items include a first item and a second item,
The function to determine determines a candidate held at a position specified based on a character string obtained by combining the original character string of the first item and the original character string of the second item in the first mode with the first item replacement It is determined as a character string, and is held at a position specified based on a character string obtained by combining the original character string of the first item and the original character string of the second item in a second mode different from the first mode. A computer program for causing a data masking device to determine a candidate as a replacement string of the second item.
JP2015102954A 2015-05-20 2015-05-20 DATA MASKING DEVICE, DATA MASKING METHOD, AND COMPUTER PROGRAM Active JP6506099B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015102954A JP6506099B2 (en) 2015-05-20 2015-05-20 DATA MASKING DEVICE, DATA MASKING METHOD, AND COMPUTER PROGRAM

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015102954A JP6506099B2 (en) 2015-05-20 2015-05-20 DATA MASKING DEVICE, DATA MASKING METHOD, AND COMPUTER PROGRAM

Publications (2)

Publication Number Publication Date
JP2016218738A JP2016218738A (en) 2016-12-22
JP6506099B2 true JP6506099B2 (en) 2019-04-24

Family

ID=57581232

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015102954A Active JP6506099B2 (en) 2015-05-20 2015-05-20 DATA MASKING DEVICE, DATA MASKING METHOD, AND COMPUTER PROGRAM

Country Status (1)

Country Link
JP (1) JP6506099B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7622381B2 (en) 2020-09-16 2025-01-28 富士フイルムビジネスイノベーション株式会社 Information processing device and program

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2004084483A1 (en) * 2003-03-20 2006-06-29 株式会社日本医療データセンター Information management system
US7672967B2 (en) * 2005-02-07 2010-03-02 Microsoft Corporation Method and system for obfuscating data structures by deterministic natural data substitution
JP2007108356A (en) * 2005-10-12 2007-04-26 Fujitsu Ltd Personal information concealment device and program thereof
EP2189925A3 (en) * 2008-11-25 2015-10-14 SafeNet, Inc. Database obfuscation system and method
JP2010237811A (en) * 2009-03-30 2010-10-21 Nec Corp Personal information management system and personal information management method
US10102398B2 (en) * 2009-06-01 2018-10-16 Ab Initio Technology Llc Generating obfuscated data
JP5676522B2 (en) * 2012-05-22 2015-02-25 日本電信電話株式会社 Character string conversion method and program

Also Published As

Publication number Publication date
JP2016218738A (en) 2016-12-22

Similar Documents

Publication Publication Date Title
US9904798B2 (en) Focused personal identifying information redaction
US10430610B2 (en) Adaptive data obfuscation
JP2011511341A5 (en)
JP5420099B1 (en) Personal information detection apparatus and computer program
JP2015026350A (en) Information processing system, information processing method, and information processing program
CN108280197B (en) A method and system for identifying homologous binary files
JP2023107143A (en) Anonymization device and program
CN110955713A (en) Mnemonic word generating method and device and storage medium
JP2013246547A (en) Data converter
JP6506099B2 (en) DATA MASKING DEVICE, DATA MASKING METHOD, AND COMPUTER PROGRAM
JP2018060370A (en) Search program, search method and search device
JP2006331329A (en) Language processor, language processing method, and language processing program, and storage medium
US10942934B2 (en) Non-transitory computer-readable recording medium, encoded data searching method, and encoded data searching apparatus
JP2017123062A (en) Relation information generation method, apparatus, and program
JP5513953B2 (en) Masking data generation apparatus and program for testing
JP2016218739A (en) Data masking device, data masking method, and computer program
WO2007088902A1 (en) Character processing device, method and program, and recording medium
JP4251000B2 (en) Kana-kanji conversion device, kana-kanji conversion method, and kana-kanji conversion program
JP2018181121A (en) Analyzer, analysis program and analysis method
JP4272690B1 (en) Personal information file determination system
JP2013205854A (en) Substitute character conversion person's name input device, person's name input method and person's name input program
JP2007108356A (en) Personal information concealment device and program thereof
JP2009199254A (en) Electronic mail transmission system, information processor, electronic mail transmission method, program, and recording medium
US20240411926A1 (en) Systems and methods for utilizing hash-derived indexing substitution models for data deidentification
JP7411362B2 (en) Anti-social information verification device, anti-social information verification method, and anti-social information verification program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190326

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190328

R150 Certificate of patent or registration of utility model

Ref document number: 6506099

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250