JP6506099B2 - DATA MASKING DEVICE, DATA MASKING METHOD, AND COMPUTER PROGRAM - Google Patents
DATA MASKING DEVICE, DATA MASKING METHOD, AND COMPUTER PROGRAM Download PDFInfo
- Publication number
- JP6506099B2 JP6506099B2 JP2015102954A JP2015102954A JP6506099B2 JP 6506099 B2 JP6506099 B2 JP 6506099B2 JP 2015102954 A JP2015102954 A JP 2015102954A JP 2015102954 A JP2015102954 A JP 2015102954A JP 6506099 B2 JP6506099 B2 JP 6506099B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- original
- replacement
- item
- information items
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Description
この発明は、データ処理技術に関し、特にデータマスキング技術に関する。 The present invention relates to data processing technology, and more particularly to data masking technology.
本出願人は、個人情報をマスクした後の文書について、テストデータとしての品質低下を抑制するための技術を提案している(例えば特許文献1参照)。特許文献1のデータ変換装置は、マスク対象となる個人情報を示す文字列をそのハッシュ値で置換する。 The applicant has proposed a technique for suppressing deterioration in quality as test data for a document after masking personal information (see, for example, Patent Document 1). The data conversion device of Patent Document 1 replaces a character string indicating personal information to be masked with the hash value.
本発明者は、マスク後の文字列から元の文字列が推測できる場合、マスクの意義が没却されかねないと考えた。また、漢字姓とかな姓のように互いに関連する複数の情報項目の文字列を1つの項目単位でマスクした場合、情報項目間の関連性が崩れてしまい、テストデータとしての価値が低下すると考えた。本発明は、本発明者の上記課題認識に基づいてなされたものであり、主たる目的は、情報をマスクした後の文書の有用性を一層高めるためのデータマスキング技術を提供することである。 The inventor considered that if the original character string can be inferred from the masked character string, the significance of the mask may be forfeited. Also, if character strings of multiple information items related to each other such as kanji surnames and kana surnames are masked in units of one item, the relevance between the information items is broken, and it is thought that the value as test data decreases. The The present invention has been made based on the above-mentioned problem recognition of the inventor, and a main object of the present invention is to provide a data masking technology for further enhancing the usefulness of a document after information masking.
上記課題を解決するために、本発明のある態様のデータマスキング装置は、原本データに記録された複数の情報項目の原本文字列の組み合わせに基づいて、複数の情報項目の置換文字列を決定する置換文字列決定部と、原本データに記録された複数の情報項目の原本文字列を、置換文字列決定部により決定された置換文字列へ置換する文字列置換部と、を備える。 In order to solve the above problems, a data masking device according to an aspect of the present invention determines replacement strings of a plurality of information items based on a combination of original character strings of a plurality of information items recorded in the original data. A replacement character string determination unit, and a character string replacement unit that replaces original character strings of a plurality of information items recorded in the original data with replacement character strings determined by the replacement character string determination unit.
本発明の別の態様は、データマスキング方法である。この方法は、原本データに記録された複数の情報項目の原本文字列の組み合わせに基づいて、複数の情報項目の置換文字列を決定するステップと、原本データに記録された複数の情報項目の原本文字列を、決定するステップで決定された置換文字列へ置換するステップと、をデータマスキング装置が実行する。 Another aspect of the invention is a data masking method. This method comprises the steps of: determining a replacement character string of a plurality of information items based on a combination of original character strings of a plurality of information items recorded in the original data; and original text of a plurality of information items recorded in the original data. Replacing the string with the replacement string determined in the determining step, the data masking device performing.
なお、以上の構成要素の任意の組合せ、本発明の表現を、システム、コンピュータプログラム、コンピュータプログラムを格納した記録媒体などの間で変換したものもまた、本発明の態様として有効である。 Note that any combination of the above-described components, and one obtained by converting the expression of the present invention between a system, a computer program, a recording medium storing a computer program, and the like are also effective as an aspect of the present invention.
本発明によれば、情報をマスクした後の文書の有用性を一層高めることができる。 According to the present invention, the usefulness of the document after masking information can be further enhanced.
実施の形態の情報処理システムの構成を説明する前に、実施の形態のデータマスキングの概要を述べる。以下では、データをマスキングする前のオリジナルの文書データを原本文書と呼び、データをマスキングした後の文書データを変換文書と呼ぶ。また、原本文書に記録された文字列であり、すなわち元データとしてのオリジナル文字列を原本文字列と呼ぶ。また、原本文字列を置換するための文字列であり、すなわち変換文書において原本文字列に代えて記録される文字列を置換文字列と呼ぶ。 Before describing the configuration of the information processing system of the embodiment, an outline of data masking of the embodiment will be described. Hereinafter, original document data before masking data is referred to as an original document, and document data after masking data is referred to as a conversion document. Also, it is a character string recorded in the original document, that is, an original character string as original data is called an original character string. In addition, a character string for replacing the original character string, that is, a character string recorded in place of the original character string in the converted document is called a replacement character string.
実施の形態のデータマスキングは、原本文書における原本文字列を、それとは異なる置換文字列へ置換えることである。また、データの形式を維持しつつも、データが指し示す情報内容を不可視化、隠蔽することとも言える。 Data masking in the embodiment is to replace the original character string in the original document with a different substitution character string. In addition, while maintaining the format of the data, it can also be said that the information content pointed to by the data is made invisible or concealed.
データマスキングにおいて本発明者が認識した第1の課題を説明する。個人情報をマスキングする方法として、これまでは原本文字列をランダムな文字列に置換える方法が採用されることがあった。例えば、人の姓に関する原本文字列「山田」「佐々木」「田中」をそれぞれ「じえ」「いうい」「山う」に置換えることがあった。また別の方法として、原本文字列を固定的な文字列に置換える方法が採用されることもあった。例えば、原本文字列「山田」「佐々木」「田中」をそれぞれ「佐藤01」「佐藤02」「佐藤03」に置き換えることがあった。 The first problem recognized by the inventor in data masking will be described. As a method of masking personal information, a method of replacing an original character string with a random character string has been employed in the past. For example, the original character strings "Yamada", "Sasaki", and "Tanaka" relating to the surname of a person may be replaced with "Jee", "Roii", and "Yamaou", respectively. As another method, the original character string may be replaced with a fixed character string. For example, the original character strings "Yamada", "Sasaki" and "Tanaka" may be replaced with "Sato 01", "Sato 02" and "Sato 03", respectively.
しかし、このような方法では原本文字列と置換文字列の整合性が維持されない。例えば、変換文書の情報項目「姓」に「じえ」「いうい」「山う」が設定される場合、変換文書の利用者はそれらの文字列が「姓」であることを直感的に判別しづらい。また、変換文書の情報項目「姓」に「佐藤01」「佐藤02」「佐藤03」が設定される場合、変換文書の利用者が違和感を抱くこともある。また、このような変換文書でテストを実施した場合、そのテスト結果が正しいか否かを判別しにくくなることもあった。 However, such a method does not maintain the integrity of the original string and the replacement string. For example, when "Jewe", "Say", and "Yamu" are set in the information item "surname" of the converted document, the user of the converted document intuitively recognizes that their character string is "surname". Hard to determine. When "Sato 01", "Sato 02" and "Sato 03" are set in the information item "surname" of the converted document, the user of the converted document may feel uncomfortable. In addition, when a test is performed on such a converted document, it may be difficult to determine whether the test result is correct.
なお、このような問題は、原本文字列をハッシュ文字列へ置換える場合も同様に起こりうる。例えば、変換文書の情報項目「姓」にハッシュ値が設定されるため、変換文書の利用者はそれらの文字列が「姓」であることを直感的に判別しづらく、違和感を抱くこともある。また、変換文書を用いたテスト結果が正しいか否かを判別しにくくなることもあった。 Such a problem may occur similarly when replacing an original character string with a hash character string. For example, since a hash value is set to the information item "surname" of the converted document, the user of the converted document may have difficulty in intuitively determining that those character strings are "surnames", and may be uncomfortable. . In addition, it may be difficult to determine whether the test result using the converted document is correct.
このように、ランダムな文字列や固定文字列によりマスキングすると、変換文書の利用観点からの品質を低下させることがあった。そこで別の方法として、何らかの規則にしたがってマスキングする方法が採用されることもあった。例えば、「鈴木」を「三田村」、「佐藤」を「守屋」、「菊池」を「中田」に対応付けた辞書を設け、原本文字列「鈴木」「佐藤」「菊池」をそれぞれ「三田村」「守屋」「中田」に置換えることがあった。 As described above, when masking is performed using a random character string or a fixed character string, the quality from the viewpoint of using the converted document may be degraded. Therefore, as another method, a method of masking in accordance with some rules has been adopted. For example, a dictionary in which “Suzuki” is associated with “Mitamura”, “Sato” with “Moriya”, and “Kikuchi” with “Nakata” is provided, and the original character strings “Suzuki”, “Sato” and “Kikuchi” are each “Mitamura”. It sometimes replaced with "Moriya" and "Nakata".
しかし、この方法では辞書で予め定められた規則による文字列置換となるため、置換文字列から元の原本文字列を推測されやすいという問題があった。例えば、変換文書の情報項目「姓」における「三田村」「守屋」の出現頻度が高いため、「三田村」「守屋」は実際には「鈴木」「佐藤」(日本人に多い姓)でないかと推測されてしまう。また、マスキング前の元データをある程度把握している人には、特定の置換文字列の登場傾向によって元の原本文字列の推測が容易であった。 However, in this method, since character string replacement is performed according to a predetermined rule in the dictionary, there is a problem that the original original character string can be easily estimated from the replacement character string. For example, since the appearance frequency of "Mitamura" and "Moriya" in the information item "surname" of the converted document is high, it is presumed that "Mitamura" and "Moriya" are not actually "Suzuki" or "Sato" (surname often used by Japanese) It will be done. Also, for those who have grasped the original data before masking to some extent, it was easy to guess the original original character string due to the appearance tendency of the specific replacement character string.
次に、データマスキングにおいて本発明者が認識した第2の課題を説明する。互いに関連する複数の情報項目が置換対象である場合、1つの情報項目単位でマスクすると、複数の情報項目の原本文字列間の関係が、マスキング後のそれら複数の情報項目の置換文字列間に反映されない。例えば、情報項目「漢字姓」と「かな姓」が置換対象である場合、「漢字姓」と「かな姓」の置換文字列を個別に決定すると、マスキング後は漢字と読みの関係がくずれてしまう。 Next, the second problem recognized by the inventor in data masking will be described. When multiple information items related to one another are to be replaced, if masking is performed in units of one information item, the relationship between the original character strings of the multiple information items is between the replacement strings of the multiple information items after masking. Not reflected. For example, when the information items "Kanji surname" and "Kana surname" are to be replaced, if the replacement character strings of "Kanji surname" and "Kana surname" are individually determined, the relationship between kanji and reading is broken after masking. I will.
具体的には、情報項目「漢字姓」の原本文字列「山田」「佐々木」「中田」をそれぞれ置換文字列「佐藤」「鈴木」「中田」に置き換えるとする。その一方、情報項目「かな姓」の原本文字列「やまだ」「さとう」「なかた」をそれぞれ置換文字列「たにぐち」「かわぐち」「おさない」に置き換えるとする。この場合、原本文書の「山田」「やまだ」は、変換文書では「佐藤」「たにぐち」となり、変換文書の利用者が違和感を抱くことがある。また、このような変換文書で、かな姓によるソート機能や検索機能のテストを実施した場合、テスト結果の正否を判別しにくくなることもあった。 Specifically, it is assumed that the original character strings "Yamada", "Sasaki" and "Nakata" of the information item "Kanji surname" are replaced with replacement character strings "Sato", "Suzuki" and "Nakata", respectively. On the other hand, it is assumed that the original character strings "Yayama", "Sato" and "Nanakata" of the information item "Kana surname" are replaced with substitution characters "Tanaguchi", "Kawaguchi" and "Osanai", respectively. In this case, "Yamada" and "Yayama" in the original document become "Sato" and "Taniguchi" in the converted document, and the user of the converted document may feel uncomfortable. In addition, when a test of sorting function or searching function by kana surname is performed on such a converted document, it may be difficult to determine whether the test result is correct or not.
実施の形態のデータマスキング技術は、第1の課題を解決するために、特徴1として、複数の情報項目(例えば姓と名)の原本文字列の組み合わせに基づいて置換文字列を決定する。また、第2の課題を解決するために、特徴2として、原本文書における情報項目間の関連性(関係性)を反映した変換辞書を保持し、その変換辞書を参照して、原本文書における情報項目間の関連性を維持したマスキングを実行する。 In order to solve the first problem, the data masking technology according to the embodiment determines a replacement character string as a feature 1 based on a combination of original character strings of a plurality of information items (for example, a surname and a first name). In addition, in order to solve the second problem, as a feature 2, a conversion dictionary that reflects the relationship (relationship) between information items in the original document is stored, and the information in the original document is referenced with reference to the conversion dictionary. Perform masking that maintains the relationship between items.
以下、特徴1に関して第1の実施の形態(以下「第1実施形態」と呼ぶ。)にて説明し、特徴2に関して第2の実施の形態(以下「第2実施形態」と呼ぶ。)にて説明する。また、特徴1と特徴2を組み合わせる実施例を第3の実施の形態(以下「第3実施形態」と呼ぶ。)にて説明する。 Hereinafter, the feature 1 will be described in the first embodiment (hereinafter referred to as the “first embodiment”), and the feature 2 will be described in the second embodiment (hereinafter referred to as the “second embodiment”). Explain. In addition, an example in which the feature 1 and the feature 2 are combined will be described in a third embodiment (hereinafter, referred to as “third embodiment”).
(第1実施形態)
図1は、第1実施形態の情報処理システムの構成を示す。情報処理システム100は、本番機10、試験機12、データマスキング装置14を備える。本番機10は、本番環境(商用環境)に設置された情報処理装置であり、例えばウェブサーバや、アプリケーションサーバ、データベースサーバ、ディレクトリサーバである。試験機12は、開発環境や試験環境に設置された情報処理装置であり、例えば本番機10にデプロイするアプリケーションの開発やテストを実行するPCやサーバである。
First Embodiment
FIG. 1 shows the configuration of the information processing system of the first embodiment. The information processing system 100 includes a production machine 10, a
本番機10は、企業の顧客やエンドユーザ、従業員の個人情報等、秘密にすべき情報や、公開が許可されない情報を保持する。試験機12は、本番機10から抽出されたテストデータにてテストを実行するが、このテストデータでは上記の秘密情報は隠蔽される必要がある。データマスキング装置14は、個人情報等の様々な秘密情報をマスキングする情報処理装置である。データマスキング装置14は、本番機10に保持される情報が記録された原本文書16を取得し、原本文書16に記録された秘密情報をマスキングした変換文書18を生成する。変換文書18は、テストデータとして試験機12へ提供される。
The production machine 10 holds information that should be kept secret or information that is not permitted to be released, such as personal information of a customer, an end user, or an employee of a company. The
実施の形態の原本文書16、変換文書18は、複数の情報項目それぞれのコンテンツ(具体的には文字列)により構成されるレコードを複数記録した表形式(言い換えればテーブル構造)のデータ(例えばCSVファイル)とする。ただし、原本文書16、変換文書18は、情報項目の識別が可能であれば表形式のデータに限られない。例えば、各種オフィススイートの文書データであってもよく、RDBMSのテーブルデータであってもよく、プレーンテキストファイルであってもよい。
The
図2は、図1のデータマスキング装置14の構成を示すブロック図である。データマスキング装置14は、制御部20、記憶部22、I/F部24を備える。制御部20は、各種データ処理を実行する。記憶部22は、制御部20により参照され、また更新されるデータを記憶する記憶領域である。I/F部24は、外部装置とのインタフェース機能を提供し、種々の通信プロトコルにしたがって外部装置と通信する。I/F部24は通信部とも言える。制御部20は、I/F部24を介して、本番機10および試験機12とデータを送受する。
FIG. 2 is a block diagram showing the configuration of the
本明細書のブロック図において示される各ブロックは、ハードウェア的には、コンピュータのCPUをはじめとする素子や機械装置で実現でき、ソフトウェア的にはコンピュータプログラム等によって実現されるが、ここでは、それらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックはハードウェア、ソフトウェアの組合せによっていろいろなかたちで実現できることは、当業者には理解されるところである。 Each block shown in the block diagram of the present specification can be realized by hardware as an element such as a CPU of a computer or a mechanical device, and as software as a computer program or the like. It depicts the functional blocks realized by the coordination of them. Therefore, it is understood by those skilled in the art that these functional blocks can be realized in various forms by a combination of hardware and software.
例えば、制御部20内の各ブロックに対応するモジュールを含むデータマスキングプログラムがDVD等の記録媒体に格納され、データマスキング装置14にインストールされてもよい。そして、データマスキング装置14のプロセッサ(CPU等)が、ローカルのストレージに格納されたデータマスキングプログラムを、メインメモリに読出し、実行することで、制御部20内の各ブロックの機能を発揮してもよい。記憶部22は、データマスキング装置14のストレージやメモリがデータを記憶することで実現されてよい。
For example, a data masking program including a module corresponding to each block in the
記憶部22は、置換対象情報保持部30と変換辞書保持部32を含む。置換対象情報保持部30は、マスキング対象、言い換えれば置換対象となる情報項目の識別情報を保持する。置換対象情報保持部30は、複数の情報項目、例えば「契約者姓」「契約者名」「年齢」「性別」「住所」等を示す文字列を項目識別情報として保持してもよい。また、原本文書16における複数の情報項目の原本文字列それぞれの記録位置、例えばレコードの先頭位置からのバイト長や文字列長等を示す情報を項目識別情報として保持してもよい。
The
変換辞書保持部32は、文字列置換時に参照される辞書のデータ(以下「変換辞書」とも呼ぶ。)を保持する。実施の形態の変換辞書は、文字列置換対象となる複数の情報項目の置換文字列を、ハッシュ値と対応付けて記録したものである。ハッシュ値は、複数の情報項目の原本文字列の組み合わせのIDと言え、複数の情報項目の置換文字列の組み合わせのIDとも言える。また、置換文字列検索用のキーとも言える。
The conversion
図3は、第1実施形態の変換辞書保持部32に保持される変換辞書の例を示す。同図の変換辞書は、ハッシュ値と、複数の情報項目「契約者姓」「契約者名」それぞれの置換文字列(例えば架空の姓や名)を対応付けている。変換辞書の1行(1レコード)が置換文字列の候補となり、変換辞書は置換文字列の複数の候補を複数のレコードに亘って定めている。変換辞書保持部32は、置換文字列の複数の候補を異なる位置(すなわち変換辞書の異なるレコード)に保持する候補文字列保持部とも言える。なお変換辞書は、ハッシュ値を記録しない構成であってもよい。また変換辞書保持部32は、複数の情報項目のそれぞれについて独立した別個の変換辞書を保持してもよい。
FIG. 3 shows an example of the conversion dictionary held in the conversion
図2に戻り、制御部20は、原本文書取得部34、原本文字列取得部36、置換文字列決定部38、文字列変換部40、変換文書出力部42を含む。原本文書取得部34は、本番機10から出力された原本文書16を読み込む。原本文書取得部34は、I/F部24を介して本番機10と通信し、本番機10に保持された原本文書16を取得してもよい。また原本文書取得部34は、本番機10が出力した原本文書16を記録したメディア(DVDやUSBメモリ等)から、原本文書16を読み込んでもよい。
Returning to FIG. 2, the
原本文字列取得部36は、置換対象情報保持部30を参照して置換対象となる複数の情報項目を識別し、それら複数の情報項目の原本文字列を原本文書から取得する。例えば、原本文書16における置換対象情報項目のカラムから原本文字列を取得してもよく、原本文書16における置換対象情報項目の記録位置から原本文字列を取得してもよい。
The original character
置換文字列決定部38は、原本データに記録された複数の情報項目の原本文字列の組み合わせに基づいて、前記複数の情報項目の置換文字列を決定する。具体的には、変換辞書保持部32の変換辞書に記録された置換文字列の複数の候補のうち、複数の情報項目の原本文字列の組み合わせに基づき特定される辞書内の位置に記録された候補を置換文字列として決定する。さらに具体的には、複数の情報項目の原本文字列の組み合わせを所定の一方向関数にて変換した値を取得し、その値に基づき特定される辞書内の位置に保持された候補を置換文字列として決定する。
The replacement character
実施の形態の置換文字列決定部38は、原本文字列取得部36により取得された置換対象となる複数の情報項目の原本文字列を結合する。そして結合した文字列を、予め定められた所定のハッシュ関数(例えばMD5やSHA−1等)に入力してハッシュ値を取得する。例えば、置換対象となる複数の情報項目が「契約者姓」「契約者名」の場合、「契約者姓」の原本文字列「山田」、「契約者名」の原本文字列「太郎」を結合した文字列「山田太郎」のハッシュ値を取得する。
The replacement character
置換文字列決定部38は、取得したハッシュ値に対応する置換対象となる複数の情報項目の置換文字列を、変換辞書保持部32に保持された変換辞書を参照して識別する。置換文字列決定部38は、複数の情報項目の原本文字列を結合した文字列から得られたハッシュ値に対応する変換辞書の行位置に記録された置換文字列をマスキングに使用する置換文字列として決定する。例えば、ハッシュ値として「1」〜「999」の値を取得してもよい。そして、変換辞書においてハッシュ値が示す行位置(ハッシュ値が「500」であれば500行目)に記録された置換文字列をマスキングに使用する置換文字列として決定する。
The replacement character
なお、置換文字列決定部38は、異なる原本文字列間でハッシュ値が重複すること、いわゆるシノニムの発生を回避する処理を実行してもよいが、一方でシノニムの発生を回避する処理を抑制してもよい。変換文書18は、典型的には開発用・テスト用のデータであり、異なる原本文字列に対して同じ置換文字列を割当てても問題は生じにくいからである。また、シノニムを許容することにより、変換辞書保持部32が保持する変換辞書のレコード数、すなわち置換文字列の候補数は、原本文字列として記録されうる情報数に比べて少なく抑えることができる。
Although the replacement character
文字列変換部40は、原本文書16に記録された置換対象となる複数の情報項目の原本文字列を、置換文字列決定部38により決定された置換文字列へ置換える。例えば、原本文書16の1つのレコードにおける契約者姓と契約者名の原本文字列「山田」「太郎」を、置換文字列決定部38により決定された置換文字列「栗山」「高次」に置換する。文字列変換部40は、原本文字列を置換文字列に変換した変換文書18を生成する。
The character
変換文書出力部42は、文字列変換部40により生成された変換文書18を所定の装置へ出力する。例えば変換文書出力部42は、I/F部24を介して、変換文書18を試験機12へ送信してもよい。また、変換文書18をローカルのストレージや、所定の記録メディアへ保存してもよい。
The converted
以上の構成によるデータマスキング装置14の動作を以下説明する。
情報処理システム100の開発担当者やテスト担当者は、本番機10に保持された顧客や社員の個人情報を含む原本文書16を記録メディアに出力させ、その記録メディアをデータマスキング装置14に読み込ませる。データマスキング装置14の原本文書取得部34は、その記録メディアから原本文書16を読み込む。原本文字列取得部36は、置換対象情報保持部30に予め格納された項目識別情報にしたがって、原本文書16に記録された置換対象となる複数の情報項目の原本文字列を読み込む。
The operation of the
A developer or a tester in charge of the information processing system 100 causes the recording medium to output the
置換文字列決定部38は、変換辞書保持部32の変換辞書を参照し、置換対象となる複数の情報項目の原本文字列の組み合わせにより特定される置換文字列を決定する。文字列変換部40は、原本文書16の原本文字列を置換文字列に置換えた変換文書18を生成する。変換文書出力部42は、個人情報をマスキングしたテストデータとして変換文書18を所定の記録メディアへ出力する。開発担当者やテスト担当者は、データマスキング装置14が出力し変換文書18を試験機12に読み込ませ、アプリケーションの開発やテストを実施する。
The replacement character
第1実施形態のデータマスキング装置14によると、複数の情報項目を単位として、複数の情報項目の原本文字列の組み合わせに基づいて置換文字列を決定する。これにより、原本文書16における特定の原本文字列の出現傾向が変換文書18に反映されることを抑制できる。例えば、複数の情報項目の少なくとも1つが、特定の原本文字列の出現頻度が高いものであっても、他の情報項目の原本文字列との組み合わせで置換文字列を決定するため、特定の原本文字列の出現頻度が特定の置換文字列の出現頻度に反映されることを抑制できる。この結果、変換文書18に記録された置換文字列から元の原本文字列を推測することを困難なものにでき、変換文書18による情報漏洩のリスクを低減できる。
According to the
例えば、複数の情報項目が「契約者姓」「契約者名」で、原本文書16の第1レコードが「鈴木」「太郎」、第2レコードが「鈴木」「次郎」、第3レコードが「鈴木」「三郎」であるとする。この場合、第1実施形態のデータマスキングにより、例えば変換文書18の第1レコードが「佐藤」「信長」、第2レコードが「山口」「秀吉」、第3レコードが「佐々木」「家康」となる。「契約者姓」の「鈴木」が特定の1つの置換文字列(例えば「三田村」)に置換される場合、変換文書18における「三田村」の登場回数が多ければ、「三田村」は実際には「鈴木」や「佐藤」等であると推測できてしまう。第1実施形態のデータマスキング装置14では、単純に「鈴木」が「三田村」に置換されるのではなく、様々な文字列に置換されるため、置換文字列から原本文字列の推測が困難になる。
For example, a plurality of information items are "contractor surname" and "contractor name", the first record of the
このように、複数の情報項目の原本文字列の組み合わせにより置換文字列を決定することが好適な情報項目は、特定の原本文字列の出現頻度に何らかの傾向がある情報項目である。例えば、人の姓以外にも、住所等における都道府県名や、所属する部署名が挙げられる。都道府県名の場合、人口が多い原本文字列の「東京都」や「大阪府」が置換文字列から推測されてしまうことを防止しやすくなる。また部署名の場合、所属する従業員が多い部署名が置換文字列から推測されてしまうことを防止しやすくなる。実施の形態の技術思想は、複数の情報項目の原本文字列の組み合わせにより、それら複数の情報項目のうち原本文字列の出現頻度に傾向が現れやすい少なくとも1つの情報項目の置換文字列を決定することとも言える。 As described above, an information item suitable for determining a replacement character string by a combination of original character strings of a plurality of information items is an information item having some tendency in the appearance frequency of a specific original character string. For example, besides the surname of a person, the name of a prefecture in an address etc., and a department name to which the user belongs can be mentioned. In the case of the prefecture name, it becomes easy to prevent that "Tokyo" and "Osaka Prefecture" of the original character strings having a large population are inferred from the replacement strings. Also, in the case of departmental signatures, it becomes easy to prevent the departmental signatures with many employees belonging to being inferred from the replacement character string. The technical idea of the embodiment determines a replacement character string of at least one information item in which a tendency tends to appear in the appearance frequency of the original character string among the plurality of information items, by combining the original character strings of the plurality of information items. It can be said that.
また第1実施形態のデータマスキング装置14によると、変換辞書において異なる位置に記録された複数の置換文字列候補のうち、複数の情報項目の原本文字列の組み合わせで特定される位置に記録された候補を、原本文字列の置換に用いる置換文字列とする。この構成によると、特定の原本文字列の組み合わせが特定の置換文字列へ一意に変換されることになり、変換の一意性を保証できる。
Further, according to the
また第1実施形態のデータマスキング装置14によると、複数の情報項目の原本文字列を結合した文字列をハッシュ関数に入力してハッシュ値を取得する。そして、変換辞書において異なる位置に記録された複数の置換文字列候補のうち、ハッシュ値により特定される変換辞書の位置に記録された候補を、原本文字列の置換に用いる置換文字列とする。この構成によると、変換辞書にはハッシュ値と置換文字列の対応関係のみ記録されるため、変換辞書を見ただけでは置換文字列に対応する原本文字列を把握することが困難であり、データマスキングの安全性を向上できる。
Further, according to the
以上、本発明を第1実施形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。 The present invention has been described above based on the first embodiment. It will be understood by those skilled in the art that this embodiment is an exemplification, and that various modifications can be made to the combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. is there.
第1実施形態の第1変形例を説明する。原本文書16に第1情報項目と第2情報項目が含まれる場合に、置換文字列決定部38は、第1情報項目の原本文字列と第2情報項目の原本文字列を第1態様で組み合わせた文字列に基づき特定される位置に保持された候補を第1情報項目の置換文字列として決定してもよい。その一方、置換文字列決定部38は、第1情報項目の原本文字列と第2情報項目の原本文字列を第1態様とは異なる第2態様で組み合わせた文字列に基づき特定される位置に保持された候補を第2情報項目の置換文字列として決定してもよい。
A first modified example of the first embodiment will be described. When the
図3の変換辞書を用いた具体例を示す。第1情報項目が契約者姓、第2情報項目が契約者名である場合、置換文字列決定部38は、先頭から契約者姓、契約者名の順に原本文字列を結合した文字列(例えば「山田太郎」)をハッシュ関数に入力してハッシュ値を取得し、そのハッシュ値に対応するレコードを識別する。そして、そのレコードに記録された置換文字列を契約者姓の置換文字列として決定してもよい。ハッシュ値が「123」であれば、契約者姓の置換文字列は「栗山」になる。
The example using the conversion dictionary of FIG. 3 is shown. When the first information item is the contractor's surname and the second information item is the contractor's name, the replacement character
また置換文字列決定部38は、先頭から契約者名、契約者姓の順に原本文字列を結合した文字列(例えば「太郎山田」)をハッシュ関数に入力してハッシュ値を取得し、そのハッシュ値に対応するレコードを識別する。そして、そのレコードに記録された置換文字列を契約者姓の置換文字列として決定してもよい。ハッシュ値が「422」であれば、契約者名の置換文字列は「平次」になる。
Further, the replacement character
第1変形例の構成によると、マスキングの対象となる複数の情報項目の置換文字列の組み合わせが一層多様化して、置換文字列から原本文字列を推測することが一層困難になる。例えば図3の変換辞書では、契約者姓の置換文字列が「栗山」の場合、契約者名の置換文字列は常に「高次」になるわけではなく、「平次」や「光太郎」になるかもしれない。また、変換辞書を見て置換文字列に対応する原本文字列を把握することを一層困難なものにできる。 According to the configuration of the first modification, the combinations of replacement character strings of a plurality of information items to be masked become more diversified, and it becomes more difficult to estimate the original character string from the replacement character strings. For example, in the conversion dictionary of FIG. 3, when the replacement string of the contractor surname is "Kuriyama", the replacement string of the contractor's name is not always "high order", but is "hiraji" or "photon" It may be. In addition, it can be made more difficult to grasp the original character string corresponding to the replacement character string by looking at the conversion dictionary.
第1実施形態の第2変形例を説明する。上記実施の形態では、置換文字列決定部38は、置換対象となる複数の情報項目の原本文字列を結合してハッシュ値を取得した。変形例として、各情報項目の原本文字列を結合後、所定の文字列操作やビット演算を実行した後にハッシュ値を取得してもよい。また、各情報項目の原本文字列に対して所定の文字列操作やビット演算を実行した後、操作・演算後の文字列を結合してハッシュ値を取得してもよい。また、各情報項目の原本文字列個々にハッシュ値を取得後、個々のハッシュ値を所定の演算により合成し、その合成値に基づいて置換文字列を決定してもよい。
A second modified example of the first embodiment will be described. In the above embodiment, the replacement character
第1実施形態の第3変形例を説明する。上記実施の形態では、ハッシュ値に対応する行位置に記録された置換文字列をマスキングに使用する置換文字列として決定した。変形例として、置換文字列決定部38は、複数の情報項目の原本文字列を結合した文字列から得られたハッシュ値に対応付けられた複数の情報項目の置換文字列を、変換辞書保持部32に保持された変換辞書を参照して識別してもよい。すなわち、結合した文字列から得られたハッシュ値が記録された変換辞書のレコードを識別し、そのレコードに記録された置換文字列をマスキングに使用する文字列として決定してもよい。例えば、図3の変換辞書を参照し、かつ、原本文字列を結合した「山田太郎」のハッシュ値が「123」である場合、「契約者姓」の置換文字列を「栗山」に決定し、「契約者名」の置換文字列を「高次」に決定してもよい。
A third modified example of the first embodiment will be described. In the above embodiment, the replacement string recorded at the line position corresponding to the hash value is determined as the replacement string used for masking. As a modification, the replacement character
第1実施形態の第4変形例を説明する。変換辞書保持部32が保持する変換辞書は、原本文字列と置換文字列を直接対応付けてもよい。図4は、変形例の変換辞書を示す。同図の変換辞書では、複数の情報項目「契約者姓」「契約者名」の原本文字列(図中の「原本契約者姓」「原本契約者名」のデータ)を、それらの情報項目の置換文字列(図中の「置換契約者姓」「置換契約者名」のデータ)に対応付けている。この場合、置換文字列決定部38は、複数の情報項目の原本文字列の組み合わせそのものをキーとして変換辞書を検索してもよい。図4の例では、原本契約者姓と原本契約者名の組み合わせが「山田」「太郎」の場合、置換文字列決定部38は、置換契約者姓と置換契約者名の組み合わせとして「栗山」「高次」を決定する。
A fourth modified example of the first embodiment will be described. The conversion dictionary held by the conversion
(第2実施形態)
第2実施形態では、置換対象となる複数の情報項目の原本文字列間の関係を、それら複数の情報項目の置換文字列間でも維持するデータマスキング技術を説明する。第2実施形態の情報処理システム100の構成は第1実施形態と同じ(図1)であり、第2実施形態のデータマスキング装置14の機能ブロックも第1実施形態と同じ(図2)である。以下、第1実施形態と重複する説明は省略し、異なる点を主に説明する。
Second Embodiment
In the second embodiment, a data masking technique will be described in which the relationship between original character strings of a plurality of information items to be replaced is maintained even between replacement character strings of the plurality of information items. The configuration of the information processing system 100 of the second embodiment is the same as that of the first embodiment (FIG. 1), and the functional blocks of the
第2実施形態でマスキング対象となる複数の情報項目には、互いに関連した内容の原本文字列が記録される。例えば複数の情報項目には、ある対象・事物を第1態様で表記した原本文字列が設定される第1情報項目と、同じ対象・事物を第1態様とは異なる第2態様で表記した原本文字列が設定される第2情報項目を含む。言い換えれば、複数の情報項目には、同じ対象・事物を外観上異なる態様で表記した文字列がそれぞれ設定される。例えば、第1情報項目が契約者の姓の漢字表記が設定される「契約者漢字姓」である場合、第2情報項目は契約者の姓のかな表記が設定される「契約者かな姓」が該当する。 In a plurality of information items to be masked in the second embodiment, original character strings having contents related to each other are recorded. For example, in a plurality of information items, a first information item in which an original character string in which an object or thing is described in a first mode is set, and an original in which the same object or thing is described in a second mode different from the first mode It contains the second information item in which the character string is set. In other words, character strings in which the same object or thing is described in different appearances are respectively set to the plurality of information items. For example, if the first information item is a "contractor kanji surname" in which the kanji notation of the contractor's surname is set, the second information item is a "contractor kana surname" in which the Kana notation of the contractor's surname is set. Is the case.
互いに関連した内容の原本文字列が記録される複数の情報項目、すなわち第2実施形態のマスキングが有効な複数の情報項目は、漢字姓とかな姓以外にも様々なものが考えられる。例えば、人の名と性別、ID(例えば都道府県コード)とそのIDにより特定される情報(例えば都道府県名)、都道府県名と市区町村名、姓とメールアドレス(メールアドレスのローカル部に姓のローマ字を設定する規則がある場合)が挙げられる。 A plurality of information items in which original character strings having mutually related contents are recorded, that is, a plurality of information items effective for masking in the second embodiment, can be considered various other than kanji surnames and kana surnames. For example, a person's name and gender, an ID (for example, a prefecture code) and information specified by the ID (for example, a prefecture name), a prefecture name and a municipality name, a surname and an e-mail address If there is a rule to set roman letters).
変換辞書保持部32は、原本文書16に記録された複数の情報項目であり、かつ互いに関連した複数の情報項目の置換文字列を示す変換辞書を保持する。図5は、第2実施形態の変換辞書保持部32に保持される変換辞書の例を示す。この変換辞書が定める複数の情報項目の置換文字列間では、原本文書16に記録される複数の情報項目の原本文字列間の関係が維持されている。すなわち図5の変換辞書では、ハッシュ値と、情報項目「契約者漢字姓」「契約者かな姓」の置換文字列を対応付けており、あるレコードの「契約者かな姓」には、同じレコードの「契約者漢字姓」の読み仮名が設定される。
The conversion
図6も、第2実施形態の変換辞書保持部32に保持される変換辞書の例を示す。この変換辞書が定める複数の情報項目の置換文字列間でも、原本文書16に記録された複数の情報項目の原本文字列間の関係が維持されている。すなわち、同じレコード内の都道府県コード、都道府県名、市区町村名には、互いに整合する文字列が設定されている。
FIG. 6 also shows an example of the conversion dictionary held in the conversion
図2に戻り、置換対象情報保持部30は、置換対象となる情報項目として、互いに関連した複数の情報項目の識別情報を保持する。原本文字列取得部36は、置換対象情報保持部30を参照し、互いに関連した複数の情報項目のそれぞれに設定された原本文字列を取得する。
Returning to FIG. 2, the replacement target
置換文字列決定部38は、変換辞書保持部32の変換辞書に記録された置換文字列の複数の候補のうち、互いに関連する複数の情報項目の少なくとも1つの原本文字列に基づいて特定される辞書内の位置に記録された候補を複数の情報項目の置換文字列として決定する。置換文字列決定部38は、互いに関連する複数の情報項目の原本文字列の組み合わせに基づいて特定される辞書内の位置に記録された候補を複数の情報項目の置換文字列として決定してもよい。また、互いに関連する複数の情報項目の原本文字列の組み合わせを所定の一方向関数にて変換した値を取得し、その値に基づき特定される位置に保持された候補を置換文字列として決定してもよい。
The replacement character
実施の形態の置換文字列決定部38は、原本文字列取得部36が取得した複数の情報項目の原本文字列を結合し、結合した文字列を所定のハッシュ関数に入力してハッシュ値を取得する。例えば、置換対象となる複数の情報項目が「契約者漢字姓」「契約者かな姓」である場合、「契約者漢字姓」の原本文字列「山田」、「契約者かな姓」の原本文字列「やまだ」を結合した文字列「山田やまだ」のハッシュ値を取得する。
The replacement character
置換文字列決定部38は、第1実施形態と同様に、取得したハッシュ値に対応する変換辞書の行位置に記録された置換文字列をマスキングに使用する置換文字列として決定する。例えば、「山田やまだ」のハッシュ値が「500」であれば、変換辞書の500行目に記録された置換文字列をマスキングに使用する文字列として決定する。変形例として、置換文字列決定部38は、第1実施形態の第3変形例と同様に、取得したハッシュ値が記録された変換辞書のレコードを識別し、そのレコードに記録された置換文字列をマスキングに使用する文字列として決定してもよい。例えば、図5の変換辞書を参照し、かつ、「山田やまだ」のハッシュ値が「123」である場合、「契約者漢字姓」の置換文字列を「栗山」に決定し、「契約者かな姓」の置換文字列を「くりやま」に決定してもよい。
Similar to the first embodiment, the replacement character
文字列変換部40は、原本文書16に記録された置換対象の複数の情報項目の原本文字列を、変換辞書保持部32が保持する変換辞書で定められたそれら複数の情報項目の置換文字列へ置換する。具体的には、文字列変換部40は、互いに関連する複数の情報項目の原本文字列を、置換文字列決定部38により決定された各情報項目の置換文字列へ置き換える。
The character
第2実施形態のデータマスキング装置14の動作は、第1実施形態のデータマスキング装置14の動作と同様である。置換文字列決定部38は、互いに関連する複数の情報項目の原本文字列の組み合わせにしたがって、変換辞書保持部32の変換辞書が定めるそれら複数の情報項目の置換文字列を決定する。文字列変換部40は、互いに関連する複数の情報項目の原本文字列を、変換辞書保持部32の変換辞書が定めるそれら複数の情報項目の置換文字列へ置換えることにより変換文書18を生成する。
The operation of the
第2実施形態のデータマスキング装置14によると、原本文書16および変換文書18に記録される互いに関連する複数の情報項目について、それらの情報項目の原本文字列間の関係を置換文字列間でも維持することができる。これにより、テストデータ等として利用する観点から有効性が高い変換文書18を生成できる。例えば、図5の変換辞書の場合、漢字姓の置換文字列と、かな姓の置換文字列が整合する。また図6の変換辞書の場合、都道府県コードと都道府県名、市区町村名それぞれの置換文字列が整合する。
According to the
したがって、漢字姓が「栗山」でありながら、かな姓が「ありた」になることや、住所の都道府県名が「東京都」でありながら、市町村名が「横浜市西区」になること等、変換文書18の利用者に違和感を抱かせてしまうことを回避できる。また、変換文書18を用いたテストの結果、例えば都道府県名をキーとした検索結果等の判定が困難になることも回避できる。すなわち、変換文書18の利用者に、複数の情報項目の文字列間の関係に不自然さを感じさせない変換文書18を生成でき、マスキング後のデータの有用性を高めることができる。
Therefore, while the kanji surname is "Kuriyama", the kana surname is "there was" or that the municipality name is "Yokohama City Nishi Ward" while the prefecture name of the address is "Tokyo". The user of the converted
また第2実施形態のデータマスキング装置14によると、互いに関連する複数の情報項目の特定の原本文字列が特定の置換文字列へ一意に変換され、変換の一意性を担保できる。また、変換辞書にはハッシュ値と置換文字列の対応関係のみ記録されるため、変換辞書を見ただけでは置換文字列に対応する原本文字列を把握することが困難であり、データマスキングの安全性を向上できる。
Further, according to the
以上、本発明を第2実施形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。 The present invention has been described above based on the second embodiment. It will be understood by those skilled in the art that this embodiment is an exemplification, and that various modifications can be made to the combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. is there.
第1実施形態の第2変形例〜第4変形例は、第2実施形態の変形例としても有用である。例えば、変換辞書保持部32が保持する変換辞書は、原本文字列と置換文字列を直接対応付けてもよい。図7は、変形例の変換辞書を示す。置換文字列決定部38は、複数の情報項目の原本文字列の組み合わせをキーとして変換辞書を検索してもよい。図7の例では、原本契約者漢字姓と原本契約者かな姓の組み合わせが「山田」「やまだ」の場合、置換文字列決定部38は、置換契約者漢字姓と置換契約者かな姓の組み合わせとして「栗山」「くりやま」を決定する。
The second to fourth modifications of the first embodiment are also useful as modifications of the second embodiment. For example, the conversion dictionary held by the conversion
(第3実施形態)
第3実施形態のデータマスキング装置14は、第1実施形態の特徴と第2実施形態の特徴の両方を備える。第3実施形態の情報処理システム100の構成は第1実施形態、第2実施形態と同じ(図1)であり、第2実施形態のデータマスキング装置14の機能ブロックも第1実施形態、第2実施形態と同じ(図2)である。以下、第1実施形態、第2実施形態と重複する説明は省略し、異なる点を主に説明する。
Third Embodiment
The
図8は、第3実施形態の変換辞書保持部32に保持される変換辞書の例を示す。第3実施形態の変換辞書の各レコードは、互いに関連する複数の情報項目を含む第1項目群と、互いに関連する複数の情報項目を含む第2項目群について、第1項目群と第2項目群それぞれの置換文字列とハッシュ値との対応関係を記録する。第1項目群は図8の例では契約者漢字姓と契約者かな姓の組み合わせであり、第2項目群は図8の例では契約者漢字名と契約者かな名の組み合わせである。第1項目群と第2項目群の間では関連姓はないことが望ましい。例えば、姓と名の間には直接の関連性はないと言える。
FIG. 8 shows an example of the conversion dictionary held in the conversion
図2に戻り、置換対象情報保持部30は、置換対象となる情報項目として、第1項目群に含まれる複数の情報項目の識別情報と、第2項目群に含まれる複数の情報項目の識別情報を保持する。原本文字列取得部36は、置換対象情報保持部30を参照し、第1項目群に含まれる複数の情報項目それぞれに設定された原本文字列と、第2項目群に含まれる複数の情報項目それぞれに設定された原本文字列を取得する。
Returning to FIG. 2, the replacement target
置換文字列決定部38は、変換辞書保持部32の変換辞書に記録された置換文字列の複数の候補のうち、第1項目群の少なくとも1つの原本文字列と、第2項目群の少なくとも1つの原本文字列の組み合わせに基づいて特定される辞書内の位置に記録された候補を置換文字列として決定する。置換文字列決定部38は、第1項目群に含まれる複数の情報項目の複数の原本文字列と、第2項目群に含まれる複数の情報項目の複数の原本文字列の全てを組み合わせた文字列を使用して置換文字列を決定してもよい。
The replacement character
実施の形態の置換文字列決定部38は、原本文字列取得部36が取得した複数の情報項目の原本文字列の全てを結合し、結合した文字列を所定のハッシュ関数に入力してハッシュ値を取得する。例えば、第1項目群の契約者漢字姓の原本文字列「山田」と契約者かな姓の原本文字列「やまだ」、第2項目群の契約者漢字名の原本文字列「太郎」と契約者かな名の原本文字列「たろう」を結合した「山田やまだ太郎たろう」のハッシュ値を取得する。
The replacement character
置換文字列決定部38は、第1実施形態と同様に、取得したハッシュ値に対応する変換辞書の行位置に記録された置換文字列をマスキングに使用する置換文字列として決定する。例えば、「山田やまだ太郎たろう」のハッシュ値が「500」であれば、変換辞書の500行目に記録された置換文字列をマスキングに使用する文字列として決定する。変形例として、置換文字列決定部38は、第1実施形態の第3変形例と同様に、取得したハッシュ値が記録された変換辞書のレコードを識別し、そのレコードに記録された置換文字列をマスキングに使用する文字列として決定してもよい。例えば、図8の変換辞書を参照し、かつ、「山田やまだ太郎たろう」のハッシュ値が「123」である場合、契約者漢字姓の置換文字列を「栗山」に決定し、契約者かな姓の置換文字列を「くりやま」に決定してもよい。それとともに、契約者漢字名の置換文字列を「高次」に決定し、契約者かな名の置換文字列を「こうじ」に決定してもよい。他の構成および動作は、第1実施形態、第2実施形態と同様である。
Similar to the first embodiment, the replacement character
第3実施形態のデータマスキング装置14によると、第1実施形態の効果と第2実施形態の効果を両立できる。すなわち、置換文字列から元の原本文字列を推測することを困難にでき、また、互いに関連する複数の情報項目の原本文字列間の関係を、マスキング後の置換文字列間でも維持できる。これにより、情報漏洩防止とデータ利用の両面においてマスク後のデータの有用性を高めることができる。
According to the
以上、本発明を第3実施形態をもとに説明した。この実施の形態は例示であり、それらの各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。また、第1実施例の変形例および第2実施形態の変形例は第3実施形態にも有用である。例えば、図8の変換辞書において、ハッシュ値に代えて原本文字列を置換文字列に直接対応付けてもよい。 The present invention has been described above based on the third embodiment. It will be understood by those skilled in the art that this embodiment is an exemplification, and that various modifications can be made to the combinations of the respective constituent elements and processing processes, and such modifications are also within the scope of the present invention. is there. The modification of the first embodiment and the modification of the second embodiment are also useful in the third embodiment. For example, in the conversion dictionary of FIG. 8, the original character string may be directly associated with the replacement character string instead of the hash value.
請求項に記載の各構成要件が果たすべき機能は、実施の形態および変形例において示された各構成要素の単体もしくはそれらの連携によって実現されることも当業者には理解されるところである。 It is also understood by those skilled in the art that the functions to be performed by the respective constituent features described in the claims are realized by a single member of each constituent shown in the embodiment and the modification or a combination thereof.
14 データマスキング装置、 30 置換対象情報保持部、 32 変換辞書保持部、 34 原本文書取得部、 36 原本文字列取得部、 38 置換文字列決定部、 40 文字列変換部、 42 変換文書出力部。
14
Claims (3)
前記原本データに記録された前記複数の情報項目の原本文字列を、前記置換文字列決定部により決定された置換文字列へ置換する文字列置換部と、
前記置換文字列となりうる複数の候補を異なる位置に保持する候補文字列保持部と、
を備え、
前記置換文字列決定部は、前記複数の情報項目の原本文字列の組み合わせに基づき特定される位置に保持された候補を前記置換文字列として決定し、
前記複数の情報項目は、第1項目と第2項目を含み、
前記置換文字列決定部は、前記第1項目の原本文字列と第2項目の原本文字列を第1の態様で組み合わせた文字列に基づき特定される位置に保持された候補を前記第1項目の置換文字列として決定し、前記第1項目の原本文字列と第2項目の原本文字列を前記第1の態様とは異なる第2の態様で組み合わせた文字列に基づき特定される位置に保持された候補を前記第2項目の置換文字列として決定することを特徴とするデータマスキング装置。 A replacement character string determination unit that determines replacement character strings of the plurality of information items based on a combination of original character strings of a plurality of information items recorded in the original data;
A character string replacement unit that replaces original character strings of the plurality of information items recorded in the original data with a replacement character string determined by the replacement character string determination unit;
A candidate character string holding unit that holds, at different positions, a plurality of candidates that can be the replacement character string;
Equipped with
The replacement character string determination unit determines, as the replacement character string, a candidate held at a position specified based on a combination of original character strings of the plurality of information items.
The plurality of information items include a first item and a second item,
The replacement character string determination unit determines, as the first item, a candidate held at a position specified based on a character string obtained by combining the original character string of the first item and the original character string of the second item in a first mode. And the original character string of the first item and the original character string of the second item are determined based on the character string obtained by combining in a second mode different from the first mode. A data masking apparatus characterized in that the determined candidate is determined as a replacement string of the second item.
前記原本データに記録された前記複数の情報項目の原本文字列を、前記決定するステップで決定された置換文字列へ置換するステップと、
前記置換文字列となりうる複数の候補を異なる位置に保持するステップと、
を備え、
前記決定するステップは、前記複数の情報項目の原本文字列の組み合わせに基づき特定される位置に保持された候補を前記置換文字列として決定し、
前記複数の情報項目は、第1項目と第2項目を含み、
前記決定するステップは、前記第1項目の原本文字列と第2項目の原本文字列を第1の態様で組み合わせた文字列に基づき特定される位置に保持された候補を前記第1項目の置換文字列として決定し、前記第1項目の原本文字列と第2項目の原本文字列を前記第1の態様とは異なる第2の態様で組み合わせた文字列に基づき特定される位置に保持された候補を前記第2項目の置換文字列として決定することをデータマスキング装置が実行することを特徴とするデータマスキング方法。 Determining a replacement character string of the plurality of information items based on a combination of the original character strings of the plurality of information items recorded in the original data;
Replacing the original character string of the plurality of information items recorded in the original data with the replacement character string determined in the determining step;
Holding, at different positions, a plurality of candidates for the replacement character string;
Equipped with
The determining step determines a candidate held at a position specified based on a combination of original character strings of the plurality of information items as the replacement character string.
The plurality of information items include a first item and a second item,
In the determining, the candidate held at the position specified based on the character string obtained by combining the original character string of the first item and the original character string of the second item in the first aspect is replaced with the first item It is determined as a character string, and is held at a position specified based on a character string obtained by combining the original character string of the first item and the original character string of the second item in a second mode different from the first mode. A data masking method characterized in that the data masking device executes determining a candidate as a replacement string of the second item.
前記原本データに記録された前記複数の情報項目の原本文字列を、前記決定するステップで決定された置換文字列へ置換する機能と、
前記置換文字列となりうる複数の候補を異なる位置に保持する機能と、
を備え、
前記決定する機能は、前記複数の情報項目の原本文字列の組み合わせに基づき特定される位置に保持された候補を前記置換文字列として決定し、
前記複数の情報項目は、第1項目と第2項目を含み、
前記決定する機能は、前記第1項目の原本文字列と第2項目の原本文字列を第1の態様で組み合わせた文字列に基づき特定される位置に保持された候補を前記第1項目の置換文字列として決定し、前記第1項目の原本文字列と第2項目の原本文字列を前記第1の態様とは異なる第2の態様で組み合わせた文字列に基づき特定される位置に保持された候補を前記第2項目の置換文字列として決定することをデータマスキング装置に実現させるためのコンピュータプログラム。 A function of determining a replacement character string of the plurality of information items based on a combination of the original character strings of the plurality of information items recorded in the original data;
A function of replacing original character strings of the plurality of information items recorded in the original data with replacement character strings determined in the determining step;
A function of holding a plurality of candidates that can be the replacement character string at different positions;
Equipped with
The function to determine determines a candidate held at a position specified based on a combination of original character strings of the plurality of information items as the replacement character string.
The plurality of information items include a first item and a second item,
The function to determine determines a candidate held at a position specified based on a character string obtained by combining the original character string of the first item and the original character string of the second item in the first mode with the first item replacement It is determined as a character string, and is held at a position specified based on a character string obtained by combining the original character string of the first item and the original character string of the second item in a second mode different from the first mode. A computer program for causing a data masking device to determine a candidate as a replacement string of the second item.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015102954A JP6506099B2 (en) | 2015-05-20 | 2015-05-20 | DATA MASKING DEVICE, DATA MASKING METHOD, AND COMPUTER PROGRAM |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015102954A JP6506099B2 (en) | 2015-05-20 | 2015-05-20 | DATA MASKING DEVICE, DATA MASKING METHOD, AND COMPUTER PROGRAM |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016218738A JP2016218738A (en) | 2016-12-22 |
JP6506099B2 true JP6506099B2 (en) | 2019-04-24 |
Family
ID=57581232
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015102954A Active JP6506099B2 (en) | 2015-05-20 | 2015-05-20 | DATA MASKING DEVICE, DATA MASKING METHOD, AND COMPUTER PROGRAM |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6506099B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7622381B2 (en) | 2020-09-16 | 2025-01-28 | 富士フイルムビジネスイノベーション株式会社 | Information processing device and program |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2004084483A1 (en) * | 2003-03-20 | 2006-06-29 | 株式会社日本医療データセンター | Information management system |
US7672967B2 (en) * | 2005-02-07 | 2010-03-02 | Microsoft Corporation | Method and system for obfuscating data structures by deterministic natural data substitution |
JP2007108356A (en) * | 2005-10-12 | 2007-04-26 | Fujitsu Ltd | Personal information concealment device and program thereof |
EP2189925A3 (en) * | 2008-11-25 | 2015-10-14 | SafeNet, Inc. | Database obfuscation system and method |
JP2010237811A (en) * | 2009-03-30 | 2010-10-21 | Nec Corp | Personal information management system and personal information management method |
US10102398B2 (en) * | 2009-06-01 | 2018-10-16 | Ab Initio Technology Llc | Generating obfuscated data |
JP5676522B2 (en) * | 2012-05-22 | 2015-02-25 | 日本電信電話株式会社 | Character string conversion method and program |
-
2015
- 2015-05-20 JP JP2015102954A patent/JP6506099B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016218738A (en) | 2016-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9904798B2 (en) | Focused personal identifying information redaction | |
US10430610B2 (en) | Adaptive data obfuscation | |
JP2011511341A5 (en) | ||
JP5420099B1 (en) | Personal information detection apparatus and computer program | |
JP2015026350A (en) | Information processing system, information processing method, and information processing program | |
CN108280197B (en) | A method and system for identifying homologous binary files | |
JP2023107143A (en) | Anonymization device and program | |
CN110955713A (en) | Mnemonic word generating method and device and storage medium | |
JP2013246547A (en) | Data converter | |
JP6506099B2 (en) | DATA MASKING DEVICE, DATA MASKING METHOD, AND COMPUTER PROGRAM | |
JP2018060370A (en) | Search program, search method and search device | |
JP2006331329A (en) | Language processor, language processing method, and language processing program, and storage medium | |
US10942934B2 (en) | Non-transitory computer-readable recording medium, encoded data searching method, and encoded data searching apparatus | |
JP2017123062A (en) | Relation information generation method, apparatus, and program | |
JP5513953B2 (en) | Masking data generation apparatus and program for testing | |
JP2016218739A (en) | Data masking device, data masking method, and computer program | |
WO2007088902A1 (en) | Character processing device, method and program, and recording medium | |
JP4251000B2 (en) | Kana-kanji conversion device, kana-kanji conversion method, and kana-kanji conversion program | |
JP2018181121A (en) | Analyzer, analysis program and analysis method | |
JP4272690B1 (en) | Personal information file determination system | |
JP2013205854A (en) | Substitute character conversion person's name input device, person's name input method and person's name input program | |
JP2007108356A (en) | Personal information concealment device and program thereof | |
JP2009199254A (en) | Electronic mail transmission system, information processor, electronic mail transmission method, program, and recording medium | |
US20240411926A1 (en) | Systems and methods for utilizing hash-derived indexing substitution models for data deidentification | |
JP7411362B2 (en) | Anti-social information verification device, anti-social information verification method, and anti-social information verification program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180328 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20181212 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190308 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190326 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190328 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6506099 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |