KR102670080B1 - 데이터 재식별 가능성 감소를 위한 데이터 처리 방법 - Google Patents
데이터 재식별 가능성 감소를 위한 데이터 처리 방법 Download PDFInfo
- Publication number
- KR102670080B1 KR102670080B1 KR1020230104332A KR20230104332A KR102670080B1 KR 102670080 B1 KR102670080 B1 KR 102670080B1 KR 1020230104332 A KR1020230104332 A KR 1020230104332A KR 20230104332 A KR20230104332 A KR 20230104332A KR 102670080 B1 KR102670080 B1 KR 102670080B1
- Authority
- KR
- South Korea
- Prior art keywords
- unique information
- row
- data
- computing device
- processing method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 56
- 230000010365 information processing Effects 0.000 claims abstract description 26
- 238000012545 processing Methods 0.000 claims description 23
- 238000012217 deletion Methods 0.000 claims description 19
- 230000037430 deletion Effects 0.000 claims description 19
- 238000006467 substitution reaction Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 8
- 238000013450 outlier detection Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2272—Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2201/00—Indexing scheme relating to error detection, to error correction, and to monitoring
- G06F2201/81—Threshold
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도 2는 본 발명의 일 실시예에 따른 데이터 재식별 가능성 감소를 위한 데이터 처리 방법을 설명하기 위해 제공되는 흐름도이다.
도 3은 가명처리된 데이터셋의 일 예를 나타낸 것이다.
도 4는 도 3에 예시한 데이터셋의 각 칼럼 중에서 직업 칼럼에 대해서 범주별 빈도수를 구한 예를 나타낸 것이다.
도 5는 본 발명의 일 실시예에 따른 범주별 빈도수에 따라 특이정보를 판단하는 예를 나타낸 것이다.
도 6은 본 발명의 일 실시예에 따른 행별 특이정보 건수를 구한 예를 나타낸 도면이다.
도 7은 본 발명의 일 실시예에 따른 특이정보 처리 기법을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른 각 행별 특이정보 처리 기법이 정해진 예를 나타낸 도면이다.
Claims (8)
- 프로세서; 및 상기 프로세서에 의해 실행 가능한 인스트럭션 또는 프로그램을 저장하는 메모리; 를 포함하는 컴퓨팅 장치에서 구현되는 데이터 재식별 가능성 감소를 위한 데이터 처리 방법에서,
상기 컴퓨팅 장치가 처리대상 데이터셋의 칼럼(column)별로 범주별 빈도수를 구하는 단계,
상기 컴퓨팅 장치가 상기 범주별 빈도수가 미리 정해진 특이정보 임계값보다 작은 범주를 특이정보로 판단하는 단계,
상기 컴퓨팅 장치가 상기 처리대상 데이터셋의 각 행(row)별로 특이정보 건수를 구하는 단계 - 상기 특이정보 건수는 해당 행에서 특이정보로 판단된 데이터 값의 개수임 -,
상기 컴퓨팅 장치가 상기 각 행별로 구해진 특이정보 건수에 따라 상기 각 행별로 특이정보 처리 기법을 결정하는 단계, 및
상기 컴퓨팅 장치가 상기 각 행별로 결정된 특이정보 처리 기법에 따라 상기 처리대상 데이터셋의 각 행을 처리하는 단계
를 포함하는 것을 특징으로 하는 데이터 처리 방법. - 제 1 항에서,
상기 특이정보 처리 기법은,
값 대체, 로컬 삭제 및 행 삭제 중 하나 이상을 포함하고,
상기 값 대체는 특이정보로 판단된 데이터 값을 미리 정해진 다른 값으로 치환하는 것이고,
상기 로컬 삭제는 특이정보로 판단된 데이터 값을 빈 값(null)으로 삭제하는 것이며,
상기 행 삭제는 행 전체를 상기 처리대상 데이터셋에서 삭제하는 것인 것을 특징으로 하는 데이터 처리 방법. - 제 2 항에서,
상기 각 행별로 결정되는 특이정보 처리 기법은,
특이정보 건수가 α 이상이고 β 미만인 행의 경우 값 대체로 정해지고,
특이정보 건수가 β 이상이고 γ 미만인 행의 경우 로컬 삭제로 정해지며,
특이정보 건수가 γ 이상인 행의 경우 행 삭제로 정해지고,
여기서 α, β, γ는 양의 정수이며, α<β<γ인 것을 특징으로 하는 데이터 처리 방법. - 제 3 항에서,
상기 컴퓨팅 장치가 상기 각 행별로 결정된 특이정보 처리 기법을 상기 컴퓨팅 장치의 화면에 표시하여 추천하는 단계
를 더 포함하는 것을 특징으로 하는 데이터 처리 방법. - 삭제
- 제 1 항에서,
상기 처리대상 데이터셋의 각 칼럼별로 상기 특이정보 임계값이 정해지는 것을 특징으로 하는 데이터 처리 방법. - 제 1 항 내지 제 4 항 및 제 6 항 중 어느 한 항의 데이터 처리 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
- 컴퓨팅 장치로서,
프로세서; 및
상기 프로세서에 의해 실행 가능한 인스트럭션 또는 프로그램을 저장하는 메모리; 를 포함하고,
상기 인스트럭션 또는 프로그램이 상기 프로세서에 의해 실행되면, 제 1 항 내지 제 4 항 및 제 6 항 중 어느 한 항의 데이터 처리 방법이 실행되는 컴퓨팅 장치.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230104332A KR102670080B1 (ko) | 2023-08-09 | 2023-08-09 | 데이터 재식별 가능성 감소를 위한 데이터 처리 방법 |
JP2024016938A JP7595795B1 (ja) | 2023-08-09 | 2024-02-07 | データ再識別可能性の減少のためのデータ処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020230104332A KR102670080B1 (ko) | 2023-08-09 | 2023-08-09 | 데이터 재식별 가능성 감소를 위한 데이터 처리 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102670080B1 true KR102670080B1 (ko) | 2024-05-28 |
Family
ID=91277055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020230104332A Active KR102670080B1 (ko) | 2023-08-09 | 2023-08-09 | 데이터 재식별 가능성 감소를 위한 데이터 처리 방법 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7595795B1 (ko) |
KR (1) | KR102670080B1 (ko) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013200659A (ja) * | 2012-03-23 | 2013-10-03 | Nippon Telegraph & Telephone West Corp | 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム |
KR102126386B1 (ko) * | 2018-09-03 | 2020-06-24 | (주)아이알컴퍼니 | K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치 |
KR102266416B1 (ko) * | 2020-09-29 | 2021-06-17 | 제이엠사이트 주식회사 | 장애 예측 방법, 그리고 이를 구현하기 위한 장치 |
KR20210112469A (ko) * | 2020-03-05 | 2021-09-15 | 한라대학교산학협력단 | 개인정보 비식별조치 방법 |
KR102362582B1 (ko) * | 2020-12-31 | 2022-02-15 | 렉스소프트 주식회사 | 통계 데이터 전처리 방법, 서버 및 컴퓨터 판독가능매체 |
KR102379334B1 (ko) * | 2014-05-22 | 2022-03-25 | 램 리써치 코포레이션 | 후면 증착 장치 및 애플리케이션들 |
KR102379331B1 (ko) * | 2021-07-09 | 2022-03-30 | 대한민국 | 익명성 확보와 정보손실 제어를 위한 빈도표 생성 및 제공방법 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7407536B2 (ja) | 2018-08-29 | 2024-01-04 | キヤノンメディカルシステムズ株式会社 | 医療情報管理装置及び医療情報管理システム |
JP7121276B2 (ja) | 2018-09-19 | 2022-08-18 | 富士通株式会社 | データ管理レベル判定プログラム、およびデータ管理レベル判定方法 |
JP7026653B2 (ja) | 2019-02-28 | 2022-02-28 | Kddi株式会社 | クラスタリング装置、クラスタリング方法及びクラスタリングプログラム |
JP7405248B2 (ja) | 2020-04-28 | 2023-12-26 | 日本電信電話株式会社 | 匿名化データベース生成装置、匿名化データベース生成方法、プログラム |
-
2023
- 2023-08-09 KR KR1020230104332A patent/KR102670080B1/ko active Active
-
2024
- 2024-02-07 JP JP2024016938A patent/JP7595795B1/ja active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013200659A (ja) * | 2012-03-23 | 2013-10-03 | Nippon Telegraph & Telephone West Corp | 属性選択装置、情報匿名化装置、属性選択方法、情報匿名化方法、属性選択プログラム、及び情報匿名化プログラム |
KR102379334B1 (ko) * | 2014-05-22 | 2022-03-25 | 램 리써치 코포레이션 | 후면 증착 장치 및 애플리케이션들 |
KR102126386B1 (ko) * | 2018-09-03 | 2020-06-24 | (주)아이알컴퍼니 | K-익명성 모델 이용 데이터 셋 비식별화 방법 및 장치 |
KR20210112469A (ko) * | 2020-03-05 | 2021-09-15 | 한라대학교산학협력단 | 개인정보 비식별조치 방법 |
KR102266416B1 (ko) * | 2020-09-29 | 2021-06-17 | 제이엠사이트 주식회사 | 장애 예측 방법, 그리고 이를 구현하기 위한 장치 |
KR102362582B1 (ko) * | 2020-12-31 | 2022-02-15 | 렉스소프트 주식회사 | 통계 데이터 전처리 방법, 서버 및 컴퓨터 판독가능매체 |
KR102379331B1 (ko) * | 2021-07-09 | 2022-03-30 | 대한민국 | 익명성 확보와 정보손실 제어를 위한 빈도표 생성 및 제공방법 |
Also Published As
Publication number | Publication date |
---|---|
JP7595795B1 (ja) | 2024-12-06 |
JP2025026269A (ja) | 2025-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10372723B2 (en) | Efficient query processing using histograms in a columnar database | |
US11243993B2 (en) | Document relationship analysis system | |
US9626349B2 (en) | Dynamically manipulating tables based on a font | |
TW202029079A (zh) | 異常群體識別方法及裝置 | |
EP3489957A1 (en) | Accelerated clinical biomarker prediction (acbp) platform | |
US9948653B2 (en) | Policy partial results | |
JP2016505973A (ja) | 予測モデル生成のためのユーザーインタフェース | |
US10073892B1 (en) | Item attribute based data mining system | |
Li et al. | Survival analysis on rare events using group-regularized multi-response cox regression | |
KR102670080B1 (ko) | 데이터 재식별 가능성 감소를 위한 데이터 처리 방법 | |
US10628452B2 (en) | Providing multidimensional attribute value information | |
CN113297226A (zh) | 数据存储方法、数据读取方法、装置、电子设备及介质 | |
US20190385715A1 (en) | Systems and methods for facilitating computer-assisted linkage of healthcare records | |
CN111310016A (zh) | 标签挖掘方法、装置、服务器和存储介质 | |
US20150081380A1 (en) | Complement self service business intelligence with cleansed and enriched customer data | |
WO2016137479A1 (en) | Recommending visualizations | |
CN116578583A (zh) | 异常语句识别方法、装置、设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20230809 |
|
PA0201 | Request for examination | ||
PA0302 | Request for accelerated examination |
Patent event date: 20231026 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination Patent event date: 20230809 Patent event code: PA03021R01I Comment text: Patent Application |
|
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20231218 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20240520 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20240523 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20240523 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |