KR20180133726A - 특징 벡터를 이용하여 데이터를 분류하는 장치 및 방법 - Google Patents
특징 벡터를 이용하여 데이터를 분류하는 장치 및 방법 Download PDFInfo
- Publication number
- KR20180133726A KR20180133726A KR1020170070948A KR20170070948A KR20180133726A KR 20180133726 A KR20180133726 A KR 20180133726A KR 1020170070948 A KR1020170070948 A KR 1020170070948A KR 20170070948 A KR20170070948 A KR 20170070948A KR 20180133726 A KR20180133726 A KR 20180133726A
- Authority
- KR
- South Korea
- Prior art keywords
- data
- feature vector
- signatures
- intervals
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G06N99/005—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/55—Detecting local intrusion or implementing counter-measures
- G06F21/56—Computer malware detection or handling, e.g. anti-virus arrangements
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Virology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도 2a 및 도 2b는 본 발명의 일 실시예에 따른 학습 데이터로부터 복수의 시그니처를 추출하는 과정을 설명하기 위한 예시적인 도면이다.
도 3은 본 발명의 일 실시예에 따른 복수의 시그니처 별로 복수의 구간을 설정하는 과정을 설명하기 위한 예시적인 도면이다.
도 4는 본 발명의 일 실시예에 따른 복수의 학습 데이터로부터 복수의 시그니처에 대한 각각의 빈도수를 추출하는 과정을 설명하기 위한 예시적인 도면이다.
도 5는 본 발명의 일 실시예에 따른 추출된 각각의 빈도수와 복수의 구간 중 해당하는 구간과 매핑하는 과정을 설명하기 위한 예시적인 도면이다.
도 6a 내지 도 6c는 본 발명의 일 실시예에 따른 복수의 학습 데이터로부터 생성된 특징 벡터에 기초하여 복수의 학습 데이터 간의 거리를 도출하여 복수의 클래스 중 어느 하나의 클래스로 분류하는 과정을 설명하기 위한 예시적인 도면이다.
도 7a 및 도 7b는 본 발명의 일 실시예에 따른 복수의 학습 데이터로부터 생성된 특징 벡터를 비교한 예시적인 도면이다.
도 8은 본 발명의 일 실시예에 따른 데이터 분류 장치에서 학습 데이터의 특징 벡터를 이용하여 기계 학습을 수행하는 방법의 순서도이다.
110: 구간 설정부
120: 빈도 추출부
130: 구간 매핑부
140: 특징 벡터 생성부
150: 거리 도출부
160: 분류부
Claims (16)
- 기계 학습을 수행하기 위한 학습 데이터의 특징 벡터를 이용하여 데이터를 분류하는 장치에 있어서,
복수의 시그니처 별로 복수의 구간을 설정하는 구간 설정부;
복수의 학습 데이터로부터 복수의 시그니처에 대한 각각의 빈도수를 추출하는 빈도 추출부;
상기 추출된 각각의 빈도수를 상기 복수의 구간 중 해당하는 구간과 매핑하는 구간 매핑부;
상기 복수의 시그니처 각각이 매핑된 구간에 해당하는 엘리먼트를 추출하여 특징 벡터를 생성하는 특징 벡터 생성부; 및
상기 생성된 특징 벡터를 입력 데이터로 하여 상기 입력 데이터를 복수의 클래스 중 어느 하나로 분류하도록 기계 학습을 수행하는 분류부
를 포함하는 것인, 데이터 분류 장치.
- 제 1 항에 있어서,
상기 복수의 시그니처는 상기 복수의 학습 데이터의 클래스를 분류하기 위한 특징으로 선택되어 상기 학습 데이터로부터 추출되는 것인, 데이터 분류 장치.
- 제 1 항에 있어서,
상기 구간 설정부는 상기 복수의 시그니처 별로 각 시그니처의 빈도수에 따라 균등하게 나눠진 복수의 구간을 설정하는 것인, 데이터 분류 장치.
- 제 3 항에 있어서,
상기 구간 설정부는 상기 복수의 구간을 각 시그니처 별로 다르게 설정하는 것인, 데이터 분류 장치.
- 제 4 항에 있어서,
상기 구간 설정부는 상기 복수의 구간을 상기 각 시그니처 간의 중요도에 따라 다르게 설정하는 것인, 데이터 분류 장치.
- 제 3 항에 있어서,
상기 구간 맵핑부는 상기 추출된 복수의 시그니처의 빈도수에 따라 상기 각 시그니처를 상기 복수의 구간 중 어느 하나에 매핑하는 것인, 데이터 분류 장치.
- 제 6 항에 있어서,
상기 특징 벡터 생성부는 상기 복수의 시그니처의 종류보다 적은 차원의 특징 벡터를 생성하는 것인, 데이터 분류 장치.
- 제 6 항에 있어서,
상기 특징 벡터 생성부는 상기 복수의 시그니처의 종류에 해당하는 사이즈를 가지는 집합으로 이루어진 특징 벡터를 생성하는 것인, 데이터 분류 장치.
- 제 1 항에 있어서,
상기 복수의 학습 데이터로부터 생성된 각각의 특징 벡터에 기초하여 상기 복수의 학습 데이터 간의 거리를 도출하는 거리 도출부
를 더 포함하는 것인, 데이터 분류 장치.
- 제 9 항에 있어서,
상기 분류부는 상기 도출된 복수의 학습 데이터 간의 거리에 기초하여 상기 입력 데이터를 상기 복수의 클래스 중 어느 하나로 분류하는 것인, 데이터 분류 장치.
- 제 10 항에 있어서,
상기 복수의 학습 데이터 간의 거리는 적어도 두 개의 학습 데이터의 특징 벡터에 대한 합집합의 원소 수로부터 상기 적어도 두 개의 학습 데이터의 특징 벡터에 대한 교집합의 원소 수를 뺀 값인 것인, 데이터 분류 장치.
- 미확인 데이터의 특징 벡터를 이용하여 데이터를 분류하는 장치에 있어서,
복수의 시그니처 별로 복수의 구간을 설정하는 구간 설정부;
미확인 데이터로부터 복수의 시그니처에 대한 각각의 빈도수를 추출하는 추출부;
상기 추출된 각각의 빈도수를 상기 복수의 구간 중 해당하는 구간과 매핑하는 구간 매핑부;
상기 복수의 시그니처 각각이 매핑된 구간에 해당하는 엘리먼트를 추출하여 특징 벡터를 생성하는 특징 벡터 생성부; 및
상기 생성된 특징 벡터를 입력 데이터로 하여 상기 입력 데이터를 복수의 클래스 중 어느 하나로 분류하는 분류부
를 포함하는 것인, 데이터 분류 장치.
- 제 12 항에 있어서,
상기 생성된 특징 벡터 및 기입력된 복수의 데이터로부터 생성된 특징 벡터에 기초하여 상기 미확인 데이터와 상기 기입력된 복수의 데이터 간의 거리를 도출하는 거리 도출부를 더 포함하는 것인, 데이터 분류 장치.
- 제 13 항에 있어서,
상기 분류부는 상기 미확인 데이터와 상기 기입력된 복수의 데이터 간의 거리에 기초하여 상기 입력 데이터를 상기 복수의 클래스 중 어느 하나로 분류하는 것인, 데이터 분류 장치.
- 제 14 항에 있어서,
상기 분류부는 상기 입력 데이터를 상기 기입력된 복수의 데이터 중 상기 미확인 데이터로부터 기설정된 거리 안에서 가장 빈도수가 높은 데이터의 클래스로 분류하는 것인, 악성 파일 분류 장치.
- 학습 데이터의 특징 벡터를 이용하여 기계 학습을 수행하는 방법에 있어서,
복수의 시그니처 별로 복수의 구간을 설정하는 단계;
복수의 학습 데이터로부터 복수의 시그니처에 대한 각각의 빈도수를 추출하는 단계;
상기 추출된 각각의 빈도수를 상기 복수의 구간 중 해당하는 구간과 매핑하는 단계;
상기 복수의 시그니처 각각이 매핑된 구간에 해당하는 엘리먼트를 추출하여 특징 벡터를 생성하는 단계; 및
상기 생성된 특징 벡터를 입력 데이터로 하여 상기 입력 데이터를 복수의 클래스 중 어느 하나로 분류하도록 기계 학습을 수행하는 단계
를 포함하는 것인, 데이터 분류 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170070948A KR102367859B1 (ko) | 2017-06-07 | 2017-06-07 | 특징 벡터를 이용하여 데이터를 분류하는 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170070948A KR102367859B1 (ko) | 2017-06-07 | 2017-06-07 | 특징 벡터를 이용하여 데이터를 분류하는 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180133726A true KR20180133726A (ko) | 2018-12-17 |
KR102367859B1 KR102367859B1 (ko) | 2022-02-25 |
Family
ID=65007726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170070948A Active KR102367859B1 (ko) | 2017-06-07 | 2017-06-07 | 특징 벡터를 이용하여 데이터를 분류하는 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102367859B1 (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210043932A (ko) * | 2019-10-14 | 2021-04-22 | 국민대학교산학협력단 | 라벨 정보가 포함된 특징 벡터 생성 장치 및 방법 |
KR20210082527A (ko) * | 2018-12-19 | 2021-07-05 | 어드밴스드 마이크로 디바이시즈, 인코포레이티드 | 매트릭스 수학 명령어 세트에 대한 타일링 알고리즘 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102590576B1 (ko) | 2023-04-19 | 2023-10-24 | 주식회사 에이오디컨설팅 | 데이터 의미론적 분류를 이용한 동적 데이터 구조 검색 방법 |
KR102590575B1 (ko) | 2023-04-19 | 2023-10-17 | 주식회사 에이오디컨설팅 | 컬럼 의미 분류 기반의 데이터 구조 분석을 통한 동적 데이터 분류 방법 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101480244B1 (ko) * | 2013-08-23 | 2015-01-12 | 한양대학교 산학협력단 | 클래스 단위의 시그니처를 이용한 악성 어플리케이션 탐지 방법 및 장치 |
-
2017
- 2017-06-07 KR KR1020170070948A patent/KR102367859B1/ko active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101480244B1 (ko) * | 2013-08-23 | 2015-01-12 | 한양대학교 산학협력단 | 클래스 단위의 시그니처를 이용한 악성 어플리케이션 탐지 방법 및 장치 |
Non-Patent Citations (2)
Title |
---|
"Native API 의 효과적인 전처리 방법을 이용한 악성 코드 탐지 방법에 관한 연구", 정보보호학회논문지 22(4)(pp. 785-796), 2012년. * |
"안드로이드 모바일 악성 앱 탐지를 위한 확률적 K-인접 이웃 분류기", Journal of The Korea Institute of Information Security & Cryptology VOL.25 NO.4.(pp. 817-827), 2015년. * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20210082527A (ko) * | 2018-12-19 | 2021-07-05 | 어드밴스드 마이크로 디바이시즈, 인코포레이티드 | 매트릭스 수학 명령어 세트에 대한 타일링 알고리즘 |
US11687615B2 (en) | 2018-12-19 | 2023-06-27 | Advanced Micro Devices, Inc. | Tiling algorithm for a matrix math instruction set |
KR20210043932A (ko) * | 2019-10-14 | 2021-04-22 | 국민대학교산학협력단 | 라벨 정보가 포함된 특징 벡터 생성 장치 및 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR102367859B1 (ko) | 2022-02-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210256127A1 (en) | System and method for automated machine-learning, zero-day malware detection | |
Tian et al. | An automated classification system based on the strings of trojan and virus families | |
US9665713B2 (en) | System and method for automated machine-learning, zero-day malware detection | |
Kong et al. | Discriminant malware distance learning on structural information for automated malware classification | |
US11379581B2 (en) | System and method for detection of malicious files | |
CN101359352A (zh) | 分层协同的混淆后api调用行为发现及其恶意性判定方法 | |
Sun et al. | An opcode sequences analysis method for unknown malware detection | |
Darshan et al. | Performance evaluation of filter-based feature selection techniques in classifying portable executable files | |
RU2587429C2 (ru) | Система и способ оценки надежности правила категоризации | |
El Boujnouni et al. | New malware detection framework based on N-grams and support vector domain description | |
KR102367859B1 (ko) | 특징 벡터를 이용하여 데이터를 분류하는 장치 및 방법 | |
US11080398B2 (en) | Identifying signatures for data sets | |
JP2017004123A (ja) | 判定装置、判定方法および判定プログラム | |
Yan et al. | Automatic malware classification via PRICoLBP | |
More et al. | Trust-based voting method for efficient malware detection | |
KR102437278B1 (ko) | 머신러닝과 시그니처 매칭을 결합한 문서형 악성코드 탐지 장치 및 방법 | |
CN112580044B (zh) | 用于检测恶意文件的系统和方法 | |
Bouchaib et al. | Transfer learning and smote algorithm for image-based malware classification | |
Zhang et al. | Smartdetect: a smart detection scheme for malicious web shell codes via ensemble learning | |
CN108319853B (zh) | 病毒特征码处理方法及装置 | |
Nar et al. | Analysis and comparison of opcode-based malware detection approaches | |
Liu et al. | FENOC: An ensemble one-class learning framework for malware detection | |
Dey et al. | Byte label malware classification using image entropy | |
EP2819054A1 (en) | Flexible fingerprint for detection of malware | |
JP7460242B2 (ja) | ナレッジ生成装置、制御方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20170607 |
|
PG1501 | Laying open of application | ||
A201 | Request for examination | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20200528 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20170607 Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20211120 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20220112 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20220222 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20220223 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20250122 Start annual number: 4 End annual number: 4 |