CN110362997A

CN110362997A - 一种基于生成对抗网络的恶意url过采样方法

Info

Publication number: CN110362997A
Application number: CN201910482547.2A
Authority: CN
Inventors: 凌捷; 张士坤; 陈家辉; 谢锐; 柳毅
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2019-10-22
Anticipated expiration: 2039-06-04
Also published as: CN110362997B

Abstract

本发明公开了一种基于生成对抗网络的恶意URL过采样方法，首先采集原始的恶意URL数据，通过结合生成对抗网络获得额外的人工数据样本，以此扩充并平衡了原始URL数据集，然后使用K‑Means方法对生成的人工数据样本进行聚类，从而对人工数据样本进行筛选进一步减少数据的不平衡，使得生成的人工数据样本在分布特征上和原始数据样本具有相似性，不会带来过大的分布偏差。本发明方法解决了现有对于少数样例的恶意数据过采样的数样本存在分布偏差以及不平衡等问题。

Description

一种基于生成对抗网络的恶意URL过采样方法

技术领域

本发明涉及网络安全的数据预处理技术领域，尤其涉及一种基于生成对抗网络的恶意URL过采样方法。

背景技术

在互联网时代，企业和用户面临着各种安全威胁，网络攻击对社会和经济造成巨大损失。恶意URL在网络攻击中扮演重要角色，如何高效识别恶意URL已成为研究热点。

在恶意URL检测领域，正常URL数量远高于恶意URL数量。在阴性数据远低于阳性数据的情况下，准确度这个评价指标有时是无效的。在针对少数类样本的过采样方法中，现有的方法大多是基于随机过采样和SMOTE算法的衍生。基于随机过采样的方法，对部分样本进行了重复采样，虽然增加了少数类样本的数量，但是一定程度上提高了过拟合的风险；基于SMOTE的过采样方法，由于人工制定的规则往往不能较好模拟原始数据分布，容易产生分布边缘化问题。

发明内容

本发明为解决现有对于少数样例的恶意数据过采样的数样本存在分布偏差以及不平衡等问题，提供了一种基于生成对抗网络的恶意URL过采样方法。

为实现以上发明目的，而采用的技术手段是：

一种基于生成对抗网络的恶意URL过采样方法，包括以下步骤：

S1.采集恶意URL数据，定义原始恶意URL数据集为S；

S2.构建生成对抗网络，所述生成对抗网络包括生成器和判别器；

S3.把数据集S输入到所述生成对抗网络中，对所述生成器和判别器进行交替训练至网络收敛，输出人工数据集R；

S4.对人工数据集R利用K-Means聚类算法进行聚类，得到k个聚类结果，其中k为正整数；

S5.在得到的每个聚类结果中选取距簇心数据样本最近的n个数据样本点，并加入最终数据集T中，数据集T即为恶意URL的过采样结果；其中n为正整数。

上述方案中，首先采集原始的恶意URL数据，通过结合生成对抗网络获得额外的人工数据样本，以此扩充并平衡了原始URL数据集，然后使用K-Means方法对生成的人工数据样本进行聚类，从而对人工数据样本进行筛选进一步减少数据的不平衡，使得生成的人工数据样本在分布特征上和原始数据样本具有相似性，不会带来过大的分布偏差。

优选的，所述步骤S1中采集恶意URL数据后，还包括对恶意URL数据进行编码，使得恶意URL数据从字符串形式转换成生成对抗网络可以学习的矩阵形式。

优选的，所述步骤S1具体包括以下步骤：

S1.1.采集恶意URL数据，统计所述恶意URL数据中所有url字符串长度，预设字符串长度L，若url字符串长度大于L，只截取url字符串前L个字符；若url字符串长度小于L，在url字符串末尾填充若干个空格，使url字符串长度达到L；

S1.2.统计所述恶意URL数据中出现过的字符个数M，使用one hot编码方式，对于每个字符用长度M的向量表示，对于每条url字符串用一个L*M的矩阵表示，从而得到所述恶意URL数据的矩阵形式，并将矩阵形式的恶意URL数据定义为S。

优选的，所述步骤S2具体包括：

基于WGAN-GP模型构建生成对抗网络，所述生成对抗网络包括生成器和判别器，其中判别器的损失函数是：

其中p_z(z)表示生成数据分布，p_data(x)表示原始数据分布，表示来自生成数据和原始数据的随机插值采样点，D(x)代表x来源于原始数据而非生成数据的概率，G(z)为由生成器生成的样本，λ为超参数，▽表示梯度，E表示计算期望值。

在本优选方案中，选用WGAN-GP模型能够显著提高训练速度，从而实现快速收敛。

优选的，步骤S2中所述的生成器和判别器均使用长短期记忆网络。在本优选方案中，使用长短期记忆网络可以处理更长的数据依赖。

优选的，所述步骤S4包括：

S4.1.在人工数据集R中选取k个数据样本作为簇心；k为正整数；每个簇心代表一个簇，得到的簇心集合为Centroid＝{C1,C2,...,Ck}；

S4.2.对人工数据集R中每一个数据样本点p_i，计算每个数据样本点p_i与簇心Cj(j＝1,2,...,k)之间的距离，从中找到距离最小的簇，将数据样本点p_i划分到所述距离最小的簇中；

S4.3.根据每个簇所包含的数据样本集，重新计算得到一个新的簇心，新的簇心计算为：

其中|c_x|是第x个簇c_x的数据样本个数，m_x是新的簇心；

S4.4.若划分后满足目标函数公式的要求，且簇中心不再变化时，本次聚类完成，得到一个聚类结果，进入下一步；否则返回步骤S4.2；

所述目标函数为最小化平方误差，即

其中是第i个簇C_i的均值向量；

S4.5.重复步骤S4.1～4.4，得到多个聚类结果；当多个聚类结果之间的最小聚类误差不再变小或者达到指定的迭代次数时，停止迭代，最终得到k个聚类结果。

在本优选方案中，通过使用K-Means方法对生成的人工数据样本进行聚类，从而对人工数据样本进行筛选进一步减少数据的不平衡，使得生成的人工数据样本在分布特征上和原始数据样本具有相似性，

优选的，所述步骤S4中使用轮廓系数对K-Means聚类的效果进行评价。

与现有技术相比，本发明技术方案的有益效果是：

本发明方法为避免对少数类样本采用单一复制或合成新样例的方式进行过采样，通过采集原始的恶意URL数据，结合生成对抗网络获得额外的人工数据样本，以此扩充并平衡了原始恶意URL数据集，然后使用K-Means方法对生成的人工数据样本进行聚类，从而对人工数据样本进行筛选进一步减少数据的不平衡，使得生成的人工数据样本在分布特征上和原始数据样本具有相似性，不会带来过大的分布偏差，同时使得合成的数据样本更合理有效。本发明解决了现有对于少数样例的恶意数据过采样的数样本存在分布偏差以及不平衡等问题。

附图说明

图1为本发明方法的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

一种基于生成对抗网络的恶意URL过采样方法，如图1所示，包括以下步骤：

S1.采集恶意URL数据，对恶意URL数据进行编码，使得恶意URL数据从字符串形式转换成生成对抗网络可以学习的矩阵形式，并定义原始恶意URL数据集为S；具体为：

S2.构建生成对抗网络，所述生成对抗网络包括生成器和判别器；具体为：

基于WGAN-GP模型构建生成对抗网络，所述生成对抗网络包括生成器和判别器，生成器和判别器均使用长短期记忆网络，其中判别器的损失函数是：

S4.对人工数据集R利用K-Means聚类算法进行聚类，得到k个聚类结果，其中k为正整数；具体包括：

其中|c_x|是第x个簇c_x的数据样本个数，m_x是新的簇心；

所述目标函数为最小化平方误差，即

其中是第i个簇C_i的均值向量；

S4.5.重复步骤S4.1～4.4，得到多个聚类结果；当多个聚类结果之间的最小聚类误差不再变小或者达到指定的迭代次数时，停止迭代，最终得到k个聚类结果；并使用轮廓系数评价该K-Means聚类效果；

S5.在步骤S4.5得到的每个聚类结果中选取离簇心最近的n个数据样本点，加入到最终的数据集T中，从而得到恶意URL的过采样结果；其中n为正整数。

其中n值根据实际数据平衡后所需要的正常URL和恶意URL数据的比例来进行设定，其中扩充的恶意URL的条数为n*k，k为k个聚类结果，即对原始恶意数据集通过本发明方法进行扩充n*k条后，数据达到平衡，满足数据平衡后所需要的正常URL和恶意URL数据的比例。

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于生成对抗网络的恶意URL过采样方法，其特征在于，包括以下步骤：

S1.采集恶意URL数据，定义原始恶意URL数据集为S；

2.根据权利要求1所述的基于生成对抗网络的恶意URL过采样方法，其特征在于，所述步骤S1中采集恶意URL数据后，还包括对恶意URL数据进行编码，使得恶意URL数据从字符串形式转换成生成对抗网络可以学习的矩阵形式。

3.根据权利要求1所述的基于生成对抗网络的恶意URL过采样方法，其特征在于，所述步骤S1具体包括以下步骤：

4.根据权利要求2或3所述的基于生成对抗网络的恶意URL过采样方法，其特征在于，所述步骤S2具体包括：

5.根据权利要求4所述的基于生成对抗网络的恶意URL过采样方法，其特征在于，步骤S2中所述的生成器和判别器均使用长短期记忆网络。

6.根据权利要求4所述的基于生成对抗网络的恶意URL过采样方法，其特征在于，所述步骤S4包括：

其中|c_x|是第x个簇c_x的数据样本个数，m_x是新的簇心；

所述目标函数为最小化平方误差，即

其中是第i个簇C_i的均值向量；

7.根据权利要求1所述的基于生成对抗网络的恶意URL过采样方法，其特征在于，所述步骤S4中使用轮廓系数对K-Means聚类的效果进行评价。