CN104767739B - 将未知多协议混合数据帧分离为单协议数据帧的方法 - Google Patents
将未知多协议混合数据帧分离为单协议数据帧的方法 Download PDFInfo
- Publication number
- CN104767739B CN104767739B CN201510127523.7A CN201510127523A CN104767739B CN 104767739 B CN104767739 B CN 104767739B CN 201510127523 A CN201510127523 A CN 201510127523A CN 104767739 B CN104767739 B CN 104767739B
- Authority
- CN
- China
- Prior art keywords
- data frame
- cluster
- protocol
- row
- entropy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种将未知多协议混合数据帧分离为单协议数据帧的方法,它包括以下步骤:S1.将二进制数据转换为十六进制格式,输入n行m列的混合未知协议数据帧;S2.计算所输入的未知协议数据帧的种类数的近似值K;S3.使用K‑means算法指定K值进行聚类,得到n个类簇;S4.使用基于熵的类簇评估算法进行评估每一个类簇的好坏;S5.将聚类效果好的类簇放入结果集中,提取该类的指纹信息,并存入指纹库。提供一种将未知多协议混合数据帧分离为单协议数据帧的方法,解决了混合协议种类数K的近似值计算困难,将不同的协议区分开困难,协议帧类簇的评估准确度低,难以直观有效的问题。
Description
技术领域
本发明涉及一种将未知多协议混合数据帧分离为单协议数据帧的方法。
背景技术
随着科学技术的发展和计算机技术水平的提高,网络的发展日趋复杂,保障信息网络的安全已成为国家信息化战略的核心内容,在特定的网络环境下,通过特殊手段进行窃密的威胁日趋严峻,此类窃密途径通常是通过无线通信的方式发送,且这种通信采用的数据大多数为未知多协议混合数据,因此,将未知多协议混合数据帧分离为单协议数据帧,对协议的识别以及信息安全的后续判定就非常重要。
但目前的将未知多协议混合数据帧分离为单协议数据帧的方法中,具有三个难点,对混合多协议数据帧协议种类近似值K的计算困难,将不同的协议区分开困难,对协议聚类效果的评估准确度低,难以直观有效。
发明内容
本发明的目的在于克服现有技术的不足,提供一种将未知多协议混合数据帧分离为单协议数据帧的方法,解决了混合协议种类数K的近似值计算困难,将不同的协议区分开困难,协议帧类簇的评估准确度低,难以直观有效的问题。
本发明的目的是通过以下技术方案来实现的:将未知多协议混合数据帧分离为单协议数据帧的方法,它包括以下步骤:
S1.将二进制数据转换为十六进制格式,输入n行m列的混合未知协议数据帧;
S2.计算所输入的未知协议数据帧的种类数的近似值K;
S3.使用K-means算法指定K值进行聚类,得到n个类簇;
S4.使用基于熵的类簇评估算法进行评估每一个类簇的好坏;
S5.将聚类效果好的类簇放入结果集中,提取该类的指纹信息,并存入指纹库;
所述的步骤S1中输入的n行m列的混合未知协议数据帧,每一种协议都具有协议标识,同种协议的标识在相同位置会出现;不同种协议的协议标识可能出现在不同位置,也可能出现在相同位置;协议标识的长度不定但不少于1字节;不同协议的数据帧数量不同。
所述的步骤S2包括以下子步骤:
S21.将输入数据构成二维矩阵,一个字节作为最小处理单元;
S22.计算出每一列中出现频率最高的字符,表示为a1,a2,a3,…,am,同时计算出a1到am中,每个字节都有哪些行出现,分别由集合S1,S2,S3,…Sm表示;
S23.将出现频率大于liminal%的字符以及出现频率小于low_liminal%的字符剔除,设有i个,令m=m-i;
S24.找出集合S1到Sm中,集合中个数最多的一个,设为Smax,设集合R,元素为集合S,先将Smax加入集合R;
S25.遍历集合S1到Sm,如果Sx与集合R中所有的集合的交集率都低于uniterate%,将Sx加入集合R,如果交集率高于uniterate%,则取Smax与Sx的交集作为Smax;
S26.集合R中元素的个数,即为要求的K的近似值,求出R中所有元素的并集,即为筛选出来的数据帧;
S27.将筛选出来的数据帧从输入数据帧中除去,如果剩余的数据帧数量仍比较大,可再次做为输入样本计算这些数据帧的K值;
S28.取uniterate的值从50到99,得出对应的K值,以uniterate的值为X轴,K值为Y轴作曲线;
S29.取K值变化比较平缓的最大uniterate区间,计算在此区间内的K的平均值,即为所求的协议种类数的近似值。
所述的Liminal和low_liminal为可设置变量,如Liminal设置为99,low_liminal设置为10;;
所述的步骤S3包括以下子步骤:
S31.输入处理好的协议数据帧和簇的数目K;
S32.任意选择K个数据对象作为初始聚类中心;
S33.计算各个数据到所选出来的各个中心的距离,将数据对象指派到最近的簇中,然后计算每个簇的均值,根据簇中对象的平均值,将每个对象赋给最类似的簇;
S34.更新簇的平均值,即计算每个对象簇中对象的平均值;
S35.计算聚类准则函数E,并判断聚类准则函数E是否收敛:
(1)若聚类准则函数E不收敛,跳转至步骤S32;
(2)若聚类准则函数E收敛,则输出聚类结果。
所述的步骤S4包括以下子步骤:
S41:将步骤S2得到的经过处理的数据帧转换为列二维矩阵,每一个元素为一个字节;遍历所有字节,计算出每一列中的字符的种类表示为a1,a2,a3,…,ax,同时计算出a1到ax中,每个字节出现的概率;
S42:遍历所有字节,计算出每一列中出现频率最高的字符,并分别表示为a1,a2,a3,…,am;同时计算出这些字符在哪些行出现,并分别由集合S1,S2,S3,…Sm表示,即a1为第一列出现频率最高的字符,S1为第一列中出现字符a1的所有行的行号的集合;并将出现的次数除以总行数就得到该字节出现的频率Pi;
S43:计算每一列的熵值H,由于有m列则有m个熵值,计算公式如下:
式中,m为一列中字符的种类数,Pi为第i中字符出现的概率,对数以2为底;
S44:以列号为X轴,该列的熵值为Y轴做图,分析聚类结果的好坏:
设定一个评估阈值low_entropy,当越多的列熵值小于low_entropy,聚类效果就越好。
本发明的有益效果是:(1)提出了计算混合协议种类数的方法,能够有效的计算出协议种类数的近似值K,为接下来使用的聚类算法提供很好的参数;(2)使用K-means聚类的方法能够有效的将不同的协议区分开;(3)使用熵值来判断一个聚类的类簇的好坏,有比较好的效果,因为一列的熵值代表了这一列的信息混杂度,如果是同类型的协议帧,协议存在类型标识,并且类型标识会在同样的位置出现,那么一定存在某列,使得这一列的熵值很小,接近0;因此,可以用这样的标准来评价我们聚类的效果:对于给定的类簇,如果存在熵值接近0的列,就认为这个类簇的聚类效果好,反之则认为效果不好。
附图说明
图1为本发明的流程图;
图2为实施例一的结果表格;
图3为实施例一的结果曲线图;
图4为实施例二中随机种子设为10的结果示意图;
图5为实施例二中随机种子设为5的结果示意图;
图6为实施例二中随机种子设为15的结果示意图;
图7为2000条单协议数据帧每列的熵值图;
图8为2500条多协议混合数据帧每列的熵值图。
具体实施方式
下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
如图1所示,将未知多协议混合数据帧分离为单协议数据帧的方法,它包括以下步骤:
S1.将二进制数据转换为十六进制格式,输入n行m列的混合未知协议数据帧;
S2.计算所输入的未知协议数据帧的种类数的近似值K;
S3.使用K-means算法指定K值进行聚类,得到n个类簇;
S4.使用基于熵的类簇评估算法进行评估每一个类簇的好坏;
S5.将聚类效果好的类簇放入结果集中,提取该类的指纹信息,并存入指纹库;
所述的步骤S1中输入的n行m列的混合未知协议数据帧,每一种协议都具有协议标识,同种协议的标识在相同位置会出现;不同种协议的协议标识可能出现在不同位置,也可能出现在相同位置;协议标识的长度不定但不少于1字节;不同协议的数据帧数量不同。
所述的步骤S2包括以下子步骤:
S21.将输入数据构成二维矩阵,一个字节作为最小处理单元;
S22.计算出每一列中出现频率最高的字符,表示为a1,a2,a3,…,am,同时计算出a1到am中,每个字节都有哪些行出现,分别由集合S1,S2,S3,…Sm表示;
S23.将出现频率大于liminal%的字符以及出现频率小于low_liminal%的字符剔除,设有i个,令m=m-i;
S24.找出集合S1到Sm中,集合中个数最多的一个,设为Smax,设集合R,元素为集合S,先将Smax加入集合R;
S25.遍历集合S1到Sm,如果Sx与集合R中所有的集合的交集率都低于uniterate%,将Sx加入集合R,如果交集率高于uniterate%,则取Smax与Sx的交集作为Smax;
S26.集合R中元素的个数,即为要求的K的近似值,求出R中所有元素的并集,即为筛选出来的数据帧;
S27.将筛选出来的数据帧从输入数据帧中除去,如果剩余的数据帧数量仍比较大,可再次做为输入样本计算这些数据帧的K值;
S28.取uniterate的值从50到99,得出对应的K值,以uniterate的值为X轴,K值为Y轴作曲线;
S29.取K值变化比较平缓的最大uniterate区间,计算在此区间内的K的平均值,即为所求的协议种类数的近似值。
所述的Liminal和low_liminal为可设置变量,如Liminal设置为99,low_liminal设置为10;;
所述的步骤S3包括以下子步骤:
S31.输入处理好的协议数据帧和簇的数目K;
S32.任意选择K个数据对象作为初始聚类中心;
S33.计算各个数据到所选出来的各个中心的距离,将数据对象指派到最近的簇中,然后计算每个簇的均值,根据簇中对象的平均值,将每个对象赋给最类似的簇;
S34.更新簇的平均值,即计算每个对象簇中对象的平均值;
S35.计算聚类准则函数E,并判断聚类准则函数E是否收敛:
(1)若聚类准则函数E不收敛,跳转至步骤S32;
(2)若聚类准则函数E收敛,则输出聚类结果。
所述的步骤S4包括以下子步骤:
S41:将步骤S2得到的经过处理的数据帧转换为列二维矩阵,每一个元素为一个字节;遍历所有字节,计算出每一列中的字符的种类表示为a1,a2,a3,…,ax,同时计算出a1到ax中,每个字节出现的概率;
S42:遍历所有字节,计算出每一列中出现频率最高的字符,并分别表示为a1,a2,a3,…,am;同时计算出这些字符在哪些行出现,并分别由集合S1,S2,S3,…Sm表示,即a1为第一列出现频率最高的字符,S1为第一列中出现字符a1的所有行的行号的集合;并将出现的次数除以总行数就得到该字节出现的频率Pi;
S43:计算每一列的熵值H,由于有m列则有m个熵值,计算公式如下:
式中,m为一列中字符的种类数,Pi为第i中字符出现的概率,对数以2为底;
S44:以列号为X轴,该列的熵值为Y轴做图,分析聚类结果的好坏:
设定一个评估阈值low_entropy,当越多的列熵值小于low_entropy,聚类效果就越好。
实施例一,协议种类K的计算,取Tcpdump中的27种协议,每一种取100条数据帧,不够100条的全部取;每一条数据帧取前68字节;将所得的协议混合起来作为输入;变量设置:Liminal设为95,low_liminal设为10;
uniterate取50到99记录对应的K值,以下是liminal=95;low_liminal=10;uniterate=99的实验简要结果:
帧最大长度为:68;
帧总数:2509;
列统计器个数:68;
候选结果集中集合个数:62;
结果集中集合个数:27;
字节:00;出现次数:2379;频率:0.9481865;出现的行数:未显示;
字节:10;出现次数:1172;频率:0.46711838;出现的行数:未显示;
字节:7b;出现次数:700;频率:0.2789956;出现的行数:未显示;
字节:38;出现次数:700;频率:0.2789956;出现的行数:未显示;
字节:46;出现次数:700;频率:0.2789956;出现的行数:未显示;
字节:33;出现次数:700;频率:0.2789956;出现的行数:未显示;
字节:10;出现次数:1415;频率:0.56396973;出现的行数:未显示;
字节:7b;出现次数:810;频率:0.32283777;出现的行数:未显示;
字节:38;出现次数:810;频率:0.32283777;出现的行数:未显示;
字节:46;出现次数:810;频率:0.32283777;出现的行数:未显示;
字节:33;出现次数:810;频率:0.32283777;出现的行数:未显示;
字节:08;出现次数:2279;频率:0.90833;出现的行数:未显示;
字节:45;出现次数:2179;频率:0.8684735;出现的行数:未显示;
字节:40;出现次数:1368;频率:0.5452371;出现的行数:未显示;
字节:80;出现次数:589;频率:0.23475488;出现的行数:未显示;
字节:06;出现次数:1340;频率:0.53407735;出现的行数:未显示;
字节:ac;出现次数:1635;频率:0.65165406;出现的行数:未显示;
字节:10;出现次数:1635;频率:0.65165406;出现的行数:未显示;
字节:70;出现次数:995;频率:0.39657235;出现的行数:未显示;
字节:64;出现次数:589;频率:0.23475488;出现的行数:未显示;
字节:ac;出现次数:1566;频率:0.6241531;出现的行数:未显示;
字节:10;出现次数:1566;频率:0.6241531;出现的行数:未显示;
字节:70;出现次数:764;频率:0.3045038;出现的行数:未显示;
字节:64;出现次数:556;频率:0.22160223;出现的行数:未显示;
字节:50;出现次数:1323;频率:0.5273017;出现的行数:未显示;
字节:18;出现次数:1143;频率:0.45556;出现的行数:未显示;
字节:43;出现次数:275;频率:0.109605424;出现的行数:未显示。
设置liminal=95;low_liminal=10;
uniterate的值设定为从50到99的结果表格如图2所示,根据表格的到的结果曲线图如图3所示。
根据上表中的数据,取相对最大平滑区间(80-99)的平均值:
K=(25+25+25+27+27)/5=25.8;
因此,k值取26。
实施例二,对于k-means聚类实验:
数据输入:
Tcpdump中的27种协议,每一种取100条数据帧,不够100条的全部取;每一条数据帧取前68字节;将所得的协议混合起来,每条数据帧后面做上协议类型标记,用于weka的Classes to clusters evaluation功能评估聚类效果的好坏。
操作步骤:
1、用weka打开arff格式文件。
2、使用StringToWordVector过滤器处理文本属性StringToVector的WordCount参数设为flase,其他使用默认的参数设置。处理后数据流的每一个字节表示一个属性,一共有256个属性,属性值为1或0,1表示该属性有,0表示没有。
3、选择weka中的simplemeans聚类算法进行聚类,选中Classes to clustersevaluation,算法的K值设为26,随机种子seed设为5,10,15计算平均值。
随机种子设为10的结果如图4所示,随机种子设为5的结果如图5所示,随机种子设为15的结果如图6所示。
聚类的总体错误的分类实例数分别为40.5%,38.1%,33.32%,平均值为37.2%。也就是有62.8%的正确率。
实施例三,聚类效果评估实验:
设计以下2个实验,一个是使用2000条单协议数据帧作为输入,另一个是使用2500条多协议混合的数据帧作为数据,然后将得到的熵值进行对比分析判断聚类类簇的好坏。
(1)2000条单协议每一列的熵值计算如下:
列号 | 熵值 | 列号 | 熵值 | 列号 | 熵值 |
1 | 1.73797 | 15 | 0 | 29 | 2.923939 |
2 | 2.579031 | 16 | 0 | 30 | 3.635007 |
3 | 3.253605 | 17 | 0 | 31 | 4.842482 |
4 | 3.443339 | 18 | 0 | 32 | 5.652463 |
5 | 3.573282 | 19 | 0 | 33 | 0.677264 |
6 | 3.781037 | 20 | 0 | 34 | 2.003118 |
7 | 0.739385 | 21 | 0 | 35 | 3.112292 |
8 | 2.533421 | 22 | 1.30097 | 36 | 3.222453 |
9 | 3.2976 | 23 | 0.739385 | 37 | 3.317778 |
10 | 3.568274 | 24 | 2.533421 | 38 | 3.374964 |
11 | 3.77027 | 25 | 3.2976 | 39 | 2.923939 |
12 | 4.031571 | 26 | 3.568274 | 40 | 3.635007 |
13 | 0 | 27 | 3.77027 | 41 | 4.83754 |
14 | 0 | 28 | 4.031571 | 42 | 5.654962 |
2000条单协议数据帧每列的熵值图如图7所示。
(2)2500条多协议混合数据帧每列的熵值计算如下:
列号 | 熵值 | 列号 | 熵值 | 列号 | 熵值 |
1 | 1.749679 | 15 | 0.948731 | 29 | 4.242668 |
2 | 2.424071 | 16 | 1.81334 | 30 | 5.41643 |
3 | 3.554995 | 17 | 1.89479 | 31 | 3.047061 |
4 | 3.774774 | 18 | 7.744579 | 32 | 3.279877 |
5 | 3.774774 | 19 | 8.850714 | 33 | 4.820877 |
6 | 3.774774 | 20 | 8.691174 | 34 | 5.511736 |
7 | 0.860268 | 21 | 1.665774 | 35 | 3.738378 |
8 | 1.945346 | 22 | 0.504124 | 36 | 6.786242 |
9 | 2.811111 | 23 | 3.906183 | 37 | 4.319735 |
10 | 3.117158 | 24 | 2.521798 | 38 | 7.148305 |
11 | 3.117158 | 25 | 9.487966 | 39 | 5.022653 |
12 | 3.117158 | 26 | 9.803289 | 40 | 7.954479 |
13 | 0.745415 | 27 | 2.879997 | 41 | 8.894831 |
14 | 0.745415 | 28 | 3.184749 | 42 | 9.403014 |
2500条多协议混合数据帧每列的熵值图如图8所示。
从实验结果可以看出:
(1)协议混合的熵值最小为0.504124,最大为9.803289,而且小于设定阈值low_entropy的的列没有;
(2)单协议熵最小为0,最大为5.654962,而且各个列的值均较小,小于low_entropy的列有9列;熵值为0的,说明该列只有一种字符。
由于熵值的大小代表了信息混杂程度的大小,在数据帧量很大的情况下,如果是同一种协议的数据帧,那么总有那么一列或几列的熵值接近0;如果是多种协议混合的,熵值接近0的列几乎不会有。因此可以用计算熵值的方法来评估未知协议聚类的好坏,标准就是:越多的列熵值越小,聚类效果就越好。
Claims (4)
1.将未知多协议混合数据帧分离为单协议数据帧的方法,其特征在于:它包括以下步骤:
S1.将二进制数据转换为十六进制格式,输入n行m列的混合未知协议数据帧;
S2.计算所输入的未知协议数据帧的种类数的近似值K;
S3.使用K-means算法指定K值进行聚类,得到n个类簇;
S4.使用基于熵的类簇评估算法进行评估每一个类簇的好坏;
S5.将聚类效果好的类簇放入结果集中,提取该类簇的指纹信息,并存入指纹库;
所述的步骤S2包括以下子步骤:
S21.将输入数据构成二维矩阵,一个字节作为最小处理单元;
S22.计算出每一列中出现频率最高的字符,表示为a1,a2,a3,…,am,同时计算出a1到am中,每个字节都有哪些行出现,分别由集合S1,S2,S3,…Sm表示;
S23.将出现频率大于Liminal%的字符以及出现频率小于low_liminal%的字符剔除,设有i个,令m=m-i;所述的Liminal和low_liminal为可设置变量;
S24.找出集合S1到Sm中,集合中个数最多的一个,设为Smax,设集合R,先将Smax加入集合R;
S25.遍历集合S1到Sm,如果Sx与集合R中所有的集合的交集率都低于uniterate%,将Sx加入集合R,如果交集率高于uniterate%,则取Smax与Sx的交集作为Smax,所述Sx为S1到Sm中的一个,x为序号;
S26.集合R中元素的个数,即为要求的K的近似值,求出R中所有元素的并集,即为筛选出来的数据帧;
S27.将筛选出来的数据帧从输入数据帧中除去,如果剩余的数据帧数量仍比较大,可再次做为输入样本计算这些数据帧的K值;
S28.取uniterate的值从50到99,得出对应的K值,以uniterate的值为X轴,K值为Y轴作曲线;
S29.取K值变化比较平缓的最大uniterate区间,计算在此区间内的K的平均值,即为所求的协议种类数的近似值。
2.根据权利要求1所述的将未知多协议混合数据帧分离为单协议数据帧的方法,其特征在于:所述的步骤S1中输入的n行m列的混合未知协议数据帧,每一种协议都具有协议标识,同种协议的标识在相同位置会出现;不同种协议的协议标识可能出现在不同位置,也可能出现在相同位置;协议标识的长度不定但不少于1字节;不同协议的数据帧数量不同。
3.根据权利要求1所述的将未知多协议混合数据帧分离为单协议数据帧的方法,其特征在于:所述的步骤S3包括以下子步骤:
S31.输入处理好的协议数据帧和簇的数目K;
S32.任意选择K个数据对象作为初始聚类中心;
S33.计算各个数据到所选出来的各个中心的距离,将数据对象指派到最近的簇中,然后计算每个簇的均值,根据簇中对象的平均值,将每个对象赋给最类似的簇;
S34.更新簇的平均值,即计算每个对象簇中对象的平均值;
S35.计算聚类准则函数E,并判断聚类准则函数E是否收敛:
(1)若聚类准则函数E不收敛,跳转至步骤S32;
(2)若聚类准则函数E收敛,则输出聚类结果。
4.根据权利要求1所述的将未知多协议混合数据帧分离为单协议数据帧的方法,其特征在于:所述的步骤S4包括以下子步骤:
S41:将步骤S2得到的经过处理的数据帧转换为列二维矩阵,每一个元素为一个字节;遍历所有字节,计算出每一列中的字符的种类表示为a1,a2,a3,…,ax,同时计算出a1到ax中,每个字节出现的概率;
S42:遍历所有字节,计算出每一列中出现频率最高的字符,并分别表示为a1,a2,a3,…,am;同时计算出这些字符在哪些行出现,并分别由集合S1,S2,S3,…Sm表示,即a1为第一列出现频率最高的字符,S1为第一列中出现字符a1的所有行的行号的集合;并将出现的次数除以总行数就得到该字节出现的频率Pi;
S43:计算每一列的熵值H,由于有m列则有m个熵值,计算公式如下:
<mrow>
<mi>H</mi>
<mo>=</mo>
<mo>-</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>i</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>m</mi>
</munderover>
<msub>
<mi>P</mi>
<mi>i</mi>
</msub>
<msub>
<mi>lbP</mi>
<mi>i</mi>
</msub>
</mrow>
式中,m为一列中字符的种类数,Pi为第i中字符出现的概率,对数以2为底;
S44:以列号为X轴,该列的熵值为Y轴做图,分析聚类结果的好坏:
设定一个评估阈值low_entropy,当越多的列熵值小于low_entropy,聚类效果就越好。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510127523.7A CN104767739B (zh) | 2015-03-23 | 2015-03-23 | 将未知多协议混合数据帧分离为单协议数据帧的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510127523.7A CN104767739B (zh) | 2015-03-23 | 2015-03-23 | 将未知多协议混合数据帧分离为单协议数据帧的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104767739A CN104767739A (zh) | 2015-07-08 |
CN104767739B true CN104767739B (zh) | 2018-01-30 |
Family
ID=53649347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510127523.7A Active CN104767739B (zh) | 2015-03-23 | 2015-03-23 | 将未知多协议混合数据帧分离为单协议数据帧的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104767739B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105681297A (zh) * | 2016-01-12 | 2016-06-15 | 西安电子科技大学 | 未知网络协议隐匿行为的指令序列聚类挖掘方法 |
CN106934420B (zh) * | 2017-03-16 | 2020-11-27 | 郑杰 | 网络消息识别过程中K-means算法的k值确定方法及安全设备 |
CN112348084B (zh) * | 2020-11-08 | 2024-07-09 | 大连大学 | 改进k-means的未知协议数据帧分类方法 |
CN114722961A (zh) * | 2022-04-20 | 2022-07-08 | 重庆邮电大学 | 一种零知识下二进制协议的混合数据帧聚类方法 |
CN116582363A (zh) * | 2023-07-12 | 2023-08-11 | 江苏政采数据科技有限公司 | 基于工业协议传输流量异常攻击的检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
CN102299863A (zh) * | 2011-09-27 | 2011-12-28 | 北京网康科技有限公司 | 一种网络流量聚类的方法及其设备 |
CN103020643A (zh) * | 2012-11-30 | 2013-04-03 | 武汉大学 | 基于提取核特征早期预测多变量时间序列类别的分类方法 |
CN104159232A (zh) * | 2014-09-01 | 2014-11-19 | 电子科技大学 | 二进制消息数据的协议格式识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003522577A (ja) * | 2000-02-18 | 2003-07-29 | アーゴス インク | 細胞サンプルおよび組織サンプルの緑色〜紫外スペクトルの多変量分析 |
US9646226B2 (en) * | 2013-04-16 | 2017-05-09 | The Penn State Research Foundation | Instance-weighted mixture modeling to enhance training collections for image annotation |
-
2015
- 2015-03-23 CN CN201510127523.7A patent/CN104767739B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102074236A (zh) * | 2010-11-29 | 2011-05-25 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
CN102299863A (zh) * | 2011-09-27 | 2011-12-28 | 北京网康科技有限公司 | 一种网络流量聚类的方法及其设备 |
CN103020643A (zh) * | 2012-11-30 | 2013-04-03 | 武汉大学 | 基于提取核特征早期预测多变量时间序列类别的分类方法 |
CN104159232A (zh) * | 2014-09-01 | 2014-11-19 | 电子科技大学 | 二进制消息数据的协议格式识别方法 |
Non-Patent Citations (3)
Title |
---|
基于统计学习的自适应文本聚类;王纵虎等;《四川大学学报(工程科学版)》;20120131;正文第4页右栏倒数第4行-第5页左栏第7行 * |
面向信息检索的Web文本挖掘方法研究;文翰;《中国博士学位论文全文数据库》;20130515;全文 * |
高效率的K-means最佳聚类数确定算法;王勇等;《计算机应用》;20140510;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104767739A (zh) | 2015-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104767739B (zh) | 将未知多协议混合数据帧分离为单协议数据帧的方法 | |
Chen et al. | Gridmask data augmentation | |
CN108470021B (zh) | Pdf文档中表格的定位方法及装置 | |
WO2017215346A1 (zh) | 业务数据分类方法和装置 | |
CN103745200B (zh) | 一种基于词袋模型的人脸图像识别方法 | |
CN106777185A (zh) | 一种基于深度学习的跨媒体中草药植物图像搜索方法 | |
CN108280051B (zh) | 一种文本数据中错误字符的检测方法、装置和设备 | |
CN105183780B (zh) | 基于改进agnes算法的协议分类方法 | |
CN110245687B (zh) | 用户分类方法以及装置 | |
CN105809190A (zh) | 一种基于特征选取的svm级联分类器方法 | |
CN110598618A (zh) | 内容推荐方法、装置、计算机设备和计算机可读存储介质 | |
CN110569922B (zh) | 交互式层次聚类实现方法、装置、设备及可读存储介质 | |
CN104809393A (zh) | 一种基于流行度分类特征的托攻击检测算法 | |
CN104767736A (zh) | 将未知单协议数据流分离为不同类型的数据帧的方法 | |
CN108319888A (zh) | 视频类型的识别方法及装置、计算机终端 | |
CN113452802A (zh) | 设备型号的识别方法、装置及系统 | |
CN109658129A (zh) | 一种用户画像的生成方法及装置 | |
CN105718935A (zh) | 一种适宜于视觉大数据的词频直方图计算方法 | |
CN104753934B (zh) | 将未知协议多通信方数据流分离为点对点数据流的方法 | |
CN106933919A (zh) | 数据表的连接方法及装置 | |
CN113283351B (zh) | 一种使用cnn优化相似度矩阵的视频抄袭检测方法 | |
CN111860656A (zh) | 分类器训练方法、装置、设备以及存储介质 | |
CN106878073A (zh) | 基于t分布混合模型的网络多媒体业务半监督分类方法 | |
Kapp et al. | Automatic forest species recognition based on multiple feature sets | |
CN103810241A (zh) | 一种低频点击的过滤方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |