CN113935031B

CN113935031B - 文件特征提取范围配置及静态恶意软件识别的方法、系统

Info

Publication number: CN113935031B
Application number: CN202011413307.6A
Authority: CN
Inventors: 赵毅强; 王志刚; 刘恒; 齐向东; 吴云坤
Original assignee: Secworld Information Technology Beijing Co Ltd; Qax Technology Group Inc
Current assignee: Secworld Information Technology Beijing Co Ltd; Qax Technology Group Inc
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2022-07-05
Anticipated expiration: 2040-12-03
Also published as: CN113935031A

Abstract

一种文件特征提取范围配置及静态恶意软件识别的方法、系统，根据预设的n个不同扫描范围的候选配置对m个样本文件进行特征提取，以得到针对m个样本文件中每个样本文件的n类特征向量，n≥2，m≥2，n和m为正整数。基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练，以得到n个用于判定待识别文件是否为恶意文件的判别模型。基于相同的评价指标对n个判别模型进行评价，以得到n个归一化的效果指标值。根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值。根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置，最优化配置为待识别文件用于进行特征提取的扫描范围配置。

Description

文件特征提取范围配置及静态恶意软件识别的方法、系统

技术领域

本公开涉及人工智能技术领域，更具体地，涉及一种文件特征提取范围配置及静态恶意软件识别的方法、系统。

背景技术

恶意软件是对破坏系统正常运行的软件的统称，恶意软件同时具备正常功能和恶意行为，恶意软件例如含有病毒、木马程序，或者具有其他恶意行为，诸如为：未经用户允许的广告行为、在用户不知情的情况下开启后门的行为、对用户的浏览器进行篡改的行为、采用非法手段强制捆绑的共享软件行为等，给用户带来实质危害。

在实现本公开构思的过程中，发明人发现现有技术中至少存在如下问题：现有的机器学习模型在进行恶意软件识别时，需要先将待识别文件提取出特征向量，然后输入至机器学习模型中进行判别。通常可执行文件，例如软件，具有文件头和若干个节的结构，在进行特征提取时，无法实现特征提取和模型识别结果之间的权衡。有的研究只使用文件头的信息生成特征向量，这种方式虽然具有读取速度快的优点，但是由于丢弃了文件主体的全部信息，提升了误报和漏报的风险，所以在实际应用中不常使用；有的研究是使用文件全部内容生成向量，这种方式虽然具有文件信息损失小，有利于提高模型预测的准确度的优点，但是由于需要扫描文件的全部内容，读取量与文件大小成正比，对于超多、超大文件来说，处理速度慢，严重影响用户体验；有的研究采用头文件和人工制定规则来选取节的部分片段以进行特征提取，但是上述方式需要领域专家总结并量化经验，基于人工的方式事先设定好各个节的扫描范围，难度大，且后续维护或者更新这些规则的成本很大，灵活性较差。

发明内容

有鉴于此，本公开提供了一种文件特征提取范围配置及静态恶意软件识别的方法、系统。

本公开的第一个方面提供了一种用于静态恶意软件识别的文件特征提取范围配置的方法。上述方法包括：根据预设的n个不同扫描范围的候选配置对训练集中的m个样本文件进行特征提取，以得到针对m个样本文件中每个样本文件的n类特征向量，n≥2，m≥2，n和m为正整数。上述方法还包括：基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练，以得到n个用于判定待识别文件是否为恶意文件的判别模型。上述方法还包括：基于相同的评价指标对n个判别模型进行评价，以得到n个归一化的效果指标值。上述方法还包括：根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值。上述方法还包括：根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置，最优化配置为待识别文件用于进行特征提取的扫描范围配置。

根据本公开的实施例，n个扫描范围的候选配置中，每个扫描范围的候选配置包括：节头部扫描范围和节尾部扫描范围。根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值包括：将每个候选配置的节头部扫描范围和节尾部扫描范围相加得到每个候选配置的绝对IO指标值。根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值还包括：确定n个候选配置的绝对IO指标值中的最大值、最小值以及最大值与最小值之间的极差。根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值还包括：根据最大值和每个候选配置的绝对IO指标值的差值与极差的比值得到每个候选配置归一化的IO指标值。

根据本公开的实施例，根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值，包括：将每个候选配置的节头部扫描范围和节尾部扫描范围相加得到每个候选配置的绝对IO指标值；以及根据第一预设值和每个候选配置的绝对IO指标值的差值与所述第一预设值的比值得到每个候选配置归一化的IO指标值。其中，第一预设值大于等于样本文件的最大扫描范围。

根据本公开的实施例，根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置，包括：将每个候选配置的IO指标值与效果指标值进行融合，以得到综合效果指标值；以及根据综合效果指标值的大小确定综合效果指标值最大的候选配置为n个扫描范围的候选配置中的最优化配置。

根据本公开的实施例，融合的方法包括以下一种：将IO指标值与效果指标值进行加权平均计算，或者，将IO指标值与效果指标值进行算术平均计算，或者，将IO指标值与效果指标值进行调和平均数计算。

根据本公开的实施例，基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练，以得到n个用于判定待识别文件是否为恶意文件的判别模型，包括：将第1个样本文件～第m个样本文件的第j类特征向量输入至机器学习模型中进行训练，机器学习模型的输出为：所输入的样本文件是否为恶意文件的结果，训练标签为样本文件是否为恶意文件的真实情况，其中j的取值遍历1～n中的每一个，针对j为不同取值的训练过程，保证训练程度相当，以得到n个用于判定待识别文件是否为恶意文件的判别模型。

本公开的第二个方面提供了一种静态恶意软件识别的方法。上述静态恶意软件识别的方法包括：基于最优化配置对待识别文件进行特征提取，以得到待识别文件的特征向量；最优化配置采用如上所述的任一种文件特征提取范围配置方法获得。上述静态恶意软件识别的方法还包括：将待识别文件的特征向量输入至最优化判别模型进行识别，以得到待识别文件是否为恶意文件的结果；其中，最优化判别模型为最优化配置对应的判别模型。

本公开的第三个方面提供了一种用于静态恶意软件识别的文件特征提取范围配置系统。上述系统包括：特征提取模块、判别模型构建模块、效果指标值确定模块、IO指标值确定模块以及特征提取范围确定模块。特征提取模块用于根据预设的n个不同扫描范围的候选配置对训练集中的m个样本文件进行特征提取，以得到针对m个样本文件中每个样本文件的n类特征向量，n≥2，m≥2，n和m为正整数。判别模型构建模块用于基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练，以得到n个用于判定待识别文件是否为恶意文件的判别模型。效果指标值确定模块用于基于相同的评价指标对n个判别模型进行评价，以得到n个归一化的效果指标值。IO指标值确定模块，用于根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值。特征提取范围确定模块用于根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置，最优化配置为待识别文件用于进行特征提取的扫描范围配置。

本公开的第四个方面提供了一种静态恶意软件识别的系统。上述系统包括：第一特征提取模块、判别模型构建模块、效果指标值确定模块、IO指标值确定模块、特征提取范围确定模块、第二特征提取模块以及文件识别模块。第一特征提取模块用于根据预设的n个不同扫描范围的候选配置对训练集中的m个样本文件进行特征提取，以得到针对m个样本文件中每个样本文件的n类特征向量，n≥2，m≥2，n和m为正整数。判别模型构建模块用于基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练，以得到n个用于判定待识别文件是否为恶意文件的判别模型。效果指标值确定模块用于基于相同的评价指标对n个判别模型进行评价，以得到n个归一化的效果指标值。IO指标值确定模块用于根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值。特征提取范围确定模块用于根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置，最优化配置为待识别文件用于进行特征提取的扫描范围配置。第二特征提取模块用于基于最优化配置对待识别文件进行特征提取，以得到待识别文件的特征向量。文件识别模块用于将待识别文件的特征向量输入至最优化判别模型进行识别，以得到待识别文件是否为恶意文件的结果；其中，最优化判别模型为最优化配置对应的判别模型。

本公开的第五个方面提供了一种电子设备。上述电子设备包括：一个或多个处理器；以及用于存储一个或多个程序的存储装置。其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如上所述的任一种方法。

本公开的第六个方面提供了一种计算机可读存储介质。上述计算机可读存储介质存储有可执行指令，该指令被处理器执行时使处理器实现如上所述的任一种方法。

本公开的第七个方面提供了一种计算机程序产品。上述计算机程序产品包括计算机可读指令，其中计算机可读指令被执行时用于实现如上所述的任一种方法。

根据本公开的实施例，基于每个候选配置的IO指标值和效果指标值确定n个不同扫描范围的候选配置中的最优化配置，可以在保证学习算法效果的同时，降低学习算法的特征表示对文件扫描的读取IO开销，且无需领域专家制定复杂的规则，实现了智能化配置文件特征提取范围，可以至少部分地解决现有的特征提取范围选择与恶意软件的识别效果之间的无法协调的问题，可以大大提高机器学习算法在二进制恶意文件识别的实用环境中的可用性。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本公开实施例的文件特征提取范围配置及静态恶意软件识别的方法的应用场景；

图2示意性示出了根据本公开实施例的用于静态恶意软件识别的文件特征提取范围配置的方法的流程图；

图3示意性示出了根据本公开实施例的各操作过程实施示意图；

图4示意性示出了根据本公开实施例的操作S14的详细实施流程图；

图5示意性示出了根据本公开另一实施例的操作S14的详细实施流程图。

图6示意性示出了根据本公开实施例的操作S15的详细实施流程图；

图7示意性示出了根据本公开另一实施例的静态恶意软件识别的方法的流程图；

图8示意性示出了根据本公开实施例的用于静态恶意软件识别的文件特征提取范围配置系统的结构框图；

图9示意性示出了根据本公开实施例的静态恶意软件识别的系统的结构框图；以及

图10示意性示出了根据本公开实施例的电子设备的结构框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

图1示意性示出了根据本公开实施例的文件特征提取范围配置及静态恶意软件识别的方法的应用场景。需要注意的是，图1所示仅为可以应用本公开实施例的应用场景的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他应用场景。

参照图1所示，相关技术中，机器学习模型在进行恶意软件识别时，需要先将待识别文件提取出特征向量，然后输入至机器学习模型中进行判别。通常可执行文件，例如软件，具有文件头和若干个节的结构，在进行特征提取时，无法实现特征提取和模型识别结果之间的权衡。有的研究只使用文件头的信息生成特征向量，这种方式虽然具有读取速度快的优点，但是由于丢弃了文件主体的全部信息，提升了误报和漏报的风险，所以在实际应用中不常使用。有的研究是使用文件全部内容生成向量，这种方式虽然具有文件信息损失小，有利于提高模型预测的准确度的优点，但是由于需要扫描文件的全部内容，读取量与文件大小成正比，对于超多、超大文件来说，处理速度慢，严重影响用户体验。有的研究采用头文件和人工制定的规则来确定一些节的部分片段来进行特征提取，但是上述方式需要领域专家总结并量化经验，基于人工的方式事先设定好各个节的扫描范围，难度大，且后续维护、更新这些规则的成本很大，而且灵活性较差。

有鉴于此，本公开的实施例提供了一种文件特征提取范围配置及静态恶意软件识别的方法、系统。上述文件特征提取范围配置方法中，根据预设的n个不同扫描范围的候选配置对训练集中的m个样本文件进行特征提取，以得到针对m个样本文件中每个样本文件的n类特征向量，n≥2，m≥2，n和m为正整数。然后，基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练，以得到n个用于判定待识别文件是否为恶意文件的判别模型。接着，基于相同的评价指标对n个判别模型进行评价，以得到n个归一化的效果指标值。根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值。最后，根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置，最优化配置为待识别文件用于进行特征提取的扫描范围配置。

在本公开的第一个示例性实施例中，提供了一种用于静态恶意软件识别的文件特征提取范围配置的方法。

本公开中，静态的含义是指直接针对软件本身是否为恶意软件进行判断，而不是对软件在沙箱中的运行行为进行分析后再予以判断是否为恶意软件。特征表示的含义是：机器学习算法应用前，需要将每个标注了恶意/非恶意的文件转换成向量或数值序列，这个过程称为特征表示，机器学习算法本身并不限制特征的来源范围。文件IO：对于文件的特征表示，需要读取文件的部分或全部内容，该读取过程称为IO过程，然后通过特征抽取和表示算法来构建特征向量。

图2示意性示出了根据本公开实施例的用于静态恶意软件识别的文件特征提取范围配置的方法的流程图。

参照图2所示，本公开实施例的用于静态恶意软件识别的文件特征提取范围配置的方法包括以下操作：S11、S12、S13、S14以及S15。

在操作S11，根据预设的n个不同扫描范围的候选配置对训练集中的m个样本文件进行特征提取，以得到针对m个样本文件中每个样本文件的n类特征向量，n≥2，m≥2，n和m为正整数。

在操作S12，基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练，以得到n个用于判定待识别文件是否为恶意文件的判别模型。

在操作S13，基于相同的评价指标对n个判别模型进行评价，以得到n个归一化的效果指标值。

在操作S14，根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值。

在操作S15，根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置，最优化配置为待识别文件用于进行特征提取的扫描范围配置。

基于每个候选配置的IO指标值和效果指标值确定n个不同扫描范围的候选配置中的最优化配置，可以在保证学习算法效果的同时，降低学习算法的特征表示对文件扫描的读取IO开销，且无需领域专家制定复杂的规则，实现了智能化配置文件特征提取范围，可以至少部分地解决现有的特征提取范围选择与恶意软件的识别效果之间的无法协调的问题，可以大大提高机器学习算法在二进制恶意文件识别的实用环境中的可用性。

图3示意性示出了根据本公开实施例的各操作过程实施示意图。

参照图3所示，在操作S11中，根据预设的n个不同扫描范围的候选配置对训练集中的m个样本文件进行特征提取，以得到针对m个样本文件中每个样本文件的n类特征向量。

图3中示例的训练集中的m个样本文件分别为：样本文件1，样本文件2，……，样本文件m，每个样本文件按照预设的n个不同扫描范围的候选配置按节进行特征提取后，会得到n类特征向量，如此可以得到m个样本文件的共m×n个特征向量。如图3所示，样本文件1按照配置1进行特征提取后得到特征向量11，样本文件1按照配置2进行特征提取后得到特征向量12，……，样本文件1按照配置n进行特征提取后得到特征向量1n。样本文件2按照配置1进行特征提取后得到特征向量21，样本文件2按照配置2进行特征提取后得到特征向量22，……，样本文件2按照配置n进行特征提取后得到特征向量2n。以此类推，样本文件m按照配置1进行特征提取后得到特征向量m1，样本文件m按照配置2进行特征提取后得到特征向量m2，……，样本文件m按照配置n进行特征提取后得到特征向量mn。

本公开中，样本文件包括文件头和节，节的个数为一个或多个(≥2个)。样本文件和待识别文件为可执行文件，包括软件。

根据本公开的实施例，n个扫描范围的候选配置中，每个扫描范围的候选配置包括：节头部扫描范围和节尾部扫描范围。

预设n个不同扫描范围的候选配置的过程中，每个节的抽取范围可以预先给出一个选择区间，例如节的头部和尾部各自的扫描范围的取值区间分别设定为[256，1024]和[128，512]。

然后利用全局优化算法，例如网格搜索(grid search)或随机搜索(randomsearch)生成n个扫描范围的候选配置，如使用随机搜索产生出：配置1为{头部：278，尾部：500}，配置2为{头部：1000，尾部：129}，配置3为{头部：796，尾部：384}，等等。其中，配置1的含义为：节头部扫描范围为278，节尾部扫描范围配置为500，其他配置的含义相同，不再一一说明。

在实际应用中，由于直接影响识别效果的是具体的扫描范围取值，如示例的配置1的278和500所示，而非取值的区间，例如示例的[256，1024]，而最优化配置的确定是通过本公开的全局优化学习的方式来寻找IO效率和识别效果这两者的一个较好的折衷，因此上述预设的n个不同扫描范围的候选配置中扫描范围的取值区间的位置及区间的设定具有很强的灵活性，已经大大降低了对经验和专业知识的依赖，可以由本领域技术人员根据常识设定即可，最终可以基于全局优化学习的方式得到最优化配置。

上述n的取值可以根据实际需要进行设置，n越大的话，扫描范围的候选配置越多，则在n个候选配置中确定的最优化配置越能够反映出对文件要进行特征提取的扫描范围的合理配置，从而对输入至最优化模型中的文件是否为恶意软件的判定结果越准确。然而，n太大的话，会导致解的搜索时间加长，计算机资源消耗增加。因此可以根据实际对于资源消耗(cost)和对于判定结果准确度的要求对n的大小进行设定。

参照图3所示，在操作S12，基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练，以得到n个用于判定待识别文件是否为恶意文件的判别模型，例如将特征向量11，特征向量21，……，和特征向量m1共m个样本文件的同一个候选配置：配置1对应的特征向量输入至机器学习模型中，得到判别模型1。将特征向量12，特征向量22……，和特征向量m2共m个样本文件的同一个候选配置：配置2对应的特征向量输入至机器学习模型中，得到判别模型2，以此类推，将特征向量1n，特征向量2n……，和特征向量mn共m个样本文件的同一个候选配置：配置n对应的特征向量输入至机器学习模型中，得到判别模型n。

根据本公开的实施例，基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练，以得到n个用于判定待识别文件是否为恶意文件的判别模型的操作S12包括：将第1个样本文件～第m个样本文件的第j类特征向量输入至机器学习模型中进行训练，机器学习模型的输出为：所输入的样本文件是否为恶意文件的结果，训练标签为样本文件是否为恶意文件的真实情况，其中j的取值遍历1～n中的每一个，针对j为不同取值的训练过程，保证训练程度相当，以得到n个用于判定待识别文件是否为恶意文件的判别模型。

训练程度相当可以是迭代次数相同，或者训练时间相同，或者其他可以保证j＝1与j＝2、3、……或n的训练程度相当的方式。通过针对j为不同取值的训练过程，保证训练程度相当，实现了变量控制，仅由于文件用于特征提取的扫描范围/读取范围的差异而导致的提取的特征向量的不同产生的效果指标的差异，以避免由于训练程度不同对得到的判别模型的效果指标产生的贡献，从而基于全局优化学习的方式来寻找IO效率和识别效果这两者的一个较好的折衷/权衡。

参照图3所示，在操作S13，基于相同的评价指标对n个判别模型进行评价，以得到n个归一化的效果指标值，例如针对判别模型1得到效果指标值1，针对判别模型2得到效果指标值2，……，针对判别模型n得到效果指标值n。

上述对判别模型进行评价的方式可以采用现有的分类模型的评价方式。评价指标例如为正例排在负例前面的概率(AUC)，精确度、准确率等。评价指标可以是一个或者多个，在有多个评价指标时，可以根据实际评价需要，给各个评价指标分配权重，以反映出对各个评价指标的相对重要考核程度。

参照图3所示，在操作S14，根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值，例如根据配置1得到IO指标值1，根据配置2得到IO指标值2，……，根据配置n得到IO指标值n。

图4示意性示出了根据本公开实施例的操作S14的详细实施流程图。

根据本公开的实施例，参照图4所示，根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值的操作S14包括以下子操作：S141、S142和S143。

在子操作S141，将每个候选配置的节头部扫描范围和节尾部扫描范围相加得到每个候选配置的绝对IO指标值。

IO指标值和优化目标正相关，IO指标值越高说明模型的效果越好，后续为了与效果指标值进行融合，这里将子操作S141中的绝对IO指标值缩放至区间[0，1]之间，并且保证归一化的IO指标值与IO的效能正相关，即，IO指标越高，IO范围应该越小。示例性的，可以采用子操作S143中的方式将绝对IO指标值缩放至区间[0，1]之间。

在子操作S142，确定n个候选配置的绝对IO指标值中的最大值max、最小值min以及最大值与最小值之间的极差(max-min)。

在子操作S143，根据最大值和每个候选配置的绝对IO指标值的差值与极差的比值得到每个候选配置归一化的IO指标值。归一化的IO指标值＝(max-绝对IO指标值)/(max-min)。

上述包含子操作S141～S143的实施例列举了一种根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值的方式，这种方式下，适合于事先知道了n个绝对IO指标值中的最大值max、最小值min以及最大值与最小值之间的极差(max-min)的情形。

在并行计算的场景下，参照图3所示的关于n个候选配置并行进行，各个候选配置执行自身的机器学习过程，无法事先获得所有(n个)配置的IO量及min和max时，采用下面实施例所要介绍的根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值的方式更为适合。

根据本公开的另一实施例，参照图5所示，根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值，包括子操作S141’和S142’。

在子操作S141’，将每个候选配置的节头部扫描范围和节尾部扫描范围相加得到每个候选配置的绝对IO指标值。

子操作S142’，根据第一预设值和每个候选配置的绝对IO指标值的差值与所述第一预设值的比值得到每个候选配置归一化的IO指标值；其中，第一预设值大于等于样本文件的最大扫描范围。

在并行优化的场景下，绝对IO指标在生成候选配置后，且在对数据抽取特征前可得到。n个候选配置各自可以得到各自的节头部扫描范围和节尾部扫描范围，通过将每个候选配置的节头部扫描范围和节尾部扫描范围相加得到每个候选配置的绝对IO指标值。基于共同的第一预设值对n个候选配置中每个候选配置进行计算，每个候选配置的归一化的IO指标值＝(第一预设值-绝对IO指标值)/第一预设值。由于第一预设值大于样本文件的最大扫描范围，例如节的头部和尾部各自的扫描范围的取值区间分别设定为[256，1024]和[128，512]，样本文件的最大扫描范围为1024+512＝1536，第一预设值大于等于样本文件的最大扫描范围，如此可以保证将绝对IO指标缩放至[0，1]之间且符合归一化的IO指标值与IO的效能正相关的规律。

参照图3所示，在操作S15，根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置，最优化配置为待识别文件用于进行特征提取的扫描范围配置。

图6示意性示出了根据本公开实施例的操作S15的详细实施流程图。

根据本公开的实施例，参照图6所示，根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置的操作S15包括以下子操作：S151和S152。

在子操作S151，将每个候选配置的IO指标值与效果指标值进行融合，以得到综合效果指标值。

根据本公开的实施例，融合的方法包括但不限于以下方式的一种：将IO指标值与效果指标值进行加权平均计算，或者，将IO指标值与效果指标值进行算术平均计算，或者，将IO指标值与效果指标值进行调和平均数计算。

在子操作S152，根据综合效果指标值的大小确定综合效果指标值最大的候选配置为n个扫描范围的候选配置中的最优化配置。

综上所述，本实施例提供了一种用于静态恶意软件识别的文件特征提取范围配置的方法，基于每个候选配置的IO指标值和效果指标值确定n个不同扫描范围的候选配置中的最优化配置，可以在保证学习算法效果的同时，降低学习算法的特征表示对文件扫描的读取IO开销，实现了IO效率和识别效果之间的权衡优化，且无需领域专家制定复杂的规则，实现了智能化配置文件特征提取范围，可以至少部分地解决现有的特征提取范围选择与恶意软件的识别效果之间的无法协调的问题，可以大大提高机器学习算法在二进制恶意文件识别的实用环境中的可用性。

本公开的第二个示例性实施例提供了一种静态恶意软件识别的方法。

图7示意性示出了根据本公开另一实施例的静态恶意软件识别的方法的流程图。

参照图7所示，本实施例的静态恶意软件识别的方法除了包括第一实施例所示例的操作S11～S15之外，还包括操作：S16和S17。

在操作S16，基于最优化配置对待识别文件进行特征提取，以得到待识别文件的特征向量。

在操作S17，将待识别文件的特征向量输入至最优化判别模型进行识别，以得到待识别文件是否为恶意文件的结果；其中，最优化判别模型为最优化配置对应的判别模型。

上述操作S11～S15参见第一实施例的介绍，这里不再赘述。本实施例中，通过基于前述获得的最优化配置对待识别文件进行特征提取，将提取的待识别文件的特征向量输入至最优化配置对应的最优化判别模型中进行识别，同时保证了IO效率和识别效果之间的最优综合性能。

本公开的第三个示例性实施例提供了一种用于静态恶意软件识别的文件特征提取范围配置系统。

图8示意性示出了根据本公开实施例的用于静态恶意软件识别的文件特征提取范围配置系统的结构框图。

参照图8所示，本实施例的用于静态恶意软件识别的文件特征提取范围配置系统3包括：特征提取模块31、判别模型构建模块32、效果指标值确定模块33、IO指标值确定模块34以及特征提取范围确定模块35。

特征提取模块31用于根据预设的n个不同扫描范围的候选配置对训练集中的m个样本文件进行特征提取，以得到针对m个样本文件中每个样本文件的n类特征向量，n≥2，m≥2，n和m为正整数。

判别模型构建模块32用于基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练，以得到n个用于判定待识别文件是否为恶意文件的判别模型。

效果指标值确定模块33用于基于相同的评价指标对n个判别模型进行评价，以得到n个归一化的效果指标值。

IO指标值确定模块34用于根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值。

特征提取范围确定模块35用于根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置，最优化配置为待识别文件用于进行特征提取的扫描范围配置。

本公开的第四个示例性实施例提供了一种静态恶意软件识别的系统。

图9示意性示出了根据本公开实施例的静态恶意软件识别的系统的结构框图。

参照图9所示，本实施例的静态恶意软件识别的系统4包括：第一特征提取模块41、判别模型构建模块42、效果指标值确定模块43、IO指标值确定模块44、特征提取范围确定模块45、第二特征提取模块46以及文件识别模块47。

第一特征提取模块41用于根据预设的n个不同扫描范围的候选配置对训练集中的m个样本文件进行特征提取，以得到针对m个样本文件中每个样本文件的n类特征向量，n≥2，m≥2，n和m为正整数。

判别模型构建模块42用于基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练，以得到n个用于判定待识别文件是否为恶意文件的判别模型。

效果指标值确定模块43用于基于相同的评价指标对n个判别模型进行评价，以得到n个归一化的效果指标值。

IO指标值确定模块44用于根据预设的n个扫描范围的候选配置确定n个归一化的IO指标值。

特征提取范围确定模块45用于根据每个候选配置的IO指标值和效果指标值确定n个扫描范围的候选配置中的最优化配置，最优化配置为待识别文件用于进行特征提取的扫描范围配置。

第二特征提取模块46用于基于最优化配置对待识别文件进行特征提取，以得到待识别文件的特征向量。

文件识别模块47用于将待识别文件的特征向量输入至最优化判别模型进行识别，以得到待识别文件是否为恶意文件的结果；其中，最优化判别模型为最优化配置对应的判别模型。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，特征提取模块31、判别模型构建模块32、效果指标值确定模块33、IO指标值确定模块34以及特征提取范围确定模块35中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。或者，例如，第一特征提取模块41、判别模型构建模块42、效果指标值确定模块43、IO指标值确定模块44、特征提取范围确定模块45、第二特征提取模块46以及文件识别模块47中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。

根据本公开的实施例，特征提取模块31、判别模型构建模块32、效果指标值确定模块33、IO指标值确定模块34以及特征提取范围确定模块35中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，特征提取模块31、判别模型构建模块32、效果指标值确定模块33、IO指标值确定模块34以及特征提取范围确定模块35中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

根据本公开的实施例，第一特征提取模块41、判别模型构建模块42、效果指标值确定模块43、IO指标值确定模块44、特征提取范围确定模块45、第二特征提取模块46以及文件识别模块47中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，第一特征提取模块41、判别模型构建模块42、效果指标值确定模块43、IO指标值确定模块44、特征提取范围确定模块45、第二特征提取模块46以及文件识别模块47中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

本公开的第五个示例性实施例提供了一种电子设备。上述电子设备包括：一个或多个处理器；以及用于存储一个或多个程序的存储装置。其中，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如上所述的任一种方法。

参照图10所示，根据本公开实施例的电子设备5包括处理器501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。处理器501例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器501还可以包括用于缓存用途的板载存储器。处理器501可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 503中，存储有电子设备5操作所需的各种程序和数据。处理器501、ROM 502以及RAM 503通过总线504彼此相连。处理器501通过执行ROM 502和/或RAM 503中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意，所述程序也可以存储在除ROM502和RAM 503以外的一个或多个存储器中。处理器501也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例，电子设备5还可以包括输入/输出(I/O)接口505，输入/输出(I/O)接口505也连接至总线504。电子设备5还可以包括连接至I/O接口505的以下部件中的一项或多项：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如局域网(LAN)卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

本公开的第六个示例性实施例提供了一种计算机可读存储介质。上述计算机可读存储介质存储有可执行指令，该指令被处理器执行时使处理器实现如上所述的任一种方法。

该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如，根据本公开的实施例，计算机可读存储介质可以包括上文描述的ROM 502和/或RAM 503和/或ROM 502和RAM 503以外的一个或多个存储器。

本公开的第七个示例性实施例提供了一种计算机程序产品。上述计算机程序产品包括计算机可读指令，其中计算机可读指令被执行时用于实现如上所述的任一种方法。

根据本公开实施例的方法流程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被处理器501执行时，执行本公开实施例的电子设备中限定的上述功能。根据本公开的实施例，上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种用于静态恶意软件识别的文件特征提取范围配置的方法，其特征在于，包括：

根据预设的n个不同扫描范围的候选配置对训练集中的m个样本文件进行特征提取，以得到针对m个样本文件中每个样本文件的n类特征向量，n≥2，m≥2，n和m为正整数，其中，所述n个不同扫描范围的候选配置中，每个扫描范围的候选配置包括：节头部扫描范围和节尾部扫描范围；

基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练，以得到n个用于判定待识别文件是否为恶意文件的判别模型；

基于相同的评价指标对n个判别模型进行评价，以得到n个归一化的效果指标值；

根据预设的n个不同扫描范围的候选配置确定n个归一化的IO指标值，包括：

将每个候选配置的节头部扫描范围和节尾部扫描范围相加得到每个候选配置的绝对IO指标值；确定n个候选配置的绝对IO指标值中的最大值、最小值以及最大值与最小值之间的极差；以及根据所述最大值和每个候选配置的绝对IO指标值的差值与所述极差的比值得到每个候选配置归一化的IO指标值；或者

将每个候选配置的节头部扫描范围和节尾部扫描范围相加得到每个候选配置的绝对IO指标值；以及根据第一预设值和每个候选配置的绝对IO指标值的差值与所述第一预设值的比值得到每个候选配置归一化的IO指标值；其中，第一预设值大于等于样本文件的最大扫描范围；

根据每个候选配置的IO指标值和效果指标值确定所述n个不同扫描范围的候选配置中的最优化配置，所述最优化配置为待识别文件用于进行特征提取的扫描范围配置。

2.根据权利要求1所述的方法，其特征在于，所述根据每个候选配置的IO指标值和效果指标值确定所述n个不同扫描范围的候选配置中的最优化配置，包括：

将每个候选配置的IO指标值与效果指标值进行融合，以得到综合效果指标值；以及

根据综合效果指标值的大小确定综合效果指标值最大的候选配置为n个不同扫描范围的候选配置中的最优化配置。

3.根据权利要求2所述的方法，其特征在于，其中，所述融合的方法包括以下一种：将所述IO指标值与效果指标值进行加权平均计算，或者，将所述IO指标值与效果指标值进行算术平均计算，或者，将所述IO指标值与效果指标值进行调和平均数计算。

4.根据权利要求1所述的方法，其特征在于，基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练，以得到n个用于判定待识别文件是否为恶意文件的判别模型，包括：

将第1个样本文件~第m个样本文件的第j类特征向量输入至机器学习模型中进行训练，机器学习模型的输出为：所输入的样本文件是否为恶意文件的结果，训练标签为样本文件是否为恶意文件的真实情况，其中j的取值遍历1~n中的每一个，针对j为不同取值的训练过程，保证训练程度相当，以得到n个用于判定待识别文件是否为恶意文件的判别模型。

5.一种静态恶意软件识别的方法，其特征在于，包括：

基于最优化配置对待识别文件进行特征提取，以得到待识别文件的特征向量；所述最优化配置采用权利要求1-4中任一项所述的方法获得；

将所述待识别文件的特征向量输入至最优化判别模型进行识别，以得到待识别文件是否为恶意文件的结果；其中，所述最优化判别模型为所述最优化配置对应的判别模型。

6.一种用于静态恶意软件识别的文件特征提取范围配置系统，其特征在于，包括：

特征提取模块，用于根据预设的n个不同扫描范围的候选配置对训练集中的m个样本文件进行特征提取，以得到针对m个样本文件中每个样本文件的n类特征向量，n≥2，m≥2，n和m为正整数，其中，所述n个不同扫描范围的候选配置中，每个扫描范围的候选配置包括：节头部扫描范围和节尾部扫描范围；

判别模型构建模块，用于基于机器学习模型对m个样本文件的同一个候选配置对应的特征向量进行训练，以得到n个用于判定待识别文件是否为恶意文件的判别模型；

效果指标值确定模块，用于基于相同的评价指标对n个判别模型进行评价，以得到n个归一化的效果指标值；

IO指标值确定模块，用于根据预设的n个不同扫描范围的候选配置确定n个归一化的IO指标值，包括：

特征提取范围确定模块，用于根据每个候选配置的IO指标值和效果指标值确定n个不同扫描范围的候选配置中的最优化配置，所述最优化配置为待识别文件用于进行特征提取的扫描范围配置。

7.一种静态恶意软件识别的系统，其特征在于，包括：

第一特征提取模块，用于根据预设的n个不同扫描范围的候选配置对训练集中的m个样本文件进行特征提取，以得到针对m个样本文件中每个样本文件的n类特征向量，n≥2，m≥2，n和m为正整数，其中，所述n个不同扫描范围的候选配置中，每个扫描范围的候选配置包括：节头部扫描范围和节尾部扫描范围；

将每个候选配置的节头部扫描范围和节尾部扫描范围相加得到每个候选配置的绝对IO指标值；以及根据第一预设值和每个候选配置的绝对IO指标值的差值与所述第一预设值的比值得到每个候选配置归一化的IO指标值；其中，第一预设值大于等于样本文件的最大扫描范围；特征提取范围确定模块，用于根据每个候选配置的IO指标值和效果指标值确定n个不同扫描范围的候选配置中的最优化配置，所述最优化配置为待识别文件用于进行特征提取的扫描范围配置；

第二特征提取模块，用于基于所述最优化配置对待识别文件进行特征提取，以得到待识别文件的特征向量；以及

文件识别模块，用于将所述待识别文件的特征向量输入至最优化判别模型进行识别，以得到待识别文件是否为恶意文件的结果；其中，所述最优化判别模型为所述最优化配置对应的判别模型。

8.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1-5中任一项所述的方法。

9.一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器实现权利要求1-5中任一项所述的方法。