CN119030787B - 基于网络威胁情报分析的安全防护方法、装置及存储介质 - Google Patents
基于网络威胁情报分析的安全防护方法、装置及存储介质 Download PDFInfo
- Publication number
- CN119030787B CN119030787B CN202411444563.XA CN202411444563A CN119030787B CN 119030787 B CN119030787 B CN 119030787B CN 202411444563 A CN202411444563 A CN 202411444563A CN 119030787 B CN119030787 B CN 119030787B
- Authority
- CN
- China
- Prior art keywords
- entity
- training
- network
- threat
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种基于网络威胁情报分析的安全防护方法、装置及存储介质。基于获取网络威胁情报训练文本进行表征信息提取,获得训练实体分布位置和对应的训练实体分布特征,将训练实体分布位置作为高斯分布中心,依据训练实体分布特征反向生成训练实体分布位置对应的预测实体概率分布序列,通过比较确定网络调试误差,在依据网络调试误差调试威胁实体识别网络时,也就基于预测实体概率分布序列进一步限制了威胁实体识别网络的输出,令威胁实体识别网络明确地提取到实体的信息,有利于获取到网络威胁情报训练文本中的本质特征,增加了威胁实体识别网络的能力,可以提高威胁情报实体的精度,有利于快速准确地获取网络威胁情报内容,以进行安全防护。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种基于网络威胁情报分析的安全防护方法、装置及存储介质。
背景技术
随着信息技术的飞速发展,网络在各个领域的应用日益广泛,网络攻击的形式不断演变,包括恶意软件传播、网络钓鱼、分布式拒绝服务攻击(DDoS)等。为了应对复杂多变的网络威胁,网络威胁情报(Cyber Threat Intelligence,CTI)的概念应运而生。网络威胁情报是指有关网络威胁的信息,包括威胁源、威胁目标、攻击手段、攻击趋势等多方面的知识。通过收集、分析和共享网络威胁情报,网络安全防御者能够提前了解潜在的威胁,制定有效的安全防护策略,从而增强网络的安全性。
在网络威胁情报分析中,准确识别威胁情报实体(如攻击源的IP地址、恶意软件名称、攻击目标等)是一个关键任务。传统的实体识别方法往往依赖于简单的规则匹配或者基于单一特征的机器学习模型。例如,基于规则的方法需要人工编写大量的规则来识别不同类型的威胁情报实体。这种方法的局限性在于,它难以应对复杂多变的网络威胁场景。新出现的网络攻击可能具有与以往不同的特征,需要不断更新规则,这是一个耗时且容易出错的过程。基于单一特征的机器学习模型(如仅使用词频特征的模型)在处理网络威胁情报文本时,可能会因为缺乏对文本全面特征的把握而导致实体识别的准确率不高。例如,在识别恶意软件名称时,仅考虑词频可能会将一些普通的软件名称误判为恶意软件,或者遗漏一些新出现的、低频的恶意软件名称。
发明内容
有鉴于此,本申请提供一种基于网络威胁情报分析的安全防护方法、装置及存储介质。本申请的技术方案是这样实现的:
一方面,本申请提供一种基于网络威胁情报分析的安全防护方法,包括:获取用作学习模板数据的网络威胁情报训练文本,根据威胁实体识别网络对所述网络威胁情报训练文本进行表征信息提取,执行得到所述网络威胁情报训练文本中包含的威胁情报实体的训练实体分布位置,以及所述训练实体分布位置对应的训练实体分布特征;将所述训练实体分布位置作为高斯分布中心,依据所述训练实体分布特征生成所述训练实体分布位置对应的预测实体概率分布序列;获取所述网络威胁情报训练文本对应的先验实体概率分布序列,其中,所述先验实体概率分布序列为所述威胁实体识别网络的调试参考标记;依据所述预测实体概率分布序列和所述先验实体概率分布序列确定所述威胁实体识别网络的网络调试误差,依据所述网络调试误差调试所述威胁实体识别网络,直至所述威胁实体识别网络达到预设的调试停止条件,获得收敛的威胁实体识别网络;获取待进行威胁情报实体识别的目标网络威胁情报文本,根据调试收敛的威胁实体识别网络对所述目标网络威胁情报文本进行表征信息提取,执行得到所述目标网络威胁情报文本中包含的威胁情报实体的目标实体分布位置,以便基于所述目标实体分布位置对应的实体内容,确定安全防护策略。
第二方面,本申请提供一种基于网络威胁情报分析的安全防护装置,包括:训练样本获取模块,用于获取用作学习模板数据的网络威胁情报训练文本,根据威胁实体识别网络对所述网络威胁情报训练文本进行表征信息提取,执行得到所述网络威胁情报训练文本中包含的威胁情报实体的训练实体分布位置,以及所述训练实体分布位置对应的训练实体分布特征;概率分布生成模块,用于将所述训练实体分布位置作为高斯分布中心,依据所述训练实体分布特征生成所述训练实体分布位置对应的预测实体概率分布序列;训练标签获取模块,用于获取所述网络威胁情报训练文本对应的先验实体概率分布序列,其中,所述先验实体概率分布序列为所述威胁实体识别网络的调试参考标记;网络调试模块,用于依据所述预测实体概率分布序列和所述先验实体概率分布序列确定所述威胁实体识别网络的网络调试误差,依据所述网络调试误差调试所述威胁实体识别网络,直至所述威胁实体识别网络达到预设的调试停止条件,获得收敛的威胁实体识别网络;网络调用模块,用于获取待进行威胁情报实体识别的目标网络威胁情报文本,根据调试收敛的威胁实体识别网络对所述目标网络威胁情报文本进行表征信息提取,执行得到所述目标网络威胁情报文本中包含的威胁情报实体的目标实体分布位置,以便基于所述目标实体分布位置对应的实体内容,确定安全防护策略。
第三方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以上第一方面提供的方法中的步骤。
本申请的有益效果:基于获取用作学习模板数据的网络威胁情报训练文本,根据威胁实体识别网络对网络威胁情报训练文本进行表征信息提取,不仅执行得到网络威胁情报训练文本中包含的威胁情报实体的训练实体分布位置,还得到训练实体分布位置对应的训练实体分布特征,将训练实体分布位置作为高斯分布中心,依据训练实体分布特征反向生成训练实体分布位置对应的预测实体概率分布序列,以便通过预测实体概率分布序列与网络威胁情报训练文本对应的先验实体概率分布序列进行比较,确定威胁实体识别网络的网络调试误差,在依据网络调试误差调试威胁实体识别网络时,也就基于预测实体概率分布序列进一步限制了威胁实体识别网络的输出,令威胁实体识别网络明确地提取到实体的信息,有利于获取到网络威胁情报训练文本中的本质特征,增加了威胁实体识别网络的能力,令在根据调试收敛的威胁实体识别网络对目标网络威胁情报文本进行表征信息提取,执行得到目标网络威胁情报文本中包含的威胁情报实体的目标实体分布位置时,可以提高威胁情报实体的精度,有利于快速准确地获取网络威胁情报内容,以进行安全防护。
附图说明
图1为本申请实施例提供的一种基于网络威胁情报分析的安全防护方法的实现流程示意图。
图2为本申请实施例提供的一种基于网络威胁情报分析的安全防护装置的组成结构示意图。
图3为本申请实施例提供的一种计算机系统的硬件实体示意图。
具体实施方式
本申请实施例提供一种基于网络威胁情报分析的安全防护方法,该方法可以由计算机系统的处理器执行。其中,计算机系统可以指的是服务器、笔记本电脑、平板电脑、台式计算机等具备数据处理能力的设备。
图1为本申请实施例提供的一种基于网络威胁情报分析的安全防护方法的实现流程示意图,如图1所示,该方法包括如下操作110至操作150:
步骤S100:获取用作学习模板数据的网络威胁情报训练文本,根据威胁实体识别网络对网络威胁情报训练文本进行表征信息提取,执行得到网络威胁情报训练文本中包含的威胁情报实体的训练实体分布位置,以及训练实体分布位置对应的训练实体分布特征。
本申请实施例中,网络威胁情报训练文本是包含网络威胁相关信息的文本数据,例如可能是包含网络攻击类型、攻击源、攻击目标等信息的网络安全报告、网络流量日志分析结果等文本内容。计算机系统获取这些文本后,将其输入到威胁实体识别网络中。威胁实体识别网络是一种专门设计用于识别网络威胁情报中实体信息的网络结构,它可能包含多个神经网络层,如卷积层、池化层等,这些层通过特定的算法和参数设置对输入的文本进行处理。
计算机系统通过威胁实体识别网络对网络威胁情报训练文本进行分析处理,这个过程类似于对文本进行深度挖掘,以获取其中隐藏的与威胁情报实体相关的信息。具体来说,对于训练文本中的每个词元(可以理解为文本中的最小语义单元,例如单词或者特定的字符组合),威胁实体识别网络会根据预定义的规则和算法为其赋予特定的特征向量,这个特征向量就包含了该词元与威胁情报实体相关的表征信息。
训练实体分布位置指的是在网络威胁情报训练文本中,威胁情报实体在文本结构中的位置信息。例如,如果网络威胁情报训练文本是一段关于网络攻击事件的描述,其中提到“来自IP地址192.168.1.1的恶意软件攻击了公司的服务器”,那么“192.168.1.1”这个威胁情报实体(攻击源的IP地址)在文本中的位置就是它的训练实体分布位置。
训练实体分布特征则是描述威胁情报实体在该分布位置上的一些特征属性。这些特征属性可以通过多种技术手段获取。一种可能的技术手段是基于统计学的方法,例如计算该实体与周围词元的相关性系数。假设有一个简单的线性关系来表示这种相关性,设实体为E,周围词元为,相关性系数r可以通过公式来计算,其中和分别是实体E和词元的均值。另一种可能是基于语义分析的方法,例如通过预训练的词向量模型(如Word2Vec等)来获取实体的语义特征向量,这个向量中的每个维度值都可以作为训练实体分布特征的一部分。
步骤S200:将训练实体分布位置作为高斯分布中心,依据训练实体分布特征生成训练实体分布位置对应的预测实体概率分布序列。
本申请实施例步骤S200中,训练实体分布位置是在步骤S100中确定的,它表示网络威胁情报训练文本中威胁情报实体的位置信息。例如,在一份网络安全事件报告中,若“恶意IP地址10.0.0.1”是威胁情报实体,其所在的句子位置或者段落中的相对位置等就是训练实体分布位置。而训练实体分布特征则是描述该实体在这个位置上的多种特性,这些特性可能包括实体与周边信息的关联关系、语义特征等多方面的属性。
计算机系统将训练实体分布位置设定为高斯分布中心。高斯分布,也称为正态分布,是一种在统计学中广泛应用的概率分布模型。其概率密度函数为,其中为均值(在此处就是训练实体分布位置所对应的某个参考值),为标准差。
依据训练实体分布特征生成预测实体概率分布序列,这一过程需要借助多种技术手段。例如,计算机系统可以根据实体与周边信息的关联关系(训练实体分布特征之一)来调整高斯分布的参数。假设某个威胁情报实体与周围的三个特定类型的实体存在关联,这三个关联关系可以量化为三个权重值。计算机系统可以将这些权重值与高斯分布的某些参数建立联系,比如通过线性组合的方式来调整标准差,假设调整公式为,其中是初始标准差,a、b、c是预先确定的系数。
预测实体概率分布序列表示在训练实体分布位置及其周边可能存在的实体的概率分布情况。以网络攻击场景为例,如果威胁情报实体是攻击源IP地址,那么预测实体概率分布序列可能表示在这个IP地址周围出现不同类型攻击工具(如恶意软件类型)的概率。这个序列是计算机系统根据之前确定的高斯分布中心(训练实体分布位置)以及通过各种技术手段考虑训练实体分布特征后生成的。这一预测实体概率分布序列为后续与先验实体概率分布序列进行比较、进而确定威胁实体识别网络的网络调试误差奠定了基础,有助于计算机系统在网络威胁情报分析的安全防护方法中不断优化威胁实体识别网络的准确性和可靠性。
步骤S300:获取网络威胁情报训练文本对应的先验实体概率分布序列,其中,先验实体概率分布序列为威胁实体识别网络的调试参考标记。
本申请实施例步骤S300中,先验实体概率分布序列是威胁实体识别网络的调试参考标记。先验实体概率分布序列反映了在已知的一些条件或者先验知识下,网络威胁情报训练文本中不同实体的概率分布情况。
对于网络威胁情报训练文本,其中包含了各种各样的威胁情报实体,例如攻击源(如特定的IP地址、恶意软件名称等)、攻击目标(如特定的服务器、网络服务等)以及攻击方式(如DDoS攻击、SQL注入等)。先验实体概率分布序列就是对这些实体在文本中出现概率的一种先验性的描述。
计算机系统获取先验实体概率分布序列可以采用不同的技术手段。一种方式是通过获取网络威胁情报训练文本中包含的威胁情报实体的注释实体分布位置,以及预设的先验实体分布特征,将注释实体分布位置作为高斯分布中心,依据先验实体分布特征建立高斯模型来获得先验实体概率分布序列。
例如,假设网络威胁情报训练文本是关于网络攻击事件的详细记录。其中,注释表明某个恶意软件名称在文本中的特定位置(注释实体分布位置)出现,并且已知这个恶意软件在类似文本中出现时具有一些先验的特征,如它通常与特定类型的攻击目标相关联的频率、与某些攻击方式共同出现的概率等(先验实体分布特征)。可以利用高斯分布模型来构建先验实体概率分布序列。设注释实体分布位置对应的数值为(均值,即高斯分布中心),先验实体分布特征决定了高斯分布的标准差等参数,根据高斯分布的概率密度函数,计算机系统可以计算出不同取值(对应不同实体的相关数值)下的概率,从而得到先验实体概率分布序列。
另一种可能的方式是根据事先调试完成的实体概率分布序列构建网络,由这个构建的网络来生成网络威胁情报训练文本对应的先验实体概率分布序列。这个事先调试完成的实体概率分布序列构建网络可能是基于大量的先验网络威胁情报数据进行训练得到的。例如,在一个包含海量网络攻击事件样本的数据库基础上,经过前期的分析、建模和网络训练,这个网络已经学习到了不同威胁情报实体之间的一般性概率关系。当面对新的网络威胁情报训练文本时,计算机系统利用这个预训练好的网络来生成对应的先验实体概率分布序列,为后续与预测实体概率分布序列的对比以及威胁实体识别网络的调试提供必要的参考依据。
步骤S400:依据预测实体概率分布序列和先验实体概率分布序列确定威胁实体识别网络的网络调试误差,依据网络调试误差调试威胁实体识别网络,直至威胁实体识别网络达到预设的调试停止条件,获得收敛的威胁实体识别网络。
本申请实施例步骤S400中,预测实体概率分布序列是计算机系统在步骤S200中依据训练实体分布位置和训练实体分布特征生成的,它反映了基于当前威胁实体识别网络对网络威胁情报训练文本中实体分布情况的预测结果。先验实体概率分布序列则是在步骤S300中获取的,是威胁实体识别网络的调试参考标记,体现了在已知条件或先验知识下实体的概率分布情况。
计算机系统确定网络调试误差时,需要对这两个概率分布序列进行比较分析。例如,假设预测实体概率分布序列表明在某一位置出现某种网络攻击源(如特定IP地址)的概率为0.3,而先验实体概率分布序列中该位置出现此攻击源的概率为0.5。这种差异就反映了预测结果与先验知识之间的偏离程度,是网络调试误差的一种体现。
计算机系统可以采用不同的误差函数来量化这种差异。例如,根据负对数似然误差函数确定预测实体概率分布序列与先验实体概率分布序列之间的第一误差值。设预测实体概率分布序列为P=(p_1, p_2, …, p_n),先验实体概率分布序列为Q=(q_1, q_2, …,q_n),负对数似然误差函数为,计算得到的L值就是第一误差值。同时,根据交叉熵误差函数确定两者之间的第二误差值,交叉熵误差函数公式为,计算得到的H值为第二误差值。
然后,计算机系统依据第一误差值和第二误差值确定网络调试误差。例如,可以直接将两者相加得到网络调试误差,这个误差值反映了预测实体概率分布与先验实体概率分布之间的总体偏离程度。
在得到网络调试误差后,计算机系统依据该误差调试威胁实体识别网络。威胁实体识别网络是一个复杂的神经网络结构,其内部包含众多的神经元和连接权重。计算机系统根据网络调试误差调整网络中的权重参数,以减小误差。例如,如果网络调试误差表明预测结果在某个实体的概率分布上过高估计,计算机系统可能会降低与该实体相关的神经元连接权重,从而使网络的预测结果更接近先验知识。这个调试过程会不断重复,直到威胁实体识别网络达到预设的调试停止条件。调试停止条件可以是网络调试误差小于某个预设阈值,或者是经过了一定数量的迭代次数等。当满足这些条件时,计算机系统就获得了收敛的威胁实体识别网络,这个收敛的网络在后续对目标网络威胁情报文本进行分析时,能够更准确地识别威胁情报实体。
步骤S500:获取待进行威胁情报实体识别的目标网络威胁情报文本,根据调试收敛的威胁实体识别网络对目标网络威胁情报文本进行表征信息提取,执行得到目标网络威胁情报文本中包含的威胁情报实体的目标实体分布位置,以便基于目标实体分布位置对应的实体内容,确定安全防护策略。
本申请实施例步骤S500中,目标网络威胁情报文本是计算机系统需要进行分析的对象,它包含了与网络威胁相关的各种信息。例如,这个文本可能是网络监控设备实时采集到的网络流量数据经过预处理转换后的文本描述,其中可能包含可疑的IP地址访问记录、异常的端口通信等信息,这些信息可能暗示着潜在的网络威胁,如网络攻击、恶意软件传播等。
计算机系统使用调试收敛的威胁实体识别网络来处理目标网络威胁情报文本。调试收敛的威胁实体识别网络是经过前面步骤(如步骤S400)不断调试后得到的,它在对网络威胁情报的实体识别方面已经具备了相对准确的能力。
对目标网络威胁情报文本进行表征信息提取是一个复杂的过程。计算机系统利用威胁实体识别网络中的各种算法和模型来挖掘文本中的隐藏信息。例如,在威胁实体识别网络中可能包含卷积神经网络(CNN)层,它可以自动提取文本中的局部特征。对于目标网络威胁情报文本中的每个部分,CNN层通过卷积核在文本上滑动进行卷积操作,将文本中的字符或词元转换为特征图,这个特征图就包含了关于文本的部分表征信息。
威胁情报实体的目标实体分布位置的确定是这一步骤的关键结果。目标实体分布位置表示威胁情报实体在目标网络威胁情报文本中的位置信息。以一个简单的网络攻击场景为例,如果目标网络威胁情报文本描述为“在2023年5月10日,IP地址192.168.1.100对公司内部网络的服务器发起了多次连接尝试,疑似进行暴力破解攻击”,那么在这里“192.168.1.100”这个威胁情报实体(可能是攻击源的IP地址)在文本中的具体位置就是目标实体分布位置。
确定目标实体分布位置对于后续的安全防护策略制定至关重要。基于目标实体分布位置对应的实体内容,计算机系统可以确定安全防护策略。例如,如果发现某个特定的恶意软件名称(威胁情报实体)出现在目标网络威胁情报文本中的特定位置,并且这个恶意软件已知是通过特定端口进行传播的,那么计算机系统可以制定安全防护策略,如在防火墙中封锁该恶意软件常用的传播端口,或者对可能被感染的主机进行特定的病毒查杀操作。
在进行表征信息提取时,计算机系统可能采用多种技术手段。除了上述提到的CNN层,还可能包含循环神经网络(RNN)或其变体,如长短期记忆网络(LSTM)或门控循环单元(GRU)。RNN系列的网络适用于处理序列数据,能够捕捉文本中的长距离依赖关系。以LSTM为例,它通过特殊的门结构(输入门、遗忘门和输出门)来控制信息的流动。对于目标网络威胁情报文本中的每个时间步(可以理解为每个词元或字符的处理步骤),LSTM根据当前输入、上一时刻的隐藏状态以及细胞状态来更新这些门的状态,从而实现对文本表征信息的有效提取。
另外,计算机系统还可能采用注意力机制来增强表征信息的提取效果。注意力机制能够让模型自动关注文本中的重要部分。例如,在目标网络威胁情报文本中,如果存在一些关键的威胁相关词汇,如“攻击”、“恶意”等,注意力机制会为这些词汇分配更高的权重,使得威胁实体识别网络在处理文本时更加聚焦于这些与威胁密切相关的部分,从而更准确地确定威胁情报实体的目标实体分布位置。
计算机系统在执行步骤S500时,综合运用各种技术手段和模型结构,对目标网络威胁情报文本进行深入分析,准确获取威胁情报实体的目标实体分布位置,为制定有效的安全防护策略提供了坚实的基础,从而在应对网络威胁时能够更加主动和精准。这一步骤在整个基于网络威胁情报分析的安全防护方法中起着承上启下的关键作用,既利用了之前调试好的威胁实体识别网络,又为后续安全防护策略的确定提供了必要的信息来源。
作为一种实施方式,训练实体分布特征包括拟生成的基础实体概率分布序列中任一词元令牌的特征维度间的第一关联参数以及相邻位置特征的第二关联参数、基础实体概率分布序列中全部词元令牌的字符索引的位置分散度、基础实体概率分布序列中全部词元令牌的特征维度的特征分散度。那么,步骤S200,将训练实体分布位置作为高斯分布中心,依据训练实体分布特征生成训练实体分布位置对应的预测实体概率分布序列,可以包括:
步骤S210:将基础实体概率分布序列中任一词元令牌的字符索引和特征维度作为多维特征向量,将训练实体分布位置作为高斯分布中心,依据第一关联参数、第二关联参数、位置分散度和特征分散度建立多成分概率模型,获得训练实体分布位置对应的基础实体概率分布序列;
步骤S220:依据基础实体概率分布序列得到训练实体分布位置对应的预测实体概率分布序列。
在步骤S210中,计算机系统将基础实体概率分布序列中任一词元令牌的字符索引和特征维度作为多维特征向量。词元令牌是网络威胁情报训练文本处理后的基本语义单元,例如,在将一段网络威胁情报文本进行分词和标记化处理后,每个词或者具有特定语义的字符组合就可以看作一个词元令牌。字符索引可以理解为该词元令牌在整个文本中的位置序号,而特征维度则是描述该词元令牌特征的某个方面,例如在使用词向量模型时,一个词元令牌可能被表示为一个多维向量,这个向量的每个维度都代表一种特征,如语义相似性、语法角色等特征的量化值。
计算机系统将训练实体分布位置作为高斯分布中心。高斯分布是一种可行的概率分布,其特点是具有对称性,中间高两边低,在很多自然和人工现象的建模中都有广泛应用。在这个场景下,训练实体分布位置成为了这个分布的中心,就好像以这个位置为核心,其他相关实体的概率分布围绕其展开。
计算机系统依据第一关联参数、第二关联参数、位置分散度和特征分散度建立多成分概率模型。这里的第一关联参数和第二关联参数是描述词元令牌内部特征之间关系的参数。例如,第一关联参数可能表示任一词元令牌的特征维度间的相关性,假设在描述网络攻击源的词元令牌中,某个维度表示攻击源的地理位置,另一个维度表示攻击源的网络协议类型,第一关联参数可以量化这两个维度之间的关联程度,如通过计算它们在大量样本中的协方差来确定这种关联关系。第二关联参数可能表示相邻位置特征的相关性,比如在一段描述网络攻击事件的文本中,相邻的两个词元令牌分别表示攻击工具和攻击目标,第二关联参数可以衡量这两个词元令牌之间特征的关联程度。
位置分散度反映了基础实体概率分布序列中全部词元令牌的字符索引的分散情况。例如,在一个网络威胁情报训练文本中,如果描述攻击源的词元令牌的字符索引分布很广,从文本的开头到结尾都有出现,那么位置分散度就较大;反之,如果这些词元令牌都集中在文本的某个小部分,位置分散度就较小。特征分散度则是关于基础实体概率分布序列中全部词元令牌的特征维度的分散程度。例如,对于表示网络攻击目标的词元令牌,其特征维度可能包括目标的操作系统类型、服务类型等,如果这些特征在不同的词元令牌中差异很大,特征分散度就高。
多成分概率模型的建立过程中,计算机系统依据关联参数、位置分散度和特征分散度确定分布的相关性二维数组(例如是一个协方差矩阵)。协方差矩阵是一个重要的工具,用于描述多个变量之间的协方差关系。在这个场景下,假设有 n个词元令牌,每个词元令牌有 m 个特征维度,可以构建一个m×m的协方差矩阵。对于矩阵中的元素 C_{ij},它表示第 i 个特征维度和第 j 个特征维度之间的协方差。协方差的计算公式为,其中 X 和 Y 是两个变量(在这里可以是不同的特征维度),和是第 k 个样本(词元令牌)中这两个变量的值,和是这两个变量的均值。通过计算这个协方差矩阵,计算机系统能够准确把握各个特征维度之间的相关性关系,这是建立多成分概率模型的基础。
接着,计算机系统依据相关性二维数组以及训练实体分布位置对多维特征向量进行归一化。归一化是一种将数据映射到特定区间(通常是[0,1]或者[- 1,1])的操作。在这个过程中,计算机系统根据之前确定的协方差矩阵(相关性二维数组)中的信息,对每个词元令牌的多维特征向量进行调整。例如,假设某个词元令牌的多维特征向量为,计算机系统会根据协方差矩阵中的元素以及训练实体分布位置计算出一组归一化因子,对向量中的每个元素进行如下操作:,其中是根据协方差矩阵和训练实体分布位置确定的第 i 个元素的均值,是标准差。通过归一化操作,不同词元令牌的特征向量在相同的尺度下进行表示,有利于后续建立统一的多成分概率模型。
最后,计算机系统依据多维特征向量的归一化结果建立多成分概率模型,获得训练实体分布位置对应的基础实体概率分布序列。多成分概率模型是一种能够综合考虑多种因素(如词元令牌的字符索引、特征维度、相关性等)的概率模型。在建立这个模型时,计算机系统将归一化后的多维特征向量作为输入,通过一系列的数学运算(可能涉及到矩阵乘法、指数函数等)得到基础实体概率分布序列。例如,假设经过归一化后的多维特征向量为,计算机系统根据预先定义的模型结构(可能是基于某种神经网络架构或者统计模型),如 ,其中是基础实体概率分布序列中的第 i个概率值,f 是一个由模型定义的函数,它可能包含对 的线性变换、非线性激活(如使用sigmoid函数或者ReLU函数)等操作,从而得到整个基础实体概率分布序列。
在步骤S220中,计算机系统依据基础实体概率分布序列得到训练实体分布位置对应的预测实体概率分布序列。基础实体概率分布序列是在步骤S210中通过建立多成分概率模型得到的,它是一个关于在训练实体分布位置上各个词元令牌的概率分布情况的序列。预测实体概率分布序列则是对训练实体分布位置周围可能出现的威胁情报实体的更全面、综合的概率描述。
如果在某些情况下,训练实体分布特征包括多组,并且威胁实体识别网络还执行得到每一组训练实体分布特征对应的基础实体概率分布序列的训练组分影响系数(即权重),计算机系统会依据训练组分影响系数对多个基础实体概率分布序列进行加权。例如,假设有三组训练实体分布特征,对应的基础实体概率分布序列分别为,它们的训练组分影响系数分别为。计算机系统对每个位置 i 的概率值进行加权求和,得到预测实体概率分布序列中的元素 ,通过对所有位置的计算,得到完整的预测实体概率分布序列。这个预测实体概率分布序列将用于后续与先验实体概率分布序列进行比较,从而为调试威胁实体识别网络提供依据,进一步提高威胁情报实体识别的准确性。
作为一种实施方式,训练实体分布特征包括多组,威胁实体识别网络还执行得到每一组训练实体分布特征对应的基础实体概率分布序列的训练组分影响系数。基于此,步骤S220,依据基础实体概率分布序列得到训练实体分布位置对应的预测实体概率分布序列,可以包括:
步骤S221:依据训练组分影响系数对多个基础实体概率分布序列进行加权,获得训练实体分布位置对应的预测实体概率分布序列。
本申请实施例步骤S221中,训练组分影响系数,也可理解为组分权重,它反映了每组训练实体分布特征对应的基础实体概率分布序列在最终确定预测实体概率分布序列时的相对重要性。基础实体概率分布序列是在前面步骤(如步骤S210等)中基于不同的训练实体分布特征所生成的关于实体概率分布的序列。例如,在网络威胁情报分析中,假设正在处理一份关于网络攻击的情报文本,其中涉及到攻击源(如特定的IP地址、恶意软件名称等)、攻击目标(如特定的服务器、网络服务等)以及攻击方式(如DDoS攻击、SQL注入等)等实体信息。
计算机系统在生成基础实体概率分布序列时,可能会基于不同的特征组进行构建。比如,一组特征可能侧重于文本中的语义信息,通过词向量模型等技术手段将文本中的词汇转换为向量形式,然后根据这些向量之间的关系构建基础实体概率分布序列,记为。这里的n表示序列中的元素个数,表示在这一基于语义信息构建的基础实体概率分布序列中的第i个概率值。
另一组特征可能侧重于文本中的结构信息,例如词汇在句子中的位置关系、句子在段落中的结构关系等,基于这些结构特征构建的基础实体概率分布序列记为。
假设还存在一组基于与外部知识库关联的特征构建的基础实体概率分布序列。这些基础实体概率分布序列各自从不同的角度反映了实体在训练实体分布位置的概率分布情况。
而对应的训练组分影响系数则分别表示这三组基础实体概率分布序列在最终结果中的重要程度。这些系数的确定可以基于多种技术手段。一种可能的方式是通过对大量的标注数据进行分析。例如,有一组经过准确标注的网络威胁情报训练文本,其中明确标识了各种实体的真实分布情况。计算机系统可以将基于不同特征组构建的基础实体概率分布序列与真实分布情况进行对比,通过优化算法(如最小二乘法等)来确定每个基础实体概率分布序列的权重。假设最小二乘法用于确定,设真实的实体概率分布序列为,则目标是最小化误差函数,通过求解这个优化问题来得到w_1的值。对于和也可以采用类似的方法确定。
计算机系统依据训练组分影响系数对多个基础实体概率分布序列进行加权操作。具体公式为,其中是预测实体概率分布序列中的第i个元素。例如,对于i=1时,。通过对所有位置i=1,2,…,n进行这样的计算,计算机系统得到完整的预测实体概率分布序列。
这个预测实体概率分布序列综合了不同训练实体分布特征所对应的基础实体概率分布序列的信息,并且根据各自的重要性(训练组分影响系数)进行了加权整合。在网络威胁情报分析的场景下,这个预测实体概率分布序列能够更全面、准确地反映在训练实体分布位置周围可能出现的威胁情报实体的概率分布情况。例如,在一个实际的网络安全监控场景中,如果要预测特定网络区域内某种恶意软件(作为威胁情报实体)出现的概率,通过这种加权方式得到的预测实体概率分布序列能够考虑到语义信息(如恶意软件相关的词汇描述)、结构信息(如关于恶意软件的描述在整个情报文本中的结构位置)以及与外部知识库关联的信息(如该恶意软件在已知的网络威胁知识库中的关联信息)等多方面的因素,从而为后续与先验实体概率分布序列的比较以及威胁实体识别网络的调试提供了更可靠的依据,有助于提高整个基于网络威胁情报分析的安全防护方法的准确性和有效性。
作为一种实施方式,步骤S210中,依据第一关联参数、第二关联参数、位置分散度和特征分散度建立多成分概率模型,获得训练实体分布位置对应的基础实体概率分布序列,可以包括:
步骤S211:依据关联参数、位置分散度和特征分散度确定分布的相关性二维数组;
步骤S212:依据相关性二维数组以及训练实体分布位置对多维特征向量进行归一化;
步骤S213:依据多维特征向量的归一化结果建立多成分概率模型,获得训练实体分布位置对应的基础实体概率分布序列。
在步骤S211中,计算机系统需要依据关联参数、位置分散度和特征分散度确定分布的相关性二维数组(例如是一个协方差矩阵)。这里的关联参数包含了训练实体分布特征中的关键信息,例如前面提到的第一关联参数和第二关联参数。第一关联参数涉及基础实体概率分布序列中任一词元令牌的特征维度间的相关性,第二关联参数涉及相邻位置特征的相关性。
词元令牌是网络威胁情报训练文本经过处理后的基本语义单元。以网络威胁情报文本“攻击者使用恶意软件通过端口8080对目标服务器发起攻击”为例,其中“攻击者”“恶意软件”“端口8080”“目标服务器”等都可以看作是词元令牌。每个词元令牌都有其自身的特征维度,比如对于“恶意软件”这个词元令牌,其特征维度可能包括软件类型(如病毒、木马等)、传播方式(如邮件传播、网络下载等)等。
位置分散度反映了基础实体概率分布序列中全部词元令牌的字符索引的分散情况。在上述例子中,如果在不同的网络威胁情报训练文本中,“恶意软件”这个词元令牌的出现位置(字符索引)差异很大,有的在文本开头,有的在中间,有的在结尾,那么它的位置分散度就较大;反之,如果大多数情况下都出现在文本的某个固定位置附近,位置分散度就较小。
特征分散度是关于基础实体概率分布序列中全部词元令牌的特征维度的分散程度。仍以“恶意软件”为例,如果不同的恶意软件在其特征维度(如软件类型、传播方式等)上有很大的差异,那么特征分散度就高;如果大多数恶意软件都具有相似的软件类型和传播方式,特征分散度就低。
计算机系统确定相关性二维数组(以协方差矩阵为例)是一个复杂但有序的过程。对于一个具有n个词元令牌,每个词元令牌有m个特征维度的情况,计算机系统要构建一个m×m的协方差矩阵。协方差矩阵中的元素C_{ij}表示第i个特征维度和第j个特征维度之间的协方差。协方差的计算公式为,其中X和Y是两个变量(在这里可以是不同的特征维度),和是第k个样本(词元令牌)中这两个变量的值,和是这两个变量的均值。
以网络威胁情报中关于恶意软件和攻击目标的特征维度为例。假设恶意软件的一个特征维度X是其传播速度(量化为不同的值),攻击目标的一个特征维度Y是目标服务器的安全级别(也量化为不同的值)。对于一组网络威胁情报训练文本中的n个样本(词元令牌组合),计算机系统计算每个样本中恶意软件传播速度和目标服务器安全级别的值,然后根据上述公式计算Cov(X,Y),这个值将作为协方差矩阵中的一个元素。通过对所有的特征维度组合进行这样的计算,计算机系统构建出完整的协方差矩阵,这个协方差矩阵作为相关性二维数组,能够准确地描述各个特征维度之间的相关性关系。这种相关性关系是后续建立多成分概率模型的重要依据,它反映了不同特征维度之间的内在联系,有助于计算机系统更全面、准确地理解网络威胁情报训练文本中的实体关系。
在步骤S212中,计算机系统依据相关性二维数组以及训练实体分布位置对多维特征向量进行归一化。多维特征向量是由基础实体概率分布序列中任一词元令牌的字符索引和特征维度组成的。例如,对于前面提到的“恶意软件”这个词元令牌,假设其字符索引为i,其特征维度包括软件类型、传播方式等,将这些信息组合起来就构成了一个多维特征向量。
相关性二维数组(如协方差矩阵)已经在步骤S211中确定,它描述了各个特征维度之间的相关性关系。训练实体分布位置是网络威胁情报训练文本中威胁情报实体的位置信息,在前面的例子中,如果“恶意软件”在某一特定的网络威胁情报训练文本中的特定位置,这个位置就是训练实体分布位置。
归一化是一种将数据映射到特定区间(通常是[0,1]或者[-1,1])的操作。计算机系统根据之前确定的协方差矩阵(相关性二维数组)中的信息,对每个词元令牌的多维特征向量进行调整。具体来说,假设某个词元令牌的多维特征向量为),计算机系统会根据协方差矩阵中的元素以及训练实体分布位置计算出一组归一化因子,对向量中的每个元素进行如下操作:,其中是根据协方差矩阵和训练实体分布位置确定的第i个元素的均值,是标准差。
以一个简单的例子来说明。假设有一个关于网络威胁情报中攻击源的词元令牌,其多维特征向量表示为V=(),其中表示攻击源的IP地址的某个特征(如地址段类型),表示攻击源的网络活动频率的某个量化值,表示与攻击源相关的其他因素的量化值。计算机系统根据相关性二维数组(协方差矩阵)和训练实体分布位置计算出的均值和标准差,的均值和标准差\sigma_2,的均值和标准差。然后对向量V进行归一化,得到。通过归一化操作,不同词元令牌的特征向量在相同的尺度下进行表示,这有助于消除不同特征维度之间由于量纲等因素造成的差异,使得后续建立多成分概率模型时能够更加公平地对待每个特征维度,提高模型的准确性和稳定性。
在步骤S213中,计算机系统依据多维特征向量的归一化结果建立多成分概率模型,获得训练实体分布位置对应的基础实体概率分布序列。归一化后的多维特征向量包含了经过调整后的词元令牌的字符索引和特征维度信息,这些信息已经在前面的步骤中被处理为在同一尺度下可比的形式。
多成分概率模型是一种能够综合考虑多种因素(如词元令牌的字符索引、特征维度、相关性等)的概率模型。计算机系统在建立这个模型时,将归一化后的多维特征向量作为输入,通过一系列的数学运算(可能涉及到矩阵乘法、指数函数等)得到基础实体概率分布序列。
例如,假设经过归一化后的多维特征向量为,计算机系统根据预先定义的模型结构(可能是基于某种神经网络架构或者统计模型),如,其中是基础实体概率分布序列中的第i个概率值,f是一个由模型定义的函数,它可能包含对的线性变换、非线性激活(如使用sigmoid函数或者ReLU函数)等操作。
以一个简单的假设模型为例,假设f(x)=(sigmoid函数),如果=2,则P_i=。通过对所有的i进行这样的计算,计算机系统得到整个基础实体概率分布序列。这个基础实体概率分布序列反映了在训练实体分布位置上各个词元令牌的概率分布情况,是后续步骤(如步骤S220等)中进一步构建预测实体概率分布序列的重要基础,它在整个基于网络威胁情报分析的安全防护方法中起着承上启下的作用,有助于计算机系统更准确地识别网络威胁情报中的实体,进而为网络安全防护提供更有效的决策依据。
作为一种实施方式,步骤S400,依据预测实体概率分布序列和先验实体概率分布序列确定威胁实体识别网络的网络调试误差,可以包括:
步骤S410:根据负对数似然误差函数确定预测实体概率分布序列与先验实体概率分布序列之间的第一误差值,根据交叉熵误差函数确定预测实体概率分布序列与先验实体概率分布序列之间的第二误差值;
步骤S420:依据第一误差值和第二误差值的相加结果确定威胁实体识别网络的网络调试误差。
在步骤S410中,计算机系统根据负对数似然误差函数确定预测实体概率分布序列与先验实体概率分布序列之间的第一误差值。预测实体概率分布序列是计算机系统在之前的步骤(如步骤S200)中基于训练实体分布位置和训练实体分布特征生成的,它反映了基于当前威胁实体识别网络对网络威胁情报训练文本中实体分布情况的预测结果。先验实体概率分布序列则是在步骤S300中获取的,是威胁实体识别网络的调试参考标记,体现了在已知条件或先验知识下实体的概率分布情况。
设预测实体概率分布序列为,先验实体概率分布序列为。负对数似然误差函数为。例如,在网络威胁情报分析中,如果考虑网络攻击源的类型作为实体,预测实体概率分布序列中表示预测为第一种攻击源类型的概率,表示预测为第二种攻击源类型的概率,以此类推。先验实体概率分布序列中的表示根据先验知识第一种攻击源类型的概率,表示第二种攻击源类型的概率等。通过将这些值代入负对数似然误差函数公式,计算机系统计算得到第一误差值L。这个第一误差值衡量了预测实体概率分布与先验实体概率分布在对数似然意义下的差异程度。如果预测实体概率分布与先验实体概率分布越接近,那么L的值就越小;反之,如果两者差异较大,L的值就会较大。
接着,计算机系统根据交叉熵误差函数确定预测实体概率分布序列与先验实体概率分布序列之间的第二误差值。交叉熵误差函数公式为。继续以上述网络攻击源类型为例,计算机系统将预测实体概率分布序列P和先验实体概率分布序列Q中的相应概率值代入该公式计算第二误差值H。交叉熵误差函数在信息论中有重要意义,它可以用来衡量两个概率分布之间的差异。与负对数似然误差函数类似,当预测实体概率分布与先验实体概率分布接近时,H的值较小;当两者差异较大时,H的值较大。
在步骤S420中,计算机系统依据第一误差值和第二误差值的相加结果确定威胁实体识别网络的网络调试误差。即网络调试误差E=L + H。这个网络调试误差综合了负对数似然误差函数和交叉熵误差函数所衡量的预测实体概率分布序列与先验实体概率分布序列之间的差异。
例如,假设在一个网络威胁情报场景中,对于某一特定的网络威胁实体(如某种恶意软件的传播方式),预测实体概率分布序列P=(0.3, 0.4, 0.3),先验实体概率分布序列Q=(0.5, 0.3, 0.2)。首先,根据负对数似然误差函数计算第一误差值L:。经过计算可得L的具体数值。然后,根据交叉熵误差函数计算第二误差值H:计算出H的值。
最后,将L和H相加得到网络调试误差E。这个网络调试误差反映了预测实体概率分布与先验实体概率分布之间的总体偏离程度。计算机系统可以根据这个网络调试误差来评估威胁实体识别网络的性能,并对网络进行调试,以减小这个误差,使得威胁实体识别网络能够更准确地预测网络威胁情报中的实体分布情况,从而提高整个基于网络威胁情报分析的安全防护方法的有效性。
作为一种实施方式,步骤S420,依据第一误差值和第二误差值的相加结果确定威胁实体识别网络的网络调试误差,可以包括:
步骤S421:获取用于调整参数变化率的陡峭度的调节因子,依据调节因子对第一误差值进行软化处理,获得第三误差值;
步骤S422:依据第三误差值与第二误差值的相加结果确定威胁实体识别网络的网络调试误差。
在步骤S421中,计算机系统需要获取用于调整参数变化率的陡峭度的调节因子,依据调节因子对第一误差值进行软化处理,获得第三误差值。这里的调节因子是一个预先设定或者根据特定算法动态确定的值,它的作用是调整第一误差值在最终网络调试误差计算中的影响力。参数变化率的陡峭度反映了网络调试误差对威胁实体识别网络中参数调整的敏感程度。例如,如果参数变化率的陡峭度较大,意味着网络中的参数微小变化就可能导致网络调试误差有较大的改变;反之,如果陡峭度较小,参数的变化对网络调试误差的影响相对较小。
第一误差值是计算机系统在步骤S410中根据负对数似然误差函数确定的预测实体概率分布序列与先验实体概率分布序列之间的误差值。这个误差值反映了在负对数似然意义下,预测结果与先验知识之间的差异程度。
假设第一误差值为L,调节因子为α(0<α≤1),计算机系统对第一误差值进行软化处理的一种可能方式是将第一误差值乘以调节因子,得到第三误差值L',即L'=α×L。例如,在网络威胁情报分析中,如果第一误差值L=0.5(这个值表示预测实体概率分布序列与先验实体概率分布序列在负对数似然意义下有较大的差异),调节因子α=0.5,那么第三误差值L'=0.5×0.5=0.25。通过这种软化处理,计算机系统降低了第一误差值在后续网络调试误差计算中的权重,使得网络调试误差的计算更加灵活,能够根据实际情况调整不同误差值的影响程度。这种处理方式在实际应用中有重要意义,因为在某些情况下,负对数似然误差函数所衡量的误差可能由于数据的特性或者模型的初期状态而过于敏感或者不够准确,通过调节因子进行软化处理可以提高网络调试的稳定性和准确性。
在步骤S422中,计算机系统依据第三误差值与第二误差值的相加结果确定威胁实体识别网络的网络调试误差。第二误差值是计算机系统在步骤S410中根据交叉熵误差函数确定的预测实体概率分布序列与先验实体概率分布序列之间的误差值。这个误差值从交叉熵的角度衡量了预测结果与先验知识之间的差异程度。
设第三误差值为L',第二误差值为H,网络调试误差为E,则E=L' + H。例如,继续上面的例子,假设第二误差值H=0.3,第三误差值L'=0.25,那么网络调试误差E=0.25+0.3=0.55。这个网络调试误差综合了经过调节因子处理后的负对数似然误差(以第三误差值体现)和交叉熵误差(第二误差值),它反映了预测实体概率分布与先验实体概率分布之间的总体偏离程度。
在网络威胁情报分析的场景下,这个网络调试误差对于威胁实体识别网络的优化具有关键意义。例如,假设网络威胁情报涉及网络攻击源的识别,预测实体概率分布序列表示根据当前威胁实体识别网络预测的不同攻击源的概率分布,先验实体概率分布序列是基于已有的大量网络攻击数据或者专家知识得到的攻击源的概率分布。如果网络调试误差较大,说明当前的威胁实体识别网络在识别攻击源方面与先验知识或者实际情况有较大的偏差,计算机系统就需要根据这个网络调试误差对威胁实体识别网络进行调整。这种调整可能涉及网络中的各种参数,如神经网络中的权重、偏置等。通过不断地根据网络调试误差调整威胁实体识别网络,计算机系统可以提高网络在识别网络威胁情报实体方面的准确性和可靠性,从而更好地实现基于网络威胁情报分析的安全防护功能。
计算机系统在步骤S421-S422中的操作是一个综合考虑不同误差因素并进行合理调整的过程。通过获取调节因子对第一误差值进行软化处理,再结合第二误差值确定网络调试误差,计算机系统能够更精确地评估威胁实体识别网络与先验知识之间的偏差,进而有效地对网络进行调试优化,这对于整个基于网络威胁情报分析的安全防护体系的性能提升有着不可或缺的作用。
作为一种实施方式,步骤S100中,根据威胁实体识别网络对网络威胁情报训练文本进行表征信息提取,执行得到网络威胁情报训练文本中包含的威胁情报实体的训练实体分布位置,以及训练实体分布位置对应的训练实体分布特征,可以包括:
步骤S110:将网络威胁情报训练文本加载到威胁实体识别网络;
步骤S120:对网络威胁情报训练文本进行表征信息挖掘,获得网络威胁情报训练文本的文本表征信息;
步骤S130:对文本表征信息进行特征转换,获得转换表征信息;
步骤S140:对转换表征信息进行全连接映射,获得预测表征信息;
步骤S150:依据预测表征信息得到网络威胁情报训练文本中包含的威胁情报实体的训练实体分布位置,以及训练实体分布位置对应的训练实体分布特征。
在步骤S110中,计算机系统执行的操作是将网络威胁情报训练文本加载到威胁实体识别网络。网络威胁情报训练文本是包含网络威胁相关信息的文本数据,这些信息可能涵盖网络攻击的各种要素,如攻击源、攻击目标、攻击方式等。例如,一份网络威胁情报训练文本可能是这样的:“2023年5月10日,来自IP地址192.168.1.100的恶意软件通过端口8080对公司服务器发起SQL注入攻击。”这个文本包含了攻击源(IP地址192.168.1.100和恶意软件)、攻击目标(公司服务器)以及攻击方式(SQL注入攻击)等潜在的威胁情报实体信息。
威胁实体识别网络是一种专门构建的网络结构,旨在识别网络威胁情报中的各种实体。它可能是基于神经网络架构构建的,例如卷积神经网络(CNN)、循环神经网络(RNN)或者它们的变体,如长短期记忆网络(LSTM)或门控循环单元(GRU)等。计算机系统将网络威胁情报训练文本加载到这个网络中,以便后续进行特征提取等操作。计算机系统会将文本进行格式化处理,使其能够被威胁实体识别网络所接受。这可能涉及将文本转换为特定的编码格式,如UTF-8编码等,并且按照网络的输入要求进行组织。例如,如果威胁实体识别网络的输入要求是固定长度的向量序列,计算机系统可能需要对文本进行截断或者填充操作,以满足这个要求。
在步骤S120中,计算机系统对已加载到威胁实体识别网络的网络威胁情报训练文本进行表征信息挖掘,也就是特征抽取操作。这个过程旨在从原始的文本数据中提取出能够代表文本特征的信息。对于网络威胁情报训练文本中的每个词元(词元可以是单词或者特定的字符组合,例如在上述例子中,“2023年5月10日”、“IP地址”、“恶意软件”等都可以看作是词元),计算机系统会计算其相关的特征。
一种可行的技术手段是使用词向量模型。例如,Word2Vec模型可以将每个词元映射到一个固定维度的向量空间中。假设使用一个300维的Word2Vec模型,那么“恶意软件”这个词元就会被表示为一个300维的向量。这个向量包含了该词元的语义信息,例如与其他类似词元(如“病毒”、“木马”等)在语义空间中的距离关系。除了词向量模型,计算机系统还可能采用其他技术手段,如词性标注。对于网络威胁情报训练文本中的每个词元,确定其词性(名词、动词、形容词等)也是一种特征抽取方式。例如,“攻击”这个词元的词性是动词,这一信息对于理解文本的语义结构和威胁情报实体之间的关系是有帮助的。
通过这些特征抽取操作,计算机系统获得网络威胁情报训练文本的文本表征信息。这些文本表征信息是对原始文本的一种抽象表示,它包含了原始文本中的词汇的语义、词性等多方面的特征信息。例如,对于前面提到的网络威胁情报训练文本,其文本表征信息可能是一个由各个词元的特征向量(如词向量和词性标注等信息)组成的矩阵或者序列结构。
在步骤S130中,计算机系统对在步骤S120中获得的文本表征信息进行特征转换。全连接层是一种可行的神经网络层结构,在特征转换中具有重要作用。假设文本表征信息是一个矩阵X,其维度为m×n(m表示词元的数量,n表示每个词元的特征维度)。全连接层中的每个神经元都与前一层的所有神经元相连接。全连接层的权重矩阵W的维度为n×p(p是全连接层输出的特征维度),通过矩阵乘法Y=X×W + b(其中b是偏置向量),计算机系统可以将输入的文本表征信息X转换为新的特征表示Y,这个Y就是转换表征信息的一部分。
注意力机制也是一种用于特征转换的有效技术手段。在网络威胁情报训练文本中,不同的词元对于识别威胁情报实体的重要性是不同的。例如,在“2023年5月10日,来自IP地址192.168.1.100的恶意软件通过端口8080对公司服务器发起SQL注入攻击。”这个文本中,“恶意软件”、“IP地址192.168.1.100”、“公司服务器”等词元对于识别威胁情报实体更为关键。注意力机制可以根据这些词元与其他词元的关系自动分配权重。设Q、K、V分别为查询向量、键向量和值向量(它们可以从文本表征信息中通过线性变换得到),注意力权重(其中d_k是键向量的维度),然后通过Output=AV得到经过注意力机制处理后的特征表示,这个特征表示也会被整合到转换表征信息中。
降维技术同样可用于特征转换。例如主成分分析(PCA),如果文本表征信息的维度过高,可能会导致计算复杂度增加和过拟合等问题。PCA通过找到数据中的主成分方向,将高维数据投影到低维空间中。设原始文本表征信息的协方差矩阵为,计算其特征值和特征向量,选择前k个最大特征值对应的特征向量构成投影矩阵P,然后通过Z=XP将文本表征信息X转换为低维的Z,这个Z也是转换表征信息的一部分。通过这些不同的特征转换技术,计算机系统综合得到转换表征信息,这个转换表征信息相比原始的文本表征信息更有利于后续对威胁情报实体的识别。
在步骤S140中,计算机系统对在步骤S130中得到的转换表征信息进行全连接映射。全连接映射类似于步骤S130中提到的全连接层操作,但这里是为了进一步将转换表征信息转换为更适合预测威胁情报实体的形式。假设转换表征信息为Y,其维度为m×n,再次通过一个全连接层,其权重矩阵W'的维度为n×q(q是全连接映射后输出的特征维度),计算Z=Y×W' + b'(其中b'是偏置向量),得到的Z就是预测表征信息。
例如,在网络威胁情报分析中,如果转换表征信息包含了关于网络攻击相关词元经过特征转换后的信息,这个全连接映射操作会将这些信息进一步整合和转换,以便更准确地预测威胁情报实体的相关信息,如实体的类别(是攻击源、攻击目标还是攻击方式等)以及实体的具体属性(如攻击源的IP地址范围等)。
在步骤S150中,计算机系统依据在步骤S140中得到的预测表征信息获取网络威胁情报训练文本中包含的威胁情报实体的训练实体分布位置以及对应的训练实体分布特征。对于训练实体分布位置,计算机系统会根据预测表征信息中的一些特定标记或者特征值来确定威胁情报实体在网络威胁情报训练文本中的位置。例如,在预测表征信息中,如果某个特征值与特定的威胁情报实体(如“恶意软件”)有很强的关联,计算机系统可以通过回溯这个特征值在处理过程中的来源,确定“恶意软件”这个词元在原始网络威胁情报训练文本中的位置,这个位置就是训练实体分布位置。
关于训练实体分布特征,计算机系统会从预测表征信息中提取与威胁情报实体位置相关的其他特征信息。例如,如果预测表征信息中包含了与“恶意软件”这个威胁情报实体相关的语义特征向量(可能是经过前面步骤中的词向量模型、特征转换等操作得到的),这个语义特征向量中的各个维度值就可以作为训练实体分布特征的一部分。另外,预测表征信息中可能还包含与“恶意软件”相关的其他词元的关系特征,如与“攻击”这个词元的关联程度等,这些关系特征也会被视为训练实体分布特征。这些训练实体分布特征能够进一步描述威胁情报实体在其分布位置上的特性,为后续步骤(如步骤S200等)中生成预测实体概率分布序列等操作提供必要的数据基础。
作为一种实施方式,威胁实体识别网络根据两个决策组件分别对转换表征信息进行全连接映射,基于此,步骤S150,依据预测表征信息得到网络威胁情报训练文本中包含的威胁情报实体的训练实体分布位置,以及训练实体分布位置对应的训练实体分布特征,可以包括:
步骤S151:依据其中一个决策组件输出的预测表征信息,获得网络威胁情报训练文本中包含的威胁情报实体的训练实体分布位置;
步骤S152:依据另外一个决策组件输出的预测表征信息,获得训练实体分布位置对应的训练实体分布特征。
步骤S151中,计算机系统利用威胁实体识别网络中的一个决策组件输出的预测表征信息来确定威胁情报实体的训练实体分布位置。首先,需要明确预测表征信息是计算机系统在前面步骤(如步骤S140)中通过对转换表征信息进行全连接映射得到的。这个预测表征信息包含了关于网络威胁情报训练文本中各种潜在威胁情报实体的综合信息。
决策组件是威胁实体识别网络的一部分,它的作用是根据输入的信息(这里是预测表征信息)做出决策,以识别出威胁情报实体的相关信息。例如,决策组件可能是一个基于神经网络的分类器,它可以根据预测表征信息中的特征来判断哪些部分可能是威胁情报实体。
以网络威胁情报训练文本“2023年5月10日,来自IP地址192.168.1.100的恶意软件通过端口8080对公司服务器发起SQL注入攻击。”为例,决策组件输出的预测表征信息可能包含与各个词元(如“2023年5月10日”、“IP地址”、“恶意软件”等)相关的特征向量。对于识别威胁情报实体的训练实体分布位置,计算机系统会在这个预测表征信息中寻找与特定实体相关的标识。假设决策组件输出的预测表征信息中,与“IP地址”这个词元对应的特征向量在整个向量序列中有一个特定的索引或者编码模式。计算机系统可以根据这个索引或者编码模式回溯到原始的网络威胁情报训练文本,确定“IP地址192.168.1.100”在文本中的位置,这个位置就是“IP地址”这个威胁情报实体的训练实体分布位置。
一种可能的技术手段是建立索引映射机制。在对网络威胁情报训练文本进行处理时,计算机系统为每个词元在不同的处理阶段(如词向量生成、特征转换等)都建立相应的索引。当决策组件输出预测表征信息时,其中与威胁情报实体相关的特征向量也带有相应的索引信息。计算机系统可以根据这个索引信息,通过查找预先建立的索引映射表,找到该实体在原始文本中的位置。例如,如果预测表征信息中“恶意软件”对应的特征向量的索引为i,计算机系统在索引映射表中查找索引i对应的原始文本中的位置,从而确定“恶意软件”这个威胁情报实体的训练实体分布位置。
在步骤S152中,计算机系统依据威胁实体识别网络中另外一个决策组件输出的预测表征信息来获取训练实体分布位置对应的训练实体分布特征。这里的另外一个决策组件与步骤S151中的决策组件在功能上有所不同,它主要负责提取与已确定的训练实体分布位置相关的特征信息。
继续以上述网络威胁情报训练文本为例,当在步骤S151中确定了“恶意软件”这个威胁情报实体的训练实体分布位置后,计算机系统需要获取关于这个实体在该位置上的训练实体分布特征。另外一个决策组件输出的预测表征信息可能包含更详细的关于实体特征的信息。例如,这个决策组件输出的预测表征信息中,与“恶意软件”对应的部分可能包含其语义特征、与其他词元的关联特征等。
从语义特征方面来说,假设使用了词向量模型来表示词元的语义信息,对于“恶意软件”这个词元,其词向量中的各个维度值就构成了部分语义特征。例如,如果词向量是一个300维的向量,每个维度可能表示不同的语义属性(如与特定类型恶意软件的相似性、恶意软件的功能属性等)。这些语义特征就是训练实体分布特征的一部分。
在关联特征方面,决策组件输出的预测表征信息可能包含“恶意软件”与其他词元(如“攻击”、“服务器”等)的关联程度信息。一种可能的表示方式是通过计算它们之间的相关性系数。设为“恶意软件”对应的特征向量,为“攻击”对应的特征向量,它们之间的相关性系数r可以通过公式来计算。这个相关性系数就反映了“恶意软件”与“攻击”之间的关联特征,也是训练实体分布特征的一部分。
计算机系统通过分析另外一个决策组件输出的预测表征信息中的这些语义特征、关联特征等信息,从而获取到训练实体分布位置对应的训练实体分布特征。这些训练实体分布特征能够更全面地描述威胁情报实体在其分布位置上的特性,为后续步骤(如步骤S200等)中基于训练实体分布特征生成预测实体概率分布序列等操作提供了必要的数据基础,有助于提高整个基于网络威胁情报分析的安全防护方法的准确性和有效性。
作为另一种实施方式,步骤S100中,根据威胁实体识别网络对网络威胁情报训练文本进行表征信息提取,执行得到网络威胁情报训练文本中包含的威胁情报实体的训练实体分布位置,以及训练实体分布位置对应的训练实体分布特征,可以包括:
步骤S100A:挖掘网络威胁情报训练文本的文本表征信息;
步骤S100B:通过表征信息还原映射组件基于预定实体表征信息集合对文本表征信息进行还原映射,得到还原映射表征信息集合;其中,还原映射表征信息集合中的还原映射表征信息与预定实体表征信息集合中的实体表征信息彼此对应;
步骤S100C:基于还原映射表征信息集合,推理得到多个推理结果;
步骤S100D:多个推理结果与还原映射表征信息集合中的还原映射表征信息彼此对应;每个推理结果包括训练实体分布位置、与分布位置对应的训练实体分布特征、以及分布位置对应的位置中的实体与多个推理结果中分布位置对应的位置中的多个实体之间的相关性;
步骤S100E:基于相关性和训练实体分布特征,确定对应的位置中有实体的训练实体分布位置,以及对多个实体中存在相关性的实体的训练实体分布位置进行合并,得到训练实体识别结果。
在步骤S100A中,计算机系统首先要挖掘网络威胁情报训练文本的文本表征信息。网络威胁情报训练文本是包含网络威胁相关信息的文本数据,例如“在近期的网络监测中,发现来自IP地址10.0.0.1的可疑流量,疑似与恶意软件感染相关,目标指向公司内部网络的服务器群组。”这样的文本包含了如攻击源(IP地址10.0.0.1)、攻击可能的结果(恶意软件感染)以及攻击目标(公司内部网络的服务器群组)等潜在的威胁情报实体信息。
挖掘文本表征信息是一个从原始文本中提取有意义特征的过程。计算机系统可以采用多种技术手段来实现。一种可行的方法是词袋模型(Bag-of-Words)。在这种模型下,计算机系统会将文本看作是一个词的集合,忽略词序,只关注词的出现频率。例如,对于上述网络威胁情报训练文本,经过词袋模型处理后,会得到一个包含各个单词(如“网络”、“监测”、“IP地址”、“可疑流量”等)及其出现次数的向量表示。然而,词袋模型存在局限性,它没有考虑词序和语义关系。
为了克服这些局限性,计算机系统还可以采用基于神经网络的方法,如词向量模型(如Word2Vec)。Word2Vec能够将每个单词映射到一个低维的向量空间中,在这个向量空间中,语义相似的单词距离更近。例如,“恶意软件”和“病毒”这两个词在Word2Vec生成的向量空间中的向量会比较接近。通过这种方式,计算机系统可以挖掘出网络威胁情报训练文本中每个词元(单词或特定的字符组合)更丰富的语义表征信息。除了单词级别的表征,计算机系统还可能挖掘句子级别的表征信息。例如,使用循环神经网络(RNN)或其变体(如长短期记忆网络LSTM或门控循环单元GRU)来处理句子中的单词序列,从而捕捉句子中的语义和语法结构信息,这些信息也是文本表征信息的一部分。
在步骤S100B中,计算机系统利用表征信息还原映射组件来处理在步骤S100A中得到的文本表征信息。这里的预定实体表征信息集合是一个预先定义好的集合,它包含了与网络威胁情报相关的各种实体的典型表征信息。例如,对于网络威胁中的攻击源实体,预定实体表征信息集合可能包含不同类型IP地址(如公有IP、私有IP)的表征信息、常见恶意软件名称的表征信息等;对于攻击目标实体,可能包含各种服务器类型(如Web服务器、数据库服务器)、网络服务(如HTTP服务、FTP服务)等的表征信息。
计算机系统首先基于文本表征信息得到索引表征信息(即KEY)和内容表征信息(即VALUE)。例如,在使用某种基于哈希表的数据结构来存储文本表征信息时,索引表征信息可以是根据文本中的单词或词元经过哈希函数计算得到的索引值,这个索引值用于快速定位和检索。内容表征信息则是与这个索引值对应的单词或词元的详细表征信息,可能包括其词向量、词性等信息。
然后,计算机系统基于预定实体表征信息集合得到实体表征信息。假设预定实体表征信息集合是以数据库形式存储的,计算机系统可以通过查询操作获取与网络威胁情报相关的各种实体的表征信息。例如,查询“攻击源-IP地址”类型的实体表征信息,可能会得到关于不同IP地址范围、IP地址所属地区等相关的表征信息。
最后,计算机系统将实体表征信息、索引表征信息和内容表征信息输入表征信息还原映射组件。这个组件的功能是根据输入的信息找到文本表征信息与预定实体表征信息集合之间的映射关系,从而得到还原映射表征信息集合。例如,如果在网络威胁情报训练文本中有一个IP地址“10.0.0.1”,在文本表征信息中它有相应的索引表征信息和内容表征信息,表征信息还原映射组件会根据预定实体表征信息集合中关于IP地址的实体表征信息,将“10.0.0.1”这个IP地址在文本中的表征信息映射到预定实体表征信息集合中的相关表征信息上,得到关于这个IP地址在网络威胁情报实体方面更全面、更规范的还原映射表征信息,这些还原映射表征信息构成了还原映射表征信息集合。
在步骤S100C中,计算机系统基于在步骤S100B中得到的还原映射表征信息集合进行推理操作。还原映射表征信息集合中的每个还原映射表征信息都包含了关于网络威胁情报实体的详细信息,这些信息为推理提供了基础。
计算机系统可以采用基于规则的推理方法。例如,在网络威胁情报中,如果存在一条规则:“如果攻击源的IP地址属于某个特定的私有IP地址范围,并且目标是特定类型的服务器,那么可能存在内部网络攻击风险。”计算机系统会在还原映射表征信息集合中查找关于攻击源IP地址和攻击目标服务器的还原映射表征信息,然后根据这条规则进行推理。如果在还原映射表征信息集合中发现攻击源的IP地址“10.0.0.1”属于某个特定的私有IP地址范围,并且攻击目标是公司内部的数据库服务器,那么计算机系统就可以得出存在内部网络攻击风险的推理结果。
除了基于规则的推理,计算机系统还可以采用基于概率的推理方法。例如,假设已知在某些网络环境下,特定类型的恶意软件(通过还原映射表征信息集合中的恶意软件还原映射表征信息识别)攻击特定类型服务器(同样通过还原映射表征信息识别)的概率为p。计算机系统可以根据这个概率以及还原映射表征信息集合中的相关信息,计算在当前网络威胁情报训练文本所描述的场景下,发生这种攻击的可能性,从而得到相应的推理结果。通过这些不同的推理方法,计算机系统可以得到多个推理结果,这些推理结果反映了从不同角度对网络威胁情报训练文本中潜在威胁的分析。
在步骤S100D中,计算机系统处理得到的多个推理结果与还原映射表征信息集合中的还原映射表征信息是相互对应的关系。对于每个推理结果,它包含了重要的信息。
训练实体分布位置是指在网络威胁情报训练文本中,威胁情报实体所在的位置信息。例如,在前面提到的网络威胁情报训练文本“在近期的网络监测中,发现来自IP地址10.0.0.1的可疑流量,疑似与恶意软件感染相关,目标指向公司内部网络的服务器群组。”中,如果“10.0.0.1”这个IP地址是一个推理结果中的威胁情报实体,那么它在文本中的位置(如第几个单词开始到第几个单词结束)就是训练实体分布位置。
与分布位置对应的训练实体分布特征是描述这个实体在该位置上的一些特性。继续以“10.0.0.1”为例,其训练实体分布特征可能包括这个IP地址的类型(私有IP)、它在网络中的角色(可能是攻击源)等信息。这些特征可以从还原映射表征信息集合中与这个IP地址对应的还原映射表征信息中获取,也可以通过其他相关的技术手段得到。例如,如果计算机系统通过查询外部的IP地址数据库得知“10.0.0.1”所属的网络运营商等信息,这也可以作为训练实体分布特征的一部分。
分布位置对应的位置中的实体与多个推理结果中分布位置对应的位置中的多个实体之间的相关性反映了不同实体之间的关系。例如,在上述网络威胁情报训练文本中,如果有两个推理结果,一个是关于“10.0.0.1”(攻击源)的,另一个是关于“公司内部网络的服务器群组”(攻击目标)的,那么这两个实体之间存在着攻击与被攻击的关系,这种关系可以通过计算它们之间的相关性来量化。一种可能的计算相关性的方法是使用信息增益(Information Gain)。设S是整个网络威胁情报训练文本的信息熵,S_1是在已知“10.0.0.1”这个实体情况下文本的信息熵,S_2是在已知“公司内部网络的服务器群组”这个实体情况下文本的信息熵,那么这两个实体之间的相关性(信息增益)IG=S-S_1-S_2。通过这种方式,每个推理结果都包含了实体的位置、特征以及与其他实体的相关性等全面的信息。
在步骤S100E中,计算机系统基于在步骤S100D中得到的相关性和训练实体分布特征来确定最终的训练实体分布位置和训练实体识别结果。首先,计算机系统会根据相关性来筛选和确定真正有意义的训练实体分布位置。例如,如果在多个推理结果中,某个实体的训练实体分布位置虽然被多次提及,但与其他实体的相关性很低(根据前面计算的相关性指标,如信息增益),那么计算机系统可能会认为这个位置上的实体不太可能是真正的威胁情报实体,从而排除这个位置或者降低这个位置的权重。
然后,对于多个实体中存在相关性的实体的训练实体分布位置进行合并。例如,在网络威胁情报训练文本中,可能有多个地方提到了与某个恶意软件相关的信息,如在描述攻击源时提到了恶意软件的名称,在描述攻击过程中提到了恶意软件的传播方式等。这些不同位置的关于恶意软件的信息都是相关的,计算机系统会将这些与恶意软件相关的训练实体分布位置进行合并,形成一个更完整的关于这个恶意软件的训练实体分布位置描述。
通过这种基于相关性和训练实体分布特征的处理,计算机系统得到训练实体识别结果。这个结果包含了经过筛选和合并后的威胁情报实体的训练实体分布位置以及相应的训练实体分布特征,为后续步骤(如步骤S200等)提供了必要的数据基础,有助于提高整个基于网络威胁情报分析的安全防护方法的准确性和有效性。
计算机系统通过步骤S100A-S100E的操作,从网络威胁情报训练文本中以一种不同于传统方式的方法获取威胁情报实体的训练实体分布位置和训练实体分布特征,这种方法综合考虑了文本的多种信息以及实体之间的关系,为基于网络威胁情报分析的安全防护体系提供了更全面、准确的数据支持。
作为一种实施方式,其中,步骤S100B,通过表征信息还原映射组件基于预定实体表征信息集合对文本表征信息进行还原映射,得到还原映射表征信息集合,可以包括:
步骤S100B1:基于文本表征信息得到索引表征信息和内容表征信息;
步骤S100B2:基于预定实体表征信息集合得到实体表征信息;
步骤S100B3:将实体表征信息、索引表征信息和内容表征信息输入表征信息还原映射组件,得到表征信息还原映射组件输出的还原映射表征信息集合。
在步骤S100B1中,计算机系统首先要基于已经挖掘到的网络威胁情报训练文本的文本表征信息来获取索引表征信息和内容表征信息。文本表征信息是在前面步骤(如步骤S100A)中通过各种技术手段从原始网络威胁情报训练文本中提取出来的信息,它包含了文本中词元(单词或特定字符组合)的多种特征表示。
计算机系统获取索引表征信息的一种常见技术手段是通过哈希函数。例如,对于文本表征信息中的每个词元,计算机系统可以将其转换为一个特定的哈希值作为索引表征信息。假设有一个简单的哈希函数h(x),对于词元x,计算得到的h(x)就是它的索引表征信息。以网络威胁情报训练文本“来自IP地址192.168.1.1的恶意软件对目标服务器发起攻击”为例,对于“IP地址”这个词元,经过哈希函数计算得到一个特定的哈希值,这个哈希值就作为“IP地址”这个词元的索引表征信息。哈希函数的优点是能够快速地将数据映射到一个固定大小的索引空间,便于快速查找和存储。
在获取内容表征信息方面,计算机系统会根据文本表征信息中与词元相关的各种特征来构建。继续以上述例子为例,“IP地址”这个词元的内容表征信息可能包括它的词性(名词)、在词向量模型中的向量表示(如果使用了Word2Vec等词向量模型,这个向量可能表示了“IP地址”与其他相关词汇在语义空间中的关系)、以及在句子中的语法角色(在这里可能是攻击源的一部分)等信息。这些内容表征信息全面地描述了“IP地址”这个词元在网络威胁情报训练文本中的特征。
计算机系统还可以通过其他技术手段来获取索引表征信息和内容表征信息。例如,在处理文本表征信息时,如果使用了树形结构(如语法树)来表示句子结构,那么可以根据词元在树形结构中的位置来生成索引表征信息,而内容表征信息则可以包括词元在树形结构中的父子节点关系、兄弟节点关系等信息,这些关系信息有助于更深入地理解词元在句子中的语义和语法角色。
另外,对于位置嵌入(Position Embedding)技术在获取索引表征信息和内容表征信息中的应用也值得一提。在处理网络威胁情报训练文本时,词元在文本中的位置也是一种重要信息。例如,对于“恶意软件”这个词元,如果它在文本中的位置靠前,可能与文本开头描述的攻击源有更紧密的联系;如果位置靠后,可能与攻击结果或后续处理相关。计算机系统可以通过位置嵌入技术将词元的位置信息编码到一个向量中,这个向量可以作为内容表征信息的一部分,同时也可以根据这个向量生成索引表征信息。例如,位置嵌入函数p(i)可以根据词元在文本中的位置i生成一个特定的向量,这个向量既可以作为内容表征信息,也可以经过进一步处理(如与词元本身的哈希值组合)成为索引表征信息。
在步骤S100B2中,计算机系统要基于预定实体表征信息集合来获取实体表征信息。预定实体表征信息集合是一个预先定义好的包含与网络威胁情报相关的各种实体的典型表征信息的集合。这个集合是经过精心构建的,旨在为识别网络威胁情报中的实体提供标准的参考信息。
例如,对于网络威胁中的攻击源实体,预定实体表征信息集合可能包含不同类型IP地址(如公有IP、私有IP)的详细表征信息。对于公有IP地址,实体表征信息可能包括其地址范围(如特定的IP段)、所属的网络组织(如互联网服务提供商)、以及在网络安全中的常见用途(如用于对外提供服务的服务器的IP地址)等信息。对于私有IP地址,实体表征信息可能包括其在本地网络中的角色(如内部办公网络的IP地址)、与网络边界设备(如路由器)的关系等信息。
对于攻击目标实体,预定实体表征信息集合可能包含各种服务器类型(如Web服务器、数据库服务器)、网络服务(如HTTP服务、FTP服务)等的表征信息。以Web服务器为例,其实体表征信息可能包括其运行的操作系统类型(如Linux、Windows)、所使用的Web服务器软件(如Apache、IIS)、以及可行的安全配置(如是否开启防火墙、访问控制列表等)等信息。对于网络服务,如HTTP服务,实体表征信息可能包括其协议版本(如HTTP/1.1、HTTP/2)、支持的请求方法(如GET、POST)等信息。
计算机系统可以通过查询操作从预定实体表征信息集合中获取实体表征信息。如果预定实体表征信息集合是以数据库形式存储的,计算机系统可以使用SQL查询语句来获取所需的实体表征信息。例如,如果要获取关于特定IP地址范围的攻击源实体表征信息,计算机系统可以执行类似“SELECT * FROM attack_source WHERE ip_range='特定IP范围'”的SQL查询语句,其中“attack_source”是存储攻击源实体表征信息的表名,“ip_range”是表中的一个字段,用于存储IP地址范围信息。通过这种查询操作,计算机系统能够准确地获取与网络威胁情报相关的各种实体的表征信息,为后续的还原映射操作提供必要的基础。
在步骤S100B3中,计算机系统将在前面步骤中获取的实体表征信息、索引表征信息和内容表征信息输入到表征信息还原映射组件中。这个组件的功能是建立文本表征信息与预定实体表征信息集合之间的映射关系,从而得到还原映射表征信息集合。
表征信息还原映射组件可以采用多种技术手段来实现这种映射关系。一种可能的方式是基于规则的匹配。例如,对于网络威胁情报训练文本中的“IP地址192.168.1.1”,其索引表征信息(哈希值)、内容表征信息(词性、词向量等)以及从预定实体表征信息集合中获取的关于IP地址的实体表征信息(如IP地址范围、所属网络等)被输入到表征信息还原映射组件中。如果存在一条规则:“如果IP地址属于192.168.0.0-192.168.255.255这个范围,并且词性为名词,且在词向量空间中与其他网络相关词汇有特定的距离关系,则将其映射到本地网络中的私有IP地址类型的还原映射表征信息”,那么根据这条规则,表征信息还原映射组件就会将“IP地址192.168.1.1”的文本表征信息映射到相应的还原映射表征信息上。
另一种可能的技术手段是基于机器学习模型的映射。例如,可以构建一个神经网络模型,将实体表征信息、索引表征信息和内容表征信息作为输入特征,经过神经网络的多层处理,输出还原映射表征信息。假设这个神经网络模型有输入层、隐藏层和输出层。输入层接收实体表征信息、索引表征信息和内容表征信息的向量表示,经过隐藏层中的神经元的非线性变换(如使用ReLU函数作为激活函数),在输出层输出还原映射表征信息的向量表示。这个向量表示包含了关于网络威胁情报实体在预定实体表征信息集合中的更全面、更准确的映射信息,这些信息构成了还原映射表征信息集合。
通过这种方式,表征信息还原映射组件对输入的各种信息进行处理,将网络威胁情报训练文本中的词元的文本表征信息与预定实体表征信息集合中的实体表征信息进行匹配和映射,从而得到还原映射表征信息集合。这个还原映射表征信息集合中的每个还原映射表征信息都包含了关于网络威胁情报实体更全面、更准确的信息,为后续步骤(如步骤S100C等)中的推理操作提供了重要的数据基础,有助于提高整个基于网络威胁情报分析的安全防护方法的准确性和有效性。
计算机系统通过步骤S100B1-S100B3的操作,从文本表征信息出发,结合预定实体表征信息集合,通过表征信息还原映射组件得到还原映射表征信息集合,这一过程在基于网络威胁情报分析的安全防护体系中起着重要的作用。
作为一种实施方式,其中,步骤S100B1,基于文本表征信息得到索引表征信息和内容表征信息,可以包括:
步骤S100B11:对网络威胁情报训练文本进行位置嵌入,得到位置表征信息;
步骤S100B12:对位置表征信息和文本表征信息进行整合,得到整合表征信息;
步骤S100B13:基于整合表征信息得到索引表征信息和内容表征信息。
在步骤S100B11中,计算机系统对网络威胁情报训练文本进行位置嵌入操作以得到位置表征信息。位置嵌入是一种将词元(单词或特定字符组合)在文本中的位置信息编码为向量的技术手段。在网络威胁情报训练文本中,词元的位置对于理解文本的语义和实体关系具有重要意义。
例如,考虑网络威胁情报训练文本“2023年5月10日,恶意软件通过端口8080攻击了公司服务器。”对于其中的词元“恶意软件”,它在文本中的位置是第三个词元(假设从左到右计数)。计算机系统通过位置嵌入技术将这个位置信息转换为一个向量。一种可行的位置嵌入方法是正弦-余弦位置嵌入(Sinusoidal Positional Embedding)。
设文本的长度为n,词元的位置为pos,向量的维度为d,对于维度i(i=0,1,…,d-1),如果i为偶数,则位置表征信息向量的第i个元素;如果i为奇数,则。以d=512为例,对于“恶意软件”这个词元在位置pos=3时,计算机系统可以根据上述公式计算出一个512维的位置表征信息向量。这个向量将词元的位置信息以一种连续的、可学习的方式编码,使得模型能够更好地捕捉词元之间的顺序关系。
位置嵌入的优点在于它能够为模型提供位置信息,而无需像传统的位置编码方式(如简单的序号编码)那样可能存在局限性。例如,简单的序号编码可能只是将位置表示为一个整数,而正弦-余弦位置嵌入向量能够在不同的维度上反映出位置的周期性和相对性等更复杂的关系,这对于处理网络威胁情报这种具有复杂语义结构的文本非常有帮助。
在步骤S100B12中,计算机系统将在步骤S100B11中得到的位置表征信息和之前获取的文本表征信息进行整合,从而得到整合表征信息。文本表征信息是通过之前的操作(如词向量模型、语法分析等)从网络威胁情报训练文本中提取出来的关于词元的各种特征信息。
例如,对于“恶意软件”这个词元,其文本表征信息可能包括通过Word2Vec得到的词向量(假设是一个300维的向量,表示“恶意软件”与其他词汇在语义空间中的关系),以及通过词性标注得到的词性(名词)等信息。而在步骤S100B11中得到的位置表征信息是一个512维的向量(按照前面提到的正弦-余弦位置嵌入计算得到)。
计算机系统可以采用多种方式进行整合。一种简单的方式是直接将这两个向量进行拼接(concatenation)。对于“恶意软件”这个词元,将300维的文本表征信息向量和512维的位置表征信息向量拼接在一起,得到一个812维的整合表征信息向量。这种拼接方式简单直接,能够将位置信息和文本的语义、语法等特征信息合并在一起,使得后续的操作能够同时利用这两种信息。
另一种可能的整合方式是加权求和。设文本表征信息向量为x,位置表征信息向量为y,计算机系统可以定义权重α和β(α+β=1),整合表征信息向量z=αx+βy。例如,α=0.6,β=0.4,那么z=0.6x+0.4y。这种加权求和的方式可以根据实际情况调整位置信息和文本特征信息在整合表征信息中的重要性。通过整合位置表征信息和文本表征信息,计算机系统得到的整合表征信息能够更全面地描述词元在网络威胁情报训练文本中的特性,为后续获取索引表征信息和内容表征信息提供了更丰富的基础。
在步骤S100B13中,计算机系统基于在步骤S100B12中得到的整合表征信息来获取索引表征信息和内容表征信息。索引表征信息是用于快速定位和检索词元的标识,而内容表征信息则是对词元更详细、全面的特征描述。
对于索引表征信息,计算机系统可以采用一种基于聚类的方法。首先,将所有词元的整合表征信息看作是高维空间中的点。然后,使用聚类算法(如K-均值聚类算法)将这些点聚类成若干个簇。假设聚类的结果得到k个簇,对于每个词元的整合表征信息,计算机系统确定它所属的簇编号作为索引表征信息的一部分。例如,“恶意软件”这个词元的整合表征信息经过聚类后被划分到第3个簇,那么3就可以作为索引表征信息的一部分。此外,还可以将簇内的相对位置(如在簇内按照某种距离度量计算得到的排名)也加入到索引表征信息中,进一步细化索引标识。
在获取内容表征信息方面,计算机系统直接将整合表征信息作为内容表征信息的基础。除了整合表征信息本身包含的信息(如来自文本表征信息的语义、语法特征和来自位置表征信息的位置特征),计算机系统还可以对整合表征信息进行进一步的分析和处理。例如,可以计算整合表征信息与其他相关词元(如与“恶意软件”相关的“攻击”、“服务器”等词元)的整合表征信息之间的相关性系数。设“恶意软件”的整合表征信息为A,“攻击”的整合表征信息为B,它们之间的相关性系数,其中n是整合表征信息向量的维度,和分别是A和B的均值。这个相关性系数可以作为内容表征信息的一部分,用于描述“恶意软件”与其他词元的关系特征。
通过这种方式,计算机系统基于整合表征信息得到了索引表征信息和内容表征信息。这些信息将在后续的步骤(如步骤S100B2和S100B3)中与实体表征信息一起被用于构建还原映射表征信息集合,从而为整个基于网络威胁情报分析的安全防护方法提供重要的数据支持,有助于更准确地识别网络威胁情报中的实体及其关系。
计算机系统通过步骤S100B11-S100B13的操作,从对网络威胁情报训练文本的位置嵌入开始,经过与文本表征信息的整合,最终得到索引表征信息和内容表征信息,这一过程为后续基于预定实体表征信息集合进行还原映射等操作奠定了坚实的基础,在整个基于网络威胁情报分析的安全防护体系中具有重要意义。
作为一种实施方式,步骤S300,获取网络威胁情报训练文本对应的先验实体概率分布序列,可以包括:
步骤S310:获取网络威胁情报训练文本中包含的威胁情报实体的注释实体分布位置,以及预设的先验实体分布特征,将注释实体分布位置作为高斯分布中心,依据先验实体分布特征建立高斯模型,获得网络威胁情报训练文本对应的先验实体概率分布序列;
或者;
步骤S310A:根据事先调试完成的实体概率分布序列构建网络,根据实体概率分布序列构建网络生成网络威胁情报训练文本对应的先验实体概率分布序列。
在步骤S310中,计算机系统首先要获取网络威胁情报训练文本中包含的威胁情报实体的注释实体分布位置。注释实体分布位置是一种预先标记好的关于威胁情报实体在文本中的位置信息。例如,在一份网络威胁情报训练文本“攻击者利用恶意软件从IP地址192.168.1.100向目标服务器10.0.0.1发起攻击,攻击方式为DDoS攻击”中,对于“192.168.1.100”这个攻击源的IP地址(威胁情报实体),它在文本中的起始位置(例如第几个字符开始)和结束位置(第几个字符结束)就是注释实体分布位置。这些注释可能是由人工标注或者基于之前已经准确识别的结果生成的。
同时,计算机系统还需要预设的先验实体分布特征。先验实体分布特征是对威胁情报实体在其分布位置周围的一些特征的预先设定的描述。例如,对于IP地址这种威胁情报实体,先验实体分布特征可能包括该IP地址所属的地址段在历史网络威胁事件中的出现频率、与其他相关实体(如特定类型的恶意软件或攻击目标)的关联频率等。假设在历史数据中,来自某个特定IP地址段的攻击源在与特定类型的恶意软件结合时发生攻击的概率较高,这就是一种先验实体分布特征。
然后,计算机系统将注释实体分布位置作为高斯分布中心。最后,依据先验实体分布特征建立高斯模型,获得网络威胁情报训练文本对应的先验实体概率分布序列。根据先验实体分布特征中的信息来确定高斯分布的标准差等参数。例如,如果先验实体分布特征表明某个威胁情报实体在其分布位置周围的分布比较分散(与其他实体的关联在较大范围内变化),那么标准差的值就会较大;反之,如果分布比较集中,标准差的值就较小。确定了均值和标准差后,计算机系统就可以根据高斯分布的概率密度函数计算不同取值下的概率,从而得到先验实体概率分布序列。例如,对于与“192.168.1.100”这个IP地址相关的其他实体(如可能的攻击目标、攻击方式等),计算机系统可以根据这个先验实体概率分布序列计算出在该IP地址周围出现不同攻击目标或攻击方式的概率,这个概率序列就是先验实体概率分布序列。
在步骤S310A中,计算机系统首先依赖于事先调试完成的实体概率分布序列构建网络。这个事先调试完成的实体概率分布序列是基于大量的先验知识或者之前的网络威胁情报数据进行构建和调试得到的。例如,在一个网络安全研究机构中,通过对海量的网络威胁情报数据进行分析,已经建立了一个关于各种网络威胁实体(如不同类型的攻击源、攻击目标、攻击方式等)之间概率关系的数据库,这个数据库中的数据经过处理和建模后就形成了事先调试完成的实体概率分布序列。
这个实体概率分布序列构建网络是一种专门设计的网络结构,它可以是基于神经网络(如卷积神经网络、循环神经网络等)或者其他统计模型构建的。以卷积神经网络(CNN)为例,网络的卷积层可以自动提取实体概率分布序列中的局部特征,池化层可以对这些特征进行压缩和聚合,全连接层可以将这些特征映射到最终的输出空间。这个网络结构的参数(如卷积核的大小、数量,神经元之间的连接权重等)是在之前的调试过程中确定的,目的是能够准确地根据输入的实体概率分布序列生成合适的输出。
当计算机系统要获取网络威胁情报训练文本对应的先验实体概率分布序列时,它将网络威胁情报训练文本输入到这个事先调试完成的实体概率分布序列构建网络中。例如,对于一份新的网络威胁情报训练文本“攻击者使用新型恶意软件攻击公司内部网络的数据库服务器”,这个文本被转化为适合网络输入的格式(如将文本中的词元转换为向量表示等)后,输入到实体概率分布序列构建网络中。
然后,根据实体概率分布序列构建网络生成网络威胁情报训练文本对应的先验实体概率分布序列。网络根据其内部的算法和参数设置,对输入的网络威胁情报训练文本进行处理,最终输出先验实体概率分布序列。这个输出的先验实体概率分布序列反映了在已有的先验知识(事先调试完成的实体概率分布序列)基础上,针对当前网络威胁情报训练文本中的威胁情报实体的概率分布情况。例如,网络可能输出在这种新型恶意软件出现的情况下,不同类型的数据库服务器成为攻击目标的概率,以及可能采用的攻击方式的概率等信息,这些概率构成了先验实体概率分布序列。
计算机系统通过步骤S310和步骤S310A这两种不同的实施方式,可以有效地获取网络威胁情报训练文本对应的先验实体概率分布序列。这一先验实体概率分布序列在整个基于网络威胁情报分析的安全防护方法中起着重要的作用,它为后续步骤(如与预测实体概率分布序列进行比较以确定网络调试误差等)提供了关键的参考依据,有助于提高网络威胁情报分析和安全防护的准确性和有效性。
作为一种实施方式,威胁实体识别网络还执行得到目标实体分布位置对应的多组目标实体分布特征和每一组目标实体分布特征对应的基础实体概率分布序列的目标组分影响系数,基于网络威胁情报分析的安全防护方法还可以包括:
步骤S500:依据多个目标组分影响系数的相加结果确定目标实体分布位置的概率;
步骤S600:当概率不小于预设的临界概率值时,根据目标实体分布位置进行实体的提取。
在步骤S500中,计算机系统需要依据多个目标组分影响系数的相加结果来确定目标实体分布位置的概率。目标组分影响系数反映了不同因素对目标实体分布位置的影响程度。这里的目标实体分布位置是指在目标网络威胁情报文本中,威胁情报实体所在的位置信息。
例如,在目标网络威胁情报文本“近期检测到来自IP地址10.0.0.1的异常流量,疑似与某种新型恶意软件有关,目标指向公司内部的财务服务器”中,对于“10.0.0.1”这个IP地址(威胁情报实体),它在文本中的位置就是目标实体分布位置。假设存在多组因素影响这个目标实体分布位置的概率确定。
目标组分影响系数可能与多种因素相关。一方面,它可能与实体的语义特征相关。例如,对于“10.0.0.1”这个IP地址,如果从语义角度看,它属于某个特定的私有IP地址段,而在历史网络威胁数据中,这个地址段与某些恶意软件有较高的关联度,那么这个语义特征对应的目标组分影响系数就会反映这种关联程度。假设这种关联程度通过对大量历史数据的统计分析得到一个量化的值,如0.3(表示这个语义特征对目标实体分布位置概率的影响权重为0.3)。
另一方面,目标组分影响系数还可能与实体的上下文关系相关。在上述文本中,“10.0.0.1”与“新型恶意软件”和“公司内部的财务服务器”存在上下文关系。如果通过分析发现,在类似的网络威胁场景中,当攻击源IP地址与特定类型的恶意软件和特定的攻击目标同时出现时,有一定的规律可循,那么这种上下文关系也会被量化为目标组分影响系数。例如,这种上下文关系对应的目标组分影响系数为0.5。
计算机系统将这些不同因素对应的目标组分影响系数相加。例如,将语义特征对应的0.3和上下文关系对应的0.5相加,得到0.8。这个相加结果用于确定目标实体分布位置的概率。一种简单的确定概率的技术手段是将这个相加结果直接作为概率值(在某些情况下可能需要进行归一化处理)。假设经过归一化(如果需要)后,这个概率值表示在当前目标网络威胁情报文本中,“10.0.0.1”这个IP地址作为威胁情报实体在其目标实体分布位置上的概率为0.8。这个概率反映了根据多种影响因素综合判断后,该实体在这个位置是真实威胁情报实体的可能性程度。
在步骤S600中,计算机系统要根据在步骤S500中确定的概率与预设的临界概率值进行比较,当概率不小于预设的临界概率值时,根据目标实体分布位置进行实体的提取。预设的临界概率值是一个预先设定的阈值,它是根据网络安全的需求和实际情况确定的。
例如,在一个对网络威胁情报要求较高准确性的场景中,预设的临界概率值可能设定为0.7。继续以上述目标网络威胁情报文本为例,如果在步骤S500中确定的“10.0.0.1”这个IP地址作为威胁情报实体在其目标实体分布位置上的概率为0.8(大于0.7),那么计算机系统就会根据这个目标实体分布位置进行实体的提取。
实体的提取过程涉及到从目标网络威胁情报文本中准确地获取与威胁情报实体相关的完整信息。对于“10.0.0.1”这个IP地址,计算机系统可能不仅仅是提取这个IP地址本身,还可能包括与它相关的上下文信息,如在文本中的相关描述“来自IP地址10.0.0.1的异常流量”。计算机系统可以通过定位目标实体分布位置(如确定IP地址在文本中的起始和结束字符位置),然后提取这个位置范围内的相关文本内容作为完整的威胁情报实体信息。
这种根据概率判断进行实体提取的方式有助于提高网络威胁情报分析的准确性。在实际的网络安全防护中,存在大量的网络威胁情报文本需要处理,如果不进行概率判断而直接提取可能会导致误判,将一些不是真正威胁情报实体的内容当作威胁情报进行处理,或者遗漏一些真正的威胁情报实体。通过设定临界概率值,计算机系统能够在一定程度上过滤掉低可能性的实体,同时确保高可能性的实体被准确提取,从而为后续的安全防护策略制定提供更可靠的依据。例如,如果提取到“10.0.0.1”这个IP地址及其相关信息作为威胁情报实体,安全防护系统可以针对这个IP地址采取相应的措施,如在防火墙中对来自这个IP地址的流量进行更严格的监控或者阻断等操作。
计算机系统通过步骤S500-S600的操作,在基于网络威胁情报分析的安全防护方法的衍生实施方式中,对目标网络威胁情报文本中的威胁情报实体进行更精确的概率判断和提取操作。这有助于提高整个网络威胁情报分析系统的准确性和有效性,为网络安全防护提供更有力的支持。
基于前述的实施例,本申请实施例提供一种基于网络威胁情报分析的安全防护装置,该装置所包括的各单元、以及各单元所包括的各模块,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(Central Processing Unit,CPU)、微处理器(Microprocessor Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)或现场可编程门阵列(Field Programmable GateArray,FPGA)等。
图2为本申请实施例提供的一种基于网络威胁情报分析的安全防护装置的组成结构示意图,如图2所示,基于网络威胁情报分析的安全防护装置200包括:
训练样本获取模块210,用于获取用作学习模板数据的网络威胁情报训练文本,根据威胁实体识别网络对所述网络威胁情报训练文本进行表征信息提取,执行得到所述网络威胁情报训练文本中包含的威胁情报实体的训练实体分布位置,以及所述训练实体分布位置对应的训练实体分布特征;
概率分布生成模块220,用于将所述训练实体分布位置作为高斯分布中心,依据所述训练实体分布特征生成所述训练实体分布位置对应的预测实体概率分布序列;
训练标签获取模块230,用于获取所述网络威胁情报训练文本对应的先验实体概率分布序列,其中,所述先验实体概率分布序列为所述威胁实体识别网络的调试参考标记;
网络调试模块240,用于依据所述预测实体概率分布序列和所述先验实体概率分布序列确定所述威胁实体识别网络的网络调试误差,依据所述网络调试误差调试所述威胁实体识别网络,直至所述威胁实体识别网络达到预设的调试停止条件,获得收敛的威胁实体识别网络;
网络调用模块250,用于获取待进行威胁情报实体识别的目标网络威胁情报文本,根据调试收敛的威胁实体识别网络对所述目标网络威胁情报文本进行表征信息提取,执行得到所述目标网络威胁情报文本中包含的威胁情报实体的目标实体分布位置,以便基于所述目标实体分布位置对应的实体内容,确定安全防护策略。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。在一些实施例中,本申请实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法,对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的,也可以是非瞬时性的。
图3为本申请实施例提供的一种计算机系统的硬件实体示意图,如图3所示,该计算机系统1000的硬件实体包括:处理器1001和存储器1002,其中,存储器1002存储有可在处理器1001上运行的计算机程序,处理器1001执行程序时实现上述任一实施例的方法中的步骤。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (10)
1.一种基于网络威胁情报分析的安全防护方法,其特征在于,包括:
获取用作学习模板数据的网络威胁情报训练文本,根据威胁实体识别网络对所述网络威胁情报训练文本进行表征信息提取,执行得到所述网络威胁情报训练文本中包含的威胁情报实体的训练实体分布位置,以及所述训练实体分布位置对应的训练实体分布特征;
将所述训练实体分布位置作为高斯分布中心,依据所述训练实体分布特征生成所述训练实体分布位置对应的预测实体概率分布序列;
获取所述网络威胁情报训练文本对应的先验实体概率分布序列,其中,所述先验实体概率分布序列为所述威胁实体识别网络的调试参考标记;
依据所述预测实体概率分布序列和所述先验实体概率分布序列确定所述威胁实体识别网络的网络调试误差,依据所述网络调试误差调试所述威胁实体识别网络,直至所述威胁实体识别网络达到预设的调试停止条件,获得收敛的威胁实体识别网络;
获取待进行威胁情报实体识别的目标网络威胁情报文本,根据调试收敛的威胁实体识别网络对所述目标网络威胁情报文本进行表征信息提取,执行得到所述目标网络威胁情报文本中包含的威胁情报实体的目标实体分布位置,以便基于所述目标实体分布位置对应的实体内容,确定安全防护策略;
其中,所述训练实体分布特征包括拟生成的基础实体概率分布序列中任一词元令牌的特征维度间的第一关联参数以及相邻位置特征的第二关联参数、所述基础实体概率分布序列中全部词元令牌的字符索引的位置分散度、所述基础实体概率分布序列中全部词元令牌的特征维度的特征分散度,所述将所述训练实体分布位置作为高斯分布中心,依据所述训练实体分布特征生成所述训练实体分布位置对应的预测实体概率分布序列,包括:
将所述基础实体概率分布序列中任一词元令牌的字符索引和特征维度作为多维特征向量,将所述训练实体分布位置作为高斯分布中心,依据所述第一关联参数、第二关联参数、所述位置分散度和所述特征分散度建立多成分概率模型,获得所述训练实体分布位置对应的所述基础实体概率分布序列;
依据所述基础实体概率分布序列得到所述训练实体分布位置对应的预测实体概率分布序列;
所述依据所述预测实体概率分布序列和所述先验实体概率分布序列确定所述威胁实体识别网络的网络调试误差,包括:
根据负对数似然误差函数确定所述预测实体概率分布序列与所述先验实体概率分布序列之间的第一误差值,根据交叉熵误差函数确定所述预测实体概率分布序列与所述先验实体概率分布序列之间的第二误差值;
依据所述第一误差值和所述第二误差值的相加结果确定所述威胁实体识别网络的网络调试误差;
所述获取所述网络威胁情报训练文本对应的先验实体概率分布序列,包括:
获取所述网络威胁情报训练文本中包含的威胁情报实体的注释实体分布位置,以及预设的先验实体分布特征,将所述注释实体分布位置作为高斯分布中心,依据所述先验实体分布特征建立高斯模型,获得所述网络威胁情报训练文本对应的先验实体概率分布序列;
或者,根据事先调试完成的实体概率分布序列构建网络,根据所述实体概率分布序列构建网络生成所述网络威胁情报训练文本对应的先验实体概率分布序列;
所述威胁实体识别网络还执行得到所述目标实体分布位置对应的多组目标实体分布特征和每一组所述目标实体分布特征对应的基础实体概率分布序列的目标组分影响系数,所述基于网络威胁情报分析的安全防护方法还包括:
依据多个所述目标组分影响系数的相加结果确定所述目标实体分布位置的概率;
当所述概率不小于预设的临界概率值时,根据所述目标实体分布位置进行实体的提取。
2.如权利要求1所述的方法,其特征在于,所述训练实体分布特征包括多组,所述威胁实体识别网络还执行得到每一组所述训练实体分布特征对应的所述基础实体概率分布序列的训练组分影响系数,所述依据所述基础实体概率分布序列得到所述训练实体分布位置对应的预测实体概率分布序列,包括:
依据所述训练组分影响系数对多个所述基础实体概率分布序列进行加权,获得所述训练实体分布位置对应的预测实体概率分布序列;
所述依据所述第一关联参数、第二关联参数、所述位置分散度和所述特征分散度建立多成分概率模型,获得所述训练实体分布位置对应的所述基础实体概率分布序列,包括:
依据所述关联参数、所述位置分散度和所述特征分散度确定分布的相关性二维数组;
依据所述相关性二维数组以及所述训练实体分布位置对所述多维特征向量进行归一化;
依据所述多维特征向量的归一化结果建立多成分概率模型,获得所述训练实体分布位置对应的所述基础实体概率分布序列。
3.如权利要求2所述的方法,其特征在于,所述依据所述第一误差值和所述第二误差值的相加结果确定所述威胁实体识别网络的网络调试误差,包括:
获取用于调整参数变化率的陡峭度的调节因子,依据所述调节因子对所述第一误差值进行软化处理,获得第三误差值;
依据所述第三误差值与所述第二误差值的相加结果确定所述威胁实体识别网络的网络调试误差。
4.如权利要求1所述的方法,其特征在于,所述根据威胁实体识别网络对所述网络威胁情报训练文本进行表征信息提取,执行得到所述网络威胁情报训练文本中包含的威胁情报实体的训练实体分布位置,以及所述训练实体分布位置对应的训练实体分布特征,包括:
将所述网络威胁情报训练文本加载到威胁实体识别网络;
对所述网络威胁情报训练文本进行表征信息挖掘,获得所述网络威胁情报训练文本的文本表征信息;
对所述文本表征信息进行特征转换,获得转换表征信息;
对所述转换表征信息进行全连接映射,获得预测表征信息;
依据所述预测表征信息得到所述网络威胁情报训练文本中包含的威胁情报实体的训练实体分布位置,以及所述训练实体分布位置对应的训练实体分布特征。
5.如权利要求4所述的方法,其特征在于,所述威胁实体识别网络根据两个决策组件分别对所述转换表征信息进行全连接映射,所述依据所述预测表征信息得到所述网络威胁情报训练文本中包含的威胁情报实体的训练实体分布位置,以及所述训练实体分布位置对应的训练实体分布特征,包括:
依据其中一个所述决策组件输出的所述预测表征信息,获得所述网络威胁情报训练文本中包含的威胁情报实体的训练实体分布位置;
依据另外一个所述决策组件输出的所述预测表征信息,获得所述训练实体分布位置对应的训练实体分布特征。
6.如权利要求1所述的方法,其特征在于,所述根据威胁实体识别网络对所述网络威胁情报训练文本进行表征信息提取,执行得到所述网络威胁情报训练文本中包含的威胁情报实体的训练实体分布位置,以及所述训练实体分布位置对应的训练实体分布特征,包括:
挖掘网络威胁情报训练文本的文本表征信息;
通过表征信息还原映射组件基于预定实体表征信息集合对所述文本表征信息进行还原映射,得到还原映射表征信息集合;其中,所述还原映射表征信息集合中的还原映射表征信息与所述预定实体表征信息集合中的实体表征信息彼此对应;
基于所述还原映射表征信息集合,推理得到多个推理结果;
多个所述推理结果与所述还原映射表征信息集合中的还原映射表征信息彼此对应;
每个所述推理结果包括训练实体分布位置、与所述分布位置对应的训练实体分布特征、以及所述分布位置对应的位置中的实体与多个所述推理结果中分布位置对应的位置中的多个实体之间的相关性;
基于所述相关性和所述训练实体分布特征,确定对应的位置中有实体的训练实体分布位置,以及对所述多个实体中存在相关性的实体的训练实体分布位置进行合并,得到训练实体识别结果。
7.如权利要求6所述的方法,其特征在于,所述通过表征信息还原映射组件基于预定实体表征信息集合对所述文本表征信息进行还原映射,得到还原映射表征信息集合,包括:
基于所述文本表征信息得到索引表征信息和内容表征信息;
基于所述预定实体表征信息集合得到实体表征信息;
以及将所述实体表征信息、所述索引表征信息和所述内容表征信息输入所述表征信息还原映射组件,得到所述表征信息还原映射组件输出的还原映射表征信息集合。
8.如权利要求7所述的方法,其特征在于,所述基于所述文本表征信息得到索引表征信息和内容表征信息,包括:
对所述网络威胁情报训练文本进行位置嵌入,得到位置表征信息;
对所述位置表征信息和所述文本表征信息进行整合,得到整合表征信息;
以及基于所述整合表征信息得到所述索引表征信息和所述内容表征信息。
9.一种基于网络威胁情报分析的安全防护装置,其特征在于,包括:
训练样本获取模块,用于获取用作学习模板数据的网络威胁情报训练文本,根据威胁实体识别网络对所述网络威胁情报训练文本进行表征信息提取,执行得到所述网络威胁情报训练文本中包含的威胁情报实体的训练实体分布位置,以及所述训练实体分布位置对应的训练实体分布特征;
概率分布生成模块,用于将所述训练实体分布位置作为高斯分布中心,依据所述训练实体分布特征生成所述训练实体分布位置对应的预测实体概率分布序列;
训练标签获取模块,用于获取所述网络威胁情报训练文本对应的先验实体概率分布序列,其中,所述先验实体概率分布序列为所述威胁实体识别网络的调试参考标记;
网络调试模块,用于依据所述预测实体概率分布序列和所述先验实体概率分布序列确定所述威胁实体识别网络的网络调试误差,依据所述网络调试误差调试所述威胁实体识别网络,直至所述威胁实体识别网络达到预设的调试停止条件,获得收敛的威胁实体识别网络;
网络调用模块,用于获取待进行威胁情报实体识别的目标网络威胁情报文本,根据调试收敛的威胁实体识别网络对所述目标网络威胁情报文本进行表征信息提取,执行得到所述目标网络威胁情报文本中包含的威胁情报实体的目标实体分布位置,以便基于所述目标实体分布位置对应的实体内容,确定安全防护策略;
其中,所述训练实体分布特征包括拟生成的基础实体概率分布序列中任一词元令牌的特征维度间的第一关联参数以及相邻位置特征的第二关联参数、所述基础实体概率分布序列中全部词元令牌的字符索引的位置分散度、所述基础实体概率分布序列中全部词元令牌的特征维度的特征分散度,所述将所述训练实体分布位置作为高斯分布中心,依据所述训练实体分布特征生成所述训练实体分布位置对应的预测实体概率分布序列,包括:
将所述基础实体概率分布序列中任一词元令牌的字符索引和特征维度作为多维特征向量,将所述训练实体分布位置作为高斯分布中心,依据所述第一关联参数、第二关联参数、所述位置分散度和所述特征分散度建立多成分概率模型,获得所述训练实体分布位置对应的所述基础实体概率分布序列;
依据所述基础实体概率分布序列得到所述训练实体分布位置对应的预测实体概率分布序列;
所述依据所述预测实体概率分布序列和所述先验实体概率分布序列确定所述威胁实体识别网络的网络调试误差,包括:
根据负对数似然误差函数确定所述预测实体概率分布序列与所述先验实体概率分布序列之间的第一误差值,根据交叉熵误差函数确定所述预测实体概率分布序列与所述先验实体概率分布序列之间的第二误差值;
依据所述第一误差值和所述第二误差值的相加结果确定所述威胁实体识别网络的网络调试误差;
所述获取所述网络威胁情报训练文本对应的先验实体概率分布序列,包括:
获取所述网络威胁情报训练文本中包含的威胁情报实体的注释实体分布位置,以及预设的先验实体分布特征,将所述注释实体分布位置作为高斯分布中心,依据所述先验实体分布特征建立高斯模型,获得所述网络威胁情报训练文本对应的先验实体概率分布序列;
或者,根据事先调试完成的实体概率分布序列构建网络,根据所述实体概率分布序列构建网络生成所述网络威胁情报训练文本对应的先验实体概率分布序列;
所述威胁实体识别网络还执行得到所述目标实体分布位置对应的多组目标实体分布特征和每一组所述目标实体分布特征对应的基础实体概率分布序列的目标组分影响系数,所述基于网络威胁情报分析的安全防护方法还包括:
依据多个所述目标组分影响系数的相加结果确定所述目标实体分布位置的概率;
当所述概率不小于预设的临界概率值时,根据所述目标实体分布位置进行实体的提取。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任一项所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411444563.XA CN119030787B (zh) | 2024-10-16 | 2024-10-16 | 基于网络威胁情报分析的安全防护方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411444563.XA CN119030787B (zh) | 2024-10-16 | 2024-10-16 | 基于网络威胁情报分析的安全防护方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN119030787A CN119030787A (zh) | 2024-11-26 |
CN119030787B true CN119030787B (zh) | 2024-12-20 |
Family
ID=93533843
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202411444563.XA Active CN119030787B (zh) | 2024-10-16 | 2024-10-16 | 基于网络威胁情报分析的安全防护方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN119030787B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN119232504B (zh) * | 2024-12-03 | 2025-03-04 | 印信数安(成都)科技有限公司 | 一种动态适应网络威胁模式的安全分析响应方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111552855A (zh) * | 2020-04-30 | 2020-08-18 | 北京邮电大学 | 一种基于深度学习的网络威胁情报自动抽取方法 |
CN114757193A (zh) * | 2022-04-11 | 2022-07-15 | 浙江工业大学 | 一种基于机器阅读理解的威胁情报命名实体识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9118702B2 (en) * | 2011-05-31 | 2015-08-25 | Bce Inc. | System and method for generating and refining cyber threat intelligence data |
CN115759092A (zh) * | 2022-10-13 | 2023-03-07 | 中国民航大学 | 一种基于albert的网络威胁情报命名实体识别方法 |
CN117729003B (zh) * | 2023-12-12 | 2025-03-18 | 福建云创信安信息科技有限公司 | 基于机器学习的威胁情报可信分析系统及方法 |
-
2024
- 2024-10-16 CN CN202411444563.XA patent/CN119030787B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111552855A (zh) * | 2020-04-30 | 2020-08-18 | 北京邮电大学 | 一种基于深度学习的网络威胁情报自动抽取方法 |
CN114757193A (zh) * | 2022-04-11 | 2022-07-15 | 浙江工业大学 | 一种基于机器阅读理解的威胁情报命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN119030787A (zh) | 2024-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | LSTM-based SQL injection detection method for intelligent transportation system | |
Chawla et al. | Host based intrusion detection system with combined CNN/RNN model | |
Vinayakumar et al. | Evaluating deep learning approaches to characterize and classify the DGAs at scale | |
Liu et al. | Web intrusion detection system combined with feature analysis and SVM optimization | |
Fang et al. | WOVSQLI: Detection of SQL injection behaviors using word vector and LSTM | |
Hussain et al. | CNN-Fusion: An effective and lightweight phishing detection method based on multi-variant ConvNet | |
Adhao et al. | Feature selection using principal component analysis and genetic algorithm | |
CN104809069A (zh) | 一种基于集成神经网络的源代码漏洞检测方法 | |
CN111931935B (zh) | 基于One-shot 学习的网络安全知识抽取方法和装置 | |
Zhang et al. | EX‐Action: Automatically Extracting Threat Actions from Cyber Threat Intelligence Report Based on Multimodal Learning | |
Chen et al. | A comparison of machine learning algorithms for detecting XSS attacks | |
CN119030787B (zh) | 基于网络威胁情报分析的安全防护方法、装置及存储介质 | |
Pan et al. | Webshell detection based on executable data characteristics of php code | |
Zhu et al. | CCBLA: a lightweight phishing detection model based on CNN, BiLSTM, and attention mechanism | |
CN113918936A (zh) | Sql注入攻击检测的方法以及装置 | |
US11784964B2 (en) | Machine learning-based DNS request string representation with hash replacement | |
CN117272142A (zh) | 一种日志异常检测方法、系统及电子设备 | |
Zhao et al. | IoT intrusion detection model based on gated recurrent unit and residual network | |
Pei et al. | Combining multi-features with a neural joint model for Android malware detection | |
CN118535951A (zh) | 基于深度学习动态靶场特征融合的sql攻击识别方法及系统 | |
CN112613032A (zh) | 基于系统调用序列的主机入侵检测方法及装置 | |
CN117938430A (zh) | 基于Bert模型的Webshell检测方法 | |
Vrejoiu | Neural networks and deep learning in cyber security | |
Xu et al. | [Retracted] IoT‐Oriented Distributed Intrusion Detection Methods Using Intelligent Classification Algorithms in Spark | |
Tenis | Modelling of an Adaptive Network Model for Phishing Website Detection Using Learning Approaches. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |