CN114220097A - 一种基于对抗攻击的图像语义信息敏感像素域的筛选方法及应用方法与系统 - Google Patents
一种基于对抗攻击的图像语义信息敏感像素域的筛选方法及应用方法与系统 Download PDFInfo
- Publication number
- CN114220097A CN114220097A CN202111555905.1A CN202111555905A CN114220097A CN 114220097 A CN114220097 A CN 114220097A CN 202111555905 A CN202111555905 A CN 202111555905A CN 114220097 A CN114220097 A CN 114220097A
- Authority
- CN
- China
- Prior art keywords
- image
- adversarial
- semantic information
- pixel domain
- sensitive pixel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 114
- 238000012216 screening Methods 0.000 title claims abstract description 58
- 238000013528 artificial neural network Methods 0.000 claims abstract description 42
- 230000008569 process Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 230000001537 neural effect Effects 0.000 claims 1
- 238000003062 neural network model Methods 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 5
- 238000012800 visualization Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于对抗攻击的图像语义信息敏感像素域的筛选方法及应用方法与系统,所述方法包括:1)获取待分析的目标图像,并将其作为输入图像;2)将输入图像输入至若干对抗攻击算法,并分别作用于若干类神经网络执行无特定目标攻击模式,进而生成若干个对抗样本;3)计算每个对抗样本与所述输入图像的差值得到对抗扰动;4)统计每个对抗扰动中被篡改的像素位置得到若干个扰动位置集;5)对扰动位置集中的像素点位置进行精选得到图像语义信息敏感像素域。本发明所述方法将对抗攻击算法和神经网络模型相结合,融合了多个扰动所定位的图像像素位置集,最终提高了图像语义信息敏感像素域的筛选效率和识别精度。
Description
技术领域
本发明属于图像语义信息分析技术,具体涉及一种基于对抗攻击的图像语义信息敏感像素域的筛选方法及应用方法与系统。
背景技术
随着海量数据的不断积累、计算能力的快速发展、机器学习方法的持续创新,包括深度卷积神经网络在内的人工智能技术在图像识别、目标检测、人脸识别等领域得到普遍部署和广泛应用,深刻影响着人们生活方式。然而,深度学习模型的“黑盒”属性带来了安全可信问题,呈现易受对抗样本欺骗的脆弱性,而且模型决策过程可解释性差,使得人工智能系统可用性和数据完整性受到严重挑战。研究图像语义信息敏感像素域的筛选方法,有助于定位图像中的特定目标和可视化图像哪一部分像素域最大化激活了深度卷积神经网络并在一定程度上可解释正确分类的决策过程。利用图像语义信息敏感像素域的可视化结果可以验证深度卷积神经网络“黑盒”决策的可信性,特别是在分类出现错误的情况下,是确保人工智能系统安全可信决策的重要途径。
为了标识用于表征图像类别的语义信息,现有研究往往利用多通道特征图加权融合而成的类激活图及其变体,或者采用梯度后向传播构建类别可区分的显著图。然而,一旦出现模型训练过拟合问题所引起的分类泛化能力不足或者模型遭受对抗攻击所诱发的误分类情形,这两类方法将失效,他们仅适用于深度卷积神经网络决策过程中没有遭受任何恶意攻击且具有高置信度的正确分类场景。另一类工作假设深度卷积神经网络具有强泛化性和高分类精度情况下,利用多种随机扰动图像像素点方法,如灰度框遮挡、抠图、变形等,用以标识哪一部分像素域对于最终分类得分的变化更加敏感和关键。这类工作试图采用逆向思维方法筛选图像语义信息敏感像素域,但普遍存在筛选效率较低、敏感像素域识别不准等缺点,进而亟需提出相关技术予以克服。
发明内容
本发明的目的是针对上述现有技术存在的至少部分问题/缺陷,提出一种基于对抗攻击的图像语义信息敏感像素域的筛选方法及应用方法与系统。所述方法面向多类深度神经网络的多种对抗攻击算法所构造的攻击扰动,融合多个扰动所定位的图像像素位置集,进而提高图像语义信息敏感像素域的筛选效率和识别精度,此外以执行无特定目标攻击模式来获取对抗样本,促使得到基于最优对抗扰动下的对抗样本,最终提高了图像语义信息敏感像素域的筛选精度。
一方面,本发明提供的一种基于对抗攻击的图像语义信息敏感像素域的筛选方法,其包括以下步骤:
步骤1:获取待分析的目标图像,并将其作为输入图像;
步骤2:将所述输入图像输入至若干对抗攻击算法,并分别作用于若干类神经网络执行无特定目标攻击模式,进而生成若干个对抗样本;其中,一类对抗攻击算法和一类神经网络至少对应一个对抗样本;
步骤3:计算每个对抗样本与所述输入图像的差值得到对抗扰动;
步骤4:统计每个对抗扰动中被篡改的像素位置得到若干个扰动位置集;
步骤5:对所述若干个扰动位置集中的像素点位置进行精选,筛选出图像语义信息敏感像素域,其中,在所有扰动位置集中各个像素点位置的出现频率/次数越高,落入图像语义信息敏感像素域的概率越大;或者扰动位置集中重叠区域越大时,其区域内的像素点落入图像语义信息敏感像素域的概率越大。
可选地,步骤5中筛选图像语义信息敏感像素域的过程为:
统计每个像素点位置在所有扰动位置集中的出现总次数;
若所述总次数超过预设阈值,对应像素点位置视为落入图像语义信息敏感像素域。
可选地,步骤5中筛选图像语义信息敏感像素域的过程为:
计算每两个扰动位置集的交集和并集;
采用交并比IoU方法计算每两个扰动位置集的IoU,并分别判断IoU是否大于预设值,若是,对应两个扰动位置集的交集中的像素点位置视为落入图像语义信息敏感像素域。
可选地,步骤5中采用至少两种不同的方法获取图像语义信息敏感像素域;再计算其并集得到表征图像语义信息的完全敏感像素域。
可选地,步骤2中每个对抗样本的生成过程如下:
步骤2-1:将所述输入图像输入至一类神经网络,得到正确类别值;
步骤2-2:添加对抗扰动至所述输入图像生成对抗样本,再送入神经网络获得扰动类别值;
步骤2-3:根据正常类别值与扰动类别值的差值构造优化损失函数,并基于所述优化损失函数计算对抗扰动梯度值;
步骤2-4:基于对抗扰动梯度值和不同攻击意图的对抗攻击算法生成新的当前最优对抗扰动Pk,其中,为每类对抗攻击算法设置各自适配的基于对抗扰动梯度值的对抗扰动更新方法;
步骤2-5:更新对抗扰动,再按照步骤2-2至步骤2-5循环迭代,直至实现无特定目标攻击意图得到基于最优对抗扰动下的对抗样本。
可选地,实现无特定目标攻击模式的标准为:
在对抗攻击作用下生成的对抗样本,使得神经网络将图像真实类别Yt误判为其他任一类别Yt’,满足:Yt’≠Yt。
第二方面,本发明还提供一种基于上述筛选方法的应用方法,其应用于误导分类,实现欺骗攻击或者应用于验证基于神经网络的图像分类/识别模型的决策可信性;
其中,应用于误导分类时,包括如下过程:
利用所述筛选方法获取图像语义信息敏感像素域;
篡改图像上所述图像语义信息敏感像素域内的像素,再利用基于神经网络的图像识别模型进行分类,实现分类误导;
应用于验证基于神经网络的图像分类/识别模型的决策可信性时,包括如下过程:
利用所述筛选方法获取图像语义信息敏感像素域,并得到基于神经网络的图像分类/识别模型的分类/识别结果;
将所述图像语义信息敏感像素域进行可视化操作,基于可视化结果验证神经网络的决策可信性。
第三方面,本发明还提供一种基于上述筛选方法的系统,其包括:
目标图像获取模块,用于获取待分析的目标图像,并将其作为输入图像;
对抗样本生成模块,用于将所述输入图像输入至若干对抗攻击算法,并分别作用于若干类神经网络执行无特定目标攻击模式,进而生成若干个对抗样本;其中,一类对抗攻击算法和一类神经网络至少对应一个对抗样本;
对抗扰动生成模块,用于计算每个对抗样本与所述输入图像的差值得到对抗扰动;
扰动位置集生成模块,用于统计每个对抗扰动中被篡改的像素位置得到若干个扰动位置集;
筛选模块,用于对所述若干个扰动位置集中的像素点位置进行精选,筛选出图像语义信息敏感像素域,其中,在所有扰动位置集中各个像素点位置的出现频率/次数越高,落入图像语义信息敏感像素域的概率越大;或者扰动位置集中重叠区域越大时,其区域内的像素点落入图像语义信息敏感像素域的概率越大。
第四方面,本发明还提供一种电子终端,其包括:
一个或多个处理器;
存储了一个或多个计算机程序的存储器;
所述处理器调用所述计算机程序以实现:
一种基于对抗攻击的图像语义信息敏感像素域的筛选方法的步骤或者基于筛选方法的应用方法的步骤。
第五方面,本发明提供一种计算机可读存储介质,其存储了计算机程序,所述计算机程序被处理器调用以实现:
一种基于对抗攻击的图像语义信息敏感像素域的筛选方法的步骤或者基于筛选方法的应用方法的步骤。
有益效果
1.本发明提供的一种基于对抗攻击的图像语义信息敏感像素域的筛选方法,其利用多种对抗攻击算法对同一张图像添加扰动进而生成对抗样本,误导高精度的神经网络发生错误分类。其中,对抗攻击算法作用于多类神经网络,是从不同攻击意图出发篡改了用于表征输入图像类别的语义信息,因此这些对抗扰动的交集体现了多种攻击意图的“最大共识”,自然蕴含了图像语义信息敏感像素域。基于上述理由,本发明融合多个扰动所定位的图像像素位置集来筛选图像语义信息敏感像素域,能够实现高效率、高精度筛选。
2.本发明执行无特定目标攻击模式来获取对抗样本,针对每个对抗样本,分别通过迭代优化的方式来获取当前最优扰动,进而得到基于最优扰动下的对抗样本,最终提高了图像语义信息敏感像素域的筛选精度。
3.本发明高精度以及高效率的筛选出图像语义信息敏感像素,为后续基于图像语义信息敏感像素的其他应用扩展奠定了基础。
附图说明
图1为本发明提供的一种基于对抗攻击的图像语义信息敏感像素域的筛选方法的总体流程图;
图2为本发明面向深度卷积神经网络的对抗攻击过程示意图;
图3为本发明图像语义信息敏感像素域生成过程示意图。
具体实施方式
本发明提供的一种基于对抗攻击的图像语义信息敏感像素域的筛选方法,其目的是筛选出图像语义信息敏感像素域。下面将结合实施例对本发明做进一步的说明。
实施例1:
如图1和图2所示,本实施例提供了一种基于对抗攻击的图像语义信息敏感像素域的筛选方法,包括以下步骤:
步骤1:获取待分析的目标图像,并将其作为输入图像。
步骤2:将所述输入图像输入至若干对抗攻击算法,并分别作用于若干类神经网络执行无特定目标攻击模式,进而生成若干个对抗样本。
其中,本实施例选择常用的高精度深度卷积神经网络组成攻击目标模型,其包括但是不局限于:AlexNet、VGG、ResNet、SqueezeNet、DenseNet、Inception v3、GoogLeNet、ShuffleNet v2、MobileNetV3、ResNeXt、MNASNet、EfficientNet、RegNet等。且本发明针对高精度深度卷积神经网络,预先基于ImageNet2012数据集进行训练以及验证,进而获得高精度分类性能。应当理解,本发明对涉及的该网络结构并未优化也并无技术约束,且利用神经网络实现分类也是现有技术,因此,对基于神经网络构建的分类模型的训练以及验证过程不进行具体陈述以及技术约束。其他可行的实施例中,能够实现分类功能的其他类型的神经网络也属于本发明的保护范围。
本实施例利用光学相机采集d张不同物体图像,组成测试数据集X;从测试数据集X随机选择图像作为输入图像Xt;选取m类常用高精度深度卷积神经网络组成攻击目标模型集M;将Xt分别输入到目标模型集M任一类深度卷积神经网络Mj,正确分类为类别Yt,其中,Yt=Mj(Xt)。
然后,选取n种常用高效力对抗攻击算法组成图像识别逃逸策略集N,并输入Xt至逃逸策略集N任一对抗攻击算法Ni。每种对抗攻击算法Ni分别作用于任一目标模型Mj,执行无特定目标攻击模式,形成K个“Xt—Ni—Mj”组合,错误分类为类别Yt’=Ni(Xt,,Mj),其中K=m*n;每组“Xt—Ni—Mj”分别生成一个对抗样本Lk,最终组成包含K个对抗样本的集合L。
其中,执行无特定目标攻击模式时,通过迭代更新对抗扰动,最终得到的满足无特定目标攻击模式的要求时的对抗扰动,被视为得到的最优对抗扰动,进而本发明执行无特定目标攻击模式可以得到基于最优对抗扰动下的对抗样本。且按照上述逻辑,针对任一图像,均结合若干类高精度深度卷积神经网络以及若干类对抗攻击算法,最终生成若干个对抗样本。
步骤3:计算每个对抗样本与所述输入图像的差值得到对抗扰动。本实施例中,每个对抗样本Lk分别减去输入图像Xt,获得一个对抗扰动Pk;基于所有对抗样本最终组成包含K个对抗扰动的集合P,其中,k=1,2,……,K。
步骤4:统计每个对抗扰动中被篡改的像素位置得到若干个扰动位置集。本实施例中可获得K个扰动位置集Q1,Q2,…,QK。
步骤5:对所述若干个扰动位置集中的像素点位置进行精选,筛选出图像语义信息敏感像素域,其中,在所有扰动位置集中各个像素点位置的出现频率/次数越高,落入图像语义信息敏感像素域的概率越大;或者扰动位置集中重叠区域越大时,其区域内的像素点落入图像语义信息敏感像素域的概率越大。
其中,基于上述扰动位置集中的像素点位置与图像语义信息敏感像素域的逻辑关系,本实施例提供三种筛选手段,但应当理解,在不脱离本发明构思以及上述逻辑关系的基础上,利用其他筛选手段确定的图像语义信息敏感像素域也是属于本发明的保护范围。
第一种:
1)遍历所有扰动位置集Q1,Q2,…,QK,分别计算每两个扰动位置集的交集和并集;
2)采用IoU(Intersection over Union,交并比)方法,记录IoU大于0.5所对应的两个扰动位置集的交集,该交集对应的像素点可视为落入图像语义信息敏感像素域。
应当理解,本实施例选择0.5作为评判标准,其他可行的实施例中,依据精度需求以及实验效果,可以对其取值进行适应性调整,本发明对此不进行具体的约束。
第二种:
1)遍历每个扰动位置集Qk(任一像素点最多被篡改一次),记录每个像素点位置出现的次数F(a,b),其中,(a,b)表示图像Xt的像素点坐标位置索引;
2)采用MV(Majority Voting,多数投票)方法,记录出现次数超过总数的2/3所对应的像素点,这些像素点可视为落入图像语义信息敏感像素域。
应当理解,本实施例选择2/3作为评判标准,其他可行的实施例中,依据精度需求以及实验效果,可以对其取值进行适应性调整,本发明对此不进行具体的约束。
第三种:
将前述第二种方法确定的图像语义信息敏感像素域作为第二类图像语义信息敏感像素域U2;即满足:F(2,3)/K>2/3,记为(2,3)∈U2;
然后将第一类敏感像素域和第二类敏感像素域的并集作为表征图像语义信息的完全敏感像素域。即U=U1∪U2。
其他可行的实施例中,优选对步骤1中的输入图像进行标准化处理,具体如下:
S1,利用OpenCV加载输入图像,将其转换为适用于PyTorch集成模型的RGB格式;
S2,调整输入图像长宽大小,使其适用于PyTorch集成模型的输入尺寸,例如(224,224);
S3,利用Xt=clip(Xt/255,0,1)标准化输入图像到[0,1],采用ImageNet2012数据集均值mean和方差std归一化处理,即Xt=(Xt-mean)/std;
S4,转换输入图像为适用于PyTorch集成模型的CWH格式,例如(3,224,224)。
需要说明的是,上述步骤S1-S4是其他可行的实施例中的优选方式,但是本发明并不局限于是否执行上述标准化处理。
其他可行的实施例中,优选步骤2中执行无特定目标攻击模式时,不断更新当前最优对抗扰动,具体如下:
S2-1:输入图像Xt至深度卷积神经网络Mj,获取正确类别值Yt,记为Yt=Mj(Xt)
S2-2:添加初始对抗扰动Pk到Xt,生成对抗样本Lk=Xt+Pk,再送至深度卷积神经网络Mj获取扰动类别值Yt’,记为Yt’=Mj(Lk);
S2-4:基于对抗扰动梯度值和不同攻击意图的对抗攻击算法Ni生成新的当前最优对抗扰动Pk,包括FGSM、PGD、JSMA、DeepFool、CW等。
针对任一类对抗攻击算法,均是利用对抗扰动梯度值更新对抗扰动,更新后的对抗扰动视为当前最优对抗扰动。其中,每一类对抗攻击算法选择哪一类更新方法是具有多种可行的方式,其可以根据精度要求以及算法特定来最终确定可选手段。譬如本实施例设置如下规则,但是应当理解,其他可行的实施例中,在满足各自精度要求的前提下,各类对抗攻击算法的对抗扰动更新规律可以选择其他方式,本发明对此不进行具体的约束,下述实例仅为举例说明。
本实施例中JSMA算法选择基于雅可比的显著图攻击方法:利用显著图概念在梯度矩阵中寻找输入特征对预测结果影响程度最大的像素点,其坐标记为(idx,idy),然后对这些像素点进行定量篡改,实现对抗攻击更新:Pk+1=Pk(idx,idy)+σ;
本实施例中DeepFool算法选择深度欺骗方法:利用对抗扰动大于输入图像与分类割平面垂直的最短距离即可实现误分类。首先利用梯度计算该最短距离rk,然后融入迭代公式Pk+1=Pk+rk。
S2-5:更新迭代对抗扰动,再按照步骤S2-2至S2-5循环迭代,直至实现无特定目标攻击意图得到基于最优对抗扰动下的对抗样本。其中,无特定目标攻击模式是指在对抗攻击作用下生成的对抗样本能够使深度卷积神经网络将图像真实类别Yt误判为其他任一类别Yt’,即Yt’≠Yt。
从上述内容可知,利用步骤S2-1至步骤S2-5的技术手段,可以获得基于最优对抗扰动下的对抗样本,从而提高图像语义信息敏感像素域的筛选精度。
基于上述图像语义信息敏感像素域的筛选方法,本发明还提供其应用方法,根据图像语义信息敏感像素域的特性,利用图像语义信息敏感像素域可以误导神经网络的图像分类以及验证基于神经网络的图像分类/识别模型的决策可信性。
其中,关于分类误导,首先利用所述筛选方法获取图像语义信息敏感像素域;然后篡改图像上所述图像语义信息敏感像素域内的像素,再利用基于神经网络的图像识别模型进行分类,实现分类误导。在实际应用中,分类误导在军事或其他领域,可以用于实现战术欺骗。应当理解,本发明并不约束如何进行战术欺骗,以及如何利用本发明提出的分类误导,其可以利用现有技术或者创造性的技术实现这应用拓展功能。
关于验证基于神经网络的图像分类/识别模型的决策可信性:首先,利用所述筛选方法获取图像语义信息敏感像素域,并得到基于神经网络的图像分类/识别模型的分类/识别结果;然后,将所述图像语义信息敏感像素域进行可视化操作,基于可视化结果验证神经网络的决策可信性。同理,本发明并不局限设定的用于验证决策可信性的评判标准,其可以采用本领域的常规标准或者其他现有或改进标准。
实施例2:
本实施例是基于一种基于对抗攻击的图像语义信息敏感像素域的筛选方法的系统,其包括:
目标图像获取模块,用于获取待分析的目标图像,并将其作为输入图像。
对抗样本生成模块,用于将所述输入图像输入至若干对抗攻击算法,并分别作用于若干类神经网络执行无特定目标攻击模式,进而生成若干个对抗样本;其中,一类对抗攻击算法和一类神经网络至少对应一个对抗样本。
对抗扰动生成模块,用于计算每个对抗样本与所述输入图像的差值得到对抗扰动。
扰动位置集生成模块,用于统计每个对抗扰动中被篡改的像素位置得到若干个扰动位置集。
筛选模块,用于对所述若干个扰动位置集中的像素点位置进行精选,筛选出图像语义信息敏感像素域,其中,在所有扰动位置集中各个像素点位置的出现频率/次数越高,落入图像语义信息敏感像素域的概率越大;或者扰动位置集中重叠区域越大时,其区域内的像素点落入图像语义信息敏感像素域的概率越大。
其中,各个模块的具体实现过程可以参照前述方法的内容,本发明对此不进行具体的赘述。
应当理解,上述功能模块单元的划分仅仅是一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。同时,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。譬如,目标图像获取模块,从硬件形式上可以理解其为相机,从软件上可以理解为与硬件设备连接的通讯模块,用于获取相机拍摄的图像或者用于获取外部硬件传输的图像。
实施例3:
本实施例提供一种电子终端,其包括:一个或多个处理器;存储了一个或多个计算机程序的存储器;其中,所述处理器调用所述计算机程序以实现:
一种基于对抗攻击的图像语义信息敏感像素域的筛选方法的步骤或者基于筛选方法的应用方法的步骤。
如实现一种基于对抗攻击的图像语义信息敏感像素域的筛选方法的步骤时,具体如下:
步骤1:获取待分析的目标图像,并将其作为输入图像。
步骤2:将所述输入图像输入至若干对抗攻击算法,并分别作用于若干类神经网络执行无特定目标攻击模式,进而生成若干个对抗样本。
步骤3:计算每个对抗样本与所述输入图像的差值得到对抗扰动。
步骤4:统计每个对抗扰动中被篡改的像素位置得到若干个扰动位置集。
步骤5:对所述若干个扰动位置集中的像素点位置进行精选,筛选出图像语义信息敏感像素域。
该电子终端还包括:通信接口,用于与外界设备进行通信,进行数据交互传输。
其中,存储器可能包含高速RAM存储器,也可能还包括非易失性除颤器,例如至少一个磁盘存储器。
如果存储器、处理器和通信接口独立实现,则存储器、处理器和通信接口可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构总线,外部设备互联总线或扩展工业标准体系结构总线等。所述总线可以分为地址总线、数据总线、控制总线等。
可选的,在具体实现上,如果存储器、处理器和通信接口集成在一块芯片上,则存储器、处理器即通信接口可以通过内部接口完成相互之间的通信。
各个步骤的具体实现过程请参照前述方法的阐述。
应当理解,在本发明实施例中,所称处理器可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。
实施例4:
本实施例提供一种计算机可读存储介质,其存储了计算机程序,所述计算机程序被处理器调用以实现:
一种基于对抗攻击的图像语义信息敏感像素域的筛选方法的步骤或者基于筛选方法的应用方法的步骤。
如实现一种基于对抗攻击的图像语义信息敏感像素域的筛选方法的步骤时,具体如下:
步骤1:获取待分析的目标图像,并将其作为输入图像。
步骤2:将所述输入图像输入至若干对抗攻击算法,并分别作用于若干类神经网络执行无特定目标攻击模式,进而生成若干个对抗样本。
步骤3:计算每个对抗样本与所述输入图像的差值得到对抗扰动。
步骤4:统计每个对抗扰动中被篡改的像素位置得到若干个扰动位置集。
步骤5:对所述若干个扰动位置集中的像素点位置进行精选,筛选出图像语义信息敏感像素域。
各个步骤的具体实现过程请参照前述方法的阐述。
所述可读存储介质为计算机可读存储介质,其可以是前述任一实施例所述的控制器的内部存储单元,例如控制器的硬盘或内存。所述可读存储介质也可以是所述控制器的外部存储设备,例如所述控制器上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述可读存储介质还可以既包括所述控制器的内部存储单元也包括外部存储设备。所述可读存储介质用于存储所述计算机程序以及所述控制器所需的其他程序和数据。所述可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的可读存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要强调的是,本发明所述的实例是说明性的,而不是限定性的,因此本发明不限于具体实施方式中所述的实例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,不脱离本发明宗旨和范围的,不论是修改还是替换,同样属于本发明的保护范围。
Claims (10)
1.一种基于对抗攻击的图像语义信息敏感像素域的筛选方法,其特征在于:包括以下步骤:
步骤1:获取待分析的目标图像,并将其作为输入图像;
步骤2:将所述输入图像输入至若干对抗攻击算法,并分别作用于若干类神经网络执行无特定目标攻击模式,进而生成若干个对抗样本;其中,一类对抗攻击算法和一类神经网络至少对应一个对抗样本;
步骤3:计算每个对抗样本与所述输入图像的差值得到对抗扰动;
步骤4:统计每个对抗扰动中被篡改的像素位置得到若干个扰动位置集;
步骤5:对所述若干个扰动位置集中的像素点位置进行精选,筛选出图像语义信息敏感像素域,其中,在所有扰动位置集中各个像素点位置的出现频率/次数越高,落入图像语义信息敏感像素域的概率越大;或者扰动位置集中重叠区域越大时,其区域内的像素点落入图像语义信息敏感像素域的概率越大。
2.根据权利要求1所述的方法,其特征在于:步骤5中筛选图像语义信息敏感像素域的过程为:
统计每个像素点位置在所有扰动位置集中的出现总次数;
若所述总次数超过预设阈值,对应像素点位置视为落入图像语义信息敏感像素域。
3.根据权利要求1所述的方法,其特征在于:步骤5中筛选图像语义信息敏感像素域的过程为:
计算每两个扰动位置集的交集和并集;
采用交并比IoU方法计算每两个扰动位置集的IoU,并分别判断IoU是否大于预设值,若是,对应两个扰动位置集的交集中的像素点位置视为落入图像语义信息敏感像素域。
4.根据权利要求1所述的方法,其特征在于:步骤5中采用至少两种不同的方法获取图像语义信息敏感像素域;再计算其并集得到表征图像语义信息的完全敏感像素域。
5.根据权利要求1所述的方法,其特征在于:步骤2中每个对抗样本的生成过程如下:
步骤2-1:将所述输入图像输入至一类神经网络,得到正确类别值;
步骤2-2:添加对抗扰动至所述输入图像生成对抗样本,再送入神经网络获得扰动类别值;
步骤2-3:根据正常类别值与扰动类别值的差值构造优化损失函数,并基于所述优化损失函数计算对抗扰动梯度值;
步骤2-4:基于对抗扰动梯度值不同攻击意图的对抗攻击算法生成新的当前最优对抗扰动,其中,为每类对抗攻击算法设置各自适配的基于对抗扰动梯度值的对抗扰动更新方法;
步骤2-5:更新对抗扰动,再按照步骤2-2至步骤2-5循环迭代,直至实现无特定目标攻击意图得到基于最优对抗扰动下的对抗样本。
6.根据权利要求1所述的方法,其特征在于:实现无特定目标攻击模式的标准为:
在对抗攻击作用下生成的对抗样本,使得神经网络将图像真实类别Yt误判为其他任一类别Yt’,满足:Yt’≠Yt。
7.一种基于权利要求1-6任一项所述筛选方法的应用方法,其特征在于:应用于误导分类或者应用于验证基于神经网络的图像分类/识别模型的决策可信性;
其中,应用于误导分类时,包括如下过程:
利用所述筛选方法获取图像语义信息敏感像素域;
篡改图像上所述图像语义信息敏感像素域内的像素,再利用基于神经网络的图像识别模型进行分类,实现分类误导;
应用于验证基于神经网络的图像分类/识别模型的决策可信性时,包括如下过程:
利用所述筛选方法获取图像语义信息敏感像素域,并得到基于神经网络的图像分类/识别模型的分类/识别结果;
将所述图像语义信息敏感像素域进行可视化操作,基于可视化结果验证神经网络的决策可信性。
8.一种基于权利要求1-6任一项所述筛选方法的系统,其特征在于:包括:
目标图像获取模块,用于获取待分析的目标图像,并将其作为输入图像;
对抗样本生成模块,用于将所述输入图像输入至若干对抗攻击算法,并分别作用于若干类神经网络执行无特定目标攻击模式,进而生成若干个对抗样本;其中,一类对抗攻击算法和一类神经网络至少对应一个对抗样本;
对抗扰动生成模块,用于计算每个对抗样本与所述输入图像的差值得到对抗扰动;
扰动位置集生成模块,用于统计每个对抗扰动中被篡改的像素位置得到若干个扰动位置集;
筛选模块,用于对所述若干个扰动位置集中的像素点位置进行精选,筛选出图像语义信息敏感像素域,其中,在所有扰动位置集中各个像素点位置的出现频率/次数越高,落入图像语义信息敏感像素域的概率越大;或者扰动位置集中重叠区域越大时,其区域内的像素点落入图像语义信息敏感像素域的概率越大。
9.一种电子终端,其特征在于:包括:
一个或多个处理器;
存储了一个或多个计算机程序的存储器;
所述处理器调用所述计算机程序以实现:
权利要求1-6任一项所述图像语义信息敏感像素域的筛选方法的步骤或者权利要求7所述的应用方法的步骤。
10.一种计算机可读存储介质,其特征在于:存储了计算机程序,所述计算机程序被处理器调用以实现:
权利要求1-6任一项所述图像语义信息敏感像素域的筛选方法的步骤或者权利要求7所述的应用方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111555905.1A CN114220097B (zh) | 2021-12-17 | 2021-12-17 | 一种基于对抗攻击的图像语义信息敏感像素域的筛选方法及应用方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111555905.1A CN114220097B (zh) | 2021-12-17 | 2021-12-17 | 一种基于对抗攻击的图像语义信息敏感像素域的筛选方法及应用方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114220097A true CN114220097A (zh) | 2022-03-22 |
CN114220097B CN114220097B (zh) | 2024-04-12 |
Family
ID=80703899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111555905.1A Active CN114220097B (zh) | 2021-12-17 | 2021-12-17 | 一种基于对抗攻击的图像语义信息敏感像素域的筛选方法及应用方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114220097B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114757336A (zh) * | 2022-04-06 | 2022-07-15 | 西安交通大学 | 深度学习模型对抗攻击敏感频带检测方法及相关装置 |
CN114821823A (zh) * | 2022-04-12 | 2022-07-29 | 马上消费金融股份有限公司 | 图像处理、人脸防伪模型的训练及活体检测方法和装置 |
WO2024027068A1 (zh) * | 2022-08-05 | 2024-02-08 | 深圳中集智能科技有限公司 | 评估目标检测模型鲁棒性的攻击方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144274A (zh) * | 2019-12-24 | 2020-05-12 | 南京航空航天大学 | 一种面向yolo检测器的社交图片隐私保护方法和装置 |
CN111414964A (zh) * | 2020-03-23 | 2020-07-14 | 上海金桥信息股份有限公司 | 一种基于对抗样本防御的图像安全识别方法 |
US20200285952A1 (en) * | 2019-03-08 | 2020-09-10 | International Business Machines Corporation | Quantifying Vulnerabilities of Deep Learning Computing Systems to Adversarial Perturbations |
CN112907552A (zh) * | 2021-03-09 | 2021-06-04 | 百度在线网络技术(北京)有限公司 | 图像处理模型的鲁棒性检测方法、设备及程序产品 |
-
2021
- 2021-12-17 CN CN202111555905.1A patent/CN114220097B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200285952A1 (en) * | 2019-03-08 | 2020-09-10 | International Business Machines Corporation | Quantifying Vulnerabilities of Deep Learning Computing Systems to Adversarial Perturbations |
CN111144274A (zh) * | 2019-12-24 | 2020-05-12 | 南京航空航天大学 | 一种面向yolo检测器的社交图片隐私保护方法和装置 |
CN111414964A (zh) * | 2020-03-23 | 2020-07-14 | 上海金桥信息股份有限公司 | 一种基于对抗样本防御的图像安全识别方法 |
CN112907552A (zh) * | 2021-03-09 | 2021-06-04 | 百度在线网络技术(北京)有限公司 | 图像处理模型的鲁棒性检测方法、设备及程序产品 |
Non-Patent Citations (2)
Title |
---|
吴哲夫 等: "一种利用对抗性学习提高推荐鲁棒性的算法", 小型微型计算机系统, vol. 42, no. 10, pages 2080 - 2084 * |
杨华 杨君刚等: "D-S证据理论在小型空地无人集群战场目标识别中的运用", 指挥控制与仿真, vol. 43, no. 5, pages 70 - 76 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114757336A (zh) * | 2022-04-06 | 2022-07-15 | 西安交通大学 | 深度学习模型对抗攻击敏感频带检测方法及相关装置 |
CN114821823A (zh) * | 2022-04-12 | 2022-07-29 | 马上消费金融股份有限公司 | 图像处理、人脸防伪模型的训练及活体检测方法和装置 |
CN114821823B (zh) * | 2022-04-12 | 2023-07-25 | 马上消费金融股份有限公司 | 图像处理、人脸防伪模型的训练及活体检测方法和装置 |
WO2024027068A1 (zh) * | 2022-08-05 | 2024-02-08 | 深圳中集智能科技有限公司 | 评估目标检测模型鲁棒性的攻击方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114220097B (zh) | 2024-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11275841B2 (en) | Combination of protection measures for artificial intelligence applications against artificial intelligence attacks | |
CN110851835B (zh) | 图像模型检测方法、装置、电子设备及存储介质 | |
CN114220097A (zh) | 一种基于对抗攻击的图像语义信息敏感像素域的筛选方法及应用方法与系统 | |
CN110706261A (zh) | 车辆违章检测方法、装置、计算机设备和存储介质 | |
CN112560753B (zh) | 基于特征融合的人脸识别方法、装置、设备及存储介质 | |
US11977626B2 (en) | Securing machine learning models against adversarial samples through backdoor misclassification | |
US8971646B1 (en) | Face and license plate detection in street level images with 3-D road width features estimated from laser data | |
CN114332982A (zh) | 一种人脸识别模型攻击防御方法、装置、设备及存储介质 | |
CN115223022B (zh) | 一种图像处理方法、装置、存储介质及设备 | |
CN113378982A (zh) | 一种图像处理模型的训练方法和系统 | |
CN111767879A (zh) | 一种活体检测方法 | |
CN114090985A (zh) | 区块链中用户操作权限的设置方法、装置和电子设备 | |
CN117274658A (zh) | 一种对抗样本生成方法及装置 | |
CN116383814A (zh) | 一种神经网络模型后门检测方法和系统 | |
Venkatachalam et al. | VIOLA jones algorithm with capsule graph network for deepfake detection | |
PK et al. | Fraud detection and prevention by face recognition with and without mask for banking application | |
Xu et al. | LanCeX: A versatile and lightweight defense method against condensed adversarial attacks in image and audio recognition | |
CN111476668B (zh) | 可信关系的识别方法、装置、存储介质和计算机设备 | |
CN118337456A (zh) | 一种基于多级混合特征分析的车联网入侵检测方法及系统 | |
You et al. | Tampering detection and localization base on sample guidance and individual camera device convolutional neural network features | |
CN117633793A (zh) | 一种恶意软件检测方法、装置、设备及介质 | |
Malik et al. | A novel deep learning-based method for real-time face spoof detection | |
CN115248916B (zh) | 一种基于图特征向量指导的后门模型检测方法 | |
Yuan | Enhancing Video Surveillance and Behavior Recognition With Deep Learning While Ensuring Privacy Protection | |
CN116824664B (zh) | 一种针对图像演示攻击的人脸活体检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |