CN118037641A - 基于双流特征提取多尺度图像篡改检测与定位方法 - Google Patents
基于双流特征提取多尺度图像篡改检测与定位方法 Download PDFInfo
- Publication number
- CN118037641A CN118037641A CN202410076328.5A CN202410076328A CN118037641A CN 118037641 A CN118037641 A CN 118037641A CN 202410076328 A CN202410076328 A CN 202410076328A CN 118037641 A CN118037641 A CN 118037641A
- Authority
- CN
- China
- Prior art keywords
- image
- detection
- positioning
- frequency domain
- rgb
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000000605 extraction Methods 0.000 title claims abstract description 17
- 230000007246 mechanism Effects 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000012360 testing method Methods 0.000 claims description 14
- 238000010586 diagram Methods 0.000 claims description 13
- 230000004807 localization Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims 2
- 230000006870 function Effects 0.000 description 36
- 238000011176 pooling Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 7
- 238000010200 validation analysis Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000008034 disappearance Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000011423 initialization method Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 1
- 101000827703 Homo sapiens Polyphosphoinositide phosphatase Proteins 0.000 description 1
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 1
- 102100023591 Polyphosphoinositide phosphatase Human genes 0.000 description 1
- 101100012902 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) FIG2 gene Proteins 0.000 description 1
- 101100233916 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) KAR5 gene Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及图像篡改检测技术领域,具体涉及一种基于双流特征提取多尺度图像篡改检测与定位方法,包括:获取不同篡改类型的待检测图像;构建篡改检测与定位模型;将待检测图像分别输入RGB流和频域流,提取待检测图像的RGB特征,提取待检测图像的频域特征,获得不同尺度的RGB特征图和频域特征图;将RGB特征图和频域特征图输入注意力机制模块,对篡改区域进行定位获得预测掩码;将RGB特征图和频域特征图输入检测模块,利用线性层对图像进行检测得到预测标签;构建损失函数,利用损失函数监督篡改检测与定位模型的训练过程;将待检测图像输入所述篡改检测与定位模型获得检测结果。本发明提升了图像篡改检测定位结果的精度。
Description
技术领域
本发明涉及图像篡改检测技术领域,具体涉及一种基于双流特征提取多尺度图像篡改检测与定位方法。
背景技术
随着各种图像编辑软件的出现,对数字图像进行篡改变得越来越容易,恶意攻击者可能会利目标移除,拼接替换,属性编辑来创建具有欺骗性内容的造假图像,再加由互联网快速传播,进而散布虚假信息,扰乱社会秩序,危害国家安全。图像篡改是指对图像内容进行的一系列处理操作,以改变图像的内容、外观或意义。恶意的图像篡改可能被用于欺骗观众或伪造信息,从而损害图像的可靠性和安全性。
目前使用最广泛的三种篡改类型为:复制移动、移除、剪切,图像篡改检测定位旨在检测这三种技术伪造的图像中的被篡改区域。随着图像采集设备的普及和多媒体技术的快速发展,篡改图像越来越不易被察觉,甚至能够以假乱真,使得眼见不再为实,所以对篡改图像的检测成为了一项当前紧要的任务。传统的图像篡改检测与定位方法没有充分利用频域流的特征信息,检测真实区域与篡改区域不一致性以及对语义不可知特征的捕捉能力较弱,导致检测定位的精度不足。
发明内容
为了解决现有方法对篡改检测定位的准确度较低的技术问题,本发明的目的在于提供一种基于双流特征提取多尺度图像篡改检测与定位方法,所采用的技术方案具体如下:
获取不同篡改类型的待检测图像;构建篡改检测与定位模型,包括RGB流和频域流、注意力机制模块、检测模块;
将待检测图像输入RGB流,提取待检测图像的RGB特征,获得不同尺度的RGB特征图;将待检测图像输入频域流,提取待检测图像的频域特征,获得不同尺度的频域特征图;
将RGB特征图和频域特征图输入注意力机制模块,对篡改区域进行定位,获得预测掩码;将RGB特征图和频域特征图输入检测模块,利用线性层对图像进行检测,得到预测标签;
根据所述预测掩码和所述预测标签构建损失函数,利用损失函数监督篡改检测与定位模型的训练过程;将待检测图像输入所述篡改检测与定位模型获得检测结果。
优选地,所述RGB流和频域流均以残差网络ResNet50为主干网络,所述待检测图像为256*256像素,利用残差网络ResNet50的四个层分别生成四个不同尺度的特征图像,四个尺度分别为256*256像素、128*128像素、64*64像素以及32*32像素。
优选地,所述预测掩码的获取方法具体为:
Mi+1=CBAM(Si+1·UpSample(Mi)),i=1,2,3
Mi=CBAM(Si),i=4
其中,Mi+1表示第i+1层输出的掩码图,CBAM()表示注意力机制模块的运算操作,Si+1表示第i+1层的全局特征图像,Mi表示第i层输出的掩码图,UpSample()表示上采样操作,·表示逐元素相乘;
根据第一层的全局特征图像和第二层输出的掩码图得到最终的预测掩码。
优选地,所述根据第一层的全局特征图像和第二层输出的掩码图得到最终的预测掩码具体为:
以由第一层的全局特征图像S1和第二层输出的掩码图M2生成的256*256像素的掩码图M1作为最终的预测掩码。
优选地,所述预测标签的获取方法具体为:
将不同尺度的全局特征图像上采样到相同尺度后进行拼接,将拼接后的图像输入具有稠密连接结构的卷积块中,然后通过两个线性层,利用SoftMax函数输出预测标签。
优选地,篡改检测与定位模型中检测任务的损失函数具体为:
Ld=Lbce(pd,ld)
其中,Ld表示检测任务的损失函数,Lbce()表示二值交叉熵函数,pd表示预测标签,ld表示图像的真实标签,0表示真实图像,1表示篡改图像。
优选地,篡改检测与定位模型中定位任务的损失函数具体为:
Lloc=Lbce(pm,lm)
其中,Lloc表示定位任务的损失函数,Lbce()表示二值交叉熵函数,pm表示预测掩码,lm表示图像的真实掩码,0表示真实像素,1表示篡改像素。
优选地,所述待检测图像按照5:1:1的比例分为训练集、验证集和测试集。
本发明实施例至少具有如下有益效果:
本发明根据现有的篡改图像,按照5:1:1的比例分为训练集、验证集和测试集;建立双流特征学习图像篡改检测模型,确定数据流向和训练流程;将处理好中的训练集输入至建立好的图像篡改检测与定位模型中对模型进行训练,并使用验证集进行验证;将处理好的测试集输入至训练后的图像篡改检测与定位模型,并选取合适的验证指标,验证模型的检测性能和定位性能;将测试集的图片进行高斯模糊,高斯噪声等处理,验证该图像篡改检测与定位模型的鲁棒性。本发明通过融合RGB特征与频域特征,构建篡改检测与定位模型,不仅能够提升图像篡改检测定位结果的精度,而且大幅度提高了跨数据集检测精度和模型的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明提供的一种基于双流特征提取多尺度图像篡改检测与定位方法的步骤流程图;
图2是本发明提供的篡改检测与定位模型的结构示意图;
图3是本发明提供的注意力机制模块的结构示意图;
图4是本发明提供的CBAM的结构示意图;
图5是本发明提供的通道注意力机制的结构示意图;
图6是本发明提供的空间注意力机制的结构示意图;
图7是本发明提供的检测模块的结构示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于双流特征提取多尺度图像篡改检测与定位方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于双流特征提取多尺度图像篡改检测与定位方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于双流特征提取多尺度图像篡改检测与定位方法的步骤流程图,该方法包括以下步骤:
步骤一,获取不同篡改类型的待检测图像;构建篡改检测与定位模型,包括RGB流和频域流、注意力机制模块、检测模块。
首先,获取到包括不同生成方式、不同格式、不同篡改类型的图像,对采集到图像进行预处理操作。
具体地,为了减少计算量,将图像重构为256像素*256像素;重构操作使用PIL库中的resize()函数,插值方法使用Bicubic插值方法。Bicubic插值方法是一种常用的二维空间中的像素位置上进行插值的一种方法图像插值技术,适用于图像的放大和缩小操作。它可以根据已知像素的位置和灰度值,通过计算来预测目标位置的像素值。
为了防止篡改检测与定位模型的训练过程中出现过拟合,对重构后的图像进行图像增强,图像增强包括:逆时针旋转90度、逆时针旋转180度、逆时针旋转270度、图像翻转、逆时针旋转90度后图像翻转、逆时针旋转180度后图像翻转和逆时针旋转270度后图像翻转共7种操作,对于每个图像,通过随机数生成一个0-7的整数,分别对应不进行图像增强和7中图像增强操作。
其中,逆时针旋转操作使用PIL库中的rotate(x,expend=True)函数实现,其中x表示逆时针旋转的度数,expend=True表示旋转后调整尺寸以适应图像。图像反转操作使用PIL库中的transpose(Image.FLIP_TOP_BOTTOM)函数实现,其中Image.FLIP_TOP_BOTTOM表示对图像进行上下翻转。
进一步的,将经过预处理后的图像记为待检测图像,并将所有待检测图像按照5:1:1的比例分为训练集、验证集和测试集。
构建篡改检测与定位模型,该模型包括RGB流和频域流、注意力机制模块、检测模块,该模型的具体组成如图2所示,使用约束卷积(Constrain Convolution)来提取输入图像的频域特征,将输入图像和通过约束卷积提取到的频域特征分别送入RGB流和频域流中,分别获取四个不同尺度的特征图,将RGB流和频域流大小对应的特征图按照元素位置相加,送入注意力机制模块和检测模块中,在注意力机制模块中通过通道和空间注意力机制对篡改部分进行定位,生成预测掩码;在检测模块中通过线性层对图像进行检测,生成预测标签。
步骤二,将待检测图像输入RGB流,提取待检测图像的RGB特征,获得不同尺度的RGB特征图;将待检测图像输入频域流,提取待检测图像的频域特征,获得不同尺度的频域特征图。
首先,在将待检测图像输入RGB流和频域流之前,使用约束卷积来提取待检测图像的频域特征。约束卷积直接从待检测图像中自适应学习频域流特征,具有更好的跨数据集性能和鲁棒性。在约束卷积层中,约束卷积核中心值为-1,卷积核其余部分的和为1,表示为:
其中,wk表示第k个卷积核,(0,0)表示第k个卷积核的中心,在训练模型时,更新wk参数并执行约束操作。
然后,将待检测图像和通过约束卷积提取到的频域特征分别送入RGB流和频域流中,RGB流和频域流均以残差网络ResNet50为主干网络。从ResNet50的四个Layer中获取四个不同尺度的特征图像,四个尺度分别为256*256像素、128*128像素、64*64像素以及32*32像素。所述残差网络是带有残差单元的网络,设输入图像为x,输出为H(x),中间经过卷积之后的输出为F(x)的非线性函数,传统的神经网络在层数增加时,可能会遇到梯度消失的问题,梯度消失意味着在损失反向传播过程中的梯度值变得非常小,导致网络难以学习。为了防止网络层数过多导致梯度消失问题,引入残差连接,残差连接直接传递输入到输出,即将输出F(x)与输入相加,输出H(x)可表示为:H(x)=F(x)+x。
这样解决了梯度消失的问题,不用担心出现模型收敛速度较慢的问题,使得网络更容易优化。同时模型以ResNet50为主干网络架构有以下优点:相较于ResNet18和ResNet101模型,ResNet50模型大小适中,既不会占用过多训练资源,又不会因为模型层数过少而使得学习特征的能力减弱。
进一步的,将待检测图像输入RGB流,提取待检测图像的RGB特征,获得不同尺度的RGB特征图。在本实施例中,直接把输入图像输入进RGB流,通过ResNet50网络提取图像的RGB特征;这些特征表达了图像中出现的操作信息。
将待检测图像输入频域流,提取待检测图像的频域特征,获得不同尺度的频域特征图。在篡改过程中,任何篡改都会在图像本身留下篡改痕迹,会破坏原图像频域流的特征一致性。频域流通过约束卷积层对输入图像进行预处理,然后利用ResNet50网络提取频域流特征,这些特征捕捉图像中的篡改痕迹特征和特征不一致性。
步骤三,将RGB特征图和频域特征图输入注意力机制模块,对篡改区域进行定位,获得预测掩码;将RGB特征图和频域特征图输入检测模块,利用线性层对图像进行检测,得到预测标签。
首先,将RGB流和频域流输出的相同尺度的RGB特征图和频域特征图逐元素相加,得到不同尺度的全局特征图像,送入注意力机制模块和检测模块中。
其中,将RGB特征图和频域特征图输入注意力机制模块,对篡改区域进行定位,获得预测掩码。本实施例注意力机制模块的结构示意图如图3所示,四个不同尺度的特征图像输入CBAMs模块即注意力机制模块,通过CBAMs模块对篡改区域进行定位,生成预测掩码,该工作流程可表示为:
Mi+1=CBAM(Si+1·UpSample(Mi)),i=1,2,3
Mi=CBAM(Si),i=4
其中,Mi+1表示第i+1层输出的掩码图,CBAM()表示注意力机制模块的运算操作,Si+1表示第i+1层的全局特征图像,Mi表示第i层输出的掩码图,UpSample()表示上采样操作,·表示逐元素相乘。i=4表示最底层的,尺度最小的特征图,i=1表示最顶层的,尺度最大的特征图。
将最低层的全局特征图像输入注意力机制模块,通过通道注意力机制和空间注意力机制生成32*32像素的预测掩码;除最低层之外的全局特征图像,使用前一层生成的预测掩码为先验,对先验进行上采样,与本层特征图相乘,分别生成64*64像素、128*128像素、256*256像素的预测掩码;最顶层的全局特征图像与第二层得到的预测掩码生成的256*256像素的预测掩码作为最终注意力机制模块输出的预测掩码。
具体地,对于特征图S4,直接将S4输入至CBAM模块中,通过通道和空间注意力机制生成32*32像素的预测掩码,从S3开始,以前一层生成的预测掩码为先验,上采样之后与本层特征图相乘,突出前一层预测掩码中预测的可能是篡改区域的部分,着重根据这部分特征对篡改区域进行定位,分别生成64*64像素、128*128像素、256*256像素的特征图,经过多尺寸逐步渐进式生成特征图,定位区域越来越细化。
根据第一层的全局特征图像和第二层输出的掩码图得到最终的预测掩码。具体地,以由第一层的全局特征图像S1和第二层输出的掩码图M2生成的256*256像素的掩码图M1作为最终的预测掩码。
这种结构使用了多尺寸的特征图,通过逐步生成的方式提高了对篡改区域的定位精度。CBAM模块在通道和空间上引入了注意力机制,有助于网络更加关注重要的特征。这样的结构在图像篡改检测任务中可能提供了更精准的预测。
然后,如图4示出了CBAM的结构示意图,CBAM是一个卷积神经网络的简单而有效的注意力模块。给定一个中间特征图,CBAM模块会沿着通道和空间两个独立的维度依次推断注意力图,然后将注意力图与输入特征图相乘以进行自适应特征优化。深度学习中的注意力机制(Attention)是一种模仿人类视觉和认知系统的方法,它允许神经网络在处理输入数据时集中注意力于相关的部分。通过引入注意力机制,神经网络能够自动地学习并选择性地关注输入中的重要信息,提高模型的性能和泛化能力。CBAM的工作流程可表示为:
Fc=Finput·CAM(Finput)
Foutput=Fc·SAM(Fc)
其中,Finput表示CBAM的输出特征图,CAM()表示CBAM中的通道注意力模块,Fc表示通道注意力模块的输出,SAM()表示CBAM中的空间注意力模块,Foutput表示CBAM模块的输出。CBAM块通过结合通道和空间维度的特征,提高了模型在定位方面的精度、跨数据集精度能力以及鲁棒性。
CBAM块中通道注意力模块的结构示意图如图5所示,在通道注意力模块中,对于输入的特征图,维持通道数不变,压缩空间维度,使模型更加关注于输入特征图中更有意义的特征信息。通道注意力模块的工作流程表示为:
Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))
其中,MLP()表示多层感知器,AvgPool()表示平均池化层,MaxPool()表示最大池化层,F表示通道注意力模块的输入,Mc(F)表示通道注意力模块的输出,σ()表示Sigmoid函数。通道注意力模块输入的特征图经过两个并行的最大池化层层和平均池化层,然后分别经过多层感知器模块后再经过激活函数得到两个结果。将这两个结果进行逐元素相加,再通过一个Sigmoid激活函数得到通道注意力模块的输出结果。
CBAM块中空间注意力模块的结构示意图如图6所示,与通道注意力模块相反,在空间注意力模块中,保持空间维度不变,压缩通道信息,使模型更加关注目标的位置信息。空间注意力模块的工作流程可表示为:
Ms(Fc)=σ(f7*7([AvgPool(Fc);MaxPool(Fc)]))
其中AvgPool()表示平均池化层,MaxPool()表示最大池化层,Fc表示通道注意力模块的输出,Ms(Fc)表示空间注意力模块的输出,σ()表示Sigmoid函数。空间注意力模块将平均池化层和最大池化层的输出进行拼接,然后通过一个7*7卷积,再通过一个Sigmoid激活函数得到空间注意力模块的输出结果。
进一步的,将RGB特征图和频域特征图输入检测模块,利用线性层对图像进行检测,得到预测标签。具体地,将不同尺度的全局特征图像上采样到相同尺度后进行拼接,将拼接后的图像输入具有稠密连接结构的卷积块中,然后通过两个线性层,利用SoftMax函数输出预测标签。
如图7所示为本实施例的检测模块的结构示意图,在检测模块中,将四个特征图上采样到统一尺寸后进行拼接,然后送入同样具有稠密连接结构的卷积块中,学习不同层次的特征,然后通过两个线性层,通过SoftMax函数输出检测结果,该过程可以表示为:
Label=SoftMax(L2(L1(Conv(S1;UpSample(S2);UpSample(S3);UpSample(S4))))
其中,Label表示检测输出的预测标签,SoftMax()表示SoftMax激活函数,L1、L2表示线性层,Conv()表示稠密卷积运算,UpSample()表示上采样操作。双流特征多尺度图像篡改检测与定位网络结构的特点是可以同时捕获图像中的RGB信息和噪声信息,从而提高定位和检测的精度以及跨数据集的精度和鲁棒性。
步骤四,根据所述预测掩码和所述预测标签构建损失函数,利用损失函数监督篡改检测与定位模型的训练过程;将待检测图像输入所述篡改检测与定位模型获得检测结果。
使用训练集参与篡改检测与定位模型的训练,在训练时采用验证集观测训练状态,直至完成预设训练轮次或者损失收敛于设定值,得到训练后的篡改检测与定位模型参数,使用测试集验证篡改检测与定位模型的精度。
在训练前,对模型的参数进行初始化,在初始化阶段,首先使用在ImageNet上预训练好的ResNet50的参数对模型中的RGB流和频域流部分进行初始化,对于模型的其他部分,则使用init.kaiming_normal_()函数进行初始化。不合适的初始化方式可能使模型在训练中出现梯度消失的问题,导致训练进度缓慢,init.kaiming_normal_()初始化方法可以有效防止出现梯度消失的问题。整体模型使用PyTorch框架实现,超参数设置为:batch_size为10,共训练25轮次,学习率为0.0003,每训练5轮次学习率减半,使用Adam优化器,训练设备使用Nvidia Quadro GV100 32GB。
在训练过程中,对于检测和定位任务,均可以视为二分类任务,损失函数均使用二值交叉熵函数。二值交叉熵损失函数被广泛应用于二值分类问题当中,是交叉熵损失函数的一种特殊形式。
在本实施例中,篡改检测与定位模型中检测任务的损失函数具体为:
Ld=Lbce(pd,ld)
其中,Ld表示检测任务的损失函数,Lbce()表示二值交叉熵函数,pd表示预测标签,ld表示图像的真实标签,0表示真实图像,1表示篡改图像。
篡改检测与定位模型中定位任务的损失函数具体为:
Lloc=Lbce(pm,lm)
其中,Lloc表示定位任务的损失函数,Lbce()表示二值交叉熵函数,pm表示预测掩码,lm表示图像的真实掩码,0表示真实像素,1表示篡改像素。
对于训练过程,batch size大小为10,即每次读取10张处理后的图像,其中包含5张真实图像和5张篡改图像,之后将数据送入网络中进行训练,生成预测掩码和预测标签,通过损失函数计算损失,再经由反向传播更新参数,直至训练指定轮数或者损失收敛到设定值。
获得训练好的模型后,将测试集输入模型中,生成预测掩码和预测标签,根据输出验证模型的检测和定位精度。为了评估模型的检测和定位精度,本实施例选取的评估指标包括:F1分数(F1)和AUC(Area Under Curve)。为了便于公式的介绍,现介绍几种基础变量:True Positive(TP)、False Positive(FP)、False Negative(FN)、True Negative(TN)、精确率(Precision)、召回率(Recall)。
图像篡改检测与定位任务可以被视为一个二分类任务,在二分类任务中具有正反两种标签,分别记为Positive和Negative。当正标签被预测为正标签时,记为TP;当正标签被预测为负标签时,记为FN;当负标签被预测为正标签时,记为FP;当负标签被预测为负标签时,记为TN。精确率和召回率的计算公式如下:
精确率和召回率分别从主观客观两个维度表示对正标签的预测效果,由此,F1分数的计算公式表示为:
进一步地,F1计算公式还可表示为:
在图像篡改检测与定位工作中,对于检测工作,将篡改图像定义为正标签1,将真实图像定义为负标签0;对于定位工作,篡改像素定义为正标签,由1像素表示,真实像素定义为负标签,由0像素表示。F1分数的值越大,表示检测精度越高。
对于AUC,AUC是一个用于二分类的评价指标,AUC表示的是ROC曲线下面区域的面积。ROC空间中,X轴为伪阳性率FPR,Y轴为真阳性率TPR。FPR和TPR的计算公式表示为:
对于AUC的计算,可以使用sklearn.metrics中的roc_auc_score(mask,pred)函数实现,其中mask表示真实掩码,pred表示预测掩码。AUC的值越大,表示检测精度越高。
在本实施例中,对于检测任务,可以使用图像级F1(Image_F1)和图像级AUC(Image_AUC)表示检测精度;对于定位任务,可以使用像素级F1(Pixel_F1)和像素级AUC(Pixel_AUC)表示定位精度。F1分数和AUC的值越大,表示精度越高。
最后,使用不同格式、不同处理方法、不同篡改类型的新测试集验证该图像篡改检测与定位模型的跨数据集性能。选取新的测试集,该测试集中相比于步骤一中的测试集,具有不同的来源,不同的后处理方法以及不同的篡改类型。将该新测试集输入进训练好的模型中,生成预测标签以及预测掩码,根据预测标签和预测掩码计算F1分数和AUC值,验证模型的检测和定位精度,与使用步骤一的测试数据集产生的F1分数和AUC值相比较,验证模型的跨数据集能力。
根据得到的测试指标结果以及鲁棒性和泛化性能力,对模型进行优化,提高该图像篡改检测与定位模型的检测性能和定位精度。在调整模型的参数时:根据F1分数、AUC值和损失值三个变量的变化曲线,判断是否出现过拟合和欠拟合的现象,如果出现,则通过调整训练时学习率的大小解决,继续进行实验直至最终找到一组实验参数使得损失值最小且F1分数、AUC值达到最大。
根据优化后的模型,对图像进行检测和定位。将需要待检测图像输入进优化后的网络中,网络根据输入待检测图像计算出预测掩码,检测待检测图像是否经过篡改并输出预测标签。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。
Claims (9)
1.一种基于双流特征提取多尺度图像篡改检测与定位方法,其特征在于,该方法包括以下步骤:
获取不同篡改类型的待检测图像;构建篡改检测与定位模型,包括RGB流和频域流、注意力机制模块、检测模块;
将待检测图像输入RGB流,提取待检测图像的RGB特征,获得不同尺度的RGB特征图;将待检测图像输入频域流,提取待检测图像的频域特征,获得不同尺度的频域特征图;
将RGB特征图和频域特征图输入注意力机制模块,对篡改区域进行定位,获得预测掩码;将RGB特征图和频域特征图输入检测模块,利用线性层对图像进行检测,得到预测标签;
根据所述预测掩码和所述预测标签构建损失函数,利用损失函数监督篡改检测与定位模型的训练过程;将待检测图像输入所述篡改检测与定位模型获得检测结果。
2.根据权利要求1所述的一种基于双流特征提取多尺度图像篡改检测与定位方法,其特征在于,所述RGB流和频域流均以残差网络ResNet50为主干网络,所述待检测图像为256*256像素,利用残差网络ResNet50的四个层分别生成四个不同尺度的特征图像,四个尺度分别为256*256像素、128*128像素、64*64像素以及32*32像素。
3.根据权利要求1所述的一种基于双流特征提取多尺度图像篡改检测与定位方法,其特征在于,所述将RGB特征图和频域特征图输入注意力机制模块具体为:将RGB特征图和频域特征图中相同尺度的特征图像逐元素相加,得到不同尺度的全局特征图像,输入注意力机制模块。
4.根据权利要求3所述的一种基于双流特征提取多尺度图像篡改检测与定位方法,其特征在于,所述预测掩码的获取方法具体为:
Mi+1=CBAM(Si+1·UpSample(Mi)),i=1,2,3
Mi=CBAM(Si),i=4
其中,Mi+1表示第i+1层输出的掩码图,CBAM()表示注意力机制模块的运算操作,Si+1表示第i+1层的全局特征图像,Mi表示第i层输出的掩码图,UpSample()表示上采样操作,·表示逐元素相乘;
根据第一层的全局特征图像和第二层输出的掩码图得到最终的预测掩码。
5.根据权利要求1所述的一种基于双流特征提取多尺度图像篡改检测与定位方法,其特征在于,所述根据第一层的全局特征图像和第二层输出的掩码图得到最终的预测掩码具体为:
以由第一层的全局特征图像S1和第二层输出的掩码图M2生成的256*256像素的掩码图M1作为最终的预测掩码。
6.根据权利要求3所述的一种基于双流特征提取多尺度图像篡改检测与定位方法,其特征在于,所述预测标签的获取方法具体为:
将不同尺度的全局特征图像上采样到相同尺度后进行拼接,将拼接后的图像输入具有稠密连接结构的卷积块中,然后通过两个线性层,利用SoftMax函数输出预测标签。
7.根据权利要求1所述的一种基于双流特征提取多尺度图像篡改检测与定位方法,其特征在于,篡改检测与定位模型中检测任务的损失函数具体为:
Ld=Lbce(pd,ld)
其中,Ld表示检测任务的损失函数,Lbce()表示二值交叉熵函数,pd表示预测标签,ld表示图像的真实标签,0表示真实图像,1表示篡改图像。
8.根据权利要求1所述的一种基于双流特征提取多尺度图像篡改检测与定位方法,其特征在于,篡改检测与定位模型中定位任务的损失函数具体为:
Lloc=Lbce(pm,lm)
其中,Lloc表示定位任务的损失函数,Lbce()表示二值交叉熵函数,pm表示预测掩码,lm表示图像的真实掩码,0表示真实像素,1表示篡改像素。
9.根据权利要求1所述的一种基于双流特征提取多尺度图像篡改检测与定位方法,其特征在于,所述待检测图像按照5:1:1的比例分为训练集、验证集和测试集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410076328.5A CN118037641A (zh) | 2024-01-18 | 2024-01-18 | 基于双流特征提取多尺度图像篡改检测与定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410076328.5A CN118037641A (zh) | 2024-01-18 | 2024-01-18 | 基于双流特征提取多尺度图像篡改检测与定位方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118037641A true CN118037641A (zh) | 2024-05-14 |
Family
ID=91001230
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410076328.5A Pending CN118037641A (zh) | 2024-01-18 | 2024-01-18 | 基于双流特征提取多尺度图像篡改检测与定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118037641A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118279306A (zh) * | 2024-06-03 | 2024-07-02 | 齐鲁工业大学(山东省科学院) | 一种边缘引导的双链多尺度图像伪造区域检测方法及系统 |
CN118711008A (zh) * | 2024-06-03 | 2024-09-27 | 武汉工程大学 | 一种基于跨窗口自注意力相关网络的图像篡改检测方法 |
CN118941761A (zh) * | 2024-07-24 | 2024-11-12 | 北京电子科技学院 | 一种融合边缘特征的可持续学习图像篡改定位方法及系统 |
-
2024
- 2024-01-18 CN CN202410076328.5A patent/CN118037641A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118279306A (zh) * | 2024-06-03 | 2024-07-02 | 齐鲁工业大学(山东省科学院) | 一种边缘引导的双链多尺度图像伪造区域检测方法及系统 |
CN118711008A (zh) * | 2024-06-03 | 2024-09-27 | 武汉工程大学 | 一种基于跨窗口自注意力相关网络的图像篡改检测方法 |
CN118711008B (zh) * | 2024-06-03 | 2025-02-28 | 武汉工程大学 | 一种基于跨窗口自注意力相关网络的图像篡改检测方法 |
CN118941761A (zh) * | 2024-07-24 | 2024-11-12 | 北京电子科技学院 | 一种融合边缘特征的可持续学习图像篡改定位方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Tang et al. | Median filtering detection of small-size image based on CNN | |
CN118037641A (zh) | 基于双流特征提取多尺度图像篡改检测与定位方法 | |
CN113077377B (zh) | 一种基于生成对抗网络的彩色图像隐写方法 | |
Yao et al. | CGNet: Detecting computer-generated images based on transfer learning with attention module | |
CN112150450A (zh) | 一种基于双通道U-Net模型的图像篡改检测方法及装置 | |
Mazumdar et al. | Universal image manipulation detection using deep siamese convolutional neural network | |
CN111476727A (zh) | 一种面向换脸视频检测的视频运动增强方法 | |
Gu et al. | FBI-Net: Frequency-based image forgery localization via multitask learning with self-attention | |
CN112861960A (zh) | 一种图像篡改检测方法、系统及存储介质 | |
Zhu et al. | Progressive feedback-enhanced transformer for image forgery localization | |
Mazumdar et al. | Two-stream encoder–decoder network for localizing image forgeries | |
Nawaz et al. | A deep learning model for FaceSwap and face-reenactment deepfakes detection | |
Bansal et al. | Deepfake detection using CNN and DCGANS to drop-out fake multimedia content: a hybrid approach | |
Anagha et al. | Audio deepfake detection using deep learning | |
Mazumdar et al. | Siamese convolutional neural network‐based approach towards universal image forensics | |
CN119206416A (zh) | 一种基于高分辨率网络的多特征融合图像伪造检测方法 | |
Ren et al. | EMF-Net: An edge-guided multi-feature fusion network for text manipulation detection | |
Dai et al. | DS‐Net: Dual supervision neural network for image manipulation localization | |
CN118154906A (zh) | 基于特征相似性和多尺度边缘注意力的图像篡改检测方法 | |
Huang et al. | Natural & adversarial bokeh rendering via circle-of-confusion predictive network | |
Zeng et al. | A parallel attention mechanism for image manipulation detection and localization | |
Tyagi et al. | ForensicNet: Modern convolutional neural network‐based image forgery detection network | |
CN117292169A (zh) | 基于对比学习的文档图像篡改定位和脱敏定位方法及终端 | |
Hwang et al. | Identification method for digital image forgery and filtering region through interpolation | |
CN114972062A (zh) | 一种基于平行自适应引导网络的图像修复模型及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |