CN111986180B

CN111986180B - 基于多相关帧注意力机制的人脸伪造视频检测方法

Info

Publication number: CN111986180B
Application number: CN202010851718.7A
Authority: CN
Inventors: 张勇东; 胡梓珩; 谢洪涛
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2021-07-06
Anticipated expiration: 2040-08-21
Also published as: CN111986180A

Abstract

本发明公开了一种基于多相关帧注意力机制的人脸伪造视频检测方法，对一个视频，采用多流结构，多帧作为输入。设计一种帧间注意力机制，计算各帧特征流之间的动态关联信息，与目标帧的帧内静态特征与帧间的动态特征融合，作为预测的依据，从视频整体角度判断是否存在人脸篡改。能够提升对伪造视频的检测精度，同时对画质下降、新的篡改方式具备鲁棒性。

Description

基于多相关帧注意力机制的人脸伪造视频检测方法

技术领域

本发明涉及伪造视频检测技术领域，尤其涉及一种基于多相关帧注意力机制的人脸伪造视频检测方法。

背景技术

随着深度学习尤其是GAN(生成式对抗网络)等技术的发展，最近产生了许多视频人脸篡改的方法及程序，这些程序可以将视频中原有人物的脸部替换为其他人的脸部，或对人物的表情进行篡改，同时保持视频的视觉真实性。这类程序操作简单，制作的视频效果逼真，一般人难以分辨，如果被恶意使用，会产生法律和道德的不良后果，因此，当前迫切需要有效的伪造视频检测方法。

现有针对人脸的伪造视频检测技术主要分为两类：(1)基于视频中单帧图像的方法，但是，该方法不考虑视频的时域信息，将视频的分类问题转化为图像的分类问题，将大量真实视频与伪造视频解成帧图像，作为训练数据集，设计各种网络结构对真假图像进行训练，得到二分类器，待检测视频抽取若干帧，分别给出预测结果。(2)基于帧序列的方法，该方法中，将视频若干帧送入网络，使用RNN、LSTM等手段对各帧特征进行融合，给出二分类结果。上述现有方法取得了一些基本效果，但存在一些问题：方法(1)在模型训练时，精度提升很快，达到很高的水平，但在测试时，效果大幅下降。方法(2)当视频画质变差时，检测精度变差；尤其是伪造视频在互联网上传播的过程中，会多次转发并压缩，画质降低，篡改痕迹会变得模糊，进一步增加了检测难度。

发明内容

本发明的目的是提供一种基于多相关帧注意力机制的人脸伪造视频检测方法，能够提升对伪造视频的检测精度，同时对被检测视频画质下降、或使用新的篡改方式具备鲁棒性

本发明的目的是通过以下技术方案实现的：

一种基于多相关帧注意力机制的人脸伪造视频检测方法，包括：

对于待检测视频，解码为帧序列，并提取出每一帧的脸部图像；

选择一帧作为目标帧，并在目标帧前后各选出N个参考帧，对于2N+1帧中的脸部图像进行特征提取，分别计算目标帧的图像特征与每一参考帧的图像特征之间的帧间注意力信息，对于目标帧前后的帧间注意力信息分别计算平均值，从而得到目标帧的帧前注意力信息和帧后注意力信息，再将目标帧的图像特征与目标帧的帧前注意力信息及帧后注意力信息融合；

基于融合结果进行预测，从而基于整个视频角度的预测结果判断待检测视频是否为人脸伪造视频。

由上述本发明提供的技术方案可以看出，对一个视频，采用多流结构，多帧作为输入。设计一种帧间注意力机制，计算各帧特征流之间的动态关联信息，与目标帧的帧内静态特征融合，作为预测的依据，从视频整体角度判断是否存在人脸篡改。能够提升对伪造视频的检测精度，同时对被检测视频画质下降、或使用新的篡改方式具备鲁棒性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种基于多相关帧注意力机制的人脸伪造视频检测方法的整体流程示意图；

图2为本发明实施例提供的测试阶段可变帧数的相关帧融合工作流程图；

图3为本发明实施例提供的帧间注意力机制的原理图；

图4为本发明实施例提供的预测模块网络结构图；

图5为本发明实施例提供的对卷积层的可视化结果示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

由于现有方法主要依赖单帧中的特征，没有挖掘视频帧之间的动态联系，如果从整个视频的角度看，会有一些篡改痕迹动态的展现出来。这是由于在对视频进行篡改时，是对每一帧中的人脸篡改完毕后融合到原帧中，这就使得同一视频各帧的篡改痕迹不完全相同，动态上就会表现出来。基于上述原因，检测时利用视频的帧间信息很有必要，利用帧间信息挖掘动态特征能够提升篡改视频检测的效果。基于此，本发明实施例提供一种基于多相关帧注意力机制的人脸伪造视频检测方法，如图1所示，其主要包括：

1、对于待检测视频，解码为帧序列，并提取出每一帧的脸部图像。

本发明实施例中，可以使用DLIB(或其他人脸识别模块)检测每帧中的人脸；示例性的，还可以将人脸区域扩大1.3倍，将尺寸设置为3×224×224。

2、从帧序列中选择一帧作为目标帧，并在目标帧前后各选出N个参考帧，对于2N+1帧中的脸部图像进行特征提取，分别计算目标帧的图像特征与每一参考帧的图像特征之间的帧间注意力信息，对于目标帧前后的帧间注意力信息分别计算平均值，从而得到目标帧的帧前注意力信息和帧后注意力信息，再将目标帧的图像特征与目标帧的帧前注意力信息及帧后注意力信息融合。

本发明实施例中，可以将图像输入以ResNet50为主干的特征提取网络，得到对应的图像特征；示例性的，特征提取网络输出的尺寸可以为256×29×29(对应下文的C×H×W)。

所述特征提取网络包含5个Bottleneck层(瓶颈层)layer1～layer5。每一个Bottleneck层有三层卷积层和BatchNormalization层和ReLU。使用最后一层，即layer5产生的特征图作为特征提取模块的输出。

下面给出本步骤的优选实施方式：

训练阶段：

在模型训练阶段，N取为1，当然，设为其他数值也可以进行模型训练，此处仅以N＝1为例进行说明。

为了便于理解，图1给出了具体的示例，即，选择三帧图像，中间的一帧称为目标帧，记为F₁，其余两帧为参考帧，分别记为F₂和F₃。使用特征提取网络提取到的图像特征记为V₁，V₂，V₃，都是尺寸为C×H×W的3维矩阵，其中，C、H、W分别为通道数、高度、宽度。为了便于后续计算，将它们转变为C×HW的2维矩阵；之后，基于如图3所示的帧间注意力机制，计算V₁和V₂，V₁和V₃之间的相似性矩阵A₁₂、A₁₃：

其中W为C×C的权重参数矩阵，得到的相似性矩阵A₁₂、A₁₃的尺寸为WH×WH。接下来再计算注意力图Z₁₂与注意力图Z₁₃；以Z₁₂为例给出相关公式：

Z₁₂＝V₂A₁₂

将目标帧特征向量V₁经过一层卷积层得到G₁，两个注意力图Z₁₂、Z₁₃经过一层卷积层并使用softmax归一化，得到注意力信息I₁₂和I₁₃：

本领域技术人员可以理解，卷积层在数学公式上可以表示成一个权重W，加上偏置b的形式，故

与

与

为处理目标帧特征向量与注意力图时的两个卷积层各自的权重、偏置，K为卷积层卷积核的个数，即输出G₁、I₁₂和I₁₃的具有K个通道。

由于训练阶段本示例中N＝1，因此，无需计算平均值，可以直接进行融合，分别将G₁与I₁₂、G₁与I₁₃对应通道相乘，再级联得到：

其中，K表示卷积层中的卷积核数目。

测试阶段可变数量相关帧的信息融合：

如图2所示，给出了测试阶段信息融合的工作流程图(其中的Cross-attention即为图3所示的帧间注意力机制)。在目标帧F_t前后各选出N个参考帧分别记为{F_b1，F_b2，...，F_bN}与{F_a1，F_a2，...，F_aN}。对2N+1帧中的脸部图像的进行特征提取，记为V_t、{V_b1，V_b2，...，V_bN}与{V_a1，V_a2，...，V_aN}。

分别计算每一参考帧中提取出的图像特征，与目标帧F_t中提取的图像特征V_t之间的相似性矩阵，表示为：

其中，V_mn表示一个参考帧中提取出的图像特征，m＝a，b，n＝1，2，...，N；

每一参考帧利用其自身的图像特征V_mn与相应的相似性矩阵A_mn，计算出注意力图Z_mn，表示为：

Z_mn＝V_mnA_mn

将目标帧特征V_t与每一注意力图经过卷积层(具有K个卷积核)并使用softmax归一化后(图2未示出图，按照图3所示，卷积和softmax的操作在cross-attention模块中，所以没有画出，图2体现了目标帧特征向量V_t的卷积操作)，得到帧间注意力信息：

目标帧特征向量以及注意力图Z_mn各自经过卷积层处理后均具有K个通道，i为通道索引。

基于上述方案，得到目标帧的图像特征与前后各选出N个参考帧的图像特征之间的帧间注意力信息：{I_b1，I_b2，...，I_bN}与{I_a1，I_a2，...，I_aN}。

计算帧间注意力信息的平均值，得到目标帧的帧前注意力信息I_b和帧后注意力信息I_a：

将G_t与目标帧的帧前注意力信息I_b及帧后注意力信息I_a对应通道相乘并级联，得到融合结果I_t：

3、将计算得到的融合结果输入预测模块，从而基于整个视频角度的预测结果判断待检测视频是否为人脸伪造视频。

本发明实施例中，采用如图4所示的预测模块进行预测，所述预测模块包括依次设置的：卷积层(Convolutional)、平均池化层(Average Pooling)，三层全连接层(Fully-connected)和soffmax层。卷积层的输出接批标准化(Batch Normalization)与ReLU激活函数。为了防止过拟合，前两层全连接层后面加上了dropout，随机丢失概率可设为0.75，还加入了ReLU激活函数。

预测模块输出为一个二维向量[p₀，p₁]，训练阶段中使用交叉熵损失函数，表示为：

其中，[y₀，y₁]表示训练集中视频的标记值，当视频为非伪造视频时，[y₀，y₁]＝[1.0，0.0]；当视频为伪造视频时，[y₀，y₁]＝[0.0，1.0]，[p₀，p₁]为预测模块输出的二维向量。

在测试阶段，计算p₀/(p₀+p₁)作为预测分数。示例性的，可以设0.5为阈值，预测结果大于0.5时，则判定该视频为伪造视频，小于0.5时，判定为真实视频。

本发明实施例中，图1所示的网络模型可以基于PyTorch框架实现。

示例性的，训练阶段由随机梯度下降(SGD)优化器进行优化，初始学习率为0.001，权重衰减为0.0001，momentum为0.95，批量大小设置为12，网络中所有的参数使用均值为0，方差为0.001的高斯分布来初始化。模型使用一台配有2块NVIDIARTX2080Ti GPU、IntelXeon E5-2695 CPU，Ubuntu16.04操作系统的服务器进行训练。如前所述，训练阶段每部视频使用3帧，使用交叉熵损失函数，反向传播更新参数。

在模型训练完成后，进行测试，测试阶段不再计算损失函数和进行反向传播，参数保持固定。与训练阶段不同的是选取相关帧的数量N可以不为1，即融合的帧间相关信息数量是可变的。

本发明实施例上述方法的效果说明如下：

对相关帧数量N从1开始进行实验。N＝1时相当于目标帧前后各取一帧(也即前文中对照图1给出的示例)，然后增加N的数量。经过实验，对于一部10秒的视频，N＝4时检测效果最好，这相当于目标帧前取4帧，后面取4帧，加上目标帧在内，共9帧，平均1秒一帧。如果继续增加参考帧的数量，检测效果提升不是很明显。这说明本方法设计的帧间注意力机制以及多帧的结构是有效的，能够提取到帧间的动态变化，学习到篡改视频伪造痕迹的动态变化模式，从而提升检测效果。在实施上，可以将程序及训练好的模型安装于社交媒体网站或短视频应用的后台服务器上，对用户上传的视频进行检测，能够有效检出多种主流人脸篡改方法制作的伪造视频，确保上传视频的真实性，防止虚假信息利用伪造视频进行传播，以免造成不良的影响。

对于一些较为真实的篡改视频，人脸替换效果较为逼真，仅从一帧静止图像难以判别其真实性，但是动态播放起来，会有一些瑕疵。与现有方法相比，上述方案通过计算多帧之间的注意力图，发现帧间的动态变化信息。此外，还使用了多流结构，使用视频的帧序列作为输入，计算两两之间的注意力图，从而对视频帧间关系建模，从整个视频的角度进行分析。基于这种设计，不仅学习到篡改的静态痕迹，而且学习到篡改产生的动态变化模式，增强检测的性能，解决了现有方法没有利用帧间信息的问题。

上述方法在FaceForensics++和Celeb-DF(V2)两个人脸篡改视频数据集上进行实验，均取得了最先进的效果。对主流的篡改方法Deepfakes、Face2Face、FaceSwap均取得98％以上的准确率。在极低画质(FaceForensics++c40)，也能达到95％以上的准确率。使用FaceForensics++c40训练的模型在Celeb-DF(V2)测试，auc达到70.4。同时，在实验中证实，在测试阶段通过增加相关帧数量N，可以提升检测精度，相关帧数量与待检测视频长度有关，当大约每秒取一帧相关帧时，效果最好，取得更多，效果会有微小提升，但会消耗更多的计算资源。由图5对注意力信息与目标帧特征向量融合后的卷积层的可视化可以看出，网络重点关注到人的眼部、嘴部等动态变化较大的篡改部位，对正确判断起到了作用。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种基于多相关帧注意力机制的人脸伪造视频检测方法，其特征在于，包括：

基于融合结果进行预测，从而基于整个视频角度的预测结果判断待检测视频是否为人脸伪造视频；

其中，分别计算目标帧的图像特征与每一参考帧的图像特征之间的帧间注意力信息包括：分别计算每一参考帧中提取出的图像特征，与目标帧F_t中提取的图像特征V_t之间的相似性矩阵；每一参考帧利用其自身的图像特征与相应的相似性矩阵，计算出注意力图，进而得到帧间注意力信息。

2.根据权利要求1所述的一种基于多相关帧注意力机制的人脸伪造视频检测方法，其特征在于，在目标帧F_t前后各选出N个参考帧分别记为{F_b1，F_b2，...，F_bN}与{F_a1，F_a2，...，F_aN}；

对2N+1帧中的脸部图像的进行特征提取，记为V_t、{V_b1，V_b2，...，V_bN}与{V_a1，V_a2，...，V_aN}。

3.根据权利要求2所述的一种基于多相关帧注意力机制的人脸伪造视频检测方法，其特征在于，

相似性矩阵的计算公式为：

其中，V_mn表示一个参考帧中提取出的图像特征，m＝a，b，n＝1，2，...，N；W为权重参数矩阵；

计算注意力图：

Z_mn＝V_mnA_mn

每一注意力图经过卷积层并使用softmax归一化后，得到帧间注意力信息：

其中，

各自为处理注意力图的卷积层的权重、偏置；K表示卷积层中的卷积核数目，i为通道索引。

4.根据权利要求1或2或3所述的一种基于多相关帧注意力机制的人脸伪造视频检测方法，其特征在于，

目标帧的图像特征与前后各选出N个参考帧的图像特征之间的帧间注意力信息记为{I_b1，I_b2，...，I_bN}与{I_a1，I_a2，...，I_aN}；

5.根据权利要求1所述的一种基于多相关帧注意力机制的人脸伪造视频检测方法，其特征在于，

将目标帧的图像特征V_t经过一层卷积层得到G_t，再与目标帧的帧前注意力信息I_b及帧后注意力信息I_a对应通道相乘并级联，得到融合结果I_t：

其中，

各自为处理目标帧特征向量的卷积层的权重、偏置；K表示卷积层中的卷积核数目，i为通道索引。

6.根据权利要求1所述的一种基于多相关帧注意力机制的人脸伪造视频检测方法，其特征在于，通过预测模块进行预测，所述预测模块包括依次设置的：卷积层、平均池化层，三层全连接层和softmax层；预测模块输出为一个二维向量[p₀，p₁]，计算p₀/(p₀+p₁)作为预测分数；将预测分数与阈值进行比较，若超过阈值，则待检测视频为伪造视频；否则，为真实视频。

7.根据权利要求1或6所述的一种基于多相关帧注意力机制的人脸伪造视频检测方法，其特征在于，训练过程中使用交叉熵损失函数，表示为：