CN111144314B

CN111144314B - 一种篡改人脸视频检测方法

Info

Publication number: CN111144314B
Application number: CN201911376257.6A
Authority: CN
Inventors: 张勇东; 尚志华; 谢洪涛; 邓旭冉; 李岩
Original assignee: Beijing Zhongke Research Institute; University of Science and Technology of China USTC
Current assignee: Beijing Zhongke Research Institute; University of Science and Technology of China USTC
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2020-09-18
Anticipated expiration: 2039-12-27
Also published as: CN111144314A

Abstract

本发明公开了一种篡改人脸视频检测方法，包括：将人脸视频数据解码为一组连续的帧图像，并截取每一帧图像的人脸区域，按照帧序号对应保存为人脸图片；通过特征提取器提取每一人脸图片的，获得对应的特征图；将连续两帧的特征图，同时输入至至帧间相关性分类器，由帧间相关性分类器采用注意力机制将两帧的特征图融合在一起后进行分类，分类结果为输入的两帧被篡改的概率。该方法同时利用了帧图片自身的信息和与其相邻帧的帧间关系，可取的较好的效果。同时检测是自动完成的，可以适用于大规模的视频平台、社交平台。

Description

一种篡改人脸视频检测方法

技术领域

本发明涉及网络空间安全技术领域，尤其涉及一种篡改人脸视频检测方法。

背景技术

基于深度神经网络的“换脸”技术以及十分普及，基于这些技术可以快速地将视频中的人脸换为其他人的脸，更有一些不法分子针对政客、明星、名人进行视频篡改，发布虚假消息。针对这一现象，已有一些方法可用于检测视频是否被篡改，如检测眨眼频率，检测噪声一致性等方法。

但是，现有方法的检测性能不佳，无法保证检测结果的准确性，尤其是随着造假技术迅速发展，现有方法难以满足实际应用的要求。

发明内容

本发明的目的是提供一种篡改人脸视频检测方法，具有较高的检测准确度。

本发明的目的是通过以下技术方案实现的：

一种篡改人脸视频检测方法，包括：

将人脸视频数据解码为一组连续的帧图像，并截取每一帧图像的人脸区域，按照帧序号对应保存为人脸图片；

通过特征提取器提取每一人脸图片的特征，获得对应的特征图；

将连续两帧的特征图，同时输入至帧间相关性分类器，采用注意力机制将两帧的特征图融合在一起后进行分类，分类结果为输入的两帧被篡改的概率。

由上述本发明提供的技术方案可以看出，基于深度神经网络，同时利用了帧图片自身的信息和与其相邻帧的帧间关系，可取的较好的效果。同时检测是自动完成的，可以适用于大规模的视频平台、社交平台。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种篡改人脸视频检测方法的流程图；

图2为本发明实施例提供的注意力模块的示意图；

图3为本发明实施例提供的分类器的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种篡改人脸视频检测方法，如图1所示，其主要包括：

1、将人脸视频数据解码为一组连续的帧图像，并截取每一帧图像的人脸区域，按照帧序号对应保存为人脸图片。

本发明实施例中，可以通过通用的opencv或者ffmpeg工具包，将人脸视频数据解码为一组连续的帧图像；通过python中开源的Dlib工具库，截取每一帧图像的人脸区域，不同帧图像中人脸区域的尺寸相同或者不同。

2、通过特征提取器提取每一人脸图片的特征，获得对应的特征图。

本发明实施例中，特征提取器选择Xception网络实现，可提取提取每一人脸图片的特征图，

特征提取器可以输入任意尺寸图片，但帧间相关性分类器的输入需要固定尺寸分类器，所以在特征提取器末端添加adaptive pooling层(自适应池化层)，可以将任意尺寸的特征图根据统一尺度划分为不同区域，并求每一个区域中的平均值，从而获得统一尺度的特征图。

设定特征图的尺度为N×N×M，其中，N×N表示特征的空间尺寸，M表示特征空间中每一个点的特征向量维度。

示例性的，可以设置N＝10，M＝2048。

3、将连续两帧的特征图，同时输入至帧间相关性分类器，采用注意力机制将两帧的特征图融合在一起后进行分类，分类结果为输入的两帧被篡改的概率。

本步骤优选实施方式如下：

首先，求两个特征图(记为特征图A与特征图B)之间的相关矩阵Cor，通过两个特征图中特征向量两两之间的相似度计算：Cor＝A×B^T。

通过变形相关矩阵Cor，得到特征图A和B各自对应的相关矩阵为：R_A＝reshape(Cor,N×N×N²)，R_B＝reshape(Cor^T,N×N×N²)；其中，reshape(X,SHAPE)表示将X的尺寸变换为SHAPE，X＝Cor,Cor^T，X的尺寸为N²×N²，SHAPE＝N×N×N²；其中，N×N表示特征的空间尺寸。

上述步骤的原理为：假设N＝10，M＝2048，每一个特征图被视作一个三维矩阵：10×10×2048，其中10×10是空间尺寸，2048为特征向量维度；将空间尺寸(10×10)视为一个维度，可以将特图看作(10×10)×2048＝100×2048的矩阵，则两个特征图之间的相关矩阵的形状为(10×10)×(10×10)＝100×100，即它是一个二维矩阵；为了后续的计算，需要将Cor变形为三维矩阵，将Cor中第一维度的100视为二维的10×10，即100中连续的10个点，对应形状(SHAPE)中的一行，变形结果也就是两个特征图各自的相关矩阵R_A、R_B，变形后内容与位置是一致的，但是会转置和融合维度。

其次，为了获得更有区分性的特征，将R_A与R_B各自输入至注意力模块，生成对应的注意力掩膜M_A与M_B，再计算：A_T＝(M_A+1)×A，B_T＝(M_B+1)×B；然后，将A_T与B_T在特征维度上拼接在一起记为F，作为加权后的特征值输入最终的分类器。示例性的F是一个10×10×4096的特征图。

如图2所示，注意力模块主要包括：依次连接的三个卷积层，三个卷积层均使用padding＝1，填充值为0，每一卷积层后面均连接了批正则化层，而且除了最后一个卷积层外，均在批正则化层后连接了ReLu激活层；最后一个卷积层的输出经过批正则化层后与输入的相关矩阵R相加，再通过ReLu激活层，得到相应的掩膜M。

示例性的，三个卷积层的卷积核尺寸依次设为1×1、3×3、1×1。第一个1×1卷积层的输入维度为2048，输出维度为512，之后3×3卷积层的输入和输出维度均为512，最后1×1卷积层输入维度为512，输出维度为2048并且通过批正则化层之后和输入R相加，并通过一个ReLu激活层，之后在特征维度上，即2048维度相加，获得注意力掩膜。

如图3所示，所述分类器包括：依次连接的三个卷积层以及末端的全连接层；两帧的特征图融合结果输入后，依次通过三个卷积层的处理输入至全连接层，全连接层的输出维度为1，之后，通过sigmod函数得到输入的两帧被篡改的概率。

示例性的，三个卷积层的卷积核尺寸依次设为1×1、3×3、3×3。第一个1×1卷积层的输入维度为4096，输出维度为512。之后3×3卷积层的输入输出均为512维度。最后全连接层输如维度为512，输出维度为1。

本发明实施例中，特征提取器与帧间相关性分类器组成深度神经网络，通过网络训练后，可以自动检测视频中的人脸是否被篡改。训练过程中，损失函数设置为：

其中，s为输入的两帧被篡改的概率。

本发明提供两种训练方式(通过均值或者最大值判断)，使用任一种训练方式均可：

第一种：训练过程中，分别将连续两帧作为输入计算损失，并反向传播；训练完成后，对于测试视频，每输入连续两帧后，计算被篡改的概率，最终得到K-1个被篡改的概率，并根据K-1个被篡改的概率的平均值判断是否来自篡改视频，通常大于50％即认为来自篡改视频，其中，K表示测试视频的帧数量。

第二种：训练过程中，将连续两帧作为输入，计算它们被篡改的概率，并对一批训练样本(样本数目可自行设定)中计算出的最大被篡改的概率计算损失，再反向传播；训练完成后，对于测试视频，每输入连续两帧后，计算被篡改的概率，最终得到K-1个被篡改的概率，并根据被篡改的概率的最大值判断是否来自篡改视频，通常大于50％即认为来自篡改视频。

本发明实施例上述方案，基于深度神经网络，同时利用了帧图片自身的信息和与其相邻帧的帧间关系，可取的较好的效果。同时检测是自动完成的，可以适用于大规模的视频平台、社交平台。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种篡改人脸视频检测方法，其特征在于，包括：

将连续两帧的特征图，同时输入至帧间相关性分类器，采用注意力机制将两帧的特征图融合在一起后进行分类，分类结果为输入的两帧被篡改的概率；

其中，所述由帧间相关性分类器采用注意力机制将两帧的特征图融合在一起包括：

将连续两帧的特征图记为A与B，求两个特征图之间的相关矩阵Cor，通过两个特征图中特征向量两两之间的相似度计算：Cor＝A×B^T；

通过变形相关矩阵Cor，得到特征图A和B各自对应的相关矩阵为：R_A＝reshape(Cor，N×N×N²)，R_B＝reshape(Cor^T，N×N×N²)；其中，reshape(X，SHAPE)表示将X的尺寸变换为SHAPE，X＝Cor，Cor^T，X的尺寸为N²×N²，SHAPE＝N×N×N²；其中，N×N表示特征的空间尺寸；

将R_A与R_B各自输入至注意力模块，生成对应的注意力掩膜M_A与M_B，再计算：A_T＝(M_A+1)×A，B_T＝(M_B+1)×B；然后，将A_T与B_T在特征维度上拼接在一起。

2.根据权利要求1所述的一种篡改人脸视频检测方法，其特征在于，通过通用的opencv或者ffmpeg工具包，将人脸视频数据解码为一组连续的帧图像；通过python中开源的Dlib工具库，截取每一帧图像的人脸区域，不同帧图像中人脸区域的尺寸相同或者不同。

3.根据权利要求1所述的一种篡改人脸视频检测方法，其特征在于，所述通过特征提取器提取每一人脸图片的特征，获得对应的特征图包括：

所述特征提取器选择Xception网络实现；

特征提取器的末端添加有自适应池化层，用于将任意尺寸的特征图根据统一尺度划分为不同区域，并求每一个区域中的平均值，从而获得统一尺度的特征图；

4.根据权利要求1所述的一种篡改人脸视频检测方法，其特征在于，所述注意力模块包括依次连接的三个卷积层，三个卷积层均使用padding＝1，填充值为0，每一卷积层后面均连接了批正则化层，而且除了最后一个卷积层外，均在批正则化层后连接了ReLu激活层；

最后一个卷积层的输出经过批正则化层后与输入的相关矩阵相加，再通过ReLu激活层，得到相应的掩膜。

5.根据权利要求1所述的一种篡改人脸视频检测方法，其特征在于，两帧的特征图融合结果通过帧间相关性分类器中分类器进行分类；所述分类器包括：依次连接的三个卷积层以及末端的全连接层；两帧的特征图融合结果输入后，依次通过三个卷积层的处理输入至全连接层，全连接层的输出维度为1，之后，通过sigmod函数得到输入的两帧被篡改的概率。

6.根据权利要求1所述的一种篡改人脸视频检测方法，其特征在于，特征提取器与帧间相关性分类器组成深度神经网络，训练过程中，损失函数为：

其中，s为输入的两帧被篡改的概率；

使用如下任一种训练方式：

第一种：训练过程中，分别将连续两帧作为输入计算损失，并反向传播；训练完成后，对于测试视频，每输入连续两帧后，计算被篡改的概率，最终得到K-1个被篡改的概率，并根据K-1个被篡改的概率的平均值判断是否来自篡改视频，其中，K表示测试视频的帧数量；

第二种：训练过程中，将连续两帧作为输入，计算被篡改的概率，并对一批训练样本中计算出的最大被篡改的概率计算损失，再反向传播；训练完成后，对于测试视频，每输入连续两帧后，计算被篡改的概率，最终得到K-1个被篡改的概率，并根据被篡改的概率的最大值判断是否来自篡改视频。