CN114724218A

CN114724218A - 视频检测方法、装置、设备及介质

Info

Publication number: CN114724218A
Application number: CN202210369060.5A
Authority: CN
Inventors: 郝艳妮; 马先钦; 王璋盛; 王一刚; 曹家; 罗引; 王磊
Original assignee: Beijing Zhongke Wenge Technology Co ltd
Current assignee: Beijing Zhongke Wenge Technology Co ltd
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-07-08

Abstract

本公开涉及一种视频检测方法、装置、设备及介质。其中，视频检测方法包括：获取待检测的图像序列，图像序列包含同一视频中的至少两个视频帧；针对图像序列中的每个图像，对图像的脸部特征进行非线性变换处理，得到图像对应的脸部多个区域的注意力特征；基于各个图像对应的脸部多个区域的注意力特征，构建图像序列对应的脸部多个区域之间的时序关系特征；基于时序关系特征，计算视频为伪造脸部的视频的概率。根据本公开实施例，能够使得概率的计算结果的准确率更高、泛化能力更强，进而提高伪造脸部视频检测的精确度。

Description

视频检测方法、装置、设备及介质

技术领域

本公开涉及视频处理技术领域，尤其涉及一种视频检测方法、装置、设备及介质。

背景技术

伪造脸部视频是指视频内容中的人脸、动物脸等脸部经过深度伪造算法(Deepfake)篡改的视频。

因此，如何准确地检测出伪造脸部视频是亟需解决的技术问题。

发明内容

为了解决上述技术问题，本公开提供了一种视频检测方法、装置、设备及介质。

第一方面，本公开提供了一种视频检测方法，包括：

获取待检测的图像序列，图像序列包含同一视频中的至少两个视频帧；

针对图像序列中的每个图像，对所述图像的脸部特征进行非线性变换处理，得到图像对应的脸部多个区域的注意力特征；

基于各个图像对应的脸部多个区域的注意力特征，构建图像序列对应的脸部多个区域之间的时序关系特征；

基于时序关系特征，计算视频为伪造脸部的视频的概率。

第二方面，本公开提供了一种视频检测装置，包括：

图像获取模块，用于获取待检测的图像序列，图像序列包含同一视频中的至少两个视频帧；

非线性变化模块，用于针对图像序列中的每个图像，对图像的脸部特征进行非线性变换处理，得到图像对应的脸部多个区域的注意力特征；

特征构建模块，用于基于各个图像对应的脸部多个区域的注意力特征，构建图像序列对应的脸部多个区域之间的时序关系特征；

概率计算模块，用于基于时序关系特征，计算视频为伪造脸部的视频的概率。

第三方面，本公开提供了一种视频检测设备，包括：

处理器；

存储器，用于存储可执行指令；

其中，处理器用于从存储器中读取可执行指令，并执行可执行指令以实现第一方面的视频检测方法。

第四方面，本公开提供了一种计算机可读存储介质，该存储介质存储有计算机程序，当计算机程序被处理器执行时，使得处理器实现第一方面的视频检测方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例的视频检测方法、装置、设备及介质，能够在获取到待检测的包含同一视频中的至少两个视频帧的图像序列之后，对图像序列中的每个图像的脸部特征进行非线性变换处理，得到每个图像对应的脸部多个区域的注意力特征，并基于各个图像对应的脸部多个区域的注意力特征，构建图像序列对应的脸部多个区域之间的时序关系特征，进而基于时序关系特征，计算视频为伪造脸部的视频的概率，该概率可以用于判断视频是否为伪造脸部的视频，由于在本公开实施例中可以基于图像序列中的对应的脸部多个区域之间的时序关系特征计算该概率，可以在计算该概率时引入脸部多个区域之间的时序关系，进而检测出视频中脸部的时序不一致性，使得概率的计算结果的准确率更高、泛化能力更强，进而提高伪造脸部视频检测的精确度。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本公开实施例提供的一种视频检测方法的流程示意图；

图2为本公开实施例提供的一种图像序列获取方法的流程示意图；

图3为本公开实施例提供的一种注意力特征获取方法的流程示意图；

图4为本公开实施例提供的另一种注意力特征获取方法的流程示意图；

图5为本公开实施例提供的一种时序关系特征获取方法的流程示意图；

图6为本公开实施例提供的另一种时序关系特征获取方法的流程示意图；

图7为本公开实施例提供的一种视频检测模型的示意图；

图8为本公开实施例提供的一种三维注意力神经网络模型的示意图；

图9为本公开实施例提供的一种时序图神经网络模型的示意图；

图10为本公开实施例提供的一种视频检测装置的结构示意图；

图11为本公开实施例提供的一种视频检测设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

目前，伪造脸部视频的检测方法主要分为两类：

(一)基于图像的检测方法。其中，基于图像的检测方法可以包含传统图像取证方法、深度学习方法、图像内部模式分析方法以及伪造图像指纹方法。

具体地，基于图像的检测方法为以视频帧为粒度进行伪造脸部视频检测的方法，通常以深度伪造算法产生的伪影如图像噪声、纹理不平滑等作为伪造脸部检测的重要线索，来实现伪造脸部视频的检测。虽然基于图像的检测方法借助先进的卷积神经网络架构实现了较好的检测性能，但由于深度伪造算法正在不断改进，而基于图像的检测方法存在泛化性能较弱的缺点，因此，基于图像的检测方法在检测新型的深度伪造算法产生的伪造脸部视频时的准确性较差。

(二)基于视频的检测方法。其中，基于视频的检测方法可以包含利用视频的时序一致性作为线索进行检测的方法。

具体地，基于视频的检测方法为以视频为粒度进行伪造脸部视频检测的方法，由于深度伪造技术一般以逐个视频帧处理的方式篡改人脸视频，这种处理方式会导致视频帧之间存在不连续的现象，因此，基于视频的检测方法通常以深度伪造算法产生的时序一致性作为伪造脸部检测的重要线索，来实现伪造脸部视频的检测。

其中，一致性可以包含多模态一致性和视频帧一致性。

多模态一致性可以用于判断视频的脸部嘴唇动作模态与语音音频模态是否一致，从而实现对伪造脸部视频的检测，虽然这种基于多模态一致性进行伪造脸部视频检测的方法能够提高伪造脸部视频检测的泛化性能，但这种方法不能用于检测无音频或音频被覆盖的视频，即这种方法对无音频或音频被覆盖的视频进行检测时的准确性较低。

视频帧一致性可以用于检测视频帧之间的时序一致性，即通过检测视频帧的变化是否连续来检测脸部视频是否经过伪造，虽然这种基于视频一致性进行伪造脸部视频检测的方法提高了伪造脸部视频检测的泛化性能，并且能够避免基于多模态一致性进行伪造脸部视频检测的方法的局限性，但是在使用这种基于视频一致性进行伪造脸部视频检测的方法的过程中，申请人发现其仍存在以下问题：(1)现有技术使用二维注意力机制从脸部图像获取局部区域特征；(2)现有技术在获得局部区域特征后直接用于分类，或在获得局部区域特征后仅建模图像的区域间关系，并用区域间关系进行分类。因此，这种基于视频一致性进行伪造脸部视频检测的方法仍然存在准确性较低的问题。

综上，上述的两类伪造脸部视频的检测方法对伪造脸部视频的检测均存在准确性较低的问题，因此，如何准确地检测出伪造脸部视频是亟需解决的技术问题。

针对上述问题，本公开实施例提供了一种视频检测方法、装置、设备及介质。下面首先结合具体的实施例对该视频检测方法进行介绍。

在本公开实施例中，该视频检测方法可以由计算设备执行。其中，计算设备可以包括电子设备和服务器等，在此不作限制。电子设备可以包括移动电话、平板电脑、台式计算机、笔记本电脑、车载终端、可穿戴电子设备、一体机、智能家居设备等具有计算功能的设备，也可以是虚拟机或者模拟器模拟的设备。服务器可以是独立的服务器，也可以是多个服务器的集群，可以包括搭建在本地的服务器和架设在云端的服务器。

图1为本公开实施例提供的一种视频检测方法的流程示意图。

如图1所示，该视频检测方法可以包括如下步骤。

S110、获取待检测的图像序列，图像序列包含同一视频中的至少两个视频帧。

在本公开实施例中，计算设备可以获取待检测的包含同一视频中的至少两个视频帧的图像序列。

其中，图像序列包含同一视频中的至少两个视频帧，该至少两个视频帧可以为在视频中相邻的两个视频帧，也可以为在视频中不相邻的两个视频帧。图像序列的序列顺序即图像序列中的至少两个视频帧的排列顺序，可以按照各个视频帧在视频中的播放时间由先到后的顺序确定。

进一步地，该图像序列所属的视频可以为需要对视频内容中的脸部是否被篡改进行检测的视频。

在一些实施例中，图像序列中的至少两个视频帧可以为对视频进行整体抽帧得到的视频帧。

在另一些实施例中，图像序列中的至少两个视频帧可以为对视频进行分段抽帧得到的视频帧。

S120、针对图像序列中的每个图像，对图像的脸部特征进行非线性变换处理，得到图像对应的脸部多个区域的注意力特征。

在本公开实施例中，计算设备在获取到待检测的图像序列之后，可以对图像序列中的每个图像的脸部特征进行非线性变换处理，得到每个图像对应的脸部多个区域的注意力特征。

具体地，计算设备可以在获取到待检测的图像序列之后，针对图像序列中的每个图像，先提取图像的脸部特征，进而对图像的脸部特征进行基于注意力机制的融合计算，以实现对图像的脸部特征的非线性变换处理，得到图像对应的脸部多个区域的注意力特征。

其中，图像中的脸部可以为任意对象的脸部，例如，人的脸部、动物的脸部或者虚拟形象的脸部，在此不作限制。

在一些实施例中，图像的脸部特征可以理解为用于表征图像中的脸部的特点的特征，例如，脸部特征可以包括脸部的特定部位的特征、脸部的轮廓的特征和脸部的表情的特征等，在此不作限制。

可选地，脸部特征可以为二维脸部特征，也可以为三维脸部特征，在此不作限制。

在一些实施例中，每种对象的脸部均可以根据需要预先划分出多个区域。其中，图像对应的脸部多个区域的注意力特征可以理解为用于表征图像中的脸部内各个区域与脸部之间的相关程度的特征。

可选地，注意力特征可以为二维注意力特征，也可以为三维注意力特征，在此不作限制。

示例的，计算设备可以在获取到待检测的图像序列之后，针对图像序列中的每个图像，先提取图像的二维脸部特征，如利用二维脸部特征提取器提取图像的二维脸部特征，进而对图像的二维脸部特征进行基于二维注意力机制的融合计算如二维卷积运算，以实现对图像的二维脸部特征的非线性变换处理，得到图像对应的脸部多个区域的二维注意力特征。

示例的，计算设备可以在获取到待检测的图像序列之后，针对图像序列中的每个图像，先提取图像的三维脸部特征，如利用三维脸部特征提取器提取模型提取图像的三维脸部特征，进而对图像的三维脸部特征进行基于三维注意力机制的融合计算如三维卷积运算，例如，基于三维注意力神经网络模型实现三维卷积运算，以实现对图像的三维脸部特征的非线性变换处理，得到图像对应的脸部多个区域的三维注意力特征。

S130、基于各个图像对应的脸部多个区域的注意力特征，构建图像序列对应的脸部多个区域之间的时序关系特征。

在本公开实施例中，计算设备在得到各个图像中脸部多个区域的注意力特征之后，可以对各个图像中脸部多个区域的注意力特征进行基于图像序列整体的时序关系构建处理，得到图像序列对应的脸部多个区域之间的时序关系特征。

其中，图像序列对应的脸部多个区域之间的时序关系特征可以理解为用于表征脸部内各个区域的注意力特征在时间维度上的变化情况的特征。

示例的，如果图像中的脸部可以预先划分出眉毛所在区域、眼睛所在区域、嘴巴所在区域以及鼻子所在区域等四个区域，图像序列对应的脸部多个区域之间的时序关系特征可以为眉毛所在区域、眼睛所在区域、嘴巴所在区域以及鼻子所在区域内图像在图像序列对应的不同视频帧所属的时刻下的变化情况。

在一些实施例中，计算设备可以根据各个图像对应的脸部多个区域的注意力特征，构建各个图像对应的脸部多个区域的图结构数据，再利用图卷积运算的方式，对各个图像对应的脸部多个区域的图结构数据进行时序关系构建处理，得到图像序列对应的脸部多个区域之间的时序关系特征。

在另一些实施例中，计算设备可以根据各个图像对应的脸部多个区域的注意力特征，构建各个图像对应的脸部多个区域的向量数据，例如，按照指定的区域顺序，将每个图像对应的脸部各个区域对应的特征向量拼接得到每个图像对应的脸部多个区域的向量数据。在计算设备在得到向量数据之后，可以再利用时域卷积神经网络，对各个图像对应的脸部多个区域的向量数据进行时序关系构建处理，得到图像序列对应的脸部多个区域之间的时序关系特征。

S140、基于时序关系特征，计算视频为伪造脸部的视频的概率。

在本公开实施例中，计算设备可以在图像序列对应的脸部多个区域之间的时序关系特征之后，对图像序列对应的脸部多个区域之间的时序关系特征进行分类检测，得到待检测视频为伪造脸部视频的概率。

可选地，计算设备可以将图像序列对应的脸部多个区域之间的时序关系特征输入预先训练得到的用于检测时序关系特征所属的视频是否为伪造脸部的视频的分类器中，得到分类器输出的视频为伪造脸部的视频的概率。

进一步地，计算设备可以将该概率与预设的概率阈值进行比较，若该概率大于或等于预设的概率阈值，则确定图像序列所属的待检测的视频为伪造脸部的视频；若该概率小于预设的概率阈值，则确定图像序列所属的待检测的视频不是伪造脸部的视频。

需要说明的是，预设的概率阈值可以为根据需要预先设置的用于表征视频为伪造脸部的视频的概率值，例如，预设的概率阈值可以为 0.5，也可以为0.8，在此不作限制。

在本公开实施例中，能够在获取到待检测的包含同一视频中至少两个视频帧的图像序列之后，对图像序列中的每个图像的脸部特征进行非线性变换处理，得到每个图像对应的脸部多个区域的注意力特征，并基于各个图像对应的脸部多个区域的注意力特征，构建图像序列对应的脸部多个区域之间的时序关系特征，进而基于时序关系特征，计算视频为伪造脸部的视频的概率，该概率可以用于判断视频是否为伪造脸部的视频，对时序关系特征的处理能够检测出视频中脸部的时序不一致性，使得概率的计算结果的准确率更高、泛化能力更强，进而提高伪造脸部视频检测的精确度。

下面对计算设备获取待检测的图像序列的方法进行详细说明。

在本公开一些实施例中，图像序列中的至少两个视频帧可以为对视频进行分段抽帧得到的视频帧。

在这些实施例中，计算设备可以对视频进行分段抽帧得到图像序列。具体地，将参考图2进行详细说明。

图2为本公开实施例提供的一种图像序列获取方法的流程示意图。如图2所示，该图像序列获取方法可以包括如下步骤。

S210、将视频划分为多个视频段。

在本公开实施例中，计算设备可以对待检测的视频进行分段处理，以将视频划分为多个视频段。

具体地，计算设备可以按照预设的分段方式对视频进行分段，得到多个视频段。

其中，预设的分段方式可以为根据需要预先设置的用于按照用户需求对视频进行分段的方式。例如，该预设的分段方式可以为将视频等长划分为确定数量的视频段，该预设的分段方式也可以为将视频分为确定长度的视频段，该预设的分段方式还可以为将视频随机的划分为多个视频段，在此不作限制。

在一些实施例中，计算设备可以使用开源计算机视觉库(Open Source ComputerVision Library，OpenCV)工具提取视频中的各个视频帧，然后采用多任务卷积神经网络(Multi-task convolutional neural network，MTCNN)脸部检测模型截取各个视频帧中的脸部图像，并以图片的形式对截取到的各个脸部图像进行存储，进而按照将视频等长划分为确定数量的视频段的分段方式，对存储的连续视频帧中的脸部图像进行分段处理，进而将分段后的多组脸部图像作为多个视频段。

在另一些实施例中，计算设备可以使用OpenCV工具提取视频中的各个视频帧，并以图片的形式对提取到的各个视频帧进行存储，进而按照将视频等长划分为确定数量的视频段的分段方式，对存储的连续视频帧进行分段处理，进而将分段后的多组视频帧作为多个视频段。

S220、按照预设抽帧方式，抽取每个视频段的关键视频帧。

在本公开实施例中，计算设备在得到多个视频段之后，可以对每个视频段内的图片进行抽帧处理，将抽取得到的图片作为该视频段的关键视频帧。

其中，关键视频帧可以理解为用于表征其所属视频段的特点的视频帧。

具体地，预设的抽帧方式可以为根据需要预先设置的用于按照用户需求对视频进行抽帧的方式。例如，该预设的抽帧方式可以为按照确定间隔抽取关键视频帧，该预设的抽帧方式也可以为随机抽取确定数量的关键视频帧，在此不作限制。

S230、按照播放时间顺序对各个关键视频帧进行排序，得到图像序列。

在本公开实施例中，计算设备在得到每个视频段的关键视频帧之后，可以按照播放时间顺序对各个关键视频帧进行排序，得到图像序列。

由此，在本公开实施例中，计算设备可以通过分段抽帧得到图像序列，使得图像序列中的各个视频帧能够覆盖视频的各个时间段，进而使得伪造脸部视频的检测能够覆盖整个视频，进一步提高伪造脸部视频检测的精确度。

在本公开另一些实施例中，图像序列中的至少两个视频帧可以为对视频进行整体抽帧得到的视频帧。

在一些实施例中，计算设备可以使用开源计算机视觉库(Open Source ComputerVision Library，OpenCV)工具提取视频中的各个视频帧，然后采用多任务卷积神经网络(Multi-task convolutional neural network，MTCNN)脸部检测模型截取各个视频帧中的脸部图像，并以图片的形式对截取到的各个脸部图像进行存储，得到视频对应的多个图片。

在另一些实施例中，计算设备可以使用OpenCV工具提取视频中的各个视频帧，并以图片的形式对提取到的各个视频帧进行存储，得到视频对应的多个图片。

在这些实施例中，计算设备可以对视频进行整体抽帧得到图像序列。具体地，计算设备可以按照预设的抽帧方式对视频对应的多个图片进行整体抽帧处理，得到多个关键视频帧。计算设备在得到多个关键视频帧之后，可以按照播放时间顺序对各个关键视频帧进行排序，得到图像序列。

其中，预设的抽帧方式可以为根据需要预先设置的用于按照用户需求对视频进行抽帧的方式。例如，该预设的抽帧方式可以为按照确定间隔抽取关键视频帧，该预设的抽帧方式也可以为随机抽取确定数量的关键视频帧，在此不作限制。

由此，在本公开另一些实施例中，计算设备可以通过整体抽帧得到图像序列，使得图像序列中的各个视频帧能够灵活的在整段视频中的各个位置进行选择，进而使得伪造脸部视频的检测能够根据实际情况选择覆盖的范围，进一步提高伪造脸部视频检测的精确度。

在本公开又一些实施例中，为了使关键视频帧中每帧图像的脸部特征更容易被提取得到，在计算设备抽取到关键视频帧之后，还需要先对各个关键视频帧进行图像增强处理，以扩大图像中不同脸部特征之间的差别，得到各个处理后的关键视频帧，进而按照播放时间顺序对各个处理后的关键视频帧进行排序，得到图像序列。

示例的，对图像的数据增强处理可以包括将图像水平翻转、平移一定距离、缩放一定比例、旋转一定角度、调整一定色调值、调整一定对比度、调整一定饱和度、调整一定亮度、添加一定高斯噪声、进行一定运动模糊滤波、进行一定高斯模糊滤波、进行一定JPEG压缩以及进行灰度化处理等处理方式中的至少一项。

可选地，计算设备可以按照一定概率在上述各项数据增强处理方式中选择至少一项来对图像的数据增强处理。

下面以一个具体示例对图像增强处理的具体处理方式以及选择的概率进行详细说明，如表1所示。

表1

由此，在本公开实施例中，计算设备抽取到关键视频帧之后，先对各个关键视频帧进行图像增强处理，以扩大图像中不同脸部特征之间的差别，再利用处理后的关键视频帧构成图像序列，使得利用图像序列中的各个视频帧得到的注意力特征以及时序关系特征的特点更加突出，进而使得计算得到的概率更加准确，进一步提高伪造脸部视频检测的精确度。

下面对计算设备获取图像对应的脸部多个区域的三维注意力特征的具体方式进行详细说明。

在本公开一些实施例中，计算设备可以通过三维卷积运算获取图像对应的脸部多个区域的三维注意力特征。

图3为本公开实施例提供的一种注意力特征获取方法的流程示意图。如图3所示，该注意力特征获取方法可以包括如下步骤。

S310、对图像进行三维脸部特征提取处理，得到图像对应的三维脸部特征。

在本公开实施例中，计算设备在获取到图像序列中的任意图像之后，可以对该图像进行三维脸部特征提取处理，得到该图像对应的三维脸部特征。

可选地，计算设备可以在获取到任意图像之后，将该图像对应的图像数据输入三维脸部特征提取器，得到三维脸部特征提取器输出的特征图，该特征图可以作为该图像对应的三维脸部特征。

示例的，三维脸部特征提取器可以为三维残差网络(Residual Network)，如混合卷积神经网络(Mixed Convolution Networks， MC3)，MC3可以由五层卷积层构成，前两层为三维卷积层，第三层至第五层为二维卷积层，该MC3输出的特征图可以具有四个维度，四个维度可以分别为通道数、长度、高度和宽度，例如特征图的尺寸可以为256×20×14×14(通道数×长度×高度×宽度)。

S320、对图像对应的三维脸部特征进行三维卷积运算，得到图像对应的脸部多个区域的注意力权重矩阵。

在本公开实施例中，计算设备在获取到该图像对应的三维脸部特征之后，可以对该图像的三维脸部特征进行三维卷积运算，得到该图像对应的脸部多个区域的注意力权重矩阵。

可选地，S320可以具体包括：基于三维注意力神经网络模型，对图像对应的三维脸部特征进行三维卷积运算，得到图像对应的脸部多个区域的注意力权重矩阵，其中，三维注意力神经网络模型基于时序连续性损失函数和稀疏注意力对比损失函数训练得到。

具体地，计算设备可以在获取到该图像对应的三维脸部特征之后，将三维脸部特征输入三维注意力神经网络模型，得到三维注意力神经网络模型输出的注意力权重矩阵。

示例的，三维注意力神经网络模型可以包括三个注意力机制模块，以实现对三维脸部特征的三维卷积运算。其中，每个注意力机制模块包含一组三维卷积层、三维批标准化层和激活层，三维卷积层是卷积核在输入图像的三维空间进行滑窗操作，三维批标准化层是对小批量四位数据组成的五维输入进行批标准化操作，三维激活层是激活函数对特征在三维空间中进行非线性变换操作。由此，可以通过多层神经网络，实现三维注意力机制，以解决二维注意力机制忽略时序信息的问题。

下面以一个具体示例对三维卷积运算网络进行详细说明，如表2 所示。

表2

其中，括号内的三个数字可以分别理解为表示长度、高度和宽度维度的参数，Conv3D(Convolution 3D)可以理解为三维卷积层， BN3D(Batch Normalization 3D)可以理解为三维批标准化运算层。

Leaky ReLU可以理解为应用于三维激活层的一种激活函数，其公式为：

Softmax可以理解为应用于三维激活层的另一种激活函数，其公式为：

进一步地，图像对应的三维脸部特征在经过表2所示的三维卷积运算网络的处理之后，所得到的注意力权重的每个通道存储一个尺寸为14×14的的注意力矩阵。

由此，在本公开实施例中，计算设备可以基于三维卷积运算对图像的三维脸部特征进行处理，得到用于表征图像中的脸部内各个区域与脸部之间的相关程度的三维注意力特征，使得注意力特征不忽略时序信息，进而提高伪造脸部视频检测的精确度。

在本公开实施例中，可以利用反向传播法通过损失函数对三维注意力神经网络模型进行训练，损失函数可以包括时序连续性损失函数和稀疏注意力对比损失函数，分别对三维注意力神经网络模型进行调参，直至时序连续性损失函数以及稀疏注意力对比损失函数对应的损失值分别小于对应的损失值阈值。

其中，时序连续性损失函数

的表达式为：

其中，T表示图像序列中图像的数量，M表示三维注意力神经网络模型关注的脸部区域总数，

表示图像序列中第i张图像第j个脸部区域的注意力权重矩阵。

稀疏注意力对比损失函数

的表达式为：

其中，向量

[·,·]表示向量合并运算， 1_W×1表示尺寸为W×1的全1向量，1_1×H表示尺寸为1×H的全1向量，

为指示函数，表示当i≠j时函数值为1，否则函数值为0，

表示信息熵函数，

表示

的信息熵阈值。

由此，在本公开实施例中，可以通过时序连续性损失函数使三维注意力神经网络模型关注的人脸区域能够在时间维度上始终稳定，并且通过稀疏注意力对比损失函使三维注意力神经网络模型关注多个不同的人脸区域能够在空间维度上保持多样性，进而提高三维注意力神经网络模型输出的注意力权重矩阵的准确性，进而提高伪造脸部视频检测的精确度。

S330、基于图像对应的三维脸部特征和图像对应的脸部多个区域的注意力权重矩阵，生成图像对应的脸部多个区域的注意力特征。

在本公开实施例中，计算设备在获取到该图像对应的脸部多个区域的注意力权重矩阵之后，可以将图像对应的三维脸部特征与脸部多个区域的注意力权重矩阵进行融合，得到图像对应的脸部多个区域的注意力特征，下面参考图4进行说明。

图4为本公开实施例提供的另一种注意力特征获取方法的流程示意图。如图4所示，该注意力特征获取方法可以包括如下步骤。

S410、将图像对应的三维脸部特征与图像对应的脸部多个区域的注意力权重矩阵的乘积，作为图像对应的脸部多个区域的注意力特征矩阵。

在本公开实施例中，计算设备在得到图像序列中的任意图像对应的三维脸部特征和该图像对应的脸部多个区域的注意力权重矩阵之后，可以计算该图像对应的三维脸部特征和该注意力权重矩阵的乘积，得到图像对应的脸部多个区域的注意力特征矩阵。

其中，三维脸部特征和该注意力权重矩阵的乘积具体指三维脸部特征和该注意力权重矩阵的外积。

示例的，该注意力特征矩阵的参数维度可以包括颜色值、向量维度、长度、高度和宽度。例如，注意力特征矩阵的尺寸可以为256×8×20×14×14(颜色值×向量维度×长度×高度×宽度)。

S420、对图像对应的脸部多个区域的注意力特征矩阵的高度维度和宽度维度分别进行求和，得到求和后的注意力特征矩阵。

在本公开实施例中，计算设备在得到该图像对应的脸部多个区域的注意力特征矩阵之后，可以分别对该注意力特征矩阵的高度维度和宽度维度进行求和处理，得到求和后的注意力特征矩阵。

S430、对求和后的注意力特征矩阵的长度维度进行全局平均池化，得到图像对应的脸部多个区域的注意力特征。

本公开实施例中，计算设备在得到该图像对应的求和后的注意力特征矩阵之后，可以对该求和后的注意力特征矩阵的长度维度进行全局平均池化处理，得到图像对应的脸部多个区域的注意力特征。

其中，全局平均池化可以理解为对长度维度采用取平均的方法进行降维处理，从而加快运算速度。

具体地，计算设备可以对获得的每一个通道的特征图的所有区域在长度维度计算平均值，得到在长度维度经过进行全局平均池化处理后的图像对应的脸部多个区域的注意力特征。

示例的，注意力特征的维度参数可以包括颜色值和向量维度。例如，注意力特征的尺寸可以为256×8(颜色值×向量维度)。

由此，在本公开实施例中，计算设备获得图像序列中每个图像对应的三维脸部特征和对应图像的脸部多个区域的注意力权重矩阵之后，可以将图像对应的三维脸部特征与脸部多个区域的注意力权重矩阵进行融合，得到精确度更高的注意力特征，该精确度更高的注意力特征可以用于表征图像中的脸部内各个区域与脸部之间的相关程度，进而表征脸部内各个区域在视频检测中所起到作用的大小，进而得到更准确的视频检测结果。

在本公开另一些实施例中，计算设备还可以通过ResNet18网络模型获取图像对应的脸部多个区域的注意力特征。

其中，ResNet18网络模型包含17个卷积层和1个全连接层。

具体地，计算设备在获取到该图像对应的三维脸部特征之后，可以将脸部特征输入到ResNet18网络模型中，对该脸部特征进行17次卷积运算，并将运算结果进行相加，得到该图像对应的脸部多个区域的注意力特征。

下面对计算设备利用时序图卷积神经网络获取图像序列对应的脸部多个区域之间的时序关系特征的方法进行详细说明。

图5为本公开实施例提供的一种时序关系特征获取方法的流程示意图。如图5所示，该时序关系特征获取方法可以包括如下步骤。

S510、针对每个图像，根据图像对应的脸部多个区域的注意力特征，构建图像对应的脸部多个区域的图结构数据。

在本公开实施例中，计算设备在得到图像序列中每个图像对应的脸部多个区域的注意力特征之后，可以根据该注意力特征，构建各个图像对应的脸部多个区域的图结构数据。

具体地，注意力特征可以是矩阵的形式，将注意力特征沿着矩阵的通道维度划分成多个注意力特征向量，将该注意力特征向量作为图结构数据的结点，定义邻接矩阵作为注意力特征向量之间的初始关系特征，将该关系特征作为图结构数据的边，将每个图像对应的结点和边进行组合，得到获图像对应的脸部多个区域的图结构数据。

S520、对各个图像对应的脸部多个区域的图结构数据进行时序关系构建处理，得到图像序列对应的脸部多个区域之间的时序关系特征。

在本公开实施例中，计算设备在得到各个图像对应的脸部多个区域的图结构数据之后，可以对图结构数据进行图卷积运算处理，得到图像序列对应的脸部多个区域之间的时序关系特征。

具体地，计算设备可以将各个图像对应的脸部多个区域的图结构数据输入到时序图神经网络模型中，根据输入的图结构数据对图结构数据的关系特征进行更新，得到图像序列对应的脸部多个区域之间的时序关系特征。

其中，时序图神经网络模型可以理解为以图的形式呈现的能够表征动态性质的神经网络模型。

由此，在本公开实施例中，计算设备可以基于图像对应的脸部多个区域的注意力特征进行时序关系特征构建处理，得到图像序列对应的脸部多个区域之间的时序关系特征，通过该时序关系特征检测图像序列中脸部的时序不一致性，进而检测出视频中脸部的时序不一致性，进一步提高伪造脸部视频检测的精确度。

进一步地，在本公开实施例中，S520可以通过对各个图像对应的脸部多个区域的图结构数据进行基于时序图神经网络模型的时序关系构建处理，将得到的图像序列对应的最后一个隐含状态图作为图像序列对应的脸部多个区域之间的时序关系特征，下面参考图6进行说明。

图6为本公开实施例提供的另一种时序关系特征获取方法的流程示意图。如图6所示，该时序关系特征获取方法可以包括如下步骤。

S610、基于时序图神经网络模型，对各个图像对应的脸部多个区域的图结构数据进行时序关系构建处理，得到图像序列对应的最后一个隐含状态图。

在本公开实施例中，计算设备在得到图像序列中各个图像对应的脸部多个区域的图结构数据之后，按照图像序列中的排序将第一个图像对应的图结构数据输入到时序图神经网络模型中，得到能够表征该图像的时序关系特征的隐含状态图，再将该第一个图像对应的隐含状态图与第二个图像对应的图结构数据共同输入到时序图神经网络模型中，得到能够表征该第二个图像以及第一个图像的时序关系特征的隐含状态图，以此类推，将图像序列中的所有图像依次输入到时序图神经网络模型中，直至将图像序列中的最后一个图像对应的图结构数据以及其上一个图像对应的隐含状态图共同输入到时序图神经网络模型中，得到图像序列对应的最后一个隐含状态图。

在本公开实施例中，可以利用反向传播法通过损失函数对时序图神经网络模型进行训练，损失函数可以为交叉熵损失函数，直至交叉熵损失函数对应的损失值小于对应的损失值阈值。

在训练时序图神经网络模型的过程中，可以利用反向传播法，通过交叉熵损失函数对时序图神经网络模型进行调参，直至交叉熵损失函数对应的损失值小于对应的损失值阈值。

其中，交叉熵损失函数

的表达式为：

其中，φ表示分类器，y表示待检测视频的真伪标签，H⁽⁾表示输入最后一张关键视频帧后获得的隐含状态图。

S620、将最后一个隐含状态图作为图像序列对应的脸部多个区域之间的时序关系特征。

在本公开实施例中，计算设备将图像序列中的每个图像对应的图结构数据依次输入到时序图神经网络模型后得到的最后一个隐含状态图可以表征图像序列中所有图像相同的脸部区域之间的时序关系，因此计算设备可以将时序图神经网络模型输出的最后一个隐含状态图作为图像序列对应的脸部多个区域之间的时序关系特征。

由此，在本公开实施例中，计算设备能够在得到图像序列中各个图像对应的脸部多个区域的图结构数据之后，将每个图像的图结构数据按照序列中的排序依次输入到时序图神经网络模型中，得到图像序列对应的最后一个隐含状态图，进而通过该隐含状态图表示图像序列中不同图像之间相同脸部区域的时序关系，通过该时序关系特征检测图像序列中脸部的时序不一致性，进而检测出视频中脸部的时序不一致性，进一步提高伪造脸部视频检测的精确度。

在本公开一种实施方式中，上述的三维脸部特征提取器、三维注意力神经网络模型、融合模块、图结构构建模块、时序图神经网络模型以及分类器可以形成视频检测模型，本公开实施例提供的视频检测方法可以基于视频检测模型实现，下面参考图7至图9，以对人脸视频进行检测的视频检测模型的结构和原理进行详细说明。

图7为本公开实施例提供的一种视频检测模型的示意图。如图7 所示，计算设备可以在从人脸视频中提取人脸图像序列710之后，将该人脸图像序列710输入至视频检测模型，视频检测模型中的三维人脸特征提取器可以对每个人脸图像分别进行三维人脸特征提取处理，得到每个人脸图像对应的三维人脸特征720，然后视频检测模型中的三维注意力神经网络模型可以计算得到每个人脸图像对应的人脸多个区域的注意力权重矩阵730，接着视频检测模型中的融合模块可以分别将每个人脸图像对应的三维人脸特征720与注意力权重矩阵730进行融合，得到每个人脸图像对应的注意力特征740，再接着图结构构建模块(图中未示出)可以构建每个注意力特征740对应的图结构数据750，时序图卷积神经网络模型可以基于各个图结构数据750生成图像序列的时序关系特征760，最后分类器可以基于时序关系特征 760，得到待检测视频是否为伪造人脸视频的检测结果即待检测视频是否为伪造人脸视频的概率。

进一步地，图7中的三维注意力神经网络模型的具体结构和原理可以参考图8进行说明。

图8为本公开实施例提供的一种三维注意力神经网络模型的示意图。如图8所示，三维注意力神经网络模型800可以包括三个三维卷积处理模块820，每个三维卷积处理模块820可以分别包括一个三维卷积层821、一个三维批标准化层822和一个三维激活层823。

其中，首个三维卷积处理模块820可以将任意人脸图像对应的三维人脸特征810处理得到第一特征矩阵830，第二个三维卷积处理模块820可以将第一特征矩阵830处理得到第二特征矩阵840，第三个三维卷积处理模块820可以将第二特征矩阵840处理得到注意力权重矩阵850。

进一步地，图结构构建模块和图7中的时序图卷积神经网络模型的具体结构和原理可以参考图9进行说明。

在本公开实施例中，融合模块在得到任意人脸图像对应的注意力特征之后，图结构构建模块可以将该注意力特征沿着第二维度如通道维度划分成8个注意力特征向量，其中，每个注意力特征向量的尺寸为1×256。接着，图结构构建模块可以定义邻接矩阵，作为注意力特征向量之间的初始关系特征，其中，邻接矩阵的尺寸为8×8。最后，图结构构建模块可以使用图卷积运算，将注意力特征向量作为结点V，将关系特征作为边E，构造图G＝<V,E>。

具体地，图结构构建模块构造图的过程如下：

图结构构建模块首先定义尺寸为256×384的图卷积参数矩阵W_g，将图卷积参数矩阵W_g 910输入到第一图卷积运算单元920中，使第一图卷积运算单元920对图卷积参数矩阵W_g 910进行图卷积运算 GConv(G)＝EVW_g，得到尺寸为8×384的结果矩阵，将结果矩阵输入第一向量切分单元930中，使第一向量切分单元930沿第二维度如通道维度对该结果矩阵进行切分，得到3个隐向量G_r、G_z、G_h，每个隐向量的尺寸均为8×128。接着，图结构构建模块可以定义一个尺寸为 8×128的初始的隐含状态以及尺寸为128×384的隐含状态的图卷积参数矩阵W_h，其中，隐含状态的初始值为0。再接着，图结构构建模块可以将该隐含状态和上述共享的关系特征所形成的待处理数据940输入第二图卷积运算单元950中，使第二图卷积运算单元950对待处理数据940进行图卷积运算GConv(H)＝EhW_h，得到隐含状态图960。最后，图结构构建模块可以隐含状态图960输入第二向量切分单元 970中，使第二向量切分单元970沿第二维度如通道维度对隐含状态图960进行切分，得到3个隐向量H_r、H_z、H_h，每个隐向量的尺寸均为8×128。

时序图卷积神经网络模型可以设置初始偏置参数980，将隐含状态图960、隐向量G_r、G_z、G_h、H_r、H_z、H_h、初始偏置参数980输入门控运算单元990中。其中，将初始偏置参数980输入到偏置参数调整子单元991中，对初始偏置参数980进行向量切分，得到偏置参数向量b_r、b_z、b_h。将隐向量H_r、G_r、b_r输入重置门运算子单元992，执行r＝sigmoid(G_r+H_r+b_r)运算，得到的r可以理解为重置结果993，将该重置结果993与隐向量H_h输入第一乘积运算子单元994中，得到第一乘积结果995。将隐向量H_z、G_z、b_z输入更新门运算子单元 996中，执行z＝sigmoid(G_z+H_z+b_z)运算，得到的z可以理解为更新结果997，将该更新结果997与隐含状态图960输入第二乘积运算子单元998中，得到第二乘积结果999，并将更新结果997输入到运算单元9910中，执行1-z的运算，得到计算结果9911，将第一乘积结果995、向量G_h、b_h输入候选隐含状态运算子单元9912中，执行

的运算，得到的

可以理解为候选隐含状态9913，将候选隐含状态9913和结果9911输入第三乘积运算子单元9914中，得到第三乘积结果9915，将第二乘积结果999和第三乘积结果9915输入加法运算子单元9916中，执行

的运算，得到的H可以理解为更新后的隐含状态图9917，将该更新后的隐含状态图9917输入隐含状态图替换单元9100中，通过隐含状态图替换单元9100替换第二图卷积运算单元950输出的隐含状态图960，并将该更新后的隐含状态图9917输入到偏置参数调整子单元991中，对偏置参数进行调整，得到能提升时序图神经网络模型提取图像序列的时序关系特征的效果的偏置参数。

接着，图结构构建模块可以接收下一个人脸图像对应的注意力特征，并将该注意力特征沿着第二维度如通道维度划分成8个注意力特征向量，得到下一个人脸图像对应的注意力特征向量，即下一个结点 V，进而基于该结点完成对隐含状态图的下一次更新，直到将图像序列中每个图像的注意力特征都输入到该时序图神经网络模型中之后，得到的隐含状态图能够表示图像序列整体的时序关系特征。

进一步地，为了验证图7至图9所示的视频检测模型在伪造人脸视频检测的精确度，可以使用FaceForensics++(FF++)、Celeb-DF v2和Deepfake Detection Challenge(DFDC)数据集测试去检测伪造人脸视频的性能。

其中，FF++数据集可以通过Deepfakes、Face2Face、FaceSwap 和NeuralTextures四种深度伪造算法，分别对1000个真实视频进行人脸篡改，每种深度伪造算法均产生1000个伪造视频，得到4000个伪造视频，其中，FF++数据集可以包含高清晰度(High Quality,HQ)版本的数据集和低清晰度(Low Quality,LQ)版本的数据集。

Celeb-DF v2数据集可以通过改进的Deepfake深度伪造算法，对 590个真实的名人视频进行人脸篡改，得到5639个伪造视频。

DFDC数据集是Facebook在2019年制作的数据集，对拍摄1131 个真实视频进行深度伪造加工，得到4119个伪造视频。

在本测试中，通过area under the curve(AUC)模型评价指标，对该视频检测模型分别进行模型精度测试和泛化能力测试，其中，模型精度测试用于评估该视频检测模型的检测准确率，采用相同的数据集作为测试的训练集和测试集，泛化能力测试用于评估该视频检测模型对新鲜样本的适应能力，采用不同的数据集作为测试的训练集和测试集。

在模型精度测试中，可以使用FF++数据集进行测试，测试结果如表3所示。

表3

其中，w/o(without)表示取消特定模型的对比方法，用于验证x 相关模型的有效性，示例的，视频检测模型w/o三维注意力神经网络模型表示在视频检测模型取消三维注意力神经网络模型之后的模型。 FF++(HQ)和FF++(LQ)分别表示视频检测模型在高清晰度(HQ)版本的FF++数据集和低清晰度(LQ)版本的FF++数据集中的测试结果，百分数值表示测试结果与真实结果相同的概率，作为相应检测方法在相应数据集中的检测准确率。在该模型精度测试中，视频检测模型能达到最高的检测准确率，在FF++(LQ)数据集中视频检测模型的检测准确率比基本的MC3方法的检测准确率高18.19％。取消视频检测模型中的三维注意力神经网络模型或时序图神经网络模型，都会降低视频检测模型的检测准确率。

在泛化能力测试中，可以使用FF++(HQ)数据集对相应的视频检测方法进行训练，将FF++(HQ)数据集、Celeb-DF数据集和DFDC 数据集作为测试集，测试结果如表4所示。

表4

其中，表4与表3相同内容的含义相同，Celeb-DF v2、DFDC分别表示视频检测模型在Celeb-DF v2数据集和DFDC数据集中的测试结果。在该泛化能力测试中，视频检测模型能达到最高的泛化性能，在Celeb-DF数据集中视频检测模型的检测准确率比基本的MC3方法的检测准确率高11.92％。取消视频检测模型中的三维注意力神经网络模型或时序图神经网络模型，都会降低伪造脸部视频检测的检测准确率。

综上所述，对本公开实施例中的视频检测模型的检测准确率进行精度测试和泛化能力测试后，根据测试结果可知，本公开实施例提供的视频检测模型及其对应实现的视频检测方法能够在针对多个数据集的多种视频检测模型及其对应实现的视频检测方法中均得到最高的检测准确率，因此，该测试结果表示本公开实施例提供的视频检测方法能够提高伪造脸部视频检测的精确度和泛化能力。

图10为本公开实施例提供的视频检测装置的结构示意图。

在本公开实施例中，该视频检测装置可以设置于计算设备中。其中，计算设备可以包括电子设备和服务器等，在此不作限制。设备可以包括移动电话、平板电脑、台式计算机、笔记本电脑、车载终端、可穿戴电子设备、一体机、智能家居设备等具有计算功能的设备，也可以是虚拟机或者模拟器模拟的设备。服务器可以是独立的服务器，也可以是多个服务器的集群，可以包括搭建在本地的服务器和架设在云端的服务器。

如图10所示，视频检测装置1000包括：图像获取模块1010、线性变化模块1020、特征构建模块1030和概率计算模块1040。

该图像获取模块1010可以用于获取待检测的图像序列，图像序列包含同一视频中的至少两个视频帧。

该非线性变化模块1020可以用于针对图像序列中的每个图像，对图像的脸部特征进行非线性变换处理，得到图像对应的脸部多个区域的注意力特征。

该特征构建模块1030可以用于基于各个图像对应的脸部多个区域的注意力特征，构建图像序列对应的脸部多个区域之间的时序关系特征。

该概率计算模块1040可以用于基于时序关系特征，计算视频为伪造脸部的视频的概率。

在本公开实施例中，能够在获取到待检测的包含同一视频中的至少两个视频帧的图像序列之后，对图像序列中的每个图像的脸部特征进行非线性变换处理，得到每个图像对应的脸部多个区域的注意力特征，并基于各个图像对应的脸部多个区域的注意力特征，构建图像序列对应的脸部多个区域之间的时序关系特征，进而基于时序关系特征，计算视频为伪造脸部的视频的概率，该概率可以用于判断视频是否为伪造脸部的视频，由于在本公开实施例中可以基于图像序列中的对应的脸部多个区域之间的时序关系特征计算该概率，可以在计算该概率时引入脸部多个区域之间的时序关系，进而检测出视频中脸部的时序不一致性，使得概率的计算结果的准确率更高、泛化能力更强，进而提高伪造脸部视频检测的精确度。

在本公开一些实施例中，图像获取模块1010可以包括视频分段单元、关键帧抽取单元和关键帧排序单元。

该视频分段单元可以用于将视频划分为多个视频段。

该关键帧抽取单元可以用于按照预设抽帧方式，抽取每个视频段的关键视频帧。

该关键帧排序单元可以用于按照播放时间顺序对各个关键视频帧进行排序，得到图像序列。

在本公开一些实施例中，非线性变化模块1020可以包括特征提取单元、三维卷积运算单元和注意力特征构建单元。

该特征提取单元可以用于对图像进行三维脸部特征提取处理，得到图像对应的三维脸部特征。

该三维卷积运算单元可以用于对图像对应的三维脸部特征进行三维卷积运算，得到图像对应的脸部多个区域的注意力权重矩阵。

该注意力特征构建单元可以用于基于图像对应的三维脸部特征和图像对应的脸部多个区域的注意力权重矩阵，生成图像对应的脸部多个区域的注意力特征。

在本公开一些实施例中，该注意力特征构建单元可以包括特征矩阵构建子单元、求和子单元和池化子单元。

该特征矩阵构建子单元可以用于将图像对应的三维脸部特征与图像对应的脸部多个区域的注意力权重矩阵的乘积，作为图像对应的脸部多个区域的注意力特征矩阵。

该求和子单元可以用于对图像对应的脸部多个区域的注意力特征矩阵的高度维度和宽度维度分别进行求和，得到求和后的注意力特征矩阵。

该池化子单元可以用于对求和后的注意力特征矩阵的长度维度进行全局平均池化，得到图像对应的脸部多个区域的注意力特征。

在本公开一些实施例中，该注意力特征构建单元可以包括权重矩阵构建子单元。

该权重矩阵构建子单元可以用于基于三维注意力神经网络模型，对图像对应的三维脸部特征进行三维卷积运算，得到图像对应的脸部多个区域的注意力权重矩阵；其中，三维注意力神经网络模型包括三个注意力机制模块，每个注意力机制模块包含三维卷积层、三维批标准化层和激活层，三维注意力神经网络模型的损失函数包括基于时序连续性损失函数和稀疏注意力对比损失函数。三维注意力神经网络模型基于时序连续性损失函数和稀疏注意力对比损失函数训练得到。

在本公开一些实施例中，特征构建模块可以包括图结构数据构建单元和时序关系特征构建单元。

该图结构数据构建单元可以用于针对每个图像，根据图像对应的脸部多个区域的注意力特征，构建图像对应的脸部多个区域的图结构数据。

该时序关系特征构建单元可以用于对各个图像对应的脸部多个区域的图结构数据进行时序关系构建处理，得到图像序列对应的脸部多个区域之间的时序关系特征。

在本公开一些实施例中，该时序关系特征构建单元可以包括隐含状态图构建子单元和时序关系特征获取子单元。

该隐含状态图构建子单元可以用于基于时序图神经网络模型，对各个图像对应的脸部多个区域的图结构数据进行时序关系构建处理，得到图像序列对应的最后一个隐含状态图。

该时序关系特征获取子单元可以用于将最后一个隐含状态图作为图像序列对应的脸部多个区域之间的时序关系特征。

需要说明的是，图10所示的视频检测装置1000可以执行图1至图5所示的方法实施例中的各个步骤，并且实现图1至图5所示的方法实施例中的各个过程和效果，在此不做赘述。

本公开实施例还提供了一种视频检测设备，该视频检测设备可以包括处理器和存储器，存储器可以用于存储可执行指令。其中，处理器可以用于从存储器中读取可执行指令，并执行可执行指令以实现上述实施例中的视频检测方法。

图11示出了本公开实施例提供的一种视频检测设备的结构示意图。下面具体参考图11，其示出了适于用来实现本公开实施例中的视频检测设备1100的结构示意图。

在本公开实施例中，视频检测设备1100可以为计算设备。其中，计算设备可以包括电子设备和服务器等，在此不作限制。电子设备可以包括移动电话、平板电脑、台式计算机、笔记本电脑、车载终端、可穿戴电子设备、一体机、智能家居设备等具有计算功能的设备，也可以是虚拟机或者模拟器模拟的设备。服务器可以是独立的服务器，也可以是多个服务器的集群，可以包括搭建在本地的服务器和架设在云端的服务器。

图11为本公开实施例提供的一种视频检测设备的结构示意图。本公开实施例提供的计算机设备可以上述方法实施例的处理流程，如图11所示，计算机设备1100包括：存储器1110、处理器1120、计算机程序和通讯接口1130；其中，计算机程序存储在存储器1110中，并被配置为由处理器1120执行如上所述的视频检测方法。

需要说明的是，图11示出的视频检测设备1100仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

另外，本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现上述实施例所述的视频检测方法。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种视频检测方法，其特征在于，包括：

获取待检测的图像序列，所述图像序列包含同一视频中的至少两个视频帧；

针对所述图像序列中的每个图像，对所述图像的脸部特征进行非线性变换处理，得到所述图像对应的脸部多个区域的注意力特征；

基于各个所述图像对应的脸部多个区域的注意力特征，构建所述图像序列对应的脸部多个区域之间的时序关系特征；

基于所述时序关系特征，计算所述视频为伪造脸部的视频的概率。

2.根据权利要求1所述的方法，其特征在于，所述获取待检测的图像序列，包括：

将所述视频划分为多个视频段；

按照预设抽帧方式，抽取每个所述视频段的关键视频帧；

按照播放时间顺序对各个所述关键视频帧进行排序，得到所述图像序列。

3.根据权利要求1所述的方法，其特征在于，所述对所述图像的脸部特征进行非线性变换处理，得到所述图像对应的脸部多个区域的注意力特征，包括：

对所述图像进行三维脸部特征提取处理，得到所述图像对应的三维脸部特征；

对所述图像对应的三维脸部特征进行三维卷积运算，得到所述图像对应的脸部多个区域的注意力权重矩阵；

基于所述图像对应的三维脸部特征和所述图像对应的脸部多个区域的注意力权重矩阵，生成所述图像对应的脸部多个区域的注意力特征。

4.根据权利要求3所述的方法，其特征在于，所述基于所述图像对应的三维脸部特征和所述图像对应的脸部多个区域的注意力权重矩阵，生成所述图像对应的脸部多个区域的注意力特征，包括：

将所述图像对应的三维脸部特征与所述图像对应的脸部多个区域的注意力权重矩阵的乘积，作为所述图像对应的脸部多个区域的注意力特征矩阵；

对所述图像对应的脸部多个区域的注意力特征矩阵的高度维度和宽度维度分别进行求和，得到求和后的注意力特征矩阵；

对所述求和后的注意力特征矩阵的长度维度进行全局平均池化，得到所述图像对应的脸部多个区域的注意力特征。

5.根据权利要求3所述的方法，其特征在于，所述对所述图像对应的三维脸部特征进行三维卷积运算，得到所述图像对应的脸部多个区域的注意力权重矩阵，包括：

基于三维注意力神经网络模型，对所述图像对应的三维脸部特征进行三维卷积运算，得到所述图像对应的脸部多个区域的注意力权重矩阵；其中，所述三维注意力神经网络模型包括三个注意力机制模块，每个所述注意力机制模块包含三维卷积层、三维批标准化层和激活层，所述三维注意力神经网络模型的损失函数包括基于时序连续性损失函数和稀疏注意力对比损失函数。

6.根据权利要求1所述的方法，其特征在于，所述基于各个所述图像对应的脸部多个区域的注意力特征，构建所述图像序列对应的脸部多个区域之间的时序关系特征，包括：

针对每个所述图像，根据所述图像对应的脸部多个区域的注意力特征，构建所述图像对应的脸部多个区域的图结构数据；

对各个所述图像对应的脸部多个区域的图结构数据进行时序关系构建处理，得到所述图像序列对应的脸部多个区域之间的时序关系特征。

7.根据权利要求6所述的方法，其特征在于，所述对各个所述图像对应的脸部多个区域的图结构数据进行时序关系构建处理，得到所述图像序列对应的脸部多个区域之间的时序关系特征，包括：

基于时序图神经网络模型，对各个所述图像对应的脸部多个区域的图结构数据进行时序关系构建处理，得到所述图像序列对应的最后一个隐含状态图；

将所述最后一个隐含状态图作为所述图像序列对应的脸部多个区域之间的时序关系特征。

8.一种视频检测装置，其特征在于，包括：

图像获取模块，用于获取待检测的图像序列，所述图像序列包含同一视频中的至少两个视频帧；

非线性变化模块，用于针对所述图像序列中的每个图像，对所述图像的脸部特征进行非线性变换处理，得到所述图像对应的脸部多个区域的注意力特征；

特征构建模块，用于基于各个所述图像对应的脸部多个区域的注意力特征，构建所述图像序列对应的脸部多个区域之间的时序关系特征；

概率计算模块，用于基于所述时序关系特征，计算所述视频为伪造脸部的视频的概率。

9.一种视频检测设备，其特征在于，包括：

处理器；

存储器，用于存储可执行指令；

其中，所述处理器用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现上述权利要求1-7中任一项所述的视频检测别方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，当所述计算机程序被处理器执行时，使得处理器实现用上述权利要求1-7中任一项所述的视频检测方法。