CN111860414B - 一种基于多特征融合检测Deepfake视频方法 - Google Patents
一种基于多特征融合检测Deepfake视频方法 Download PDFInfo
- Publication number
- CN111860414B CN111860414B CN202010745800.1A CN202010745800A CN111860414B CN 111860414 B CN111860414 B CN 111860414B CN 202010745800 A CN202010745800 A CN 202010745800A CN 111860414 B CN111860414 B CN 111860414B
- Authority
- CN
- China
- Prior art keywords
- frame
- intra
- feature vector
- video
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多特征融合检测Deepfake视频方法。该方法包括:对于待判决视频设定时间段内的多个视频帧,计算相邻两帧之间的相关度值,并根据所计算的相关度值形成帧间特征向量;对于该多个视频帧,计算表征帧内特征的帧内特征向量;将所述帧间特征向量和所述帧内特征向量进行串接,获得融合特征向量,并将该融合特征向量输入至预训练的分类器,获得待判决视频是否属于虚假视频的检测结果。本发明能够快速、准确地检测输入的视频文件是否经过了DeepFake等算法的改造,有助于对抗因滥用合成视频技术而造成的潜在危害。
Description
技术领域
本发明涉及多媒体安全技术领域,更具体地,涉及一种基于多特征融合检测Deepfake视频方法。
背景技术
Deepfake是指利用深度学习技术替换一段视频或图片中的人脸部分的技术,该技术可以自动生成大量的替换过人脸的虚假视频。Deepfake图像检测技术基于其判别原理可以分为四种:1)、采用传统图像取证方法,在像素级别上构建模型来检测Deepfake,但是这类借鉴传统图像取证技术的检测模型可以在伪造图像上加噪声的方式绕过;2)通过修改CNN网络架构和损失函数等方式检测Deepfake,这种方式容易受到对抗样本的攻击;3)通过分析和提取视频中真伪图像自身的差异化特征,进而训练分类器进行检测;4)基于GAN指纹特征的检测方法,然而Deepfake生成模型可通过选用无指纹特征的GAN来绕过这类检测,且GAN指纹特征不具有持久性和通用性。
在现有技术中,对于deepfake视频的检测还存在很多挑战。以采用SIFT特征点来匹配相邻视频帧之间差异的方案为例(如[Milijan Dordevic,Deepfake Video Analysisusing SIFT Feature,10.1109/TELFOR48224.2019.8971206]),该SIFT匹配方案检测到的兴趣点主要是对比度突然变化的部分,例如图像纹理、颜色、以及边缘的快速变化。该方案采用高斯差分法以及正则化来筛选关键点,基于局部图像梯度方向,确保算法的方向不变性;采用直方图平均,确保光照不变性。该方案主要包括:提取Deepfake和真实视频中连续帧上的SIFT特征,并进行配对;在同一帧显示Deepfake和原始视频的帧匹配组数,并采用滑动平均滤波器对匹配结果进行滤波;计算出帧匹配百分比的平均值,标准差和中值,以及原始视频与Deepfake之间的均方差。该方案存在的缺陷是:在检测时,关键点主要集中在轮廓边缘、角点区域,而平滑区域关键点很少,特征提取不均匀、不充分;关键点提取和匹配耗时,实时性不高。随着Deepfake技术的发展,图像拼接的边缘更平滑,导致该方案将更加难以提取足量特征点对Deepfake视频进行检测。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种基于多特征融合检测Deepfake视频方法,其结合像素级特征和视频级特征,实现实时、准确地判决视频网站中视频的真伪。
本发明提供一种基于多特征融合检测Deepfake视频方法,包括以下步骤:
对于待判决视频设定时间段内的多个视频帧M,计算相邻两帧之间的相关度值,并根据所计算的相关度值形成帧间特征向量E;
对于该多个视频帧M,计算表征帧内特征的帧内特征向量Ω;
将所述帧间特征向量E和所述帧内特征向量Ω进行串接,获得融合特征向量[E,Ω],将该融合特征向量输入至预训练的分类器,获得待判决视频是否属于虚假视频的检测结果。
在一个实施例中,根据以下步骤形成所述帧间特征向量E:
对于M帧中的每一帧,筛选视频中人脸的特征点,将第i个特征点表示为Ai,其坐标为(xi,yi),1≤i≤n,n为特征点数目;
对每一帧,计算特征点两两之间的归一化欧氏距离,特征点Ai和Aj间的归一化欧氏距离定义为:
将特征点两两之间的归一化欧氏距离构建为n*n的矩阵,并仅保留矩阵上三角位置的个元素,展开排列成/>准的向量X,作为一帧的向量;
计算相邻两帧向量Xk和Xk+1之间的相关度值,获得k-1个相关度值,其中Xk和Xk+1分别表示第k帧和k+1帧的向量,1≤k≤M-1;
将k-1个相关度值排列形成k-1维向量,作为帧间特征向量E。
在一个实施例中,所述相邻两帧向量Xk和Xk+1之间的相关度采用方差、均方差、协方差、欧氏距离或皮尔逊相关度来表征。
在一个实施例中,所述相邻两帧向量Xk和Xk+1之间的相关度为皮尔逊相关度,表示为:
其中表示向量Xk中元素的均值,/>表示向量Xk中元素的标准差,1≤k≤M-1。
在一个实施例中,所述计算表征帧内特征的帧内特征向量Ω包括:
对M帧进行均匀下采样,得到F帧;
对F帧中的每一帧,提取面部图像并计算残差图像,将提取到的面部图像表示为I,其坐标(u,v)处的像素值为Iu,v,则残差图像D在坐标(u,v)处的值定义为:Du,v=Iu,v-Iu+1,v;
计算每帧残差图像D的局部邻域的中值,表示为median{Du,v,Du+1,v,Du,v+1},进而形成残差中值矩阵V;
对每一帧的矩阵V,进行W*W邻域的线性回归,并将得到的线性回归系数向量ω作为该帧的帧内特征向量;
将所有F帧的帧内特征向量进行串接,得到Ω=[ω1,ω2,...,ωF],作为视频的帧内特征向量。
在一个实施例中,所述计算表征帧内特征的帧内特征向量Ω包括:
对M帧中的每一帧,提取面部图像并计算残差图像,将提取到的面部图像表示为I,其坐标(u,v)处的像素值为Iu,v,则残差图像D在坐标(u,v)处的值定义为:Du,v=Iu,v-Iu+1,v;
计算每帧残差图像D的局部邻域的中值,表示为median{Du,v,Du+1,v,Du,v+1},进而形成残差中值矩阵V;
对每一帧的矩阵V,进行W*W邻域的线性回归,并将得到的线性回归系数向量ω作为该帧的帧内特征向量;
将所有M帧的帧内特征向量进行串接,得到Ω=[ω1,ω2,...,ωM],作为视频的帧内特征向量。
在一个实施例中,所述分类器包括线性分类器、支持向量机、朴素贝叶斯、K近邻、决策树、集成模型、循环神经网络或卷积神经网络。
与现有技术相比,本发明同时融合了帧内特征与帧间特征,并且首次提出对残差图像的局部中值进行线性回归来提取帧内特征,弥补了帧内特征的局限性。本发明通过提取视频中相邻帧,判断帧之间的差异,能够实现对视频快速稳定地检测。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是根据本发明一个实施例的基于多特征融合检测Deepfake视频方法的流程图;
图2是根据本发明一个实施例的基于多特征融合检测Deepfake视频方法的过程示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
Deepfake视频的生成过程主要包括人脸定位、人脸转换、图像拼接三个步骤。通过分析发现,Deepfake在每一帧的图像拼接过程中,会改动人脸中的特征,从而导致帧间特征和帧内特征发生变化。本发明基于视频帧内与视频帧间的特征差异,联合帧内特征和帧间特征来训练分类模型(或称分类器),进而利用经训练的分类模型实现对Deepfake视频的检测。
具体地,参见图1并结合图2所示,本发明实施例提供的基于多特征融合检测Deepfake视频方法包括以下步骤:
步骤S110,获取用于表征帧间相关度的帧间特征向量。
例如,待检测视频的帧率为s帧/秒,持续时长为t秒,则该视频总共包含M帧,其中M=s*t。
对每一帧,通过开源dlib软件库或其它方法标记出视频中人脸的特征点,记特征点个数为n,对每个特征点分别进行编号(1~n),将第i个特征点标记为Ai,其坐标为(xi,yi),1≤i≤n。
对每一帧,计算特征点两两之间的归一化欧氏距离,用于表征特征点之间的相似性。例如,特征点Ai和Aj间的归一化欧氏距离定义为:
共可得到n*n个归一化欧氏距离值,形成一个n*n的矩阵。由于该矩阵关于对角线对称,且对角线上元素为0,因此优选地可仅保留矩阵上三角位置的个元素,展开排列成一个/>准的向量X。
用Xk和Xk+1分别表示第k帧和k+1帧的向量X,1≤k≤M-1。计算相邻两帧向量Xk和Xk+1之间的之间皮尔逊相关度,定义如下:
其中,表示向量Xk中元素的均值,/>表示向量Xk中元素的标准差,E(.)表示期望值,cov(.)表示协方差。最终,可得到k-1个皮尔逊相关度值,将它们排列形成一个k-1维向量,称为帧间特征向量,在本文中记为E。
需说明的是,在步骤S110中,优选使用皮尔逊相关度来刻画帧间向量的之间的相关度关系,在另外的实施例中,也可采用(均)方差、协方差、欧氏距离等进行替代。此外,优选采用两两特征点的归一化欧式距离来表征特征点之间的相似性,以适用于不同尺度的人脸图像,有利于提升所提取特征的尺度不变性。
步骤S120,获取帧内特征向量。
仍以设定持续时长内包含M帧为例,可进一步提取帧内特征,构成帧内特征向量。
优选地,考虑到相邻帧高度相似,为降低计算复杂性,对上述M帧进行均匀下采样,得到F帧,分别对F帧中的每帧计算帧内特征。
例如,对每一帧,使用开源dlib软件库或其它现有技术提取面部图像,并计算残差图像。记提取到的面部图像为I,其坐标(u,v)处的像素值为Iu,v,则残差图像D在坐标(u,v)处的值定义为:
Du,v=Iu,v-Iu+1,v
计算每帧残差图像D的局部邻域的中值,即median{Du,v,Du+1,v,Du,v+1},这些中值形成残差中值矩阵V。
对每一帧的矩阵V,进行W*W邻域的线性回归,将所得到的线性回归系数向量记为ω,维度为W2,将ω作为该帧的帧内特征向量。
通过上述方式,每一帧都提取得到一个帧内特征向量。记第f帧的帧内特征向量为ωf,其中1≤f≤F。将全部共F帧的帧内特征向量进行串接,得到Ω=[ω1,ω2,...,ωF],作为整个视频的帧内特征向量,维度为W2*F。
在该步骤S120的帧内特征提取中,首次提出对残差图像的局部中值进行线性回归来提取帧内特征。通过这种方式,能够平衡处理速度和所提取特征的有效性。
应理解的是,在另外的实施例中,也可以不进行下采样,而是直接对M帧中每一帧提取面部图像、计算残差图像、对残差图像的局部中值进行线性回归来提取帧内特征,最终获得全部共M帧的帧内特征向量,表示为Ω=[ω1,ω2,...,ωM]。这种方式在实际应用中,计算相对复杂,但一定程度上有利于提高后续的分类准确性。在下文的描述中,将以包括下采样过程为例进行说明。
步骤S130,将帧间特征向量和帧内特征向量进行串接,得到融合特征向量,用该融合特征向量训练分类器。
将得到的帧间特征向量E和帧内特征向量Ω进行串接,得到融合特征向量[E,Ω],维度为M-1+W2*F。用融合特征向量进行分类器训练,得到分类模型。
在本发明实施例中,可采用多种类型的分类器进行训练,例如包括但不限于线性分类器、支持向量机、朴素贝叶斯、K近邻、决策树、集成模型、循环神经网络或卷积神经网络等。训练过程可在线进行,或在云端、服务器等离线进行。
步骤S140,对于待判决视频,利用经训练的分类器判决是否属于虚假视频。
对待判决视频Q,计算Q的融合特征向量[E,Ω]Q,并输入至训练好的分类器,最终判决视频Q是“真实视频”还是“Deepfake虚假视频”。其中计算Q的融合特征向量的方法可参考上述的训练过程,在此不再赘述。
综上所述,本发明在帧间特征提取和帧内特征提取中涉及到的归一化欧式距离、皮尔逊相关度、残差图像的中值矩阵等均给出明确的数学定义。并且特征串接融合中涉及的矩阵乘法、加法、转置、矩阵求逆、线性回归等运算,不涉及复杂运算过程,从而能够实时、快速、准确地检测输入的视频文件是否经过了DeepFake等算法的“改造”,有助于减少因滥用合成视频技术而造成的潜在危害。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。
Claims (8)
1.一种基于多特征融合检测Deepfake视频方法,包括以下步骤:
对于待判决视频设定时间段内的多个视频帧M,计算相邻两帧之间的相关度值,并根据所计算的相关度值形成帧间特征向量E;
对于该多个视频帧M,计算表征帧内特征的帧内特征向量Ω;
将所述帧间特征向量E和所述帧内特征向量Ω进行串接,获得融合特征向量[E,Ω],将该融合特征向量输入至预训练的分类器,获得待判决视频是否属于虚假视频的检测结果;
其中,所述计算表征帧内特征的帧内特征向量Ω包括:
对M帧进行均匀下采样,得到F帧;
对F帧中的每一帧,提取面部图像并计算残差图像,将提取到的面部图像表示为I,其坐标(u,v)处的像素值为Iu,v,则残差图像D在坐标(u,v)处的值定义为:Du,v=Iu,v-Iu+1,v;
计算每帧残差图像D的局部邻域的中值,表示为median{Du,v,Du+1,v,Du,v+1},进而形成残差中值矩阵V;
对每一帧的矩阵V,进行W*W邻域的线性回归,并将得到的线性回归系数向量ω作为该帧的帧内特征向量;
将所有F帧的帧内特征向量进行串接,得到Ω=[ω1,ω2,…,ωF],作为视频的帧内特征向量。
2.根据权利要求1所述的方法,其中,根据以下步骤形成所述帧间特征向量E:
对于M帧中的每一帧,筛选视频中人脸的特征点,将第i个特征点表示为Ai,其坐标为(xi,yi),1≤i≤n,n为特征点数目;
对每一帧,计算特征点两两之间的归一化欧氏距离,特征点Ai和Aj间的归一化欧氏距离定义为:
将特征点两两之间的归一化欧氏距离构建为n*n的矩阵,并仅保留矩阵上三角位置的个元素,展开排列成/>维的向量X,作为一帧的向量;
计算相邻两帧向量Xk和Xk+1之间的相关度值,获得k-1个相关度值,其中Xk和Xk+1分别表示第k帧和k+1帧的向量,1≤k≤M-1;
将k-1个相关度值排列形成k-1维向量,作为帧间特征向量E。
3.根据权利要求2所述的方法,其中,所述相邻两帧向量Xk和Xk+1之间的相关度采用方差、均方差、协方差、欧氏距离或皮尔逊相关度来表征。
4.根据权利要求2所述的方法,其中,所述相邻两帧向量Xk和Xk+1之间的相关度为皮尔逊相关度,表示为:
其中表示向量Xk中元素的均值,/>表示向量Xk中元素的标准差,1≤k≤M-1。
5.根据权利要求1所述的方法,其中,所述计算表征帧内特征的帧内特征向量Ω包括:
对M帧中的每一帧,提取面部图像并计算残差图像,将提取到的面部图像表示为I,其坐标(u,v)处的像素值为Iu,v,则残差图像D在坐标(u,v)处的值定义为:Du,v=Iu,v-Iu+1,v;
计算每帧残差图像D的局部邻域的中值,表示为median{Du,v,Du+1,v,Du,v+1},进而形成残差中值矩阵V;
对每一帧的矩阵V,进行W*W邻域的线性回归,并将得到的线性回归系数向量ω作为该帧的帧内特征向量;
将所有M帧的帧内特征向量进行串接,得到Ω=[ω1,ω2,…,ωM],作为视频的帧内特征向量。
6.根据权利要求1所述的方法,其中,所述分类器包括线性分类器、支持向量机、朴素贝叶斯、K近邻、决策树、集成模型、循环神经网络或卷积神经网络。
7.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1所述的方法的步骤。
8.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010745800.1A CN111860414B (zh) | 2020-07-29 | 2020-07-29 | 一种基于多特征融合检测Deepfake视频方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010745800.1A CN111860414B (zh) | 2020-07-29 | 2020-07-29 | 一种基于多特征融合检测Deepfake视频方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860414A CN111860414A (zh) | 2020-10-30 |
CN111860414B true CN111860414B (zh) | 2023-10-24 |
Family
ID=72945556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010745800.1A Active CN111860414B (zh) | 2020-07-29 | 2020-07-29 | 一种基于多特征融合检测Deepfake视频方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860414B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI744057B (zh) | 2020-10-27 | 2021-10-21 | 國立成功大學 | 深度偽造影片檢測系統及其方法 |
CN112686123A (zh) * | 2020-12-25 | 2021-04-20 | 科大讯飞股份有限公司 | 虚假视频检测方法和装置、电子设备及存储介质 |
CN112966551A (zh) * | 2021-01-29 | 2021-06-15 | 湖南科技学院 | 视频帧描述信息的获取方法、装置及电子设备 |
CN113076813B (zh) * | 2021-03-12 | 2024-04-12 | 首都医科大学宣武医院 | 面具脸特征识别模型训练方法和装置 |
CN113283393B (zh) * | 2021-06-28 | 2023-07-25 | 南京信息工程大学 | 基于图像组与两流网络的Deepfake视频检测方法 |
CN113989713B (zh) * | 2021-10-28 | 2023-05-12 | 杭州中科睿鉴科技有限公司 | 基于视频帧序预测的深度伪造检测方法 |
CN114332792B (zh) * | 2021-12-09 | 2023-05-16 | 苏州驾驶宝智能科技有限公司 | 基于关键点多尺度融合的立体场景目标检测方法及系统 |
CN115147758A (zh) * | 2022-06-23 | 2022-10-04 | 山东大学 | 基于帧内帧间特征差异化的深度伪造视频检测方法及系统 |
CN117011740A (zh) * | 2022-10-20 | 2023-11-07 | 腾讯科技(深圳)有限公司 | 视频检测方法和装置、存储介质及电子设备 |
CN117557893B (zh) * | 2024-01-11 | 2024-08-16 | 湖北微模式科技发展有限公司 | 一种基于残差峰值的静态场景视频真伪鉴定方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726733A (zh) * | 2018-11-19 | 2019-05-07 | 西安理工大学 | 一种基于帧间相关性的视频篡改检测方法 |
AU2019101186A4 (en) * | 2019-10-02 | 2020-01-23 | Guo, Zhongliang MR | A Method of Video Recognition Network of Face Tampering Based on Deep Learning |
CN111144314A (zh) * | 2019-12-27 | 2020-05-12 | 北京中科研究院 | 一种篡改人脸视频检测方法 |
CN111353399A (zh) * | 2020-02-24 | 2020-06-30 | 中国科学技术大学 | 篡改视频检测方法 |
CN111353395A (zh) * | 2020-02-19 | 2020-06-30 | 南京信息工程大学 | 一种基于长短期记忆网络的换脸视频检测方法 |
CN111444881A (zh) * | 2020-04-13 | 2020-07-24 | 中国人民解放军国防科技大学 | 伪造人脸视频检测方法和装置 |
-
2020
- 2020-07-29 CN CN202010745800.1A patent/CN111860414B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109726733A (zh) * | 2018-11-19 | 2019-05-07 | 西安理工大学 | 一种基于帧间相关性的视频篡改检测方法 |
AU2019101186A4 (en) * | 2019-10-02 | 2020-01-23 | Guo, Zhongliang MR | A Method of Video Recognition Network of Face Tampering Based on Deep Learning |
CN111144314A (zh) * | 2019-12-27 | 2020-05-12 | 北京中科研究院 | 一种篡改人脸视频检测方法 |
CN111353395A (zh) * | 2020-02-19 | 2020-06-30 | 南京信息工程大学 | 一种基于长短期记忆网络的换脸视频检测方法 |
CN111353399A (zh) * | 2020-02-24 | 2020-06-30 | 中国科学技术大学 | 篡改视频检测方法 |
CN111444881A (zh) * | 2020-04-13 | 2020-07-24 | 中国人民解放军国防科技大学 | 伪造人脸视频检测方法和装置 |
Non-Patent Citations (1)
Title |
---|
融合全局时序和局部空间特征的伪造人脸视频检测方法;陈鹏 等;信息安全学报;5(第02期);第73-83页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111860414A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860414B (zh) | 一种基于多特征融合检测Deepfake视频方法 | |
Rafique et al. | Deep fake detection and classification using error-level analysis and deep learning | |
Han et al. | Density-based multifeature background subtraction with support vector machine | |
Korus et al. | Multi-scale fusion for improved localization of malicious tampering in digital images | |
Bansal et al. | The do's and don'ts for cnn-based face verification | |
Ji et al. | Semi-supervised adversarial monocular depth estimation | |
Nishiyama et al. | Facial deblur inference using subspace analysis for recognition of blurred faces | |
WO2021139324A1 (zh) | 图像识别方法、装置、计算机可读存储介质及电子设备 | |
Korus et al. | Evaluation of random field models in multi-modal unsupervised tampering localization | |
Rao et al. | Learning discriminative aggregation network for video-based face recognition and person re-identification | |
CN112668483A (zh) | 一种融合行人重识别和人脸检测的单目标人物跟踪方法 | |
Chakraborty | PRNU-based image manipulation localization with discriminative random fields | |
Salem | A Survey on Various Image Inpainting Techniques. | |
Jemilda et al. | Moving object detection and tracking using genetic algorithm enabled extreme learning machine | |
Shivakumara et al. | Fractional means based method for multi-oriented keyword spotting in video/scene/license plate images | |
Zhang et al. | Face spoofing video detection using spatio-temporal statistical binary pattern | |
Krithika et al. | MAFONN-EP: A minimal angular feature oriented neural network based emotion prediction system in image processing | |
Asadzadehkaljahi et al. | Spatio-Temporal FFT-Based Approach for Arbitrarily Moving Object Classification in Videos of Protected and Sensitive Scenes | |
Saealal et al. | Three-dimensional convolutional approaches for the verification of deepfake videos: The effect of image depth size on authentication performance | |
CN113807237B (zh) | 活体检测模型的训练、活体检测方法、计算机设备及介质 | |
Sushma et al. | A copy and move image forged classification by using hybrid neural networks | |
Li et al. | A new qr code recognition method using deblurring and modified local adaptive thresholding techniques | |
Richards et al. | Deep fake face detection using convolutional neural networks | |
Jain et al. | Discriminability limits in spatio-temporal stereo block matching | |
Drira et al. | Mean-Shift segmentation and PDE-based nonlinear diffusion: toward a common variational framework for foreground/background document image segmentation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |