CN106055632A

CN106055632A - 基于场景帧指纹的视频认证方法

Info

Publication number: CN106055632A
Application number: CN201610367884.3A
Authority: CN
Inventors: 毛家发; 张明国; 钟丹虹; 高飞; 肖刚
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2016-05-27
Filing date: 2016-05-27
Publication date: 2016-10-26
Anticipated expiration: 2036-05-27
Also published as: CN106055632B

Abstract

基于场景帧指纹的视频认证方法,首先通过场景帧指纹判定方法，提取出视频片断中5个连续不同的场景帧指纹，组成视频指纹。然后与视频本身的ID信息组成元指纹数据，指纹信息采用Bag‑words形式存储，节省了75％的存储空间。在查找认证过程中，采用倒排文折半技术提高了匹配速度。经仿真实验，我们提出的视频认证方法具有良好的检测性能，平均准确率达到98％以上，在Matlab软环境下查找认证速度每部视频在12秒左右，能够实现网络环境下的实时检测。

Description

基于场景帧指纹的视频认证方法

技术领域

本发明属于视频认证技术领域，公开了一种在新媒体环境下进行视频认证，打击盗版的新方法。

背景技术

当前大部分数字视频作品采用数据加密方法，把数字视频内容进行加密，只有授权用户才能得到解密的密钥。然而，数据加密技术面临密钥传输过程中被窃取的问题，一旦失窃将数字视频无法得到保护。数字水印技术的出现可以解决密钥丢失的问题。数字水印技术是在数字内容中嵌入隐蔽的标记，通过检测工具提取匹配，实现版权保护目的。但是，目前数字水印产品在抵抗有意或无意的攻击能力不强，鲁棒性并不牢靠，极大地制约着数字水印技术的应用发展。

指纹技术可以弥补加密技术和数字水印技术的不足。视频指纹是指可以代表一段视频信号重要视觉特征的数字签名，其主要目的是建立一种有效机制来比较两个视频数据的感知质量。注意这里不是直接比较通常很大的视频数据本身，而是比较其相应通常较小的数字指纹。

视频指纹技术讲究的是准确性、鲁棒性、指纹尺寸、粒度、认证速度和通用性。准确性包括正确识别率、虚警率、漏警率；鲁棒性指未知视频能在经受比较严重的视频信号处理后仍能够被识别出来；指纹尺寸在很大程度上决定指纹数据库的内在容量；粒度是一个依赖于应用的参数，即需要多长的未知视频片断来识别整部视频；对实际商业应用的视频指纹系统来说，认证速度是一个关键的参数；通用性是指能够对不同视频格式进行识别能力。围绕这些特性，广大学者从视频的时空域、空域、时域和彩色空间方面着手，展开了视频指纹技术的研究，取得了可喜的研究成果。近年来，指纹技术在版权认证、拷贝监测、多媒体检索以及盗版跟踪等方面得到广泛的应用，广大指纹研究者提出了许多视频指纹算法，总结现有视频指纹算法，可以归纳为4类：彩色空间(color-space-based)、时域(temporal)、空域(spatial)和时空域(spatio-temporal)。

彩色空间指纹提取方法依赖于视频时空域中的颜色直方图。利用视频片断的颜色统计特性进行视频指纹提取。但是现在的视频颜色绝大多数是24位真彩色，统计数量过于庞大，阻碍了指纹提取的速度。而且不同的视频格式其颜色会产生明显的改变，更何况彩色空间指纹提取不能适用于黑白视频，因此这种方法没有得到广泛地应用。

时域指纹提取方法主要是从视频序列从提取时域特性。这种方法需要较长的视频序列，不适应于短时的视频片断。但是现在网页上短时视频已经相当普遍，因此时域指纹不适应于在线(online)应用。

空域指纹方法是从每一帧或关键帧中提取特征，这些方法类似于图像指纹方法。空域指纹又分为全局指纹和局部指纹，全局指纹包涵全局特性，如图像直方图等统计特性。局部指纹主要的提取图像的局部特征，如帧图像里的局部兴趣点等，这些兴趣点常常被应用到多媒体中的目标检索。但是，提取兴趣点需要对图像进行预处理，而视频帧数量巨大，这将耗费大量的计算机内存，因此这种指纹提取方法很少应用于视频领域。

时空域指纹包涵了视频的时域和空域信息，因此时空域指纹性能要好于时域和空域。目前基于时空域指纹提取方法主要有3D-DCT、TIRI-DCT、3D-STIP。综合这些视频指纹算法，他们在一定程度上都能够有效地抵抗一些常见的攻击，如分辨率减小、帧率减小、加噪、亮度改变、对比度改变等，但它们对重编码、重捕获、加Logo/Text、画中画等攻击的认证能力有限。

发明内容

本发明要克服现有技术的上述缺点，提供一种基于场景帧指纹的视频认证方法。

本发明所述的基于场景帧指纹的视频认证方法，包括以下步骤：

1)、对视频的帧的预处理；

(1.1)对视频中的彩色帧进行颜色空间转换，取其亮度分量，得到灰度图像；

(1.2)剪切视频帧四周，保留视频帧中心部分；再缩放成具有固定尺寸(W×H像素)；

(1.3)用3×3大小、标准差为0.95的Gaussian低通滤波对视频帧进行滤波；

(1.4)将图像缩放成3/4QCIF大小(QCIF(144×176像素))。

2)、对经过预处理的视频帧进行指纹提取，包括以下步骤：

(2.1)对经过预处理的视频帧，进行分块，在一个9×11的区域内，a至h是局部像素的平均；那么帧元素提取方法为:(1)整个9×11子区域的均值元素；(2)四个差分元素a-b、c-d、e-f和g-h；总共得到720帧元素，其中144个均值元素，记为A元素，576个差分元素，记为D元素；

(2.2)对A元素量化成四重值；对于1-144维的A元素，设A_i为A元素值，应用公式(1)把这些A元素量化成四重值x_i:

(2.3)动态地求取阈值ThA，包括以下几个步骤：

(2.3.1)取a_i＝abs(A_i-128)，abs(·)为取绝对值算子，将a_i按升序排列成 a_k＝{a₁,a₂,…,a_k,…,a_N}；这里的索引i与索引k不相同；

(2.3.2)阈值ThA＝a_k，这里k＝floor(0.25*N)，N＝144，floor为向下取整；

(2.4)对D元素量化成四重值；对于145-720维的D元素D_i，应用公式(2)把它们量化成四重值x_i：

(2.5)动态地求取阈值ThD，包括以下几个步骤：

(2.5.1)取d_i＝abs(D_i)，将d_i按升序排列成d_k＝{d₁,d₂,…,d_k,…,d_N}；这里的索引i与索引k不相同；

(2.5.2)阈值ThD＝d_k，这里k＝floor(0.25*N)，N＝576，floor为向下取整；

(2.6)用二进制编码形式来存储提取出来的4重元素X＝{x₁,x₂,…,x₇₂₀}

设word_i，i＝1,2,…,180定义为每4-维元素占1个编码单元，这种编码方式采用如下公式计算得到：

word_i＝4³*x_(i-1)*4+1+4²*x_(i-1)*4+2+4*x_(i-1)*4+3+x_(i-1)*4+4 (3)

(2.7)场景帧指纹的提取算法，包括以下步骤：

(2.7.1)是否为黑屏的判断；应用式(4)进行黑屏判断；

mean(F)<Th_BS (4)

mean(F)是表示图像像素的均值，Th_BS是黑屏阈值；

(2.7,2)是否为场景帧的判断；假设前一场景帧的指纹为SF_i-1，当前帧的指纹为F_i，i＝2,…,5；如果(5)成立，那么就判定当前帧为另一场景帧，否则当前帧还是前一场景帧；

d(SF_i-1,F_i)≥Th_SF,i＝2,…,5 (5)

这里d(SF_i-1,F_i)表示当前帧指纹F_i前一场景帧指纹SF_i-1之间的距离，Th_SF为判定阈值；

3)视频指纹库的建立；将需要版权认证视频的用户信息、产品信息和指纹信息绑定在一条记录上，生成元数据(meta data)，元数据集合构成元数据库，将其按按倒排文规则进行排序并存储；

4)结合我们的指纹特点：四重值(Quaternion value)，本发明提出了倒排文折半搜索匹配算法(inverted file&binary-based Search Matching)，其步骤如下：

(4.1)按式(3)将3600维指纹向量组合成900个word，即为Bag-Words,每个word值范围为0-255；

(4.2)建立倒排文队列；每个视频指纹按第一个word大小从小到大顺序插入到倒排文队列中，如第一个word相同，那按第二个word的值升序排列，如此连续下去，直到所有的原视频指纹插入到倒排文队列中；以倒排文规则排序的视频指纹及视频信息构成元指纹数据库；

(4.3)折半搜索匹配方法；假设待认证视频指纹的Bag-Words序列为AuBW_i，i＝1,2,…,900；具体的折中搜索步骤如下：

(4.3.1):将所有的元数据库中的记录标上未查标记；

(4.3.2):取其第一个word为AuBW₁，在倒排文队列中折中查找AuBW₁，查找的结果可能会出现三种情况：

A1)只有一条记录；那么将该记录中的Bag-Words还原成四重值指纹MeF_i，还原方法为每个word除4取余；按式(6)求其归一化Hamming距离d：

这里的i＝1,2,…,L，L为指纹长度，AuF为认证视频的指纹；然后按(7)式进行求值；

当T＝0时，查询结束，表明该元记录所对应的视频就是需要认证的视频；当T＝1时，记下该元数据的位置和Hamming距离，并将该记录标上已查标记；当T＝2时，仅将该记录标上已查标记；

A2)有多条记录；按(6)式计算出所有这些记录的Hamming距离，同时将这些记录标上已查标记；取最小Hamming距离，按(7)式进行求值，当T＝0时，查询结束表明该元记录所对应的视频就是需要认证的视频；当T＝1时，记下该元数据的位置和Hamming距离，当T＝2时，不作任何处理，直接进入下一步；

A3)没有记录；不作任何处理，直接进入下一步；

(4.3.3):取其第i个word为AuBW_i,i＝2,3,…,K；在倒排文队列中折中查找AuBW_i，查找的结果可能会出现四种情况；需要注意的是这里的K是个未知数，但一定满足K≤L/m；m为word的长度，在这里m＝4；

B1)有若干条已标有已查标记的记录；这种情况直接进入下一步；

B2)仅有一条未标有已查标记的记录；这种情况按与(4.3.2)中A1)情况处理；

B3)有多条未标有已查标记的记录；这种情况按与(4.3.2)中A2)情况处理；

B4)没有记录；这种情况下按(4.3.2)中A3)情况处理；

重复(4.3.3)，直到出现T＝0或所有记录都标上已查标记为止；

(4.3.4):如果前二步是没有出现T＝0情况，那么只有二种情况出现：

C1)至少有一条记录满足T＝1；这种情况取最小的Hamming距离那条元记录，这条元记录就是需要认证的视频；查询结束；

C2)没有一条记录满足T＝1；这种情况表明认证的视频不在元数据库中，发出拒绝信息；查询结束。

查询结束。

本发明的优点是：

A.选用视频帧的中间区域作为提取指纹的对象，这与采用人类的手指指纹来表征不同人的理念的一致的，同时这样做可以减小了指纹提取过程的数据运算量，提高了指纹提取速度。

B.我们采用四重值来表征视频帧区域的差异，比用二值Hash、三重值表征更加精细、更加合理，从而也提高了认证识别率。

C.我们采用Bag-words形式存储指纹元数据库，节省了75％的存储空间。

D.采用倒排文折半搜索算法，提高了查找匹配速度。

附图说明

图1为本发明的图像分块示意图。

图2为本发明的视频指纹提取流程图示意图。

图3为本发明当Th_SF＝0.426时，影视《28 Weeks Later》片断中的五个连续不同的场景帧。

图4aTh_SF＝0.40时的所取得的五个不同场景帧。图4b是Th_SF＝0.412时的所取得的五个不同场景帧。图4c是Th_SF＝0.44时的所取得的五个不同场景帧。图4d是Th_SF＝0.452时的所取得的五个不同场景帧。

图5为本发明的视频指纹匹配架构图。

具体实施方式

下面结合附图进一步说明本发明。

本发明的基于场景帧指纹的视频认证方法，包括以下步骤：

1)、对视频的帧的预处理；

(1.4)将图像缩放成3/4QCIF大小(QCIF(144×176像素))。

2)、对经过预处理的视频帧进行指纹提取，其流程如说明书附图中图2所示，包括以下步骤：

(2.1)如说明书附图1所示，对经过预处理的视频帧，进行分块，在一个9×11的区域内，a至h是局部像素的平均；那么帧元素提取方法为:(1)整个9×11子区域的均值元素；(2)四个差分元素a-b、c-d、e-f和g-h；总共得到720帧元素，其中144个均值元素，记为A元素，576个差分元素，记为D元素；

(2.3)动态地求取阈值ThA，包括以下几个步骤：

(2.3.1)取a_i＝abs(A_i-128)，abs(·)为取绝对值算子，将a_i按升序排列成a_k＝{a₁,a₂,…,a_k,…,a_N}；这里的索引i与索引k不相同；

(2.5)动态地求取阈值ThD，包括以下几个步骤：

word_i＝4³*x_(i-1)*4+1+4²*x_(i-1)*4+2+4*x_(i-1)*4+3+x_(i-1)*4+4 (3)

(2.7)场景帧指纹的提取算法，包括以下步骤：

(2.7.1)是否为黑屏的判断；应用式(4)进行黑屏判断；

mean(F)<Th_BS (4)

mean(F)是表示图像像素的均值，Th_BS是黑屏阈值；

d(SF_i-1,F_i)≥Th_SF,i＝2,…,5 (5)

如说明书中附图3所示是当Th_SF＝0.426时，影视《28 Weeks Later》片断中的五个连续不同的场景帧。当取不同的判定阈值时，场景帧的判别有所差别，如说明书附图4所示，图4a是当阈值Th_SF＝0.40时的所取得的五个不同场景帧。图4b是当阈值Th_SF＝0.412时的所取得的五个不同场景帧。图4c是当阈值Th_SF＝0.44时的所取得的五个不同场景帧。图4d是当阈值Th_SF＝0.452时的所取得的五个不同场景帧。

3)视频指纹库的建立；将需要版权认证视频的用户信息、产品信息和指纹信息绑定在一条记录上，生成元数据(meta data)，元数据集合构成元数据库，将其按按倒排文规则进行排序并存储，说明书附图5中的Meta Fingerprint Database是我们所建立的视频指纹库；

4)结合我们的指纹特点：四重值(Quaternion value)，本发明提出了倒排文折半搜索匹配算法(inverted file&binary-based Search Matching)，如说明书附图5为视频指纹匹配架构图，该图说明了指纹匹配的宏观匹配过程，其步骤如下：

(4.3.1):将所有的元数据库中的记录标上未查标记；

A3)没有记录；不作任何处理，直接进入下一步；

(4.3.3):取其第i个word为AuBW_i,i＝2,3,…,K；在倒排文队列中折中查找AuBW_i，查找的结果可能会出现四种情况；需要注意的是这里的K是个未知数，但一定满足K≤L/m；m为word的长度，在这里中m＝4；

B4)没有记录；这种情况下按(4.3.2)中A3)情况处理；

重复(4.3.3)，直到出现T＝0或所有记录都标上已查标记为止；

Claims

1.基于场景帧指纹的视频认证方法，包括以下步骤：

1)、对视频的帧的预处理；

(1.4)将图像缩放成3/4QCIF大小(QCIF(144像素×176像素))；

2)、对经过预处理的视频帧进行指纹提取，包括以下步骤：

(2.2)对A元素量化成四重值；对于1-144维的A元素，设A_i为A元素值，ThA为量化阈值，应用公式(1)把这些A元素量化成四重值x_i:

(2.3)动态地求取阈值ThA，包括以下几个步骤：

(2.4)对D元素量化成四重值；对于145-720维的D元素D_i，ThD为量化阈值，应用公式(2)把它们量化成四重值x_i：

(2.5)动态地求取阈值ThD，包括以下几个步骤：

(2.5.1)取d_i＝abs(D_i)，abs(·)为取绝对值算子，将d_i按升序排列成 d_k＝{d₁,d₂,…,d_k,…,d_N}；这里的索引i与索引k不相同；

word_i＝4³*x_(i-1)*4+1+4²*x_(i-1)*4+2+4*x_(i-1)*4+3+x_(i-1)*4+4 (3)

(2.7)场景帧指纹的提取算法，包括以下步骤：

(2.7.1)是否为黑屏的判断；应用式(4)进行黑屏判断；

mean(F)<Th_BS (4)

F为当前帧，mean(F)是表示图像像素的均值，Th_BS是黑屏阈值；

d(SF_i-1,F_i)≥Th_SF,i＝2,…,5 (5)

4)结合指纹特点：四重值(Quaternion value)，提出了倒排文折半搜索匹配算法(inverted file&binary-based Search Matching)，其步骤如下：

(4.3.1):将所有的元数据库中的记录标上未查标记；

A1)只有一条记录；那么将该记录中的Bag-Words还原成四重值指纹MeF_i，还原方法为每个word除4取余；按式(6)求其归一化Hamming距离d，Hamming距离是在数据传输差错控制编码里面的一个概念；

这里的i＝1,2,…,L，L为指纹长度，AuF为认证视频的指纹；然后按(7)式进行求得值为T；

A3)没有记录；不作任何处理，直接进入下一步；

B4)没有记录；这种情况下按(4.3.2)中A3)情况处理；

重复(4.3.3)，直到出现T＝0或所有记录都标上已查标记为止；