CN111784694B

CN111784694B - 一种基于视觉注意力机制的无参考视频质量评价方法

Info

Publication number: CN111784694B
Application number: CN202010841520.0A
Authority: CN
Inventors: 应泽峰; 史萍; 侯明; 潘达
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2024-07-23
Anticipated expiration: 2040-08-20
Also published as: CN111784694A

Abstract

本发明公开了一种基于视觉注意力机制的无参考视频质量评价方法，本方法通过生成视频帧的光流场，使用其筛选深度神经网络中的中间特征，通过注意力机制模拟了人眼对于失真视频的感知过程，以此完成视频的质量评价任务。本发明利用了人眼在观察失真视频时的感知效应，即视频中的运动信息会吸引人眼的注意力，使人眼更关注此区域而影响了对视频整体质量的判断。另外，运动具有掩蔽效应，运动区域的失真不易被人眼所觉察。本发明设计了视觉注意力机制模型模拟了人眼感知失真的这一过程，通过光流场逐像素地表示视频帧的运动信息，作为视觉注意力图，并将其作用于深度神经网络中，以此提高视频质量评价模型的性能。

Description

一种基于视觉注意力机制的无参考视频质量评价方法

技术领域

本发明涉及一种基于视觉注意力机制的无参考视频质量评价方法，属于数字视频处理技术领域。

背景技术

随着5G网络设施和数字媒体的发展，视频在人们的生活中越来越常见。而视频在获取、压缩、传输中，会产生一定的失真，影响人们的观看体验。视频提供商为了提高视频服务的质量，需要对视频质量进行评估，这一过程称为视频质量评价(Video QualityAssessment, VQA)。

视频质量评价可以分为主观评价方法和客观评价方法。主观评价由观察者对视频质量进行主观评分，但主观评价工作量大、耗时长,不方便；客观评价方法是由计算机根据一定算法计算得到视频的质量指标,根据评价时是否需要参考视频又可以分为全参考(Full Reference, FR)、半参考(部分参考)(ReducedReference,RR)和无参考(NoReference,NR)三类评价方法:

(1)全参考视频质量评价方法。FR算法是指在给定无损视频作为参考视频的情况下，比较待评价视频与参考视频之间的差异，分析待评价视频的失真程度，从而得到待评价视频的质量评估。常见的FR方法有：基于视频像素统计的视频质量评价(主要有峰值信噪比和均方误差)、基于深度学习的视频质量评价、基于结构信息的视频质量评价(主要为结构相似度)。FR算法是目前为止在客观视频质量评价中最可靠的方法。

(2)半参考视频质量评价方法。RR算法是以提取参考视频的部分特征信息作为参考，对待评价视频进行比较分析，从而得到视频的质量评估。常见的RR算法主要为：基于原始视频特征方法和基于Wavelet域统计模型的方法。

(3)无参考视频质量评价方法。NR算法是指在没有无损视频作为参考视频的情况下，对待评价视频进行质量评估的方法。常用的NR算法主要为：基于自然场景统计的方法、基于深度学习的方法。

发明内容

针对现有视频质量评价中无参考视频质量评价性能差的问题，本发明提出了一种无参考客观质量评价方法，本发明利用人眼对于视频运动区域的失真感知特性，使用PWC-Net模型生成视频光流场数据，通过深度神经网络将视频帧数据计算回归至质量分数，并在其中使用视觉注意力机制，使用光流场数据对视频帧特征进行筛选，最后将所有视频帧分数融合至视频整体质量分数。

本发明采用的技术方案为一种基于视觉注意力机制的无参考视频质量评价方法，包括以下步骤：

步骤1，抽取视频帧。

对于一个视频，需要在抽帧后，以帧作为视觉注意力机制模型的输入单位。

步骤1.1，抽取视频帧，以4帧为间隔抽取视频帧，其他视频帧作为冗余丢弃；

步骤1.2，将抽取得到的视频帧的最后一帧丢弃，因该帧无法计算光流场；

步骤2，生成光流场数据。

使用开源模型PWC-Net生成视频数据的光流场。

步骤2.1，搭建PWC-Net模型，使用开源的已训练模型；

步骤2.2，将每一视频帧与下一视频帧组成视频帧对，作为PWC-Net的输入；

步骤2.3，将每一组视频帧对输入PWC-Net进行计算，得到所有视频帧的光流场数据。

步骤3，对光流场数据进行预处理。

对PWC-Net生成的光流场数据进行阈值截断归一化，并取幅值。

步骤3.1，对光流场数据的X、Y通道，分别设阈值Tx(默认取140)、Ty(默认取160)，将阈值之外的光流数据值舍弃并设为阈值；

步骤3.2，将光流场数据X、Y通道的所有值，分别除以Tx、Ty，进行归一化；

步骤3.3，计算所有光流场数据的幅度值作为光流幅值图；

步骤3.4，将光流场幅值图在宽高比不变的条件下，缩放至原大小的四分之一。

步骤4，搭建并训练视觉注意力机制模型。

搭建基于ResNet50的视觉注意力机制网络，并训练。

步骤4.1，改造ResNet50网络，在ResNet50的第二组卷积层之后加入视觉注意力机制模块，即使用步骤3得到的光流场幅值图与此时的特征图按位相乘；视觉注意力机制模块的输出作为ResNet50第三组卷积层的输入；

步骤4.2，整理训练数据，模型输入为步骤1生成的视频帧和其对应的步骤3生成的光流幅值图，标签为此视频的质量分数；

步骤4.3，训练视觉注意力机制网络，使用MSELoss进行训练。

步骤5，进行视频的质量评价。

对一段视频进行抽帧、计算光流，并进行质量评价。

步骤5.1，按照步骤1的步骤对待测视频抽取视频帧；

步骤5.2，使用步骤2和步骤3的步骤生成待测视频帧的光流场幅值图；

步骤5.3，使用步骤4训练好的视觉注意力机制网络进行质量评价，每个视频帧得到一个质量分数。

步骤5.4，对所有视频帧的质量分数求平均，得到视频的整体质量分数。

与现有技术相比，本发明具有以下优点：

(1)本发明利用人眼对于视频运动区域的失真感知特性提高VQA性能。在人眼感知视频失真的过程中，运动信息会吸引人眼的注意力，使人眼更容易关注此区域而影响了对视频整体质量的判断。另一方面运动具有掩蔽效应，运动区域所产生的失真不易被人眼所觉察。如果能筛选出运动区域，就可以更好地模拟人眼视觉系统，使VQA模型更精确。

(2)本发明使用PWC-Net生成光流场，可以更好地提取视频运动区域，更好地表示VQA 中的视觉感知特性。光流场可以逐像素地描述视频中的运动信息，可以较好地代表VQA中视觉注意力机制的注意力视图。PWC-Net是一种高速度、高精度的深度学习模型，相对于传统方法，可以高效地生成更高质量的光流场。

附图说明

图1为本发明具体实施方式的流程图；

图2为本发明基于ResNet50的视觉注意力机制模型结构图；

具体实施方式

以下结合附图和实例对本方法进行详细说明。

实施方式的流程图如图1所示，包括以下步骤：

步骤S10，抽取视频帧；

步骤S20，生成光流场；

步骤S30，光流场数据预处理；

步骤S40，搭建并训练视觉注意力机制模型；

步骤S50，对视频进行质量评价；

实施方式的抽取视频帧调整步骤S10还包括以下步骤：

步骤S100，抽取视频帧，以等间隔选取视频帧，其他视频帧由于冗余直接丢弃；

步骤S110，将抽取得到视频帧的最后一帧丢弃，因为无法计算其光流场。

实施方式的光流场数据预处理调整步骤S20还包括以下步骤：

步骤S200，搭建PWC-Net模型，使用开源的已训练模型；

步骤S210，将每一帧视频与其之后的一帧组成视频帧对，作为PWC-Net的输入；

步骤S220，将每一视频帧对输入PWC-Net进行计算，得到所有视频帧的光流场数据。

实施方式的光流场数据预处理调整步骤S30还包括以下步骤：

步骤S300，对光流场数据的X、Y通道，分别设阈值Tx、Ty，将阈值之外的光流数据值舍弃并设为阈值；

步骤S310，将光流场数据X、Y通道的所有值，分别除以Tx、Ty，进行归一化；

步骤S320，计算所有光流场数据的幅度值M；

步骤S330，将光流场幅值图在宽高比不变的条件下，缩放至原大小的四分之一。

实施方式的搭建并训练视觉注意力机制模型调整步骤S40还包括以下步骤：

步骤S400，改造ResNet50网络，在ResNet50的第二组卷积层之后加入视觉注意力机制模块，即使用步骤S30得到的光流场幅值图与此时的特征图按位相乘；

步骤S410，整理训练数据，模型输入为单独视频帧和其对应的光流场，标签为此视频的质量分数；

步骤S420，训练视觉注意力机制网络，使用MSE Loss进行训练。

实施方式的对视频进行质量评价调整步骤S50还包括以下步骤：

步骤S500，按照步骤S10的步骤对待测视频抽取视频帧；

步骤S510，使用步骤S20和步骤S30的步骤生成待测视频帧的光流场幅值图；

步骤S520，使用步骤S40训练好的视觉注意力机制网络进行质量评价，每个视频帧得到一个质量分数；

步骤S530，对所有视频帧的质量分数求平均，得到视频的整体质量分数。

下面给出应用本发明的实验结果。

表1展示了使用本发明在多种VQA数据库上的性能结果。

注：SRCC(Spearman rankorder correlation coefficient，斯皮尔曼秩相关系数)

PLCC(Pearson linear correlation coefficient，皮尔森线性相关系数)

表1本发明在多种VQA数据库测试结果

数据库	LIVE	CISQ	KoNVid-1k
				SRCC	0.824	0.801	0.801
PLCC	0.829	0.829	0.814

Claims

1.一种基于视觉注意力机制的无参考视频质量评价方法，其特征在于：该方法包括以下步骤，

步骤1，由视频抽取视频帧；

步骤2，对抽取的视频帧，使用开源模型PWC-Net生成光流场数据；

步骤3，对光流场数据进行预处理，得到缩放后的光流场幅值图；

步骤4，搭建并训练视觉注意力机制模型，具体指搭建基于ResNet50的视觉注意力机制模型并训练，所述的视觉注意力机制模型用于为抽取的每个视频帧进行质量打分；

步骤5，按照步骤1对待评价视频进行抽帧，利用训练完成的视觉注意力机制模型对抽取的待评价视频帧进行质量打分，对所有帧的质量打分求平均即得到该视频的整体质量分数；

步骤1所述的由视频抽取视频帧的步骤具体如下，

步骤1.1，以4帧为间隔抽取视频帧，其他视频帧作为冗余丢弃；

步骤1.2，将抽取得到的视频帧的最后一帧丢弃；

步骤3所述的对光流场数据进行预处理的步骤如下，

步骤3.1，对光流场数据的X、Y通道，分别设阈值Tx、Ty，对于X通道大于阈值Tx，或者Y通道大于阈值Ty的光流场数据，将其X通道的值设为阈值Tx，将其Y通道的值设为阈值Ty；

步骤3.2，将经过步骤3.1阈值截断后的光流场数据X、Y通道的所有值，分别除以Tx、Ty，进行归一化；

步骤3所述的光流场幅值图的计算过程为：计算归一化之后的所有光流场数据的幅度值M作为光流场幅值图；

步骤4所述的视觉注意力机制模型指改造后的ResNet50网络，所述改造具体指在ResNet50的第二组卷积层之后加入视觉注意力机制模块，即使用步骤3得到的缩放后的光流场幅值图与ResNet50的第二组卷积层的输出特征图按位相乘，视觉注意力机制模块的输出作为ResNet50第三组卷积层的输入。

2.根据权利要求1所述的一种基于视觉注意力机制的无参考视频质量评价方法，其特征在于：步骤4所述的模型训练，其模型输入的训练数据为步骤1所得视频帧和其对应的步骤3生成的光流场幅值图，标签为训练视频的质量分数；

步骤4所述的模型训练采用MSE Loss作为损失函数。