CN115620116A

CN115620116A - 基于语义变化的视频质量评估方法

Info

Publication number: CN115620116A
Application number: CN202211373056.2A
Authority: CN
Inventors: 郭文忠; 张恺睿; 柯逍
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2023-01-17

Abstract

本发明提出基于语义变化的视频质量评估方法，包括以下步骤；步骤S1：对于移动设备拍摄的不同场景的视频，对视频的每一个帧提取边缘特征；步骤S2：将视频每一帧的边缘与原始图像分别输入空间特征提取网络，获取视频的多尺度空间特征，同时将视频输入时间特征提取网络，获取多尺度时间特征，对多尺度特征进行多频率分量池化和标准池化；步骤S3：将池化后的结果合并，获得视频的时空特征，并将时空特征降维；步骤S4：将降维后的视频时空特征输入质量预测网络建模时序关系，进而预测出整体视频的质量分数；本发明能够有效地提取视频的时空特征并加入语义变化信息，使得质量评价模型获取的视频失真信息更加全面。

Description

基于语义变化的视频质量评估方法

技术领域

本发明涉及计算机视觉技术领域，尤其是基于语义变化的视频质量评估方法。

背景技术

视频质量评估即Video Quality Assessment(VQA)。其主要任务是给定一个视频片段，预测人类对视频片段感知质量。随着近年来视频质量评估不断发展，出现了大量评估效果好且运行速度快的视频质量评估模型。现有的全参考和半参考视频质量评估的研究取得了一定的效果，但由于对原始视频的依赖性，这两种方法往往并不实用。因为在实际生活中原始未失真的视频往往不易获得，我们观看到的视频往往需要进行压缩及传输，此过程中产生的混合视频失真难以估计，故无参考视频质量评价甚至是基于用户产生视频的无参考质量评价在将来会具有更广泛的应用。

目前学术界在无参考视频质量评估问题上采用的主流框架是提取视频空间特征后用GRU(Gate Recurrent Unit)建模时序信息。在这主流的框架中，怎样让特征更好的表现视频失真程度和怎样建立视频帧在时序上的联系是本发明解决的问题。因此本发明采用提取多尺度特征和边缘检测的方法加强对视频模糊程度的感知，在Transformer Block中用Q去查询相邻帧的语义信息的变化，提升模型对视频抖动、模糊等运动失真的感知。

发明内容

本发明提出基于语义变化的视频质量评估方法，能够有效地提取视频的时空特征，使得质量评价模型获取的视频失真信息更加全面。

本发明采用以下技术方案。

基于语义变化的视频质量评估方法，包括以下步骤；

步骤S1：对于移动设备拍摄的不同场景的视频，对视频的每一个帧提取边缘特征；

步骤S2：将视频每一帧的边缘与原始图像分别输入空间特征提取网络，获取视频的多尺度空间特征，同时将视频输入时间特征提取网络，获取多尺度时间特征，对多尺度特征进行多频率分量池化和标准池化；

步骤S3：将池化后的结果合并，获得视频的时空特征，并将时空特征降维；

步骤S4：将降维后的视频时空特征输入质量预测网络建模时序关系，进而预测出整体视频的质量分数。

所述步骤S1具体包括以下步骤；

步骤S11：步骤S1的视频划分为视频帧后，利用改进的边缘检测算子提取每个视频帧的边缘信息；

步骤S12：利用改进的边缘检测算子提取边缘信息，获得视频边缘R，令R＝{Canny_i},i＝1,2,...,T，表示一个视频序列中所有检测结果的集合，其中T表示一个视频序列中帧的数量，Canny_i表示一个视频序列中的第i帧的边缘检测图像。

步骤S12中，提取边缘信息的方法具体为：

首先使用一个较大的5×5的高斯卷积核进行滤波，能更大程度去除图像尖锐噪声；接着使用改进的sobel算子对图像进行梯度幅值和梯度方向的计算；然后依据梯度幅值和梯度方向对图像边缘进行非极大值抑制操作。

sobel算子如下：

梯度方向的计算方法如下：

G_left＝Sobel_left*frame and G_right＝Sobel_right*frame 公式二；

其中frame表示视频帧图像，Sobel_left表示左斜对角方向上的sobel算子，Sobel_right表示右斜对角方向上的sobel算子，G_left表示图像在左斜对角方向上的梯度幅值，G_right表示图像在右斜对角方向上的梯度幅值，G表示一个视频帧的梯度幅值，θ表示图像的梯度方向。

步骤S2具体包括以下步骤；

步骤S21：将处理后视频帧的边缘图像R和原始视频帧分别输入到空间特征提取网络，根据模型的迁移学习理念，所述空间特征提取网络采用在ImageNet上预训练的ConvNeXt-T基础上去掉最后面的池化层和全连接层，对于ConvNeXt-T的4个阶段，抽取每一个阶段的特征，每一个阶段输出的特征尺度不同，称为多尺度特征；

步骤S22：将视频输入时间特征提取网络，所述时间特征提取网络采用的是在Kinetics-400视频数据集上预训练SlowFast网络中Fast流，表示为SlowFast_F，其可以产生具有高时间分辨率的运动特征，对于SlowFast_F获得的时间范围内的视频运动特征的表达，同样提取多尺度特征；

步骤S23：对于多尺度的特征使用优于全局平均池化的多个频率分量池化的方法来压缩单个帧的特征。

步骤S3具体包括以下步骤；

步骤S31：由于SlowFast_F的时间步幅为2，为了匹配运动管道的时间分辨率，对空间、边缘特征张量的每两帧进行采样，即i＝1,3,5,...,T，然后将沿通道维度的空间、边缘和时间的卷积特征连接；

步骤S32：为了建立视频时间维度的相关性，采用改进的Transformer Block，首先使用全连接层对帧级特征向量执行降维，降维到128维张量，记为Feature。

所述步骤S4具体包括以下步骤；

步骤S41：对于降维后的128维特征向量，在输入序列中加入一个特殊的token，记为Feature_cls，用于学习到整个序列的特征，再加上位置编码E_pos，具体操作如下：

F₀＝[Feature_cls；Feature₁；Feature₃；…；Feature_T]+E_pos 公式五；

其中Feature_i表示视频第i帧(i＝1,3,5,...,T)的时空特征；

步骤S42：处理后的向量输入改进的Transformer Block；

步骤S43：对于Transformer Block输出的特征向量，使用全连接层将状态序列映射到帧级质量分数；

步骤S44：对于帧级质量分数，采用平均池将帧级质量分数临时聚合到整体视频质量分数。

所述改进的Transformer Block操作如下：

相邻视频帧语义信息的差异表现为视频的变化，相邻帧的变化是导致视频产生伪影、抖动等失真的重要因素，

首先计算相邻帧的特征变化：

Feature_difference_i＝Feature_i+1-Feature_i,0≤i＜T-1

Feature_difference_i＝0,i＝T-1 公式六；

给定一个序列Feature作为输入，自注意模块首先将Feature和Feature_difference投影到查询Q、键K、值V、特征差D矩阵中，如下所示：

Q＝Linear(Feature),K＝Linear(Feature),V＝Linear(Feature) 公式七；

D＝Linear(Feature_difference) 公式八；

其中，Linear表示全连接投影，Feature_differnece表示相邻帧的特征变化；然后用Q去查询K和特征差D得到查询矩阵M，M中的元素代表Q对K和D的注意值：

其中，M_QK表示Q对K的注意力矩阵，M_QD表示Q对D的注意力矩阵。

所述移动设备为数码相机、智能手机或平板电脑。

本发明与现有技术相比具有以下有益效果：

1、本发明采用改进的边缘检测算子提取图像边缘，相比仅关注水平垂直方向的梯度，提出的方法更加突出对角线的梯度，加大梯度幅值使边缘更清晰，刻画了视频的模糊程度，并使用多尺度的方法突出细粒度和粗粒度的视频的特征；

2、由于全局平均池化代表了2D-DCT的最低频率分量，为了更好地压缩信道并引入更多信息，本发明将全局平均池化推广到2D-DCT的更多频率分量，压缩更多信息；

3、本发明采用改进的TransformerBlock，通过查询相邻帧语义信息的变化，使模型更好的学习到视频抖动、伪影等运动失真。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明：

附图1是本发明的流程示意图。

具体实施方式

如图1所示，基于语义变化的视频质量评估方法，包括以下步骤；

所述步骤S1具体包括以下步骤；

步骤S12中，提取边缘信息的方法具体为：

sobel算子如下：

梯度方向的计算方法如下：

G_left＝Sobel_left*frame and G_right＝Sobel_right*frame 公式二；

步骤S2具体包括以下步骤；

步骤S3具体包括以下步骤；

步骤S32：为了建立视频时间维度的相关性，采用改进的TransformerBlock，首先使用全连接层对帧级特征向量执行降维，降维到128维张量，记为Feature。

所述步骤S4具体包括以下步骤；

其中Feature_i表示视频第i帧(i＝1,3,5,...,T)的时空特征；

步骤S42：处理后的向量输入改进的Transformer Block；

所述改进的Transformer Block操作如下：

首先计算相邻帧的特征变化：

Feature_difference_i＝Feature_i+1-Feature_i,0≤i＜T-1

Feature_difference_i＝0,i＝T-1 公式六；

Q＝Linear(Feature),K＝Linear(Feature),V＝Linear(Feature) 公式七；

D＝Linear(Feature_difference) 公式八；

所述移动设备为数码相机、智能手机或平板电脑。

Claims

1.基于语义变化的视频质量评估方法，其特征在于：包括以下步骤；

2.根据权利要求1所述的基于语义变化的视频质量评估方法，其特征在于：所述步骤S1具体包括以下步骤；

3.根据权利要求2所述的基于语义变化的视频质量评估方法，其特征在于：步骤S12中，提取边缘信息的方法具体为：

sobel算子如下：

梯度幅值和梯度方向的计算方法如下：

G_left＝Sobel_left*frame and G_right＝Sobel_right*frame 公式二；

4.根据权利要求1所述的基于语义变化的视频质量评估方法，其特征在于：步骤S2具体包括以下步骤；

5.根据权利要求1所述的基于语义变化的视频质量评估方法，其特征在于：步骤S3具体包括以下步骤；

6.根据权利要求1所述的基于语义变化的视频质量评估方法，其特征在于：所述步骤S4具体包括以下步骤；

其中Feature_i表示视频第i帧(i＝1,3,5,...,T)的时空特征；

步骤S42：处理后的向量输入改进的Transformer Block；

7.根据权利要求6所述的基于语义变化的视频质量评估方法，其特征在于：所述改进的Transformer Block操作如下：

首先计算相邻帧的特征变化：

Feature_difference_i＝Feature_i+1-Feature_i,0≤i＜T-1

Feature_difference_i＝0,i＝T-1 公式六；

Q＝Linear(Feature),K＝Linear(Feature),V＝Linear(Feature) 公式七；

D＝Linear(Feature_difference) 公式八；

8.根据权利要求1所述的基于语义变化的视频质量评估方法，其特征在于：所述移动设备为数码相机、智能手机或平板电脑。