CN117714702A

CN117714702A - 视频编码方法、设备及存储介质

Info

Publication number: CN117714702A
Application number: CN202311817850.6A
Authority: CN
Inventors: 吕少卿; 俞鸣园; 王克彦; 曹亚曦; 孙俊伟; 费敏健
Original assignee: Zhejiang Huachuang Video Signal Technology Co Ltd
Current assignee: Zhejiang Huachuang Video Signal Technology Co Ltd
Priority date: 2023-12-26
Filing date: 2023-12-26
Publication date: 2024-03-15

Abstract

本申请公开了一种视频编码方法、设备及存储介质，该视频编码方法包括：提取待编码视频帧的图像特征，得到特征提取结果，并获取待编码视频帧和前序视频帧的全局上下文信息；融合待编码视频帧和前序视频帧的全局上下文信息，得到动态上下文描述；利用动态上下文描述对特征提取结果进行注意力权重计算，得到待编码视频帧对应的动态注意力权重；基于动态注意力权重对特征提取结果进行加权处理，生成待编码视频帧对应的编码视频数据，同时考虑了内容的重要性和时间的变化，结合时序信息和空间信息，实现更准确的视频编码，提供比传统视频编码方式更高的压缩效率和压缩质量。

Description

视频编码方法、设备及存储介质

技术领域

本申请涉及视频处理技术领域，特别是涉及一种视频编码方法、设备及存储介质。

背景技术

随着计算机技术领域的发展，视频的应用场景越来越广。在一些场景中，例如在进行视频传输时，通常需要采用视频编码器对视频中的各个视频帧进行编码处理。

现阶段的视频编码，面临着处理更高分辨率视频和更有效压缩的需求，而传统技术如H.264和H.265在处理高复杂度视频时遇到了瓶颈。

发明内容

为了解决上述问题，本申请至少提供一种视频编码方法、设备及存储介质。

本申请第一方面提供了一种视频编码方法，方法包括：提取待编码视频帧的图像特征，得到特征提取结果，并获取待编码视频帧和前序视频帧的全局上下文信息；其中，前序视频帧是待编码视频帧的前一视频帧；融合待编码视频帧和前序视频帧的全局上下文信息，得到动态上下文描述；利用动态上下文描述对特征提取结果进行注意力权重计算，得到待编码视频帧对应的动态注意力权重；基于动态注意力权重对特征提取结果进行加权处理，生成待编码视频帧对应的编码视频数据。

在一实施例中，提取待编码视频帧的图像特征，得到特征提取结果，包括：对待编码视频帧进行多尺度特征提取，得到多个不同尺度的初始图像特征；对多个不同尺度的初始图像特征进行融合，得到特征提取结果。

在一实施例中，对多个不同尺度的初始图像特征进行融合，得到特征提取结果，包括：计算每个初始图像特征对应的注意力权重，并对每个初始图像特征进行尺度对齐处理；基于每个初始图像特征对应的注意力权重，对尺度对齐后的每个初始图像特征进行加权融合，得到特征提取结果。

在一实施例中，利用动态上下文描述对特征提取结果进行注意力权重计算，得到待编码视频帧对应的动态注意力权重，包括：对特征提取结果进行注意力权重计算，得到待编码视频帧对应的初始注意力权重；利用动态上下文描述对初始注意力权重进行调整，得到待编码视频帧对应的动态注意力权重。

在一实施例中，对特征提取结果进行注意力权重计算，得到待编码视频帧对应的初始注意力权重，包括：利用预设激活函数将特征提取结果映射到预设权重范围，得到特征提取结果对应的映射权重；获取前序视频帧对应的注意力权重；对前序视频帧对应的注意力权重和映射权重进行加权平均计算，得到待编码视频帧对应的初始注意力权重。

在一实施例中，利用动态上下文描述对初始注意力权重进行调整，得到待编码视频帧对应的动态注意力权重，包括：融合动态上下文描述和特征提取结果，得到上下文特征；利用预设激活函数将上下文特征映射到预设权重范围，得到上下文注意力权重；融合初始注意力权重和上下文注意力权重，得到待编码视频帧对应的动态注意力权重。

在一实施例中，融合初始注意力权重和上下文注意力权重，得到待编码视频帧对应的动态注意力权重，包括：融合初始注意力权重和上下文注意力权重，得到融合权重；以及，获取前序视频帧对应的注意力权重；基于前序视频帧对应的注意力权重对融合权重进行平滑处理，将平滑处理后的融合权重作为待编码视频帧对应的动态注意力权重。

在一实施例中，融合待编码视频帧和前序视频帧的全局上下文信息，得到动态上下文描述，包括：对待编码视频帧和前序视频帧的全局上下文信息进行加权平均计算，得到动态上下文描述；或者，对待编码视频帧和前序视频帧的全局上下文信息进行拼接，得到动态上下文描述。

本申请第二方面提供了一种视频编码装置，装置包括：特征提取模块，用于提取待编码视频帧的图像特征，得到特征提取结果，并获取待编码视频帧和前序视频帧的全局上下文信息；其中，前序视频帧是待编码视频帧的前一视频帧；全局信息融合模块，用于融合待编码视频帧和前序视频帧的全局上下文信息，得到动态上下文描述；权重计算模块，用于利用动态上下文描述对特征提取结果进行注意力权重计算，得到待编码视频帧对应的动态注意力权重；视频编码模块，用于基于动态注意力权重对特征提取结果进行加权处理，生成待编码视频帧对应的编码视频数据。

本申请第三方面提供了一种电子设备，包括存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述视频编码方法。

本申请第四方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述视频编码方法。

上述方案，通过提取待编码视频帧的图像特征，得到特征提取结果，并获取待编码视频帧和前序视频帧的全局上下文信息；融合待编码视频帧和前序视频帧的全局上下文信息，得到动态上下文描述；利用动态上下文描述对特征提取结果进行注意力权重计算，得到待编码视频帧对应的动态注意力权重；基于动态注意力权重对特征提取结果进行加权处理，生成待编码视频帧对应的编码视频数据，同时考虑了内容的重要性和时间的变化，结合时序信息和空间信息，实现更准确的视频编码，提供比传统视频编码方式更高的压缩效率和压缩质量。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1是本申请的一示例性实施例示出的视频编码方法涉及的一种实施环境的示意图；

图2是本申请的一示例性实施例示出的视频编码方法的流程图；

图3是本申请的一示例性实施例示出的注意力模型的示意图；

图4是本申请的一示例性实施例示出的视频编码的数据流示意图；

图5是本申请的一示例性实施例示出的视频编码装置的框图；

图6是本申请的一示例性实施例示出的电子设备的结构示意图；

图7是本申请的一示例性实施例示出的计算机可读存储介质的结构示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联信息，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

下面对本申请实施例所提供的视频编码方法进行说明。

本申请实施例提供的视频编码方法，可以应用于由编码设备和解码设备构成的系统中。当编码设备对目标视频中的各个待编码视频帧进行视频编码获得传输数据流后，可以将传输数据流传输至解码设备，解码设备接收到传输数据流后，可以进行解码重建，获得重建的视频帧。编码设备和解码设备通过有线或者无线网络进行连接。编码设备和解码设备可以是计算机设备，计算机设备可以是终端，也可以是服务器。

在一些实施例中，本申请提供的视频编码方法和视频解码方法可以应用于如图1所示的应用环境中。可选的，编码设备为图1中的终端110，解码设备为图1中的服务器120；或者编码设备为图1中的服务器120，解码设备为图1中的终端110。

终端110通过网络与服务器120进行通信。

数据存储系统可以单独设置，可以集成在服务器120上，也可以放在云上或其他服务器上。

服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端110可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。

请参阅图2，图2是本申请的一示例性实施例示出的视频编码方法的流程图。该视频编码方法可以应用于图1所示的实施环境，并由该实施环境中的编码设备具体执行。应理解的是，该方法也可以适用于其它的示例性实施环境，并由其它实施环境中的设备具体执行，本实施例不对该方法所适用的实施环境进行限制。

如图2所示，视频编码方法至少包括步骤S210至步骤S240，详细介绍如下：

步骤S210：提取待编码视频帧的图像特征，得到特征提取结果；并获取待编码视频帧和前序视频帧的全局上下文信息；其中，前序视频帧是待编码视频帧的前一视频帧。

其中，待编码视频帧为目标视频中的任一视频帧，目标视频由连续的视频帧组成。全局上下文信息用于从整个视频帧的角度描述视频帧信息。

图像特征包括但不限于图像的颜色特征、纹理特征、形状特征和空间关系特征等。

通过对待编码视频帧进行图像特征提取，得到该待编码视频帧对应的特征提取结果。

具体地，将时序维度上待编码视频帧的前一视频帧作为前序视频帧，获取待编码视频帧的全局上下文信息，以及获取前序视频帧的全局上下文信息。

步骤S220：融合待编码视频帧和前序视频帧的全局上下文信息，得到动态上下文描述。

其中，动态上下文描述同时含有待编码视频帧和前序视频帧的全局上下文信息。

可以对待编码视频帧对应的特征提取结果进行全局平均池化，以计算特征提取结果中特征的平均值，从而得到待编码视频帧的全局上下文信息。

前序视频帧的全局上下文信息可以是根据该前序视频帧得到的，如对该前序视频帧进行全局信息提取，得到前序视频帧的全局上下文信息；还可以是将该前序视频帧对应的动态上下文描述作为前序视频帧的全局上下文信息，该前序视频帧对应的动态上下文描述的获取方式和待编码视频帧对应的动态上下文描述的获取方式相同。

示例性地，对待编码视频帧的全局上下文信息和前序视频帧的全局上下文信息进行相加、拼接等，得到动态上下文描述，该动态上下文描述同时含有待编码视频帧和前序视频帧的全局上下文信息。

其中，可以根据实际应用情况灵活选择融合的方式，本申请对此不进行限定。

步骤S230：利用动态上下文描述对特征提取结果进行注意力权重计算，得到待编码视频帧对应的动态注意力权重。

其中，注意力权重用于为待编码视频帧的每个图像部分分配一个权重，这些权重用于表征待编码视频帧中各个图像部分的重要程度，从而确定各个图像部分的压缩策略。

例如，以视频通话场景为例，视频通话参与者位于一个静态的背景前，在视频通话过程中只有该视频通话参与者的脸部和手部在动，在这种情况下，背景部分的数据可以分配更低的权重，从而可以被高度压缩，而脸部和手部的数据可以分配更高的权重，从而在压缩时对该部分数据进行最大程度的保留，以在提高视频压缩率的前提下，保证视频的清晰度和自然性。

举例来说，基于注意力机制实现注意力权重计算，以对待编码视频帧中各个图像部分分配权重，得到待编码视频帧对应的动态注意力权重。例如，识别待编码视频帧中的关键区域，如脸部区域、嘴部区域和眼睛区域，为这些关键区域分配更高的权重，为不重要的区域分配更低的权重，如为背景区域分配更低的权重。

示例性地，可以将动态上下文描述和特征提取结果进行融合，对融合结果进行注意力权重计算，以将计算得到的权重作为待编码视频帧对应的动态注意力权重。

示例性地，还可以先对特征提取结果进行注意力权重计算，以得到初始注意力权重，再结合动态上下文描述和特征提取结果进行注意力权重计算，以得到上下文注意力权重，结合初始注意力权重和上下文注意力权重得到待编码视频帧对应的动态注意力权重。

由于动态上下文描述可以从时间维度体现帧间图像变化，因此，结合动态上下文描述和特征提取结果进行注意力权重计算，可以同时考虑待编码视频帧本身的图像内容重要程度以及帧间变化，得到更加准确的待编码视频帧对应的动态注意力权重。

步骤S240：基于动态注意力权重对特征提取结果进行加权处理，生成待编码视频帧对应的编码视频数据。

示例性地，利用动态注意力权重对特征提取结果进行加权计算，得到加权特征，该加权特征可以对待编码视频帧中的重要内容更集中地进行表示，如在视频会议场景中，加权特征可以更准确地表示人脸和身体的动态，而忽略静态背景。

再根据加权特征生成编码视频数据。例如，使用一个或多个卷积网络来进一步压缩加权特征；或者使用熵编码方法，如Huffman编码方法，来进一步压缩数加权特征。通过上述压缩方法对加权特征进行进一步的压缩处理，得到待编码视频帧对应的编码视频数据。

与传统的视频编码使用固定的变换和量化方法不同，传统的视频编码通常为所有数据分配相同的比特率，而本申请可以根据视频帧内容的重要性动态地调整比特率，且同时考虑内容的重要性和时间的变化，结合时序信息和空间信息，实现更准确的视频编码，提供比传统视频编码方式更高的压缩效率和压缩质量。

接下来对本申请的部分实施例进行示例性说明。

在一些实施方式中，本申请的视频编码方法是基于预先训练完成的注意力模型实现的。

示例性地，请参阅图3，注意力模型含有卷积层、池化层和全连接层。卷积层用于捕获视频帧局部图像的特征信息。池化层用于减少数据的维度和计算量，以帮助模型捕获更大的空间上下文。全连接层在模型的最后，使用全连接层来生成注意力权重，并通过sigmoid激活函数确保注意力权重在0到1之间。其中，注意力模型的输入可以是一个待编码视频帧的特征映射，也可以是多个连续待编码视频帧的特征映射，这些特征映射可以是原始像素值，或者通过其它神经网络层(如卷积层)得到的特征表示。注意力模型的输出是一个与输入同大小的动态注意力权重，动态注意力权重中的每个权重值都在0到1之间，表示对应位置的重要性。

根据样本视频帧集合对上述注意力模型进行训练，样本视频帧集合中含有多个连续的样本视频帧，每个样本视频帧标记有期望权重，通过预设的损失函数衡量注意力模型输出的预测权重和期望权重之间的差异，从而在根据该差异更新注意力模型的网络参数，重复迭代上述过程，直至模型损失收敛或迭代次数达到预设次数，得到训练完成的注意力模型。

其中，预设的损失函数包括但不限于均方误差损失函数、交叉熵损失函数等，本申请对此不进行限定。网络参数更新方法包括但不限于随机梯度下降或Adam优化算法等，本申请对此不进行限定。

还可以通过与样本视频帧集合相互独立的测试集评估模型的性能，在训练完成的注意力模型的性能满足预设条件时，将训练完成的注意力模型部署到编码设备中。其中，性能满足预设条件可以是召回率大于预设阈值。

例如，使用一个浅层的卷积神经网络初步提取待编码视频帧的特征，初步提取的特征包含了待编码视频帧中原始像素值的基本空间信息，例如，在视频会议场景中，背景通常是静态的，而视频会议参与者的脸部和身体是动态的，初步提取的特征可以用于区分静态区域和动态区域，将初步提取的特征作为注意力模型的输入。可选地，为了提高计算效率，可以对初步提取的特征进行下采样处理或池化处理，以减小特征的空间尺寸。

可选地，还可以对初步提取的特征进行标准化，使得不同的特征在相同的尺度，如通过减去特征的均值并处于其标准偏差，得到标准化输入，即标准化后的初步特征映射，将标准化后的初步特征映射输入至注意力模型中。

例如，视频帧含有背景区域和前景区域，背景区域和前景区域之间可能存在较大的亮度差异和颜色差，如在室外录制的视频的背景区域和前景区域与室内录制的视频背景区域和前景区域存在很大的差异，通过标准化，可以确保模型对这些差异不敏感，以更好地关注结构和纹理信息。

进一步地，注意力模型的多个卷积层对模型输入进行深度特征提取。例如，每个卷积层包括一个卷积操作、一个批量归一化操作和一个激活函数，例如ReLU激活函数，而为了捕获不同尺寸的图像空间信息，可以不同卷积层使用不同大小的卷积核。其中，还可以通过深度可分离卷积减小卷积层的计算量和参数数量，其可以使用一个1*1的卷积核来组合多个卷积层的输出，以提高对高分辨率视频的处理效率。

在一些实施方式中，步骤S210中提取待编码视频帧的图像特征，得到特征提取结果，包括：

步骤S211：对待编码视频帧进行多尺度特征提取，得到多个不同尺度的初始图像特征；

示例性地，注意力模型的每个卷积层均为不同的卷积网络，不同的卷积网络对应不同的卷积核，以用于提取不同尺度的特征。如提取的空间尺度含有微观、中观和宏观三个尺度，不同尺度对应不同大小的卷积核，分别为1*1、3*3、5*5。

例如，在视频会议场景中，不同的信息尺度不同，如人脸细节是小尺度的，而房间的布局或背景物体，是大尺度的。

示例性地，还可以通过空间金字塔池化(Spatial Pyramid Pooling)对待编码视频帧进行多尺度特征提取，空间金字塔池化是一种捕获不同尺度信息的方法，其包括多个池化层，每个层都有不同的池化窗口大小，这样，可以同时捕获大范围的特征信息和局部特征信息。

可选地，在进行多尺度特征提取之前，还可以对待编码视频帧进行深度卷积操作，以捕获视频帧中的复杂空间模式，从低级的边缘信息和纹理信息到高级的物体信息和场景信息。具体地，使用多个连续的卷积网络，每个卷积网络都由卷积操作、批量归一化和ReLU激活函数组成，通过这些连续的卷积网络对待编码视频帧进行深度卷积操作，得到更丰富的特征表示，以根据得到的特征表示进行多尺度特征融合。

例如，在视频会议场景中，采集到的视频帧中含有多个视频会议参与者，他们坐在不同的位置，有不同的背景，通过不同的卷积网络进行深度卷积操作，可以从视频帧的原始像素值中提取出视频会议参与者的位置、身体姿势、面部表情等信息。

步骤S212：对多个不同尺度的初始图像特征进行融合，得到特征提取结果。

示例性地，对多个不同尺度的初始图像特征进行融合，得到特征提取结果，包括：计算每个初始图像特征对应的注意力权重，并对每个初始图像特征进行尺度对齐处理；基于每个初始图像特征对应的注意力权重，对尺度对齐后的每个初始图像特征进行加权融合，得到特征提取结果。

具体地，针对不同尺度的初始图像特征，使用全连接层和sigmoid激活函数预测每个尺度的注意力权重，并应用softmax函数进行权重标准化，确保注意力权重的总和为1。

然后，对每个初始图像特征进行尺度对齐处理，如使用上采样或下采样方法确保所有尺度的特征具有相同的空间维度。再根据每个尺度初始图像特征的注意力权重，通过加权平均的方式进行融合，得到特征提取结果。

可选地，还可以对融合得到的特征进行深度卷积处理，以对融合得到的特征进一步进行特征提取，得到特征提取结果。

在一些实施方式中，步骤S210中，提取待编码视频帧的图像特征，得到特征提取结果，包括：使用标准化和数据增强策略对输入的待编码视频帧进行预处理，得到预处理后的视频帧数据，使数据分布更均匀并增加模型的泛化能力；使用不同大小的卷积核和步长的多个连续卷积层对预处理后的视频帧数据进行多尺度的特征提取，并使用批量归一化和激活函数(如ReLU)进行非线性转换，得到中级特征映射；使用深度残差网络结构对中级特征映射进行进一步特征提取和特征细化，得到深层特征映射；获取前序视频帧的特征提取结果，根据前序视频帧的特征提取结果和待编码视频帧的深层特征映射，计算前序视频帧和待编码视频帧之间的帧间动态变化，如使用长短期记忆网络(Long Short-Term Memory，LSTM)或门控循环单元(Gate Recurrent Unit，GRU)来捕获帧间动态变化，以结合帧间动态变化和待编码视频帧的深层特征映射，得到动态特征映射，将该动态特征映射作为待编码视频帧的特征提取结果。

在一些实施方式中，步骤S220中，融合待编码视频帧和前序视频帧的全局上下文信息，得到动态上下文描述，包括：对待编码视频帧和前序视频帧的全局上下文信息进行加权平均计算，得到动态上下文描述；或者，对待编码视频帧和前序视频帧的全局上下文信息进行拼接，得到动态上下文描述。

全局上下文信息为视频帧的全局信息。

具体地，视频帧(待编码视频帧和前序视频帧)的全局上下文信息的获取方式包括：对视频帧的特征提取结果进行全局平均池化，以将每个特征通道压缩为一个标量值，从而得到视频帧的全局上下文信息，该全局上下文信息能够捕获整个帧的平均响应。

其中，在前一时间步保存了前序视频帧的全局上下文信息，直接读取前序视频帧的全局上下文信息即可。

然后，对待编码视频帧和前序视频帧的全局上下文信息进行融合，如对待编码视频帧和前序视频帧的全局上下文信息进行加权平均计算，得到动态上下文描述，或者对待编码视频帧和前序视频帧的全局上下文信息进行拼接，得到动态上下文描述。

示例性地，在按照上述方式对待编码视频帧和前序视频帧的全局上下文信息进行融合之后，得到融合上下文描述，对融合上下文描述进行特征增强，如通过全连接层增强和细化全局上下文信息，使得全局上下文信息更加丰富和更具代表性，将特征增强后的融合上下文描述作为待编码视频帧的动态上下文描述。

其中，可以将待编码视频帧的动态上下文描述进行存储，以在下一时间步使用。

在一些实施方式中，步骤S230中，利用动态上下文描述对特征提取结果进行注意力权重计算，得到待编码视频帧对应的动态注意力权重，包括：

步骤S231：对特征提取结果进行注意力权重计算，得到待编码视频帧对应的初始注意力权重。

先对特征提取结果进行初始的注意力权重计算，以得到待编码视频帧对应的初始注意力权重。

示例性地，可以直接采用注意力机制对特征提取结果进行初始的注意力权重计算，以得到待编码视频帧对应的初始注意力权重。如利用预设激活函数(如sigmoid激活函数)将特征提取结果映射到预设权重范围，得到特征提取结果对应的映射权重，将该映射权重作为待编码视频帧对应的初始注意力权重。

示例性地，还可以利用预设激活函数将特征提取结果映射到预设权重范围，得到特征提取结果对应的映射权重；获取前序视频帧对应的注意力权重；利用前序视频帧对应的注意力权重对映射权重进行调整，得到待编码视频帧对应的初始注意力权重。

具体地，对前序视频帧对应的注意力权重和映射权重进行加权平均计算，得到待编码视频帧对应的初始注意力权重。

上述方式得到的初始注意力权重不仅考虑了待编码视频帧本身的图像内容，还考虑了前序帧的图像内容，提高初始注意力权重计算的准确性。

可选地，还可以对初始注意力权重进行归一化处理，以确定初始注意力权重的总和为1，使得权重分配更加准确合理。

步骤S232：利用动态上下文描述对初始注意力权重进行调整，得到待编码视频帧对应的动态注意力权重。

结合动态上下文描述对初始注意力权重进行进一步地细化调整，以得到最终的动态注意力权重。

示例性地，利用动态上下文描述对初始注意力权重进行调整，得到待编码视频帧对应的动态注意力权重，包括：融合动态上下文描述和特征提取结果，得到上下文特征；利用预设激活函数将上下文特征映射到预设权重范围，得到上下文注意力权重；融合初始注意力权重和上下文注意力权重，得到待编码视频帧对应的动态注意力权重。

首先，融合动态上下文描述和特征提取结果，得到上下文特征，如通过拼接或加权平均的方式对动态上下文描述和特征提取结果进行整合。使得后续计算得到的权重不仅考虑了待编码视频帧本身的图像信息，还考虑了待编码视频帧和前序视频帧的全局上下文信息。

可选地，在融合动态上下文描述和特征提取结果之前，可以对特征提取结果进行卷积处理，以将卷积处理后的特征提取结果和动态上下文描述进行融合。通过卷积操作进一步提取特征，以捕获更细粒度的信息，便于后续的权重计算。

然后，利用预设激活函数将上下文特征映射到预设权重范围，得到上下文注意力权重，如使用sigmoid激活函数对上下文特征进行非线性转换，生成上下文注意力权重。

再对初始注意力权重和上下文注意力权重进行融合处理，得到待编码视频帧对应的动态注意力权重。

例如，对初始注意力权重和上下文注意力权重进行加权平均，得到待编码视频帧对应的动态注意力权重。

又例如，融合初始注意力权重和上下文注意力权重，得到融合权重，并获取前序视频帧对应的注意力权重；基于前序视频帧对应的注意力权重对融合权重进行平滑处理，将平滑处理后的融合权重作为待编码视频帧对应的动态注意力权重。

其中，平滑处理的方式包括但不限于高斯平滑。

通过前序视频帧对应的注意力权重对融合权重进行平滑处理，可以保证得到的帧间动态注意力权重的连续性。

可选地，还可以结合时间衰减因子对融合权重进行平滑处理，本申请对此不进行限定。

得到动态注意力权重之后，按照动态注意力权重对特征提取结果进行加权处理，生成待编码视频帧对应的编码视频数据，提高视频编码的效果。

在一些实施方式中，上述注意力计算采用的注意力机制可以为多头注意力机制，以捕获视频帧中的多种模式和关系。具体地，可以将特征提取结果分成多个不同的部分或头，对每个部分或头使用单独的注意力机制，每个注意力机制的参数可以不同，然后所有部分或头的注意力计算结果融合起来，得到一个综合的注意力权重。

例如，在视频会议场景中，其中一个视频会议参与者在讲话，而其他视频会议参与者在倾听，则一个部分或头可能专注于讲话者，另一个部分或头可能专注于倾听者，得到多个注意力计算结果，通过融合这些头的注意力计算结果，可以确保所有的参与者都被适当地考虑，得到更加准确的注意力权重。

示例性地，请参见图4，图4为本申请一示例性实施例示出的视频编码的数据流示意图，如图4所示，输入待编码视频帧，使用浅层卷积网络提取待编码视频帧的初步特征映射；然后通过深度卷积层捕获初步特征映射中更复杂的空间模式，将得到的深度特征映射作为特征提取结果；再融合前序视频帧和待编码视频帧的全局上下文信息得到动态上下文描述，使用卷积层对特征提取结果和动态上下文描述进行注意力权重计算，得到动态注意力权重，该动态注意力权重含有待编码视频帧中每个空间位置的注意力权重；使用元素级乘法对动态注意力权重和特征提取结果进行乘计算，得到加权特征映射，这样，待编码视频帧中重要的区域会被增强，而不重要的区域会被减弱；再通过卷积层压缩加权特征映射，并使用熵编码(如Huffman编码)来减少数据的冗余性，得到压缩后的编码视频数据。

可以理解的是，还可以采用与上述编码过程对应的解码网络对编码视频数据进行解码，以得到重构的视频帧。

本申请提供的视频编码方法，通过提取待编码视频帧的图像特征，得到特征提取结果，并获取待编码视频帧和前序视频帧的全局上下文信息；融合待编码视频帧和前序视频帧的全局上下文信息，得到动态上下文描述；利用动态上下文描述对特征提取结果进行注意力权重计算，得到待编码视频帧对应的动态注意力权重；基于动态注意力权重对特征提取结果进行加权处理，生成待编码视频帧对应的编码视频数据，同时考虑了内容的重要性和时间的变化，结合时序信息和空间信息，实现更准确的视频编码，提供比传统视频编码方式更高的压缩效率和压缩质量。

图5是本申请的一示例性实施例示出的视频编码装置的框图。如图5所示，该示例性的视频编码装置500包括：特征提取模块510、全局信息融合模块520、权重计算模块530和视频编码模块540。具体地：

特征提取模块510，用于提取待编码视频帧的图像特征，得到特征提取结果，并获取待编码视频帧和前序视频帧的全局上下文信息；其中，前序视频帧是待编码视频帧的前一视频帧；

全局信息融合模块520，用于融合待编码视频帧和前序视频帧的全局上下文信息，得到动态上下文描述；

权重计算模块530，用于利用动态上下文描述对特征提取结果进行注意力权重计算，得到待编码视频帧对应的动态注意力权重；

视频编码模块540，用于基于动态注意力权重对特征提取结果进行加权处理，生成待编码视频帧对应的编码视频数据。

需要说明的是，上述实施例所提供的视频编码装置与上述实施例所提供的视频编码方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。上述实施例所提供的视频编码装置在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能，本处不对此进行限制。

请参阅图6，图6是本申请电子设备一实施例的结构示意图。电子设备600包括存储器601和处理器602，处理器602用于执行存储器601中存储的程序指令，以实现上述任一视频编码方法实施例中的步骤。在一个具体的实施场景中，电子设备600可以包括但不限于：微型计算机、服务器，此外，电子设备600还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器602用于控制其自身以及存储器601以实现上述任一视频编码方法实施例中的步骤。处理器602还可以称为中央处理单元(Central Processing Unit，CPU)。处理器602可能是一种集成电路芯片，具有信号的处理能力。处理器602还可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器602可以由集成电路芯片共同实现。

请参阅图7，图7是本申请计算机可读存储介质一实施例的结构示意图。计算机可读存储介质700存储有能够被处理器运行的程序指令710，程序指令710用于实现上述任一视频编码方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种视频编码方法，其特征在于，包括：

提取待编码视频帧的图像特征，得到特征提取结果，并获取所述待编码视频帧和前序视频帧的全局上下文信息；其中，所述前序视频帧是所述待编码视频帧的前一视频帧；

融合所述待编码视频帧和前序视频帧的全局上下文信息，得到动态上下文描述；

利用所述动态上下文描述对所述特征提取结果进行注意力权重计算，得到所述待编码视频帧对应的动态注意力权重；

基于所述动态注意力权重对所述特征提取结果进行加权处理，生成所述待编码视频帧对应的编码视频数据。

2.根据权利要求1所述的方法，其特征在于，所述提取待编码视频帧的图像特征，得到特征提取结果，包括：

对所述待编码视频帧进行多尺度特征提取，得到多个不同尺度的初始图像特征；

对所述多个不同尺度的初始图像特征进行融合，得到特征提取结果。

3.根据权利要求2所述的方法，其特征在于，所述对所述多个不同尺度的初始图像特征进行融合，得到特征提取结果，包括：

计算每个初始图像特征对应的注意力权重，并对所述每个初始图像特征进行尺度对齐处理；

基于所述每个初始图像特征对应的注意力权重，对尺度对齐后的每个初始图像特征进行加权融合，得到特征提取结果。

4.根据权利要求1所述的方法，其特征在于，所述利用所述动态上下文描述对所述特征提取结果进行注意力权重计算，得到所述待编码视频帧对应的动态注意力权重，包括：

对所述特征提取结果进行注意力权重计算，得到所述待编码视频帧对应的初始注意力权重；

利用所述动态上下文描述对所述初始注意力权重进行调整，得到所述待编码视频帧对应的动态注意力权重。

5.根据权利要求4所述的方法，其特征在于，所述对所述特征提取结果进行注意力权重计算，得到所述待编码视频帧对应的初始注意力权重，包括：

利用预设激活函数将所述特征提取结果映射到预设权重范围，得到所述特征提取结果对应的映射权重；

获取所述前序视频帧对应的注意力权重；

对所述前序视频帧对应的注意力权重和所述映射权重进行加权平均计算，得到所述待编码视频帧对应的初始注意力权重。

6.根据权利要求4所述的方法，其特征在于，所述利用所述动态上下文描述对所述初始注意力权重进行调整，得到所述待编码视频帧对应的动态注意力权重，包括：

融合所述动态上下文描述和所述特征提取结果，得到上下文特征；

利用预设激活函数将所述上下文特征映射到预设权重范围，得到上下文注意力权重；

融合所述初始注意力权重和所述上下文注意力权重，得到所述待编码视频帧对应的动态注意力权重。

7.根据权利要求6所述的方法，其特征在于，所述融合所述初始注意力权重和所述上下文注意力权重，得到所述待编码视频帧对应的动态注意力权重，包括：

融合所述初始注意力权重和所述上下文注意力权重，得到融合权重；以及，获取所述前序视频帧对应的注意力权重；

基于所述前序视频帧对应的注意力权重对所述融合权重进行平滑处理，将平滑处理后的融合权重作为所述待编码视频帧对应的动态注意力权重。

8.根据权利要求1所述的方法，其特征在于，所述融合所述待编码视频帧和前序视频帧的全局上下文信息，得到动态上下文描述，包括：

对所述待编码视频帧和前序视频帧的全局上下文信息进行加权平均计算，得到动态上下文描述；

或者，对所述待编码视频帧和前序视频帧的全局上下文信息进行拼接，得到动态上下文描述。

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现如权利要求1-8任一项所述方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序指令，所述程序指令能够被处理器执行以实现如权利要求1-8任一项所述方法中的步骤。