CN114567778B

CN114567778B - 一种视频编码方法及系统

Info

Publication number: CN114567778B
Application number: CN202210450047.2A
Authority: CN
Inventors: 黄震坤; 岑裕
Original assignee: Beijing Yunzhong Rongxin Network Technology Co ltd
Current assignee: Beijing Yunzhong Rongxin Network Technology Co ltd
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-07-05
Anticipated expiration: 2042-04-24
Also published as: CN114567778A

Abstract

本发明涉及多媒体视频图像信息处理技术领域，公开了一种视频编码方法及系统，该视频编码方法包括：将输入视频流转换为RGB图像；对该RGB图像进行目标检测和运动检测，以识别RGB图像的目标像素和运动像素；对上述目标像素和运动像素进行融合处理，以确定RGB图像中的感兴趣像素和非感兴趣像素；根据感兴趣像素和非感兴趣像素的分布，确定感兴趣区域和非感兴趣区域；根据设定的目标码率，为感兴趣区域和非感兴趣区域分配编码码率。本发明使得感兴趣区域的QP比较小，提高了感兴趣区域的清晰度。

Description

一种视频编码方法及系统

技术领域

本发明涉及多媒体视频图像信息处理技术领域，特别涉及一种视频编码方法及系统。

背景技术

当前，越来越多的会议从线下转到线上，网络会议普遍要求达到高清画质，而网络的复杂性导致网络带宽不断变化，给视频压缩和视频传输带来越来越多的挑战，高清和超高清视频压缩编码是必不可少的技术手段，同时视频压缩编码的性能和复杂度也直接影响着高清和超高清视频的应用范围和潜力。

因此，在保持一定视频质量的情况下，提高视频编码的压缩比，降低视频编码的复杂度是普遍追求的目标。现有技术相继出现了HEVC、H.264、VVC等编码方法，但是编码速度依然无法满足高清和超高清视频压缩的实际需求。中国专利公开号为CN113115043A ，公开了一种视频编码器、视频编码系统和视频编码方法，其主要采用每一帧图像使用多个视频编码器共同完成的方案，减少编码时间、降低编码延迟、实现对高清视频源的实时编码。

实时音视频技术是一种终端服务，为行业提供高并发、低延时、高清流畅、安全可靠的全场景、全互动、全实时的音视频服务。然而，实时音视频技术在带宽有限的情况下，在仍然保持高清视频编码的情况下，解码播放产生卡顿。如果编码器提高QP，会导致画面模糊，基于感兴趣区域的编码是解决此类问题的方法之一。例如中国专利公开号为CN106162177A，公开了一种视频编码方法和装置，通过对运动目标的识别确定感兴趣区域并通过平滑滤波进行高保真编码；又如中国专利公开号为CN103297754A，公开了一种监控视频自适应感兴趣区域编码系统，使用ROI检测、H.264编码实现基于H.264协议的数据压缩与关键信息高质量保存之间的折中。因此，在视频压缩和传输过程中，在码率不变的情况下，如何保持感兴趣区域清晰度，以减少网络带宽占用，使用户能够在低带宽/网速下享受超高清视频的观看乐趣，成为亟需解决的问题。

发明内容

鉴于现有技术中的上述缺陷或不足，本发明提供了一种视频编码方法及系统，其采用目标检测和运动检测相结合的方式，来提取视频中的感兴趣区域，再采用和博弈论相结合的方式进行编码码率的分配。

本发明的一个方面，提供了一种视频编码方法，包括：

将输入视频流转换为RGB图像；

对RGB图像进行目标检测和运动检测，以识别该RGB图像的目标像素和运动像素；

对上述目标像素和运动像素进行融合处理，以确定RGB图像中的感兴趣像素和非感兴趣像素；

根据上述感兴趣像素和非感兴趣像素的分布，确定感兴趣区域和非感兴趣区域；

根据设定的目标码率，为上述感兴趣区域和非感兴趣区域分配编码码率。

进一步的，根据设定的目标码率，为感兴趣区域和非感兴趣区域分配编码码率的步骤包括：

根据下式计算

取最小值时的感兴趣区域的码率

：

其中，D1为感兴趣区域的R-D函数，D2为非感兴趣区域的R-D函数；

表示整体编码质量的权重；M表示感兴趣区域的编码树单元的个数；N表示非感兴趣区域的编码树单元的个数；

表示第i个编码树单元的编码复杂度，

表示第i-1个编码树单元的编码复杂度；

表示第i个编码树单元的每像素位数；

为第i个编码树单元的像素个数；

表示设定的目标码率，

表示感兴趣区域的码率；

为第一常数，

为第二常数；

具有初始设置值

，

具有初始设置值

；

表示

的自然对数，

表示

的自然对数；

表示RGB图像压缩后所占用的比特数或总像素数目；

表示真实消耗的

；

为

时真实消耗的

。

进一步的，对RGB图像进行运动检测包括：

将高斯混合模型GMM作为没有入侵物体的静态场景的背景模型；将当前RGB图像中与背景模型不匹配的像素作为运动像素。

进一步的，融合处理包括：

若RGB图像中的像素同时属于目标像素和运动像素，则将该像素判定为感兴趣像素。

进一步的，根据感兴趣像素和非感兴趣像素的分布，确定感兴趣区域和非感兴趣区域的步骤包括：

若感兴趣像素在编码块的全部像素中的占比超过或等于设定的比例阈值，则该编码块为感兴趣区域，否则该编码块为非感兴趣区域。

本发明的另一方面，提供了一种视频编码系统，包括：

转换模块，被配置为将输入视频流转换为RGB图像；

检测模块，被配置为对该RGB图像进行目标检测和运动检测，以识别RGB图像的目标像素和运动像素；

融合模块，被配置为对目标像素和运动像素进行融合处理，以确定RGB图像中的感兴趣像素和非感兴趣像素；

确定模块，被配置为根据感兴趣像素和非感兴趣像素的分布，确定感兴趣区域和非感兴趣区域；

码率分配模块，被配置为根据设定的目标码率，为感兴趣区域和非感兴趣区域分配编码码率。

进一步的，码率分配模块被进一步配置为：

根据下式计算

取最小值时的感兴趣区域的码率

：

表示第i个编码树单元的编码复杂度，

表示第i-1个编码树单元的编码复杂度；

表示第i个编码树单元的每像素位数；

为第i个编码树单元的像素个数；

表示设定的目标码率，

表示感兴趣区域的码率；

为第一常数，

为第二常数；

具有初始设置值

，

具有初始设置值

；

表示

的自然对数，

表示

的自然对数；

表示RGB图像压缩后所占用的比特数或总像素数目；

表示真实消耗的

；

为

时真实消耗的

。

进一步的，检测模块被进一步配置为：

将高斯混合模型GMM作为没有入侵物体的静态场景的背景模型；将当前RGB图像中与上述背景模型不匹配的像素作为运动像素。

进一步的，融合模块被进一步配置为：

进一步的，确定模块被进一步配置为：

本发明提供的一种视频编码方法及系统，采用目标检测和运动检测相结合的方式，来提取视频中的感兴趣区域，采用和博弈论相结合的方式进行编码码率的分配，使得感兴趣区域的QP比较小，提高了感兴趣区域的清晰度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明一个实施例提供的视频编码方法的程序流程图；

图2是本发明一个实施例提供的视频编码系统的组成示意图；

图3是本发明一个实施例提供的电子设备的组成示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

应当理解，尽管在本发明实施例中可能采用术语第一、第二、第三等来描述获取模块，但这些获取模块不应限于这些术语。这些术语仅用来将获取模块彼此区分开。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似的，取决于语境，短语“如果确定”或“如果检测（陈述的条件或事件）”可以被解释成为“当确定时”或“响应于确定”或“当检测（陈述的条件或事件）时”或“响应于检测（陈述的条件或事件）”。

需要注意的是，本发明实施例所描述的“上”“下”“左”“右”等方位词是以附图所示的角度来进行描述的，不应理解为对本发明实施例的限定。此外在上下文中，还需要理解的是，当提到一个元件被形成在另一个元件“上”或“下”时，其不仅能够直接形成在另一个元件“上”或者“下”，也可以通过中间元件间接形成在另一元件“上”或者“下”。

本发明的一个实施例提供了一种视频编码方法，通过将感兴趣区域ROI和视频编码技术结合，可大大减少网络带宽占用，使用户可在低带宽/网速下享受超高清视频的观看乐趣。

参见图1，本实施例的视频编码方法包括目标检测和码率分配两个部分，具体包括以下步骤：

步骤S101，将输入视频流转换为RGB图像；

具体的，本实施例从摄像头获取原始的yuv视频流，视频文件定义为input.yuv。下面以WebRTC中用的264编码器及思科公司提供的开源OpenH264为例进行说明。在编码器中，将输入的input.yuv视频数据转换成RGB图像。

步骤S102，对RGB图像进行目标检测和运动检测，以识别RGB图像的目标像素和运动像素；

目标检测是一种基于目标几何和统计特征的图像分割。它将目标的分割和识别合二为一，其准确性和实时性是整个系统的一项重要能力。本实施例采用YOLOv4模型进行目标检测。YOLOv4模型设计了强大而高效的检测模型，可以用1080 Ti和2080 Ti训练这个超快而精准的模型。在检测模型训练阶段，该检测模型验证了一些最先进的 Bag-of-Freebies 和 Bag-of-Specials 方法的效果; 修改了很多 SOTA 的方法，让它们对单GPU训练更加高效，例如 CBN，PAN，SAM等。一个完整的YOLOv4 模型包括：CSPDarknet53（backbone） + SPP+PAN （Neck，也就是特征增强模块）+ YoloV3。YOLOv4模型使用了“赠送”技巧有CutMix、Mosaic数据增强、DropBlock正则化、标签平滑、CIoU-loss、CmBN、自对抗训练，每个目标分配给多个anchor。使用的“特价”技巧包括：Mish activation、跨阶段空间连接（CSP）、多输入权重残差连接、SPP-block、SAM-block、PAN、DIoU-NMS。YOLOv4的输入是原始图像，输出是检测到的目标像素。

本实施例的运动检测采用高斯混合模型进行运动区域的提取。高斯混合模型是一个可以用来表示在总体分布（distribution）中含有 K 个子分布的概率模型，换句话说，高斯混合模型表示了观测数据在总体中的概率分布，它是一个由 K 个子分布组成的混合分布。高斯混合模型不要求观测数据提供关于子分布的信息，来计算观测数据在总体分布中的概率。高斯混合模型可以看作是由 K个单高斯模型组合而成的模型，这 K个单高斯模型是混合模型的隐变量（Hidden variable）。一般来说，一个混合模型可以使用任何概率分布，这里使用高斯混合模型是因为高斯分布具备很好的数学性质以及良好的计算性能。

本发明采用高斯混合模型（GMM）进行运动区域检测。在监控系统中，拍摄背景是变化较少的固定场景，没有入侵物体的静态场景具有一些常规特性，可以用一个背景模型来描述。GMM就是用多个高斯模型的加权和混合在一起来模拟背景的特性，即作为背景模型。将当前RGB图像中与上述背景模型不匹配的像素作为运动像素，即识别出入侵物体；将当前RGB图像中与上述背景模型匹配的像素作为背景像素。

步骤S103，对目标像素和运动像素进行融合处理，以确定RGB图像中的感兴趣像素和非感兴趣像素；

具体的，本申请采用二值融合方式作为区域融合方法，即若RGB图像中的像素同时属于目标像素和运动像素，则将该像素判定为感兴趣像素。换而言之，对于一个像素而言，若该像素即属于目标检测模型检测出的目标像素，又属于高斯混合模型检测出的运动像素，则该像素被确定为感兴趣像素，否则为非感兴趣像素。

步骤S104，根据感兴趣像素和非感兴趣像素的分布，确定感兴趣区域和非感兴趣区域；

具体的，由于视频编码采用的是基于块的方式进行压缩，所谓基于块的方式指的是压缩处理单元不是单个像素，而是4×4、8×8、16×16的块。在H.264中，采用宏块16×16的方式进行编码压缩。因此存在感兴趣像素不能完全占满这个宏块的情况，在这种情况下，需要确定一个比例阈值。当一个宏块的感兴趣像素比例达到或者超过设定的比例阈值，就认为该宏块整个为感兴趣宏块或感兴趣区域。本实施例的判断规则为：若一个编码块的感兴趣像素占比超过或者等于整个宏块像素的80%，则将该编码块定义为感兴趣宏块/感兴趣区域。

步骤S105，根据设定的目标码率，为感兴趣区域和非感兴趣区域分配编码码率。

本实施例在码率分配方案中采用基于博弈论的模型。

本发明将感兴趣区域的编码质量作为领导者，将非感兴趣区域的编码质量作为跟随者，在设定的目标码率下，领导者决定感兴趣区域分配的码率，而跟随者决定非感兴趣区域分配的码率。对于感兴趣区域来说，它的效用不仅取决于自身，而且影响到整个RGB图像的编码质量，非感兴趣区域只能利用余下的码率达到最优的效用。

具体的，根据下式计算

取最小值时的感兴趣区域的码率

（例如，可对公式（1）的

求R1的偏导数，计算偏导数等于0时的R1）：

（感兴趣区域）

（非感兴趣区域）

，

的更新公式

，

的更新公式

表示整体编码质量的权重；

M表示感兴趣区域的编码树单元的个数；

N表示非感兴趣区域的编码树单元的个数；

表示第i个编码树单元的编码复杂度，

表示第i-1个编码树单元的编码复杂度；

是根据视频内容不断更新的参数；

表示第i个编码树单元的

；

为第i个编码树单元的像素个数；

具有初始设置值

，

具有初始设置值

；

基本上稳定在1左右，实际中设置为1；

的初始值

默认设置为3.2003，

的初始值

默认设置为1.367。

表示设定的目标码率，

表示感兴趣区域的码率；

为第一常数，

为第二常数；在本实施例中

分别设置为0.1和0.05。

表示

的自然对数，

表示

的自然对数；

表示RGB图像压缩后所占用的比特数或总像素数目；

表示真实消耗的

；

为

时真实消耗的

。

本实施例提供的视频编码方法，能够使感兴趣区域的QP较小，提高了感兴趣区域的清晰度。

参见图2，本发明的另一实施例还提供了一种视频编码系统200，包括转换模块201、检测模块202、融合模块203、确定模块204、码率分配模块205。视频编码系统200用于执行上述方法实施例中的方法步骤。

具体而言：

转换模块201，被配置为将输入视频流转换为RGB图像；

检测模块202，被配置为对RGB图像进行目标检测和运动检测，以识别RGB图像的目标像素和运动像素；

融合模块203，被配置为对目标像素和运动像素进行融合处理，以确定RGB图像中的感兴趣像素和非感兴趣像素；

确定模块204，被配置为根据感兴趣像素和非感兴趣像素的分布，确定感兴趣区域和非感兴趣区域；

码率分配模块205，被配置为根据设定的目标码率，为感兴趣区域和非感兴趣区域分配编码码率。

进一步的，码率分配模块205被进一步配置为根据下式计算

取最小值时的感兴趣区域的码率

（例如，可对公式（1）的

求R1的偏导数，计算偏导数等于0时的R1）：

表示第i个编码树单元的编码复杂度，

表示第i-1个编码树单元的编码复杂度；

表示第i个编码树单元的每像素位数；

为第i个编码树单元的像素个数；

表示设定的目标码率，

表示感兴趣区域的码率；

为第一常数，

为第二常数；

具有初始设置值

，

具有初始设置值

；

表示

的自然对数，

表示

的自然对数；

表示RGB图像压缩后所占用的比特数或总像素数目；

表示真实消耗的

；

为

时真实消耗的

。

进一步的，检测模块202被配置为：将高斯混合模型GMM作为没有入侵物体的静态场景的背景模型；将当前RGB图像中与背景模型不匹配的像素作为运动像素。

进一步的，融合模块203被配置为：若RGB图像中的像素同时属于目标像素和运动像素，则将该像素判定为感兴趣像素。

进一步的，确定模块204被配置为：若感兴趣像素在编码块的全部像素中的占比超过或等于设定的比例阈值，则该编码块为感兴趣区域，否则该编码块为非感兴趣区域。

需要说明的是，本实施例提供的视频编码系统200对应的可用于执行各方法实施例的技术方案，其实现原理和技术效果与方法类似，此处不再赘述。

本发明的另一实施例还提供了一种执行上述方法实施例的电子设备。下面具体参考图3，其示出了适于用来实现本实施例中的电子设备300的结构示意图。本实施例中的电子设备300可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA（个人数字助理）、PAD（平板电脑）、PMP（便携式多媒体播放器）、车载终端（例如车载导航终端）、可穿戴电子设备等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。图3示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，电子设备300可以包括处理装置（例如中央处理器、图形处理器等）301，其可以根据存储在只读存储器（ROM）302中的程序或者从存储装置308加载到随机访问存储器（RAM）303中的程序而执行各种适当的动作和处理以实现如本发明描述的各实施例的方法。在RAM 303中，还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出（I/O）接口305也连接至总线304。

通常，以下装置可以连接至I/O接口305：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置307；包括例如磁带、硬盘等的存储装置308；以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300，但是应理解的是，并不要求实施或具备所有示出的装置，可以替代的实施或具备更多或更少的装置。

以上描述仅为本发明的较佳实施例。本领域技术人员应当理解，本发明中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的（但不限于）具有类似功能的技术特征进行互相替换而形成的技术方案。