[go: up one dir, main page]

CN114567778B - 一种视频编码方法及系统 - Google Patents

一种视频编码方法及系统 Download PDF

Info

Publication number
CN114567778B
CN114567778B CN202210450047.2A CN202210450047A CN114567778B CN 114567778 B CN114567778 B CN 114567778B CN 202210450047 A CN202210450047 A CN 202210450047A CN 114567778 B CN114567778 B CN 114567778B
Authority
CN
China
Prior art keywords
interest
coding
pixel
pixels
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210450047.2A
Other languages
English (en)
Other versions
CN114567778A (zh
Inventor
黄震坤
岑裕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunzhong Rongxin Network Technology Co ltd
Original Assignee
Beijing Yunzhong Rongxin Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhong Rongxin Network Technology Co ltd filed Critical Beijing Yunzhong Rongxin Network Technology Co ltd
Priority to CN202210450047.2A priority Critical patent/CN114567778B/zh
Publication of CN114567778A publication Critical patent/CN114567778A/zh
Application granted granted Critical
Publication of CN114567778B publication Critical patent/CN114567778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • H04N19/149Data rate or code amount at the encoder output by estimating the code amount by means of a model, e.g. mathematical model or statistical model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明涉及多媒体视频图像信息处理技术领域,公开了一种视频编码方法及系统,该视频编码方法包括:将输入视频流转换为RGB图像;对该RGB图像进行目标检测和运动检测,以识别RGB图像的目标像素和运动像素;对上述目标像素和运动像素进行融合处理,以确定RGB图像中的感兴趣像素和非感兴趣像素;根据感兴趣像素和非感兴趣像素的分布,确定感兴趣区域和非感兴趣区域;根据设定的目标码率,为感兴趣区域和非感兴趣区域分配编码码率。本发明使得感兴趣区域的QP比较小,提高了感兴趣区域的清晰度。

Description

一种视频编码方法及系统
技术领域
本发明涉及多媒体视频图像信息处理技术领域,特别涉及一种视频编码方法及系统。
背景技术
当前,越来越多的会议从线下转到线上,网络会议普遍要求达到高清画质,而网络的复杂性导致网络带宽不断变化,给视频压缩和视频传输带来越来越多的挑战,高清和超高清视频压缩编码是必不可少的技术手段,同时视频压缩编码的性能和复杂度也直接影响着高清和超高清视频的应用范围和潜力。
因此,在保持一定视频质量的情况下,提高视频编码的压缩比,降低视频编码的复杂度是普遍追求的目标。现有技术相继出现了HEVC、H.264、VVC等编码方法,但是编码速度依然无法满足高清和超高清视频压缩的实际需求。中国专利公开号为CN113115043A ,公开了一种视频编码器、视频编码系统和视频编码方法,其主要采用每一帧图像使用多个视频编码器共同完成的方案,减少编码时间、降低编码延迟、实现对高清视频源的实时编码。
实时音视频技术是一种终端服务,为行业提供高并发、低延时、高清流畅、安全可靠的全场景、全互动、全实时的音视频服务。然而,实时音视频技术在带宽有限的情况下,在仍然保持高清视频编码的情况下,解码播放产生卡顿。如果编码器提高QP,会导致画面模糊,基于感兴趣区域的编码是解决此类问题的方法之一。例如中国专利公开号为CN106162177A,公开了一种视频编码方法和装置,通过对运动目标的识别确定感兴趣区域并通过平滑滤波进行高保真编码;又如中国专利公开号为CN103297754A,公开了一种监控视频自适应感兴趣区域编码系统,使用ROI检测、H.264编码实现基于H.264协议的数据压缩与关键信息高质量保存之间的折中。因此,在视频压缩和传输过程中,在码率不变的情况下,如何保持感兴趣区域清晰度,以减少网络带宽占用,使用户能够在低带宽/网速下享受超高清视频的观看乐趣,成为亟需解决的问题。
发明内容
鉴于现有技术中的上述缺陷或不足,本发明提供了一种视频编码方法及系统,其采用目标检测和运动检测相结合的方式,来提取视频中的感兴趣区域,再采用和博弈论相结合的方式进行编码码率的分配。
本发明的一个方面,提供了一种视频编码方法,包括:
将输入视频流转换为RGB图像;
对RGB图像进行目标检测和运动检测,以识别该RGB图像的目标像素和运动像素;
对上述目标像素和运动像素进行融合处理,以确定RGB图像中的感兴趣像素和非感兴趣像素;
根据上述感兴趣像素和非感兴趣像素的分布,确定感兴趣区域和非感兴趣区域;
根据设定的目标码率,为上述感兴趣区域和非感兴趣区域分配编码码率。
进一步的,根据设定的目标码率,为感兴趣区域和非感兴趣区域分配编码码率的步骤包括:
根据下式计算
Figure DEST_PATH_IMAGE001
取最小值时的感兴趣区域的码率
Figure 15736DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE003
Figure 725066DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
Figure 19912DEST_PATH_IMAGE006
Figure DEST_PATH_IMAGE007
Figure 495893DEST_PATH_IMAGE008
Figure DEST_PATH_IMAGE009
Figure 661426DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
Figure 541658DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
其中,D1为感兴趣区域的R-D函数,D2为非感兴趣区域的R-D函数;
Figure 573067DEST_PATH_IMAGE014
表示整体编码质量的权重;M表示感兴趣区域的编码树单元的个数;N表示非感兴趣区域的编码树单元的个数;
Figure DEST_PATH_IMAGE015
表示第i个编码树单元的编码复杂度,
Figure 340822DEST_PATH_IMAGE016
表示第i-1个编码树单元的编码复杂度;
Figure DEST_PATH_IMAGE017
表示第i个编码树单元的每像素位数;
Figure 751075DEST_PATH_IMAGE018
为第i个编码树单元的像素个数;
Figure DEST_PATH_IMAGE019
表示设定的目标码率,
Figure 192420DEST_PATH_IMAGE002
表示感兴趣区域的码率;
Figure 852072DEST_PATH_IMAGE020
为第一常数,
Figure DEST_PATH_IMAGE021
为第二常数;
Figure 155008DEST_PATH_IMAGE022
具有初始设置值
Figure DEST_PATH_IMAGE023
Figure 809981DEST_PATH_IMAGE015
具有初始设置值
Figure 828752DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
表示
Figure 54328DEST_PATH_IMAGE026
的自然对数,
Figure DEST_PATH_IMAGE027
表示
Figure 410223DEST_PATH_IMAGE028
的自然对数;
Figure DEST_PATH_IMAGE029
表示RGB图像压缩后所占用的比特数或总像素数目;
Figure 60647DEST_PATH_IMAGE030
表示真实消耗的
Figure 860107DEST_PATH_IMAGE029
Figure DEST_PATH_IMAGE031
Figure 963193DEST_PATH_IMAGE032
时真实消耗的
Figure DEST_PATH_IMAGE033
进一步的,对RGB图像进行运动检测包括:
将高斯混合模型GMM作为没有入侵物体的静态场景的背景模型;将当前RGB图像中与背景模型不匹配的像素作为运动像素。
进一步的,融合处理包括:
若RGB图像中的像素同时属于目标像素和运动像素,则将该像素判定为感兴趣像素。
进一步的,根据感兴趣像素和非感兴趣像素的分布,确定感兴趣区域和非感兴趣区域的步骤包括:
若感兴趣像素在编码块的全部像素中的占比超过或等于设定的比例阈值,则该编码块为感兴趣区域,否则该编码块为非感兴趣区域。
本发明的另一方面,提供了一种视频编码系统,包括:
转换模块,被配置为将输入视频流转换为RGB图像;
检测模块,被配置为对该RGB图像进行目标检测和运动检测,以识别RGB图像的目标像素和运动像素;
融合模块,被配置为对目标像素和运动像素进行融合处理,以确定RGB图像中的感兴趣像素和非感兴趣像素;
确定模块,被配置为根据感兴趣像素和非感兴趣像素的分布,确定感兴趣区域和非感兴趣区域;
码率分配模块,被配置为根据设定的目标码率,为感兴趣区域和非感兴趣区域分配编码码率。
进一步的,码率分配模块被进一步配置为:
根据下式计算
Figure 122778DEST_PATH_IMAGE001
取最小值时的感兴趣区域的码率
Figure 627709DEST_PATH_IMAGE002
Figure 595141DEST_PATH_IMAGE003
Figure 451101DEST_PATH_IMAGE004
Figure 414378DEST_PATH_IMAGE005
Figure 304974DEST_PATH_IMAGE006
Figure 836449DEST_PATH_IMAGE007
Figure 789493DEST_PATH_IMAGE008
Figure 431827DEST_PATH_IMAGE009
Figure 911349DEST_PATH_IMAGE010
Figure 738360DEST_PATH_IMAGE011
Figure 303334DEST_PATH_IMAGE012
Figure 749358DEST_PATH_IMAGE013
其中,D1为感兴趣区域的R-D函数,D2为非感兴趣区域的R-D函数;
Figure 489912DEST_PATH_IMAGE014
表示整体编码质量的权重;M表示感兴趣区域的编码树单元的个数;N表示非感兴趣区域的编码树单元的个数;
Figure 97611DEST_PATH_IMAGE015
表示第i个编码树单元的编码复杂度,
Figure 149881DEST_PATH_IMAGE016
表示第i-1个编码树单元的编码复杂度;
Figure 524230DEST_PATH_IMAGE017
表示第i个编码树单元的每像素位数;
Figure 978346DEST_PATH_IMAGE018
为第i个编码树单元的像素个数;
Figure 22525DEST_PATH_IMAGE019
表示设定的目标码率,
Figure 171878DEST_PATH_IMAGE002
表示感兴趣区域的码率;
Figure 959705DEST_PATH_IMAGE020
为第一常数,
Figure 392960DEST_PATH_IMAGE021
为第二常数;
Figure 608041DEST_PATH_IMAGE022
具有初始设置值
Figure 900482DEST_PATH_IMAGE023
Figure 850857DEST_PATH_IMAGE015
具有初始设置值
Figure 545143DEST_PATH_IMAGE024
Figure 665546DEST_PATH_IMAGE025
表示
Figure 304338DEST_PATH_IMAGE026
的自然对数,
Figure 433968DEST_PATH_IMAGE027
表示
Figure 717182DEST_PATH_IMAGE028
的自然对数;
Figure 149431DEST_PATH_IMAGE029
表示RGB图像压缩后所占用的比特数或总像素数目;
Figure 885306DEST_PATH_IMAGE030
表示真实消耗的
Figure 818627DEST_PATH_IMAGE029
Figure 80981DEST_PATH_IMAGE031
Figure 808766DEST_PATH_IMAGE032
时真实消耗的
Figure 297516DEST_PATH_IMAGE033
进一步的,检测模块被进一步配置为:
将高斯混合模型GMM作为没有入侵物体的静态场景的背景模型;将当前RGB图像中与上述背景模型不匹配的像素作为运动像素。
进一步的,融合模块被进一步配置为:
若RGB图像中的像素同时属于目标像素和运动像素,则将该像素判定为感兴趣像素。
进一步的,确定模块被进一步配置为:
若感兴趣像素在编码块的全部像素中的占比超过或等于设定的比例阈值,则该编码块为感兴趣区域,否则该编码块为非感兴趣区域。
本发明提供的一种视频编码方法及系统,采用目标检测和运动检测相结合的方式,来提取视频中的感兴趣区域,采用和博弈论相结合的方式进行编码码率的分配,使得感兴趣区域的QP比较小,提高了感兴趣区域的清晰度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1是本发明一个实施例提供的视频编码方法的程序流程图;
图2是本发明一个实施例提供的视频编码系统的组成示意图;
图3是本发明一个实施例提供的电子设备的组成示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述获取模块,但这些获取模块不应限于这些术语。这些术语仅用来将获取模块彼此区分开。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似的,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
需要注意的是,本发明实施例所描述的“上”“下”“左”“右”等方位词是以附图所示的角度来进行描述的,不应理解为对本发明实施例的限定。此外在上下文中,还需要理解的是,当提到一个元件被形成在另一个元件“上”或“下”时,其不仅能够直接形成在另一个元件“上”或者“下”,也可以通过中间元件间接形成在另一元件“上”或者“下”。
本发明的一个实施例提供了一种视频编码方法,通过将感兴趣区域ROI和视频编码技术结合,可大大减少网络带宽占用,使用户可在低带宽/网速下享受超高清视频的观看乐趣。
参见图1,本实施例的视频编码方法包括目标检测和码率分配两个部分,具体包括以下步骤:
步骤S101,将输入视频流转换为RGB图像;
具体的,本实施例从摄像头获取原始的yuv视频流,视频文件定义为input.yuv。下面以WebRTC中用的264编码器及思科公司提供的开源OpenH264为例进行说明。在编码器中,将输入的input.yuv视频数据转换成RGB图像。
步骤S102,对RGB图像进行目标检测和运动检测,以识别RGB图像的目标像素和运动像素;
目标检测是一种基于目标几何和统计特征的图像分割。它将目标的分割和识别合二为一,其准确性和实时性是整个系统的一项重要能力。本实施例采用YOLOv4模型进行目标检测。YOLOv4模型设计了强大而高效的检测模型,可以用1080 Ti和2080 Ti训练这个超快而精准的模型。在检测模型训练阶段,该检测模型验证了一些最先进的 Bag-of-Freebies 和 Bag-of-Specials 方法的效果; 修改了很多 SOTA 的方法, 让它们对单GPU训练更加高效,例如 CBN,PAN,SAM等。一个完整的YOLOv4 模型包括:CSPDarknet53(backbone) + SPP+PAN (Neck,也就是特征增强模块)+ YoloV3。YOLOv4模型使用了“赠送”技巧有CutMix、Mosaic数据增强、DropBlock正则化、标签平滑、CIoU-loss、CmBN、自对抗训练,每个目标分配给多个anchor。使用的“特价”技巧包括:Mish activation、跨阶段空间连接 (CSP)、多输入权重残差连接、SPP-block、SAM-block、PAN、DIoU-NMS。YOLOv4的输入是原始图像,输出是检测到的目标像素。
本实施例的运动检测采用高斯混合模型进行运动区域的提取。高斯混合模型是一个可以用来表示在总体分布(distribution)中含有 K 个子分布的概率模型,换句话说,高斯混合模型表示了观测数据在总体中的概率分布,它是一个由 K 个子分布组成的混合分布。高斯混合模型不要求观测数据提供关于子分布的信息,来计算观测数据在总体分布中的概率。高斯混合模型可以看作是由 K个单高斯模型组合而成的模型,这 K个单高斯模型是混合模型的隐变量(Hidden variable)。一般来说,一个混合模型可以使用任何概率分布,这里使用高斯混合模型是因为高斯分布具备很好的数学性质以及良好的计算性能。
本发明采用高斯混合模型(GMM)进行运动区域检测。在监控系统中,拍摄背景是变化较少的固定场景,没有入侵物体的静态场景具有一些常规特性,可以用一个背景模型来描述。GMM就是用多个高斯模型的加权和混合在一起来模拟背景的特性,即作为背景模型。将当前RGB图像中与上述背景模型不匹配的像素作为运动像素,即识别出入侵物体;将当前RGB图像中与上述背景模型匹配的像素作为背景像素。
步骤S103,对目标像素和运动像素进行融合处理,以确定RGB图像中的感兴趣像素和非感兴趣像素;
具体的,本申请采用二值融合方式作为区域融合方法,即若RGB图像中的像素同时属于目标像素和运动像素,则将该像素判定为感兴趣像素。换而言之,对于一个像素而言,若该像素即属于目标检测模型检测出的目标像素,又属于高斯混合模型检测出的运动像素,则该像素被确定为感兴趣像素,否则为非感兴趣像素。
步骤S104,根据感兴趣像素和非感兴趣像素的分布,确定感兴趣区域和非感兴趣区域;
具体的,由于视频编码采用的是基于块的方式进行压缩,所谓基于块的方式指的是压缩处理单元不是单个像素,而是4×4、8×8、16×16的块。在H.264中,采用宏块16×16的方式进行编码压缩。因此存在感兴趣像素不能完全占满这个宏块的情况,在这种情况下,需要确定一个比例阈值。当一个宏块的感兴趣像素比例达到或者超过设定的比例阈值,就认为该宏块整个为感兴趣宏块或感兴趣区域。本实施例的判断规则为:若一个编码块的感兴趣像素占比超过或者等于整个宏块像素的80%,则将该编码块定义为感兴趣宏块/感兴趣区域。
步骤S105,根据设定的目标码率,为感兴趣区域和非感兴趣区域分配编码码率。
本实施例在码率分配方案中采用基于博弈论的模型。
本发明将感兴趣区域的编码质量作为领导者,将非感兴趣区域的编码质量作为跟随者,在设定的目标码率下,领导者决定感兴趣区域分配的码率,而跟随者决定非感兴趣区域分配的码率。对于感兴趣区域来说,它的效用不仅取决于自身,而且影响到整个RGB图像的编码质量,非感兴趣区域只能利用余下的码率达到最优的效用。
具体的,根据下式计算
Figure 644315DEST_PATH_IMAGE001
取最小值时的感兴趣区域的码率
Figure 902121DEST_PATH_IMAGE002
(例如,可对公式(1)的
Figure 800806DEST_PATH_IMAGE001
求R1的偏导数,计算偏导数等于0时的R1):
Figure 635907DEST_PATH_IMAGE003
Figure 911031DEST_PATH_IMAGE004
Figure 633130DEST_PATH_IMAGE005
Figure 968297DEST_PATH_IMAGE006
Figure 166060DEST_PATH_IMAGE007
(感兴趣区域)
Figure 103929DEST_PATH_IMAGE008
(非感兴趣区域)
Figure 70748DEST_PATH_IMAGE009
Figure 311236DEST_PATH_IMAGE010
Figure 603153DEST_PATH_IMAGE011
Figure 220079DEST_PATH_IMAGE012
Figure 306984DEST_PATH_IMAGE015
的更新公式
Figure 843007DEST_PATH_IMAGE013
Figure 15363DEST_PATH_IMAGE022
的更新公式
其中,D1为感兴趣区域的R-D函数,D2为非感兴趣区域的R-D函数;
Figure 45767DEST_PATH_IMAGE014
表示整体编码质量的权重;
M表示感兴趣区域的编码树单元的个数;
N表示非感兴趣区域的编码树单元的个数;
Figure 987178DEST_PATH_IMAGE015
表示第i个编码树单元的编码复杂度,
Figure 835048DEST_PATH_IMAGE016
表示第i-1个编码树单元的编码复杂度;
Figure 353754DEST_PATH_IMAGE015
是根据视频内容不断更新的参数;
Figure 312483DEST_PATH_IMAGE017
表示第i个编码树单元的
Figure 108401DEST_PATH_IMAGE029
Figure 736959DEST_PATH_IMAGE018
为第i个编码树单元的像素个数;
Figure 618327DEST_PATH_IMAGE022
具有初始设置值
Figure 380747DEST_PATH_IMAGE023
Figure 421384DEST_PATH_IMAGE015
具有初始设置值
Figure 345478DEST_PATH_IMAGE024
Figure 714142DEST_PATH_IMAGE022
基本上稳定在1左右,实际中设置为1;
Figure 624461DEST_PATH_IMAGE015
的初始值
Figure 660550DEST_PATH_IMAGE024
默认设置为3.2003,
Figure 21124DEST_PATH_IMAGE022
的初始值
Figure 736139DEST_PATH_IMAGE023
默认设置为1.367。
Figure 840361DEST_PATH_IMAGE019
表示设定的目标码率,
Figure 343674DEST_PATH_IMAGE002
表示感兴趣区域的码率;
Figure 875149DEST_PATH_IMAGE020
为第一常数,
Figure 952827DEST_PATH_IMAGE021
为第二常数;在本实施例中
Figure 719794DEST_PATH_IMAGE034
分别设置为0.1和0.05。
Figure 464896DEST_PATH_IMAGE025
表示
Figure 901694DEST_PATH_IMAGE026
的自然对数,
Figure 607613DEST_PATH_IMAGE027
表示
Figure 53638DEST_PATH_IMAGE028
的自然对数;
Figure 387667DEST_PATH_IMAGE029
表示RGB图像压缩后所占用的比特数或总像素数目;
Figure 385579DEST_PATH_IMAGE030
表示真实消耗的
Figure 437849DEST_PATH_IMAGE029
Figure 687564DEST_PATH_IMAGE031
Figure 751466DEST_PATH_IMAGE032
时真实消耗的
Figure 795646DEST_PATH_IMAGE033
本实施例提供的视频编码方法,能够使感兴趣区域的QP较小,提高了感兴趣区域的清晰度。
参见图2,本发明的另一实施例还提供了一种视频编码系统200,包括转换模块201、检测模块202、融合模块203、确定模块204、码率分配模块205。视频编码系统200用于执行上述方法实施例中的方法步骤。
具体而言:
转换模块201,被配置为将输入视频流转换为RGB图像;
检测模块202,被配置为对RGB图像进行目标检测和运动检测,以识别RGB图像的目标像素和运动像素;
融合模块203,被配置为对目标像素和运动像素进行融合处理,以确定RGB图像中的感兴趣像素和非感兴趣像素;
确定模块204,被配置为根据感兴趣像素和非感兴趣像素的分布,确定感兴趣区域和非感兴趣区域;
码率分配模块205,被配置为根据设定的目标码率,为感兴趣区域和非感兴趣区域分配编码码率。
进一步的,码率分配模块205被进一步配置为根据下式计算
Figure 600791DEST_PATH_IMAGE001
取最小值时的感兴趣区域的码率
Figure 247673DEST_PATH_IMAGE002
(例如,可对公式(1)的
Figure 821874DEST_PATH_IMAGE001
求R1的偏导数,计算偏导数等于0时的R1):
Figure 646741DEST_PATH_IMAGE003
Figure 939182DEST_PATH_IMAGE004
Figure 999542DEST_PATH_IMAGE005
Figure 552883DEST_PATH_IMAGE006
Figure 204445DEST_PATH_IMAGE007
Figure 453023DEST_PATH_IMAGE008
Figure 189511DEST_PATH_IMAGE009
Figure 738304DEST_PATH_IMAGE010
Figure 295187DEST_PATH_IMAGE011
Figure 155695DEST_PATH_IMAGE012
Figure 89016DEST_PATH_IMAGE013
其中,D1为感兴趣区域的R-D函数,D2为非感兴趣区域的R-D函数;
Figure 492316DEST_PATH_IMAGE014
表示整体编码质量的权重;M表示感兴趣区域的编码树单元的个数;N表示非感兴趣区域的编码树单元的个数;
Figure 829888DEST_PATH_IMAGE015
表示第i个编码树单元的编码复杂度,
Figure 318638DEST_PATH_IMAGE016
表示第i-1个编码树单元的编码复杂度;
Figure 649125DEST_PATH_IMAGE017
表示第i个编码树单元的每像素位数;
Figure 906931DEST_PATH_IMAGE018
为第i个编码树单元的像素个数;
Figure 805617DEST_PATH_IMAGE019
表示设定的目标码率,
Figure 657029DEST_PATH_IMAGE002
表示感兴趣区域的码率;
Figure 666574DEST_PATH_IMAGE020
为第一常数,
Figure 778886DEST_PATH_IMAGE021
为第二常数;
Figure 973107DEST_PATH_IMAGE022
具有初始设置值
Figure 170870DEST_PATH_IMAGE023
Figure 984105DEST_PATH_IMAGE015
具有初始设置值
Figure 91870DEST_PATH_IMAGE024
Figure 332358DEST_PATH_IMAGE025
表示
Figure 17417DEST_PATH_IMAGE026
的自然对数,
Figure 758977DEST_PATH_IMAGE027
表示
Figure 580303DEST_PATH_IMAGE028
的自然对数;
Figure 257272DEST_PATH_IMAGE029
表示RGB图像压缩后所占用的比特数或总像素数目;
Figure 30625DEST_PATH_IMAGE030
表示真实消耗的
Figure 185663DEST_PATH_IMAGE029
Figure 392653DEST_PATH_IMAGE031
Figure 99578DEST_PATH_IMAGE032
时真实消耗的
Figure 759230DEST_PATH_IMAGE033
进一步的,检测模块202被配置为:将高斯混合模型GMM作为没有入侵物体的静态场景的背景模型;将当前RGB图像中与背景模型不匹配的像素作为运动像素。
进一步的,融合模块203被配置为:若RGB图像中的像素同时属于目标像素和运动像素,则将该像素判定为感兴趣像素。
进一步的,确定模块204被配置为:若感兴趣像素在编码块的全部像素中的占比超过或等于设定的比例阈值,则该编码块为感兴趣区域,否则该编码块为非感兴趣区域。
需要说明的是,本实施例提供的视频编码系统200对应的可用于执行各方法实施例的技术方案,其实现原理和技术效果与方法类似,此处不再赘述。
本发明的另一实施例还提供了一种执行上述方法实施例的电子设备。下面具体参考图3,其示出了适于用来实现本实施例中的电子设备300的结构示意图。本实施例中的电子设备300可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴电子设备等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。图3示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图3所示,电子设备300可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理以实现如本发明描述的各实施例的方法。在RAM 303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置,可以替代的实施或具备更多或更少的装置。
以上描述仅为本发明的较佳实施例。本领域技术人员应当理解,本发明中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (8)

1.一种视频编码方法,其特征在于,包括:
将输入视频流转换为RGB图像;
对所述RGB图像进行目标检测和运动检测,以识别该RGB图像的目标像素和运动像素;
对所述目标像素和所述运动像素进行融合处理,以确定所述RGB图像中的感兴趣像素和非感兴趣像素;
根据所述感兴趣像素和所述非感兴趣像素的分布,确定感兴趣区域和非感兴趣区域;
根据设定的目标码率,为所述感兴趣区域和所述非感兴趣区域分配编码码率,具体包括:
根据下式计算
Figure DEST_PATH_IMAGE002
取最小值时的感兴趣区域的码率
Figure DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE006
其中,D1为感兴趣区域的R-D函数,D2为非感兴趣区域的R-D函数,
Figure DEST_PATH_IMAGE008
表示整体编码质量的权重;
Figure DEST_PATH_IMAGE010
其中,
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE016
其中
Figure DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE028
上述
Figure DEST_PATH_IMAGE030
表示第i个编码树单元的编码复杂度,
Figure DEST_PATH_IMAGE032
表示第i-1个编码树单元的编码复杂度;
Figure DEST_PATH_IMAGE034
表示第i个编码树单元的
Figure DEST_PATH_IMAGE036
为第i个编码树单元的像素个数;
Figure DEST_PATH_IMAGE038
为第一常数,
Figure DEST_PATH_IMAGE040
为第二常数;
Figure DEST_PATH_IMAGE042
具有初始设置值
Figure DEST_PATH_IMAGE044
Figure 800976DEST_PATH_IMAGE030
具有初始设置值
Figure DEST_PATH_IMAGE046
Figure DEST_PATH_IMAGE048
表示
Figure DEST_PATH_IMAGE050
的自然对数,
Figure DEST_PATH_IMAGE052
表示
Figure DEST_PATH_IMAGE054
的自然对数;
Figure DEST_PATH_IMAGE056
表示RGB图像压缩后所占用的比特数或总像素数目;
Figure DEST_PATH_IMAGE058
表示真实消耗的
Figure 373909DEST_PATH_IMAGE056
Figure DEST_PATH_IMAGE060
Figure DEST_PATH_IMAGE062
时真实消耗的
Figure DEST_PATH_IMAGE064
Figure DEST_PATH_IMAGE066
Figure DEST_PATH_IMAGE068
表示非感兴趣区域的编码树单元个数;
Figure DEST_PATH_IMAGE070
Figure DEST_PATH_IMAGE072
Figure DEST_PATH_IMAGE074
表示非感兴趣区域的编码树单元个数,
Figure DEST_PATH_IMAGE076
表示设定的目标码率;
Figure DEST_PATH_IMAGE078
其中,
Figure DEST_PATH_IMAGE080
Figure DEST_PATH_IMAGE082
其中,
Figure DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE086
上述
Figure DEST_PATH_IMAGE088
表示第j个编码树单元的编码复杂度,
Figure DEST_PATH_IMAGE090
表示第j-1个编码树单元的编码复杂度;
Figure DEST_PATH_IMAGE092
表示第j个编码树单元的
Figure DEST_PATH_IMAGE094
为第j个编码树单元的像素个数;
Figure 88399DEST_PATH_IMAGE038
为第一常数,
Figure 827816DEST_PATH_IMAGE040
为第二常数;
Figure DEST_PATH_IMAGE096
具有初始设置值
Figure 704505DEST_PATH_IMAGE044
,具有初始设置值
Figure 261389DEST_PATH_IMAGE046
Figure 371165DEST_PATH_IMAGE048
表示
Figure 38907DEST_PATH_IMAGE050
的自然对数,
Figure 301261DEST_PATH_IMAGE052
表示
Figure 763466DEST_PATH_IMAGE054
的自然对数;
Figure 252216DEST_PATH_IMAGE056
表示RGB图像压缩后所占用的比特数或总像素数目;
Figure 333436DEST_PATH_IMAGE058
表示真实消耗的
Figure 325663DEST_PATH_IMAGE056
Figure DEST_PATH_IMAGE098
Figure DEST_PATH_IMAGE100
时真实消耗的
Figure 660567DEST_PATH_IMAGE064
2.根据权利要求1所述的一种视频编码方法,其特征在于,对所述RGB图像进行运动检测包括:
将高斯混合模型GMM作为没有入侵物体的静态场景的背景模型;将当前RGB图像中与所述背景模型不匹配的像素作为运动像素。
3.根据权利要求1所述的一种视频编码方法,其特征在于,所述对所述目标像素和所述运动像素进行融合处理包括:
若所述RGB图像中的像素同时属于目标像素和运动像素,则将该像素判定为感兴趣像素。
4.根据权利要求1所述的一种视频编码方法,其特征在于,所述根据所述感兴趣像素和所述非感兴趣像素的分布,确定感兴趣区域和非感兴趣区域的步骤包括:
若所述感兴趣像素在编码块的全部像素中的占比超过或等于设定的比例阈值,则该编码块为感兴趣区域,否则该编码块为非感兴趣区域。
5.一种视频编码系统,其特征在于,包括:
转换模块,被配置为将输入视频流转换为RGB图像;
检测模块,被配置为对所述RGB图像进行目标检测和运动检测,以识别该RGB图像的目标像素和运动像素;
融合模块,被配置为对所述目标像素和所述运动像素进行融合处理,以确定所述RGB图像中的感兴趣像素和非感兴趣像素;
确定模块,被配置为根据所述感兴趣像素和所述非感兴趣像素的分布,确定感兴趣区域和非感兴趣区域;
码率分配模块,被配置为根据设定的目标码率,为所述感兴趣区域和所述非感兴趣区域分配编码码率,包括:
根据下式计算
Figure 636613DEST_PATH_IMAGE002
取最小值时的感兴趣区域的码率
Figure 505212DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE006A
其中,D1为感兴趣区域的R-D函数,D2为非感兴趣区域的R-D函数,
Figure 696153DEST_PATH_IMAGE008
表示整体编码质量的权重;
Figure DEST_PATH_IMAGE010A
其中,
Figure 562478DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE014A
Figure DEST_PATH_IMAGE016A
其中
Figure 665301DEST_PATH_IMAGE018
Figure 88323DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE022A
Figure DEST_PATH_IMAGE024A
Figure DEST_PATH_IMAGE026A
Figure DEST_PATH_IMAGE028A
上述
Figure 859005DEST_PATH_IMAGE030
表示第i个编码树单元的编码复杂度,
Figure 365073DEST_PATH_IMAGE032
表示第i-1个编码树单元的编码复杂度;
Figure 909187DEST_PATH_IMAGE034
表示第i个编码树单元的
Figure 260534DEST_PATH_IMAGE036
为第i个编码树单元的像素个数;
Figure 455761DEST_PATH_IMAGE038
为第一常数,
Figure 867150DEST_PATH_IMAGE040
为第二常数;
Figure 898560DEST_PATH_IMAGE042
具有初始设置值
Figure 788019DEST_PATH_IMAGE044
Figure 995009DEST_PATH_IMAGE030
具有初始设置值
Figure 452667DEST_PATH_IMAGE046
Figure 846739DEST_PATH_IMAGE048
表示
Figure 664522DEST_PATH_IMAGE050
的自然对数,
Figure 460440DEST_PATH_IMAGE052
表示
Figure 587534DEST_PATH_IMAGE054
的自然对数;
Figure 468902DEST_PATH_IMAGE056
表示RGB图像压缩后所占用的比特数或总像素数目;表示真实消耗的
Figure 90376DEST_PATH_IMAGE056
Figure 740800DEST_PATH_IMAGE060
Figure 274681DEST_PATH_IMAGE062
时真实消耗的
Figure 908925DEST_PATH_IMAGE064
Figure DEST_PATH_IMAGE066A
Figure 6194DEST_PATH_IMAGE068
表示非感兴趣区域的编码树单元个数;
Figure DEST_PATH_IMAGE070A
Figure DEST_PATH_IMAGE072A
Figure 681763DEST_PATH_IMAGE074
表示非感兴趣区域的编码树单元个数,
Figure 386545DEST_PATH_IMAGE076
表示设定的目标码率;
Figure DEST_PATH_IMAGE078A
其中,
Figure 304823DEST_PATH_IMAGE080
Figure DEST_PATH_IMAGE082A
其中,
Figure 845263DEST_PATH_IMAGE084
Figure DEST_PATH_IMAGE086A
上述
Figure 283329DEST_PATH_IMAGE088
表示第j个编码树单元的编码复杂度,
Figure 549225DEST_PATH_IMAGE090
表示第j-1个编码树单元的编码复杂度;
Figure 751536DEST_PATH_IMAGE092
表示第j个编码树单元的
Figure 659450DEST_PATH_IMAGE094
为第j个编码树单元的像素个数;
Figure 512874DEST_PATH_IMAGE038
为第一常数,
Figure 949671DEST_PATH_IMAGE040
为第二常数;
Figure 639279DEST_PATH_IMAGE096
具有初始设置值
Figure 819724DEST_PATH_IMAGE044
Figure 29120DEST_PATH_IMAGE088
具有初始设置值
Figure 902398DEST_PATH_IMAGE046
Figure 954668DEST_PATH_IMAGE048
表示
Figure 797859DEST_PATH_IMAGE050
的自然对数,
Figure 251974DEST_PATH_IMAGE052
表示
Figure 404475DEST_PATH_IMAGE054
的自然对数;
Figure 209620DEST_PATH_IMAGE056
表示RGB图像压缩后所占用的比特数或总像素数目;
Figure 856502DEST_PATH_IMAGE058
表示真实消耗的
Figure 165124DEST_PATH_IMAGE056
Figure 989992DEST_PATH_IMAGE098
Figure 751274DEST_PATH_IMAGE100
时真实消耗的
Figure 201847DEST_PATH_IMAGE064
6.根据权利要求5所述的一种视频编码系统,其特征在于,所述检测模块被进一步配置为:
将高斯混合模型GMM作为没有入侵物体的静态场景的背景模型;将所述RGB图像中与所述背景模型不匹配的像素作为运动像素。
7.根据权利要求5所述的一种视频编码系统,其特征在于,所述融合模块被进一步配置为:
若所述RGB图像中的像素同时属于目标像素和运动像素,则将该像素判定为感兴趣像素。
8.根据权利要求5所述的一种视频编码系统,其特征在于,所述确定模块被进一步配置为:
若所述感兴趣像素在编码块的全部像素中的占比超过或等于设定的比例阈值,则该编码块为感兴趣区域,否则该编码块为非感兴趣区域。
CN202210450047.2A 2022-04-24 2022-04-24 一种视频编码方法及系统 Active CN114567778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210450047.2A CN114567778B (zh) 2022-04-24 2022-04-24 一种视频编码方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210450047.2A CN114567778B (zh) 2022-04-24 2022-04-24 一种视频编码方法及系统

Publications (2)

Publication Number Publication Date
CN114567778A CN114567778A (zh) 2022-05-31
CN114567778B true CN114567778B (zh) 2022-07-05

Family

ID=81721068

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210450047.2A Active CN114567778B (zh) 2022-04-24 2022-04-24 一种视频编码方法及系统

Country Status (1)

Country Link
CN (1) CN114567778B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6061100A (en) * 1997-09-30 2000-05-09 The University Of British Columbia Noise reduction for video signals
CN101742321A (zh) * 2010-01-12 2010-06-16 浙江大学 基于图层分解的视频编、解码方法及装置
CN101916448A (zh) * 2010-08-09 2010-12-15 云南清眸科技有限公司 一种基于贝叶斯框架及lbp的运动目标检测方法
CN107396108A (zh) * 2017-08-15 2017-11-24 西安万像电子科技有限公司 码率分配方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8467570B2 (en) * 2006-06-14 2013-06-18 Honeywell International Inc. Tracking system with fused motion and object detection

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6061100A (en) * 1997-09-30 2000-05-09 The University Of British Columbia Noise reduction for video signals
CN101742321A (zh) * 2010-01-12 2010-06-16 浙江大学 基于图层分解的视频编、解码方法及装置
CN101916448A (zh) * 2010-08-09 2010-12-15 云南清眸科技有限公司 一种基于贝叶斯框架及lbp的运动目标检测方法
CN107396108A (zh) * 2017-08-15 2017-11-24 西安万像电子科技有限公司 码率分配方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深度学习的视频编码加速及智能比特分配;石隽;《优秀硕士学位论文》;20210115;全文 *

Also Published As

Publication number Publication date
CN114567778A (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
CN114554211B (zh) 内容自适应视频编码方法、装置、设备和存储介质
CN111918066B (zh) 视频编码方法、装置、设备及存储介质
CN111193923B (zh) 视频质量评估方法、装置、电子设备及计算机存储介质
CN106162177B (zh) 视频编码方法和装置
US9013536B2 (en) Augmented video calls on mobile devices
CN106303157B (zh) 一种视频降噪处理方法及视频降噪处理装置
CN112399178A (zh) 视觉质量优化的视频压缩
JP6109956B2 (ja) ビデオコンテンツを前処理するエンコーダハードウェアの活用
CN114025219B (zh) 增强现实特效的渲染方法、装置、介质及设备
US20250203098A1 (en) Reinforcement learning based rate control
US20200177470A1 (en) Method for enhancing quality of media
TW201440493A (zh) 用於管理視訊串流之技術
CN109698957B (zh) 图像编码方法、装置、计算设备及存储介质
CN112954398A (zh) 编码方法、解码方法、装置、存储介质及电子设备
CN108432246B (zh) 用于确定视频编码的变换单元大小的方法及系统
US20150117545A1 (en) Layered Video Encoding and Decoding
CN111512629A (zh) 低比特率压缩视频流上的计算机视觉的自适应阈值处理
Yang et al. An objective assessment method based on multi-level factors for panoramic videos
CN112435244A (zh) 直播视频的质量评价方法、装置、计算机设备和存储介质
CN106664404B (zh) 视频编码中的块分割方式处理方法和相关装置
CN111524110B (zh) 视频质量的评价模型构建方法、评价方法及装置
CN113784118A (zh) 视频质量评估方法及装置、电子设备和存储介质
CN113068034A (zh) 视频编码方法及装置、编码器、设备、存储介质
Saha et al. Perceptual video quality assessment: The journey continues!
CN103929640A (zh) 用于管理视频流播的技术

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 100085 Beijing City Haidian District Qinghe Wool Textile Road (Qinghe Supply Station) 7 building first floor 040 room

Patentee after: Beijing Yunzhong Rongxin Network Technology Co.,Ltd.

Country or region after: China

Address before: 102627 Beijing City DaXing District Economic Development Zone Keyuan Road No.9 Building 1 First Floor S1122 Room

Patentee before: BEIJING YUNZHONG RONGXIN NETWORK TECHNOLOGY CO.,LTD.

Country or region before: China