[go: up one dir, main page]

CN119563320A - 用于应用经预测平均值修改的上采样滤波器 - Google Patents

用于应用经预测平均值修改的上采样滤波器 Download PDF

Info

Publication number
CN119563320A
CN119563320A CN202380041460.6A CN202380041460A CN119563320A CN 119563320 A CN119563320 A CN 119563320A CN 202380041460 A CN202380041460 A CN 202380041460A CN 119563320 A CN119563320 A CN 119563320A
Authority
CN
China
Prior art keywords
upsampling
data
resolution
filter
coefficients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202380041460.6A
Other languages
English (en)
Inventor
M·埃利奥特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
V Nova International Ltd
Original Assignee
V Nova International Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by V Nova International Ltd filed Critical V Nova International Ltd
Publication of CN119563320A publication Critical patent/CN119563320A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/117Filters, e.g. for pre-processing or post-processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • H04N19/126Details of normalisation or weighting functions, e.g. normalisation matrices or variable uniform quantisers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/156Availability of hardware or computational resources, e.g. encoding based on power-saving criteria
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/176Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/18Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a set of transform coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/182Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a pixel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/20Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding
    • H04N19/23Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video object coding with coding of regions that are present throughout a whole video segment, e.g. sprites, background or mosaic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/33Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability in the spatial domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/30Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using hierarchical techniques, e.g. scalability
    • H04N19/36Scalability techniques involving formatting the layers as a function of picture distortion after decoding, e.g. signal-to-noise [SNR] scalability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本公开描述了一种用于视频编码的上采样滤波器。所述上采样滤波器配置成将输入视频帧从第一分辨率上采样至第二分辨率,所述第二分辨率高于所述第一分辨率。所述上采样滤波器具有一组滤波器系数,所述一组滤波器系数配置成修改所述上采样滤波器的输出以应用经预测平均值修改器。在示例中,所述经预测平均值修改器被定义为所述上采样滤波器的应用之后的所述第二分辨率的像素的数据块的平均值与所述上采样滤波器的应用之前的所述第一分辨率的对应像素值之间的差。

Description

用于应用经预测平均值修改的上采样滤波器
技术领域
本发明涉及用于视频编码的上采样。特别地,示例涉及修改视频帧以应用经预测平均值修改的上采样滤波器,该经预测平均值修改提高从视频帧导出的残差数据的编码的效率。
背景技术
EP 2850829 B1描述了一种变换元素信息(诸如残差数据)以允许高效视频编码的方法。特别地,EP 2850829 B1描述了如何可以将方向分解应用于小残差数据块以及如何可以使用所谓的“经预测平均值”调整给定数据块的平均值以导出经变换残差数据集合,以用于进一步熵编码并且作为经编码比特流进行传输或存储。在其中描述的示例中,经预测平均值被确定为第一较低分辨率的像素值与第二较高分辨率的经上采样像素集合的平均值之间的差,其中一组经上采样像素对应于像素值的上采样。经预测平均值的使用允许经变换残差数据内的平均值分量的能量被减少,致使更小的比特流和更高效的编码。
在EP 2850829 B1的示例内,在视频帧的解码期间,使用可用于解码器的信号信息计算经预测平均值的估值。因此,经预测平均值不需要在比特流内被显式传输。特别地,可以从第一经编码比特流(例如,第一编码层)导出第一较低分辨率的像素值,并且可以从解码器处执行的上采样导出第二较高分辨率的经上采样像素的平均值。在EP 2850829B1的示例中,经预测平均值被添加至经解码的经变换残差的数据块的所接收增量或所调整平均值分量,以恢复用于数据块的原始平均值。数据块可以然后被重构(例如,经由逆方向分解的应用)以获取用于数据块的残差值。这些残差值可以然后被添加至第一经编码位流的解码的上采样以输出第二较高分辨率的视频信号的解码。
WO2020/188242A1描述了一种经修改上采样的形式,其中在视频信号的解码期间,可以计算经预测平均值修改器并且将其添加至经上采样信号的输出。在这种情况下,不是将经预测平均值作为用于经编码比特流层的解码过程的一部分来计算并且应用经预测平均值以恢复逆方向分解之前的平均值分量,而是使用上采样阶段的输入和输出计算经预测平均值。由于解码操作的主要线性序列,可以在上采样之后应用经预测平均值,而不是作为解码过程的一部分(例如,由此可以在没有有害影响的情况下在解码操作的序列内移动操作)。WO2020/188242A1的方法允许更高效的解码,因为它避免需要将逆方向分解应用于经预测平均值分量,从而节省计算资源并且提高解码的速度(例如,通过减少操作的数量)。例如,在逆方向分解期间将数据块上的经变换的所调整平均值分量维持为零可以减少比特操作的数量(即使并非所有所调整分量都为零)。
虽然应用EP 2850829 B1的经预测平均值修改提高针对所得比特流的编码效率并且移动WO2020/188242A1中的修改的应用提高解码效率,但是经预测平均值的计算和应用可以增加编码和解码过程的复杂性。对于机顶盒或内置解码器等较旧的所谓“传统”硬件装置来说,这尤其是一个问题。例如,由于编码器和解码器中的一者或多者处的硬件约束,可能难以支持经预测平均值修改的使用。在这些情况下,视频分配器可能选择关闭经预测平均值功能并且权衡压缩程度较低的比特流以换取更广泛的传统装置支持。
在视频编码的领域内,总是期望更高效的视频编码,例如减少针对给定经解码视频质量的比特流的比特率和/或减少计算或功耗的视频编码。视频编码通常是一种涉及针对通用视频编码标准的硬件加速器的资源密集型操作。这也带来了提高视频编码效率同时维持对旧硬件装置的支持的问题。
发明内容
本发明的各个方面和变化在所附权利要求中阐述。
在下面的详细描述中进一步阐述了某些未要求保护的方面。
附图说明
图1示出了分级编码和解码过程的高层级示意图。
图2示出了分级解构过程的高层级示意图。
图3示出了分级解构过程的替代高层级示意图。
图4示出了适用于对分层输出的残差进行编码的编码过程的高层级示意图。
图5示出了适用于对图4的每个输出层级进行解码的分级解码过程的高层级示意图。
图6示出了分级编码技术的编码过程的高层级示意图。
图7示出了适用于对图6的输出的解码过程进行解码的高层级示意图。
图8示出了上采样的示例方法。
图9A至图9C示出了用于上采样的示例可分离五抽头滤波器以及用于设计经预测平均值保留上采样滤波器的示例约束。
图10示出了根据本文描述的方法转换成经预测平均值保留上采样滤波器的非经预测平均值保留上采样滤波器集合的示例。
图11示出了用于训练经预测平均值保留上采样滤波器的示例训练配置。
具体实施方式
本文描述的某些示例涉及可以例如在视频编码中使用的经适应上采样操作。特别地,本文描述的某些示例应用经预测平均值计算,诸如EP 2850829 B1或WO2020/188242A1中描述的该经预测平均值计算,作为上采样操作的一部分。这是通过配置上采样滤波器的一组上采样系数来实现的。例如,上采样滤波器的一组上采样系数可以被优化使得上采样操作提供像素数据的上采样,其降低残差数据流的比特率以及等同于在WO2020/188242A1中描述的经修改上采样输出的输出。这可以通过配置经上采样系数来实现,使得经上采样数据块(例如,用于特定亮度或色度平面的2x2或4x4数据块)的像素值的平均值等于或近似等于(例如,在量化公差范围内)被上采样以生成经上采样数据块的像素值。然后,这有效地将经预测平均值修改器设置为零,使得在经变换残差数据块内,平均值分量与经调整平均值分量相同。
本文示例中描述的经适应上采样操作可以在编码器和解码器中的一者或多者处使用。在一种情况下,示例的经适应上采样器可以应用于编码器和解码器两者,例如,以分别生成新的经编码比特流并且解码这些比特流。
在某些特定示例中,经适应上采样操作被实现为具有针对两个图像维度中的每一个图像维度的少于五个系数的可分离滤波器,例如为四抽头可分离过滤器。在示例中,描述了提供经适应上采样操作的上采样系数的一般形式。因此,不同的现有上采样滤波器可以被适应以提供经预测平均值计算。这意味着被限于具有四个系数的硬件实现的滤波器的传统硬件装置(诸如机顶盒)可以以计算上高效的方式应用经预测平均值计算。在其中多于四个系数可供使用的情况下,可以使用具有五个或更多系数的一维滤波器。这在对于进一步降低残差数据的比特率的更具表现力的上采样滤波器存在较少硬件限制的情况下可能是优选的。
本文描述的某些示例可以被实现为MPEG 5第2部分低复杂度增强视频编码(LCEVC)实现和/或SMPTE VC-6 2117实现的一部分。
在下文中,首先描述示例信号编码器和解码器的某些特征。这些示例信号编码器和解码器可以使用如本文所描述的经适应上采样操作。在该一般描述之后,将详细描述经适应上采样操作的某些特定方面。通过首先理解使用上采样的基于层的分层编码方案或格式的示例,可以更容易地理解经适应上采样操作,尽管后面的示例中描述的方法不必限于这样的方案。
一般信号处理术语和定义
本文所述的示例涉及信号处理。信号可以被视为样本序列(即二维图像、视频帧、视频场、声音帧等)。在说明书中,术语“图像”、“图片”或“平面”(意指“超平面”的最广泛含义,即具有任意维数和给定采样网格的元素阵列)将通常用于标识沿样本序列的信号样本的数字再现,其中每个平面对于其每个维度(例如,X和Y)具有给定的分辨率,并且包括一组平面元素(或“元素”或“画素”或通常称为“像素”的用于二维图像的显示元素,通常称为“体素”的用于体积图像的显示元素等),其以一个或多个“值”或“设置”为特征(例如,通过非限制性示例的方式,合适颜色空间中的颜色设置、指示密度等级的设置、指示温度等级的设置、指示音频音高的设置、指示幅度的设置、指示深度的设置、指示阿尔法信道透明度等级的设置等)。每个平面元素均由一组合适的坐标标识,指示所述元素在图像的采样网格中的整数位置。信号维度可以仅包含空间维度(例如,在图像的情况下)或时间维度(例如,在信号随时间演变的情况下,诸如视频信号)。
例如,信号可以是图像、音频信号、多通道音频信号、遥测信号、视频信号、3DoF/6DoF视频信号、体积信号(例如,医学成像、科学成像、全息成像等)、体积视频信号,或甚至是超过四个维度的信号。
为简单起见,本文所述的示例通常指的是显示为2D设置平面的信号(例如,合适颜色空间中的2D图像),诸如视频信号。术语“帧”或“场”将与术语“图像”互换使用,以指示视频信号的时间样本:针对由帧构成的视频信号(逐行视频信号)说明的任何概念和方法也可以很容易适用于由场构成的视频信号(隔行视频信号),反之亦然。尽管本文说明的实施例的重点是图像和视频信号,但本领域技术人员可以容易地理解相同的概念和方法也适用于任何其他类型的多维信号(例如,音频信号、体积信号、立体视频信号、3DoF/6DoF视频信号、全光信号、点云等)。
本文描述的某些基于层的分级格式使用变化的校正量(例如,也以“残差数据”的形式,或简称为“残差”),以便在给定的质量层级上生成与原始信号最相似(或甚至无损重构)的信号重构。校正量可以基于给定质量层级的预测再现的保真度。
为了实现高保真重构,编码方法可以将信号的较低分辨率重构上采样到信号的下一个更高分辨率重构。在某些情况下,不同的信号可能用不同的方法进行最佳处理,即,相同的方法可能并非对所有信号都是最佳的。
基于层的分级编码方案或格式的示例
在优选示例中,编码器或解码器是基于层的分级编码方案或格式的一部分。基于层的分级编码方案的示例包括LCEVC:MPEG-5第2部分LCEVC和VC-6:SMPTE VC-6ST-2117,前者描述于PCT/GB2020/050695(和相关联的标准文献)中,后者描述于PCT/GB2018/053552(和相关联的标准文献)中,所有这些文献通过引用并入本文。然而,本文所示的概念不必限于这些特定的分级编码方案。
图1至图7提供了不同示例性基于层的分级编码格式的概述。这些被提供作为用于经适应上采样操作的上下文,这些操作在图7之后的图中进行了说明。图1至图5提供了与SMPTE VC-6ST-2117的实现类似的示例,而图6和图7提供了与MPEG-5第2部分LCEVC的实现类似的示例。可以看出,两组示例利用共同的底层操作(例如,下采样、上采样和残差生成),并且可以共享模块化实现技术。
通用分级编码方案
图1非常一般地示出了分级编码方案。待编码的数据101由输出编码数据103的分级编码器102检索。随后,编码数据103被分级解码器104接收,该分级解码器对数据进行解码并且输出解码数据105。
通常,本文示例中使用的分级编码方案创建基础或核心层级,它是较低质量层级下的原始数据的表示,以及一个或多个残差层级,其可用于使用基础层级数据的解码版本来重建较高质量层级下的原始数据。一般来说,如本文所使用的术语“残差”指代参考阵列或参考帧的值与数据的实际阵列或帧之间的差。阵列可以是表示编码单元的一维或二维阵列。举例来说,编码单元可以是对应于输入视频帧的类似大小的区域的2x2或4x4组的残差值。
应注意,一般化示例对于输入信号的性质是不可知的。对如本文中所使用的“残差数据”的提及是指从一组残差导出的数据,例如一组残差本身或对一组残差执行的一组数据处理操作的输出。在整个本说明书中,一般来说,一组残差包含多个残差或残差要素,每一残差或残差要素对应于信号要素,即信号或原始数据的要素。
在具体示例中,数据可以是图像或视频。在这些示例中,该组残差对应于视频的图像或帧,其中每一残差与信号的像素相关联,该像素为信号要素。
本文所述的方法可以应用于反映视频信号的不同颜色分量的所谓的数据平面。举例来说,这些方法可以应用于反映不同颜色通道的YUV或RGB数据的不同平面。可并行地处理不同颜色通道。每个流的分量可以按任何逻辑次序来整理。
第一示例分级编码器和组件
现在将描述分级编码方案,其中可以部署本发明的概念。该方案在图2至图5中概念性地示出并且通常对应于上述VC-6。在此类编码技术中,残差数据被用于逐步提高质量层级。在所提出的该技术中,核心层以第一分辨率表示图像,并且分层结构中的后续层是解码侧以更高分辨率重构图像所需的残差数据或调整层。每一层或层级可以被称为梯级指数,使得残差数据是校正较低梯级指数中存在的低质量信息所需的数据。此分级技术中的每一层或梯级指数,尤其是每一残差层,通常是具有许多零值元素的相对稀疏的数据组。当提到梯级指数时,它是指该层级的所有梯级或分量组,例如,在该质量层级执行的变换步骤中产生的所有子组。
以此特定的分级方式中,所描述的数据结构消除了对先前或后续质量层级的任何要求或依赖。可以单独对质量层级进行编码和解码,而无需参考任何其他层。因此,与许多已知的其他分级编码方案相反,其中需要解码最低质量层级以便解码任何更高质量层级,所描述的方法不需要解码任何其他层。然而,下面描述的交换信息的原理也可以适用于其他分级编码方案。
如图2中所示,编码数据表示一组层或层级,这里通常称为梯级指数。基础或核心层级表示原始数据帧210,尽管处于最低质量层级或分辨率,并且随后的残差数据梯级可以与核心梯级指数下的数据组合,从而以逐渐变高的分辨率重建原始图像。
为了创建核心梯级指数,输入数据帧210可使用与要在分级编码操作中使用的多个层级或梯级指数相对应的多个下采样操作201来进行下采样。所需的下采样操作201比分级中的层级数少一个。在本文说明的所有实例中,存在输出编码数据的4个层级或梯级指数以及相应的3个下采样操作,但是当然应理解,这些仅是为了说明。其中n指示层级的数量,向下采样器的数量是n-1。核心层级R1-n是第三次下采样操作的输出。如上所述,核心层级R1-n对应于最低质量层级的输入数据帧的表示。
为了区分下采样操作201,将按照对输入数据210执行操作的顺序或通过其输出所表示的数据来引用每一个操作。例如,示例中的第三下采样操作2011-n也可称为核心下采样器,因为其输出生成核心梯级索引或梯级1-n,即,该层级处的所有梯级的索引均为1-n。因此,在该示例中,第一下采样操作201-1对应于R-1下采样器,第二下采样操作201-2对应于R-2下采样器,并且第三下采样操作2011-n对应于核心或R-3下采样器。
如图2中所示,表示核心质量层级R1-n的数据经历上采样操作2021-n,这里称为核心上采样器。第二下采样操作201-2的输出(R-2下采样器的输出,即核心下采样器的输入)和核心上采样器2021-n的输出之间的差203-2被输出作为第一残差数据R-2。此第一残差数据R-2相应地表示核心层级R-3和用于创建该层级的信号之间的误差。由于该信号本身在该示例中经历了两次下采样操作,因此第一残差数据R-2是调整层,其可用于以比核心质量层级更高、但比输入数据帧210更低的质量层级来重建原始信号。
图2和图3概念性地示出了如何创建表示更高质量层级的残差数据的变化。
在图2中,第二下采样操作201-2(或R-2下采样器,即用于创建第一残差数据R-2的信号)的输出被上采样202-2,并且第二下采样操作201-2(或R-2下采样器,即R-1下采样器的输出)的输入之间的差203-1以与创建第一残差数据R-2几乎相同的方式进行计算。此差相应地是第二残差数据R-1并且表示调整层,该调整层可以用于使用来自较低层的数据以更高的质量层级重建原始信号。
然而,在图3的变体中,第二下采样操作201-2(或R-2下采样器)的输出与第一残差数据R-2组合或相加304-2,以重新创建核心上采样器2021-n的输出。在此变体中,上采样202-2的是此重新创建的数据,而不是下采样的数据。类似地,将经下采样的数据与第二下采样操作的输入(或R-2下采样器,即R-1下采样器的输出)进行比较203-1,以创建第二残差数据R-1
图2和图3的实现方式之间的变化导致两个实现方式之间的残差数据的轻微变化。图2受益于更大的并行化潜力。
重复该过程或循环以创建第三残差R0。在图2和图3的示例中,输出残差数据R0(即,第三残差数据)对应于最高层级,并且在解码器处被用于重建输入数据帧。在该层级上,差运算基于与第一次下采样操作的输入相同的输入数据帧。
图4示出了示例编码过程401,用于对数据的层级或梯级指数中的每个进行编码,以产生一组具有梯级指数的编码数据梯级。此编码过程仅用作用于对层级中的每个进行编码的合适编码过程的示例,但是应理解,可以使用任何合适的编码过程。过程的输入是从图2或图3输出的相应层级的残差数据,并且输出是一组经编码残差数据的梯级,经编码残差数据的梯级一起分级地表示编码数据。
在第一步骤中,执行变换402。变换可以是如WO2013/171173中描述的方向分解变换。如果使用方向分解变换,则可以输出一组四个分量(也称为变换系数)。例如,2x2数据块可以被变换以生成四个分量:与数据块内的水平、垂直和对角方向近似相关的三个方向分量以及表示应用于整个数据块的聚合计算的平均值分量。当提到梯级指数时,它统称为所有方向,例如,4个梯级。例如,2x2数据块可以展平为4x1值集合,并且然后使用4x4Hadamard变换进行变换。在某些情况下,归一化因子(例如,变换中省略了1/4,因为归一化是通过量化或熵编码等其他处理隐式应用的)。因此,可以通过对数据块中的各个残差值进行求和(例如,乘以Hadamard行{1,1,1,1})来为2x2数据块生成平均值分量。可以通过减去“经预测平均值”来进一步调整平均值分量。这在EP2850829B1中有详细描述。总之,经预测平均值是较下层像素值与对应较上层上采样值集合的平均值之间的差(例如,对于来自上采样器202的每个输出2x2数据块,输入像素减去上采样像素的平均值))。由于可以在解码器处使用接收到的数据来恢复该经预测平均值,因此减去编码器处的经预测平均值并且在解码器处重新添加经预测平均值减小经变换数据块的平均值分量的大小。在后面的示例中,应用了特殊的上采样操作,该操作可以由上采样器202使用来减小平均值分量的大小,而无需显式地应用经预测平均值修改,例如其中经适应上采样操作应用避免在编码器处减去经预测平均值并且在解码器处重新相加的需要的经预测平均值修改。尽管针对2x2数据块描述了示例,但是类似的方法也可以应用于更大的数据块(例如,4x4及以上),其中这些数据块也将具有“平均值”或“平均值的平均值”分量。
返回到图4,然后在熵编码之前对变换402输出的分量组进行量化403。在此示例中,熵编码操作404被耦合到稀疏化步骤405,该稀疏化步骤利用残差数据的稀疏性来减小总的数据大小,并且涉及将数据元素映射到有序四叉树。在WO2019/111004中进一步描述了熵编码和稀疏化的此类耦合,但是此类过程的精确细节与对本发明的理解无关。每个残差阵列都可以被认为是一个梯级。
上面阐述的过程对应于适用于根据SMPTE ST 2117,VC-6多平面图片格式对用于重构的数据进行编码的编码过程。VC-6是一种灵活的、多分辨率的、仅帧内位流格式,能够压缩任何有序的整数元素网格组,网格中的每个都具有独立的大小,但也是为图片压缩而设计的。它采用数据不可知技术(data agnostic technique)进行压缩,并且能够压缩低位或高位深度的图片。位流的标头可以含有关于图片的多种元数据。
如将理解的,可以使用单独的编码器或编码操作来实现每个梯级或梯级指数。类似地,编码模块可以被分成下采样和比较的步骤,以产生残差数据,并且随后对残差进行编码,或替代地,梯级的步骤中的每个都可以在组合的编码模块中实现。因此,过程可以例如使用4个编码器来实现,每个梯级指数一个编码器,1个编码器和多个编码模块并行或串行操作,或一个编码器对不同的数据组重复操作。
第一个示例分级解码器和分量
下面给出重构原始数据帧的示例,该数据帧已经使用上述示例性过程进行了编码。此重构过程可以被称为锥体重构。有利地,该方法提供了一种用于重构在接收到的数据集中编码的图像的有效技术,该数据集可以通过数据流接收,例如,通过单独解码对应于不同图像大小或分辨率层级的不同分量组,并且将来自一个解码分量组的图像细节与来自较低分辨率分量组的比例放大的解码图像数据组合。因此,通过对两个或更多个分量组执行该过程,可以重构数字图像其中的结构或细节以获得逐渐变高的分辨率或更大数量的像素,而不需要接收到最高分辨率分量组的全部或完整图像细节。相反,该方法便于逐步添加越来越高分辨率的细节,同时以分阶段的方式从较低分辨率分量组重构图像。
此外,单独解码每个分量组便于并行处理所接收的分量组,从而在多个处理可用的实现方式中提高重构速度和效率。
每个分辨率层级对应于一个质量层级或梯级指数。这是一个集合术语,与描述所有新的输入或所接收的分量组的平面(在此示例中是整数值元素的网格表示)以及指数m循环的输出重构图像相关联。例如,梯级指数为零的重构图像是锥体重构的最后一个循环的输出。
锥体重构可以是这样一种过程:从初始梯级指数开始重构倒锥体,并且使用新残差的循环来导出更高的梯级指数,直到在梯级指数为零处的最大质量,质量为零。循环可以被认为是这种锥体重构中的一个步骤,该步骤由指数m标识。该步骤通常包括对来自可能的先前步骤的输出数据进行上采样,例如,对解码的第一分量组进行放大,并且采取新的残差数据作为进一步的输入,以便获取将在可能的后续步骤中进行上采样的输出数据。在仅接收到第一分量组和第二分量组的情况下,梯级指数的数量将是两个,并且不存在可能的后续步骤。然而,在分量组或梯级指数的数量为三个或更多个的示例中,则输出数据可以在下面的步骤中被逐步上采样。
第一分量组通常对应于初始梯级指数,该初始梯级指数可以由梯级指数1-N表示,其中N是平面中梯级指数的数量。
通常,对解码的第一分量组的放大包括对初始梯级指数的解码过程的输出应用上采样器。在示例中,这涉及使从初始梯级指数分量组的解码输出的重构图片的分辨率与对应于2-N的第二分量组的分辨率一致。通常,来自较低梯级指数分量组的比例放大的输出对应于较高梯级指数分辨率下的预测图像。由于较低分辨率的初始梯级指数图像和上采样过程,预测图像通常对应于平滑或模糊图片。
从上面的梯级指数中向该预测图片添加更高分辨率的细节,这提供了组合的重构图像集。有利地,在一个或多个较高梯级指数分量组中的接收到的分量组包括残差图像数据或指示比例放大的预测图片与原始的、未经压缩的或预编码图像之间的像素值差的数据的情况下,为了重构给定分辨率或质量的图像或数据集所需的接收到的数据量可能比使用其他技术接收相同质量图像所需的数据量或数据速率要小得多。因此,根据该方法,通过将以较低分辨率接收的低细节图像数据与以越来越高的分辨率接收的逐渐更详细的图像数据组合,降低了数据速率要求。
通常,该组编码数据包括一个或多个另外的分量组,其中该一个或多个另外的分量组中的每一者对应于比第二分量组更高的图像分辨率,并且其中该一个或多个另外的分量组中的每一者对应于逐渐变高的图像分辨率,该方法包括:针对该一个或多个另外的分量组中的每一者,对该分量组进行解码以获得解码组,该方法进一步包括:针对该一个或多个另外的分量组中的每一者,按对应图像分辨率的升序:对具有最高对应图像分辨率的重构组进行比例放大,以使重构组的对应图像分辨率增加到与另外的分量组的对应图像分辨率相等,并且将重构组与另外的分量组组合在一起以产生另外的重构组。
以此方式,该方法可能涉及获取给定分量组层级或梯级指数的重构图像输出,对该重构组进行比例放大,并且将其与上述分量组或梯级指数的解码输出组合,以产生新的、更高分辨率的重构图片。应理解,对于逐步更高的梯级指数,这可以根据所接收的组中的分量组的总数重复执行。
在典型示例中,分量组中的每一者对应于逐渐变高的图像分辨率,其中每个逐渐变高的图像分辨率对应于对应图像中四倍数量的像素。因此,通常,对应于给定分量组的图像大小四倍于对应于以下分量组(即具有比所讨论的梯级指数小一的梯级指数的分量组)的图像的大小或像素数,或者两倍于其高度并两倍于其宽度。例如,其中每个对应图像的线性大小两倍于以下图像大小的所接收的一组分量组可以便于更简单的比例放大操作。
在所示的示例中,其他的分量组的数量是两个。因此,所接收的组中的分量组的总数为四个。这对应于初始梯级指数为梯级3。
第一分量组可以对应于图像数据,并且第二分量组和任何其他分量组对应于残差图像数据。如上所述,在最低梯级指数(即第一分量组)包含正在传输的图像的低分辨率或下采样版本的情况下,该方法为给定图像大小提供了特别有利的数据速率要求降低。以此方式,在每个重构循环中,从低分辨率图像开始,对该图像进行比例放大以产生高分辨率而又平滑的版本,并且然后通过添加该比例放大的预测图像与要以该分辨率传输的实际图像之间的差来改进该图像,并且可以针对每个循环重复这种附加改进。因此,设置为高于初始梯级指数的每个分量仅需要包含残差数据,以便重新引入在将原始图像下采样到最低梯级指数时可能已经丢失的信息。
该方法提供了一种在接收到包含例如已经通过分解、量化、熵编码和稀疏化来进行压缩的数据的集合时获得图像数据的方式,该图像数据可以是残差数据。残差可以是第一图像的元素与第二图像的元素之间的差,这些元素通常位于同一位置。这种残差图像数据通常可能具有高度的稀疏性。这可以被认为对应于这样的图像:其中细节区域稀疏地分布在细节最少、可忽略或不存在的区域中。此类稀疏数据可以被描述为数据阵列,其中数据以至少二维结构(例如,网格)来组织,并且其中如此组织的大部分数据为零(逻辑上或数字上)或被认为低于某个阈值。残差数据只是一个示例。此外,元数据可能是稀疏的,并因此通过此过程在很大程度上减少了大小。发送已经稀疏化的数据允许通过省略发送此类稀疏区域,而是在解码器处的所接收的字节组内的适当位置重新引入它们,来实现所需数据速率的显著降低。
通常,熵解码、去量化和方向合成变换步骤是根据编码器或发送所接收的编码数据组的节点所限定的参数来执行的。对于每个梯级指数或分量组,这些步骤用于解码图像数据,以便得到可以按照上面公开的技术与不同梯级指数组合的组,同时允许以数据高效的方式传输每个层级的组。
还可以提供一种根据上面公开的方法来重构编码数据组的方法,其中根据上面公开的方法来执行第一分量组和第二分量组中的每一个的解码。因此,本公开的有利解码方法可以用于所接收的图像数据组中的每个分量组或梯级指数,并且相应地进行重构。
参考图5,现在描述解码示例。接收一组编码数据501,其中该组包括四个梯级指数,每个梯级指数包括四个梯级:从最高分辨率或质量层级的梯级0到初始梯级的梯级-3。梯级-3分量组携带的图像数据对应于图像数据,并且其他分量组包含该传输图像的残差数据。虽然每个层级可输出可被视为残差的数据,但初始梯级层级(即梯级-3)中的残差有效地对应于实际重构图像。在阶段503处,并行处理分量组中的每个分量,以便对该编码组进行解码。
参考初始梯级指数或核心梯级指数,对每个分量组梯级-3到梯级0执行以下解码步骤。
在步骤507处,分量组被去稀疏化。去稀疏化可以是在其他基于层的分级格式中不执行的任选步骤。在此示例中,去稀疏化导致由在每个梯级处所接收的编码字节组重建稀疏二维阵列。在二维阵列内未被接收的位置处分组的零值(由于为了减少传输的数据量而从传输的字节分组中省略了)由此过程重新填充。阵列中的非零值在重建的二维阵列中保持其正确的值和位置,去稀疏化步骤在适当的位置或其间的位置的分组重新填充传输的零值。
在步骤509处,将范围解码器应用于每个梯级的去稀疏化组,以便用像素值替换阵列内的编码符号,该范围解码器的配置参数对应于在传输之前对传输数据进行编码所使用的参数。根据图像的像素值分布的近似,所接收的组中的编码符号被替换为像素值。使用分布的近似,即图像中所有像素值的每个值的相对频率,而不是真实分布,允许减少对集合进行解码所需的数据量,因为范围解码器需要分布信息来执行该步骤。如本公开中所描述的,去稀疏化和范围解码的步骤是相互依赖的,而不是顺序的。这由流程图中的箭头形成的回路指示。
在步骤511处,值阵列被去量化。根据在传输之前用于对分解图像进行量化的参数再次执行该过程。
在去量化之后,在步骤513通过合成变换来变换该组,该合成变换包括对去量化的阵列应用逆方向分解操作。根据包括平均或经调整平均、水平、竖直和对角线运算子的运算子组,这导致方向滤波被反转,使得所得阵列是梯级-3的图像数据和梯级-2到梯级0的残差数据。由于Hadamard变换是其自身的逆变换,因此可以将公共变换矩阵应用于正向变换和逆向变换(加上任何附加的归一化,然而这可以通过量化隐式地执行)。在比较示例中,逆方向分解还可以包括在逆变换之前将解码器计算的经预测平均值添加到经调整的平均值分量。本文描述的后面的示例提供了一种跳过经预测平均值调整并且通过上采样操作隐式应用这样的调整的方式。
阶段505示出了在利用梯级分量组501中的每一个的合成变换的输出进行重构所涉及的若干循环。阶段515指示从解码器503输出的用于初始梯级的重构图像数据。在示例中,重构图片515具有64x64的分辨率。在516处,对该重构图片进行上采样,以将其组成像素数增加到四倍,从而产生具有128x128分辨率的预测图片517。在阶段520处,将预测图片517添加到来自梯级-2的解码器的输出的经解码残差518。将这两个128x128大小的图像相加产生128x128大小的重构图像,其中包含经过来自梯级-2的残差的较高分辨率细节增强的来自初始梯级的平滑图像细节。如果所需的输出分辨率是对应于梯级-2的分辨率,则可以输出或显示该所得重构图片519。在本示例中,重构图片519用于进一步循环。在步骤512处,重构图像519以与步骤516相同的方式被上采样,以产生256x256大小的预测图片524。然后在步骤528处将其与解码梯级-1输出526组合,从而产生256x256大小的重构图片527,它是用残差526的较高分辨率细节增强的预测519的比例放大版本。在530处,最后一次重复该过程,并且将重构图片527的比例放大到512x512分辨率,用于在阶段532处与梯级0残差组合。从而获得512x512的重构图片531。
在诸如EP 2850829 B1的比较实施方式中,可以计算并且添加经预测平均值作为步骤513的一部分。在其他比较实施方式中,例如WO2020/188242A1,可以在每个上采样步骤(例如,526、522和530中的一者或多者)之后添加经预测平均值作为修改器。经预测平均值的使用可以是可配置参数,使得它可以被打开和关闭并且经由比特流中的配置数据来指示。在此描述的优选示例中,通过适当地配置在步骤526、步骤522和步骤530中的一者或多者处执行上采样的上采样滤波器的系数来隐式地应用经预测平均值计算。在这种情况下,可以计算变换之后的平均值分量而不显式地应用经预测平均值修改,但是平均值分量的能量或比特内容在编码比特流内仍然减少。
第二示例分级编码器和组件
图6和图7示出了可以利用本发明原理的其他的分级编码技术。此技术是一种灵活的、适应性强的、高效的且计算成本低廉的编码格式,其将不同的视频编码格式、基础编解码器(例如,AVC、HEVC或任何其他当前或未来的编解码器)与编码数据的至少两个增强层级相组合。
编码方案的一般结构使用以基础编解码器进行编码的经下采样源信号,将第一层级的校正数据添加到基础编解码器的经解码输出以产生经校正图片,且接着将另一层级的增强数据添加到经校正图片的经上采样型式。因此,流被认为是基础流和增强流,它们可以被进一步复用或以其他方式组合以生成编码数据流。在某些情况下,基础流和增强流可以单独传输。如本文描述的,对编码数据的引用可以指增强流或基础流和增强流的组合。基础流可以由硬件解码器解码,而增强流可以适用于具有适当功耗的软件处理实现。此通用编码结构创建了多个自由度,这些自由度允许对许多情况的极大灵活性和适应性,从而使得编码格式适用于许多用例,包括OTT传输、直播流、直播超高清UHD广播,等等。尽管基础编解码器的经解码输出并非意图用于检视,但其为较低分辨率下的完全经解码视频,从而使得输出与现有解码器兼容,并且在认为合适的情况下也可用作较低分辨率输出。
在某些示例中,可以使用一组网络抽象层单元(NALU)将每个或两个增强流封装到一个或多个增强位流中。NALU意图囊封增强位流以便将增强应用于正确的基础重构帧。NALU可例如含有到NALU的参考索引,其含有增强必须应用于的基础解码器经重构帧位流。以此方式,增强可同步到基础流和组合的每一位流的帧以产生经解码输出视频(即,增强层级的每一帧的残差与基础解码流的帧组合)。图片的群组可表示多个NALU。
返回到上文所描述的初始过程,其中基础流连同增强流内的两个层级(或子层级)的增强一起提供,一般化编码过程的示例描绘于图6的框图中。处理初始分辨率下的输入视频600以生成各种编码流601、602、603。通过向基础编解码器(例如,AVC、HEVC或任何其他编解码器)馈送输入视频的下采样型式来产生第一编码流(经编码基础流)。经编码基础流可被称为基础层或基础层级。通过处理通过取经重构基础编解码器视频与输入视频的下采样型式之间的差而获得的残差来产生第二编码流(经编码层级1流)。通过处理通过取经重构基础编码视频的经校正型式的上采样型式与输入视频之间的差而获得的残差来产生第三编码流(经编码层级2流)。在某些情况下,图6的组件可提供一般低复杂性编码器。在某些情况下,可通过形成低复杂性编码器的一部分的编码过程来生成增强流,且低复杂性编码器可被配置成控制独立的基础编码器和解码器(例如,封装为基础编解码器)。在其他情况下,基础编码器和解码器可供应为低复杂性编码器的一部分。在一种情况下,图6的低复杂性编码器可被视为用于基础编解码器的一种形式的封套(wrapper),其中基础编解码器的功能性可对于实施低复杂性编码器的实体隐藏。
通过下采样组件105说明的下采样操作可以应用于输入视频以产生将由基础编解码器的基础编码器613编码的下采样视频。下采样可在竖直和水平两个方向上进行,或替代地仅在水平方向上进行。基础编码器613和基础解码器614可以由基础编解码器实现(例如,作为公共编解码器的不同功能)。基础编解码器和/或基础编码器613和基础解码器614中的一者或多者可以包括适当配置的电子电路系统(例如,硬件编码器/解码器)和/或由处理器执行的计算机程序代码。
每个增强流编码过程可能不一定包含上采样步骤。例如,在图6中,第一增强流在概念上是校正流,而第二增强流被上采样以提供增强层级。
更详细地参见生成增强流的过程,为了生成经编码层级1流,经编码基础流由基础解码器614解码(即,解码操作应用于经编码基础流以生成解码的基础流)。解码可由基础编解码器的解码功能或模式执行。接着在层级1比较器610处创建经解码基础流与下采样的输入视频之间的差(即,减法运算应用于下采样的输入视频和经解码基础流以生成第一组残差)。比较器610的输出可被称为第一组残差,例如残差数据的表面或帧,其中在基础编码器613、基础解码器614和下采样块605的输出的分辨率下针对每个图像元素确定残差值。
该差接着由第一编码器615(即,层级1编码器)编码以生成经编码层级1流602(即,将编码操作应用于第一组残差以生成第一增强流)。
如上所述,增强流可包括第一增强层级602和第二增强层级603。第一增强层级602可被视为经校正流,例如以比输入视频600低的分辨率向基础经编码/经解码视频信号提供校正层级的流。第二增强层级603可被视为将经校正流转换为原始输入视频600的另一增强层级,例如其将增强层级或校正应用于从经校正流重构的信号。
在图6的示例中,通过对另一组残差进行编码来创建第二增强层级603。另一组残差由层级2比较器619生成。层级2比较器619确定解码层级1流的上采样版本(例如上采样组件617的输出)与输入视频600之间的差。上采样组件617的输入是通过将第一解码器(即层级1解码器)应用于第一编码器615的输出而生成的。这生成一组解码的层级1残差。这些残差接着在求和组件620处与基础解码器614的输出组合。这有效地将层级1残差应用于基础解码器614的输出。其允许层级1编码和解码过程中的损失由层级2残差校正。求和组件620的输出可被视为表示对解码器处的经编码基础流601和经编码层级1流602应用层级1处理的输出的模拟信号。
如前所述,将上采样流与输入视频进行比较,这会产生另一组残差(即,对上采样重建流应用差运算以生成另一组残差)。另一组残差接着由第二编码器621(即,层级2编码器)编码为编码的层级2增强流(即,编码操作接着应用于另一组残差以生成另一编码的增强流)。
因此,如图6中所示出和上文所描述,编码过程的输出为基础流601和一个或多个增强流602、603,该一个或多个增强流优选地包括第一增强层级和另一增强层级。三个流601、602和603可在具有或不具有例如控制标头等额外信息的情况下组合以生成用于表示输入视频600的视频编码框架结构的组合流。应注意,图6中展示的组件可对数据的块或编码单元进行操作,该块或编码单元例如对应于在特定分辨率水平下的帧的2x2或4x4部分。该组件在无任何块间相依性的情况下操作,因此其可并行地应用于帧内的多个块或编码单元。这不同于对比的视频编码方案,在对比的视频编码方案中,块之间存在相依性(例如空间相依性或时间相依性)。对比的视频编码方案的相依性限制并行水平且需要高得多的复杂性。
第二示例分级解码器和组件
在图7的框图中描绘相应的一般化解码过程。据称,图7可展示对应于图6的低复杂性编码器的低复杂性解码器。低复杂性解码器接收由低复杂性编码器生成的三个流601、602、603连同含有另外的解码信息的标头704。经编码基础流601由对应于在低复杂性编码器中使用的基础编解码器的基础解码器710解码。经编码层级1流602由第一解码器711(即,层级1解码器)接收,该第一解码器对如由图1的第一编码器615编码的第一组残差进行解码。在第一求和组件712处,将基础解码器710的输出与从第一解码器711获取的经解码残差组合。通过上采样组件713对可称为层级1经重构视频信号的组合视频进行上采样。经编码层级2流103由第二解码器714(即,层级2解码器)接收。第二解码器714对如由图1的第二编码器621编码的第二组残差进行解码。尽管标头704在图7中展示为由第二解码器714使用,但其也可由第一解码器711以及基础解码器710使用。第二解码器714的输出是第二组经解码残差。这些可处于比第一组残差和到上采样组件713的输入更高的分辨率。在第二求和组件715处,将来自第二解码器714的第二组残差与上采样组件713的输出(即经上采样的重构层级1信号)组合以重构经解码视频750。
按照低复杂性编码器,图7的低复杂性解码器可在视频信号的给定帧的不同块或编码单元上并行地操作。另外,可并行地执行由基础解码器710、第一解码器711和第二解码器714中的两者或更多者进行的解码。这是可能的,因为不存在块间相依性。
在解码过程中,解码器可解析标头704(其可含有全局配置信息、图片或帧配置信息和数据块配置信息)且基于那些标头而配置低复杂性解码器。为了重新创建输入视频,低复杂性解码器可对基础流、第一增强流和另一或第二增强流中的每一者进行解码。该流的各帧可经同步且接着组合以导出经解码视频750。取决于低复杂性编码器和解码器的配置,经解码视频750可为原始输入视频100的有损或无损重构。在许多情况下,经解码视频750可为原始输入视频600的有损重构,其中该损失对经解码视频750的感知具有减小的影响或最小影响。
在图6和图7的每一个中,层级2和层级1编码操作可以包含变换、量化和熵编码的步骤(例如,以该顺序)。这些步骤可以以类似于图4和图5中示出的操作的方式实现。编码操作还可以包含残差分级、加权和滤波。类似地,在解码阶段,可将残差传递通过熵解码器、解量化器和逆变换模块(例如,按该次序)。可使用任何合适的编码和相应的解码操作。然而,优选地,层级2和层级1编码步骤可在软件中执行(例如,如由编码装置中的一个或多个中央或图形处理单元执行)。
在本文描述的示例中,变换是方向分解变换,例如基于Hadamard的变换。这可以涉及将小内核或矩阵应用于残差的展平编码单元(即2x2或4x4残差块)。关于变换的更多细节可例如查阅以引用的方式并入本文中的专利申请WO2020188273 A1或WO2018046941A1。编码器可在待使用的不同变换之间选择,例如在待应用的内核的大小之间选择。
该变换可将残差信息变换到四个表面。举例来说,该变换可产生以下分量或变换系数:平均、竖直、水平和对角。特定表面可以包括特定分量的所有值,例如第一表面可以包括所有平均值,第二表面可以包括所有竖直值,等等。如在本公开中较早提及,这些由变换输出的分量可以被视为待量化的数据。该变换可以包括如上所述的Hadamard变换。在比较例中,可以使用经预测平均值来调整平均值分量;在本示例中,没有显式地应用经预测平均值调整,而是使用经调整的上采样滤波器来隐式地应用经预测平均值调整。因此,在稍后描述的示例中,无需额外的经预测平均值计算就提供了经预测平均值的益处(例如,就好像经预测平均值模式关闭一样)。量化方案可用于将残差信号创建为量,使得特定变量可采用仅特定离散量值。在此示例中,熵编码可以包括游程编码(RLE),然后使用霍夫曼编码器处理编码输出。在某些情况下,当需要熵编码时,可使用这些方案中的仅一个。
综上所述,本文中的方法和设备基于一种总体方法,其经由现有编码和/或解码算法(例如MPEG标准,诸如AVC/H.264、HEVC/H.265等;以及非标准算法,诸如VP9、AV1等)构建,该现有编码和/或解码算法用作相应地用于不同编码和/或解码方法的增强层的基线。示例的总体方法背后的想法是以阶层方式对视频帧进行编码/解码,与使用MPEG系列算法中所使用的基于块的方法形成对比。以阶层方式对帧进行编码包含针对全帧生成残差,且接着针对抽取帧生成残差,等等。
如上所述,由于不存在块间相依性,因此可以将这些过程并行应用于帧的颜色分量的编码单元或块。一组颜色分量内的每个颜色分量的编码也可以并行执行(例如,使得根据(帧数)*(颜色分量数)*(每帧编码单元数)重复操作)。还应注意,不同颜色分量可具有每帧不同数量个编码单元,例如可在人类视觉可检测到照度改变大于颜色改变时在比一组色度(例如,U或V)分量高的分辨率下处理亮度(例如,Y)分量。
因此,如上文所示出且描述,解码过程的输出是(任选的)基础重构,以及在较高层级处的原始信号重构。此示例尤其非常适合于在不同帧分辨率下创建经编码和经解码视频。举例来说,输入信号30可以是包括1920x 1080分辨率下的帧的HD视频信号。在某些情况下,基础重构和层级2重构两者可由显示装置使用。举例来说,在网络业务的情况下,层级2流可能比层级1流和基础流受到更多干扰(因为它可能包含高达4倍的数据量,其中下采样在每个方向上将尺寸除以2)。在这种情况下,当业务发生时,显示装置可恢复显示基础重构,而层级2流被中断(例如,当层级2重构不可用时),且接着当网络条件改进时恢复显示层级2重构。当解码装置遭受资源约束时可应用类似方法,例如执行系统更新的机顶盒可具有操作基础解码器220以输出基础重构,但可不具有处理容量来计算层级2重构。
该编码布置还使得视频分配器能够将视频分配到一组异构装置;仅具有基础解码器720的那些装置检视基础重构,而具有增强层级的那些装置可检视较高质量层级2重构。在对比案例中,需要单独分辨率下的两个完整视频流来服务于两组装置。由于层级2和层级1增强流对残差数据进行编码,可更有效地对层级2和层级1增强流进行编码,例如残差数据的分布通常大部分质量都在0左右(即,不存在差)且通常采取约0的小范围值。量化之后的情况尤其如此。相比而言,不同分辨率下的完整视频流将具有非零均值或中值的不同分布,该值需要较高位速率以供传输到解码器。
在本文中所描述的实例中,残差由编码管道进行编码。这可包含变换、量化和熵编码操作。其还可包含残差分级、加权和滤波。随后将残差传输到解码器,例如作为L-1和L-2增强流,该增强流可与基础流组合作为混合流(或单独传输)。在一种情况下,设定用于包括基础流和两个增强流的混合数据流的位速率,且接着基于正处理的数据将不同自适应位速率应用于个别流以满足设定的位速率(例如,以低假影水平所感知的高质量视频可通过自适应地将位速率指派给不同个别流(即使在逐帧层级处)而构造,以使得经约束数据可由感知上最有影响的个别流使用,该个别流可随着图像数据改变而改变)。
如本文中所描述的残差的组可被视为稀疏数据,例如在许多情况下对于给定像素或区域不存在差,且所得残差值为零。当查看残差的分布时,将许多概率质量分配到接近零定位的小残差值,例如对于-2、-1、0、1、2等的某些视频值发生得最频繁。在某些情况下,残差值的分布关于0对称或近似对称。在某些测试视频情况下,发现残差值的分布关于0呈类似于对数或指数分布的形状(例如,对称地或近似对称地)。残差值的准确分布可取决于输入视频流的内容。
残差可自身被处理为二维图像,例如差的差量图像(delta image)。以此方式,可以看到数据的稀疏性涉及在残差图像中可见的比如“点”、小“线”、“边缘”、“拐角”等特征。已发现这些特征通常不完全相关(例如,在空间上和/或在时间上)。该特征具有不同于其来源于的图像数据的特性(例如,原始视频信号的像素特性)的特性。
由于残差的特性不同于所述残差来源于的图像数据的特性,因此通常不可能应用标准编码方法,例如诸如传统动态图片专家组(MPEG)编码和解码标准中发现的那些方法。举例来说,许多对比方案使用较大变换(例如正常视频帧中的较大像素区域的变换)。归因于例如如上文所描述的残差的特性,对残差图像使用这些对比的大变换将是极低效的。举例来说,使用经设计用于正常图像的区域的大块对残差图像中的小点进行编码将是非常困难的。
本文中所描述的某些示例通过代替地使用较小和简单的变换内核(例如,如本文中所呈现的2x2或4x4内核——定向分解和定向分解平方)来解决这些问题。可使用Hadamard矩阵(例如,用于展平2x2编码块的4x4矩阵,或用于展平4x4编码块的16x16矩阵)来应用本文中所描述的变换。这在与对比的视频编码方法不同的方向上移动。将这些新方法应用于残差块会生成压缩效率。举例来说,某些变换生成可以有效压缩的不相关的变换系数(例如在空间中)。虽然可以利用变换系数之间的相关性,例如针对残差图像中的线条,这些可能会导致编码复杂度,这很难在传统和低资源装置上实现,并且经常会生成需要校正的其他复杂伪影。通过将某些残差值设定为0(即,不转发这些残差值以供处理)来预处理残差可提供可控制且灵活的方式来管理位速率和流带宽,以及资源使用。
与下采样增强相关的示例
本发明涉及上采样滤波器的实现。例如,本文描述的方法可以被使用在图1至图7中的上采样器202、522、526、530、617和713中的一个或多个上采样器的实现中。
经适应上采样滤波器
图8示出了应用根据本发明配置的上采样滤波器的示例方法。在框805处,第一分辨率的输入视频帧被获取。这可以是在上述分级或基于层的配置中的较低层级或层处的重构帧(例如,图5中的数据515、520或528、图6中的求和620的输出、或图7中的求和712的输出)。在框810处,上采样滤波器被应用以输出第二分辨率815的上采样帧。这可以包括图5中的数据517或数据534、图6中的残差计算619的输入或图7中的重建求和715的输入。
在本示例中,上采样滤波器配置成应用经预测平均值修改器。该经预测平均值修改器可以包括WO2020/188242A1中描述的修改器或EP 2850829 B1中描述的“预测平均值”值。在比较示例中,经预测平均值修改器被导出为上采样滤波器的应用之后的第二分辨率的像素的数据块的平均值与上采样滤波器的应用之前的第一分辨率的对应像素值之间的差。例如,对于2倍上采样,值平面中的一组输入像素中的每一个所输入像素都可以被上采样为对应的2x2值块(在某些情况下,边缘情况会被不同地处理,例如使用填充或裁剪)。经预测平均值修改器修改(例如,减少)作为上采样之后的第二分辨率的视频帧与用于导出用于上采样的输入视频帧的第二分辨率的原始视频帧之间的差导出的残差的数据块的平均值。例如,残差平面在图6中的层级2比较器619处生成或作为图2和图3中的差值203中的一个差生成。在这个残差平面内,像素值可以被分组为nxn数据块以形成编码单元,其中n通常为2或4。这些nxn残差数据块将在上采样帧内具有对应的nxn数据块,例如,由层级2比较器619输出的64x64残差平面将具有32x32个2x2残差数据块,这些残差数据块由输入视频600中的32x32个对应的2x2数据块和上采样617的输出生成。在图6中的层级2编码621或图4中的梯级编码401期间,残差的每个nxn数据块被变换以产生一组n2个方向分量,其中这些方向分量中的方向分量是通过求和计算出的平均值分量数据块中的值。在比较例中,例如如EP 2850829B1中所描述的,经预测平均值修改器可以被计算为上采样滤波器的应用之后的第二分辨率的像素的数据块的平均值与上采样滤波器的应用之前的第一分辨率的对应像素值之间的差值,并且然后从数据块中的残差值的平均值中减去该差。然而,通过优化上采样滤波器的系数,在上采样滤波器的应用之后的第二分辨率的像素的数据块的平均值可以接近(例如,在量化范围内)或等于第一分辨率的对应像素值使得经预测平均值修改器为零,这相当于隐式应用经预测平均值。
在本文描述的某些示例中,提供了可分离上采样滤波器,其中一组可分离滤波器系数配置成最小化残差数据块的平均值与残差数据块的经预测平均值之间的差。这里,残差数据块被导出为上采样之后的第二分辨率的视频帧与用于导出用于上采样的输入视频帧的第二分辨率的原始视频帧之间的差。因此,滤波器通过改变上采样滤波器系数(以产生“经预测平均值保留滤波器”)在上采样过程中隐式地应用预测平均值,其中经预测平均值表示上采样之后的第二分辨率的像素的数据块的平均值与上采样之前的第一分辨率的对应像素值之间的差,比较示例中的经预测平均值在编码期间以“经预测平均值模式”从每个数据块中减去,并在解码期间以“经预测平均值模式”加到每个数据块中。因此,示例中的经适应上采样滤波器提供了这种“经预测平均值模式”,但除了上采样操作之外没有明确的计算。或者换句话说,通过上采样将经预测平均值配置为具有0的值,从而避免需要明确地从数据块中减去(在编码器处)或加上(在解码器处)经预测平均值。
示例可分离滤波器
图9A和图9B示出了示例可分离滤波器,其可以配置成应用本文所述的经预测平均值。在图9A和图9B的示例中,示出了五系数可分离滤波器。可分离滤波器的概念在本领域中是已知的:可分离滤波器是信号的多个维度(例如视频帧的平面的两个空间维度)由相应的低维滤波器(例如两个一维滤波器)串联滤波的滤波器,其中每个滤波器应用于不同的方向。在这种情况下,有两个一维滤波器,每个滤波器具有五个系数(即,5抽头滤波器)。
图9A示出了用于待上采样的一个较低分辨率像素值–d22的感受野905。感受野905是围绕较低分辨率像素的5x5区域并且可以被表示为5行像素值910或5x5网格915。感受野的大小为5x5,因为两个1D五系数滤波器有效地执行5x5 2D滤波。图9A还示出了示例可分离滤波器920的定义,其包括第一滤波器922和第二滤波器924,滤波器系数被示为926和928。在该示例中,执行两倍上采样,使得应用于感受野D 905的滤波器F 920导致四个输出像素,如V 930所示。图9B示出了如何从涉及数据行910以及第一和第二滤波器922、924的计算导出四个输出像素中的每一个像素。四个输出像素930的2x2网格因此可以被计算为:V=FTDTF,其中F=[F0,F1]并且D是感受野。类似的计算可以应用于不同长度的可分离滤波器,例如对于三系数滤波器,感受野是以当前像素为中心的3x3网格;或者对于四系数滤波器,感受野是4x4网格,上采样的像素位于四个中心像素中的一个中心像素(例如,如设计滤波器时所定义)。
使用上述框架,nxn数据块的平均值分量可以计算为:
其中I是输入帧的nxn数据块(例如,210或600),并且vi是V的元素,即,剩余平均值可以被计算为输入帧数据块的平均值减去经上采样数据块的平均值。
在上述示例中,输入信号被下采样并且然后被上采样以生成V。例如,在图2和图3中的201处以及图6中的605处的编码器处应用下采样。输入信号的下采样生成感受野D的数据,其中该数据可以是在基础编码和解码之后重建的较低分辨率信号,如图6的示例所示。如果我们将d作为上采样以生成V的像素值,我们可以定义在经下采样的输入帧中找到的该像素与重建像素值d之间的差
其中V(...)是对从输入帧I导出的数据块进行下采样的函数。现在,如果下采样函数是平均值下采样器并且我们可以将A定义为:
并且由于解码器可以访问d和我们可以将经调整的平均值分量定义为:
其中经预测平均值定义为:
在比较编码器中,因此在编码器处计算经预测平均值PA并且从平均值A中减去经预测平均值PA,使得对于每个数据块,较小的被编码以代替A。然而,如果上采样滤波器配置为使得经预测平均值PA为零,即则这与将经预测平均值修改隐式应用为相同。因此,在本示例中,上采样滤波器配置成使得:
对于2x2数据块,这意味着滤波器系数的配置如下:
v0+v1+v2+v3=4d
在如图9A和图9B所示的五系数滤波器中,当所有数据值dmn m,nε[0,1,2,3,4]抵消而留下中心值d22时,满足以上等式。例如,图9C示出了示例942,其中图9B中的上采样像素值vi 940的表达式中的D0项被扩展。在这种情况下,每组项(诸如组944)可以被限制为总和为零。据此,一组等式950可以被定义使得项抵消(即,列或组944总和为零)。这可以然后利用如图9C所示的一组等式960从D0情况扩展到一般Dn情况,其中n≠2。一组等式960的非平凡解是当n≠2时fn0+fn1=0的情况。对于n=2的情况,除了第三中心等式之外的所有等式都可以设置为960所示;则第三中心等式可以表述为:
f20(f20+f21)+f21(f20+f21)=4
求解f20和f21,得出f20+f21=±2。这表明五系数经预测平均值保留可分离滤波器的一般解为:
因此,具有上述形式的可分离滤波器将满足上采样数据块的平均值等于被上采样的较低分辨率值的约束。
上述解允许现有的非经预测平均值保留滤波器被适配为提供经预测平均值保留滤波器。例如,可分离五系数非经预测平均值保留三次上采样器可以定义为:
为了调整该滤波器以隐式地提供经预测平均值计算,可以调整系数以确认上面所示的一般形式。因此,上面显示的系数修改如下:
尽管上述解提供了经预测平均值保留滤波器(即,隐式应用经预测平均值计算的滤波器),但上述滤波器是五系数(五抽头)滤波器。在某些视频解码器中,例如机顶盒和传统装置,上采样滤波器可用的资源存在限制。特别地,该限制可以与可用的滤波器系数的数量有关。例如,某些视频处理装置仅限于四系数滤波器,例如由于硬件限制。
某些视频编码标准(诸如LCEVC)还指定上采样滤波器的滤波器组包含符合特定定义模式的系数,即仅限于某些形式的滤波器系数。在LCEVC中,特定上采样滤波器的一组滤波器系数被指定为以下形式:
F=[-a,b,…,y,-z]
即第一个和最后一个系数必须为负。这种形式的“镜像内核”可以避免必须在比特流中发送负值(例如,a和z作为正系数在比特流中发送,并且然后在解码器处自动设置为其负对应项,相当于a*-1和z*-1),这可以改进压缩并且降低复杂性,同时允许系数变化的经适应滤波器。还可能存在这样的约束:除了第一个和最后一个系数之外的系数值为正。在上述五系数经预测平均值保留可分离滤波器的一般解中,满足此规范的一种实现将具有f0=-f0=0和f4=-f4=0。然而,这实质上将五系数滤波器减少为三系数滤波器,同时保留五系数滤波器的实现复杂性。
考虑到适用于某些实现的这些附加约束,还期望具有对经预测平均值保留(可分离)滤波器的近似,该滤波器具有四个系数并且具有针对每个滤波器组中的第一个和最后一个滤波器系数的负值。
转到四系数滤波器,这可以被指定为具有以下一般形式:
该四系数滤波器也可以被指定为五系数滤波器,其中每个滤波器相位的一个系数被设置为0,即:
考虑到这一点并回顾用于经预测平均值应用滤波器的解中的一个解,存在以下限制:
n≠2时fn0+fn1=0
f20+f21=±2
回到指定为五系数滤波器的四系数滤波器,这些约束的一种解是针对a=-c和b=±1以及针对d=0。这表明四系数经预测平均值应用滤波器的一般形式可以写为:
比较这种形式和上面的五系数FPA规范,这表明保留或应用经预测平均值的原始四系数滤波器的近似值可以定义为:
因此,上述公式可用于将非经预测平均值应用滤波器F转换为经预测平均值应用滤波器F'或FPA
图10示出了四系数非经预测平均值应用滤波器集合F 1005及其对应物F'1010的示例1000,这些滤波器根据上述规范配置成隐式应用经预测平均值计算。根据上面的推导,现有的四系数或五系数上采样滤波器因此可以适用于产生应用上采样滤波器的经预测平均值(有时称为经预测残差)。应用经预测平均值的滤波器近似于原始滤波器的滤波以及应用经预测平均值。在这些情况下,经预测平均值应用滤波器是如果应用经预测平均值的滤波器,例如在EP 2850829 B1中描述的逆变换之前或如WO2020/188242A1中描述的后上采样修改器之前,经预测平均值(即任何修改器)将为零。因此,上采样器的作用就好像应用了经预测平均值,而没有明确进行经预测平均值校正。这种情况是因为上采样器配置成将经上采样的像素数据块的平均值限制为上采样之前的对应像素值。本方法允许任何自定义过滤器内核轻松转换为经预测平均值应用过滤器,例如通过应用上面所示的转换。通过使用自定义经预测平均值应用过滤器,可以在LCEVC或VC-6配置中禁用经预测平均值计算,但仍将应用经预测平均值计算(即使启用了经预测平均值计算,也不会产生任何影响,因为经预测平均值修改器在每种情况下都将为零)。
无论在何处执行处理,通过配置上采样器隐式执行经预测平均值计算都可以带来好处。例如,它可以通过减少需要执行的操作数量来加快图形处理单元(GPU)和中央处理单元(CPU)上的处理速度(例如,无论如何在所有编码和解码过程中都会执行上采样,并且当前方法不会增加使用的系数数量或上采样计算的数量)。通过减少为每个数据块执行的操作数量,还可以节省移动装置上消耗的电池电量(例如,在测试中观察到节省了大约5%的电池消耗)。
训练经适应上采样滤波器
在某些情况下,如上所述,可以基于多个约束来选择一组上采样系数(例如,用于可分离上采样滤波器的上采样系数),以隐式应用经预测平均值计算。在其他情况下,也可以训练或优化应用经预测平均值的经适应上采样滤波器的系数。图11示出了如何实现这一点的一个示例配置。例如,上采样器可以实现为神经网络上采样器,例如卷积神经网络。
图11示出了训练设置1100,其中可以训练可训练的经预测平均值应用上采样器1105以模拟现有的非预测平均值应用上采样器1110的操作。可训练上采样器1105可以是任何线性或非线性上采样滤波器,包括可分离和不可分离滤波器。可训练上采样器1105可以被实现为具有一个或多个滤波器的卷积神经网络,每个滤波器具有一组可训练滤波器参数。现有的上采样器1110可以是任何已知的上采样滤波器,同样包括线性和非线性滤波器,并且可以是可分离的或不可分离的。在一种情况下,现有的上采样器1110可以包括上述(非经预测平均值应用)五系数和四系数滤波器形式的已知n系数可分离滤波器。在其他情况下,现有的上采样器1110可以包括经过训练的神经网络采样器。在这种情况下,现有的上采样器1110可能已经被预先训练为对经下采样的序列进行上采样,以便在上采样的分辨率下尽可能接近地匹配原始输入的地面实况序列。当训练时,现有上采样器1110的任何可训练系数被固定或冻结——这些系数不被训练或更新。相反,训练的目的是配置可训练上采样器1105的可训练系数。
在训练设置1100中,获得基准真值视频序列1120。基准真值序列1120可以是视频序列的一组帧(例如,亮度和色度平面中的一个或多个)。视频序列可以被选择为具有广泛的视频特征,以便提供鲁棒的训练(例如,具有各种纹理的静态和动态场景)。在训练设置1100中,下采样器1125用于对视频帧的基准真值序列1120进行下采样以获得经下采样的视频帧序列1130。这可以逐帧或分批执行。然后,经下采样的视频帧序列1130被传递到可训练上采样器1105和现有上采样器1110中的每一个用于上采样。现有上采样器1110使用具有一组固定系数的上采样滤波器对经下采样的视频帧序列1130进行上采样,以生成第一经上采样序列。此后,应用经预测平均值修改器1135。例如,经预测平均值修改器1135可以被计算为上采样数据块与输入下采样元素的元素值之间的差,例如,如WO2020/188242A1中所述。在框1135处用经预测平均值进行修改之后,获得经修改的第一经上采样序列1140。同样,该序列可以逐帧或批量生成。
与由现有上采样器1110和经预测平均值修改器1135执行的上采样和修改并行,可训练上采样器1105在前向传递或推理模式中也对经下采样的视频帧序列1130进行上采样以生成第二经上采样序列1145。然后,作为损失计算1160的一部分,将经修改的第一经上采样视频帧序列1140和第二经上采样视频帧序列1145进行比较以确定可训练上采样器1105的更新。例如,可训练上采样器1105的系数值可以使用梯度下降(以已知的形式,诸如使用随机梯度下降)和反向传播来更新。作为训练的一部分,可训练上采样器1105的可训练系数被优化,以便最小化视频帧1140、1145的两个序列之间的差异(即,损失)。可训练上采样器1105因此学习模仿现有上采样1110和经预测平均值修改器1135的动作,即被训练为应用经预测平均值的上采样器。在图11所示的训练设置1100中,可训练上采样器1105因此被优化以重构基准真值序列1120的有损版本,该基准真值序列本身已被下采样、上采样并且应用了经预测平均值。
如本文所描述的适应的上采样滤波器可以被实现为硬件和/或软件滤波器。例如,定制系数可以被加载到诸如机顶盒或嵌入式装置之类的装置中存在的特定于应用的上采样器滤波器组中(例如,通过固件更新等)。在诸如个人计算机和移动装置之类的装置中,可以使用计算机程序代码来执行过滤。在这种情况下,存储器可以存储如此处所述的一组滤波系数,诸如一组可分离滤波系数,其包括用于在第一方向上滤波的第一组滤波系数和用于在第二方向上滤波的第二组滤波系数,并且处理器(诸如CPU和/或GPU)可以应用该组滤波系数来将输入视频帧从第一分辨率上采样到第二分辨率,第二分辨率高于第一分辨率。
使用如上所述的经预测平均值应用滤波器的一个好处是,无论是根据上述规范配置的还是如图11所示优化的,其优点在于,即使当解码装置的硬件限制阻止显式地执行经预测平均值计算时,也可以获得经预测平均值计算的优点。例如,某些传统装置(例如机顶盒)具有有限数量的可能解码配置,并且虽然这些装置可能能够支持自定义上采样滤波器系数和LCEVC解码管道,但它们可能无法支持经预测平均值计算(例如,在逆变换之前应用或作为在上采样之后添加的修改器)。因此,本示例允许在这些情况下应用经预测平均值。
上述示例应理解为说明性的。对进一步的示例作了设想。应当理解,关于任何一个示例描述的任何特征可单独使用,或与描述的其他特征结合使用,且还可与任何其他示例的一个或多个特征结合使用,或与任何其他示例的任何组合结合使用。此外,在不脱离由所附权利要求限定的本发明的范围的情况下,也可以采用上文本没有描述的等同物和修改。

Claims (21)

1.一种解码图像数据的方法,所述方法包括:
接收第一分辨率的第一图像数据,所述第一图像数据与视频帧相关联;
上采样所述第一图像数据以产生用于第二分辨率的所述视频帧的第二图像数据,所述第二分辨率高于所述第一分辨率;
接收所述第二分辨率的经编码残差数据,所述编码残差数据包括多个经编码数据块,经编码数据块包括一个或多个方向分量以及从所述经编码数据块内的所述残差数据的平均值导出的至少一个分量;
将逆方向分解应用于所述经编码残差数据的数据块以导出经解码残差数据;以及
将所述经解码残差数据与所述第二图像数据组合以生成用于所述第二分辨率的所述视频帧的输出,
其中从所述经编码数据块内的所述残差数据的平均值导出的所述至少一个分量被计算为使用经预测平均值调整的未经编码残差数据的数据块的平均值分量,所述经预测平均值是从所述第一图像数据中的像素值和所述第二图像数据内的像素的对应数据块的平均值导出的,所述对应数据块是从所述第一图像数据中的所述像素值的上采样导出的,并且
其中所述上采样包括应用被选择为将所述第二图像数据中的像素的所述数据块的所述平均值约束到所述第一图像数据中的所述对应像素值的一组上采样系数,以便在所述上采样期间应用所述经预测平均值。
2.根据权利要求1所述的方法,其中所述上采样包括应用具有针对所述两个图像维度中的每一个图像维度的少于五个系数的可分离滤波器。
3.根据权利要求2所述的方法,其中所述一组上采样系数具有以下形式:
4.根据权利要求3所述的方法,其中对于具有以下形式的可分离上采样滤波器:
所述一组上采样系数被确定为:
5.根据权利要求1所述的方法,其中所述上采样包括应用具有针对所述两个图像维度中的每一个图像维度的五个系数的可分离滤波器。
6.根据权利要求5所述的方法,其中所述一组上采样系数具有以下形式:
7.根据权利要求6所述的方法,其中对于具有以下形式的可分离上采样滤波器:
所述一组上采样系数被确定为:
8.根据前述权利要求中任一项所述的方法,其中解码图像数据的所述方法应用低复杂度增强视频编码(LCEVC)或SMPTE VC-6 2117中的一者。
9.根据前述权利要求中任一项所述的方法,其中所述一组系数根据具有一组所应用约束的训练过程来确定。
10.一种编码图像数据的方法,所述方法包括:
接收第一分辨率的第一图像数据,所述第一图像数据与原始视频帧相关联;
上采样所述第一图像数据以产生用于第二分辨率的所述视频帧的第二图像数据,所述第二分辨率高于所述第一分辨率;
生成所述第二分辨率的残差数据作为所述第二图像数据与所述原始视频帧之间的差,所述残差数据包括多个数据块;以及
变换所述多个数据块以生成多个经编码数据块,经编码数据块包括一个或多个方向分量以及从正被编码的所述数据块内的所述残差数据的平均值导出的至少一个分量,
其中所述上采样包括应用被选择为将所述第二图像数据中的像素的数据块的平均值约束到所述第一图像数据中的对应像素值的一组上采样系数,
其中所述上采样修改所述第二图像数据以调整经编码数据块内的所述残差数据的所述平均值,所述平均值是使用经预测平均值调整的,所述经预测平均值表示所述第二图像中的像素的所述数据块的所述平均值与所述第一图像数据中的所述对应像素值之间的差。
11.根据权利要求10所述的方法,其中所述上采样包括应用具有针对所述两个图像维度中的每一个图像维度的少于五个系数的可分离滤波器。
12.根据权利要求11所述的方法,其中所述一组上采样系数具有以下形式:
13.根据权利要求12所述的方法,其中对于具有以下形式的可分离上采样滤波器:
所述一组上采样系数被确定为:
14.根据权利要求10所述的方法,其中所述上采样包括应用具有针对所述两个图像维度中的每一个图像维度的五个系数的可分离滤波器。
15.根据权利要求14所述的方法,其中所述一组上采样系数具有以下形式:
16.根据权利要求15所述的方法,其中对于具有以下形式的可分离上采样滤波器:
所述一组上采样系数被确定为:
17.根据权利要求10至16中任一项所述的方法,其中编码图像数据的所述方法应用低复杂度增强视频编码(LCEVC)或SMPTE VC-6 2117中的一者。
18.根据权利要求10至17中任一项所述的方法,其中所述一组系数根据具有一组所应用约束的训练过程来确定。
19.一种训练用于上采样滤波器的一组系数的方法,所述方法包括:
获取视频帧的基准真值序列;
下采样视频帧的所述基准真值序列以获取经下采样的视频帧序列;
使用具有一组固定系数的第一上采样滤波器上采样所述经下采样的视频帧序列以生成第一经上采样序列;
将经预测平均值修改器应用于从所述第一经上采样序列导出的数据以输出经修改的第一经上采样序列,所述经预测平均值修改器表示所述第一经上采样序列中的像素的所述数据块的所述平均值与所述经下采样的视频帧序列中的所述对应像素值之间的差;
使用具有一组可训练系数的第二上采样滤波器上采样所述经下采样的视频帧序列以生成第二经上采样序列;
计算所述第二经上采样序列与所述经修改的第一经上采样序列之间的损失;以及
优化所述一组可训练系数以减少所述损失,
其中经优化的一组可训练系数提供所述第一上采样滤波器的经预测平均值保留版本。
20.一种用于视频编码的上采样滤波器,所述上采样滤波器包括:
存储器,所述存储器包括一组可分离滤波器系数,所述一组可分离滤波器系数包括用于在第一方向上滤波的第一组滤波器系数以及用于在第二方向上滤波的第二组滤波器系数;以及
处理器,所述处理器用于应用所述一组可分离滤波器系数以将输入视频帧从第一分辨率上采样至第二分辨率,所述第二分辨率高于所述第一分辨率,
其中所述一组可分离滤波器系数配置成修改所述上采样滤波器的输出以应用经预测平均值修改器,所述经预测平均值修改器被导出为所述上采样滤波器的应用之后的所述第二分辨率的像素的数据块的平均值与所述上采样滤波器的应用之前的所述第一分辨率的对应像素值之间的差,所述经预测平均值修改器修改被导出为上采样之后的所述第二分辨率的视频帧与用于导出针对所述上采样的输入视频帧的所述第二分辨率的原始视频帧之间的差的残差的数据块的平均值。
21.一种上采样视频帧以用于视频编码的方法,所述方法包括:
获取第一分辨率的输入视频帧;
应用由一组可分离滤波器系数定义的上采样滤波器以获取第二分辨率的输出视频帧,所述一组可分离滤波器系数包括用于在第一方向上滤波的第一组滤波器系数和用于在第二方向上滤波的第二组滤波器系数,所述第二分辨率高于所述第一分辨率,
其中所述一组可分离滤波器系数配置成修改所述上采样滤波器的输出以应用经预测平均值修改器,所述经预测平均值修改器被导出为所述上采样滤波器的应用之后的所述第二分辨率的像素的数据块的平均值与所述上采样滤波器的应用之前的所述第一分辨率的对应像素值之间的差,所述经预测平均值修改器修改被导出为上采样之后的所述第二分辨率的视频帧与用于导出针对所述上采样的输入视频帧的所述第二分辨率的原始视频帧之间的差的残差的数据块的平均值。
CN202380041460.6A 2022-03-29 2023-03-29 用于应用经预测平均值修改的上采样滤波器 Pending CN119563320A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB2204404.4 2022-03-29
GB2204404.4A GB2614763B (en) 2022-03-29 2022-03-29 Upsampling filter for applying a predicted average modification
PCT/GB2023/050816 WO2023187372A1 (en) 2022-03-29 2023-03-29 Upsampling filter for applying a predicted average modification

Publications (1)

Publication Number Publication Date
CN119563320A true CN119563320A (zh) 2025-03-04

Family

ID=81449501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202380041460.6A Pending CN119563320A (zh) 2022-03-29 2023-03-29 用于应用经预测平均值修改的上采样滤波器

Country Status (5)

Country Link
EP (1) EP4500857A1 (zh)
CN (1) CN119563320A (zh)
GB (1) GB2614763B (zh)
TW (1) TW202348027A (zh)
WO (1) WO2023187372A1 (zh)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1746839A1 (en) * 2005-07-22 2007-01-24 Thomson Licensing Method and apparatus for encoding video data
KR20150014496A (ko) 2012-05-14 2015-02-06 루카 로사토 지원 정보에 기반한 잔차 데이터의 인코딩 및 복원
US20140301488A1 (en) * 2013-04-08 2014-10-09 General Instrument Corporation Derivation of resampling filters for scalable video coding
GB2554065B (en) 2016-09-08 2022-02-23 V Nova Int Ltd Data processing apparatuses, methods, computer programs and computer-readable media
CN111684812B (zh) 2017-12-06 2023-12-22 V-诺瓦国际有限公司 解码经编码二维数据流的方法及解码器
EP3942818A1 (en) 2019-03-20 2022-01-26 V-Nova International Ltd Residual filtering in signal enhancement coding
GB2619630B (en) 2019-03-20 2024-04-10 V Nova Int Ltd Low complexity enhancement video coding
US12192505B2 (en) * 2019-10-02 2025-01-07 V-Nova International Limited Use of transformed coefficients to provide embedded signalling for watermarking

Also Published As

Publication number Publication date
GB2614763B (en) 2024-05-01
EP4500857A1 (en) 2025-02-05
GB2614763A (en) 2023-07-19
WO2023187372A1 (en) 2023-10-05
TW202348027A (zh) 2023-12-01
GB202204404D0 (en) 2022-05-11

Similar Documents

Publication Publication Date Title
US10750179B2 (en) Decomposition of residual data during signal encoding, decoding and reconstruction in a tiered hierarchy
US12160601B2 (en) Quantization of residuals in video coding
EP4104444A1 (en) Use of tiered hierarchical coding for point cloud compression
US20240040160A1 (en) Video encoding using pre-processing
CN114788283A (zh) 用于向后兼容的分级改进的嵌入式信令以及超分辨率信令的用途
US20240305834A1 (en) Video decoding using post-processing control
US20220329802A1 (en) Quantization of residuals in video coding
US20220182654A1 (en) Exchanging information in hierarchical video coding
US20220272342A1 (en) Quantization of residuals in video coding
CN119563320A (zh) 用于应用经预测平均值修改的上采样滤波器
US20250063173A1 (en) Digital image processing
EA046619B1 (ru) Квантование остатков при кодировании видео

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination