CN119697385A

CN119697385A - 用于在视频编码中发送信号通知源图片定时信息的系统和方法

Info

Publication number: CN119697385A
Application number: CN202411066402.1A
Authority: CN
Inventors: 萨钦·G·德施潘德; 约纳坦·萨穆埃尔松
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2023-09-22
Filing date: 2024-08-05
Publication date: 2025-03-25
Also published as: US20250106419A1; EP4529168A1

Abstract

本发明公开了一种设备，该设备可被配置为基于包括在源图片定时信息消息中的信息来对视频数据进行解码。在一个示例中，源图片定时信息消息包括指定时间子层的最大数量的语法元素。在一个示例中，源图片定时信息消息包括语法元素的实例，该语法元素指定用于针对该最大数量的时间子层中除了该最大数量的时间子层中的最高者之外的每个时间子层确定按输出顺序的对应连续图片的源图片间隔的比例因子。

Description

用于在视频编码中发送信号通知源图片定时信息的系统和方法

技术领域

本公开涉及视频编码，并且更具体地涉及用于发送信号通知编码视频的源图片定时信息的技术。

背景技术

数字视频功能可以结合到各种设备中，包括数字电视、笔记本计算机或台式计算机、平板计算机、数字录音设备、数字媒体播放器、视频游戏设备、蜂窝电话(包括所谓的智能电话)、医学成像设备等。可以根据视频编码标准对数字视频进行编码。视频编码标准定义了封装编码视频数据的兼容比特流的格式。兼容比特流是可以由视频解码设备接收和解码以生成重构视频数据的数据结构。视频编码标准还定义了解码过程，并且遵循该解码过程的解码器可以说是符合的解码器。视频编码标准可以结合视频压缩技术。视频编码标准的示例包括ISO/IEC MPEG-4Visual和ITU-TH.264(也被称为ISO/IEC MPEG-4AVC)、高效视频编码(HEVC)和多功能视频编码(VVC)。HEVC在2019年11月的Rec.ITU-T H.265的高效视频编码中有所描述，该文献在本文中被称为ITU-T H.265。VVC在2022年4月的Rec.ITU-TH.266的多功能视频编码中有所描述，该文献以引用方式并入本文，并且在本文中被称为ITU-T H.266。目前正在考虑对ITU-TH.266进行扩展和改进以开发下一代视频编码标准。例如，ITU-T视频编码专家组(VCEG)和ISO/IEC活动图片专家组(MPEG)(被统称为联合视频研究组(JVET))正在致力于标准化超越VVC标准的功能的增强的视频编码技术。以引用方式并入本文的增强的压缩模型7(ECM 7)、增强的压缩模型7(ECM 7)的算法描述、ISO/IEC JTC1/SC29文档：JVET-AB2025(2022年10月20日至28日，德国，美因茨)描述了在联合测试模型研究下的编码特征，该技术是超越ITU-T H.266功能的潜在增强的视频编码技术。应当指出的是，ECM 7的编码特征在ECM参考软件中实现。如本文所用，术语ECM可以集体指包括在ECM 7中的算法以及ECM参考软件的具体实施。

视频压缩技术能够减少存储和传输视频数据的数据需求。视频压缩技术可以通过利用视频序列中固有的冗余来减少数据需求。视频压缩技术可将视频序列再分成连续较小的部分(即，视频序列内的一组图片、一组图片内的图片、图片内的区域、区域内的子区域等)。可以使用帧内预测编码技术(例如，图片内的空间预测技术)和帧间预测技术(即图片间的技术(时间))来生成待编码的单位视频数据与视频数据的参考单元之间的差值。该差值可以被称为残差数据。残差数据可以被编码为量化变换系数。语法元素可以涉及残差数据和参考编码单元(例如，帧内预测模式索引和运动信息)。可以对残差数据和语法元素进行熵编码。熵编码的残差数据和语法元素可以包括在形成兼容比特流的数据结构中。

发明内容

一般来讲，本公开描述了用于对视频数据进行编码的各种技术。具体地，本公开描述了在视频编码中发送信号通知源图片定时信息的技术。应当指出的是，尽管本公开的技术是相对于ITU-T H.264、ITU-T H.265、ITU-T H.266和ECM描述的，但本公开的技术可普遍应用于视频编码。例如，除了包括在ITU-T H.264、ITU-T H.265、ITU-H.266和ECM中的那些技术，本文所述的编码技术可并入视频编码系统(包括基于未来视频编码标准的视频编码系统)，包括视频块结构、帧内预测技术、帧间预测技术、变换技术、滤波技术和/或其他熵编码技术。因此，对ITU-T H.264、ITU-TH.265、ITU-T H.266和/或ECM的参考是出于描述性目的，并且不应被解释为限制本文所述的技术的范围。此外，应当指出的是，将文献以引用方式并入本文是出于描述性目的，并且不应被解释为限制或产生关于本文所用术语的歧义。例如，在某个并入的参考文献中提供的对某个术语的定义不同于另一个并入的参考文献和/或如本文所用的该术语的情况下，则该术语应以广泛地包括每个相应定义的方式和/或以包括替代方案中每个特定定义的方式来解释。

在一个示例中，一种对视频数据进行编码的方法包括：发送信号通知源图片定时信息消息；在该源图片定时信息消息中发送信号通知指定时间子层的最大数量的第一语法元素；以及在该源图片定时信息消息中发送信号通知针对该最大数量的时间子层中除了该最大数量的时间子层中的最高者之外的每个时间子层的第二语法元素的相应实例，其中该第二语法元素指定了用于确定按输出顺序的对应连续图片的源图片间隔的比例因子。

在一个示例中，一种设备包括一个或多个处理器，该一个或多个处理器被配置为：发送信号通知源图片定时信息消息；在该源图片定时信息消息中发送信号通知指定时间子层的最大数量的第一语法元素；以及在该源图片定时信息消息中发送信号通知针对该最大数量的时间子层中除了该最大数量的时间子层中的最高者之外的每个时间子层的第二语法元素的相应实例，其中该第二语法元素指定了用于确定按输出顺序的对应连续图片的源图片间隔的比例因子。

在一个示例中，一种非暂态计算机可读存储介质包括存储于其上的指令，这些指令在被执行时使设备的一个或多个处理器执行以下操作：发送信号通知源图片定时信息消息；在该源图片定时信息消息中发送信号通知指定时间子层的最大数量的第一语法元素；以及在该源图片定时信息消息中发送信号通知针对该最大数量的时间子层中除了该最大数量的时间子层中的最高者之外的每个时间子层的第二语法元素的相应实例，其中该第二语法元素指定了用于确定按输出顺序的对应连续图片的源图片间隔的比例因子。

在一个示例中，一种装置包括：用于发送信号通知源图片定时信息消息的构件；用于在该源图片定时信息消息中发送信号通知指定时间子层的最大数量的第一语法元素的构件；和用于在该源图片定时信息消息中发送信号通知针对该最大数量的时间子层中除了该最大数量的时间子层中的最高者之外的每个时间子层的第二语法元素的相应实例的构件，其中该第二语法元素指定了用于确定按输出顺序的对应连续图片的源图片间隔的比例因子。

在一个示例中，一种对视频数据进行解码的方法包括：接收源图片定时信息消息；从该源图片定时信息消息中解析指定时间子层的最大数量的第一语法元素；以及从该源图片定时信息消息中解析针对该最大数量的时间子层中除了该最大数量的时间子层中的最高者之外的每个时间子层的第二语法元素的相应实例，其中该第二语法元件指定了用于确定按输出顺序的对应连续图片的源图片间隔的比例因子。

在一个示例中，一种设备包括一个或多个处理器，该一个或多个处理器被配置为：接收源图片定时信息消息；从该源图片定时信息消息中解析指定时间子层的最大数量的第一语法元素；以及从该源图片定时信息消息中解析针对该最大数量的时间子层中除了该最大数量的时间子层中的最高者之外的每个时间子层的第二语法元素的相应实例，其中该第二语法元素指定了用于确定按输出顺序的对应连续图片的源图片间隔的比例因子。

在一个示例中，一种非暂态计算机可读存储介质包括存储于其上的指令，这些指令在被执行时使设备的一个或多个处理器执行以下操作：接收源图片定时信息消息；从该源图片定时信息消息中解析指定时间子层的最大数量的第一语法元素；以及从该源图片定时信息消息中解析针对该最大数量的时间子层中除了该最大数量的时间子层中的最高者之外的每个时间子层的第二语法元素的相应实例，其中该第二语法元素指定了用于确定按输出顺序的对应连续图片的源图片间隔的比例因子。

在一个示例中，一种装置包括：用于接收源图片定时信息消息的构件；用于从该源图片定时信息消息中解析指定时间子层的最大数量的第一语法元素的构件；和用于从该源图片定时信息消息中解析针对该最大数量的时间子层中除了该最大数量的时间子层中的最高者之外的每个时间子层的第二语法元素的相应实例的构件，其中该第二语法元素指定了用于确定按输出顺序的对应连续图片的源图片间隔的比例因子。

在以下附图和描述中阐述了一个或多个示例的细节。根据描述和附图以及权利要求书，其他特征、对象和优点将显而易见。

附图说明

图1是示出根据本公开的一种或多种技术的可被配置为对视频数据进行编码和解码的系统的示例的框图。

图2是示出根据本公开的一种或多种技术的编码视频数据和对应数据结构的概念图。

图3是示出根据本公开的一种或多种技术封装编码视频数据和对应元数据的数据结构的概念图。

图4是示出根据本公开的一种或多种技术的可被包括在可被配置为对视频数据进行编码和解码的系统的具体实施中的部件的示例的概念图。

图5是示出根据本公开的一种或多种技术的可被配置为对视频数据进行编码的视频编码器的示例的框图。

图6是示出根据本公开的一种或多种技术的可被配置为对视频数据进行解码的视频解码器的示例的框图。

具体实施方式

视频内容包括由一系列帧(或图片)组成的视频序列。一系列帧也可以被称为一组图片(GOP)。每个视频帧或图片可被分成一个或多个区域。可根据基本单元(例如，视频块)和限定区域的一组规则来限定区域。例如，限定区域的规则可以是区域必须是布置成矩形的整数个视频块。此外，区域中的视频块可以根据扫描模式(例如，光栅扫描)来排序。如本文所用，术语“视频块”通常可以指图片的区域，或者可以更具体地指可以被预测性地编码的样本值的最大阵列、其子分区和/或对应结构。此外，术语“当前视频块”可以指图片的正被编码或解码的区域。视频块可被定义为样本值的阵列。应当指出的是，在一些情况下，像素值可被描述为包括视频数据的相应分量的样本值，其也可被称为颜色分量(例如，亮度(Y)和色度(Cb和Cr)分量或红色、绿色和蓝色分量)。应当指出的是，在一些情况下，术语“像素值”和“样本值”可互换使用。此外，在一些情况下，像素或样本可被称为pel。视频采样格式(也可以被称为色度格式)可以相对于视频块中包括的亮度样本的数量来定义视频块中包括的色度样本的数量。例如，对于4:2:0采样格式，亮度分量的采样率是水平和垂直两个方向的色度分量的采样率的两倍。应当指出的是，在一些情况下，术语“亮度(luma)”和“亮度(luminance)”可互换使用。

视频编码器可对视频块和其子分区执行预测编码。视频块和其子分区可以被称为节点。ITU-T H.264指定包括16×16亮度样本的宏块。也就是说，在ITU-T H.264中，图片被分段成宏块。ITU-T H.265指定了类似的编码树单元(CTU)结构(其可被称为最大编码单元(LCU))。在ITU-TH.265中，图片被分段成CTU。在ITU-T H.265中，对于图片，CTU大小可被设置为包括16×16、32×32或64×64亮度样本。在ITU-T H.265中，CTU由视频数据的每个分量(例如，亮度(Y)和色度(Cb和Cr))的相应编码树块(CTB)组成。应当指出的是，具有一个亮度分量和两个对应色度分量的视频可被描述为具有两个通道，即，亮度通道和色度通道。此外，在ITU-T H.265中，可根据四叉树(QT)划分结构来划分CTU，这使得CTU的CTB被划分为编码块(CB)。也就是说，在ITU-T H.265中，CTU可被划分为四叉树叶节点。根据ITU-T H.265，一个亮度CB连同两个对应的色度CB和相关联语法元素被称为编码单元(CU)。在ITU-TH.265中，可以发送信号通知CB的最小允许大小。在ITU-T H.265中，亮度CB的最小允许最小大小是8×8亮度样本。在ITU-T H.265中，使用帧内预测或帧间预测对图片区域进行编码的决定在CU位阶处进行。

在ITU-T H.265中，CU与在CU处具有其根的预测单元结构相关联。在ITU-T H.265中，预测单元结构允许分割亮度CB和色度CB以生成对应的参考样本。也就是说，在ITU-TH.265中，可将亮度CB和色度CB分割成相应的亮度预测块和色度预测块(PB)，其中PB包括对其应用相同预测的样本值的块。在ITU-T H.265中，可将CB划分为1个、2个或4个PB。ITU-TH.265支持从64×64样本向下至4×4样本的PB大小。在ITU-TH.265中，与PB相对应的帧内预测数据(例如，帧内预测模式语法元素)或帧间预测数据(例如，运动数据语法元素)用于生成PB的参考和/或预测样本值。ITU-T H.266指定具有最大大小的128x128亮度样本的CTU。在ITU-H.266中，根据四叉树加多类型树(QTMT或QT+MTT)结构来划分CTU。ITU-T H.266中的QTMT结构允许由二叉树(BT)结构进一步划分四叉树叶节点。也就是说，在ITU-T H.266中，二叉树叶节点可被垂直或水平递归划分。此外，在ITU-T H.266中，除了指示二进制分割之外，多类型树还可以指示所谓的三元(或三叉树(TT))分割。三元分割将一个块垂直地或水平地分成三个块。在垂直TT分割的情况下，块从左边缘起在其宽度的四分之一处以及从右边缘起在其宽度的四分之一处分割，并且在水平TT分割的情况下，块从顶部边缘起在其高度的四分之一处以及从底部边缘起在其高度的四分之一处分割。

如上所述，每个视频帧或图片可被分成一个或多个区域。例如，根据ITU-T H.265，每个视频帧或图片可被划分为包括一个或多个切片，并且进一步被划分为包括一个或多个图块，其中每个切片包括CTU序列(例如，以光栅扫描顺序排列)，并且其中图块是对应于图片的矩形区域的CTU序列。应当指出的是，在ITU-T H.265中，切片是从独立切片片段开始并且包含在下一个独立切片片段(如果有的话)之前的所有后续从属切片片段(如果有的话)的一个或多个切片片段的序列。切片片段(如切片)是CTU序列。因此，在一些情况下，术语“切片”和“切片片段”可互换使用以指示以光栅扫描顺序排列布置的CTU序列。此外，应当指出的是，在ITU-T H.265中，图块可由包含在多于一个切片中的CTU组成，并且切片可由包含在多于一个图块中的CTU组成。然而，ITU-T H.265规定了应满足以下一个或两个条件：(1)切片中的所有CTU属于同一个图块；以及(2)图块中的所有CTU属于同一个切片。

关于ITU-T H.266，切片需要由整数个完整图块或图块内的整数个连续完整CTU行组成，而不是仅需要由整数个CTU组成。应当指出的是，在ITU-T H.266中，切片设计不包括切片片段(即，没有独立的/从属的切片片段)。因此，在ITU-T H.266中，图片可以包括单个图块，其中该单个图块被包含在单个切片内，或者图片可以包括多个图块，其中该多个图块(或其CTU行)可以被包含在一个或多个切片内。在ITU-T H.266中，通过指定图块行的相应高度和图块列的相应宽度来指定图片将图片划分为图块。因此，在ITU-T H.266中，图块是特定图块行和特定图块列位置内的矩形CTU区域。此外，应当指出的是，ITU-T H.266规定图片可以被划分为子图片，其中子图片是图片内的矩形CTU区域。子图片的左上CTU可位于图片内的任何CTU位置，其中子图片被约束为包括一个或多个切片。因此，不同于图块，子图片不必被限制到特定行和列位置。应当指出的是，子图片可用于封装图片内感兴趣区域，并且子比特流提取过程可用于仅对特定感兴趣区域进行解码和显示。也就是说，如下文进一步详细描述的，编码视频数据的比特流包括网络抽象层(NAL)单元序列，其中NAL单元包封编码视频数据(即，对应于图片切片的视频数据)，或者NAL单元包封用于对视频数据进行解码的元数据(例如，参数集)，并且子比特流提取过程通过从比特流中移除一个或多个NAL单元来形成新比特流。

图2是示出根据图块、切片和子图片划分的图片组内的图片的示例的概念图。应当指出的是，本文所述技术可以适用于图块、切片、子图片、其子分区和/或其等效结构。也就是说，不管图片怎样被划分为区域，本文所述技术通常都可适用。例如，在一些情况下，本文所述技术可以适用于图块可以被划分为所谓的砖块的情况，其中砖块是特定图块内的矩形CTU行区域。此外，例如，在一些情况下，本文所述技术可以适用于一个或多个图块可被包括在所谓的图块组中的情况下，其中图块组包括整数个相邻图块。在图2所示的示例中，Pic₃被示出为包括16个图块(即，图块₀至图块₁₅)和三个切片(即，切片₀至切片₂)。在图2所示的示例中，切片₀包括四个图块(即，图块₀至图块₃)，切片₁包括八个图块(即，图块₄至图块₁₁)，并且切片₂包括四个图块(即，图块₁₂至图块₁₅)。此外，如图2的示例所示，Pic₃被示出包括两个子图片(即，子图片₀和子图片₁)，其中子图片₀包括切片₀和切片₁并且其中子图片₁包括切片₂。如上所述，子图片可用于封装图片内的感兴趣区域，并且可以使用子比特流提取过程以便选择性地对感兴趣区域进行解码(和显示)。例如，参考图2，子图片₀可以对应于体育赛事呈现的动作部分(例如，字段的视图)，并且子图片₁可以对应于在体育赛事呈现期间显示的滚动横幅。通过以这种方式将图片组织成子图片，观看者可能能够禁用滚动横幅的显示。也就是说，通过子比特流提取过程，切片₂NAL单元可以从比特流中移除(并且因此未被解码和/或显示)，并且切片₀NAL单元和切片₁NAL单元可以被解码和显示。下面进一步详细描述如何将图片的切片封装成相应NAL单元数据结构和子比特流提取。

如上所述，视频采样格式(也可以被称为色度格式)可以相对于CU中包括的亮度样本的数量来定义CU中包括的色度样本的数量。例如，对于4:2:0采样格式，亮度分量的采样率是水平和垂直两个方向的色度分量的采样率的两倍。因此，对于根据4:2:0格式格式化的CU，用于亮度分量的样本阵列的宽度和高度是用于色度分量的每个样本阵列的宽度和高度的两倍。如上所述，通常根据水平和垂直亮度样本的数量来定义CU。因此，根据4:2:0样本格式格式化的16×16CU包括亮度分量的16×16个样本和用于每个色度分量的8×8个样本。对于根据4:2:2格式格式化的CU，亮度分量的样本阵列的宽度是每个色度分量的样本阵列的宽度的两倍，但是亮度分量的样本阵列的高度等于每个色度分量的样本阵列的高度。此外，对于根据4:4:4格式格式化的CU，亮度分量的样本阵列具有与每个色度分量的样本阵列相同的宽度和高度。

对于帧内预测编码，帧内预测模式可指定图片内的参考样本的位置。在ITU-TH.265中，已定义的可能的帧内预测模式包括平面(即，表面拟合)预测模式、DC(即平坦的整体平均)预测模式，以及33个角度预测模式(predMode:2-34)。在ITU-T H.266中，已定义的可能的帧内预测模式包括平面预测模式、DC预测模式，以及65个角度预测模式。此外，在ITU-T H.266中，启用附加的帧内预测工具，诸如例如帧内子分割模式和基于矩阵的帧内预测。应当指出的是，平面预测模式和DC预测模式可以被称为无方向预测模式，并且角度预测模式可以被称为方向预测模式。应当指出的是，无论已定义的可能预测模式的数量如何，本文描述的技术可以是普遍适用的。

对于帧间预测编码，确定参考图片，并且运动矢量(MV)识别该参考图片中用于生成对当前视频块的预测的样本。例如，可使用位于一个或多个先前编码的图片中的参考样本值来预测当前视频块，并且运动矢量用于指示参考块相对于当前视频块的位置。运动矢量可描述例如运动矢量的水平位移分量(即MVx)、运动矢量的垂直位移分量(即MVy)和运动矢量的分辨率(例如，四分之一像素精度、二分之一像素精度、一像素精度、二像素精度、四像素精度)。先前解码的图片(其可包括在当前图片之前或之后输出的图片)可被组织成一个或多个参考图片列表，并且使用参考图片索引值来标识。此外，在帧间预测编码中，单预测是指使用来自单个参考图片的样本值生成预测，并且双预测是指使用来自两个参考图片的相应样本值生成预测。也就是说，在单预测中，单个参考图片和对应的运动矢量用于生成对当前视频块的预测，而在双预测中，第一参考图片和对应的第一运动矢量以及第二参考图片和对应的第二运动矢量用于生成对当前视频块的预测。在双预测中，将相应的样本值组合(例如，相加、舍入和裁剪，或根据权重进行平均)以生成预测。图片及其区域可基于哪些类型的预测模式可用于对其视频块进行编码而被分类。也就是说，对于具有B类型的区域(例如，B切片)，可利用双预测、单预测和帧内预测模式，对于具有P类型的区域(例如，P切片)，可利用单预测和帧内预测模式，对于具有I类型的区域(例如，I切片)，只能利用帧内预测模式。如上所述，通过参考索引来识别参考图片。例如，对于P切片，可以存在单个参考图片列表RefPicList0，并且对于B切片，除了RefPicList0之外，可以存在第二独立参考图片列表RefPicList1。应当指出的是，对于B切片中的单预测，可使用RefPicList0或RefPicList1中的一者来生成预测。此外，应当指出的是，在解码过程期间，在开始对图片进行解码时，从存储在解码图片缓冲器(DPB)中的先前解码的图片生成参考图片列表。

此外，编码标准可支持各种运动矢量预测模式。运动矢量预测使能够基于另一运动矢量来导出用于当前视频块的运动矢量的值。例如，可以从当前视频块的空间相邻块和时间相邻块导出具有相关联的运动信息的一组候选块。此外，所生成的(或默认的)运动信息可用于运动矢量预测。运动矢量预测的示例包括高级运动矢量预测(AMVP)、时间运动矢量预测(TMVP)、所谓的“合并”模式，以及“跳过”和“直接”运动推理。此外，运动矢量预测的其他示例包括高级时间运动矢量预测(ATMVP)和空间-时间运动矢量预测(STMVP)。此外，在ITU-T H.266中，启用以下帧间预测模式：仿射运动模型、自适应运动矢量分辨率、双向光流、解码器侧运动矢量修正和几何划分模式。

如上所述，对于帧间预测编码，先前编码的图片中的参考样本用于对当前图片中的视频块进行编码。在对当前图片进行编码时可用作参考的先前编码的图片被称为参考图片。应当指出的是，解码顺序不一定对应于图片输出顺序，即视频序列中图片的时间顺序。在ITU-T H.266中，当图片被解码时，其被存储到解码图片缓冲器(DPB)(其可被称为帧缓冲器、参考缓冲器、参考图片缓冲器等)。在ITU-T H.266中，存储到DPB的图片在被输出时从DPB中移除，并且不再需要用于编码后续图片。在ITU-TH.266中，在对切片标头进行解码之后，即，在对图片进行解码开始时，每个图片调用一次是否应从DPB中移除图片的确定。例如，参考图2，Pic₂被示出为参考Pic₁。类似地，Pic₃被示出为参考Pic₀。关于图2，假设图片数量对应于解码顺序，DPB将填充如下：在解码Pic₀之后，DPB将包括{Pic₀}；在解码Pic₁开始时，DPB将包括{Pic₀}；在解码Pic₁之后，DPB将包括{Pic₀,Pic₁}；在解码Pic₂开始时，DPB将包括{Pic₀,Pic₁}。然后，将参考Pic₁解码Pic₂，并且在解码Pic₂之后，DPB将包括{Pic₀,Pic₁,Pic₂}。在解码Pic₃开始时，画面Pic₀和Pic₁将被标记以从DPB中移除，因为它们不是解码Pic3(或任何后续画面，未示出)所需的，并且假设Pic₁和Pic₂已被输出，则DPB将被更新以包括{Pic₀}。然后将参考Pic₀对Pic₃进行解码。标记图片以将其从DPB中移除的过程可以称为参考图片集(RPS)管理。

如上所述，帧内预测数据或帧间预测数据用于产生样本值的块的参考样本值。包括在当前PB或另一类型的图片区域结构和相关联的参考样本(例如，使用预测生成的那些)中的样本值之间的差值可以被称为残差数据。残差数据可以包括对应于视频数据的每个分量的相应差值阵列。残差数据可能在像素域中。可对差值阵列应用变换诸如离散余弦变换(DCT)、离散正弦变换(DST)、整数变换、小波变换或概念上类似的变换，以生成变换系数。应当指出的是，在ITU-T H.265和ITU-T H.266中，CU与在CU位阶处具有其根的变换树结构相关联。变换树被划分为一个或多个变换单元(TU)。也就是说，为了生成变换系数，可以对差值的阵列进行划分(例如，可以将四个8×8变换应用于16×16残差值阵列)。对于视频数据的每个分量，差值的此类再分可被称为变换块(TB)。应当指出的是，在一些情况下，可以(在视频编码器中)应用核心变换和后续二次变换来生成变换系数。对于视频解码器，变换的顺序是相反的。

可以直接对变换系数或残差样本值执行量化过程(例如，就调色板编码量化而言)。量化通过限制为一组指定值的振幅来近似变换系数。量化实质上对变换系数进行缩放以便改变表示一组变换系数所需的数据量。量化可以包括将变换系数(或将偏移值添加到变换系数得到的值)除以量化缩放因子和任何相关联的取整函数(例如，取整为最接近的整数)。量化的变换系数可以被称为系数位阶值。逆量化(或“去量化”)可以包括将系数位阶值与量化缩放因子相乘，以及任何倒数取整或偏移加法运算。应当指出的是，如本文所用，术语量化过程在一些情况下可指除以缩放因子以生成位阶值，并且在一些情况下可指乘以缩放因子以恢复变换系数。也就是说，量化过程在一些情况下可以指量化，而在一些情况下可以指逆量化。此外，应当指出的是，虽然在下面的示例中的一些示例中关于与十进制记数法相关的算术运算描述了量化过程，但是这样的描述是为了说明的目的，并且不应该被解释为进行限制。例如，本文描述的技术可以在使用二进制运算等的设备中实现。例如，本文描述的乘法和除法运算可以使用移位运算等来实现。

可根据熵编码技术对量化的变换系数和语法元素(例如，指示视频块的编码结构的语法元素)进行熵编码。熵编码过程包括使用无损数据压缩算法对语法元素值进行编码。熵编码技术的示例包括内容自适应可变长度编码(CAVLC)、上下文自适应二进制算术编码(CABAC)、概率区间划分熵编码(PIPE)等。熵编码的量化变换系数和对应的熵编码的语法元素可形成可用于在视频解码器处再现视频数据的兼容比特流。熵编码过程，例如CABAC，可以包括对语法元素进行二值化。二值化是指将语法元素的值转换为一个或多个比特的序列的过程。这些比特可以被称为“bin”。二值化可以包括以下编码技术中的一种或组合：固定长度编码、一元编码、截断一元编码、截断Rice编码、Golomb编码、k阶指数Golomb编码和Golomb-Rice编码。例如，二值化可以包括使用8比特固定长度二值化技术将语法元素的整数值5表示为00000101，或者使用一元编码二值化技术将整数值5表示为11110。如本文所用，术语固定长度编码、一元编码、截断一元编码、截断Rice编码、Golomb编码、k阶指数Golomb编码和Golomb-Rice编码中的每一者可以指这些技术的一般实现和/或这些编码技术的更具体实现。例如，可以根据视频编码标准具体地定义Golomb-Rice编码实现。在CABAC的示例中，对于特定bin，上下文提供bin的最大概率状态(MPS)值(即，bin的MPS为0或1中的一者)，以及bin是MPS或最小概率状态(LPS)的概率值。例如，上下文可以指示bin的MPS为0，并且bin为1的概率为0.3。应当指出的是，可以基于包括当前语法元素和先前编码的语法元素中的bin的先前编码的bin的值来确定上下文。例如，与相邻视频块相关联的语法元素的值可以用于确定当前bin的上下文。

如上所述，视频内容包括由一系列图片组成的视频序列，并且每个图片可被分成一个或多个区域。在ITU-T H.266中，图片的编码表示包括AU内的特定层的VCL NAL单元并且包含图片的所有CTU。例如，再次参考图2，Pic3的编码表示被封装在三个编码切片NAL单元(即，切片₀NAL单元、切片₁NAL单元和切片₂NAL单元)中。应当指出的是，术语视频编码层(VCL)NAL单元用作编码切片NAL单元的总称，即，VCL NAL是包括所有类型的切片NAL单元的总称。如上所述，并且在下文进一步详细描述，NAL单元可以封装用于对视频数据进行解码的元数据。封装用于对视频序列进行解码的元数据的NAL单元通常被称为非VCL NAL单元。因此，在ITU-T H.266中，NAL单元可以是VCL NAL单元或非VCL NAL单元。应当指出的是，VCLNAL单元包括切片标头数据，其提供用于对特定切片进行解码的信息。因此，在ITU-T H.266中，用于对视频数据进行解码的信息(在一些情况下，其可以被称为元数据)不限于被包括在非VCL NAL单元中。ITU-T H.266规定图片单元(PU)是根据指定的分类规则彼此相关联、按解码顺序连续并且包含正好一个编码图片的一组NAL单元，并且访问单元(AU)是属于不同层并且包含与从DPB输出的同一时间相关联的编码图片的一组PU。ITU-T H.266进一步规定层是全部具有层标识符的特定值的一组VCL NAL单元和相关联的非VCL NAL单元。此外，在ITU-T H.266中，PU由零个或一个PH NAL单元、一个编码图片(其由一个或多个VCL NAL单元构成)以及零个或更多个其他非VCL NAL单元组成。此外，在ITU-T H.266中，编码视频序列(CVS)是AU序列，其由按解码顺序的CVSS AU和随后的零个或更多个非CVSS AU的AU(包括到下一个(不含)是CVSS AU的任何后续AU之前的所有后续AU)组成，其中编码视频序列开始(CVSS)AU是其中CVS中的每个层存在PU的AU，并且每个存在的图片单元中的编码图片是编码层视频序列开始(CLVSS)图片。在ITU-T H.266中，编码层视频序列(CLVS)是同一层内的PU序列，其由按解码顺序的CLVSS PU和随后的非CLVSS PU的零个或更多个PU(包括到下一个(不含)是CLVSS PU的任何后续PU之前的所有后续PU)组成。这就是说，在ITU-T H.266中，比特流可被描述为包括形成一个或多个CVS的AU序列。

多层视频编码使得视频呈现能够被解码/显示为对应于视频数据基底层的呈现，并且被解码/显示为对应于视频数据的增强层的一个或多个附加呈现。例如，基底层可以使得能够呈现具有基本质量水平(例如，高清晰度呈现和/或30Hz帧率)的视频呈现，并且增强层可以使得能够呈现具有增强的质量水平(例如，超高清渲染和/或60Hz帧率)的视频呈现。可以通过参考基底层来对增强层进行编码。也就是说，例如可以通过参考基底层中的一个或多个图片(包括其缩放版本)来对增强层中的图片进行编码(例如，使用层间预测技术)。应当指出的是，层也可彼此独立地被编码。在这种情况下，两层之间可能不存在层间预测。每个NAL单元可以包括指示NAL单元与之相关联的视频数据层的标识符。如上所述，子比特流提取过程可以用于仅对图片的特定感兴趣区域进行解码和显示。此外，子比特流提取过程可以用于仅对特定视频层进行解码和显示。子比特流提取可以指接收兼容或符合性比特流的设备通过丢弃和/或修改接收到的比特流中的数据来形成新的兼容或符合性比特流的过程。例如，子比特流提取可以用于形成对应于特定视频表示(例如，高质量表示)的新的兼容或符合性比特流。

在ITU-T H.266中，视频序列、GOP、图片、切片和CTU中的每一者可以与描述视频编码属性的元数据相关联，并且一些类型的元数据被封装在非VCL NAL单元中。ITU-T H.266定义了可用于描述视频数据和/或视频编码属性的参数集。具体地，ITU-T H.266包括以下四种参数集：视频参数集(VPS)、序列参数集(SPS)、图片参数集(PPS)和自适应参数集(APS)，其中SPS应用于零个或更多整数个CVS，PPS适用于零个或更多整数个编码图片，APS适用于零个或更多个切片，并且VPS可以任选地由SPS引用。PPS应用于引用它的一个或多个单个编码图片。在ITU-TH.266中，参数集可以被封装为非VCL NAL单元，并且/或者可以作为消息发送信号通知。ITU-T H.266还包括图片标头(PH)，该图片标头在被发送信号通知时作为非VCL NAL单元被封装在其自身的NAL单元中，或者在被发送信号通知时作为VCL NAL单元的一部分被封装在编码切片的切片标头中。在ITU-T H.266中，图片标头应用于编码图片的所有切片。ITU-T H.266进一步使得能够发送信号通知解码能力信息(DCI)和补充增强信息(SEI)消息。在ITU-T H.266中，DCI和SEI消息协助与解码、显示或其他目的有关的过程，然而，可能不需要DCI和SEI消息来根据解码过程构建亮度或色度样本。在ITU-T H.266中，可以使用非VCL NAL单元在比特流中发送信号通知DCI和SEI消息。此外，DCI和SEI消息可以通过某种机制传送，而不是通过存在于比特流中(即，在带外发送信号通知)。

图3示出了包括多个CVS的比特流的示例，其中CVS包括AU，并且AU包括图片单元。图3中所示的示例对应于在比特流中封装图2的示例中所示的切片NAL单元的示例。在图3所示的示例中，Pic₃的对应图片单元包括三个VCL NAL编码切片NAL单元，即切片₀NAL单元、切片₁NAL单元和切片₂NAL单元，以及两个非VCL NAL单元，即PPS NAL单元和PH NAL单元。应当指出的是，在图3中，标头是NAL单元标头(即，不与切片标头混淆)。此外，应当指出的是，在图3中，未示出的其他非VCL NAL单元可被包括在CVS中，例如SPS NAL单元、VPS NAL单元、SEI消息NAL单元等。此外，应当指出的是，在其他示例中，用于解码Pic₃的PPS NAL单元可被包括在比特流中的其他地方，例如，在对应于Pic₀的图片单元中，或可以由外部机构提供。在ITU-T H.266中，PH语法结构可以存在于VCL NAL单元的切片标头中或存在于当前PU的PHNAL单元中。

关于本文所用的公式，可以使用以下算术运算符：

+加法

-减法

*乘法，包括矩阵乘法

x^y求幂。将x指定为y的幂。在其他上下文中，此类符号用于上标而非旨在用于解释为求幂。/将结果向着零截断的整数除法。例如，将7/4和-7/-4截断为1，将-7/4和7/-4截断为-1。

÷在不旨在进行截断或舍入情况下用于表示数学公式中的除法。

在不旨在进行截断或舍入情况下用于表示数学公式中的除法。

此外，可使用以下数学函数：

Log2(x)x的以2为底的对数；

Ceil(x)，大于或等于x的最小整数。

关于本文使用的示例语法，可以应用以下逻辑运算符的定义：x&&yx和y的布尔逻辑“与”

x||y x和y的布尔逻辑“或”！布尔逻辑“否”

x？y:z如果x为TRUE或不等于0，则求值为y；否则，求值为z。

此外，可应用以下关系运算符：

>大于

>＝大于或等于

<小于

<＝小于或等于

＝＝等于

！＝不等于

此外，应当指出的是，在本文所用的语法描述符中，可以应用以下描述符：

-b(8)：具有任何位串模式的字节(8位)。该描述符的解析过程由函数read_bit(8)的返回值指定。

-f(n)：从最左位起使用n位(从左到右)写入的固定模式位串。该描述符的解析过程由函数

read_bit(n)的返回值指定。

-se(v)：有符号整数0阶Exp-Golomb编码的语法元素，从最左位起。

--tb(v)：使用至多maxVal比特的截断二元码，其中maxVal在语法元素的语义中定义。

-tu(v)：使用至多maxVal位的截断一元码，其中maxVal在语法元素的语义中定义。

-u(n)：使用n位的无符号整数。当语法表中n是“v”时，比特数以取决于其他语法元素的值的方式变化。该描述符的解析过程由函数read_bits(n)的返回值指定，该返回值被解释为首先写入最高有效位的无符号整数的二进制表示。

-ue(v)：无符号整数0阶Exp-Golomb编码的语法元素，从最左位起。

-st(v)：被编码为通用编码字符集(UCS)传输格式-8(UTF-8)字符的以空字符结尾的字符串，如ISO/IEC 10646中所指定的。解析过程如下指定：st(v)在比特流中的字节对齐位置处开始，并且从比特流读取并返回一系列字节(该一系列字节在当前位置处开始并且继续直到但不包括等于0x00的下一字节对齐字节)，并且将比特流指针前进(stringLength+1)*8个比特位置，其中stringLength等于所返回的字节的数量。

如上所述，ITU-T H.266定义了NAL单元标头语义，其指定了包括在NAL单元中的原始字节序列有效载荷(RBSP)数据结构的类型。表1示出了ITU-T H.266中提供的NAL单元标头的语法。

表1

ITU-T H.266针对表1中所示的相应语法元素提供了以下定义。

forbidden_zero_bit应等于0。

nuh_reserved_zero_bit应等于0。未来可由ITU-T|ISO/IEC指定nuh_reserved_zero_bit的值1。尽管在本说明书的此版本中，nuh_reserved_zero_bit的值要求等于0，但符合本说明书的此版本的解码器应允许nuh_reserved_zero_bit的值等于1出现在语法中，并应忽略(即，从比特流中删除并丢弃)nuh_reserved_zero_bit等于1的NAL单元。

nuh_layer_id指定VCL NAL单元所属的层的标识符或者非VCL NAL单元适用的层的标识符。nuh_layer_id的值应在0至55的范围内(包括端值)。保留nuh_layer_id的其他值以供ITU-T|ISO/IEC将来使用。尽管在本说明书的此版本中，nuh_layer_id的值要求在0至55的范围内(包括端值)，但符合本说明书的此版本的解码器应允许nuh_layer_id的值大于55出现在语法中，并应忽略(即，从比特流中删除并丢弃)nuh_layer_id大于55的NAL单元。

编码图片的所有VCL NAL单元的nuh_layer_id的值应相同。编码图片或PU的nuh_layer_id的值是编码图片或PU的VCL NAL单元的nuh_layer_id的值。

当nal_unit_type等于PH_NUT或FD_NUT时，nuh_layer_id应等于相关联VCL NAL单元的nuh_layer_id。

当nal_unit_type等于EOS_NUT时，nuh_layer_id应等于CVS中存在的层的nuh_layer_id值中的一者。

注意—DCI、OPI、VPS、AUD和EOB NAL单元的nuh_layer_id的值不受约束。

nuh_temporal_id_plus1减去1指定NAL单元的时间标识符。

nuh_temporal_id_plus1的值应不等于0。

变量TemporalId如下导出：

TemporalId＝nuh_temporal_id_plus1-1

当nal_unit_type处于IDR_W_RADL至RSV_IRAP_11的范围内(包括端值)时，TemporalId应等于0。当nal_unit_type等于STSA_NUT并且vps_independent_layer_flag[GeneralLayerIdx[nuh_layer_id]]等于1时，TemporalId应大于0。

对于AU的所有VCL NAL单元，TemporalId的值应相同。编码图片、PU或AU的TemporalId的值是编码图片、PU或AU的VCL NAL单元的TemporalId的值。子层表示的TemporalId的值是子层表示中的所有VCL NAL单元的TemporalId的最大值。

非VCL NAL单元的TemporalId的值被如下进行约束：

-如果nal_unit_type等于DCI_NUT、OPI_NUT、VPS_NUT或SPS_NUT，则TemporalId应等于0，并且包含NAL单元的AU的TemporalId应等于0。

-否则，如果nal_unit_type等于PH_NUT，则TemporalId应等于包含NAL单元的PU的TemporalId。

-否则，如果nal_unit_type等于EOS_NUT或EOB_NUT，则TemporalId应等于0。

-否则，如果nal_unit_type等于AUD_NUT、FD_NUT、PREFIX_SEI_NUT或

SUFFIX_SEI_NUT，则TemporalId应等于包含NAL单元的AU的TemporalId。

-否则，当nal_unit_type等于PPS_NUT、PREFIX_APS_NUT或SUFFIX_APS_NUT时，

TemporalId应大于或等于包含NAL单元的PU的TemporalId。

注意—当NAL单元是非VCL NAL单元时，TemporalId的值等于非VCL NAL单元所应用的所有AU的TemporalId值的最小值。当nal_unit_type等于PPS_NUT、PREFIX_APS_NUT或SUFFIX_APS_NUT时，TemporalId可以大于或等于包含AU的TemporalId，因为所有PPS和APS可被包括在比特流的开始中(例如，当它们被输送到带外，并且接收器将它们放置在比特流的开始处时)，其中第一编码图片具有等于0的TemporalId。

nal_unit_type指定NAL单元类型，即，如表2中指定的NAL单元中包含的RBSP数据结构的类型。

具有在UNSPEC28..UNSPEC31的范围内(包括端值)的nal_unit_type的NAL单元(其语义未指定)应不影响本说明书中指定的解码过程。

注意—在UNSPEC_28..UNSPEC_31的范围内的NAL单元类型可如由应用程序所确定的那样使用。在本说明书中未指定针对nal_unit_type的这些值的解码过程。由于不同的应用程序可能出于不同的目的使用这些NAL单元类型，因此期望在设计生成具有这些nal_unit_type值的NAL单元的编码器时以及在设计解释具有这些nal_unit_type值的NAL单元的内容的解码器时特别注意。本说明书未定义对这些值的任何管理。这些nal_unit_type值可能仅适用于使用“冲突”(即，同一nal_unit_type值的NAL单元内容的含义具有不同定义)不重要、或不可能或被管理的上下文中，例如，在控制应用程序或运输规范中定义或管理，或者通过控制分发比特流的环境来管理。

出于确定比特流的DU中的数据量之外的目的，解码器应忽略(从比特流中移除并丢弃)使用nal_unit_type的保留值的所有NAL单元的内容。

注意—该要求允许未来定义本说明书的兼容扩展。

表2注意—干净随机存取(CRA)图片可具有存在于比特流中的相关联RASL或RADL图片。注意—具有等于IDR_N_LP的nal_unit_type的瞬时解码刷新(IDR)图片不具有存在于比特流中的相关联前导图片。具有等于IDR_W_RADL的nal_unit_type的IDR图片不具有存在于比特流中的相关联RASL图片，但可具有在比特流中的相关联RADL图片。

对于子图片的所有VCL NAL单元，nal_unit_type的值应相同。子图片被称为具有与子图片的VCL NAL单元相同的NAL单元类型。

对于任何特定图片的VCL NAL单元，以下适用：

-如果pps_mixed_nalu_types_in_pic_flag等于0，则对于图片的所有VCL NAL单元，

nal_unit_type的值应相同，并且图片或PU被称为具有与图片或PU的编码切片NAL单元相同的NAL单元类型。

-否则(pps_mixed_nalu_types_in_pic_flag等于1)，以下所有约束均适用：

-图片应具有至少两个子图片。

-图片的VCL NAL单元应具有两个或更多个不同的nal_unit_type值。

-将不存在nal_unit_type等于GDR_NUT的图片的VCL NAL单元。

-当图片的VCL NAL单元的nal_unit_type等于值为IDR_W_RADL、IDR_N_LP或

CRA_NUT的nalUnitTypeA时，该图片的其他VCL NAL单元的nal_unit_type均应等于nalUnitTypeA或TRAIL_NUT。

对于IRAP或GDR AU的所有图片，nal_unit_type的值应相同。

当sps_video_parameter_set_id大于0，vps_max_tid_il_ref_pics_plus1[i][j]等于0(对于j等于GeneralLayerIdx[nuh_layer_id]以及j+1到vps_max_layers_minus1的范围内(包括端值)的i的任何值)并且pps_mixed_nalu_types_in_pic_flag等于1时，nal_unit_type的值将不等于IDR_W_RADL、

IDR_N_LP或CRA_NUT。

比特流符合性要求以下约束适用：

-当图片是IRAP图片的前导图片时，该图片应为RADL或RASL图片。

-当子图片是IRAP子图片的前导子图片时，该子图片应为RADL或RASL子图片。

-当图片不是IRAP图片的前导图片时，该图片不应为RADL或RASL图片。

-当子图片不是IRAP子图片的前导子图片时，该子图片不应为RADL或RASL子图片。

-RASL图片不应存在于比特流中，这些RASL图片与IDR图片相关联。

-RASL子图片不应存在于比特流中，这些RASL子图片与IDR子图片相关联。

-RADL图片不应存在于比特流中，这些RADL图片与nal_unit_type等于IDR_N_LP的IDR图片相关联。

注意—可以通过丢弃在IRAP AU之前的所有PU(并按照解码顺序正确解码IRAP AU和所有后续AU中的非RASL图片)来执行IRAP PU的位置处的随机访问，前提条件是每个参数集(在比特流中或通过本说明书中未指定的外部方式)当被引用时是可用的。

-RADL子图片不应存在于比特流中，这些RADL子图片与nal_unit_type等于IDR_N_LP的IDR子图片相关联。

-nuh_layer_id等于特定值layerId的在解码顺序中位于nuh_llayer_id等于layerId的IRAP图片之前的任何图片，在输出顺序中均应位于IRAP图片之前，并且在输出顺序中应位于与

IRAP图片相关联的任何RADL图片之前。

-nuh_layer_id等于特定值layerId并且子图片索引等于特定值subpicIdx的在解码顺序中位于

nuh_layer_id等于layerId并且子图片索引等于subpicIdx的IRAP子图片之前的任何子图片，在输出顺序中应位于IRAP子图片及其所有相关联RADL子图片之前。

-nuh_layer_id等于特定值layerId的在解码顺序中位于nuh_layer_id等于layerId的恢复点图片之前的任何图片，在输出顺序中应位于该恢复点图片之前。

-nuh_layer_id等于特定值layerId并且子图片索引等于特定值subpicIdx的在解码顺序中位于恢复点图片中nuh_layer_id等于layerId并且子图片索引等于subpicIdx的子图片之前的任何子图片，均应在输出顺序中位于恢复点图像中的该子图片之前。

-与CRA图片相关联的任何RASL图片应在输出顺序中位于与CRA图片相关联的任何

RADL图片之前。

-与CRA子图片相关联的任何RASL子图片均应在输出顺序中位于与CRA子图片相关联的任何RADL子图片之前。

-与CRA图片相关联的nuh_layer_id等于特定值layerId的任何RASL图片都应按输出顺序位于nuh_layer_id等于layerId的任何IRAP或GDR图片之后，该IRAP或GDR图片按解码顺序位于CRA图片之前。

-nuh_layer_id等于特定值layerId并且子图片索引等于特定值subpicIdx的与CRA子图片相关联的任何RASL子图，在输出顺序中均应位于nuh_layer_id等于layerId并且子图片索引等于subpicIdx的在解码顺序中位于CRA子图片之前的任何IRAP或GDR子图片之后。

-如果sps_field_seq_flag等于0，则以下适用：当nuh_layer_id等于特定值layerId的当前图片是与IRAP图片相关联的前导图片时，则该当前图片应在解码顺序中位于与相同IRAP

图片相关联的所有非前导图片之前。否则(sps_field_seq_flag等于1)，让picA和picB在解码顺序中分别是与IRAP图片相关联的第一个前导图片和最后一个前导图片，在解码顺序中picA之前应存在nuh_layer_id等于layerId的最多一个非前导图片，并且在解码顺序中

picA和picB之间不应存在nuh_layer_id等于layerId的非前导图片。

-如果sps_field_seq_flag等于0，则以下适用：当nuh_layer_id等于特定值layerId并且子图片索引等于特定值subpicIdx的当前子图片是与IRAP子图片相关联的前导子图片时，则该当前子图片应在解码顺序中位于与相同IRAP子图片相关联的所有非前导子图片之前。否则(sps_field_seq_flag等于1)，让subpicA和subpicB在解码顺序中分别是与IRAP子图片相关联的第一个前导子图片和最后一个前导子图片，在解码顺序中subpicA之前应存在

nuh_layer_id等于layerId并且子图片索引等于subpicIdx的最多一个非前导子图片，并且在解码顺序中picA和picB之间不应存在nuh_layer_id等于layerId并且子图片索引等于

subpicIdx的非前导图片。

如表2中所提供的，NAL单元可以包括补充增强信息(SEI)语法结构。表3和表4示出了ITU-T H.266中提供的补充增强信息(SEI)语法结构。

表3

表4

关于表3和表4，ITU-T H.266提供了以下语义：每个SEI消息由指定SEI消息有效载荷的类型payloadType和大小payloadSize的变量组成。指定了SEI消息有效载荷。所导出的SEI消息有效载荷大小payloadSize以字节为单位指定，并且应等于SEI消息有效载荷中RBSP字节的数量。

注意—包含SEI消息的NAL单元字节序列可能包括一个或多个仿效防止字节(由emulation_prevention_three_byte语法元素表示)。由于在RBSP字节中指定了SEI消息的有效载荷大小，所以在SEI有效载荷的大小payloadSize中不包括仿效防止字节的数量。

payload_type_byte是SEI消息的有效载荷类型的字节。

payload_size_byte是SEI消息的有效载荷大小的字节。

应当指出的是，ITU-T H.266定义了用于SEI消息的有效载荷类型。用于编码视频比特流的通用补充增强信息消息，Rec.ITU-T H.274(2022年5月，其被称为H.274)定义了附加的SEI消息有效载荷类型。此外，“Technologies under consideration for extensionsof VSEI(draft 1)”ISO/IEC JTC1/SC29第31次会议，2023年7月11日至19日，瑞士日内瓦，文件JVET-AE2032-v1(称为JVET-AE2032)，定义了正在考虑的对H.274的未来扩展的附加SEI消息有效载荷类型。例如，JVET-AE2032提供了源图片定时SEI消息。表5示出了JVET-AE2032中提供的源图片定时SEI消息。

表6

对于表6，JVET-AE2032提供了以下语义：

源图片定时信息(SPTI)SEI消息指示在编码之前与对应解码的输出图片相关联的源图片之间的时间距离，例如，对于相机捕获的内容，源图片之间的时间距离是图像传感器曝光以产生与当前解码的图片相关联的源图片的时间与图像传感器曝光以产生与按输出顺序的前一解码的图片相关联的源图片的时间之间的差值。

spti_cancel_flag等于1指示SPTI SEI消息取消应用于当前层的按输出顺序的任何前一SPTI SEI消息的持久性。spti_cancel_flag等于0指示随后是源图片定时信息。

spti_persistence_flag指定了当前层的SPTI SEI消息的持久性。

spti_persistence_flag等于0指定了SPTI SEI消息仅应用于当前解码的图片。spti_persistence_flag等于1指定了SPTI SEI消息应用于当前解码的图片并且按输出顺序持续用于当前层的所有后续图片，直到以下条件中的一个或多个条件为真：

-当前层的新CLVS开始。

-比特流结束。

-输出与SPTI SEI消息相关联的AU中的当前层中的图片，该图片按输出顺序在当前图片之后。

spti_source_picture_timing_type指示如表7中指定的源图片与对应解码的输出图片之间的定时关系，其中(spti_source_picture_timing_type&bitMask)不等于0指示定时关系具有与表7中的bitMask值相关联的解释。当spti_source_picture_timing_type大于0并且(spti_source_picture_timing_type&bitMask)等于0时，与bitMask值相关联的解释不适用于SPTI SEI消息。当spti_source_picture_timing_type等于0时，可由应用程序指定定时关系。

在符合本文档的此版本的比特流中，spti_source_picture_timing_type的值应在0至127的范围内(包括端值)。spti_source_picture_timing_type的在128至255范围内(包括端值)的值被保留以供ITU-T|ISO/IEC将来使用，并且不应存在于符合本文档的此版本的比特流中。符合本文档的此版本的解码器应忽略spti_source_picture_timing_type在128至255的范围内(包括端值)的SPTI SEI消息。

bitMask	解释
		0x01	慢动作
0x02	帧速率转换
		0x04	高速成像
0x08	延时成像
		0x10	时间反转
0x20	静态图像/定格帧
		0x40	偶发或事件驱动

表7

变量temporalReversalFlag等于(spti_source_picture_timing_type&0x10)？1:0。

spti_source_timing_equals_output_timing_flag等于1指示源图片的定时与对应解码的输出图片的定时相同。spti_source_timing_equals_output_timing_flag等于0指示源图片的定时可能与对应解码的输出图片的定时不同。

当spti_source_timing_equals_output_timing_flag等于1并且对于当前图片存在图片定时SEI消息时，可根据图片定时SEI消息中传达的信息来确定源图片定时。

spti_time_scale指定了一秒钟内经过的时间单位数。spti_time_scale的值应不等于0。例如，使用27MHz时钟测量时间的时间坐标系的spti_time_scale为27,000,000。

spti_num_units_in_elemental_source_picture_interval指定了以频率spti_time_scale Hz运行的时钟的时间单位数，该频率对应于CLVS中按输出顺序的连续图像的所指示元素源图像间隔。

所指示的元素源图片间隔，也由变量ElementalSourcePictureInterval表示，以秒为单位，等于spti_num_units_in_elemental_source_picture_interval除以spti_time_scale的商。例如，为了表示等于0.04秒的元素源图片间隔，spti_time_scale可等于27,000,000，并且spti_num_units_in_elemental_source_picture_interval可等于1,080,000。

spti_max_sublayers_minus_1加1指定了CLVS中可能存在的时间子层的最大数量。

当存在时，spti_sublayer_source_picture_interval_scale_factor[i]指定了用于确定CLVS中具有小于或等于i的TemporalId的按输出顺序的对应连续图片的源图片间隔的比例因子。值0可用于指示对应于当前解码的输出图片的源图片与对应于前一解码的输出图片的源图片相同。

与具有小于或等于i的TemporalId的输出图片相关联的所指示的源图片间隔(由变量SourcePictureInterval[i]表示，以秒为单位)如下导出：

SourcePictureInterval[i]＝ElementalSourcePictureInterval*spti_sublayer_source_picture_interval_scale_factor[i]当图片n是输出的具有小于或等于i的TemporalId的图片并且不是输出的比特流的第一个图片时，变量SourcePictureTime[n]的值如下导出：

-如果temporalReversalFlag等于0，则SourcePictureTime[n]＝

SourcePictureTime[previousPicInOutputOrder]+SourcePictureInterval[i]

-否则，temporalReversalFlag等于1，SourcePictureTime[n]＝

SourcePictureTime[previousPicInOutputOrder]-SourcePictureInterval[i]

其中previousPicInOutputOrder是所输出的按输出顺序在图片n之前的具有小于或等于i的TemporalId的最后一个图片(如果有的话)。当SourcePictureTime[0]的值不是通过本文档中未指定的外部方式提供时，推断SourcePictureTime[0]的值为0。

当存在时，spti_sublayer_synthesized_picture_flag[i]等于1指示属于第i个时间子层的解码的输出图片被合成并且不对应于未修改的原始源图片。spti_sublayer_synthesized_picture_flag[i]等于0则不提供这样的指示。当不存在时，推断spti_sublayer_synthesized_picture_flag[i]的值等于0。

在JVET-AE2032中提供的源图片定时SEI消息可能不太理想。

图1是示出根据本公开的一种或多种技术的可以被配置为对视频数据进行编码(例如，编码和/或解码)的系统的示例的框图。系统100表示可以根据本公开的一种或多种技术来封装视频数据系统的示例。如图1所示，系统100包括源设备102、通信介质110和目标设备120。在图1所示的示例中，源设备102可以包括被配置为对视频数据进行编码并将编码的视频数据传输到通信介质110的任何设备。目标设备120可以包括被配置为经由通信介质110接收编码视频数据并且对编码视频数据进行解码的任何设备。源设备102和/或目标设备120可以包括配备用于进行有线和/或无线通信的计算设备，并且可以包括例如机顶盒、数字视频录像机、电视机、台式计算机、膝上型计算机或平板计算机、游戏控制台、医学成像设备和移动设备(包括例如智能电话、蜂窝电话、个人游戏设备)。

通信介质110可以包括无线和有线通信介质和/或存储设备的任意组合。通信介质110可以包括同轴电缆、光纤电缆、双绞线电缆、无线发射器和接收器、路由器、交换机、中继器、基站或可用于促进各种设备和站点之间的通信的任何其他设备。通信介质110可以包括一个或多个网络。例如，通信介质110可以包括被配置为允许访问万维网例如互联网的网络。网络可以根据一个或多个电信协议的组合操作。电信协议可以包括专有方面并且/或者可以包括标准化电信协议。标准化电信协议的示例包括数字视频广播(DVB)标准、高级电视系统委员会(ATSC)标准、综合服务数字广播(ISDB)标准、有线数据业务接口规范(DOCSIS)标准、全球移动通信系统(GSM)标准、码分多址(CDMA)标准、第3代合作伙伴计划(3GPP)标准、欧洲电信标准协会(ETSI)标准、互联网协议(IP)标准、无线应用协议(WAP)标准以及电气与电子工程师协会(IEEE)标准。

存储设备可以包括能够存储数据的任何类型的设备或存储介质。存储介质可以包括有形或非暂态计算机可读介质。计算机可读介质可以包括光盘、闪存存储器、磁存储器或任何其他合适的数字存储介质。在一些示例中，存储器设备或其部分可以被描述为非易失性存储器，并且在其他示例中，存储器设备的部分可以被描述为易失性存储器。易失性存储器的示例可以包括随机存取存储器(RAM)、动态随机存取存储器(DRAM)和静态随机存取存储器(SRAM)。非易失性存储器的示例可以包括磁性硬盘、光盘、软盘、闪存或电可编程存储器(EPROM)或电可擦除和可编程(EEPROM)存储器的形式。存储设备可以包括存储卡(例如，安全数字(SD)存储卡)、内部/外部硬盘驱动器和/或内部/外部固态驱动器。数据可以根据定义的文件格式存储在存储设备上。

图4是示出可以被包括在系统100的具体实施中的部件的示例的概念图。在图4所示的示例性具体实施中，系统100包括一个或多个计算设备402A至402N、电视服务网络404、电视服务提供方站点406、广域网408、局域网410以及一个或多个内容提供方站点412A至412N。图4中所示的具体实施表示系统的示例，该系统可被配置为允许数字媒体内容(诸如电影、现场体育赛事等)和与其相关联的数据和应用程序以及媒体呈现被分发到多个计算设备(诸如计算设备402A至402N)并由该多个计算设备访问。在图4所示的示例中，计算设备402A至402N可以包括被配置为从电视服务网络404、广域网408和/或局域网410中的一者或多者接收数据的任何设备。例如，计算设备402A至402N可以配备用于有线和/或无线通信，并且可被配置为通过一个或多个数据信道接收服务，并且可以包括电视，包括所谓的智能电视、机顶盒和数字视频记录器。此外，计算设备402A至402N可以包括台式计算机、膝上型计算机或平板计算机、游戏控制台、移动设备(包括例如“智能”电话、蜂窝电话和个人游戏设备)。

电视服务网络404是被配置为使得能够分发可以包括电视服务的数字媒体内容的网络的示例。例如，电视服务网络404可以包括公共空中电视网络、公共或基于订阅的卫星电视服务提供方网络，以及公共或基于订阅的有线电视提供方网络和/或云上或互联网服务提供方。应当指出的是，尽管在一些示例中，电视服务网络404可以主要用于允许提供电视服务，但是电视服务网络404还可以根据本文所述的电信协议的任何组合允许提供其他类型的数据和服务。此外，应当指出的是，在一些示例中，电视服务网络404可以允许电视服务提供方站点406与计算设备402A至402N中的一个或多个之间的双向通信。电视服务网络404可以包括无线和/或有线通信媒体的任何组合。电视服务网络404可以包括同轴电缆、光纤电缆、双绞线电缆、无线发射器和接收器、路由器、交换机、中继器、基站或可用于促进各种设备和站点之间的通信的任何其他设备。电视服务网络404可以根据一个或多个电信协议的组合来运营。电信协议可以包括专有方面并且/或者可以包括标准化电信协议。标准化电信协议的示例包括DVB标准、ATSC标准、ISDB标准、DTMB标准、DMB标准、有线数据服务接口规范(DOCSIS)标准、HbbTV标准、W3C标准和UPnP标准。

再次参考图4，电视服务提供方站点406可被配置为经由电视服务网络404分发电视服务。例如，电视服务提供方站点406可以包括一个或多个广播站、有线电视提供方或卫星电视提供方或基于互联网的电视提供方。例如，电视服务提供方站点406可被配置为通过卫星上行链路/下行链路接收传输(包括电视节目)。此外，如图4所示，电视服务提供方站点406可以与广域网408通信，并且可被配置为从内容提供方站点412A至412N接收数据。应当指出的是，在一些示例中，电视服务提供方站点406可以包括电视演播室，并且内容可以源自该电视演播室。

广域网408可以包括基于分组的网络，并且根据一个或多个电信协议的组合运营。电信协议可以包括专有方面并且/或者可以包括标准化电信协议。标准化电信协议的示例包括全球系统移动通信(GSM)标准、码分多址(CDMA)标准、第3代合作伙伴计划(3GPP)标准、欧洲电信标准协会(ETSI)标准、欧洲标准(EN)、IP标准、无线应用协议(WAP)标准、以及电气与电子工程师协会(IEEE)标准，诸如，一个或多个IEEE 802标准(例如，Wi-Fi)。广域网408可以包括无线和/或有线通信媒体的任何组合。广域网408可以包括同轴电缆、光纤电缆、双绞线电缆、以太网电缆、无线发射器和接收器、路由器、交换机、中继器、基站、或可用于促进各种设备和站点之间的通信的任何其他设备。在一个示例中，广域网408可以包括互联网。局域网410可以包括基于分组的网络，并且根据一个或多个电信协议的组合运营。可以基于访问级别和/或物理基础设施将局域网410与广域网408区分开。例如，局域网410可以包括安全家庭网络。

再次参考图4，内容提供方站点412A至412N表示可以向电视服务提供方站点406和/或计算设备402A至402N提供多媒体内容的站点的示例。例如，内容提供方站点可以包括具有一个或多个工作室内容服务器的工作室，该工作室内容服务器被配置为向电视服务提供方站点406提供多媒体文件和/或流。在一个示例中，内容提供方站点412A至412N可被配置为使用IP套件提供多媒体内容。例如，内容提供方站点可被配置为根据实时流协议(RTSP)、HTTP等向接收器设备提供多媒体内容。此外，内容提供方站点412A至412N可被配置为通过广域网408向接收器设备402A至402N和/或电视服务提供方站点406中的一个或多个提供包括基于超文本的内容等的数据。内容提供方站点412A至412N可以包括一个或多个web服务器。可以根据数据格式来定义由数据提供方站点412A至412N提供的数据。

再次参考图1，源设备102包括视频源104、视频编码器106、数据封装器107和接口108。视频源104可以包括被配置为捕获和/或存储视频数据的任何设备。例如，视频源104可以包括摄像机和可操作地与其耦接的存储设备。视频编码器106可以包括被配置为接收视频数据并生成表示视频数据的兼容比特流的任何设备。兼容比特流可以指视频解码器可以从其接收和再现视频数据的比特流。兼容比特流的各方面可根据视频编码标准来定义。当生成兼容比特流时，视频编码器106可以压缩视频数据。压缩可能是有损的(观察者可觉察的或不可觉察的)或无损的。图5是示出可实现本文所述的用于对视频数据进行编码的技术的视频编码器500的示例的框图。应当指出的是，尽管示例性视频编码器500被示出为具有不同的功能块，但此类图示旨在用于描述目的，并且不将视频编码器500和/或其子部件限制为特定的硬件或软件架构。可使用硬件、固件和/或软件具体实施的任何组合来实现视频编码器500的功能。

视频编码器500可执行图片区域的帧内预测编码和帧间预测编码，并且因此可被称为混合视频编码器。在图5所示的示例中，视频编码器500接收源视频块。在一些示例中，源视频块可以包括已经根据编码结构划分的图片区域。例如，源视频数据可以包括宏块、CTU、CB、其子分区和/或另外的等效编码单元。在一些示例中，视频编码器500可被配置为执行源视频块的附加细分。应当指出的是，本文描述的技术通常适用于视频编码，而不管在编码之前和/或期间如何划分源视频数据。在图5所示的示例中，视频编码器500包括加法器502、变换系数生成器504、系数量化单元506、逆量化和变换系数处理单元508、加法器510、帧内预测处理单元512、帧间预测处理单元514、滤波器单元516和熵编码单元518。如图5所示，视频编码器500接收源视频块并输出比特流。

在图5所示的示例中，视频编码器500可以通过从源视频块中减去预测视频块来生成残差数据。下面详细描述了对预测视频块的选择。求和器502表示被配置为执行该减法运算的部件。在一个示例中，视频块的减法发生在像素域中。变换系数生成器504对残差块或其子分区应用变换诸如离散余弦变换(DCT)、离散正弦变换(DST)或概念上类似的变换(例如，可以将四个8×8变换应用于16×16残差值阵列)以产生残差变换系数集合。变换系数生成器504可被配置为执行离散三角变换系列中包括的变换的任何和全部组合，包括其近似。变换系数生成器504可将变换系数输出到系数量化单元506。系数量化单元506可被配置为执行变换系数的量化。量化过程可以减少与一些或所有系数相关联的比特深度。量化的程度可以改变经编码视频数据的率失真(即比特率与视频质量的关系)。量化的程度可以通过调整量化参数(QP)来修改。可以基于切片位阶值和/或CU位阶值(例如，CU增量QP值)来确定量化参数。QP数据可以包括用于确定用于量化特定变换系数集合的QP的任何数据。如图5所示，量化的变换系数(可被称为位阶值)被输出到逆量化和变换系数处理单元508。逆量化和变换系数处理单元508可被配置为应用逆量化和逆变换来生成重构残差数据。如图5所示，在求和器510处，重构残差数据可以被添加到预测视频块。这样，可以重构编码的视频块，并且可以使用所得重构视频块来评估给定的预测、变换和/或量化的编码质量。视频编码器500可被配置为执行多个编码回合(例如，在改变预测、变换参数和量化参数中的一者或多者的同时执行编码)。比特流的率失真或其他系统参数可以基于重构视频块的评估来优化。此外，重构视频块可被存储并用作预测后续块的参考。

再次参考图5，帧内预测处理单元512可被配置为针对待编码视频块选择帧内预测模式。帧内预测处理单元512可被配置为评估帧并且确定用以编码当前块的帧内预测模式。如上所述，可能的帧内预测模式可以包括平面预测模式、DC预测模式和角度预测模式。此外，应当指出的是，在一些示例中，可以根据亮度预测模式的预测模式来推断色度分量的预测模式。帧内预测处理单元512可在执行一个或多个编码回合之后选择帧内预测模式。此外，在一个示例中，帧内预测处理单元512可以基于率失真分析来选择预测模式。如图5所示，帧内预测处理单元512将帧内预测数据(例如，语法元素)输出到熵编码单元518和变换系数生成器504。如上所述，对残差数据执行的变换可以是模式相关的(例如，可以基于预测模式确定二次变换矩阵)。

再次参考图5，帧间预测处理单元514可被配置为针对当前视频块执行帧间预测编码。帧间预测处理单元514可被配置为接收源视频块并且计算视频块的PU的运动矢量。运动矢量可以指示当前视频帧内的视频块的预测单元相对于参考帧内的预测块的位移。帧间预测编码可以使用一个或多个参考图片。此外，运动预测可以是单向预测(使用一个运动矢量)或双向预测(使用两个运动矢量)。帧间预测处理单元514可被配置为通过计算由例如绝对差之和(SAD)、平方差之和(SSD)或其他差值度量确定的像素差来选择预测块。如上所述，可以根据运动矢量预测来确定和指定运动矢量。如上所述，帧间预测处理单元514可被配置为执行运动矢量预测。帧间预测处理单元514可被配置为使用运动预测数据生成预测块。例如，帧间预测处理单元514可定位帧缓冲器内的预测视频块(图5中未示出)。应当指出的是，帧间预测处理单元514可以进一步被配置为将一个或多个内插滤波器应用于重构残差块，以计算用于运动估计的子整数像素值。帧间预测处理单元514可将所计算的运动矢量的运动预测数据输出到熵编码单元518。

如图5所示，滤波器单元516接收重构的视频块和编码参数，并且输出已修改的重构视频数据。滤波器单元516可被配置为执行解块和/或样本自适应偏移(SAO)滤波。SAO滤波是一种可用于通过向重构视频数据添加偏移以改善重构的非线性振幅映射。应当指出的是，如图5所示，帧内预测处理单元512和帧间预测处理单元514可以经由滤波器单元216接收经修改的重构视频块。熵编码单元518接收量化的变换系数和预测语法数据(即，帧内预测数据和运动预测数据)。应当指出的是，在一些示例中，系数量化单元506可以在将系数输出到熵编码单元518之前执行对包括量化变换系数的矩阵的扫描。在其他示例中，熵编码单元518可执行扫描。熵编码单元518可以被配置为根据本文所述的技术中的一种或多种技术执行熵编码。这样，视频编码器500表示被配置为根据本公开的一种或多种技术生成编码视频数据的设备的示例。

再次参考图1，数据封装器107可以接收编码视频数据，并根据定义的数据结构生成兼容比特流，例如，NAL单元序列。接收兼容比特流的设备可以从其再现视频数据。此外，如上所述，子比特流提取可以指通过丢弃和/或修改接收的比特流中的数据，接收兼容比特流的设备形成新的兼容比特流的过程。应当指出的是，可以使用术语符合性比特流来代替术语兼容比特流。在一个示例中，数据封装器107可被配置为根据本文所述的一种或多种技术生成语法。应当指出的是，数据封装器107不需要必须位于与视频编码器106相同的物理设备中。例如，被描述为由视频编码器106和数据封装器107执行的功能可以分布在图4所示的设备中。

如上所述，JVET-AE2032中提供的信令可能不太理想。在一个示例中，根据本文的技术，

spti_sublayer_source_picture_interval_scale_factor[spti_max_sublayers_minus1]可以不被发送信号通知用于最高时间子层，而是可以推断其值。一般认为，此信令不会导致灵活性的任何损失，因为语法元素spti_num_units_in_elemental_source_picture_interval和spti_time_scale可充分且灵活地定义最高时间子层的元素源图片间隔。表8示出了根据本文的技术的源图片定时SEI消息的语法示例。

表8

关于表8，在一个示例中，语义可以基于上面所提供的语义以及以下语义：

SourcePictureInterval[i]＝ElementalSourcePictureInterval*

spti_sublayer_source_picture_interval_scale_factor[i]

当图片n是输出的具有小于或等于i的TemporalId的图片并且不是输出的比特流的第一个图片时，变量SourcePictureTime[n]的值如下导出：-如果temporalReversalFlag等于0，则SourcePictureTime[n]＝

SourcePictureTime[previousPicInOutputOrder]+SourcePictureInterval[i]

-否则，temporalReversalFlag等于1，SourcePictureTime[n]＝

SourcePictureTime[previousPicInOutputOrder]-SourcePictureInterval[i]

推断spti_sublayer_source_picture_interval_scale_factor[spti_max_sublayers_min us1]等于1。

或

当不存在时，推断spti_sublayer_source_picture_interval_scale_factor[i]等于1。

或

当spti_max_sublayers_minus1等于0时，

或

当spti_max_sublayers_minus1等于0时，推断spti_sublayer_source_picture_interval_scale_factor[i]等于1。

或

当spti_max_sublayers_minus1等于0时，推断spti_sublayer_source_picture_interval_scale_factor[0]等于1。

关于表8，在一个示例中，条件if(i！＝spti_max_sublayers_minus1)可替代地被改为if(spti_max_sublayers_minus1>0)或if((i！＝0)&&(spti_max_sublayers_minus1>0))或if(i<spti_max_sublayers_minus1)。

在一个示例中，根据本文的技术，可用-1编码来发送信号通知时间尺度，以在语法上避免发送信号通知时间尺度为0的值。表9示出了根据本文的技术的源图片定时SEI消息的语法示例。

表9

关于表9，在一个示例中，语义可以基于上面所提供的语义以及以下语义：

spti_time_scale_minus1加1指定了一秒钟内经过的时间单位数。例如，使用27MHz时钟测量时间的时间坐标系的spti_time_scale_minus1为27,000,000-1。

spti_num_units_in_elemental_source_picture_interval指定了以频率(spti_time_scale_minus1+1)运行的时钟的时间单位数，该频率对应于CLVS中按输出顺序的连续图像的所指示元素源图像间隔。

所指示的元素源图片间隔，也由变量ElementalSourcePictureInterval表示，以秒为单位，等于spti_num_units_in_elemental_source_picture_interval除以(spti_time_scale_minus1+1)的商。例如，为了表示等于0.04秒的元素源图片间隔，(spti_time_scale_minus1+1)可等于27,000,000，并且spti_num_units_in_elemental_source_picture_interval可等于1,080,000。

应当指出的是，关于表6，语法需要发送信号通知每个时间子层的特定信息(元素源图片持续时间、合成标志)。一般认为，为了改善信令，应当任选地针对每个时间子层发送信号通知该信息，并且应当启用针对所有时间子层或针对最高时间子层发送信号通知该信息，或者另选地应当启用有条件地发送信号通知该信息。在一个示例中，根据本文的技术，可发送信号通知标志，该标志指定了是针对每个时间子层还是仅针对最高时间子层发送信号通知信息(例如，元素源图片持续时间、合成标志)。表10A和表10B示出了根据本文的技术的源图片定时SEI消息的语法示例。

表10A

在一个示例中，语法元素spti_max_sublayers_minus_1的存在可以根据spti_sublayer_info_present_flag的值来确定，例如如下表10B所示：

表10B

关于表10A和表10B，在一个示例中，语义可以基于上面所提供的语义以及以下语义：

spti_sublayer_info_present_flag等于1指示对于i在0至spti_max_sublayers_minus1-1的范围内时，存在语法元素spti_sublayer_source_picture_interval_scale_factor[i]和spti_sublayer_synthesized_flag[i]。spti_sublayer_info_present_flag等于0指示对于i在0至spti_max_sublayers_minus1-1的范围内时，不存在语法元素spti_sublayer_source_picture_interval_scale_factor[i]和spti_sublayer_synthesized_flag[i]。

spti_max_sublayers_minus_1加1指定了CLVS中可能存在的时间子层的最大数量。当不存在时，推断spti_max_sublayers_minus_1的值等于0。

表11示出了根据本文的技术的源图片定时SEI消息的语法示例。

表11

关于表11，在一个示例中，语义可以基于上面所提供的语义以及以下语义：

推断spti_sublayer_source_picture_interval_scale_factor[spti_max_sublayers_min us1]等于1。或

当不存在时，推断spti_sublayer_source_picture_interval_scale_factor[i]等于1。或

当spti_max_sublayers_minus1等于0时，

推断spti_sublayer_source_picture_interval_scale_factor[spti_max_sublayers_minus1]等于1。或

或

在一个示例中，当SPTI SEI消息提供了关于慢动作视频的信息时，发送信号通知的值可如下：

spti_time_scale＝27,000,000

spti_num_units_in_elemental_source_picture_interval＝1,080,000

spti_max_sublayers_minus1＝2(i.e.3Temporal sublayers with TemporalID,0,1,2)

spti_sublayer_source_picture_interval_scale_factor[2]＝1

spti_sublayer_source_picture_interval_scale_factor[1]＝2

spti_sublayer_source_picture_interval_scale_factor[0]＝4

此信令允许i在0至2(包括端值)的范围内的所有spti_sublayer_source_picture_interval_scale_factor[i]的值，或者仅允许发送信号通知/推断spti_sublayer_source_picture_interval_scale_factor[2]的值。一般认为，对于典型的使用场景，当CLVS包含3个时间子层时，知道SourcePictureInterval[2]等于ElementalSourcePictureInterval*spti_num_units_in_elemental_source_picture_interval[2]这一信息可能就足够了，因为这提供了在所有时间子层都存在时连续源图片之间的间隔。而且，任选地，编码器可提供语法元素spti_sublayer_source_picture_interval_scale_factor[0]和spti_sublayer_source_picture_interval_scale_factor[1]的值(当spti_sublayer_info_present_flag等于1时)。

在一个示例中，如果标志spti_sublayer_info_present_flag为1，则发送信号通知信息spti_sublayer_source_picture_interval_scale_factor[i]和spti_sublayer_synthesized_picture_flag[i]，否则不发送信号通知。表12示出了根据本文的技术的源图片定时SEI消息的语法示例。

表12

关于表12，在一个示例中，语义可以基于上面所提供的语义以及以下语义：

spti_sublayer_info_present_flag等于1指示存在语法元素spti_sublayer_source_picture_interval_scale_factor[i]和spti_sublayer_synthesized_flag[i]。spti_sublayer_info_present_flag等于0指示不存在语法元素spti_sublayer_source_picture_interval_scale_factor[i]和spti_sublayer_synthesized_flag[i]。

表13示出了根据本文的技术的源图片定时SEI消息的语法示例。

表13

关于表13，在一个示例中，语义可以基于上面所提供的语义以及以下语义：

spti_sublayer_info_present_flag等于1指示存在语法元素spti_max_sublayers_minus1、spti_sublayer_source_picture_interval_scale_factor[i]和spti_sublayer_synthesized_flag[i]。spti_sublayer_info_present_flag等于0指示不存在语法元素spti_max_sublayers_minus1、spti_sublayer_source_picture_interval_scale_factor[i]和spti_sublayer_synthesized_flag[i]。

在一个示例中，语法元素spti_max_sublayers_minus1可另选地发送信号通知为spti_max_sublayers_plus1，其中值0具有特殊含义。表14示出了根据本文的技术的源图片定时SEI消息的语法示例。

表14

关于表14，在一个示例中，语义可以基于上面所提供的语义以及以下语义：

spti_max_sublayers_plus1等于0指定了不存在语法元素spti_sublayer_source_picture_interval_scale_factor[i]、spti_sublayer_synthesized_flag[i]。当spti_max_syblayers_plus1大于0时，spti_max_sublayers_plus1-1指定了可存在于CLVS中的时间子层的最大数量。

在一个示例中，源图片定时信息中的语法可以被布置为其中仅当spti_source_timing_equals_output_timing_flag等于0时才发送信号通知语法元素spti_source_picture_timing_type。应当指出的是，spti_source_picture_timing_type语法元素仅提供了元数据，这些元数据可能主要在源图片定时与经解码图片输出定时不相同时才有用，并且它的使用仅在这些语法元素(例如，spti_sublayer_source_picture_interval_scale_factor[i]、spti_time_scale、spti_num_units_in_elemental_source_picture_interval)实际上被发送信号通知时(即，当spti_source_timing_equals_output_timing_flag等于0时)才会与这些语法元素一起进行。表15示出了根据本文的技术的源图片定时SEI消息的语法示例。

表15

关于表15，在一个示例中，语义可以基于上面所提供的语义。

一般认为，语法元素spti_sublayer_synthesized_picture_flag[i]提供了元数据信息，并且因此其应当任选地发送信号通知。在一个示例中，根据本文的技术，可发送信号通知标志，其指定是否存在语法元素spti_sublayer_synthesized_picture_flag[i]。表16示出了根据本文的技术的源图片定时SEI消息的语法示例。

表16

关于表16，在一个示例中，语义可以基于上面所提供的语义以及以下语义：

spti_sublayer_synthesized_picture_flag_present_flag等于0指定了不存在语法元素spti_sublayer_synthesized_picture_flag[i]。

spti_sublayer_synthesized_picture_flag_present_flag等于1指定了对于在0至spti_max_sublayers_minus1的范围内(包括端值)的i的每个值，存在语法元素spti_sublayer_synthesized_picture_flag[i]。

一般认为，在常见情况下，spti_sublayer_synthesized_picture_flag[i]的值对于所有时间子层可相同。此外，spti_sublayer_synthesized_picture_flag[i]的值对于除最低时间子层之外的所有时间子层或者在某个时间子层或之上的时间子层可能是相同的。根据本文的技术，指示符语法元素spti_sublayer_synthesized_picture_idc可通过不同的值发送信号通知来指定以下情况：spti_sublayer_synthesized_picture_flag[i]是否(完全)不发送信号通知，是否为每个i单独发送信号通知，或者是否对于每个i(或对于除了i等于0的每个i，或对于处于或高于某个值的每个i)始终具有值0或1。然后，语法元素spti_sublayer_synthesized_picture_flag[i]可仅在spti_sublayer_synthesized_picture_info_idc指定了对于每个i单独发送信号通知时有条件地发送信号通知。表17示出了根据本文的技术的源图片定时SEI消息的语法示例。

表17

关于表17，在一个示例中，语义可以基于上面所提供的语义以及以下语义：

spti_sublayer_synthesized_picture_idc等于0指定了不存在语法元素spti_sublayer_synthesized_picture_flag[i]。

spti_sublayer_synthesized_picture_idc等于1指定了对于在0至spti_max_sublayers_minus1的范围内(包括端值)的i的每个值，存在语法元素spti_sublayer_synthesized_picture_flag[i]。

spti_sublayer_synthesized_picture_idc等于2指定了对于在0至spti_max_sublayers_minus1的范围内(包括端值)的i的每个值，不存在语法元素spti_sublayer_synthesized_picture_flag[i]，并且该语法元素被推断为等于0。

spti_sublayer_synthesized_picture_idc等于3指定了对于在0至spti_max_sublayers_minus1的范围内(包括端值)的i的每个值，不存在语法元素spti_sublayer_synthesized_picture_flag[i]，并且该语法元素被推断为等于1。

或者，其中假设最低时间子层未被合成：

spti_sublayer_synthesized_picture_idc等于2指定了

对于在1至spti_max_sublayers_minus1的范围内(包括端值)的i的每个值，不存在语法元素spti_sublayer_synthesized_picture_flag[i]，并且该语法元素被推断为等于0。

spti_sublayer_synthesized_picture_idc等于3指定了

对于在1至spti_max_sublayers_minus1的范围内(包括端值)的i的每个值，不存在语法元素spti_sublayer_synthesized_picture_flag[i]，并且该语法元素被推断为等于1。

在一个示例中，上述范围中的下限值可能会改变为某个其他固定值、预先指定的值或发送信号通知的值。而且，在一个示例中，范围的高值(上面的spti_max_sublayers_minus1)可能会改变为固定的、预先指定的或发送信号通知的不同值。

在一个示例中，可发送信号通知指定了时间子层的附加语法元素，在该时间子层处或高于该时间子层，spti_sublayer_synthesized_picture_flag[i]等于特定值。表18示出了根据本文的技术的源图片定时SEI消息的语法示例。

表18

关于表18，在一个示例中，语义可以基于上面所提供的语义以及以下语义：

spti_sublayer_synthesized_picture_low_sublayer指定了时间子层，该时间子层与

值等于2的spti_sublayer_synthesized_picture_idc

一起指定了spti_spublicayer_syntherated_picture_flag[i]的值。spti_sublayer_synthesized_picture_low_sublayer应小于或等于spti_max_sublayers_minus1+1；

spti_sublayer_synthesized_picture_idc等于0指定了

不存在语法元素spti_sublayer_synthesized_picture_flag[i]。

spti_sublayer_synthesized_picture_idc等于1指定了

对于0至

spti_max_sublayers_minus1(包括端值)范围内的i的每个值存在语法元素spti_sublayer_synthesized_picture_flag[i]。

spti_sublayer_synthesized_picture_idc等于2指定了

对于在spti_sublayer_synthesized_picture_low_sublayer至spti_max_sublayers_minus1(包括端值)的范围内的i的每个值，不存在语法元素spti_sublayer_synthesized_picture_flag[i]，并且该语法元素被推断为等于1，否则(即，对于i，0至spti_sublayer_synthesized_picture_low_sublayer-1的范围)，该语法元素被推断为等于0，并且保留等于3的spti_sublayer_synthesized_picture_idc。

在一个示例中，当spti_sublayer_synthesized_picture_idc等于2时，可在时间子层处于或高于spti_sublayer_synthesized_picture_low_sublayer时发送信号通知语法元素spti_sublayer_synthesized_picture_flag[i]。表19示出了根据本文的技术的源图片定时SEI消息的语法示例。

表19

关于表19，在一个示例中，语义可以基于上面所提供的语义以及以下语义：

spti_sublayer_synthesized_picture_low_sublayer指定了时间子层，该时间子层与值等于2的spti_sublayer_synthesized_picture_idc一起指定了spti_sublayer_synthesized_picture_flag[i]的值。spti_sublayer_synthesized_picture_low_sublayer应小于或等于spti_max_sublayers_minus1+1；

spti_sublayer_synthesized_picture_idc等于0指定了

不存在语法元素spti_sublayer_synthesized_picture_flag[i]。

spti_sublayer_synthesized_picture_idc等于1指定了

对于0至

spti_sublayer_synthesized_picture_idc等于2指定了

不存在语法元素spti_sublayer_synthesized_picture_flag[i]，并且该语法元素被推断为等于0(对于i，0至spti_sublayer_synthesized_picture_low_sublayer-1的范围)，并且它们以其他方式发送信号通知。

等于3的spti_sublayer_synthesized_picture_idc被保留。

以此方式，视频编码器500表示被配置为执行以下操作的设备的示例：发送信号通知源图片定时信息消息；在该源图片定时信息消息中发送信号通知指定时间子层的最大数量的第一语法元素；以及在该源图片定时信息消息中发送信号通知针对该最大数量的时间子层中除了该最大数量的时间子层中的最高者之外的每个时间子层的第二语法元素的相应实例，其中该第二语法元素指定了用于确定按输出顺序的对应连续图片的源图片间隔的比例因子。

再次参考图1，接口108可以包括被配置为接收由数据封装器107生成的数据并且将数据传输和/或存储到通信介质的任何设备。接口108可以包括网络接口卡诸如以太网卡，并且可以包括光收发器、射频收发器或者可以发送和/或接收信息的任何其他类型的设备。此外，接口108可以包括计算机系统接口，该计算机系统接口可以使文件能够存储在存储设备上。例如，接口108可以包括支持外围部件互连(PCI)和高速外围部件互连(PCIe)总线协议、专用总线协议、通用串行总线(USB)协议、I²C的芯片组、或可用于互连对等设备的任何其他逻辑和物理结构。

再次参考图1，目标设备120包括接口122、数据解封装器123、视频解码器124和显示器126。接口122可以包括被配置为从通信介质接收数据的任何设备。接口122可以包括网络接口卡诸如以太网卡，并且可以包括光收发器、射频收发器或者可以接收和/或发送信息的任何其他类型的设备。此外，接口122可以包括允许从存储设备检索兼容视频比特流的计算机系统接口。例如，接口122可以包括支持PCI和PCIe总线协议、专用总线协议、USB协议、I²C的芯片组，或者可用于互连对等设备的任何其他逻辑和物理结构。数据解封装器123可被配置为接收和解析本文所述的任何示例语法结构。

视频解码器124可以包括被配置为接收比特流(例如，子比特流提取)和/或其可接受变体且从其再现视频数据的任何设备。显示器126可以包括被配置为显示视频数据的任何设备。显示器126可以包括各种显示设备诸如液晶显示器(LCD)、等离子显示器、有机发光二极管(OLED)显示器或另外的类型的显示器中的一种。显示器126可以包括高清显示器或超高清显示器。应当指出的是，尽管在图1所示的示例中，视频解码器124被描述为将数据输出到显示器126，但视频解码器124可以被配置为将视频数据输出到各种类型的设备和/或其子部件。例如，视频解码器124可被配置为将视频数据输出到任何通信介质，如本文所述。

图6是示出根据本公开的一种或多种技术的可被配置为对视频数据进行解码的视频解码器的示例的框图(例如，用于上述参考图片列表构建的解码过程)。在一个示例中，视频解码器600可被配置为对变换数据进行解码并基于解码的变换数据从变换系数重构残差数据。视频解码器600可被配置为执行帧内预测解码和帧间预测解码，并且因此可被称为混合解码器。视频解码器600可被配置为解析上面在表1至表19中所述的语法元素的任何组合。视频解码器600可以基于或根据上述过程并且还基于表1至表19中的解析值来对视频进行解码。

在图6所示的示例中，视频解码器600包括熵解码单元602、逆量化单元604、逆变换系数处理单元606、帧内预测处理单元608、帧间预测处理单元610、求和器612、后置滤波器单元614和参考缓冲器616。视频解码器600可被配置为以与视频编码系统一致的方式对视频数据进行解码。应当指出的是，尽管所示的示例性视频解码器600具有不同的功能块，但此类图示旨在用于描述目的，并且不将视频解码器600和/或其子部件限制为特定的硬件或软件架构。可使用硬件、固件和/或软件具体实施的任何组合来实现视频解码器600的功能。

如图6所示，熵解码单元602接收熵编码的比特流。熵解码单元602可被配置为根据与熵编码过程互逆的过程从比特流中解码语法元素和量化系数。熵解码单元602可被配置为根据上文所述的任何熵编码技术来执行熵解码。熵解码单元602可以与视频编码标准一致的方式确定编码的比特流中的语法元素的值。如图6所示，熵解码单元602可以从比特流确定量化参数、量化系数值、变换数据和预测数据。在如图6所示的示例中，逆量化单元604和逆变换系数处理单元606从熵解码单元602接收量化系数值，并输出重构残差数据。

再次参见图6，可以将重构残差数据提供给求和器612。求和器612可以将重构残差数据添加到预测视频块并且生成重构视频数据。可根据预测视频技术(即帧内预测和帧间预测)确定预测视频块。帧内预测处理单元608可被配置为接收帧内预测语法元素并且从参考缓冲器616检索预测视频块。参考缓冲器616可以包括被配置为存储一个或多个视频数据帧的存储器设备。帧内预测语法元素可识别帧内预测模式，诸如上述的帧内预测模式。帧间预测处理单元610可接收帧间预测语法元素并生成运动矢量，以识别存储在参考缓冲器616中的一个或多个参考帧中的预测块。帧间预测处理单元610可生成运动补偿块，可能基于内插滤波器来执行内插。用于具有子像素精度的运动估计的内插滤波器的标识符可以包括在语法元素中。帧间预测处理单元610可使用内插滤波器来计算用于参考块的亚整数像素的内插值。后置滤波器单元614可被配置为对重构视频数据执行滤波。例如，后置滤波器单元614可被配置为执行解块和/或样本自适应偏移(SAO)滤波，例如基于在比特流中指定的参数。此外，应当指出的是，在一些示例中，后置滤波器单元614可被配置为执行专用的任意滤波(例如，视觉增强，诸如蚊状噪声消除)。如图6所示，视频解码器600可以输出重构的视频块。以此方式，视频解码器600表示被配置为执行以下操作的设备的示例：接收源图片定时信息消息；从该源图片定时信息消息中解析指定时间子层的最大数量的第一语法元素；以及从该源图片定时信息消息中解析针对该最大数量的时间子层中除了该最大数量的时间子层中的最高者之外的每个时间子层的第二语法元素的相应实例，其中该第二语法元素指定了用于确定按输出顺序的对应连续图片的源图片间隔的比例因子。

在一个或多个示例中，所述功能可以通过硬件、软件、固件或它们的任何组合来实现。如果以软件实现，则可将功能作为一个或多个指令或代码存储在计算机可读介质上或经由计算机可读介质上传输，并且由基于硬件的处理单元执行。计算机可读介质可以包括对应于有形介质诸如数据存储介质的计算机可读存储介质，或者包括例如根据通信协议促进计算机程序从一个地方传输到另一个地方的任何介质的传播介质。这样，计算机可读介质通常可以对应于：(1)非暂态的有形计算机可读存储介质，或者(2)通信介质诸如信号或载波。数据存储介质可以是可以由一个或多个计算机或一个或多个处理器访问以检索用于实现本公开中所述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可以包括计算机可读介质。

以举例而非限制的方式，此类计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储设备、磁盘存储设备或其他磁存储设备、闪存存储器，或者可用于存储指令或数据结构形式的所需程序代码并且可由计算机访问的任何其他介质。而且，任何连接都被适当地称为计算机可读介质。例如，如果使用同轴电缆、光纤电缆、双绞线、数字用户线路(DSL)或无线技术诸如红外线、无线电和微波从网站、服务器或其他远程源传输指令，则同轴电缆、光纤电缆、双绞线、DSL或无线技术诸如红外线、无线电和微波都包含在介质的定义中。然而，应当理解，计算机可读存储介质和数据存储介质不包括连接、载波、信号或其他暂态介质，而是针对非暂态有形存储介质。如本文所用，磁盘和光盘包括压缩光盘(CD)、激光盘、光学光盘、数字通用光盘(DVD)、软磁盘及Blu-ray光盘，其中磁盘通常以磁性方式复制数据，而光盘则利用激光以光学方式复制数据。上述的组合也应该包括在计算机可读介质的范围内。

可以由一个或多个处理器诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其他等效集成或离散逻辑电路执行指令。因此，如本文所用的术语“处理器”可以指任何前述结构或适用于实现本文所描述的技术的任何其他结构。此外，在一些方面中，可以在被配置用于编码和解码的专用硬件和/或软件模块内提供本文所述的功能，或者将其结合到组合编解码器中。而且，这些技术可以完全在一个或多个电路或逻辑元件中实现。

本公开的技术可以在各种设备或装置(包括无线手机、集成电路(IC)或一组IC(例如，芯片组))中实现。在本公开中描述了各种部件、模块或单元，以强调被配置为执行所公开的技术的设备的功能方面，但是不一定需要通过不同的硬件单元来实现。相反，如上所述，可以将各种单元组合在编解码器硬件单元中，或者通过互操作硬件单元包括如上所述的一个或多个处理器的集合，结合合适的软件和/或固件来提供各种单元。

此外，每个上述实施方案中所使用的基站设备和终端设备的每个功能块或各种特征可通过电路(通常为一个集成电路或多个集成电路)实现或执行。被设计为执行本说明书中所述的功能的电路可以包括通用处理器、数字信号处理器(DSP)、专用或通用集成电路(ASIC)、现场可编程门阵列(FPGA)或其他可编程逻辑设备、分立栅极或晶体管逻辑器或分立硬件部件或它们的组合。通用处理器可以是微处理器，或另选地，该处理器可以是常规处理器、控制器、微控制器或状态机。通用处理器或上述每种电路可由数字电路进行配置，或可由模拟电路进行配置。此外，当由于半导体技术的进步而出现制成取代当前集成电路的集成电路的技术时，也能够使用通过该技术生产的集成电路。

已经描述了各种示例。这些示例和其他示例在以下权利要求的范围内。

Claims

1.一种对视频数据进行解码的方法，所述方法包括：

接收源图片定时信息消息；

解析所述源图片定时信息消息中的第一标志，其中所述第一标志指示源图片的定时是否与对应的解码输出图片的定时相同；

当所述第一标志指示源图片中的所述定时与对应的解码输出图片的所述定时不相同时，解析所述源图片定时信息消息中的第一语法元素，其中，所述第一语法元素指示源图片和对应的解码输出图片之间的定时关系；

解析所述源图片定时信息消息中的第二语法元素，其中所述第二语法元素加1指定时间子层的最大数量；以及

解析所述源图片定时信息消息中的第三语法元素，其中所述第三语法元素通过0到所述第二语法元素的值的范围内的整数来被定义，且

所述第三语法元素指定被用于确定对应的图片的源图片间隔的缩放因子。

2.一种包括一个或者多个处理器的设备，所述一个或者多个处理器被配置为：

接收源图片定时信息消息；

3.根据权利要求2所述的设备，其中，

所述设备包括视频解码器。

4.一种包括一个或者多个处理器的设备，所述一个或者多个处理器被配置为：

发送信号通知源图片定时信息消息；

其中所述源图片定时信息消息包括：

第一标志，其中所述第一标志指示源图片的定时是否与对应的解码输出图片的定时相同；

当所述第一标志指示源图片中的所述定时与对应的解码输出图片的所述定时不相同时的第一语法元素，其中，所述第一语法元素指示源图片和对应的解码输出图片之间的定时关系；

第二语法元素，其中所述第二语法元素加1指定时间子层的最大数量；以及

第三语法元素，其中所述第三语法元素通过0到所述第二语法元素的值的范围内的整数来被定义，且

5.一种对视频数据进行编码的方法，所述方法包括：

发送信号通知源图片定时信息消息；

其中所述源图片定时信息消息包括：