CN110249628A

CN110249628A - 用于预测分区的视频编码器和解码器

Info

Publication number: CN110249628A
Application number: CN201780085826.4A
Authority: CN
Inventors: 赵志杰; 马克斯·布莱瑟; 麦蒂尔斯·韦恩
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-02-06
Filing date: 2017-02-06
Publication date: 2019-09-17
Anticipated expiration: 2037-02-06
Also published as: EP3571839A1; US20190364296A1; CN110249628B; US10771808B2; WO2018141416A1; EP3571839B1

Abstract

本发明提供一种视频编码器100和视频解码器200，可用于：基于至少一个分区预测值对当前图片302中的块301进行分区。所述编码器100和解码器200用于选择至少一个参考图片303a和所述至少一个参考图片303a中的多个块304a。基于与所述参考图片303a中的所选块304a相关联的运动向量，进一步计算每个所选块304a在所述当前图片302中的投影位置。然后，将每个投影位置与所述当前图片302中的块301在空间上重叠的所选块304a确定为参考块，并基于与所述至少一个参考图片303a相关联的分区信息，例如，存储在所述至少一个参考图片303a中的分区信息，为至少一个参考块生成分区预测值。

Description

用于预测分区的视频编码器和解码器

技术领域

本发明涉及视频处理领域，具体涉及通常称为视频编码的主题。特别地，本发明提出了一种视频编码器和视频解码器，用于基于至少一个分区预测值对当前图片中的块进行分区，即用于进行预测块分区。本发明还涉及相应的视频编码和解码方法。

背景技术

在当前的视频编码方案中，例如H.264/AVC和HEVC，帧间预测图片中的运动信息被划分为可配置大小的矩形块。在H.264/AVC中，所述运动被划分为具有最大16x16像素大小的对称块，这些块被称为宏块并且可以进一步细分为最小4x4像素，而HEVC用最大尺寸为64x64像素的编码树单元(coding tree unit，简称CTU)替代了宏块。所述CTU不仅仅是一个更大的宏块，因为通过四叉树分解方案，所述CTU可以划分为更小的编码单元(codingunit，简称为CU)，这些编码单元可以细分为最小8x8像素。此外，与H.264/AVC不同，HEVC支持编码单元到预测单元(prediction unit，简称PU)的非对称块分区(asymmetric blockpartitioning，简称AMP)。

HEVC的所述块分区完全基于矩形块。对于在自然视频序列中较为常见的任意形状的移动物体，可以沿物体边界进行非常精细的块分区。由于边界两侧的运动向量在方向和幅度上相似，因此引入了编码开销。也就是说，需要传输额外的边信息，以便描述所述精细块分区和冗余运动向量。

通过应用不同的块分区策略可以避免这个问题。在视频编码中，通常有以下块分区方法：矩形块分区、几何块分区和基于对象的块分区。

这些不同分区方法的示例在图9中示出，图中示出了移动前景目标和移动背景的简单场景。HEVC的四叉树PU分区，以及相关的四叉树-二叉树分区法是矩形块分区的代表。通过将具有直线的块分成两个分段(在此也称为楔形)来实现几何分区。基于对象的分区是块分区最灵活的方式，因为块可以划分为任意形状的分段。

然而，更灵活的块分区会带来以下挑战：与矩形块分区相比，可能需要发送更多的边信息给分区结构。另外，确定编码器处的分区通常会使复杂性显著增加。

在现有技术中，例如在HEVC中，最佳分区的确定是编码器的任务。通常，比率失真优化用于确定穷尽搜索中的分区。此外，所述比率失真优化对于多种内部和外部条件具有高度的针对性，例如编码器实现、目标比特率、质量、应用场景等。

HEVC中的块分区也局限于编码块的矩形分区。详细地，这意味着可以将方形编码块分成两个矩形预测块，其中每个预测块与最多两个运动向量相关联。与在AVC中一样，指定了水平和垂直分成两个大小相等的矩形块。在此扩展中，指定了四种不对称分区，以进一步提高灵活性。因此，总共在HEVC中指定了八种分区模式。

将运动的时间投影的简化方法用于运动向量的编码。在合并模式中，合并候选列表由空间和时间相邻运动向量构成。对于所述空间运动向量，使用当前图片的运动向量场，所述运动向量场包含与当前图片的块相关联的运动向量。在当前预测块周围的特定位置处采样的运动向量被添加到所述合并候选列表。对于所述时间运动向量，使用参考图片的运动向量场。这里，在两个并置位置对所述运动向量场进行采样，其中所述并置位置表示为C₀和C₁，如图10所示。

假设所述当前图片和参考图片的所述运动向量场高度相关并且不会发生显著变化，可以预期，在所述参考图片运动向量场中的位置C₀或C₁处，可以发现运动预测值。

发明内容

鉴于上述问题和缺点，本发明的目的是改进视频编码的现有技术。本发明的特定目的是提供一种编码器和解码器，以采用预测块分区方法。因此，本发明希望改进块分区相关边信息的编码，并改进具体为几何分区和基于对象的分区的块分区方法，例如基于分段的分区(segmentation-based-partitioning，简称SBP)。

本发明的目的通过所附独立权利要求中提供的解决方案实现。本发明的有利的实现方案在从属权利要求中进一步定义。

具体地，本发明提出使用基于至少一个参考图片的运动向量场的时间投影过程，以便生成分区预测值，用于当前图片的块分区。图片的运动向量场通常包含与所述图片的块相关联的运动向量。也就是说，所述参考图片的运动向量场包含与所述参考图片中的块相关联的运动向量。

本发明的第一方面提供一种视频编码器，所述编码器用于：选择至少一个参考图片和所述至少一个参考图片中的多个块；基于与所述参考图片中的所选块相关联的运动向量，计算每个所选块在当前图片中的投影位置；将每个投影位置与所述当前图片中的所述块在空间上重叠的所选块确定为参考块；并基于与所述至少一个参考图片相关联的分区信息，例如，存储在所述至少一个参考图片中的分区信息，为至少一个参考块生成分区预测值。

根据所述第一方面，实现了预测块分区。具体地，例如，已经编码的图片的运动向量场，可以根据对象的运动等在时间上投影分区结构，使得其可以用作所述当前图片中的分区预测值。也就是说，所述分区预测值是要应用于所述当前图片中的编码块的分区结构的预测。换句话说，所述分区预测值是对所述当前编码块的最佳分区的估计。可以对所有现有的块分区方法进行分区信息的投影，例如，对于基于矩形、基于几何和基于对象的分区进行投影。

利用所述预测块分区，可以获得特定的好处。首先，可以生成当前编码块的分区结构的预测(分区预测值)，例如，可以由当前块直接使用，并且可以通过预测值标志或预测值索引发送，以防存在多个预测值。如果几个所选块已确定为参考块，并且计算多个参考块的分区预测值，则可能出现上述情况。在根据比率失真标准有益的情况下，可以使用差分编码方法进一步细化分区预测值。其次，所述分区预测值可以用作所述编码器的比率失真优化的起点。也就是说，所述编码器可以用于：基于至少一个分区预测值，来划分当前图片中的块。因此，可以使用快速决策方法，这种方法在指定数量的细化步骤之后，或如果已经实现的比率失真成本低于指定阈值，会结束所述比率失真优化。这降低了复杂性，并加快了编码速度。

根据所述第一方面，在所述编码器的第一种实施方式中，所述编码器用于：基于与所述参考图片中的所选块相关联的运动向量和所述当前图片与所述至少一个参考图片之间的在时间上的图像顺序编号(picture order count，简称POC)距离，计算每个所选块在时间上的运动轨迹，并基于所述参考图片中所选块的位置和所述运动轨迹，计算每个所选块的所述投影位置。

通过这种方式可以精确和有效地计算所述运动轨迹。

根据所述第一方面的第一种实施方式，在所述编码器的第二种实施方式中，所述编码器用于：根据两个POC距离的比值，即所述当前图片和参考图片的所述POC距离与所述参考图片和与所选块相关联的参考图片之间的所述POC距离的比值，通过与所选块相关联的运动向量的反转和缩放，来计算所述运动轨迹。

该实现方式是预测块分区的实际实现方式。

根据所述第一方面或根据所述第一方面的前述任一实施方式，在所述编码器的第三种实施方式中，在每个参考图片中选择的所述多个块，包括所述参考图片的所有块，或以当前图片中所述块的位置为中心的投影范围内所述参考图片的块。

第一种替代方案提供了最高精度的预测性块分区，但是计算成本随之增加。第二种替代方案是可靠且具有计算成本效益的方案。

根据所述第一方面或根据所述第一方面的前述任一实施方式，在所述编码器的第四种实施方式中，所述编码器用于构造和输出包括多个索引分区预测值的列表。

所述索引分区预测值的列表是有益的，因为可以仅发送索引以减少信令开销。

根据所述第一方面或根据所述第一方面的前述任一实施方式，在所述编码器的第五种实施方式中，所述至少一个分区预测值包括以下中的至少一个：几何分区的行参数、基于对象的分区的边界运动向量和矩形分区信息。

因此，所述预测块分区与现有块分区方法兼容。

根据所述第一方面的第五种实施方式，在所述编码器的第六种实施方式中，所述行参数由所述参考块边界处的极坐标或截断点指定，和/或所述边界运动向量指定参考图片中的分区边界。

根据所述第一方面或根据所述第一方面的前述任一实施方式，在所述编码器的第七种实施方式中，所述编码器用于：使用所述至少一个分区预测值，为所述当前图片中的所述块生成初始分区。

从所述初始分区开始，所述编码器还可以找到，就比率失真优化而言，所述块的最佳分区。因此，可以更有效和更快速地进行所述当前图片中所述块的最佳分区。

根据所述第一方面或根据所述第一方面的前述任一实施方式，在所述编码器的第八种实施方式中，所述编码器用于：向解码器发送所述至少一个分区预测值或至少一个索引，所述索引指向所述至少一个分区预测值在索引分区预测值列表中的位置。

因此，可以在所述解码器侧使用所述分区预测值。仅发送索引减少了信令开销。

根据所述第一方面或根据所述第一方面的前述任一实施方式，在所述编码器的第九种实施方式中，所述编码器用于：向解码器发送所述至少一个分区预测值和应用于所述当前图片中的所述块的最终分区之间的差异信息。可选地，所述编码器可以用于额外发送分区预测值标志和/或分区预测值索引。

通常根据比率失真优化来确定当前块的最终分区。所述差异信息是关于所述估计的分区(即，根据所述分区预测值进行的分区)和所述当前块的最终(最佳)分区之间的差异的信息。

几何分区中的所述差异信息是所述当前块中分区行的行起点和终点坐标与所述分区预测值(如图8所示)关联块中的分区行的(如图7所示，调整后的)行起点和终点坐标之间的偏移。

对于基于分段的分区，所述差异信息是所述当前块中的边界运动向量与所述分区预测值关联块的边界运动向量之间的差。

仅发送所述差异信息显著减少了信令开销，并且使得所述解码器获得分区预测值，然后基于所述分区预测值和所述差异信息，将所述块分区直接应用于当前图片中的块。

本发明的第二方面提供一种视频解码器，所述解码器用于：获得差异信息；选择至少一个参考图片和所述至少一个参考图片中的多个块；基于与所述参考图片中的所选块相关联的运动向量，计算每个所选块在当前图片中的投影位置；将每个投影位置与所述当前图片中的所述块在空间上重叠的所选块确定为参考块；并基于与所述至少一个参考图片相关联的分区信息，例如，存储在所述至少一个参考图片中的分区信息，为至少一个参考块生成分区预测值；并根据所获得的分区预测值和所述差异信息，为所述当前图片中的所述块进行分区。可选地，所述解码器可以用于额外获得/接收分区预测值标志和/或分区预测值索引。

因此，上述讨论的所述预测块分区在编码器侧的优点，在所述解码器侧亦具备。所述解码器可以使用所获得的分区预测值和所获得的差异信息，例如从所述编码器获得的信息，以便在所述当前图片中找到所述块的块分区。

根据所述第二方面，在所述解码器的第一种实施方式中，所述解码器用于：基于与所述参考图片中的所选块相关联的运动向量和所述当前图片与所述至少一个参考图片之间的在时间上的图像顺序编号(picture order count，简称POC)距离，计算每个所选块在时间上的运动轨迹，并基于所述参考图片中所选块的位置和所述运动轨迹，计算每个所选块的所述投影位置。

根据所述第二方面的第一种实施方式，在所述解码器的第二种实施方式中，所述解码器用于：根据两个POC距离的比值，即所述当前图片和参考图片的所述POC距离与所述参考图片和与所选块相关联的参考图片之间的所述POC距离的比值，通过与所选块相关联的运动向量的反转和缩放，来计算所述运动轨迹。

根据所述第二方面的或根据所述第二方面的前述任一实施方式，在所述解码器的第三种实施方式中，在每个参考图片中选择的所述多个块，包括所述参考图片的所有块，或以所述当前图片中所述块的位置为中心的投影范围内所述参考图片的块。

根据所述第二方面或根据所述第二方面的前述任一实施方式中，在所述解码器的第四种实施方式中，所述至少一个分区预测值包括以下中的至少一个：几何分区的行参数、基于对象的分区的边界运动向量和矩形分区信息。

根据所述第二方面的第四种实施方式，在所述解码器的第五种实施方式中，所述行参数由所述参考块边界处的极坐标或截断点指定，和/或所述边界运动向量指定参考图片中的分区边界。

所述解码器的实现方式实现了与上述编码器相同的优点。

本发明的第三方面提供一种视频编码方法，所述方法包括以下步骤：选择至少一个参考图片和所述至少一个参考图片中的多个块；基于与参考图片中的所选块相关联的运动向量，计算每个所选块在当前图片中的投影位置；将每个投影位置与所述当前图片中的所述块在空间上重叠的所选块确定为参考块；并基于与所述至少一个参考图片相关联的分区信息，例如，存储在所述至少一个参考图片中的分区信息，为至少一个参考块生成分区预测值。

根据所述第三方面，在所述视频编码方法的第一种实施方式中，所述方法还包括：基于与所述参考图片中的所选块相关联的运动向量和所述当前图片与所述至少一个参考图片之间的在时间上的图像顺序编号(picture order count，简称POC)距离，计算每个所选块在时间上的运动轨迹，并基于所述参考图片中所选块的位置和所述运动轨迹，计算每个所选块的所述投影位置。

根据所述第三方面的第一种实施方式，在所述视频编码方法的第二种实施方式中，所述方法还包括：根据两个POC距离的比值，即所述当前图片和参考图片的所述POC距离与所述参考图片和与所选块相关联的参考图片之间的所述POC距离的比值，通过与所选块相关联的运动向量的反转和缩放，来计算所述运动轨迹。

根据所述第三方面或根据所述第三方面的前述任一实施方式，在所述视频编码方法的第三种实施方式中，在每个参考图片中选择的所述多个块，包括所述参考图片的所有块，或以所述当前图片中所述块的位置为中心的投影范围内所述参考图片的块。

根据所述第三方面或根据所述第三方面的前述任一实施方式中，在所述视频编码方法的第四种实施方式中，所述方法还包括构造和输出包括多个索引分区预测值的列表。

根据所述第三方面或根据所述第三方面的前述任一实施方式，在所述视频编码方法的第五种实施方式中，所述至少一个分区预测值包括以下中的至少一个：几何分区的行参数、基于对象的分区的边界运动向量和矩形分区信息。

根据所述第三方面的第五种实施方式，在所述视频编码方法的第六种实施方式中，所述行参数由所述参考块边界处的极坐标或截断点指定，和/或所述边界运动向量指定参考图片中的分区边界。

在根据所述第三方面或根据所述第三方面的前述任一实施方式中，在所述视频编码方法的第七种实施方式中，所述方法还包括：使用所述至少一个分区预测值，为所述当前图片中的所述块生成初始分区。

在根据所述第三方面或根据所述第三方面的前述任一实施方式中，在所述视频编码方法的第八种实施方式中，所述方法还包括：向解码器发送分区预测标志、所述至少一个分区预测值或至少一个索引，所述索引指向所述至少一个分区预测值在索引分区预测值列表中的位置。

在根据所述第三方面或根据所述第三方面的前述任一实施方式中，在所述视频编码方法的第九种实施方式中，所述方法还包括：向解码器等发送所述至少一个分区预测值和应用于所述当前图片中的所述块的最终分区之间的差异信息。

所述第三方面的方法及其实现方式分别实现了与上述第一方面的所述编码器及其实现方式相同的优点。

本发明的第四方面提供一种视频解码方法，所述方法包括以下步骤：获得差异信息；选择至少一个参考图片和所述至少一个参考图片中的多个块；基于与所述参考图片中的所选块相关联的运动向量，计算每个所选块在所述当前图片中的投影位置；将每个投影位置与所述当前图片中的所述块在空间上重叠的所选块确定为参考块；并基于与所述至少一个参考图片相关联的分区信息，例如，存储在所述至少一个参考图片中的分区信息，为至少一个参考图片生成分区预测值；并根据所述分区预测值和所述差异信息，为所述当前图片中的所述块进行分区。可选地，所述方法可包括获得/接收分区预测值标志和/或分区预测值索引。

根据所述第四方面，在所述视频解码方法的第一种实施方式中，所述方法还包括：基于与所述参考图片中的所选块相关联的所述运动向量和所述当前图片与所述至少一个参考图片之间的在时间上的图像顺序编号(picture order count，简称POC)距离，计算每个所选块在时间上的运动轨迹，并基于所述参考图片中所选块的位置和所述运动轨迹，计算每个所选块的所述投影位置。

根据所述第四方面的第一种实施方式，在所述视频解码方法的第二种实施方式中，所述方法还包括：根据两个POC距离的比值，即所述当前图片和参考图片的所述POC距离与所述参考图片和与所选块相关联的参考图片之间的所述POC距离的比值，通过所述运动向量的反转和缩放，来计算所述运动轨迹。

在根据所述第四方面或根据所述第四方面的前述任一实施方式中，在所述视频解码方法的第三种实施方式中，在每个参考图片中选择的所述多个块，包括所述参考图片的所有块，或以所述当前图片中所述块的位置为中心的投影范围内所述参考图片的块。

在根据所述第四方面或根据所述第四方面的前述任一实施方式中，在所述视频解码方法的第四种实施方式中，所述至少一个分区预测值包括以下中的至少一个：几何分区的行参数、基于对象的分区的边界运动向量和矩形分区信息。

根据所述第四方面的第四种实施方式，在所述视频解码方法的第五种实施方式中，所述行参数由所述参考块边界处的极坐标或截断点指定，和/或所述边界运动向量指定参考图片中的分区边界。

所述第四方面的方法及其实现方式分别实现了与上述第二方面的所述解码器及其实现方式相同的优点。

本发明的第五方面提供了一种计算机程序产品，包括程序代码，用于在计算机上运行时，执行根据第三方面或第四方面的所述方法。

因此，第五方面的所述计算机程序产品实现了第三和第四方面的所述方法的全部优点。

需要注意的是，本申请所描述的所有设备、元件、单元和方式均可在软件或硬件元件或它们的任意组合中实现。

本申请中描述的各种实体所执行的步骤以及所描述的各种实体要执行的功能均意在指各个实体用于执行各个步骤和功能。

即使在具体实施例的下述描述中，由外部实体执行的特定功能或步骤未在执行特定步骤或功能的实体的特定详细元件的描述中体现，技术人员也应该了解这些方法和功能可以在各个软件或硬件元件或它们的任意组合中实现。

附图说明

结合所附附图，下面具体实施例的描述将阐述上述本发明的各方面及其实现形式，其中：

图1分别示出了根据本发明实施例的编码器和编码方法。

图2分别示出了根据本发明实施例的解码器和解码方法。

图3示出了将参考图片的分区信息投影到当前图片中的块上的概念。

图4示出了根据本发明实施例的简化混合编码器/解码器(解码器灰色阴影)模型。

图5示出了用于a)几何分区和b)使用运动向量的基于对象的分区的情况下的块分区信息的示例。

图6示出了在a)几何分区和b)基于对象的分区的情况下，对于尺寸为32×32像素的块，运动向量存储在4×4像素网格上的示例。

图7示出了用于几何分区的参考块分区信息的调整。

图8示出了具有两个截断点的几何分区的差异信息(行起点和终点坐标的偏移)。

图9示出了视频编码中不同的传统运动分区方法的示例。

图10示出了HEVC中在时间上并置的运动向量。

具体实施方式

图1示出了本发明实施例提供的视频编码器100(和相应的视频编码方法)。参考图3，图1的所述编码器100可用于基于至少一个分区预测值来划分当前图片302中的块301，即，可以进行预测块分区。为此，所述编码器100用于执行本发明实施例提供的视频编码方法。

具体地，在第一步骤101中，所述编码器100用于：选择至少一个参考图片303a和所述至少一个参考图片303a中的多个块304a。在第二步骤102中，所述编码器100用于：基于与所述参考图片303a中的所选块304a相关联的运动向量，计算每个所选块304a在所述当前图片302中的投影位置。在第三步骤103中，所述编码器100用于：将每个投影位置与所述当前图片302中的所述块301在空间上重叠的所选块304a确定为参考块。在第四步骤103中，所述编码器100用于：基于与所述至少一个参考图片303a相关联的分区信息，例如，存储在所述至少一个参考图片303a中的分区信息，为至少一个参考块生成分区预测值。

图2示出了本发明实施例提供的视频解码器200(和相应的视频解码方法)。再次参考图3，图2的所述解码器200可用于基于至少一个分区预测值来解码当前图片302中的块301的分区，即，可以进行预测块分区。为此，所述解码器200用于执行本发明实施例提供的视频解码方法。

具体地，在第一步骤201中，所述解码器200用于：从编码器100等中获得差异信息。在第二步骤202中，所述解码器200用于：选择至少一个参考图片303a和所述至少一个参考图片303a中的多个块304a。在第三步骤203中，所述解码器200用于：基于与所述参考图片303a中的所选块304a相关联的运动向量、所述当前图片302和参考图片303a之间的POC距离306以及所述参考图片303a和与所选块304a相关联的参考图片303b之间的POC距离306，计算每个所选块304a在所述当前图片302中的投影位置。在第四步骤204中，所述解码器200用于：将每个投影位置与所述当前图片302中的所述块301在空间上重叠的所选块304a确定为参考块。在第五步骤205中，所述解码器200用于：基于与所述至少一个参考图片303a相关联的分区信息，例如，存储在所述至少一个参考图片303a中的分区信息，为至少一个参考块生成分区预测值。在第六步骤206中，所述解码器200用于获得所述块301的分区，换句话说，用于基于所述分区预测值和所述差异信息，对所述当前图片302中的所述块301进行分区。

图3示出了本发明实施例的主要基本思想，即时间投影，用来估计所述当前图片302(也称为图片P₀)中的所述当前块301的分区。例如，尚未确定(在编码器100处)或解码所述块301的运动向量。例如，如果所述当前块301包含运动对象，则可以使用至少一个可用参考图片303a，来跟踪所述对象在时间上的运动。具体地，所述参考图片303a的参考图片303b中的块304b是所选块304a的参考块304b(例如，这两个图片303a和303b可以称为P_-1、P_-2；这些图片的索引-1和-2是示例性的，并且同样可以使用来自除了第一和第二先前帧之外的其它帧的图片)。所述参考图片303a中的所选块304与所述参考图片303b中的所述块304b之间在时间上的移动导致了运动轨迹305，其中，所述参考图片303b中的所述块304b与所述参考图片303a中的所述块304a相关联。

假设所述运动的方向和幅度在合理的时间间隔内没有显著变化，则可以通过线性函数对所述运动轨迹305进行建模。如果所述图片P_-1、P_-2都在时间上先于当前图片302，则对所述运动轨迹进行线性建模的过程称为前向投影。也就是说，所述运动轨迹305从所述参考图片303a到所述当前图片302的延续，被计算为前向投影。通过将所述运动轨迹305延续到所述当前图片302，可以获得所述当前图片302中的所选参考图片块304a(包含所述运动对象)的预测位置。这基于一个假设，即所述块(其内容和分区结构)在所述参考图片303a和所述当前图片302之间的时间跨度上保持不变。如果所述预测位置与所述当前图片302中的所述块301的位置在空间上重叠，则可以有效地重新使用分区信息，该分区信息与所选块304a的所述参考图片303a相关联，例如，存储在所述参考图片303a中。也就是说，可以生成基于所述相关或存储的分区信息的分区预测值。然后，所述分区预测值可用于所述当前块301的编码和分区。对于双向预测的情况，还可以使用参考图片303a、与所述参考图片303a中的至少一个所选块304a相关联的参考图片303b，来进行投影。所述参考图片303a在时间上晚于所述当前图片302(例如，所述图片303a和303b可以称为P₁、P₂……，未在图3中示出，其中所述索引1和2仅是后续帧中的图片示例)，从而能够计算所述运动轨迹305的延续作为后向投影。

上述想法的实际实现中，可以按元素方式处理运动向量场，即运动向量乘以运动向量，所述运动向量包含在运动向量场中，与参考图片303a相关联。在任何情况下，可以根据两个POC距离的比值，即所述当前图片P₀与所述参考图片P_-1之间的第一POC距离306与所述参考图片P_-1和与所述对应运动向量相关联的(即，与所述参考图片303a中的所选块304a相关联的)所述参考图片P_-2之间的第二POC距离306的比值，通过所述运动向量的反转和缩放，来生成运动轨迹305。因此可以自动处理运动向量的前向和后向投影。每个投影运动向量可以用在类似运动补偿的过程中，其中分区信息，而不是像素值，得到了补偿。

图4示出了根据本发明实施例的混合编码器/解码器400(其中所述解码器部分是灰色阴影)的简化结构。所述混合编码器/解码器400可以执行图1和图2中分别示出的所述编码器100和所述解码器200的功能。图4具体示出了这种混合视频编码器/解码器400中的投影子单元401的位置。所述子单元401执行生成投影运动向量的任务，即基于所选块304a的运动向量，计算运动轨迹305；以及执行在当前图片302中找到所选块304a的所述投影位置的任务。然后，所述子单元401，在类似运动补偿的过程中，将与在至少一个参考图片303a中的所选块304a相关联的分区信息，应用于当前块301。也就是说，当对所述参考图片303a进行编码时，如何对所选块304a进行分区的信息，可以重新使用。举例来说，所述当前块301可以与所选块304a进行完全相同地分区。然而，通常，与所选块304a相关联的所述分区预测值仅用作起点(初始分区)，以获得所述当前块301的最佳分区。

所述子单元401的输入是可以存储在图片缓冲器402中的至少一个参考图片303a。所述参考图片303a包含所述投影过程所需的所有信息，至少包括所述运动向量场和分区信息。

例如，参考图5，所述分区信息可以包括：几何分区501的行参数，例如，块边界截断坐标(x_s，y_s)^T、(x_e，y_e)^T(其中索引s表示“起点”，索引e表示“终点”，如图5a所示)或极坐标如图5a所示；或者，用于基于对象的分区502的情况的运动向量，具体地用于基于分段的分区的情况，其中通过分割由边界运动向量MV_B(其中，索引B表示“边界”)指示的参考图片区域，来生成所述分区边界，如图5b所示。或者，可能是划分块的任何其它方法，其中分区行或边界可以参数化。

在实际的编码器/解码器实现中，这种分区信息通常以类似于所述运动向量字段的存储字段的形式存储，其中所述存储字段的每个元素寻址像素子块。所述子块的大小通常由最小的可独立寻址的像素块指定。

通常使用规则网格逐块地存储运动向量，其中每个运动向量表示像素块的平移运动。每个像素块的大小是根据编码器而设置，并控制所述运动向量场分辨率。在下文中，如果没有另外说明，为简单起见，假设固定块大小为4×4像素。与矩形运动分区中的预测块的子部分相关联的所有运动向量，或者在几何分区或基于分段的分区中与不同的预测分段相关联的所有运动向量，可以共享相同的运动向量。图6举例说明了这两种情况。

图6a示出了在几何分区的情况下，对于尺寸为32×32像素的块，运动向量存储在4×4像素网格上的示例。在图6a中，所述预测块被分成两个预测分段S₀和S₁。S₀(灰色阴影区域)中的每个4×4像素块与运动向量MV₀相关联，即这些像素块共享该运动向量，而S₁(白色区域)中的每个4×4像素块与运动向量MV₁相关联。图6b示出了基于对象的分区的相同情况。也就是说，通过所述两个运动向量以二进制方式区分不同的分区。

一个运动向量MV_P，k可以指向参考图片P_i中的位置，而另一个运动向量指向另一个参考图片P_j。因为相同运动向量场的运动向量可以指向不同的参考图片303a，相应的参考图片索引优先存储在4×4网格上，作为所述运动向量场的一部分。参考图片P_i和另一参考图片P_j之间的时间POC距离306，表示为t_d。

在下文中，所选参考图片P_i303a的所述运动向量场应表示为MVF_P(x，y)，所述索引P表示“图片”，并且，所述参考图片的分区信息表示为I_P(x，y)。位置(x_k，y_k)^T处的所述运动向量场MVF_P的单个元素，即单个运动向量，应表示为运动向量MV_P，k，并且类似地，(x_k，y_k)^T处的分区信息表示为I_P，k。所述运动向量MV_P，k与所述参考图片303a中的所选块304a相关联。所述当前块301在当前图片302中的位置为(x_c，y_c)^T。

可以分别在所述编码器100和解码器200侧进行投影和补偿处理，其中示例性实现包括以下步骤：

1.对于位置为(x_c，y_c)^T和给定大小为S(例如，在亮度或色度样本中)的编码块301(该编码块是当前图片P₀的一部分)，从所述参考图片缓冲器401等中选择参考图片P_i，确定所述图片P₀和P_i之间的时间POC距离306并表示为t_b。

2.访问参考图片P_i的运动向量场，其中，所述运动向量场包括所述参考图片303a的所述运动向量MV_P，k，所述索引k表示位于(x_k，y_k)^T处的所述运动向量场内的所述运动向量的地址。对于随后的投影处理，可以指定以并置位置(例如，3×3CTU窗口)为中心的投影范围，即，所述当前图片302中的块301的位置为中心的、在所述参考图片303a中的投影范围；或者可以处理所述参考图片303a的整个运动向量场。投影过程可以以光栅扫描顺序进行，或者可以从所选块304a的中心开始，并且访问螺旋式向外运动的运动向量，直到所述投影范围内的所有元素都已被处理。

3.对于所述投影范围内在位置(x_k，y_k)^T处的每个运动向量MV_P，k，投影运动向量MV_TP，k)由下式计算：

其中，t_d表示所述当前参考图片303a(P_i)和参考图片303b之间的所述时间POC距离306，所述距离与所选块304a相关联，即被称为所述运动向量。也就是说，基于所选块304a的所述运动向量和当前图片302与参考图片303a之间的所述时间POC距离306，来计算所选块304a的所述运动轨迹305。

4.然后通过将所述投影运动向量(运动轨迹305)添加到当前位置，来确定投影位置(x_p，y_p)^T。

也就是说，基于所述参考图片303a中的所选块304a的当前位置和所述运动轨迹305来计算所选块304a的所述投影位置。

5.如果所述投影位置(x_p，y_p)^T位于(x_c，y_c)^T处当前编码块301的边界内，即，如果所选块304a的所述投影位置与当前图片302中的块301在空间上重叠，则所选块304a是参考块，即已找到候选分区预测值：

(x_c≤x_p≤x_c+S∩y_c≤y_p≤y_c+S)→候选预测值

6.存储在位置(x_k，y_k)^T的所述分区信息I_P，k被添加到所述当前块301的分区预测值候选列表中。

1)在几何分区的情况下，所述参考块(x_s，y_s)_P ^T、(x_e，y_e)_P ^T或的所述投影行参数可能需要根据与所述参考块位置相关的当前块中心位置进行调整。这在图7中示出并在下面解释。

如果指定行截断点，则可以从运动补偿截断点(x_s，y_s)_P ^T+MV_TP，k和(x_e，y_e)_P ^T+MV_TP，k通过以下公式，轻松地计算新的截断点(x_s，y_s)_C ^T和(x_e，y_e)_C ^T：

其中(x_s，y_s)_B ^T、(x_e，y_e)_B ^T表示所述当前块的四个块边界的行起点和终点坐标。(x_s，o，y_s，o)和(x_e，o，y_e，o)可进一步用于表示中间计算结果。

在极坐标图示中，这会导致坐标系以偏移向量进行了偏移：

2)在使用边界运动向量进行基于对象的分区的情况下，不需要这样的调整。根据与MV_B相关联的所述POC距离306进行适当的运动向量缩放之后，可以使用所述参考位置处的所述分区信息I_P，k，其中所述分区信息包括边界运动向量MV_B(其中索引B表示“边界”)。

7.可以重复上述投影过程，直到找到指定的最大数量的分区预测值，或者如果已经处理了所述当前参考图片303a(P_i)的所有运动向量MV_P，k，则终止上述投影过程。因此，可以构建投影分区信息的候选列表。为了方便发送，可以通过索引来发送所选择的分区，该索引指向所述分区预测值候选列表的所述位置。

总之，所述投影子单元401的输出是该候选列表，该列表也可以被称为分区预测值列表。分区预测值可以包括几何分区行参数，以及用于基于对象的分区或矩形分区的边界运动向量。所述分区预测值可用于以下后续阶段。

例如，在所述编码器100侧，可以进行基于分段的运动估计。在实际实现中，所述分区预测值可以用于生成初始分区，所述初始分区可通过比率失真估计进一步细化。

在所述编码器侧，所述投影分区信息(几何分区的行参数、用于基于分段的分区的边界运动向量、用于矩形分区的四叉树和二叉树分区)可以用作比率失真优化过程中所述当前块301的分区起点。可以使用快速决策方法，这种方法在指定数量的细化步骤之后，或如果已经实现的比率失真成本低于指定阈值，会结束所述比率失真优化过程中的分区。对于几何分区中具有行起点和终点坐标的行参数，可以定义围绕所述投影行起点和终点坐标的小范围偏移，以进行所述块分区。因为仅需要测试所述投影行起点和终点坐标周围的有限数量的偏移，所以在这种情况下减小了搜索范围。可以根据比率失真优化来选择一个最佳分区。这样，测试分区行的数量显著减少。因此，这种方法可以降低所述编码器的复杂性并减少所述编码时间。

例如，在所述解码器200侧，可以通过将解码的分段运动向量应用于由所述解码的分区信息生成的分段，来进行分段运动补偿。

图8示出了使用所述截断点坐标的两个偏移值进行几何分区的差异信息。通过使用位于给定块的所述边界上的两个点P₀＝[x₀，y₀]^T和P₁＝[x₁，y₁]^T来描述图8中几何分区中的所述分区线。所述两点形成一条直线。

(y-y₀)(x₁-x₀)＝(y₁-y₀)(x-x₀)

由于所述两个点P₀和P₁的直接编码会消耗过高的比特率，因此使用所述分区行的时间/空间预测。具体地，对于所述分区行的时间预测，如果所述预测值的所述分区线的两个截断点的坐标是P_p，0＝[x_p，0，y_p，0]^T和P_p，1＝[x_p，1，y_p，1]^T，则如图8所示，所述差异信息是(Δ_s，Δ_e)，其中

Δ₈＝(x₀-x_p，0，y₀-y_p，0)

Δ_e＝(x₁-x_p，1，y₁-y_p，1)

负值偏移沿着所述块边界正向移动一个点，反之亦然。仅发送所述差异信息显著减少了所述两个截断点的信令开销。

换句话说，图8示出了基于分区预测值(例如，初始分区)和另一分区802生成的分区801的示例。所述分区801可以是基于所述分区预测值的初始分区。所述其它分区可以是利用其它规则获得的任何其它分区，如通过测试固定分区的所有可能子集或给定子集，或基于给定规则修改所述分区801而获得的分区。实施例可用于评估不同的候选分区(包括所述分区801和任何其它分区802)并且仅选择一个分区作为最终分区。所述最终分区的评估和选择可以，例如，通过比较所述不同分区的比率失真并选择具有最小比率失真的分区，或者通过选择第一个具有低于预定阈值的比率失真的分区。

参考以上对所述各种实施例的描述，所述视频编码器和视频解码器的实施例可用于：例如，为当前块(即当前要编码或解码的块，所述索引0指示当前时间实例)选择至少一个参考图片303a(图3仅示出一个示例性参考图片)和在至少一个参考图片303a中的多个块304a(图3仅示出一个示例性块)。所述实施例可用于选择前面的图片，例如，前一个(P_-1)或任何其它前面的图片(例如，P_-2、P_-3等，负指数指示先前时间实例)，和/或随后的图片，例如后一个(P₁)或任何其它后面的图片(例如P₂、P₃等，正指数指示后续时间实例)。

所述视频编码器和视频解码器的实施例可以进一步用于：基于与所述参考图片(303a)中的所选块(304a)相关联的运动向量，计算所述多个所选块的每个所选块304a在当前图片302中的投影位置。参考标记304m示出了所述参考块304a的所述运动向量，例如，所述参考图片303a中的所述参考块304a相对于对应图片303b中的所述参考块304b的移位或运动，所述参考块304b正在或已经用于预测和/或重建所述参考图片303a中的所述参考块304a。因此，参考块304b和参考图片303b也可以称为所述参考块304a的参考块304b和所述参考块303a的参考图像303b。当编码(或解码)所述当前块301时，所述参考块304a和至少部分参考图片303a先前已被重建并且，例如，存储在所述图片缓冲器402中(参见图4)。因此，所述运动向量304m也已被解码或重建，并且例如也存储在所述图片缓冲器402中。因此，根据所述参考块304a曾经运动(由运动向量304m表示)至对应位置(见参考标记304p)，将所述参考块304a的位置投影至所述当前图片302中的位置而所需的所有信息是可获得的，例如，从所述图片缓冲器402获得。参考标记304p示出了所述参考块304a在所述参考图片303a中的投影或预测位置，参考标记304r示出了所述参考块304a的所述参考块304b在所述参考图片303a中的相应位置。

在理想情况下(关于预测的理想情况)，所述参考块304a在所述参考图像303a中的所述投影位置304p，与所述当前块301在当前图片302中的位置相同。在场景或用例中，如果所述当前图像302和所述参考图像303a之间的所述时间差(例如，通过实际时间或通过图像计数)和所述参考块304a的所述参考图像303a和所述参考图像303b之间的时间差是一样的，则实施例可以仅通过反转运动向量304m，直接使用所述运动向量进行预测，如图3所示(参见指示180°反转的箭头)。在其它情况下，实施例可以进行缩放，以改进如上所述的预测或投影。，

所述视频编码器和视频解码器的实施例可进一步用于：将每个投影位置304p与所述当前图片302中的所述块301在空间上重叠的所选块304a确定为参考块。换句话说，所述视频编码器和视频解码器的实施例可进一步用于：如果一个所选块304a的所述投影位置304p与所述当前图片302中的所述块301在空间上重叠，选择这个所选块304a为参考块。实施例可以用于选择所有投影位置304p与所述当前块301在空间上重叠的所选块304a作为参考块，或者仅选择一些或仅选择一个，这取决于预定或自适应规则，例如，快速模式将参考块的数量限制为特定数量，或重叠模式则要求投影位置304p处的所述投影块只需在块区域满足某个最小百分比(不只是任何重叠)重叠或者只是一定像素数量的重叠。

所述视频编码器和视频解码器的实施例可进一步用于：基于与至少一个参考图片303a相关联的分区信息，尤其基于与所述参考块304a相关联的分区信息，为至少一个参考块生成所述当前块301的分区预测值。换句话说，所述视频编码器和视频解码器的实施例可用于：为仅仅一个参考块或一些或所有参考块生成分区预测值，例如，为每个参考块生成一个分区预测值。要选择的参考块的数量可基于快速模式或重叠模式或上述作为示例的其它模式等确定。

所述视频编码器的实施例可进一步用于：基于所述分区预测值对所述当前图片302中的所述块301进行分区，并且可选地，可另外导出差异信息，其中，所述差异信息包括或指示所述分区预测值(例如，801)的所述分区信息和最终分区(例如，802)的分区信息之间的差异，以改善所述分区。所述差异信息也可以称为分区差异信息。所述视频编码器的实施例可用于发送所述差异信息或所述分区预测值和所述差异信息。

所述视频解码器的实施例可进一步用于：基于所述分区预测值对所述当前图片302中的所述块301进行分区，并且可选地，可基于差异信息进行分区，其中，所述差异信息包括或指示所述分区预测值(例如，801)的所述分区信息和最终分区(例如，802)的分区信息之间的差异，以改善所述分区。所述差异信息也可以称为分区差异信息，并且在所述分区预测值的所述分区信息被选择为所述最终分区的情况下，也可以为零。所述视频解码器的实施例可用于接收所述差异信息或所述分区预测值和所述差异信息。

所述视频编码器和视频解码器的实施例可进一步用于：发送或接收分区预测标志(以指示使用或启用/禁用所述分区预测)以及分区预测值索引(例如，有多个分区预测值可用的情况下)。

本发明的实施例可以通过硬件、软件或其任何组合来执行。所述视频编码器和视频解码器的实施例可以包括处理器，并且所述视频编码和解码方法的实施例可以由处理器执行。

已经结合作为实例的不同实施例以及实施方案描述了本发明。但本领域技术人员通过实践所请发明，研究附图、本公开以及独立权项，能够理解并获得其它变体。在权利要求以及描述中，术语包括摂不排除其它元件或步骤，且一个摂并不排除复数可能。单个元件或其它单元可满足权利要求书中所叙述的若干实体或项目的功能。在仅凭某些措施被记载在相互不同的从属权利要求书中这个单纯的事实并不意味着这些措施的结合不能在有利的实现方式中使用。

Claims

1.一种视频编码器(100)，其特征在于，所述视频编码器用于：

选择至少一个参考图片(303a)和所述至少一个参考图片(303a)中的多个块(304a)；

基于与所述参考图片(303a)中的所选块(304a)相关联的运动向量，计算每个所选块(304a)在当前图片(302)中的投影位置；

将每个投影位置与所述当前图片(302)中的块(301)在空间上重叠的所选块(304a)确定为参考块；

基于与所述至少一个参考图片(303a)相关联的分区信息，为至少一个参考块生成所述当前块(301)的分区预测值。

2.根据权利要求1所述的视频编码器(100)，其特征在于，所述视频编码器用于：

基于与所述参考图片(303a)中的所选块(304a)相关联的所述运动向量和所述当前图片(302)与所述至少一个参考图片(303a)之间的在时间上的图像顺序编号(picture ordercount，简称POC)距离(306)，计算每个所选块(304a)在时间上的运动轨迹(305)；

基于所述参考图片(303a)中所选块(304a)的位置和所述运动轨迹(305)，计算每个所选块(304a)的所述投影位置。

3.根据权利要求2所述的视频编码器(100)，其特征在于，所述视频编码器用于：

根据两个POC距离的比值，即所述当前图片(302)和所述参考图片(303a)之间的所述POC距离(306)与所述参考图片(303a)和与所选块(304a)相关联的参考图片(303b)之间的所述POC距离(306)的比值，通过与所选块(304a)相关联的所述运动向量的反转和缩放，来计算所述运动轨迹(305)。

4.根据权利要求1至3之一所述的视频编码器(100)，其特征在于，每个参考图片(303a)中所选的多个块(304a)包括：

所述参考图片(303a)的所有块，或

以所述当前图片(302)中所述块(301)的位置为中心的投影范围内所述参考图片(303a)的块。

5.根据权利要求1至4之一所述的视频编码器(100)，其特征在于，用于：

构造和输出包括多个索引分区预测值的列表。

6.根据权利要求1至5之一所述的视频编码器(100)，其特征在于，所述至少一个分区预测值包括至少一个：几何分区(501)的行参数、基于对象的分区(502)的边界运动向量和矩形分区信息。

7.根据权利要求6所述的视频编码器(100)，其特征在于：

所述行参数由所述参考块边界处的极坐标或截断点指定，和/或

所述边界运动向量指定参考图片中的分区边界。

8.根据权利要求1至7之一所述的视频编码器(100)，其特征在于，所述视频编码器用于：使用所述至少一个分区预测值，为所述当前图片(302)中的所述块(301)生成初始分区。

9.根据权利要求1至8之一所述的视频编码器(100)，其特征在于，所述视频编码器用于：向解码器(200)发送所述至少一个分区预测值或至少一个索引，所述索引指向所述至少一个分区预测值在索引分区预测值列表中的位置。

10.根据权利要求1至9之一所述的视频编码器(100)，其特征在于，所述编码器(100)用于：

向解码器(200)发送所述至少一个分区预测值和应用于所述当前图片(302)中的所述块的最终分区之间的差异信息。

11.一种视频解码器(200)，其特征在于，所述视频解码器(200)用于：

获得差异信息；

基于与所述至少一个参考图片(303a)相关联的分区信息，为至少一个参考块生成所述当前块(301)的分区预测值；

基于所述分区预测值和所述差异信息，对所述当前图片(302)中的所述块(301)进行分区。

12.根据权利要求11所述的视频解码器(200)，其特征在于，所述视频解码器用于：

13.根据权利要求12所述的视频解码器(200)，其特征在于，所述视频解码器用于：

14.根据权利要求11至13之一所述的视频解码器(200)，其特征在于，每个参考图片(303a)中所选的多个块(304a)包括：

所述参考图片(303a)的所有块，或

15.根据权利要求11至14之一所述的视频解码器(200)，其特征在于，所述至少一个分区预测值包括至少一个：几何分区(501)的行参数、基于对象的分区(502)的边界运动向量和矩形分区信息。

16.根据权利要求15所述的视频解码器(200)，其特征在于：

所述边界运动向量指定参考图片(303a)中的分区边界。

17.一种视频编码方法，其特征在于，所述方法包括以下步骤：

选择(101)至少一个参考图片(303a)和所述至少一个参考图片(303a)中的多个块(304a)；

基于与所选块(304a)相关联的运动向量，计算(102)每个所选块(304a)在当前图片(302)中的投影位置；

将每个投影位置与所述当前图片(302)中的块(301)在空间上重叠的所选块(304a)确定(103)为参考块；

基于与所述至少一个参考图片(303a)相关联的分区信息，为至少一个参考块生成(104)所述当前块(301)的分区预测值。

18.一种视频解码方法，其特征在于，所述方法包括以下步骤：

接收(201)差异信息；

选择(202)至少一个参考图片(303a)和所述至少一个参考图片(303a)中的多个块(304a)；

基于与所选块(304a)相关联的运动向量，计算(203)每个所选块(304a)在当前图片(302)中的投影位置；

将每个投影位置与所述当前图片(302)中的块(301)在空间上重叠的所选块(304a)确定(204)为参考块；

基于与所述至少一个参考图片(303a)相关联的分区信息，为至少一个参考块生成(205)所述当前块(301)的分区预测值；

基于所述分区预测值和所述差异信息，对所述当前图片(302)中的所述块(301)进行分区(206)。

19.一种计算机程序，其特征在于，包括程序代码，用于在计算机上运行时，执行根据权利要求17或18之一所述的方法。