CN101611551A

CN101611551A - 用于视频通信系统中的差错弹性的改进系统和方法

Info

Publication number: CN101611551A
Application number: CNA2008800045467A
Authority: CN
Inventors: S·希伯利; A·埃尔法泽阿迪斯; J·伦诺克斯
Original assignee: Vidyo Inc
Current assignee: Vidyo Inc
Priority date: 2007-01-09
Filing date: 2008-01-09
Publication date: 2009-12-23
Also published as: JP2010516200A; EP2102988A2; CA2674710C; US20080165864A1; JP5455648B2; CA2674710A1; US8462856B2; AU2008204833A1; EP2102988A4; WO2008086423A2; US20130322553A1; WO2008086423A3

Abstract

提供了用于视频通信系统中的差错弹性传输和随机接入的系统和方法。视频通信系统基于可用在视频通信系统中的单层可缩放视频、或具有时间缩放性的联播视频编码。视频信号传输中的一组视频帧或画面被指定为使用安全或高可靠性链路或通过重传技术可靠或有保证地递送到接收器。可靠递送的视频帧被用作用于在差错发生之后或针对随机接入使接收器与所传送视频信号重新同步的参考画面。

Description

用于视频通信系统中的差错弹性的改进系统和方法

相关申请的交叉引用

本申请要求于2007年1月9日提交的美国临时专利申请S/N.60/884,148的权益。此外，本申请涉及国际专利申请No.PCT/US06/028365、PCT/US06/028366、PCT/US06/061815、PCT/US06/62569、PCT/US07/80089、PCT/US07/062357、PCT/US07/065554、PCT/US07/065003、PCT/US06/028367、PCT/US07/063335、PCT/US07/081217、PCT/US07/080089、PCT/US07/083351、PCT/US07/086958和PCT/US07/089076。共同转让的所有前述申请的通过引用全部纳入于此。

发明领域

本发明涉及视频数据通信系统。本发明尤其涉及用于提供视频会议应用中的差错弹性的技术。

发明背景

通过基于分组的现代通信网络(例如，基于网际协议(IP)的网络)在发送方与接收方之间提供高质量数字视频通信至少由于此类网络上的数据传输通常是以尽力为基础执行的这个事实而成为技术上的难题。现代通信网络中的传输差错通常将其自身表现为分组丢失而非比特差错，后者是早期通信系统中的特性。分组丢失常常是中间路由器中的拥塞的结果，而非物理层差错的结果。

当在数字视频通信系统中发生传输差错时，确保接收器可从差错快速恢复并返回传入视频信号的无差错显示是很重要的。然而，在典型数字视频通信系统中，接收器的稳健性因传入数据被严重压缩以节约带宽这个事实而降低。此外，用在通信系统中的视频压缩技术(例如，最新编解码器ITU-T H.264和H.263或者ISOMPEG-2和MPEG-4编解码器)可在连续视频分组或帧之间形成强的时间依存性。具体地，运动补偿预测(例如，涉及P帧或B帧的使用)编解码器的使用形成其中所显示的帧依赖于先前帧的帧依存性链。依存性链可一直扩展到视频序列的开头。作为依存链的结果，给定分组的丢失可影响接收器处多个连续分组的解码。由于给定分组的丢失而导致的差错传播仅在“内”(I)刷新点或者完全不使用任何时间预测的帧处。

数字视频通信系统中的差错弹性要求在传送信号中有至少某一级别的冗余度。然而，这种要求与力图消除或最小化所传送信号中的冗余度的视频压缩技术的目的相反。

在提供区分型服务的网络(例如，基于区分型服务IP的网络、租用线路上的专用网等)上，视频数据通信应用可采用网络特征来以无损或近似无损的方式向接收器递送视频信号数据的部分或全部。然而，在未提供区分型服务的任意尽力型网络(诸如因特网)中，数据通信应用必须依赖其自身的特征来实现差错弹性。在文本或字母数字数据通信中有用的已知技术(例如，传输控制协议-TCP)不适于视频或音频通信，这对由人类接口需求所导致的较低的端对端延迟有额外的约束。例如，TCP技术可用于文本或字母数字数据输送中的差错弹性。TCP保持重传数据直至确认所有数据被接收，即使其包括若干秒的延迟。然而，TCP不适用于现场或交互式视频会议应用中的视频数据输送，因为无限制的端对端延迟对于参与者而言是无法接受的。

视频通信系统中差错弹性的一方面涉及对压缩效率具有相当大的影响的随机接入(例如，当接收方加入现行视频信号的传输时)。例如，随机接入的实例是加入视频会议的用户，或者调谐至广播的用户。这样的用户将必须在传入比特流信号中寻找开始解码或要与编码器同步的合适的点。随机接入点是从该点开始任何传播差错终止的有效的差错弹性特征(或差错恢复点)。因此，提供良好的随机接入支持的特定编码方案通常具有提供较快速差错恢复的差错弹性技术。然而，逆过程依赖于关于差错弹性技术被设计要解决的差错的持续时间和范围的特定假设。差错弹性技术可假定某些状态信息在接收器处发生差错时可用。在此情形中，差错弹性技术不确保良好的随机接入支持。

在用于数字电视系统(数字电缆TV或卫星TV)的MPEG-2视频编解码器中，以周期间隔(通常为0.5秒)使用I画面来实现快速切换成流。然而，I画面显著大于其P或B对应物(通常大3到6倍)，并由此被避免使用，在低带宽和/或低延迟应用中尤其如此。

在诸如视频会议的交互式应用中，请求帧内更新的概念通常被用于差错弹性。在操作中，更新涉及从接收方对发送方的、关于使得解码器被同步的内画面传输的请求。此操作的带宽开销是显著的。另外，当分组差错发生时，也存在此开销。如果分组丢失是由拥塞导致的，则使用内画面只会恶化拥塞问题。

另一种用于差错稳健性的传统技术——在过去用于减轻由IDCT实现(例如，在H.261标准中)中的失配而导致的漂移——是周期性地编码每个宏块帧内模式。H.261标准要求每132次强制帧内编码传送一宏块。

随着强制要被编码为给定帧中帧内的宏块的百分比的增大，编码效率下降。相反，当此百分比较低时，从分组丢失恢复的时间增加。强制帧内编码过程要求额外的精力以避免运动相关漂移，该漂移由于必须避免某些运动矢量值——即使它们是最有效的——而进一步限制了编码器的性能。

除传统之外，单层编解码器、分层或可缩放编码是多媒体数据编码中的公知技术。可缩放编码用于生成以带宽效率方式共同代表给定媒体的两个或多个“经缩放”比特流。可缩放性可以多个维度——即时间、空间和质量(也称为SNR“信噪比”可缩放性)——来提供。例如，视频信号可以CIF或QCIF分辨率且每秒7.5、15和30帧(fps)的帧率下的不同层来可缩放地编码。取决于编解码器的结构，空间分辨率和帧率的任何组合可从编解码器比特流获得。与不同层相对应的比特可作为单独的比特流传送(即，每层一个流)或它们可在一个或多个比特流中被复用在一起。为了便于本文的描述，与给定层相对应的经编码比特可称为该层的比特流，即使各个层被复用且在单个比特流中传送。专门设计成提供可缩放特征的编解码器包括例如MPEG-2(也称为ITU-T H.262的ISO/IEC 13818-2)和目前开发的H.264可缩放视频编码扩展(称为ITU-T H.264附录G或MPEG-4第10部分SVC)。在共同转让国际专利申请No.PCT/US06/028365-“SYSTEM AND METHODFOR SCALABLE AND LOW-DELAY VIDEOCONFERENCING USINGSCALABLE VIDEO CODING(用于使用可缩放视频编码的可缩放和低延迟视频会议的系统和方法)”——中描述了为视频通信专门设计的可缩放视频编码(SVC)技术。注意，即使并非专门设计成可缩放的编解码器也可以在时间维度呈现可缩放性的特性。例如，考虑MPEG-2Main Profile(主型)编解码器——DVD和数字TV环境中使用的非可缩放编解码器。此外，假定以30fps操作的编解码器以及使用IBBPBBPBBPBBPBB(周期N＝15帧)的GOP结构。通过连续消除B画面，接着消除P画面，就能得到总共三个时间分辨率：30fps(包括所有画面类型)、10fps(仅有I和P)以及2fps(仅有I)。连续消去过程导致可解码的比特流，因为MPEG-2 Main Profile编解码器被设计成使得P画面的编码不依赖于B画面，并且类似的I画面的编码不依赖于其它P或B画面。在以下，具有时间可缩放特征的单层编解码器被认为是可缩放视频编码的特例，因此被包括在术语可缩放视频编码中，除非另外明确指明。

可缩放编解码器通常具有锥形比特流结构，其中组成比特流之一(称为“基层”)在恢复某种基本质量的原始媒体时是必需的。连同基层一起使用一个或多个剩余比特流(称为“增强层”)提升了所恢复媒体的质量。增强层中的数据丢失是容许的，但是基层中的数据丢失会导致所恢复媒体的显著失真或完全失败。

可缩放编解码器提出了类似于由单层编解码器针对差错弹性和随机接入所提出的那些挑战。然而，可缩放编解码器的编码结构具有单层视频编解码器中不存在的独特特性。此外，与单层编码不同，可缩放编码可能涉及从一个可缩放性层切换到另一个(例如，在CIF与QCIF分辨率之间来回切换)。

联播是用于视频会议的编码解决方案，它不如可缩放视频编码复杂但具有后者的优点中的某些。在联播中，两个不同版本的源被编码(例如，以两种不同空间分辨率)并传送。每个版本是独立的，因为其解码并不依赖于另一版本的接收。类似于可缩放和单层编码，联播提出了类似的随机接入和稳健性问题。在下文中，联播被认为是可缩放编码(其中不执行层间预测)的特例，并且两者皆简称为可缩放视频编码技术，除非另外明确指明。

在共同转让的国际专利申请No.PCT/US06/061815：“SYSTEMS ANDMETHODS FOR ERROR RESILIENCE AND RANDOM ACCESS IN VIDEOCOMMUNICATIONS SYSTEMS(用于视频通信系统中的差错弹性和随机接入的系统和方法)”以及PCT/US07/063335：“SYSTEM AND METHOD FOR PROVIDINGERROR RESILIENCE，RANDOM ACCESS，AND RATE CONTROL IN SCALABLEVIDEO COMMUNICATIONS(用于提供可缩放视频通信中的差错弹性、随机接入和速率控制的系统和方法)”中描述了用于在视频通信系统中提供差错弹性和随机接入的专用技术。这些专利申请尤其公开了LR画面的概念，即，组成可缩放地编码的视频信号的最低时间层(以最低空间或质量分辨率)并且从发送方可靠地传送到接收方的画面。LR画面的可靠传输确保接收解码器处有最低水平的质量。接收方可立即检测LR画面是否已丢失并采取步骤以使用例如“关键画面索引”机制来获得丢失的画面(例如，通过请求发送方重传)，这也在国际专利申请No.PCT/US06/061815中公开。注意，发送方和接收方不一定分别是编码器和解码器，而可以是如在共同转让的国际专利申请No.PCT/US06/028366中公开的可缩放视频通信服务器(SVCS)、如在共同转让的国际专利申请No.PCT/US06/62569中公开的合成SVCS(CSVCS)、或者如在共同转让的国际专利申请No.PCT/US07/80089中公开的多播SVCS(MSVCS)。

当在一个以上分组上传输最低时间层画面时，就会发生在国际专利申请No.PCT/US06/061815中所描述的系统和方法的潜在限制。这可能在例如编码高清视频时——其中每一帧可能使用一个以上传输层分组来传输，或者在画面是使用一个以上切片来编码的并且每一切片在其自己的分组中传输时发生。在这些情形中，属于同一帧的所有分组将具有相同的关键画面索引。如果所有切片都因网络中的分组丢失而丢失，则接收方可恰当地检测整个画面的丢失并发起校正动作。然而，如果接收到一些或全部切片，则接收器可能不能立即推断收到切片是包含整个画面还是只包含部分画面，除非其继续解码片数据。此推论在解码收到数据的接收器中是直截了当的，但其对通常未被装备成执行视频数据的解码的中间接收器(例如，SVCS、CSVCS、或MSCVS，或任何媒体认知网络元件-MANE)呈现出显著的复杂度。

现在针对改进对视频通信系统中经编码比特流的差错弹性作出考虑。关注开发对端对端延迟和系统所用的带宽具有最小影响的差错弹性技术，并解决多切片中经编码视频数据的分段的可能性。合需的差错弹性技术将可应用于可缩放和单层视频编码两者。

发明内容

本发明提供了用于在基于单层以及可缩放视频编码的视频通信系统中提升差错弹性的系统和方法。具体地，本发明提供了供接收器用来检测预期可靠地传送的画面的部分是否因分组丢失而丢失的机制，从而能以最小延迟发起校正动作。提供特定技术以通过RTP以及在使用H.264附录G(SVC)NAL单元时进行传送。

附图简述

图1是示出根据本发明原理的用于递送可缩放地编码的视频数据的示例性视频会议系统的框图；

图2是示出根据本发明原理的与单层视频编码的使用相兼容的示例性最终用户终端的框图；

图3是示出根据本发明原理的与可缩放或联播编码的使用相兼容的示例性最终用户终端的框图；

图4是示出根据本发明原理的多点SVCS的内部交换结构的框图；

图5是示出SVCS的操作原理的框图；

图6是示出根据本发明原理的示例性视频编码器的结构的框图；

图7是示出根据本发明原理的用于编码基层和时间增强层的视频编码器的示例性架构的框图；

图8是示出根据本发明原理的用于空间增强层的视频编码器的示例性架构的框图；

图9是示出根据本发明原理的示例性分层画面编码结构的框图；

图10是示出根据本发明原理的另一示例性分层画面编码结构的框图；

图11是示出根据本发明原理的包括时间和空间可缩放性的示例性画面编码结构的框图；

图12是示出根据本发明原理的用于差错弹性视频通信的示例性分层画面编码结构的框图；

图13是示出根据本发明原理的具有空间/质量可缩放性的用于差错弹性视频通信的示例性分层画面编码结构的框图。

图14是示出根据本发明原理的、当R分组技术被用于通过RTP传输时传送终端的LPR(发送)模块的示例性架构的框图。

图15是示出根据本发明原理的、当R分组技术被用于通过RTP传输时接收终端的LRP(接收)模块的示例性架构的框图。

图16是示出根据本发明原理的、当R分组技术被用于通过RTP传输时服务器的LPR发送和接收模块的示例性架构的框图。

图17示出根据本发明原理的用于RTP分组的名为RTP报头扩展的示例性结构。

图18示出根据本发明原理的RNACK分组的反馈控制信息字段的示例性结构。

图19示出根据本发明原理的具有帧索引和开始/结束标志的经更改H.264附录G(SVC)NAL报头扩展句法。

贯穿附图，相似附图标记和字符除非另外声明否则用于标注所例示的实施例的类似特征、要素、组件或部分。此外，现在参照附图详细描述本发明是结合示例性实施例进行的。

发明详细描述

本发明提供了用于视频通信系统中差错弹性传输的系统和方法。这些机制与可在视频通信系统中使用的具有时间可缩放性的可缩放编码技术以及单层和联播视频编码相兼容。

这些系统和方法涉及在视频信号传输中指定一组视频帧或画面来向接收方可靠或有保证地递送。指定组视频帧的可靠递送可通过使用安全或高可靠性的链路、或通过重传技术来实现。可靠递送的视频帧被用作参考画面用于在差错发生之后或针对随机接入使接收器与所传送视频信号重新同步。

在优选实施例中，示例性视频通信系统可以是在基于分组的网络上操作的多点视频会议系统10。(参看例如图1)。多点视频会议系统可包括任选网桥120a和120b(例如，多点控制单元(MCU)或可缩放视频通信服务器(SVCS))以协调网络上的端点(例如，用户1-k和1-m)之间的可缩放多层或单层视频通信。对于结合或不结合任选网桥120a和120b使用的点对点连接而言，示例性视频通信系统的操作是相同的且是有益的。

在共同转让的国际专利申请No.PCT/US06/028365：“SYSTEM ANDMETHOD FOR SCALABLE AND LOW-DELAY VIDEOCONFERENCING USINGSCALABLE VIDEO CODING(用于使用可缩放视频编码的可缩放和低延迟视频会议的系统和方法)”、No.PCT/US06/028266：“SYSTEM AND METHOD FOR ACONFERENCE SERVER ARCHITECTURE FOR LOW DELAY ANDDISTRIBUTED CONFERENCING APPLICATIONS(用于低延迟和分布式会议应用的会议服务器架构的系统和方法)”、No.PCT/US/06/062569：“SYSTEM ANDMETHOD FOR VIDEOCONFERENCING USING SCALABLE VIDEO CODINGAND COMPOSITING SCALABLE VIDEO SERVERS(用于使用可缩放视频编码和合成可缩放视频服务器进行视频会议的系统和方法)”、以及No.PCT/US07/80089：“SYSTEM AND METHOD FOR MULTIPOINT CONFERENCING WITHSCALABLE VIDEO CODING SERVERS AND MULTICAST(用于通过可缩放视频编码服务器和多播进行多点会议的系统和方法)”中提供了基于可缩放视频编码的可缩放视频编码技术和视频会议系统的详细描述。此外，在共同转让的国际专利申请No.PCT/US06/061815：“SYSTEMS AND METHODS FOR ERRORRESILIENCE AND RANDOM ACCESS IN VIDEO COMMUNICATION SYSTEMS(用于视频通信系统中的差错弹性和随机接入的系统和方法)”以及No.PCT/US07/063335：“SYSTEM AND METHOD FOR PROVIDING ERRORRESILIENCE，RANDOM ACCESS，AND RATE CONTROL IN SCALABLE VIDEOCOMMUNICATIONS(用于提供可缩放视频通信中的差错弹性、随机接入和速率控制的系统和方法)”中提供了对差错弹性、随机接入和速率控制技术的描述。所有前述国际专利申请都通过引用全部纳入于此。本发明的系统和方法基于在国际专利申请No.PCT/US06/61815中描述的系统和方法进行改进。

图1示出了视频会议系统10的一般结构。视频会议系统10包括经由LAN 1和2链接在网络100上的多个最终用户终端(例如，用户1-k和用户1-m)和服务器120a和120b。服务器可以是传统MCU，可缩放视频通信服务器(SVCS)、合成可缩放视频通信服务器(CSVCS)、或多播可缩放视频通信服务器(MSVCS)。后几种服务器具有与传统MCU相同的用途，但是具有显著降低的复杂度和改进的功能。(参见例如国际专利申请No.PCT/US06/28366)。在本文的描述中，术语“服务器”可用于统指SVCS类型中的任一种。

图2示出被设计成与基于单层编码的视频会议系统(例如，系统10)一起使用的最终用户终端10的架构。类似地，图3示出被设计成与基于多层编码的视频会议系统(例如，系统10)一起使用的最终用户终端140的架构。终端140包括人类接口输入/输出设备(例如，相机210A、话筒210B、视频显示器250C、扬声器250D)，以及耦合至输入和输出信号复用器和分用器单元(例如，分组MUX 220A和分组DMUX 220B)的一个或多个网络接口控制器卡(NIC)230。NIC 230可以是标准硬件组件，诸如以太网LAN适配器或任何其它合适的网络接口设备或者其组合。

相机210A和话筒210B被设计成分别捕捉参与者的视频和音频信号以传输给其他会议参与者。相反，视频显示器250C和扬声器250D被设计成分别显示和回放从其他参与者接收到的视频和音频信号。视频显示器250C也被配置成任选地显示参与者/终端140自身的视频。相机210A和话筒210B输出分别经由模数转换器210E和210F耦合到视频和音频编码器210G和210H。视频和音频编码器210G和210H被设计成压缩输入视频和音频数字信号以减小在电子通信网络上传输信号所需的带宽。输入视频信号可以是实况或预先录制和存储的视频信号。编码器压缩本地数字信号以使传输信号所需的带宽最小化。

在本发明的示例性实施例中，音频信号可用本领域中已知的任何合适的技术(例如，G.711、G.729、G.729EV、MPEG-1等)来编码。在本发明的优选实施例中，可缩放音频编解码器G.729EV被音频编码器210G用来编码音频信号。音频编码器210G的输出被发送到复用器MUX 220A以经由NIC 230通过网络100传输。

分组MUX 220A可使用RTP协议执行传统复用。分组MUX 220A也可执行可由网络100提供的任何相关服务质量(QoS)处理。来自终端140的每个数据流在其自身的虚拟信道或IP技术中的“端口号”中传送。

图3示出被配置成与其中使用可缩放或联播视频编码的视频会议系统一起使用的最终用户终端140。在此情形中，视频编码器210GG具有多个输出。图3示出例如标记为“基”和“增强”的两个层输出。终端140的输出(例如，单层输出(图2)或多层输出(图3))经由LRP处理模块270A连接到分组MUX 220A。LRP处理模块270A(和模块270B)被设计成通过处理特定类型的帧(例如，图12和13中的“R”帧)以及诸如视频序列报头数据等需要可靠传输的任何其它信息的传输来进行差错弹性通信(“差错弹性LRP操作”)。如果视频编码器210G产生一个以上的增强层输出，则增强层输出的每一个可以与图3中所示的相同的方式连接到LRP处理模块270A。类似地，在此情形中，附加增强层将经由LRP处理模块270B提供给视频编码器230A。或者，增强层输出的一个或多个可直接连接到分组MUX 220A，而非经由LRP处理模块270A。

终端140还可配置有一组视频和音频解码器对230A和230B，其中每一对对应于在视频会议中终端140处可看到或听到的每个参与者。应当理解，尽管在图2和3中示出解码器230A和230B的若干实例，但使用一对解码器230A和230B连续处理来自多个参与者的信号是可能的。因此，终端140可配置有一对解码器230A和230B或比参与者的数目少的解码器230A和230B。

音频解码器230B的输出被连接到混音器240，后者又与驱动扬声器250B的数模转换器(DA/C)250A连接。混音器将各个信号组合成用于回放的单个输出信号。如果到达的音频信号是预先混合的，则可能不需要混音器240。类似地，视频解码器230A的输出可经由合成器260在视频显示器250C的帧缓冲器250B中被组合。合成器260被设计成将每个经解码的画面置于输出画面显示的适当区域。例如，如果显示器被划分成四个较小的区域，则合成器260从视频解码器230A的每一个处获得像素数据并将其放置在适当的帧缓冲器位置(例如，通过填充右下方的画面)。为了避免双重缓冲(例如，一次在解码器230A的输出以及一次在帧缓冲器250B)，合成器260可被实现为驱动解码器230A的输出像素的放置的地址生成器。用于最优化各个视频输出对显示器250C的放置的其它技术也可用于类似效果。

例如，在H.264标准规范中，通过使用灵活宏块排序(FMO)方案将多个参与者的视图组合在单个经编码的画面中是可能的。在此方案中，每个参与者占用经编码图像的一部分——包括其切片之一。在概念上，单个解码器可用于解码所有参与者的信号。然而，从实践角度看来，接收方/终端将必须解码四个较小的独立编码的切片。因此，图2和图3中所示的具有解码器230A的终端140可用在H.264规范的应用中。注意：用于转发切片的服务器是CSVCS。

在终端140中，分用器DMUX 220B接收来自NIC 320的分组并经由接收如图2和3中所示的LRP模块270B将它们重定向到适当的解码器单元230A。视频解码器230A的输入处的LRP模块270B终止接收终端的那一端处的差错弹性LRP。

MCU或服务器控制块280协调服务器(SVCS/CSVCS)与最终用户终端之间的交互。在没有中间服务器的点对点通信系统中，不需要服务器控制块。类似地，在非会议应用中，在接收最终用户终端处仅需要单个解码器。对于涉及所存储的视频(例如，预先录制的广播、预先编码的材料)的应用中，传送最终用户终端可不涉及音频和视频编码块或它们之前的所有终端块(例如，相机、话筒等)的整体功能。具体地，仅需要提供如下所说明的、与视频分组的选择性传输有关的部分。

应当理解，终端140的各个组件可以是彼此互联的、物理上单独的软件和硬件设备或单元(例如，集成在个人计算机中)，或者可以是其任何组合。

图4示出用于差错弹性处理应用中的示例性SVCS 400的结构。SVCS 400的核心是确定来自每一个可能源的哪个分组被传送到哪个目的地和通过什么信道的交换机410。(参见例如PCT/US06/028366)。

示例性SVCS 400的操作原理可参照图5来理解。在此示例中，传送终端或端点处的SVC编码器510产生除多个时间层(未在图中示出)之外的三个空间层。各个经编码的视频层在各个分组中自传送端点(SVC编码器)传送到SVCS 400。取决于网络条件或用户偏好，SVCS 400决定哪个分组要被转发到所示三个接收方/解码器520的每一个。在图5所示示例中，SVCS 400仅将第一和第二空间层转发到SVC解码器520(0)、将所有三个空间层转发到SVC解码器520(1)、以及仅将第一(基)层转发到SVC解码器520(2)。

再次参看图4，除PCT/US06/028366中描述的交换机之外，SVCS 400还包括分别设置在交换机的输入和输出处的LRP单元470A和470B。SVCS 400被配置成在其传入交换机连接处终止弹性LRP处理，以及在其传出交换机连接处发起弹性LRP处理。在使用SVCS 400的本发明的实现中，差错弹性LRP处理并非在网络上端对端地执行，而是仅在每个单独的连接段(例如，发送方到SVCS、SVCS到SVCS以及SVCS到接收方)上执行。然而，应当理解，本发明的差错弹性LRP处理可在使用或不使用SVCS的情况下以端对端方式在网络上执行。没有LRP单元470A和470B的SVCS 400可在使用SVCS的网络中用于端对端LRP处理。此外，SVCS 400可装备有一个以上NIC 230，如果SVCS 400连接不同网络上的用户通常将是这种情形。

图6示出可用于差错弹性视频通信系统中的示例性视频编码器600的架构。视频编码器600可例如是基于块的经运动补偿的转换编码器。H.264设计是视频编码器600的优选设计。然而，也可使用其它编解码器设计。例如，图7示出用于编码基于SVC设计的基层和时间增强层的示例性视频编码器600’的架构，而图8示出用于编码空间增强层的示例性视频编码器600”的架构。(参见例如PCT/US06/28365和PCT/US06/028366)。视频编码器600’和600”包括可用于使用空间可缩放性降低系统中的输入分辨率(例如，从CIF到CIF)的任选输入下采样器640。

图6还示出可使用视频编码器600实现的编码过程。编码器600中的增强参考控制(ENC REF CONTROL)620用于创建“线程化”编码结构。(参见例如PCT/US06/28365和PCT/US06/028366)。基于标准块的经运动补偿的编解码器具有I、P和B帧的常规结构。例如，在诸如IBBPBBP的画面序列(按显示次序)中，‘P’帧是从前一P帧或I帧预测的，而B画面是使用前一以及后一P或I帧两者来预测的。尽管连续的I或P画面之间的B画面的数目如同I画面出现的速率一样可变化，但是例如P画面不可能用作在时间上比最近的P画面早的另一P画面的参考。H.264是个例外，因为编码器和解码器保持两个参考画面列表。选择哪些画面用作参考以及哪些参考用于要被编码的特定画面是可能的。图6中的帧缓冲器块610代表存储参考画面列表的存储器，而编码器侧的增强参考控制620决定对当前画面使用哪些参考画面。

参照示出示例性分层画面编码结构900的图9可更好地理解增强参考控制520的操作。为了实现多个时间分辨率，用于视频通信系统中的编解码器可生成多个单独的画面“线程”。给定级的线程被定义为使用或者来自相同线程的画面、或者来自较低级线程的画面来进行运动补偿的画面序列。线程的使用允许实现时间可缩放性，因为可消去任何数目的顶级线程而不影响其余线程的解码过程。

在本发明的优选实施例中，使用具有一组三个线程的编码结构(例如，图9中的结构900)。在图9中，画面标记中的字母‘L’指示任何可缩放层。L之后的数字(0、1和2)标识时间层，例如，其中“0”对应于最低、或最粗糙的时间层，而“2”对应于最高或最细的时间层。图9中所示的箭头指示预测的方向、源和目标。在多数应用中，将仅使用P画面，因为使用B画面增加编码延迟达捕捉和编码用于B画面的参考画面所占用的时间。然而，在并非延迟敏感的应用中，可能除L0画面之外，画面的一部分或全部可以是B画面。类似的，L0画面可以是形成传统画面组(GOP)的I画面。

继续参看图9，层L0仅是相隔四个画面的常规P画面系列。层L1具有与L0相同的帧速率，但是仅允许根据前一L0帧进行预测。层L2帧是根据最近的L0或L1帧预测的。L0提供完全时间分辨率的四分之一(1∶4)，L1是L0帧速率的两倍(1∶2)，而L2是L0+L1帧速率的两倍(1∶1)。

可在设计成适应本发明的特定实现的不同带宽/可缩放性要求的编码结构中类似地构造比以上讨论的三个层L0、L1和L2更多或更少的层。图11示出仅有两个层L0和L1的线程化编码结构1000的示例。此外，图11示出用于空间可缩放性的线程化编码结构1100的示例。编码结构1100包括由字母‘S’标注的用于增强层的线程。应当注意，增强层的帧可具有与基层的帧不同的线程结构。

用于编码时间层的视频编码器600’(图7)可被扩充以编码空间和/或质量增强层。(参见例如PCT/US06/028365和PCT/US06/028366)。图8示出用于空间增强层的示例性编码器600”。除基层信息也可用于编码器600”之外，编码器600”的结构和功能类似于基层编解码器600’。此信息可包括运动矢量数据、宏块模式数据、经编码的预测差错数据或经重构的像素数据。编码器600”可重用此数据中的部分或全部以针对增强层S作出编码决定。该数据必须被缩放成增强层的目标分辨率(例如，如果基层为QCIF且增强层为CIF，则缩放2的倍数)。

尽管空间可缩放性通常需要维护两个编码环路，但是例如在H.264附录G(SVC)草案标准中，通过将用于增强层编码的基层数据仅限于可从当前画面的基层中编码的信息计算出的那些值来执行单环路解码是可能的。(参见例如通过引用全部结合于此的2006年10月T.Wiegand、G.Sullivan、J.Reichel、H.Schwarz、M.Wien等人在杭州的联合视频组文献JVT-U201的“Joint Draft 8 of SVCAmendment(SVC修改的联合草案8)”)。例如，如果基层宏块是帧间编码(inter-code)的，则增强层不能使用该宏块的经重构像素作为预测的基础。然而，它可使用其运动矢量和预测差错值，因为它们可通过只解码当前基层画面中包含的信息来获得。由于解码器的复杂度被显著降低，因此单环路解码是可取的。

质量或SNR可缩放性增强层编解码器可以与空间可缩放性编解码器相同的方式来构造。对于质量可缩放性，与在较高分辨率版本的输入上构建增强层不同，编解码器以相同空间分辨率编码残余预测差错。关于空间分辨率，在单或双环路编码配置中，基层的所有宏块数据可在增强层被重用。出于简便起见，本文的描述一般针对使用空间可缩放性的技术。然而将理解，相同的技术可应用于质量可缩放性。

国际专利申请PCT/US06/028365描述了线程编码结构(例如，编码结构900)在其针对存在传输差错的稳健性方面所具有的不同优点。在基于运动补偿预测的传统技术水平的视频编解码器中，时间依存性是固有的。给定画面处的任何分组丢失不仅影响该特定画面的质量，而且或者直接或者间接地影响以给定画面作为参考的所有将来画面。这是因为解码器对将来的预测可构建的参考帧将与编码器处所用的参考帧不同。随后的差异或漂移会对传统技术水平的视频编解码器造成极大的影响。

相反，图9中所示的线程结构创建三个完备线程或依存链。关于L2画面发生的分组丢失将仅影响L2画面；L0和L1画面仍可被解码和显示。类似地，关于L1画面发生的分组丢失将仅影响L1和L2画面；L0画面仍可被解码和显示。此外，线程结构可被创建成包括S画面的线程或依存链(例如，图11)。图11中所示的示例性S分组线程结构1100具有与图9中所示的L画面线程结构900相类似的特性。S2画面处的分组丢失仅影响特定画面，而S1画面处的丢失还将影响随后的S2画面。在任一情形中，一旦将下一S0画面解码，漂移就将终止。

再次参看图9，在画面质量方面，L0画面处发生的分组丢失可能是灾难性的，因为将会影响所有画面类型。如前所述，对此问题的传统解决方案是周期性地编码L0画面作为内画面或I画面。然而，实现这种解决方案的带宽开销会是显著的，因为I画面通常比P画面大3-6倍。此外，导致需要使用I画面的分组丢失通常是网络拥塞的结果。试图通过网络发送I画面来补救分组丢失只会恶化拥塞问题。

如果基层L0和某些增强层画面以保证其递送的方式传送，则在分组丢失的情形中没有严重后果的情况下其余层可基于尽力来传送。这种有保证传输可使用诸如区分型和FEC等已知技术来执行。在本文的描述中，也可参照提供这种区分型服务质量的作为两个实际或虚拟信道的高可靠性信道(HRC)和低可靠性信道(LRC)(图1)。(参见例如PCT/US06/028365和PCT/US06/028366)。在使用可缩放视频编码结构(图11中的结构1100)的视频通信系统中，层L0-L2和S0可例如在HRC上可靠地传送，而S1和S2可在LRC上传送。尽管S1或S2分组的丢失可导致有限的漂移，但是仍期望能够尽可能多地隐藏信息丢失。

在国际专利申请No.PCT/US06/061815中描述的差错弹性技术通过采用L0层的子集或整个L0层的可靠传输来克服用于补偿分组丢失的传统技术的限制。差错弹性或可靠性通过重传来确保。这些差错弹性技术不仅出于显示目的而被设计成恢复丢失的画面，还被设计成创建正确的参考画面以便于解码依赖于丢失分组中所包含的那些画面(整体或部分)的将来画面。本发明通过在画面是在多个传输层(例如RTP)分组上传送的情况下确保其恰当操作来对这些技术进行改进。在本发明的系统实现中，L0画面的可靠传输可通过LRP模块(例如，图2中的模块270A和270B以及图4中的模块470A和470B)根据适当的保护协议在发送方和接收方之间使用肯定或否定确认来执行。

图12示出示例性画面编码结构1200(其还在国际专利申请No.PCT/US06/061815中描述)，其中L0基层和L1-L2时间增强层与至少一个可靠传送的基层画面相耦合以进行差错弹性视频通信。在编码结构1200中，除标记为L0-L2画面的常规基层和增强层之外，还有称为LR(‘R’代表可靠)的新的画面类型。注意：在图12中所示的编码结构1200中，层LR和L0-L2可等效于分别被标记为L0-L3，因为LR画面总是经编码的视频信号的最低时间层。根据用于差错弹性视频通信的本发明，可以是P画面的LR画面被指定成将被可靠地递送到接收方目的地。

本发明的差错弹性技术的操作可通过考虑其中L0画面之一因分组丢失而被破坏或丢失的示例来理解。如前所述，在传统通信系统中，丢失L0画面对所有后续L0-L2画面的影响是严重的。使用画面编码结构1200，在丢失L0画面之后的下一“可靠递送的”LR画面提供了重新同步点，接收器/解码器可在该点之后继续无失真地解码和显示。

在图12中所示的编码结构1200中，LR画面之间的时间距离例如为12帧。LR画面的可靠递送利用了具有极长时间距离(6帧或更多)的P画面约为I画面的大小的一半，并且可靠递送并非旨在确保相关画面的及时显示而是旨在创建合适的参考画面以备将来使用这个事实。因此，LR画面的递送可通过在连续LR画面之间的一段时间内极轻微地增加系统中的带宽来实现。

编码结构1200可使用现有的H.264标准来实现，在该标准下LR画面可例如被存储在解码器处作为长期参考画面并可用MMCO命令来替换。

图13示出示例性画面编码结构1300，其中LR画面的概念被应用于增强层画面(或者空间或者质量可缩放性)。这里，要被可靠传送的画面被标记为SR，而对于LR画面，它们组成空间或质量增强层的最低时间层。

注意：尽管出于例示的目的LR画面的概念在此通常被描述成应用于经编码的视频信号的最低时间层，但此概念也可根据本发明原理被扩展或应用到附加层。此扩展应用将导致以可靠方式传送附加层。例如，参看图12，除LR画面之外，L0画面也可被纳入可靠(重)传送机制中。类似地，可包括(来自最低或附加时间层的)任何空间/质量增强层的画面。此外，视频序列报头或其它数据可被当作或考虑成与系统中的LR等效，以使得它们(报头或其它数据)被可靠地传送。在下文中，出于描述简便的目的，假定只有LR画面被可靠传送，除非另外明确指明。然而，应当容易理解，附加层或数据可以完全相同的方法来可靠传送。

当没有分组丢失时，用于LR帧的可靠递送的带宽开销为零或可忽略是合乎需要的。这意味着动态闭环算法应当被用于可靠递送机制。在例如LR帧被主动重传多次的情况中，使用开环算法也是可能的。

国际专利申请No.PCT/US06/061825描述用于通知发送方(例如，发送器、SVCS1或SVCS2)特定LR画面已被预期接收方接收到的若干机制，并且还描述了用于动态地建立LR画面的技术。使用RTCP或其它反馈机制，可使用例如本文中描述的肯定和否定确认技术通知发送器特定接收器正经历丢失分组。该反馈可像针对每个单独分组的各个ACK/NACK消息一样详细。使用反馈使得编码器能够计算(确切或大致地)解码器的状态，并相应地进行动作。此反馈被生成并由可靠性和随机接入控制(RRC)模块530(图6)来收集。

这些发送方通知机制的一个重要方面是接收方(接收端点或SVCS)藉此以最小延迟来检测LR画面的丢失的技术。在前述专利申请中使用的技术依赖于LR画面编号和画面编号引用。

LR画面编号技术通过向LR画面指派与这些LR画面分组一起被运送的序号来操作。接收器维护其已接收到的LR画面的编号的列表。另一方面，非LR画面包含最近LR画面在解码次序中的序号。此序号引用允许接收器甚至在接收后一LR画面之前检测丢失的LR画面。当接收器接收到LR画面时，其可通过将收到LR画面的画面编号与其所维护的画面编号列表作比较来检测其是否已丢失(即，未收到)先前LR画面中的一个或多个。收到LR画面的画面编号应当比前一画面的编号大1，或者如果计数重新开始则为0。当接收器接收到非LR画面时，它进行测试以查看所引用的LR画面的编号是否存在于其编号列表中。如果不存在，则假定所引用的LR画面为丢失，并且可发起纠正动作(例如，NACK消息被传回发送器)。注意，使用LR画面编号技术检测丢失的LR画面可在接收端点以及中间SVCS两者处执行。例如在图2和图3中的LRP(接收)模块270B或图4中的模块470B处执行此操作。

画面编号技术的潜在限制可在使用一个以上分组传输单个LR画面时表明其自身。这样的传输可例如在使用多个切片来进行编码的情况下发生，但也可在每当给定画面的经编码比特超过最大传输层分组大小时发生。当多个分组用于传输一个画面时，所有分组将具有相同的画面索引值，因为它们属于同一画面。如果所有这些分组都在传送中丢失，则接收器可在下一次成功接收画面数据时恰当地检测该丢失。然而，如果在其中该图片的仅一些分组丢失(而一些分组被收到)的部分数据接收的情形中，接收器将不能检测丢失，除非其检查数据以确定画面中所包含的所有宏块是否都包括在收到数据中。要求接收器解析经编码视频数据的此确定是高计算性要求的任务。在H.264或H.264 SVC情形中，例如确定一组切片是否包括整个分组的数据要求解析整个切片报头。解析操作可在装备有解码器的接收器中执行。然而，在接收器为SVCS或任何其他类型的MANE时则并非如此。

为了解决部分数据接收情形中的差错弹性，应注意，接收器可使用与每一个分组相关联的序号(例如，在其中RTP被用作传输协议的优选实施例中为RTP序号)来检测分组丢失。LR画面的连续分组将包含连续RTP序号。如果收到部分数据，则接收器根据收到RTP序号之间的间隙得知有一些数据丢失，但是其不能确定丢失的数据对应于LR画面的部分还是来自后继画面的数据。结果，不能单独从RTP序号检测出收到数据是否包含整个LR画面。为了使接收器检测到整个画面的接收，本发明引入两个标志：开始位标志和结束位标志，其分别指示包含LR画面的数据的第一分组和最后分组。

在收到LR画面的分组时，接收器可检验其RTP序号并检查其是否已收到具有连续更小序号的所有先前分组，直至抵达具有相同画面索引值且其中‘开始’位被置位的分组。类似地，其可继续检查收到了具有连续更大RTP序号的连续分组，直至抵达具有相同画面索引值且其中‘最后’位被置位的分组。通过此修改，帧索引可用于在未收到数据时以及在收到部分数据时这两种情形中检测最低时间级画面的丢失。

这两个标志还可被引入比最低时间级更高的时间级，以实现对属于更高时间级的画面进行完整性检查。这种与RTP序号相耦合将使得接收器能快速地确定其是否已收到特定画面的全部所需数据而不管其时间级。

注意，RTP标注位具有用在视频传输中的通常定义，如“画面的最后分组”。使用RTP标注位可代替‘最后’标志来考虑。然而，在SVC的上下文中，RTP标注位的这种使用不足以解决本发明要解决的问题，因为一画面可能包括若干‘画面’(基层和增强层)。此外，这种改变可能在已纳入RTP标注位的通常解释的现有RTP系统中引起问题。

本文描述了经修改LR画面编号技术的两个不同实施例。一个实施例(在下文中称为‘R分组’技术)适用于系统使用RTP协议进行传输的情况。另一实施例适用于系统使用H.264SVC草案标准的情况。

对于R分组技术，假定RTP协议(在UDP和IP上)被用于两个终端之间——可能经由一个或多个中间服务器——的通信。注意：媒体传送终端可执行实时编码，或者可从本地或其它存储(RAM、硬盘、存储区网、文档服务器等)访问媒体数据。类似地，接收终端可执行实时解码，以及它可将收到数据存储在本地或其它存储或这两者中以备将来回放。对于在此的描述，假定(并非限制)正在进行实时编码和解码。

图14示出传送终端的LRP发送模块(例如，图2中的模块270A)的架构。LRP发送模块包括具有用于可能要求重传的分组的本地存储(例如，缓冲器1605)的分组处理器(R分组控制器1610)。R分组控制器1610对R分组作标注，并且还对RNACK作出响应。R分组控制器被连接到实现RTP/UDP/IP协议栈的复用器MUX 1620和分用器DMUX 1630。尽管MUX 1620和DMUX 1630在图14中被示为单独的实体，但它们可被组合在同一单元中。MUX 1620和DMUX 1630被连接到提供物理层接口的一个或多个网络接口控制器(NIC)。在优选实施例中，NIC是以太网适配器，但可使用任何其它NIC，这对于本领域技术人员是显而易见的。

类似地，图15示出接收终端的LRP接收模块(例如，图2中的模块270B)的示例性架构。在此，R分组控制器(例如，控制器1610’)负责分组丢失检测和适当NACK消息的生成。此外，图16示出服务器的LRP发送和接收模块(例如，图4中的模块420A和420B)——可与接收终端的组件以及背靠背(back-to-back)连接的传送终端的那些组件相同——的结构。

在优选实施例中，传送终端根据RTP规范对媒体数据进行分组。注意：尽管针对RTP定义了不同的分组(称为“有效载荷”)格式，但它们可共享同一公共报头。本发明针对RTP分组引入名为报头扩展机制(参见2006年2月D.Singer的draft-ietf-avt-rtp-hdrext-01(进行中)——“A general mechanism for RTP HeaderExtensions(RTP报头扩展的通用机制)”)以使得R分组可被适当处理。

根据本发明，在包含R分组的RTP会话中，用名为报头扩展机制来对各个分组作标注。R分组报头扩展元素标识R分组自身以及先前发送的R分组。此报头扩展元素具有名称“com.layeredmedia.avtr-packet/200606”。每个R分组包括——且每个非R分组应当包括——此类形式的报头扩展元素。

图17示出发明性名为报头扩展的示例性数据字段格式，其中这些字段定义如下。

ID：4比特

针对此报头扩展元素协商的本地标识符，如例如D.Singer在2006年2月的draft-ietf-avt-rtp-hdrext-01(进行中)——“A general mechanism forRTP Header Extensions(RTP报头扩展的通用机制)”中所定义的。

长度(len)：4比特

此报头扩展元素的数据字节的长度减一，不计入报头字节(ID和len)。如果存在第二个字(取代范围)，则这将具有值6，如果不存在，则为2。因此，其值必须或者为2或者为6。

R：1比特

指示包含此报头扩展元素的分组是系列SER中具有R序号RSEQ的R分组的比特。如果此比特未被置位，则报头扩展元素替代地指示媒体流在系列SER中的最近R分组具有R序号RSEQ。如果此比特未被置位，则取代范围应当不存在(即，len字段应当为2)并且在存在的情况下必须被忽略。

保留，必须为零(0)：1比特

保留比特。这些必须在传送时被设为零，并且在接收时被忽略。

开始(S)：1比特

如果这是包含来自给定画面的数据的第一分组则必须置位。

结束(E)：1比特

如果这是包含来自给定画面的数据的最后分组则必须置位。

系列ID(SER)：4比特

R分组系列的标识符由此报头扩展元素来描述。如果媒体编码器仅描述单个R分组系列，则此应当具有值0。例如，使用图13中所描绘的可缩放视频画面编码结构，L分组(空间增强基层，所有线程)可比方将SER设为零，而S分组(空间增强层，所有线程)可将SER设为1。

R分组序号(RSEQ)：16比特

指示此R分组在系列SER中的编号的无符号序号。针对给定序列中发送的每一个R分组，此值递增1(模2^16)。各个序列的RSEQ值是独立的。

取代范围的起始(SUPERSEDE_START)：16比特

最早R分组(包括被此R分组取代的)的R序号，通过模2^16计算出。(由于此值使用模运算，因此值RSEQ+1可用于SUPERSEDE_START以指示在取代范围末端之前的所有R分组已被取代。)此字段是任选的，并且仅在len＝6时存在。

取代范围的末端(SUPERSEDE_END)：16比特

最后R分组(包括被此R分组取代的)的R序号，通过模2^16计算出。此值必须位于闭合范围[SUPERSEDE_START..RSEQ]模2^16中。此字段是任选的，并且仅在len＝6时存在。

根据本发明的差错弹性视频通信系统的操作与国际专利申请No.PCT/US06/61815中所描述的操作相同或类似，除了‘S’和‘E’标志的使用。这些标志在接收器处结合RTP序号一起使用以检测LR画面是完整地被收到(在这种情形中无需校正动作)还是部分地被收到(在这种情形中必须发起校正动作)。该系统的操作的所有其他方面——包括各种重传技术(例如，肯定或否定确认)——保持不变。

RTP分组可包含多个R分组标注元素，只要这些元素的每一个都具有一不同的SER值。然而，RTP分组不能包含一个以上的、R比特被置位的这种报头扩展元素，即，R分组不可属于一个以上的系列。

媒体流中使用R分组的所有RTP分组应当包括针对所有活跃系列的标注元素。

当此报头扩展元素的第二个字存在时，它指示此R分组取代某些先前接收到的R分组，这意味着这些分组不再是重构流状态所必需的。第二个字必须仅在其R比特被置位的报头扩展元素中出现。

R分组可仅取代系列中由元素的SER字段标识的R分组。R分组不能取代其它系列中的分组。

对于取代元素而言，具有SUPERSEDE_END＝RSEQ是有效的。这指示R分组取代其自身，即，此R分组直接变成与流状态无关。实际上，这样做的最通常原因是要结束一系列；这可通过发送具有取代范围(SUPERSEDE_START，SUPERSEDE_END)＝(RSEQ+1，RSEQ)的空分组(例如，RTP No-op分组，参见F.Andreasen在2005年5月的draft-ietf-avt-rtp-no-op-00(进行中)的“A No-opPayload Format for RTP(RTP的No-op有效载荷格式)”)，以使得该系列不再包含任何未经取代的分组。

在系列中发送的第一R分组应当在取代范围为(SUPERSEDE_START，SUPERSEDE_END)＝(RSEQ+1，RSEQ-I)下发送，以明确该范围内没有其它R分组存在。

R分组可冗余地包括要被取代的分组范围内已被取代的分组。

R分组的丢失由接收器来检测，并且由该接收器用RTCP反馈消息向发送器进行指示。R分组否定确认(NACK)消息是由PT＝RTPFB且FMT＝4(作为示例)标识的RTCP反馈消息(例如，参见J.Ott等人在2006年7月的RFC 4585的“Extended RTP Profile for RTCP-based Feedback(RTP/AVPF)(基于RTCP反馈的扩展RTP概况(RTP/AVPF))”)。根据本发明，也可选择其它值。FCI字段必须包含至少一个且可包含一个以上的RNACK。

RNACK分组用于指示一个或多个R分组的丢失。丢失分组经由分组序号、系列标识符和位屏蔽来标识。

RNACK消息的结构和语义类似于AVPF通用NACK消息的那些。

图18示出了RNACK反馈控制信息(FCI)的示例性句法，其中各个字段定义如下：

R分组序号(RSEQ)：16比特

RSEQ字段指示接收器尚未接收到的RSEQ值。

系列ID(SER)：4比特

哪个R分组序列正被此报头扩展元素描述为丢失的标识符。

后续丢失R分组的位屏蔽(BLR)：12比特

BLR允许报告紧随由RSEQ指示的RTP分组之后的12个R分组中的任一个的丢失。指示BLP的最低有效位为比特1，且其最高有效位为比特12，如果接收器尚未接收到系列SER(模2^16)中的R分组号(RSEQ+i)，则位屏蔽的比特i被设为比特1，并且指示此分组丢失；否则比特i被设为0。注意：发送器不能假定接收器已接收到R分组，因为其位屏蔽被设为0。例如，如果序列中对应于RSEQ的分组和后续的R分组已丢失，则BLR的最低有效位可被设为1。然而，发送器不能仅因为比特BLR的比特2到15为0就推断已接收到分组RSEQ+2到RSEQ+16；所有发送器都知道接收器此时尚未将它们当作丢失来报告。

图18中所示的RNACK消息的结构与在国际专利申请No.PCT/US06/061815中描述的相同。

允许接收器以最小延迟检测已丢失的LR分组的第二示例性检测技术可应用于基于H.264SVC草案标准的系统。在此情形中，H.264SVC NAL单元被用作进行传输的基础。国际专利申请No.PCT/US06/61815描述了LR画面索引技术如何也可应用于这种情形。与RTP实施例相同，本发明引入了两个单比特标志来解决有多个分组被用于传输给定LR画面的情形。

图19示出被修改成包括开始和结束标志的发明性H.264SVC NAL报头扩展的结构，其使用H.264SVC草案(参见例如T.Wiegand、G.Sullivan、J.Reichel、H.Schwarz、M.Wien等人于2006年10月在杭州的联合视频组文献JVT-U202中的“Joint Scalable Video Model 8：Joint Draft 8 with proposed changes(联合可缩放视频模型8：带有所提议修改的联合草案8)”，其通过引用全部结合于此)的句法作为基础。开始和结束标志是画面_开始_标志和画面_结束_标志，而画面索引是tl0_pic_idx参数。dependency_id(依存性_ID)(D)、temporal_level(时间_层)(T)以及quality_level(质量_层)(Q)字段分别指示空间/粗粒度质量、时间和细粒度质量维度中的点。换言之，它们指示由可缩放编码器提供的一组分辨率中NAL的有效载荷的位置。注意，此方案中的基层通过D＝Q＝T＝0来标识。

虽然已描述了被视为是本发明的优选实施例的那些实施例，但是本领域技术人员应当认识到，可作出其它或进一步的改变和更改而不背离本发明的精神，并且其旨在要求保护落在本发明的真实范围内的所有这些改变和更改。例如，根据本发明可在RTP传输上下文和H.264SVC NAL传输上下文两者中使用用于指示LR画面帧索引值并在非LR画面中引用它的替换性机制。类似地，在RTP和H.264 SVC两者中皆可使用用于指示开始和结束标志的替换性机制。例如，tl0_pic_idx参数和相关联的画面_开始_标志和画面_结束_标志参数可携带在SEI消息中。

应当理解，本发明的系统和方法可用任何硬件和软件的组合来实现。用于实现和操作前述系统和方法的软件(即，指令)可被设置在计算机可读介质上，这些计算机可读介质可包括但不限于：固件、存储器、存储设备、微控制器、微处理器、集成电路、ASICS、可在线下载的媒体以及其它可用的介质。

Claims

1.一种用于在基于分组的通信网络上在传送端点或服务器与一个或多个接收端点或服务器之间进行媒体通信的系统，所述系统包括：

编码器，其将所传送的媒体编码为具有包括最低时间层的多个不同层的线程化编码结构中的画面，其中每一画面与画面索引号相关联，

其中与单个画面相对应的数据被划分成一个或多个个体数据分组并在其中传送，

其中个体数据分组包括指示以下的数据元素：

对于最低时间级画面，标识所述画面的序号，

对于其它时间级画面，对按照解码次序最近的最低时间级画面的序号的引用，以及

对于所有画面，‘开始’标志和‘结束’标志，其分别指示所述个体数据分组是否包含所述画面的第一或最后数据部分，从而接收端点或服务器在收到所述个体数据分组之际能通过检查在所述接收端点或服务器处是否已收到与所述被引用的画面索引相对应的所述画面的所有数据部分来检测最低时间级画面的部分的丢失，以使得其分组序号不包含间隙，并且其中此所述第一数据部分的‘开始’位被置位，而此所述最后数据部分的‘结束’位被置位。

2.如权利要求1所述的系统，其特征在于，所述数据元素另外指示与各个空间或质量层相关联的系列号，其中所述接收端点或服务器通过确定在所述接收端点或服务器处是否已收到与所引用的系列号和序号相对应的所述画面来检测特定空间或质量层的最低时间级画面是否丢失。

3.如权利要求1所述的系统，其特征在于，包括遵循H.264的编解码器，其中所述最低时间级画面包括被标记为长期引用画面的画面，并且其中所述解码器基于最低时间级画面来解码所述收到媒体的至少一部分是由MMCO命令控制的。

4.如权利要求1所述的系统，其特征在于，所述通信网络使用网际协议，媒体传输是使用实时协议(RTP)来执行的，并且所述数据元素包括指示所述分组中是否存在最低时间层帧或其片段的数据。

5.如权利要求4所述的系统，其特征在于，接收端点或服务器响应于所述接收端点或服务器检测到丢失了最低时间级画面或此类画面的一部分而向所述传送端点或服务器发送否定确认消息。

6.如权利要求5所述的系统，其特征在于，所述传送端点或服务器在收到所述否定确认消息之际重传所述丢失画面或此类画面的丢失部分。

7.如权利要求1所述的系统，其特征在于，所述编码器遵循H.264 SVC，并且在用于SVC元素的NAL单元报头扩展中携带所述数据元素。

8.如权利要求1所述的系统，其特征在于，所述编码器遵循H.264 SVC，并且在SEI消息中携带所述数据元素。

9.一种用于在基于分组的通信网络上在传送端点或服务器与一个或多个接收端点或服务器之间进行媒体通信的方法，其中编码器将所传送的媒体编码为具有包括最低时间层的多个不同层的线程化编码结构中的画面，并且其中与单个画面相对应的数据被划分成一个或多个个体数据分组并在其中传送，所述方法包括：

在每一个个体数据分组中放置指示以下的数据元素：

对于最低时间级画面，标识所述画面的序号或索引号，

10.如权利要求9所述的方法，其特征在于，所述数据元素另外指示与各个空间或质量层相关联的系列号，从而所述接收端点或服务器通过确定在所述接收端点或服务器处是否已收到与所引用的系列号和序号相对应的所述画面来检测特定空间或质量层的最低时间级画面是否丢失。

11.如权利要求9所述的方法，其特征在于，所述传送的媒体是使用遵循H.264的编解码器来编码的，其中所述最低时间级画面包括被标记为长期引用画面的画面，并且其中所述解码器基于最低时间级画面来解码所述收到媒体的至少一部分是由MMCO命令控制的。

12.如权利要求9所述的方法，其特征在于，所述通信网络使用网际协议，媒体传输是使用实时协议(RTP)来执行的，并且所述数据元素包括指示所述分组中是否存在最低时间层画面或其片段的数据。

13.如权利要求12所述的方法，其特征在于，接收端点或服务器响应于所述接收端点或服务器检测到丢失了最低时间级画面或此类画面的一部分而向传送端点或服务器发送否定确认消息。

14.如权利要求13所述的方法，其特征在于，所述传送端点或服务器在收到所述否定确认消息之际重传所述丢失画面或此类画面的丢失部分。

15.如权利要求14所述的方法，其特征在于，所述编码器遵循H.264 SVC，并且在用于SVC元素的NAL单元报头扩展中携带所述数据元素。

16.如权利要求9所述的方法，其特征在于，所述编码器遵循H.264 SVC，并且在SEI消息中携带所述数据元素。

17.一种包括用于执行方法权利要求9-16的至少一项中所述的步骤的指令集的计算机可读介质。