CN103561267A

CN103561267A - 基于运动信息与深度信息的3d视频编码传输方法

Info

Publication number: CN103561267A
Application number: CN201310408964.5A
Authority: CN
Inventors: 罗天明; 程飞; 肖继民
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-09-10
Filing date: 2013-09-10
Publication date: 2014-02-05
Anticipated expiration: 2033-09-10
Also published as: CN103561267B

Abstract

本发明在传统的色彩视频加深度图的3D视频编码方法中，通过获取摄像机镜头中心的运动信息/绝对方位信息，运动信息/绝对方位信息结合色彩图像信息和深度图像信息，准确地估计位于不同深度的宏块的全局运动，在帧与帧之间进一步去冗余，大大减小了压缩后视频的存储空间，降低了对传输或通讯带宽的要求，同时缩短了视频压缩所需的计算时间。

Description

基于运动信息与深度信息的3D视频编码传输方法

技术领域

本发明涉及视频编码领域，具体涉及一种基于运动信息和深度信息的3D视频编码传输方法。

背景技术

目前，广泛应用的3D视频编码与传输格式主要有传统立体视频格式、多视角视频格式以及色彩视频加像素深度信息图格式。

传统立体视频格式只有两个视角点，观看这种立体视频用户需要一种特制的3D眼镜来获得视频图像的立体纵深感。常用的Stereo立体视频编码方式有两种，一种是直接对左右眼视图的视频数据进行独立编码(Simulcast)，另一种是应用左右视图的相关性预测编码（Interview Prediction）。这两种方法对比特率的要求都不高，仅是传统2D视频所需码率的两倍甚至少于两倍。但是，这种格式对于用户而言只能从一个固定的视角观看立体视频信号，该缺陷会限制其未来的应用空间。

多视角视频格式是由多台摄像机从不同角度对同一场景进行拍摄，它可以实现立体视频、自由视角电视（Free Viewpoint Video）和多视角3D电视的应用。由于所有的摄像机仅是从不同角度捕捉同一个场景，所以多视角视频中包含大量的相邻视角视图间的相关冗余信息。因此，结合视频信号的空间域相关性（Spatial correlation）和时间的相关性（Temporal correlation），以及不同视角色彩视图之间的高度相关性（Interview correlation）是高效地进行多视角视频编码的关键。

色彩视频加像素深度信息图格式中，像素深度信息图(简称深度图，depth map) 所体现的是场景中物体表面到摄像机成像平面的距离信息，通过深度图及其对应的纹理色彩图可以重新绘制立体视频图像。近几年来，这一格式吸引了来自立体视频压缩和计算机视觉领域的高度关注, 因为它有很好的3D视频压缩能力和功能拓展性。Muller, K.; Merkle, P.; Wiegand, T.在《3-D Video Representation Using Depth Maps》（ Proceedings of the IEEE , vol.99, no.4, pp.643,656, April 2011）中提到，在色彩视频加深度图格式中，只需要一些摄像机的参数，比如焦距，两个镜头之间的距离等信息，即可合成其他视角的视频信息；同时，为了正确表示深度图的信息，深度范围的信息也需要传输。Smolic, A.; Mueller, K.; Stefanoski, N.; Ostermann, J.; Gotchev, A.; Akar, G.B.; Triantafyllidis, G.; Koz, A.在《Coding Algorithms for 3DTV—A Survey》（ Circuits and Systems for Video Technology, IEEE Transactions on , vol.17, no.11, pp.1606,1621, Nov. 2007）中提到，对于该方案的深度图部分的编码，每一帧深度图被认为是黑白视频信号，然后使用目前先进的视频编码器（例如MPEG-2, MPEG-4, H.264/AVC等）进行压缩。

目前主流的视频编码方案（例如H.264/AVC）中，采用运动估计与运动补偿方法减小视频帧间的冗余，帧间可以通过运动向量来表示各个宏块相对于参考帧的运动，并通过运动补偿等算法可以最终解码出帧。但是由于摄像机运动（包括平动和转动）引起的运动会造成画面的全局运动，编码器在对每个宏块进行编码时，全局运动会增加运动估计的时间，并且增加码流信息。Chen, X.; Zhendong Zhao; Rahmati, A.; Ye Wang; Lin Zhong在《Sensor-Assisted Video Encoding for Mobile Devices in Real-World Environments》（ Circuits and Systems for Video Technology, IEEE Transactions on , vol.21, no.3, pp.335,349, March 2011）中提出了一种基于传感器辅助的视频编码方案，文中使用了加速度传感器和电子罗盘传感器获取摄像机的全局运动，从而获得全局运动矢量，然后对H.264中的运动估计算法进行修改，减小了视频压缩码流以及压缩时间。但是，该文中只获取并使用了摄像机的转动信息做编码辅助，并没有考虑平动带来的图像全局运动。

发明内容

本发明提供一种基于运动信息与深度信息的3D视频编码传输方法，其目的在于解决现有彩色视频加深度图的3D视频编码技术中，由于摄像机自身运动带来的大量的运动估计造成的码率增加以及编码时间增加的问题。

为达到上述目的，本发明采用的技术方案是：一种基于运动信息与深度信息的3D视频编码传输方法，其创新在于：使用一设置有色彩图像传感器、深度图像传感器和运动传感器的摄像机对被拍摄对象进行拍摄，色彩图像传感器用于采集被拍摄对象的色彩图像信息，深度图像传感器用于采集被拍摄对象的深度图像信息，运动传感器用于采集摄像机镜头中心空间运动的运动信息，该运动信息包括位移信息以及转动角度信息，所述编码传输方法包括以下步骤：

第一步、数据采样

以设定帧率对所述色彩图像信息和深度图像信息进行采样；

以至少一倍于所述设定帧率的采样率对所述运动信息进行采样；

第二步、数据同步

根据系统绝对时间对所述色彩图像信息、深度图像信息以及运动信息进行时间同步，即将色彩图像信息、深度图像信息以及运动信息在系统绝对时间上进行一一对应；

第三步、图像渲染

通过摄像机对被拍摄对象进行拍摄获取第一帧图像，并对其进行编码；

摄像机镜头中心空间运动引起的变换矩阵[T]如下：

Figure 2013104089645100002DEST_PATH_IMAGE001

_；

上述矩阵中，x为摄像机镜头中心在X轴上的位移，y为摄像机镜头中心在Y轴上的位移，z为摄像机镜头中心在Z轴上的位移；α、β、γ为欧拉角，α表示摄像机镜头中心绕Z轴旋转的角度，经过α角度之后，摄像机镜头中心绕X轴旋转的角度为β，然后继续绕Z轴旋转的角度是γ；Y轴为摄像机在初始位置时垂直于摄像机镜头平面的轴，X轴为垂直于Y轴的水平轴，Z轴为垂直于Y轴的竖直轴；

当N>1时，由色彩图像信息和深度图像信息可知第N-1帧中坐标为[X1，Y1]的像素的深度值为Z1，通过以下公式得到第N-1帧中该像素色彩图像信息和深度图像信息的齐次3D坐标[x1，y1，z1,1]：

[x1，y1，z1,1]=[（X1-w/2）×Z1×k，Z1，（-Y1+h/2）×Z1×k，1]；

上述公式中，w表示摄像机所拍摄照片X轴上的像素总数，h表示照片Y轴上的像素总数，k=tan（θ/2）/（h/2），其中θ表示摄像机的垂直视角；

通过以下公式得出经过摄像机镜头中心空间运动后第N-1帧中坐标为[X1，Y1]的像素在第N帧参考帧中的色彩图像参考帧信息和深度图像参考帧信息的齐次3D坐标[x2，y2，z2,1]：

[x2，y2，z2,1]=[x1，y1，z1,1]×[T]；

通过以下公式从经过摄像机镜头中心空间运动后第N-1帧中坐标为[X1，Y1]的像素在第N帧中色彩图像参考帧信息和深度图像参考帧信息的齐次3D坐标[x2，y2，z2,1]得到经过摄像机镜头中心空间运动后第N-1帧中坐标为[X1，Y1]的像素在第N帧参考帧中新的2D坐标[X2，Y2]：

[X2，Y2]=[x2/k/y2+w/2，-z2/k/y2-h/2]；

第四步、编码

结合摄像机实际拍摄到的第N帧中各像素的2D坐标和经过摄像机镜头中心空间运动后第N-1帧中像素在第N帧参考帧中新的2D坐标，使用视频编码标准对应的编码器进行编码，得到第N帧的色彩图像信息流和深度图像信息流；

第五步、传输

在视频传输过程中传输编码后的色彩图像信息流、深度图像信息流以及摄像机镜头中心的运动信息；

第六步、解码

当N为大于1的整数时，结合已解码的第N-1帧的色彩图像信息、深度图像信息以及第N-1帧到第N帧过程中摄像机镜头中心所经历空间运动的运动信息，采用第三步的图像渲染方法分别渲染得到对应的色彩图像参考帧信息与深度图像参考帧信息，并结合第N帧的色彩图像信息流和深度图像信息流，采用相应解码器进行解码。

为达到上述目的，本发明还采用另一种技术方案：一种基于运动信息与深度信息的3D视频编码传输方法，其创新在于：使用一设置有色彩图像传感器、深度图像传感器和运动传感器的摄像机对被拍摄对象进行拍摄，色彩图像传感器用于采集被拍摄对象的色彩图像信息，深度图像传感器用于采集被拍摄对象的深度图像信息，摄像机设于摄像导轨和云台上，结合轴编码器获取摄像机镜头中心相对参考系的绝对方位，所述编码传输方法包括以下步骤：

第一步、数据采样

以设定帧率对所述色彩图像信息和深度图像信息进行采样；

第二步、数据同步

第三步、图像渲染

摄像机镜头中心的绝对方位用以下矩阵[P]表示：

_；

当N为大于1的整数时，定义矩阵[P1]为第N-1帧对应时刻摄像机镜头中心的绝对方位，矩阵[P2]为第N帧对应时刻摄像机镜头中心的绝对方位，则摄像机镜头中心空间运动引起的变换矩阵[T]为：

[T]=[P1]^-1×[P2]；

由色彩图像信息和深度图像信息可知第N-1帧中坐标为[X1，Y1]的像素的深度值为Z1，通过以下公式得到第N-1帧中该像素色彩图像信息和深度图像信息的齐次3D坐标[x1，y1，z1,1]：

[x1，y1，z1,1]=[（X1-w/2）×Z1×k，Z1，（-Y1+h/2）×Z1×k，1]；

[x2，y2，z2,1]=[x1，y1，z1,1]×[T]；

[X2，Y2]=[x2/k/y2+w/2，-z2/k/y2-h/2]；

第四步、编码

结合摄像机实际拍摄到的第N帧中各像素的2D坐标和经过摄像机镜头中心空间运动后第N-1帧中的像素在第N帧参考帧中新的2D坐标，使用视频编码标准对应的编码器进行编码，得到第N帧的色彩图像信息流和深度图像信息流；

第五步、传输

第六步、解码

当N>1时，结合已解码的第N-1帧的色彩图像信息、深度图像信息以及第N-1帧到第N帧过程中摄像机镜头中心所经历空间运动的运动信息，采用第三步的图像渲染方法分别渲染得到对应的色彩图像参考帧信息与深度图像参考帧信息，并结合第N帧的色彩图像信息流和深度图像信息流，采用相应解码器进行解码。

上述技术方案中的有关内容解释如下：

1、上述方案中，所述系统绝对时间指的是：无论是计算机操作系统还是手机操作系统中，都设有一个计时器来记录开机到目前为止所经历的时间，一般用微秒或者更小的时间单位记录；由于很难做到绝对同步地采样色彩图像信息、深度图像信息和运动信息，因此可以在采样色彩图像信息、深度图像信息和运动信息时分别记录其对应的系统绝对时间，在进行数据同步时寻找在系统绝对时间上最匹配的色彩图像信息、深度图像信息和运动信息进行图像渲染；由于色彩图像信息和深度图像信息一般在同一摄像机中被采集，在时间上的同步度很高，所以运动信息需要特别匹配色彩图像信息和深度图像信息，如果在系统绝对时间上的差距较大，可以采用插值法预测色彩图像信息或深度图像信息采样时刻的运动信息；插值法具体参见姚传义《数值分析》第三章的内容（2009年第1版）。

2、上述方案中，所述欧拉角用来描述刚体在三维欧几里得空间的取向；对于任何参考系，一个刚体的取向，是依照顺序，从这参考系，做三个欧拉角的旋转而设定的，所以，刚体的取向可以用三个基本旋转矩阵来决定，换句话说，任何关于刚体旋转的旋转矩阵是由三个基本旋转矩阵复合而成的。

3、上述方案中，所述垂直视角指的是：镜头中心与拍摄到的场景上缘和下缘连线在竖直方向上的夹角。

4、上述方案中，所述视频编/解码标准需要支持运动估计与运动补偿方法（具体参见《H.264 and MPEG-4 Video Compression - Video Coding for Next-generation Multimedia》3.3.3，Iain E. G. Richardson，The Robert Gordon University, Aberdeen, UK），所述视频编码标准包括H.261、H.262、H.263、H.264/AVC、H.264/HEVC等。

5、上述方案中，所述摄像机的镜头中心指的是镜头光圈的几何中心。

6、上述方案中，为避免深度图像传感器和运动传感器的偶然错误对编码产生影响，在支持多参考帧模式的视频编码标准中，候选参考帧的数量大于1。

7、上述方案中，由于运动信息对加解码起着及其重要的作用，因此需要对运动信息流进行必要的保护，例如添加冗余信息，或使用重发机制避免运动信息丢失。

8、上述方案中，对于通信错误或延时导致的数据包丢失，可使用运动信息结合对应的深度图像信息来预测全局运动向量，作为错误掩盖技术的候选信息。

9、上述方案中，所述运动传感器可采用六轴传感器，用于采集摄像机镜头中心在X、Y、Z轴三个方向上的加速度和转动的角度；也可采用九轴传感器组，包括X、Y、Z轴三个方向上的加速度传感器、角速度陀螺仪传感器以及电子罗盘传感器，电子罗盘传感器用于获取摄像机镜头中心运动的绝对方向；由于运动传感器采集到的是X、Y、Z轴三个方向上的加速度，需要通过两次积分得到摄像机镜头中心的位移，故采样的时间间隔越小，得出的位移就越精确。

10、上述方案中，为了渲染出新的参考帧，将原参考帧（也就是N-1帧的色彩图像信息）中的每一个像素的2D坐标结合相应的深度信息，得到3D坐标，然后结合相机运动渲染出新的3D坐标，然后由新的3D坐标再次得到新的2D坐标，然后通过新的2D坐标得到新的参考帧。

11、上述方案中，所述“第N-1帧中坐标为[X1，Y1]的像素的深度值为Z1”可以从色彩图像传感器采集的色彩图像信息和深度图像传感器采集的深度图像信息中直接获取。

本发明工作原理和优点：本发明在传统的色彩视频加深度图的3D视频编码方法中，加入运动传感器获取摄像机镜头中心的全局运动，包括平动和转动，运动信息结合深度图像信息，以较准确地估计位于不同深度的宏块的全局运动，在帧与帧之间进一步去冗余，大大减小了压缩后视频的存储空间，降低了对传输或通讯带宽的要求，同时缩短了视频压缩所需的计算时间。

附图说明

附图1为本发明实施例硬件框图；

附图2为本发明实施例数据采样示意图；

附图3为本发明X轴、Y轴和Z轴关系示意图；

附图4为本发明垂直视角示意图；

附图5为本发明实施例被拍摄对象初始状态所拍摄到的图像；

附图6为在附图5所示状态下摄像机镜头中心沿Y轴远离后所得到的图像；

附图7为在附图5所示状态下摄像机镜头中心沿Z轴上移后所得到的图像；

附图8为在附图5所示状态下摄像机镜头中心沿X轴左移后所得到的图像；

附图9为在附图5所示状态下摄像机镜头中心沿X轴右移后所得到的图像；

附图10为在附图5所示状态下摄像机镜头中心沿Z轴下移后所得到的图像；

附图11为在附图5所示状态下摄像机镜头中心沿Y轴靠近后所得到的图像；

附图12为在附图5所示状态下摄像机镜头中心绕X轴旋转所得到的图像一；

附图13为在附图5所示状态下摄像机镜头中心绕Y轴旋转所得到的图像一；

附图14为在附图5所示状态下摄像机镜头中心绕Z轴旋转所得到的图像一；

附图15为在附图5所示状态下摄像机镜头中心绕Z轴旋转所得到的图像二；

附图16为在附图5所示状态下摄像机镜头中心绕Y轴旋转所得到的图像二；

附图17为在附图5所示状态下摄像机镜头中心绕X轴旋转所得到的图像二；

附图18为本发明实施例的编码方法框图；

附图19为本发明实施例的解码方法框图；

附图20为本发明实施例基于H.264/AVC视频编码标准的编码方法框图；

附图21为本发明实施例基于H.264/AVC视频编码标准的解码方法框图。

以上附图中：1、运动信息采样；2、色彩图像信息和深度图像信息采样；3、摄像机；4、摄像机镜头；5、被拍摄到的场景。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例一：

一种基于运动信息与深度信息的3D视频编码传输方法，使用一设置有色彩图像传感器、深度图像传感器和运动传感器的摄像机对被拍摄对象进行拍摄，色彩图像传感器用于采集被拍摄对象的色彩图像信息，深度图像传感器用于采集被拍摄对象的深度图像信息，运动传感器用于采集摄像机镜头中心空间运动的运动信息，该运动信息包括位移信息以及转动角度信息，参见附图1所示，所述色彩图像传感器、深度图像传感器和运动图像传感器将其采集到的数据传送给处理器，处理器连接有电源和存储器，所述编码传输方法包括以下步骤。

第一步、数据采样

以设定帧率对所述色彩图像信息和深度图像信息进行采样；

以至少一倍于所述设定帧率的采样率对所述运动信息进行采样。

参见附图2所示，运动信息采样1的时间间隔为t2-t1，即运动信息的采样率为f=1/（t2-t1）；色彩图像信息和深度图像信息采样2的时间间隔为T2-T1，t1、t2、T1、T2的单位为微秒或者更小的时间单位，即色彩图像信息和深度图像信息的采样率为F=1/（T2-T1）；f至少为F的一倍，也可为两倍、三倍、五倍、十倍、二十倍、五十倍甚至更多倍数。

第二步、数据同步

根据系统绝对时间对色彩图像信息、深度图像信息以及运动信息进行时间同步，即将色彩图像信息、深度图像信息以及运动信息在系统绝对时间上进行一一对应。

所述系统绝对时间指的是：无论是计算机操作系统还是手机操作系统中，都设有一个计时器来记录开机到目前为止所经历的时间，一般用微秒或者更小的时间单位记录；由于很难做到绝对同步地采样色彩图像信息、深度图像信息和运动信息，因此可以在采样色彩图像信息、深度图像信息和运动信息时分别记录其对应的系统绝对时间，在进行数据同步时寻找在系统绝对时间上最匹配的色彩图像信息、深度图像信息和运动信息进行图像渲染；由于色彩图像信息和深度图像信息一般在同一摄像机中被采集，在时间上的同步度很高，所以运动信息需要特别匹配色彩图像信息和深度图像信息，如果在系统绝对时间上的差距较大，可以采用插值法预测色彩图像信息或深度图像信息采样时刻的运动信息；插值法具体参见姚传义《数值分析》第三章的内容（2009年第1版）。

第三步、图像渲染

通过摄像机对被拍摄对象进行拍摄以获取第一帧图像，并对其进行编码。

摄像机镜头中心空间运动引起的变换矩阵[T]如下：

_。

上述矩阵中，x为摄像机镜头中心在X轴上的位移，y为摄像机镜头中心在Y轴上的位移，z为摄像机镜头中心在Z轴上的位移；α、β、γ为欧拉角，α表示摄像机镜头中心绕Z轴旋转的角度，经过α角度之后，摄像机镜头中心绕X轴旋转的角度为β，然后继续绕Z轴旋转的角度是γ；Y轴为摄像机在初始位置时垂直于摄像机镜头平面的轴，X轴为垂直于Y轴的水平轴，Z轴为垂直于Y轴的竖直轴。

当N为大于1的整数时，由色彩图像信息和深度图像信息可知第N-1帧中坐标为[X1，Y1]的像素的深度值为Z1，通过以下公式得到第N-1帧中该像素色彩图像信息和深度图像信息的齐次3D坐标[x1，y1，z1,1]：

[x1，y1，z1,1]=[（X1-w/2）×Z1×k，Z1，（-Y1+h/2）×Z1×k，1]。

上述公式中，w表示摄像机所拍摄照片X轴上的像素总数，h表示照片Y轴上的像素总数，k=tan（θ/2）/（h/2），其中θ表示摄像机的垂直视角，参见附图4所示，所述垂直视角指的是摄像机镜头4的中心与被拍摄到的场景5上缘和下缘连线在竖直方向上的夹角。

[x2，y2，z2,1]=[x1，y1，z1,1]×[T]。

[X2，Y2]=[x2/k/y2+w/2，-z2/k/y2-h/2]。

图像渲染的效果参见附图5~附图17所示，拍摄对象为一梯形和一矩形，其中：附图5为本发明实施例被拍摄对象初始状态所拍摄到的图像；附图6为在附图5所示状态下摄像机镜头中心沿Y轴远离后所得到的图像；附图7为在附图5所示状态下摄像机镜头中心沿Z轴上移后所得到的图像；附图8为在附图5所示状态下摄像机镜头中心沿X轴左移后所得到的图像；附图9为在附图5所示状态下摄像机镜头中心沿X轴右移后所得到的图像；附图10为在附图5所示状态下摄像机镜头中心沿Z轴下移后所得到的图像；附图11为在附图5所示状态下摄像机镜头中心沿Y轴靠近后所得到的图像；附图12和附图17分别表示在附图5所示状态下摄像机镜头中心绕X轴朝两个不同方向旋转所得到的图像；附图13和附图16分别表示在附图5所示状态下摄像机镜头中心绕Y轴朝两个不同方向旋转所得到的图像；附图14和附图15分别表示在附图5所示状态下摄像机镜头中心绕Z轴朝两个不同方向旋转所得到的图像。

由附图7、附图11、附图12附图14和附图16可见，在所述图像渲染过程中，变换到图像区域外的像素点被舍弃，渲染出的新的帧中会出现孔洞，该孔洞通过插值法进行填补。

第四步、编码

参见附图18所示，结合摄像机实际拍摄到的第N帧中各像素的2D坐标（即第N帧的原始色彩图像帧信息和第N帧的原始深度图像帧信息）和经过摄像机镜头中心空间运动后第N-1帧像素在第N帧参考帧中新的2D坐标（即第N帧的色彩图像参考帧信息和第N帧的深度图像参考帧信息），使用视频编码标准对应的编码器进行编码，得到第N帧的色彩图像信息流和深度图像信息流。

第五步、传输

在视频传输过程中传输编码后的色彩图像信息流、深度图像信息流以及摄像机镜头中心的运动信息。

第六步、解码

参见附图19所示，当N为大于1的整数时，结合解码后的第N-1帧的色彩图像信息、深度图像信息以及第N-1帧到第N帧过程中摄像机镜头中心所经历空间运动的运动信息，采用第三步的图像渲染方法分别渲染得到对应的第N帧色彩图像参考帧信息与深度图像参考帧信息，并结合第N帧的色彩图像信息流和深度图像信息流，采用相应解码器进行解码，以得到解码后第N帧的色彩图像信息和深度图像信息。

所述视频编/解码标准需要支持运动估计与运动补偿方法，本发明可采用H.261、H.262、H.263、H.264/AVC、H.264/HEVC等视频编码标准，下面以H.264/AVC视频标准为例说明。

参见附图20所示，附图20为应用本发明所述方法基于H.264/AVC视频编码标准的编码方法框图。当编码第N帧时，如果N是第1帧，则使用帧内预测得到预测块，然后与第N帧进行差运算，然后经过变换、量化、熵编码得到视频码流进行保存或传输。同时，量化之后的信息要进行逆量化和逆变换，再与预测块做和运算经过滤波器，得到第N帧的重建帧；如果N不是第1帧，除帧内预测之外，可以通过参考帧进行运动估计与运动补偿进行帧间编码得到预测块（因为一帧内会有很多块组成，一些块会使用帧间预测，一些块会使用帧内预测），然后预测块与第N帧视频进行差运算，然后经过量化和熵编码得到视频码流进行保存或传输。同时，量化之后的信息要进行逆量化和逆变换，再与预测块做和运算经过滤波器，得到第N帧的重建帧。在进行运动预测与运动补偿时所使用的参考帧，是通过N-1帧的色彩图像的重建帧和深度图像的重建帧，结合第N-1帧到第N帧的运动信息渲染而得到的。

附图21为本发明实施例基于H.264/AVC视频编码标准的解码方法框图。在解码过程中，视频码流经过熵解码，逆量化和逆变换，并且结合通过帧内预测和帧间预测得到的预测块，再经过去块滤波器可以得到第N帧的重建帧。在进行运动预测与运动补偿时所使用的参考帧，是通过N-1帧的色彩图像的重建帧和深度图像的重建帧，结合第N-1帧到第N帧的运动信息渲染而得到的。

附图20和附图21中的视频码流包括深度图像信息流、色彩图像信息流和运动信息。

实施例二：

一种基于运动信息与深度信息的3D视频编码传输方法，使用一设置有色彩图像传感器、深度图像传感器和运动传感器的摄像机对被拍摄对象进行拍摄，色彩图像传感器用于采集被拍摄对象的色彩图像信息，深度图像传感器用于采集被拍摄对象的深度图像信息，摄像机设于摄像导轨和云台上，结合轴编码器获取摄像机镜头中心相对参考系的绝对方位，所述编码传输方法包括以下步骤。

第一步、数据采样

以设定帧率对所述色彩图像信息和深度图像信息进行采样。

第二步、数据同步

根据系统绝对时间对所述色彩图像信息、深度图像信息以及运动信息进行时间同步，即将色彩图像信息、深度图像信息以及运动信息在系统绝对时间上进行一一对应。

第三步、图像渲染

摄像机镜头中心的绝对方位用以下矩阵[P]表示：

_。

当N为大于1的整数时，定义矩阵[P1]表示第N-1帧对应时刻摄像机镜头中心的绝对方位，矩阵[P2]表示第N帧对应时刻摄像机镜头中心的绝对方位，则摄像机镜头中心空间运动引起的变换矩阵[T]为：

[T]=[P1]^-1×[P2]。

[x1，y1，z1,1]=[（X1-w/2）×Z1×k，Z1，（-Y1+h/2）×Z1×k，1]。

上述公式中，w表示摄像机所拍摄照片X轴上的像素总数，h表示照片Y轴上的像素总数，k=tan（θ/2）/（h/2），其中θ表示摄像机的垂直视角。

[x2，y2，z2,1]=[x1，y1，z1,1]×[T]。

[X2，Y2]=[x2/k/y2+w/2，-z2/k/y2-h/2]。

第四步、编码

结合摄像机实际拍摄到的第N帧中各像素的2D坐标和经过摄像机镜头中心空间运动后第N-1帧中像素在第N帧参考帧中新的2D坐标，使用视频编码标准对应的编码器进行编码，得到第N帧的色彩图像信息流和深度图像信息流。

第五步、传输

第六步、解码

当N>1时，结合已解码的第N-1帧的色彩图像信息、深度图像信息以及第N-1帧到第N帧过程中摄像机镜头中心所经历空间运动的运动信息，采用第三步的图像渲染方法分别渲染得到第N帧的色彩图像参考帧信息与深度图像参考帧信息，并结合第N帧的色彩图像信息流和深度图像信息流，采用相应解码器进行解码。

实施例二与实施例一的区别在于：实施例一中运动传感器获取的是摄像机镜头中心空间运动的信息，矩阵[T]表示摄像机镜头中心空间运动引起的变换；而实施例二中获取到的是摄像机镜头中心相对参考系的绝对方位，矩阵[P]表示的是摄像机镜头中心的绝对方位，需要通过公式[T]=[P1]^-1×[P2]得到变换矩阵[T]。其他步骤实施例二与实施例一相同，这里就不再赘述。

上述实施例只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人士能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所作的等效变化或修饰，都应涵盖在本发明的保护范围之内。

Claims

1. 一种基于运动信息与深度信息的3D视频编码传输方法，其特征在于：使用一设置有色彩图像传感器、深度图像传感器和运动传感器的摄像机对被拍摄对象进行拍摄，色彩图像传感器用于采集被拍摄对象的色彩图像信息，深度图像传感器用于采集被拍摄对象的深度图像信息，运动传感器用于采集摄像机镜头中心空间运动的运动信息，该运动信息包括位移信息以及转动角度信息，所述编码传输方法包括以下步骤：

第一步、数据采样

以设定帧率对所述色彩图像信息和深度图像信息进行采样；

第二步、数据同步

第三步、图像渲染

摄像机镜头中心空间运动引起的变换矩阵[T]如下：

Figure 2013104089645100001DEST_PATH_IMAGE002

；

[x1，y1，z1,1]=[（X1-w/2）×Z1×k，Z1，（-Y1+h/2）×Z1×k，1]；

[x2，y2，z2,1]=[x1，y1，z1,1]×[T]；

[X2，Y2]=[x2/k/y2+w/2，-z2/k/y2-h/2]；

第四步、编码

结合摄像机实际拍摄到的第N帧中各像素的2D坐标和经过摄像机镜头中心空间运动后第N-1帧像素在第N帧参考帧中新的2D坐标，使用视频编码标准对应的编码器进行编码，得到第N帧的色彩图像信息流和深度图像信息流；

第五步、传输

第六步、解码

当N为大于1的整数时，结合已解码的第N-1帧的色彩图像信息、深度图像信息以及第N-1帧到第N帧过程中摄像机镜头中心所经历空间运动的运动信息，采用第三步的图像渲染方法分别渲染得到第N帧的色彩图像参考帧信息与深度图像参考帧信息，并结合第N帧的色彩图像信息流和深度图像信息流，采用相应解码器进行解码。

2. 根据权利要求1所述的3D视频编码传输方法，其特征在于：在所述图像渲染过程中，变换到图像区域外的像素点被舍弃，渲染出的新的帧中会出现孔洞，该孔洞通过插值法进行填补。

3. 一种基于运动信息与深度信息的3D视频编码传输方法，其特征在于：使用一设置有色彩图像传感器、深度图像传感器和运动传感器的摄像机对被拍摄对象进行拍摄，色彩图像传感器用于采集被拍摄对象的色彩图像信息，深度图像传感器用于采集被拍摄对象的深度图像信息，摄像机设于摄像导轨和云台上，结合轴编码器获取摄像机镜头中心相对参考系的绝对方位，所述编码传输方法包括以下步骤：

第一步、数据采样

以设定帧率对所述色彩图像信息和深度图像信息进行采样；

第二步、数据同步

第三步、图像渲染

摄像机镜头中心的绝对方位用以下矩阵[P]表示：

Figure 2013104089645100001DEST_PATH_IMAGE004

；

[T]=[P1]^-1×[P2]；

[x1，y1，z1,1]=[（X1-w/2）×Z1×k，Z1，（-Y1+h/2）×Z1×k，1]；

[x2，y2，z2,1]=[x1，y1，z1,1]×[T]；

[X2，Y2]=[x2/k/y2+w/2，-z2/k/y2-h/2]；

第四步、编码

第五步、传输

第六步、解码

4. 根据权利要求3所述的3D视频编码传输方法，其特征在于：在所述图像渲染过程中，变换到图像区域外的像素点被舍弃，渲染出的新的帧中会出现孔洞，该孔洞通过插值法进行填补。