CN101534413B

CN101534413B - 一种远程呈现的系统、装置和方法

Info

Publication number: CN101534413B
Application number: CN2009101066626A
Authority: CN
Inventors: 刘源; 吴姣黎; 赵光耀; 王静
Original assignee: Huawei Device Co Ltd
Current assignee: Huawei Device Co Ltd; Huawei Device Shenzhen Co Ltd
Priority date: 2009-04-14
Filing date: 2009-04-14
Publication date: 2012-07-04
Anticipated expiration: 2029-04-14
Also published as: US8508576B2; WO2010118685A1; US20120033030A1; CN101534413A

Abstract

本发明实施例提供一种远程呈现的系统、方法与设备，该系统包括：用于显示远端图像的多台显示器；用于输出远端音频信息的音频输出设备；用于对本端获取到音视频信息以及远端发送过来的音视频信息进行处理与控制的多媒体通信终端；用于拍摄本端的视频图像，并将所述拍摄得到视频图像发送给所述多媒体通信终端进行处理的多台摄像机；用来采集本端的音频信息，并将采集得到的音频信息发送给所述多媒体通信终端的音频采集设备；以及与所述多个摄像机一一对应，分别与所述多个摄像机的摄像头的光轴呈近似垂直关系的多个用户位置。采用本发明的技术方案，解决了多媒体通信中存在的缺乏会议体验的一致性以及体验效果不够理想的问题。

Description

一种远程呈现的系统、装置和方法

技术领域

本发明涉及多媒体技术领域，尤其涉及一种远程呈现的系统、装置与方法。

背景技术

远程呈现技术是一种创建沉浸式(Immersive)虚拟会议环境的技术，该虚拟会议环境充分体现了参与者的人性化因素，并尽可能地复制参与人的真实体验，能够极大地提高最终用户的接受度，从而提高使用率，改进需求、投资回报率和用户的满意度。远程呈现系统相比传统视频会议系统具有很多优点，包括：能够提供真人大小的图像，眼神交流效果，更加流畅的运动以及远端参会者精确的肢体行为；高清的、演播室级的视频、光照和音频效果；统一的会议环境，使参与者感觉处于相同的会议地点，确保了不同会议地点体验的一致性；隐藏了摄像机等会议设备，减少对用户的影响等。

远程呈现系统的广泛使用能够带来很大的经济效益、社会效益和生态效益。远程呈现系统极大程度上地改善了视频通信的体验，可以大幅度地减少商务出差，不仅降低了差旅成本，避免了员工的旅途劳累，而且还加快了沟通和响应速度，提高了异地协同工作的效率。此外，由于减少了交通工具的使用，从而大大降低了CO₂的排放量，使日常工作更加绿色环保。

图1为现有的视频会议系统的示意图，为了示意，只画了一个参会者，其中1为摄像机，2为视频通信终端，3为显示器，4为会议室桌面，5为参会者，在整个会场中，摄像机1、视频通信终端2与显示器3放在一个参会者对面的桌面上，通过摄像机1拍摄到参会者5的图像，由视频通信终端2将参会者5的图像进行编码传输到通信远端，通过显示器3将通信远端的图像呈现给参会者5。

在完成本发明的过程中，发明人发现现有技术至少存在以下缺点：(1)通常呈现用的显示器尺寸不大，画面较小，一般拍摄整个会场的内容，每个参会者在画面中的尺寸都很小，用户的体验不好；(2)场景图像分辨率一般不高，参会者图像不够清晰；(3)通常采用电视机的扬声器播放声音，音质和临场感都不够好。

发明内容

本发明实施例提供了一种远程呈现的系统、方法与装置，以解决现有技术中存在的多媒体通信过程中存在的缺乏会议体验的一致性问题。

一方面，本发明实施例提供一种远程呈现系统，该系统包括：

多台显示器，用于显示多媒体通信远端的图像信息；

音频输出设备，用于输出多媒体通信远端的音频信息；

所述多媒体通信终端，与所述多台显示器以及所述音频输出设备相连接，用于对多媒体通信远端的视频以及音频信号进行处理，并通过所述多台显示器显示远端的视频图像，通过所述的音频输出设备输出多媒体通信远端音频信号以及将本端的音视频数据信息进行处理，将所述经过处理的音视频数据信息发送给远端；

多台摄像机，与所述多媒体通信终端相连接，用于拍摄多媒体通信本端的视频图像，并将所述拍摄得到视频图像发送给所述多媒体通信终端进行处理；

音频采集设备，与所述多媒体通信终端相连接，用来采集多媒体通信本端的音频信息，并将采集得到的音频信息发送给所述多媒体通信终端；

多个用户位置，与所述多个摄像机一一对应，所述多个用户位置的视野垂直平面分别与所述多个摄像机的摄像头的光轴呈近似垂直关系；

其中，所述多台显示器放置在呈现桌面上，所述多台摄像机安置在所述多台显示器的上方边框处，在所述呈现桌面的另一边放置会议桌以及会议桌椅；利用所述多台显示器的边框大小、所述多台显示器到所述会议桌的距离、所述多台摄像机之间的摆放位置以及所述摄像机的拍摄视角范围，使得远端的摄像机拍摄的图像缺失区域以及图像重叠区域正好能够被本端的显示器的边框遮挡。

再一方面，本发明实施例还提供一种设置所述的远程呈现系统参数的方法，该方法包括：

根据显示器呈现平面的大小确定摄像机所拍摄的场景的宽度；

根据所述摄像机拍摄的场景的宽度以及所述摄像机光心的垂直面与用户位置的视野垂直面的距离，确定所述摄像机的拍摄视角；

根据两两摄像机之间的主光轴的夹角以及所述摄像机的拍摄视角，确定两两摄像机之间的成像夹角；

根据多媒体通信本端的显示器的边框宽度以及两两摄像机之间的主光轴的夹角，确定相邻摄像机的拍摄视角边界之间的距离，用所述相邻摄像机的拍摄视角边界之间的距离作为多媒体通信远端的边框的尺寸。

采用本发明实施例的技术方案，能够给用户提供真人大小的图像，眼神交流效果，更加流畅的运动以及远端参会者精确的肢体行为；高清的、演播室级的视频、光照和音频效果；统一的会议环境，使参与者感觉处于相同的会议地点，确保了不同会议地点体验的一致性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术中进行多媒体通信的系统的组成结构示意图；

图2为本发明实施例1的组成结构示意图；

图3为本发明实施例1中系统构成元素个数为4的组成结构示意图；

图4为本发明实施例1中系统构成元素个数为2的组成结构示意图；

图5为本发明实施例2的组成结构示意图；

图6为本发明实施例3的组成结构示意图；

图7为本发明实施例4的组成结构示意图；

图8为本发明实施例4中显示器升降装置的组成结构示意图；

图9为本发明实施例5的组成结构示意图；

图10为本发明实施例中目标定位与跟踪控制方法的流程图；

图11为本发明实施例中目标定位与跟踪控制装置的结构图；

图12为本发明实施例中目标定位与跟踪控制装置的控制单元的结构图；

图13为本发明系统实施例6中进行图像拼接时系统组成结构示意图；

图14为本发明系统实施例6中进行系统参数设计的示意图；

图15为本发明系统实施例6中摄像机的实现方式的组成结构示意图；

图16为本发明系统实施例6中三摄像机完成PTZ操作中Pan/Tilt操作前的状态示意图；

图17为本发明系统实施例6中三摄像机完成PTZ操作中Pan/Tilt操作结果状态示意图；

图18为本发明系统实施例6中三摄像机完成PTZ操作中Zoom操作前的状态示意图；

图19为本发明系统实施例6中三摄像机完成PTZ操作中Zoom操作结果状态示意图；

图20为本发明系统实施例7中远程呈现系统构成的通信系统示意图；

图21为本发明系统实施例7中远程呈现系统构成的通信系统第一种实施方式组成结构示意图；

图22为本发明系统实施例7中远程呈现系统构成的通信系统第二种实施方式组成结构示意图；

图23为本发明系统实施例7中远程呈现系统构成的通信系统第三种实施方式组成结构示意图；

图24为本发明系统实施例7中远程呈现系统构成的通信系统第四种实施方式组成结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明的实施例1提供一种远程呈现系统，所述系统包括：

多台显示器，用于显示多媒体通信远端的图像信息；

音频输出设备，用于输出多媒体通信远端的音频信息；

多个用户位置，与所述多个摄像机一一对应，所述多个用户位置的视野垂直平面分别与所述多个摄像机的摄像头的光轴呈近似垂直关系。

为了比较清楚的说明本实施例，下面结合附图2进行说明，所提供的一种远程呈现系统包括：

一个呈现桌面207，所述呈现桌面207包括左、中、右三个部分，且这三个部分两两之间采用钝角的方式组合，且左右部分关于中间部分的中轴线对称，在所述的呈现桌面207上放置有用于显示多媒体通信远端图像的三台显示器201、202、203；

在所述呈现桌面207的内部208中容纳多媒体通信终端211以及音频输出设备，所述多媒体通信终端与所述的三台显示器以及所述音频输出设备相连接，所述多媒体通信终端用来对多媒体通信远端的视频以及音频信号进行处理，并通过所述三台显示器显示远端的视频图像，通过所述的音频输出设备输出多媒体通信远端音频信号；

在所述三台显示器的中间一台显示器202的上边框以汇聚方式放置左、中、右共三台摄像机204、205、206，所述三台摄像机204、205、206与所述多媒体通信终端211相连接，所述三台摄像机用于拍摄多媒体通信本端的图像，并将所述拍摄得到图像发送给多媒体通信终端211进行处理；

在所述呈现桌面的对面放置一个会议桌212以及多个会议座椅216，217、218、219、220、221，所述会议桌也分为左、中、右三个部分，且这三个部分两两之间采用钝角的方式组合，且左右部分关于中间部分的中轴线对称，并且三个部分两两之间采用钝角的方式组合放置；

在所述会议桌212上的安装音频采集设备，所述音频采集设备与多媒体通信终端211相连接，用来采集与会者的音频信息，并将采集得到的音频信息发送给多媒体通信终端211；

在所述会议桌212的中部设置有中控设备215，所述中控设备215与所述多媒体通信终端211相连接，用来实现对多媒体通信控制。

在具体实现的过程中，所述中控设备215用来在多媒体通信开始前以及进程中建立或挂断多媒体音视频呼叫，能够设置系统参数(譬如：显示设备的亮度调节、音频输出设备的音量调节、设定多媒体通信入会方的数目等等)，调整会议室的灯光，控制会议室窗帘的升降等，可以理解，在多媒体通信的过程中还有其他的控制，一般都由中控设备完成，在此不再赘述。

本发明的实施例提供一种远程呈现系统的技术实现方案，使得具有统一的会议环境，使参与者感觉处于相同的会议地点，确保了不同会议地点体验的一致性。

在实施例中的显示器201、202、203采用能够显示真人大小图像的大尺寸显示器，能够使得用户在进行视频通信的过程中具有身临其境的感觉，使得本端的与会者与远端的与会者在同一间会议室开会，给用户带来更好地体验。

本实施例的实现过程中，采用3个摄像机以及三个显示器为例，可以理解，远程呈现系统根据不同的会议室以及参会人员，可以设计具有四个显示器以及四个摄像机的远程呈现系统，具体可以参见图3，在图3中，可以看出，本端的显示器、摄像机、会议桌各增加了1个，会议座椅增加了2个。这样，构成了四个显示器以及四个摄像机的显示系统，其中，本端的摄像机204、205、205’、206分别拍摄到与会者216、与会者217、与会者218、与会者219、与会者218’、与会者219’、与会者220、与会者221的图像，进行拼接处理后，传输至多媒体通信远端。所述的多媒体通信系统远端也是具有四个显示器以及四个摄像机的显示系统。

为了便于理解，远程呈现系统的构成元素多个的概念，在图4中提供一种构成元素的数目为两个的远程呈现系统，图4中，呈现平台207上放置显示器202以及显示器202’，在显示器202以及显示器202’的上部安置两个摄像机(其中，摄像机205以及摄像机205’可以放置在两个显示器的上面的边框，也可以放在独立于显示器的一个架子上)，摄像机205与摄像机205’将本端的图像获取到，音频采集设备213以及音频采集设备214获取到本端的音频数据后，经过本端的多媒体通信终端211对所拍摄到的图像以及采集到的声音进行处理(包括预处理以及编码)后，发送到与多媒体通信本端进行通信的远端，而本端的多媒体通信终端211通过获取到多媒体通信远端的图像以及音频数据，将之处理(解码，后处理)后传输到本端的显示器202以及显示器202’进行显示，并由本端的音频输出设备209以及音频输出设备 210输出。

由此可见，本发明中的实施例主要采用构成元素个数为三个的情况进行说明，本领域的技术人员不难理解，还可以将本发明的实施例应用到构成元素的个数为两个、四个、五个等多个情况下的远程呈现系统。

实施例2

本发明实施例2可以结合附图5进行说明

在实施例1的基础上在会议桌212上，增加了三个辅助显示器：辅助显示器222、辅助显示器223、辅助显示器224，用来显示共享的多媒体数据。

所述辅助显示器222、辅助显示器223、辅助显示器224与多媒体通信会议终端211相连，通过多媒体通信远端将多媒体视频数据发送到本地，使得所述辅助显示器显示共享的多媒体视频数据。该辅助显示器也可以外接其它的设备，如便携式计算机，用于显示外接设备输出的视频内容。

本发明的实施例提供一种远程呈现系统的技术实现方案，使得具有统一的会议环境，使参与者感觉处于相同的会议地点，确保了不同会议地点体验的一致性，并且增加的辅助设备机能够将远程呈现系统远端的共享的数据信息(例如：会议呈现胶片、会议议题列表)呈现在上面，使得用户能够更好的参与到会议中。

实施例3

本发明的实施例可以结合附图6来说明

本发明的实施例是在实施例1的基础上，在远程呈现系统的布局上，增加了多排的设计，为了叙述的方便，本实施例在实施例1的单排与会者的基础上，又增加了一排，即增加了会议桌225，同时增加了会议座椅228、229、230、231、232、233、234，并在会议桌235上增加了两个音频采集设备226、227，用来实现第二排的音频数据的获取，为了使得多媒体通信数据能够共享给第二排的用户，在会议桌225上又设置了三台辅助显示器235、236、 237。

本实施例为了描述的方便，在附图6中，只增加了一排的会议桌以及会议座椅，可以理解，在本发明的实施例的具体实现的过程中，还可以增加多排的会议桌以及座椅，使得会议所能够容纳的与会者增多。

在本实施例中，由于后排的会议座椅距离显示器201、202、203较远，而且有前面的一排的参会者的遮挡，如果还按照第一排的高度设计，会使得后排用户的体验不好，在本发明的实施例中，通过将后排的会议桌以及座椅整体提升一个高度，形成阶梯状的会议室布局，并且在设计座位时使后排的与会者尽量位于前排两个参会者中间，使得后排的参会者不会被前排遮挡，使得后排的用户能够具有更好的体验，使用户具有处于相同的会议地点的感觉，确保了不同会议地点体验的一致性。

实施例4

本实施例可以结合图7来说明

由于现有的会议室一般还是采用与会者在围绕会议桌的方式进行开会，为了考虑到本发明的实施例与现有的会议场景的融合与过渡，在本实施例中，在实施例1的基础上，通过把呈现桌面207设计为具有下面两种功能：(1)作为会议桌；(2)作为呈现桌面。参看图7，具体可以在呈现桌面207的另一侧放置会议座椅238、239、240、241、242、243，并将呈现桌面设计为显示器可升降的方式，在开普通的会议时，通过利用升降装置将显示器201、202、203隐藏在呈现桌面207之下，这样就如现有普通的会议一样，与会者可以坐在会议座椅216、217、218、219、220、221、238、239、240、241、242、243进行开会；当需要开远程的会议时，通过利用升降装置将显示器201、202、203升到呈现桌面207上，实现远程的音视频会议。

为了简单的说明升降装置的结构，本实施例采用一种具体实现方式说明升降装置的实现，图8显示了的可升降显示屏幕结构的一个设计方式。该结构包括一个结构体1(可看作会议桌)、一个升降装置2、一个基座3、一个盖体4及一个连动翻转机构5。该结构体具有一个中空部分11，设于桌面10下，具有一个顶部开口12。升降装置设置于该结构体1中，且由一个能作升降运动的主轴部件21及一个驱动主轴部作升降运动的驱动马达22所组成。所述基座3固定在主轴部件21上，且可固定承载显示器20，随着主轴部件21作升降作动。该盖体4可与桌面10的开孔101持平盖合，两侧具有侧板41。该连动翻转机构设于该结构体内，且可趋使盖体闭合时能先翻转再直升盖合或使该盖体掀开时能先直降再翻转，使得在桌面上不需开设太大开孔，以维持原桌面的美观，改善了传统的升降结构须要在桌面上挖设一相当于显示器大小的开孔，而破坏桌面美观等的缺点。

可以理解，本实施例将显示屏幕升降装置应用在远程呈现系统中，能够使得将远程呈现系统与普通的会议系统相融合，能够节约远程呈现系统的建造成本，本实施例只举出一种实现显示屏幕升降装置的结构是为了更加清楚的说明远程呈现系统的可实现性，本领域的技术人员能够理解，还可能存在其他的升降装置实现方式，对此，本发明的实施例不应该被看作是对本发明的保护范围的限定。

本发明的实施例能够使得将现有的普通会议与远程呈现会议相结合，增强了两者的兼容，节约了会议室的构造成本，同时使得具有统一的会议环境，使参与者感觉处于相同的会议地点，确保了不同会议地点体验的一致性。

实施例5

本实施例的内容结合图9进行说明

在与会者很多的情况下，为了使得多媒体通信的远端的与会者能够准确的关注到当前的与会者，在会议的过程中有必要在远程呈现系统中增加相应的设备完成目标的定位与跟踪的功能。在本实施例中通过在实施例1的基础上，增加了一台摄像机用来完成会议过程中的目标跟踪与定位，使得能够跟踪相应的发言者。

其中，图9中的摄像机244与隐藏在呈现平台207中的多媒体通信终端 211相连接，能够根据远端的需求以及本端摄像机的控制程序完成目标的定位以及跟踪。

在图9中，当坐在会议座椅219的与会者发言时，进行目标定位与跟踪的摄像机244切换拍摄该参会者。控制摄像机244切换的方法有多种：一种是人工控制的切换，例如通过遥控器，通过预定义的物理按键，通过中控设备215控制界面等。另一种是自动控制的切换，例如可以通过音源定位算法确定发言者的位置，从而通过程序自动控制摄像机拍摄该发言者。当根据音源定位算法发现发言者改变时，其控制摄像机进行拍摄切换。音源定位算法可以采用麦克风阵列音源定位算法，当会场中有一与会者在进行发言时，通过圆形麦克风阵列300的音源定位算法可以得到该发言人相对于麦克风阵列300的角度和距离。由于目标定位与跟踪的摄像机244和麦克风阵列300的相对位置是已知的(会场布局时确定)，因此就可以算出发言人相对于目标定位与跟踪摄像机244的角度和相对距离。由于目标定位与跟踪摄像机244的当前位置和拍摄视角已知(在所述目标定位与跟踪摄像机中记录)，因此就可以确定所述摄像机244是否已经拍到发言人，以及如果当前没有拍到发言人，所述摄像机244需要旋转多少角度才能拍到发言人；以及发言人离所述摄像机244的相对距离，确定摄像机拍摄的画面是否需要放大或缩小。通过所述目标定位与跟踪摄像机244的控制接口(如RS232串口)输入摄像机的运动参数和焦距参数，就可以控制所述摄像机244进行位置切换和画面的缩放。对于会场中多个人发言的情况，为了避免所述摄像机244频繁地进行切换，可以设定一个切换时间阈值，只有同样位置的声音连续出现的时间超出了该时间阈值，所述摄像机244才进行切换，否则摄像机不进行切换。例如：根据图7所示，设置切换时间阈值为5秒，当前的目标定位与跟踪摄像机拍摄的目标是坐在会议座椅219处的与会者，若当前坐在会议座椅217处的与会者发言时间超过5秒，则目标定位与跟踪摄像机244则根据麦克风阵列300的拾音角度以及强度定位至会议座椅217处的与会者。

为了清楚的说明远程呈现系统中进行目标定位与跟踪的过程，下面提供一种利用目标定位与跟踪摄像机进行目标定位与跟踪的方法，所述方法包括(参看图10)：

101、通过麦克风阵列获取音源方位信息；

102、获取目标定位与跟踪摄像机的当前拍摄方位信息，与所述的音源方位信息进行比较；

103、根据上述比较的结果，将目标定位与跟踪摄像机的拍摄方位调节至所述音源处。

可选的，为了避免远程呈现系统中出现发言者频繁切换导致的目标定位与跟踪摄像机的频繁转动，通过设定一定的时间阈值，将目标定位与跟踪摄像机的当前的拍摄方位信息与所述的音源方位信息进行比较，当所述计时器的时间超过所述设定的时间阈值时，则进行所述目标定位与跟踪摄像机的方位调节。

下面采用一种较详细的实施例来说明，以图9显示的系统图为例进行说明。

301、目标定位与跟踪摄像机244启动目标定位与跟踪，此时，目标定位与跟踪摄像机244的方位对准会议座椅219的与会者；

302、当此时，会议座椅219的与会者不再发言，而由会议座椅217的与会者开始发言，这时麦克风阵列300根据采集到的音源数据利用声源定位算法，计算出会议座椅217的与会者的方位信息；

在实施步骤302的基础上，在具体的利用麦克风阵列进行声源定位时，有以下三类技术：基于最大输出功率的可控波束形成技术，基于高分辨率谱估计的定向技术和基于到达时间差(TDOA，Time Difference of Arrival)技术。

第一种方法对麦克风阵列接收到的语音信号进行滤波、加权求和，然后直接控制麦克风指向使波束有最大输出功率的方向；

第二种方法利用求解麦克信号间的相关矩阵来定出方向角，从而确定声源位置；

第三种方法首先求出声音到达不同位置麦克的时间差，再利用这些时间差求得声音到达不同位置麦克的距离差，最后用搜索或几何知识确定声源位置。

由于利用麦克风阵列进行声源定位是现有成熟的技术，在本发明中不再详细描述。

303、目标定位与跟踪摄像机244读取此时自身的拍摄方位信息，将获得的拍摄方位信息与麦克风阵列计算得到的音源方位信息进行比较；

304、比较结果是，两者不相同，而且相对于目标定位与跟踪摄像机244，当前发言者217的方位与此时目标定位与跟踪摄像机的方位信息的角度相差15度；

305、此时，目标定位与跟踪摄像机244启动计时器，并由目标定位与跟踪摄像机244不断去比较当前发言者217的方位与此时目标定位与跟踪摄像机的方位信息，如果经过5秒钟，仍然是这种比较结果，这样，目标定位与跟踪摄像机244就会发生调节，将拍摄方位调节到对准会议座椅217的与会者。

在上面的实施例中，实现该目标定位与跟踪方法的装置就是目标定位与跟踪摄像机，可以理解，可以将这种目标定位与跟踪控制装置采用一种独立的设备来实现，即独立于目标定位与跟踪摄像机来实现，其所达到的效果是相同的。

上面采用一个例子说明目标定位与跟踪控制方法的过程，下面通过如下的实施例说明目标定位与跟踪控制装置的结构，所述目标定位与跟踪控制装置，参看图11，包括：

音源方位信息获取单元410，用于通过麦克风阵列获取音源方位信息；

拍摄方位信息获取单元420，用于获取目标定位与跟踪摄像机的当前拍摄方位信息；

比较单元430，用于将所述的音源方位信息与当前拍摄方位信息进行比较；

控制单元440，用于根据所述比较单元的比较结果，生成目标定位与跟踪摄像机的拍摄方位调节信息。

其中，可选的，为了避免目标定位与跟踪摄像机由于与会者的频繁变动发生频繁方位切换，参看图12，所述控制单元440可包括：

存储模块441，用于存储预先设定的时间阈值；

计时模块442，用于对比较单元进行的所述的音源方位信息与当前拍摄方位信息的比较进行计时；

判断模块443，用于将所述计时模块中的时间与存储模块存储的时间阈值进行比较，判断是否需要进行目标定位与跟踪摄像机的拍摄方位调节；

执行模块444，当所述的判断模块的判断结果为是时，生成目标定位与跟踪摄像机的拍摄方位调节信息。

由此可以看出，本实施例增加的目标定位与跟踪摄像机244能够根据会议中与会者的发言情况，发生切换，进而定位出当前的发言者，这样能够使多媒体通信的远端更好的注意到当前与会者的发言，获得更好的视频通信体验。

实施例6

本实施例结合图13进行说明

在图13中，示出了远程呈现系统的组成结构，其中，显示器201、202、203放置在呈现桌面207上，摄像机204、205、206安置在显示器202的上方边框处，在显示桌面207的另一边放置会议桌212，以及会议座椅216、217、218、219、220、221。其中，L1为摄像机204的摄像区域的右边界线，L2、L3分别为摄像机205的摄像区域的左、右边界线，L4为摄像机206的摄像区域的左边界线。为了使得远端与会者能够得到最佳无缝的图像拼接效果，理论上需要调节摄像机204、205、206使得三个摄像机的摄像区域的边界线在本端的会议座椅处218、219处中心线处附近相交，然而实际上，只要在在会议座椅218与219的水平中心线附近处存在交点位置就能够使得多媒体通信的远端的与会者获得较好的图像拼接效果，其中，相对于本端的与会者，由L1与L2、L3与L4在会议桌212之前构成的区域A为图像缺失区域，即：区域A中的场景不能呈现在多媒体通信远端的显示器上，在本端的与会者所处的会议座椅218、219处，存在一个区域B为远端所能呈现的本端图像的无缝拼接区域，相对于与会者，其后面的区域C为图像重叠区域，即：本端的区域C中的场景会以重叠的方式出现在远端的显示器中。

为了能够是多媒体通信远端(简称：远端)能够获得多媒体通信本端(简称：本端)中三个摄像机204、205、206较好的图像拼接效果，需要采取一定的措施解决区域A以及区域C给远端造成的影响，本发明的实施例中采用的是利用远端的显示器的边框遮挡区域A与区域C，使得呈现在远端显示器上的图像的区域A以及区域C被远端显示器的边框遮挡，这样带给用户较好的体验效果。

为了更好的利用远端显示器的边框遮挡住本端的摄像机拍摄图像中存在的区域A以及区域C，通过利用远端显示器的边框大小、显示器到会议桌的距离、摄像机之间的位置摆放以及摄像机的拍摄视角范围，可以使得本端的摄像机拍摄的图像缺失区域(对应于区域A)以及图像重叠区域(对应于区域C)正好能够被远端的显示器的边框遮挡，本实施例中提供一种设计方法以及依据该设计方法得到的远程呈现系统的相应设计参数。

图14示出了各个参数之间的关系，其中，显示器201、202、203放置在本端的呈现桌面207上，在显示器202的边框的上方放置三台摄像机204、205、206，呈现桌面207的另一边为会议桌212，为了图示表示的简便，只画出了三个会议座椅(图12中未给予标记)。为了描述的方便，采用与会者作为描述的参考对象，图12为远程呈现系统的平面投影，其中边距Y为摄像机205的光心到会议桌212的外边沿的距离，夹角β为会议桌212的左右外边沿和中间外边沿的夹角，θ为单个摄像机拍摄视角，L为会议桌212的外边沿被视锥拾取的长度。为了使三个显示器201、202、203显示效果相同，三个摄像机204、205、206的θ、Y、L取值相同。为了使会议桌212的三个部分的外边沿在多媒体通信远端的三个显示器中水平拼接，摄像机的视角θ的中心线应该垂直于会议桌212桌面的外边沿，即相邻摄像机的视角θ中心线的夹角等于桌面的夹角β。设显示器201、202、203的边框(含无效屏幕区域的边)长度P＝60mm，显示器201、202、203的图像显示区域(屏幕有效显示区域)长度L＝1434mm。S为摄像机光心的间距，H为光心间的水平距离，X为光心间的垂直距离。Q为桌面边沿的剪切长度。

通过计算可知，相邻摄像机视椎内边界夹角α＝β-θ，

Q＝2*P′*sin((180-β)/2)，

F＝Y/cos(θ/2)，

T+F＝(Q/2)/sin(α/2)，

摄像机光心连线和水平线之间的夹角σ＝β/2。根据计算分析和实验，Y取值2590mm时，远程呈现系统的视觉真实感可以接受。为了呈现真人大小的图像，L可以取值1434mm。理论上P′(P为P′的理论值)应该取值等于P＝60mm，但是由于显示器之间具有夹角和摄像机的变形，实验P′取值55mm，则桌面外边沿长度TL＝1544mm。通过简单的几何知识可以算出，摄像机视角θ＝30.95度，α＝0.46度，β＝31.41度，Q＝105.9mm，F＝2687.41mm，T＝10503.11，S＝84.3mm，H＝81.15mm，X＝22.82mm。其中，摄像机的视角θ根据测算其取值范围在[26°，36°]。

在实际设计时，为了保证远程呈现系统中的显示器呈现的图像具有真人大小，通常先选择显示器，一般要求显示器对角线尺寸大于等于60英寸。显示器选定后，可以确定有效显示区域长度L，以及理论边框长度P和实际边框长度P′。通过实验，可以根据L确定一个Y值，满足远程呈现系统的视觉真实感。在设计摄像机时，根据摄像机机芯的尺寸，确定摄像机光心之间的距离S和夹角σ，从而推导出β。通过测试可以确定，β一般的取值范围为29°～37°。在确定了这些先决条件后，可以通过几何方法计算出上图中的各个参数，从而确定会议室布局。在实际设计中，可能初始取值无法得到一个满意的方案，通过对参数进行调整和不断尝试，最终可以确定一个比较理想的布局。

根据计算结果，实际实现中得到的一个比较理想的会议室布局方案如下：

通过上面的设计可以看出，设置远程呈现系统本端的多台摄像机的参数、所述会议桌的参数以及所述远端显示器的尺寸，能够使得远程呈现系统远端的显示器的边框，遮挡住本端的摄像机拍摄图像中存在的区域A(图像缺失区域)以及区域C(图像重叠区域)，使得所述远端的多个显示器呈现的内容不会受到图像拼接的影响，即克服了不同深度场景拼接带来的上述两个区域的影响，使得远端的与会者能够看到连续的图像内容。

为了便于3台摄像机204，205，206的安装和调节，可以将这3台摄像机封装到一个统一的结构300中，如图15所示。每个摄像机的位置都可以进行独立调节，例如通过可调节螺钉进行调整。在远程呈现系统的本端场景的拍摄时，整个结构300可以放置在本端的显示器202上，具有三台摄像机的统一结构300距离显示器202的上边框具有一段距离。为了拍摄到参会者的最佳位置，3个摄像机都被调节成向下倾斜一个小的角度，呈一个俯视下拍的方式，所倾斜的角度具体可以根据与会者的高度以及会议桌与会议座椅的高度决定。

为了和传统的多媒体通信系统进行互通，需要输出一个整个会场的全景图像。在本实施例中不采用增加摄像机的方法，而是将3个摄像机的拍摄图像进行无缝拼接，得到一个全景图像，再将该全景图像作为单独一路视频流编码并发送给传统的多媒体通信系统。

图像拼接算法的基本原理是估算出多个摄像机的内部参数和之间的位置参数，利用估算出的参数通过算法将多摄像机图像对齐，消除重叠区域，并进行边缘融合、视差去除等处理，获得一个高分辨率的全景图像。根据射影几何原理，空间中的三维点投影到摄像机成像平面上的变换关系为：

\overset{&OverBar;}{x} = K [R | t] X - - - (1)

K = [\begin{matrix} f_{x} & s & u_{0} \\ 0 & f_{y} & v_{0} \\ 0 & 0 & 1 \end{matrix}] - - - (2)

其中

为平面坐标的齐次表示；X为世界坐标系的齐次表示；f_x和f_y为水平和垂直方向上的等效焦距；s为图像的畸变系数；u₀，v₀为图像主点坐标。R为摄像机的旋转矩阵，t为摄像机平移向量。其中K称为摄像机的内参，R和t称为摄像机的外参。对于两个摄像机拍摄的或一个摄像机在不同位置拍摄的具有重叠区域的多个图像，空间中的一个点两个图像上的成像关系为：

{\overset{&OverBar;}{x}}_{1} = H_{01} {\overset{&OverBar;}{x}}_{0} - - - (3)

其中H为一个3×3的矩阵，自由度为8，其代表了两个成像平面之间的变换关系，称之为单应性矩阵。对于只有旋转运动的纯旋转摄像机系统或共光心摄像机系统，H可以表示为：

H_{01} = K_{1} R_{1} R_{0}^{- 1} K_{0}^{- 1} - - - (4)

本实施例通过特征点提取算法，例如SIFT算法、Harris算法、SUSAN算法，在两幅或多幅图像的重叠区域进行特征点提取，找到多个特征点，建立特征点之间的匹配关系，利用公式(3)建立多个方程组，通过迭代优化算法求出两个图像之间的单应性矩阵H。求出H之后就可以通过一个坐标变换将两个图像合成到一起，将重叠区域的像素对齐。对于只有水平方向旋转的摄像机模型，还可以利用柱面坐标变换将平面坐标转换为柱面坐标，在柱面坐标下通过对图像的平移来进行对齐。柱面坐标的变换和反变换为：

x' = s \tan^{- 1} \frac{x}{f}

x = f \tan \frac{x'}{s} - - - (5)

y' = s \frac{y}{\sqrt{x^{2} + f^{2}}}

y = f \frac{y'}{s} \sec \frac{x'}{s} - - - (6)

通过上述的方法进行了图像变换后，一般还是无法得到比较理想的无缝全景图像，还必须考虑一些其它因素的影响。一个主要的影响因素是视差。可以通过一些图像处理方法对拼接处的视差进行消除。另一个主要因素是摄像机曝光/颜色差异导致的图像在亮度/色度上的差异，在两个图像的接缝处尤其明显。简单的解决方法是在接缝处的重叠区域进行Alpha融合(Alphablending)，比较好的方法可以在整个图像上进行拉普拉斯金字塔融合(Laplacian pyramid blending)或是梯度阈融合(Gradient domain blending)。在进行了相关的处理后，可以得到一个比较好的全景无缝图像。在实际的处理中，由于拼接得到的全景图像的宽高比很大，因此需要对缩放后上下没有内容的图像部分填充，例如填黑边处理。

单个摄像机能够完成PTZ(Pan/Tilt/Zoom，即平移、俯仰、缩放)操作，对于本实施例中具有三个摄像机组成的摄像设备，本实施例提供一种利用图像处理的方法完成三摄像机拍摄图像的PTZ操作。其中的一个方法实施例，所述方法包括：

确定一个虚拟摄像机拍摄成像窗口；根据所述的拍摄成像窗口对三摄像机拍摄拼接得到的图像进行平移或缩放，所述拍摄成像窗口内部呈现经过平移或缩放得到的图像。

在实施的过程中，根据所述的拍摄成像窗口对三摄像机拍摄拼接得到的图像进行平移，所述拍摄成像窗口内部呈现经过平移得到的图像包括：

确定所述拍摄成像窗口平移的方向以及距离；

针对所述拍摄成像窗口平移的方向以及距离，对所述三摄像机拍摄拼接得到的图像进行剪裁；

将所述剪裁得到的图像作为所述拍摄成像窗口平移后的图像。

根据所述的拍摄成像窗口对三摄像机拍摄拼接得到的图像进行缩放，所述拍摄成像窗口内部呈现经过缩放得到的图像包括：

确定所述拍摄成像窗口的中心位置；

根据所述的中心位置，获取缩放的比例关系；

依据所述的中心位置对所述三摄像机拍摄拼接得到的图像进行比例的缩放，对所述三摄像机拍摄拼接得到的图像缩放后进行剪裁；

本实施例还提供一种实现三摄像机PTZ操作的设备，包括：

窗口确定单元，用于确定一个虚拟摄像机拍摄成像窗口；

执行单元，用于根据所述的拍摄成像窗口对三摄像机拍摄拼接得到的图像进行平移或缩放，所述拍摄成像窗口内部呈现经过平移或缩放得到的图像。

其中，所述确定单元中包括：

测量子单元，用于确定所述拍摄成像窗口平移的方向以及距离以及获取缩放的比例关系；

剪裁子单元，用于对所述三摄像机拍摄拼接得到的图像平移或缩放后进行剪裁。

该PTZ的实施方式具体可以由如下具体过程来说明：

(1)PT操作(Pan/Tilt，即平移/俯仰操作)，定义一个和单个摄像机拍摄分辨率相似的虚拟摄像机拍摄窗口，在原始高分辨率的拼接全景图像上进行剪裁，窗口中的内容可以看作是虚拟摄像机拍摄的图像。通过上下左右移动虚拟摄像机窗口，就可以模拟平移和倾斜操作。

下面举例进行说明：

参看图16，设根据上面的图像拼接算法得到的宽屏图像由三个图像I1、I2、I3组成，定义一个虚拟的图像窗口VW，设图像窗口VW初始位置如图16所示，假设远端的与会者想按照现在的分辨率观看I2图像中的目标M，就需要进行PT操作，其中假设虚拟图像窗口VW的中心距离目标的中心的距离为[24pixels，4pixels]，即通过虚拟图像窗口VW向右移动24pixels，向上移动4pixels，然后将处于虚拟图像窗口中的图像内容剪裁掉就能够得到目标的图像，参见图17。

可以理解，上面所举的例子中涉及到的数字是为了简单的说明摄像机的平移以及俯仰操作来得到远端所希望得到的图像，在实际的过程中，通过远端用户通过手动输入需要观察的目标所在的位置，由远端的多媒体通信终端中集成的PTZ操作软件模块来完成PTZ的操作，使得远端用户从进行图像拼接处理宽屏图像中找到相应的目标。

(2)Z操作(Zoom，即缩放操作)，缩放操作的模拟类似数字变焦，分为两种情况，一种是放大处理：在选定了虚拟窗口的位置后，对窗口中的内容进行放大(图像上采样)。在放大过程中，放大后图像的中心和虚拟窗口的中心应该保持重合。原始图像放大后超出虚拟窗口的部分要被剪裁掉，虚拟窗口内保留的图像就是模拟Zoom放大后的图像。另一种情况是缩小处理。此时因为虚拟窗口之外的图像会进入到虚拟窗口中，因此需要根据缩小比例计算出一个比原始虚拟窗口更大的虚拟窗口，然后对这个窗口中的图像进行缩小处理(图像下采样)。在缩小过程中，图像中心和两个虚拟窗口的中心都应该保持重合。缩小后没有落入原来虚拟窗口的图像要被剪裁掉，虚拟窗口内保留的图像就是模拟Zoom缩小后的图像。

下面举例进行说明：

根据图18，设根据上面的图像拼接算法得到的宽屏图像由三个图像I1、I2、I3组成，定义一个虚拟的图像窗口VW，假设远端的与会者想按照现在的分辨率的2.5倍观看I2图像中的目标M，就需要进行zoom放大操作，通过将虚拟图像窗口的像素进行图像像素插值，然后将处于虚拟图像窗口中的图像内容剪裁掉就能够得到目标的图像，参见图19。

同理，对于目标进行zoom缩小操作，是需要对虚拟图像窗口中的图像像素进行采样得到，然后将处于虚拟图像窗口中的图像内容剪裁掉就能够得到目标的图像。由于图像的内插以及采样，属于图像处理中的基础知识，本实施例中不再进行赘述。

可以理解，上面所举的例子中涉及到的数字是为了简单的说明摄像机的缩放操作来得到远端所希望得到的图像，在实际的过程中，通过远端用户通过手动输入需要观察的目标需要进行缩放的比例值，由远端的多媒体通信终端中集成的PTZ操作软件模块来完成PTZ的操作，使得远端用户从进行图像拼接处理宽屏图像中找到相应的目标。

实施例7

本实施例可以结合图20进行说明，在图20中显示了远程呈现系统400以及远程呈现系统500构成的点对点的远程呈现系统的通信系统，其中，每个远程呈现系统采用的是基于实施例1所示的远程呈现系统，两个远程呈现系统构成的通信系统通过网络600相连。

可以理解，对于远程呈现系统构成的通信系统还可以采用实施例1、实施例2、实施例3、实施例4、实施例5所示的远程呈现系统作为单个会场，进而组成远程呈现系统的通信系统。

下面简单的以图21进行说明通信系统的构成，设在某一时刻远程呈现系统400为发送端，远程呈现系统500为接收端，其中，根据图22，所述的远程呈现系统400至少具有：多摄像机410、多视频采集处理单元420、多视频编码单元430、麦克风阵列440、音频采集处理单元450、音频编码单元460；所述远程呈现系统500至少具有：多视频解码单元510、多视频输出处理单元520、多显示器530、音频解码单元540、音频输出处理单元550、扬声器阵列560。当远程呈现系统400将本端的多媒体数据传输至远程呈现系统500时，通过多摄像机410拍摄远程呈现系统400所在的会场的视频数据，通过多视频采集处理单元420对多摄像机410拍摄得到的视频图像进行预处理(包括：数字化、缓存、图像去噪)，再利用多视频编码单元430对多视频采集单元420采集得到的视频数据进行编码，通过网络600传输到远程呈现系统500，同样，在远程呈现系统400中，由麦克风阵列440获取到远程呈现系统400中的多路音频数据以及多路音频数据的声像位置信息，利用音频采集处理单元450进行音频数据的预处理(包括音频数据模数转换、降噪处理)，通过音频编码单元460对采集到的多路音频数据以及多路音频数据的声像位置信息进行音频编码，同样，通过网络600传输到远程呈现系统500。

其中，本实施例中远程呈现系统400中采用麦克风阵列440是由一组按一定几何结构摆放的单向麦克组成的系统。与传统的指向性麦克风采集不同，指向性单麦克风一般只能采集一路信号，而麦克风阵列系统可以采集多路信号。由于各个麦克位置的不同，采集的数据在时间或者空间上存在某些差异，从而通过多路信号的信号处理技术可以提取出所需要的信息。麦克风阵列系统还具有空间选择特性，其形成的波束对准声源，抑制了其他说话人的声音和环境噪声，从而获得高品质的声源信号。

在本实施例中，在远程呈现系统500处，作为接收端，利用多视频解码单元510将从网络600获取得到的多视频数据码流进行解码，通过多视频输出处理单元520进行多视频数据流的显示前处理(包括：缓存、同步处理)，然后，利用多显示器530将远程呈现系统400的视频数据进行显示输出；同样的，利用音频解码单元540对从网络600接收到的远程呈现系统400发送的多路音频数据以及多路音频数据的声像位置信息进行解码，通过音频输出处理单元550将音频解码单元540解码得到的音频数据进行相应的输出前处理(包括：音频数据数模转换、利用多路音频数据的声像位置信息进行虚拟声场的实现等)，将经过处理后的多路音频数据通过扬声器阵列560进行声场重建以及音频输出。

在具体的实现过程中，扬声器阵列560中扬声器的分布方向和屏幕上远端参会者的分布方向一致。远程呈现系统400的麦克风阵列440采集会场的音频信号，对主讲人的声音进行音源定位，并进行一些音频处理，如回声抵消，噪声抑制等，输出一路或多路音频信号以及主讲人声音的位置信息。远程呈现系统500中的扬声器阵列560根据输入的音频信号和位置信息进行声场重建和再现。扬声器阵列560可以将多个声场单元以某些方式相组合而进行扩声。和单个扬声器直接辐射相比，扬声器阵列可以提升声功率，增加低频时声辐射效率，提高指向性以改善声场不均匀度并且提高混响环境中的语音清晰度。

本实施例在远程呈现系统构成的通信系统中的发送端与接收端，在进行音频处理时分别采用麦克风阵列与扬声器阵列，能够更好的将声像位置信息集成在音频数据中，能够更好地将音频数据在远程呈现系统的接收端进行呈现，给用户带来更好的体验。

当然，作为替代方案，在上面的图21对应的实施例的基础上，还可以采用普通的多个麦克风来代替麦克风阵列，和/或采用普通的多个扬声器来代替扬声器阵列，这样就又得到三种方案，即：

(1)参见图22，远程呈现系统400采用普通具有指向性的多个麦克风470来进行音频数据的拾取，远端的远程呈现系统500中仍采用扬声器阵列560，为了能够利用扬声器阵列560恢复远程呈现系统400的声场，需要在音频采集处理单元450’中增加声像位置获取模块(图未示)，即通过多麦克风470的位置，获取音源相对于所述多麦克风470的相对方位，进而通过音频采集处理单元450’的声像位置获取模块生成音源的声像位置信息，通过音频编码单元460对音频数据信息以及音源的声像位置信息进行编码，通过网络600传输至远程呈现系统500，通过音频解码单元540进行解码，通过音频输出处理单元550从解码数据中分离得到音频数据信息以及音源声像位置信息，通过扬声器阵列560进行输出。

(2)参见图23，远程呈现系统400仍采用麦克风阵列440来进行音频数据的拾取以及声像位置的获取，远端的远程呈现系统500中采用普通的多个扬声器570，为了能够使得扬声器570恢复远程呈现系统400的声场，需要在设计会场时，将多扬声器570摆放的位置同远程呈现系统400的多麦克风的方位一致，需要在音频输出处理单元550’中增加声像位置分配模块(图未示)，即通过麦克风阵列440获取音频数据以及音源的声像位置信息，进而通过音频采集处理单元450对获取到的音频数据进行预处理(包括音频数据模数转换、降噪处理)，通过音频编码单元460对音频数据信息以及音源的声像位置信息进行编码，通过网络600传输至远程呈现系统500，通过音频解码单元540进行解码，通过音频输出处理单元550’的声像位置分配模块从解码数据中分离出对应音频数据信息的音源声像位置信息，通过多个扬声器570进行输出。

(3)当然还有一种实施方式，参看图24，即远程呈现系统400采用普通具有指向性的多麦克风470来进行音频数据的拾取，远端的远程呈现系统500中采用普通的多个扬声器570，为了能够使得扬声器570恢复远程呈现系统400的声场，需要在音频采集处理单元450’中增加声像位置获取模块(图未示)，需要在设计会场时，将多扬声器570摆放的位置同远程呈现系统400的多麦克风的方位一致，需要在音频输出处理单元550’中增加声像位置分配模块(图未示)，即通过多麦克风470不同位置，获取音源相对于所述多麦克风470的相对方位，进而通过音频采集处理单元450’的声像位置获取模块生成音源的声像位置信息，通过音频编码单元460对音频数据信息以及音源的声像位置信息进行编码，通过网络600传输至远程呈现系统500，通过音频解码单元540进行解码，通过音频输出处理单元550’的声像位置分配模块从解码数据中分离出对应音频数据信息的音源声像位置信息，通过多个扬声器570进行输出。

需要说明的是，在本实施例中，多摄像机410、多麦克风470以及多扬声器570中分别包括的摄像机、麦克风以及扬声器的个数大于1个。

本实施例中的远程呈现系统中在获取音频数据信息的同时，获取到音源声像位置信息，使得接收端的远程呈现系统能够根据发送端的音源数据的声像位置信息重构声场，能够使得用户在进行视频通信的过程中具有身临其境的感觉，使得本端的与会者与远端的与会者在同一间会议室开会，给用户带来更好地体验。

正如本发明的实施例1中，不仅提供了系统构成结构为3的远程呈现系统，也揭示了系统的构成结构为2和4情况下的远程呈现系统，可以理解，不同的远程呈现系统中只表现在远程呈现系统中构成元素个数的不同，对于其中涉及到的图像处理，会议室的布局方法以及目标跟踪定位的方法都没有改变。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种远程呈现系统，其特征在于，所述系统包括：

多台显示器，用于显示多媒体通信远端的图像信息；

音频输出设备，用于输出多媒体通信远端的音频信息；

2.根据权利要求1所述的系统，其特征在于，通过设置所述系统的多台摄像机的参数、所述用户位置参数、以及所述远端的显示器尺寸，使得所述远端的多个显示器呈现的内容看起来是连续的。

3.根据权利要求1所述的系统，其特征在于，所述多个摄像机的每一个摄像机之间的拍摄范围夹角由所述对应该摄像机的用户位置的宽度以及所述摄像机的光心到所述用户位置的距离的比值确定，其范围为[26°，36°]。

4.根据权利要求1所述的系统，其特征在于，所述多个摄像机中两两相邻的摄像机之间主光轴之间的夹角的范围为[29°，37°]。

5.根据权利要求1所述的系统，其特征在于，所述音频采集设备为两个麦克风，所述音频输出设备为两个扬声器。

6.根据权利要求1所述的系统，其特征在于，所述显示器为对角线尺寸大于等于60英寸的显示器。

7.根据权利要求1所述的系统，其特征在于，在所述的多个用户位置处设置的会议桌上放置多台辅助显示器，所述辅助显示器用于显示共享多媒体数据信息。

8.根据权利要求7所述的系统，其特征在于，所述的辅助显示器能够通过升降的方式，隐藏到所述会议桌中。

9.根据权利要求7所述的系统，其特征在于，所述的会议桌上设置有中控设备，所述中控设备与所述多媒体通信终端相连接，用来实现对多媒体通信控制。

10.根据权利要求9所述的系统，其特征在于，所述中控设备用于建立或挂断呼叫，设置系统参数，调整会议室灯光，以及控制会议室窗帘。

11.根据权利要求1-10任一项所述的系统，其特征在于，所述多个用户位置采用多排的方式摆放。

12.根据权利要求11所述的系统，其特征在于，所述多排方式摆放的用户位置采用阶梯的方式放置。

13.根据权利要求1-10中任一项所述的系统，其特征在于，所述多台显示器放置于呈现桌面上，所述呈现桌面的呈现方向的背面可安装用户座位，其中，所述的呈现桌面上的多台显示器能够通过升降方式放入呈现桌面内部。

14.根据权利要求1-10中任一项所述的系统，其特征在于，所述系统还包括一台用来对发言的与会者进行目标定位与跟踪的摄像机。

15.根据权利要求1所述的系统，其特征在于，所述的音频采集设备为麦克风阵列，所述麦克风阵列用于采集会场中的音频信息以及对音频信息进行音源定位；所述的音频输出设备为扬声器阵列，所述扬声器阵列用于根据接收到的多媒体通信远端的音频信息以及音源位置信息进行声场重建与再现。

16.根据权利要求1所述的系统，其特征在于，所述的音频采集设备为麦克风阵列，所述麦克风阵列用于采集会场中的音频信息以及对音频信息进行音源定位；所述的音频输出设备为多个扬声器，所述多个扬声器用于输出接收到的多媒体通信远端的音频信息。

17.根据权利要求1所述的系统，其特征在于，所述的音频采集设备为多个麦克风，所述多个麦克风用于采集会场中的音频信息；所述的音频输出设备为扬声器阵列，所述扬声器阵列用于根据接收到的多媒体通信远端的音频信息以及音源位置信息进行声场重建与再现。

18.一种设置如权利要求1所述的远程呈现系统参数的方法，其特征在于，包括：