CN104469255A

CN104469255A - 改进的音频或视频会议

Info

Publication number: CN104469255A
Application number: CN201310422060.8A
Authority: CN
Inventors: 施栋; 孙学京; 李凯; 黄申; 哈拉尔德·蒙特; 海科·普尔哈根; 格伦·迪金斯
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2013-09-16
Filing date: 2013-09-16
Publication date: 2015-03-25
Also published as: US9525845B2; US20150237301A1; EP2901669B1; WO2014052745A1; EP2901669A1

Abstract

描述了用于音频或视频会议的客户端设备和方法的实施例。一个实施例包含终止检测单元、配置单元、估计器和输出单元。终止检测单元检测客户端设备的语音输入的终止。配置单元确定从客户端设备到每个远端的语音时延。估计器基于语音时延估计远端的用户感知到终止的时间。输出单元基于针对远端估计的时间输出指示远端的用户感知到终止的可感知信号。可感知信号有助于避免参加方之间的冲突。

Description

改进的音频或视频会议

技术领域

本发明一般涉及音频或视频会议。更具体地，本发明的实施例涉及用于音频或视频会议系统的客户端设备和用于客户端设备的音频或视频会议方法。

背景技术

音频或视频会议系统能够把位于不同位置的人们聚到一起来开会。通过这种技术，可以为各方带来虚拟面对面交谈情景。

各方可以经由其客户端设备来加入会议。客户端设备通常配有用于音频输入的话筒和用于音频输出的扬声器。客户端设备可以经由例如网络连接或电信连接的通信连接来接入会议系统。

某些客户端设备可以呈现例如其他方的标识的信息和例如音量控制的某些控制，以改进用户会议体验。在例如美国专利5,539,741号中可以发现这些客户端设备的一个例子。然而，由于音频/视频传输中必然的延迟，这些客户端设备的用户通常会在音频或视频会议中遇到扰乱通信(也称作冲突)的问题。因此，需要一种至少减轻由这种扰乱通信带来的问题的解决方案。

发明内容

根据本发明一个实施例，用于音频或视频会议系统的客户端设备包含终止检测单元、配置单元、估计器和输出单元。终止检测单元检测输入到客户端设备的话音的终止。针对至少一个远端中的每一个，配置单元确定从客户端设备到远端的语音时延。针对至少一个远端中的每一个，估计器基于语音时延估计远端的用户感知到终止的时间。针对至少一个远端中的每一个，输出单元基于针对远端估计的时间输出指示远端的用户感知到终止的可感知信号。

根据本发明一个实施例，用于音频或视频会议系统的客户端设备包含接收单元、语音活动检测器和输出单元。接收单元接收数据帧。语音活动检测器检测从接收单元直接输出的数据帧中的语音活动。输出单元输出指示存在来自远端的传入话音的可感知信号。

根据本发明一个实施例，提供用于客户端设备的音频或视频会议方法。根据该方法，针对至少一个远端中的每一个，确定从客户端设备到远端的语音时延。检测输入客户端设备的话音的终止。针对至少一个远端中的每一个，基于语音时延估计远端的用户感知到终止的时间。针对至少一个远端中的每一个，基于针对远端估计的时间输出指示远端的用户感知到终止的可感知信号。

根据本发明一个实施例，提供用于客户端设备的音频或视频会议方法。根据该方法，接收数据帧。在接收的数据帧中检测语音活动。输出指示存在来自远端的传入话音的可感知信号。

以下，参考附图来描述本发明的进一步的特征和优点，以及本发明的各种实施方式的结构与操作。需要注意的是本发明不限于本文中所描述的具体实施方式。本文中所提出的这些实施方式仅用于示例性目的。基于这里所包含的教示，另外的实施方式对相关领域的普通技术人员也是明显的。

附图说明

在附图的各图中，以示例性和非限制性的方式对本发明进行阐释，在附图中，类似的附图标记指代类似的元件，其中：

图1是说明根据本发明至少一个实施例的用于音频或视频会议系统的示例性客户端设备的方框图；

图2A是说明根据本发明至少一个实施例、以渐变方式呈现的视觉可感知信号的例子的示意图；

图2B是说明根据本发明至少一个实施例、以瞬变方式呈现的视觉可感知信号的例子的示意图；

图2C是说明根据本发明至少一个实施例、以组合方式呈现的视觉可感知信号的例子的示意图；

图2D是说明根据本发明至少一个实施例、以组合方式呈现的视觉可感知信号的另一个例子的示意图；

图3是说明根据本发明至少一个实施例、用于客户端设备的音频或视频会议方法的例子的流程图；

图4是说明根据本发明至少一个实施例的用于音频或视频会议系统的示例性客户端设备的方框图；

图5是说明根据本发明至少一个实施例的用于音频或视频会议系统的示例性客户端设备的方框图；

图6是说明根据本发明至少一个实施例的用于音频或视频会议系统的示例性客户端设备的方框图；

图7是说明根据本发明至少一个实施例、用于客户端设备的音频或视频会议方法的例子的流程图；

图8是示出了用于实现本发明实施方式的示例性系统的框图。

具体实施方式

下面参考附图描述本发明实施方式。应注意，为清楚起见，在附图和描述中省略了关于本领域技术人员已知但是与本发明无关的组件和过程的陈述和描述。

本领域的技术人员可以理解，本发明的各方面可以被实施为系统、装置（例如蜂窝电话、便携媒体播放器、个人计算机、电视机顶盒、或数字录像机、或任意其它媒体播放器）、方法或计算机程序产品。因此，本发明的各方面可以采取以下形式：完全硬件实施方式、完全软件实施方式（包括固件、驻留软件、微代码等）或组合软件部分与硬件部分的实施方式，本文可以一般地称之为“电路”、“模块”或“系统”。此外，本发明的各方面可以采取体现为一个或更多个计算机可读介质的计算机程序产品的形式，该计算机可读介质上体现有计算机可读程序代码。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是（但不限于）电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括以下：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的有形介质。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的、其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式，包括但不限于电磁的、光的或其任何适当的组合。

计算机可读信号介质可以是不同于计算机可读存储介质的、能够传达、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置相联系的程序的任何一种计算机可读介质。

体现在计算机可读介质中的程序代码可以采用任何适当的介质传输，包括但不限于无线、有线、光缆、射频等等、或上述各项的任何适当的组合。

用于执行本发明各方面的操作的计算机程序代码可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言，诸如“C”程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上并且部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户的计算机，或者，可以（例如利用因特网服务提供商来通过因特网）连接到外部计算机。

以下参照按照本发明实施方式的方法、设备（系统）和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器，使得通过计算机或其它可编程数据处理装置执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中，使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制造品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理设备或其它装置上，导致在计算机、其它可编程处理设备或其它装置上执行一系列操作步骤以产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图的方框中规定的功能/动作的过程。

为开始一个会议，会议的参加方(或用户)可以把其客户端设备连接到音频或视频会议系统。在会议期间，参加方可以对其客户端设备讲话。客户端设备可以把话音采样并且通过音频或视频会议系统把话音发送到其他参加方。来自参加方的话音可以被音频或视频会议系统或接收方客户端设备混合，于是被接收设备呈现。对于一方使用的客户端设备，其他方使用的客户端设备也被称作远端。

图1是说明根据本发明至少一个实施例、用于音频或视频会议系统(图中未图解)的示例性客户端设备100的方框图。

如图1所示，客户端设备100包含终止检测单元101、配置单元102、估计器103和输出单元104。

终止检测单元101被配置成检测输入到客户端设备100的话音的终止。话音的起始是指话音的开始。话音的终止是指话音的结束。通常，通过语音活动检测(VAD)技术可以从输入到客户端设备100的音频中检测出话音的起始、话音的延续和话音的终止。

终止代表话音的停止或暂停。如果会议以礼貌的方式进行，终止可以为其他各方提供讲话的机会。通常，由于语音时延的存在，在检测到终止的时间和其他方感知到(例如，听到)终止的时间之间存在延迟。由于此延迟，当讲话方停止或暂停交谈时，讲话方不确定其他方何时能够感知到此停止或暂停；如果其他方在感知到此停止或暂停之后开始讲话，讲话方何时可能听到其他方的话音；以及讲话方何时可以重新开始讲话并且与其他方冲突的可能性较低。向讲话方直观呈现此延迟能够有助于讲话方判断这些时刻。

对于不同的参加方，语音时延可能是不同的。因此，在本实施例中，对于远端C₁-C_n，n>0中的每个远端C_i，配置单元102被配置成确定从客户端设备100到远端C_i的语音时延L_i。

语音时延是由音频或视频会议系统在话音中导致的、从讲话人说出一个字的时刻到收听人实际听到该字的时刻的时间延迟。这被称作嘴到耳(MTE)延迟或单向延迟。例如，语音时延可以包括以下分量延迟：

·预处理延迟：发送侧的打包延迟、串行化延迟、和音频信号增强算法延迟；接收侧的音频信号增强算法延迟；

·编码延迟：发送侧的话音编码延迟；

·解码延迟：接收端侧的话音解码延迟；

·传输延迟：

-网络延迟：主干网传输延迟、网关延迟、排队延迟、例如xDSL传输/处理延迟或无线链路延迟的终端连接延迟；

-接收侧的抖动缓冲器延迟。

由于预处理延迟、编码延迟和解码延迟相对固定，因此这些延迟可以预先测量或估计为配置参数。这些配置参数可以被存储或注册在这样的位置：该位置使得配置单元102能够访问配置参数。配置单元102也可以提供对于输入配置参数中的一或多个的用户接口。如果用于管理或监视预处理过程、编码过程或解码过程的模块能够测量或收集配置参数，配置单元102也可以与这些模块通信以查询这些配置参数。配置参数中的一或多个可以特定于不同远端或不同类型的远端，或者可以适用于所有远端。

传输延迟通常是动态的。配置单元102可以在线测量或收集传输延迟。例如，通过使用由例如Ping的网络实用程序或例如RTP控制协议(RTCP)的通信协议提供的功能，可以测量网络延迟，其中RTP表示实时传送协议。抖动缓冲器可以是静态或动态的。在静态抖动缓冲器的情况下，可以将其抖动缓冲器延迟管理为某个位置上的参数，该位置使得配置单元102能够访问该参数。配置单元102也可以提供用于输入配置参数中的一或多个的用户接口。在动态抖动缓冲器的情况下，相应抖动缓冲器管理模块可以在某个位置维护平均抖动缓冲器延迟参数，或保持更新抖动缓冲器延迟参数，其中该位置使得配置单元102能够访问此参数。配置单元102也可以与该管理模块通信以查询参数。

配置单元102不必为确定语音时延而获得所有分量延迟。事实上，分量延迟可以是主要的，也可以是次要的。考虑更多的分量延迟意味着更多的开销和更加准确的语音时延。在开销和准确性之间存在折衷。例如，配置单元102可以主要或仅基于一或多个最主要的分量延迟来确定语音时延。

据观察，在分量延迟中，传输延迟通常是主要的。在一个例子中，配置单元102可以主要或仅基于传输延迟来确定语音时延。在这个例子中，能够以较低的开销来获得准确的语音时延。此外，也可以考虑预处理延迟、编码延迟和解码延迟中的一或多个。

也观察到，在传输延迟中，网络延迟通常比抖动缓冲器延迟更主要。在一个例子中，配置单元102可以获得网络延迟以作为传输延迟。在这个例子中，能够以更低的开销来获得准确的语音时延。

配置单元102可以任意次地确定语音时延。另外，配置单元102可以定期更新语音时延，或者响应于指示从客户端设备到远端的路径配置改变的信号而更新语音时延。例如，配置改变包括但不局限于抖动缓冲器的改变，以及网络路径的改变。配置单元102可以响应于有关方之间冲突的增加而更新语音时延。

在本实施例中，对于每个远端C_i，估计器103被配置成基于语音时延L_i估计远端C_i的会议参加方感知到终止的时间t_1,i。例如，假定在时间t_0,i检测到终止，则t_1,i=t_0,i+L_i。

对于每个远端C_i，输出单元104被配置成基于时间t_1,i输出指示远端C_i的会议参加方感知到终止的可感知信号。可感知信号可以被实现成音频的、视觉的或其组合。可以通过渐变方式或瞬变方式来实现可感知信号。

在渐变方式下，随着当前时间接近时间t_1,i，可感知信号沿一致方向表现出从一个状态到另一个状态的可感知改变，从而向用户指示终止正接近远端C_i。如果当前时间到达时间t_1,i时可感知信号改变到可感知最终状态，则用户能够得知终止已经到达远端C_i并且能够被用户感知到。由于可以感知到接近过程和当前状态与最终状态之间的距离，客户端设备100的用户可以获得有关何时终止会在远端被感知到的预期。这有助于改进用户的体验。

图2A是说明以渐变方式呈现的视觉可感知信号的例子的示意图。如图2A所示，显示包含2个条201和202的可视对象200。条201表示从客户端设备到远端的语音时延，条202表示当前时间。条202在条201上的一个位置表示可感知信号的一个状态。条202位于条201的一端的初始状态表示终止的传输的起始。条202位于条201的另一端的另一状态表示最终状态。随着时间的经过，条202从一端移动到另一端，状态从初始状态改变到最终状态。另一个例子是用于对语音时延进行倒计数的倒计数定时器。

在瞬变方式下，响应于当前时间到达时间t_1,i而输出可感知信号。这种方式简单和直接，因此用户可以在可感知信号出现之前给予较少的关注。

图2B是说明以瞬变方式呈现的视觉可感知信号的例子的示意图。如图2B所示，可视对象211是实心圆，表示处于终止尚未到达的状态的远端。如果已经经过估计器所估计的时间并且输出单元响应于此而呈现可感知信号，则输出单元使可视对象211改变到另一个可视对象212。可视对象212被显示为围绕有一个环的实心圆，该环被呈现为具有与实心圆不同的颜色。在这个例子中，可感知信号被实现成可视对象212。

也可以通过渐变方式和瞬变方式的组合方式来呈现可感知信号。

图2C是说明以组合方式呈现的视觉可感知信号的例子的示意图。如图2C所示，在终止尚未到达的状态下，显示可视对象221和可视对象231。在这个状态下，以和可视对象211相同的方式呈现可视对象221，以和可视对象200相同的方式呈现可视对象231。如果已经经过由估计器估计的时间并且输出单元响应于此而呈现可感知信号，则输出单元使可视对象221改变到另一个可视对象222，并且使可视对象231改变到另一个可视对象232。在这个例子中，可感知信号被实现成可视对象222和232的组合。

图2D是说明以组合方式呈现的视觉可感知信号的另一个例子的示意图。如图2D所示，表示当前讲话人的可视对象被显示为空心圆，3个远端被表示成可视对象A，B和C，其中以和图2B说明的可视对象相同的方式显示可视对象A，B和C。在可视对象S和可视对象A，B和C之间分别显示带箭头的线。这些线分别表示可视对象S和可视对象A，B和C之间终止的传输进展。随着终止接近远端，可视对象S和表示该远端的可视对象x之间的线延长，其中箭头接近可视对象x(例如，可视对象B或C)。如果已经经过估计器针对该远端估计的时间并且输出单元响应于此而呈现可感知信号，则输出单元使可视对象S和可视对象x(例如，可视对象A)之间的线延长，其中箭头接触到可视对象x，并且使可视对象x改变到与可视对象212相同的状态。

在瞬变方式下，可以存在3个状态：存在话音活动的初始状态，已经检测到终止并且正在传输该终止的传输状态，和终止已经到达的最终状态。例如，可感知信号可以分别被显示为可视对象211和212以表示传输状态和最终状态，并且可以被显示为不同对象(例如，空心圆)来表示初始状态。

颜色、形状、尺寸或例如运动、闪烁或渐变的动态视觉效果方面的任何可感知差别都可以表示状态改变。

在图1说明的实施例中，客户端设备100针对加入会议的所有远端呈现可感知信号。在某些情况下，不必针对加入会议的所有远端呈现可感知信号。例如，如果已知某些远端的参加方不讲话，则这些远端可以被排除。在一个可选实施例中，客户端设备100可以仅针对在所有远端中具有最大语音时延的一个远端呈现可感知信号。这能够帮助客户端设备100的用户确定所有其他方已经感知到终止。此外，由于只呈现一个可感知信号，用户不太可能受到干扰。

图3是说明根据本发明至少一个实施例、用于客户端设备的示例性音频或视频会议方法300的流程图。

如图3所示，方法300从步骤301开始。在步骤303，对于远端C₁-C_n，n>0的每个远端C_i，确定从客户端设备到远端C_i的语音时延L_i。在步骤305，从输入到客户端设备的话音中检测终止。在步骤307，对于每个远端C_i，基于语音时延L_i估计远端C_i的参加方感知到终止的时间t_1,i。在步骤309，对于每个远端C_i，基于时间t_1,i输出指示远端C_i的参加方感知到终止的可感知信号。方法300在步骤311结束。虽然在图3中方法300执行了一次，然而能够根据需要重复执行方法300。

在方法300的一个可选实施例中，在步骤303，可以主要或仅基于传输延迟来确定语音时延。此外，也可以考虑预处理延迟、编码延迟和解码延迟中的一或多个。

在方法300的一个可选实施例中，在步骤303，可以获得网络延迟以作为传输延迟。

在方法300的进一步的实施例中，可以任意次地执行步骤303。另外，可以定期更新语音时延，或者响应于指示从客户端设备到远端的路径配置改变的信号而更新语音时延。也可以响应于有关方之间冲突的增加而更新语音时延。

在图3说明的实施例中，在步骤309，针对加入会议的远端中的每一个呈现可感知信号。在某些情况下，不必针对加入会议的所有远端呈现可感知信号。在一个可选实施例中，可以仅针对在所有远端中具有最大语音时延的一个远端呈现可感知信号。

图4是说明根据本发明至少一个实施例的用于音频或视频会议系统400的示例性客户端设备的方框图。

如图4所示，客户端设备400包含终止检测单元401、配置单元402、估计器403、输出单元404和抖动监视器405。终止检测单元401和估计器403分别与终止检测单元101和估计器103具有相同功能，这里不再详细描述。

配置单元402具有与配置单元102相同的功能。尤其是，配置单元402被配置成确定从客户端设备400到每个远端的路径的网络延迟。抖动监视器405被配置成获得网络延迟的抖动范围。输出单元404具有与输出单元104相同的功能。另外，输出单元进一步被配置成呈现路径的网络延迟和抖动范围。在网络延迟的抖动较大的情况下，配置单元402基于网络延迟确定的语音时延有时可能偏离实际语音时延。本实施例有助于用户了解可能的最大网络延迟，因而增加避免冲突的可能性。

在图3所示的方法300的进一步的实施例中，方法300还包括确定从客户端设备到至少一个远端的路径的网络延迟的步骤，获得网络延迟的抖动范围的步骤，和呈现路径的网络延迟和抖动范围的步骤。

在如前面描述的客户端设备的进一步的实施例中，客户端设备还包括抖动缓冲器调节器，该抖动缓冲器调节器被配置成响应于用户输入来调节从客户端设备到远端的路径上的抖动缓冲器的抖动缓冲器延迟。抖动缓冲器调节器可以根据用户输入来选择从客户端设备到所有远端的路径之一或路径上的抖动缓冲器之一。不同远端可以具有不同的语音时延。可以调节抖动缓冲器延迟以降低不同远端的语音时延之间的差别。此外，客户端设备可以包括发送单元，该发送单元被配置成响应于调节而向相应路径的远端发送有关抖动缓冲器的抖动缓冲器延迟已经改变的指示。这个指示充当通知路径配置改变的信号。响应于这个信号，根据本发明实施例的客户端设备可以更新相关语音时延。此外，该指示可以包括抖动缓冲器的经调节的抖动缓冲器延迟。在这种情况下，接收方客户端设备可以基于经调节的抖动缓冲器延迟直接更新相关语音时延。

在如前面描述的方法的进一步的实施例中，方法可以还包括响应于用户输入来调节从客户端设备到远端的路径上的抖动缓冲器的抖动缓冲器延迟。可以根据用户输入来选择从客户端设备到所有远端的路径之一或路径上的抖动缓冲器之一。此外，方法可以包括响应于调节而向相应路径的远端发送有关抖动缓冲器的抖动缓冲器延迟已经改变的指示。此外，该指示可以包括抖动缓冲器的经调节的抖动缓冲器延迟。

在如前面描述的客户端设备的进一步的实施例中，输出单元可以进一步被配置成针对每个其他参加方，响应于在输出指示已经感知到终止的可感知信号之后经过一个时间区间而输出另一个可感知信号。这另一个可感知信号可以被实现成音频的、视觉的或其组合。配置单元可以进一步被配置成把该时间区间确定为不小于从远端到客户端设备的语音时延。配置单元可以简单地把从客户端设备到远端的语音时延作为从远端到客户端设备的语音时延，或者依赖远端来确定从远端到客户端设备的语音时延。如果远端的用户在感知到终止之后讲话，这另一个可感知信号有助于用户判断来自远端的话音何时有望到达。

在如前面描述的方法的进一步的实施例中，方法可以进一步包括针对每个其他参加方，响应于在输出指示已经感知到终止的可感知信号之后经过一个时间区间而输出另一个可感知信号。这另一个可感知信号可以被实现成音频的、视觉的或其组合。该时间区间被设置成不小于从远端到客户端设备的语音时延。

在如前面描述的客户端设备的进一步的实施例中，输出单元可以进一步被配置成在检测到终止之后以及输出指示在远端已经感知到终止的可感知信号之前的时间段期间，输出细微混响和可察觉但其他参加方听不到的噪声场之一。这种输出有助于用户得知终止尚未被感知到。该远端可以是任意远端，如果存在不止一个远端的话。这种输出可以被任何来自本地或来自远端的话音输入中断。

在如前面描述的方法的进一步的实施例中，方法可以进一步包括在检测到终止之后以及输出指示在远端已经感知到终止的可感知信号之前的时间段期间，输出细微混响和可察觉但其他参加方听不到的噪声场之一。该远端可以是任意远端，如果存在不止一个远端的话。这种输出可以被任何来自本地或来自远端的话音输入中断。

图5是说明根据本发明至少一个实施例的用于音频或视频会议系统的示例性客户端设备500的方框图。

如图5所示，客户端设备500包含接收单元511、语音活动检测器512和输出单元513。

接收单元511被配置成接收数据帧。直接从接收单元511向语音活动检测器512提供数据帧。语音活动检测器512被配置成检测数据帧中的语音活动。如果在数据帧中检测到语音活动，这意味着存在来自远端的传入话音。输出单元513被配置成输出指示存在来自远端的传入话音的可感知信号。可感知信号可以被实现成音频的、视觉的或其组合。通过这种方式，如果存在传入话音，则客户端设备500的用户能够更早地得知此情况，而不用经历例如抖动缓冲器延迟和播放延迟的延迟。这种更早的获知有助于用户避免冲突。

可以通过瞬变方式呈现可感知信号，其中可感知信号可以呈现2个状态：没有话音活动的状态和存在话音活动的状态。

在如前面所描述的输出指示已经感知到终止的可感知信号的任何实施例中，可以结合这种更早获知的特性。

作为这种结合的一个例子，图6是说明根据本发明至少一个实施例、用于音频或视频会议系统的示例性客户端设备600的方框图。

如图6所示，客户端设备600包含终止检测单元601、配置单元602、估计器603、输出单元604、接收单元611和语音活动检测器612。

终止检测单元601、配置单元602、估计器603、接收单元611和语音活动检测器612分别与终止检测单元101、配置单元102、估计器103、接收单元511和语音活动检测器512具有相同功能，这里不再对其进行详细描述。输出单元604具有与输出单元104相同的功能。另外，输出单元604进一步被配置成输出指示存在来自远端的传入话音的可感知信号。

在如前面描述的客户端设备的进一步的实施例中，语音活动检测器可以进一步被配置成从例如经由话筒输入的音频的本地音频输入中检测语音活动。输出单元可以进一步被配置成如果同时从数据帧和本地音频输入中检测到语音活动，则输出指示存在冲突的可感知信号。

在如前面描述的客户端设备的进一步的实施例中，输出单元可以进一步被配置成如果在预定时间段上没有从来自远端的数据帧中检测到语音活动，或者响应于状态通知，输出指示远端被静音的可感知信号。

图7是说明根据本发明至少一个实施例、用于客户端设备的示例性音频或视频会议方法700的流程图。

如图7所示，方法700从步骤701开始。在步骤703，接收数据帧。数据帧被直接提供给步骤705的处理。在步骤705，从数据帧中检测语音活动。如果在数据帧中检测到语音活动，这意味着存在来自远端的传入话音。在步骤707，输出指示存在来自远端的传入话音的可感知信号。方法700在步骤709结束。虽然在图7中方法700执行了一次，然而能够根据需要重复执行方法700。

在前面描述的输出指示已经感知到终止的可感知信号的任何实施例中，可以结合方法700。

作为这种结合的一个例子，在方法300的进一步的实施例中，方法300可以进一步包括接收数据帧的接收步骤，和在通过接收步骤接收的数据帧中检测语音活动的语音活动检测步骤。输出步骤可以进一步包括输出指示存在来自远端的传入话音的可感知信号。

在如前面描述的方法的进一步的实施例中，方法可以进一步包括从例如经由话筒输入的音频的本地音频输入中检测语音活动的步骤。如果同时从数据帧和本地音频输入中检测到语音活动，则可以输出指示存在冲突的可感知信号。

在如前面描述的方法的进一步的实施例中，如果在预定时间段上没有从来自远端的数据帧中检测到语音活动，或者响应于状态通知，可以输出指示远端被静音的可感知信号。

图8是示出了用于实现本发明实施方式的示例性系统800的方框图。

在图8中，中央处理单元(CPU)801根据只读存储器(ROM)802中存储的程序或从存储部分808加载到随机访问存储器(RAM)803的程序执行各种处理。在RAM803中，也根据需要存储当CPU801执行各种处理等等时所需的数据。

CPU801、ROM802和RAM803经由总线804彼此连接。输入/输出接口805也连接到总线804。

下列部件连接到输入/输出接口805：包括键盘、鼠标等等的输入部分806；包括例如阴极射线管(CRT)、液晶显示器(LCD)等等的显示器和扬声器等等的输出部分807；包括硬盘等等的存储部分808；和包括例如LAN卡、调制解调器等等的网络接口卡的通信部分809。通信部分809经由例如因特网的网络执行通信处理。

根据需要，驱动器810也连接到输入/输出接口805。例如磁盘、光盘、磁光盘、半导体存储器等等的可移除介质811根据需要被安装在驱动器810上，使得从中读出的计算机程序根据需要被安装到存储部分808。

在通过软件实现上述步骤和处理的情况下，从例如因特网的网络或例如可移除介质811的存储介质安装构成软件的程序。

本文中所用的术语仅仅是为了描述特定实施方式的目的，而非意图限定本发明。本文中所用的单数形式的“一”和“该”旨在也包括复数形式，除非上下文中明确地另行指出。还应理解，“包括”一词当在本说明书中使用时，说明存在所指出的特征、整体、步骤、操作、单元和/或组件，但是并不排除存在或增加一个或多个其它特征、整体、步骤、操作、单元和/或组件，以及/或者它们的组合。

以下权利要求中的对应结构、材料、操作以及所有功能性限定的装置或步骤的等同替换，旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或操作。对本发明进行的描述只是出于图解和描述的目的，而非用来对具有公开形式的本发明进行详细定义和限制。对于所属技术领域的普通技术人员而言，在不偏离本发明范围和精神的情况下，显然可以作出许多修改和变型。对实施方式的选择和说明，是为了最好地解释本发明的原理和实际应用，使所属技术领域的普通技术人员能够明了，本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。

这里描述了下面的示例性实施方式(均用"EE"表示）。

EE1.一种用于音频或视频会议系统的客户端设备，包括：

终止检测单元，配置为检测输入到所述客户端设备的话音的终止；

配置单元，配置为针对至少一个远端的每一个，确定从所述客户端设备到所述远端的第一语音时延；

估计器，配置为针对所述至少一个远端的每一个，基于所述第一语音时延估计所述远端的用户感知到所述终止的时间；和

输出单元，配置为针对所述至少一个远端的每一个，基于针对所述远端估计的时间输出指示所述远端的用户感知到所述终止的第一可感知信号。

EE2.如EE1所述的客户端设备，其中所述至少一个远端包括唯一远端，所述唯一远端在与所述客户端设备参与会议的所有远端中具有最大第一语音时延。

EE3.如EE1或2所述的客户端设备，其中所述配置单元进一步配置为至少基于从所述客户端设备到所述远端的传输延迟来确定所述第一语音时延。

EE4.如EE3所述的客户端设备，其中所述配置单元进一步配置为定期或响应于指示从所述客户端设备到所述远端的路径配置改变的信号而确定所述第一语音时延。

EE5.如EE3所述的客户端设备，其中所述配置单元进一步配置为获得从所述客户端设备到所述远端的网络延迟以作为所述传输延迟。

EE6.如EE3所述的客户端设备，其中所述配置单元进一步配置为

获得从所述客户端设备到所述远端的路径上的预处理延迟、编码延迟和解码延迟中至少之一；以及

至少基于所述传输延迟和所述至少一个获得的延迟来确定所述第一语音时延。

EE7.如EE1或2所述的客户端设备，其中所述配置单元进一步配置为确定从所述客户端设备到所述至少一个远端的路径的网络延迟，

所述客户端设备还包括配置为获得所述网络延迟的抖动范围的抖动监视器，并且

所述输出单元进一步配置为呈现所述路径的所述网络延迟和所述抖动范围。

EE8.如EE1或2所述的客户端设备，还包括抖动缓冲区调节器，配置为响应于用户输入调节从所述客户端设备到所述至少一个远端的路径上的抖动缓冲区的抖动缓冲区延迟。

EE9.如EE8所述的客户端设备，还包括发送单元，配置为响应于所述调节向相应路径的远端发送有关所述抖动缓冲区的抖动缓冲区延迟已经改变的指示。

EE10.如EE9所述的客户端设备，其中所述指示进一步包括所述抖动缓冲区的所述经调节的抖动缓冲区延迟。

EE11.如EE3所述的客户端设备，其中所述输出单元进一步配置为针对所述至少一个远端的每一个，响应于在输出所述第一可感知信号之后经过一个时间区间而输出第二可感知信号，并且

其中所述配置单元进一步配置为把所述时间区间确定为不小于从所述远端到所述客户端设备的第二语音时延。

EE12.如EE1所述的客户端设备，其中所述第一可感知信号包括音频的、视觉的或其组合。

EE13.如EE11所述的客户端设备，其中所述第二可感知信号包括音频的、视觉的或其组合。

EE14.如EE1所述的客户端设备，其中所述输出单元进一步配置为在检测到所述终止之后以及输出所述第一可感知信号之前的时间段期间，输出细微混响和可察觉但其他参加方听不到的噪声场之一。

EE15.如EE1或2所述的客户端设备，还包括:

接收单元，配置为接收数据帧；和

语音活动检测器，配置为检测从所述接收单元直接输出的数据帧中的语音活动，

其中所述输出单元进一步配置为输出指示存在来自远端的传入话音的第三可感知信号。

EE16.如EE5所述的客户端设备，其中所述语音活动检测器进一步配置为从本地音频输入中检测语音活动，并且

所述输出单元进一步配置为在同时从所述数据帧和所述本地音频输入中检测到语音活动的情况下，输出指示存在冲突的第四可感知信号。

EE17.如EE15所述的客户端设备，其中所述输出单元进一步配置为如果在预定时间段上没有从来自远端的数据帧中检测到语音活动，或者响应于状态通知，输出指示所述远端被静音的第五可感知信号。

EE18.如EE15所述的客户端设备，其中所述可感知信号包括音频的、视觉的或其组合。

EE19.一种用于音频或视频会议系统的客户端设备，包括：

接收单元，配置为接收数据帧；

语音活动检测器，配置为检测从所述接收单元直接输出的数据帧中的语音活动；和

输出单元，配置为输出指示存在来自远端的传入话音的可感知信号。

EE20.如EE19所述的客户端设备，其中所述语音活动检测器进一步配置为从本地音频输入中检测语音活动，并且

所述输出单元进一步配置为在同时从所述数据帧和所述本地音频输入中检测到语音活动的情况下，输出指示存在冲突的另一个可感知信号。

EE21.如EE19所述的客户端设备，其中所述输出单元进一步配置为如果在预定时间段上没有从来自远端的数据帧中检测到语音活动，或者响应于状态通知，输出指示所述远端被静音的另一个可感知信号。

EE22.如EE19所述的客户端设备，其中所述可感知信号包括音频的、视觉的或其组合。

EE23.一种用于客户端设备的音频或视频会议方法，包括：

配置步骤，针对至少一个远端的每一个，确定从所述客户端设备到所述远端的第一语音时延；

检测步骤，检测输入到所述客户端设备的话音的终止；

估计步骤，针对所述至少一个远端的每一个，基于所述第一语音时延估计所述远端的用户感知到所述终止的时间；以及

输出步骤，针对所述至少一个远端的每一个，基于针对所述远端估计的时间输出指示所述远端的用户感知到所述终止的第一可感知信号。

EE24.如EE23所述的方法，其中所述至少一个远端包括唯一远端，所述唯一远端在参与会议的所有远端中具有最大第一语音时延。

EE25.如EE23或24所述的方法，其中所述配置步骤还包括至少基于从所述客户端设备到所述远端的传输延迟来确定所述第一语音时延。

EE26.如EE25所述的方法，其中所述配置步骤还包括定期或响应于指示从所述客户端设备到所述远端的路径配置改变的信号而确定所述第一语音时延。

EE27.如EE25所述的方法，其中所述配置步骤还包括获得从所述客户端设备到所述远端的网络延迟以作为所述传输延迟。

EE28.如EE25所述的方法，其中所述配置步骤还包括：

EE29.如EE23或24所述的方法，还包括：

确定从所述客户端设备到所述至少一个远端的路径的网络延迟，

获得所述网络延迟的抖动范围，以及

呈现所述路径的所述网络延迟和所述抖动范围。

EE30.如EE23或24所述的方法，还包括响应于用户输入调节从所述客户端设备到所述至少一个远端的路径上的抖动缓冲区的抖动缓冲区延迟。

EE31.如EE30所述的方法，还包括响应于所述调节向相应路径的远端发送有关所述抖动缓冲区的抖动缓冲区延迟已经改变的指示。

EE32.如EE31所述的方法，其中所述指示进一步包括所述抖动缓冲区的所述经调节的抖动缓冲区延迟。

EE33.如EE25所述的方法，还包括：针对所述至少一个远端的每一个，响应于在输出所述第一可感知信号之后经过一个时间区间而输出第二可感知信号，并且

其中所述时间区间被设置成不小于从所述远端到所述客户端设备的第二语音时延。

EE34.如EE23所述的方法，其中所述第一可感知信号包括音频的、视觉的或其组合。

EE35.如EE33所述的方法，其中所述第二可感知信号包括音频的、视觉的或其组合。

EE36.如EE23所述的方法，还包括在检测到所述终止之后以及输出所述第一可感知信号之前的时间段期间，输出细微混响和可察觉但其他参加方听不到的噪声场之一。

EE37.如EE23或24所述的方法，还包括：

接收步骤，接收数据帧；和

语音活动检测步骤，检测通过所述接收步骤接收的数据帧中的语音活动，

其中所述输出步骤还包括输出指示存在来自远端的传入话音的第三可感知信号。

EE38.如EE37所述的方法，还包括：

从本地音频输入中检测语音活动，以及

在同时从所述数据帧和所述本地音频输入中检测到语音活动的情况下，输出指示存在冲突的第四可感知信号。

EE39.如EE37所述的方法，还包括：

如果在预定时间段上没有从来自远端的数据帧中检测到语音活动，或者响应于状态通知，输出指示所述远端被静音的第五可感知信号。

EE40.如EE37所述的方法，其中所述可感知信号包括音频的、视觉的或其组合。

EE41.一种用于客户端设备的音频或视频会议方法，包括：

接收步骤，接收数据帧；

语音活动检测步骤，检测通过所述接收步骤接收的数据帧中的语音活动；以及

输出步骤，输出指示存在来自远端的传入话音的可感知信号。

EE42.如EE41所述的方法，还包括：

从本地音频输入中检测语音活动，以及

在同时从所述数据帧和所述本地音频输入中检测到语音活动的情况下，输出指示存在冲突的另一个可感知信号。

EE43.如EE41所述的方法，还包括：如果在预定时间段上没有从来自远端的数据帧中检测到语音活动，或者响应于状态通知，输出指示所述远端被静音的另一个可感知信号。

EE44.如EE41所述的方法，其中：所述可感知信号包括音频的、视觉的或其组合。

Claims

1.一种用于音频或视频会议系统的客户端设备，包括：

2.如权利要求1所述的客户端设备，其中所述至少一个远端包括唯一远端，所述唯一远端在与所述客户端设备参与会议的所有远端中具有最大第一语音时延。

3.如权利要求1或2所述的客户端设备，其中所述配置单元进一步配置为至少基于从所述客户端设备到所述远端的传输延迟来确定所述第一语音时延。

4.如权利要求3所述的客户端设备，其中所述配置单元进一步配置为获得从所述客户端设备到所述远端的网络延迟以作为所述传输延迟。

5.如权利要求1或2所述的客户端设备，其中所述配置单元进一步配置为确定从所述客户端设备到所述至少一个远端的路径的网络延迟，

6.如权利要求1或2所述的客户端设备，还包括抖动缓冲区调节器，配置为响应于用户输入调节从所述客户端设备到所述至少一个远端的路径上的抖动缓冲区的抖动缓冲区延迟。

7.如权利要求6所述的客户端设备，还包括发送单元，配置为响应于所述调节向相应路径的远端发送有关所述抖动缓冲区的抖动缓冲区延迟已经改变的指示。

8.如权利要求7所述的客户端设备，其中所述指示进一步包括所述抖动缓冲区的所述经调节的抖动缓冲区延迟。

9.如权利要求3所述的客户端设备，其中所述输出单元进一步配置为针对所述至少一个远端的每一个，响应于在输出所述第一可感知信号之后经过一个时间区间而输出第二可感知信号，并且

10.如权利要求1所述的客户端设备，其中所述输出单元进一步配置为在检测到所述终止之后以及输出所述第一可感知信号之前的时间段期间，输出细微混响和可察觉但其他参加方听不到的噪声场之一。

11.如权利要求1或2所述的客户端设备，还包括:

接收单元，配置为接收数据帧；和

12.如权利要求5所述的客户端设备，其中所述语音活动检测器进一步配置为从本地音频输入中检测语音活动，并且

13.一种用于音频或视频会议系统的客户端设备，包括：

接收单元，配置为接收数据帧；

14.如权利要求13所述的客户端设备，其中所述语音活动检测器进一步配置为从本地音频输入中检测语音活动，并且

15.一种用于客户端设备的音频或视频会议方法，包括：

检测步骤，检测输入到所述客户端设备的话音的终止；

16.如权利要求15所述的方法，其中所述至少一个远端包括唯一远端，所述唯一远端在参与会议的所有远端中具有最大第一语音时延。

17.如权利要求15或16所述的方法，其中所述配置步骤还包括至少基于从所述客户端设备到所述远端的传输延迟来确定所述第一语音时延。

18.如权利要求17所述的方法，其中所述配置步骤还包括获得从所述客户端设备到所述远端的网络延迟以作为所述传输延迟。

19.如权利要求15或16所述的方法，还包括：

获得所述网络延迟的抖动范围，以及

呈现所述路径的所述网络延迟和所述抖动范围。

20.如权利要求15或16所述的方法，还包括响应于用户输入调节从所述客户端设备到所述至少一个远端的路径上的抖动缓冲区的抖动缓冲区延迟。

21.如权利要求20所述的方法，还包括响应于所述调节向相应路径的远端发送有关所述抖动缓冲区的抖动缓冲区延迟已经改变的指示。

22.如权利要求21所述的方法，其中所述指示进一步包括所述抖动缓冲区的所述经调节的抖动缓冲区延迟。

23.如权利要求17所述的方法，还包括：针对所述至少一个远端的每一个，响应于在输出所述第一可感知信号之后经过一个时间区间而输出第二可感知信号，并且

24.如权利要求15所述的方法，还包括在检测到所述终止之后以及输出所述第一可感知信号之前的时间段期间，输出细微混响和可察觉但其他参加方听不到的噪声场之一。

25.如权利要求15或16所述的方法，还包括：

接收步骤，接收数据帧；和

26.如权利要求25所述的方法，还包括：

从本地音频输入中检测语音活动，以及

27.一种用于客户端设备的音频或视频会议方法，包括：

接收步骤，接收数据帧；

28.如权利要求27所述的方法，还包括：

从本地音频输入中检测语音活动，以及