CN104010265A

CN104010265A - 音频空间渲染设备及方法

Info

Publication number: CN104010265A
Application number: CN201310056655.6A
Authority: CN
Inventors: 孙学京; 加里·施皮特勒
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2013-02-22
Filing date: 2013-02-22
Publication date: 2014-08-27
Also published as: WO2014130221A1; US9854378B2; EP2959697A1; US20150382127A1

Abstract

本发明公开了一种音频空间渲染设备和方法。在一个实施例中，音频空间渲染设备包括：渲染单元，用于对音频流进行空间渲染以使得再现的远端声音被听众感知为源自至少一个虚拟空间位置；真实位置获取单元，用于获取真实声源的真实空间位置；比较器，用于将真实空间位置与所述至少一个虚拟空间位置进行比较；以及调整单元，用于当真实空间位置在至少一个虚拟空间位置周围的预定范围内，或者至少一个虚拟空间位置在真实空间位置周围的预定范围内时，调整渲染单元的参数以使得改变所述至少一个虚拟空间位置。

Description

音频空间渲染设备及方法

技术领域

本申请总体上涉及音频信号处理。更具体地，本申请的实施例涉及一种用于对音频信号进行空间渲染的设备及方法。

背景技术

在音频再现系统中，进入的音频流通常被空间渲染以改善可理解度和整体体验。例如，再现的音乐可以被空间渲染以使得听众可以具有几乎如在音乐厅中一样的体验，感知到各种乐器相对于听众被放置在各自适当的位置处，就像乐队在听众面前一样。作为另一个示例，在音频会议系统中，远端的多个说话人的语音可以在近端被空间渲染，好像说话人正坐在近端听众面前，并且还可以彼此分隔开以使得听众可以容易地区分不同的说话人。

发明内容

本申请提出了一种使渲染适应于本地环境的新颖的空间渲染方式。

根据本申请的一个实施例，一种音频空间渲染设备包括：渲染单元，用于对音频流进行空间渲染以使得再现的远端声音被听众感知为源自至少一个虚拟空间位置；真实位置获取单元，用于获取真实声源的真实空间位置；比较器，用于将该真实空间位置与至少一个虚拟空间位置进行比较；以及调整单元，用于在真实空间位置在至少一个虚拟空间位置周围的预定范围内或至少一个虚拟空间位置在所述真实空间位置周围的预定范围内的情况下，调整渲染单元的参数以使得改变所述至少一个虚拟空间位置。

根据本申请的另一实施例，一种音频空间渲染方法包括：获取至少一个虚拟空间位置，要根据音频流被空间渲染的再现的远端声音被听众感知为源自该至少一个虚拟空间位置；获取真实声源的真实空间位置；将真实空间位置与至少一个虚拟空间位置进行比较；在真实空间位置在至少一个虚拟空间位置周围的预定范围内或至少一个虚拟空间位置在所述真实空间位置周围的预定范围内的情况下，调整空间渲染的参数以使得改变所述至少一个虚拟空间位置；以及基于调整后的参数对音频流进行空间渲染。

还公开了一种其上记录有计算机程序指令的计算机可读介质，当该计算机程序指令由处理器执行时，指令使得处理器能够执行一种音频空间渲染方法，该方法包括：获取至少一个虚拟空间位置，要根据音频流被空间渲染的再现的远端声音被听众感知为源自该至少一个虚拟空间位置；获取真实声源的真实空间位置；将真实空间位置与至少一个虚拟空间位置进行比较；在真实空间位置在至少一个虚拟空间位置周围的预定范围内或至少一个虚拟空间位置在所述真实空间位置周围的预定范围内的情况下，调整空间渲染的参数以使得改变至少一个虚拟空间位置；以及基于调整后的参数对音频流进行空间渲染。

根据本申请的各个实施例，可以在至少部分地考虑本地环境的情况下对音频信号进行空间渲染，以使得再现的声音不会被本地干扰声音比如场所中的噪声（背景声音）和/或其它有用的声音干扰。

附图说明

在附图的各个图中，以示例性和非限制性的方式对本发明进行阐释，在附图中，类似的附图标记指代类似的要素，其中：

图1是示意性地示出其中可以应用本申请的实施例的示例性语音通信系统的图；

图2是示出根据本申请的实施例的音频空间渲染设备的图；

图3A至图3C是示出用于空间渲染的原理的示例的图；

图4A和图4B是示出如图2中所示的实施例的两个具体示例的图；

图5至图8是示出根据本申请的另外的实施例的音频空间渲染设备的图；

图9是示出用于实现本申请的实施例的示例性系统的框图；

图10至图15是示出根据本申请的实施例的音频空间渲染方法的流程图。

具体实施方式

下面参照附图描述本申请的实施例。应注意，为清楚起见，在附图和描述中省略了关于本领域技术人员已知但是并非理解本申请所必需的关于部件和处理的陈述和描述。

本领域的技术人员可以理解，本发明的各方面可以被实施为系统、装置（例如蜂窝电话、便携媒体播放器、个人计算机、服务器、电视机顶盒、或数字录像机、或任意其它媒体播放器）、方法或计算机程序产品。因此，本发明的各方面可以采取以下形式：硬件实施例、软件实施例（包括固件、驻留软件、微代码等）或组合软件部分与硬件部分的实施例，在本文中可以一般地称之为“电路”、“模块”或“系统”。此外，本申请的各方面可以采取在一个或更多个其中形成有计算机可读程序代码的计算机可读介质中实现的计算机程序产品的形式。

可以使用一个或更多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质例如可以是（但不限于）电的、磁的、光的、电磁的、红外线的、或半导体的系统、设备或装置、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括以下：有一个或更多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式光盘只读存储器（CD-ROM）、光存储装置、磁存储装置、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置结合使用的程序的有形介质。

计算机可读信号介质可以包括例如在基带中或作为载波的一部分传播的、其中带有计算机可读程序代码的数据信号。这样的传播信号可以采取任何适当的形式，包括但不限于电磁的、光的或其任何适当的组合。

计算机可读信号介质可以是不同于计算机可读存储介质的、能够交换、传播或传输供指令执行系统、设备或装置使用的或与指令执行系统、设备或装置结合使用的程序的任何一种计算机可读介质。

形成在计算机可读介质中的程序代码可以采用任何适当的介质传输，包括但不限于无线、有线、光纤光缆、射频（RF）等等或上述各项的任何适当的组合。

用于执行本发明各方面的操作的计算机程序代码可以以一种或更多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言，诸如“C”程序设计语言或类似的程序设计语言。程序代码可以完全地在用户的计算机上作为一个独立的软件包执行，或者部分地在用户的计算机上执行并部分地在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户的计算机，或者，可以（例如利用因特网服务提供商来通过因特网）连接到外部计算机。

以下参照按照本发明实施例的方法、设备（系统）和计算机程序产品的流程图和/或框图来描述本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理设备的处理器以生产出一种机器，使得通过计算机或其它可编程数据处理装置的处理器执行的这些指令产生用于实现流程图和/或框图中的方框中规定的功能/操作的装置。

也可以把这些计算机程序指令存储在能够指引计算机或其它可编程数据处理设备以特定方式工作的计算机可读介质中，使得存储在计算机可读介质中的指令产生一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令的制品。

也可以把计算机程序指令加载到计算机、其它可编程数据处理设备或其它装置上，导致在计算机、其它可编程处理设备或其它装置上执行一系列操作步骤以产生计算机实现的过程，使得在计算机或其它可编程设备上执行的指令提供实现流程图和/或框图的方框中规定的功能/动作的过程。

系统概述

图1是示意性地示出了其中可以应用本申请的实施例的示例语音通信系统的图。

如图1所示，在不考虑说话人C和D的第一场景下，两个远端说话人A和B可以使用单声道终端1和2以参与到与近端说话人的电话会议中，近端说话人也是说话人A和B的远端语音的听众。说话人A和B的语音被携带在各自的音频信号1和2中并且通过通信链路传输至电话会议服务器，该电话会议服务器通过通信链路将音频信号发送至近端说话人/听众M的终端4并且在终端4那里再现。为了提高远端说话人A和B的语音的可理解度，终端4可以对音频信号1和2进行空间渲染以使得远端说话人A和B可以听起来好像位于近端说话人/听众M所处会议室中的两个不同的位置处。当说话人1和2同时讲话时，根据带宽或其它因素，服务器可以将音频信号1和2混频或将音频信号的包组合成一个较大的包并且发送至近端说话人/听众M的终端4。当存在多个说话人从而存在多个音频信号时，服务器可以将它们中的一些信号混频或组合。例如，我们可以将四个音频流合并成三个音频流。根据服务器和客户端的可升级性或其它因素，可以在服务器或客户端上执行混频或组合。类似地，可以在混频或组合之前完成空间渲染。

在还是图1中示出的第二场景下（不考虑说话人A和B），另外的两个远端说话人C和D可以使用作为空间捕获和渲染端点的终端3与近端说话人/听众M进行电话会议，近端说话人/听众M的终端4也可以是空间捕获和渲染端点。注意，在图1中终端3和4被示为具有两个麦克风和两个扬声器的立体声终端，但这显然不是限制性的，他们应当被理解为包括任意空间捕获（和渲染）端点。说话人C和D的作为声场信号的音频信号3通过通信链路和服务器传输至近端说话人/听众M的终端4。终端4可以原样或使用一些附加处理来再现音频信号3，以使得远端说话人C和D可以听起来好像位于近端说话人/听众M所在会议室中的两个不同的位置处（图1中“渲染的说话人C”和“渲染的说话人D”），并且渲染的说话人C和D的位置与它们在终端3侧处的真实位置相对应。

当然，上面讨论的两种场景可以被混合为第三种场景，其中单声道说话人A和B以及使用空间捕获和渲染端点的说话人C和D一起参与到与近端说话人/听众M的电话会议中，音频信号1和2中携带的单声道语音以及音频信号3中携带的立体/空间捕获的语音通过通信链路传输至服务器，被混频或不被混频，然后由终端4进行空间渲染以使得远端说话人A至D可以听起来好像位于近端说话人/听众M所在会议室中的四个不同的位置处（图1中“渲染的说话人A至D”），并且渲染的说话人C和D的位置与它们在终端3侧处的真实位置相对应。

在所有的三种场景中，在近端说话人/听众M所在同一会议室中可以存在其它的会议参与者和/或与会议无关的人，例如图1中示出的真实说话人E和F。另外，在上面的描述中，把近端说话人/听众M看作“中心”。当然，可以设想电话会议中的每个参与者具有同等的地位，并且对于每个说话人情形都可以类似于近端说话人/听众M。另外，可能存在其它的干扰声源，例如空调等等。

注意，如图1中所示的语音通信系统仅是一个示例，并不意在限制本发明的范围，并且可以设想其它应用场景，例如，用于对由乐队表演的音乐进行空间渲染的音频再现系统，以使得各种乐器被渲染为在不同的虚拟位置处。在这样的场景中的各种乐器等同于图1中示出的场景中的不同说话人A至D，差别在于通常音乐已经被记录在介质中或作为单个音频流传输/广播。

渲染的虚拟位置的调整

在本申请的第一实施例中，提出对渲染的说话人的虚拟位置进行调整用于提高例如图1中示出的场景中的渲染的说话人中的至少一些说话人的语音可理解度，从而使得说话人不互相重叠或不互相太靠近，因此他们的语音将不互相干扰。

具体地，如图2所示，提供了一种音频空间渲染设备，包括渲染单元202、真实位置获取单元204、比较器206和调整单元208。

渲染单元202被配置成对音频流进行空间渲染以使得再现的远端声音被听众感知为源自至少一个虚拟空间位置。有很多用于空间音频渲染的现有技术。如果原始音频信号是立体声/空间捕获信号或声场信号，例如图1中的第二场景中的音频信号3，则渲染单元可以使用空间渲染技术来完全再现所接收的立体声/声场信号（例如，音频信号3），只是将说话人（例如C和D）相对于原终端（例如，在真实说话人C和D所在的原会议室中的终端3）的空间位置“复制”为渲染的说话人相对于近端说话人/听众的虚拟空间位置。视情况而定，可能有一些附加的处理，而非仅仅复制。

如果原始音频信号是单声道信号，比如图1中的第一场景中的音频信号1和2，则不同的音频信号可以被赋予不同的空间听觉属性，以使得音频信号可以被感知为源自相对于近端听众的不同的位置（渲染的说话人A和B）。该工作可以在说话人侧或服务器侧或听众侧完成。如果原始音频信号已经在说话人侧或服务器侧被空间化，则听众的终端（终端4）接收的信号将是空间化的音频信号，听众的终端需要做的仅仅是再现空间化的音频信号，就好像该音频信号一开始就被生成为空间化信号/立体声信号/声场信号一样。有很多用于给不同的音频信号赋予不同的空间听觉属性的现有空间化技术，下面将简要地介绍这些现有技术。

如在“系统概要”部分提到的，来自说话人的音频信号1和2，无论是否被空间化，均可以在说话人侧或服务器侧混频或组合。如果音频信号已经在说话人/服务器侧在未空间化的情况下混频/组合，则听众的终端需要对来自不同的说话人的语音/话音进行区分，这可以使用很多现有的单声道源分离技术来完成并且可被看作是空间化或空间渲染的一部分。

在图1中的第三场景下，其中存在使用单声道终端1和2的两个单声道音频信号1和2以及使用立体声终端3的音频信号3，存在上面提到的第一场景和第二场景集成在一起的混合处理。此外，如果原始单声道音频信号已经在说话人侧或服务器侧被空间化，则听众的终端需要做的仅仅是再现所接收的音频信号，该音频信号包括空间化的音频信号的分量以及原始立体声/声场信号的分量。如果原始单声道音频信号在说话人侧或服务器侧没有被空间化但已经混频/组合，则听众的终端需要再现原始立体声/声场信号并且同时分离不同的单声道音频信号以及对它们进行空间渲染。当然，根据情况，就像本申请将要做的，甚至对于原始声场信号，可以进行附加处理。

现在看现有的空间化或空间渲染技术。在本公开中，术语“空间化”和术语“空间渲染”基本上具有相同的含义，即，向音频信号赋予特定的空间听觉属性以使得音频信号可以被感知为源自相对于近端听众的特定空间位置。但是根据语境，“空间渲染”包含更多使用赋予的或原始的空间听觉属性来“再现”音频信号的含义。为了简明起见，除非另有需要，在下面的描述中将不一定同时提到这两个术语。

一般而言，空间渲染可以基于头部相关传递函数（HRTF）、耳间时间差（ITD）和耳间强度差（IID）（也称为耳间声级差（ILD））中的至少一个。

ITD被定义为声音的波阵面在左耳和右耳处的到达时间的差。类似地，IID被定义为由自由场中的声音在右耳与左耳之间生成的幅度差。

已经表明ITD和IID是用于方位平面中的声音位置的感知的重要参数，例如，在“左-右”方向上的声音的感知。通常，声音被感知为离波阵面首先到达的耳朵更近，其中较大的ITD转换为较大的横向位移。例如，在图3A中，中值面中的位置X对应于为零ITD；对于位置Y，由于波阵面首先到达右耳处，声源将被感知为相对于中值面向右移动。换言之，对于纯正弦波，感知的横向位移与在两耳处所接收到的声音的相位差成比例。然而，在约1500Hz处，正弦波的波长变得可与头部的直径相比较，方位角的ITD线索变得不确定。在这些频率处及以上，ITD可以对应于比一个波长更长的距离。因此，在高于1500Hz处发生混叠问题，而相位差不再对应于唯一的空间位置。

在高于1500Hz的频率处，头部开始遮蔽远离声音的耳朵，使得与未遮蔽的耳朵相比，较少的能量到达遮蔽的耳朵。耳朵中的幅度差为IID，并已被证明在高于1500Hz的频率上对方位角解码在感知上是重要的。感知的位置不仅仅随着IID线性变化，这是因为在这种情况下存在对频率的强烈依赖。然而，对于给定的频率，感知的方位角随着IID的对数近似线性变化。

因此，为了将音频信号空间渲染到不同的虚拟位置，渲染单元202可以被配置成调整音频信号以使得再现的声音呈现对应的ITD和/或IID。

对于使用ITD和/或IID的空间渲染/空间化的更多细节，可以参考下列文献：Rayleigh,L.“On our perception of sound direction”PhilosophicalMagazine13:1907（Rayleigh,L.“论声音方向的感知”,《哲学杂志》1907第13期）;Blauert,Jens.SPatial Hearing，The MIT Press,Cambridge：1983（Blauert,Jens.《空间听觉》，剑桥麻省理工学院出版社，1983年）；以及Jose Fornari et al.“InteractiveSpatialization and Sound Design usinganEvolutionary System”，Proceedings of the2007Conference on New Interfacesfor Musical Expression(NIME07)，New York,NY, USA（Jose Fornari等人，“使用演进系统的交互空间化和声音设计”，美国纽约州纽约，音乐表达新界面2007年大会（NIME07）论文集）。所有这三个文献通过引用整体合并于此。

心理声学研究已经表明，除了ITD、IID与感知的空间位置之间的关系之外，存在可以由头部相关传递函数（HRTF）捕获的另外的线索。HRTF被定义为在听众耳道内的一点处的声压脉冲响应（称为HRIR，头部相关脉冲响应，其相对于听众的头部中心点处当没有听众时的声压归一化）的傅里叶变换，。

图3B包括一些相关的术语，并且图示了在多数HRTF文献中使用的空间坐标系，该空间坐标系也用于本公开中。如图3B所示，方位角表示声源在水平面上的空间方向，前向（在穿过鼻子且垂直于连接双耳的线的中值面中）是0度，左方向是90度，右方向为-90度。仰角表示声源在竖直方向上的空间方向。如果方位角对应于地球上的经度，则仰角对应于纬度。穿过双耳的水平面对应于0度的仰角，头顶对应于90度的仰角。

研究表明：声源的方位角（水平位置）的感知主要取决于IID和ITD，但是在某种程度上也取决于频谱线索。而对于声源的仰角的感知，频谱线索（被认为由耳廓引起）扮演重要的角色。心理声学研究甚至表明：仰角定位，尤其是在中值面中的仰角定位，基本上为单声道过程。在下面，将仰角定位作为示例用于说明如何使用HRTF来将音频信号空间化。对于其它类型的包括方位角定位的空间渲染，原理相似。

图3C示出了作为中值面（方位角=0°）中的仰角的函数的HRTF的频域表示。在7kHz处有一个凹口，随着仰角增大，该凹口在频率上上移。在12kHz处还有一个矮峰，该矮峰在较高的仰角处“变平”。HRTF数据中的这些值得注意的模式暗示了与仰角的感知相关的线索。当然，7kHz处的凹口和12kHz处的矮峰仅是可能的仰角线索的示例。实际上，人类大脑的心理声学感知是非常复杂的过程，至今为止仍未被完全理解。但是，通常，大脑总是通过其经验来训练，从而大脑已经将每个方位角和仰角与特定频谱响应相关。因此，当模拟声源的特定空间方向时，可以使用HRTF数据对来自声源的音频信号仅进行“调制”或滤波。例如，给定位于方向处的声源S，耳入口信号S_left和S_right可以被建模为：其中和为方向的HRTF。实践中，给定方向的HRTF可以通过使用被插入到对象（人或人体模型头部）的耳朵处的探测麦克风来测量，以获得来自置于该方向处的脉冲或已知的刺激的响应。这些HRTF测量可以用于合成来自单声道声源的虚拟耳入口信号。通过使用对应于某个方向的一对HRTF对该源进行滤波并且通过头戴式耳机或耳塞式耳机向听众呈现得到的左信号和右信号，可以模拟具有被空间化到所期望的方向上的虚拟声源的声场。

例如，当模拟中值面（即，方位角=0度）中仰角为0度的声源时，可以使用与图3C中所示的相对应的频谱对音频信号进行滤波。如前面提到的，频谱响应还可以包含方位角线索。因此，通过滤波，可以给音频信号赋予方位角和仰角线索。

已知每个空间方向（特定的一对方位角和仰角）与特定频谱相对应，可以认为每个空间方向与利用特定频谱的特定空间滤波器相对应。因此，在存在多个音频信号（例如，来自图1中的终端1和2的那些信号）时或在存在多个说话人（例如，图1中的共用终端3的说话人C和D以及使用各自的终端1和2的说话人A和B）时，可以理解，渲染单元202可以针对不同的音频信号和/或说话人使用与不同的空间方向相对应的不同的空间滤波器。

关于如何使用HRTF对音频信号进行空间渲染，还可以参照在2008年6月24日授权给Douglas S.Brungart的题为“Spatial Processor for EnhancedPerformance in Multi-talker Speech Displays”（增强多说话人语音展示的性能的空间化处理器）的美国专利US7391877B1，该专利最初被转让给由空军部长代表的美利坚合众国，该文献通过引用全文合并于此。

可替代地或附加地，渲染单元202可以被配置成基于直达-混响能量比对音频数据流进行空间渲染。混响可以提供声源距离的线索，该线索产生自直达声音能量水平与混响声音能量水平的比率的变化。该比率随着声源距离而变化。具体地，随着声源距离增加，直接到达听众的声音的水平将降低，导致直达-混响能量比的减小。因此，为了对音频信号进行空间渲染以使得再现的声音听起来像源自预定距离处的声源，可以模拟与特定空间比如特定会议室内的距离相对应的混响的效果。这样的技术的示例可以在2009年7月14日授权给Jean-Marc Jot等的题为“Environmental reverberation processor”（环境混响处理器）的美国专利US7561699B2中找到，该专利最初转让给创新科技有限公司（Creative Technology Ltd），该文献通过引用全文合并于此。

在上面的描述中，可以注意到，提到了所渲染的说话人的距离和方向。在本申请的语境中，无论对于渲染的声源（说话人）的虚拟位置还是对于真实声源（说话人）的真实位置，术语“位置”可以仅指代方向，或仅指代距离，或指代方向和距离两者。

真实位置获取单元204被配置成获取真实声源的真实空间位置。在图1所示的场景中，真实声源可以是噪音声源，例如同一房间里的空调、其它非参与会议的说话人或其他参与会议的说话人。真实位置获取单元204可以包括输入单元，用户可以通过该输入单元输入真实声源的位置。

可替代地或附加地，真实位置获取单元204可以被配置成自动地获取真实声源的真实空间位置。存在很多做到这一点的现有技术。作为示例，真实位置获取单元204可以包括麦克风阵列，并且被配置成基于由麦克风阵列所捕获的声音以及使用波达方向（DOA）算法来估计真实声源的真实空间位置。DOA算法基于所捕获的信号的相位、时间或幅度差来估计到达的方向。存在很多用于估计DOA的技术。

一种DOA算法为TDOA（声达时间差算法）。存在很多用于使用TDOA定位声源的技术，比如，2007年10月电讯技术第47卷第5期，段敬红等的“基于BP神经网络和声达时间差的声源定位算法”，该文献通过引用全文合并于此。对于TDOA的估计，也存在很多技术，比如，相位变换加权广义互相关算法（GCC-PHAT），参见2011年12月山东科学第24卷第6期，夏阳等的“基于矩形麦克风阵列的改进的GCC-PHAT语音定位算法”，该文献通过引用全文合并于此。DOA估计的其它示例包括可控响应功率相位变换（SRP-PHAT）算法、多信号分类（MUSIC）等。

比较器206被配置成将真实空间位置与至少一个虚拟空间位置进行比较，以查看真实声源的真实空间位置是否干扰再现的远端声音的至少一个虚拟空间位置。存在三种情形。第一情形是两者占据相同的空间位置。第二情形是两者彼此非常接近。第三情形是两者中的一个位于另一个与听众之间从而对听众而言遮挡了另一个。第三情形不仅包括真实声源位于听众与再现的远端声音的虚拟空间位置之间的情况，还包括虚拟空间位置位于听众与真实声源之间的情况。当然，两者中的一个不一定正好位于连接听众和另一个的直线上，还可以正好靠近该直线以足够干扰另一个。可以将这三种情形概括为：两者中的一个在另一个周围的预定范围内，当然，预定范围不一定是规则的形状。此外，预定范围可以取决于真实声源和/或再现的远端声音的响度、和/或真实声源与再现的远端声音之间的响度比。如果响度和/或响度比使得两者更容易互相干扰，则该预定范围将更大。

如果比较器206的结果表明真实声源的真实空间位置在至少一个虚拟空间位置周围的预定范围内或反之，则调整单元208调整渲染单元202的参数以使得改变所述至少一个虚拟空间位置，从而使得再现的远端声音（以及真实声源）更好理解。

如前所述，渲染单元202可以基于HRTF、IID、ITD和直达-混响能量比中的至少一个来对音频流进行空间渲染。在这样做时，可以认为：渲染单元202使用与所需要的虚拟空间位置相对应的不同的滤波器。因此，当提到渲染单元202的“参数”时，可以理解为所需要的空间位置或用于调用不同滤波器的参数。

如前所述，如果渲染单元202待渲染的音频信号为原始立体声/声场信号，或已经被空间化，则渲染单元202可以简单地再现原始/空间化的立体声/声场信号。然而，当涉及重新定位再现的远端声音的虚拟空间位置时，可以首先分离不同的远端声源（比如远端说话人），然后用适当选择的滤波器进行空间渲染。存在很多完成这一点的分离技术。例如，盲源信号分离（BSS）技术可以用于区分不同的说话人。这样的一种技术可以在下述文献中找到，但显然并不限于此：孙学京“用于卷积盲源分离的方法和设备”，中国发明专利申请公布号CN102903368A，该文献通过引用全文合并于此。

可替代地，整个声场可以被旋转、平移、挤压、扩展或进行其他变换。在这种情形下，待调整的参数可以包括方位和/或宽度或声场的任何其他参数。我们知道一旦整个声场移动/旋转/缩放/变换，则再现的远端声源的虚拟位置将相应地改变。因此上述参数可以根据再现的远端声音的预期的虚拟位置来计算。

存在很多用于执行声场的旋转、平移、压缩、扩展或其他变换的成熟的技术。作为示例，可以使用下列标准的旋转矩阵容易地在3通道B格式信号上实现声场旋转：

[\begin{matrix} W' \\ X' \\ Y' \end{matrix}] = [\begin{matrix} 1 & 0 & 0 \\ 0 & \cos (θ) & - \sin (θ) \\ 0 & \sin (θ) & \cos (θ) \end{matrix}] [\begin{matrix} W \\ X \\ Y \end{matrix}]

其中，W是全向信息，X和Y为两个定向信息。θ是旋转角度。

如前所述，本申请中的术语“位置”可以指方向和/或距离。因此，调整单元208可以被配置成调整渲染单元202的参数，以使得至少一个虚拟空间位置被围绕听众旋转远离该虚拟空间位置，和/或至少一个虚拟空间位置被移动到较靠近听众的位置。

如图4A所示（图中的要素是从图1中提取的），如果真实说话人F和渲染的说话人C的空间位置（分别为方向1和2）彼此太靠近，则可以调整渲染单元202以将说话人C的音频信号分离，并且将他/她重新渲染到新的位置，如图4A中用宽箭头所示。这可以与当收听环境（比如会议室）中存在静态点噪声源或暂时静态的真实说话人时戴着头戴式耳机或耳塞式耳机的听众旋转他的头部有关。噪声或真实说话人将保持在相同的位置，但头戴式耳机/耳塞式耳机中的渲染场景将随着听众的头部旋转而移动。这样，在某些时候，渲染的说话人的虚拟位置与噪声或真实说话人适当地分离开，但在另外某些时间，听众旋转他的头部，从而可能将渲染的说话人置于太接近噪声或真实的说话人的位置，因此需要调整渲染单元202以重新定位所渲染的说话人。真实说话人在会议室中移动他/她的位置也是有可能的，情形类似。

图4B示出了可能有必要调整渲染的远端声音的虚拟位置的另一场景。存在静态的噪声源，比如空调402。渲染的说话人C可能太靠近空调402而不能被理解。因而，渲染单元202（可以实现在终端4中）可以分离说话人C的音频信号并且将他/她重新定位到较靠近于听众的新位置。也可以假设以与图4A中相同的方式移动渲染的说话人C。

可以在任何时间，包括在音频空间渲染设备的校准阶段，来执行本申请中所讨论的调整。在校准阶段，对于收听环境中的静态声源比如会议室中的空调，真实位置获取单元204、比较器206和调整单元208照常工作。但是对于非静态的声源，比如还未进入会议室的真实说话人，由于不存在真实语音，因此真实位置获取单元204可以使用如前面所讨论的输入单元。

在电话会议的进行期间，真实位置获取单元204、比较器206和调节单元208可以实时工作，或者当近端听众/说话人认识到这样的必要性时被手动触发。

在校准阶段，渲染的声源的虚拟位置可以被很快地调整到所期望的位置。但是，在实时调整中，调整单元208可以被配置成逐渐改变虚拟空间位置。快速地改变目标话音的虚拟方向将有可能导致感知体验恶化。为了避免畸变，还可以由调整单元208在远端声音的暂停期间执行改变（这将在后面讨论）。此外，为了使变化不那么突然，角度变化可以是相当小的。例如，目标位置与本地干扰源的位置之间有一度的分离可能就足够了。

真实声源的检测

在上文中已经讨论了如何空间渲染音频流以及如何估计真实声源的空间位置。真实声源的空间位置估计也可以视为确定真实声源的存在的过程。然而，对于检测真实声源，可能存在三种干扰因素：由用于检测真实声源的近端麦克风捕获的再现的远端声音，即，远端声音的回声；近端说话人的语音；以及偶尔的干扰。

远端声音的回声

在远端音频流由作为渲染单元202的一部分的扬声器或扬声器阵列再现的情况下，如图5所示，扬声器信号可以在通过回声路径LEM（扬声器-场地-麦克风）512之后由真实位置获取单元204的麦克风阵列捕获。这样，真实位置获取单元204可能被迷惑而不能将真实声源与所捕获的远端声音的回声区分开来。（当真实位置获取单元204如前面所讨论的由用于直接输入真实声源的空间位置的输入单元构成时，将没有这样的混淆。）

一种对策是真实位置获取单元204可以被配置成在没有远端声音时工作。这样，如图5所示，音频空间渲染设备还可以包括用于检测远端声音的存在的声音活动检测器510。即，当存在远端声音时，渲染单元202可以再现远端声音并且同时获取渲染的远端声源的虚拟位置。当不存在远端声音时，真实位置获取单元204工作以获取本地真实声源的真实空间位置。以这种方式，避免远端声音对真实声源的检测的影响。

声音活动检测器510可以使用很多现有技术来实现，比如WANG Jun et al.,“Codec-Independent Sound Activity Detection Based OnThe Entropy With AdaptiveNoise Update”,9th International Conference on Software Process(ICSP2008)on26-29Oct.2008(“具有自适应噪声更新的基于熵的独立于编解码器的声音活动检测”，2008年10月26日至29日第九届软件过程国际会议（ICSP2008）)，该文献通过引用全文合并于此。当仅涉及讲话的语音时，例如在音频会议系统中，声音活动检测器510仅是语音活动检测器（VAD），该语音活动检测器也可以使用很多现有技术来实现。

顺便提及，基于声音活动检测器510或VAD的结果，如前所述，调整单元208还可以被配置成在远端声音的暂停期间调整渲染单元202，以便避免畸变或避免产生太突然的变化。

其它的对策是使用用于消除再现的远端声音的被捕获的回声的声学回声消除装置614（图6），并且真实位置获取单元204被配置成将经过声学回声消除（AEC）装置的处理之后的残留信号当作来自真实声源的信号。存在很多用于实现声学回声消除装置614的现有技术。

近端说话人的语音

在本申请的语境中，“近端说话人”指代收听环境中的、同时作为听众的真实说话人，比如戴着包括本申请的解决方案的一个实例的头戴式耳机/耳塞式耳机的人，或使用包括本申请的解决方案的一个实例的计算机的人。作为真实声源的其它真实说话人也可以在听，但他们仅相对于包括本申请的解决方案的其他实例的他们自己的头戴式耳机/耳塞式耳机/计算机被视为“近端说话人”。在扬声器阵列包括分散在收听环境中的多个扬声器的场景下，可能所有的真实说话人都被视为本申请中的真实声源而没有近端说话人。

在某些场景下，近端说话人应当从真实位置获取单元204的检测中被排除，否则调整单元208将做一些不必要的调整。

根据如上面所讨论的“近端说话人”的定义，可以知道，通常近端说话人将在麦克风阵列周围的预定范围内。因此，为了排除近端说话人的语音，调整单元被配置成当真实空间位置在预定空间范围内时不调整渲染单元的参数。为了这样做，比较器206可以被配置成不仅将真实声源的真实空间位置与再现的远端声音的虚拟空间位置进行比较，而且将真实空间位置与预定空间范围进行比较。当真实声源的真实空间位置在预定空间范围内时，相应的真实声源被视为近端说话人，从而不被调整单元208考虑。当真实声源的真实空间位置在预定空间范围之外时，相应的真实声源将被调整单元208考虑，并且进一步，如果真实空间位置和虚拟空间位置彼此太靠近，则调整单元208将调整渲染单元202以将虚拟空间位置移动得远离真实声源。

以便携式计算机作为示例。便携式计算机通常配备有线性麦克风阵列，例如2个麦克风的阵列。远端信号通过便携式计算机内置扬声器、一对桌面扬声器或一对立体声头戴式耳机回放。对于麦克风阵列，可以使用传统的DOA方法，比如基于相位的GCC-PHAT、或基于子空间的方法比如MUSIC。假定用户（近端说话人）坐在便携式计算机前，那么近端说话人信号的位置大约在麦克风阵列之间的中值面中（0度，宽度方向上）。那么，如果估计的DOA不为0度或在0度周围的预定范围之外，则可以估计真实声源不是近端说话人。

对于具有麦克风阵列的头戴式耳机/耳塞式耳机，情况是类似的，其中可以获取近端说话人的预定空间位置。

为了进一步提高精确度，可以考虑由麦克风阵列捕获的音频信号的能量。由于距离的原因，所捕获的真实声源的信号通常会具有比近端话音信号更低的能量。例如，如果麦克风信号具有0度区域之外的估计方向但仍具有很高的能量，它不被分类为真实声源，因此不执行虚拟空间位置的变化。为了这样做，如图7所示，音频空间渲染设备还可以包括用于估计真实声源的信号能量的能量估计器716，并且调整单元208被配置成当所估计的能量高于预定阈值时不调整渲染单元202的参数。如图7所示，为了使调整单元208不调整渲染单元202，能量估计器716可以直接禁用调整单元208本身，但也可以替代地或附加地禁用真实位置获取单元204和/或比较器206。这里请注意，“禁用”仅仅是针对所估计的其能量高于预定阈值的真实声源。对于其它真实声源，真实位置获取单元204、比较器206和调整单元208仍然正常工作。

偶尔的干扰

系统可以进一步被修改以容忍收听环境中的偶尔的中断，比如房间内的参与者打喷嚏或咳嗽、房间内的其它偶尔的非话音声音比如手机铃声、以及活动的说话人的偶尔的移动。是将真实声源视为移动的或是将其视为保持在原地之间的区别可以由基于时间的阈值来确定。例如，仅当真实声源的移动持续超过预定时间长度时，真实声源才被视为移动的，并且仅当新的真实声源持续超过预定时间段时，才将该新的真实声源视为有效的。因此，如图8所示，音频空间渲染设备还可以包括用于确定真实声源的持续时间长度的计时器818，以及被配置成当时间长度小于预定阈值时不调整参数的调整单元208。

这里，类似于图7中的能量估计器716，为了使调整单元208不调整渲染单元202，计时器818可以直接禁用调整单元208本身，但也可以替代地或附加地禁用真实位置获取单元204和/或比较器206。这里请注意，“禁用”仅仅针对其持续时间小于预定阈值的真实声源。对于其它真实声源，真实位置获取单元204、比较器206和调整单元208仍然正常工作。

实施例的组合和应用场景

上面所讨论的所有实施例及其变型可以以它们的任意组合来实施，并且在不同的部分/实施例中提到但具有相同或相似功能的任何部件可以被实施为同一个部件或单独的部件。

具体地，当在前面描述实施例及其变型时，省略了那些具有与在先前的实施例或变型中已经描述的那些附图标记类似的附图标记的部件，仅描述了不同的部件。事实上，这些不同的部件可以与其它实施例或变型的部件组合，或独立构成单独的解决方案。例如，参照图5至图8描述的解决方案中的任何两种或更多种可以彼此组合。作为最完整的解决方案，音频空间渲染设备可以包括声音活动检测器510，以使得调整单元208仅在没有远端声音时工作。同时，音频空间渲染设备还可以包括AEC614、能量估计器716和计时器818。

如前所述，本申请可以应用于音频再现设备中，比如头戴式耳机、耳塞式耳机、扬声器和扬声器阵列。这些音频再现设备可以用于任何用途，比如用于音频会议系统中。它们也可以用于剧院或电影院的音频系统中。当涉及音乐时，可能不能将其渲染到一个单一的位置或者将其压缩太多，并且渲染的声源（例如各种乐器）在移动时应当保持彼此分隔开。

如在本申请的具体实施方式的开始处所讨论的，本申请的实施例可以以硬件或软件或软硬件两者来实现。图9是示出了用于实施本申请的各个方面的示例性系统的框图。

在图9中，中央处理单元（CPU）901根据只读存储器（ROM）902中存储的程序或从存储部分908加载到随机访问存储器（RAM）903的程序来执行各种处理。在RAM903中，也根据需要存储当CPU901执行各种处理等等时所需要的数据。

CPU901、ROM902和RAM903经由总线904彼此连接。输入/输出接口905也连接到总线904。

下列部件连接到输入/输出接口905：包括键盘、鼠标等的输入部分906；包括例如阴极射线管（CRT）、液晶显示器（LCD）等等的显示器和扬声器等等的输出部分907；包括硬盘等等的存储部分908；以及包括例如LAN卡、调制解调器等等的网络接口卡的通信部分909。通信部分909经由网络比如互联网执行通信处理。

根据需要，驱动器910也连接到输入/输出接口905。可移除介质911比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器910上，以使得从中读取的计算机程序根据需要被安装到存储部分908中。

在通过软件实施上述部件的情况下，从网络比如互联网或存储介质比如可移除介质911安装构成软件的程序。

音频空间渲染方法

在上文的实施例中描述音频空间渲染设备的过程中，显然还公开了一些处理或方法。下文中，在不重复上文中已经讨论的一些细节的情况下给出这些方法的概要，但是应当注意，虽然这些方法在描述音频空间渲染设备的过程中公开，但是这些方法不一定采用所描述的那些部件或不一定由那些部件执行。例如，音频空间渲染设备的实施例可以部分地或完全地使用硬件和/或固件来实现，而下面讨论的音频空间渲染方法完全由计算机可执行的程序来实现也是有可能的，尽管这些方法也可以采用音频空间渲染设备的硬件和/或固件。

下面参照图10至图15描述该方法。请注意，对应于音频信号的流属性，当实时实施该方法时，要重复各种操作，并且不同的操作不一定针对相同的音频段，而是针对收听环境中的相关的真实声源和相关的渲染的/虚拟声源。

在如图10所示的实施例中，提供了一种音频空间渲染方法。首先，获取至少一个虚拟空间位置（操作1002），要根据音频流被空间渲染的再现的远端声音被听众感知为源自该虚拟空间位置。还获取真实声源的真实空间位置（操作1004）。这两个操作的顺序无关紧要，哪个操作都可以是第一个操作，而且它们还可以并行地执行。如当描述音频空间渲染设备时所讨论的，渲染的声源的虚拟空间位置可以在远端终端侧或服务器侧确定，或者在近端终端（本申请的音频空间渲染设备）侧确定。在任一情况下，音频空间渲染设备的渲染单元将知道、或确定、或可以得到渲染的声源的虚拟空间位置。然后，将真实空间位置与至少一个虚拟空间位置进行比较（操作1006）。如果真实空间位置在该至少一个虚拟空间位置周围的预定范围内或反之，则意味着真实空间位置将干扰该至少一个虚拟空间位置，则调整空间渲染的参数（操作1008），以使得改变至少一个虚拟空间位置。然后，基于调整后的参数空间渲染随后的音频流（操作1010）。

获取虚拟空间位置的操作（操作1002）以及空间渲染音频流的操作（操作1010）可以基于头部相关传递函数和/或耳间时间差和/或耳间强度差。也可以使用直达-混响能量比。

为了获得真实声源的真实空间位置，可以使用输入单元来获得用户的关于真实声源的特定位置的输入，或获得用户的关于哪个检测到的声源是要考虑的真实声源而不是音频渲染设备的近端说话人或扬声器的指示。

也可以基于由麦克风阵列捕获的声音，使用波达方向（DOA）算法来估计真实声源的真实空间位置。具体地，可以使用相位变换加权广义互相关（GCC-PHAT）算法、可控响应功率相位变换（SRP-PHAT）或多信号分类（MUSIC）。

分别如图4A和图4B所示，为了使真实声源不干扰渲染的远端声源，可以调整参数以使得至少一个虚拟空间位置围绕听众旋转远离该虚拟空间位置，和/或至少一个虚拟空间位置被移动到较靠近听众的位置。

可以在校准阶段执行或实时执行本实施例的方法。当实时执行时，应该注意，可以以逐步改变至少一个虚拟空间位置的方式调整参数，以便不引起畸变，或不产生太突然的变化。替代的方式是在没有远端声音时进行调整（图11中的操作1008），比如在音频会议系统中的远端话音暂停期间。即，当检测到远端声音（或远端话音）时（在操作1112中为“是”）可以禁用调整参数（操作1008）的操作（操作1114）。

为了使控制更精确，重要的是使真实声源的检测更可靠。因而，应当消除远端声音的被捕获的回声对真实声源的检测的影响。一种解决方案是检测音频流中的远端声音的开始和结束（图11中的操作1112），并且当没有远端声音时，执行获取真实声源的真实空间位置的操作。即，当检测到远端声音时（操作1112中为“是”），可以禁用获取真实空间位置（操作1004）的操作（操作1114）。

远端声音的检测可以使用任何现有技术来实施。当涉及音频会议系统时，VAD技术可以用于检测音频流中的远端话音的开始和结束，并且当没有远端话音时，执行获取真实声源的真实空间位置的操作。

另一对策是声学回声消除（AEC）。即，可以消除再现的远端声音的被捕获的回声（图12中的操作1216），并且获取真实空间位置的操作（操作1004）被配置成将经过消除被捕获的回声的操作之后的残留信号当作来自真实声源的信号。以这种方式，扬声器的空间位置不会与真实声源的空间位置混淆。

在一些场景下，应当从真实声源中排除近端说话人。可以考虑近端说话人的空间位置或能量。考虑到近端说话人可能邻近于麦克风阵列并且他/她的空间位置相对于麦克风阵列是已知的和稳定的，在预定空间范围内的真实声源可以被视为近端说话人，因此可以不触发渲染参数调整。因此，在如图13所示的实施例中，比较操作（操作1306）可以被配置成完成真实空间位置与虚拟空间位置之间的比较，以及真实空间位置和预定空间范围之间的比较两者。

为了进一步提高精确度，可以考虑由麦克风阵列捕获的信号的能量。如图14所示，该方法还可以包括估计真实声源的能量（图14中的操作1418），并且当所估计的能量高于预定阈值Th1（操作1420为“是”）时，不调整参数。如图14所示，为了使参数不被调整，可以禁用获取真实空间位置的操作（操作1004）、比较的操作（操作1006）和调整渲染参数的操作（操作1008）中的任意操作。这里请注意，“禁用”仅仅针对其能量高于预定阈值的真实声源。对于其它的真实声源，这些操作仍然正常工作。

为了容忍收听环境中偶尔的干扰，仅当真实声源的移动的持续时间大于预定时间长度时，才将真实声源视为移动的，并且仅当新的真实声源的持续时间大于预定时间长度时，才将该新的真实声源视为有效的。因此，如图15所示，音频空间渲染方法还可以包括用于确定真实声源的持续时间的长度的操作（操作1524），并且当持续时间长度小于预定阈值Th2时（操作1526中为“是”），将不调整参数。在这里，类似于图14，为了使参数不被调整，可以禁用获取真实空间位置的操作（操作1004）、比较的操作（操作1006）和调整渲染参数的操作（操作1008）中的任意操作。这里请注意，“禁用”仅仅针对其持续时间小于预定阈值Th2的真实声源。对于其它的真实声源，这些操作仍然正常工作。

与音频空间渲染设备的实施例相似，一方面，实施例及其变型的任何组合是可行的；另一方面，实施例及其变型的每个方面可以是单独的解决方案。

请注意，本文中所用的术语仅仅是为了描述具体实施例的目的，而非意图限定本发明。本文中所用的单数形式的“一”和“该”旨在也包括复数形式，除非上下文中明确地另行指出。还应理解，“包括”一词当在本说明书中使用时，说明存在所指出的特征、整体、操作、步骤、单元和/或部件，但是并不排除存在或增加一个或多个其它特征、整体、操作、步骤、单元和/或部件，以及/或者它们的组合。

以下权利要求中的对应结构、材料、动作以及所有功能性限定的装置或操作的等同替换，旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构、材料或动作。对本发明进行的描述只是出于图解和描述的目的，而非用来对具有所公开的形式的本发明进行详细定义和限制。对于所属技术领域的普通技术人员而言，在不偏离本发明范围和精神的情况下，显然可以做出许多修改和变型。对实施例的选择和说明，是为了最好地解释本发明的原理和真实应用，使所属技术领域的普通技术人员能够明了，本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。

根据上面的说明，可以看出描述了下面的示例性实施例（均用“EE”表示）。

EE1.一种音频空间渲染设备，包括：

渲染单元，用于对音频流进行空间渲染以使得再现的远端声音被听众感知为源自至少一个虚拟空间位置；

真实位置获取单元，用于获取真实声源的真实空间位置；

比较器，用于将所述真实空间位置与所述至少一个虚拟空间位置进行比较；以及

调整单元，用于当所述真实空间位置在所述至少一个虚拟空间位置周围的预定范围内或所述至少一个虚拟空间位置在所述真实空间位置周围的预定范围内时，调整所述渲染单元的参数以使得改变所述至少一个虚拟空间位置。

EE2.根据EE1所述的音频空间渲染设备，其中，所述调整单元被配置成调整所述渲染单元的参数，以使得所述至少一个虚拟空间位置围绕所述听众旋转远离所述至少一个虚拟空间位置，和/或所述至少一个虚拟空间位置被移动到较靠近所述听众的位置。

EE3.根据EE1或EE2所述的音频空间渲染设备，其中，所述真实位置获取单元、所述比较器和所述调整单元被配置成在所述音频空间渲染设备的校准阶段工作或实时工作。

EE4.根据EE1或EE2所述的音频空间渲染设备，其中，所述调整单元被配置成逐步改变所述至少一个虚拟空间位置。

EE5.根据EE1或EE2所述的音频空间渲染设备，还包括用于检测所述音频流中的远端声音的开始和结束的声音活动检测器，其中，所述真实位置获取单元和/或所述调整单元被配置成在没有远端声音时工作。

EE6.根据EE5所述的音频空间渲染设备，其中，所述声音活动监测器包括语音活动检测器，并且所述真实位置获取单元和/或所述调整单元被配置成在没有远端话音时工作。

EE7.根据EE1或EE2所述的音频空间渲染设备，还包括用于消除所述再现的远端声音的被捕获的回声的声学回声消除装置，其中，所述真实位置获取单元被配置成将经过所述声学回声消除装置的处理之后的残留信号当作来自所述真实声源的信号。

EE8.根据EE1或EE2所述的音频空间渲染设备，其中，所述调整单元被配置成当所述真实空间位置在预定空间范围内时不调整所述渲染单元的参数。

EE9.根据EE1或EE2所述的音频空间渲染设备，还包括用于估计所述真实声源的能量的能量估计器，其中，所述调整单元被配置成当所估计的能量高于预定阈值时不调整所述渲染单元的参数。

EE10.根据EE1或EE2所述的音频空间渲染设备，还包括用于确定所述真实声源的持续时间的长度的计时器，其中，所述调整单元被配置成当所述持续时间的长度小于预定阈值时不调整所述渲染单元的参数。

EE11.根据EE1或EE2所述的音频空间渲染设备，其中，所述渲染单元被配置成基于头部相关传递函数和/或耳间时间差和/或耳间强度差来对所述音频流进行空间渲染。

EE12.根据EE11所述的音频空间渲染设备，所述渲染单元还被配置成基于直达-混响能量比来对所述音频流进行空间渲染。

EE13.根据EE1或EE2所述的音频空间渲染设备，其中，所述真实位置获取单元包括麦克风阵列，并且被配置成基于由所述麦克风阵列捕获的声音、使用波达方向算法来估计所述真实声源的所述真实空间位置。

EE14.根据EE13所述的音频空间渲染设备，其中，所述真实位置获取单元被配置成使用相位变换加权广义互相关（GCC-PHAT）算法来估计所述真实声源的所述真实空间位置。

EE15.根据EE1或EE2所述的音频空间渲染设备，其中，所述真实位置获取单元包括输入单元，通过所述输入单元输入所述真实声源的所述真实空间位置。

EE16.一种包括根据EE1至EE15中任一项所述的音频空间渲染设备的音频再现设备。

EE17.根据EE16所述的音频再现设备，其中，所述音频再现设备包括头戴式耳机、耳塞式耳机、扬声器和扬声器阵列中的任一种。

EE18.一种音频空间渲染方法，包括：

获取至少一个虚拟空间位置，要根据音频流被空间渲染的再现的远端声音被听众感知为源自所述至少一个虚拟空间位置；

获取真实声源的真实空间位置；

将所述真实空间位置与所述至少一个虚拟空间位置进行比较；

当所述真实空间位置在所述至少一个虚拟空间位置周围的预定范围内或所述至少一个虚拟空间位置在所述真实空间位置周围的预定范围内时，调整空间渲染的参数以使得改变所述至少一个虚拟空间位置；以及

基于调整后的参数对所述音频流进行空间渲染。

EE19.根据EE18所述的音频空间渲染方法，其中，调整所述参数以使得所述至少一个虚拟空间位置围绕所述听众旋转远离所述至少一个虚拟空间位置，和/或所述至少一个虚拟空间位置被移动到较靠近所述听众的位置。

EE20.根据EE18或EE19所述的音频空间渲染方法，其中，在校准阶段调整所述参数或实时调整所述参数。

EE21.根据EE18或EE19所述的音频空间渲染方法，其中，以逐步改变所述至少一个虚拟空间位置的方式来调整所述参数。

EE22.根据EE18或EE19所述的音频空间渲染方法，还包括检测所述音频流中的远端声音的开始和结束，其中，当没有远端声音时，执行获取所述真实声源的所述真实空间位置的操作和调整所述参数的操作中的至少一种操作。

EE23.根据EE18或EE19所述的音频空间渲染方法，还包括检测所述音频流中的远端话音的开始和结束，其中，当没有远端话音时，执行获取所述真实声源的所述真实空间位置的操作和调整所述参数的操作中的至少一种操作。

EE24.根据EE18或EE19所述的音频空间渲染方法，还包括消除所述再现的远端声音的被捕获的回声，其中，获取所述真实空间位置的操作被配置成将经过消除被捕获的回声的操作之后的残留信号当作来自所述真实声源的信号。

EE25.根据EE18或EE19所述的音频空间渲染方法，其中，当所述真实空间位置在预定空间范围内时，不调整所述参数。

EE26.根据EE18或EE19所述的音频空间渲染方法，还包括估计所述真实声源的能量，其中，当所估计的能量高于预定阈值时，不调整所述参数。

EE27.根据EE18或EE19所述的音频空间渲染方法，还包括确定所述真实声源的持续时间的长度，其中，当所述持续时间的长度小于预定阈值时，不调整所述参数。

EE28.根据EE18或EE19所述的音频空间渲染方法，其中，对所述音频流进行空间渲染的操作包括基于头部相关传递函数和/或耳间时间差和/或耳间强度差来对所述音频流进行空间渲染。

EE29.根据EE28所述的音频空间渲染方法，其中，对所述音频流进行空间渲染的操作包括基于直达-混响能量比来对所述音频流进行空间渲染。

EE30.根据EE18或EE19所述的音频空间渲染方法，其中，获取所述真实空间位置的操作包括基于由所述麦克风阵列捕获的声音、使用波达方向算法来估计所述真实声源的所述真实空间位置。

EE31.根据EE30所述的音频空间渲染方法，其中，获取所述真实空间位置的操作包括使用相位变换加权广义互相关（GCC-PHAT）算法来估计所述真实声源的所述真实空间位置。

EE32.根据EE18或EE19所述的音频空间渲染方法，其中，获取所述真实空间位置的操作包括通过输入单元获取所述真实声源的所述真实空间位置。

EE33.一种其上记录有计算机程序指令的计算机可读介质，当所述计算机程序指令由处理器执行时，所述指令使得所述处理器执行一种音频空间渲染方法，所述方法包括：

获取真实声源的真实空间位置；

基于调整后的参数对所述音频流进行空间渲染。

Claims

1.一种音频空间渲染设备，包括：

真实位置获取单元，用于获取真实声源的真实空间位置；

2.根据权利要求1所述的音频空间渲染设备，其中，所述调整单元被配置成调整所述渲染单元的参数，以使得所述至少一个虚拟空间位置围绕所述听众旋转远离所述至少一个虚拟空间位置，和/或所述至少一个虚拟空间位置被移动到较靠近所述听众的位置。

3.根据权利要求1或2所述的音频空间渲染设备，还包括用于检测所述音频流中的远端声音的开始和结束的声音活动检测器，其中，所述真实位置获取单元和/或所述调整单元被配置成在没有远端声音时工作。

4.根据权利要求1或2所述的音频空间渲染设备，还包括用于消除所述再现的远端声音的被捕获的回声的声学回声消除装置，其中，所述真实位置获取单元被配置成将经过所述声学回声消除装置的处理之后的残留信号当作来自所述真实声源的信号。

5.根据权利要求1或2所述的音频空间渲染设备，其中，所述调整单元被配置成当所述真实空间位置在预定空间范围内时不调整所述渲染单元的参数。

6.根据权利要求1或2所述的音频空间渲染设备，还包括用于估计所述真实声源的能量的能量估计器，其中，所述调整单元被配置成当所估计的能量高于预定阈值时不调整所述渲染单元的参数。

7.根据权利要求1或2所述的音频空间渲染设备，还包括用于确定所述真实声源的持续时间的长度的计时器，其中，所述调整单元被配置成当所述持续时间的长度小于预定阈值时不调整所述渲染单元的参数。

8.一种包括根据权利要求1至7中任一项所述的音频空间渲染设备的音频再现设备。

9.根据权利要求8所述的音频再现设备，其中，所述音频再现设备包括头戴式耳机、耳塞式耳机、扬声器和扬声器阵列中的任一种。

10.一种音频空间渲染方法，包括：

获取至少一个虚拟空间位置，要根据音频流被空间渲染的再现的远端声音被听众感知为源自所述至少一个虚拟空间；

获取真实声源的真实空间位置；

基于调整后的参数对所述音频流进行空间渲染。

11.根据权利要求10所述的音频空间渲染方法，其中，调整所述参数以使得所述至少一个虚拟空间位置围绕所述听众旋转远离所述至少一个虚拟空间位置，和/或所述至少一个虚拟空间位置被移动到较靠近所述听众的位置。

12.根据权利要求10或11所述的音频空间渲染方法，还包括检测所述音频流中的远端声音的开始和结束，其中，当没有远端声音时，执行获取所述真实声源的所述真实空间位置的操作和调整所述参数的操作中的至少一种操作。

13.根据权利要求10或11所述的音频空间渲染方法，还包括消除所述再现的远端声音的被捕获的回声，其中，获取所述真实空间位置的操作被配置成将经过消除被捕获的回声的操作之后的残留信号当作来自所述真实声源的信号。

14.根据权利要求10或11所述的音频空间渲染方法，其中，当所述真实空间位置在预定空间范围内时，不调整所述参数。

15.根据权利要求10或11所述的音频空间渲染方法，还包括估计所述真实声源的能量，其中，当所估计的能量高于预定阈值时，不调整所述参数。

16.根据权利要求10或11所述的音频空间渲染方法，还包括确定所述真实声源的持续时间的长度，其中，当所述持续时间的长度小于预定阈值时，不调整所述参数。