CN101263740A

CN101263740A - 生成3d声音的方法和设备

Info

Publication number: CN101263740A
Application number: CNA2006800337095A
Authority: CN
Inventors: J·布里巴尔特
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2005-09-13
Filing date: 2006-09-06
Publication date: 2008-09-10
Also published as: KR20130045414A; WO2007031906A2; KR101315070B1; US8515082B2; US20080304670A1; JP4938015B2; KR20080046712A; CN102395098B; KR101370365B1; WO2007031906A3; EP1927265A2; CN102395098A; JP2009508385A

Abstract

一种处理音频数据(101)的设备(100)，其中该设备(100)包括适用于接收多个音频输入信号以用于生成总和信号的求和单元(102)，适用于根据滤波器系数(SF1，SF2)对所述总和求和信号进行滤波以作为结果产生至少两个音频输出信号(OS1，OS2)的滤波单元(103)，和参数变换单元(104)，其适用于接收一方面表示所述音频输入信号声源空间位置的位置信息，和另一方面表示所述音频输入信号谱功率的谱功率信息，其中该参数变换单元适用于基于该位置信息和该谱功率信息生成所述滤波器系数(SF1，SF2)，并且其中该参数变换单元(104)另外还适用于接收转移函数参数并根据所述转移函数参数生成所述滤波器系数。

Description

生成3D声音的方法和设备

技术领域

本发明涉及处理音频数据的设备。

本发明还涉及处理音频数据的方法。

本发明进一步涉及程序单元。

并且，本发明涉及计算机可读介质。

背景技术

随着虚拟空间中的声音处理开始吸引人们的注意，音频声音，特别是3D音频声音在提供人造的真实感方面变得越来越重要，例如在各种游戏软件和与图像结合的多媒体应用中。在音乐中频繁使用的很多效果之中，声场效果被认为是重新产生在特殊空间中听到的声音的一种尝试。

在本上下文中，经常被称作空间声音的3D声音是这样的声音，其被处理以便给听众提供(虚拟)声音源在三维环境中的特定位置上的印象。

在从特定方向到达听众的声学信号到达听众两个耳朵中的鼓膜之前，该信号与听众身体部分进行交互。这种交互的结果是，到达鼓膜的声音被从听众肩膀的反射、与头的交互、耳廓响应和耳道中的共振所修改。可以说身体对到来的声音有滤波效果。具体滤波特性取决于声源位置(相对于头)。并且，由于声音在空气中的速度有限，根据声源位置能够注意到显著的耳间(inter-aural)时延。最近更多地被称为解剖学转移函数(ATF)的头部相关转移函数(Head-RelatedTransfer Functions，HRTF)是声源位置处方位角和仰角(elevation)的函数，其描述了从特定声源方向到听众鼓膜的滤波效果。

HRTF数据库是通过关于声源测量从大的位置集合(通常在1到3米的固定距离上，在水平和垂直方向上分隔开大约5到10度)到两耳的转移函数来构建的。这种数据库可以针对各种声学条件而获得。例如，在消声环境中，由于不存在反射，HRTF只捕捉从位置到鼓膜的直接转移。HRTF还可以在回声条件下测量。如果还捕捉到反射，这种HRTF数据库则是房间特定的。

HRTF数据库经常用于定位“虚拟”声源。通过用一对HRTF卷积声音信号，并将作为结果得到的声音通过耳机呈现出来，则听众能够感知到该声音是从对应于HRTF对的方向过来的，这与感知到声源“在头中”相反，其中后者发生在当未处理的声音通过耳机呈现出来的时候。在这个方面，HRTF数据库是定位虚拟声源的受欢迎的手段。其中使用HRTF数据库的应用包括游戏、电话会议设备和虚拟现实系统。

本发明的目标和内容

本发明的目标是改善用于产生空间化声音的音频数据处理，允许以高效的方式对多个声源进行虚拟化。

为了达到上述目标，提供了定义在独立权利要求中的处理音频数据的设备、处理音频数据的方法、程序单元和计算机可读介质。

根据本发明的实施例，提供了一种处理音频数据的设备，其中该设备包括适用于接收多个音频输入信号以用于生成总和信号的求和单元、适用于根据滤波器系数对所述总和信号进行滤波以得到至少两个音频输出信号的滤波单元，以及适用于一方面接收表示所述音频输入信号声源空间位置的位置信息和另一方面表示所述音频输入信号谱功率的谱功率信息的参数变换单元，其中该参数变换单元适用于基于该位置信息和该谱功率信息生成所述滤波器系数，并且其中该参数变换单元另外还适用于接收转移函数参数并根据所述转移函数参数生成所述滤波器系数。

并且，根据本发明另一个实施例，提供一种处理音频数据的方法，该方法包括如下步骤：接收多个音频输入信号以生成总和信号，根据滤波器系数对所述总和信号进行滤波，得到至少两个音频输出信号，接收一方面表示所述音频输入信号声源空间位置的位置信息和另一方面表示所述音频输入信号谱功率的谱功率信息，基于该位置信息和该谱功率信息生成所述滤波器系数，接收转移函数参数并根据所述转移函数参数生成所述滤波器系数。

根据本发明另一个实施例，提供一种计算机可读介质，其中存储用于处理音频数据的计算机程序，当该计算机程序由处理器运行时，其适用于控制或执行上面提到的方法步骤。

并且，根据本发明的又一个实施例提供处理音频数据的程序单元，当该程序单元由处理器运行时，其适用于控制或执行上面提到的方法步骤。

根据本发明处理音频数据可由计算机程序、即由软件来实现，也可利用一个和更多专用电子最优化电路、即硬件来实现，还可以混合的形式、即借助软件组件和硬件组件来实现。

常规的HRTF数据库就信息量来说通常非常大。每个时域冲激响应可以包括约64个采样(对低复杂度，消声条件)大到几千个采样长(在混响房间内)。如果HRTF对是以在垂直和水平方向上的10度的分辨率来测量，则要被存储的系数量达到至少360/10*180/10*64＝41472个系数(假设64采样冲激响应)，但是能够容易地达到更高的数量级。对称的头将会需要(180/10)*(180/10)*64个系数(是41472个系数的一半)。

根据本发明的特征性特征尤其具有如下优点，对多个虚拟声源的虚拟化可以以几乎独立于虚拟声源数目的计算复杂度得以实现。

换句话说，可以有益地对多个同时的声源以粗略地等于单个声源的处理复杂度来进行合成。通过降低的处理复杂度，可以有益地实现实时处理，即使是对大量声源也可以实现。

本发明实施例预期的另一个目标是在听众鼓膜处再现这样的声压级，即该声压级等于如果将实际声源放置在虚拟声源的位置(3D位置)中将会出现的声压。

在进一步的方面，目的在于产生丰富的听觉环境，其可对视觉减弱的人和有视力的人用作用户接口。根据本发明的应用能够呈现(rendering)虚拟声学声源，所述虚拟声学声源给听众以该源处于它们的正确空间位置的印象。

本发明的进一步实施例将在后面结合从属权利要求来进行描述。

现在将描述处理音频数据的设备实施例。这些实施例还可应用于处理音频数据的方法、计算机可读介质和程序单元。

在本发明的一个方面中，如果音频输入信号已经被混合，则每个个别音频输入信号的相对等级可以基于谱功率信息而在一定程度上得到调整。这种调整只能在一定限度内(例如，最大变化6和10dB)进行。通常，由于信号等级尺度与声源距离的倒数成近似线性关系的事实，距离效果比10dB大得多。

有益地，该设备可以另外还包括缩放单元，其适用于基于增益因子对音频输入信号进行缩放。在本上下文中，参数变换单元可以另外还适用于有益地接收表示音频输入信号声源距离的距离信息，并基于所述距离信息生成增益因子。由此，可以以简单且令人满意的方式获得距离效果。通过该距离增益因子可以减1。声源功率可以因此根据声学原理建模或改变。

可选地，由于可以适用于远距离声源的情况，增益因子将会反映空气吸收效应。因此，可获得更现实的声音感受。

根据实施例，滤波单元基于快速傅立叶变换(FFT)。这样可实现高效和快速处理。

HRTF数据库可包括虚拟声源位置的有限集合(通常在固定距离和5到10度的空间分辨率)。在很多情况下，不得不为测量位置之间的位置生成声源(特别是如果虚拟声源正随时间移动)。这种生成需要对可获得的冲激响应进行内插。如果HRTF数据库包括针对垂直和水平方向的响应，则必须对每个输出信号实施内插。因此，对每个声源来说，需要对每个耳机输出信号进行4个冲激响应的组合。如果有更多声源必须同时被“虚拟化”，则所需冲激响应的数目变得更加重要。

在本发明的有益方面，HRTF模型参数和代表HRTF的参数可以在被存储的空间分辨率之间被内插。通过根据本发明在常规HRTF表上提供HRTF模型参数，可以实现有益的更快处理。

根据本发明的系统的主要应用领域是处理音频数据。然而，本系统可以嵌入在除了音频数据之外还处理附加数据，例如与视觉内容相关的数据的情形中。因此，本发明可以在视频数据处理系统框架内实现。

根据本发明的设备可被实现为下述一组设备中的其中一种，该组设备包括车辆音频系统、便携式音频播放器、便携式视频播放器、头盔显示器(head-mounted display)、移动电话、DVD播放器、CD播放器、基于硬盘的媒体播放器、互联网无线电设备、公共娱乐设备和MP 3播放器。尽管提到的这些设备与本发明主要应用领域有关，但是任意其它的应用也是可以的，例如在电话会议或远程出席(telepresence)；为视觉减弱的人提供的音频显示器；远程学习系统和用于电视电影的专业声音和图片编辑，以及喷气式战斗机(3D音频可以帮助飞行员)和基于PC的音频播放器。

根据将在下面描述的实施例，本发明上面定义的方面和进一步的方面是明显的，并将结合这些实施例进行解释。

附图的简要说明

本发明将在下面结合实施例的例子对本发明进行更加详细的描述，本发明不限于这些例子。

图1示出了根据本发明优选实施例处理音频数据的设备。

图2示出了根据本发明进一步实施例处理音频数据的设备。

图3示出了根据本发明实施例，包括存储单元的处理音频数据的设备。

图4详细示出了在图1或图2所示处理音频数据的设备中实现的滤波单元。

图5示出了根据本发明实施例的又一个滤波单元。

实施例的说明

附图中的图解是示意性的。在不同附图中，同样的附图标记表示相似的或同一个元素。

现在将参照图1，对根据本发明实施例的处理输入音频数据X_i的设备100进行描述。

设备100包括求和单元102，该求和单元102适用于接收多个音频输入信号X_i，以便从该音频输入信号X_i生成总和信号SUM。总和信号SUM被提供给滤波单元103，该滤波单元103适用于基于滤波器系数，即在当前例子中的第一滤波器系数SF1和第二滤波器系数SF2，对所述总和信号SUM进行滤波，得到第一音频输出信号OS1和第二音频输出信号OS2。下面给出对滤波单元103的详细描述。

并且，如图1所示，设备100包括参数变换单元104，该参数变换单元104适用于接收一方面表示所述音频输入信号X_i声源空间位置的位置信息V_i和另一方面表示所述音频输入信号X_i谱功率的谱功率信息S_i，其中该参数变换单元104适用于基于对应于输入信号的位置信息V_i和谱功率信息S_i生成所述滤波器系数SF1、SF2，并且其中该参数变换单元104另外还适用于接收转移函数参数以及另外根据所述转移函数参数生成所述滤波器系数。

图2示出了在本发明进一步实施例中的配置200。配置200包括根据图1所示实施例的设备100并且另外还包括缩放单元201，该缩放单元201适用于基于增益因子g_i对音频输入信号X_i进行缩放。在本实施例中，参数变换单元104另外还适用于接收表示音频输入信号声源距离的距离信息，并基于所述距离信息生成增益因子g_i，再将这些增益因子g_i提供给缩放单元201。因此，通过简单的措施可靠地获得距离效果。

现在将结合图3，对根据本发明的系统或设备实施例进行更详细描述。

在图3的实施例中，所示的系统300包括根据图2所示实施例的配置200，并且另外还包括存储单元301、音频数据接口302、位置数据接口303、谱功率数据接口304和HRTF参数接口305。

存储单元301适用于存储音频波形数据，音频数据接口302适用于基于所存储的音频波形数据提供多个音频输入信号X_i。

在本例子中，音频波形数据对每个声源以脉冲编码调制(PCM)波表格的形式存储。然而，波形数据可被另外还或单独地存储为其它形式，例如根据标准MPEG-1层3(MP3)、高级音频编码(AAC)、AAC-plus等的压缩格式。

在存储单元301中，还为每个声源存储位置信息V_i，且位置数据接口303适用于提供所存储的位置信息V_i。

在本例子中，优选实施例直接指向计算机游戏应用。在这种计算机游戏应用中，位置信息V_i随着时间变化并取决于空间中编程的绝对位置(即在计算机游戏场景中的虚拟空间位置)，但是还取决于用户动作，例如当游戏场景中的虚拟人或用户旋转或改变他/她的虚拟位置时，相对于用户的声源位置变化或者也应该变化。

在这种计算机游戏中，通过在计算机游戏场景中不同空间位置的每个乐器，从单个声源(例如从后面的射击)到复调音乐的任何情况都是可能的。同时的声源数可以例如达到64这么高，因此，音频输入信号X_i范围为从X₁到X₆₄。

接口单元302基于所存储的大小为n的帧的音频波形数据提供多个音频输入信号X_i。本例子中，向每个音频输入信号X_i都提供11kHz的采样率。其它的采样率也可以，例如对每个音频输入信号X_i的采样率是44kHz。

在缩放单元201中，根据方程(1)，利用每个声道的增益因子或加权g_i，大小为n的输入信号X_i即X_i[n]被组合为总和信号SUM，即单音信号m[n]。

m [n] = \underset{i}{Σ} g_{i} [n] x_{i} [n] - - - (1)

增益因子g_i由参数变换单元104基于如上所述的存储的伴随有位置信息V_i的距离信息来提供。位置信息V_i和谱功率信息S_i参数通常具有低得多的更新率，例如，每第11毫秒进行更新。本例子中，每个声源的位置信息V_i由方位角、仰角和距离信息的三元组构成。可替换地，可使用笛卡儿坐标(x，y，z)或可替换的坐标。可选地，位置信息可包括组合或子集中的信息，即仰角信息和/或方位角信息和/或距离信息方面的信息。

在原理上，增益因子g_i[n]是依赖于时间的。然而，由于所需的这些增益因子的更新率大大低于输入音频信号X_i的音频采样率这一事实，假设增益因子g_i[n]对于短的时间段(如上所述，大约为11毫秒到23毫秒)是恒定的。该特性允许进行基于帧的处理，其中增益因子g_i是恒定的，总和信号m[n]由方程(2)来表示：

m [n] = \underset{i}{Σ} g_{i} x_{i} [n] - - - (2)

现在将结合图4和5对滤波单元103进行解释。

图4所示的滤波单元103包括分段单元401、快速傅立叶变换(FFT)单元402、第一子带分组单元403、第一混合器404、第一组合单元405、第一逆FFT单元406、第一重叠相加单元407、第二子带分组单元408、第二混合器409、第二组合单元410、第二逆FFT单元411和第二重叠相加单元412。第一子带分组单元403、第一混合器404和第一组合单元405构成第一混合单元413。同样地，第二子带分组单元408、第二混合器409和第二组合单元410构成第二混合单元414。

在本例子中，分段单元401适用于将进来的信号，即总和信号SUM和信号m[n]分别分段为重叠的帧，并为每个帧加窗。在本例子中，用汉明窗来加窗。还可使用其它方法，例如韦尔奇(Welch)或三角形窗。

接下来，FFT单元402适用于利用FFT将每个加窗信号变换到频域。

在给出的例子中，利用FFT将每个长度为N(N＝0..N-1)的帧m[n]变换到频域：

M [k] = \underset{i}{Σ} m [n] \exp (- 2 πjkn / N) - - - (3)

这种频域表达M[k]被复制到第一声道(也被进一步称作左声道L)和第二声道(也被进一步称作右声道R)。接下来，频域信号M[k]通过为每个声道对FFT处理箱(bins)进行分组而被分割为子带b(b＝0..B-1)，即通过用于左声道L的第一子带分组单元403并通过用于右声道R的第二子带分组单元408来实施分组。然后一个带接一个带地生成左输出帧L[k]和右输出帧R[k](在FFT域中)。

实际的处理包括根据相应的缩放因子修改(缩放)每个FFT处理箱(其中对当前FFT处理箱对应的频率范围的缩放因子被存储)，以及根据存储的时间或相位差来修改相位。关于相位差，该差可以以任意的方式(例如对全部两个声道(分成两个)或者只对一个声道)应用。通过滤波器系数向量提供每个FFT处理箱的相应缩放因子，即在本例子中，第一滤波器系数SF1向第一混合器404提供，第二滤波器系数SF2向第二混合器409提供。

在本例子中，滤波器系数向量为每个输出信号提供用于频率子带的复数值的缩放因子。

然后，在缩放之后，修改的左输出帧L[k]通过逆FFT单元406变换到时域，获得左时域信号，而右输出帧R[k]由逆FFT单元411进行变换，获得右时域信号。最后，对获得的时域信号进行重叠相加操作得到对每个输出声道的最后时域，即通过第一重叠相加单元407获得第一输出声道信号OS1，并通过第二重叠相加单元412获得第二输出声道信号OS2。

图5所示的滤波单元103’与图4所示的滤波单元103的差别在于提供去相关单元501，其适用于将去相关信号提供给每个输出声道，该去相关信号从由FFT单元402获得的频域信号导出。在图5所示的滤波单元103’中，提供与图4所示的第一混合单元413相似的第一混合单元413’，但是其另外还适用于处理去相关信号。同样地，提供与图4所示的第二混合单元414相似的第二混合单元414’，图5所示的第二混合单元414’另外还适用于处理去相关信号。

在本例子中，然后按照下面的方法一个带接一个带地生成两个输出信号L[k]和R[k](在FFT域中)。

\{\begin{matrix} L_{b} [k] = h_{11, b} M_{b} [k] + h_{12, b} D_{b} [k] \\ R_{b} [k] = h_{21, b} M_{b} [k] + h_{22, b} D_{b} [k] \end{matrix} - - - (4)

这里，D[k]表示根据如下特性，从频域表达M[k]获得的去相关信号：

&ForAll; (b) \{\begin{matrix} &lang; D_{b}, {M_{b}}^{*} &rang; = 0 \\ &lang; D_{b}, {D_{b}}^{*} &rang; = &lang; M_{b}, {M_{b}}^{*} &rang; \end{matrix} - - - (5)

其中<..>代表期望值运算符。

&lang; X_{b}, Y_{b}^{*} &rang; = Σ_{k = k_{b}}^{k = k_{b + 1} - 1} X [k] Y^{*} [k] - - - (6)

这里，(^*)代表复共轭。

去相关单元501由具有利用FIFO缓冲器所获得的10到20ms(通常为1帧)数量级延时的简单延迟构成。在进一步的实施例中，去相关单元可以基于随机化的量级或相位响应，或者可以由IIR或者FFT、子带或时域中的全通类结构组成。这种去相关方法的例子在如下文献中给出：

Heiko Purnhagen，Jonas

Lars Liljeryd(2004)：”Synthetic ambiance in parametric stereo coding”，proc.116th AES convention，Berlin，其公开在这里引入作为参考。

去相关滤波器旨在产生特定频带上的“扩散(diffuse)”感受。如果到达听众两耳的输出信号除了时间或等级有差别之外是相同的，则听众将会感觉声音象从特定方向到来的(这取决于时间和等级差别)。在这个例子中，方向是很清楚的，即信号在空间上是“紧凑”的。

然而，如果多个声源同时从不同方向到达，每个耳朵将会接收到声源的不同混合物。因此，两耳之间的差别不能建模为简单的(依赖于频率的)时间和/或等级差。在本例子中，由于不同声源已经混合为单一的声源，因此重新生成不同的混合是不可能的。然而，这种重新生成基本上不需要，因为知道人类听觉系统在基于空间特性来分离个别的声源方面有困难。本例子中，如果补偿了对于时间和等级差的波形，最显著的感知方面是两耳处的波形会多么地不同。已经示出，声道间相干性(或归一化互相关函数的最大值)的数学概念是与空间“紧凑性”感紧密匹配的测度。

主要方面是，为了引起对虚拟声源的相似感觉，即使两耳处的混合物是错的，也必须重新生成正确的声道间相干性。这种感觉可被描述为“空间扩散”，或者缺乏“紧凑性”。这就是去相关滤波器与混合单元相结合所重新生成的。

参数变换单元104确定在常规HRTF系统的情况下，如果这些波形已经基于单一声源处理，则波形将会怎么不同。然后，通过将直接的和去相关信号在两个输出信号中不同地混合，可以在信号中重新生成这种不能归因于简单缩放和时延的差别。有益地，通过重新生成这种扩散参数获得现实的声音阶段。

正如已经提到的，参数变换单元104适用于从位置向量V_i和谱功率信息S_i而为每个音频输入信号X_i生成滤波器系数SF1、SF2。在本例子中，滤波器系数由复数值的混合因子h_xx，b表示。该复数值的混合因子是有益的，特别是在低频范围内。应该提到，也可以使用实数值的混合因子，特别是当处理高频的时候。

复数值的混合因子h_xx，b的值在本例子中特别取决于表示头部相关转移函数(HRTF)模型参数P_l，b(α，ε)、P_r，b(α，ε)和φ_b(α，ε)的转移函数参数：这里，HRTF模型参数P_l，b(α，ε)表示对左耳的每个子带b中的均方根(rms)功率，HRTF模型参数P_r，b(α，ε)表示对右耳的每个子带b中的rms功率，HRTF模型参数φ_b(α，ε)表示左耳和右耳HRTF之间平均复数值的相位角。所有HRTF模型参数被提供作为方位角(α)和仰角(ε)的函数。因此，在这个应用中只需要HRTF参数P_l，b(α，ε)、P_r，b(α，ε)和φ_b(α，ε)，而不需要真实的HRTF(其被存储为有限冲激响应表格，由很多不同的方位角和仰角值来索引)。

HRTF模型参数为虚拟声源位置的有限集合存储，在本例子中，为在水平和垂直方向上20度的空间分辨率而存储。其它分辨率，例如10或30度的空间分辨率也是可以或适合的。

在实施例中，可以提供内插单元，其适用于在存储的空间分辨率之间内插HRTF模型参数。优选地应用双线性内插，但是其它(非线性)内插方案也是适合的。

通过根据本发明在常规HRTF表格上提供HRTF模型参数，可以实现有益的更快处理。特别是在计算机游戏应用中，如果考虑头的运动，则音频声源的回放需要在存储的HRTF数据之间进行快速的内插。

在进一步的实施例中，提供给参数变换单元的转移函数参数可以基于并表示球形的头部模型。

在本例子中，谱功率信息S_i表示在对应于输入信号X_i当前帧的每个频率子带线性域中的功率值。因此可以将S_i解释为具有每个子带的功率或能量值σ²的向量：

S_i＝[σ² _0，i，σ² _l，i，...，σ² _bi]

在本例子中，频率子带(b)的数目是十(10)。这里应当提到，谱功率信息S_i可以用功率或对数域中的功率值表示，并且频率子带的数目可以达到三十(30)或四十(40)个频率子带的值。

功率信息S_i基本上描述了特定声源在特定频带和频率子带中分别具有多少能量。如果特定声源在特定频带中与所有其它声源相比占绝对优势(在能量方面)，则该占绝对优势的声源的空间参数在由滤波操作应用的“合成的”空间参数上得到更多加权。换句话说，每个声源的空间参数都通过使用频带中的每个声源的能量来加权，以便计算平均的空间参数集。对这些参数的重要扩展是，不仅生成每个声道的相位差和等级，还生成相干值。该值描述了由两个滤波操作生成的波形应该多么地相似。

为了解释用于滤波器因子或复数值混合因子h_xx，b的标准，引入可替换的输出信号对L’和R’，该输出信号L’、R’是由根据HRTF参数P_l，b(α，ε)、P_r，b(α，ε)和φ_b(α，ε)，对每个输入信号X_i进行独立修改得到的，接下来是输出的总和：

\{\begin{matrix} L^{'} [k] = \underset{i}{Σ} X_{i} [k] p_{l, b, i} (α_{i}, ϵ_{i}) \frac{\exp (+ j φ_{b, i} (α_{i}, ϵ_{i}) / 2)}{δ_{i}} \\ R^{'} [k] = \underset{i}{Σ} X_{i} [k] p_{r, b, i} (α_{i}, ϵ_{i}) \frac{\exp (- j φ_{b, i} (α_{i}, ϵ_{i}) / 2)}{δ_{i}} \end{matrix} - - - (7)

然后根据下面的标准获得混合因子h_xx，b：

1.假定输入信号X_i在每个频带b中是相互独立的：

&ForAll; (b) \{\begin{matrix} &lang; X_{b, i}, {X_{b, j}}^{*} &rang; = 0 for i &NotEqual; j \\ &lang; X_{b, i}, {X_{b, i}}^{*} &rang; = σ_{b, i}^{2} \end{matrix} - - - (8)

2.输出信号L[k]在每个子带b中的功率应当等于信号L’[k]在同一子带中的功率：

&ForAll; (b) (&lang; L_{b}, {L_{b}}^{*} &rang; = &lang; {L_{b}}^{'}, {L_{b}}^{' *} &rang;) - - - (9)

3.输出信号R[k]在每个子带b中的功率应当等于信号R’[k]在同一子带中的功率：

&ForAll; (b) (&lang; R_{b}, {R_{b}}^{*} &rang; = &lang; {R_{b}}^{'}, {R_{b}}^{' *} &rang;) - - - (10)

4.对于每个频带b，信号L[k]和M[k]之间的平均复数角应当等于信号L’[k]和M[k]之间的平均复数相位角：

&ForAll; (b) (&angle; &lang; L_{b}, {M_{b}}^{*} &rang; = &angle; &lang; {L_{b}}^{'}, {M_{b}}^{*} &rang;) - - - (11)

5.对于每个频带b，信号R[k]和M[k]之间的平均复数角应当等于信号R’[k]和M[k]之间的平均复数相位角：

&ForAll; (b) (&angle; &lang; R_{b}, {M_{b}}^{*} &rang; = &angle; &lang; {R_{b}}^{'}, {M_{b}}^{*} &rang;) - - - (12)

6.对于每个频带b，信号L[k]与R[k]之间的相关度应当等于信号L’[k]与R’[k]之间的相关度：

&ForAll; (b) (| &lang; L_{b}, {R_{b}}^{*} &rang; | = | &lang; {L_{b}}^{'}, {R_{b}}^{' *} &rang; |) - - - (13)

可以示出，下面(不唯一)的求解满足上面的标准：

\{\begin{matrix} h_{11, b} = H_{1, b} \cos (+ β_{b} + γ_{b}) \\ h_{11, b} = H_{1, b} \sin (+ β_{b} + γ_{b}) \\ h_{11, b} = H_{2, b} \cos (- β_{b} + γ_{b}) \\ h_{11, b} = H_{2, b} \cos (- β_{b} + γ_{b}) \end{matrix} - - - (14)

其中

β_{b} = \frac{1}{2} \arccos (\frac{| &lang; {L_{b}}^{'}, {R^{' *}}_{b} &rang; |}{\sqrt{&lang; {L_{b}}^{'}, {L^{'}}_{b}^{*} &rang; &lang; {R_{b}}^{'}, {R^{'}}_{b}^{*} &rang;}}) = \frac{1}{2} \arccos (\frac{\underset{i}{Σ} p_{l, b, i} (α_{i}, ϵ_{i}) p_{r, b, i} (α_{i}, ϵ_{i}) σ_{b, i}^{2} / δ_{i}^{2}}{\sqrt{\underset{i}{Σ} p_{l, b, i}^{2} (α_{i}, ϵ_{i}) σ_{b, i}^{2} / δ_{i}^{2} \underset{i}{Σ} p_{r, b, i}^{2} (α_{i}, ϵ_{i}) σ_{b, i}^{2} / δ_{i}^{2}}}) - - - (15)

γ_{b} = \arctan (\tan (β_{b}) \frac{| H_{2, b} | - | H_{1, b} |}{| H_{2, b} | + | H_{1, b} |}) - - - (16)

这里，σ_bi表示信号X_i在子带b中的能量或功率，且δ_i表示声源i的距离。

在本发明进一步的实施例中，滤波单元103可替换地基于实数值或复数值的滤波器组，即模拟h_xx，b的频率依赖性的IIR滤波器或FIR滤波器，使得不再需要FFT方法。

在听觉显示中，音频输出通过扬声器或者通过听众佩戴的耳机而被传送到听众。耳机和扬声器都有它们的优点和缺点，并且一个或另一个可以根据应用产生更满意的结果。关于进一步的实施例，可以提供更多输出声道，例如对于耳机每个耳朵使用一个以上的扬声器，或者扬声器回放配置。

应当注意到，动词“包括”的使用及其变形不排除其它元件或步骤，且冠词“一个”或“一”的使用不排除多个元件或步骤。与不同实施例相关联进行描述的元素也可以结合起来。

应当注意到，权利要求中的附图标记不应解释为对权利要求范围的限制。

Claims

1.一种处理音频数据(X_i)的设备(100)，

其中该设备(100)包括：

求和单元(102)，适用于接收多个音频输入信号以用于生成总和信号，

滤波单元(103)，适用于根据滤波器系数(SF1，SF2)对所述总和信号进行滤波，结果产生至少两个音频输出信号(OS1，OS2)，和

参数变换单元(104)，适用于接收一方面表示所述音频输入信号声源空间位置的位置信息，和另一方面表示所述音频输入信号谱功率的谱功率信息，其中该参数变换单元适用于基于该位置信息和该谱功率信息生成所述滤波器系数(SF1，SF2)，并且

其中该参数变换单元(104)另外还适用于接收转移函数参数并根据所述转移函数参数生成所述滤波器系数。

2.根据权利要求1所述的设备(100)，

其中转移函数参数是表示对于每个音频输出信号的头部相关转移函数(HRTF)的参数，所述转移函数参数将频率子带中的功率和每个输出声道的头部相关转移函数之间每个频率子带的实数值相位角或复数值相位角表示为方位角和仰角的函数。

3.根据权利要求2所述的设备(100)，

其中每个频率子带的复数值相位角表示每个输出声道的头部相关转移函数之间的平均相位角。

4.根据权利要求1或2所述的设备(100)，

另外还包括缩放单元(201)，适用于基于增益因子对音频输入信号进行缩放。

5.根据权利要求4所述的设备(100)，

其中参数变换单元(104)另外还适用于接收表示音频输入信号声源距离的距离信息，并基于所述距离信息生成增益因子。

6.根据权利要求1或2所述的设备(100)，

其中滤波单元(103)基于快速傅立叶变换(FFT)或者实数值或复数值的滤波器组。

7.根据权利要求6所述的设备(100)，

其中滤波单元(103)另外还包括去相关单元，适用于向至少两个音频输出信号的每一个施加去相关信号。

8.根据权利要求6所述的设备(100)，

其中滤波单元(103)适用于处理滤波器系数，其中所述滤波器系数对于每个输出信号以用于频率子带的复数值缩放因子的形式提供。

9.根据权利要求1至8中任意一项所述的设备(300)，

另外还包括存储音频波形数据的存储装置(301)，和基于所存储的音频波形数据提供多个音频输入信号的接口单元(302)。

10.根据权利要求9所述的设备(300)，

其中存储装置(301)适用于将音频波形数据存储为脉冲编码调制(PCM)格式和/或压缩格式。

11.根据权利要求9或10的设备(300)，

其中存储装置(301)适用于存储每个时间和/或频率子带的谱功率信息。

12.根据权利要求1所述的设备(100)，

其中位置信息包括仰角信息和/或方位角信息和/或距离信息方面的信息。

13.根据权利要求9所述的设备(100)，

实现为下述一组设备中的其中一种，该组设备包括便携式音频播放器、便携式视频播放器、头盔显示器(head-mounted display)、移动电话、DVD播放器、CD播放器、基于硬盘的媒体播放器、互联网无线电设备、公共娱乐设备、MP3播放器、基于PC的媒体播放器、电话会议设备和喷气式战斗机。

14.一种处理音频数据(101)的方法，

其中该方法包括如下步骤：

接收多个音频输入信号以生成总和信号，

根据滤波器系数对所述总和信号进行滤波，结果产生至少两个音频输出信号，

接收一方面表示所述音频输入信号声源空间位置的位置信息，和另一方面表示所述音频输入信号谱功率的谱功率信息，

基于该位置信息和该谱功率信息生成所述滤波器系数，以及

接收转移函数参数并根据所述转移函数参数生成所述滤波器系数。

15.一种计算机可读介质，其中存储有用于处理音频数据的计算机程序，当该计算机程序由处理器运行时，其适用于控制或执行如下方法步骤：

接收多个音频输入信号以生成总和信号，

基于该位置信息和该谱功率信息生成所述滤波器系数，以及

16.一种用于处理音频数据的程序单元，当该程序单元由处理器运行时，其适用于控制或执行如下方法步骤：

接收多个音频输入信号以生成总和信号，

基于该位置信息和该谱功率信息生成所述滤波器系数，以及