CN105981404A

CN105981404A - 使用麦克风阵列的混响声的提取

Info

Publication number: CN105981404A
Application number: CN201480066907.6A
Authority: CN
Inventors: 奥利弗·蒂尔加特; 伊曼纽尔·哈毕兹
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2013-12-11
Filing date: 2014-12-02
Publication date: 2016-09-28
Anticipated expiration: 2034-12-02
Also published as: JP2017503388A; BR112016013366B1; EP3080806B1; US20160293179A1; EP3080806A1; WO2015086377A1; JP6389259B2; CN105981404B; EP2884491A1; BR112016013366A2; RU2640742C1; US9984702B2

Abstract

方法包括估计第一麦克风信号中的第一散射声部分和第二麦克风信号中的第二散射声部分之间的空间相干性。第一麦克风信号由第一麦克风捕捉，第二麦克风信号由与第一麦克风以已知的方式间隔开的第二麦克风捕捉。方法进一步包括定义散射声滤波器的滤波系数的线性约束，线性约束基于空间相干性。方法还包括计算第一麦克风信号和第二麦克风信号的信号统计和噪声统计中的至少一个。方法还包括通过在考虑滤波系数的线性约束的条件下对关于信号统计和噪声统计中的至少一个的优化问题求解，确定散射声滤波器的滤波系数。

Description

使用麦克风阵列的混响声的提取

技术领域

本发明属于声学分析、空间声音录音、麦克风阵列信号处理和空间滤波的领域。本发明的一些实施例涉及可以被用于确定散射声滤波器即使用麦克风阵列从录音中提取散射声(混响声)的滤波器，的滤波系数的方法。一些实施例涉及可以被用于确定散射声滤波器的滤波系数的装置。

背景技术

典型地，混响环境中的麦克风阵列的声音获取的目的在于捕捉声音源的直达声同时削弱噪声和混响。对于很多应用，如果能够在抑制直达声和噪声的同时也提取混响声，将是有益的。例如，在空间声音重现[Pulkki2007,Thiergart2013,Kowalczyk2013]中，录音端出现的混响需要在重现端进行重现，以重塑期望的空间效果。此外，给定了混响声的估计，我们可以计算参数，例如信号-混响比率或混响声功率，其对于各种其他应用代表重要信息。

尽管在文献中已经很好地解决直达声分量的估计(例如，使用源分离、去混响、或降噪)，但是只存在很少的提取混响声的方法。通常，混响被建模为(时变)散射声场。为了提取散射声，最近使用单声道滤波器(例如，在[Pulkki2007,Thiergart2013]中)，当多个源是有效的或用于类瞬时信号时，产生不好的表现。使用多声道滤波器可以达到更好的性能(例如，[Kowalczyk2013,Thiergart2013b])。不幸的是，目前存在的多声道滤波器不是最优的，并且不会产生用于捕捉散射声的合适的指向性图案。

因此，可期望的是提供在散射声提取和/或直达声抑制方面具有改进的性能的散射声滤波器。还可期望的是散射声滤波器具有高度全向性(除了直达声分量的到达方向之外)的方向响应。高度全向性的方向响应是需要的，因为散射声从所有方向到达麦克风阵列。

发明内容

提出的方法包括定义散射声滤波器的滤波系数的线性约束。线性约束基于第一麦克风信号中的第一散射声部分和第二麦克风信号中的第二散射声部分之间的空间相干性。第一麦克风信号由第一麦克风捕捉，第二麦克风信号由与第一麦克风以已知的方式间隔开的第二麦克风捕捉。方法还包括计算至少一个直达声的到达方向、第一麦克风信号和第二麦克风信号的信号统计、和第一麦克风信号和第二麦克风信号的噪声统计中的至少一个。方法进一步包括通过在考虑滤波系数的线性约束的条件下对关于至少一个直达声的到达方向、信号统计和噪声统计中的至少一个的优化问题求解，确定散射声滤波器的滤波系数。

实施例提出了一种计算机程序，当在计算机或信号处理器上执行时用于实施上述的方法。

进一步实施例提出一种装置，包括线性约束计算器，该线性约束计算器用于定义散射声滤波器的滤波系数的线性约束。线性约束基于第一麦克风信号中的第一散射声部分和第二麦克风信号中的第二散射声部分之间的空间相干性。第一麦克风信号由或者已经由第一麦克风捕捉，第二麦克风信号由或者已经由与第一麦克风以已知的方式间隔开的第二麦克风捕捉。装置还包括统计计算器，该统计计算器用于计算至少一个直达声的到达方向、第一麦克风信号和第二麦克风信号的信号统计、和第一麦克风信号和第二麦克风信号的噪声统计中的至少一个。装置进一步包括滤波系数计算器，该滤波系数计算器用于通过在考虑滤波系数的线性约束的条件下对关于至少一个直达声的到达方向、信号统计和噪声统计中的至少一个的优化问题求解，确定散射声滤波器的滤波系数。

实施例基于以下见解：在考虑与麦克风信号的散射声部分相关的至少一个线性约束时，可以确定散射声滤波器。

附图说明

下面，参考附图较详细地描述本发明的实施例，其中：

图1示出具有单声道滤波器的提取散射声的方法的示意性框图；

图2示出具有多声道滤波器的提取散射声的方法的示意性框图；

图3示出根据用于实施的第一示例的本发明的示意性框图；

图4示出根据用于实施的第二示例的本发明的示意性框图；

图5示出根据用于实施的第三示例的本发明的示意性框图；

图6示出从根据图2的具有滤波器的用于提取散射声的方法得到的提取图案的示例；

图7示出从根据图4的具有滤波器的用于提取散射声的方法得到的提取图案的示例；

图8示意性地示出麦克风阵列和由麦克风阵列获得的不同声音信号。

具体实施方式

术语“直达声”和“散射声”定义如下。

直达声：主要从特定主要方向到达麦克风的声音。直达声可以表示例如从声源直接传送到麦克风的声音或明显的房间反射。直达声可以是例如具有特定到达方向的平面波或球面波。当已知直达声的到达方向时，假定已知麦克风的几何形状，可以计算麦克风之间的直达声的相对传递函数。

散射声：从所有方向到达麦克风的声音。散射声可以代表例如房间中存在的后续混响。典型地，没有主要到达方向可以与混响声(各向同性声场(isotropic sound field))相关联，即，声音以相等的平均功率从所有方向到达。此外，麦克风之间的散射声的相对传递函数必须假定为随机且不可观测的。但是，麦克风之间的散射声的平均相对传递函数对于特定麦克风设置和散射场假定通常是已知的或可以被度量的。

下述分段概括现有的从麦克风录音提取散射声(或混响声)的方法。如下，M指示使用的麦克风的数量。我们假定所有麦克风信号都已经被转换到时间-频率域，其中k是频率索引，n是时间索引(注意滤波器也可以典型地被应用于时间域)。麦克风捕捉在散射场中传播的L个平面波(称作直达声)。第l个平面波的DOA被表示为单位标准矢量n_l(k,n)。在时间-频率域中，第m个(全方位)麦克风的信号可以为

X_{m} (k, n) = Σ_{l = 1}^{L} X_{l} (k, n, d_{m}) + X_{d} (k, n, d_{m}) + X_{n} (k, n, d_{m}),

这里，X_l(k,n)是第l个平面波的声压，X_d(k,n,d_m)是散射声，X_n(k,n,d_m)是平稳噪声(例如，自身噪声或背景噪声)，d_m是在给定的坐标系统中描述(第m个麦克风的)麦克风位置的矢量。

本发明的目的是评估位置d_m处的X_d(k,n,d_m)。

单声道滤波器从单个麦克风信号(M＝1)提取散射声。这种滤波器被例如用在定向音频编码[Pulkki2007]或虚拟麦克风[Thiergart2013]。

散射声的估计由将麦克风信号中的一个，例如第一麦克风的麦克风信号X₁(k,n)，与滤波器H(k,n)相乘而构建，例如：

{\hat{X}}_{d} (k, n, d_{m}) = X_{1} (k, n) H (k, n) .

通常，滤波器H(k,n)是维纳(Wiener)滤波器，由下述公式给出

H (k, n) = \frac{φ_{d} (k, n)}{φ_{d} (k, n) + φ_{u} (k, n)},

其中φ_d是散射声的功率，φ_u是平面波和平稳噪声的功率。在一些应用中，使用平方根维纳滤波器(即，H的平方根)而非维纳滤波器。值得注意的是，为了计算H(k,n)，必须估计功率φ_d和φ_u。为了这个目的，我们可以考虑例如信号-散射比率(SDR)，其可以如[Thiergart2012]中解释的而被估计。可选地，H(k,n)可以由估计所谓的散射而创建，如[Pulkki2007,Thiergart2013]所述。典型地，估计SDR或散射需要多于一个的麦克风。然而，最终通过过滤单个麦克风信号得到散射声。

图1示出具有单声道滤波器的用于提取散射声的示例系统。首先，从多个麦克风信号估计SDR(或可选地，散射)。然后，从这个信息计算滤波器H(k,n)。最后，将滤波器H(k,n)与单个麦克风信号相乘以得到散射声估计。

多声道滤波器考虑M＞1个麦克风。这种滤波器已经使用在例如[Thiergart2013b,Kowalczyk2013]中。对于以下推导，用矢量x(k,n)＝[X₁(k,n),X₂(k,n),...,X_M(k,n)]^T表示M个麦克风信号。通过M个麦克风信号的线性结合估计第m个麦克风处的散射声，即，

{\hat{X}}_{d} (k, n, d_{m}) = w_{m}^{H} (k, n) x (k, n)

其中，w_m是长度M的复权重向量。必须计算w_m的权重以得到散射声的精确估计。

找到合适滤波器的直接方法是计算权重w_m，以便在最小化包含在麦克风信号中的平稳噪声X_n(k,n,d_m)的同时抑制L个平面波。滤波器权重可以被数学地表示为

w_{m} (k, n) = \underset{w}{\arg \min} w^{H} Φ_{n} (k) w,

服从的线性约束为：

\begin{matrix} w^{H} a_{l} (k, n) = 0 & &ForAll; l \end{matrix},

这里，Φ_n是平稳噪声的PSD矩阵(功率谱密度矩阵)，即，其可以用已知的方式估计，例如，当不存在散射声或直达声时。此外，a_l是所谓的传播矢量。其元素是从第m个麦克风到其他麦克风的第l个平面波的相对传递函数。因此，a_l是具有长度M的列矢量(记住：只通过M个麦克风信号的w_m加权的线性结合估计第m个麦克风的散射声；其他麦克风处的散射声是基本冗余的，因为通过从第m个麦克风到其他麦克风的相对传递函数，这些信号是相关的并且如果需要的话可以以这种方式计算)。a_l的元素基于第l个平面波的DOA。这意味着a_l是第l个平面波的DOA的函数，即a_l＝f(n_l)。因为a_l基于直达声(即，平面波)，其在下文中被称作直达声约束。使用这个空间滤波器，我们本质上创建了波束形成器，其具有对于L个平面波的方向零值的提取图案。结果，抑制所有的平面波。遗憾的是，因为我们只具有空值约束，对上述最小值问题求解导致权重w_m为0，即，不能提取散射声。

为了克服上述问题并避免零滤波权重，[Thiergart2013b,Kowalczyk2013]提出使用相同滤波器但是具有额外约束，给定为：

w^Ha₀(k,n)＝1，

其中a₀是与特定DOAn₀相对应的传播矢量，没有平面波从其到达。具有这种约束，可以避免零滤波权重，但是仍然不能捕捉不想要的直达声。结果，使用这种滤波器，仅仅捕捉散射声和一些噪声，但是削弱所有的平面波。在[Thiergart2013b]中，通过选择对于平面波的所有DOAn_l(k,n)具有最大角度距离的方向而构建矢量a₀对应的DOA n₀。例如，如果单个平面波从0度到达，则n_l(k,n)将对应于180°。遗憾的是，DOA n₀不能保证得到噪声尽可能小的散射声估计。此外，产生的提取图案对捕捉散射声来说不是最优的，因为其在较高的频率具有高方向性。当目标是捕捉所有方向的散射声时，这是缺点。

产生的提取图案的例子如图6所示。这里，两个直达声从方位方向51°和97°到达。附图示出当使用具有5厘米麦克风间隔的16个麦克风的均匀线性阵列时，在频率为2.8kHz处产生的提取图案。提取图案恰好对于51°和97°具有零值，对于对应于方向n₀的180°具有高增益。此外，提取图案具有多个其他空间零值或对于几乎所有其他方向具有低增益。这个提取图案对于捕捉来自所有方向的散射声是不合适的。还需要注意直达声约束a_l与直达声的DOA直接相关。在图7中示出在这个分段中不能使用空间滤波器实现的期望的提取图案。这个提取图案对于直达声的DOA具有两个空间零值，但除此之外，它几乎是全方位的。这个提取图案通过使用下面结合图7描述的提出的滤波器实现。

可以在[VanTrees2002]中发现给定上述约束的计算滤波器权重w_m的闭合解。为了计算空间滤波器，必须知道L个平面波的DOA，即计算直达声约束a_l和a₀。这个DOA信息可以由已知的窄带DOA估计器确定，例如Root MUSIC或ESPRIT。进一步注意，a₀的元素通常是复的，对于每一个k和n,a₀通常都需要被重新计算，因为平面波的DOA必须假定为高度时变的。高度波动a₀可以导致听得到的伪象。

图2示出具有提出的多声道滤波器的用于提取散射声的示例系统。将麦克风信号变换至时间-频率域之后，估计平稳噪声和L个平面波的DOA。然后，从DOA信息得到M+1个线性直达声约束(a_l和a₀)。基于该信息，可以计算滤波器权重。将这些权重应用到麦克风信号，产生散射声的期望估计。从这个描述可以清楚知道，得到的滤波器仅仅取决于直达声(即，DOA和麦克风之间的平面波的相应相对传递函数)，而不取决于散射声。这意味着滤波器不考虑散射声的潜在可用信息，即使它被用来估计散射声。

在本发明中，我们提出了克服上述滤波器的限制的用于提取混响声的新型多声道滤波器。提出的空间滤波器的特征在于：趋向于全方位图案的方向性图案，除了对于直达声的到达方向(DOA)呈现空间零值。这代表以低失真捕捉来自各个方向的散射声的高度期望的特性。

在下文中，我们提出了多声道滤波器以估计使用M＞1个麦克风的位置d_m处的散射声X_d(k,n,d_m)。对于上述多声道滤波器，第m个麦克风处的散射声压通过执行麦克风信号的线性组合而被估计，即

{\hat{X}}_{d} (k, n, d_{m}) = w_{m}^{H} (k, n) x (k, n),

下文提出的权矢量w_m，最小化特定的成本函数和被线性限制(与上述多声道滤波器类似)。

然而，与上述多声道滤波器相比，我们建议使用不依赖于直达声(即，L个平面波)的线性约束。更确切地说，提出的新的约束分别不是平面波的DOA的函数或麦克风之间的平面波的相应的相对传输函数。

与此相反，提出的新的约束基于散射声的统计信息，即，提出的新的约束基于麦克风之间的散射声的相对传送函数。我们将在下面显示提出的新的约束是麦克风之间的散射声相干性或相关性的函数。这个相干性对应于麦克风之间的散射声的平均相对传递函数。

通过在满足散射声的失真约束的同时最小化特定的成本函数，获得提出的空间滤波器。这个约束对应于麦克风之间的散射声的相对传递函数。数学地表达，滤波器被计算为

w_{m} (k, n) = \underset{w}{\arg \min} J (w),

服从如下线性约束：

w^Hb_m(k,n)＝1，

这里，J是待被滤波器最小化的成本函数。成本函数可以是例如滤波器输出处的平稳噪声功率、滤波器输出处的干扰能量、或估计散射声的二次误差。J的例子将在实施例中提出。约束矢量b_m由b_m(k,n)＝[B_1,m(k,n),B_2,m(k,n),...,B_M,m(k,n)]^T给出。第m’个元素B_m',m是麦克风m和m’之间的散射声的相对传递函数。这个相对传递函数被给定为：

B_{m^{'}, m} (k, n) = \frac{X_{d} (k, n, d_{m})}{X_{d} (k, n, d_{m^{'}})},

注意b_m的第m个元素等于1。在此约束下，我们无失真地捕捉散射声。实际上，令x_d(k,n)＝[X_d(k,n,d₁),X_d(k,n,d₂),...,X_d(k,n,d_M)]^T为包括记录的散射声的矢量。使用上述等式，可以将矢量写为

x_d(k,n)＝b_m(k,n)X_d(k,n,d_m)。

在滤波器的输出处的散射声被给定为w^H(k,n)x_d(k,n)，因为w^Hb_m(k,n)＝1，其与X_d(k,n,d_m)相同。因此，这个滤波器无失真地捕捉散射声。实际中通常不能b_m中的相对传递函数，因为其基本上是随机的，即，对于每一个k和n都有不同的传递函数的实现。因此，在实践中，B_m',m被计算为麦克风m和m’之间的平均相对传递函数，即

B_m',m(k,n)＝γ_m',m(k,n)

平均相对传递函数γ_m′，m对应于麦克风m和m’之间的散射声的所谓的空间相干性，被定义为

γ_{m^{'}, m} (k, n) = \frac{E {X_{d} (k, n, d_{m}) X_{d}^{*} (k, n, d_{m^{'}})}}{\sqrt{E {| X_{d} (k, n, d_{m}) |^{2}} E {| X_{d} (k, n, d_{m^{'}}) |^{2}}}},

其中(·)^*指共轭复数。这个空间相干性描述了频域中的麦克风m和m’之间的散射声的相关性。这个相干性基于特定的散射声场。对于给定的房间，可以预先测量相干性。可选地，对于特定散射声场，理论上已知相干性[Elko2001]。例如对于实践中经常可被假定的球面各向同性散射声场，我们有

γ_{m^{'}, m} (k, n) = \sin c (2 π \frac{f}{c} r_{m^{'}, m}),

其中，sinc表示正弦函数，f是为对于给定频带k的声学频率，c是声音的速度。此外，r_m',m是麦克风m和m'之间的距离。当使用空间相干性作为线性约束B_m',m(代表麦克风之间的散射声的平均相对传递函数)时，得到的滤波器相当于多个线性约束的空间滤波器的总和，其中这些滤波器中的每一个无失真地捕获随机散射声的不同实现。

使用上述介绍的散射声约束，我们得到从各个方向同样好地捕获散射声的空间滤波器。这与上述的主要从一个方向(即选择的传播矢量a₀相对应的方向)捕获声音的多声道滤波器相反。

注意，散射声约束b_m与直达声约束a_l和a₀在概念上非常不同。因此，本节中所提出的新的滤波器在概念上与上述的多声道滤波器相比非常不同。

提出的本发明的方框图在图3中示出。首先，使用滤波器组(FB)(101)将M个麦克风信号变换至时间-频率域(或用于信号处理的其它合适的域)。其次，在块(102)中计算线性散射声约束矢量b_m。如上所述，散射声约束矢量或者是从信号估计的，或者其对应例如特定假定散射场的理论空间相干性。在块(104)中，我们从麦克风信号估计特定统计数据(例如，噪声统计)。这个信息通常表示为PSD矩阵Φ(k,n)，并且用于生成必须被滤波器最小化的成本函数J。在块(103)中计算使受到散射声约束的成本函数最小化的滤波器权重。最后，将权重应用于导致期望散射声估计的麦克风信号。本发明的具体实现在下述实施方案中提出。

满足散射声约束的最小化输出功率

在本实施例中，我们定义使受到散射声约束的滤波器整个输出最小化的空间滤波器。散射声约束确保散射声被空间滤波器保留，而其余信号部分(不期望的平稳噪声和平面波)被最小化。滤波器权重w_m被计算为

w_{m} (k, n) = \underset{w}{\arg \min} w^{H} Φ_{x} (k, n) w

受到线性约束：

w^Hb_m(k,n)＝1。

[VanTrees2002]给出这个滤波器的闭合解为

{w^{H}}_{m} (k, n) = \frac{b_{m}^{H} (k, n) Φ_{x}^{- 1} (k, n)}{b_{m}^{H} (k, n) Φ_{x}^{- 1} (k, n) b_{m} (k, n)} .

这里，Φ_x是麦克风信号的PSD矩阵，可以被计算为

Φ_x(k,n)＝E{x(k,n) x^H(k,n)},

其中，x(k,n)是包括麦克风信号的矢量。在实践中，例如通过时间平均来近似期望值。此外，约束向量b_m(k,n)＝[B_1,m(k,n),B_2,m(k,n),...,B_M,m(k,n)]^T的元素对应于麦克风m和m’之间的散射声的空间相干性，即

B_m',m(k,n)＝γ_m',m(k,n)。

实际上，空间相干性B_m',m不需要取决于时间(即，B_m',m(k,n)＝B_m',m(k))，因此，空间相干性可以提前被估计或假定为理论值。可以使用下述公式从麦克风信号估计空间相干性(在其中仅存在散射声的周期中)：

γ_{m^{'}, m} (k, n) = \frac{E {X (k, n, d_{m}) X^{*} (k, n, d_{m^{'}})}}{\sqrt{E {| X (k, n, d_{m}) |^{2}} E {| X (k, n, d_{m^{'}}) |^{2}}}},

或者，可以将空间相干性给定为假定特定散射声场的先验信息。在后面这种情况下，我们使用例如球面各向同性散射声场的空间相干性，即

γ_{m^{'}, m} (k, n) = \sin c (2 π \frac{f}{c} r_{m^{'}, m})

需要注意的是：根据假定的声场，sinc函数可以由其他函数代替。对于不同的散射声场存在不同的相干函数(已知为先验信息)。示例可以在[Elko2001]中找到。

本实施例的方框图在图3中示出。用滤波器组(101)变换麦克风信号后，在信号统计估计块(104)中计算信号的PSD矩阵。此外，在块(102)中或者从信号或使用假定特定散射声场的先验信息计算线性散射声约束矢量b_m。随后在块(103)中计算滤波器权重。将权重与麦克风信号相乘产生散射声的期望估计。

本实施例计算的滤波器与其他空间滤波器(例如，背景技术中描述的滤波器)相比具有以下优点：

·由于最小化整个输出信号，滤波器提供L个平面波的衰减和平稳噪声之间的最佳折衷；

·实际中容易计算需要的信号PSD矩阵，因此容易计算滤波器；

·不需要L个平面波的DOA信息。

线性约束的最小方差滤波器

这个实施例代表新方法和上面结合图2描述的多声道滤波器的现有方法的结合。在本实施例中，定义受到散射约束和附加定向约束的最小化滤波器输出处的平稳噪声的线性约束的空间滤波器。滤波器权重w_m被计算为

w_{m} (k, n) = \underset{w}{\arg \min} w^{H} Φ_{n} (k, n) w

受到的线性约束为：

w^Hb_m(k,n)＝1

和

\begin{matrix} w^{H} a_{l} (k, n) = 0 & &ForAll; l \end{matrix}

显然，滤波器仅最小化输出处的平稳噪声。使用第二线性约束(如上对于多声道滤波器所解释的，图2)抑制不期望的平面波。这些与根据图3的输出功率最小化滤波器相比的额外的约束确保干扰平面波的更强的抑制。得到的滤波器由于第一线性约束仍保留了散射声。这个滤波器的闭合解，可以在实践中进行计算，且由下式给出：

{w^{H}}_{m} (k, n) = g^{H} (k, n) {[\begin{matrix} C^{H} (k, n) & Φ_{n}^{- 1} (k) & C (k, n) \end{matrix}]}^{- 1} C^{H} (k, n) Φ_{n}^{- 1} (k)

这里，矢量C＝[b_m,a₁,a₂,…,a_L]是包括上述定义的线性约束的约束矩阵，g＝[1,O]^T(O为长度L的零矢量)是相应的响应。关于图2所示的多声道滤波器，矢量a_l取决于L个平面波的DOA，并能如从文献[VanTrees2002]已知的被计算。与此相反，b_m的元素描述麦克风之间的散射声的相关性或相干性。如结合图3所解释的计算b_m的元素。此外，Φ_n是平稳噪声的PSD矩阵。PSD矩阵可在例如语音停顿的期间被估计。如果不同麦克风中的平稳噪声是相互独立的，可以简单地通过M×M大小的单位矩阵代替Φ_n。

本实施例的方框图示于图4。用滤波器组(101)对麦克风信号进行变换后，在噪声统计估计块(104)中计算平稳噪声的PSD矩阵Φ_n。此外，在块(102)中，或者从信号或者使用假定特定的散射声场的先验信息计算线性散射声约束b_m。在块(105)中，估计L个平面波的DOA。从这些信息，在块(106)中计算直达声约束a_l。计算的信息被反馈到滤波计算块(103)，其使用上面提出的闭合解计算滤波权重w_m。将权重与麦克风信号相乘产生散射声的期望估计。

对于这个滤波器得到的提取图案的例子在图7中示出。这里，两个直达声从方位方向51°和97°到达。附图示出当使用具有5厘米麦克风间距的16个麦克风的均匀线性阵列时，在2.8kHz频率所得到的提取图案。提取图案恰好对于51°和97°具有零值。否则，提取图案几乎是全方位的。这是较产生图6中的空间滤波的图2所示的现有技术的空间滤波器的主要优点。

在本实施例中计算的滤波器相比其他空间滤波器(例如，在背景技术中所描述的滤波器)具有以下优点：

·由于直达声约束而具有平面波的强衰减；

·被期望用于捕获散射声的几乎全方位的提取图案。

组合的方法

图3和4所示的空间滤波器一般提供实践中的良好表现。然而，也有特定的缺点。例如图3的滤波器通常不完全抑制直达声。直达声的剩余功率可导致空间声音重现期间的不期望的影响。与此相反，图4的空间滤波器提供针对低频处的平稳噪声的相对差的鲁棒性。下面，结合图3和4的空间滤波器，以在利用两个空间滤波器的优点的同时减少缺点。结果，得到具有良好的干扰抑制(直达声抑制)并对平稳噪声具有高鲁棒性的空间滤波器。

下面提出的方法代表所谓的参数多声道维纳滤波器(PMWF)，其可以在所谓的最小均方误差(MMSE)空间滤波器和图3所示的空间滤波器之间调节。另外，图4中的空间滤波器用于估计特定需要的量。

提出的PMWF的权向量被计算为

w_{m} (k, n) = \underset{w}{\arg \min} w^{H} Φ_{x} (k) w

服从

E {| X_{d} (k, n, d_{m}) - {\hat{X}}_{d} (k, n, d_{m}) |^{2}} < σ^{2}

其中σ²是估计散射声的最大平方绝对误差。对这个优化问题求解得到：

其中，我们定义

这里，α∈[0,1]是用户定义的控制参数。对于α＝0，得到MMSE空间滤波器，其最小化估计散射声的均方误差。对于α＝1，得到图3提出的空间滤波器。对于其间的值α，存在两个空间滤波器之间的调节。较小的α产生更好的噪声和干扰抑制，而较大的α产生较少失真的散射声估计。注意，如结合图3所解释的计算b_m的元素。散射声的功率φ_d可以由图4提出的空间滤波器计算，其提供了平面波的很好的抑制。令w₁表示图4的空间滤波器，以估计第一麦克风处的散射声。给定w₁，第一麦克风处的散射声功率可以例如如[Thiergart2013b]中所描述的得到，即，

{\hat{φ}}_{d} (k, n) = \frac{w_{1}^{H} (k, n) [Φ_{x} (k, n) - Φ_{n} (k, n)] w_{1} (k, n)}{w_{1}^{H} (k, n) Γ_{d} w_{1} (k, n)}

或使用如[Kowalczyk2013]中所解释的判决引导方法得到。在前述公式中，Γ_d是用于散射声的M×M空间相干矩阵。Γ_d的第(m,m')个元素是麦克风m和m’之间的空间相干性γ_m′，m。在上文中已经定义了空间相干性γ_m′，m。

本实施例的方框图示于图5。滤波器组(101)对麦克风信号进行变换后，在块(104)中计算麦克风PSD矩阵Φ_x和噪声PSD矩阵Φ_n。此外，在块(102)中，或者从信号或者使用假定特定的散射声场的先验信息计算线性散射声约束。在块(105)中，估计L个平面波的DOA。从这些信息，我们在块(106)中计算直达声约束。这些约束在(107)中与Φ_n一起用于计算权重w₁。在(108)中从w₁和Φ_n计算散射声的功率φ_d。然后可以在(103)中使用φ_d,Φ_x,和b_m计算空间滤波器的最终权重w_m。用参数α可以在MMSE滤波器和PMWF之间调节空间滤波器。将权重w_m与麦克风信号相乘产生散射声的期望估计。

图8示意性地示出包括M个麦克风的麦克风阵列。麦克风阵列暴露于包括直达声部分和散射声部分的声场。直达声部分在图8中用L个声源X_L＝1到X_L＝L表示，每一个被假设为在麦克风阵列的位置的生成大体平面波。每个平面波(在麦克风阵列的位置)的传播方向在图8中由矢量n₁至n_L示出。直达声部分通常是位置d_m的函数。散射声X_d(k,n,d_m)可以模拟例如室内的混响。假定散射声由具有随机相位、随机幅度和随机DOA的平面波的无穷和产生。这意味着，散射声由围绕声音场景随机分布的无限数量的源产生。这些声源模拟产生后期混响的无限数量的房间反射。

单个麦克风信号，例如对于第m个麦克风，X_m(k,n)是L个直达声部分X_L＝1到X_L＝L、散射声部分的X_d和噪声X_n的组合，即

X_{m} (k, n) = Σ_{l = 1}^{L} X_{l} (k, n, d_{m}) + X_{d} (k, n, d_{m}) + X_{n} (k, n, d_{m})

对于其他麦克风到第m个麦克风之间的散射声的相对传递函数B_1,m,B_2,m,...,B_m’,m,...,B_M,m示意性地示于图8。从第m个麦克风到自身的相对传递函数B_m,m(未在图8示出)通常等于1。

以下列表提供上述的方面的一些的简要概述：

·接收至少两个麦克风信号；

·将麦克风信号变换至时间-频率域或另一合适的域；

·计算线性散射声约束作为麦克风之间的散射声的相关性或相干性的函数；

·计算信号和/或噪声的统计；

·在一些实施例中：估计直达声的DOA，计算表示麦克风之间的直达声的相对传递函数的直达声约束；

·在一些实施例中：计算辅助滤波器，并估计散射声的功率；

·计算空间滤波器的权重，以通过考虑散射声约束使用得到的信号/噪声统计和可选的散射声功率信息提取散射声；

·使用计算的空间滤波器的权重执行麦克风信号的线性组合。

尽管已在装置的上下文中描述一些方面，但显然，这些方面也表示对应方法的描述，其中块或器件对应于方法步骤或方法步骤的特征。类似地，方法步骤的上下文中所描述的方面也表示对应块或项目或对应装置的特征的描述。

取决于某些实施要求，本发明的实施例可以以硬件或软件实施。可使用其上储存有与可编程计算机系统协作(或能够协作)的电子可读控制信号，以便执行各个方法的数字储存媒体，例如，软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存，来执行实施。

根据本发明的一些实施例包括具有电子可读控制信号的永久数据载体，该控制信号能够与可编程计算机系统协作，使得执行本文中所描述的方法中的一个。

大体而言，本发明的实施例可实施为具有程序代码的计算机程序产品，当计算机程序产品在计算机上运行时，程序代码操作性地用于执行方法中的一个。程序代码可例如储存于机器可读载体上。

其他实施例包括储存于机器可读载体上的用于执行本文中所描述的方法中的一个的计算机程序。

换句话说，因此，本发明方法的实施例为具有程序代码的计算机程序，当计算机程序在计算机上运行时，程序代码用于执行本文中所描述的方法中的一个。

因此，本发明方法的另一实施例为包括记录于其上的，用于执行本文中所描述的方法中的一个的计算机程序的数据载体(或数字储存介质，或计算机可读介质)。

因此，本发明方法的另一实施例为表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列可例如被配置为通过数据通信连接，例如，通过因特网，传递。

另一实施例包括处理构件，例如，被配置为或适于执行本文中所描述的方法中的一个的计算机或可编程逻辑器件。

另一实施例包括其上安装有用于执行本文中所描述的方法中的一个的计算机程序的计算机。

在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列)可用于执行本文中所描述的方法的功能性中的一些或所有。在一些实施例中，现场可编程门阵列可与微处理器协作，以便执行本文中所描述的方法中的一个。大体而言，较佳地由任何硬件装置执行方法。

上文所描述的实施例仅仅说明本发明的原理。应理解，本领域技术人员将显而易见对本文中所描述的配置及细节进行修改及变化。因此，仅意欲由所附的权利要求的范畴限制范围，而非由通过本文中实施例的描述及解释所呈现的特定细节限制范围。

参考文献

[Pulkki2007]V.Pulkki,"Spatial sound reproduction with directionalaudio coding,″J.Audio Eng.Soc,Vol.55,No.6,pp.503-516,June 2007.

[Thiergart2013]O.Thiergart,G.DelGaldo,M.Taseska,and E.Habets,"Geometry-based spatial sound acquisition using distributed microphonearrays,″Audio,Speech,and Language Processing,IEEE Transactions on,Vol.21,No.12,pp.2583-2594,December 2013.

[Kowalczyk2013]K.Kowalczyk,O.Thiergart,A.Craciun,and E.A.P.Habets,"Sound acquisition in noisy and reverberant environments using virtual,″inApplications of Signal Processing to Audio and Acoustics(WASPAA),2013IEEEWorkshop on,October 2013.

[Thiergart2013b]O.Thiergart and E.A.P.Habets,"An informed LCMV filterbased on multipleinstantaneous direction-of-arrival estimates,″in AcousticsSpeech and Signal Processing(ICASSP),2013 IEEE International Conference on,2013,pp.659-663.

[Thiergart2012]O.Thiergart,G.D.Galdo,and E.A.P.Habets,“On the spatialcoherence in mixed sound fields and its application to signal-to-diffuseratio estimation,”The Journal of the Acoustical Society of America,vol.132,no.4,pp.2337–2346,2012.

[VanTrees2002]H.L.Van Trees,Detection,Estimation,and ModulationTheory:Part IV:Array Processing.John Wiley&Sons,April 2002,vol.1.

[Elko2001]G.W.Elko,“Spatial coherence functions for differentialmicro-phones in isotropic noise fields”,in Microphone Arrays:SignalProcessing Techniques and Applications,edited by M.Brandstein and D.Ward,chapter 4,61–85(Springer,Berlin)(2001).

Claims

1.一种方法，包括：

定义散射声滤波器的滤波系数的线性约束，所述线性约束基于第一麦克风信号中的第一散射声部分和第二麦克风信号中的第二散射声部分之间的空间相干性，所述第一麦克风信号由第一麦克风捕捉，所述第二麦克风信号由与第一麦克风以已知的方式间隔开的第二麦克风捕捉；

计算至少一个直达声的到达方向、所述第一麦克风信号和所述第二麦克风信号的信号统计、和所述第一麦克风信号和所述第二麦克风信号的噪声统计中的至少一个；和

通过在考虑所述滤波系数的线性约束的条件下对关于所述至少一个直达声的到达方向、所述信号统计和所述噪声统计中的至少一个的优化问题求解，确定所述散射声滤波器的所述滤波系数。

2.根据权利要求1所述的方法，进一步包括：

基于所述第一麦克风和所述第二麦克风之间的所述散射声的相关性或相对传递函数提供所述空间相干性。

3.根据权利要求1所述的方法，

其中对于给定的环境，在所述环境中不存在直达声的时间周期内，所述空间相干性基于所述散射声的相关性或相对传递函数的先前度量。

4.根据权利要求1或2所述的方法，

其中所述空间相干性基于所述散射声的理论关系，其中相应的假定散射声场具有关于所述第一麦克风和所述第二麦克风之间的所述散射声的相关性的理论特性。

5.根据权利要求1至4中任一项所述的方法，其中所述优化问题表示为

w_{m} (k, n) = \underset{w}{\arg \min} J (w),

服从的所述线性约束为

w^Hb_m(k,n)＝1，

其中，

w(k,n)是所述散射声滤波器的所述滤波系数的矢量；

w_m(k,n)是基于第m个麦克风处的麦克风信号的评估的所述优化问题的解；

J(w)是成本函数；

b_m(k,n)是估计空间相干性的矢量，其中所述矢量的第m’个元素是所述第m个麦克风和第m’个麦克风之间的所述散射声的估计空间相干性；

k是频域索引；以及

n是时域索引。

6.根据权利要求5所述的方法，其中所述成本函数J(w)基于噪声统计、噪声功率谱密度(PSD)矩阵、信号统计、或麦克风功率谱密度(PSD)矩阵中的一个。

7.根据权利要求1至6中任一项所述的方法，进一步包括：

估计至少一个直达声的到达方向或所述第一麦克风和所述第二麦克风之间的至少一个直达声的相对传递函数中的至少一个；

使用所述至少一个直达声的所述到达方向或所述相对传递函数计算至少一个直达声约束，其中所述至少一个直达声约束导致所述至少一个直达声的抑制。

8.根据权利要求1至7中任一项所述的方法，其中所述优化问题的解为

w_{m} (k, n) = \frac{φ_{d} (k, n)}{β + 1} Φ_{x}^{- 1} (k, n) b_{m},

具有

β = α (φ_{d} b_{m}^{H} Φ_{x}^{- 1} b_{m}),

其中，

w_m(k,n)是基于第m个麦克风处的麦克风信号的估计的优化问题的解；

b_m(k,n)是估计空间相干性的矢量，其中所述矢量的所述第m’个元素是所述第m个麦克风和第m’个麦克风之间的散射声的的估计空间相干性；

α∈[0,1]是用户定义的控制参数，通过所述用户定义的控制参数，所述散射声滤波器可以在最小均方误差空间滤波器和最小化所述输出功率同时满足所述散射声约束的滤波器之间调节；

φ_d是散射声功率；以及

Φ_x是所述麦克风信号的功率谱矩阵。

9.根据权利要求8所述的方法，进一步包括：

基于辅助散射声滤波器估计所述散射声功率φ_d。

10.根据权利要求9所述的方法，其中基于以下公式执行估计所述散射声功率φ_d：

{\hat{φ}}_{d} (k, n) = \frac{w_{1}^{H} (k, n) [Φ_{x} (k, n) - Φ_{n} (k, n)] w_{1} (k, n)}{w_{1}^{H} (k, n) Γ_{d} w_{1} (k, n)},

其中，

是提供所述散射声功率φ_d的估计的所述估计散射声功率；

w₁是所述辅助散射声滤波器的滤波系数的矢量；

Φ_x是所述麦克风信号的功率谱密度矩阵；

Φ_n是所述麦克风信号中的所述噪声的功率谱密度矩阵；以及

Γ_d是所述散射声的空间相干性矩阵，所述Γ_d的第(m,m')个元素是麦克风m和麦克风m’之间的空间相干性γ_m′，m。

11.根据权利要求1至10中任一项所述的方法，进一步包括：

使用所述散射声滤波的所述滤波系数执行所述第一麦克风信号和所述第二麦克风信号的线性组合。

12.一种计算机程序，当在计算机或信号处理器上执行时，用于实施权利要求1至11中任一项所述的方法。

13.一种装置，包括：

线性约束计算器，用于定义散射声滤波器的滤波系数的线性约束，所述线性约束基于第一麦克风信号中的第一散射声部分和第二麦克风信号中的第二散射声部分之间的空间相干性，所述第一麦克风信号由第一麦克风捕捉，所述第二麦克风信号由与第一麦克风以已知的方式间隔开的第二麦克风捕捉；

计算器，用于计算至少一个直达声的到达方向、所述第一麦克风信号和所述第二麦克风信号的信号统计、和所述第一麦克风信号和所述第二麦克风信号的噪声统计中的至少一个；和

滤波系数计算器，用于通过在考虑所述滤波系数的线性约束的条件下对关于所述至少一个直达声的到达方向、所述信号统计和所述噪声统计中的至少一个的优化问题求解，确定所述散射声滤波器的所述滤波系数。

14.根据权利要求13所述的装置，其中所述空间相干性基于所述第一麦克风和所述第二麦克风之间的所述散射声的相对传递函数。

15.根据权利要求13或14所述的装置，进一步包括：

辅助滤波系数计算器，用于通过在考虑与所述滤波系数计算器不同的所述辅助滤波系数的线性约束的条件下对不同的优化问题求解，确定辅助散射声滤波器的辅助滤波系数；

所述辅助散射声滤波器用于估计估计散射声功率；以及

其中所述滤波系数计算器用于当确定所述散射声滤波器的所述滤波系数时考虑所述估计散射声功率。