CN1523573A

CN1523573A - 一种采用后置滤波器的多通道语音增强方法

Info

Publication number: CN1523573A
Application number: CNA031570747A
Authority: CN
Inventors: 杜利民; 阎兆立
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2003-09-12
Filing date: 2003-09-12
Publication date: 2004-08-25
Anticipated expiration: 2023-09-12
Also published as: CN1212608C

Abstract

本发明公开了一种采用后置滤波器的语音增强方法，用于多通道语音信号的增强，包括步骤：1)计算语音信号在各通道间的时间延迟；2)通过时延补偿，将各通道信号在时域对齐；3)用波束形成器将各通道的信号进行波束形成；4)估计纯净语音信号的自功率谱和带噪信号自功率谱，得到维纳滤波器的频响函数；其中，在带噪信号互功率谱估计中去除噪声互功率谱估计得到纯净信号的自功率谱估计；5)用后置的所述维纳滤波器对波束形成器的输出波束进行滤波，实现语音的增强。由于本发明考虑到了各通道噪声之间的相关性，这更符合实际情况，尤其在低频段可以有效地去除噪声，提高了语音增强的效果。

Description

一种采用后置滤波器的多通道语音增强方法

技术领域

本发明涉及计算机语音信号处理领域，更具体地说，本发明涉及一种采用后置滤波器的多通道语音增强方法

背景技术

语音增强是一种信号的选择性处理技术，主要解决从受到不同方式污染的语音信号中，提取出尽可能纯净的目标语音信号的问题。语音增强的一个目的是改善语音信号的听感，提高可懂度，用于通信、助听、侦听、视听会议等领域。另外随着语音识别技术的发展，在安静环境下可以达到很高的识别率，但在噪声环境下识别率的退化较为严重。因此语音增强作为语音识别前端处理的一种手段，是当前国际上一个十分活跃的重要研究方向。

按照拾取语音信号的话筒数目，语音增强分为单通道和多通道两种类型。单通道语音增强系统只需要一个话筒，硬件资源要求低，算法复杂性较小，但是消噪性能有限。多通道语音增强系统使用话筒阵列，多通道信号包含了丰富的空间信息和时间信息，具有更大的性能提升空间。因此从上世纪九十年来以来，话筒阵列语音增强一直是人们的一个研究热点。

采用话筒阵列的多通道语音增强方法的典型工作流程可总结如下：

1)首先利用时间延迟估计算法(如广义互相关函数，自适应时延估计算法等)得到语音信号在各通道间的时间延迟，准确地估计出信号时延是多通道语音增强的基础。

2)然后通过时延补偿，把各通道信号在时域对齐。

3)用波束形成器将各通道的信号进行波束形成。

4)用一后置滤波器(即维纳滤波器)对波束形成器的输出波束进行滤波，实现语音的增强。

其中，在前述步骤(4)中，为了对波束形成器的输出波束进行滤波，需要得到维纳滤波器的频响函数。

首先将去除时间延迟之前的话筒信号x_i(t)和x_j(t)建模为声源s(t)和加性噪声n(t)的组合：

x_i(t)＝s(t-τ_i)+n_i(t) (1)

x_j(t)＝s(t-τ_j)+n_j(t) (2)其中，i和j为话筒/通道的编号τ_i，τ_j是声源到话筒的传播时间(即时间延迟)。维纳滤波器频响函数的形式为：

H (f) = \frac{φ_{ss} (f)}{φ_{xx} (f)} - - - - (3)

其中φ_ss(f)是理想的纯净语音信号s(t)的自功率谱，φ_xx(f)是带噪信号(s(t)+n(t))的自功率谱。带噪信号的自功率谱可以通过测量话筒信号而直接计算得到，但是纯净语音信号的自功率谱无法被先验地得到，特别是语音信号又是非平稳信号，其功率谱是不断变化的。因此维纳滤波器的关键是尽可能准确地得到各通道中带噪语音信号中的纯净语音信号的功率谱，并根据该功率谱获得维纳滤波器频响函数。Zelinski利用多通道信息较好的解决了这个问题，他首先假设：

1、信号和背景噪声是不相关的。

2、各通道录到的噪声之间也是不相关的。

3、各个通道录到的噪声功率谱是相同的。

这样，在忽略信号与背景噪声的相关以及噪声之间的互相关之后，得到

φ_{x_{i} x_{j}} (f) = φ_{ss} (f) - - - - (4)

其中φ_xixj(f)是带噪信号x_i和x_j的互功率谱。把公式(4)代入公式(3)就得到维纳滤波器频响函数。通过对所有可能的话筒组合的谱密度计算平均，可以得到更准确的估计结果：

\hat{H} (f) = \frac{E [R {Σ_{i = 0}^{N - 2} Σ_{j = i + 1}^{N - 1} {\hat{φ}}_{x_{i} x_{j}}}]}{E [Σ_{i = 0}^{N - 1} φ_{x_{i} x_{j}}]} - - - - - (5)

其中N表示通道/话筒数目，操作符R{.}是取复数的实部，因为信号自功率谱必须是实数。

但是这种方法由于是基于各通道录到的噪声之间也是不相关这一假设的，但是该各通道噪声的互相关只有在高频的情况下才能被基本忽略，而在低频情况下，各通道噪声的互相关较为明显，并不能被忽略，所以该方法不能够实用。因此就需要一种适用于低频情况下的算法处理。

发明内容

本发明的目的在于克服现有的多通道语音增强方法只适合于高频这一缺点，通过考虑通道间噪声信号的互相关，提供一种采用后置滤波器的多通道语音增强方法。

为了实现本发明的目的，本发明提供了一种采用后置滤波器的语音增强方法，用于多通道语音信号的增强，包括如下步骤：

1)计算语音信号在各通道的时间延迟。

2)通过时延补偿，将各通道信号在时域对齐。

3)用波束形成器将各通道的信号进行波束形成。

4)估计纯净语音信号的自功率谱和带噪信号自功率谱，得到维纳滤波器的频响函数。

其中，纯净语音信号的自功率谱通过如下步骤得到：

a)在所有的语音通道中任选两个通道作为一个组合；

b)估计所述通道组合中两个通道间的带噪信号互功率谱和噪声互功率谱；

c)在所述通道间的带噪信号互功率谱估计中去除噪声互功率谱估计得到通道间的纯净语音信号自功率谱估计；

d)将a)中所有可能的通道组合均进行b)和c)的操作，然后将所有得到的通道间的纯净语音信号自功率谱估计作平均，将该平均结果作为步骤4)中的纯净语音信号的自功率谱估计。

其中，带噪信号自功率谱是所有通道的带噪信号自功率谱的平均结果。

5)用后置的所述维纳滤波器对波束形成器的输出波束进行滤波，实现语音的增强。

所述多通道语音信号至少包括两个通道语音信号。

为了减少运算量，该语音增强方法可只用于增强语音信号的低频部分；而语音信号的高频部分仍使用现有的语音增强方法，例如Zelinski算法。

由于本发明在获得纯净语音信号的自功率谱时考虑到了各通道噪声之间的相关性，这更符合实际情况，尤其在低频段可以有效地去除噪声，提高了语音增强的效果。

附图说明

图1是采用语音增强方法对一段带噪语音的增强实例；其中(a)是原始的带噪语音，(b)是采用Zelinski后滤波的语音增强处理结果，图(c)是采用本发明的方法获得的语音增强处理结果。

具体实施方式

下面结合附图和具体实施方式对本发明作进一步详细描述。

对公式(1)和(2)所给出的信号模型x_i(t)和x_j(t)去掉时间延迟τ_i、τ_j之后再作傅立叶变换，得到

{\hat{X}}_{i} (f) = S (f) + N_{i} (f) e^{j \frac{2 π}{W} f τ_{i}} - - - - - (6)

{\hat{X}}_{j} (f) = S (f) + N_{j} (f) e^{j \frac{2}{W} {fτ}_{i}} - - - - - - (7)

式中和

是时间延迟去掉后x_i(t+τ_i)和x_j(t+τ_j)的傅立叶变换，(^)表示已经消除信号延迟；S(f)是纯净信号傅立叶变换；N_i(f)和N_j(f)是噪声的傅立叶变换；W是帧长。由公式(6)，(7)得到带噪信号的互功率谱

{\hat{φ}}_{x_{i} x_{j}} (f) = φ_{ss} (f) + {\hat{φ}}_{n_{i} n_{j}} (f) - - - - - - (8)

其中

{\hat{φ}}_{n_{i} n_{j}} (f) = φ_{n_{i} n_{j}} (f) e^{j \frac{2 π}{W} {fτ}_{ij}} - - - - (9)

式中

是带噪信号x_i(t+τ_i)和x_j(t+τ_j)的互功率谱，φ_ss(f)是纯净信号的自功率谱，φ_ninj(f)和分别是延迟去掉前、后的噪声互功率谱。τ_ij＝τ_i-τ_j是两通道i和j信号之间的时间延迟。

从公式(8)不难看出，为了得到纯净信号的自功率谱φ_ss(f)，首先要估计出式中噪声互功率谱部分，而在现有技术中，噪声互功率谱部分是被忽略掉的。公式(9)表明噪声互功率谱

随着时延τ_ij的改变而变化的，这也是简单的延迟相加和维纳滤波算法不能处理移动声源的原因。根据以上分析，噪声互功率谱可通过下式得到：

{\hat{φ}}_{n_{i} n_{j}}^{'} (f) = φ_{n_{i} n_{j}}^{'} (f) e^{j \frac{2 π}{W} {fτ}_{ij}} - - - - - (10)

式中是延迟消除后噪声互功率谱估计，φ′_ninj(f)是原始噪声互功率谱估计，它可在语音间隙获得。(·)′表示信号估计值。根据公式(8)，(10)得到纯净信号功率谱估计

φ_{ss}^{'} (f) = {\hat{φ}}_{x_{i} x_{j}} (f) - φ_{n_{i} n_{j}}^{'} (f) e^{j \frac{2 π}{W} {fτ}_{ij}} - - - - - - (11)

同时还可通过带噪信号自功率谱的计算估计φ′_ss(f)。由公式(1)推出

φ_{x_{i} x_{j}} (f) = φ_{ss} (f) + φ_{n_{i} n_{j}} (f) - - - - - (12)

因此得到

φ_{ss}^{'} (f) = φ_{x_{i} x_{j}} (f) - φ_{n_{i} n_{j}}^{'} (f) - - - - - - - (13)

式中φ′_ninj(f)是噪声功率谱估计。根据公式(11)、(13)把所有话筒组合求得的φ′_ss(f)作平均以改善纯净信号自功率谱的估计，得到维纳滤波器的估计

\hat{H} = \frac{R {E [Σ_{i = 0}^{N - 1} (φ_{x_{i} x_{j}} - φ_{n_{i} n_{j}}^{'}) + Σ_{i = 0}^{N - 1} Σ_{j = i + 1}^{N - 1} ({\hat{φ}}_{x_{i} x_{j}} (f) - {\hat{φ}}_{n_{i} n_{j}}^{'} (f) e^{j \frac{2 π}{W} {fτ}_{ij}})]}}{R {E [Σ_{i = 1}^{N} φ_{x_{i} x_{j}}]}} - - - - (14)

R{.}表示取复数的实部。由于信号功率谱φ_ss(f)只可能是正实数，所以还要对其作半波整型，去除可能出现的负数。

具体实现中，功率谱都通过如下迭带公式进行更新

φ_{x_{i} x_{j}} (k + 1, f) = {αφ}_{x_{i} x_{j}} (k, f) + (1 - α) X_{i} (f) X_{j}^{*} (f) 0 < α \leq 1 - - - - - - (15)

式中X表示信号或噪声；φ_xixj(k+1，f)表示第k+1帧功率谱估计，φ_xixj(k，f)是第k帧功率谱估计。X(f)是信号x(k)的傅利叶变换，α是0到1之间的数，反映了功率谱更新快慢。

各通道噪声的互相关仅在低频部分较为明显，在高频部分可以基本忽略。因此为了合理降低运算量，可以把信号1kHz以下的低频部分用公式(14)滤波，而高频部分仍然用Zelinski的算法处理，如公式(5)所示。

图(1)是一段含噪语音处理结果，其中(a)是原始的带噪语音，(b)是采用Zelinski后滤波的语音增强处理结果，图(c)是采用本发明的方法获得的语音增强处理结果。从图中可以看出，Zelinski后滤波算法不能有效去除其中包含的低频噪声，而这部分噪声在1kHz以内，所以还无法用高通滤波去除；本发明的方法则基本去除了低频噪声。

Claims

1、一种采用后置滤波器的语音增强方法，用于多通道语音信号的增强，包括如下步骤：

1)计算语音信号在各通道的时间延迟；

2)通过时延补偿，将各通道信号在时域对齐；

3)用波束形成器将各通道的信号进行波束形成；

4)估计纯净语音信号的自功率谱和带噪信号自功率谱，得到维纳滤波器的频响函数；

5)用后置的所述维纳滤波器对波束形成器的输出波束进行滤波，实现语音的增强；

其特征在于，步骤4)中，纯净语音信号的自功率谱通过如下步骤得到：

a)在所有的语音通道中任选两个通道作为一个组合；

2、根据权利要求1所述的采用后置滤波器的语音增强方法，其特征在于，步骤4)中所述的带噪信号自功率谱是所有通道的带噪信号自功率谱的平均结果。

3、根据权利要求1或2所述的采用后置滤波器的语音增强方法，其特征在于，该语音增强方法只用于增强语音信号的低频部分。

4、根据权利要求1所述的采用后置滤波器的语音增强方法，其特征在于，所述多通道语音信号至少包括两个通道语音信号。