CN1523573A - 一种采用后置滤波器的多通道语音增强方法 - Google Patents
一种采用后置滤波器的多通道语音增强方法 Download PDFInfo
- Publication number
- CN1523573A CN1523573A CNA031570747A CN03157074A CN1523573A CN 1523573 A CN1523573 A CN 1523573A CN A031570747 A CNA031570747 A CN A031570747A CN 03157074 A CN03157074 A CN 03157074A CN 1523573 A CN1523573 A CN 1523573A
- Authority
- CN
- China
- Prior art keywords
- power spectrum
- signal
- channel
- noise
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000001228 spectrum Methods 0.000 claims abstract description 57
- 238000005316 response function Methods 0.000 claims abstract description 7
- 238000001914 filtration Methods 0.000 claims description 10
- 230000002708 enhancing effect Effects 0.000 abstract description 6
- 230000000694 effects Effects 0.000 abstract description 2
- 230000015572 biosynthetic process Effects 0.000 abstract 1
- 230000003595 spectral effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 206010038743 Restlessness Diseases 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Landscapes
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种采用后置滤波器的语音增强方法,用于多通道语音信号的增强,包括步骤:1)计算语音信号在各通道间的时间延迟;2)通过时延补偿,将各通道信号在时域对齐;3)用波束形成器将各通道的信号进行波束形成;4)估计纯净语音信号的自功率谱和带噪信号自功率谱,得到维纳滤波器的频响函数;其中,在带噪信号互功率谱估计中去除噪声互功率谱估计得到纯净信号的自功率谱估计;5)用后置的所述维纳滤波器对波束形成器的输出波束进行滤波,实现语音的增强。由于本发明考虑到了各通道噪声之间的相关性,这更符合实际情况,尤其在低频段可以有效地去除噪声,提高了语音增强的效果。
Description
技术领域
本发明涉及计算机语音信号处理领域,更具体地说,本发明涉及一种采用后置滤波器的多通道语音增强方法
背景技术
语音增强是一种信号的选择性处理技术,主要解决从受到不同方式污染的语音信号中,提取出尽可能纯净的目标语音信号的问题。语音增强的一个目的是改善语音信号的听感,提高可懂度,用于通信、助听、侦听、视听会议等领域。另外随着语音识别技术的发展,在安静环境下可以达到很高的识别率,但在噪声环境下识别率的退化较为严重。因此语音增强作为语音识别前端处理的一种手段,是当前国际上一个十分活跃的重要研究方向。
按照拾取语音信号的话筒数目,语音增强分为单通道和多通道两种类型。单通道语音增强系统只需要一个话筒,硬件资源要求低,算法复杂性较小,但是消噪性能有限。多通道语音增强系统使用话筒阵列,多通道信号包含了丰富的空间信息和时间信息,具有更大的性能提升空间。因此从上世纪九十年来以来,话筒阵列语音增强一直是人们的一个研究热点。
采用话筒阵列的多通道语音增强方法的典型工作流程可总结如下:
1)首先利用时间延迟估计算法(如广义互相关函数,自适应时延估计算法等)得到语音信号在各通道间的时间延迟,准确地估计出信号时延是多通道语音增强的基础。
2)然后通过时延补偿,把各通道信号在时域对齐。
3)用波束形成器将各通道的信号进行波束形成。
4)用一后置滤波器(即维纳滤波器)对波束形成器的输出波束进行滤波,实现语音的增强。
其中,在前述步骤(4)中,为了对波束形成器的输出波束进行滤波,需要得到维纳滤波器的频响函数。
首先将去除时间延迟之前的话筒信号xi(t)和xj(t)建模为声源s(t)和加性噪声n(t)的组合:
xi(t)=s(t-τi)+ni(t) (1)
xj(t)=s(t-τj)+nj(t) (2)其中,i和j为话筒/通道的编号τi,τj是声源到话筒的传播时间(即时间延迟)。维纳滤波器频响函数的形式为:
其中φss(f)是理想的纯净语音信号s(t)的自功率谱,φxx(f)是带噪信号(s(t)+n(t))的自功率谱。带噪信号的自功率谱可以通过测量话筒信号而直接计算得到,但是纯净语音信号的自功率谱无法被先验地得到,特别是语音信号又是非平稳信号,其功率谱是不断变化的。因此维纳滤波器的关键是尽可能准确地得到各通道中带噪语音信号中的纯净语音信号的功率谱,并根据该功率谱获得维纳滤波器频响函数。Zelinski利用多通道信息较好的解决了这个问题,他首先假设:
1、信号和背景噪声是不相关的。
2、各通道录到的噪声之间也是不相关的。
3、各个通道录到的噪声功率谱是相同的。
这样,在忽略信号与背景噪声的相关以及噪声之间的互相关之后,得到
其中φxixj(f)是带噪信号xi和xj的互功率谱。把公式(4)代入公式(3)就得到维纳滤波器频响函数。通过对所有可能的话筒组合的谱密度计算平均,可以得到更准确的估计结果:
其中N表示通道/话筒数目,操作符R{.}是取复数的实部,因为信号自功率谱必须是实数。
但是这种方法由于是基于各通道录到的噪声之间也是不相关这一假设的,但是该各通道噪声的互相关只有在高频的情况下才能被基本忽略,而在低频情况下,各通道噪声的互相关较为明显,并不能被忽略,所以该方法不能够实用。因此就需要一种适用于低频情况下的算法处理。
发明内容
本发明的目的在于克服现有的多通道语音增强方法只适合于高频这一缺点,通过考虑通道间噪声信号的互相关,提供一种采用后置滤波器的多通道语音增强方法。
为了实现本发明的目的,本发明提供了一种采用后置滤波器的语音增强方法,用于多通道语音信号的增强,包括如下步骤:
1)计算语音信号在各通道的时间延迟。
2)通过时延补偿,将各通道信号在时域对齐。
3)用波束形成器将各通道的信号进行波束形成。
4)估计纯净语音信号的自功率谱和带噪信号自功率谱,得到维纳滤波器的频响函数。
其中,纯净语音信号的自功率谱通过如下步骤得到:
a)在所有的语音通道中任选两个通道作为一个组合;
b)估计所述通道组合中两个通道间的带噪信号互功率谱和噪声互功率谱;
c)在所述通道间的带噪信号互功率谱估计中去除噪声互功率谱估计得到通道间的纯净语音信号自功率谱估计;
d)将a)中所有可能的通道组合均进行b)和c)的操作,然后将所有得到的通道间的纯净语音信号自功率谱估计作平均,将该平均结果作为步骤4)中的纯净语音信号的自功率谱估计。
其中,带噪信号自功率谱是所有通道的带噪信号自功率谱的平均结果。
5)用后置的所述维纳滤波器对波束形成器的输出波束进行滤波,实现语音的增强。
所述多通道语音信号至少包括两个通道语音信号。
为了减少运算量,该语音增强方法可只用于增强语音信号的低频部分;而语音信号的高频部分仍使用现有的语音增强方法,例如Zelinski算法。
由于本发明在获得纯净语音信号的自功率谱时考虑到了各通道噪声之间的相关性,这更符合实际情况,尤其在低频段可以有效地去除噪声,提高了语音增强的效果。
附图说明
图1是采用语音增强方法对一段带噪语音的增强实例;其中(a)是原始的带噪语音,(b)是采用Zelinski后滤波的语音增强处理结果,图(c)是采用本发明的方法获得的语音增强处理结果。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细描述。
对公式(1)和(2)所给出的信号模型xi(t)和xj(t)去掉时间延迟τi、τj之后再作傅立叶变换,得到
式中
和
是时间延迟去掉后xi(t+τi)和xj(t+τj)的傅立叶变换,(^)表示已经消除信号延迟;S(f)是纯净信号傅立叶变换;Ni(f)和Nj(f)是噪声的傅立叶变换;W是帧长。由公式(6),(7)得到带噪信号的互功率谱
其中
式中
是带噪信号xi(t+τi)和xj(t+τj)的互功率谱,φss(f)是纯净信号的自功率谱,φninj(f)和
分别是延迟去掉前、后的噪声互功率谱。τij=τi-τj是两通道i和j信号之间的时间延迟。
从公式(8)不难看出,为了得到纯净信号的自功率谱φss(f),首先要估计出式中噪声互功率谱部分,而在现有技术中,噪声互功率谱部分是被忽略掉的。公式(9)表明噪声互功率谱
随着时延τij的改变而变化的,这也是简单的延迟相加和维纳滤波算法不能处理移动声源的原因。根据以上分析,噪声互功率谱可通过下式得到:
式中
是延迟消除后噪声互功率谱估计,φ′ninj(f)是原始噪声互功率谱估计,它可在语音间隙获得。(·)′表示信号估计值。根据公式(8),(10)得到纯净信号功率谱估计
同时还可通过带噪信号自功率谱的计算估计φ′ss(f)。由公式(1)推出
因此得到
式中φ′ninj(f)是噪声功率谱估计。根据公式(11)、(13)把所有话筒组合求得的φ′ss(f)作平均以改善纯净信号自功率谱的估计,得到维纳滤波器的估计
R{.}表示取复数的实部。由于信号功率谱φss(f)只可能是正实数,所以还要对其作半波整型,去除可能出现的负数。
具体实现中,功率谱都通过如下迭带公式进行更新
式中X表示信号或噪声;φxixj(k+1,f)表示第k+1帧功率谱估计,φxixj(k,f)是第k帧功率谱估计。X(f)是信号x(k)的傅利叶变换,α是0到1之间的数,反映了功率谱更新快慢。
各通道噪声的互相关仅在低频部分较为明显,在高频部分可以基本忽略。因此为了合理降低运算量,可以把信号1kHz以下的低频部分用公式(14)滤波,而高频部分仍然用Zelinski的算法处理,如公式(5)所示。
图(1)是一段含噪语音处理结果,其中(a)是原始的带噪语音,(b)是采用Zelinski后滤波的语音增强处理结果,图(c)是采用本发明的方法获得的语音增强处理结果。从图中可以看出,Zelinski后滤波算法不能有效去除其中包含的低频噪声,而这部分噪声在1kHz以内,所以还无法用高通滤波去除;本发明的方法则基本去除了低频噪声。
Claims (4)
1、一种采用后置滤波器的语音增强方法,用于多通道语音信号的增强,包括如下步骤:
1)计算语音信号在各通道的时间延迟;
2)通过时延补偿,将各通道信号在时域对齐;
3)用波束形成器将各通道的信号进行波束形成;
4)估计纯净语音信号的自功率谱和带噪信号自功率谱,得到维纳滤波器的频响函数;
5)用后置的所述维纳滤波器对波束形成器的输出波束进行滤波,实现语音的增强;
其特征在于,步骤4)中,纯净语音信号的自功率谱通过如下步骤得到:
a)在所有的语音通道中任选两个通道作为一个组合;
b)估计所述通道组合中两个通道间的带噪信号互功率谱和噪声互功率谱;
c)在所述通道间的带噪信号互功率谱估计中去除噪声互功率谱估计得到通道间的纯净语音信号自功率谱估计;
d)将a)中所有可能的通道组合均进行b)和c)的操作,然后将所有得到的通道间的纯净语音信号自功率谱估计作平均,将该平均结果作为步骤4)中的纯净语音信号的自功率谱估计。
2、根据权利要求1所述的采用后置滤波器的语音增强方法,其特征在于,步骤4)中所述的带噪信号自功率谱是所有通道的带噪信号自功率谱的平均结果。
3、根据权利要求1或2所述的采用后置滤波器的语音增强方法,其特征在于,该语音增强方法只用于增强语音信号的低频部分。
4、根据权利要求1所述的采用后置滤波器的语音增强方法,其特征在于,所述多通道语音信号至少包括两个通道语音信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB031570747A CN1212608C (zh) | 2003-09-12 | 2003-09-12 | 一种采用后置滤波器的多通道语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB031570747A CN1212608C (zh) | 2003-09-12 | 2003-09-12 | 一种采用后置滤波器的多通道语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1523573A true CN1523573A (zh) | 2004-08-25 |
CN1212608C CN1212608C (zh) | 2005-07-27 |
Family
ID=34287137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB031570747A Expired - Fee Related CN1212608C (zh) | 2003-09-12 | 2003-09-12 | 一种采用后置滤波器的多通道语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1212608C (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100535993C (zh) * | 2005-11-14 | 2009-09-02 | 北京大学科技开发部 | 用于助听器的语音增强方法 |
CN101128867B (zh) * | 2005-02-23 | 2012-06-20 | 艾利森电话股份有限公司 | 多声道音频编码和/或解码中改进的滤波器平滑 |
CN101369427B (zh) * | 2007-08-13 | 2012-07-04 | 纽昂斯通讯公司 | 用于音频信号处理的方法和装置 |
CN103813251A (zh) * | 2014-03-03 | 2014-05-21 | 深圳市微纳集成电路与系统应用研究院 | 一种可调节去噪程度的助听器去噪装置和方法 |
CN104202098A (zh) * | 2014-08-08 | 2014-12-10 | 中国科学院上海微系统与信息技术研究所 | 一种基于多通道压缩采样的宽带功率谱估计方法 |
CN105100338A (zh) * | 2014-05-23 | 2015-11-25 | 联想(北京)有限公司 | 降低噪声的方法和装置 |
WO2015196729A1 (zh) * | 2014-06-27 | 2015-12-30 | 中兴通讯股份有限公司 | 一种麦克风阵列语音增强方法及装置 |
CN105261371A (zh) * | 2010-07-02 | 2016-01-20 | 杜比国际公司 | 选择性低音后置滤波器 |
CN106653048A (zh) * | 2016-12-28 | 2017-05-10 | 上海语知义信息技术有限公司 | 基于人声模型的单通道声音分离方法 |
CN108615535A (zh) * | 2018-05-07 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
CN108957392A (zh) * | 2018-04-16 | 2018-12-07 | 深圳市沃特沃德股份有限公司 | 声源方向估计方法和装置 |
CN109243476A (zh) * | 2018-10-18 | 2019-01-18 | 电信科学技术研究院有限公司 | 混响语音信号中后混响功率谱的自适应估计方法及装置 |
CN109538946A (zh) * | 2018-11-13 | 2019-03-29 | 阎兆立 | 一种城市自来水管道泄漏检测定位方法 |
-
2003
- 2003-09-12 CN CNB031570747A patent/CN1212608C/zh not_active Expired - Fee Related
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101128867B (zh) * | 2005-02-23 | 2012-06-20 | 艾利森电话股份有限公司 | 多声道音频编码和/或解码中改进的滤波器平滑 |
CN100535993C (zh) * | 2005-11-14 | 2009-09-02 | 北京大学科技开发部 | 用于助听器的语音增强方法 |
CN101369427B (zh) * | 2007-08-13 | 2012-07-04 | 纽昂斯通讯公司 | 用于音频信号处理的方法和装置 |
CN105261371A (zh) * | 2010-07-02 | 2016-01-20 | 杜比国际公司 | 选择性低音后置滤波器 |
CN105355209A (zh) * | 2010-07-02 | 2016-02-24 | 杜比国际公司 | 音高增强后置滤波器 |
CN103813251B (zh) * | 2014-03-03 | 2017-01-11 | 深圳市微纳集成电路与系统应用研究院 | 一种可调节去噪程度的助听器去噪装置和方法 |
CN103813251A (zh) * | 2014-03-03 | 2014-05-21 | 深圳市微纳集成电路与系统应用研究院 | 一种可调节去噪程度的助听器去噪装置和方法 |
CN105100338A (zh) * | 2014-05-23 | 2015-11-25 | 联想(北京)有限公司 | 降低噪声的方法和装置 |
WO2015196729A1 (zh) * | 2014-06-27 | 2015-12-30 | 中兴通讯股份有限公司 | 一种麦克风阵列语音增强方法及装置 |
CN104202098A (zh) * | 2014-08-08 | 2014-12-10 | 中国科学院上海微系统与信息技术研究所 | 一种基于多通道压缩采样的宽带功率谱估计方法 |
CN106653048A (zh) * | 2016-12-28 | 2017-05-10 | 上海语知义信息技术有限公司 | 基于人声模型的单通道声音分离方法 |
CN106653048B (zh) * | 2016-12-28 | 2019-10-15 | 云知声(上海)智能科技有限公司 | 基于人声模型的单通道声音分离方法 |
CN108957392A (zh) * | 2018-04-16 | 2018-12-07 | 深圳市沃特沃德股份有限公司 | 声源方向估计方法和装置 |
CN108615535A (zh) * | 2018-05-07 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
CN108615535B (zh) * | 2018-05-07 | 2020-08-11 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
CN109243476A (zh) * | 2018-10-18 | 2019-01-18 | 电信科学技术研究院有限公司 | 混响语音信号中后混响功率谱的自适应估计方法及装置 |
CN109243476B (zh) * | 2018-10-18 | 2021-09-03 | 电信科学技术研究院有限公司 | 混响语音信号中后混响功率谱的自适应估计方法及装置 |
CN109538946A (zh) * | 2018-11-13 | 2019-03-29 | 阎兆立 | 一种城市自来水管道泄漏检测定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1212608C (zh) | 2005-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Embedding and beamforming: All-neural causal beamformer for multichannel speech enhancement | |
CN1212608C (zh) | 一种采用后置滤波器的多通道语音增强方法 | |
CN102157156B (zh) | 一种单通道语音增强的方法和系统 | |
CN102456351A (zh) | 一种语音增强的系统 | |
CN1967658A (zh) | 小尺度麦克风阵列语音增强系统和方法 | |
CN101030383A (zh) | 声源分离装置、方法和程序 | |
WO2013009949A1 (en) | Microphone array processing system | |
CN103827967B (zh) | 语音信号复原装置以及语音信号复原方法 | |
CN1625920A (zh) | 音频装置及其再生用程序 | |
CN101587712B (zh) | 一种基于小型麦克风阵列的定向语音增强方法 | |
CN109901114B (zh) | 一种适用于声源定位的时延估计方法 | |
CN109671447A (zh) | 一种双通道欠定卷积混叠信号盲分离方法 | |
CN111225317A (zh) | 一种回声消除方法 | |
CN1763846A (zh) | 一种语音增益因子估计装置和方法 | |
CN1805278A (zh) | 使用波束形成算法来记录信号的方法和设备 | |
CN1180602C (zh) | 用于时空回声消除的方法和装置 | |
CN108962276B (zh) | 一种语音分离方法及装置 | |
Luo et al. | Audio-visual speech separation using i-vectors | |
CN1317691C (zh) | 一种自适应谷点降噪方法及系统 | |
CN1946105A (zh) | 基于语音信号分离模型的立体声回波消除方法及其系统 | |
Ngo et al. | Variable speech distortion weighted multichannel wiener filter based on soft output voice activity detection for noise reduction in hearing aids | |
CN1805011A (zh) | 一种提高移动通信设备语音质量的自适应滤波方法及装置 | |
CN115497495B (zh) | 用于检测或估计多个声源中的目标声源的方法和装置 | |
EP4315328A1 (fr) | Estimation d'un masque optimise pour le traitement de donnees sonores acquises | |
CN1224287C (zh) | 多采样率抗串扰阵列信号消噪方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |