CN105741849B - 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 - Google Patents
数字助听器中融合相位估计与人耳听觉特性的语音增强方法 Download PDFInfo
- Publication number
- CN105741849B CN105741849B CN201610125876.8A CN201610125876A CN105741849B CN 105741849 B CN105741849 B CN 105741849B CN 201610125876 A CN201610125876 A CN 201610125876A CN 105741849 B CN105741849 B CN 105741849B
- Authority
- CN
- China
- Prior art keywords
- noise
- signal
- frequency
- voice
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/0332—Details of processing therefor involving modification of waveforms
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
本发明公开数字助听器中融合相位估计与人耳听觉特性的语音增强方法,该方法首先通过傅里叶变换得到含噪语音的频域表达式;采用最小值控制递归平均方法获得噪声功率谱;获得初步增强语音和噪声的幅度谱;通过可改善低信噪比环境下语音失真的相位估计来修正语音和噪声的相位,获得初步增强语音和噪声;其次,将初步增强语音和噪声分别通过模拟人工耳蜗工作机理的gammatone滤波器组,进行滤波处理,对其时频分析,得到有时频单元组成的时频表示形式;最后,利用人耳的听觉特性,计算含噪语音在时频域的二值掩蔽,利用掩蔽值合成得到增强后的语音。该方法结合了人耳听觉特性,使数字助听器的输出语音信号的质量得到了很大的提高。
Description
技术领域
本发明属于语音信号处理技术领域,涉及到数字助听器中相位估计,语音增强两个语音信号处理技术。
背景技术
语言是人类相互沟通信息的重要工具。然而随着社会的不断发展,人们对信息需求越来越来高,耳聋阻碍着人类正常的信息交流,据统计,我国现有听力残疾人约2780万,其中,0至6岁听障儿童约13.7万,且每年以2.3万的数量递增。这是一个数量众多、困难突出的社会群体,听力损伤与耳聋已成为影响我国人口素质的重要因素之一。随着科技的进步,助听器越来越被人们重视,目前的医疗条件下使用助听器是听力患者克服听力障碍的主要方式。随着科学技术的发展,助听器技术也得到了不断地的提高和细化。数字助听器以数字信号处理器为核心,数字信号处理器的强大之处在于有着自适应、高信噪比、动态调整增益等功能。数字信号处理技术前所未有的优势给听力障碍患者带来了希望。与传统的模拟式助听器相比,数字助听器将声音分为多个频段,灵活划分频段,分别对其进行调试,选配更加灵活,解决了普通助听器难以克服的难题。并且数字助听器更具优势的是其灵活的算法,整体上摆脱了模拟电路固定化的算法制约,使其能够更加准确而又迅速的处理声源信号,更好的完成既定目标。可以说借着数字集成电路及数字信号处理技术的发展,数字助听器得到了迅速发展。
数字助听器的基本工作原理,如图2所示。首先,数字助听器主要有麦克风,A/D转化器、数字信号处理芯片、D/A转化器和扬声器5部分组成。外界的声音信号经麦克风进行采集,麦克风将外界的声音信号转换成模拟信号,然后,通过数字助听器中内置的放大器将信号进行放大,接着通过A/D转换器,将模拟信号转换为数字信号。在经过数字信号处理芯片对含噪语音信号进行处理,接着将处理后的数字信号再通过D/A转换器,将处理后的数字信号转换为模拟信号,最后在经过放大输出至佩戴者耳中。
在整个数字助听器工作过程中,数字信号处理芯片中的算法是数字助听器的核心内容。通过语音处理算法提高语音的信噪比,改变语音的频谱分布,使语音能让患者感知到;自动适应环境,有效降低噪声,提高言语的清晰度;模仿人类正常耳蜗功能,提高患者对不同声音环境的适应性。
如何在保证可懂度的情况下尽可能的降低噪声是数字助听器设计的一大难题。目前数字助听器大多采用的语音增强算法都是基于短时谱估计的语音增强算法。该类方法与其他方法相比,其原理简单,易于在硬件系统上实现。虽然这类算法在实际应用中具备一定的优势,但是此类算法在增强之后会残留一定的“音乐噪声”,会严重影响语音信号的清晰度和可懂度,造成语音信号的部分频率成分的丢失和失真。在保证语音可懂度的情况下降低背景噪声对提高数字助听器的性能具有重大意义。现实生活中,人们需要实时的进行沟通交流,数字助听器也需要很高的实时处理性,这就对数字助听器的算法提出了一定特殊要求,算法的低复杂度,低功耗,高效实时性等等。使耳障患者不仅有对言语可懂度的提高也具备一定的听觉舒适度。
本发明提出一种相位估计、语音增强与人耳听觉特性相结合的数字助听器方法,该方法利用了人耳的听觉掩蔽特性,结合相位估计和人耳听觉特性的优点,首先,通过傅里叶变换得到含噪语音的频域表达式;接着,采用最小值控制递归平均方法获得噪声功率谱;然后,通过对数幅度谱估计,得到增强语音和噪声的幅度谱增益函数,获得初步增强语音和噪声;其次,将初步增强语音和噪声分别通过模拟人工耳蜗工作机理的gammatonel滤波器组,对其进行时频分析,得到有时频单元组成的时频表示形式;然后,利用人耳的听觉特性,计算含噪语音在时频域的二值掩蔽;最后,利用语音合成得到增强后的语音。
发明内容
本发明针对现有数字助听器中语音增强算法在非平稳的外界噪声环境下,尤其是在低信噪比环境下,残留大量的背景噪声,还引入了“音乐噪声”,影响语音信号的清晰度,造成语音信号的部分频率成分的丢失和失真,致使数字助听器佩戴者对言语可懂度和舒适度不理想等问题,提出了一种相位估计、语音增强与人耳听觉特性相结合的数字助听器方法,该方法利用了人耳的听觉掩蔽特性,结合相位估计和人耳听觉特性的优点,能够有效的去除大量“音乐噪声”,克服了低信噪比环境下语音失真大等问题,改善了语音的质量,使输出语音信号的信噪比和可懂度都得到了较大的提高。
为了解决以上所述的问题,本发明采用的技术方案是:通过对数幅度谱估计和语音相位估计修正初步增强语音的相位,获得较为准确的语音信号和噪声,接着通过基于可以模拟人耳听觉特性,能对人耳基底膜进行仿真的gammatone滤波器组,对语音信号和噪声进行时频分析,计算二值掩蔽,利用了人耳听觉感知理论,结合了人耳听觉掩蔽特性。具体过程包括步骤如下:
步骤一,数字助听器的输入信号进行预处理,首先对输入信号进行去均值、归一化、预加重、分帧、加窗处理;
步骤二,通过傅里叶变换计算出含噪语音信号的频谱;
步骤三,通过最小值控制递归平均算法,计算出含噪语音信号中的噪声分量即噪声功率;
步骤四,通过估计出来的噪声功率得到后验信噪比,利用判决引导法得到先验信噪比;
步骤五,通过先验信噪比和后验信噪比得出对数幅度谱估计器增益函数,利用对数幅度谱估计器从含噪语音中得到初步增强的语音信号的幅度谱;
步骤六,根据语音和噪声频谱的统计模型的对称性得到用先验信噪比倒数形式表示的噪声频谱估计值,推导出噪声的增益函数,进而从含噪语音中得到噪声信号的幅度谱;
步骤七,相位估计,利用噪声相位和步骤五、步骤六得到的语音信号幅度谱和噪声幅度谱估计出其相位修正值,得到语音信号和噪声的相位;
步骤八,进行傅里叶逆变换,将初步增强的语音信号幅度谱和噪声幅度谱,乘以从步骤七中修正后的相位,然后通过傅里叶逆变换分别得到初步增强的语音信号和噪声信号;
步骤九,时频处理,利用人耳听觉感知理论,结合人耳的听觉特性和耳蜗的工作机理,将初步增强的语音信号和噪声信号分别通过可以模拟人工耳蜗模型的gammatone滤波器组进行滤波处理,将其频谱范围非均匀地分为N个频带,得到由时频单元组成的时频表达形式;
步骤十,利用人耳的听觉掩蔽特性,计算出含噪语音在时频域的二值掩蔽;
步骤十一,时频掩蔽,利用步骤十得到的掩蔽值得到最终的输出信号。
有益效果
本发明提出一种相位估计、语音增强与人耳听觉特性相结合的数字助听器算法,该算法利用了人耳的听觉掩蔽特性,结合相位估计和人耳听觉特性的优点,首先,通过傅里叶变换得到含噪语音的频域表达式;接着,采用最小值控制递归平均算法获得噪声功率谱;然后,通过对数幅度谱估计,得到增强语音和噪声的幅度谱增益函数,获得初步增强语音和噪声的幅度谱;然后通过可改善低信噪比环境下语音失真的相位估计算法修正增强语音和噪声的相位,从而获得初步增强语音和噪声;其次,将初步增强语音和噪声分别通过模拟人工耳蜗工作机理的gammatonel滤波器组,进行滤波处理,对其时频分析,得到有时频单元组成的时频表示形式;然后,利用人耳的听觉特性,计算含噪语音在时频域的二值掩蔽;最后,利用掩蔽值合成得到增强后的语音。该方法利用了低信噪比环境下修正语音相位可减少语音失真和对数幅度谱估计提高听觉舒适度的特点,结合了人耳听觉特性,保留了语音特征,使数字助听器的输出语音信号的质量得到了很大的提高。
附图说明
图1本发明的实现流程图。
图2数字助听器工作原理框图。
图3gammatone滤波器组中各个滤波器的频响。
具体实施方式
步骤一,对数字助听器的输入信号进行预处理,即去均值、归一化、预加重、分帧、加窗;
数字助听器的模拟输入信号x(t),在模/数转换过程中,采样率为16kHz的采样率,转换后的数字信号为x(n),n表示时域的序列号;为了消除直流分量,采用去均值;避免因为输入输出数据数量级差别较大而造成较大误差,对数据进行归一化;由于语音信号的高频段能量小,造成高频传输衰弱,预加重针对高频部分进行加重,提高信号传输质量。去均值公式如式(1),归一化公式如式(2),预加重公式如式(3)所示。
x1(n)=x(n)-mean(x(n)) (1)
式中,n为样点数,mean(x(n))是x(n)序列的平均值,x1(n)是去均值后的信号。
式中,n为样点数,xmax是x(n)序列的最大值,xmin是x(n)序列的最小值,x2(n)是归一化后的信号。
x3(n)=x2(n)-a×x2(n-1) (3)
式中,n为样点数,a是系数,这里取0.9375,x3(n)是预加重之后的信号。
利用哈明窗对x3(n)进行分帧、加窗,根据语音信号的短时平稳特性,取20ms为一帧的长度,帧移长度为10ms,哈明窗函数定义如式(4),分帧、加窗定义如式(5)所示。
式中,n为样点数,w(n)是哈明窗函数,L为窗长。
y(n)=x3(n)×w(n)0≤n≤L-1 (5)
式中,n为样点数,y(n)是分帧、加窗后的信号,x3(n)是预加重之后的信号,w(n)是哈明窗函数。
步骤二,通过傅里叶变换计算出含噪语音信号的频谱Y(λ,k),对每帧含噪语音信号进行2N点离散傅立叶变换傅里叶变换得到每帧含噪语音信号的频谱,如式(6)所示;
式(6)中Y(λ,k)表示第λ帧在频点为k处的频谱,k表示频域的序列号;
带噪语音信号频谱Y(λ,k)表示为复指数形式为:
|Y(λ,k)|、|X(λ,k)|、|D(λ,k)|分别代表带噪语音、纯净语音、噪声分量的谱幅度,表示第λ帧频域第k个频谱分量的相位。
步骤三,通过最小值控制递归平均算法,估计出含噪语音信号中的噪声功率谱
本发明中噪声估计采用最小值控制递归平均算法,该方法利用无语音段来更新噪声估计,有语音段则保持不变,考虑了语音存在概率,能够实时跟踪快速变化的噪声,具有较好的鲁棒性,利于减小信号的失真。
噪声功率的估计基于公式(7)以下两个略作修改的假设:
其中,表示语音不存在,表示语音存在,λ表示分帧后帧信号的序列号,k表示离散频率点的序列号,表示当前分析的第λ帧在频率点k处的噪声估计功率谱。α是一个固定值,0到1的取值范围,在本发明中取为0.97;|Y(λ,k)2表示当前分析的第λ帧在频率点k处含噪语音信号的功率谱。
噪声功率谱密度的均方估计表示如公式(8):
基于公式(7)的两个假设,可以将表示为式(9)
其中αd(λ,k)=α+(1-α)p(λ,k)其取值范围为α≤αd(λ,k)≤1,需要计算所需的p(λ,k)以估计平滑因子αd(λ,k),各频点存在语音的概率p(λ,k)通过带噪语音功率谱与其局部最小值之比来计算。带噪语音功率谱密度的平滑估计计算如下:
S(λ,k)=αdS(λ-1)+(1-αs)Sf(λ,k) (10)
其中为αs平滑因子本发明中取0.6,其中为窗函数,窗长为2Lw+1,局部最小值Smin(λ,k)通过在一个D帧的固定窗口长度上,通过与过去每一个S(λ,k)值进行对比得到,平滑的语音功率谱S(λ,k)与其局部最小值Smin(λ,k)之比表示为:将该比值与一阈值δ进行比较得到频谱上存在语音的区域:
if Sr(λ,k)≥δ
P(λ,k)=1语音存在
else
p(λ,k)=0语音不存在
end
语音的存在概率通过下面的递归公式(11),在时间上进行平滑,计算出语音存在概率p(λ,k)
最后,将其代入公式中得到估计噪声功率谱
步骤四,通过步骤三估计出来的噪声功率得到后验信噪比γk,如式所示,利用判决引导法得到先验信噪比ξk;判决引导法它是基于ξk的定义及其后验信噪比γk的关系,ξk的更新是根据上一次的幅度估计的信息,算法如式(12)所示:
其中表示后验信噪比,
步骤五,通过先验信噪比ξk和后验信噪比γk得出对数幅度谱估计器增益函数GLSA(ξk,γk),采用公式(13)得到初步增强语音信号的幅度谱;
其中
步骤六,根据语音和噪声频谱的统计模型的对称性得到用先验信噪比倒数形式表示的噪声频谱估计值,推导出噪声的增益函数HLSA(ξk,γk),噪声幅度可用公式(14)表示:
其中
将上述两式带入公式(13)可得噪声的幅度谱:
其中,
步骤七,相位估计,利用噪声相位和步骤五、步骤六得到的语音信号幅度谱和噪声幅度谱估计出其相位修正值,得到语音信号和噪声的相位;
步骤八,进行傅里叶逆变换,将初步增强的语音信号幅度谱和噪声幅度谱,乘以从步骤七中修正后的语音的相位,然后通过傅里叶逆变换,公式(17)、(18),分别得到初步增强的语音信号和噪声信号;
步骤九,时频处理,利用人耳听觉感知理论,结合人耳的听觉特性和耳蜗的工作机理,将初步增强的语音信号和噪声信号分别通过模拟人工耳蜗模型的gammatone滤波器组进行滤波处理,将其频谱范围非均匀地分为N个频带,得到由时频单元组成的时频表达形式,使用公式(19)、(20)得到;
Bandx(λ,i,n)=x(λ,n)*g(n,f(i))i=1,2,3,…,128 (19)
Bandd(λ,i,n)=d(λ,n)*g(n,f(i))i=1,2,3,…,128 (20)
其中,Bandx(λ,i,n)表示初步增强语音信号x(λ,n)在第λ帧的第i频带的信号,Bandd(λ,i,n)表示估计噪声信号d(λ,n)在第λ帧的第i频带的信号;g(n,f(i))表示gammatone滤波器组,中心频率为f(i)。gammatone滤波器组可模拟耳蜗中的基底膜对输入信号进行滤波,耳蜗对声音的频率分辨率是非均匀的,在80HZ~5000HZ范围,gammatone滤波器组的中心频率内以准对数形式分布,并以等距形带宽的方式均匀地分布在语音信号所占据的频率范围内。gammatone滤波器的脉冲响应如图2所示,具有以下形式:
式中a=4,表示滤波器的阶数。b(f)表示中心频率为f时的等距形带宽,随着f的增加而变宽。
步骤十,利用人耳的听觉掩蔽特性,计算出含噪语音在时频域的掩蔽值,得到最终的输出信号。理想二值掩蔽是为了保留混合信号中由目标语音主导的声音分量,去除由噪声主导的声音分量,从而实现目标语音信号和噪声信号的分离。首先将混合信号中的初步增强语音和估计噪声信号都分解为时频域二维表示形式,然后,计算出每个时频单元的能量,本发明中利用式(22)计算估计二值掩蔽。
式中,表示初步增强语音信号的能量,表示噪声信号的能量,表示估计的信噪比。如果时频单元内目标语音的能量大于噪声的能量,该时频单元为‘1’,否则为‘0’。
最后将每个频带的时频掩蔽值分别乘以该频带的信号,最后将所有频带相加得到最终的输出信号,如公式(23)。
如图3所示为gammatone滤波器组中各个滤波器的频响。
Claims (2)
1.数字助听器中融合相位估计与人耳听觉特性的语音增强方法,其特征在于:通过对数幅度谱估计和语音相位估计修正初步增强语音的相位,获得较为准确的语音信号和噪声,接着通过基于可以模拟人耳听觉特性,能对人耳基底膜进行仿真的gammatone滤波器组,对语音信号和噪声进行时频分析,计算二值掩蔽,利用了人耳听觉感知理论,结合了人耳听觉掩蔽特性;具体过程包括步骤如下,
步骤一,数字助听器的输入信号进行预处理,首先对输入信号进行去均值、归一化、预加重、分帧、加窗处理;
步骤二,通过傅里叶变换计算出含噪语音信号的频谱;
步骤三,通过最小值控制递归平均算法,计算出含噪语音信号中的噪声分量即噪声功率;
步骤四,通过估计出来的噪声功率得到后验信噪比,利用判决引导法得到先验信噪比;
步骤五,通过先验信噪比和后验信噪比得出对数幅度谱估计器增益函数,利用对数幅度谱估计器从含噪语音中得到初步增强的语音信号的幅度谱;
步骤六,根据语音和噪声频谱的统计模型的对称性得到用先验信噪比倒数形式表示的噪声频谱估计值,推导出噪声的增益函数,进而从含噪语音中得到噪声信号的幅度谱;
步骤七,相位估计,利用噪声相位和步骤五、步骤六得到的语音信号幅度谱和噪声幅度谱估计出其相位修正值,得到语音信号和噪声的相位;
步骤八,进行傅里叶逆变换,将初步增强的语音信号幅度谱和噪声幅度谱,乘以从步骤七中修正后的相位,然后通过傅里叶逆变换分别得到初步增强的语音信号和噪声信号;
步骤九,时频处理,利用人耳听觉感知理论,结合人耳的听觉特性和耳蜗的工作机理,将初步增强的语音信号和噪声信号分别通过可以模拟人工耳蜗模型的gammatone滤波器组进行滤波处理,将其频谱范围非均匀地分为N个频带,得到由时频单元组成的时频表达形式;
步骤十,利用人耳的听觉掩蔽特性,计算出含噪语音在时频域的二值掩蔽;
步骤十一,时频掩蔽,利用步骤十得到的掩蔽值得到最终的输出信号。
2.根据权利要求1所述的数字助听器中融合相位估计与人耳听觉特性的语音增强方法,其特征在于:步骤一,对数字助听器的输入信号进行预处理,即去均值、归一化、预加重、分帧、加窗;
数字助听器的模拟输入信号x(t),在模/数转换过程中,采样率为16kHz的采样率,转换后的数字信号为x(n),n表示时域的序列号;为了消除直流分量,采用去均值;避免因为输入输出数据数量级差别较大而造成较大误差,对数据进行归一化;由于语音信号的高频段能量小,造成高频传输衰弱,预加重针对高频部分进行加重,提高信号传输质量;去均值公式如式(1),归一化公式如式(2),预加重公式如式(3)所示;
x1(n)=x(n)-mean(x(n)) (1)
式中,n为样点数,mean(x(n))是x(n)序列的平均值,x1(n)是去均值后的信号;
式中,n为样点数,xmax是x(n)序列的最大值,xmin是x(n)序列的最小值,x2(n)是归一化后的信号;
x3(n)=x2(n)-a×x2(n-1) (3)
式中,n为样点数,a是系数,这里取0.9375,x3(n)是预加重之后的信号;
利用哈明窗对x3(n)进行分帧、加窗,根据语音信号的短时平稳特性,取20ms为一帧的长度,帧移长度为10ms,哈明窗函数定义如式(4),分帧、加窗定义如式(5)所示;
式中,n为样点数,w(n)是哈明窗函数,L为窗长;
y(n)=x3(n)×w(n) 0≤n≤L-1 (5)
式中,n为样点数,y(n)是分帧、加窗后的信号,x3(n)是预加重之后的信号,w(n)是哈明窗函数;
步骤二,通过傅里叶变换计算出含噪语音信号的频谱Y(λ,k),对每帧含噪语音信号进行2N点离散傅里叶变换得到每帧含噪语音信号的频谱,如式(6)所示;
式(6)中Y(λ,k)表示第λ帧在频点为k处的频谱,k表示频域的序列号;
带噪语音信号频谱Y(λ,k)表示为复指数形式为:
|Y(λ,k)|、|X(λ,k)|、|D(λ,k)|分别代表带噪语音、纯净语音、噪声分量的谱幅度,表示第λ帧频域第k个频谱分量的相位;
步骤三,通过最小值控制递归平均算法,估计出含噪语音信号中的噪声功率谱
噪声估计采用最小值控制递归平均算法,利用无语音段来更新噪声估计,有语音段则保持不变,考虑了语音存在概率,能够实时跟踪快速变化的噪声,具有较好的鲁棒性,利于减小信号的失真;
噪声功率的估计基于公式(7):
其中,表示语音不存在,表示语音存在,λ表示分帧后帧信号的序列号,k表示离散频率点的序列号,表示当前分析的第λ帧在频率点k处的噪声估计功率谱;α是一个固定值,0到1的取值范围,取为0.97;|Y(λ,k)|2表示当前分析的第λ帧在频率点k处含噪语音信号的功率谱;
噪声功率谱密度的均方估计表示如公式(8):
基于公式(7),将噪声功率谱密度表示为式(9)
其中αd(λ,k)=α+(1-α)p(λ,k)其取值范围为α≤αd(λ,k)≤1,需要计算所需的p(λ,k)以估计平滑因子αd(λ,k),各频点存在语音的概率p(λ,k)通过带噪语音功率谱与其局部最小值之比来计算;带噪语音功率谱密度的平滑估计计算如下:
S(λ,k)=αdS(λ-1)+(1-αs)Sf(λ,k) (10)
其中为αs平滑因子取0.6,其中为窗函数,窗长为2Lw+1,局部最小值Smin(λ,k)通过在一个D帧的固定窗口长度上,通过与过去每一个S(λ,k)值进行对比得到,平滑的语音功率谱S(λ,k)与其局部最小值Smin(λ,k)之比表示为:将该比值与一阈值δ进行比较得到频谱上存在语音的区域:
如果Sr(λ,k)≥δ,p(λ,k)=1,表示语音存在;
如果Sr(λ,k)<δ,p(λ,k)=0,表示语音不存在;
语音的存在概率通过下面的递归公式(11),在时间上进行平滑,计算出语音存在概率p(λ,k)
最后,将p(λ,k)代入式(9)中得到估计噪声功率谱
步骤四,通过步骤三估计出来的噪声功率得到后验信噪比γk,如式所示,利用判决引导法得到先验信噪比ξk;判决引导法它是基于ξk的定义及其后验信噪比γk的关系,ξk的更新是根据上一次的幅度估计的信息,算法如式(12)所示:
其中表示后验信噪比,
步骤五,通过先验信噪比ξk和后验信噪比γk得出对数幅度谱估计器增益函数GLSA(ξk,γk),采用公式(13)得到初步增强语音信号的幅度谱;
其中
步骤六,根据语音和噪声频谱的统计模型的对称性得到用先验信噪比倒数形式表示的噪声频谱估计值,推导出噪声的增益函数HLSA(ξk,γk),噪声幅度用公式(14)表示:
其中
将上述式(14)带入公式(13)得噪声的幅度谱:
其中,
步骤七,相位估计,利用噪声相位和步骤五、步骤六得到的语音信号幅度谱和噪声幅度谱估计出其相位修正值,得到语音信号和噪声的相位;
步骤八,进行傅里叶逆变换,将初步增强的语音信号幅度谱和噪声幅度谱,乘以从步骤七中修正后的语音的相位,然后通过傅里叶逆变换,公式(17)、(18),分别得到初步增强的语音信号和噪声信号;
步骤九,时频处理,利用人耳听觉感知理论,结合人耳的听觉特性和耳蜗的工作机理,将初步增强的语音信号和噪声信号分别通过模拟人工耳蜗模型的gammatone滤波器组进行滤波处理,将其频谱范围非均匀地分为N个频带,得到由时频单元组成的时频表达形式,使用公式(19)、(20)得到;
Bandx(λ,i,n)=x(λ,n)*g(n,f(i))i=1,2,3,…,128 (19)
Bandd(λ,i,n)=d(λ,n)*g(n,f(i))i=1,2,3,…,128 (20)
其中,Bandx(λ,i,n)表示初步增强语音信号x(λ,n)在第λ帧的第i频带的信号,Bandd(λ,i,n)表示估计噪声信号d(λ,n)在第λ帧的第i频带的信号;g(n,f(i))表示gammatone滤波器组,中心频率为f(i);gammatone滤波器组可模拟耳蜗中的基底膜对输入信号进行滤波,耳蜗对声音的频率分辨率是非均匀的,在80HZ~5000HZ范围,gammatone滤波器组的中心频率内以准对数形式分布,并以等距形带宽的方式均匀地分布在语音信号所占据的频率范围内;gammatone滤波器的脉冲响应具有以下形式:
式中a=4,表示滤波器的阶数;b(f)表示中心频率为f时的等距形带宽,随着f的增加而变宽;
步骤十,利用人耳的听觉掩蔽特性,计算出含噪语音在时频域的掩蔽值,得到最终的输出信号;理想二值掩蔽是为了保留混合信号中由目标语音主导的声音分量,去除由噪声主导的声音分量,从而实现目标语音信号和噪声信号的分离;首先将混合信号中的初步增强语音和估计噪声信号都分解为时频域二维表示形式,然后,计算出每个时频单元的能量,利用式(22)计算估计二值掩蔽;
式中,表示初步增强语音信号的能量,表示噪声信号的能量,表示估计的信噪比;如果时频单元内目标语音的能量大于噪声的能量,该时频单元为‘1’,否则为‘0’;
最后将每个频带的时频掩蔽值分别乘以该频带的信号,最后将所有频带相加得到最终的输出信号,如公式(23);
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610125876.8A CN105741849B (zh) | 2016-03-06 | 2016-03-06 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610125876.8A CN105741849B (zh) | 2016-03-06 | 2016-03-06 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105741849A CN105741849A (zh) | 2016-07-06 |
CN105741849B true CN105741849B (zh) | 2019-03-22 |
Family
ID=56249168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610125876.8A Expired - Fee Related CN105741849B (zh) | 2016-03-06 | 2016-03-06 | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105741849B (zh) |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017094862A1 (ja) * | 2015-12-02 | 2017-06-08 | 日本電信電話株式会社 | 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム |
CN106098077B (zh) * | 2016-07-28 | 2023-05-05 | 浙江诺尔康神经电子科技股份有限公司 | 一种带降噪的人工耳蜗言语处理系统及方法 |
CN106356071B (zh) * | 2016-08-30 | 2019-10-25 | 广州市百果园网络科技有限公司 | 一种噪声检测方法,及装置 |
CN106297818B (zh) * | 2016-09-12 | 2019-09-13 | 广州酷狗计算机科技有限公司 | 一种获取去噪语音信号的方法和装置 |
CN108074582B (zh) * | 2016-11-10 | 2021-08-06 | 电信科学技术研究院 | 一种噪声抑制信噪比估计方法和用户终端 |
CN106653047A (zh) * | 2016-12-16 | 2017-05-10 | 广州视源电子科技股份有限公司 | 一种音频数据的自动增益控制方法与装置 |
CN106847301A (zh) * | 2017-01-03 | 2017-06-13 | 东南大学 | 一种基于压缩感知和空间方位信息的双耳语音分离方法 |
CN108389586A (zh) * | 2017-05-17 | 2018-08-10 | 宁波桑德纳电子科技有限公司 | 一种远程集音装置、监控装置及远程集音方法 |
CN107393533B (zh) * | 2017-07-28 | 2019-12-10 | 侨伟运动器材(南京)有限公司 | 一种通过语音控制跑步机的装置 |
CN107799122B (zh) * | 2017-09-08 | 2020-10-23 | 中国科学院深圳先进技术研究院 | 一种高生物拟真性语音处理滤波器与语音识别设备 |
CN109493877B (zh) * | 2017-09-12 | 2022-01-28 | 清华大学 | 一种助听装置的语音增强方法和装置 |
CN108053829B (zh) * | 2017-12-29 | 2020-06-02 | 华中科技大学 | 一种基于耳蜗听觉非线性动力学机理的电子耳蜗编码方法 |
WO2020014931A1 (zh) * | 2018-07-19 | 2020-01-23 | 深圳市汇顶科技股份有限公司 | 语音增强方法、装置、设备及存储介质 |
US10726856B2 (en) * | 2018-08-16 | 2020-07-28 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for enhancing audio signals corrupted by noise |
CN109410976B (zh) * | 2018-11-01 | 2022-12-16 | 北京工业大学 | 双耳助听器中基于双耳声源定位和深度学习的语音增强方法 |
CN110827847B (zh) * | 2019-11-27 | 2022-10-18 | 添津人工智能通用应用系统(天津)有限公司 | 低信噪比见长的麦克风阵列语音去噪增强方法 |
CN111161699B (zh) * | 2019-12-30 | 2023-04-28 | 广州心与潮信息科技有限公司 | 一种环境噪音的掩蔽方法、装置及设备 |
CN111429927B (zh) * | 2020-03-11 | 2023-03-21 | 云知声智能科技股份有限公司 | 提升个性化合成语音质量的方法 |
CN111899752B (zh) * | 2020-07-13 | 2023-01-10 | 紫光展锐(重庆)科技有限公司 | 快速计算语音存在概率的噪声抑制方法及装置、存储介质、终端 |
CN111968662B (zh) * | 2020-08-10 | 2024-09-03 | 北京小米松果电子有限公司 | 音频信号的处理方法及装置、存储介质 |
CN112102818B (zh) * | 2020-11-19 | 2021-01-26 | 成都启英泰伦科技有限公司 | 结合语音活性检测和滑动窗噪声估计的信噪比计算方法 |
CN112614507B (zh) * | 2020-12-09 | 2024-06-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 检测噪声的方法和装置 |
CN112599136A (zh) * | 2020-12-15 | 2021-04-02 | 江苏惠通集团有限责任公司 | 基于声纹识别的语音识别方法及装置、存储介质、终端 |
CN113409813B (zh) * | 2021-05-26 | 2023-06-06 | 北京捷通华声科技股份有限公司 | 语音分离方法及装置 |
CN114005457A (zh) * | 2021-11-09 | 2022-02-01 | 西安邮电大学 | 一种基于幅度估计与相位重构的单通道语音增强方法 |
CN114067825B (zh) * | 2021-11-17 | 2025-01-10 | 随锐科技集团股份有限公司 | 一种基于时频掩蔽估计的舒适噪声产生方法及其应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103475986A (zh) * | 2013-09-02 | 2013-12-25 | 南京邮电大学 | 基于多分辨率小波的数字助听器语音增强方法 |
CN103778920A (zh) * | 2014-02-12 | 2014-05-07 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
CN104464728A (zh) * | 2014-11-26 | 2015-03-25 | 河海大学 | 基于gmm噪声估计的语音增强方法 |
CN104867499A (zh) * | 2014-12-26 | 2015-08-26 | 深圳市微纳集成电路与系统应用研究院 | 一种用于助听器的分频段维纳滤波去噪方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050288923A1 (en) * | 2004-06-25 | 2005-12-29 | The Hong Kong University Of Science And Technology | Speech enhancement by noise masking |
-
2016
- 2016-03-06 CN CN201610125876.8A patent/CN105741849B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103475986A (zh) * | 2013-09-02 | 2013-12-25 | 南京邮电大学 | 基于多分辨率小波的数字助听器语音增强方法 |
CN103778920A (zh) * | 2014-02-12 | 2014-05-07 | 北京工业大学 | 数字助听器中语音增强和频响补偿相融合方法 |
CN104464728A (zh) * | 2014-11-26 | 2015-03-25 | 河海大学 | 基于gmm噪声估计的语音增强方法 |
CN104867499A (zh) * | 2014-12-26 | 2015-08-26 | 深圳市微纳集成电路与系统应用研究院 | 一种用于助听器的分频段维纳滤波去噪方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105741849A (zh) | 2016-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105741849B (zh) | 数字助听器中融合相位估计与人耳听觉特性的语音增强方法 | |
CN103778920B (zh) | 数字助听器中语音增强和频响补偿相融合方法 | |
AU771444B2 (en) | Noise reduction apparatus and method | |
CN102157156B (zh) | 一种单通道语音增强的方法和系统 | |
CN105679330B (zh) | 基于改进子带信噪比估计的数字助听器降噪方法 | |
CN108986832B (zh) | 基于语音出现概率和一致性的双耳语音去混响方法和装置 | |
CN101901602B (zh) | 一种利用受损听力的听阈进行降噪的方法 | |
CN104810024A (zh) | 一种双路麦克风语音降噪处理方法及系统 | |
CN108735225A (zh) | 一种基于人耳掩蔽效应与贝叶斯估计的改进谱减方法 | |
CN107886967A (zh) | 一种深度双向门递归神经网络的骨导语音增强方法 | |
CN103761974B (zh) | 一种人工耳蜗 | |
SG185689A1 (en) | Method of signal processing in a hearing aid system and a hearing aid system | |
CN110602621B (zh) | 一种数字助听器降噪方法、系统及专用dsp | |
CN104867499A (zh) | 一种用于助听器的分频段维纳滤波去噪方法和系统 | |
DE102008031150B3 (de) | Verfahren zur Störgeräuschunterdrückung und zugehöriges Hörgerät | |
Schröter et al. | Low latency speech enhancement for hearing aids using deep filtering | |
CN110830898A (zh) | 脑电图辅助的波束形成器和波束形成方法以及耳戴式听力系统 | |
CN112367600A (zh) | 一种语音处理方法及基于移动终端的助听器系统 | |
Mourao et al. | Speech intelligibility for cochlear implant users with the MMSE noise-reduction time-frequency mask | |
CN109215635B (zh) | 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法 | |
CN117219102A (zh) | 一种基于听觉感知的低复杂度语音增强方法 | |
CN116168719A (zh) | 一种基于语境分析的声音增益调节方法及系统 | |
Sun et al. | An RNN-based speech enhancement method for a binaural hearing aid system | |
CN111491245B (zh) | 基于循环神经网络的数字助听器声场识别算法及实现方法 | |
Chen et al. | Modeling speech intelligibility with recovered envelope from temporal fine structure stimulus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190322 |