CN1113335A

CN1113335A - 降低语音信号中噪声的方法和检测噪声域的方法

Info

Publication number: CN1113335A
Application number: CN95104844A
Authority: CN
Inventors: 陈志浩; 西口正之
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1994-05-13
Filing date: 1995-05-12
Publication date: 1995-12-13
Also published as: US5668927A; EP1065656B1; DE69531710T2; JPH07306695A; EP0683482A3; DE69522605D1; EP1065656A3; EP0683482A2; EP0683482B1; KR950034057A; JP3484757B2; EP1065657B1; EP1065657A1; TW262620B; US5771486A; DE69529002D1; EP1065656A2; DE69522605T2; MY121946A; KR100335162B1

Abstract

一种语音信号降噪方法，通过用输入信号频谱减去估计噪声谱的谱减法计算语音出现概率，按计算的语音出现概率自适应控制最大似然滤波器。按输入信号的信噪比获得最佳抑制因子，因此用户不必要在实际应用前实行调节。此外，一种检测噪声域的方法，利用当前帧RMS值或以前帧乘以系数α的值 th，不管哪个值较小来计算为实际噪声域鉴别用于得出阈值Th1的值th，系数α依据当前帧的RMS值而变。

Description

本发明涉及降低语音信号中噪声的方法以及检测噪声域的方法。更准确地说，是涉及一种通过自适应控制用于根据语音出现概率和按输入语音信号计算的信噪比计算语音分量的最大似然滤波器而达到噪声抑制的降低语音信号中噪声的方法，以及适用于该降噪方法的噪声域检测方法。

在便携式电话或语音识别中，认为有必要抑制收集的语音信号中所含的环境噪音或背景噪声并增强语音分量。

作为增强语音或降低噪声的技术，在IEEE文集“Acoust，Speech，Signal Processing”的1980年4月第28卷第137-145页R.J.McAulay和M.L.Malpass所著“利用软判定（Soft-Decision）噪声抑制滤波器实现语音增强”以及IEEE ICASSP 1993年4月第二卷第363-366页J.Yang所著“移动电话系统中频域噪声抑制方法”中说明了利用条件概率函数调整衰减因子的技术。

利用这些噪声抑制技术，常常会出现这样的情况，由于基于不适当的固定信噪比（S/N）或不适当的抑制因子的操作而产生不自然的音调或畸变的语音。在实际应用中，在达到最佳性能的噪声抑制系统的参数中用户不希望调节信噪比。此外，用常规语音信号增强技术难于在不附带产生对短期信噪比相当大起伏敏感的语音信号畸变的情况下充分地消除噪声。

对于上述语音增强或降噪方法而言，用到了检测噪声域的技术，其中将输入电平或功率与用于区分噪声域的预定阈值相比较。然而，如果为防止跟踪语音而增大阈值的时间常数，跟随噪声电平的变化尤其是噪声电平的增加就变得不可能，由此导至错误区分。

鉴于以上所述，本发明的目的是提供一种降低语音信号中噪声的方法，根据输入语音信号，将抑制因子调节到相对实际输入的信噪比最佳的值，并达到充分消除噪声而不产生作为附加效应的畸变或不必由用户预先调节。

本发明的另一目的是提供一种检测噪声域的方法，按照响应输入信号的最佳阈值实现噪声域区分，即使在噪声电平起伏时也可排除错误区分。

一方面，本发明提供降低输入语音信号中噪声的方法，通过自适应控制适用于根据语音出现概率和按输入语音信号计算的信噪比计算语音分量的最大似然滤波器而实现噪声抑制。特别地，在计算语音出现概率时利用频谱差，亦即输入信号的频谱减去预计噪声谱。

最好不管哪个值较大用上述频谱差值或预定值来计算语音出现的概率。最好不管哪个值较大对当前帧及以前帧计算上述差值或预定值，用预定衰减系数乘以前帧的值，不管哪个值较大，用当前帧值或以预定衰减系数乘以前帧的值计算语音出现的概率。

用沿频率轴或时间轴的平滑滤波处理最大似然滤波器的特性。最好用最大似然滤波器在所考虑频率范围内特性和最大似然滤波器在相邻左和右边频率范围内的中值特性进行沿频率轴的平滑滤波。

另一方面，本发明提供通过按帧划分输入语音信号，按帧得出RMS值并将RMS值与用于检测噪声域的阈值Th1相比检测噪声域的方法。尤其，不管哪个值较小，用当前帧和以系数α乘的以前帧的RMS值来计算用于得出阈值Th1的值th，系数α依据当前帧的RMS值就化。在下列实施例中，阈值Th1为Noise RMS_thres[k]，而得出它的值th为MinNoise_shert[k]，其中k是帧号。如将在方程（7）中说明的，将以系数α[k]乘的以前帧的值MinNoise_shert[k-1]与当前帧的RMS值RMS[k]相比较，并将这二者中的较小值设定为MinNoise_shert[k]。系数[k]依照RMS值RMS[k]从1到0变化或相反。

最好是，得出阈值Th1的值th可以是当前帧的RMS值与以前帧值用系数α乘的值th二者中较小的值，亦即如后文说明的MinNoise_shert[k]，或多个帧中的最小RMS值，即MinNoise_long[k]，不管哪个大些。

此外，根据用阈值th2进行当前帧的相对能量区分的结果检测噪声域，阈值Th2是利用输入语音信号的最大信噪声比和RMS值与阈值Th1的比较结果来计算的。在以下实施例中，阈值Th2为dBthres_rel[k]，基于帧的相对能量为dB_rel。相对能量dB_rel是相应于正如前一信号能量本身峰值的相对值，并描述当前信号能量。

在按照本发明的降噪方法中最好利用上述噪声域检测方法。

对于本发明的语音信号降噪方法来说，由于语音出现概率是用从输入信号频谱中减去估计噪声频谱的频谱减法来计算的，并按照计算出的语音出现概率自适应控制最大似然滤波器，依照输入语音信号的信噪的比完成最佳抑制因子的调节，因此用户无需在实际应用之前进行调整。

另外，对按照本发明的检测噪声域的方法而言，由于用于得出作噪声域鉴别的阈值Th1的值th是用当前帧的RMS值或以系数α乘的以前帧值th来计算的，不管哪个值小些，而且系数α是依照当前帧的RMS值变化的，从而可实现用响应输入信号的最佳阈值进行的噪声域鉴别，即使在噪声电平起伏时也不会产生错误判断。

图1是说明用于实现按照本发明实施例的语音信号降噪方法的电路布局的电路框图。

图2是表明图1所示实施例中所用噪声估算电路的说明性实例的电路方块图。

图3是说明图1所示实施例中能量E[k]和衰减能量Edecay[k]的实例的曲线图。

图4是说明图1实施例中短期RMS值RMS[k]，最小噪声RMS值MinNoise[k]和最大信号RMS值MaxSignal[k]的实例的曲线图。

图5是说明以dB表示的相对能量dB_rel[k]，最大信噪比值MaxSNR[k]和作为噪声鉴别的阈值之一的dBthres_rel[k]的实例的曲线图。

图6是表示图1所示实施例中作为相应于最大信噪比值MaxSNR[k]定义的函数的NR电平[k]的曲线图。

参见附图，详细说明本发明语音信号降噪方法的最佳实施例。

在图1中，以方块电路图示出了按照本发明最佳实施例实现语音信号降噪方法的降噪装置的示意性布局。

参见图1，包括语音分量和噪声分量的输入信号y[t]施加于输入端11。为具有抽样频率FS的数字信号的输入信号y[t]馈入成帧/开窗电路12，在其中将它划分为各具有等于FL抽样的长度的帧，由此按帧顺序处理输入信号。成帧间隔亦即沿时间轴的帧移动量是FI抽样，这些在FL个样本之后如由第K帧起开始第（k+1）个抽样。在由下一电路快速傅里叶交换（FFT）电路13处理之前，成帧/开窗电路12以开窗函数进行帧基准信号的开窗。同时，逆傅里叶变换或IFFT之后在帧基准信号的最后信号处理阶段，通过用开窗函数Woutput进行开窗来处理输出信号。开窗函数Winput和Woutput的实例由下列方程（1）和（2）给出：

W_{input} [j] = {(\frac{1}{2} - \frac{1}{2} \cdot \cos (\frac{2 \cdot π \cdot j}{FL}))}^{\frac{1}{4}}

0 \leq j \leq FL - - - (1)

W_{output} [j] = {(\frac{1}{2} - \frac{1}{2} \cdot \cos (\frac{2 \cdot π \cdot j}{FL}))}^{\frac{3}{4}}

0≤j≤FL……（2）

若抽样频率FS是8000Hz＝8KHz，或帧间隔FI是80和160个样本，则成帧间隔分别为10毫秒和20毫秒。

FFT电路13以256点执行FFT以产生被频率划分电路14划分为18个频带的频谱幅度值。下列表1示出了各频带频率范围的实例。

表1

这些频率的设置是基于以下事实，即人的听觉系统的分辨率降低到较高频率侧。作为各个范围的幅度，运用各个频率范围内的最大FFT幅度。

噪声估值电路15区分输入信号y[t]中的语音与噪声并检测估计为噪声的帧。估计噪声域或检测噪声帧的操作是通过组合三类检测操作来实现的。以下参照图2说明噪声域估计的说明性实例。

在该图中，进入输入端11的输入信号y[t]馈入均方根值（RMS）计算电路15A，该电路15A按帧基准计算短期RMS值。RMS计算电路15A的输出加到相对能量计算电路15B、最小RMS计算电路15C、最大信号计算电路15D及噪声谱估计电路15E。噪声谱估计电路15E还与相对能量计算电路15B、最小RMS计算电路15C及最大信号计算电路15D的输出相连，同时还与频率划分电路14的输出端相连。

RMS计算电路15A计算帧基准信号的RMS值。第k帧的RMS值RMS[k]用下列方程计算：

RMS [k] = \sqrt{\frac{1}{FL} \cdot Σ_{t = 1}^{FL} y^{2} [t]}

………（3）

相对能量计算电路15B计算第k帧的相对能量dB_rel[k]。以dB为单位的相对能量dB_rel[k]由下列方程（4）计算：

dB_rel[K]＝10log₁₀（ (E_decay[K])/(E[K]) )

…………（4）

在以上方程（4）中，能量值E[k]和衰减能量值Edecay[k]可分别用方程（5）和（6）计算：

E [k] = Σ_{t = 1}^{FL} y^{2} [t]

…………(5)

E_{decay} [k] = \max (E [k], e^{\frac{- FL}{0.65 * FS}} E_{decay} [k - 1])

…………(6)

由于方程（5）可用EL·（RMS[k]）²表示，所以可以使用RMS计算电路15A的输出RMS[k]。然而，在RMS计算电路15A中方程（3）计算过程中得到的方程（5）的值可直接传输到相对能量计算电路15B。在方程（6）中，作为举例衰减时间仅设置为0.65秒。

图3示出了能量E[k]和衰减能量Edecay[k]的实例。

最小RMS计算电路15C得出适用于估计背景噪声电平的最小RMS值。帧基上基于帧的最小短期RMS值和最小长期RMS值，亦即许多帧上的最小RMS值也得出。当短期值不能跟踪或跟随噪声电平的显著变化时用长期值。最小短期RMS噪声值MinMoise_shert用下列方程（7）计算：

a(k)=1 RMS[k]＜MAX_NOISE_RMS,and

RMS[k]＜3 MinNoise_short[k-1]

0 其它

设置最小短期RMS噪声值MinNoise_short相对背景噪声增大，背景噪声是与语音无关的周围噪声。当高噪声电平的上升率为指数时，产生较大上升率的低噪声电平用固定上升率。

每0.6秒计算最小长期RMS噪声值MinNoise_long。MinNoise_long是在dB_rel＞19dB的帧RMS值的前1.8秒上最小。如果在前1.8秒中，不存在dB_rel＞19的RMS值，则不用MinNoise_long，因为信号的前一秒可能不含仅有背景噪声的任何帧。在每0.6秒间隔上，若MinNoise_long＞MinNoise_short则将该间隔上的MinNoise_short设置为MinNoise_long。

最大信号计算电路15D计算最大RMS值或SNR（信噪比）的最大值。最大RMS值用来计算最佳或最大SNR值。对最大RMS值而言，既计算短期也计算长期。短期最大RMS值MaxSignal_short由下列方程（8）得出：

………（8）

在例如0.4秒间隔上计算最大长期RMS噪声值MzxSignal_long。该值MaxSignal_long是暂时超过当前时间点0.8秒期间帧RMS值的最大值。在每-0.4秒范畴内，如果MaxSingal_long小于MaxSignal_shert，则将MaxSignal_shert值设定为（0.7MaxSignal_shert+0.3MaxSignal_long）的值。

图4示出短期RMS值[k]，最小噪声RMS值MinNoise[k]以及最大信号RMS值MaxSignal[k]。在图4中，最小噪声RMS值MinNoise[k]表示考虑长期值MinNoise_long的短期值MinNoise_shert。此外，最大信号RMS值MaxSignal[k]表示考虑长期值MaxSignal_long的短期值MaxSignal_shert。

可利用短期最大信号RMS值MaxSignal_shert和短期最小噪声RMS值MinNoise_shert来估算最大信号SNR值。噪声抑制特性及噪声域鉴别的域值按该估值修改，以减小造成无噪声纯语音信号畸变的可能性。用下列方程计算最大SNR值MaxSNR：

MaxSNR[k]=20.0·log₁₀( (max(1000.0,MaxSignal_short[k]))/(max(0.5,MinNoise_snort[k]) -1.0)

………(9)

由MaxSNR值计算在0到1范围内表示相对噪声电平的归一化参数NR-level。下面运用NT-level方程。

NR_level[k]=

( 1/2 + 1/2 cos(π· (MaxSNR[k]-30)/20 ))×(1-0.002(MaxSNR[k]-30)²)

30<MaxSNR[k]≤50

0.0 MaxSNR[k]>50

1.0 其它 (10)

现对噪声谱估计电路15E的工作加以解释。由相对能量计算电路15B、最小RMS计算电路15C及最大信号计算电路15D计算的值用于将语音与背景噪声分开。如果满足下列条件，第k帧的信号归为背景噪声。

((RMS[k]<NoiseRMS_thres[k])

或 (dB_rel[k]>dBthres_rel[k]))and(RMS[k]<RMS[k-1]+200)

(11)

其中 NoiseRMS_rel[k]=min(1.05+0.45·NR_level[k])

MinNoise[k],MinNoise[k]+

Max_△_NOISE_RMS)

dBthres_rel[k]=max(MaxSNR[k]-4.0,0.9·MaxSNR[k])

图5示出了以上方程（11）中的相对能量dB_rel[k]，最大SNR值MaxSNR[k]和作为噪声鉴别阈值之一的dBthres_rel[k]的值。

图6示出方程（10）中作为MaxSNR[k]的函数的NR-level[k]。

若将第k帧归类为背景噪声或噪声，则噪声谱Y[w，k]的时间平均估计值由当前帧的信号谱Y[w，k]更新，如下列方程（12）所示：

N[w,k]=α·max(N[w,k-1],Y[w,k])

+(1-α)·min(N[w,k-1],Y[w,k]) ……(12)

a = e^{- \frac{FL}{0.5 * FS}}

其中W表示频带分离的频带号。

如果第k帧归类为语音，N[w，k-1]的值直接用作N[w，k]。

图2所示噪声估计电路15的输出传输到语音估计电路16，Pr[Sp]计算电路17，Pr[Sp/Y]计算电路18并传输到最大似然滤波器19。

在噪声估值电路15的噪声谱估计电路15E中进行算术-逻辑运算时，可至少利用相对能量计算电路15B、最小RMS计算电路15C及最大信号计算电路15D的输出数据之一进行算术-逻辑运算。虽然估计电路15E产生的数据精度下降，但只需较小电路规模的噪声估计电路15就足够了。当然，可利用三个计算电路15B，15C及15D的所有输出数据产生估计电路15E的高精度输出数据。但是，可用计算电路15B，15C及15D中两个电路进行估计电路15E的算术-逻辑运算。

语音估算电路16计算频带基上的信噪比。语音估算电路16馈接来自频带分离电14的频谱幅度数据Y[w.k]和来自噪声估计电路15的估计噪声谱谱幅度数据。估计的语音谱数据S[w，k]由这些数据导出。如后面说明的无噪声纯语音频谱的粗略估计值可用来计算概率Pr[Sp/Y]。通过按下列方程（13）取频谱值的差计算该值。

S^{'} [W, k] = \sqrt{\max (O, Y [W, k]^{2} - ρ \cdot N {[W, k]}^{2})}

……(13)

然后，运用如由上述方程（13）计算的语音谱粗略估值S′[w，k]，按照下列方程（14）计算在频带基上取时间平均的语音谱的估算值S[w，k]：

S[w,k]=max(S′[w,k],S′[w,k-1]·decay_rate)

……(14)

当方程（14）中，利用此处所示出的decay-rate。

按照下列方程（15）计算基于频带的信噪比：

SNR[w,k]=20·log₁₀( (0.2·S[w-1,k]+0.6·S[w,k]+0.2S[w+1,k])/(0.2·N[w+1,k]+0.6·N[w,k]+0.2N[w-1,k])

…… (15)

其中可分别由方程（12）和（14）得出噪声谱N[]的估算值和语音谱的估算值。

说明Pr（Sp）计算电路17的操作。概率Pr（Sp）是在假定输入信号中出现的语音信号的概率。该概率迄今恒定于0.5。对于具有高信噪比的信号而言，概率Pr[Sp]可增大以防止音质畸变。可按照下列方程（16）计算这种概率Pr（Sp）：

运用最大信号计算电路15D计算的NR_level方程。

现说明Pr（Sp/Y）计算电路18的操作。Pr（Sp/Y）值是输入信号Y[t]中存在的语音信号的概率，并是用Pr（Sp）和SNR[w，k]计算的。用值Pr（Sp/Y）将无语音域减小为较窄值。为进行计算，利用1980年4月出版的IEEE文集“Acouso，Speech，and Signal Processing”ASSP-28卷2号中R.J.McAulay和M.L.Malpass所著“利用软判定噪声抑制滤波器实现语音增强”公开的方法，现参照方程（17）至（20）加以说明。

Pr(Hl︱Y)[w,k]= (Pr(Hl)·P(Y︱Hl))/(Pr(Hl)·P(Y︱Hl)+Pr(HO)·P(Y︱HO))

(Bayes 规则）……（17）

P (Y | HO) = \frac{2 \cdot Y}{σ} \cdot e^{- \frac{Y^{1}}{σ}}

(Rayleigh pdf) - - - (18)

p (Y | Hl) = \frac{- 2 \cdot Y}{σ} \cdot e^{- \frac{Y^{1} + S^{1}}{v}} \cdot I_{0} (\frac{2 \cdot S \cdot Y}{σ})

(Rician pdf) - - - (19)

I_{0} (| X |) = \frac{1}{2 π} {&Integral;}_{0}^{2 π} e^{(e - jθ)} d 6

（修正第一类Bessel方程）……(20）

在上述方程（17）至（20）中，HO表示无语音事件，亦即输入信号y（t）是噪声n（t）的事件，而H1表示语音事件，即输入信号y（t）是语音信号S（t）与噪声信号n（t）之和且S（t）不等于0的事件。此外，w，k，Y，S和δ分别表示频带号、帧号、输入信号[w，k]，语音信号S[w，k]的估计值以及估算噪声信号N[w，k]²的平方值。

由方程（17）计算Pr（H1～Y）[w，k]，而方程（17）中的P（Y/HO）和P（Y/H1）可由方程（19）导出，由方程（20）计算Bessel方程I。（｜X｜）。

可用于列方程（21）近似Bessel方程：

I₀=(｜X｜)=

至此，为导出Pr（H1/Y）利用了信噪比的固定值，如SNR＝5，而不用估算的语音信号值S[w，k]。因此简化了P（Y/H1），如下列方程（22）所示：

p (Y | Hl) = \frac{2}{σ} \cdot e^{- \frac{Y^{1}}{σ} {SNR}^{1}} \cdot I_{0} (2 \cdot SNR \cdot \frac{Y}{\sqrt{σ}})

……（22）

瞬时信噪比低于计算P（Y/H1）中所用信噪比值SNR的信号得到显著抑制。如果假定信噪比的值SNR设定为过高值，则搀杂有低电平噪声的语音在其低电平语音部分被过于削弱，于是产生的语音变得不自然。反之，若将信噪比的值SNR设定为过低值，掺杂有较高电平噪声的语音的噪声抑制率低，甚至在其低电平部分都听得到噪音。这样如在本实施例中一样利用信噪比的变化值SNR_new[w.k]代替信噪比的固定值得到满足宽范围背景/语音电平的值P（Y/H1）。可从下列方程（23）得出SNR_new[w.k]值：

SNR_mew[w,k]=max(MIN_SNR[w,k]), (S′[w,k])/(N[w,k])

……(23)

其中MIN-SNR值由方程（24）得出：

MIN_SNR(x)=

3- (x-10)/35 ·1.5,10≤X≤45

1.5,其它 ……（24）

值SNR_new[w，k]是第k帧中的瞬时SNR，其中对最小，值加有限制。对于总体上具有高信噪比的信号来说，可将SNR_new[w，k]值减小到1.5。在这种情况下，对具有低瞬时信噪比的段不进行抑制。总之对于低瞬时信噪比的信号值SNR_new[w，k]不能减小到3以下。因此，对具有低瞬时信噪比的段可保证足够的抑制。

现对最大似然滤波器19的操作加以说明。最大似然滤波器19是为分离噪声信号的相应输入信号频率而提供的预滤波器之一。在最大似然滤波器19中，利用来自噪声估值电路15的噪声谱幅度数据N[w，k]将来自频带分离滤波器14的频谱幅度数据Y[w.k]转换为信号H[w，k]。按照下列方程（25）计算信号H[w，k]：

H[w,k]=

a + (1 - a) \cdot \frac{{(Y^{2} - N^{2})}^{\frac{1}{2}}}{Y}, Y > oandY &GreaterEqual; N

其它 α＝0.7-0.4·NR_level[k]. ……(25)

尽管通常将上述方程（25）右的值α设置为1/2，噪声抑制度可依赖于SNR变化，因为SNR的近似值是已知的。

下面说明软判定抑制电路20的操作。软判定抑制电路20是用于增强信号语音部分的预滤波器之一。利用来自Pr（Sp/Y）计算电路18的信号H[w，k]和值Pr[H1/Y]用下列方程（26）所表示的方法进行变换：

H[w,k] - Pr(H1|Y)[w,k]·H[w,k]+(1-Pr(H1|Y[w,k]·MIN_GAIN

(26)

在上述方程（26）中，MIN-GAIN是表示最小增益的参数，可设定为例如0.1，即-15dB。

现说明滤波器处理电路21的操作。沿频率轴和时间轴对来自软判定抑制电路20的信号H[w，k]滤波。沿频率轴的滤波具有缩短信号H[w，k]的有效脉冲响应长度的效果。这消除了频域中与乘法滤波相关联的环形卷积混淆效应。沿时间轴的滤波具有在抑制噪声脉冲中限制滤波器变化率的效应。

现在说明沿频率轴的滤波。对由频带划分得出的18个频带每一频带的信号H[w，k]进行中值滤波。该方法由下列方程（27）和（28）说明：

步骤1：

H1[w,k]=max(median(H[w-1,k],H[w,k],H[w+1,k],H[w,k] (27)

其中H1[w，k]＝H[w，k]如果（w-1）或（w+1）不存在

步骤2：H2[w，k]＝min（median（H[w-1，k]，H[w，k]，H[w+1，k]，H[w，k]

其中H2[w，k]＝H1[w，k]如果（w-1）或（w+1）不存在

在步骤1中，H1[w，k]是无信号带零点的H[w，k]。在步骤2中，H2[w，k]是不存在单独频带峰值的H1[w，k]。由沿频率轴滤波得出的信号是H2[w，k]。

其次说明沿时间轴的滤波。沿时间轴滤波考虑输入语音信号即语音、背景噪声及为语音上升部分的瞬态三个状态。语音信号沿时间轴平滑如下列方程（29）所示：

H_speech[w,k]=0.7·H2[w,k]+0.3·H2[w,k-1] (29)

沿时间轴平滑背景噪声的下列方程（30）所示：

H_noise[w,k]=0.7·Min_H+0.3·Max_H (30)

其中Min_H和Max_H为：

Min_H=min(H2[w,k],H2[w,k-1]

Max_H=max(H2[w,k],H2[w,k-1]

对于瞬时信号，不进行沿时间轴的平滑。最后，用于列方程（31）计算产生平滑的输出信号H_{t_smooth}[w,k]

H_{t_smooth}[w,k]

=(1-α_tr)(α_sp·H_speech[w,k]+(1-α_sp)·H_noise[w,k]+α_tr·H2[w,k]

(31)

分别由方程（32）和（33）得出方程（31）中的α_sp和α_tr：

α_sp=

1.0,SNR_inst>4.0

(SNR_inst-1)· 1/3 ,1.0<SNR_inst<4.0

0,其它

(32)

其中

SNR_inst= (RMS[k])/(MinNoise[k])

α_tr=

1.0,δ_rms>3.5

(δ_rms-2)· 2/3 ,2.0<δ_rms<3.5

0,其它

(33)

其中

δ_{rms} = \frac{{RMS}_{local} [k]}{{RMS}_{local} [k - 1]}, {RMS}_{local} [k] = \sqrt{\frac{1}{FI} \cdot Σ_{t = FI | 2}^{FL - FI | 2} y^{2} [t]}

说明频带转换电路22的操作。来自滤波电路21的18频带信号H_t-smooth[w，k]被插入例如128频带信号H₁₂₈[w，k]。以两个阶段进行插入，即用零阶保持进行由18到64频带的插入，用低通滤波器内插实现自64到128频带的内插。

现说明频谱校正电路23的操作。在FFT溻路13得到的输入信号FFT系数的实部和虚部与上述信号H₁₂₈[w，k]相乘，以进行频谱校正。结果是频谱幅度得到校正，而不对频谱进行相位修正。

IFFT电路24对在频谱校正电路23获得的信号进行逆FFT变换。

叠加电路25将基于帧的输出信号的帧边缘部分叠加。通过上述过程在输出端26获得噪声下降的输出信号。

这样获得的输出信号传输给手提电话的多个编码器或语音识别装置的信号处理电路。另一方面，可用本发明的降噪方法处理手提电话设备的解码输出信号。

本发明不限于以上实施例。例如，在利用最大似然滤波器的常规噪声抑制技术中可利用上述用滤波电路21实现的滤波。用滤波器处理电路15实现的噪声域检测方法可用在除噪声抑制装置以外的多种装置中。

Claims

1、一种降低输入语音信号噪声的方法，通过自适应控制适用于根据语音出现的概率和按输入语音信号计算的信噪比来计算语音分量的最大似然滤波器进行噪声抑制，其特征在于：改进部分包含计算语音出现概率时用输入信号频谱减去估计噪声频谱。

2、如权利要求1所述的方法，其特征在于：不管哪个值较大上述差值成预定值用于计算语音出现的概率。

3、如权利要求1所述的方法，其特征在于：不管哪个值较大上述差值成预定值由当前帧和以前帧得出，对应以前帧的值用预定衰减系数相乘，不管哪个值较大用当前帧的值或以前帧乘以预定衰减系数的值计算语音出现的概率。

4、如权利要求1所述的方法，其特征在于：用沿频率轴和时间轴的平滑滤波处理最大似然滤波器的特性。

5、如权利要求1所述的方法，其特征在于：为得出语音出现概率通过比较基于帧的RMS值与阈值Th1检测噪声域，用于导出阈值Th1的值th按照当前帧的RMS值或以前帧的值th乘以系数α导出，而不管哪个值较小，系数α依据当前帧的RMS值变化。

6、如权利要求5所述的方法，其特征在于：利用当前帧的RMS值和以前帧的th乘以系数α之一，不管哪个值较小，或多个帧上RMS值的最小值，不管哪个值较大，导出得出阈值Th1的值th。

7、如权利要求6所述的方法，其特征在于：通过利用用输入语音信号最大信噪声计算的阈值Th2鉴别当前帧的相对能量进行噪声域检测。

8、一种降低输入语音信号中噪声的方法，通过自适应控制适用于根据语音出现概率和按输入语音信号计算的信噪比计算语音分量的最大似然滤波器实现噪声抑制，其特征在于改进部分包括：

沿频率轴和时间轴对最大似然滤波器的特性进行平滑滤波。

9、如权利要求8所述的方法，其特征在于：最大似然滤波器在所考虑频率范围内的特性以及最大似然滤波器在相邻左边和右边频率范围内的特性的中值用作沿频率轴平滑滤波。

10、如权利要求8所述的方法，其特征在于：沿频率轴的平滑滤波包括以下步骤：

选择中值或最大似然滤波器在所考虑频率范围内的特性，不管哪个值较大，

所考虑频率范围的中值对应于处理结果或最大似然滤波器在频率范围中的特性，不管哪个较小。

11、如权利要求9所述的方法，其特征在于：沿时间轴的平滑滤波包括对语音部分信号的平滑和噪声部分信号的平滑。

12、一种检测噪声域的方法，通过划分帧基准上的输入语音信号，找出帧基准上的RMS值并将该RMS值与用于检测噪声域的阈值Th1比较，其特征在于改进部分包括：计算当前帧利用RMS值得出阈值Th1的值th和以前帧被系数α相乘的值th，不管哪个值较小，并依据当前帧的RMS值变更系数α。

13、如权利要求12所述的方法，其特征在于：包括计算当前帧的用较小RMS值导出阈值Th1的值th以及以前帧乘以系数α的值th，或多个帧上的最小RMS值，不管哪个值大些。

14、如权利要求13所述的方法，其特征在于：根据利用用输入语音信号最大信噪比计算的阈值鉴别当前帧的相对能量所得的结果和将RMS值与阈值Th1比较所得结果检测噪声域。