CN1354455A

CN1354455A - 一种从噪声环境中识别出语音和音乐的声音活动检测方法

Info

Publication number: CN1354455A
Application number: CN 00127494
Authority: CN
Inventors: 黎家力
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2000-11-18
Filing date: 2000-11-18
Publication date: 2002-06-19
Anticipated expiration: 2020-11-18
Also published as: CN1175398C

Abstract

本发明公开了一种从噪声环境中识别出语音和音乐的声音活动检测方法。本方法以信噪比为声音活动检测的判断标准。首先把采样数据通过FFT转变到频域上,在频域上非线性地划分成不同的子带,然后分别计算各子带的能量及信噪比测度。子带噪声能量更新,子带信噪比测度的计算分前、后台进行,前、后台交错控制,由信噪比测度的作为判断噪音、语音及音乐的标准。本方法在噪音环境中能准确检测出语音和音乐,使系统具有很强的抗环境噪声能力,同时又对各种有效声音信号具有很强的适应性。

Description

一种从噪声环境中识别出语音和音乐的声音活动检测方法

本发明涉及数字通信系统中的声音活动检测技术，更具体地，涉及一种能从混有环境噪声的输入信号中准确地识别出语音和音乐信号的声音活动检测(Voice Activity Detection)方法。

声音活动检测技术广泛应用于通讯系统，例如，在移动通信系统中应用声音活动检测技术，可以提高系统的流量处理能力。又如，在视频会议的多点控制单元的混音模块中应用声音活动检测技术，只让检测到有人说话的音频码流参加混音，可以减少参加混音的终端数，提高混音的质量。

一般的声音活动检测方法是利用能量、过零率、基音周期或其他语音信号的短时参数来作为判断是否有人讲话的依据，当背景噪声较大时，采用这些方法会导致误判，并且这些参数都是建立在人的发声模型上，故不适用于音乐。而在多媒体通讯系统中，音乐作为一种重要媒体经常被应用，而一般的声音活动检测方法只适用于人说话的语音检测，适应不了音乐这样的非平稳过程。

本发明的目的是提供一种适用于噪音环境中并能准确检测出语音和音乐的声音活动检测方法，使系统具有很强的抗环境噪声能力，同时又对各种有效声音信号具有很强的适应性，特别适用于多媒体通讯系统中，如视频会议系统。

为了完成发明目的，所述的一种从噪声环境中识别出语音和音乐的声音活动检测方法包括以下步骤：1、首先将所得到的采样数据通过快速傅立叶变换FFT转变到频域上；2、在频域上非线性地划分成不同的子带，然后分别计算各子带的能量及前台信噪比，并由前台信噪比算出前台信噪比测度；3、如果当前帧是第一帧，则把当前状态置为前台状态；4、根据当前信噪比测度的各种统计量控制前台和后台的工作；5、如果当前状态处于前台状态时，将当前的前台信噪比测度与所选阀值相比较，进行判断和处理；6、如果当前状态处于后台状态时，启动后台子带噪声能量更新，计算后台信噪比和后台信噪比测度，并根据信噪比测度的统计量进行判断和处理；7、如果当前状态处于过渡状态，则进入过渡状态处理，再根据信噪比测度的统计量进一步判断，确定最终进入前台状态还是后台状态；8、根据外部模块的要求输出前台信噪比测度或输出由前台信噪比测度判断得出的静音标志作为声音活动检测(VAD)的控制标志；9、根据外部模块的要求计算并输出该帧各子带的总能量(该步可选)；10、回到步骤1，继续处理下一帧。

在上述的声音活动检测方法，所述的步骤8中，若前台信噪比测度大于阀值一，则置声音标志，否则置静音标志。

由上述方案可见，因本发明实现的声音活动检测方法使用了信噪比这一具有普遍性的物理量。故与其他方法相比具有适应性广的明显优点，既可检测出语音，又可检测出音乐，同时又有很强的抗噪声能力，适用于各种噪声环境，并且能适应各种输入增益及不同信噪比的硬件。特别适用于多媒体通讯系统。

下面结合附图和实施例对本发明作进一步说明。

图1是本发明所述方法的流程图。

图2是应用该方法于一个系统的流程图。

以下结合图1对本方法作具体说明：

本发明把声音活动检测的判断标准建立在信噪比这一物理量上。由于人耳可感知的频谱主要集中在4KHz以下，同时为了降低运算量，本发明以8K采样为例，但对于其他采样率，只要改变某些参数，本发明所采用的方法同样适用。第一步，首先将所得到的采样数据通过快速傅立叶变换(FFT)转变到频域上：

输入语音用s(n)表示。算法的帧长为10ms，即80点数据为一帧(L＝80)，并且采用帧间重叠的方法，重叠的数据点数D为24。这样，输入数据帧缓冲区d(m，n)的数据点数为L+D＝104点，其中前D点数据为前一帧的最后D点数据，即

d(m，n)＝d(m-1，L+n)，0≤n＜D这里m表示当前帧。

对输入语音s(n)进行预加重处理，则有

d(m，D+n)＝s(n)+ξ_ps(n-1)，0≤n＜L其中ξ_p＝-0.8为预加重系数。

对预加重后的输入数据d(m，n)用平滑的梯形窗进行加窗处理，然后补零，形成M＝128点的离散傅立叶变换输入数据g(n)，即：

对g(n)进行离散傅立叶变换，得到输入信号的频谱G(k)：

G (k) = \frac{2}{M} Σ_{n = 0}^{M - 1} g (n) e^{- j 2 πnk / M}; 0 \leq k < M

在实际计算中，考虑到g(n)是实数，因此可用M/2点的复数快速傅立叶变换快速计算M点的实数快速傅立叶变换。

对16K采样，160点数据为一帧(L＝160)，并且采用帧间重叠的方法，重叠的数据点数D为48。这样，输入数据帧缓冲区d(m，n)的数据点数为L+D＝208点，进行256点快速傅立叶变换。第二步，非线性地划分成不同的子带，然后分别计算各子带的能量及前台信噪比，

并由前台信噪比算得前台信噪比测度：(1)、当前帧每个子带的能量E_ch(m)按下式进行计算：

E_{ch} (m, i) = \max {E_{\min}, α_{ch} (m) E_{ch} (m - 1, i) + (1 - α_{ch} (m)) \frac{1}{f_{H} (i) - f_{L} (i) + 1} Σ_{k = f_{L} (i)}^{f_{H} (i)} {| G (k) |}^{2}}

0≤i＜N_C其中N_C＝16为子带数，E_min＝0.0625为子带最小能量，α_ch(m)为子带能量平滑因子。平滑因子α_ch(m)定义为f_L(i)和f_H(i)为第i个子带起始和结束的位置，其中f_L和f_H定义如下：f_L＝{2，4，6，8，10，12，14，17，20，23，27，31，36，42，49，56}，f_H＝{3，5，7，9，11，13，16，19，22，26，30，35，41，48，55，63}对于16K采样：f_L＝{2，4，6，8，10，12，14，17，20，23，27，31，36，42，49，57，66，77，90，106}，f_H＝{3，5，7，9，11，13，16，19，22，26，39，35，41，48，56，65，76，89，105，127}(2)、子带信噪比估计按下式计算子带的信噪比σ_q(i)

σ_{q} (i) = \max {0, \min {89, round {{101 og}_{10} (\frac{E_{ch} (m, i)}{E_{n} (m, i)}) / 0.375}}}; 0 \leq i < N_{c}

其中E_n(m，i)是当前帧第i个子带噪声能量的估计值，0.375是信噪比的量化步长。σ_q(i)量化为整数，并限定在0和89之间。

(3)、计算信噪比测度(SNR Metric)

信噪比测度v(m)是根据子带信噪比来描述当前帧与语音的相似程度，它是表征当前帧是语音还是噪声的衡量标准

v (m) = Σ_{i = 0}^{N_{c} - 1} V (σ_{q} (i))

其中V(k)为信噪比测度表{V}中第k个值。{V}共有90个元素，定义为

V＝{2，2，2，2，2，2，2，2，2，2，2，3，3，3，3，3，4，4，4，5，5，5，6，6，7，7，7，8，8，9，9，10，10，11，12，12，13，13，14，15，15，16，17，17，18，19，20，20，21，22，23，24，24，25，26，27，28，28，29，30，31，32，33，34，35，36，37，37，38，39，40，41，42，43，44，45，46，47，48，49，50，50，50，50，50，50，50，50，50，50}。第三步，如果该帧是第一帧，则把当前状态置为前台状态。第四步，根据信噪比测度的各种统计量控制前台和后台的工作。第五步，如果当前状态是前台状态时，进行以下判断和处理：1)当前台信噪比测度低于阀值一时认为是噪声，启动前台噪声能量更新；2)若当前为前台状态，且如果连续2秒前台信噪比测度大于阀值一时认为将进入过渡状态，则把当前各子带能量作为后台子带噪声能量，并置当前状态为过渡状态；3)当连续2秒前台信噪比测度大于阀值二时认为是音乐，同时禁止前台子带噪声能量更新，并置当前状态为后台状态；4)转第八步。第六步，如果当前状态处于后台状态时，启动后台子带噪声能量更新，计算后台

信噪比和后台信噪比测度，同时进行以下判断和处理：1)计算后台信噪比和后台信噪比测度；2)如果连续6秒后台信噪比测度大于阀值一，把当前各子带能量作为后台子带噪声能量；3)当后台信噪比测度在一段时间内的统计量满足特定条件或判断出前台信噪比测度连续1秒小于阀值二时，则把后台子带噪声能量作为前台子带噪声能量，同时置当前状态为前台状态，停止后台过程，重新启动前台噪声能量更新过程，并转第八步；4)当后台信噪比测度低于阀值一时，启动后台噪声能量更新；5)转第八步。第七步，如果当前状态是过渡状态，则进行以下的判断：1)当连续2秒前台信噪比测度大于阀值二时认为是音乐，并置当前状态为后台状态；2)计算后台信噪比和后台信噪比测度；3)若连续6秒后台信噪比测度大于阀值一，把当前各子带能量作为后台子带噪声能量；4)当后台信噪比测度在一段时间内的统计量满足特定条件或判断出前台信噪比测度连续1秒小于阀值二时，则把后台子带噪声能量作为前台子带噪声能量，同时置当前状态为前台状态，转步骤6)；5)当后台信噪比测度低于阀值一时启动后台噪声更新；6)当前台信噪比测度低于阀值一时认为是噪声，启动前台噪声更新；7)转第八步。第八步，据外部模块的要求，输出前台信噪比测度或输出由前台信噪比测度判断

得出的静音标志作为VAD的控制标志。第九步，根据外部模块的要求计算并输出该帧各子带的总能量(该步可选)。第十步，重复第一步，对下一帧数据进行处理。

在所述的声音活动检测方法中，阀值一的取值范围是35～40，阀值二的取值范围是阀值一加上五到阀值一加上十。

所述的第八步中，若前台信噪比测度大于阀值一，则置声音标志，否则置静音标志。

在所述第六步和第七步中，后台信噪比测度的统计包括：以20个子帧为一个复帧(200ms)，对每个子帧，若该子帧的后台信噪比测度大于阀值一，则统计量减1；否则统计量加1。

以下情况之一满足所述的特定条件：

1.连续30个复帧，统计量大于零；

2.统计量大于零与小于零的复帧数之比大于35比7；以上两个条件都说明当前声音的噪声特性明显。

在所述的声音活动检测方法中，下一帧的背景噪声能量按下式更新：

E_n(m+1，i)＝max{E_min，α_nE_n(m，i)+(l-α_n)E_ch(m，i)}，0≤i＜N_C其中E_min＝0.00625是允许的子带最小能量。α_n＝0.9是子带噪声能量平滑因子，它直接影响子带噪声能量估计值的更新速度。通常，用前四帧中的每一帧子带能量作为子带噪声能量的初值

E_n(m，i)＝max{E_init，E_ch(m，i)}，1≤m≤4，0≤i＜N_C其中E_init＝16。

下面结合图2对本发明应用在整个系统中的流程进行说明：

每路语音的压缩码流输入后，经过解码，将解码后信号用本方法进行分析和处理，然后输出每一路的信噪比测度(SNR)和各子带的总能量(tce)给混音模块，最后由混音模块根据SNR及tce的大小，选出前n路参加混音。由于本方法的运算量非常小，故可与解码做在同一片数字信号处理(DSP)芯片上，也可与混音算法做在同一片DSP芯片上。

Claims

1、一种从噪声环境中识别出语音和音乐的声音活动检测方法，其特征在于，包括以下步骤：1)首先将所得到的采样数据通过快速傅立叶变换转变到频域上；2)在频域上非线性地划分成不同的子带，然后分别计算各子带的能量及前台信噪比，并由前台信噪比算出前台信噪比测度；3)如果当前帧是第一帧，则置当前状态为前台；4)根据当前信噪比测度的各种统计量控制前台和后台的工作；5)如果当前状态处于前台状态时，将当前的前台信噪比测度与所选阀值相比较，进行判断和处理；6)如果当前状态处于后台状态时，启动后台子带噪声能量更新，计算后台信噪比和后台信噪比测度，并根据信噪比测度的统计量进行判断和处理；7)如果当前状态处于过渡状态，则进入过渡状态处理，再根据信噪比测度的统计量进一步判断，确定最终进入前台状态还是后台状态；8)根据外部模块的要求输出前台信噪比测度或输出由前台信噪比测度判断得出的静音标志作为声音活动检测的控制标志，如果外部模块同时要求计算并输出该帧各子带的总能量，则作相应的处理；9)回到步骤1，继续处理下一帧。

2、如权利要求1所述的声音活动检测方法，其特征在于，所述步骤6)和步骤7)中，后台信噪比测度的统计量是这样计算的：以20个子帧为一个复帧，对每个子帧，若该子帧的后台信噪比测度大于阀值一，则统计量减1；否则，统计量加1。

3、如权利要求1所述的声音活动检测方法，其特征在于，所述步骤5)的判断和处理具体包括：(1)当前台信噪比测度低于阀值一时认为是噪声，启动前台噪声能量更新；(2)若当前为前台状态，且如果连续2秒前台信噪比测度大于阀值一时认为处于过渡状态，则把当前各子带能量作为后台子带噪声能量，并置当前状态为过渡状态；(3)当连续2秒前台信噪比测度大于阀值二时认为是音乐，同时禁止前台子带噪声能量更新，并置当前状态为后台状态；(4)转步骤8)。

4、如权利要求1所述的声音活动检测方法，其特征在于所述步骤6)的判断和

处理具体包括：(1)计算后台信噪比和后台信噪比测度；(2)如果连续6秒后台信噪比测度大于阀值一，把当前各子带能量作为后台子带噪声能量；(3)当后台信噪比测度在一段时间内的统计量满足特定条件或判断出前台信噪比测度连续1秒小于阀值二时，则把后台子带噪声能量作为前台子带噪声能量，同时置当前状态为前台状态，停止后台过程，重新启动前台噪声能量更新过程，并转步骤8)；(4)当后台信噪比测度低于阀值一时，启动后台噪声能量更新；(5)转步骤8)。

5、权利要求1所述的声音活动检测方法，其特征在于所述步骤7)具体包括：(1)当连续2秒前台信噪比测度大于阀值二时认为是音乐，并置当前状态为后台状态；(2)计算后台信噪比和后台信噪比测度；(3)若连续6秒后台信噪比测度大于阀值一，把当前各子带能量作为后台子带噪声能量；(4)当后台信噪比测度在一段时间内的统计量满足特定条件或判断出前台信噪比测度连续1秒小于阀值二时，则把后台子带噪声能量作为前台子带噪声能量，同时置当前状态为前台状态，转步骤(6)；(5)当后台信噪比测度低于阀值一时启动后台噪声更新；(6)当前台信噪比测度低于阀值一时认为是噪声，启动前台噪声更新；(7)转步骤8)。

6、如权利要求1所述的声音活动检测方法，其特征在于所述步骤8)中，若前台信噪比测度大于阀值一，则置声音标志，否则置静音标志。

7、如权利要求2至6之一所述的声音活动检测方法，其特征在于：所述的阀值一的取值范围是35～40。

8、如权利要求3至5之一所述的声音活动检测方法，其特征在于：所述的阀值二的取值范围是所述阀值一的值加上五与所述阀值一的值加上十之间。