CN105261375B

CN105261375B - 激活音检测的方法及装置

Info

Publication number: CN105261375B
Application number: CN201410345942.3A
Authority: CN
Inventors: 朱长宝; 袁浩
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2014-07-18
Filing date: 2014-07-18
Publication date: 2018-08-31
Anticipated expiration: 2034-07-18
Also published as: US10339961B2; KR20170035986A; JP2017521720A; WO2015117410A1; EP4273861A3; RU2017103938A; RU2680351C2; CA2955652A1; EP4273861A2; EP3171363B1; KR102390784B1; JP6606167B2; CA2955652C; RU2017103938A3; CN105261375A; EP3171363A4; EP3171363A1; ES2959448T3; US20170206916A1

Abstract

本发明提供了一种激活音检测的方法及装置，其中，上述方法包括：获取第一特征组中的至少一个第一类特征参数，第二特征组中的至少一个第二类特征参数，以及至少两个已有VAD判决结果，其中，所述第一类特征参数和所述第二类特征参数均为用于VAD检测的特征参数；根据所述第一类特征参数、所述第二类特征参数以及所述至少两个已有激活音检测判决结果进行激活音检测，得到联合VAD判决结果。解决了相关技术中，VAD方案检测不准确等技术问题，提高了VAD的准确性，进而提升了用户体验。

Description

激活音检测的方法及装置

技术领域

本发明涉及通信领域，尤其是涉及一种激活音检测(Voice Activity Detection，简称为VAD)的方法及装置。

背景技术

正常的语音通话中，用户有时在说话，有时在听，这个时候就会在通话过程出现非激活音阶段，正常情况下通话双方总的非语音激活阶段要超过通话双方总的语音编码时长的50％。在非激活音阶段，只有背景噪声，背景噪声通常没有任何有用信息。利用这一事实，在语音频信号处理过程中，通过VAD算法检测出于激活音和非激活音，并采用不同的方法分别进行处理。现代的很多语音编码标准，如AMR、AMR-WB，都支持VAD功能。在效率方面，这些编码器的VAD并不能在所有的典型背景噪声下都达到很好的性能。特别是在非稳定噪声下，这些编码器的VAD效率都较低。而对于音乐信号，这些VAD有时候会出现错误检测，导致相应的处理算法出现明显的质量下降。另外，现有的VAD技术会存在判决不准确的情况，例如有的VAD技术在语音段之前的几帧检测不准，有的VAD在语音段之后的几帧检测不准确。

针对相关技术中的上述问题，尚无有效地解决方案。

发明内容

针对相关技术中，现有的VAD方案检测不准确等技术问题，本发明提供了一种激活音检测的方法及装置，以至少解决上述技术问题。

根据本发明的一个方面，提供了一种VAD的方法，包括：获取第一特征组中的至少一个第一类特征参数，第二特征组中的至少一个第二类特征参数，以及至少两个已有VAD判决结果，其中，所述第一类特征参数和所述第二类特征参数均为用于VAD检测的特征参数；根据所述第一类特征参数、所述第二类特征参数以及所述至少两个已有激活音检测判决结果进行激活音检测，得到联合VAD判决结果。

优选地，所述第一类特征参数包括以下至少之一：连续激活音帧个数、平均全带信噪比、调性信号标志，其中，该平均全带信噪比为针对预定数量帧的全带信噪比的平均值；所述第二类特征参数包括以下至少之一：噪声类型标志、平滑长时平均频域信噪比、连续噪声帧个数、频域信噪比。

优选地，根据所述第一类特征参数、所述第二类特征参数以及所述至少两个已有VAD判决结果进行激活音检测，包括：a)从所述至少两个已有VAD判决结果中选择一个VAD判决结果，作为联合VAD的初始值；b)如果所述噪声类型标志指示为静音、且所述频域信噪比大于预设阈值、所述初始值为非激活音帧时，选择所述至少两个已有VAD判决结果中不是作为所述初始值的VAD标志作为所述联合VAD判决结果；否则执行步骤c)，其中，所述VAD标志用于指示VAD判决结果为激活音帧或非激活音帧；c)如果所述平滑长时平均频域信噪比小于预设阈值、或者噪声类型不为静音，则执行步骤d)，否则，将步骤a)中选择的所述VAD判决结果作为所述联合VAD判决结果；d)在满足预设条件时，对所述至少两个已有VAD判决结果进行逻辑‘或’运算，将运算结果作为所述联合VAD判决结果；否则执行步骤e)；e)如果所述噪声类型标志指示为静音，选择所述至少两个已有VAD判决结果中不是作为所述初始值的VAD标志作为所述联合VAD判决结果；否则，将步骤a)中选择的所述VAD判决结果作为所述联合VAD判决结果。

优选地，根据所述第一类特征参数、所述第二类特征参数以及所述至少两个已有VAD判决结果进行激活音检测，包括：a)从所述至少两个已有VAD判决结果中选择一个VAD判决结果，作为联合VAD的初始值；b)如果所述噪声类型标志指示为静音、且所述频域信噪比大于预设阈值、所述初始值为非激活音帧时，选择所述至少两个已有VAD判决结果中不是作为所述初始值的VAD标志作为所述联合VAD判决结果；否则执行步骤c)，其中，所述VAD标志用于指示VAD判决结果为激活音帧或非激活音帧；c)如果所述平滑长时平均频域信噪比小于预设阈值、或者噪声类型不为静音，则执行步骤d)，否则，将步骤a)中选择的所述VAD判决结果作为所述联合VAD判决结果；d)在满足预设条件时，对所述至少两个已有VAD判决结果进行逻辑‘或’运算，将运算结果作为所述联合VAD判决结果；否则执行步骤e)；e)选择所述至少两个已有VAD判决结果中不是作为所述初始值的VAD标志作为所述联合VAD判决结果。

优选地，根据所述第一类特征参数、所述第二类特征参数以及所述至少两个已有VAD判决结果进行激活音检测，包括：a)从所述至少两个已有VAD判决结果中选择一个VAD判决结果作为联合VAD的初始值；b)在所述噪声类型标志指示为静音时，如果所述平滑长时平均频域信噪比大于阈值，且所述调性信号标志指示为非调性信号，选择所述至少两个已有VAD判决结果中不是作为所述初始值的VAD标志作为所述联合VAD判决结果，其中，所述VAD标志用于指示VAD判决结果为激活音帧或非激活音帧。

优选地，根据所述第一类特征参数、所述第二类特征参数以及所述至少两个已有VAD判决结果进行激活音检测，包括：a)从所述至少两个已有VAD判决结果中选择一个VAD判决结果，作为联合VAD的初始值；b)在所述噪声类型标志指示为非静音，且满足预设条件时，对所述至少两个已有VAD判决结果进行逻辑‘或’运算，将运算结果作为所述联合VAD判决结果。

优选地，所述预设条件包括以下至少之一：条件1：所述平均全带信噪比大于第一阈值；条件2：所述平均全带信噪比大于第二阈值，且连续激活音帧个数大于预设阈值；条件3：所述调性信号标志指示为调性信号；

优选地，根据所述第一类特征参数、所述第二类特征参数以及所述至少两个已有VAD判决结果进行激活音检测，包括：如果所述连续噪声帧个数大于第一指定阈值，且所述平均全带信噪比小于第二指定阈值，对所述至少两个已有VAD判决结果进行逻辑‘与’运算，将运算结果作为所述联合VAD检测结果；否则从所述至少两个已有VAD判决结果中任意选择其中一个已有VAD判决结果作为所述联合VAD检测结果。

优选地，所述平滑长时平均频域信噪比和所述噪声类型标志通过以下方式确定：

根据当前帧的前一帧所对应的至少两个已有VAD判决结果或者所述前一帧的联合VAD判决结果中任意一个VAD判决结果、所述前一帧在第一预设时间段内的平均激活音帧能量和前一帧平均背景噪声能量，计算当前帧的平均激活音帧能量和所述当前帧平均背景噪声能量；

根据所述当前帧在第二预设时间段内的平均激活音帧能量和平均背景噪声能量计算所述当前帧在所述第二时间段内的长时信噪比；

根据所述前一帧所对应至少两个已有VAD判决结果或者所述当前帧的所述联合VAD判决结果中任意一个VAD判决结果、所述前一帧的频域信噪比计算所述当前帧在第三预设时间段内的平滑长时平均频域信噪比；

根据所述长时信噪比、所述平滑长时平均频域信噪比进行噪声类型标志的判断。

优选地，根据所述长时信噪比、所述平滑长时平均频域信噪比进行噪声类型标志的判断，包括：

设置噪声类型为非静音，在所述长时信噪比大于第一预设阈值且所述平均频域信噪比大于第二预设阈值时，将所述噪声类型标志设置为静音。

根据本发明的另一个方面，提供了一种激活音检测VAD的装置，包括：获取模块，用于获取第一特征组中的至少一个第一类特征参数，第二特征组中的至少一个第二类特征参数，以及至少两个已有VAD判决结果，其中，所述第一类特征参数和所述第二类特征参数均为用于VAD检测的特征参数；检测模块，用于根据所述第一类特征参数、所述第二类特征参数以及所述至少两个已有激活音检测判决结果进行激活音检测，得到联合VAD判决结果。

优选地，所述获取模块，包括：第一获取单元，用于获取以下至少之一所述第一类特征参数：连续激活音帧个数、平均全带信噪比、调性信号标志，其中，该平均全带信噪比为针对预定数量帧的全带信噪比的平均值；第二获取单元，用于获取以下至少之一所述第二类特征参数：噪声类型标志、平滑长时平均频域信噪比、连续噪声帧个数、频域信噪比。

通过本发明，采用根据第一特征组中的第一类特征参数、第二特征组中的第二类特征参数以及至少两个已有VAD判决结果进行联合检测的技术手段，解决了相关技术中，VAD方案检测不准确等技术问题，提高了VAD的准确性，进而提升了用户体验。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为根据本发明实施例的VAD的方法的流程图；

图2为根据本发明实施例的VAD的装置的结构框图；

图3为根据本发明实施例的VAD的装置的另一结构框图；

图4为根据本发明实施例1的VAD方法的流程图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

为了解决VAD检测不准确的问题，以下实施例提供了相应的解决方案，以下详细说明。

图1为根据本发明实施例的VAD的方法的流程图。如图1所示，该方法包括步骤S102-S104：

步骤S102，获取第一特征组(又称为特征群一)中的至少一个第一类特征参数，第二特征组(又称为特征群二)中的至少一个第二类特征参数，以及至少两个已有VAD判决结果，其中，上述第一类特征参数和上述第二类特征参数均为用于VAD检测的特征参数；

步骤S104，根据第一类特征参数、第二类特征参数以及上述至少两个已有激活音检测判决结果进行激活音检测，得到联合VAD判决结果。

采用上述各个处理步骤，由于可以根据第一特征组和第二特征组中的至少一个参数和至少两个已有VAD判决结果进行VAD的联合检测，因此，可以提高VAD的准确性。

在本实施例中，第一类特征参数包括以下至少之一：连续激活音帧个数、平均全带信噪比、调性信号标志，其中，该平均全带信噪比为针对预定数量帧的全带信噪比的平均值；

第二类特征参数包括以下至少之一：噪声类型标志、平滑长时平均频域信噪比、连续噪声帧个数、频域信噪比。其中，平滑长时平均频域信噪比可以理解为以下含义：对预定时间内(长时)的多个频域信噪比取平均值，且进行了平滑处理后得到的频域信噪比。

步骤S104的实现方式有多种，例如可以通过以下方式实现：

以下几种实现方式的中所述的判决结束，只是代表某个实现方式的过程结束，并不表示在这个过程结束后不再对联合VAD判决结果进行修正。

第一种实现方式，按照如下步骤执行：

a)从上述至少两个已有VAD判决结果中选择一个VAD判决结果，作为联合VAD的初始值；

b)如果上述噪声类型标志指示为静音、且上述频域信噪比大于预设阈值、上述初始值为非激活音帧时，选择上述至少两个已有VAD判决结果中不是作为上述初始值的VAD标志作为上述联合VAD判决结果；否则执行步骤c)，其中，上述VAD标志用于指示VAD判决结果为激活音帧或非激活音帧；

c)如果上述平滑长时平均频域信噪比小于预设阈值、或者噪声类型不为静音，则执行步骤d)，否则，将步骤a)中选择的所述VAD判决结果作为所述联合VAD判决结果；

d)在满足预设条件时，对上述至少两个已有VAD判决结果进行逻辑‘或’运算，将运算结果作为上述联合VAD判决结果，否则执行步骤e)；

e)如果上述噪声类型标志指示静音时，选择上述至少两个已有VAD判决结果中不是作为上述初始值的VAD标志作为上述联合VAD判决结果；

第二种实现方式

c)如果上述平滑长时平均频域信噪比小于预设阈值、或者噪声类型不为静音，则执行步骤d)，否则，将步骤a)中选择的上述VAD判决结果作为上述联合VAD判决结果；

d)在满足预设条件时，对上述至少两个已有VAD判决结果进行逻辑‘或’运算，将运算结果作为上述联合VAD判决结果；否则执行步骤e)；

e)选择上述至少两个已有VAD判决结果中不是作为上述初始值的VAD标志作为上述联合VAD判决结果。

第三种实现方式

a)从上述至少两个已有VAD判决结果中选择一个VAD判决结果作为联合VAD的初始值；

b)在上述噪声类型标志指示为静音时，如果上述平滑长时平均频域信噪比大于阈值，且上述调性信号标志指示为非调性信号，选择上述至少两个已有VAD判决结果中不是作为上述初始值的VAD标志作为上述联合VAD判决结果，其中，上述VAD标志用于指示VAD判决结果为激活音帧或非激活音帧。

第四种实现方式

b)在上述噪声类型标志指示为非静音，且满足预设条件时，对上述至少两个已有VAD判决结果进行逻辑‘或’运算，将运算结果作为上述联合VAD判决结果。

需要说明的是在第一种实现方式、第二种实现方式和第三种实现方式中所涉及的预设条件包括以下至少之一：

条件1：上述平均全带信噪比大于第一阈值；

条件2：上述平均全带信噪比大于第二阈值，且连续激活音帧个数大于预设阈值；

条件3：上述调性信号标志指示为调性信号。

需要说明的是，第三种实现方式和第四种实现方式是可以结合使用的。

第五种实现方式

如果上述连续噪声帧个数大于第一指定阈值，且上述平均全带信噪比小于第二指定阈值，对上述至少两个已有VAD判决结果进行逻辑‘与’运算，将运算结果作为上述联合VAD检测结果；否则从上述至少两个已有VAD判决结果中任意选择其中一个已有VAD判决结果作为上述联合VAD检测结果。

需要说明的是，第五种实现方式和前四种实现方式是可以结合使用的。

在本实施例的一个优选实施例中，上述平滑长时平均频域信噪比和上述噪声类型标志通过以下方式确定：

根据当前帧的前一帧所对应的至少两个已有VAD判决结果或者上述前一帧的联合VAD判决结果中任意一个VAD判决结果、上述前一帧在第一预设时间段内的平均激活音帧能量和前一帧平均背景噪声能量，计算当前帧的平均激活音帧能量和上述当前帧平均背景噪声能量；

根据上述当前帧在第二预设时间段内的平均激活音帧能量和平均背景噪声能量计算上述当前帧在上述第二时间段内的长时信噪比；

根据上述前一帧所对应至少两个已有VAD判决结果或者上述当前帧的上述联合VAD判决结果中任意一个VAD判决结果、上述前一帧的频域信噪比计算上述当前帧在第三预设时间段内的平滑长时平均频域信噪比；

根据上述长时信噪比、上述平滑长时平均频域信噪比进行噪声类型标志的判断。需要说明的是，平滑长时平均频域信噪比对预订时间段内的平均频域信噪比进行平滑得到。

对于噪声类型标志的判断，在一个优选实施方式中可以表现为以下形式，但不限于此：

设置噪声类型为非静音，在上述长时信噪比大于第一预设阈值且上述平滑长时平均频域信噪比大于第二预设阈值时，将上述噪声类型标志设置为静音。

在一个优选实施方式中，上述连续激活音帧个数和上述连续噪声帧个数通过以下方式确定：

在上述当前帧为非初始化帧时，通过上述当前帧的前一帧的联合VAD判决结果计算上述当前帧的连续激活音帧个数和连续噪声帧个数，或者，

在上述当前帧为非初始化帧时，从上述前一帧的至少两个已有VAD判决结果和上述前一帧的联合VAD判决结果中选择一个VAD判决结果；根据当前选择的上述VAD判决结果计算上述当前帧的连续激活音帧个数和连续噪声帧个数。

在本实施例的一个优选实施过程中，上述连续激活音帧个数和连续噪声帧个数通过以下方式确定：

在指示上述前一帧的联合VAD判决结果或指示当前选择的上述VAD判决结果的VAD标志指示激活音帧时，连续激活音帧个数加1，否则，连续激活音帧个数设置为0；在指示上述前一帧的联合VAD判决结果或指示当前选择的上述VAD判决结果的VAD标志指示噪声音帧时，连续噪声音帧个数加1，否则，连续噪声音帧个数设置为0。

在本实施例中，还提供了一种VAD的装置，如图2所示，该装置包括：

获取模块20，获取第一特征组中的至少一个第一类特征参数，第二特征组中的至少一个第二类特征参数，以及至少两个已有VAD判决结果，其中，上述第一类特征参数和上述第二类特征参数均为用于VAD检测的特征参数；

检测模块22，连接至获取模块20，根据上述第一类特征参数、上述第二类特征参数以及上述至少两个已有激活音检测判决结果进行激活音检测，得到联合VAD判决结果。

在一个优选实施例中，如图3所示，获取模块20还可以包括以下处理单元：：

第一获取单元200，用于获取以下至少之一第一类特征参数：连续激活音帧个数、平均全带信噪比、调性信号标志，其中，该平均全带信噪比为针对预定数量帧的全带信噪比的平均值；

第二获取单元202，用于获取以下至少之一第二类特征参数：噪声类型标志、平滑长时平均频域信噪比、连续噪声帧个数、频域信噪比。

需要说明的是，本实施例中涉及到的上述各个模块是可以通过软件或硬件来实现的，对于后者，在一个优选实施方式中可以通过以下方式实现：获取模块20位于第一处理器中，检测模块22位于第二处理器中；或者上述两个个模块均位于同一处理器中，但不限于此。

为了更好地理解上述实施例，以下结合优选实施例详细说明。

以下实施例中所涉及的‘或’运算和‘与’运算定义如下：

若两个VAD中的任意一个VAD输出标志为激活音帧，则两个VAD的‘或’运算OR的结果为激活音帧；两个同时为非激活音帧时，‘或’运算OR的结果为非激活音帧；

若两个VAD中的任意一个VAD输出标志为非激活音帧，则两个VAD的‘与’运算AND的结果为非激活音帧；两个同时为激活音帧时，‘与’运算AND的结果为激活音帧；

注：以下实施例所述的VAD若是没有指明是哪个VAD，则表示可以是：两个已有的VAD，或者是联合VAD，或者是其他可实现相应功能的VAD。

以下实施例中所述的判决结束，只是代表某个实现方式的过程结束，并不表示在这个过程结束后不再对联合VAD判决结果进行修正。

实施例1

本实施例提供了一种VAD方法，如图4所示，该方法包括：

步骤S402：获得已有的两个VAD的输出结果。

步骤S404：获得当前帧的子带信号及频谱幅值；

本发明实施例中以帧长为20ms，采样率为32kHz的音频流为例具体说明。在其它帧长和采样率条件下，本发明实施例提供的激活音联合检测方法同样适用。

将当前帧时域信号输入滤波器组单元，进行子带滤波计算，得到滤波器组子带信号。

本实施例中采用一个40通道的滤波器组，本发明实施例提供的技术方案对于采用其他通道数的滤波器组同样适用。

将当前帧时域信号输入40通道的滤波器组，进行子带滤波计算，得到16个时间样点上40个子带的滤波器组子带信号X[k,l]，0≤k<40，0≤l<16，其中k为滤波器组子带的索引，其值表示系数对应的子带，l为各个子带的时间样点索引，其实现步骤如下：

1：将最近的640个音频信号样值存储在数据缓存中。

2：将数据缓存中的数据移40个位置，把最早的40个采样值移出数据缓存，并把40个新的样点存入到0到39的位置上。

将缓存中的数据x乘上窗系数，得到数组z，计算表达式如下：

z[n]＝x[n]·W_qmf[n]；0≤n<640；

其中W_qmf为滤波器组窗系数。

采用以下的伪代码计算得到一个80点的数据u，

采用下面的方程计算得到数组r和i：

采用下面的方程计算得到第一个时间样点上40个复数子带样值，X[k,l]＝R(k)+iI(k),0≤k<40，其中R(k)和I(k)分别为滤波器组子带信号X第l个时间样点上系数的实部和虚部，其计算表达式如下：

3：重复2的计算过程，直到将本帧的所有数据都经过滤波器组滤波，最后的输出结果即为滤波器组子带信号X[k,l]。

4：完成上面计算过程后，得到40个子带的16个时间样点的滤波器组子带信号X[k,l]，0≤k<40，0≤l<16。

然后，对滤波器组子带信号进行时频变换，并计算得到频谱幅值。

其中对全部滤波器组子带或部分滤波器组子带进行时频变换，计算频谱幅值，都可以实现本发明实施例。本发明实施例所述的时频变换方法可以是DFT、FFT、DCT或DST。本发明实施例采用DFT为例，说明其具体实现方法。计算过程如下：

对索引为0到9的每个滤波器组子带上的16个时间样点数据进行16点的DFT变换，进一步提高频谱分辨率，并计算各个频点的幅值，得到频谱幅值X_{DFT_AMP}。

时频变换计算表达式如下：

计算各个频点的幅值过程如下：

首先，计算数组X_DFT[k][j]在各个点上的能量，计算表达式如下：

X_{DFT_POW}[k,j]＝((Re(X_DFT[k,j]))²+(Im(X_DFT[k,j]))²)；0≤k<10,0≤j<16其中Re(X_DFT[k,j]),Im(X_DFT[k,j])分别表示频谱系数X_DFT[k,j]的实部和虚部。

如果k为偶数，则采用以下方程计算各个频点上的频谱幅值：

如果k为奇数，则采用以下方程计算各个频点上的频谱幅值：

X_{DFT_AMP}即为时频变换后的频谱幅值。

步骤S406：帧能量参数是各个子带信号能量的加权叠加值或直接叠加值。

据子带信号计算得到当前帧的帧能量参数，具体地：

对一定的子带内对能量sb_power进行叠加可以获得帧能量2

帧能量1为frame_energy＝frame_energy2+fac*sb_power[0]；

对进行子带划分，可以得到信噪比子带，对各个子带内的能量进行叠加可以得到当前帧的信噪比子带能量frame_sb_energy：

根据背景噪声标识的修正值和当前帧的帧能量参数、前一帧的全带背景噪声能量，估计当前帧的背景噪声能量，包括子带背景噪声能量和全带背景噪声能量。表1给出了帧能量特征参数的计算方法。背景噪声标识的计算见步骤S430。

步骤S408：谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值，或该比值进行平滑滤波得到的值。谱重心特征参数可以采用如下子步骤实现：

将用于谱重心特征参数计算的子带区间划分如下：

表1 谱重心参数QMF子带划分

采用a的谱重心特征参数计算区间划分方式和以下公式，计算得到两个谱重心特征参数值，分别为第一区间谱重心特征参数和第二区间谱重心特征参数。

对第二区间谱重心特征参数sp_center[2]进行平滑滤波运算，得到平滑谱重心特征参数值，即第二区间谱重心特征参数值的平滑滤波值：sp_center[0]＝fac*sp_center[0]+(1-fac)*sp_center[2]

依次将当前帧到前面第N帧的相邻两帧的能量幅值相加，得到N/2个幅值叠加值：Amp_t2(n)＝Amp_t1(-2n)+Amp_t1(-2n-1)；0≤n<20；

其中，n＝0时，Amp_t1[n]表示当前帧的能量幅值，n<0时，Amp_t1[n]表示当前帧往前的n帧的能量幅值。

通过计算最近的N/2个幅值叠加值的方差和平均能量的比值，得到时域稳定度特征参数ltd_stable_rate。计算方程式如下：

N取不同的值可用于计算不同的时域稳定度。

步骤S412：调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关值得到，或继续对该相关值进行平滑滤波得到。调性特征参数使用频谱幅值计算得到。其计算步骤如下：

a)将相邻的频谱幅值做差分运算，并将差分结果小于0的值置0，得到一组非负的频谱差分系数spec_low_dif[]。

b)求取步骤a计算得到的当前帧非负的频谱差分系数和前一帧非负的频谱差分系数的相关系数，得到第一调性特征参数值。计算方程式如下：

其中pre_spec_low_dif为前一帧的频谱差分系数。根据以下方式可以计算各类调性特征参数:

f_tonality_rate[0]＝f_tonality_rate；

f_tonality_rate[1]＝pre_f_tonality_rate[1]*0.96f+f_tonality_rate*0.04f；

f_tonality_rate[2]＝pre_f_tonality_rate[2]*0.90f+f_tonality_rate*0.1f；

其中pre_f_tonality_rate是前一帧的调性特征参数。

步骤S414：谱平坦度特征参数是某些频谱幅值的几何平均数和算术平均数的比值，或该比值乘上一个系数。将频谱幅值spec_amp[]进行平滑，得到平滑后的幅度谱：smooth_spec_amp[i]＝smooth_spec_amp[i]*fac+spec_amp[i]*(1-fac)，0<＝i<SPEC_AMP_NUM，将平滑幅度谱划分成3个频带，并计算这3个频带的谱平坦度特征，表3给出了谱平坦度频带划分。

表2 谱平坦度幅度谱频带划分

谱平坦度是谱幅度或者平滑谱幅度的几何平均数geo_mean[k]和算数平均数ari_mean[k]的比值。设N[k]＝spec_amp_end[k]-spec_amp_start[k]+1为计算谱平坦度SFF[k]的幅度谱的个数。

SFF[k]＝geo_mean[k]/ari_mean[k]

对当前帧的谱平坦进一步平滑，得到平滑后的谱平坦度sSFM[k]＝fac*sSFM[k]+(1-fac)SFF[k]

步骤S416：根据前一帧估计得到的背景噪声能量、当前帧的帧能量参数及信噪比子带能量计算得到当前帧的信噪比参数。频域信噪比计算步骤如下：

当前一帧背景噪声标识为1时，更新子带背景噪声能量，更新伪代码如下：

sb_bg_energy[i]＝sb_bg_energy[i]*0.90f+frame_sb_energy[i]*0.1f；

根据当前帧子带能量和上一帧估计的子带背景噪声能量，计算每个子带的信噪比，每个子带的信噪比小于一定的阈值设置为0；具体地：

snr_sub[i]＝log2((frame_sb_energy[i]+0.0001f)/(sb_bg_energy[i]+0.0001f))，snr_sub[i]小于-0.1的置0。

所有子带的信噪比的平均值即为频域信噪比snr。具体地：

步骤S418：根据平滑长时频域信噪比和长时信噪比lt_snr_org，获得噪声类型标志。

长时信噪比是平均长时激活音帧能量与长时平均背景噪声能量。根据上一帧VAD标志，更新平均长时激活音帧能量与长时平均背景噪声能量，当VAD标志为非激活音帧时，更新平均背景噪声能量，当VAD标志为激活音帧时，更新平均长时激活音帧能量，具体地：

平均长时激活音帧能量：lt_active_eng＝fg_energy/fg_energy_count；

平均背景噪声能量：lt_inactive_eng＝bg_energy/bg_energy_count；

长时信噪比：lt_snr_org＝log10(lt_active_eng/lt_inactive_eng)；

设置噪声类型初值为非静音，当lf_snr_smooth大于设定的阈值THR1，且lt_snr_org大于设定的阈值THR2时，噪声类型设置为静音。

其中lf_snr_smooth的计算过程见步骤S420。

步骤S418所述的VAD选择的是两个VAD中的一个VAD，但是不限于选择两个VAD中的一个VAD，也可以选择联合VAD。

步骤S420：平滑长时平均频域信噪比lf_snr_smooth计算方法如下：

lf_snr_smooth＝lf_snr_smooth*fac+(1-fac)*l_snr；

其中，l_snr＝l_speech_snr/l_speech_snr_count-l_silence_snr/l_silence_snr_count；

其中，l_speech_snr和l_speech_snr_count为激活音帧频域信噪比累加器和计数器，l_silence_snr和l_silence_snr_count为非激活音帧频域信噪比累加器和计数器。在当前帧为初始帧时，进行初始化：

l_silence_snr＝0.5f；

l_speech_snr＝5.0f；

l_silence_snr_count＝1；

l_speech_snr_count＝1；

当当前帧不为初始帧时，根据某个VAD判决标志更新以上四个参数。当VAD标志指示当前为非激活音帧时，按照如下方式更新：

l_silence_snr＝l_silence_snr+snr；

l_silence_snr_count＝l_silence_snr_count+1；

当VAD标志指示当前帧为激活音帧时：

l_speech_snr＝l_speech_snr+snr；

l_speech_snr_count＝l_speech_snr_count+1；

步骤S420所述的VAD选择的是两个VAD中的一个VAD，但是不限于选择两个VAD中的一个VAD，也可以选择联合VAD。

步骤S422：在第一帧时连续噪声帧个数设定一个初值，此实施例设置为0。在第二帧及以后帧，当VAD判决为非激活音帧时，连续的非激活音帧个数加1，否则，连续噪声帧个数设置为0。

步骤S422所述的VAD选择的是两个VAD中的一个VAD，但是不限于选择两个VAD中的一个VAD，也可以选择联合VAD。

步骤S424：根据当前帧帧能量参数、调性特征参数f_tonality_rate、时域稳定度特征参数ltd_stable_rate、谱平坦度特征参数sSFM、谱重心特征参数sp_center计算得到当前帧的调性标志，并判断当前帧是否为调性信号。判为调性信号时，认为是音乐帧。执行以下操作：

a)假设当前帧信号为非调性信号，并用一个调性帧标志music_background_frame来指示当前帧是否为调性帧。music_background_frame的值为1表示当前帧为调性帧，0表示当前帧为非调性帧；

b)判断调性特征参数f_tonality_rate[0]或其平滑滤波后f_tonality_rate[1]的值是否大于对应的设定的阈值，如果上述条件至少有一个成立则执行步骤c)，否则执行步骤d)；

c)如果时域稳定度特征参数值ltd_stable_rate[5]小于一个设定的阈值；谱重心特征参数值sp_center[0]大于一个设定的阈值，且3个的谱平坦度有一个小于相应的阈值，则判断当前帧为调性帧，设置调性帧标志music_background_frame的值为1，并继续执行步骤d)；

d)根据调性帧标志music_background_frame对调性程度特征参数music_background_rate进行更新，其中调性程度参数music_background_rate初始值在激活音检测装置开始工作时进行设置，取值范围为[0，1]；

如果当前的调性帧标志指示当前帧为调性帧，则采用以下方程式对调性程度特征参数music_background_rate进行更新：

music_background_rate＝music_background_rate*fac+(1-fac)

如果当前帧不是调性帧，采用以下公式对music_background_rate进行更新：

music_background_rate＝music_background_rate*fac；

e)根据更新后的调性程度特征参数music_background_rate判断当前帧是否为调性信号，并设置调性标志music_backgound_f的值；

若调性程度特征参数music_background_rate大于某个设定的阈值，则判断当前帧为调性信号，否则，判断当前帧为非调性信号。

步骤S426：平均全带信噪比是若干帧全带信噪比的平均值。计算方法如下：

当上一帧的背景更新标志为1时，将当前帧能量累加到全带背景噪声能量累加器上，全带背景噪声能量计数器tbg_energy_count的值加1；

计算全带背景噪声能量t_bg_energy＝t_bg_energy_sum/tbg_energy_count

根据当前帧帧能量计算当前帧全带信噪比：

tsnr＝log2(frame_energy+0.0001f)/(t_bg_energy+0.0001f)；

对若干帧全带信噪比进行平均，得到平均全带信噪比。

其中N为最近N帧，tsnr[i]表示第i帧的tsnr

步骤S428：连续激活音帧个数，在第一帧时设置初值。本实施例设置为0。在当前帧为第二帧及第二帧以后的语音帧时，通过VAD判决结果计算当前的连续激活音帧个数，具体的：

当VAD标志为1时连续激活音帧个数加1；否则连续激活音帧个数设置为0。

步骤S428所述的VAD选择的是两个VAD中的一个VAD，但是不限于选择两个VAD中的一个VAD，也可以选择联合VAD。

步骤S430：根据当前帧帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数计算得到当前帧的初始背景噪声标识，根据当前帧VAD的判决结果、调性特征参数、信噪比参数、调性标志、时域稳定度特征参数对初始背景噪声标识进行修正，得到最终的背景噪声标识，根据背景噪声标识进行背景噪声检测。

背景噪声标识用于指示是否更新背景噪声能量，其值为1或者0，为1时进行背景噪声能量的更新，为0时不进行背景噪声能量的更新。

首先假设当前帧为背景噪声帧，以下任一条件成立时，则判断当前帧不是噪声信号：

时域稳定度参数ltd_stable_rate[5]大于一个设定的阈值；阈值范围0.05-0.30。

谱重心sp_center[0]和时域稳定度ltd_stable_rate[5]分别大于相应的阈值；sp_center[0]和ltd_stable_rate[5]阈值范围分别是2-6，0.001-0.1

调性特征参数f_tonality_rate[1]时域稳定度ltd_stable_rate[5]分别大于相应的阈值；f_tonality_rate[1]和ltd_stable_rate[5]的阈值范围分别是0.4-0.6，0.05-0.15。

各子带的谱平坦度特征参数或各自平滑滤波后的值均小于各自对应的设定的阈值；阈值范围为0.70-0.92。

当前帧能量frame_energy大于设定的阈值，阈值范围50-500；或者使用长时平均能量设置动态阈值。

调性特征参数f_tonality_rate大于相应的阈值；

a)-f)步骤可以得到初始背景噪声标识，然后对初始背景噪声标识进行修正，当信噪比参数、调性特征参数、时域稳定度特征参数小于相应的阈值，同时vad_flag和music_backgound_f设置为0，背景噪声更新标志更新为1。

步骤S430所述的VAD选择的是两个VAD中的一个VAD，但是不限于选择两个VAD中的一个VAD，也可以选择联合VAD。

步骤S432：根据特征群一中至少一个特征、特征群二中至少一个特征和两种已有激活音检测(VAD)判决结果得到最终的联合VAD判决结果。

假设已有的两个VAD为VAD_A和VAD_B，输出标志为vada_flag和vadb_flag，联合VAD的输出标志为vad_flag，VAD标志为0表示非激活音帧，为1表示激活音帧。具体判决过程如下：

a)选择vadb_flag作为vad_flag初值；

b)如果噪声类型为静音、且频域信噪比大于设定的阈值比如0.2、且联合VAD的初值vad_flag为0，选择vada_flag作为联合VAD的输出，判决结束；否则，执行步骤c)。

c)如果平滑长时平均频域信噪比小于设定的阈值，如10.5、或者噪声类型不为静音，则执行步骤d)，否则将步骤a)中选择的vad_flag初值作为联合VAD判决结果；

d)如果满足以下任一条件时，选择两个VAD逻辑‘或’运算结果作为联合VAD的输出，判决结束；否则执行步骤e)；

条件1：平均全带信噪比大于阈值一，如2.2；

条件2：平均全带信噪比大于阈值二，如1.5，且连续激活音帧个数大于阈值，如40

条件3：调性信号标志为1；

e)如果噪声类型为静音，选择vada_flag作为联合VAD的输出，判决结束。

实施例2：

在实施例1的步骤S432中，也可以按照如下方式实施：

根据特征群一中至少一个特征、特征群二中至少一个特征和两种已有激活音检测(VAD)判决结果得到最终的联合VAD判决结果。

a)选择vadb_flag作为vad_flag初值；

b)如果噪声类型为静音、且频域信噪比大于设定的阈值比如0.2、且联合VAD的初值vad_flag为0，选择vada_flag作为联合VAD的输出，判决结束，否则，执行步骤c)；

c)如果平滑长时平均频域信噪比小于设定的阈值，如10.5、或者噪声类型不为静音，则执行步骤d)，否则，将步骤a)中的vad_flag初值作为联合VAD判决结果；

条件1：平均全带信噪比大于阈值一，如2.0；

条件2：平均全带信噪比大于阈值二，如1.5，且连续激活音帧个数大于阈值，如30

条件3：调性信号标志为1；

e)选择vada_flag作为联合VAD的输出，判决结束。

实施例3：

在实施例1步骤S432中，也可以按照如下方式实施：

a)选择vadb_flag作为vad_flag初值；

b)如果噪声类型为静音，执行步骤c)，否则执行步骤d)

c)如果平滑长时频域信噪比大于12.5、且music_backgound_f为0，则vad_flag设置为vada_flag，否则将步骤a)中选择的vad_flag初值作为联合VAD判决结果；

d)如果平均全带信噪比大于2.0、或者平均全带信噪比大于1.5且连续激活音帧个数大于30、或者调性信号标志为1，选择两个VAD逻辑‘或’运算OR(vada_flag,vadb_flag)作为联合VAD的输出；否则将步骤a)中选择的vad_flag初值作为联合VAD判决结果；

实施例4：

在实施例1的步骤S432中，也可以按照如下方式实施：

a)选择vadb_flag作为vad_flag初值；

b)如果噪声类型为静音，执行步骤c)，否则执行步骤d)；

c)如果平滑长时平均频域信噪比大于12.5、且music_backgound_f为0，则vad_flag设置为vada_flag；否则，执行步骤e)；

d)如果平均全带信噪比大于1.5、或者平均全带信噪比大于1.0且连续激活音帧个数大于30、或者调性信号标志为1，选择两个VAD逻辑‘或’运算OR(vada_flag,vadb_flag)作为联合VAD的输出；否则，执行步骤e)；

e)如果连续噪声帧个数大于10，且平均全带信噪比小于0.1，选择两个已有VAD输出标志的‘与’运算AND(vada_flag,vadb_flag)作为联合VAD的输出，否则选择vadb_flag作为联合VAD的输出。

实施例5：

在实施例1步骤S432中，也可以按照如下方式实施：

a)选择vadb_flag作为vad_flag初值；

b)如果噪声类型为静音，执行步骤c)，否则执行步骤d)

c)如果music_backgound_f为0，选择两个VAD逻辑‘或’运算OR(vada_flag,vadb_flag)作为联合VAD的输出；否则选择vada_flag作为联合VAD的输出；

d)如果平均全带信噪比大于2.0、或者平均全带信噪比大于1.5且连续激活音帧个数大于30、或者调性信号标志为1，选择两个VAD逻辑‘或’运算OR(vada_flag,vadb_flag)作为联合VAD的输出，否则将步骤a)中选择的vad_flag初值作为联合VAD判决结果。

在另外一个实施例中，还提供了一种软件，该软件用于执行上述实施例及优选实施方式中描述的技术方案。

在另外一个实施例中，还提供了一种存储介质，该存储介质中存储有上述软件，该存储介质包括但不限于：光盘、软盘、硬盘、可擦写存储器等。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种激活音检测VAD的方法，其特征在于，包括：

获取第一特征组中的至少一个第一类特征参数，第二特征组中的至少一个第二类特征参数，以及至少两个已有VAD判决结果，其中，所述第一类特征参数和所述第二类特征参数均为用于VAD检测的特征参数；

根据所述第一类特征参数、所述第二类特征参数以及所述至少两个已有激活音检测判决结果进行激活音检测，得到联合VAD判决结果；

其中，所述第一类特征参数包括以下至少之一：连续激活音帧个数、平均全带信噪比、调性信号标志，其中，该平均全带信噪比为针对预定数量帧的全带信噪比的平均值；所述第二类特征参数包括以下至少之一：噪声类型标志、平滑长时平均频域信噪比、连续噪声帧个数、频域信噪比。

2.根据权利要求1所述的方法，其特征在于，根据所述第一类特征参数、所述第二类特征参数以及所述至少两个已有VAD判决结果进行激活音检测，包括：

a)从所述至少两个已有VAD判决结果中选择一个VAD判决结果，作为联合VAD的初始值；

b)如果所述噪声类型标志指示为静音、且所述频域信噪比大于预设阈值、所述初始值为非激活音帧时，选择所述至少两个已有VAD判决结果中不是作为所述初始值的VAD标志作为所述联合VAD判决结果；否则执行步骤c)，其中，所述VAD标志用于指示VAD判决结果为激活音帧或非激活音帧；

c)如果所述平滑长时平均频域信噪比小于预设阈值、或者噪声类型不为静音，则执行步骤d)，否则，将步骤a)中选择的所述VAD判决结果作为所述联合VAD判决结果；

d)在满足预设条件时，对所述至少两个已有VAD判决结果进行逻辑‘或’运算，将运算结果作为所述联合VAD判决结果；否则执行步骤e)；

e)如果所述噪声类型标志指示为静音，选择所述至少两个已有VAD判决结果中不是作为所述初始值的VAD标志作为所述联合VAD判决结果；否则，将步骤a)中选择的所述VAD判决结果作为所述联合VAD判决结果。

3.根据权利要求1所述的方法，其特征在于，根据所述第一类特征参数、所述第二类特征参数以及所述至少两个已有VAD判决结果进行激活音检测，包括：

b)如果所述噪声类型标志指示为静音、且所述频域信噪比大于预设阈值、所述初始值为非激活音帧时，选择所述至少两个已有VAD判决结果中不是作为所述初始值的VAD 标志作为所述联合VAD判决结果；否则执行步骤c)，其中，所述VAD标志用于指示VAD判决结果为激活音帧或非激活音帧；

e)选择所述至少两个已有VAD判决结果中不是作为所述初始值的VAD标志作为所述联合VAD判决结果。

4.根据权利要求1所述的方法，其特征在于，根据所述第一类特征参数、所述第二类特征参数以及所述至少两个已有VAD判决结果进行激活音检测，包括：

a)从所述至少两个已有VAD判决结果中选择一个VAD判决结果作为联合VAD的初始值；

b)在所述噪声类型标志指示为静音时，如果所述平滑长时平均频域信噪比大于阈值，且所述调性信号标志指示为非调性信号，选择所述至少两个已有VAD判决结果中不是作为所述初始值的VAD标志作为所述联合VAD判决结果，其中，所述VAD标志用于指示VAD判决结果为激活音帧或非激活音帧。

5.根据权利要求1所述的方法，其特征在于，根据所述第一类特征参数、所述第二类特征参数以及所述至少两个已有VAD判决结果进行激活音检测，包括：

b)在所述噪声类型标志指示为非静音，且满足预设条件时，对所述至少两个已有VAD判决结果进行逻辑‘或’运算，将运算结果作为所述联合VAD判决结果。

6.根据权利要求2、3和5中任一项所述的方法，其特征在于，所述预设条件包括以下至少之一：

条件1：所述平均全带信噪比大于第一阈值；

条件2：所述平均全带信噪比大于第二阈值，且连续激活音帧个数大于预设阈值；

条件3：所述调性信号标志指示为调性信号。

7.根据权利要求1所述的方法，其特征在于，根据所述第一类特征参数、所述第二类特征参数以及所述至少两个已有VAD判决结果进行激活音检测，包括：

如果所述连续噪声帧个数大于第一指定阈值，且所述平均全带信噪比小于第二指定阈值，对所述至少两个已有VAD判决结果进行逻辑‘与’运算，将运算结果作为所述联合VAD判决结果；否则从所述至少两个已有VAD判决结果中任意选择其中一个已有VAD判决结果作为所述联合VAD判决结果。

8.根据权利要求1所述的方法，其特征在于，所述平滑长时平均频域信噪比和所述噪声类型标志通过以下方式确定：

根据所述当前帧在第二预设时间段内的平均激活音帧能量和平均背景噪声能量计算所述当前帧在所述第二预设时间段内的长时信噪比；

9.根据权利要求8所述的方法，其特征在于，根据所述长时信噪比、所述平滑长时平均频域信噪比进行噪声类型标志的判断，包括：

10.一种激活音检测VAD的装置，其特征在于，包括：

获取模块，用于获取第一特征组中的至少一个第一类特征参数，第二特征组中的至少一个第二类特征参数，以及至少两个已有VAD判决结果，其中，所述第一类特征参数和所述第二类特征参数均为用于VAD检测的特征参数；

检测模块，用于根据所述第一类特征参数、所述第二类特征参数以及所述至少两个已有激活音检测判决结果进行激活音检测，得到联合VAD判决结果；

其中，所述获取模块，包括：第一获取单元，用于获取以下至少之一所述第一类特征参数：连续激活音帧个数、平均全带信噪比、调性信号标志，其中，该平均全带信噪比为针对预定数量帧的全带信噪比的平均值；第二获取单元，用于获取以下至少之一所述第二类特征参数：噪声类型标志、平滑长时平均频域信噪比、连续噪声帧个数、频域信噪比。