CN102543079A

CN102543079A - 一种实时的音频信号分类方法及设备

Info

Publication number: CN102543079A
Application number: CN2011104309646A
Authority: CN
Inventors: 林志斌; 孔庆胜
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2011-12-21
Filing date: 2011-12-21
Publication date: 2012-07-04

Abstract

本发明公开了一种实时的音频信号分类方法及设备，涉及音频编解码与传输领域。本发明公开的实时音频信号分类方法，包括：对输入的音频信号进行预处理，在时域和MDCT域提取多级音频特征，对当前帧处于分类的收敛时间帧I内采用单个音频特征分类；对处于分类的收敛时间帧I之后则采用粗细分级规则的分类方法进行分类，分类特征采用多级特征判断；当前帧经过粗细分级规则分类后，根据当前帧之前的信号帧分类类型历史状态更新当前帧信号分类类别。本发明使得简单实时的信号分类也具有较高的准确性。

Description

一种实时的音频信号分类方法及设备

一、技术领域

本发明涉及音频编解码与传输领域，尤其涉及一种实时的音频信号分类方法及设备。

二、背景技术

在音频信号进行编码、传输或其他处理前对信号进行分类，可以有效地提高编码和传输的效率，由于多媒体音频信号的传输是在基于实时传输的模式框架下，对音频信号的实时分类是一个重要的研究内容。

国内外对音频信号分类的研究大多集中在长时间的分类上，如1秒或10秒时长的低能量率分类和1秒或10秒时长的短时能量进行分类等。在分类器的设计上普遍采用基于统计的分类方法，如支持向量机的分类器，神经网络分类器等。由于处理时间比较长，这些方法在音频实时分类上实用性不高。

目前对音频分类的算法基本是在时域或频域中实现的，而现在流行的编码方式，如MP3，AAC等都利用MDCT变换处理，为了减少额外运算操作，直接提取MDCT域和时域上的特征进行分析，能有效地提高特征提取效率。配合适当的分类规则可以设计出快速音频信号实时分类的分类设备。

三、发明内容

1、发明目的：本发明的目的是提供一种实时的音频信号分类方法及设备，进行快速的实时分类，减少额外运算，提高音频信号实时分类的精确度，发挥音频信号分类对音频编码与音频传输重要作用。

2、技术方案：为实现上述发明目的，本发明公开一种实时的音频信号分类方法，包括：

对输入的音频信号进行分帧及高通滤波处理后，进行当前帧静音检测，计算MDCT变换，在时域和MDCT域提取音频特征，当所述当前帧处于分类的收敛时间帧I内采用单个音频特征分类，若所述当前帧处于分类的收敛时间帧I之后则采用粗细分级规则的分类方法进行分类，且所述当前帧经过粗细分级规则分类后，根据所述当前帧之前的信号帧分类类型历史状态更新所述当前帧分类类别。

进一步地，上述方法中，采用短时过零率进行当前帧静音检测，所述当前帧短时过零率大于所述第一设定值，设置当前帧为非静音帧。

通过对处理后的每帧音频信号进行MDCT变换，在时域与MDCT域中提取一系列的音频特征，音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。

进一步地所述方法中，当所述当前帧处于分类的收敛时间帧I内时采用单一特征分类，单一特征采用MDCT频谱子带能量，所述当前帧单一特征第一能量子带大于所述第二设定值，设置当前帧为语音帧。

所述当前帧处于分类的收敛时间帧I后时采用粗细分级规则进行多级特征分类，多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。

所述当前帧进行粗分类，粗分类特征采用MDCT频谱子带能量的第一子带进行判别，大于所述第二设定值，设置当前帧为类语音帧，反之设置所述当前帧为类音乐帧。

进一步地，所述方法中，对粗分类后的信号帧按照多特征结合的方法进行精细分类，精细分类每级判断的音频特征分别与相应设定值比较判断信号类型，分级分类过程不改变分级特征判断顺序。

所述通过存储分类结果的历史状态，结合当前帧的分类结果，利用出现频率最高的分类类型作为当前帧的分类结果，若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。

所述的第一设定值和第二设置是给定的阈值，相应设定值是一系列给定的阈值。

本发明还提供一种实时的音频信号分类设备，包括彼此连接的预处理模块、特征提取模块、粗细分级规则分类模块和分类结果修正模块，其中：

所述预处理模块，它包括对音频信号进行预处理与静音检测；

所述特征提取模块，它包括对处理后的音频信号在时域与MDCT域中进行实时特征提取；

所述粗细分级规则分类模块，它包括将获取的音频特征按照一定规则放置，按照基于粗细分级规则的方法进行分类；

所述分类结果修正模块，它包括对所述的原分类结果进行修正，最后输出精确地音频信号分类结果。

进一步地，上述设备中，所述预处理模块采用短时过零率进行当前帧静音检测，所述当前帧短时过零率大于所述第一设定值，设置当前帧为非静音帧。

进一步地，上述设备中，所述特征提取模块通过对处理后的每帧音频信号进行MDCT变换，在时域与MDCT域中提取一系列的音频特征，音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。

进一步地，上述设备中，所述粗细分级规则分类模块通过对前帧处于分类的收敛时间帧I内时采用单一特征分类，单一特征采用MDCT频谱子带能量，所述当前帧单一特征第一能量子带大于所述第二设定值，设置当前帧为语音帧。

所述对粗分类后的信号帧按照多特征结合的方法进行精细分类，精细分类每级判断的音频特征分别与相应设定值比较判断信号类型，分级分类过程不改变分级特征判断顺序。。

进一步地，上述设备中，所述分类结果修正模块通过存储分类结果的历史状态，结合当前帧的分类结果，利用出现频率最高的分类类型作为当前帧的分类结果，若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。

本发明技术方案通过简单的粗细分级规则提高音频信号实时分类准确性，从而大大提高音频编解码效率，本发明技术方案可以用于实时双向通信如无线、IP会议电视和实时广播业务等音频编解码领域的音频信号分类判决。

四、附图说明

图1是用于语音频编码器的音频信号分类应用框图。

图2是一种实时的音频信号分类设备结构框图。

图3是音频信号静音判断框图。

图4是分类的收敛时间帧I内单一特征分类框图。

图5是分类的收敛时间帧I后单一特征粗分类框图。

图6是类语音信号分级规则分类框图。

图7是类音乐信号分级规则分类框图。

图8是分类结果修正模块框图。

五、具体实施方式

本发明的主要构思是，对语音频编解码器可以采用一种实时的音频信号分类方法进行编码前语音频信号类别判决(如图1)，在此基础上根据判决类似选择适用于语音或者音频的编码器，从而提高语音频编解码器的对不同类型信号的编码效率，具体过程如下：

步骤1、信号分帧及高通滤波处理，滤除不必要低频信号；静音检测，采用短时过零率进行当前帧静音检测，当所述当前帧短时过零率大于所述第一设定值，设置当前帧为非静音帧。；

步骤2、MDCT变换，在时域与MDCT域中提取一系列的音频特征，音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和；

步骤3、信号分类的收敛时间帧I内时单一特征信号类别分类；

步骤4、信号分类的收敛时间帧I后时采用粗细分级规则进行多级特征分类，多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和；

步骤5、信号类别粗分类，粗分类特征采用MDCT频谱子带能量的第一子带进行判别，大于所述第二设定值，设置当前帧为类语音帧，反之设置所述当前帧为类音乐帧。

步骤6、信号类别粗分类后的信号帧按照多特征结合的方法进行精细分类，精细分类每级判断的音频特征分别与相应设定值比较判断信号类型，分级分类过程不改变分级特征判断顺序。

步骤7、通过存储分类结果的历史状态，结合当前帧的分类结果，利用出现频率最高的分类类型作为当前帧的分类结果，若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。

下面结合附图及实施例对本发明方案做进一步详细说明。

一种实时的音频信号分类设备，如图2所示，包括彼此连接的预处理模块、特征提取模块、粗细分级规则分类模块和分类结果修正模块。下面介绍各模块的功能。

预处理模块，首先是将音频流x(n)进行信号分帧和高通滤波，其次是采用短时平均过零率进行静音检测，如图3所示，当短时平均过零率大于第一设定值

时，判断该帧为非静音帧，短时平均过零率计算采用如下公式1：

Z_{n} = \frac{1}{2 N} Σ_{m = - \infty}^{\infty} | sgn [x (m)] - sgn [x (m - 1)] | h (n - m)

(公式1)

其中N是帧长度，sgn[·]为符号函数，即：

sgn [x (n)] = \{\begin{matrix} 1 & (x (n) &GreaterEqual; 0) \\ - 1 & (x (n) < 0) \end{matrix}

(公式2)

窗函数h(n)为矩形窗，即：

特征提取模块，用于预处理后进行MDCT变化和时域及其MDCT域特征提取。首先采用MDCT(Modified Discrete Cosine Transform)变换得到频域系数：

将N点当前帧时域数据x(n)与上一帧N点时域数据x(n-N)叠组成2N点时域数据进行MDCT变换，对于本实施例，采用16kHz采样信号，N取320。

X (k) = Σ_{n = 0}^{2 N - 1} x (n) * w (n) * \cos [\frac{π}{N} (n + \frac{1}{2} + \frac{N}{2}) (k + \frac{1}{2})], k = 0 . . . N - 1

(公式4)

其中w(n)表示sin窗函数，表达式为：

w (n) = \sin [\frac{π}{2 N} (n + \frac{1}{2})], n = 0 . . . 2 N - 1

(公式5)

时域及其MDCT频域特征提取：

(1)短时过零率Z_n，判断阈值为

和

(2)MDCT频谱谐波结构稳定性HSS：

步骤1、搜索每帧MDCT频谱中每一个峰值点记为P_l，P_l表示该帧的第l个峰值；

步骤2、变换P_l成标准的对数尺度上，记为LP_l，变换如公式6所示：

{LP}_{l} = \log (P_{l}) - \log (\underset{l}{Σ} P_{l}), l = 1, . . ., L

(公式6)

其中L为最后一个峰值；

步骤3、计算每个LP_l的方差即为HSS，HSS的判断阈值记为

和

(3)MDCT频谱子带能量E_b

所述MDCT频谱子带是指MDCT频谱系数等间距分为M个子带，本实施例M为32，子带能量如公式7计算所得：

E_{b} (j) = \sqrt{Σ_{k = N / M * j}^{N / M * j + 1} X (k) * X (k)}, j = 0, . ., M - 1

(公式7)

其中j是子带序号，E_b的第一个子带能量的判断阈值记为

(4)MDCT频谱子带能量变化统计值C_SF

计算MDCT频谱流量SF(j)：

SF (j) = Σ_{n = 1}^{Q} | \log E_{b} (i, j) - {\log E}_{b} (i - 1, j) |

(公式8)

其中E_b(i，j)为时间帧第i帧的第j个子带能量，Q为计算的频谱流量的时间帧数，本实施例中Q取6。

计算SF(j)中超过设定值THR_SF个数C_SF，对应的判断阈值为设定值

和

(5)MDCT频谱质心变化值δ_c：

步骤1、计算各帧MDCT频谱质心值：

SC = Σ_{k = 0}^{N - 1} p (k) F (k)

(公式9)

其中F(k)＝k+1，p(n)的计算如公式10：

p(k)＝Ω(k)/max(Ω(k)) (公式10)

其中Ω(k)＝abs(X(k))。

步骤2、计算MDCT频谱质心变化值：

δ_{c} = Σ_{i - O + 1}^{i} | SC (i) - SC (i - 1) |

(公式11)

O为要计算的相邻帧数。本实施例中O取4。δ_c的判断阈值记为

和

(6)MDCT频谱系数前四个参数绝对值之和E_l

计算MDCT频谱系数前四个参数绝对值之和，其结果记为E_l，其判断阈值标志为

和

粗细分级规则分类模块，是一种基于粗细分级的规则分类方法，具体包含以下过程：

所述当前帧处于分类的收敛时间帧I内时采用单一特征分类，单一特征采用MDCT频谱子带能量E_b，如图4所示，MDCT频谱子带能量第一能量子带E_b(0)大于

则判定为语音信号帧，反之为音乐信号帧。

所述当前帧处于分类的收敛时间帧I后时采用单一特征分类，若MDCT频谱变换系数第一能量子带E_b(0)大于

则判定为类语音信号帧，反之为类音乐信号帧，粗分类如图5所示。

所述对粗分类后的信号帧按照多特征结合的方法进行精细分类，精细分类每级判断的音频特征分别与相应设定值比较判断信号类型，分级分类过程不改变分级特征判断顺序。

所述类语音分级规则分类过程如图6所示，具体过程如下：

比较MDCT频谱子带能量变化统计值C_SF与C_SF第二判断阈值

大小，若大于

则输出当前帧为语音信号帧，否则进入第二级判断；

第二级判断比较MDCT频谱子带能量变化统计值C_SF与C_SF第三判断阈值

大小，若小于

则输出当前帧为音乐信号帧，否则进入第三级判断；

第三级判断比较MDCT频谱质心变化值δ_c与δ_c第三判断阈值

若大于

则输出当前帧为语音信号帧，否则进入第四级判断；

第四级判断比较MDCT频谱系数前四个参数绝对值之和E_l与E_l第二判断阈值

大小，若大于

则输出当前帧为音乐信号帧，否则进入第五级判断；

第五级判断比较MDCT频谱系数前四个参数绝对值之和E_l与E_l第三判断阈值

大小，若小于

则输出当前帧为语音信号帧，否则进入第六级判断；

第六级判断比较MDCT频谱谐波结构稳定性HSS与HSS第三判断阈值

和第七判断阈值

大小，若HSS属于区间，则判定为音乐信号帧，否则进入第七级判断；

第七级判断比较MDCT频谱谐波结构稳定性HSS与HSS第二判断阈值和第六判断阈值大小，同时比较短时过零率Z_n与Z_n第一判断阈值

和第三判断阈值

大小，若HSS属于

区间且Z_n属于

区间，则判断为音乐信号帧，反之则判断为语音信号帧，类语音信号分级规则分类模块输出音频信号分类结果。

所述类音乐分级规则分类过程如图7所示，具体过程如下：

比较MDCT频谱质心变化值δ_c与δ_c第一判断阈值

若大于

则输出当前帧为语音信号帧，否则进入第二级判断；

第二级判断比较MDCT频谱质心变化值δ_c与δ_c第二判断阈值

若小于或等于

则输出当前帧为音乐信号帧，否则进入第三级判断；

第三级判断比较MDCT频谱谐波结构稳定性HSS与HSS第四判断阈值

和第二判断阈值大小，同时比较短时过零率Z_n与Z_n第一判断阈值

和第二判断阈值

大小，若HSS属于

区间且Z_n属于

区间，则输出当前帧为音乐信号帧，否则进入第四级判断；

第四级判断比较MDCT频谱谐波结构稳定性HSS与HSS第五判断阈值大小，若大于

则输出当前帧为语音信号帧，否则进入第五级判断；

第五级判断比较MDCT频谱谐波结构稳定性HSS与HSS第一判断阈值

大小，同时比较MDCT频谱子带能量变化统计值C_SF与C_SF第一判断阈值

大小，若HSS大于

且C_SF大于

则输出当前帧为语音信号帧，否则进入第六级判断；

第六级判断比较MDCT频谱系数前四个参数绝对值之和E_l与E_l第一判断阈值大小，同时比较MDCT频谱子带能量变化统计值C_SF与C_SF第四判断阈值

大小，若E_l小于

且C_SF大于

则判断为语音信号帧，反之则判断为音乐信号帧，类音乐信号分级规则分类模块输出音频信号分类结果。

分类结果修正模块，其特征在于，通过存储分类结果的历史状态，即存储当前帧的前T-1帧的原始分类结果及当前帧的分类结果，若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果，反之统计出现频率最高的音频信号分类结果作为当前帧的分类结果，本实施例中T取10，分类结果修正模块框图如图8所示。

其中，所述的一种实时的音频信号分类设备中所涉及的音频特征参数对应的多级判定阈值，其数值如表1所示。

下面对本发明技术方案的分类效果进行评估。

本次评估使用EBU SQAM的语音频素材，中文采用国家标准GSBM 6001-89音质评价样件《美谈不美》的中文样本，共71个音频样本。信号为原始音频信号，信号采样率为16KHz，每帧长度为20ms。评估结果见表2。

表1音频特征参数对应的多级判定阈值

表2音频信号分类效果测试结果

信号类别	正确率％
		音乐
单频音频	99.6
		电子乐器	96.9
弦乐器	96.6
		管乐器	97.8
打击乐器	94.5
		风琴类乐器	95.0

		语音
男声	95.6
		女声	96.9

本发明所述技术方案对语音的正确分辨率平均为96.22％，音乐的正确分辨率平均为96.23％，分类效果好。本发明技术方案在现有语音频编解码器通用的MDCT域进行音频特征的提取，避免了额外变换的复杂运算，使音频信号分类更为快速；对音频信号的分类处理是实时的，可有效地提高音频传输、音频编码等音频信号处理的效率。

Claims

1.一种实时的音频信号分类方法，其特征在于，包括：

对输入的音频信号进行分帧及高通滤波处理后，进行当前帧静音检测，计算MDCT变换，在时域和MDCT域提取音频特征，当所述当前帧处于分类的收敛时间帧I内采用单个音频特征分类，若所述当前帧处于分类的收敛时间帧I之后则采用粗细分级规则的分类方法进行分类，且所述当前帧经过粗细分级规则分类后，根据所述当前帧之前的信号帧分类类型历史状态更新所述当前帧分类类型。

2.根据权利要求1所述的方法，其特征在于，采用短时过零率进行当前帧静音检测，所述当前帧短时过零率大于所述第一设定值，设置当前帧为非静音帧。

3.根据权利要求1所述的方法，其特征在于，通过对处理后的每帧音频信号进行MDCT变换，在时域与MDCT域中提取一系列的音频特征，音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。

4.根据权利要求1所述的方法，其特征在于，当所述当前帧处于分类的收敛时间帧I内时采用单一特征分类，单一特征采用MDCT频谱子带能量，所述当前帧单一特征第一能量子带大于所述第二设定值，设置当前帧为语音帧。

5.根据权利要求1所述的方法，其特征在于，当所述当前帧处于分类的收敛时间帧I后时采用粗细分级规则进行多级特征分类，多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。

6.根据权利要求5所述的方法，其特征在于，将所述当前帧进行粗分类，粗分类特征采用MDCT频谱子带能量的第一子带进行判别，大于所述第二设定值，设置当前帧为类语音帧，反之设置所述当前帧为类音乐帧。

7.根据权利要求5或6所述的方法，其特征在于，对粗分类后的信号帧按照多特征结合的方法进行精细分类，精细分类每级判断的音频特征分别与相应设定值比较判断信号类型，分级分类过程不改变分级特征判断顺序。

8.根据权利要求1所述的方法，其特征在于，通过存储分类结果的历史状态，结合当前帧的分类结果，利用出现频率最高的分类类型作为当前帧的分类结果，若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。

9.根据权利要求1或2或4或7所述的方法，其特征在于，第一设定值和第二设置是给定的阈值，相应设定值是一系列给定的阈值。

10.一种实时的音频信号分类设备，其特征在于，该设备包括彼此连接的预处理模块、特征提取模块、粗细分级规则分类模块和分类结果修正模块，其中：

所述分类结果修正模块，它包括对所述的原分类结果进行修正，最后输出精确的音频信号分类结果。

11.根据权利要求10所述的方法，其特征在于，采用短时过零率进行当前帧静音检测，所述当前帧短时过零率大于所述第一设定值，设置当前帧为非静音帧。

12.根据权利要求10所述的方法，其特征在于，通过对处理后的每帧音频信号进行MDCT变换，在时域与MDCT域中提取一系列的音频特征，音频特征包括短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。

13.根据权利要求10所述的方法，其特征在于，当所述当前帧处于分类的收敛时间帧I内时采用单一特征分类，单一特征采用MDCT频谱子带能量，所述当前帧单一特征第一能量子带大于所述第二设定值，设置当前帧为语音帧。

14.根据权利要求10所述的方法，其特征在于，当所述当前帧处于分类的收敛时间帧I后时采用粗细分级规则进行多级特征分类，多级特征采用短时过零率、MDCT频谱谐波结构稳定性、MDCT频谱子带能量变化统计值、MDCT频谱质心变化值、MDCT频谱子带能量和MDCT频谱系数前四个参数绝对值之和。

15.根据权利要求14所述的方法，其特征在于，将所述当前帧进行粗分类，粗分类特征采用MDCT频谱子带能量的第一子带进行判别，大于所述第二设定值，设置当前帧为类语音帧，反之设置所述当前帧为类音乐帧。

16.根据权利要求14或15所述的方法，其特征在于，对粗分类后的信号帧按照多特征结合的方法进行精细分类，精细分类每级判断的音频特征分别与相应设定值比较判断信号类型，分级分类过程不改变分级特征判断顺序。

17.根据权利要求10所述的方法，其特征在于，通过存储分类结果的历史状态，结合当前帧的分类结果，利用出现频率最高的分类类型作为当前帧的分类结果，若当前帧为静音帧或者历史分类原始分类结果中仅有两帧为非静音帧则维持原分类结果。

18.根据权利要求10或11或13或16所述的方法，其特征在于，第一设定值和第二设置是给定的阈值，相应设定值是一系列给定的阈值。