CN102982801B

CN102982801B - 一种用于鲁棒语音识别的语音特征提取方法

Info

Publication number: CN102982801B
Application number: CN201210449436.XA
Authority: CN
Inventors: 徐波; 范利春; 柯登峰; 孟猛
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2012-11-12
Filing date: 2012-11-12
Publication date: 2014-12-10
Anticipated expiration: 2032-11-12
Also published as: CN102982801A

Abstract

本发明公开了一种用于鲁棒语音识别的语音特征提取方法，该方法包括：获取功率谱；采用滤波器组对功率谱进行处理；采用帧平均的方式求取中等时长的功率谱；对功率谱进行不对称滤波处理，同时对功率谱进行掩蔽处理，得到纯净语音功率谱；对纯净语音和带噪语音功率谱的比值进行通道平均处理，以进行平滑；将平滑后的纯净语音和带噪语音的功率谱比值同滤波器组输出的功率谱相乘，得到纯净语音的短时功率谱；对短时功率谱进行能量归一化处理，以消除乘性噪声；功率谱进行等响度加重；功率谱进行指数操作；对功率谱进行傅立叶逆变换；求取信号的倒谱系数；对倒谱系数进行均值归一化处理。本发明提取的语音信号的特征，速度快，能够实现在线处理；利用本发明提取的特征训练出的声学模型，具用很好的抗噪效果；本发明具有非常重大的使用意义。

Description

一种用于鲁棒语音识别的语音特征提取方法

技术领域

本发明涉及语音识别领域，尤其涉及一种在语音识别中，能够对平稳和非平稳噪声有明显抑制作用的语音特征提取算法方法。

背景技术

语音识别系统在复杂环境下识别性能急剧降低是语音识别中最重要的问题之一。例如在马路上手机语音查询地理位置，用户所处的声学环境非常复杂且变化迅速，这对语音识别系统的性能产生了极大的影响。原有的语音识别系统在没有噪声的环境下能取得很好的处理和识别效果，但在现实应用中识别系统的性能会由于时变的不可预测的环境噪音和信道的影响，说话人的差异，谈话内容的变化等因素影响严重下降。所以如何提高语音识别系统在训练和测试环境的不匹配条件下的鲁棒性成为语音识别技术的关键。

近年来，在语音识别技术环境鲁棒性这一研究领域人们提出了很多改进技术和算法，并取得了一定的效果。根据语音识别的流程，鲁棒语音识别可以分为四类：时频域的抗噪；特征域的噪声补偿；模型域的噪声自适应和解码域的自适应。最早的技术是时频域的抗噪，例如谱减和维纳滤波，还有经典的欧洲电信标准协会的两阶段维纳滤波。特征层面噪声抑制通常是在提取特征的过程中对噪声进行补偿。由于PLP和MFCC特征一直占据鳌头，所以特征层面的噪声抑制大多是在这两种特征上进行的，例如向量泰勒级数等。第三个阶段是在模型方面对噪声进行自适应，包括多状态的语音模型、共享变量参数的HMM等。第四个层面是在解码层面的噪声自适应，包括不确定性解码和用子带重估来代替不确定性解码等。

所有的这些方法从根本上来说都是寻求在某种准则下训练环境和测试环境之间不匹配的一种最佳补偿。在一系列假设前提条件，如加性噪音的高斯分布、噪音与语音信号的独立性、不同噪音之间的独立性、信道的渐变特性等等，这些方法对于语音识别技术的鲁棒性都作出了有益的探索和贡献，尤其在平稳噪声环境下有较好的噪声抑制效果。但这与在真实噪音环境下语音识别系统的应用要求还有很大的差距，因此对于更加复杂的环境，比如突发噪声等环境却无能为力。

发明内容

(一)要解决的技术问题

为了解决上述的在复杂环境下的语音识别率低，而普通的特征提取方法对非平稳噪声的抑制能力不够强的缺点，本发明提出一种能够提高其识别率的特征提取方法，目的在于提高带有突发噪声和音乐噪声等加性噪声影响的语音的识别率，并且使纯净环境下的语音识别率不下降。

(二)技术方案

本发明所基于的一种用于鲁棒语音识别的语音特征提取方法，包括以下步骤来实现：

步骤1、获取语音信号的功率谱；

步骤2、将所获得的功率谱通过滤波器组处理，获得含噪语音的短时功率谱；

步骤3、根据所获得的含噪语音的短时功率谱，采用帧平均的方式求取含噪语音的中等时长功率谱；

步骤4、对所获得的含噪语音的中等时长功率谱进行不对称滤波和掩蔽抗噪，以得到纯净语音的中等时长功率谱；

步骤5、根据所述纯净语音的中等时长功率谱、含噪语音的中等时长功率谱和含噪语音的短时功率谱获取纯净语音的短时功率谱；

步骤6、对纯净语音的短时功率谱进行能量归一化处理，以消除乘性噪音；

步骤7、对消除了乘性噪音的纯净语音的短时功率谱进行等响度加重；

步骤8、对等响度加重后的纯净语音的短时功率谱进行指数非线性操作；

步骤9、对进行了指数非线性操作后的纯净语音的短时功率谱进行傅立叶逆变换，以求取倒谱系数，对倒谱系数进行均值归一化处理，最终得到语音特征。

本发明从传统的语音特征提取方法入手，针对传统语音特征抗噪能力弱的缺点，提出了若干手段改进语音特征，最终形成一套新的语音特征提取方法。本发明针对噪声变化比语音慢的特点，利用帧平均的方式将短时功率谱转换为中等时长的功率谱，用于估计噪声；利用不对称滤波的方式，分别估计含噪语音中噪声和语音的频谱包络；在不对称滤波的基础上采用掩蔽的方式估计信噪比，并对其进行处理，将其转换为短时功率谱的信噪比进行抗噪；还通过能量归一化和指数非线性对功率谱进行处理。本发明提出的用于鲁棒语音识别的语音特征提取方法不仅能够对噪声进行更加准确的估计，也能使语音特征更加符合人耳的听觉特性。因此这种特征提取方法所求取的特征对噪声有很好的抑制作用。

(三)有益效果

本发明从传统的语音特征提取方法入手，在传统的语音特征提取方法中加入了抗噪处理和符合人耳听觉的变换处理，使得这种特征提取方法不仅能够拟制各种加性噪声，并且在纯净环境下的识别率也高于传统的语音特征提取方法。

附图说明

图1为本发明用于鲁棒语音识别的语音特征提取方法的总流程框图；

图2为包含掩蔽的不对称低通滤波抗噪模块的结构流程图；

图3为图2中掩蔽模块的结构流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明进一步详细说明。

图1为本发明用于鲁棒语音识别的语音特征提取方法的总流程框图。如图1所示，本发明提出的一种用于鲁棒语音识别的语音特征提取方法主要由以下几个流程组成：对语音信号进行预加重；对语音加窗并采用短时傅立叶变换求取语音频谱；对语音频谱平方，求取功率谱；采用滤波器组对功率谱进行处理，以获得含噪语音的短时功率谱；采用帧平均的方式求取含噪语音的中等时长功率谱；对所求取的含噪语音的中等时长功率谱进行不对称低通滤波处理，跟踪语音中的噪声，同时对所求取的中等时长功率谱进行掩蔽处理，得到纯净语音的短时功率谱；对纯净语音和带噪语音的功率谱的比值进行通道平均处理，以进行平滑；将平滑后的纯净语音和带噪语音的功率谱比值同滤波器组输出的含噪语音的短时功率谱相乘，得到纯净语音的短时功率谱；对纯净语音的短时功率谱进行能量归一化处理，以消除乘性噪声；将归一化后的短时功率谱进行等响度加重，使其符合人耳听觉效应；然后将等响度加重后的功率谱利用指数操作进行强度响度转换，使其符合人的生理特征；之后对经过强度响度转换后的功率谱进行傅立叶逆变换；再根据傅立叶逆变换得到的结果求取倒谱系数；最后对求取的倒谱系数进行均值归一化处理，最终得到本发明方法的语音特征。以下对发明的各步骤具体阐述。

一、对语音信号进行预加重

预加重的目的是削弱低频干扰的影响，突出高频信号的主成份。通常使用如下公式对语音采样点进行预加重：

y_{t} = \{\begin{matrix} x_{t} - α \cdot x_{t - 1} & ift > 0 \\ (1 - α) \cdot x_{t} & ift = 0 \end{matrix} - - - (1)

其中α被称为预加重系数，x为语音采样点，y是经过预加重后的语音采样点值，t为采样点的索引。

二、对所述预加重后的语音信号加窗并采用短时傅立叶变换求取语音频谱语音信号是一个连续的时变信号，为了对语音进行分析研究，通常截取一段语音，认为语音在这一段内是稳态信号，并将这一段语音叫做一帧。为了减少截断效应，通常给这段语音乘一个窗，常见的有汉宁窗和海明窗。将加窗后的一帧语音信号进行短时傅立叶变换就能得到这一帧语音的频谱。具体包括：对语音进行分帧，其中帧长范围是20ms～30ms，帧移范围取值是10ms～15ms；对语音的每一帧进行加窗，采用汉宁窗或海明窗；对加窗后的语音进行短时傅立叶变换，采用原始傅立叶变化公式，或是对加窗后的语音补零到2的整数次方利用快速傅立叶变换求解得到语音频谱。

三、对语音频谱平方，求取功率谱

为了得到语音信号的功率谱P(w)，我们将短时傅立叶变换后的实部和虚部分别求取平方并求和。公式如下所示：

P(w)＝Re[S(w)]²+Im[S(w)]² (2)

其中S(w)表示短时傅立叶谱，Re[S(w)]和Im[S(w)]分别表示短时傅立叶谱的实部和虚部。

四、采用滤波器组对功率谱进行处理

人耳对不同频率的语音具有不同的感知能力，实验发现，在1000Hz以下，感知能力与频率成线性关系，而在1000Hz以上，感知能力则与频率成对数关系。为了模拟人耳对不同频率语音的感知特性，通常采用滤波器组对线性频谱进行转换。采用的滤波器组可以是梅尔滤波器组(Mel-filterbank)或Gamma-tone滤波器组，而且通道数可以根据不同的滤波器选取不同的数目；

在本发明一个优选实施例中采用了Gamma-tone滤波器组。它有若干通道，这些通道的中心频率线性的分布在等效矩形带宽中。

那么利用Gamma-tone滤波器组求和得到含噪语音的短时功率谱就如下式：

P [m, l] = Σ_{k = 0}^{(K / 2) - 1} {| X [m, e^{j w_{k}}] H_{l} (e^{{jw}_{k}}) |}^{2} - - - (3)

其中m和l分别表示帧和通道的索引，K为傅立叶变换的点数，w_k＝2π/F_s，F_s表示语音信号的采样频率。表示语音第m帧第频率的幅度，则表示第l通道频率的Gamma-tone滤波值。

五、采用帧平均的方式求取中等时长功率谱

由于噪声的变化往往比语音的变化缓慢，因此估计噪声的时候需要求取一个比普通窗更长的窗，在本发明的特征提取方法中，采用帧平均的方式获得几个窗的均值来描述一个更长的窗。但是不能够对所有的语音都用这么长的窗，是因为窗长太大的话会使语音识别率降低。帧平均求取含噪语音的中等时长功率谱的公式表示如下：

Q [m, l] = \frac{1}{2 M + 1} Σ_{m^{'} = m - M}^{m + M} P [m^{'}, l] - - - (4)

其中m和l分别表示帧和通道的索引，M表示求取中等时长的时候，分别向前和向后所取的帧数之和。

六、对含噪语音的中等时长功率谱进行不对称滤波和掩蔽抗噪

由于噪声在某些频率的变化较快，所以为了更加准确的跟踪噪声，需要对不同通道的噪声进行不相同的处理，因此在此处引入了包含掩蔽的不对称低通滤波抗噪模块。具体流程如图2所示。

图2为本发明中包含掩蔽的不对称低低通滤波抗噪模块的结构流程图。

在图2中，第一个不对称低通滤波器可以用如下公式描述：

Q_{le} [m, l] = \{\begin{matrix} λ_{a} Q_{le} [m - 1, l] + (1 - λ_{a}) Q [m, l], ifQ [m, l] &GreaterEqual; Q_{le} [m - 1, l] \\ λ_{b} Q_{le} [m - 1, l] + (1 - λ_{b}) Q [m, l], ifQ [m, l] < Q_{le} [m - 1, l] \end{matrix} - - - (5)

其中λ_a和λ_b为可调参数，取值范围是(0～1)。通过上式获得的Q_le[m，l]同Q[m，l]相减之后，再经过一个半波整流模块得到Q_o[m，l]。相减和整流的具体操作如公式(6)所示。

Q_o[m，l]＝max(Q[m，l]-Q_le[m，l]，0) (6)

Q_o[m，l]分别送入到掩蔽模块和第二个不对称低通滤波器。第二个不对称低通滤波器和上述的第一个不对称低通滤波器相同，内部结构仍然可用公式(5)来获得，只是输入由Q[m，l]变成了Q_o[m，l]，输出由Q_le[m，l]变成了Q_f[m，l]。第二个不对称低通滤波器所产生的值Q_f[m，l]将作为谱底功率，即功率谱的最小值。第二个不对称低通滤波器是为了防止不对称滤波和掩蔽整体作用的输出值的值太小而引起不必要的音乐噪声。另一方面，Q_o[m，l]经过掩蔽模块得到Q_tm[m，l]，这一步骤在后面详细叙述。Q_tm[m，l]和Q_f[m，l]共同输入到最大值模块，利用如下公式得到R_sp[m，l]：

R_sp[m，l]＝max(Q_tm[m，l]，Q_f[m，l]) (7)

最后经过一个选择性开关来确定结果输出R[m，l]的取值。这个选择性的开关由如下公式来确定：

R [m, l] = \{\begin{matrix} R_{sp} [m, l], & ifQ [m, l] &GreaterEqual; {cQ}_{le} [m, l] \\ Q_{f} [m, l], & ifQ [m, l] < {cQ}_{le} [m, l] \end{matrix} - - - (8)

其中c是可调参数，如可以选择c＝2。这个公式的意义在于，如果一个语音片段的中等时长功率不能够大于c＝2倍的其自身谱底功率的话，就认为这段语音是静音状态，因此输出值应该为谱底功率。

上面所述的处理过程都是由图2中描述的包含掩蔽的不对称低通滤波抗噪模块实现的。下面具体描述图2中的掩蔽模块。其结构如图3所示。首先输入Q_o[m，l]经过MAX模块得到Q_p[m，l]，公式如下：

Q_p[m，l]＝max(λ_tQ_p[m-1，l]，Q_o[m，l]) (9)

其中λ_t是遗忘系数，取值范围是(0～1)。掩蔽模块最后的输出值Q_tm[m，l]也是由选择性开关决定，其公式描述如下：

Q_{tm} [m, l] = \{\begin{matrix} Q_{o} [m, l] & Q_{o} [m, l] &GreaterEqual; λ_{t} Q_{p} [m - 1, l] \\ μ_{t} Q_{p} [m - 1, l] & Q_{o} [m, l] < λ_{t} Q_{p} [m - 1, l] \end{matrix} - - - (10)

其中μ_t为对应的参数，取值范围是(0～1)。掩蔽模块的输出值Q_tm[m，l]同第二个不对称滤波器的输出Q_f[m，l]经过公示(7)描述的最大值模块得到了R_sp[m，l]，R_sp[m，l]最后同谱底Q_f[m，l]经公式(8)描述的选择性开关后，最终得到对含噪语音的中等时长功率谱进行不对称滤波和掩蔽抗噪后的结果R[m，l]。

通过上面的描述，计算出了不对称滤波和掩蔽抗噪后的输出R[m，l]，这个值代表纯净语音的中等时长功率谱，它与帧平均后的含噪语音中等时长功率谱Q[m，l]的比值可以描述含噪语音功率谱中纯净语音功率所占比例，我们用H[m，l]来表示。用公式表示如下：

H (m, l) = \frac{R [m, l]}{Q [m, l]} - - - (11)

七、通道平均和抗噪整合

由于通道和通道之间的阈值是不同的，并且处理也常常是基于一个语音片段，因此通道之间的平滑是很有必要的。我们用如下公式来进行通道平均，得到通道平均权重H_s[m，l]：

H_{s} [m, l] = (\frac{1}{l_{2} - l_{1} + 1} Σ_{l^{'} = l_{1}}^{l_{2}} H [m, l]) - - - (12)

其中l₂＝min(l+N，L)，l₁＝max(l-N，1)，L表示滤波器通道的个数，N表示求取通道平均的时候，向前和向后观望的通道总数。所述经过通道平均的权重H_s[m，l]用来调制含噪语音的短时功率谱，以得到纯净语音的短时功率谱，公式如下：

T[m，l]＝P[m，l]H_s[m，l] (13)

八、对纯净语音的短时功率谱进行能量归一化处理，以消除乘性噪声

在MFCC等传统的特征提取算法中，为了拟合人的生理特性，采用了对数操作，这样就将特征提取算法中的乘性操作带来的噪声变为了加性的信息，最后可以通过均值归一化去掉。但是在本发明的特征提取方法中，采用指数的操作来拟合人的生理特性，这样乘性操作带来的噪声是不能通过均值归一化消除掉的，因此添加此步骤，为的是能够消除这一乘性噪声。

由于本发明的特征提取方法是在线的特征，因此不能获得所有帧的均值。本发明中采用动态更新的均值来代替整条语音的均值，公式如下所示：

μ [m] = λ_{μ} μ [m - 1] + \frac{1 - λ_{μ}}{L} Σ_{l = 0}^{L - 1} T [m, l] - - - (14)

其中L表示滤波器通道的个数，λ_μ表示遗忘系数，取值范围是(0～1)。利用这个均值来对每个通道的纯净语音短时功率谱进行归一化就能够消除掉乘性噪声的影响。这一步骤的公式如下所示：

U [m, l] = k \frac{T [m, l]}{μ [m]} - - - (15)

其中k是任意常数，利用这样的在线处理，能够使在线特征达到离线的效果。

九、对能量归一化处理后的纯净语音的短时功率谱进行等响度加重

不同频率等响时它们的声压强度是不同的。为了补偿人耳对频率的这种偏差，需要对功率谱进行等响度预加重处理。通常用每个通道的中心频率作为这一通道的频率来对这一通道进行补偿，而补偿的公式有多种多样，本发明中采用的等响度权重公式如下所示：

E (w_{l}) = \frac{(w_{l}^{2} + 1.44 \times 10^{6}) w_{l}^{4}}{{(w_{l}^{2} + 1.6 \times 10^{5})}^{2} \times (w_{l}^{2} + 9.61 \times 10^{6})} - - - (16)

其中w表示频率，而l表示通道的索引，w_l是第l通道的频率，即第l通道的中心频率。

对能量归一化处理后的纯净语音的短时功率谱进行等响度加重采用下面的公式：

O[m，l]＝U[m，l]·E(w_l) (17)

其中m，l分别是帧和通道的索引。

十、对等响度加重后的纯净语音短时功率谱进行指数操作

为了更好的拟合人的听觉模型，将强度转化为响度，需要对功率谱进行非线性的压缩，在传统的PLP特征中，采用了立方根的非线性；而在传统的MFCC中，采用了对数非线性的方式。在本发明的特征提取方法中，采用了指数非线性的方式。公式如下：

L[m，l]＝O[m，l]^θ (18)

其中θ为指数非线性的参数。

十一、对指数非线性变换后的纯净语音短时功率谱进行傅立叶逆变换

对指数非线性变换后的纯净语音短时功率谱进行傅立叶逆变换是为了求取语音信号的倒谱系数，进而获得语音特征。这里的傅立叶逆变化采用了基本的傅立叶逆变换方法。

十二、求取信号的倒谱系数

为了获得倒谱系数，本发明的方法中，首先采用了Durbin递推算法来求取线性预测系数，然后利用所求取的线性预测系数，根据递推公式获得相应的倒谱系数。递推公式如下：

c_{n} = \{\begin{matrix} a_{n} + Σ_{m = 1}^{n - 1} {kc}_{m} a_{n - m} / n, if 1 \leq n \leq p + 1 \\ a_{n} + Σ_{m = n - p}^{n - 1} {kc}_{m} a_{n - m} / n, ifn > p + 1 \end{matrix} - - - (19)

其中a是线性预测系数，k是反射系数，它们都是由Durbin递推算法根据步骤十一中所述傅立叶逆变换的自相关方程求得，另外n是到谱系数的索引，p是模型的阶数。

十三、对倒谱系数进行均值归一化

虽然在步骤八中进行了能量归一化，但是均值归一化还是有必要的，至少均值归一化不会带来负面的影响。均值归一化是将倒谱系数的所有维分别求取所有帧的平均值，然后将每一帧倒谱系数的每一维都减去相应维的到谱系数的均值。由于本发明的特征提取方法是在线的，因此均值也是将当前帧之前的所有帧求平均。

下面结合附图，说明本发明所述的一种用于鲁棒语音识别的语音特征提取方法的实例，针对16KHz采样频率的语音，具体介绍如下。

1.对语音信号进行预加重，加重系数α采用0.97。系统函数如公式(1)所示。

2.语音帧长采用25ms，帧移采用10ms，加海明窗，并将一帧语音的400点尾部补零至512点，然后采用快速傅立叶变换求取语音频谱。

3.利用所求取的语音频谱，根据公式(2)求取语音功率谱。

4.采用Gamma-tone滤波器组对功率谱进行处理，通道个数采用40，采用的公式如(3)所示。

5.采用帧平均的方式求取中等时长的功率谱，计算公式如上所述公式(4)，其中M＝2，即利用当前帧与其前面两帧和后面两帧的平均功率作为含噪语音的中等时长功率来代替原单个帧的中等时长功率，这个时长为[(2M+1)-1]*10ms+25ms＝65ms。

6.对功率谱进行不对称滤波处理，跟踪语音中的噪声，同时对功率谱进行掩蔽处理，得到纯净语音功率谱。在这一步骤中，对包含掩蔽的不对称低通滤波抗噪模块按照实施方法中的公式进行计算。所用到的公式有(5，6，7，8，9，10，11)，其中具体参数的取值描述如下：

λ_a＝0.999，λ_b＝0.5

c＝2

λ_t＝0.85，μ_t＝0.2

7.对纯净语音和带噪语音功率谱的比值进行通道平均，以进行平滑，采用的公式为(12)，其中N＝4(即向前和向后分别观望的通道数为4)，即将9个通道的值进行平滑。将平滑后的纯净语音和带噪语音的功率谱比值同滤波器组输出的含噪语音的短时功率谱相乘，即公式(13)，得到纯净语音的短时功率谱。

8.对纯净语音的短时功率谱进行能量归一化处理，以消除乘性噪声，如公式(15)所示。其中均值采用动态估计，如公式(14)所示，初始值从数据集中统计得到。

9.功率谱进行等响度加重，使其符合人耳听觉效应。

10.对功率谱进行指数操作，使其符合人的生理特征，这里指数非线性参数θ选取1/15。

11.对功率谱进行傅立叶逆变换，可以利用傅立叶逆变换的基本公式进行计算，因为本身点数就很少，计算量不大。

12.求取信号的倒谱系数时，选取的线性预测系数为12个，倒谱系数也是12个，公式如(17)所示。

13.对倒谱系数进行均值归一化处理，最终得到本发明方法的语音特征。

本发明提出的所述特征提取方法与常用特征提取方法的效果对比：

利用本发明所述特征提取方法在863桌面语音集上提取语音的特征，同时使用PLP特征提取方法和欧洲电信标准协会(ETSI)的高级抗噪前段(AFE)特征提取863桌面语音集的语音特征。利用这三个特征集，分别在相同的条件下采用HTK工具训练声学模型。然后，选取1000条纯净朗读录音，加入模拟白噪声，然后利用上述的三种特征提取方法分别提取特征。此外，对一个随机谈话录音集进行标注，得到7072条纯净录音和360条带噪声录音，仍然使用上述的三种特征提取方法分别提取语音特征。

利用上述声学模型和其对应的特征进行语音识别，语言模型都采用同一个3元语言模型，识别器采用HTK工具中的解码器。这里采用词错误率(WER)来评估语音识别性能，其中，PNPLP是本发明的特征提取算法的名称。WER的计算公式如下：

在模拟白噪声的测试条件下，各种特征的性能如表1所示。表1中可以看出，在没有噪声的纯净语音情况下，PLP特征表现出很好的性能，但随着噪声的加大，PLP性能逐渐变差。欧洲电信标准协会的抗噪特征(AFE)在噪声上能够表现出一定的效果，但是本发明的特征提取方法抗噪性能要远远优于欧洲电信标准协会的抗噪算法。

表2是各种特征提取算法在真实的测试集上的实验结果。从附表中可以看出，本发明所述特征提取方法抗噪性能突出，比欧洲电信标准协会的抗噪性能要好出很多。另外，本发明所述抗噪特征提取算法在纯净语音集上相对于经典的PLP算法有略微下降，但同欧洲电信标准协会的抗噪算法对比，本发明所述的抗噪特征提取算法仍然要好很多。

表1

表2

WER	PLP	AFE	PNPLP
				clear	11.64％	13.68％	12.07％
noise	35.89％	34.21％	33.36％

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于鲁棒语音识别的语音特征提取方法，其特征在于，该方法包括：

步骤1、获取语音信号的功率谱；

步骤9、对进行了指数非线性操作后的纯净语音的短时功率谱进行傅立叶逆变换，以求取倒谱系数，对倒谱系数进行均值归一化处理，最终得到语音特征；

其中，步骤1中所述获取语音信号的频谱进一步包括以下内容：

步骤11、对语音信号采用公式(1)进行预加重：

y_{t} = \{\begin{matrix} x_{t} - α \cdot x_{t - 1} & ift > 0 \\ (1 - α) \cdot x_{t} & ift = 0 \end{matrix} - - - (1)

其中α被称为预加重系数，x为语音采样点，y是经过预加重后的语音采样点值，t为采样点的索引；

步骤12、对预加重后的语音的每一帧进行加窗，采用汉宁窗或海明窗，对加窗后的语音进行短时傅立叶变换，包括采用原始傅立叶变化公式，或是对加窗后的语音补零到2的整数次方利用快速傅立叶变换求解；

步骤13、对短时傅里叶变换后的实部和虚部分别求取平方并求和，以获得语音信号的功率谱，如公式(2)所示：

P(w)＝Re[S(w)]²+Im[S(w)]² (2)

其中P(w)为语音信号的功率谱，S(w)表示短时傅立叶谱，Re[S(w)]和Im[S(w)]分别表示短时傅立叶谱的实部和虚部。

2.根据权利要求1所述的用于鲁棒语音识别的语音特征提取方法，其特征在于，所述步骤2中采用的滤波器组为梅尔滤波器组Mel-filter bank或Gamma-tone滤波器组，通道数根据不同的滤波器选取不同的数目，其中，利用Gamma-tone滤波器组求和得到含噪语音的短时功率谱，如公式(3)所示：

P [m, l] = Σ_{k = 0}^{(K / 2) - 1} {| X [m, e^{{jw}_{k}}] H_{l} (e^{{jw}_{k}}) |}^{2} - - - (3)

其中p[m，l]为含噪语音的短时功率谱，m和l分别表示帧和滤波器组通道的索引，K为傅立叶变换的点数，w_k＝2π/F_s，F_s表示语音信号的采样频率，表示语音信号第m帧第频率的幅度，则表示第l通道频率的Gamma-tone滤波值。

3.根据权利要求1所述的用于鲁棒语音识别的语音特征提取方法，其特征在于，步骤3中采用帧平均的方式求取含噪语音的中等时长功率谱，如公式(4)所示：

Q [m, l] = \frac{1}{2 M + 1} Σ_{m^{'} = m - M}^{m + M} P [m^{'}, l] - - - (4)

其中Q[m，l]为含噪语音的中等时长功率谱，m和l分别表示帧和滤波器组通道的索引，M表示求取中等时长的时候，分别向前和向后所取的帧数之和，P[m′，l]为第m′帧的含噪语音短时功率谱。

4.根据权利要求1所述的用于鲁棒语音识别的语音特征提取方法，其特征在于，步骤4中所述对所获得的含噪语音的中等时长功率谱进行不对称滤波和掩蔽抗噪具体包括以下几个步骤：

步骤41、将所获得的含噪语音中等时长功率谱经第一个不对称低通滤波器进行滤波，并将所述含噪语音中等时长功率谱减去所述第一个不对称低通滤波器的输出结果以进行整合；其中所述第一个不对称低通滤波器如公式(5)表示：

Q_{le} [m, l] = \{\begin{matrix} λ_{a} Q_{le} [m - 1, l] + (1 - λ_{a}) Q [m, l], ifQ [m, l] &GreaterEqual; Q_{le} [m - 1, l] \\ λ_{b} Q_{le} [m - 1, l] + (1 - λ_{b}) Q [m, l], ifQ [m, l] < Q_{le} [m - 1, l] \end{matrix} - - - (5)

其中m和l分别表示帧和滤波器组通道的索引，Q_le[m，l]为所述第一个不对称低通滤波器的输出；Q[m，l]为所述含噪语音的中等时长功率谱，λ_a和λ_b为可调参数，取值范围是(0～1)；

步骤42、将所述整合后的结果经过一个半波整流模块得到Q_o[m，l]，将Q_o[m，l]分别送入掩蔽模块和第二个不对称低通滤波器进行处理，所述第二个不对称低通滤波器与第一个不对称低通滤波器相同，第二个不对称滤波器的输出作为谱底功率；其中半波整流模块得到的Q_o[m，l]的公式表示如下：

Q_o[m，l]＝max(Q[m，l]-Q_le[m，l]，0) (6)

步骤43、所述经半波整流模块得到的Q_o[m，l]经掩蔽模块处理后得到结果Q_tm[m，l]，而Q_o[m，l]经过第二个不对称低通滤波器处理后得到结果Q_f[m，l]，之后，所述Q_tm[m，l]和所述Q_f[m，l]输入到最大值模块得到结果R_sp[m，l]；其中最大值模块如公式(7)所示：

R_sp[m，l]＝max(Q_tm[m，l]，Q_f[m，l]) (7)

步骤44、由第一选择性开关来确定纯净语音的中等时长功率谱R[m，l]，所述第一选择性开关如公式(8)所示：

R [m, l] = \{\begin{matrix} R_{sp} [m, l], ifQ [m, l] &GreaterEqual; {cQ}_{le} [m, l] \\ Q_{f} [m, l], ifQ [m, l] < {cQ}_{le} [m, l] \end{matrix} - - - (8)

其中c是可调参数。

5.根据权利要求4所述的用于鲁棒语音识别的语音特征提取方法，其特征在于，所述掩蔽模块的操作流程包括以下内容：

所述经半波整流模块得到的Q_o[m，l]经过掩蔽模块的MAX模块得到Q_p[m，l]，如公式(9)所示：

Q_p[m，l]＝max(λ_tQ_p[m-1，l]，Q_o[m，l]) (9)

其中λ_t是遗忘系数，取值范围是(0～1)，掩蔽模块最后的输出值Q_tm[m，l]由第二选择性开关决定，所述第二选择性开关如公式(10)所示：

Q_{tm} [m, l] = \{\begin{matrix} Q_{o} [m, l] & Q_{o} [m, l] &GreaterEqual; λ_{t} Q_{p} [m - 1, l] \\ μ_{t} Q_{p} [m - 1, l] & Q_{o} [m, l] < λ_{t} Q_{p} [m - 1, l] \end{matrix} - - - (10)

其中μ_t为对应的参数，取值范围是(0～1)，掩蔽模块的输出值Q_tm[m，l]经公式(8)描述的选择性开关后，最终，对含噪语音的中等时长功率谱进行不对称滤波和掩蔽抗噪后的结果为R[m，l]。

6.根据权利要求1所述的用于鲁棒语音识别的语音特征提取方法，其特征在于，所述步骤5中获取纯净语音的短时功率谱包括以下内容：

步骤51，计算得到所获得的纯净语音的中等时长功率谱与含噪语音的中等时长功率谱的比值H[m，l]，如公式(11)所示：

H [m, l] = \frac{R [m, l]}{Q [m, l]} - - - (11);

其中所述R[m，l]为纯净语音的中等时长功率谱，Q[m，l]为含噪语音的中等时长功率谱；

步骤52，进行通道平均，以获得通道平均权重H_s[m，l]，如公式(12)所示：

H_{s} [m, l] = (\frac{1}{l_{2} - l_{1} + 1} Σ_{i^{'} = l_{1}}^{l_{2}} H [m, l]) - - - (12)

其中l₂＝min(l+N，L)，l₁＝max(l-N，1)，L表示滤波器通道的个数，N表示求取通道平均的时候，向前和向后观望的通道总数；

步骤53，利用所述通道平均权重H_s[m，l]调制含噪语音的短时功率谱P[m，l]，并获得纯净语音的短时功率谱T[m，l]，如公式(13)所示：

T[m，l]＝P[m，l]H_s[m，l] (13)。

7.根据权利要求1所述的用于鲁棒语音识别的语音特征提取方法，其特征在于，所述步骤6中对纯净语音的短时功率谱进行能量归一化处理，如公式(15)所示：

U [m, l] = k \frac{T [m, l]}{μ [m]} - - - (15)

其中k是任意常数，T[m，l]为纯净语音的短时功率谱，μ[m]如公式(14)所示：

μ [m] = λ_{μ} μ [m - 1] + \frac{1 - λ_{μ}}{L} Σ_{l = 0}^{L - 1} T [m, l] - - - (14)

其中L表示滤波器通道的个数，λ_μ表示遗忘系数，取值范围是(0～1)。

8.根据权利要求1所述的用于鲁棒语音识别的语音特征提取方法，其特征在于，所述步骤7中，所述对纯净语音的短时功率谱进行等响度加重如公式(17)所示：

O[m，l]＝U[m，l]·E(w_l) (17)

其中m，l分别是帧和通道的索引，U[m，l]为语音经过抗噪处理后的短时功率谱，E(w_l)如公式(16)所示：

E (w_{l}) = \frac{(w_{l}^{2} + 1.44 \times 10^{6}) w_{l}^{4}}{{(w_{l}^{2} + 1.6 \times 10^{5})}^{2} \times (w_{l}^{2} + 9.61 \times 10^{6})} - - - (16)

其中w表示频率，w_l是第l通道的频率。

9.根据权利要求1所述的用于鲁棒语音识别的语音特征提取方法，其特征在于，所述步骤8中，所述对等响度加重后的纯净语音的短时功率谱进行指数非线性操作如公式(18)所示：

L[m，l]＝O[m，l]^θ (18)

其中θ为指数非线性的参数，O[m，l]为所述等响度加重后的纯净语音的短时功率谱。