CN112735456A

CN112735456A - 一种基于dnn-clstm网络的语音增强方法

Info

Publication number: CN112735456A
Application number: CN202011323987.2A
Authority: CN
Inventors: 汪友明; 张天琦
Original assignee: Xian University of Posts and Telecommunications
Current assignee: Xian University of Posts and Telecommunications
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-04-30
Anticipated expiration: 2040-11-23
Also published as: CN112735456B

Abstract

本发明是一种基于深度神经网络和残差长短时记忆网络(DNN‑CLSTM)的语音增强方法。此方法将谱减法获取的语音幅值特征和快速傅里叶变换获取的语音梅尔倒谱系数(MFCC)特征输入至DNN‑CLSTM网络模型，实现语音增强的目的。首先，对含噪语音进行时频掩蔽和加窗分帧处理，利用快速傅里叶变换获取含噪语音的幅值和相位特征，并估计出含噪语音的噪声幅值；然后，用含噪语音幅值减去估计的噪声信号幅值，得到谱减后的语音信号幅值作为神经网络输入的第一特征。其次，对含噪语音进行快速傅里叶变换(FFT)，求取语音信号的谱线能量进而得到含噪语音的MFCC特征作为语音信号的第二特征。将上述二种特征输入至DNN‑CLSTM网络中进行训练得到网络模型，并采取最小均方误差(MMSE)损失函数评价指标评估模型有效性。最后，将实际含噪语音集输入至完成训练的语音增强网络模型中，预测出增强后的估计幅值和MFCC，采用逆傅立叶变换得到最终的增强语音信号。本发明具有语音的高保真性。

Description

一种基于DNN-CLSTM网络的语音增强方法

技术领域

本发明属于语音增强技术领域，具体涉及一种基于DNN-CLSTM网络的语音增强方法。

背景技术

语音作为信息传输的主要方式之一，在生活中得到了大量的应用，随着技术的发展，语音不仅在人与人交流之间起到了信息传递的作用，在人机交互中也大量运用到了语音信号。然而在我们的通信过程中，语音信号往往都伴随着大量的噪声信号，如工厂噪声、汽车噪声或者餐厅的嘈杂声等背景噪声。包含了大量噪声的语音信号会使得接收方在对语音信号中包含的有用信息进行提取时产生大量的干扰。针对这一问题，语音信号增强技术得到了广泛关注。

语音增强是指现实中的语音被噪声干扰时，将噪声和语音信号分离的过程。语音增强技术现已经得到了广泛的运用，如移动通信领域、语音识别领域等诸多领域。语音增强技术的主要目的是为了提高语音质量以及语音可懂度。目前，语音增强方法主要分为谱减法、子空间算法以及基于统计模型的算法三种。随着深度学习的发展，神经网络已经被应用到了语音增强领域。

图1所示的谱减法是语音增强技术中最早去噪技术之一。谱减法去噪基于以下原理：假设噪声是加性噪声，即y(m)＝x(m)+n(m)，其中y(m)是包含噪声的信号，x(m)是纯净的语音信号，n(m)是加性噪声；通过从包含噪声的语音信号中减去对噪声谱的估计，就可以得到纯净的语音信号。这一假设的前提条件是噪声信号是平稳的，使得在不存在目标信号的语音段间，可以对噪声信号进行估计并且进行更新。

谱减法是一种相对简单的语音增强算法，其原理是从输入的混合语音信号的幅度谱值减去估计的噪声幅度谱值，利用人耳对相位的不灵敏性，把谱减前的相位角信息直接用到谱减后的信息中来合成最终谱减后的语音信号。由于谱减法只包含一次傅里叶变化和傅里叶逆变化，因此它的计算量较小，并且易于实现。但现实中许多噪声是不平稳的信号，因此使用谱减法对语音信号进行增强后，增强后的语音信号往往存在着大量的音乐噪声，从而导致语音信号失真，使得信号的可懂度与语音质量较差。

发明内容

本发明的目的是解决基于谱减法的语音增强过程中存在的语音信号失真、信号的可懂度与语音质量较差等问题。为达上述目的，本发明提供了一种基于DNN-CLSTM网络的语音增强方法，其特征在于，包括以下步骤：

步骤一：获取至少两路含噪语音信号，含噪语音信号由纯净语音信号和噪声信号相加而成：

y(m)＝x(m)+n(m)

其中，y(m)是包含噪声的含噪语音信号，x(m)是纯净语音信号，n(m)是噪声信号，m为离散时间序列；

步骤二：分帧加窗，获取纯净语音信号以及含噪语音信号的幅值和相位作为第一特征：对含噪语音信号进行加窗分帧处理，并且使用离散傅里叶变化得到含噪语音信号的幅值以及相位；同时，在不含目标信号并且只含有噪声的语音信号段，对噪声进行估计，求出噪声信号幅值；

步骤三、用含噪语音信号的幅值减去所述噪声信号幅值，从而得到谱减语音信号幅值作为第二特征；

步骤四、求取MFCC作为第三特征；

步骤五：建立DNN-CLSTM网络模型进行训练；

将含噪语音谱减后的语音信号幅值和MFCC这两种特征输入至 DNN-CLSTM网络中进行训练，得到增强后的估计的幅值和MFCC；将估计的幅值和MFCC分别与纯净的幅值和纯净的MFCC数值计算各自的最小均方误差，并将所得到的误差作为调整信号输入进神经网络对网络进行优化，从而得到训练好的网络。

步骤四的具体过程是：

(1)预处理：预处理包括预加重、分帧、加窗函数；

预加重处理：通过一个一阶的高通滤波器实现，滤波器的传递函数为：

H(z)＝1-az^-1

其中，a为预加重系数，一般取值为0.98；

语音信号x(n)通过预加重处理后的结果为：

y(n)＝x(n)-ax(n-1)

分帧加窗：在相邻两帧之间有重叠的部分，即为帧移，设置为10ms；加窗函数：对每一帧语音信号进行汉明窗加窗处理：y(n)经过分帧加窗处理后得到y_i(n)，它的定义为：

其中，ω(n)为汉明窗，它的表达式为

其中，y_i(n)表示第i帧语音信号，n表示样点数，L表示帧长；

(2)快速傅里叶变换(FFT)

对每帧语音信号y_i(n)进行快速傅里叶变换，得到每帧信号的频谱，表达式如下：

Y(i,k)＝FFT[y_i(n)]

其中，k表示频域中的第k条谱线；

(3)计算谱线能量

频域中每一帧语音信号谱线的能量E(i,k)表示为：

E(i,k)＝[Y(i,k)]²

(4)计算通过Mel滤波器的能量

每一帧谱线能量通过Mel滤波器的能量S(i,m)定义为：

其中，N表示FFT的点数；

每个滤波器的传递函数H_m(k)为

其中，f(m)为第m个滤波器的中心频率，m为第m个滤波器，M为滤波器的个数；

(5)计算MFCC

把Mel滤波器的能量取对数后计算离散余弦变换得到MFCC特征参数，如下式所示：

其中，j是DCT后的谱线。

3、步骤五的具体过程是：

(1)DNN网络建立

输入层：将经过谱减后的语音幅值和MFCC特征作为输入，输入DNN 网络中，输入层的神经元的节点数为128个；

全连接层：设置32个节点，丢弃率设为0.5，设置激活函数为RELU；

全连接层：设置128个节点，丢弃率值设为0.5，设置激活函数为RELU；

全连接层：设置512个节点，丢弃率值设为0.5，设置激活函数为RELU；

(2)多目标特征融合：

将DNN网络增强后的幅值和MFCC特征与原始含噪语音的幅值和 MFCC特征相结合；

其中

和

分别代表第k个空间领域中经过DNN预测的MFCC特征和语音幅值；

分别代表第k个空间领域中原始含噪语音的 MFCC特征和语音幅值；

(3)C-LSTM网络：

(a)CNN:

卷积层：对DNN网络得到的结果进行卷积，节点数设置为64个节点，步长设为1，卷积核取5*1，激活函数设置为SELU；

BN层：对数据进行归一化；

卷积层：节点数设置为64个节点，步长设为1，卷积核取3*1，激活函数设置为SELU；

BN层：对数据进行归一化

卷积层：节点数设置为128个节点，步长设为1，卷积核取5*1，

(b)残差网络

对DNN网络得到的结果进行卷积，节点数设置为128个节点，步长设为1，卷积核取5*1；

将残差网络得到数据与CNN网络得到的数据进行结合后，使用SELU 激活函数；

Max Pooling层：步长设置为1，池化层大小设置为2

(c)LSTM网络：

长短时记忆网络的双向网络节点均选取为128节点，激活函数为 Sigmoid函数，

(4)输出层：

使用两个前馈神经网络作为输出层，输出预测的语音信号幅值、 MFCC；网络模型采用Adam优化器对网络参数进行优化；所有卷积层采用边缘填充方式。

(5)计算最小均方误差目标函数

其中T＝2，

分别代表第k个声学特征空间预测的MFCC特征向量和预测幅值特征

分别代表第k个声学特征空间纯净的MFCC 特征向量和纯净幅值特征。

本发明的优点如下：增强后的语音信号平稳，具有高保真性和良好的语音质量。

下面结合附图和实施例对本发明作详细说明。

附图说明

图1是传统谱减法流程图。

图2是训练阶段的基于DNN-CLSTM网络的语音增强方法的流程图。

图3是测试阶段的基于DNN-CLSTM网络的语音增强方法流程图。

图4是MFCC求取流程图。

图5是建立DNN-CLSTM神经网络的过程架构图。

图6是纯净语音的语谱图

图7是含有噪声的语谱图

图8是采用DNN语音增强方法处理后的语谱图

图9是采用CNN语音增强方法处理后的语谱图

图10是采用LSTM语音增强方法处理后的语谱图

图11是采用GRU语音增强方法处理后的语谱图

图12是采用DNN-CLSTM语音增强方法处理后的语谱图

具体实施方式

为了克服使用谱减法对语音信号进行增强后，增强后的语音信号往往存在着大量的音乐噪声，从而导致语音信号失真，使得信号的可懂度与语音质量较差的缺陷，本实施例提供了一种基于DNN-CLSTM网络的语音增强方法 (如图2和3所示)，包括以下步骤：

获取两路含噪语音信号(也可以获取两路以上的含噪语音信号，根据实际需要自行选取)；含噪语音信号由纯净的语音信号和噪声信号构成：

y(m)＝x(m)+n(m)

其中，y(m)是包含噪声的语音信号，x(m)是纯净的语音信号，n(m)是噪声信号。

训练阶段：

1、分帧加窗

获取纯净语音信号以及含噪语音信号的幅值和相位，以对含噪语音此乃和处理为例：

对含噪语音信号进行加窗分帧处理，并且使用离散傅里叶变化得到含噪语音信号的幅值以及相位作为第一特征；

对含噪语音信号使用汉明窗加窗分帧：

y_w(m)＝w(m)y(m)＝w(m)[x(m)+n(m)]＝x_w(m)+n_w(m)

加窗操作在频域表示为：

Y_w(f)＝W(f)*Y(f)＝X_w(f)+N_w(f)

假设信号是经过加窗处理的，为了简便，将信号的下标w省略。

将Y_w(f)用极坐标形式表示：

其中|Y(f)|为幅度谱，φ_y(f)为相位信号Phase[Y(f)]。

2、噪声估计：

在不含目标信号并且只含有噪声的语音信号段，对噪声进行估计，求出噪声信号幅值；本发明选取语音信号前五帧作为噪声信号段。由于噪声的幅度谱|N(f)|未知，但|N(f)|可以通过无语音活动时的平均幅度谱的估计来替代，噪声的相位φ_n(f)可以由含噪语音信号的相位φ_y(f)来替代。当语音信号不存在且只有噪声时，得到平均噪声幅度谱

计算过程如下：

其中，|N_i(f)|为第i个噪声的帧的频谱，k为纯噪声信号周期内的帧数。

3、谱减法

用含噪语音信号的幅值减去噪声信号幅值，从而得到谱减语音信号幅值作为第二特征(采用谱减发获取的增强语音信号成为谱减语音信号，相应的幅值称为谱减语音信号幅值，以与本实施中最终得到的增强语音信号进行区分)；

使用含噪声语音信号的幅值减去噪声信号的幅值，计算过程如下：

其中，

代表经过谱减后语音信号的幅值，|Y(f)|^b表示含噪语音信号的幅值，

表示代表噪声段的噪声统计的平均值。α表示谱减噪声系数。b 是幂指数，当指数b＝1时为幅度谱减法,当指数b＝2时，为功率谱减法。

由于对于噪声信号的估计可能会产生误差，从而导致估计信号的幅度谱

可能会为负值。通常幅度谱的值不应为负，为了避免

为负值，对差分谱进行半波整流，计算过程如下：

经过谱减后，需要对谱减后语音信号进行降幂，从而得到经过谱减阶段后的语音信号幅值即谱减语音信号幅值

计算过程如下：

4、提取MFCC作为第二特征；

(1)预处理

预处理包括预加重、分帧、加窗函数，预加重处理是指通过一个一阶的高通滤波器实现的，滤波器的传递函数为：

H(z)＝1-az^-1

其中，a为预加重系数，一般取值为0.98

语音信号x(n)通过预加重处理后的结果为：

y(n)＝x(n)-ax(n-1)

分帧是指由语音的产生过程可知语音信号是一个非平稳的时变的信号。短时间内的语音信号可认为是平稳的时不变信号，短时间通常指10～30ms之间，本文取20ms。因此通常用短时分析技术对语音信号进行分析和处理，将许多帧来分析其特征参数，同时为了使帧与帧之间可以平滑地过渡，在相邻两帧之间有重叠的部分，即为帧移，设置为10ms。加窗函数的目的是为了减少频域中的频谱泄露，对每一帧语音信号进行加窗处理，通常采用汉明窗，和矩形窗相比，汉明窗的频谱泄露更小。y(n)经过分帧加窗处理后得到y_i(n)，它的定义为：

其中，ω(n)为汉明窗，它的表达式为

其中，y_i(n)表示第i帧语音信号，n表示样点数，L表示帧长。

(2)快速傅里叶变换(FFT)

由于语音信号在时域上的变换一般不容易看出信号的特性，所以通常将其变换到频域上来进行分析，不同频率的频谱代表了语音信号不同的特性。因此对每帧语音信号y_i(n)进行快速傅里叶变换，得到每帧信号的频谱，如下式所示：

Y(i,k)＝FFT[y_i(n)]

其中，k表示频域中的第k条谱线。

(3)计算谱线能量

频域中每一帧语音信号谱线的能量E(i,k)可表示为：

E(i,k)＝[Y(i,k)]²

(4)计算通过Mel滤波器的能量

每一帧谱线能量通过Mel滤波器的能量S(i,m)可定义为：

其中，N表示FFT的点数。

每个滤波器的传递函数H_m(k)为

其中，f(m)为第m个滤波器的中心频率，m为第m个滤波器，M为滤波器的个数，通常设置为24。

(5)计算MFCC，参见图4，把Mel滤波器的能量取对数后计算离散余弦变换(Discrete Cosine Transform,DCT)得到MFCC特征参数，如下式所示：

其中，j是DCT后的谱线。

8、基于DNN-CLSTM网络模型的训练；

测试阶段：

1、对含噪语音信号进行加窗分帧处理，并且使用离散傅里叶变化得到含噪语音信号的幅值以及相位作为第一特征；

2、对含噪语音信号进行分帧加窗后得到经过谱减阶段后的语音信号幅值即谱减语音信号幅值

作为第二特征；

3、对含噪语音信号进行分帧加窗后得到MFCC作为第三特征；

4、对含噪语音信号进行时频分解，并进行特征提取得到E_MRACC(j,m)以及ΔE_MRACC(j,m)作为深度神经网络的输入的第四特征。

5、将含噪语音的幅值，谱减语音信号幅值，MFCC以及特征提取得到的 E_MRACC(j,m)和ΔE_MRACC(j,m)信号等四种特征输入训练好的DNN-CLSTM 网络，得到经过增强后的估计的幅值、MFCC以及掩蔽阈值；

6、将增强语音信号幅值与步骤1中获取的含噪语音信号的相位相结合，进行逆傅立叶变换得到最终的增强语音信号。经过神经网络训练后得到的初步增强语音信号幅值

需要进行时域信号恢复从而得到最终增强后的增强语音信号，首先初步增强后的初步增强语音信号的幅值

需要与步骤1中提取出来的含噪语音信号的相位φ_y(f)进行结合，然后使用逆傅立叶变换转化为时域信号

从而得到最终的增强语音信号。此处得到的增强后的MFCC以及掩蔽阈值不参与波形恢复，在网络处理过程中对网络进行优化。

7、网络建立

DNN-CLSTM网络包含深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Network,CNN)、残差网络(Residual Network)以及长短时记忆网络(Bidirectional Long-term Memory Network)，建立DNN-CLSTM神经网络的具体过程如图5所示：

(1)DNN网络建立

输入层：将经过谱减后得到的谱减语音信号幅值作为输入，输入节点为128个神经元；

(2)多目标特征融合：

其中

和

(a)CNN:

BN层：对数据进行归一化，

BN层：对数据进行归一化

卷积层：节点数设置为128个节点，步长设为1，卷积核取5*1，

(b)残差网络

Max Pooling层：步长设置为1，池化层大小设置为2

(3)LSTM网络：

(4)输出层：

使用两个前馈神经网络作为输出层，输出增强后的语音信号幅值、 MFCC；网络模型采用Adam优化器对网络参数进行优化；所有卷积层采用边缘填充方式。

(5)计算最小均方误差目标函数

其中T＝2，

【试验例】

实验中使用的语音数据来自于TIMIT数据集，噪声数据集来源于 Nonspeech噪音库和Noise-15噪音库。本实验中，TIMIT数据集总共包含6300 条语音。将其中约80％的语音作为训练集，另外20％作为测试语音。所有的语音被重采样到16kHz。对于本发明所提出的模型，选取几种典型神经网络语音增强模型与本发明提出的方法作对比，包括(a)DNN(b)CNN(c) LSTM(d)GRU。其中，DNN是基于深度神经网络的语音增强算法，CNN 是基于卷积神经网络的语音增强算法，LSTM是基于长短时记忆神经网络的语音增强算法，GRU是基于门控循环神经网络的语音增强算法。

所有的模型都是在-5dB，0dB,5dB，10dB，15dB,20dB的SNR条件下训练的，并在匹配的信噪比下评估性能。为了测试语音增强模型的鲁棒性，在不匹配的信噪比条件下评估性能。PESQ和LSD是评价语音的两种重要指标，PESQ指主观语音质量评估指标，LESQ得分越高，语音的质量越好； LSD指对数谱距离指标，LSD得分越低，语音质量越好。表1是在匹配的噪声条件下与其他四种算法(DNN,CNN,LSTM,GRU)作对比的测试结果，性能最佳的算法结果用粗体标注。表2是在不匹配的噪声条件下与其他四种算法(DNN，CNN，LSTM，GRU)作对比的测试结果，性能最佳的算法结果用粗体标注。

表1在匹配噪声条件下测试结果，性能最佳的已用粗体标注

表2在不匹配噪声条件下测试结果，性能最佳的已用粗体标注