[go: up one dir, main page]

CN112735456A - 一种基于dnn-clstm网络的语音增强方法 - Google Patents

一种基于dnn-clstm网络的语音增强方法 Download PDF

Info

Publication number
CN112735456A
CN112735456A CN202011323987.2A CN202011323987A CN112735456A CN 112735456 A CN112735456 A CN 112735456A CN 202011323987 A CN202011323987 A CN 202011323987A CN 112735456 A CN112735456 A CN 112735456A
Authority
CN
China
Prior art keywords
speech
network
amplitude
speech signal
mfcc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011323987.2A
Other languages
English (en)
Other versions
CN112735456B (zh
Inventor
汪友明
张天琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Posts and Telecommunications
Original Assignee
Xian University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Posts and Telecommunications filed Critical Xian University of Posts and Telecommunications
Priority to CN202011323987.2A priority Critical patent/CN112735456B/zh
Publication of CN112735456A publication Critical patent/CN112735456A/zh
Application granted granted Critical
Publication of CN112735456B publication Critical patent/CN112735456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明是一种基于深度神经网络和残差长短时记忆网络(DNN‑CLSTM)的语音增强方法。此方法将谱减法获取的语音幅值特征和快速傅里叶变换获取的语音梅尔倒谱系数(MFCC)特征输入至DNN‑CLSTM网络模型,实现语音增强的目的。首先,对含噪语音进行时频掩蔽和加窗分帧处理,利用快速傅里叶变换获取含噪语音的幅值和相位特征,并估计出含噪语音的噪声幅值;然后,用含噪语音幅值减去估计的噪声信号幅值,得到谱减后的语音信号幅值作为神经网络输入的第一特征。其次,对含噪语音进行快速傅里叶变换(FFT),求取语音信号的谱线能量进而得到含噪语音的MFCC特征作为语音信号的第二特征。将上述二种特征输入至DNN‑CLSTM网络中进行训练得到网络模型,并采取最小均方误差(MMSE)损失函数评价指标评估模型有效性。最后,将实际含噪语音集输入至完成训练的语音增强网络模型中,预测出增强后的估计幅值和MFCC,采用逆傅立叶变换得到最终的增强语音信号。本发明具有语音的高保真性。

Description

一种基于DNN-CLSTM网络的语音增强方法
技术领域
本发明属于语音增强技术领域,具体涉及一种基于DNN-CLSTM网络的语音增强方法。
背景技术
语音作为信息传输的主要方式之一,在生活中得到了大量的应用,随着技术的发展,语音不仅在人与人交流之间起到了信息传递的作用,在人机交互中也大量运用到了语音信号。然而在我们的通信过程中,语音信号往往都伴随着大量的噪声信号,如工厂噪声、汽车噪声或者餐厅的嘈杂声等背景噪声。包含了大量噪声的语音信号会使得接收方在对语音信号中包含的有用信息进行提取时产生大量的干扰。针对这一问题,语音信号增强技术得到了广泛关注。
语音增强是指现实中的语音被噪声干扰时,将噪声和语音信号分离的过程。语音增强技术现已经得到了广泛的运用,如移动通信领域、语音识别领域等诸多领域。语音增强技术的主要目的是为了提高语音质量以及语音可懂度。目前,语音增强方法主要分为谱减法、子空间算法以及基于统计模型的算法三种。随着深度学习的发展,神经网络已经被应用到了语音增强领域。
图1所示的谱减法是语音增强技术中最早去噪技术之一。谱减法去噪基于以下原理:假设噪声是加性噪声,即y(m)=x(m)+n(m),其中y(m)是包含噪声的信号,x(m)是纯净的语音信号,n(m)是加性噪声;通过从包含噪声的语音信号中减去对噪声谱的估计,就可以得到纯净的语音信号。这一假设的前提条件是噪声信号是平稳的,使得在不存在目标信号的语音段间,可以对噪声信号进行估计并且进行更新。
谱减法是一种相对简单的语音增强算法,其原理是从输入的混合语音信号的幅度谱值减去估计的噪声幅度谱值,利用人耳对相位的不灵敏性,把谱减前的相位角信息直接用到谱减后的信息中来合成最终谱减后的语音信号。由于谱减法只包含一次傅里叶变化和傅里叶逆变化,因此它的计算量较小,并且易于实现。但现实中许多噪声是不平稳的信号,因此使用谱减法对语音信号进行增强后,增强后的语音信号往往存在着大量的音乐噪声,从而导致语音信号失真,使得信号的可懂度与语音质量较差。
发明内容
本发明的目的是解决基于谱减法的语音增强过程中存在的语音信号失真、信号的可懂度与语音质量较差等问题。为达上述目的,本发明提供了一种基于DNN-CLSTM网络的语音增强方法,其特征在于,包括以下步骤:
步骤一:获取至少两路含噪语音信号,含噪语音信号由纯净语音信号和噪声信号相加而成:
y(m)=x(m)+n(m)
其中,y(m)是包含噪声的含噪语音信号,x(m)是纯净语音信号,n(m)是噪声信号,m为离散时间序列;
步骤二:分帧加窗,获取纯净语音信号以及含噪语音信号的幅值和相位作为第一特征:对含噪语音信号进行加窗分帧处理,并且使用离散傅里叶变化得到含噪语音信号的幅值以及相位;同时,在不含目标信号并且只含有噪声的语音信号段,对噪声进行估计,求出噪声信号幅值;
步骤三、用含噪语音信号的幅值减去所述噪声信号幅值,从而得到谱减语音信号幅值作为第二特征;
步骤四、求取MFCC作为第三特征;
步骤五:建立DNN-CLSTM网络模型进行训练;
将含噪语音谱减后的语音信号幅值和MFCC这两种特征输入至 DNN-CLSTM网络中进行训练,得到增强后的估计的幅值和MFCC;将估计的幅值和MFCC分别与纯净的幅值和纯净的MFCC数值计算各自的最小均方误差,并将所得到的误差作为调整信号输入进神经网络对网络进行优化,从而得到训练好的网络。
步骤四的具体过程是:
(1)预处理:预处理包括预加重、分帧、加窗函数;
预加重处理:通过一个一阶的高通滤波器实现,滤波器的传递函数为:
H(z)=1-az-1
其中,a为预加重系数,一般取值为0.98;
语音信号x(n)通过预加重处理后的结果为:
y(n)=x(n)-ax(n-1)
分帧加窗:在相邻两帧之间有重叠的部分,即为帧移,设置为10ms;加窗函数:对每一帧语音信号进行汉明窗加窗处理:y(n)经过分帧加窗处理后得到yi(n),它的定义为:
Figure RE-RE-GDA0002977011930000031
其中,ω(n)为汉明窗,它的表达式为
Figure RE-RE-GDA0002977011930000032
其中,yi(n)表示第i帧语音信号,n表示样点数,L表示帧长;
(2)快速傅里叶变换(FFT)
对每帧语音信号yi(n)进行快速傅里叶变换,得到每帧信号的频谱,表达式如下:
Y(i,k)=FFT[yi(n)]
其中,k表示频域中的第k条谱线;
(3)计算谱线能量
频域中每一帧语音信号谱线的能量E(i,k)表示为:
E(i,k)=[Y(i,k)]2
(4)计算通过Mel滤波器的能量
每一帧谱线能量通过Mel滤波器的能量S(i,m)定义为:
Figure RE-RE-GDA0002977011930000041
其中,N表示FFT的点数;
每个滤波器的传递函数Hm(k)为
Figure RE-RE-GDA0002977011930000042
其中,f(m)为第m个滤波器的中心频率,m为第m个滤波器,M为滤波器的个数;
(5)计算MFCC
把Mel滤波器的能量取对数后计算离散余弦变换得到MFCC特征参数,如下式所示:
Figure RE-RE-GDA0002977011930000043
其中,j是DCT后的谱线。
3、步骤五的具体过程是:
(1)DNN网络建立
输入层:将经过谱减后的语音幅值和MFCC特征作为输入,输入DNN 网络中,输入层的神经元的节点数为128个;
全连接层:设置32个节点,丢弃率设为0.5,设置激活函数为RELU;
全连接层:设置128个节点,丢弃率值设为0.5,设置激活函数为RELU;
全连接层:设置512个节点,丢弃率值设为0.5,设置激活函数为RELU;
(2)多目标特征融合:
将DNN网络增强后的幅值和MFCC特征与原始含噪语音的幅值和 MFCC特征相结合;
Figure RE-RE-GDA0002977011930000051
其中
Figure RE-RE-GDA0002977011930000052
Figure RE-RE-GDA0002977011930000053
分别代表第k个空间领域中经过DNN预测的MFCC特征和语音幅值;
Figure RE-RE-GDA0002977011930000054
分别代表第k个空间领域中原始含噪语音的 MFCC特征和语音幅值;
(3)C-LSTM网络:
(a)CNN:
卷积层:对DNN网络得到的结果进行卷积,节点数设置为64个节点,步长设为1,卷积核取5*1,激活函数设置为SELU;
BN层:对数据进行归一化;
卷积层:节点数设置为64个节点,步长设为1,卷积核取3*1,激活函数设置为SELU;
BN层:对数据进行归一化
卷积层:节点数设置为128个节点,步长设为1,卷积核取5*1,
(b)残差网络
对DNN网络得到的结果进行卷积,节点数设置为128个节点,步长设为1,卷积核取5*1;
将残差网络得到数据与CNN网络得到的数据进行结合后,使用SELU 激活函数;
Max Pooling层:步长设置为1,池化层大小设置为2
(c)LSTM网络:
长短时记忆网络的双向网络节点均选取为128节点,激活函数为 Sigmoid函数,
(4)输出层:
使用两个前馈神经网络作为输出层,输出预测的语音信号幅值、 MFCC;网络模型采用Adam优化器对网络参数进行优化;所有卷积层采用边缘填充方式。
(5)计算最小均方误差目标函数
Figure RE-RE-GDA0002977011930000061
其中T=2,
Figure RE-RE-GDA0002977011930000062
分别代表第k个声学特征空间预测的MFCC特征向量和预测幅值特征
Figure RE-RE-GDA0002977011930000063
分别代表第k个声学特征空间纯净的MFCC 特征向量和纯净幅值特征。
本发明的优点如下:增强后的语音信号平稳,具有高保真性和良好的语音质量。
下面结合附图和实施例对本发明作详细说明。
附图说明
图1是传统谱减法流程图。
图2是训练阶段的基于DNN-CLSTM网络的语音增强方法的流程图。
图3是测试阶段的基于DNN-CLSTM网络的语音增强方法流程图。
图4是MFCC求取流程图。
图5是建立DNN-CLSTM神经网络的过程架构图。
图6是纯净语音的语谱图
图7是含有噪声的语谱图
图8是采用DNN语音增强方法处理后的语谱图
图9是采用CNN语音增强方法处理后的语谱图
图10是采用LSTM语音增强方法处理后的语谱图
图11是采用GRU语音增强方法处理后的语谱图
图12是采用DNN-CLSTM语音增强方法处理后的语谱图
具体实施方式
为了克服使用谱减法对语音信号进行增强后,增强后的语音信号往往存在着大量的音乐噪声,从而导致语音信号失真,使得信号的可懂度与语音质量较差的缺陷,本实施例提供了一种基于DNN-CLSTM网络的语音增强方法 (如图2和3所示),包括以下步骤:
获取两路含噪语音信号(也可以获取两路以上的含噪语音信号,根据实际需要自行选取);含噪语音信号由纯净的语音信号和噪声信号构成:
y(m)=x(m)+n(m)
其中,y(m)是包含噪声的语音信号,x(m)是纯净的语音信号,n(m)是噪声信号。
训练阶段:
1、分帧加窗
获取纯净语音信号以及含噪语音信号的幅值和相位,以对含噪语音此乃和处理为例:
对含噪语音信号进行加窗分帧处理,并且使用离散傅里叶变化得到含噪语音信号的幅值以及相位作为第一特征;
对含噪语音信号使用汉明窗加窗分帧:
yw(m)=w(m)y(m)=w(m)[x(m)+n(m)]=xw(m)+nw(m)
加窗操作在频域表示为:
Yw(f)=W(f)*Y(f)=Xw(f)+Nw(f)
假设信号是经过加窗处理的,为了简便,将信号的下标w省略。
将Yw(f)用极坐标形式表示:
Figure RE-RE-GDA0002977011930000081
其中|Y(f)|为幅度谱,φy(f)为相位信号Phase[Y(f)]。
2、噪声估计:
在不含目标信号并且只含有噪声的语音信号段,对噪声进行估计,求出噪声信号幅值;本发明选取语音信号前五帧作为噪声信号段。由于噪声的幅度谱|N(f)|未知,但|N(f)|可以通过无语音活动时的平均幅度谱的估计来替代,噪声的相位φn(f)可以由含噪语音信号的相位φy(f)来替代。当语音信号不存在且只有噪声时,得到平均噪声幅度谱
Figure RE-RE-GDA0002977011930000082
计算过程如下:
Figure RE-RE-GDA0002977011930000083
其中,|Ni(f)|为第i个噪声的帧的频谱,k为纯噪声信号周期内的帧数。
3、谱减法
用含噪语音信号的幅值减去噪声信号幅值,从而得到谱减语音信号幅值作为第二特征(采用谱减发获取的增强语音信号成为谱减语音信号,相应的幅值称为谱减语音信号幅值,以与本实施中最终得到的增强语音信号进行区分);
使用含噪声语音信号的幅值减去噪声信号的幅值,计算过程如下:
Figure RE-RE-GDA0002977011930000084
其中,
Figure RE-RE-GDA0002977011930000085
代表经过谱减后语音信号的幅值,|Y(f)|b表示含噪语音信号的幅值,
Figure RE-RE-GDA0002977011930000086
表示代表噪声段的噪声统计的平均值。α表示谱减噪声系数。b 是幂指数,当指数b=1时为幅度谱减法,当指数b=2时,为功率谱减法。
由于对于噪声信号的估计可能会产生误差,从而导致估计信号的幅度谱
Figure RE-RE-GDA0002977011930000087
可能会为负值。通常幅度谱的值不应为负,为了避免
Figure RE-RE-GDA0002977011930000091
为负值,对差分谱进行半波整流,计算过程如下:
Figure RE-RE-GDA0002977011930000092
经过谱减后,需要对谱减后语音信号进行降幂,从而得到经过谱减阶段后的语音信号幅值即谱减语音信号幅值
Figure RE-RE-GDA0002977011930000093
计算过程如下:
Figure RE-RE-GDA0002977011930000094
4、提取MFCC作为第二特征;
(1)预处理
预处理包括预加重、分帧、加窗函数,预加重处理是指通过一个一阶的高通滤波器实现的,滤波器的传递函数为:
H(z)=1-az-1
其中,a为预加重系数,一般取值为0.98
语音信号x(n)通过预加重处理后的结果为:
y(n)=x(n)-ax(n-1)
分帧是指由语音的产生过程可知语音信号是一个非平稳的时变的信号。短时间内的语音信号可认为是平稳的时不变信号,短时间通常指10~30ms之间,本文取20ms。因此通常用短时分析技术对语音信号进行分析和处理,将许多帧来分析其特征参数,同时为了使帧与帧之间可以平滑地过渡,在相邻两帧之间有重叠的部分,即为帧移,设置为10ms。加窗函数的目的是为了减少频域中的频谱泄露,对每一帧语音信号进行加窗处理,通常采用汉明窗,和矩形窗相比,汉明窗的频谱泄露更小。y(n)经过分帧加窗处理后得到yi(n),它的定义为:
Figure RE-RE-GDA0002977011930000101
其中,ω(n)为汉明窗,它的表达式为
Figure RE-RE-GDA0002977011930000102
其中,yi(n)表示第i帧语音信号,n表示样点数,L表示帧长。
(2)快速傅里叶变换(FFT)
由于语音信号在时域上的变换一般不容易看出信号的特性,所以通常将其变换到频域上来进行分析,不同频率的频谱代表了语音信号不同的特性。因此对每帧语音信号yi(n)进行快速傅里叶变换,得到每帧信号的频谱,如下式所示:
Y(i,k)=FFT[yi(n)]
其中,k表示频域中的第k条谱线。
(3)计算谱线能量
频域中每一帧语音信号谱线的能量E(i,k)可表示为:
E(i,k)=[Y(i,k)]2
(4)计算通过Mel滤波器的能量
每一帧谱线能量通过Mel滤波器的能量S(i,m)可定义为:
Figure RE-RE-GDA0002977011930000103
其中,N表示FFT的点数。
每个滤波器的传递函数Hm(k)为
Figure RE-RE-GDA0002977011930000111
其中,f(m)为第m个滤波器的中心频率,m为第m个滤波器,M为滤波器的个数,通常设置为24。
(5)计算MFCC,参见图4,把Mel滤波器的能量取对数后计算离散余弦变换(Discrete Cosine Transform,DCT)得到MFCC特征参数,如下式所示:
Figure RE-RE-GDA0002977011930000112
其中,j是DCT后的谱线。
8、基于DNN-CLSTM网络模型的训练;
将含噪语音谱减后的语音信号幅值和MFCC这两种特征输入至 DNN-CLSTM网络中进行训练,得到增强后的估计的幅值和MFCC;将估计的幅值和MFCC分别与纯净的幅值和纯净的MFCC数值计算各自的最小均方误差,并将所得到的误差作为调整信号输入进神经网络对网络进行优化,从而得到训练好的网络。
测试阶段:
1、对含噪语音信号进行加窗分帧处理,并且使用离散傅里叶变化得到含噪语音信号的幅值以及相位作为第一特征;
2、对含噪语音信号进行分帧加窗后得到经过谱减阶段后的语音信号幅值即谱减语音信号幅值
Figure RE-RE-GDA0002977011930000113
作为第二特征;
3、对含噪语音信号进行分帧加窗后得到MFCC作为第三特征;
4、对含噪语音信号进行时频分解,并进行特征提取得到EMRACC(j,m)以及ΔEMRACC(j,m)作为深度神经网络的输入的第四特征。
5、将含噪语音的幅值,谱减语音信号幅值,MFCC以及特征提取得到的 EMRACC(j,m)和ΔEMRACC(j,m)信号等四种特征输入训练好的DNN-CLSTM 网络,得到经过增强后的估计的幅值、MFCC以及掩蔽阈值;
6、将增强语音信号幅值与步骤1中获取的含噪语音信号的相位相结合,进行逆傅立叶变换得到最终的增强语音信号。经过神经网络训练后得到的初步增强语音信号幅值
Figure RE-RE-GDA0002977011930000121
需要进行时域信号恢复从而得到最终增强后的增强语音信号,首先初步增强后的初步增强语音信号的幅值
Figure RE-RE-GDA0002977011930000122
需要与步骤1中提取出来的含噪语音信号的相位φy(f)进行结合,然后使用逆傅立叶变换转化为时域信号
Figure RE-RE-GDA0002977011930000123
从而得到最终的增强语音信号。此处得到的增强后的MFCC以及掩蔽阈值不参与波形恢复,在网络处理过程中对网络进行优化。
7、网络建立
DNN-CLSTM网络包含深度神经网络(Deep Neural Network,DNN)、卷积神经网络(Convolutional Neural Network,CNN)、残差网络(Residual Network)以及长短时记忆网络(Bidirectional Long-term Memory Network),建立DNN-CLSTM神经网络的具体过程如图5所示:
(1)DNN网络建立
输入层:将经过谱减后得到的谱减语音信号幅值作为输入,输入节点为128个神经元;
全连接层:设置32个节点,丢弃率设为0.5,设置激活函数为RELU;
全连接层:设置128个节点,丢弃率值设为0.5,设置激活函数为RELU;
全连接层:设置512个节点,丢弃率值设为0.5,设置激活函数为RELU;
(2)多目标特征融合:
将DNN网络增强后的幅值和MFCC特征与原始含噪语音的幅值和 MFCC特征相结合;
Figure RE-RE-GDA0002977011930000131
其中
Figure RE-RE-GDA0002977011930000132
Figure RE-RE-GDA0002977011930000133
分别代表第k个空间领域中经过DNN预测的MFCC特征和语音幅值;
Figure RE-RE-GDA0002977011930000134
分别代表第k个空间领域中原始含噪语音的 MFCC特征和语音幅值;
(a)CNN:
卷积层:对DNN网络得到的结果进行卷积,节点数设置为64个节点,步长设为1,卷积核取5*1,激活函数设置为SELU;
BN层:对数据进行归一化,
卷积层:节点数设置为64个节点,步长设为1,卷积核取3*1,激活函数设置为SELU;
BN层:对数据进行归一化
卷积层:节点数设置为128个节点,步长设为1,卷积核取5*1,
(b)残差网络
对DNN网络得到的结果进行卷积,节点数设置为128个节点,步长设为1,卷积核取5*1;
将残差网络得到数据与CNN网络得到的数据进行结合后,使用SELU 激活函数;
Max Pooling层:步长设置为1,池化层大小设置为2
(3)LSTM网络:
长短时记忆网络的双向网络节点均选取为128节点,激活函数为 Sigmoid函数,
(4)输出层:
使用两个前馈神经网络作为输出层,输出增强后的语音信号幅值、 MFCC;网络模型采用Adam优化器对网络参数进行优化;所有卷积层采用边缘填充方式。
(5)计算最小均方误差目标函数
Figure RE-RE-GDA0002977011930000141
其中T=2,
Figure RE-RE-GDA0002977011930000142
分别代表第k个声学特征空间预测的MFCC特征向量和预测幅值特征
Figure RE-RE-GDA0002977011930000143
分别代表第k个声学特征空间纯净的MFCC 特征向量和纯净幅值特征。
【试验例】
实验中使用的语音数据来自于TIMIT数据集,噪声数据集来源于 Nonspeech噪音库和Noise-15噪音库。本实验中,TIMIT数据集总共包含6300 条语音。将其中约80%的语音作为训练集,另外20%作为测试语音。所有的语音被重采样到16kHz。对于本发明所提出的模型,选取几种典型神经网络语音增强模型与本发明提出的方法作对比,包括(a)DNN(b)CNN(c) LSTM(d)GRU。其中,DNN是基于深度神经网络的语音增强算法,CNN 是基于卷积神经网络的语音增强算法,LSTM是基于长短时记忆神经网络的语音增强算法,GRU是基于门控循环神经网络的语音增强算法。
所有的模型都是在-5dB,0dB,5dB,10dB,15dB,20dB的SNR条件下训练的,并在匹配的信噪比下评估性能。为了测试语音增强模型的鲁棒性,在不匹配的信噪比条件下评估性能。PESQ和LSD是评价语音的两种重要指标,PESQ指主观语音质量评估指标,LESQ得分越高,语音的质量越好; LSD指对数谱距离指标,LSD得分越低,语音质量越好。表1是在匹配的噪声条件下与其他四种算法(DNN,CNN,LSTM,GRU)作对比的测试结果,性能最佳的算法结果用粗体标注。表2是在不匹配的噪声条件下与其他四种算法(DNN,CNN,LSTM,GRU)作对比的测试结果,性能最佳的算法结果用粗体标注。
表1在匹配噪声条件下测试结果,性能最佳的已用粗体标注
Figure RE-RE-GDA0002977011930000161
表2在不匹配噪声条件下测试结果,性能最佳的已用粗体标注
Figure RE-RE-GDA0002977011930000162

Claims (3)

1.一种基于DNN-CLSTM网络的语音增强方法,其特征在于包括以下步骤:
步骤一:获取含噪语音信号。含噪语音信号由纯净语音信号和噪声信号相加而成:
y(m)=x(m)+n(m)
其中,y(m)是含噪的语音信号,x(m)是纯净的语音信号,n(m)是噪声信号,m为离散时间序列;
步骤二:分帧加窗处理,获取纯净语音信号和含噪语音信号的幅值和相位;
对含噪语音信号进行加窗分帧处理,并使用离散傅里叶变化得到含噪语音信号的幅值以及相位。利用语音段中的前五帧信号作为噪声估计,求出噪声信号幅值;
步骤三:用含噪语音信号的幅值减去所述噪声信号幅值即可得到谱减语音信号幅值作为第一特征;
步骤四:求取语音信号的MFCC作为第二特征;
步骤五:建立DNN-CLSTM网络模型进行训练;
将含噪语音谱减后的语音信号幅值和MFCC这两种特征输入至DNN-CLSTM网络中进行训练,得到预测的幅值和MFCC;将预测的幅值和MFCC分别与纯净的幅值和纯净的MFCC数值计算各自的最小均方误差(MMSE),并将所得到的误差作为调整信号输入进神经网络对网络进行优化,从而得到训练好的网络。
2.如权利要求1基于DNN-CLSTM网络的语音增强方法,其特征在于,所述步骤四的具体过程是:
(1)预处理:预处理包括预加重、分帧、加窗函数;
预加重处理:通过一个一阶的高通滤波器实现,滤波器的传递函数为:
H(z)=1-az-1
其中,a为预加重系数,一般取值为0.98;语音信号x(n)通过预加重处理后的结果为:
y(n)=x(n)-ax(n-1)
分帧加窗:在相邻两帧之间有重叠的部分,即为帧移,设置为10ms;加窗函数:对每一帧语音信号进行汉明窗加窗处理:y(n)经过分帧加窗处理后得到yi(n),其定义为:
Figure FDA0002793741570000021
其中,ω(n)为汉明窗,它的表达式为
Figure FDA0002793741570000022
其中,yi(n)表示第i帧语音信号,n表示样点数,L表示帧长;
(2)快速傅里叶变换(FFT)
对每帧语音信号yi(n)进行快速傅里叶变换,得到每帧信号的频谱,表达式如下:
Y(i,k)=FFT[yi(n)]
其中,k表示频域中的第k条谱线;
(3)计算谱线能量
频域中每一帧语音信号谱线的能量E(i,k)表示为:
E(i,k)=[Y(i,k)]2
(4)计算通过Mel滤波器的能量
每一帧谱线能量通过Mel滤波器的能量S(i,m)定义为:
Figure FDA0002793741570000023
其中,N表示FFT的点数,M为滤波器的个数;
每个滤波器的传递函数Hm(k)为
Figure FDA0002793741570000031
其中,f(m)为第m个滤波器的中心频率,m为第m个滤波器;
(5)计算MFCC
将Mel滤波器的能量取对数后计算离散余弦变换得到MFCC特征参数,如下式所示:
Figure FDA0002793741570000032
其中,j是离散余弦变换(DCT)后的谱线。
3.如权利要求1基于DNN-CLSTM网络的语音增强方法,其特征在于,所述步骤五的具体过程是:
(1)DNN网络建立
输入层:将经过谱减后的语音幅值和MFCC特征作为输入,输入DNN网络中,输入层的神经元的节点数为128个;
全连接层:设置32个节点,丢弃率设为0.5,设置激活函数为RELU;
全连接层:设置128个节点,丢弃率值设为0.5,设置激活函数为RELU;
全连接层:设置512个节点,丢弃率值设为0.5,设置激活函数为RELU;(2)多目标特征融合:
将DNN网络增强后的幅值和MFCC特征与原始含噪语音的幅值和MFCC特征相结合;
Figure FDA0002793741570000041
其中
Figure FDA0002793741570000042
Figure FDA0002793741570000043
分别代表第k个空间领域中经过DNN预测的MFCC特征和语音幅值;
Figure FDA0002793741570000044
分别代表第k个空间领域中原始含噪语音的MFCC特征和语音幅值;
(3)C-LSTM网络:
(a)CNN:
卷积层:对DNN网络得到的结果进行卷积,节点数设置为64个节点,步长设为1,卷积核取5*1,激活函数设置为SELU;
BN层:对数据进行归一化;
卷积层:节点数设置为64个节点,步长设为1,卷积核取3*1,激活函数设置为SELU;
BN层:对数据进行归一化
卷积层:节点数设置为128个节点,步长设为1,卷积核取5*1,
(b)残差网络
对DNN网络得到的结果进行卷积,节点数设置为128个节点,步长设为1,卷积核取5*1;
将残差网络得到数据与CNN网络得到的数据进行结合后,使用SELU激活函数;
Max Pooling层:步长设置为1,池化层大小设置为2
(c)LSTM网络:
长短时记忆网络的双向网络节点均选取为128节点,激活函数为Sigmoid函数,
(4)输出层:
使用两个前馈神经网络作为输出层,输出预测的语音信号幅值、MFCC;网络模型采用Adam优化器对网络参数进行优化;所有卷积层采用边缘填充方式。
(5)计算最小均方误差目标函数
Figure FDA0002793741570000051
其中T=2,
Figure FDA0002793741570000052
分别代表第k个声学特征空间预测的MFCC特征向量和预测幅值特征
Figure FDA0002793741570000053
分别代表第k个声学特征空间纯净的MFCC特征向量和纯净幅值特征。
CN202011323987.2A 2020-11-23 2020-11-23 一种基于dnn-clstm网络的语音增强方法 Active CN112735456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011323987.2A CN112735456B (zh) 2020-11-23 2020-11-23 一种基于dnn-clstm网络的语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011323987.2A CN112735456B (zh) 2020-11-23 2020-11-23 一种基于dnn-clstm网络的语音增强方法

Publications (2)

Publication Number Publication Date
CN112735456A true CN112735456A (zh) 2021-04-30
CN112735456B CN112735456B (zh) 2024-01-16

Family

ID=75597716

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011323987.2A Active CN112735456B (zh) 2020-11-23 2020-11-23 一种基于dnn-clstm网络的语音增强方法

Country Status (1)

Country Link
CN (1) CN112735456B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113192520A (zh) * 2021-07-01 2021-07-30 腾讯科技(深圳)有限公司 一种音频信息处理方法、装置、电子设备及存储介质
CN113269305A (zh) * 2021-05-20 2021-08-17 郑州铁路职业技术学院 一种加强记忆的反馈语音强化方法
CN113314136A (zh) * 2021-05-27 2021-08-27 西安电子科技大学 基于定向降噪与干声提取技术的语音优化方法
CN113611323A (zh) * 2021-05-07 2021-11-05 北京至芯开源科技有限责任公司 一种基于双通道卷积注意力网络的语音增强方法及系统
CN114093379A (zh) * 2021-12-15 2022-02-25 荣耀终端有限公司 噪声消除方法及装置
CN114220448A (zh) * 2021-12-16 2022-03-22 游密科技(深圳)有限公司 语音信号生成方法、装置、计算机设备和存储介质
CN114267368A (zh) * 2021-12-22 2022-04-01 北京百度网讯科技有限公司 音频降噪模型的训练方法、音频降噪方法及装置
CN114283829A (zh) * 2021-12-13 2022-04-05 电子科技大学 一种基于动态门控卷积循环网络的语音增强方法
CN114582000A (zh) * 2022-03-18 2022-06-03 南京工业大学 基于视频图像面部表情和语音的多模态老人情绪识别融合模型及其建立方法
CN115240699A (zh) * 2022-07-21 2022-10-25 电信科学技术第五研究所有限公司 一种基于深度学习的噪声估计和语音降噪方法及系统
CN115756376A (zh) * 2022-10-21 2023-03-07 中电智恒信息科技服务有限公司 一种基于lstm的会议音量调控方法、装置及系统
CN117193391A (zh) * 2023-11-07 2023-12-08 北京铁力山科技股份有限公司 一种智慧控制台角度调整系统
CN119418712A (zh) * 2025-01-07 2025-02-11 西安赛普特信息科技有限公司 一种边缘端实时语音的降噪方法
WO2025035975A1 (zh) * 2023-08-17 2025-02-20 腾讯科技(深圳)有限公司 语音增强网络的训练方法、语音增强方法及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109410976A (zh) * 2018-11-01 2019-03-01 北京工业大学 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
CN110060704A (zh) * 2019-03-26 2019-07-26 天津大学 一种改进的多目标准则学习的语音增强方法
WO2020024452A1 (zh) * 2018-07-31 2020-02-06 平安科技(深圳)有限公司 基于深度学习的应答方法、装置及可读存储介质
CN110930997A (zh) * 2019-12-10 2020-03-27 四川长虹电器股份有限公司 一种利用深度学习模型对音频进行标注的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020024452A1 (zh) * 2018-07-31 2020-02-06 平安科技(深圳)有限公司 基于深度学习的应答方法、装置及可读存储介质
CN109410976A (zh) * 2018-11-01 2019-03-01 北京工业大学 双耳助听器中基于双耳声源定位和深度学习的语音增强方法
CN110060704A (zh) * 2019-03-26 2019-07-26 天津大学 一种改进的多目标准则学习的语音增强方法
CN110930997A (zh) * 2019-12-10 2020-03-27 四川长虹电器股份有限公司 一种利用深度学习模型对音频进行标注的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚远;王秋菊;周伟;鲍程毅;彭磊;: "改进谱减法结合神经网络的语音增强研究", 电子测量技术, no. 07 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113611323A (zh) * 2021-05-07 2021-11-05 北京至芯开源科技有限责任公司 一种基于双通道卷积注意力网络的语音增强方法及系统
CN113611323B (zh) * 2021-05-07 2024-02-20 北京至芯开源科技有限责任公司 一种基于双通道卷积注意力网络的语音增强方法及系统
CN113269305A (zh) * 2021-05-20 2021-08-17 郑州铁路职业技术学院 一种加强记忆的反馈语音强化方法
CN113269305B (zh) * 2021-05-20 2024-05-03 郑州铁路职业技术学院 一种加强记忆的反馈语音强化方法
CN113314136A (zh) * 2021-05-27 2021-08-27 西安电子科技大学 基于定向降噪与干声提取技术的语音优化方法
CN113192520A (zh) * 2021-07-01 2021-07-30 腾讯科技(深圳)有限公司 一种音频信息处理方法、装置、电子设备及存储介质
CN114283829B (zh) * 2021-12-13 2023-06-16 电子科技大学 一种基于动态门控卷积循环网络的语音增强方法
CN114283829A (zh) * 2021-12-13 2022-04-05 电子科技大学 一种基于动态门控卷积循环网络的语音增强方法
CN114093379A (zh) * 2021-12-15 2022-02-25 荣耀终端有限公司 噪声消除方法及装置
CN114093379B (zh) * 2021-12-15 2022-06-21 北京荣耀终端有限公司 噪声消除方法及装置
CN114220448A (zh) * 2021-12-16 2022-03-22 游密科技(深圳)有限公司 语音信号生成方法、装置、计算机设备和存储介质
CN114267368A (zh) * 2021-12-22 2022-04-01 北京百度网讯科技有限公司 音频降噪模型的训练方法、音频降噪方法及装置
CN114582000A (zh) * 2022-03-18 2022-06-03 南京工业大学 基于视频图像面部表情和语音的多模态老人情绪识别融合模型及其建立方法
CN115240699A (zh) * 2022-07-21 2022-10-25 电信科学技术第五研究所有限公司 一种基于深度学习的噪声估计和语音降噪方法及系统
CN115756376A (zh) * 2022-10-21 2023-03-07 中电智恒信息科技服务有限公司 一种基于lstm的会议音量调控方法、装置及系统
WO2025035975A1 (zh) * 2023-08-17 2025-02-20 腾讯科技(深圳)有限公司 语音增强网络的训练方法、语音增强方法及电子设备
CN117193391A (zh) * 2023-11-07 2023-12-08 北京铁力山科技股份有限公司 一种智慧控制台角度调整系统
CN117193391B (zh) * 2023-11-07 2024-01-23 北京铁力山科技股份有限公司 一种智慧控制台角度调整系统
CN119418712A (zh) * 2025-01-07 2025-02-11 西安赛普特信息科技有限公司 一种边缘端实时语音的降噪方法

Also Published As

Publication number Publication date
CN112735456B (zh) 2024-01-16

Similar Documents

Publication Publication Date Title
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN105957520B (zh) 一种适用于回声消除系统的语音状态检测方法
CN110867181B (zh) 基于scnn和tcnn联合估计的多目标语音增强方法
WO2020177371A1 (zh) 一种用于数字助听器的环境自适应神经网络降噪方法、系统及存储介质
CN112700786B (zh) 语音增强方法、装置、电子设备和存储介质
CN110767244B (zh) 语音增强方法
CN110085249A (zh) 基于注意力门控的循环神经网络的单通道语音增强方法
Zhao et al. Late reverberation suppression using recurrent neural networks with long short-term memory
CN105023572A (zh) 一种含噪语音端点鲁棒检测方法
Tu et al. A hybrid approach to combining conventional and deep learning techniques for single-channel speech enhancement and recognition
CN108335702A (zh) 一种基于深度神经网络的音频降噪方法
CN111192598A (zh) 一种跳变连接深度神经网络的语音增强方法
CN111899750B (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN115424627A (zh) 基于卷积循环网络和wpe算法的语音增强混合处理方法
Hou et al. Domain adversarial training for speech enhancement
CN114283835A (zh) 一种适用于实际通信条件下的语音增强与检测方法
Martín-Doñas et al. Dual-channel DNN-based speech enhancement for smartphones
CN112634926B (zh) 一种基于卷积神经网络的短波信道语音抗衰落辅助增强方法
CN118899005B (zh) 一种音频信号处理方法、装置、计算机设备及存储介质
Chen Noise reduction of bird calls based on a combination of spectral subtraction, Wiener filtering, and Kalman filtering
CN114566179A (zh) 一种时延可控的语音降噪方法
TWI749547B (zh) 應用深度學習的語音增強系統
Nie et al. Deep Noise Tracking Network: A Hybrid Signal Processing/Deep Learning Approach to Speech Enhancement.
Kim et al. iDeepMMSE: An improved deep learning approach to MMSE speech and noise power spectrum estimation for speech enhancement.
CN114401168B (zh) 适用复杂强噪声环境下短波莫尔斯信号的语音增强方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant