CN108335702A - 一种基于深度神经网络的音频降噪方法 - Google Patents
一种基于深度神经网络的音频降噪方法 Download PDFInfo
- Publication number
- CN108335702A CN108335702A CN201810101400.XA CN201810101400A CN108335702A CN 108335702 A CN108335702 A CN 108335702A CN 201810101400 A CN201810101400 A CN 201810101400A CN 108335702 A CN108335702 A CN 108335702A
- Authority
- CN
- China
- Prior art keywords
- audio
- noise reduction
- power spectrum
- layer
- dnn
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明涉及一种基于深度神经网络的音频降噪方法。该方法为训练和测试两个阶段;在训练阶段,DNN模型的训练数据是由带噪和纯净音频组成的,由于对数频域更符合人耳的听觉系统,因此对输入的音频提取对数功率谱作为特征;在测试阶段,把音色转换后的歌声的对数功率谱输入到从训练阶段得到的DNN模型中,模型的输出就是降噪后音频的对数功率谱,由于人耳的听觉感知对音频的相位信息并不敏感,所以相位信息直接从原始音色转换后的歌声中计算得到,最后结合DNN模型输出的对数功率谱以及相位信息,重建出降噪后的音频。本发明方法能够对音频特别是音色转换后语音和歌声音频的降噪。
Description
技术领域
本发明涉及歌唱领域的音频降噪方法,特别是一种基于深度神经网络的音频降噪方法。
背景技术
现实生活中的语音音频信号或是歌声音频信号,往往都不是纯净的,都伴有各种各样的噪声。而音频降噪的目的就是尽可能的去除音频信号中的噪声,使音色转换后的歌声更纯净,从而改善音频的质量,提高它的清晰度以及可懂度。
传统的音频降噪方法主要有基于统计模型的贝叶斯估计法、子空间算法、谱减法等。这些算法都对噪声的特性有很强的假设,其中,谱减法的计算复杂度最低,只需要进行正反傅里叶变换,然而当音频信号的信噪比比较低时,谱减法对音频的可懂度损伤很大。
传统的无监督降噪算法大多数都是基于背景噪声的加性特征或是音频和噪声之间的某种统计特性而提出并实现的,这导致了这些算法的适用范围很小。从噪声干扰的复杂性出发,考虑利用深度神经网络这种非线性模型对带噪音频和纯净音频间的映射关系进行建模,并实现对音色转换后音频的降噪。
因此,本专利基于上述分析,利用深度神经网络训练出泛化能力更强的音频降噪模型,完成对音频的降噪。
发明内容
本发明的目的在于提供一种基于深度神经网络的音频降噪方法,能够对音频特别是音色转换后语音和歌声音频的降噪。
为实现上述目的,本发明的技术方案是:一种基于深度神经网络的音频降噪方法,包括如下步骤:
步骤S1:对数据进行预处理,得到带噪音频数据;
步骤S2:训练DNN音频降噪模型,得到的DNN音频降噪模型可以完成音色转换后的歌声的对数功率谱与纯净音频的对数功率谱之间的映射;
步骤S3:对音色转换后的歌声进行降噪,即结合步骤S2中训练好的DNN音频降噪模型、输出的对数功率谱以及相位信息,重建出降噪后的音频。
在本发明一实施例中,所述步骤S1的具体实现方式为:采用TIMIT数据集作为纯净的音频数据;并在纯净音频上添加不同信噪比等级及不同种类的多种噪声,以此生成带噪音频数据。
在本发明一实施例中,所述信噪比等级包括20dB、15dB、10dB。
在本发明一实施例中,所述噪声的种类包括加性高斯白噪声、Babble、Restaurant、Street、Car、Exhibition。
在本发明一实施例中,所述步骤S2具体包括以下步骤:
步骤S21:用带噪音频的对数功率谱对堆叠RBM进行预训练,采用无监督的、逐层贪婪的训练方法,并用CD算法来更新RBM的参数;
步骤S22:用随机梯度下降算法训练整体的DNN音频降噪模型;DNN音频降噪模型中RBM部分的参数采用步骤S21训练得到的参数进行初始化,DNN音频降噪模型输出层的参数进行随机初始化;DNN音频降噪模型的损失函数为纯净音频的对数功率谱与DNN音频降噪模型输出的降噪后的对数功率谱之间的最小均方误差,计算公式如下:
其中,E表示均方误差;和分别表示第n个样本降噪后的对数功率谱和纯净音频的对数功率谱;N表示总的样本个数;D表示对数功率谱的大小;(Wl,bl)表示第l层的权重和偏置;权重W和偏置b的更新方式如下:
其中,λ表示学习率。
在本发明一实施例中,所述步骤S22中,DNN音频降噪模型构成如下:
第一层RBM是具有一个可见层和一个隐藏层的高斯-伯努利受限玻尔兹曼机,节点数为2048,激活函数为Sigmoid;
第二层RBM是伯努利-伯努利受限玻尔兹曼机,节点数2048,激活函数为Sigmoid;
第三层RBM是伯努利-伯努利受限玻尔兹曼机,节点数2048,激活函数为Sigmoid;
第四层RBM是输出层,节点数257,激活函数为线性激活函数。
相较于现有技术,本发明具有以下有益效果:本发明方法利用深度神经网络训练出泛化能力更强的音频降噪模型,完成对音频的降噪。
附图说明
图1是本发明的方法流程示意框图。
图2是本发明的实施例中应用的深度神经网络的结构图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明的一种基于深度神经网络的音频降噪方法,如图1所示,包括如下步骤:
步骤S1:对数据进行预处理。
步骤S2:训练DNN音频降噪模型,得到的DNN模型可以完成音色转换后的歌声的对数功率谱与纯净音频的对数功率谱之间的映射。
步骤S3:对音色转换后的歌声进行降噪,结合S2中训练好的DNN模型,输出的对数功率谱以及相位信息,重建出降噪后的音频。
进一步,所述步骤S1的具体做法是使用TIMIT数据集作为纯净的音频数据;并在纯净音频上添加不同等级信噪比的多种噪声,信噪比等级有20dB,15dB,10dB等,噪声的种类包括加性高斯白噪声、Babble、Restaurant、Street、Car、Exhibition等,以此来生成带噪的音频数据。
进一步,所述步骤S2具体包括以下步骤:
步骤S21:用带噪音频的对数功率谱对堆叠RBM进行预训练,使用的是无监督的、逐层贪婪的训练方法,并用CD算法(Contrastive Divergence)来更新RBM的参数。
步骤S22:用随机梯度下降算法(Stochastic Gradient Descent,SGD)训练整体的DNN降噪模型。DNN模型中RBM部分的参数用上一步预训练得到的参数进行初始化,模型输出层的参数进行随机初始化。模型的损失函数为纯净音频的对数功率谱与模型输出的降噪后的对数功率谱之间的最小均方误差(Minimum Mean Squared Error,MMSE),计算公式如下:
其中,E表示均方误差;和分别表示第n个样本降噪后的对数功率谱和纯净音频的对数功率谱;N表示总的样本个数;D表示对数功率谱的大小;(Wl,bl)表示第l层的权重和偏置;权重W和偏置b的更新方式如下:
其中,λ表示学习率。
在本实施例中,步骤S22如图所示,DNN降噪模型如下:
第一层RBM是具有一个可见层和一个隐藏层的高斯-伯努利受限玻尔兹曼机(Gaussian-BernoulliRBM,GBRBM),节点数为2048,激活函数为Sigmoid;
第二层RBM是伯努利-伯努利受限玻尔兹曼机(Bernoulli-BernoulliRBM,BBRBM),节点数2048,激活函数为Sigmoid;
第三层RBM是伯努利-伯努利受限玻尔兹曼机(Bernoulli-Bernoulli RBM,BBRBM),节点数2048,激活函数为Sigmoid;
第四层RBM是输出层,节点数257,激活函数为线性激活函数。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
Claims (6)
1.一种基于深度神经网络的音频降噪方法,其特征在于,包括如下步骤:
步骤S1:对数据进行预处理,得到带噪音频数据;
步骤S2:训练DNN音频降噪模型,得到的DNN音频降噪模型可以完成音色转换后的歌声的对数功率谱与纯净音频的对数功率谱之间的映射;
步骤S3:对音色转换后的歌声进行降噪,即结合步骤S2中训练好的DNN音频降噪模型、输出的对数功率谱以及相位信息,重建出降噪后的音频。
2.根据权利要求1所述的一种基于深度神经网络的音频降噪方法,其特征在于,所述步骤S1的具体实现方式为:采用TIMIT数据集作为纯净的音频数据;并在纯净音频上添加不同信噪比等级及不同种类的多种噪声,以此生成带噪音频数据。
3.根据权利要求2所述的一种基于深度神经网络的音频降噪方法,其特征在于,所述信噪比等级包括20dB、15dB、10dB。
4.根据权利要求2所述的一种基于深度神经网络的音频降噪方法,其特征在于,所述噪声的种类包括加性高斯白噪声、Babble、Restaurant、Street、Car、Exhibition。
5.根据权利要求1所述的一种基于深度神经网络的音频降噪方法,其特征在于,所述步骤S2具体包括以下步骤:
步骤S21:用带噪音频的对数功率谱对堆叠RBM进行预训练,采用无监督的、逐层贪婪的训练方法,并用CD算法来更新RBM的参数;
步骤S22:用随机梯度下降算法训练整体的DNN音频降噪模型;DNN音频降噪模型中RBM部分的参数采用步骤S21训练得到的参数进行初始化,DNN音频降噪模型输出层的参数进行随机初始化;DNN音频降噪模型的损失函数为纯净音频的对数功率谱与DNN音频降噪模型输出的降噪后的对数功率谱之间的最小均方误差,计算公式如下:
其中,E表示均方误差;和分别表示第n个样本降噪后的对数功率谱和纯净音频的对数功率谱;N表示总的样本个数;D表示对数功率谱的大小;(Wl,bl)表示第l层的权重和偏置;权重W和偏置b的更新方式如下:
其中,λ表示学习率。
6.根据权利要求5所述的一种基于深度神经网络的音频降噪方法,其特征在于,所述步骤S22中,DNN音频降噪模型构成如下:
第一层RBM是具有一个可见层和一个隐藏层的高斯-伯努利受限玻尔兹曼机,节点数为2048,激活函数为Sigmoid;
第二层RBM是伯努利-伯努利受限玻尔兹曼机,节点数2048,激活函数为Sigmoid;
第三层RBM是伯努利-伯努利受限玻尔兹曼机,节点数2048,激活函数为Sigmoid;
第四层RBM是输出层,节点数257,激活函数为线性激活函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810101400.XA CN108335702A (zh) | 2018-02-01 | 2018-02-01 | 一种基于深度神经网络的音频降噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810101400.XA CN108335702A (zh) | 2018-02-01 | 2018-02-01 | 一种基于深度神经网络的音频降噪方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108335702A true CN108335702A (zh) | 2018-07-27 |
Family
ID=62927933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810101400.XA Pending CN108335702A (zh) | 2018-02-01 | 2018-02-01 | 一种基于深度神经网络的音频降噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108335702A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036412A (zh) * | 2018-09-17 | 2018-12-18 | 苏州奇梦者网络科技有限公司 | 语音唤醒方法和系统 |
CN109147817A (zh) * | 2018-08-29 | 2019-01-04 | 昆明理工大学 | 一种基于变异受限玻尔兹曼机的去噪音频特征提取算法 |
CN109378010A (zh) * | 2018-10-29 | 2019-02-22 | 珠海格力电器股份有限公司 | 神经网络模型的训练方法、语音去噪方法及装置 |
CN109378013A (zh) * | 2018-11-19 | 2019-02-22 | 南瑞集团有限公司 | 一种语音降噪方法 |
CN111292768A (zh) * | 2020-02-07 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 丢包隐藏的方法、装置、存储介质和计算机设备 |
CN111341332A (zh) * | 2020-02-28 | 2020-06-26 | 重庆邮电大学 | 基于深度神经网络的语音特征增强后置滤波方法 |
CN111554321A (zh) * | 2020-04-20 | 2020-08-18 | 北京达佳互联信息技术有限公司 | 降噪模型训练方法、装置、电子设备及存储介质 |
CN112202778A (zh) * | 2020-09-30 | 2021-01-08 | 联想(北京)有限公司 | 一种信息处理方法、装置和电子设备 |
EP3913904A1 (en) * | 2019-06-10 | 2021-11-24 | Google LLC | Training a model for speech and noise energy estimation |
CN113870887A (zh) * | 2021-09-26 | 2021-12-31 | 平安科技(深圳)有限公司 | 单通道语音增强方法、装置、计算机设备及存储介质 |
CN115659150A (zh) * | 2022-12-23 | 2023-01-31 | 中国船级社 | 一种信号处理方法、装置及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104966517A (zh) * | 2015-06-02 | 2015-10-07 | 华为技术有限公司 | 一种音频信号增强方法和装置 |
CN105023580A (zh) * | 2015-06-25 | 2015-11-04 | 中国人民解放军理工大学 | 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法 |
-
2018
- 2018-02-01 CN CN201810101400.XA patent/CN108335702A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104966517A (zh) * | 2015-06-02 | 2015-10-07 | 华为技术有限公司 | 一种音频信号增强方法和装置 |
CN105023580A (zh) * | 2015-06-25 | 2015-11-04 | 中国人民解放军理工大学 | 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法 |
Non-Patent Citations (1)
Title |
---|
YONG XU等: ""A Regression Approach to Speech Enhancement Based on Deep Neural Networks"", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109147817A (zh) * | 2018-08-29 | 2019-01-04 | 昆明理工大学 | 一种基于变异受限玻尔兹曼机的去噪音频特征提取算法 |
CN109036412A (zh) * | 2018-09-17 | 2018-12-18 | 苏州奇梦者网络科技有限公司 | 语音唤醒方法和系统 |
CN109378010A (zh) * | 2018-10-29 | 2019-02-22 | 珠海格力电器股份有限公司 | 神经网络模型的训练方法、语音去噪方法及装置 |
CN109378013B (zh) * | 2018-11-19 | 2023-02-03 | 南瑞集团有限公司 | 一种语音降噪方法 |
CN109378013A (zh) * | 2018-11-19 | 2019-02-22 | 南瑞集团有限公司 | 一种语音降噪方法 |
EP3913904A1 (en) * | 2019-06-10 | 2021-11-24 | Google LLC | Training a model for speech and noise energy estimation |
CN111292768A (zh) * | 2020-02-07 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 丢包隐藏的方法、装置、存储介质和计算机设备 |
CN111292768B (zh) * | 2020-02-07 | 2023-06-02 | 腾讯科技(深圳)有限公司 | 丢包隐藏的方法、装置、存储介质和计算机设备 |
CN111341332A (zh) * | 2020-02-28 | 2020-06-26 | 重庆邮电大学 | 基于深度神经网络的语音特征增强后置滤波方法 |
CN111554321A (zh) * | 2020-04-20 | 2020-08-18 | 北京达佳互联信息技术有限公司 | 降噪模型训练方法、装置、电子设备及存储介质 |
CN111554321B (zh) * | 2020-04-20 | 2023-12-05 | 北京达佳互联信息技术有限公司 | 降噪模型训练方法、装置、电子设备及存储介质 |
CN112202778A (zh) * | 2020-09-30 | 2021-01-08 | 联想(北京)有限公司 | 一种信息处理方法、装置和电子设备 |
CN113870887A (zh) * | 2021-09-26 | 2021-12-31 | 平安科技(深圳)有限公司 | 单通道语音增强方法、装置、计算机设备及存储介质 |
CN115659150A (zh) * | 2022-12-23 | 2023-01-31 | 中国船级社 | 一种信号处理方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108335702A (zh) | 一种基于深度神经网络的音频降噪方法 | |
CN110619885B (zh) | 基于深度完全卷积神经网络的生成对抗网络语音增强方法 | |
CN109256144B (zh) | 基于集成学习与噪声感知训练的语音增强方法 | |
US10504539B2 (en) | Voice activity detection systems and methods | |
Shivakumar et al. | Perception optimized deep denoising autoencoders for speech enhancement. | |
CN112735456B (zh) | 一种基于dnn-clstm网络的语音增强方法 | |
CN110718232B (zh) | 一种基于二维语谱图和条件生成对抗网络的语音增强方法 | |
Xia et al. | Speech enhancement with weighted denoising auto-encoder. | |
CN111292762A (zh) | 一种基于深度学习的单通道语音分离方法 | |
Sun et al. | Monaural source separation in complex domain with long short-term memory neural network | |
CN108133702A (zh) | 一种基于mee优化准则的深度神经网络语音增强模型 | |
WO2020177372A1 (zh) | 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质 | |
CN112992121B (zh) | 基于注意力残差学习的语音增强方法 | |
CN108615533A (zh) | 一种基于深度学习的高性能语音增强方法 | |
CN110867192A (zh) | 基于门控循环编解码网络的语音增强方法 | |
Wang et al. | Joint noise and mask aware training for DNN-based speech enhancement with sub-band features | |
WO2019014890A1 (zh) | 一种通用的单声道实时降噪方法 | |
Roy et al. | DeepLPC-MHANet: Multi-head self-attention for augmented Kalman filter-based speech enhancement | |
Zhang et al. | Monaural speech enhancement using a multi-branch temporal convolutional network | |
CN110675888A (zh) | 一种基于RefineNet和评价损失的语音增强方法 | |
Sivapatham et al. | Gammatone filter bank-deep neural network-based monaural speech enhancement for unseen conditions | |
TWI749547B (zh) | 應用深度學習的語音增強系統 | |
Roy et al. | On supervised LPC estimation training targets for augmented Kalman filter-based speech enhancement | |
Shankar et al. | Real-time single-channel deep neural network-based speech enhancement on edge devices | |
Roy et al. | Deep residual network-based augmented Kalman filter for speech enhancement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180727 |
|
RJ01 | Rejection of invention patent application after publication |