[go: up one dir, main page]

CN108335702A - 一种基于深度神经网络的音频降噪方法 - Google Patents

一种基于深度神经网络的音频降噪方法 Download PDF

Info

Publication number
CN108335702A
CN108335702A CN201810101400.XA CN201810101400A CN108335702A CN 108335702 A CN108335702 A CN 108335702A CN 201810101400 A CN201810101400 A CN 201810101400A CN 108335702 A CN108335702 A CN 108335702A
Authority
CN
China
Prior art keywords
audio
noise reduction
power spectrum
layer
dnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810101400.XA
Other languages
English (en)
Inventor
余春艳
齐子铭
管发乾
张栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201810101400.XA priority Critical patent/CN108335702A/zh
Publication of CN108335702A publication Critical patent/CN108335702A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及一种基于深度神经网络的音频降噪方法。该方法为训练和测试两个阶段;在训练阶段,DNN模型的训练数据是由带噪和纯净音频组成的,由于对数频域更符合人耳的听觉系统,因此对输入的音频提取对数功率谱作为特征;在测试阶段,把音色转换后的歌声的对数功率谱输入到从训练阶段得到的DNN模型中,模型的输出就是降噪后音频的对数功率谱,由于人耳的听觉感知对音频的相位信息并不敏感,所以相位信息直接从原始音色转换后的歌声中计算得到,最后结合DNN模型输出的对数功率谱以及相位信息,重建出降噪后的音频。本发明方法能够对音频特别是音色转换后语音和歌声音频的降噪。

Description

一种基于深度神经网络的音频降噪方法
技术领域
本发明涉及歌唱领域的音频降噪方法,特别是一种基于深度神经网络的音频降噪方法。
背景技术
现实生活中的语音音频信号或是歌声音频信号,往往都不是纯净的,都伴有各种各样的噪声。而音频降噪的目的就是尽可能的去除音频信号中的噪声,使音色转换后的歌声更纯净,从而改善音频的质量,提高它的清晰度以及可懂度。
传统的音频降噪方法主要有基于统计模型的贝叶斯估计法、子空间算法、谱减法等。这些算法都对噪声的特性有很强的假设,其中,谱减法的计算复杂度最低,只需要进行正反傅里叶变换,然而当音频信号的信噪比比较低时,谱减法对音频的可懂度损伤很大。
传统的无监督降噪算法大多数都是基于背景噪声的加性特征或是音频和噪声之间的某种统计特性而提出并实现的,这导致了这些算法的适用范围很小。从噪声干扰的复杂性出发,考虑利用深度神经网络这种非线性模型对带噪音频和纯净音频间的映射关系进行建模,并实现对音色转换后音频的降噪。
因此,本专利基于上述分析,利用深度神经网络训练出泛化能力更强的音频降噪模型,完成对音频的降噪。
发明内容
本发明的目的在于提供一种基于深度神经网络的音频降噪方法,能够对音频特别是音色转换后语音和歌声音频的降噪。
为实现上述目的,本发明的技术方案是:一种基于深度神经网络的音频降噪方法,包括如下步骤:
步骤S1:对数据进行预处理,得到带噪音频数据;
步骤S2:训练DNN音频降噪模型,得到的DNN音频降噪模型可以完成音色转换后的歌声的对数功率谱与纯净音频的对数功率谱之间的映射;
步骤S3:对音色转换后的歌声进行降噪,即结合步骤S2中训练好的DNN音频降噪模型、输出的对数功率谱以及相位信息,重建出降噪后的音频。
在本发明一实施例中,所述步骤S1的具体实现方式为:采用TIMIT数据集作为纯净的音频数据;并在纯净音频上添加不同信噪比等级及不同种类的多种噪声,以此生成带噪音频数据。
在本发明一实施例中,所述信噪比等级包括20dB、15dB、10dB。
在本发明一实施例中,所述噪声的种类包括加性高斯白噪声、Babble、Restaurant、Street、Car、Exhibition。
在本发明一实施例中,所述步骤S2具体包括以下步骤:
步骤S21:用带噪音频的对数功率谱对堆叠RBM进行预训练,采用无监督的、逐层贪婪的训练方法,并用CD算法来更新RBM的参数;
步骤S22:用随机梯度下降算法训练整体的DNN音频降噪模型;DNN音频降噪模型中RBM部分的参数采用步骤S21训练得到的参数进行初始化,DNN音频降噪模型输出层的参数进行随机初始化;DNN音频降噪模型的损失函数为纯净音频的对数功率谱与DNN音频降噪模型输出的降噪后的对数功率谱之间的最小均方误差,计算公式如下:
其中,E表示均方误差;分别表示第n个样本降噪后的对数功率谱和纯净音频的对数功率谱;N表示总的样本个数;D表示对数功率谱的大小;(Wl,bl)表示第l层的权重和偏置;权重W和偏置b的更新方式如下:
其中,λ表示学习率。
在本发明一实施例中,所述步骤S22中,DNN音频降噪模型构成如下:
第一层RBM是具有一个可见层和一个隐藏层的高斯-伯努利受限玻尔兹曼机,节点数为2048,激活函数为Sigmoid;
第二层RBM是伯努利-伯努利受限玻尔兹曼机,节点数2048,激活函数为Sigmoid;
第三层RBM是伯努利-伯努利受限玻尔兹曼机,节点数2048,激活函数为Sigmoid;
第四层RBM是输出层,节点数257,激活函数为线性激活函数。
相较于现有技术,本发明具有以下有益效果:本发明方法利用深度神经网络训练出泛化能力更强的音频降噪模型,完成对音频的降噪。
附图说明
图1是本发明的方法流程示意框图。
图2是本发明的实施例中应用的深度神经网络的结构图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明的一种基于深度神经网络的音频降噪方法,如图1所示,包括如下步骤:
步骤S1:对数据进行预处理。
步骤S2:训练DNN音频降噪模型,得到的DNN模型可以完成音色转换后的歌声的对数功率谱与纯净音频的对数功率谱之间的映射。
步骤S3:对音色转换后的歌声进行降噪,结合S2中训练好的DNN模型,输出的对数功率谱以及相位信息,重建出降噪后的音频。
进一步,所述步骤S1的具体做法是使用TIMIT数据集作为纯净的音频数据;并在纯净音频上添加不同等级信噪比的多种噪声,信噪比等级有20dB,15dB,10dB等,噪声的种类包括加性高斯白噪声、Babble、Restaurant、Street、Car、Exhibition等,以此来生成带噪的音频数据。
进一步,所述步骤S2具体包括以下步骤:
步骤S21:用带噪音频的对数功率谱对堆叠RBM进行预训练,使用的是无监督的、逐层贪婪的训练方法,并用CD算法(Contrastive Divergence)来更新RBM的参数。
步骤S22:用随机梯度下降算法(Stochastic Gradient Descent,SGD)训练整体的DNN降噪模型。DNN模型中RBM部分的参数用上一步预训练得到的参数进行初始化,模型输出层的参数进行随机初始化。模型的损失函数为纯净音频的对数功率谱与模型输出的降噪后的对数功率谱之间的最小均方误差(Minimum Mean Squared Error,MMSE),计算公式如下:
其中,E表示均方误差;分别表示第n个样本降噪后的对数功率谱和纯净音频的对数功率谱;N表示总的样本个数;D表示对数功率谱的大小;(Wl,bl)表示第l层的权重和偏置;权重W和偏置b的更新方式如下:
其中,λ表示学习率。
在本实施例中,步骤S22如图所示,DNN降噪模型如下:
第一层RBM是具有一个可见层和一个隐藏层的高斯-伯努利受限玻尔兹曼机(Gaussian-BernoulliRBM,GBRBM),节点数为2048,激活函数为Sigmoid;
第二层RBM是伯努利-伯努利受限玻尔兹曼机(Bernoulli-BernoulliRBM,BBRBM),节点数2048,激活函数为Sigmoid;
第三层RBM是伯努利-伯努利受限玻尔兹曼机(Bernoulli-Bernoulli RBM,BBRBM),节点数2048,激活函数为Sigmoid;
第四层RBM是输出层,节点数257,激活函数为线性激活函数。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (6)

1.一种基于深度神经网络的音频降噪方法,其特征在于,包括如下步骤:
步骤S1:对数据进行预处理,得到带噪音频数据;
步骤S2:训练DNN音频降噪模型,得到的DNN音频降噪模型可以完成音色转换后的歌声的对数功率谱与纯净音频的对数功率谱之间的映射;
步骤S3:对音色转换后的歌声进行降噪,即结合步骤S2中训练好的DNN音频降噪模型、输出的对数功率谱以及相位信息,重建出降噪后的音频。
2.根据权利要求1所述的一种基于深度神经网络的音频降噪方法,其特征在于,所述步骤S1的具体实现方式为:采用TIMIT数据集作为纯净的音频数据;并在纯净音频上添加不同信噪比等级及不同种类的多种噪声,以此生成带噪音频数据。
3.根据权利要求2所述的一种基于深度神经网络的音频降噪方法,其特征在于,所述信噪比等级包括20dB、15dB、10dB。
4.根据权利要求2所述的一种基于深度神经网络的音频降噪方法,其特征在于,所述噪声的种类包括加性高斯白噪声、Babble、Restaurant、Street、Car、Exhibition。
5.根据权利要求1所述的一种基于深度神经网络的音频降噪方法,其特征在于,所述步骤S2具体包括以下步骤:
步骤S21:用带噪音频的对数功率谱对堆叠RBM进行预训练,采用无监督的、逐层贪婪的训练方法,并用CD算法来更新RBM的参数;
步骤S22:用随机梯度下降算法训练整体的DNN音频降噪模型;DNN音频降噪模型中RBM部分的参数采用步骤S21训练得到的参数进行初始化,DNN音频降噪模型输出层的参数进行随机初始化;DNN音频降噪模型的损失函数为纯净音频的对数功率谱与DNN音频降噪模型输出的降噪后的对数功率谱之间的最小均方误差,计算公式如下:
其中,E表示均方误差;分别表示第n个样本降噪后的对数功率谱和纯净音频的对数功率谱;N表示总的样本个数;D表示对数功率谱的大小;(Wl,bl)表示第l层的权重和偏置;权重W和偏置b的更新方式如下:
其中,λ表示学习率。
6.根据权利要求5所述的一种基于深度神经网络的音频降噪方法,其特征在于,所述步骤S22中,DNN音频降噪模型构成如下:
第一层RBM是具有一个可见层和一个隐藏层的高斯-伯努利受限玻尔兹曼机,节点数为2048,激活函数为Sigmoid;
第二层RBM是伯努利-伯努利受限玻尔兹曼机,节点数2048,激活函数为Sigmoid;
第三层RBM是伯努利-伯努利受限玻尔兹曼机,节点数2048,激活函数为Sigmoid;
第四层RBM是输出层,节点数257,激活函数为线性激活函数。
CN201810101400.XA 2018-02-01 2018-02-01 一种基于深度神经网络的音频降噪方法 Pending CN108335702A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810101400.XA CN108335702A (zh) 2018-02-01 2018-02-01 一种基于深度神经网络的音频降噪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810101400.XA CN108335702A (zh) 2018-02-01 2018-02-01 一种基于深度神经网络的音频降噪方法

Publications (1)

Publication Number Publication Date
CN108335702A true CN108335702A (zh) 2018-07-27

Family

ID=62927933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810101400.XA Pending CN108335702A (zh) 2018-02-01 2018-02-01 一种基于深度神经网络的音频降噪方法

Country Status (1)

Country Link
CN (1) CN108335702A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036412A (zh) * 2018-09-17 2018-12-18 苏州奇梦者网络科技有限公司 语音唤醒方法和系统
CN109147817A (zh) * 2018-08-29 2019-01-04 昆明理工大学 一种基于变异受限玻尔兹曼机的去噪音频特征提取算法
CN109378010A (zh) * 2018-10-29 2019-02-22 珠海格力电器股份有限公司 神经网络模型的训练方法、语音去噪方法及装置
CN109378013A (zh) * 2018-11-19 2019-02-22 南瑞集团有限公司 一种语音降噪方法
CN111292768A (zh) * 2020-02-07 2020-06-16 腾讯科技(深圳)有限公司 丢包隐藏的方法、装置、存储介质和计算机设备
CN111341332A (zh) * 2020-02-28 2020-06-26 重庆邮电大学 基于深度神经网络的语音特征增强后置滤波方法
CN111554321A (zh) * 2020-04-20 2020-08-18 北京达佳互联信息技术有限公司 降噪模型训练方法、装置、电子设备及存储介质
CN112202778A (zh) * 2020-09-30 2021-01-08 联想(北京)有限公司 一种信息处理方法、装置和电子设备
EP3913904A1 (en) * 2019-06-10 2021-11-24 Google LLC Training a model for speech and noise energy estimation
CN113870887A (zh) * 2021-09-26 2021-12-31 平安科技(深圳)有限公司 单通道语音增强方法、装置、计算机设备及存储介质
CN115659150A (zh) * 2022-12-23 2023-01-31 中国船级社 一种信号处理方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966517A (zh) * 2015-06-02 2015-10-07 华为技术有限公司 一种音频信号增强方法和装置
CN105023580A (zh) * 2015-06-25 2015-11-04 中国人民解放军理工大学 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966517A (zh) * 2015-06-02 2015-10-07 华为技术有限公司 一种音频信号增强方法和装置
CN105023580A (zh) * 2015-06-25 2015-11-04 中国人民解放军理工大学 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YONG XU等: ""A Regression Approach to Speech Enhancement Based on Deep Neural Networks"", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147817A (zh) * 2018-08-29 2019-01-04 昆明理工大学 一种基于变异受限玻尔兹曼机的去噪音频特征提取算法
CN109036412A (zh) * 2018-09-17 2018-12-18 苏州奇梦者网络科技有限公司 语音唤醒方法和系统
CN109378010A (zh) * 2018-10-29 2019-02-22 珠海格力电器股份有限公司 神经网络模型的训练方法、语音去噪方法及装置
CN109378013B (zh) * 2018-11-19 2023-02-03 南瑞集团有限公司 一种语音降噪方法
CN109378013A (zh) * 2018-11-19 2019-02-22 南瑞集团有限公司 一种语音降噪方法
EP3913904A1 (en) * 2019-06-10 2021-11-24 Google LLC Training a model for speech and noise energy estimation
CN111292768A (zh) * 2020-02-07 2020-06-16 腾讯科技(深圳)有限公司 丢包隐藏的方法、装置、存储介质和计算机设备
CN111292768B (zh) * 2020-02-07 2023-06-02 腾讯科技(深圳)有限公司 丢包隐藏的方法、装置、存储介质和计算机设备
CN111341332A (zh) * 2020-02-28 2020-06-26 重庆邮电大学 基于深度神经网络的语音特征增强后置滤波方法
CN111554321A (zh) * 2020-04-20 2020-08-18 北京达佳互联信息技术有限公司 降噪模型训练方法、装置、电子设备及存储介质
CN111554321B (zh) * 2020-04-20 2023-12-05 北京达佳互联信息技术有限公司 降噪模型训练方法、装置、电子设备及存储介质
CN112202778A (zh) * 2020-09-30 2021-01-08 联想(北京)有限公司 一种信息处理方法、装置和电子设备
CN113870887A (zh) * 2021-09-26 2021-12-31 平安科技(深圳)有限公司 单通道语音增强方法、装置、计算机设备及存储介质
CN115659150A (zh) * 2022-12-23 2023-01-31 中国船级社 一种信号处理方法、装置及设备

Similar Documents

Publication Publication Date Title
CN108335702A (zh) 一种基于深度神经网络的音频降噪方法
CN110619885B (zh) 基于深度完全卷积神经网络的生成对抗网络语音增强方法
CN109256144B (zh) 基于集成学习与噪声感知训练的语音增强方法
US10504539B2 (en) Voice activity detection systems and methods
Shivakumar et al. Perception optimized deep denoising autoencoders for speech enhancement.
CN112735456B (zh) 一种基于dnn-clstm网络的语音增强方法
CN110718232B (zh) 一种基于二维语谱图和条件生成对抗网络的语音增强方法
Xia et al. Speech enhancement with weighted denoising auto-encoder.
CN111292762A (zh) 一种基于深度学习的单通道语音分离方法
Sun et al. Monaural source separation in complex domain with long short-term memory neural network
CN108133702A (zh) 一种基于mee优化准则的深度神经网络语音增强模型
WO2020177372A1 (zh) 基于超高斯先验语音模型与深度学习的语音分离方法、系统及存储介质
CN112992121B (zh) 基于注意力残差学习的语音增强方法
CN108615533A (zh) 一种基于深度学习的高性能语音增强方法
CN110867192A (zh) 基于门控循环编解码网络的语音增强方法
Wang et al. Joint noise and mask aware training for DNN-based speech enhancement with sub-band features
WO2019014890A1 (zh) 一种通用的单声道实时降噪方法
Roy et al. DeepLPC-MHANet: Multi-head self-attention for augmented Kalman filter-based speech enhancement
Zhang et al. Monaural speech enhancement using a multi-branch temporal convolutional network
CN110675888A (zh) 一种基于RefineNet和评价损失的语音增强方法
Sivapatham et al. Gammatone filter bank-deep neural network-based monaural speech enhancement for unseen conditions
TWI749547B (zh) 應用深度學習的語音增強系統
Roy et al. On supervised LPC estimation training targets for augmented Kalman filter-based speech enhancement
Shankar et al. Real-time single-channel deep neural network-based speech enhancement on edge devices
Roy et al. Deep residual network-based augmented Kalman filter for speech enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180727

RJ01 Rejection of invention patent application after publication