CN110491407B

CN110491407B - 语音降噪的方法、装置、电子设备及存储介质

Info

Publication number: CN110491407B
Application number: CN201910754269.1A
Authority: CN
Inventors: 黄杰雄; 戴长军; 黄健源
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2021-09-21
Anticipated expiration: 2039-08-15
Also published as: CN110491407A

Abstract

本申请公开了一种语音降噪的方法、装置、电子设备以及存储介质，该方法包括获取第一音频，第一音频为混合有语音信号以及背景噪声信号的音频；继而对第一音频进行预处理，以将第一音频的频谱能量特征由线性时域转换到Bark频域，得到第一音频的Bark特征；再将Bark特征输入预先训练得到的目标神经网络模型，获取目标神经网络模型输出的Bark特征比例参数；再基于Bark特征比例参数计算语音信号的幅值参数；然后基于幅值参数获取目标语音。通过将第一音频的Bark特征输入预先训练得到的目标神经网络模型，进而计算出语音信号的幅值参数，再基于幅值参数获取目标语音，减小了神经网络模型的计算量，降低语音信息中的背景噪声。

Description

语音降噪的方法、装置、电子设备及存储介质

技术领域

本申请涉及语音降噪技术领域，更具体地，涉及一种语音降噪的方法、装置、电子设备及存储介质。

背景技术

语音降噪技术是一种从混合了目标语音和背景噪声的音频中，消除或抑制背景噪声得到目标语音的技术。作为一种方式，可以将大量现实中的目标语音信号和噪声信号随机混合，作为神经网络的输入，经过监督训练后，神经网络能够自动地从训练样本中学习输出目标语音信号。然而，随着目标语音采样率的提高，神经网络的计算量将不断增大，使其无法得到广泛的应用。

发明内容

鉴于上述问题，本申请提出了一种语音降噪的方法、装置、电子设备及存储介质，以改善上述问题。

第一方面，本申请实施例提供了一种语音降噪的方法，该方法包括：获取第一音频，第一音频为混合有语音信号以及背景噪声信号的音频；对第一音频进行预处理，以将第一音频的频谱能量特征由线性时域转换到Bark频域，得到第一音频的Bark特征；将Bark特征输入预先训练得到的目标神经网络模型，获取目标神经网络模型输出的Bark特征比例参数，Bark特征比例参数表征语音信号的频谱幅值特征在Bark频域中所占的比例；基于Bark特征比例参数，计算语音信号的幅值参数；基于幅值参数获取目标语音。

第二方面，本申请实施例提供了一种语音降噪的装置，该装置包括：第一获取模块，用于获取第一音频，第一音频为混合有语音信号以及背景噪声信号的音频；预处理模块，用于对第一音频进行预处理，以将第一音频的频谱能量特征由线性时域转换到Bark频域，得到第一音频的Bark特征；第一计算模块，用于将Bark特征输入预先训练得到的目标神经网络模型，获取目标神经网络模型输出的Bark特征比例参数，Bark特征比例参数表征语音信号的频谱幅值特征在Bark频域中所占的比例；第二计算模块，用于基于Bark特征比例参数，计算语音信号的幅值参数；第二获取模块，用于基于幅值参数获取目标语音。

第三方面，本申请实施例提供了一种电子设备，包括存储器以及一个或多个处理器；一个或多个程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行上述第一方面所述的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质中存储有程序代码，其中，在程序代码由处理器运行时执行上述第一方面所述的方法。

本申请实施例提供的一种语音降噪的方法、装置、电子设备及存储介质，涉及语音降噪技术领域。本方法通过获取第一音频，第一音频为混合有语音信号以及背景噪声信号的音频；继而对第一音频进行预处理，以将第一音频的频谱能量特征由线性时域转换到Bark频域，得到第一音频的Bark特征；再将Bark特征输入预先训练得到的目标神经网络模型，获取目标神经网络模型输出的Bark特征比例参数，Bark特征比例参数表征语音信号的频谱幅值特征在Bark频域中所占的比例；再基于Bark特征比例参数计算语音信号的幅值参数；然后基于幅值参数获取目标语音。本方法通过将第一音频的Bark特征输入预先训练得到的目标神经网络模型，进而计算出语音信号的幅值参数，再基于幅值参数获取目标语音，减小了神经网络模型的计算量，降低语音信息中的背景噪声。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了适用于本申请实施例提供的语音降噪的方法中的分离门卷积层的网络结构示意图。

图2示出了适用于本申请实施例提供的语音降噪的方法中的长短时记忆网络的结构示意图。

图3示出了本申请一实施例提供的一种语音降噪的方法的方法流程图。

图4示出了本申请另一实施例提供的一种语音降噪的方法的方法流程图。

图5示出了本申请实施例提供的对带噪歌声进行降噪的方法示意流程图。

图6示出了本申请实施例提供的一种语音降噪的装置的结构框图。

图7示出了本申请实施例提供的一种电子设备的结构框图。

图8示出了本申请实施例的用于保存或者携带实现根据本申请实施例的语音降噪的方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

近年来，随着语音通信技术的快速发展以及用户对语音质量越来越高的要求，基于深度神经网络监督学习的方法加速了整个语音降噪的研究。语音降噪指的是将目标语音信号与背景噪声进行分离从而消除或抑制背景噪声。作为一种方式，可以将大量现实中的目标语音信号和噪声信号随机混合，作为神经网络的输入，经过监督训练后，神经网络能够自动地从训练样本中学习输出目标语音信号，提升降噪效果。然而，随着目标语音采样率的提高，神经网络的计算量将不断增大，使其无法得到广泛的应用。

例如，在歌唱的场景下，目标语音信号为人的歌声，其音频信号的采样率通常为44.1kHz。歌声降噪是语音降噪中比较特殊的一种场景，传统语音降噪技术运用在高采样率音频的场景下，效果很不理想；而已有的一些基于深度神经网络的语音降噪方法也因为网络参数过多导致计算量过大从而很难应用于歌声降噪的场景。

针对上述的问题，发明人经过长期的研究发现，对于一段音频信号，其输入神经网络模型的信号的非平稳性将导致神经网络计算量的增加，且将音频信号直接输入卷积神经网络模型，会进一步增大神经网络的计算量，且音频降噪效果不明显。为了减少神经网络的计算量，提升音频的降噪效果，发明人发现，将音频的频谱能量由线性时域转换至频域(Bark域)，将频谱能量在Bark域的表示作为Bark特征，继而将Bark特征作为神经网络的输入，再使神经网络采用全新的分离门卷积层结构，可以使得卷积神经网络结构在增加卷积核的学习视野的同时减少神经网络计算量的增加，同时增加神经网络模型的非线性程度，提升音频降噪的效果。

因此，提出了本申请实施例提供的一种音频降噪的方法、装置、电子设备及存储介质，通过将第一音频的Bark特征输入预先训练得到的目标神经网络模型，进而计算出语音信号的幅值参数，再基于幅值参数获取目标语音，减小了神经网络模型的计算量，降低语音信息中的背景噪声。

为了便于详细说明本申请方案，下面先结合附图对本申请实施例提供的分离门卷积神经网络模型进行说明。

请参阅图1，为本申请实施例提供的语音降噪的方法中的一种示例性的分离门卷积层的网络结构示意图。其中，该分离门卷积层包括四个二维卷积层、第一激活函数模块以及第二激活函数模块。作为一种方式，该四个二维卷积层包括第一因果卷积层、第二因果卷积层、第三卷积层以及第四卷积层。其中，第一激活函数模块与第三卷积层连接，第二激活函数模块与第四卷积层连接。第一因果卷积层的卷积核尺寸可以为kw*1，第二因果卷积层的卷积核尺寸可以为1*kh，第三卷积层以及第四卷积层的卷积核的尺寸可以相同，四个二维卷积层的卷积核通道数相同，即第一因果卷积层、第二因果卷积层、第三卷积层以及第四卷积层的卷积核的通道数(例如，如图1所示可以为c)相同。第三卷积层在连接第一激活函数模块以及第四卷积层在连接第二激活函数模块的情况下，可以将第一激活函数模块的输出与第二激活函数模块的输出相乘，进而得到该分离门卷积层的最后输出。

其中，第一激活函数模块可以采用Relu(Rectified Linear Unit，线性整流函数)，第二激活函数模块可以采用Sigmoid函数。可选的，在实际实现时，第一激活函数模块以及第二激活函数模块也可以采用别的函数，在此不作限定。

可选的，本申请实施例中，对于kw、kh以及c的具体数值不作限定。作为一种方式，通过调整这三个参数，分离门卷积层可以更有效的学习输入的语音特征信息，进而较好的识别出需要的目标语音，或者去除带噪音频中的背景噪声。

可选的，在一种实现方式中，如图1所示，该四个二维卷积层可以分别为因果卷积层(kw*1，c)、因果卷积层(1*kh，c)以及两个分离开的卷积层(1*1，c)。其中，kw与kh为因果卷积层的卷积核尺寸，c为卷积层的卷积核通道数。通过将卷积核分离成两个长条形卷积核(即如图1所示的两个分离开的卷积层(1*1，c))的做法，可以扩大卷积层的学习视野，同时采用分离开的卷积层，可以降低卷积层的计算量。

为了便于更好的理解本申请方案，下面先对本申请实施例所涉及的Bark特征进行说明。

Bark域是一种声音的心理声学尺度。因为人耳耳蜗的特殊构造，人的听觉系统产生了一系列临界频带(Critical band)。临界频带是声音频率带，在同一个临界频带中声音信号容易发生掩蔽效应，即临界频带中的声音信号容易受到能量大且频率接近的另一个信号所掩蔽，导致人的听觉系统无法感受到这个声音信号。作为一种方式，如果把声音信号在频率维度上转换成临界频率带，每一个临界频率带就成为一个Bark，这样也就将声音信号从线性频率域转换到Bark域。可选的，本申请实施例采用以下公式将声音信号从线性频率域转换到Bark域：

其中，arctan为反正切函数，f为声音信号的线性频率维度，Bark(f)为声音信号的Bark域表示。

可选的，在将声音信号从线性频率维度转换成Bark域维度后，需要将线性频率维度下的声音信号的音频频谱能量特征转换为Bark域维度的Bark特征。作为一种方式，音频(即上述的声音信号)做短时傅里叶变换后得到的值(即音频的频谱特征或者叫做音频的频域表示)可以表示为：

stft_(t,f)＝x_(t,f)+i×y_(t,f)，

其中，stft_(t,f)表示在频域上的频谱特征，由一个向量组成，也就是式子中的x+yi，x代表这个频谱特征的实部，y代表特征的虚部。

进一步的，音频的线性频谱能量可以由以下公式计算获得：

那么，线性频谱能量特征转换为Bark特征可以表示为：

Bark_feature＝mat_mul(stft_energy,stft2bark_matrix)，

其中，mat_mul表示矩阵相乘，stft2bark_matrix表示Bark特征的转换矩阵。

可选的，神经网络学习Bark特征后输出的是目标语音(例如歌声)的Bark值和带噪音频Bark值的比值bark_mask。本申请利用同上的原理进行转换，得到线性频率维度下目标语音的频谱幅值和带噪音频的频谱幅值之比mask，转换公式如下：

mask＝mat_mul(bark_mask,bark2stft_matrix)，

其中，bark2stft_matrix为Bark特征的逆转换矩阵。

作为一种方式，本申请实施例中将采取包括至少一个分离门卷积层以及至少一个长短期记忆层的目标神经网络模型对带噪音频中的背景噪声信号进行去除。将上述音频的Bark特征输入该目标神经网络模型，可以得到去噪后的音频特征，即目标语音的音频特征。可选的，分离门卷积层用于根据带噪音频特征输出对应目标语音信号的纹理特征，长短期记忆层用于根据纹理特征输出去噪后的音频特征，即目标语音在Bark域的频谱特征(包括频谱幅值以及频谱能量)。其中，长短期记忆层即长短时记忆网络(Long Short-TermMemory，LSTM)。下面结合附图对本申请所采用的长短时记忆网络进行简要说明。

请参阅图2，为适用于本申请实施例提供的语音降噪的方法中的长短时记忆网络的结构示意图。如图2所示，LSTM包括三个控制门，分别为遗忘门、输入门与输出门。每个门限中的激活函数σ均表示S形激活函数。通过S形激活函数可以对上一层的输出h_t-1和当前输入X_t进行处理，可通过以下公式确定上一个时刻的细胞状态C_t-1中需要被遗忘的数据：

f_t＝σ(W_t·[h_t-1,X_t]+b_t)，

其中，f_t的值为0表示完全遗忘，为1则表示完全接受。

进一步的，通过S形激活函数可以确定接受哪些信息，tanh生成新的候选值

结合两者，可以通过下式对隐藏层状态C_t-1进行更新：

i_t＝σ(W_i·[h_t-1,X_t]+b_i)

进一步的，通过激活函数可以确定输出哪些部分的信息，tanh生成新的输出候选值，最终输出该隐藏层的值h_t：

o_t＝σ(W_o·[h_t-1,X_t]+b_o)

h_t＝o_t·tanh(C_t)

可选的，LSTM可以包含多层如图2所示的结构，每一层均接受上一层的隐藏层输出、状态向量以及当前输入的数据作为输入，并更新下一层的影隐藏层输出与状态向量，从而能够保存过去的关键信息，用于预测未来的信息。

下面将结合附图具体描述本申请的各实施例。

请参阅图3，示出了本申请实施例提供的一种语音降噪的方法的流程图，本实施例提供一种语音降噪的方法，可应用上述电子设备，该方法包括：

步骤S110：获取第一音频，所述第一音频为混合有语音信号以及背景噪声信号的音频。

其中，第一音频可以为混合有目标采样率的语音信号以及背景噪声信号的音频。可选的，目标采样率可以是高采样率，例如44.1kHz或者48kHz，也可以是非高采样率，例如11.025kHz、22.05kHz以及24kHz等，本实施例中对目标采样率的具体数值不作限定。语音信号表征纯净语音信号或者是掺杂较少噪声信号的声音信号。作为一种方式，语音信号可以来源于一段音频，例如一段歌声、一段录制的语音等；作为另一种方式，语音信号也可以来源于视频，即语音信号可以是视频中所截取的声音信号，具体的，语音信号的来源不作限定。

可选的，本申请实施例中的第一音频可以为歌声(采样率通常为44.1kHz)。

背景噪声信号指的是对语音信号产生干扰的声音信号，背景噪声信号可以来源于声音的电磁干扰或者是周围环境等，背景噪声可以使许多语音处理系统的性能急剧下降，极大的影响用户体验。可以理解的是，第一音频会不可避免的存在背景噪声信号，那么，为了降低背景噪声信号对语音信号的影响，提升用户体验，本实施例可以获取第一音频，通过对第一音频进行相应处理，以降低第一音频的背景噪声信号。

可选的，为了提升电子设备的语音系统功能，电子设备可以实时监听音频信号，那么在这种情况下，电子设备可以将任意一段音频(包括视频中的音频数据)识别为第一音频，以便于可以实时降低第一音频的背景噪声。

其中，电子设备可以通过多种方式获取第一音频。

作为一种方式，电子设备可以通过音频系统程序获取包括音频数据的第三方客户端程序的音频数据，进而得到第一音频。例如，通过音频系统程序获取游戏类应用程序在运行过程中产生的游戏音频、获取歌唱类应用程序在运行过程中的歌唱音频、获取视频播放类应用程序在运行过程中的视频播放音效、或者是获取电子设备在启动过程中的启动音频，可选的，可以将上述音频作为第一音频，从而实现获取第一音频。

作为另一种方式，电子设备可以从网上实时获取音频数据作为第一音频，例如，将某一网站的广告配音作为第一音频。可选的，电子设备也可以将远程下载的音频数据作为第一音频，或者是录制一段用户的语音作为第一音频。第一音频的来源与格式不受限制，在此不再一一列举。

步骤S120：对所述第一音频进行预处理，得到所述第一音频的Bark特征。

其中，作为一种方式，本申请实施例中的预处理可以指将第一音频从线性时域维度转换到频域维度进行处理。具体的，将第一音频的频谱特征由线性时域维度转换到Bark频域，从而得到第一音频的Bark特征。其中，频谱特征包括第一音频的频谱能量特征以及频谱幅值特征，可选的，频谱能量特征的值等于频谱幅值特征的值的平方，那么可以理解的是，第一音频的Bark特征可以理解为第一音频的频谱能量特征在Bark频域的表示。

可以理解的是，第一音频的语音信号为非平稳的语音信号，通过对第一音频进行预处理，可以减小Bark特征的线性程度，以便于将Bark特征输入到预先训练好的目标神经网络模型后可以更为有效的去除第一音频的背景噪声信号。

步骤S130：将所述Bark特征输入预先训练得到的目标神经网络模型，获取所述目标神经网络模型输出的Bark特征比例参数。

由前述可知，本申请实施例中的目标神经网络模型包括至少一个分离门卷积层以及至少一个长短期记忆层。需要说明的是，分离门卷积层以及长短期记忆层的具体数量以及排列顺序本申请实施例不做限制，可以根据实际情况进行设定。

例如，作为一种方式，目标神经网络模型可以包括3个分离门卷积层以及两个长短期记忆层。在这种情况下，为了取得更好的降噪效果，本实施设计了损失函数并采取了自适应时刻估计法(ADAM)，通过损失函数可以使得Bark特征输入到目标神经网络模型后第一音频的语音信号的幅值减少失真；使目标神经网络模型可以按照上述的包括3个分离门卷积层以及两个长短期记忆层的网络结构，结合自适应时刻估计法对新获取的第一音频进行学习，从而较好地降低第一音频中的背景噪声信号。具体的，本申请实施例所涉及的自适应时刻估计法采用了动量因子BETA1为0.9，BETA2为0.999，基础学习率(LEARNING_RATE)设为0.001，迭代次数每增加300000次，学习率下降为原来的0.3。在本实施例中，训练批大小(BATCH_SIZE)设为32，即进行一次网络训练迭代时输入32个训练音频，样本可重复抽取。最终训练了1000000次左右，使得Loss收敛到最小值附近。

可选的，Bark特征比例参数可以表征语音信号的频谱幅值特征在Bark频域中所占的比例，即语音信号的频谱幅值特征占第一音频(包括语音信号以及背景噪声信号)的频谱幅值特征的比例。作为一种方式，通过将第一音频的Bark特征输入分离门卷积层，再将分离门卷积层的输出输入到长短期记忆层，可输出得到Bark特征比例参数(目标神经网络模型可自动学习出语音信号的Bark特征比例参数)。

例如，在一个具体的应用场景中，假设一段带噪音频(即第一音频)的频谱幅值为1，整个音频是由频谱幅值为0.8的语音(即语音信号)与频谱幅值为0.2的噪声(即背景噪声信号)组成的，那么将该带噪音频对应的Bark特征输入到上述的目标神经网络模型，该目标神经网络模型可以输出频谱幅值为0.8的语音信号，即该目标神经网络模型可以从带噪的bark特征中把语音信号“挑选”出来，从而得到语音信号的Bark特征比例参数(此处为0.8)。

步骤S140：基于所述Bark特征比例参数，计算所述语音信号的幅值参数。

那么，在上述情况下，可以基于Bark特征比例参数计算语音信号的幅值参数。

其中，幅值参数表示的是语音信号的频谱幅值参数。具体的，包括语音信号在线性时域的频谱幅值比例、频谱幅值以及在Bark频域的频谱幅值比例。通过计算语音信号的幅值参数，可以使降噪后的语音信号由Bark频域转换至线性时域，从而使语音信号的波形还原至线性时域，以便于输出语音信号。

步骤S150：基于所述幅值参数获取目标语音。

其中，目标语音指的是对第一音频进行降噪后的语音信号。可选的，基于Bark特征比例参数计算得出幅值参数后，可以基于幅值参数获取目标语音，即获得去除了第一音频的噪声得到的语音信号。

本实施例提供的语音降噪的方法，通过将混合有语音信号及背景噪声信号的第一音频的Bark特征输入预先训练得到的目标神经网络模型，将表征语音信号的Bark特征挑选出来，得到表征语音信号的频谱幅值特征在Bark频域中所占的比例的Bark特征比例参数，再基于Bark特征比例参数计算语音信号的幅值参数，基于幅值参数获取目标语音(即消除了第一音频中的背景噪声信号后的语音信号)，实现降噪的目的，通过目标神经网络模型直接对第一音频中的语音信号进行判断筛选的方式，减小了神经网络模型的计算量。

请参阅图4，示出了本申请另一实施例提供的一种语音降噪的方法的流程图，本实施例提供一种语音降噪的方法，可应用于上述电子设备，该方法包括：

步骤S210：获取训练样本集。

需要说明的是，本申请实施例可以通过获取的训练样本集预先训练出可以识别出语音信号，进而实现降噪的目标神经网络模型，通过该模型可以较好的滤除带噪音频中的噪声信号，得到语音信号。

其中，本申请实施例的训练样本集中包括预设时长的语音信号以及背景噪声信号。可选的，预设时长可以是任意连续的或者非连续的时长，语音信号的预设时长与背景噪声信号的预设时长可以相等或者不相等。例如，语音信号的预设时长可以是20小时，而背景噪声信号的预设时长可以是10小时；或者语音信号的预设时长与背景噪声信号的预设时长均为15小时等，具体不作限定。

可选的，可以将连续的预设时长内的不同音色的目标歌声作为预设时长的语音信号，也可以将不连续的预设时长(即预设时长有间断)内的不同音色的目标歌声作为预设时长的语音信号。

类似的，可以将连续的预设时长内不同类型的背景噪声作为预设时长的背景噪声信号，也可以将不连续的预设时长内的不同类型的背景噪声作为预设时长的背景噪声信号。

作为一种方式，可以按照预先设定的获取方式获取预设时长，例如，按照小时的整数倍获取预设时长；可选的，也可以随机获取语音信号以及背景噪声信号，将分别获取语音信号以及背景噪声信号的获取时长作为各自的预设时长。

在一种实现方式中，电子设备可以获取用户选择的具有时间先后顺序的音频作为预设时长的语音信号以及背景噪声信号；也可以随机从网络上抓取音频数据作为预设时长的语音信号以及背景噪声信号；或者是将电子设备的音频类应用程序运行过程中的音频数据作为预设时长的语音信号以及背景噪声信号。值得注意的是，预设时长的语音信号以及背景噪声信号的获取方式以及获取的内容来源不受限制，可以根据实际情况进行选择。

步骤S220：将所述语音信号以及背景噪声信号按照预设信噪比在线性时域上进行叠加，并将叠加后的所述训练样本集输入到机器学习模型，对所述机器学习模型进行训练，得到目标神经网络模型。

可以理解的是，任何一段未经过任何降噪处理的语音数据都不可避免存在背景噪声，即存在信噪比。信噪比(SIGNAL-NOISE RATIO，SNR)，又称为讯噪比，是指一个电子设备或者电子系统中信号与噪声的比例。可以理解的是，为了增加本申请实施例中的目标神经网络模型的降噪准确度，以使降噪算法适应不同信噪比的音频数据，可以将预设时长的语音信号以及背景噪声信号按照预设信噪比在线性时域上进行叠加，并将叠加后的训练样本集输入到机器学习模型，对机器学习模型进行训练，得到目标神经网络模型。

可选的，预设信噪比可以是0～20之间的随机数，具体数值不受限制。

其中，机器学习模型可以是线性模型、核方法与支持向量机、决策树与Boosting以及神经网络(包括全连接神经网络、卷积神经网络、循环神经网络等)等。其中，关于各个机器学习模型的具体训练方式可以参考现有技术中各自的工作原理，这里不再赘述。

需要说明的是，在将语音信号以及背景噪声信号按照预设的信噪比在线性时域上进行叠加时，所采取的训练样本集中的语音信号与背景噪声信号的预设时长相等，例如，从训练样本集中速记选取2.5秒的语音信号以及2.5秒的背景噪声信号，从而可以使训练得到的神经网络模型能适应更多信噪比的带噪音频。

步骤S230：获取第一音频。

其中，获取第一音频的具体描述可以参照前述实施例中对步骤S110的描述，在此不再赘述。

步骤S240：对第一音频信号进行分帧加窗。

由于第一音频信号为非平稳信号，因此需要对其进行分帧和加窗处理。作为一种方式，本申请实施例采用汉宁窗(Hanning Window)，设置窗长为40ms(毫秒)，滑动窗口为10ms。其中，本实施例对所采取的窗函数具体不作限定，也可以是别的窗函数，例如三角窗函数等。

在一个具体的应用场景中，若语音信号的音频采样率为44.1kHz，那么汉宁窗的窗长为1764个音频点，而滑动窗口为441个音频点。可选的，如此设定窗长可以在保证语音信号不失真的前提下，提高目标神经网络模型的整体运算速度。通过对第一音频信号进行分帧加窗，可以避免帧间突变。

步骤S250：对每个窗内的所述第一音频信号进行短时傅立叶变换，得到所述第一音频的Bark特征。

可选的，对每个窗内的第一音频信号进行短时傅立叶变换，以将第一音频的频谱能量特征由线性时域转换到Bark频域，进而得到第一音频的Bark特征。具体的，本申请实施例将短时傅立叶变换的点数设为2048，那么在短时傅立叶变换后可以得到1025个频率维度的值(即stft值)。本实施例中所采取的Bark特征的维度为48维，那么stft_energy转换到Bark特征的转换矩阵stft2bark_matrix的维度为1025*48。

需要说明的是，在对每个窗内的信号进行短时傅立叶变换的同时，还会计算第一音频的相位值，具体计算公式如下：

其中，arctan为反正切函数。

步骤S260：将所述Bark特征输入预先训练得到的目标神经网络模型，得到所述语音信号在所述Bark频域的频谱幅值比例。

作为一种方式，如前所述，本申请实施例中的目标神经网络模型可以包括三个分离门卷积层以及两个长短期记忆层。在将Bark特征输入预先训练得到的目标神经网络模型时，Bark特征将首先被输入至分离门卷积层，继而将分离门卷积层的输出输入到长短期记忆层，再输出得到语音信号在Bark频域的频谱幅值比例(bark_mask)。

其中，Bark特征被输入分离门卷积层后每个分离门卷积层的处理步骤可以包括：将输入数据(对于首个分离门卷积层来说，输入数据为Bark特征)输入第一因果卷积层；再将第一因果卷积层的输出输入至第二因果卷积层；继而将第二因果卷积层的输出分别输入至第三卷积层以及第四卷积层；然后将第三卷积层的输出输入至第一激活函数模块，并将第四卷积层的输出输入至第二激活函数模块；再将第一激活函数模块的输出与第二激活函数模块的输出相乘，得到分离门卷积层的输出。

步骤S270：对所述Bark频域的频谱幅值比例进行Bark特征逆转换，得到所述语音信号在线性时域的频谱幅值比例。

作为一种方式，可以通过公式：

mask＝mat_mul(bark_mask,bark2stft_matrix)，

将Bark频域的频谱幅值比例(bark_mask)进行Bark特征逆转换，其中，Bark特征逆转换矩阵的维度为25*1025，得到语音信号在线性时域的频谱幅值比例(mask)。其中，通过转换至线性时域的频谱幅值比例，可以便于合成语音信号的声波，进而查看降噪后的语音信号效果。

步骤S280：基于所述线性时域的频谱幅值比例以及所述第一音频在线性时域的频谱能量计算所述语音信号的频谱幅值。

其中，第一音频在线性时域的频谱能量可以由以下公式计算得出：

作为一种方式，通过第一音频在线性时域的频谱幅值比例(mask)以及第一音频在线性时域的频谱能量stft_mag，可以计算得出语音信号的频谱幅值，具体计算公式如下：

步骤S290：基于所述频谱幅值以及第一音频的相位值获取目标语音。

作为一种方式，可以对上述相位值以及频谱幅值进行反傅立叶变换，得到目标语音。

下面以图5为例对本实施例进行示例性的说明：

如图5所示，为本申请实施例提供的对带噪歌声进行降噪的方法示意流程图。可选的，语音信号为歌声信号，那么第一音频为带噪歌声。将带噪歌声进行短时傅立叶变换，得到带噪歌声在线性时域的频谱能量(stft_energy)，再将带噪歌声的频谱能量做Bark特征转换，得到带噪歌声在Bark频域的Bark特征(Bark_feature)，然后将Bark特征输入到预先训练好的神经网络模型，该神经网络模型包括3个分离门卷积层以及两个长短期记忆层，输出得到带噪歌声的歌声信号在Bark频谱的频谱幅值比例(Bark_mask)，然后对频谱幅值比例(Bark_mask)进行特征逆转换，得到歌声信号在线性时域的频谱幅值比例(mask)，再基于频谱幅值比例(mask)以及对带噪歌声进行反傅立叶变换时计算出的带噪歌声在线性时域的频谱能量(stft_energy)计算出歌声信号的频谱幅值(stft_mag)。

值得注意的是，在对带噪歌声进行短时傅立叶变化后，求取了带噪歌声在线性时域的相位(stft_phase)，那么，可以根据歌声信号频谱幅值(stft_mag)以及带噪歌声在线性时域的相位(stft_phase)合成歌声信号降噪后在线性时域的波形，从而得到歌声信号，如图5所示的目标歌声，相比带噪歌声，明显降低了背景噪声。

本实施例提供的语音降噪的方法，通过获取训练样本集，继而将该训练样本集中的语音信号以及背景噪声信号按照预设信噪比在线性时域上进行叠加，将叠加后训练样本集输入到机器学习模型，对该机器学习模型进行训练，得到目标神经网络模型，继而获取第一音频，再对第一音频进行分帧加窗，并对每个窗内的第一音频信号进行短时傅立叶变换，得到第一音频的Bark特征，继而将Bark特征输入预先训练得到的目标神经网络模型，得到语音信号在Bark频域的频谱幅值比例，再对Bark频域的频谱幅值比例进行Bark特征逆转换，得到语音信号在线性时域的频谱幅值比例，然后基于线性时域的频谱幅值比例以及第一音频在线性时域的频谱能量计算语音信号的频谱幅值，最后基于频谱幅值以及第一音频的相位值获取目标语音。实现了通过全新的分离门卷积结构对输入的Bark特征进行处理，使得在保证降噪效果的同时，极大的减少神经网络的计算量与复杂度，提升用户体验。

请参阅图6，为本申请实施例提供的一种语音降噪的装置的结构框图，本实施例提供一种语音降噪的装置300，运行于电子设备，所述装置300包括：第一获取模块310、预处理模块320、第一计算模块330、第二计算模块340以及第二获取模块350：

第一获取模块310，用于获取第一音频，所述第一音频为混合有语音信号以及背景噪声信号的音频。

作为一种方式，装置300还可以包括样本集获取单元以及模型获取单元，该样本集获取单元可以用于获取训练样本集，该训练样本集可以包括预设时长的语音信号以及背景噪声信号，该语音信号以及背景噪声信号按照预设信噪比在线性时域上进行了叠加。该模型获取单元用于将训练样本集输入到机器学习模型，并对机器学习模型进行训练，得到目标神经网络模型。

预处理模块320，用于对所述第一音频进行预处理，以将所述第一音频的频谱能量特征由线性时域转换到Bark频域，得到所述第一音频的Bark特征。

作为一种方式，预处理模块320可以包括第一处理单元以及第二处理单元。该第一处理单元可以用于对第一音频信号进行分帧加窗；该第二处理单元可以用于对每个窗内的第一音频信号进行短时傅立叶变换，以将第一音频的频谱能量特征由线性时域转换到Bark频域，得到第一音频的Bark特征。

可选的，预处理模块320可以包括计算单元，该计算单元用于计算第一音频的相位值。

第一计算模块330，用于将所述Bark特征输入预先训练得到的目标神经网络模型，获取所述目标神经网络模型输出的Bark特征比例参数，所述Bark特征比例参数表征所述语音信号的频谱幅值特征在所述Bark频域中所占的比例。

作为一种方式，第一计算模块330具体可以用于将Bark特征输入预先训练得到的目标神经网络模型，得到语音信号在Bark频域的频谱幅值比例。

可选的，本申请实施例中的目标神经网络模型可以包括三个分离门卷积层以及两个长短期记忆层。

第二计算模块340，用于基于所述Bark特征比例参数，计算所述语音信号的幅值参数。

作为一种方式，第二计算模块340可以包括第一计算单元以及第二计算单元。该第一计算单元可以用于对Bark频域的频谱幅值比例进行Bark特征逆转换，得到语音信号在线性时域的频谱幅值比例；该第二计算单元可以用于基于线性时域的频谱幅值比例以及第一音频在线性时域的频谱能量计算语音信号的频谱幅值。

第二获取模块350，用于基于所述幅值参数获取目标语音。

作为一种方式，第二获取模块350可以基于频谱幅值以及相位值获取目标语音。具体的，第二获取模块350可以对相位值以及频谱幅值进行反傅立叶变换，得到目标语音。

本实施例提供的一种语音降噪的装置，通过获取第一音频，第一音频为混合有语音信号以及背景噪声信号的音频；继而对第一音频进行预处理，以将第一音频的频谱能量特征由线性时域转换到Bark频域，得到第一音频的Bark特征；再将Bark特征输入预先训练得到的目标神经网络模型，获取目标神经网络模型输出的Bark特征比例参数，Bark特征比例参数表征语音信号的频谱幅值特征在Bark频域中所占的比例；再基于Bark特征比例参数计算语音信号的幅值参数；然后基于幅值参数获取目标语音。本方法通过将第一音频的Bark特征输入预先训练得到的目标神经网络模型，进而计算出语音信号的幅值参数，再基于幅值参数获取目标语音，减小了神经网络模型的计算量，降低语音信息中的背景噪声。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参阅图7，基于上述的语音降噪的方法及装置，本申请实施例还提供了一种可以执行前述语音降噪的方法的电子设备12。电子设备12包括存储器122以及相互耦合的一个或多个(图中仅示出一个)处理器124，存储器122以及处理器124之间通信线路连接。存储器122中存储有可以执行前述实施例中内容的程序，而处理器124可以执行存储器122中存储的程序。

其中，处理器124可以包括一个或者多个处理核。处理器124利用各种接口和线路连接整个电子设备12内的各个部分，通过运行或执行存储在存储器122内的指令、程序、代码集或指令集，以及调用存储在存储器122内的数据，执行电子设备12的各种功能和处理数据。可选地，处理器124可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器124可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器124中，单独通过一块通信芯片进行实现。

存储器122可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器122可用于存储指令、程序、代码、代码集或指令集。存储器122可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现前述各个实施例的指令等。存储数据区还可以存储电子设备12在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图8，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质400中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质400可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质400包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质400具有执行上述方法中的任何方法步骤的程序代码410的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码410可以例如以适当形式进行压缩。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音降噪的方法，其特征在于，所述方法包括：

获取第一音频，所述第一音频为混合有语音信号以及背景噪声信号的音频；

对所述第一音频进行预处理，以将所述第一音频的频谱能量特征由线性时域转换到Bark频域，得到所述第一音频的Bark特征；

将所述Bark特征输入预先训练得到的目标神经网络模型，获取所述目标神经网络模型输出的Bark特征比例参数，所述目标神经网络模型包括至少一个分离门卷积层以及至少一个长短期记忆层，所述Bark特征比例参数表征所述语音信号的频谱幅值特征在所述Bark频域中所占的比例，所述将所述Bark特征输入预先训练得到的目标神经网络模型，获取所述目标神经网络模型输出的Bark特征比例参数的步骤包括：将所述Bark特征输入所述分离门卷积层，再将所述分离门卷积层的输出输入到所述长短期记忆层，输出得到所述Bark特征比例参数；

基于所述Bark特征比例参数，计算所述语音信号的幅值参数；

基于所述幅值参数获取目标语音。

2.根据权利要求1所述的方法，其特征在于，所述将所述Bark特征输入预先训练得到的目标神经网络模型，获取所述目标神经网络模型输出的Bark特征比例参数的步骤包括：

将所述Bark特征输入预先训练得到的目标神经网络模型，得到所述语音信号在所述Bark频域的频谱幅值比例；

所述基于所述Bark特征比例参数，计算所述语音信号的幅值参数的步骤包括：

对所述Bark频域的频谱幅值比例进行Bark特征逆转换，得到所述语音信号在线性时域的频谱幅值比例；

基于所述线性时域的频谱幅值比例以及所述第一音频在线性时域的频谱能量计算所述语音信号的频谱幅值。

3.根据权利要求2所述的方法，其特征在于，所述方法，还包括：

计算所述第一音频的相位值；

所述基于所述幅值参数获取目标语音的步骤包括：

基于所述频谱幅值以及所述相位值获取目标语音。

4.根据权利要求3所述的方法，其特征在于，所述基于所述频谱幅值以及所述相位值获取目标语音的步骤包括：

对所述相位值以及所述频谱幅值进行反傅立叶变换，得到目标语音。

5.根据权利要求1所述的方法，其特征在于，所述对所述第一音频进行预处理的步骤包括：

对第一音频信号进行分帧加窗；

对每个窗内的所述第一音频信号进行短时傅立叶变换，以将所述第一音频的频谱能量特征由线性时域转换到Bark频域，得到所述第一音频的Bark特征。

6.根据权利要求1所述的方法，其特征在于，所述分离门卷积层包括四个二维卷积层、第一激活函数模块以及第二激活函数模块，所述四个二维卷积层包括第一因果卷积层、第二因果卷积层、第三卷积层以及第四卷积层，所述第一激活函数模块与所述第三卷积层连接，所述第二激活函数模块与所述第四卷积层连接，所述第一因果卷积层的卷积核尺寸为kw*1，所述第二因果卷积层的卷积核尺寸为1*kh，所述第一因果卷积层与所述第二因果卷积层的卷积核的通道数相同，所述第三卷积层以及第四卷积层的卷积核的尺寸相同，其中，每个所述分离门卷积层的处理步骤包括：

将输入数据输入所述第一因果卷积层；

将所述第一因果卷积层的输出输入至所述第二因果卷积层；

将所述第二因果卷积层的输出分别输入至所述第三卷积层以及所述第四卷积层；

将所述第三卷积层的输出输入至所述第一激活函数模块，并将所述第四卷积层的输出输入至所述第二激活函数模块；

将所述第一激活函数模块的输出与所述第二激活函数模块的输出相乘，得到所述分离门卷积层的输出。

7.根据权利要求1或6所述的方法，其特征在于，所述目标神经网络模型包括三个分离门卷积层以及两个长短期记忆层。

8.根据权利要求1所述的方法，其特征在于，所述获取第一音频的步骤之前还包括：

获取训练样本集，所述训练样本集中包括预设时长的语音信号以及背景噪声信号；

将所述语音信号以及背景噪声信号按照预设信噪比在线性时域上进行叠加，并将叠加后的所述训练样本集输入到机器学习模型，对所述机器学习模型进行训练，得到目标神经网络模型。

9.一种语音降噪的装置，其特征在于，所述装置包括：

第一获取模块，用于获取第一音频，所述第一音频为混合有语音信号以及背景噪声信号的音频；

预处理模块，用于对所述第一音频进行预处理，以将所述第一音频的频谱能量特征由线性时域转换到Bark频域，得到所述第一音频的Bark特征；

第一计算模块，用于将所述Bark特征输入预先训练得到的目标神经网络模型，获取所述目标神经网络模型输出的Bark特征比例参数，所述目标神经网络模型包括至少一个分离门卷积层以及至少一个长短期记忆层，所述Bark特征比例参数表征所述语音信号的频谱幅值特征在所述Bark频域中所占的比例，所述将所述Bark特征输入预先训练得到的目标神经网络模型，获取所述目标神经网络模型输出的Bark特征比例参数的步骤包括：将所述Bark特征输入所述分离门卷积层，再将所述分离门卷积层的输出输入到所述长短期记忆层，输出得到所述Bark特征比例参数；

第二计算模块，用于基于所述Bark特征比例参数，计算所述语音信号的幅值参数；

第二获取模块，用于基于所述幅值参数获取目标语音。

10.一种电子设备，其特征在于，包括存储器；

一个或多个处理器；

一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行权利要求1-8任一所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，其中，在所述程序代码由处理器运行时执行权利要求1-8任一所述的方法。