CN114341979A

CN114341979A - 用于基于卷积神经网络的语音源分离的方法和装置

Info

Publication number: CN114341979A
Application number: CN202080035468.8A
Authority: CN
Inventors: 孙俊岱; 双志伟; 芦烈; 杨少凡; 戴佳
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2019-05-14
Filing date: 2020-05-13
Publication date: 2022-04-12
Also published as: JP7242903B2; WO2020232180A1; JP2022541707A; EP3970141A1; US12073828B2; EP3970141B1; US20220223144A1

Abstract

本文描述了一种基于卷积神经网络(CNN)的语音源分离的方法，该方法包括以下步骤：(a)提供原始带噪语音信号的时频变换的多个帧；(b)将所述多个帧的时频变换输入到具有多个并行卷积路径的聚合多尺度CNN中；(c)通过每个并行卷积路径从输入的所述多个帧的时频变换中提取并输出特征；(d)获得并行卷积路径的输出的聚合输出；和(e)基于聚合输出生成用于从原始带噪语音信号中提取语音的输出掩码。本文还描述了一种用于基于CNN的语音源分离的装置以及相应的计算机程序产品，计算机程序产品包括具有指令的计算机可读存储介质，所述指令在由具有处理能力的设备执行时适于执行所述方法。

Description

用于基于卷积神经网络的语音源分离的方法和装置

相关申请的交叉引用

本申请要求2019年5月14日提交的国际专利申请PCT/CN2019/086769、2019年6月4日提交的美国临时专利申请第62/856,888号、以及2019年7月24日提交的欧洲专利申请第19188010.3号，这些申请中的每一个均通过引用而全文结合于此。

技术领域

本公开总体上涉及一种用于基于卷积神经网络(CNN)的语音源分离的方法和装置，更具体地涉及使用聚合多尺度CNN改进从原始带噪语音信号中提取语音。

虽然文中将特别参考本公开内容描述一些实施例，但是应当理解，本公开内容不限于这样的使用领域并且适用于更广泛的上下文。

背景技术

在整个公开内容中对背景技术的任何讨论都不应被视为承认背景技术是广为人知的或构成本领域公知常识的一部分。

语音源分离旨在从背景干扰中恢复目标语音，在语音和/或音频技术领域有许多应用。在此背景下，语音源分离也通常被称为“鸡尾酒会问题”。在这种情况下，由于复杂的背景，在从专业内容(例如电影和电视)中提取对话时面临挑战。

目前，大多数分离方法仅关注静止背景或噪声。两种传统的单声道语音分离方法是语音增强和计算听觉场景分析(CASA)。

最简单和最广泛使用的增强方法是谱减法[S.F.Boll“Suppression of acousticnoise in speech using spectral subtraction,”IEEE Trans.Acoust.SpeechSig.Process.,vol.27,pp.113-120,1979]，其中所估计噪声的功率谱被从带噪语音的功率谱中减去。背景估计假设背景噪声是稳态的，即它的谱特性不会随时间突然改变，或者至少比语音更平稳。然而，当该方法应用于处理专业内容时，这种假设会引起限制。

CASA通过使用听觉场景分析的感知原理并利用音高和开始等分组线索而工作。例如，串联算法通过交替进行音高估计和基于音高的分组来分离有声语音[G.Hu andD.L.Wang,“A tandem algorithm for pitch estimation and voiced speechsegregation,”IEEE Trans.Audio Speech Lang.Proc.,vol.18,pp.2067-2079,2010].

最近的一种方法将语音分离视为受益于深度学习快速兴起的监督学习问题。监督语音分离的最初构想是受到了CASA中时频(T-F)掩蔽概念的启发。

深度神经网络(DNN)已被证明大大提高了监督语音分离的性能。DNN的类型包括前馈多层感知器(MLP)、卷积神经网络(CNN)、循环神经网络(RNN)和生成式对抗网络(GAN)。其中，CNN是一类前馈网络。

然而，尽管使用DNN进行语音分离，但仍然需要一种鲁棒的分离方法在稳态和非稳态(动态)背景下提取专业内容中的对话/语音。

发明内容

根据本公开的第一方面，提供了一种用于基于卷积神经网络(CNN)的语音源分离的方法。该方法可包括以下步骤：(a)提供原始带噪语音信号的时频变换的多个帧。该方法还可进一步包括步骤(b)将所述多个帧的时频变换输入到具有多个并行卷积路径的聚合多尺度CNN中，其中每个并行卷积路径包括一个或多个卷积层。该方法还可进一步包括步骤(c)通过每个并行卷积路径从输入的所述多个帧的时频变换中提取并输出特征。该方法还可进一步包括步骤(d)获得并行卷积路径的输出的聚合输出。并且该方法还可进一步包括步骤(e)基于聚合输出生成用于从原始带噪语音信号中提取语音的输出掩码(mask)。

在一些实施例中，原始带噪语音信号可以包括高音调、卡通和其他异常语音中的一种或多种。

在一些实施例中，所述多个帧的时频变换可在输入聚合多尺度CNN之前经过二维卷积层，然后是漏型整流线性单元(LeakyRelu)。

在一些实施例中，在步骤(d)中获得聚合输出还可包括将权重应用于并行卷积路径的相应输出。

在一些实施例中，可基于语音和/或音频域知识以及从训练过程中学习到的可训练参数中的一个或多个，将不同的权重应用于并行卷积路径的相应输出。

在一些实施例中，在步骤(d)中获得聚合输出可包括对并行卷积路径的加权输出进行拼接。

在一些实施例中，在步骤(d)中获得聚合输出可包括将并行卷积路径的加权输出相加。

在一些实施例中，在步骤(c)中，可通过每个并行卷积路径提取并输出语音谐波特征。

在一些实施例中，该方法还可包括步骤(f)：对输出掩码进行后处理。

在一些实施例中，所述输出掩码可以是单帧谱幅度掩码，并且对所述输出掩码进行后处理可包括以下步骤中的至少一个：(i)将输出掩码限制于

其中

根据训练数据中目标掩码的统计分析被设置；(ii)如果当前帧的平均掩码小于ε，则将输出掩码设置为0；(iii)如果输入为零，则将输出掩码设置为零；或者(iv)J*K中值滤波。

在一些实施例中，所述输出掩码可以是单帧谱幅度掩码，并且该方法还可包括以下步骤(g)：将所述输出掩码与原始带噪语音信号的幅度谱相乘，进行ISTFT并获得wav信号。

在一些实施例中，在步骤(e)中生成所述输出掩码可包括将级联池化应用到所述聚合输出。

在一些实施例中，所述级联池化可包括执行成对的卷积层和池化处理的一个或多个阶段，其中所述一个或多个阶段之后是最后的卷积层。

在一些实施例中，在级联池化之后可执行扁平化操作。

在一些实施例中，作为所述池化处理，可执行平均池化处理。

在一些实施例中，CNN的多个并行卷积路径中的每个并行卷积路径可包括L个卷积层，其中L为≥1的自然数，其中L个层中的第l层具有N_l个滤波器，其中l＝1…L。

在一些实施例中，对于每个并行卷积路径，第l层中滤波器的数量N_l可由N_l＝l*N₀给出，N₀为≥1的预定常数。

在一些实施例中，在每个并行卷积路径内，滤波器的滤波器大小可相同。

在一些实施例中，在不同的并行卷积路径之间，滤波器的滤波器大小可不同。

在一些实施例中，对于给定的并行卷积路径，在L个卷积层中的每一层中执行卷积运算之前，可对输入进行零填充。

在一些实施例中，对于给定的并行卷积路径，滤波器可具有滤波器大小n*n，或者所述滤波器可具有滤波器大小n*1和1*n。

在一些实施例中，滤波器大小可依赖于谐波长度以进行特征提取。

在一些实施例中，对于给定的并行卷积路径，并行卷积路径的层中的至少一层的滤波器可以是扩张的二维卷积滤波器。

在一些实施例中，并行卷积路径的层中的至少一层的滤波器的扩张操作可仅在频率轴上执行。

在一些实施例中，对于给定的并行卷积路径，并行卷积路径的层中的两个或更多个层的滤波器可以是扩张的二维卷积滤波器，并且扩张的二维卷积滤波器的扩张因子可随着层数l的增加而指数式增加。

在一些实施例中，对于给定的并行卷积路径，L个卷积层中的第一层中的扩张可以为(1，1)，L个卷积层中的第二层中的扩张可以为(1，2)，L个卷积层中的第l层中的扩张可以为(1,2^(l-1))，L个卷积层中的最后一层中的扩张可以为(1,2^(L-1))，其中(c,d)可以表示沿时间轴的扩张因子c和沿频率轴的扩张因子d。

在一些实施例中，对于给定的并行卷积路径，另外，还可在L个卷积层中的每一层中执行非线性运算。

在一些实施例中，非线性运算可以包括参数整流线性单元(PRelu)、整流线性单元(Relu)、漏型整流线性单元(LeakyRelu)、指数线性单元(Elu)和缩放指数线性单元(Selu)中的一种或多种。

在一些实施例中，作为非线性运算，可以执行整流线性单元(Relu)。

根据本公开的第二方面，提供了一种用于基于卷积神经网络(CNN)的语音源分离的装置，其中该装置包括处理器，该处理器被配置为执行用于基于卷积神经网络(CNN)的语音源分离的方法的步骤。

根据本公开的第三方面，提供了一种计算机程序产品，包括具有指令的计算机可读存储介质，所述指令适于在由具有处理能力的设备执行时使所述设备执行用于基于卷积神经网络(CNN)的语音源分离的方法。

附图说明

现在将参考附图仅作为示例描述本公开的示例实施例，其中：

图1图示了用于基于卷积神经网络(CNN)的语音源分离的方法的示例的流程图。

图2图示了用于基于卷积神经网络(CNN)的语音源分离的方法的进一步示例的流程图。

图3图示了用于语音源分离的聚合多尺度卷积神经网络(CNN)的示例。

图4图示了用于基于卷积神经网络(CNN)的语音源分离的处理流程的一部分的示例。

图5图示了级联池化结构的示例。

图6图示了复杂度降低的示例。

具体实施方式

基于聚合多尺度卷积神经网络(CNN)的语音源分离

下面将描述用于基于卷积神经网络(CNN)的语音源分离的方法和装置。这种方法对于从专业内容(例如电影或电视内容)中提取对话特别有价值。基于CNN的语音源分离基于在具有不同感受域的原始带噪信号的谱上进行特征提取。多尺度特性和多帧输入使模型充分利用时间和频率信息。

概述

参考图1的示例，示出了一种用于基于卷积神经网络(CNN)的语音源分离的方法。在步骤101中，提供原始带噪语音信号的时频变换的多个帧(例如，M个帧)。虽然可以使用正常语音作为原始带噪语音信号，但是在一个实施例中，原始带噪语音信号可以包括高音调、卡通和其他异常语音中的一种或多种。异常语音可能包括，例如情绪化的演讲、激动和/或愤怒的声音、卡通中使用的儿童声音。异常语音、高音调语音的特征在于音频的高动态范围和/或音频分量的稀疏谐波。虽然对帧数没有限制，但在一个实施例中，可以提供原始带噪语音信号的时频变换的8个帧。

替代地或附加地，可以使用N点短时傅立叶变换(STFT)来基于原始带噪语音信号的多个帧提供语音的谱幅度。在这种情况下，选择N可以基于采样率和帧的预期时间长度根据下式进行：

N＝时间长度*采样率

两个相邻帧之间可能存在数据重叠或不重叠。通常，较长的N可能会导致更好的频率分辨率，但会增加计算复杂度。在一个实施例中，N可选择为1024，采样率为16kHz。

在步骤102中，将原始带噪语音信号的多帧时频变换输入到具有多个并行卷积路径的聚合多尺度CNN中。每个卷积路径包括一个或多个卷积层，例如一个或多个卷积层的级联。下面将更详细地描述聚合多尺度CNN的结构。

在步骤103中，通过聚合多尺度CNN的每个并行卷积路径从输入的所述多帧时频变换中提取并输出特征。在一个实施例中，可以通过每个并行卷积路径提取和输出语音谐波特征。替代地或附加地，可以提取不同感受域中的谐波特征的相关性。

在步骤104中，获得并行卷积路径的输出的聚合输出。在一个实施例中，获得聚合输出还可以包括将权重应用于并行卷积路径的相应输出。在一个实施例中，不同的权重可以基于语音和/或音频域知识中的一个或多个被应用，或者可以是可以从训练过程中学习的可训练参数，如下文进一步详述的。

在步骤105中，基于聚合输出生成用于从原始带噪语音信号中提取语音的输出掩码。

参考图2的例子，在一个实施例中，用于基于卷积神经网络(CNN)的语音源分离的方法还可以包括对输出掩码进行后处理的步骤106。在一个实施例中，输出掩码可以是单帧谱幅度掩码。单帧谱幅度掩码可以定义如下：

其中S(t,f)代表干净语音的谱幅度，Y(t,f)代表带噪语音的谱幅度。在步骤106中对输出掩码进行后处理可以包括以下步骤中的至少一个：(i)将输出掩码限制于

其中

是从网络估计的软掩码的上限，其是根据训练数据中目标掩码的统计分析被设置的；软掩码代表每个时频块中语音所占的部分是多少，通常介于0和1之间。但是，在发生相位抵消的某些情况下，软掩码(即

)可以大于1。为了避免CNN产生不合适的掩码，软掩码被限制于最大值

因此，

可以等于1或大于1，例如等于2，或者，例如等于在1到2之间的任何其他中间实数；(ii)如果当前帧的平均掩码小于ε，则将输出掩码设置为0；(iii)如果输入为零，则将输出掩码设置为零；或(iv)J*K中值滤波。J*K中值滤波器是大小为J*K的滤波器，其中J是频率维度的范围，K是时间维度的范围。使用中值滤波器，目标软掩码被掩码的中值替换，例如在它的J*K个周围邻居中。中值滤波器用于平滑化以避免频率和时间维度上的突然变化。在一个实施例中，J＝K＝3。在其他实施例中，J*K可以等于3*5、或7*3、或5*5。但是，J*K可以等于适合CNN特定实现的任何其他滤波器大小。后处理的步骤(i)确保分离结果不会导致音频裁剪。后处理的步骤(ii)能够去除残余噪声，用作声音激活检测。后处理的步骤(iii)能够避免在应用步骤(iv)中的中值滤波时涉及到边缘效应。后处理的步骤(iv)能够平滑化输出掩码并消除可听伪影。通过进行后处理，可以提高分离结果的感知质量。

在步骤107中，在一个实施例中，输出掩码可以是单帧谱幅度掩码，该方法还可以包括将输出掩码与原始带噪语音信号的幅度谱相乘，进行逆短时傅立叶变换(ISTFT)，并获得wav信号。

上述的用于基于卷积神经网络(CNN)的语音源分离的方法可以在包括被配置为执行所述方法的处理器的相应装置上实现。替代地或附加地，上述的用于基于卷积神经网络(CNN)的语音源分离的方法可以被实现为包括计算机可读存储介质的计算机程序产品，该计算机可读存储介质具有适于使设备执行所述方法的指令。

聚合多尺度卷积神经网络结构

参考图3的示例，示出了用于语音源分离的聚合多尺度卷积神经网络(CNN)。在所描述的方法中，使用纯卷积网络进行特征提取。聚合多尺度CNN包括多个并行卷积路径。虽然并行卷积路径的数量不受限制，但聚合多尺度CNN可能包括三个并行卷积路径。利用这些并行卷积路径，在不同尺度上提取原始带噪语音信号的多个帧的时频变换的不同的(例如局部和总体)特征信息是可能的。

参考图3中的示例，在步骤201中，可以将原始带噪语音信号的多个帧(例如，M个帧)的时频变换输入到具有多个并行卷积路径的聚合多尺度CNN中，在图3的示例中，示出了三个并行卷积路径。N点短时傅立叶变换(STFT)可用于该多个帧(例如，M个帧)。因此，CNN的输入可能对应于M*(N/2+1)的维度。N可以是1024。

参考图4的例子，在一个实施例中，在输入到聚合多尺度CNN之前，在步骤201中，原始带噪语音信号的多个帧的时频变换可在步骤201a中经受二维卷积层，然后是在步骤201b中经受漏型整流线性单元(LeakyRelu)。二维卷积层可具有N个滤波器(也称为N_filters)，其中N是>1的自然数。该层的滤波器大小可以是(1,1)。此外，该层可能没有扩张。

如图3的例子所示，在步骤201中将多个帧的时频变换(并行)输入到多个并行卷积路径中。在一个实施例中，CNN的多个并行卷积路径中的每条并行卷积路径可以包括L个卷积层301、302、303、401、402、403、501、502、503，其中L为>1的自然数，其中L个层中的第l层有Nl个滤波器，其中l＝1...L。虽然每个并行卷积路径中的层数L没有被限制，但是每个并行卷积路径可以包括例如L＝5层。在一个实施例中，对于每个并行卷积路径，第l层中滤波器的数量Nl可以由Nl＝l*N0给出，其中N0是>1的预定常数。

在一个实施例中，在每个并行卷积路径内，滤波器的滤波器大小可以相同(即，统一的)。例如，可以在多个并行卷积路径中的并行卷积路径301-303内的每一层L中使用(3，3)(即3*3)的滤波器大小。通过在每个并行卷积路径中使用相同的滤波器大小，可以避免不同尺度特征的混合。这样，CNN在每条路径上学习了相同尺度特征提取，这样大大提高了CNN的收敛速度。

在一个实施例中，在不同的并行卷积路径301-303、401-403、501-503之间，滤波器的滤波器大小可以不同。例如，但不作为限制，如果聚合多尺度CNN包括三个并行卷积路径，则第一并行卷积路径301-303中滤波器大小可以是(3,3)，第二并行卷积路径中401-403滤波器大小可以是(5,5)，并且第三并行卷积路径501-503中滤波器大小可以是(7,7)。然而，其他滤波器大小也是可行的，其中也可以在每一并行卷积路径内使用相同的滤波器大小，并且可以在不同的并行卷积路径之间使用不同的滤波器大小。不同并行卷积路径的滤波器的不同滤波器大小代表了CNN的不同尺度。换句话说，通过使用多个滤波器大小，多尺度处理是可能的。例如，当滤波器的大小较小(例如3*3)时，围绕目标频率-时间片处理小范围的信息，而当滤波器的大小较大(例如7*7)时，处理大范围的信息。处理小范围的信息相当于提取所谓的“局部”特征。处理大范围的信息相当于提取所谓的“总体”特征。发明人已经发现，由不同滤波器大小提取的特征具有不同的特性。使用大的滤波器大小旨在保留更多语音谐波但也保留更多噪声，而使用较小的滤波器大小保留更多语音的关键成分并且更积极地去除噪声。

在一个实施例中，滤波器大小可以依赖于谐波长度以进行特征提取。

在一个实施例中，对于给定的卷积路径，在L个卷积层中的每一层中执行卷积操作之前，可以对每一层的输入进行零填充。通过这种方式，从输入到输出可以保持相同数据形状。

在一个实施例中，对于给定的并行卷积路径，还可以在L个卷积层中的每一层中进行非线性运算。虽然非线性运算不受限制，但在一个实施例中，非线性运算可包括参数整流线性单元(PRelu)、整流线性单元(Relu)、漏型整流线性单元(LeakyRelu)、指数线性单元(Elu)和缩放指数线性单元(Selu)中的一个或多个。在一个实施例中，作为非线性运算，可以执行整流线性单元(Relu)。非线性运算可以用作L个卷积层中的每一层中的激活。

在一个实施例中，对于给定的并行卷积路径，并行卷积路径的层中的至少一层的滤波器可以是扩张的二维卷积滤波器。使用扩张滤波器使得能够提取不同感受域中谐波特征的相关性。扩张(dilation)使得能够通过跳跃(即跳过、跃过)一系列时频(TF)区段来达到远的感受域。在一个实施例中，并行卷积路径的层中的至少一层的滤波器的扩张操作可以仅在频率轴上执行。例如，在本公开的上下文中，扩张(1，2)可以指示沿时间轴没有扩张(扩张因子1)，而频率轴上每隔一个区段跳过(扩张因子2)。一般而言，扩张(1，d)可指示沿频率轴在由相应滤波器用于特征提取的区段之间跳过(d-1)个区段。

在一个实施例中，对于给定的卷积路径，并行卷积路径的层中的两个或更多个层的滤波器可以是扩张的二维卷积滤波器，其中扩张的二维卷积滤波器的扩张因子随着层数l的增加而指数式增加。这样，可以实现随深度的指数式感受域增长。如图3的示例中所示，在一个实施例中，对于给定的并行卷积路径，L个卷积层中的第一层中的扩张可以是(1，1)，L个卷积层中的第二层中的扩张可以是(1，2)L个卷积层中的第l层中的扩张可能是(1,2^(l-1))，L个卷积层中的最后一层中的扩张可能是(1,2^(L-1))，其中(c,d)表示沿时间轴的扩张因子c和沿频率轴的扩张因子d。

可以训练聚合多尺度CNN。聚合多尺度CNN的训练可能涉及以下步骤：

(i)计算原始带噪语音和目标语音的帧FFT系数；

(ii)通过忽略相位，得到带噪语音和目标语音的幅度；

(iii)通过如下地计算带噪语音与目标语音的幅度之差，得到目标输出掩码：

目标掩码＝||Y(t,f)||/||X(t,f)||

其中Y(t,f)和X(t,f)表示目标语音和带噪语音的谱幅度；

(iv)根据统计直方图将目标掩码限制在小范围内；

由于目标语音和干扰之间的负相关性，初始目标掩码的取值范围可能非常大。根据统计结果，位于[0,2]中的掩码可能占约90％，位于[0,4]中的掩码可能占98％左右。根据训练结果，掩码可能会被限制于[0,2]或[0,4]。统计结果可能与语音和背景类型、掩码限制有关，但是对于训练CNN可能是重要的。

(v)使用带噪语音的多个帧频幅度作为输入；

(vi)使用步骤(iii)的相应目标掩码作为输出。

为了训练聚合多尺度CNN，可以覆盖高音调、卡通和异常语音以增加鲁棒性。

路径加权和聚合

参考图3的例子，从步骤303、403、503，输出在聚合多尺度CNN的每个并行卷积路径中从在步骤201中输入的原始带噪语音信号的多个帧的时频变换中提取的特征。然后在步骤202聚合来自每个并行卷积路径的输出以获得聚合输出。

在一个实施例中，获得聚合输出的步骤可以包括将权重304(W1)、404(W2)、504(W3)应用于并行卷积路径的相应输出303、403、503。在一个实施例中，基于语音和/或音频域知识和从训练过程中学习到的可训练参数中的一个或多个，可以将不同的权重304(W1)、404(W2)、504(W3)应用于并行卷积路径的相应输出。可训练参数可以在聚合多尺度CNN的训练过程中获得，其中可训练参数可以是权重本身，可以与其他参数一起从整个训练过程中直接学习。

一般来说，CNN的较大滤波器大小可能保留更多的语音成分，同时涉及更多的噪声，而较小的滤波器大小可能只保留语音的一些关键成分，同时去除更多的噪声。例如，如果为具有较大滤波器大小的路径选择较大的权重，则模型可能相对更保守，并且以更多的残留噪声为代价具有相对更好的语音保存。另一方面，如果为具有较小滤波器大小的路径选择较大的权重，则模型可能会更积极地去除噪声，也可能会丢失一些语音分量。因此，将权重应用于并行卷积路径的输出可以用于控制CNN的积极性，例如通过在上述示例中在语音保留和噪声去除之间实现优选权衡。

在一个实施例中，在步骤202中获得聚合输出可以包括对并行卷积路径的加权输出进行拼接。如果聚合多尺度CNN的输入是，例如，M*(N/2+1)，那么在拼接的情况下输出的维度可能是3*(n_filters*n)*M*(N/2+1)。

在一个实施例中，在步骤202中获得聚合输出可以包括将并行卷积路径的加权输出相加。如果聚合多尺度CNN的输入是，例如，M*(N/2+1)，那么在相加的情况下输出的维度可能是(n_filters*n)*M*(N/2+1)。应指出，在本公开中，例如，对于CNN的并行卷积路径的L个卷积层的滤波器，滤波器数量可以表示为N_filters*n，表示为N₀_filters*{l}，或表示为N₀*l＝N_l，而对于其他卷积层，滤波器数量可以表示为N个滤波器或N_filters。

级联池化

由于原始带噪语音信号的时频变换的多个帧输入到聚合多尺度CNN中，因此CNN的特征提取也在多个帧上进行。参考图5的示例，示出了级联池结构。在一个实施例中，生成输出掩码包括在步骤601中对聚合输出应用级联池化。通过应用级联池化，多帧特征可被用于通过发现最有效的特征来预测单帧输出掩码。在一个实施例中，级联池化可以包括执行成对的卷积层602、604、606和池化处理603、605、607的一个或多个阶段，其中一个或多个阶段之后是最后的卷积层，608。池化处理可能仅在时间轴上进行。在一个实施例中，可以执行平均池化处理作为池化处理。在卷积层602、604、606中，可以减少滤波器数量。而第一卷积层602中的滤波器数量没有被限制，例如可以是N_filters*4或N_filters*2，滤波器数量可以逐渐减少，否则，性能会下降。此外，在最后的卷积层608中，滤波器数量必须为1。在图5的示例中，不作为限制，滤波器数量从第一卷积层602中的N_filters*4，到第二卷积层604中的N_filters*2，到第三卷积层606中的N_filters，到最后的卷积层608中的滤波器数量为1。滤波器大小可以依赖于多个帧的数量M。替代地或附加地，每个卷积层的滤波器大小可以依赖于前一池化层的输出帧大小。如果前一池化层的输出帧大小大于时间轴上的滤波器大小，则在各个卷积层中滤波器大小可能相同，例如(3,1)。如果前一池化层的输出帧大小小于前一卷积层的时间轴上的滤波器大小，假设前一池化层有M'帧输出，例如M'<3，则当前卷积层的滤波器大小可以是(M'，1)。在图5的例子中，在第一卷积层602中，使用滤波器大小(3,1)，在第二卷积层604中，使用滤波器大小(3,1)，在第三卷积层中，606中，使用滤波器大小(2,1)，而在最后的卷积层608中，使用滤波器大小(1,1)。可以在每个卷积层中执行非线性运算。在图5的示例中，在卷积层602、604和606中执行整流线性单元(Relu)，并在最后的卷积层608中执行漏型整流线性单元(Leaky Relu)。在一个实施例中，可以在级联池化之后执行平坦化操作609。

复杂度降低

参考图6的示例，在一个实施例中，对于给定的并行卷积路径，滤波器可以具有滤波器大小n*n、701，或者滤波器可以具有n*1、701a和滤波器大小1*n，701b。滤波器可以在频率-时间维度中应用，因此滤波器大小n*n可以表示频率轴中的滤波器长度为n、时间轴中的滤波器长度为n的滤波器。类似地，滤波器大小n*1可以表示频率轴中的滤波器长度为n、时间轴中的滤波器长度为1的滤波器，而滤波器大小1*n可以表示频率轴中的滤波器长度为1、时间轴中的滤波器长度为n的滤波器。滤波器大小n*n可以由大小为n*1的滤波器和大小为1*n的滤波器的拼接代替。因此可以如下实现复杂度降低。例如，对于n*n滤波器，有n*n个参数。如果假设L层中的一个层中有64个此类滤波器，则参数数量将为64*n*n。通过分别用大小为n*1和1*n的两个滤波器的拼接替换滤波器大小n*n，参数将仅为64*n*1*2，从而降低模型的复杂度。

解释

除非另有特别说明，如从以下讨论中显而易见的，应理解，在整个说明书中，利用诸如“处理”、“计算”、“算计”、“确定”等之类的术语的讨论来指代计算机或计算系统或类似电子计算设备的如下动作和/或过程，其将表示为物理量(例如，电子量)的数据处理和/或变换为类似表示为物理量的其他数据。

以类似的方式，术语“处理器”可以指任何设备或设备的一部分，其处理例如来自寄存器和/或存储器的电子数据以将该电子数据变换成例如可以存储在寄存器和/或存储器中的其他电子数据。“计算机”或“计算机器”或“计算平台”可包括一个或多个处理器。

在一个示例实施例中，本文所述的方法可由接受计算机可读(也被称为机器可读)代码的一个或多个数字处理器执行，该代码包含指令集，该指令集在由一个或多个处理器执行时执行本文所述的方法中的至少一种。可以包括能够执行指定要采取的动作的指令集(顺序的或其他方式)的任何处理器。因此，一个示例是包括一个或多个处理器的典型处理系统。每个处理器可以包括CPU、图形处理单元和可编程DSP单元中的一个或多个。处理系统还可以包括存储器子系统，该存储器子系统包括主RAM和/或静态RAM和/或ROM。可以包括总线子系统用于组件之间的通信。处理系统还可以是具有通过网络耦合的处理器的分布式处理系统。如果处理系统需要显示器，则可以包括例如液晶显示器(LCD)或阴极射线管(CRT)显示器这样的显示器。如果需要手动输入数据，则处理系统还包括输入设备，例如，诸如键盘等的字母数字输入单元、诸如鼠标等的定点控制设备等中的一个或多个。处理系统还可以包括诸如盘驱动单元的存储系统。一些配置中的处理系统可以包括声音输出设备和网络接口设备。因此，存储器子系统包括承载计算机可读代码(例如，软件)的计算机可读载体介质，所述计算机可读代码包括指令集以在由一个或多个处理器执行时导致执行本文中描述的方法中的一个或多个。应指出，当该方法包括若干元素时，例如，若干步骤，除非特别说明，否则不暗示这些元素的排序。软件可以驻留在硬盘中，或者也可以在由计算机系统执行期间完全或至少部分地驻留在RAM和/或处理器中。因此，存储器和处理器也构成承载计算机可读代码的计算机可读载体介质。此外，计算机可读载体介质可以形成或被包括在计算机程序产品中。

在替代示例实施例中，一个或多个处理器作为独立设备运行，或者在联网部署中可以连接到例如联网到其他处理器，一个或多个处理器可以在服务器-用户网络环境中作为服务器或用户机器操作，或在对等或分布式网络环境中作为对等机器操作。一个或多个处理器可以形成个人计算机(PC)、平板电脑、个人数字助理(PDA)、蜂窝电话、网络设备、网络路由器、交换机或桥接器，或能够执行指定该机器要采取的操作的指令集(顺序的或以其他方式)的任何机器。

应指出，术语“机器”还应被视为包括单独或联合执行一个(或多个)指令集以执行本文讨论的方法中的任何一个或多个的机器的任何集合。

因此，本文描述的每个方法的一个示例实施例是机器可读载体介质的形式，该机器可读载体介质承载用于在一个或多个处理器上执行的指令集，例如计算机程序，该一个或多个处理器例如是作为网络服务器布置的一部分的一个或多个处理器。因此，如本领域技术人员将理解的，例如本公开的示例实施例可以体现为方法、诸如专用装置的装置、诸如数据处理系统的装置、或计算机可读载体介质，例如计算机程序产品。计算机可读载体介质承载包括指令集的计算机可读代码，当在一个或多个处理器上执行时，这些指令使一个或多个处理器实现一种方法。因此，本公开的各方面可以采取方法、完全硬件示例实施例、完全软件示例实施例、或结合软件和硬件方面的示例实施例的形式。此外，本公开可以采用承载体现在介质中的计算机可读程序代码的载体介质(例如，计算机可读载体介质上的计算机程序产品)的形式。

还可以经由网络接口设备在网络上发送或接收软件。虽然载体介质在示例实施例中是单个介质，但术语“载体介质”应该被认为包括存储一个或多个指令集的单个介质或多个介质(例如，集中式或分布式数据库，和/或相关联的高速缓存和服务器)。术语“载体介质”还应理解为包括能够存储、编码或承载用于由一个或多个处理器执行的指令集并且使一个或多个处理器执行根据本公开的方法中的任何一个或多个的任何介质。载体介质可以采用多种形式，包括但不限于非易失性介质、易失性介质、和传输介质。非易失性介质包括例如光盘、磁盘和磁光盘。易失性介质包括动态存储器，例如主存储器。传输介质包括同轴电缆、铜线和光纤，包括包含总线子系统的线路。传输介质也可以采用声波或光波的形式，例如在无线电波和红外数据通信期间产生的那些声波或光波。例如，术语“载体介质”应相应地包括但不限于固态存储器、包含在光和磁介质中的计算机产品；承载可被至少一个处理器或一个或多个处理器检测的传播信号并表示在被执行时实现方法的指令集的介质；网络中承载可被一个或多个处理器中的至少一个处理器检测并表示指令集的传播信号的传输介质。

应当理解，在一个示例实施例中，所讨论的方法的步骤由执行存储在存储器中的指令(计算机可读代码)的处理(例如，计算机)系统的一个(或多个)合适的处理器来执行。还将理解，本公开不限于任何特定实现或编程技术，并且可以使用用于实现本文所述功能的任何适当技术来实现本公开。本公开不限于任何特定的编程语言或操作系统。

在整个说明书中对“一个示例实施例”、“一些示例实施例”或“示例实施例”的引用指的是结合该示例实施例描述的特定特征、结构或特性被包括在本公开的至少一个示例实施例中。因此，在整个说明书中各处出现的短语“一个示例实施例”、“一些示例实施例”或“示例实施例”不一定全部指的是同一示例实施例。此外，在一个或多个示例实施例中，特定特征、结构或特性可以以任何合适的方式组合，这对于本领域的普通技术人员而言从本公开将是显而易见的。

如本文所用，除非另有说明，使用序数形容词“第一”、“第二”、“第三”等描述共同的对象仅表明所指的是相似对象的不同实例，而不是意在暗示如此描述的对象必须在时间上、空间上、排名上或以任何其他方式处于给定的序列中。

在下面的权利要求和本文的描述中，术语包括、由...组成或其包括中的任何一个术语是开放术语，意思是至少包含在后的元素/特征，但不排除其他元素/特征。因此，当在权利要求中使用时，术语包括不应被解释为局限于其后列出的手段或元件或步骤。例如，设备包括A和B这一表述的范围不应限于设备仅由元件A和B组成。本文所用的术语包含或其包含在内的任何一个也是开放术语，其也意味着至少包含该术语之后的元素/特征，但不排除其他元素/特征。因此，包含与包括是同义词，并且指的是包括。

应当理解，在本发明的示例性实施例的以上描述中，为了简化公开并帮助理解各种创造性方面中的一个或多个，各种特征有时被集合到单个实施例、附图或其描述中。然而，这种公开方法不应被解释为反映权利要求需要比其中明确记载的特征更多的特征的意图。相反，如以下权利要求所反映的，创造性方面在于少于单个前述公开的实施例的所有特征。因此，具体实施方式之后的权利要求特此明确并入该具体实施方式中，每个权利要求独立作为本发明的单独示例实施例。

此外，虽然本文描述的一些示例实施例包括在其他示例实施例中包括的一些而非其他特征，但是如本领域技术人员将理解的，不同示例实施例的特征的组合预期在本公开的范围中并且形成不同的实施例。例如，在以下权利要求中，任何要求保护的示例实施例可被以任何组合使用。

在此处提供的描述中，阐述了许多具体细节。然而，应当理解，可以在没有这些具体细节的情况下实践本发明的实施例。在其他情况下，为了不混淆对本描述的理解，没有详细示出公知的方法、结构和技术。

因此，尽管已经描述了被认为是本发明的最佳模式，但是本领域技术人员将认识到，在不脱离本发明的精神的情况下，可以对其进行其他和进一步的修改，并且旨在要求保护所有这些改变和修改都落入本发明的范围内。例如，以上给出的任何公式仅代表可以使用的过程。可以向框图添加或从框图删除功能，并且可以在功能块之间互换操作。可以向本发明范围内描述的方法添加步骤或从方法删除步骤。

可从以下列举的示例实施例(EEE)中理解本发明的各个方面：

EEE1.一种用于基于卷积神经网络(CNN)的语音源分离的方法，其中该方法包括以下步骤：

(a)提供原始带噪语音信号的时频变换的多个帧；

(b)将所述多个帧的时频变换输入到具有多个并行卷积路径的聚合多尺度CNN中；

(c)通过每个并行卷积路径从输入的所述多个帧的时频变换中提取并输出特征；

(d)获得并行卷积路径的输出的聚合输出；和

(e)基于聚合输出生成用于从原始带噪语音信号中提取语音的输出掩码。

EEE 2.根据EEE 1所述的方法，其中原始带噪语音信号包括高音调、卡通和其他异常语音中的一种或多种。

EEE 3.根据EEE 1或EEE2所述的方法，其中，所述多个帧的时频变换在输入聚合多尺度CNN之前经过二维卷积层，然后是漏型整流线性单元(LeakyRelu)。

EEE 4.根据EEE 1-3中任一项所述的方法，其中在步骤(d)中获得聚合输出还包括将权重应用于并行卷积路径的相应输出。

EEE 5.根据EEE 4所述的方法，其中，基于语音和/或音频域知识以及从训练过程中学习到的可训练参数中的一个或多个，将不同的权重应用于并行卷积路径的相应输出。

EEE 6.根据EEE 4或EEE 5所述的方法，其中在步骤(d)中获得聚合输出包括对并行卷积路径的加权输出进行拼接。

EEE 7.根据EEE 4或EEE 5所述的方法，其中在步骤(d)中获得聚合输出包括将并行卷积路径的加权输出相加。

EEE 8.根据EEE 1-7中任一项所述的方法，其中，在步骤(c)中，通过每个并行卷积路径提取并输出语音谐波特征。

EEE 9.根据EEE 1-8中任一项的方法，其中该方法还包括步骤(f)：对输出掩码进行后处理。

EEE 10.根据EEE 9所述的方法，其中，输出掩码是单帧谱幅度掩码，并且其中对输出掩码进行后处理包括以下步骤中的至少一个：

(i)将输出掩码限制于

其中

根据训练数据中目标掩码的统计分析被设置；

(ii)如果当前帧的平均掩码小于ε，则将输出掩码设置为0；

(iii)如果输入为零，则将输出掩码设置为零；或者

(iv)J*K中值滤波。

EEE 11.根据EEE 1-10中任一项所述的方法，其中，所述输出掩码是单帧谱幅度掩码，并且该方法还包括以下步骤(g)：将所述输出掩码与原始带噪语音信号的幅度谱相乘，进行ISTFT并获得wav信号。

EEE 12.根据EEE 1-11中任一项所述的方法，其中在步骤(e)中生成输出掩码包括将级联池化应用到所述聚合输出。

EEE 13.根据EEE 12所述的方法，其中所述级联池化包括执行成对的卷积层和池化处理的一个或多个阶段，其中所述一个或多个阶段之后是最后的卷积层。

EEE 14.根据EEE 12或EEE 13所述的方法，其中在级联池化之后执行扁平化操作。

EEE 15.根据EEE 12至14中任一项所述的方法，其中，作为所述池化处理，执行平均池化处理。

EEE 16.根据EEE 1至15中任一项所述的方法，其中，CNN的多个并行卷积路径中的每个并行卷积路径包括L个卷积层，其中L为≥1的自然数，其中所述L个层中的第l层具有Nl个滤波器，其中l＝1…L。

EEE 17.根据EEE 16所述的方法，其中对于每个并行卷积路径，第l层中滤波器的数量N_l由N_l＝l*N₀给出，N₀为≥1的预定常数。

EEE 18.根据EEE 16或EEE 17所述的方法，其中，在每一并行卷积路径内，滤波器的滤波器大小相同。

EEE 19.根据EEE 18所述的方法，其中，在不同的并行卷积路径之间，滤波器的滤波器大小不同。

EEE 20.根据EEE 19所述的方法，其中，对于给定的并行卷积路径，滤波器具有n*n的滤波器大小，或者所述滤波器具有n*1和1*n的滤波器大小。

EEE 21.根据EEE 19或EEE 20所述的方法，其中滤波器大小依赖于谐波长度以进行特征提取。

EEE 22.根据EEE 16-21中任一项所述的方法，其中，对于给定的并行卷积路径，在L个卷积层中的每一层中执行卷积运算之前，对输入进行零填充。

EEE 23.根据EEE 16-22中任一项所述的方法，其中，对于给定的并行卷积路径，所述并行卷积路径的层中的至少一层的滤波器是扩张的二维卷积滤波器。

EEE 24.根据EEE 23所述的方法，其中，并行卷积路径的层中的至少一层的滤波器的扩张操作仅在频率轴上执行。

EEE 25.根据EEE 23或EEE 24所述的方法，其中，对于给定的并行卷积路径，并行卷积路径的层中的两个或更多个层的滤波器是扩张的二维卷积滤波器，并且其中扩张的二维卷积滤波器的扩张因子随着层数l的增加而指数式增加。

EEE 26.根据EEE 25所述的方法，其中，对于给定的并行卷积路径，L个卷积层中的第一层中的扩张为(1，1)，L个卷积层中的第二层中的扩张为(1，2)，L个卷积层中的第l层中的扩张为(1,2^(l-1))，L个卷积层中的最后一层中的扩张为(1,2^(L-1))，其中(c,d)表示沿时间轴的扩张因子c和沿频率轴的扩张因子d。

EEE 27.根据EEE 16-26中任一项所述的方法，其中，对于给定的并行卷积路径，另外，在L个卷积层的每一层中执行非线性运算。

EEE 28.根据EEE 27所述的方法，其中所述非线性运算包括参数整流线性单元(PRelu)、整流线性单元(Relu)、漏型整流线性单元(LeakyRelu)、指数线性单元(Elu)和缩放指数线性单元(Selu)中的一种或多种。

EEE 29.根据EEE 28所述的方法，其中作为所述非线性运算，执行整流线性单元(Relu)。

EEE 30.一种用于基于卷积神经网络(CNN)的语音源分离的装置，其中该装置包括处理器，该处理器被配置为执行根据EEE 1至29中任一项的方法的步骤。

EEE 31.一种计算机程序产品，包括具有指令的计算机可读存储介质，所述指令适于在由具有处理能力的设备执行时使所述设备执行根据EEE 1-29中任一项所述的方法。

Claims

1.一种用于基于卷积神经网络(CNN)的语音源分离的方法，该方法包括以下步骤：

(a)提供原始带噪语音信号的时频变换的多个帧；

(b)将所述多个帧的时频变换输入到具有多个并行卷积路径的聚合多尺度CNN中，每个并行卷积路径包括一个或多个卷积层；

(d)获得并行卷积路径的输出的聚合输出；和

2.根据权利要求1所述的方法，其中，所述多个帧的时频变换在输入聚合多尺度CNN之前经过2D卷积层，然后是漏型整流线性单元(LeakyRelu)。

3.根据权利要求1-2中任一项所述的方法，其中在步骤(d)中获得聚合输出还包括将权重应用于并行卷积路径的相应输出。

4.根据权利要求3所述的方法，其中，基于语音和/或音频域知识以及从训练过程中学习到的可训练参数中的一个或多个，将不同的权重应用于并行卷积路径的相应输出。

5.根据权利要求3或权利要求4所述的方法，其中在步骤(d)中获得聚合输出包括对并行卷积路径的加权输出进行拼接。

6.根据权利要求3或权利要求4所述的方法，其中在步骤(d)中获得聚合输出包括将并行卷积路径的加权输出相加。

7.根据权利要求1-6中任一项所述的方法，其中，在步骤(c)中，通过每个并行卷积路径提取并输出语音谐波特征。

8.根据权利要求1-7中任一项的方法，其中该方法还包括步骤(f)：对输出掩码进行后处理。

9.根据权利要求8所述的方法，其中，所述输出掩码是单帧谱幅度掩码，并且其中对所述输出掩码进行后处理包括以下步骤中的至少一个：

(i)将输出掩码限制于

其中

根据训练数据中目标掩码的统计分析设置；

(ii)如果当前帧的平均掩码小于ε，则将输出掩码设置为0；

(iii)如果输入为零，则将输出掩码设置为零；或者

(iv)大小为J*K的中值滤波，其中J为代表频率维度大小的整数，K为代表时间维度大小的整数。

10.根据权利要求1-9中任一项所述的方法，其中，所述输出掩码是单帧谱幅度掩码，并且该方法还包括以下步骤(g)：将所述输出掩码与原始带噪语音信号的幅度谱相乘，进行ISTFT并获得wav信号。

11.根据权利要求1-10中任一项所述的方法，其中在步骤(e)中生成所述输出掩码包括将级联池化应用到所述聚合输出。

12.根据权利要求11所述的方法，其中所述级联池化包括执行成对的卷积层和池化处理的一个或多个阶段，其中所述一个或多个阶段之后是最后的卷积层。

13.根据权利要求11或权利要求12所述的方法，其中在级联池化之后执行扁平化操作。

14.根据权利要求11至13中任一项所述的方法，其中，作为所述池化处理，执行平均池化处理。

15.根据权利要求1至14中任一项所述的方法，其中，所述CNN的多个并行卷积路径中的每个并行卷积路径包括L个卷积层，其中L为≥1的自然数，其中所述L个层中的第l层具有N_l个滤波器，其中l＝1…L。

16.根据权利要求15所述的方法，其中对于每个并行卷积路径，第l层中滤波器的数量N_l由N_l＝l*N₀给出，N₀为≥1的预定常数。

17.根据权利要求15或16所述的方法，其中，在每一并行卷积路径内，滤波器的滤波器大小相同。

18.根据权利要求17所述的方法，其中，在不同的并行卷积路径之间，滤波器的滤波器大小不同。

19.根据18所述的方法，其中，对于给定的并行卷积路径，滤波器具有n*n的滤波器大小，或者所述滤波器具有n*1和1*n的滤波器大小。

20.根据权利要求18或19所述的方法，其中滤波器大小依赖于谐波长度以进行特征提取。

21.根据权利要求15-20中任一项所述的方法，其中，对于给定的并行卷积路径，在L个卷积层中的每一层中执行卷积运算之前，对输入进行零填充。

22.根据权利要求15-21中任一项所述的方法，其中，对于给定的并行卷积路径，所述并行卷积路径的层中的至少一层的滤波器是扩张的二维卷积滤波器。

23.根据权利要求22所述的方法，其中，并行卷积路径的层中的至少一层的滤波器的扩张操作仅在频率轴上执行。

24.根据权利要求22或23所述的方法，其中，对于给定的并行卷积路径，并行卷积路径的层中的两个或更多个层的滤波器是扩张的二维卷积滤波器，并且其中扩张的2D卷积滤波器的扩张因子随着层数l的增加而指数式增加。

25.根据权利要求24所述的方法，其中，对于给定的并行卷积路径，L个卷积层中的第一层中的扩张为(1，1)，L个卷积层中的第二层中的扩张为(1，2)，L个卷积层中的第l层中的扩张为(1,2^(l-1))，L个卷积层中的最后一层中的扩张为(1,2^(L-1))，其中(c,d)表示沿时间轴的扩张因子c和沿频率轴的扩张因子d。

26.根据权利要求15-25中任一项所述的方法，其中，对于给定的并行卷积路径，另外，在L个卷积层的每一层中执行非线性运算。

27.根据权利要求26所述的方法，其中所述非线性运算包括参数整流线性单元(PRelu)、整流线性单元(Relu)、漏型整流线性单元(LeakyRelu)、指数线性单元(Elu)和缩放指数线性单元(Selu)中的一种或多种。

28.根据权利要求27所述的方法，其中作为所述非线性运算执行整流线性单元(Relu)。

29.一种用于基于卷积神经网络(CNN)的语音源分离的装置，其中该装置包括处理器，该处理器被配置为执行根据权利要求1至28中任一项的方法的步骤。

30.一种计算机程序产品，包括具有指令的计算机可读存储介质，所述指令适于在由具有处理能力的设备执行时使所述设备执行根据权利要求1-29中任一项所述的方法。