CN114333888A

CN114333888A - 基于白噪声增益控制的多波束联合降噪方法及装置

Info

Publication number: CN114333888A
Application number: CN202111666084.9A
Authority: CN
Inventors: 项京朋; 邱峰海
Original assignee: Beijing Sound+ Technology Co ltd
Current assignee: Beijing Sound+ Technology Co ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-04-12
Anticipated expiration: 2041-12-30
Also published as: CN114333888B

Abstract

本申请提供了一种基于白噪声增益控制的多波束联合降噪方法及装置。该方法包括：使用多个不同白噪声增益下限的指向性波束形成器对耳机传声器阵列采集的语音信号进行初步降噪，获得多个不同白噪声增益下限的指向性波束输出信号；使用零陷滤波器获得语音信号对应的零陷波束输出信号；使用基于机器学习的语音增强模型对上述波束输出信号进行后滤波。该方法综合多个不同白噪声增益下限的指向性波束形成器的优点，可以在提取目标语音的同时提高对其他方向噪声的抑制效果。

Description

基于白噪声增益控制的多波束联合降噪方法及装置

技术领域

本申请涉及语音降噪技术领域，尤其涉及一种基于白噪声增益控制的多波束联合降噪方法及装置。

背景技术

耳机已经成为日常娱乐及语音通信中常见的电子产品。在实际应用中，耳机的传声器往往会拾取各种各样的声音，除了佩戴者的人声外，还包括其他噪声，例如地铁噪声、马路噪声、其他说话人噪声等。这些噪声往往具有随机性、非平稳性等特点，不仅会影响通话质量，而且会影响语音唤醒、语音识别等语音助手应用的性能。

因此，需要针对耳机设计降噪方案，以抑制各种噪声，增强佩戴者语音。

发明内容

本申请提供了一种基于白噪声增益控制的多波束联合降噪方法及装置，采用对应不同白噪声增益下限的多个指向性波束形成器对语音信号进行联合降噪，通过综合多个指向性波束形成器的优点，在提取目标语音时，控制波束白噪声增益，并提高其他方向的噪声抑制效果，最终提高语音降噪效果。

第一方面，本申请提供了一种波束形成器的确定方法。所述波束形成器应用于耳机，所述方法包括：

获取目标波束形成器对应的白噪声增益的下限值；其中，所述目标波束形成器通过对所述耳机对应的对角加载超指向性波束形成器、和延迟求和波束形成器进行加权求和获得，所述对角加载超指向性波束形成器和所述延迟求和波束形成器根据所述耳机对应的导向矢量确定，所述导向矢量根据所述耳机的耳外传声器阵列中阵元之间的距离和所述波束形成器对应的指向角度确定；

根据所述下限值，更新所述对角加载超指向性波束形成器在所述目标波束形成器中的第一权重、和所述延迟求和波束形成器在所述目标波束形成器中的第二权重；

根据更新后的第一权重和更新后的第二权重，确定更新后的目标波束形成器。

上述方案，根据目标波束形成器的白噪声增益下限更新目标波束形成器中对角加载超指向性波束形成器和延迟求和波束形成器的权重，使得目标波束形成器的白噪声增益可以控制在下限值以内。其中，目标波束形成器综合了延迟求和波束形成器白噪声增益高的优点、对角加载超指向性波束形成器指向性高的优点，在控制白噪声增益的同时，可以达到一定的降噪效果。

在一种可能的实施方式中，所述目标波束形成器包括指向性波束形成器或者零陷波束形成器；其中，所述指向性波束形成器对应的指向角度和所述零陷波束形成器对应的指向角度不同。

在一种可能的实施方式中，所述根据所述下限值，更新所述对角加载超指向性波束形成器在所述目标波束形成器中的第一权重、和所述延迟求和波束形成器在所述目标波束形成器中的第二权重包括：

根据所述目下限值、所述延迟求和波束形成器在各个频段的白噪声增益、所述对角加载超指向性波束形成器在所述各个频段的白噪声增益、以及所述对角加载超指向性波束形成器在所述各个频段的指向性指数值，确定所述目标波束形成器在所述各个频段的正则化参数；

根据所述各个频段对应的正则化参数，确定所述更新后的第一权重和所述更新后的第二权重。

第二方面，本申请还提供一种语音降噪方法。所述方法应用于耳机，所述方法包括：

获取待处理的语音信号；所述语音信号由所述耳机外部的传声器阵列采集；

根据所述语音信号，利用多个指向性波束形成器获得多个指向性波束输出信号，以及利用零陷波束形成器获得所述语音信号对应的零陷波束输出信号；其中，所述多个指向性波束输出信号与所述多个指向性波束形成器一一对应，所述多个指向性波束形成器对应的白噪声增益下限值不同；所述多个指向性波束形成器和所述零陷波束形成器均根据第一方面及其可选实施方式的方法获得，

根据所述零陷波束输出信号和多个指向性波束输出信号，利用语音增强模型进行后滤波，获得降噪后的频域信号；

根据所述降噪后的频域信号，获得降噪后的语音信号。

由于不同白噪声增益下限的指向性波束形成器对语音中其他方向的噪声抑制能力不同，对于常见的固定波束形成器，通常下限越低，指向性波束形成器的白噪声增益越小，即对传声器自噪声的抑制能力越弱，但对其他方向的噪声抑制能力越好。当白噪声增益低于0dB时，会放大自噪声，。因此，上述方案中，使用多个不同白噪声增益下限的指向性波束形成器进行联合降噪，可以综合多个指向性波束形成器的优点，在控制降噪后的语音中的白噪声增益的同时，可以保证其他方向的噪声抑制效果，以提高语音降噪效果。

第三方面，本申请还提供一种语音增强模型的训练方法，其特征在于，所述语音增强模型应用于耳机，所述方法包括：

获取带噪语音信号和纯净语音信号；

利用所述耳机对应的多个指向性波束形成器，获得所述带噪语音信号对应的多个指向性波束输出信号，以及利用所述耳机对应的零陷波束形成器，获得所述带噪语音信号对应的零陷波束输出信号；其中，所述多个指向性波束形成器和所述多个指向性波束输出信号一一对应，所述多个指向性波束形成器和所述零陷波束形成器均根据第一方面及其可选实施方式中的方法获得，所述多个指向性波束形成器对应的白噪声增益的下限值不同；

根据所述多个指向性波束输出信号、所述零陷波束输出信号和所述纯净语音信号，更新语音增强模型的参数。

在一种可能的实施方式中，所述语音增强模型根据GCCRN网络确定。

第四方面，本申请还提供一种波束形成器的确定装置。所述波束形成器应用于耳机，所述确定装置包括：

获取模块，用于获取目标波束形成器对应的白噪声增益的下限值；其中，所述目标波束形成器通过对所述耳机对应的对角加载超指向性波束形成器、和延迟求和波束形成器进行加权求和获得，所述对角加载超指向性波束形成器和所述延迟求和波束形成器根据所述耳机对应的导向矢量确定，所述导向矢量根据所述耳机外部的传声器阵列中阵元之间的距离和所述波束形成器对应的指向角度确定；

更新模块，用于根据所述下限值，更新所述对角加载超指向性波束形成器在所述目标波束形成器中的第一权重、和所述延迟求和波束形成器在所述目标波束形成器中的第二权重；

确定模块，用于根据更新后的第一权重和更新后的第二权重，确定更新后的目标波束形成器。

在一种可能的实施方式中，所述更新模块具体用于：

第五方面，本申请还提供一种语音降噪装置。所述语音降噪装置应用于耳机，所述语音降噪装置包括：

获取模块，用于获取待处理的语音信号；所述语音信号由所述耳机外部的传声器阵列采集；

波束形成模块，用于根据所述语音信号，利用多个指向性波束形成器获得多个指向性波束输出信号，以及利用零陷波束形成器获得所述语音信号对应的零陷波束输出信号；其中，所述多个指向性波束输出信号与所述多个指向性波束形成器一一对应，所述多个指向性波束形成器和所述零陷波束形成器均根据第一方面及其可选实施方式中的方法获得，所述多个指向性波束形成器对应的白噪声增益下限值不同；

后滤波模块，用于根据所述零陷波束输出信号和所述多个指向性波束输出信号，利用语音增强模型进行后滤波，获得降噪后的语音信号；

转换模块，用于根据所述降噪后的频域信号，获得降噪后的语音信号。

第六方面，本申请还提供一种语音增强模型的训练装置。所述语音增强模型应用于耳机，所述训练装置包括：

获取模块，用于获取带噪语音信号和纯净语音信号；

波束形成模块，用于利用所述耳机对应的多个指向性波束形成器，获得所述带噪语音信号对应的多个指向性波束输出信号，以及利用所述耳机对应的零陷波束形成器，获得所述带噪语音信号对应的零陷波束输出信号；其中，所述多个指向性波束形成器和所述多个指向性波束输出信号一一对应，所述多个指向性波束形成器和所述零陷波束形成器均根据第一方面及其可选实施方式中的方法获得，所述多个指向性波束形成器对应的白噪声增益的下限值不同；

更新模块，用于根据所述多个指向性波束输出信号、所述零陷波束输出信号和所述纯净语音信号，更新语音增强模型的参数。

第七方面，本申请还提供一种耳机。所述耳机包括处理器和存储器，所述处理器用于执行存储于所述存储器内的计算机程序，以执行第二方面所述的方法。

上述提供的任一种装置或耳机，均用于执行上文所提供的方法，因此，其所能达到的有益效果可参考上文提供的对应方法中的对应方案的有益效果，此处不再赘述。

附图说明

图1是本申请实施例提供的一种应用场景示意图；

图2是本申请实施例提供的一种用户佩戴耳机时的示意图；

图3是本申请实施例提供的一种各个波束形成器的白噪声增益对比图和指向性指数对比图；

图4是本申请实施例提供的一种各个波束形成器的波束对比图；

图5是本申请实施例提供的一种波束形成器的确定方法的流程图；

图6是本申请实施例提供的一种基于不同白噪声增益控制的波束形成器的波束对比图；

图7是本申请实施例提供的一种实际嘈杂室内环境中0-4kHz信号的语谱图以及经过不同指向性波束形成器处理后的信号的语谱图；

图8是本申请实施例提供的一种实际嘈杂室内环境中0-1kHz信号的语谱图以及经过不同指向性波束形成器处理后的信号的语谱图；

图9是本申请实施例提供的一种两个不同指向角度的零陷波束形成器的波束对比图；

图10是本申请实施例提供的一种零陷波束形成器的波束图和白噪声增益曲线图；

图11是本申请实施例提供的一种实际嘈杂室内环境中传声器阵列接收的信号经过零陷波束形成器处理前和后信号的语谱图；

图12是本申请实施例提供的一种基于白噪声增益控制的多波束联合降噪的过程示意图；

图13是本申请实施例提供的一种基于白噪声增益控制的多波束联合降噪方法的流程图；

图14是本申请实施例提供的一种室内音乐噪声环境中传声器阵列接收的信号的语谱图、以及不同指向性波束形成器处理该信号后的语谱图；

图15是本申请实施例提供的一种室外噪声环境中传声器阵列接收的信号的语谱图、以及不同指向性波束形成器处理该信号后的语谱图；

图16是本申请实施例提供的一种语音增强模型的训练方法的流程图；

图17是本申请实施例提供的一种GCCRN网络的结构示意图；

图18是本申请实施例提供的一种波束形成器的确定装置的结构示意图；

图19是本申请实施例提供的一种基于白噪声增益控制的多波束联合降噪装置的结构示意图；

图20是本申请实施例提供的一种语音增强模型的训练装置的结构示意图。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图，对本申请实施例中的技术方案进行描述。

在本申请实施例的描述中，“示例性的”、“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性的”、“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”、“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。

在本申请实施例的描述中，术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，单独存在B，同时存在A和B这三种情况。另外，除非另有说明，术语“多个”的含义是指两个或两个以上。例如，多个系统是指两个或两个以上的系统，多个屏幕终端是指两个或两个以上的屏幕终端。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

图1是本申请提供的一种耳机的信号模型示意图。如图1所示，用户1在一个空间中佩戴耳机并使用该耳机通话时，耳机的耳外传声器会采集用户1的语音和周围的环境噪声。其中，耳外传声器是指用户佩戴耳机时，位于耳外的传声器。

图2示出一种用户佩戴耳机时的示意图。如图2所示的正视图，该耳机的两侧均配置有一个结构为线阵的耳外传声器阵列(左侧Mic1和Mic3，右侧Mic2和Mic4)。如图2所示的侧视图，每个耳外传声器阵列包含两个传声器。

具体地，耳机中第i个耳外传声器采集的信号可以用公式(1)表示。

x_i(n)＝s_i(n)+d_i(n)+w_i(n) (1)

公式(1)中，s_i(n)表示第i个耳外传声器采集的用户的语音信号，d_i(n)表示第i个耳外传声器采集的环境噪声信号，w_i(n)表示第i个耳外传声器的自噪声，i∈[1,M]。M表示耳外传声器阵列中传声器个数。

其中，环境噪声可以包括直达声、以及扩散场噪声构成的噪声。参阅图1，直达声可以是图1中用户2发出的声音经过直线传播后被传声器采集的声音，扩散场噪声可以是用户2发出的声音经过反射后被传声器采集的声音。

基于公式1所示的信号表示，第i个耳外传声器的频域接收模型可以如公式(2)所示。

X_i(k,l)＝S_i(k,l)+D_i(k,l)+W_i(k,l) (2)

公式(2)中，X_i(k,l)、S_i(k,l)、D_i(k,l)和W_i(k,l)分别为x_i(n)、s_i(n)、d_i(n)和w_i(n)对应的第l帧第k个频带(对应的频率记为f_k)短时谱。在实际应用中，可通过快速傅里叶变换将x_i(n)转换为X_i(k,l)。

在一个示例中，耳机可以采用三种降噪方案进行语音增强。下面分别对三种降噪方案进行简要介绍。

第一种是单传声器方案。该方案具体是耳机设置一个耳外传声器，并采用传统的谱减法或者基于机器学习的单通道语音增强算法对如公式(2)表示的频域信号进行处理。

该方案成本较低，但在大噪声环境下往往无法取得较好的噪声抑制效果。特别是当噪声中包括非佩戴者的语音或类语音信号时，该方案无法有效区别目标人声和干扰人声，导致噪声抑制效果明显下降。

第二种方案是耳外传声器结合内部辅助传感器进行降噪，通过对耳外传声器和内部辅助传感器采集的信号进行融合，实现语音增强。其中，常见的内部辅助传感器包括耳内传声器、振动传感器或者加速度传感器等。

该方案需要内部辅助传感器提供信息来进行辅助判断，虽然可以取得较好的降噪效果，但需要佩戴者正确佩戴耳机以保证辅助传感器的拾音质量，而且成本较高。当佩戴不正确或耦合较差时，使内外耳信号的融合方案失配，导致降噪性能下降。另外，内部辅助传声器的价格相对较贵，会额外增加耳机的硬件成本。

第三种是多耳外传声器方案，一般在单侧耳机中布放2～4个传声器组成耳外传声器阵列。该方案首先采用波束形成或者自适应波束形成方法对如公式(2)表示的频域信号进行初步增强，然后利用后滤波方法对波束输出信息进行进一步增强。常见的代表方法为基于时频域的广义旁瓣相消器法(time frequency-generalized sidelobe canceller，TF-GSC)算法，该方法通过构造指向性波束和零陷波束，分别得到初步增强的目标信号和噪声信号，随后进行后滤波处理得到增强后的信息。

该方案的硬件成本较低，并且降噪性能相比于单传声器方法提升明显。但是该方案仍然存在一些问题。

例如，方案中的指向性波束通常采用延迟求和波束形成器(delay and sumbeamformer，DSB)和超指向性波束形成器(super directive beamformer，SDB)形成。DSB不存在白噪声增益放大的问题，但是其指向性较差，对各个方向的噪声抑制能力有限，波束图中的旁瓣级较高。而SDB虽然具有最高的指向性指数即指向性好，但存在严重的低频噪声放大问题。

再例如，零陷波束常采用差分波束形成或者采用阻塞矩阵设计。前者也存在低频白噪声放大的问题，后者存在零陷宽度过小的问题。零陷宽度过小时，若预设零陷方向与实际人嘴方向存在一定偏差，陷波性能急剧下降。这些问题会导致在低信噪比情况下的后滤波语音失真现象。

具体地，上述第三种方案使用的DSB和SDB可以分别是如公式(3)和(4)所示的表达式。

上述公式(3)和(4)中，v(k,θ_s)表示波束形成器对应的指向人嘴处的导向矢量，v^H(k,θ_s)表示v(k,θ_s)的共轭转置；Γ_d(k)为M×M维的扩散场协方差矩阵，它的第n行第m列元素可以根据公式(5)计算。

公式(5)中，d_mn表示第n个传声器和第m个传声器之间的距离，n∈[1,M]，m∈[1,M]，c表示声速。

一般地，度量波束形成器的波束性能的指标包括指向性指数、白噪声增益和波束图。其中，指向性指数、白噪声增益和波束图可以根据公式(6)、公式(7)和公式(8)确定。

B(k,θ)＝w^H(k)v(k,θ) (8)

上述公式(6)～公式(8)中，

表示指向性指数，

表示白噪声增益，B(k,θ)表示波束图中的波束增益，w^H(k)表示波束形成器的表达式w(k)的共轭转置，v(k,θ)表示指向角度θ方向的导向矢量。其中，指向性指数越大表示波束形成器的波束指向性越强，对除指向方向之外的其他方向的噪声抑制能力越强。白噪声增益越大表示波束形成器越不容易出现白噪声放大的现象，鲁棒性越好。

SDB具有最大的指向性指数

而延迟求和波束形成器具有相对于本申请中提及的其他波束形成器有最大的白噪声增益

(为常数

)，对应表达式分别为公式(9)和公式(10)所示。

针对SDB存在白噪声放大的问题，可以对SDB进行改进，即对其进行对角加载操作，获得对角加载超指向性波束形成器(super directive beamformer-diagonal load,SDB-DL)。具体是，根据对角加载量ε(k)重新确定公式(4)中的Γ_d(k)，即Γ_ε(k)＝Γ_d(k)+ε(k)I_M。因此，SDB-DL的表达式可以如公式(10)所示。

相应地，SDB-DL的白噪声增益表达式和指向性表达式可以是如公式(12)和公式(13)所示。

SDB-DL虽然可以通过对角加载的方式进行修正，不同频点的加载量不同，不同频点的加载量可以根据经验确定。

上述提到的DSB、SDB和SDB-DL均存在一定的优缺点。根据上述提到的DSB、SDB和SDB-DL各个波束形成器的表达式和性能指标表达式，得到图3所示的该三个波束形成器的性能指标分析示意图。如图3所示的a图，SDB在0Hz附近的白噪声增益为-30dB左右，存在严重的低频白噪声放大问题；DSB几乎不存在低频白噪声放大；SDB-DL由于对角加载的操作，与SDB相比，白噪声放大情况适中。如图3所示的b图，SDB的指向性是最优的，DSB的指向性最差，SDB-DL的指向性与SDB相比有劣化。

再结合图4所示的波束图，DSB的主瓣宽度较大，对其他方向的噪声抑制能力较差；SDB的主瓣宽度最窄，对其他方向的噪声抑制能力最优；SDB-DL适中。图4中，横轴表示指向角度Direction，左侧表示频率Frequency，右侧表示波束增益。

基于上述各个波束形成器存在的问题，本申请实施例提供一种基于白噪声增益控制的波束形成器，可以在准确控制白噪声增益的前提下，实现尽可能高的指向性指数。具体地，该波束形成器是一种基于正则化加权的波束形成器，具体如公式(14)所示。

公式(14)中，α(k)表示为正则化参数，对角加载量ε(k)可以通过公式(15)确定。ε(k)的取值范围为10^-6至10^-2。

公式(14)可以进一步变形为公式(16)所示的形式，公式(16)中，α_ε(k)为中间变量，

从公式(16)可以看出，该波束形成器w_α(k)可以看做是SDB-DL和DSB的线性组合，并且

和

分别为SDB-DL和DSB的加权权重。

根据公式(11)、(12)和(16)可得到波束形成器w_α(k)对应的白噪声增益

如图(17)所示。

公式(17)中，

由公式(16)可以得：

根据公式(17)可以得到，

再结合前述的公式

可计算得到如公式(19)的正则化参数α(k)的计算公式。

根据公式(16)和

可知，上述SDB-DL和DSB的权重与波束形成器的白噪声增益、导向矢量和正则化参数相关。根据公式(10)、(12)和(19)可知，正则化参数与波束形成器的白噪声增益和导向矢量相关。

其中，当导向矢量中的指向角度为指向人嘴处的角度时，该波束形成器为指向性波束形成器。当导向矢量中的指向角度为非指向人嘴处的角度时，该波束形成器为零陷波束形成器。

因此，在确定波束形成器时，可以根据不同的白噪声增益下限值和指向角度，获得指向性波束形成器和零陷波束形成器。

基于此，本申请实施例提供一种波束形成器的确定方法，该方法用于确定上述的指向性波束形成器和零陷波束形成器。

图5是本申请实施例提供的一种波束形成器的确定方法流程图。

如图5所示，该方法包括如下的步骤S501-步骤S503。

在步骤S501中，获取目标波束形成器对应的白噪声增益的下限值。

具体地，白噪声增益的下限值可以为0dB、-6dB、或-12dB。该目标波束形成器可以是公式(16)所示的波束形成器。该目标波束形成器通过对耳机对应的对角加载超指向性波束形成器、和延迟求和波束形成器进行加权求和获得。

具体地，如公式(3)和(11)，耳机对应的对角加载超指向性波束形成器和延迟求和波束形成器，可以根据耳机对应的导向矢量确定。

具体地，导向矢量可以根据耳机的耳外传声器阵列中各阵元之间的距离和目标波束形成器对应的指向角度确定，即

其中τ_m＝d_m1cosθ_s/c，θ_s表示指向角度，d_m1表示第m个传声器与第1个传声器之间的距离，第1个传声器可以是传声器阵列中远离人嘴处的传声器或者是靠近人嘴处的传声器。

具体地，当目标波束形成器为指向性波束形成器时，θ_s为指向人嘴处的角度。在一个示例中，指向人嘴处的角度可以是0度。

具体地，当目标波束形成器为零陷波束形成器时，可以为传声器阵列设置一个指向角度，也可以为传声器阵列中每个传声器设置不同的指向角度。以传声器阵列包含两个传声器为例，靠近人嘴处的传声器的指向角度可以设置为135度，远离人嘴处的传声器的指向角度可以设置为100度。由此，可以获得两个不同指向方向的波束形成器。

在一个示例中，针对不同的频率，可以对白噪声增益下限值进行限制。例如，对于频率f_k，当下限值低于SDB-DL在f_k的白噪声增益时，可以改用SDB-DL对应的f_k白噪声增益作为该频率对应的白噪声增益下限值。

在步骤S502中，根据下限值，更新对角加载超指向性波束形成器在目标波束形成器中的第一权重、和延迟求和波束形成器在目标波束形成器中的第二权重。

第一权重是指前述的

第二权重是指前述的

具体地，可以根据公式(19)计算出正则化参数α(k)，然后根据公式

计算出中间变量α_ε(k)，进而可以求得更新后的第一权重和第二权重。

在步骤S503中，根据更新的第一权重和更新后的第二权重，确定更新后的目标波束形成器。

具体地，可以根据更新的第一权重和更新后的第二权重，结合公式(16)获得更新后的目标波束形成器。

在一个示例中，当目标波束形成器的白噪声增益下限可以设置为0dB、-6dB和-12dB时，可以获得三个不同白噪声增益下限的目标波束形成器。图6示出了三种不同下限对应的波束形成器的波束图。如图6所示，白噪声增益下限设置越低，低频的主瓣宽度越窄，对其他方向的噪声抑制效果越好。

上述的波束形成器确定方法，通过对目标波束形成器的白噪声增益下限进行控制，可以改善其对白噪声放大的问题。

图7和图8分别给出了实际嘈杂室内环境中录取的传声器信号，经过不同波束形成器处理后输出信号0-4kHz以及0-1kHz的语谱图。其中，图6的a图和图7的a图表示传声器阵列接收的相应频段的语音频域信号的语谱图，图6的b图和图7的b图表示DSB处理相应频段的语音频域信号后的信号语谱图，图6的c图和图7的c图表示SDB处理相应频段的语音频域信号后的信号语谱图，图6的d图和图7的d图表示根据图5所示方法确定的白噪声增益下限为-6dB的指向性波束形成器处理相应频段的语音频域信号后的信号语谱图。

对比图7中b图和图7中d图可知，DSB的噪声残留较多，而本申请方法获得的指向性波束形成器的干扰抑制能力显著提升，经计算0-4kHz的平均降噪量可提升6dB左右。

对比图8中c图和图8中d图可知，本申请方法获得的指向性波束形成器在800Hz以下没有明显的白噪声放大现象，而SDB产生了严重的白噪声放大现象，严重影响了语音质量。相比于上述两种波束形成器，本申请方法获得的指向性波束形成器可以在不显著放大低频白噪声的情况下，有效抑制其他方向的噪声。

在一个示例中，当传声器阵列对应的指向方向不同时，可以获得两个不同指向方向的波束形成器。图9示出了传声器阵列中包含两个传声器时的波束形成器的波束图。图9中的a图对应指向方向为135度的波束形成器的波束图，b图对应指向方向为100度的波束形成器的波束图。由图9可以看出，除了0度附近的零陷区域，两个波束形成器w_n1(k)和w_n2(k)均在0度及其附近区域内形成了零陷区域，且两者在零陷区域内的零陷深度存在一定的互补特性。具体地，w_n1(k)在0度方向中高频的零陷深度较浅，而w_n1(k)在此处对应的零陷深度较深。

因此，根据w_n1(k)和w_n2(k)的空间波束图特点，可以对这两个不同指向方向的波束形成器进行加权求和，设计新的波束形成器w_n(k)＝α₁w_n1(k)+α₂w_n2(k)，即最终的零陷波束形成器w_n(k)。可选地，权重α₁和α₂可以设置为0.5。

图10示出了零陷波束形成器w_n(k)的波束图及对应的白噪声增益图。w_n(k)可以在0度方向及其正负45度的空间区域形成较深的零陷，而在其他方向仍保持较高的增益。同时，全频带白噪声增益控制在0dB至2dB的范围内，不存在白噪声增益放大的问题。

图11示出了在实际嘈杂室内环境中录取的传声器信号经过零陷波束形成器处理前后信号的语谱图。可以看到，本申请方法获得的零陷波束形成器在有效抑制佩戴者人声成分的同时没有产生明显的白噪声放大现象。需要注意的是，虽然该零陷波束形成器不会产生低频白噪声放大的问题，但1kHz以下的0度方向的目标语音抑制能力也较差，因此在后滤波过程中处理时，可以使用谐波检测技术去除1kHz以下的零陷波束输出中的目标语音，使得后滤波时可以尽量保留低频的目标语音。

需要说明的是，当传声器数目及阵型发生变化时，可以通过不同的指向方向设计波束形成器组{w_n,i(k)}_i＝1,2,...M，通过它们的线性组合构造新的零陷波束形成器

具体的指向方向及加权系数可以根据传声器数目及阵型提前确定。

基于上述的波束形成器的确定方法，本申请实施例提供一种基于白噪声增益控制的多波束联合降噪方法。如图12所示，该方案首先采用短时傅里叶变换(short-timeFourier transform，STFT)将采集的语音信号x₁(t)和x₂(t)转换到频域中，获得X₁(k,l)和X₂(k,l)；利用基于白噪声增益控制的方法设计的指向人嘴处的多个指向性波束形成器进行初步滤波，获得不同白噪声增益对应的指向性波束输出信号(Y_0dB(k,l)、Y_-6dB(k,l)、Y-₁₂dB(k,l))；以及基于白噪声增益控制的方法设计的指向人嘴处的零陷波束形成器获得采集的语音信号对应的零陷波束输出信号(Y_null(k,l))；最后利用基于机器学习的语音增强模型，根据零陷波束输出信号对前面获得的不同白噪声增益对应的指向性波束输出信号进行后滤波处理，获得降噪后的频域信号Y_enh(k,l)，并采用短时傅里叶逆变换(inverseshort-time Fourier transform，ISTFT)获得降噪后的语音信号y(t)。该方案可以解决第三种方案存在的低频白噪声放大的问题。

图13示出了本申请实施例提供的一种降噪方法的流程图。

如图13所示，该方法包括：如下的步骤S1301-步骤S1303。

在步骤S1301中，获取待处理的语音信号。

语音信号由耳机外部的传声器阵列采集。

在步骤S1302中，根据语音信号，利用多个指向性波束形成器获得多种白噪声增益对应的指向性波束输出信号，以及利用零陷波束形成器获得语音信号对应的零陷波束输出信号。

多个指向性波束形成器与多种白噪声增益对应的指向性波束输出信号一一对应，多个指向性波束形成器和零陷波束形成器由图5所示的方法获得，并且多个指向性波束形成器对应的白噪声增益的下限值不同。

在步骤S1303中，根据零陷波束输出信号和多个指向性波束输出信号，利用语音增强模型进行后滤波，获得降噪后的语音信号。

具体地，可以多个指向性波束输出信号的实部信号和虚部信号、以及零陷波束输出信号的实部信号和虚部信号输入语音增强模型，获得语音增强模型输出的降噪后的频域信号。

其中，多个指向性波束输出信号可以是对应的白噪声增益下限分别为0dB、-6dB和-12dB对应的信号。此时，语音增强模型的输入为8通道的数据。语音增强模型的具体训练过程将在后文中介绍，此处不再赘述。

根据降噪后的频域信号获得降噪后的语音信号。具体地，可以对降噪后的频域信号进行快速傅里叶逆变换，获得降噪后的语音信号。

上述降噪方法，基于不同白噪声增益下限的目标波束形成器的噪声抑制效果不同的优点，使用多个不同白噪声增益下限的波束形成器进行多波束滤波，然后使用语音增强模型进行后滤波，可以提高其他方向的噪声抑制效果。

图14分别示出了室内音乐噪声环境中传声器阵列接收的信号的语谱图(图14中的a图)、基于白噪声增益控制的指向性波束形成器(WNG下限-6dB)处理后的语谱图(图14中的b图)、基于白噪声增益控制的零陷波束形成器处理后的语谱图(图14中的c图)、以及使用图13所示降噪方法获得的信号的语谱图(图14中的d图)。

图15分别示出了室外噪声环境中传声器接收的信号的语谱图(图15中的a图)、基于白噪声增益控制的指向性波束形成器(WNG下限-6dB)处理后的语谱图(图15中的b图)、基于白噪声增益控制的零陷波束形成器处理后的语谱图(图15中的c图)、以及使用图13所示降噪方法获得的信号的语谱图(图15中的d图)。

从图14和图15中可以看出，基于白噪声增益控制的指向性波束形成器可以有效降低噪声，而基于白噪声增益控制的零陷波束形成器可以有效消除目标语音，并且零陷波束形成器可以充分保留音乐干扰信号的信息，从而最终实现较好的语音增强效果。

图16是本申请实施例提供的一种语音增强模型的训练方法流程图。

如图16所示，该方法包括如下的步骤S1601-步骤S1603。

在步骤S1601中，获取带噪语音信号和纯净语音信号。

在不同的环境中采集噪声信号，例如马路、地铁、会议室等噪声种型及噪声来波方向应具备多样性特点的场所。

在安静环境中采集用户的纯净语音信号。其中，采集纯净语音信号时，可以适当调整耳机的佩戴位置，以增强模型的鲁棒性。

然后，根据信噪比对噪声信号和纯净语音信号进行混合，获得带噪语音信号。

在一个示例中，可以根据不同的信噪比，对噪声信号和纯净语音信号进行混合，获得不同的带噪语音信号。

在步骤S1602中，利用耳机对应的多个指向性波束形成器，获得带噪语音信号对应的多个指向性波束输出信号，以及利用耳机对应的零陷波束形成器获得带噪语音信号对应的零陷波束输出信号。

所述多个指向性波束形成器和所述多个指向性波束输出信号一一对应，多个指向性波束形成器和零陷波束形成器均采用图5所示的方法获得，多个指向性波束形成器对应的白噪声增益的下限值不同。

在步骤S1603中，根据多个指向性波束输出信号、零陷波束输出信号和纯净语音信号，更新语音增强模型的参数。

具体地，可以将多个基于白噪声增益下限控制的指向性波束输出信号、基于白噪声增益控制的零陷波束输出信号输入语音增强模型，获得语音增强模型的输出。

然后，根据语音增强模型的输出和纯净语音信号，利用损失函数计算误差值，根据该误差值，使用梯度下降法更新语音增强模型的参数。

其中，语音增强模型可以采用GCCRN(gate complex convolution recursionnetwork)结构，也可以采用门循环单元(gate recurrent unit，GRU)结构和U-NET结构。图17是本申请实施例提供的一种GCCRN网络结构的示意图。如图17所示，GCCRN网络包括encoder编码网络、循环卷积网络、decoder解码网络和输出层。

其中，encoder有5层，每一层均采用conv2d卷积函数构建。decoder有5层，decode的每一层均包括实部输出和虚部输出，并且均采用deconv2d反卷积函数。循环卷积网络设置有2层LSTM结构，每一层LSTM采用两组相同的网络结构，可以减少模型参数量。输出层为FC全连接层。

基于上述图5所示的波束形成器的确定方法，本申请实施例提供一种波束形成器的确定装置。

图18是本申请实施例提供一种波束形成器的确定装置1800的结构示意图。如图18所示，该确定装置1800包括：获取模块1801、更新模块1802和确定模块1803。

其中，获取模块1801用于获取目标波束形成器对应的白噪声增益的下限值；其中，所述目标波束形成器通过对所述耳机对应的对角加载超指向性波束形成器、和延迟求和波束形成器进行加权求和获得，所述对角加载超指向性波束形成器和所述延迟求和波束形成器根据所述耳机对应的导向矢量确定，所述导向矢量根据所述耳机外部的传声器阵列中阵元之间的距离和所述波束形成器对应的指向角度确定。

其中，更新模块1802用于根据所述下限值，更新所述对角加载超指向性波束形成器在所述目标波束形成器中的第一权重、和所述延迟求和波束形成器在所述目标波束形成器中的第二权重。

其中，确定模块1803用于根据更新后的第一权重和更新后的第二权重，确定更新后的目标波束形成器。

上述各个模块的具体执行过程可以参见前述发明内容或者前述图5所示的确定方法中的介绍，此处不再赘述。

基于上述图13所示降噪方法，本申请实施例提供一种降噪装置。

图19是本申请实施例提供一种降噪装置1900的结构示意图。如图19所示，该降噪装置1900包括：获取模块1901、波束形成模块1902和后滤波模块1903。

其中，获取模块1901用于获取待处理的语音信号；所述语音信号由所述耳机外部的传声器阵列采集。

其中，波束形成模块1902用于根据所述语音信号，利用多个指向性波束形成器获得多个指向性波束输出信号，以及利用零陷波束形成器获得所述语音信号对应的零陷波束输出信号；其中，所述多个指向性波束输出信号与所述多个指向性波束形成器一一对应，所述多个指向性波束形成器对应的白噪声增益下限值不同。

其中，后滤波模块1903用于根据所述零陷波束输出信号和所述多个指向性波束输出信号，利用语音增强模型进行后滤波，获得降噪后的语音信号。

上述各个模块的具体执行过程可以参见前述发明内容或者前述图13所示的降噪方法中的介绍，此处不再赘述。

基于上述图16所示的语音增强模型的训练方法，本申请实施例还提供一种训练装置。

图20是本申请实施例提供的一种训练装置2000的结构示意图。如图20所示，该训练装置2000包括：获取模块2001、波束形成模块2002和更新模块2003。

其中，获取模块2001用于获取带噪语音信号和纯净语音信号。

其中，波束形成模块2002用于利用所述耳机对应的多个指向性波束形成器，获得所述带噪语音信号对应的多个指向性波束输出信号，以及利用所述耳机对应的零陷波束形成器，获得所述带噪语音信号对应的零陷波束输出信号；其中，所述多个指向性波束形成器和所述多个指向性波束输出信号一一对应，所述多个指向性波束形成器对应的白噪声增益的下限值不同。

其中，更新模块2003用于根据所述多个指向性波束输出信号、所述零陷波束输出信号和所述纯净语音信号，更新语音增强模型的参数。

上述各个模块的具体执行过程可以参见前述发明内容或者前述图16所示的训练方法中的介绍，此处不再赘述。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(solid state disk,SSD))等。

可以理解的是，在本申请的实施例中涉及的各种数字编号仅为描述方便进行的区分，并不用来限制本申请的实施例的范围。应理解，在本申请实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，不应对本申请实施例的实施过程构成任何限定。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

1.一种波束形成器的确定方法，其特征在于，所述波束形成器应用于耳机，所述方法包括：

2.根据所述权利要求1所述的方法，其特征在于，所述目标波束形成器包括指向性波束形成器或者零陷波束形成器；其中，所述指向性波束形成器对应的指向角度和所述零陷波束形成器对应的指向角度不同。

3.根据所述权利要求1所述的方法，其特征在于，所述根据所述下限值，更新所述对角加载超指向性波束形成器在所述目标波束形成器中的第一权重、和所述延迟求和波束形成器在所述目标波束形成器中的第二权重包括：

根据所述目下限值、所述延迟求和波束形成器在各个频段的白噪声增益值、所述对角加载超指向性波束形成器在所述各个频段的白噪声增益值、以及所述对角加载超指向性波束形成器在所述各个频段的指向性指数值，确定所述目标波束形成器在所述各个频段的正则化参数；

4.一种语音降噪方法，其特征在于，所述方法应用于耳机，所述方法包括：

根据所述语音信号，利用多个指向性波束形成器获得多个指向性波束输出信号，以及利用零陷波束形成器获得所述语音信号对应的零陷波束输出信号；其中，所述多个指向性波束输出信号与所述多个指向性波束形成器一一对应，所述多个指向性波束形成器和所述零陷波束形成器均根据权利要求1-3任一项所述的方法获得，所述多个指向性波束形成器对应的白噪声增益下限值不同；

根据所述零陷波束输出信号和所述多个指向性波束输出信号，利用语音增强模型进行后滤波，获得降噪后的语音信号。

5.一种语音增强模型的训练方法，其特征在于，所述语音增强模型应用于耳机，所述方法包括：

获取带噪语音信号和纯净语音信号；

利用所述耳机对应的多个指向性波束形成器，获得所述带噪语音信号对应的多个指向性波束输出信号，以及利用所述耳机对应的零陷波束形成器，获得所述带噪语音信号对应的零陷波束输出信号；其中，所述多个指向性波束形成器和所述多个指向性波束输出信号一一对应，所述多个指向性波束形成器和所述零陷波束形成器均根据权利要求1-3任一项所述的方法获得，所述多个指向性波束形成器对应的白噪声增益的下限值不同；

6.根据权利要求5所述的方法，其特征在于，所述语音增强模型根据GCCRN网络确定。

7.一种波束形成器的确定装置，其特征在于，所述波束形成器应用于耳机，所述确定装置包括：

8.一种语音降噪装置，其特征在于，所述语音降噪装置应用于耳机，所述语音降噪装置包括：

波束形成模块，用于根据所述语音信号，利用多个指向性波束形成器获得多个指向性波束输出信号，以及利用零陷波束形成器获得所述语音信号对应的零陷波束输出信号；其中，所述多个指向性波束输出信号与所述多个指向性波束形成器一一对应，所述多个指向性波束形成器和所述零陷波束形成器均根据权利要求1-3任一项所述的方法获得，所述多个指向性波束形成器对应的白噪声增益下限值不同；

后滤波模块，用于根据所述零陷波束输出信号和所述多个指向性波束输出信号，利用语音增强模型进行后滤波，获得降噪后的语音信号。

9.一种语音增强模型的训练装置，其特征在于，所述语音增强模型应用于耳机，所述训练装置包括：

获取模块，用于获取带噪语音信号和纯净语音信号；

波束形成模块，用于利用所述耳机对应的多个指向性波束形成器，获得所述带噪语音信号对应的多个指向性波束输出信号，以及利用所述耳机对应的零陷波束形成器，获得所述带噪语音信号对应的零陷波束输出信号；其中，所述多个指向性波束形成器和所述多个指向性波束输出信号一一对应，所述多个指向性波束形成器和所述零陷波束形成器均根据权利要求1-3任一项所述的方法获得，所述多个指向性波束形成器对应的白噪声增益的下限值不同；

10.一种耳机，其特征在于，所述耳机包括处理器和存储器，所述处理器用于执行存储于所述存储器内的计算机程序，以执行权利要求4所述的方法。