CN115223580A

CN115223580A - 一种基于球形麦克风阵列与深度神经网络的语音增强方法

Info

Publication number: CN115223580A
Application number: CN202210606103.7A
Authority: CN
Inventors: 朱凤霞; 张开生
Original assignee: Xian Peihua University
Current assignee: Xian Peihua University
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-10-21
Anticipated expiration: 2042-05-31
Also published as: CN115223580B

Abstract

本发明公开了一种基于球形麦克风阵列与深度神经网络的语音增强方法，具体包括如下步骤：步骤1：麦克风阵列前期处理阶段；步骤2：对语音模型进行训练；步骤3：DNN语音增强阶段；本发明以声学分析到语音增强为路线，利用球形麦克风阵列产生空间滤波器，使噪声功率最小化。针对单通道语音增强对实际噪声环境、传统波束形成算法语音增强效果不理想的问题，通过深度神经网络对前期处理后的噪声及语音信号之间的复杂非线性关系进行学习，分类出语音信号和噪声信号，实现对语音信号的增强。本发明方法与单一波束形成算法及深度神经网络语音增强相比，改善效果较为明显，且在多种噪声环境下同样适用，具有较强的鲁棒性。

Description

一种基于球形麦克风阵列与深度神经网络的语音增强方法

技术领域

本发明属于语音信号处理技术领域，具体涉及一种基于球形麦克风阵列与深度神经网络的语音增强方法。

背景技术

语音识别因其简洁便利的特性，跻身自动化领域的热点话题，它可以将人们从繁杂记忆中解放出来，仅用一句机器可识别的指令即可完成相应操作，因此在具有人机交互的系统如车载音响设备、手机及家电等领域应用十分广泛，极大方便了人们的生产生活。近十几年来，随着大数据语料的积累量不断提升及机器学习研究不断深入，语音识别技术取得了跨越式的发展。虽然传统的单通道语音识别已经取得较高的识别率，但是仍然需要根据实际需要进行进一步优化，尤其是在低信噪比及混响条件下语音识别率不能得到保障，存在语音增强效果不理想的问题。

发明内容

本发明的目的是提供一种基于球形麦克风阵列与深度神经网络的语音增强方法，解决了目前语音识别在低信噪比及混响条件下的识别率不够高，用户体验有待进一步提高和优化的问题。

本发明所采用的技术方案是，

一种基于球形麦克风阵列与深度神经网络的语音增强方法，具体包括如下步骤：

步骤1：麦克风阵列前期处理阶段：通过球形麦克风阵列对多通道语音进行拾取，阵列形成的波束能够定位到目标语音，使噪声信号得到抑制，从而提取到目标语音；

步骤2：对语音模型进行训练；将经过麦克风阵列前期处理后残留下的噪声信号与目标语音信号分为两组特征样本，分别输入到DNN的输入端进行训练，利用DNN的前向传播和反向传播算法得到网络模型；

步骤3：DNN语音增强阶段：输入语音，经过麦克风阵列处理之后得到特征向量，然后将特征向量输入到步骤2得到的网络模型中进行增强处理，最后将输出的特征向量，利用波形重构方法合成纯净语音。

本发明的特点还在于；

球形麦克风阵列为三维阵列，球形麦克风阵列可以得到信号的水平方向角、垂直方位角，还可以得到声源与麦克风阵列参考点距离的三维信息。

步骤1中，采用线性约束最小方差波束形成LCMV结构，随着输出信号的变化，对滤波的权重系数进行动态调整，适应多变的噪声，并根据DNN对残余噪声进行处理，首先将麦克风阵列各阵元接收到的信号进行时延补偿，做DFT变换到频域，然后在频域内划分子频带，在每个子频带内运用窄带LCVM算法，最后将得到的结果作IDFT逆变换回到时域。

步骤1中，麦克风阵列由多个阵元组合而成，利用时延补偿特性可以获得x_n(t)，表示时序一致的信号，然后对其采样，得到如下公式(1)：

x(n)＝1_Ms(n)+v(n) (1)；

其中，x_n(t)为采样后信号向量，值为x(n)＝[x₁(n)x₂(n)...x_M(n)]^T，1_M＝[11...1]^T；s(n)为期望信号，v(n)＝[v₁(n)v₂(n)...v_M(n)]^T为噪声向量，将接收到的信号划分为S段，每段包含N个采样点，对其做DFT，得到式(2)：

x(k,s)＝[x₁(k,s)x₂(k,s)...x_M(K,S)]^T (2)；

由式(1)和式(2)可得式(3)：

x(k,s)＝1_Ms(k,s)+v(k,s) (3)；

其中s(k,s)为期望输出信号v(k,s)＝[v₁(k,s)v₂(k,s)...v_M(k,s)]^T，在第s段做N次窄带LCMV波束形成。

球形麦克风阵列选用直径为8.4cm的球形麦克风阵列，设置球形麦克风阵列为球状且为等距分布。

本发明的有益效果是，本发明一种基于球形麦克风阵列与深度神经网络的语音增强方法，在进行基音检测的过程中，第一步根据线性预测法对输入的语音信号进行分析处理，求出预测系数，线性预测处理的过程能够很好的去除共振峰效应。第二步使用OM-LSA算法对语音信号进行消噪，再使用维纳滤波算法对残余噪声进行进一步滤除。第三步利用主体延伸法对消噪后的语音进行基音检测。该方法在低信噪比不同噪声环境依然能够准确的检测出基音周期，检测准确率达到82％以上，具有较强的鲁棒性。

附图说明

图1是本发明一种基于球形麦克风阵列与深度神经网络的语音增强方法的球形麦克风阵列拓扑结构示意图；

图2是本发明一种基于球形麦克风阵列与深度神经网络的语音增强方法的实施例中涉及语音数据的自适应波束形成器阵元结构示意图；

图3是本发明一种基于球形麦克风阵列与深度神经网络的语音增强方法的算法框架图；

图4是本发明一种基于球形麦克风阵列与深度神经网络的语音增强方法与原始算法检测结果的LSD得分对比示意图；

图5是本发明一种基于球形麦克风阵列与深度神经网络的语音增强方法与原始算法语音增强结果的PESQ得分对比示意图；

具体实施方式

下面结合附图和具体实施方式对本发明一种基于球形麦克风阵列与深度神经网络的语音增强方法进行详细说明。

本发明提供一种基于球形麦克风阵列与深度神经网络的语音增强方法，以声学分析到语音增强为路线，利用球形麦克风阵列产生空间滤波器，使噪声功率最小化。通过深度神经网络(Deep Neural Networks，DNN)进一步对前期处理后的噪声及语音信号之间的复杂非线性关系进行学习，分类出语音信号和噪声信号，实现对语音信号的增强。此外，本发明所提方法在多种噪声环境下也同样适用，具有鲁棒性强、实施效果好的特点。

参阅附图1，本发明球形麦克风阵列拓扑结构示意图。球形麦克风阵列属于一种新型的三维阵列，相对于一维和二维来说，不仅可以得到信号的水平方向角、垂直方位角，还可以得到声源与麦克风阵列参考点距离等三维信息。此外，还有助于产生空间滤波器，并且对称可旋转的结构更利于使用波束形成算法确定声源位置。

参阅附图2，本发明自适应波束形成器阵元结构示意图。波束形成是声源信号对于空间进行选择的一种体现，麦克风阵列可获取来自于声源信号的位置信息，并且可以削弱方向性噪声，保留期望的语音信号，实现空间滤波。本发明采用线性约束最小方差波束形成(Linearly constrained minimum variance，LCMV)结构，随着输出信号的变化，对滤波的权重系数进行动态调整，适应多变的噪声，并根据DNN对残余噪声进行处理。首先将麦克风阵列各阵元接收到的信号进行时延补偿，做DFT变换到频域，然后在频域内划分子频带，在每个子频带内运用窄带LCVM算法，最后将得到的结果作IDFT逆变换回到时域，大大减少计算复杂度。

附图2中y₁(t)为阵元接收到的信号，实际麦克风阵列往往是由多个阵元组合而成的，利用时延补偿特性可以获得x_n(t)，表示时序一致的信号，然后对其采样，得到式(1)：

x(n)＝1_Ms(n)+v(n) (1)；

其中x_n(t)为采样后信号向量，值为x(n)＝[x₁(n)x₂(n)...x_M(n)]^T，1_M＝[11...1]^T，s(n)为期望信号，v(n)＝[v₁(n)v₂(n)...v_M(n)]^T为噪声向量，将接收到的信号划分为S段，每段包含N个采样点，对其做DFT，得到式(2)：

x(k,s)＝[x₁(k,s)x₂(k,s)...x_M(K,S)]^T (2)；

由式(1)和式(2)可得式(3)：

x(k,s)＝1_Ms(k,s)+v(k,s) (3)；

参阅附图3，本发明算法框架图。算法可分为三个主体部分：麦克风阵列前期处理阶段，语音模型训练阶段，DNN语音增强阶段。

麦克风阵列前期处理阶段，通过球形麦克风阵列对多通道语音进行拾取，阵列形成的波束能够较为准确的定位到目标语音，而使噪声信号得到抑制，从而更准确的提取到目标语音。本发明选用直径为8.4cm的球形麦克风阵列，设置阵列为球状且为等距分布，可从任何方向上以相同的语音输入效果来接收语音信息，其波束模式不受观测方向的影响，其识别精度可与孔径为126cm的大型线性阵列相媲美甚至效果更好。

语音模型训练阶段，经过麦克风阵列前期处理后，一部分与目标信号的无关信号被处理掉，残留下的噪声信号与目标语音信号将被分为两组特征样本，分别输入到DNN的输入端进行训练，利用DNN的前向传播和反向传播算法得到最优的网络模型。

DNN语音增强阶段，输入真实语音，经过麦克风阵列处理之后，得到特征向量，然后将特征向量输入到优化网络模型中进行增强处理，最后将输出的特征向量利用波形重构方法合成纯净语音，实现语音增强功能。

参阅附图4，本发明的语音LSD得分图。为了更好的说明本发明所提方法的可靠性，附图4中将本发明所提出的方法与无噪声分类的非负矩阵分解算法(Nonnegative MatrixFactorization，NMF)以及单独DNN语音增强算法在不同噪声背景下进行比较，对数谱距离(Log Spectral Distance，LSD)，其定义如式(4)所示：

其中M表示帧长，L{S(l,m)}表示在一定动态范围内的对数谱，LSD数值越小，表示语音失真程度越小。它是对语音质量的客观评价指标，能够反映重构信号与原始信号的差异。

参阅附图5，本发明语音增强PESQ得分图。对不同算法进行语音质量感知评估(Perceptual Evaluation of Speech Quality，PESQ)，PESQ用于现场和模拟网络中端到端的测量，对于环境噪声和噪声处理，通过PESQ进行评估，PESQ的得分范围在-0.5～4.5之间的条件下，得分越高表示语音的质量越好。本发明对未经处理的语音信号、最小方差无畸变响应(Minimum Variance Distortionless Response，MVDR)波束形成算法以及本发明算法进行质量评价，可以看出本发明算法在多种噪声背景下，PESQ得分均大于2.0，平均得分2.74，单一MVDR波束形成算法PESQ得分多数处于2.0以下，平均得分1.86。

可见，本发明一种基于球形麦克风阵列与深度神经网络的语音增强方法，相对于MVDR波束形成算法其性能得到一定的提高。另外，综合两种指标及语音增强结果，本发明所采用的球形麦克风阵列作为一次语音增强，结合DNN噪声语音分类进行第二步语音增强，结合目前主流语音识别利用神经网络的趋势，使用DNN进行语音二次增强，不仅可以有效去除噪声带来的影响，而且对于多种噪声环境表现出较强的鲁棒性。

Claims

1.一种基于球形麦克风阵列与深度神经网络的语音增强方法，其特征在于，具体包括如下步骤：

2.根据权利要求1所述的一种基于球形麦克风阵列与深度神经网络的语音增强方法，其特征在于，所述球形麦克风阵列为三维阵列，所述球形麦克风阵列可以得到信号的水平方向角、垂直方位角，还可以得到声源与麦克风阵列参考点距离的三维信息。

3.根据权利要求2所述的一种基于球形麦克风阵列与深度神经网络的语音增强方法，其特征在于，步骤1中，采用线性约束最小方差波束形成LCMV结构，随着输出信号的变化，对滤波的权重系数进行动态调整，适应多变的噪声，并根据DNN对残余噪声进行处理，首先将麦克风阵列各阵元接收到的信号进行时延补偿，做DFT变换到频域，然后在频域内划分子频带，在每个子频带内运用窄带LCVM算法，最后将得到的结果作IDFT逆变换回到时域。

4.根据权利要求3所述的一种基于球形麦克风阵列与深度神经网络的语音增强方法，其特征在于，步骤1中，所述麦克风阵列由多个阵元组合而成，利用时延补偿特性可以获得x_n(t)，表示时序一致的信号，然后对其采样，得到如下公式(1)：

x(n)＝1_Ms(n)+v(n) (1)；

x(k,s)＝[x₁(k,s)x₂(k,s)...x_M(K,S)]^T (2)；

由式(1)和式(2)可得式(3)：

x(k,s)＝1_Ms(k,s)+v(k,s) (3)；

5.根据权利要求2所述的一种基于球形麦克风阵列与深度神经网络的语音增强方法，其特征在于，所述球形麦克风阵列选用直径为8.4cm的球形麦克风阵列，设置球形麦克风阵列为球状且为等距分布。