CN108053834B

CN108053834B - 音频数据处理方法、装置、终端及系统

Info

Publication number: CN108053834B
Application number: CN201711272872.3A
Authority: CN
Inventors: 陈日林; 陈孝良; 冯大航; 苏少炜; 常乐
Original assignee: Beijing Sound Intelligence Technology Co Ltd
Current assignee: Beijing Sound Intelligence Technology Co Ltd
Priority date: 2017-12-05
Filing date: 2017-12-05
Publication date: 2020-02-21
Anticipated expiration: 2037-12-05
Also published as: CN108053834A

Abstract

本发明实施例公开了一种音频数据处理方法、装置、终端及系统，该方法包括：获得空间滤波后的音频数据；对所述音频数据进行第一维纳滤波得到第一滤波数据；对所述音频数据进行第二维纳滤波得到第二滤波数据，第一维纳滤波对噪声的抑制程度大于第二维纳滤波；利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，根据判断结果对第二滤波数据进行数据处理。本发明实施例根据语音活动检测和自动语音识别的不同需求，分别进行不同程度的维纳滤波，不仅可以保证自动语音识别的准确率，还可以避免干扰对语音活动检测的影响，更加准确的检测到语音活动状态，缩短语音交互的反馈延时，提高对语音指令的响应速度，给用户带来更好的使用体验。

Description

音频数据处理方法、装置、终端及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种音频数据处理方法、装置、终端及系统。

背景技术

智能语音交互是人工智能领域的重要分支，实现自由准确的智能语音交互，将极大解放人的双手，获得与物理世界更加自由的信息流通与操控。智能语音交互主要近场语音交互和远场语音交互。过去二十年近场语音得到极大发展，目前近场的语音识别率接近于人的语音识别率，但是更自由的交互应该是远场语音交互。所谓远场语音交互，意味着说话人和交互设备之间有一定的距离，扩大了说话人的自由空间，但是这又会引入过多的背景噪声干扰，导致语音活动检测和自动语音识别的处理难度极大增加。

语音活动检测，即从一段连续的音频数据中检测出说话人实际录入的语音。准确的语音活动检测一方面可以提高后续自动语音识别的准确率，另一方面也可以降低语音交互的反馈延时，用户语音指令一结束就可以迅速给出执行结果，给用户带来更好的使用体验。

目前，一般采用阵列信号对原始音频数据进行处理后，利用处理后的音频数据进行语音活动检测和自动语音识别，但该处理后的音频数据仍然存在一定的干扰，会严重影响语音活动检测的准确度，导致语音活动检测的误差，从而造成对语音指令的响应迟缓。

发明内容

有鉴于此，本发明提供了一种音频数据处理方法、装置、终端及系统，能够解决现有技术中处理后的音频数据仍然存在的误差所造成的语音活动检测误差，影响语音指令响应速度的问题。

本发明实施例提供的一种音频数据处理方法，包括：

获得空间滤波后的音频数据；

对所述音频数据进行第一维纳滤波得到第一滤波数据；对所述音频数据进行第二维纳滤波得到第二滤波数据，所述第一维纳滤波对噪声的抑制程度大于所述第二维纳滤波；

利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，根据判断结果对所述第二滤波数据进行数据处理。

可选的，所述对所述音频数据分别进行第一维纳滤波和第二维纳滤波，分别得到第一滤波数据和第二滤波数据，具体包括：

利用强度系数的M次方，对所述音频数据进行所述第一维纳滤波，得到所述第一滤波数据；利用所述强度系数的N次方，对所述音频数据进行所述第二维纳滤波，得到所述第二滤波数据；M大于N。

可选的，所述利用强度系数的M次方，对所述音频数据进行所述第一维纳滤波，得到所述第一滤波数据，具体包括：

按照公式

对所述音频数据Y(jω)进行所述第一维纳滤波，得到所述第一滤波数据Y_VAD(jω)；

所述利用所述强度系数的N次方，对所述音频数据进行所述第二维纳滤波，得到所述第二滤波数据，具体包括：

按照公式

对所述音频数据Y(jω)进行所述第二维纳滤波，得到所述第二滤波数据Y_ASR(jω)；

其中，M＝1，N＝1/2，所述强度系数为

所述P_yy(jω)为所述音频数据的功率谱，P_xx(jω)为所述音频数据空间滤波前的原始音频数据的平均功率谱，EPS为极小值。

可选的，利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，之前还包括：

对所述第一滤波数据进行去干扰处理；

所述去干扰处理，包括瞬态噪声消除处理、降噪处理和噪声平滑处理中的一个或多个。

可选的，所述瞬态噪声消除处理，具体包括：

获得所述音频数据在预设频域范围内每个频域点对应的所述第一维纳滤波的增益；

统计所述音频数据在所述预设频域范围内频域点的数量，得到第一值；统计增益幅度在预设增益阈值以内的频域点的数量，得到第二值；

根据所述第一值和所述第二值，获得瞬态消除增益；

依据所述瞬态消除增益，消除所述第一滤波数据中的瞬态噪声。

可选的，所述获得空间滤波后的音频数据，具体包括：

获得录音设备采集的原始音频数据；

对所述原始音频数据进行短时傅里叶变换后，得到所述录音设备中每个通道对应的频域信号；

对所述每个通道对应的频域信号进行空间滤波处理，得到所述空间滤波后的音频数据；

利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，具体包括：

对所述第一滤波数据和所述第二滤波数据进行短时傅里叶变换的逆变换处理；

利用处理后的第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，根据判断结果对所述处理后的第二滤波数据进行数据处理。

本发明实施例还提供了一种音频数据处理方法，应用于第一终端设备，所述方法，包括：

获得空间滤波后的音频数据；

将所述第一滤波数据和所述第二滤波数据发送至第二终端设备，以使所述第二终端设备利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，并根据判断结果对所述第二滤波数据进行数据处理。

按照公式

按照公式

其中，M＝1，N＝1/2，所述强度系数为

对所述第一滤波数据进行去干扰处理；

可选的，所述瞬态噪声消除处理，具体包括：

统计所述音频数据在所述预设频域范围内频域点的数量，得到第一值；统计增益幅度在第一预设增益阈值以内的频域点的数量，得到第二值；

根据所述第一值和所述第二值，获得瞬态消除增益；

可选的，所述获得空间滤波后的音频数据，具体包括：

获得录音设备采集的原始音频数据；

对所述每个通道对应的频域信号进行空间滤波处理，得到所述空间滤波后的音频数据。

可选的，所述将所述第一滤波数据发送至第二终端设备，具体包括：

对所述第一滤波数据进行降采样处理后发送至所述第二终端设备。

可选的，所述将所述第一滤波数据和所述第二滤波数据发送至第二终端设备，具体包括：

将所述第一滤波数据和所述第二滤波数据打包压缩后，发送至所述第二终端设备。

本发明实施例提供的一种音频数据处理装置，包括：数据获取模块、第一滤波模块、第二滤波模块和第一处理模块；

所述数据获取模块，用于获得空间滤波后的音频数据；

所述第一滤波模块，用于对所述音频数据进行第一维纳滤波，得到第一滤波数据；

所述第二滤波模块，用于对所述音频数据进行第二维纳滤波，得到第二滤波数据，所述第一维纳滤波对噪声的抑制程度大于所述第二维纳滤波；

所述第一处理模块，用于利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，根据判断结果对所述第二滤波数据进行数据处理。

可选的，所述第一滤波模块，具体用于：

利用强度系数的M次方，对所述音频数据进行所述第一维纳滤波，得到所述第一滤波数据；

所述第二滤波模块，具体用于：

利用所述强度系数的N次方，对所述音频数据进行所述第二维纳滤波，得到所述第二滤波数据；

其中，M大于N。

可选的，所述第一滤波模块，包括：第一处理子模块；

所述第一处理子模块，用于按照公式

所述第二滤波模块，包括：第二处理子模块；

所述第二处理子模块，用于按照公式

其中，M＝1，N＝1/2，所述强度系数为

可选的，所述装置，还包括：第二处理模块；

所述第二处理模块，用于对所述第一滤波数据进行去干扰处理；所述去干扰处理，包括瞬态噪声消除处理、降噪处理和噪声平滑处理中的一个或多个；

所述第一处理模块，具体用于所述第二处理模块处理后的第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，根据判断结果对所述第二滤波数据进行音频识别。

可选的，当所述去干扰处理包括所述瞬态噪声消除处理时，所述第二处理模块，具体包括：降噪子模块；

所述降噪子模块，具体用于：

获得所述音频数据在预设频域范围内每个频域点对应的所述第一维纳滤波的增益；统计所述音频数据在所述预设频域范围内频域点的数量，得到第一值；统计增益幅度在第一预设增益阈值以内的频域点的数量，得到第二值；根据所述第一值和所述第二值，获得瞬态消除增益；依据所述瞬态消除增益，消除所述第一滤波数据中的瞬态噪声。

可选的，所述数据获取模块，具体用于：

获得录音设备采集的原始音频数据；对所述原始音频数据进行短时傅里叶变换后，得到所述录音设备中每个通道对应的频域信号；对所述每个通道对应的频域信号进行空间滤波处理，得到所述空间滤波后的音频数据；

所述第一处理模块，具体用于：

对所述第一滤波数据和所述第二滤波数据进行短时傅里叶变换的逆变换处理；利用利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，根据判断结果对所述处理后的第二滤波数据进行音频识别数据处理。

本发明实施例还提供了一种音频数据处理装置，应用于第一终端设备，包括：数据获取模块、第一滤波模块、第二滤波模块和数据传输模块；

所述数据获取模块，用于获得空间滤波后的音频数据；

所述数据传输模块，用于将所述第一滤波数据和所述第二滤波数据发送至第二终端设备，以使所述第二终端设备利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，并根据判断结果对所述第二滤波数据进行数据处理。

可选的，所述第一滤波模块，具体用于：

所述第二滤波模块，具体用于：

其中，M大于N。

可选的，所述第一滤波模块，包括：第一处理子模块；

所述第一处理子模块，用于按照公式

所述第二滤波模块，包括：第二处理子模块；

所述第二处理子模块，用于按照公式

其中，M＝1，N＝1/2，所述强度系数为

可选的，所述装置，还包括：数据处理模块；

所述数据处理模块，用于对所述第一滤波数据进行去干扰处理；所述去干扰处理，包括瞬态噪声消除处理、降噪处理和噪声平滑处理中的一个或多个；

所述数据传输模块，具体用于将所述数据处理模块处理后的第一滤波数据和所述第二滤波数据发送至第二终端设备，以使所述第二终端设备利用处理后的第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，并根据判断结果对所述第二滤波数据进行数据处理。

可选的，当所述去干扰处理包括所述瞬态噪声消除处理时，所述数据处理模块，具体包括：降噪子模块；

所述降噪子模块，具体用于：

可选的，所述数据获取模块，具体用于：

获得录音设备采集的原始音频数据；对所述原始音频数据进行短时傅里叶变换后，得到所述录音设备中每个通道对应的频域信号；对所述每个通道对应的频域信号进行空间滤波处理，得到所述空间滤波后的音频数据。

可选的，其特征在于，所述数据传输模块，具体用于：

可选的，数据传输模块，还具体用于：

本发明实施例还提供了一种音频数据处理终端，包括：存储器和处理器；

所述存储器，用于存储程序代码，并将所述程序代码传输至所述处理器；

所述处理器，用于根据所述程序代码中的指令，执行如权利要求1-6任意一项所述的音频数据处理方法。

本发明实施例还提供了一种音频数据处理系统，包括：第一设备和第二设备；

所述第一设备，用于获得空间滤波后的音频数据；还用于对所述音频数据分别进行第一维纳滤波和第二维纳滤波，得到第一滤波数据和第二滤波数据，所述第一维纳滤波对噪声的抑制程度大于所述第二维纳滤波；还用于将所述第一滤波数据和所述第二滤波数据发送至第二设备；

所述第二设备，用于利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，并根据判断结果对所述第二滤波数据进行音频识别。

与现有技术相比，本发明至少具有以下优点：

在本发明实施例中，对空间滤波后的音频数据分别进行不同强度的维纳滤波，得到两路对噪声抑制程度不同的滤波数据，即对噪声抑制程度较大的第一滤波数据和对噪声抑制程度较小的第二滤波数据。然后，利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，根据判断结果对第二滤波数据进行数据处理。由于第一滤波数据中对于噪声的抑制程度较高，可以较大程度的避免干扰对语音活动检测的影响，提高语音活动检测的精度和自动语音识别的响应速度。而第二滤波数据中对于噪声的抑制程度较低，可以避免较高的噪声抑制对语音识别准确度的影响。本发明实施例根据语音活动检测和自动语音识别的不同需求，分别进行不同程度的维纳滤波，不仅可以保证自动语音识别的准确率，还可以避免干扰对语音活动检测的影响，更加准确的检测到语音活动状态，缩短语音交互的反馈延时，提高对语音指令的响应速度，给用户带来更好的使用体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为现有的一种处理后的语音数据的示意图；

图2为本发明实施例提供的一种音频数据处理方法的流程示意图；

图3为本发明具体实施例中原始音频数据、第一滤波数据和第二滤波数据的示意图；

图4为本发明实施例提供的另一种音频数据处理方法的流程示意图；

图5为本发明具体实施例提供中瞬态噪声消除处理的流程示意图；

图6为本发明实施例提供的又一种音频数据处理方法的流程示意图；

图7为本发明实施例提供的一种音频数据处理装置的结构示意图；

图8为本发明实施例提供的另一种音频数据处理装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了便于理解，首先介绍本发明实施例中涉及的多个技术术语。

语音活动检测(Voice Activity Detection，VAD)又称语音端点检测、语音边界检测，是指在噪声环境中检测目标语音的存在与否。通常用于语音编码、语音增强、语音识别等语音处理系统中。

自动语音识别(Automatic Speech Recognition，ASR)是一种将人的语音转换为文本的技术。

在目前的语音交互过程中，一般是直接采用阵列信号处理输出一路语音数据，既作为ASR数据进行语音识别，又作为VAD数据判断ASR处理的开始和结束。然而，由于输出的语音数据中还存在较多的干扰，影响VAD处理的准确性，具体可参见图1，该图示出了现有的一种处理后的语音数据。从图1中可看出，用户实际输入的语音指令起始于节点A、结束于节点B。而利用该数据进行VAD处理所得到的语音指令结束于节点B’，即在节点B’处才会判断语音指令数据结束，然后根据节点A和节点B’之间的数据进行ASR处理。这不仅会导致对语音指令的响应速度缓慢，还会影响ASR处理的速度，造成对语音指令的响应迟缓。

本发明的发明人在研究中发现，ASR处理需要保证输入的音频数据尽量保持较小的非线性失真，而VAD处理却需要对干扰进行较高程度的抑制，但对干扰的抑制效果越高，则会导致引入的非线性失真越多。然而，若处理后的数据对噪声的抑制程度较高，则会因非线性效应导致语音数据发生畸变，降低语音识别的准确性；若保证语音识别的准确性，则数据中又会存在较多的干扰严重影响VAD的判断结果，造成VAD检测误差，影响语音指令的响应速度。即，同一输入数据不能同时满足ASR处理和VAD处理对输入数据噪声抑制程度的需求。

为此，本发明实施例提供了一种音频数据处理方法、装置、终端及系统，根据ASD和VAD处理不同的噪声抑制需求，对空间滤波后的音频数据分别进行不同强度的维纳滤波，得到对噪声抑制程度不同的两路数据，利用对噪声抑制程度较高的滤波后数据进行VAD处理，对语音指令进行判断处理开始节点以及结束节点，利用对噪声抑制程度较低的滤波后数据进行ASR处理，在保证ASR处理准确率的基础上，最大程度的减少数据中不利于VAD处理的信号成分，提高VAD处理和判断的准确性，从而提高了ASR处理的速度和对语音指令的响应速度。

基于上述思想，为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

参见图2，该图为本发明实施例提供的一种音频数据处理方法的流程示意图。

首先需要说明的是，本发明实施例提供的一种音频数据处理方法，可以应用于任一终端设备，该终端设备可配置或连接有多通道收音麦克风，以接收用户输入的语音指令。作为一个示例，该终端设备具体可以是智能手机、平板电脑、个人电脑和服务器等，这里不再一一列举。

本发明实施例提供的音频数据处理方法，具体包括以下步骤S201-S203。

S201：获得空间滤波后的音频数据Y(jω)。

由于在实际应用中，用户输入的语音(如语音指令等)一般是通过多个麦克风收音得到，在不同空间及麦克风通道中收音得到的原始音频数据中干扰不同。因此，为了对应空间的不同以去除原始音频数据中的噪声干扰，需要依据空间的不同对进行空间滤波处理，以得到初步出去干扰后的音频数据(即空间滤波后的音频数据Y(jω))。

还需要说明的是，在进行空间滤波之前，还可以先对用户输入的语音进行预处理，具体可以包括去直流偏置、加窗函数等，再对处理后的音频进行短时傅里叶变换(ShortTime Fourier Transform，STFT)，获得用户输入的语音在不同频域下的频域信号X₁(jω)、X₂(jω)、……、X_N(jω)。然后，对该频域信号X₁(jω)、X₂(jω)、……、X_N(jω)进行空间滤波处理即可得到Y(jω)。

即，在本发明实施例可能的实现方式中，步骤S201具体可以包括：获得录音设备采集的原始音频数据；对原始音频数据进行短时傅里叶变换后，得到录音设备中每个通道对应的频域信号X₁(jω)、X₂(jω)、……、X_N(jω)；对每个通道对应的频域信号进行空间滤波处理，得到空间滤波后的音频数据Y(jω)。

在具体实施时，可以利用广义旁瓣对消器(General Sidelobe Cancellation，GSC)或最小方差无畸变响应(Minimum Variance Distortionless Response，MVDR)波束形成器以获得Y(jω)，具体的处理方法这里不再赘述。

S202：对空间滤波后的音频数据分别进行第一维纳滤波和第二维纳滤波，分别得到第一滤波数据和第二滤波数据，第一维纳滤波对噪声的抑制程度大于第二维纳滤波。

在本发明实施例中，为了满足ASR处理和VAD处理对输入的音频数据噪声抑制程度的不同需求，针对ASR处理和VAD处理，对空间滤波后的音频数据Y(jω)分别进行不同强度的维纳滤波，以保证ASR处理和VAD处理的准确性。对音频数据Y(jω)进行噪声抑制程度较高的第一维纳滤波，最大程度的减少音频数据Y(jω)中不利于VAD处理的信号成分，减少第一滤波数据中对VAD处理的干扰，提高VAD处理的准确性。对音频数据Y(jω)进行噪声抑制程度较低的第二维纳滤波，避免畸变对ASR处理的影响，保证ASR处理的识别准确性。这样，不仅可以保证对语音指令的识别准确性，还可以提高VAD处理的准确性，及时对语音指令做出响应，

在实际应用中，可以通过调整维纳滤波的强度系数以对空间滤波后的音频数据进行不同噪声抑制程度的维纳滤波，得到第一滤波数据和第二滤波数据。

在本发明实施例的一些可能的实现方式中，上述步骤S202具体可以包括如下步骤：

利用强度系数的M次方，对空间滤波后的音频数据Y(jω)进行第一维纳滤波，得到第一滤波数据；利用强度系数的N次方，对空间滤波后的音频数据Y(jω)进行第二维纳滤波，得到第二滤波数据；其中，M大于N。

需要说明的是，强度系数影响维纳滤波中对噪声的抑制程度，强度系数越大对噪声的抑制程度越高。因此，在本发明实施例中，利用同一强度系数的不同幂次方进行第一维纳滤波和第二维纳滤波，即可得到对噪声抑制程度不同的第一滤波数据和第二滤波数据。

作为一个示例，可以将该强度系数设为

M和N分别取1和1/2。其中，P_yy(jω)为音频数据的功率谱，具体可通过下式(1)求得；P_xx(jω)为音频数据在空间滤波前的原始音频数据的平均功率谱，具体可通过下式(2)求得；EPS为极小值。

P_yy(jω)＝αP_yy(jω)+(1-α)Y(jω)Y^*(jω) (1)

在实际应用中，可以利用一阶平滑方式得到稳定功率谱P_xx(jω)和P_yy(jω)。

则，对音频数据Y(jω)进行第一维纳滤波，得到第一滤波数据Y_VAD(jω)，具体可以利用下式(3)：

则对音频数据Y(jω)进行第二维纳滤波，得到第二滤波数据Y_ASR(jω)，具体可以利用下式(4)：

S203：利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，根据判断结果对第二滤波数据进行数据处理。

可以理解的是，第一滤波数据中去除了对VAD处理的影响，利用第一滤波数据即可对第二滤波数据中目标语音(如语音指令等)进行准确的识别，判断对第二滤波数据处理的开始节点和结束节点。根据判断的结果对第二滤波数据进行数据处理(如自动语音识别等)，可以在保证处理准确性的基础上，提高数据处理的响应速度。

还需要说明的是，在具体实施时，在步骤S203之前需要将处理后的频域信号进行短时傅里叶变换的逆变换(Inverse Short-Time Fourier Transform，ISTFT)得到时域信号，通过加窗叠加得到第一滤波数据和第二滤波数据，再进行判断和数据处理。

下面结合具体场景，详细说明本发明实施例的上述优点。参见图3，该图示出了本发明具体实施例中原始音频数据、第一滤波数据和第二滤波数据。其中，原始音频数据携带语音指令和干扰，对原始音频数据进行噪声抑制强度较高的第一维纳滤波后得到第一滤波数据，对原始音频数据进行噪声抑制强度较低的第二维纳滤波后得到第二滤波数据。从图3中可看出，利用第二滤波数据可以保证语音识别的准确性；利用第一维纳滤波可以提高判断的准确性，更加准确的检测到语音活动状态，缩短语音交互的反馈延时，提高对语音指令的响应速度，给用户带来更好的使用体验。

参见图4，该图为本发明实施例提供的另一种音频数据处理方法的流程示意图。

为了进一步提高判断的准确性，本发明实施例在步骤S203之前，还包括：

S204：对第一滤波数据进行去干扰处理。

在本发明实施例中，上述去干扰处理，具体可以包括：瞬态噪声消除处理、降噪处理和噪声平滑处理中的一个或多个。具体实施时，可以对第一滤波数据逐一执行瞬态噪声消除处理、降噪处理和噪声平滑处理。

下面对瞬态噪声消除处理、降噪处理和噪声平滑处理进行说明。

首先，瞬态噪声消除处理，如图5所示，具体包括如下步骤S501-S503。

S501：获得音频数据在预设频域范围内每个频域点对应的第一维纳滤波的增益。

在本申请实施例中，第一维纳滤波的增益即上述强度系数对应与每一频域的值。作为一个示例，每个频域点对应的第一维纳滤波的增益即

对应于每个频域的取值。

S502：统计音频数据在预设频域范围内频域点的数量，得到第一值；统计增益幅度在预设增益阈值以内的频域点的数量，得到第二值。

S503：根据第一值和第二值，获得瞬态消除增益。

需要说明的是，由于高频衰减和反射造成高频随机性较高，因此，为获得更高稳健性，仅统计一定频率以内增益小于某个阈值的比例，以此为依据对第一滤波数据进行噪声平滑处理。

具体实施时，预设平频域范围可以取0-2000Hz，预设增益阈值可以取0.3。

在一个例子中，瞬态消除增益gain可以依据下式(5)得到。

其中，all_bin为第一值，count_bin为第二值。

S504：依据瞬态消除增益，消除第一滤波数据中的瞬态噪声。

在本发明实施例中，可以通过将对第一滤波数据施加瞬态消除增益以消除第一滤波数据中的瞬态噪声。

其次，降噪处理具体可以采用任意一种降噪算法，这里不再一一赘述。

最后，噪声平滑处理，具体可以通过对第一滤波数据进行噪声估计实现。

在一个例子中，先对加窗处理后的每帧第一滤波数据，计算其一阶平滑功率谱P_noise(jω)，具体可利用上式(1)求得。然后，比较每一帧第一滤波数据的一阶平滑功率谱，更新历史最小功率谱minP_noise(jω)，如下式(6)，

其中，β和ρ均为系数。

对第一滤波数据的起始若干帧(如50帧)的噪声估计为该帧的一阶平滑功率谱P_noise(jω)；对若干帧之后每一帧的噪声估计为当前的历史最小功率谱minP_noise(jω)。而后，将第一滤波数据的每一帧上叠加该帧的噪声估计，即可使第一滤波数据的噪声平稳，避免噪声突变导致VAD处理的误差。

基于上述实施例提供的音频数据处理方法，本发明实施例还提供了另一种音频数据处理方法，由第一终端设备(如智能手机、平板电脑、服务器等)负责原始音频数据的处理，得到第一滤波数据和第二滤波数据，由第二终端设备(如服务器)负责判断及数据处理过程，不仅可以保证第一终端设备上的数据运算量不会过大，还可以在第二终端设备上采用更负责的VAD处理算法，得到更加准确的VAD处理结果。

具体的，参见图6，该图为本发明实施例提供的又一种音频数据处理方法的流程示意图。

本发明实施例提供的一种音频数据处理方法，应用于第一终端设备，具体可以包括如下步骤S601-S603。

S601：获得空间滤波后的音频数据。

可选的，步骤S601，具体包括：获得录音设备采集的原始音频数据；对原始音频数据进行短时傅里叶变换后，得到录音设备中每个通道对应的频域信号；对每个通道对应的频域信号进行空间滤波处理，得到空间滤波后的音频数据。

S602：对音频数据分别进行第一维纳滤波和第二维纳滤波，分别得到第一滤波数据和第二滤波数据，第一维纳滤波对噪声的抑制程度大于第二维纳滤波。

在本发明实施例可能的实现方式中，步骤S602，具体可以包括：

利用强度系数的M次方，对音频数据进行第一维纳滤波，得到第一滤波数据；利用强度系数的N次方，对音频数据进行第二维纳滤波，得到第二滤波数据；其中，M大于N。

可选的，利用强度系数的M次方，对音频数据进行第一维纳滤波，得到第一滤波数据，具体包括：

按照公式对音频数据Y(jω)进行第一维纳滤波，得到第一滤波数据Y_VAD(jω)。

利用强度系数的N次方，对音频数据进行第二维纳滤波，得到第二滤波数据，具体包括：

按照公式

对音频数据Y(jω)进行第二维纳滤波，得到第二滤波数据Y_ASR(jω)。

其中，M＝1，N＝1/2，强度系数为

P_yy(jω)为音频数据的功率谱，P_xx(jω)为音频数据空间滤波前的原始音频数据的平均功率谱，EPS为极小值。

可以理解的是，本实施例中步骤S601-S602与上述实施例中的步骤S201-S205类似，具体参见上述相关说明即可，不再赘述。

在本发明实施例可能的实现方式中，步骤S603之前还包括：对第一滤波数据进行去干扰处理。具体的，去干扰处理，可以包括瞬态噪声消除处理、降噪处理和噪声平滑处理中的一个或多个。

其中，作为一个示例，瞬态噪声消除处理，具体可以包括：

获得音频数据在预设频域范围内每个频域点对应的第一维纳滤波的增益；统计音频数据在预设频域范围内频域点的数量，得到第一值；统计增益幅度在第一预设增益阈值以内的频域点的数量，得到第二值；根据第一值和第二值，获得瞬态消除增益；依据瞬态消除增益，消除第一滤波数据中的瞬态噪声。

可以理解的是，本实施例中的去干扰处理与上述实施例中所述的去干扰处理类似，具体参见相关说明即可，这里不再赘述。

S603：将第一滤波数据和第二滤波数据发送至第二终端设备，以使第二终端设备利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，并根据判断结果对第二滤波数据进行数据处理。

可以理解的是，对音频数据的滤波处理，以及，利用滤波后的数据进行判断和数据处理，分别由不同的终端设备(或服务器)负责执行，不仅可以保证滤波处理的准确性和处理速度，还可以采用更加复杂的VAD算法和ASR算法，保证获得准确的判断结果的语音识别结果。

在本发明实施例可能的实现方式中，为了减少数据的传输量提高数据的传输速度，进而提高对语音指令的响应速度，将第一滤波数据上传至服务器，具体可以包括：

对第一滤波数据进行降采样处理后发送至第二终端设备。

作为一个示例，可以将第一滤波数据的采样率由16kHz降为8kHz。

可选的，将第一滤波数据和第二滤波数据上传至服务器，具体包括：

将第一滤波数据和第二滤波数据打包压缩后，发送至第二终端设备。

在本发明实施例中，第一终端设备对空间滤波后的音频数据分别进行不同强度的维纳滤波，得到两路对噪声抑制程度不同的滤波数据，即对噪声抑制程度较大的第一滤波数据和对噪声抑制程度较小的第二滤波数据，发送至第二终端设备。然后，第二终端设备利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，根据判断结果对第二滤波数据进行数据处理。由于第一滤波数据中对于噪声的抑制程度较高，可以较大程度的避免干扰对语音活动检测的影响，提高语音活动检测的精度和自动语音识别的响应速度。而第二滤波数据中对于噪声的抑制程度较低，可以避免较高的噪声抑制对语音识别准确度的影响。对音频数据的滤波处理，以及，利用滤波后的数据进行判断和数据处理，分别由第一终端设备和第二终端设备负责执行，不仅可以保证滤波处理的准确性和处理速度，还可以采用更加复杂的VAD算法和ASR算法，保证获得准确的判断结果的语音识别结果。本发明实施例根据语音活动检测和自动语音识别的不同需求，分别进行不同程度的维纳滤波，不仅可以保证自动语音识别的准确率，还可以避免干扰对语音活动检测的影响，更加准确的检测到语音活动状态，缩短语音交互的反馈延时，提高对语音指令的响应速度，给用户带来更好的使用体验。

基于上述实施例提供的音频数据处理方法，本发明实施例还提供了一种音频数据处理装置。

参见图7，该图为本发明实施例提供的一种音频数据处理装置的结构示意图。

本发明实施例提供的一种音频数据处理装置，包括：数据获取模块701、第一滤波模块702、第二滤波模块703和第一处理模块704；

数据获取模块701，用于获得空间滤波后的音频数据；

第一滤波模块702，用于对数据获取模块701获得的音频数据进行第一维纳滤波，得到第一滤波数据；

第二滤波模块703，用于对数据获取模块701获得的音频数据进行第二维纳滤波，得到第二滤波数据，第一维纳滤波对噪声的抑制程度大于第二维纳滤波；

第一处理模块704，用于利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，根据判断结果对第二滤波数据进行数据处理。

在本发明实施例可能的实现方式中，第一滤波模块702，具体用于：利用强度系数的M次方，对音频数据进行第一维纳滤波，得到第一滤波数据；

第二滤波模块703，具体用于：利用强度系数的N次方，对音频数据进行第二维纳滤波，得到第二滤波数据；其中，M大于N。

在本发明实施例可能的实现方式中，第一滤波模块702，包括：第一处理子模块；

第一处理子模块，用于按照公式

对音频数据Y(jω)进行第一维纳滤波，得到第一滤波数据Y_VAD(jω)；

第二滤波模块703，包括：第二处理子模块；

第二处理子模块，用于按照公式

对音频数据Y(jω)进行第二维纳滤波，得到第二滤波数据Y_ASR(jω)；

其中，M＝1，N＝1/2，强度系数为

在本发明实施例可能的实现方式中，该音频数据处理装置，还包括：第二处理模块；

第二处理模块，用于对第一滤波数据进行去干扰处理；去干扰处理，包括瞬态噪声消除处理、降噪处理和噪声平滑处理中的一个或多个；

第一处理模块704，具体用于利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，根据判断结果对第二滤波数据进行音频识别。

可选的，当去干扰处理包括瞬态噪声消除处理时，第二处理模块，具体包括：降噪子模块；

降噪子模块，具体用于：

在本发明实施例可能的实现方式中，数据获取模块701，具体用于：

获得录音设备采集的原始音频数据；对原始音频数据进行短时傅里叶变换后，得到录音设备中每个通道对应的频域信号；对每个通道对应的频域信号进行空间滤波处理，得到空间滤波后的音频数据；

第一处理模块704，具体用于：

对第一滤波数据和第二滤波数据进行短时傅里叶变换的逆变换处理；利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，根据判断结果对处理后的第二滤波数据进行音频识别数据处理。

基于上述实施例提供的音频数据处理方法和装置，本发明实施例还提供了另一种音频数据处理装置。

参见图8，该图为本发明实施例提供的另一种音频数据处理装置的结构示意图。

本发明实施例提供的一种音频数据处理装置，应用于第一终端设备，包括：数据获取模块801、第一滤波模块802、第二滤波模块803和数据传输模块804；

数据获取模块801，用于获得空间滤波后的音频数据；

第一滤波模块802，用于对数据获取模块801获得的音频数据进行第一维纳滤波，得到第一滤波数据；

第二滤波模块803，用于对数据获取模块801获得的音频数据进行第二维纳滤波，得到第二滤波数据，第一维纳滤波对噪声的抑制程度大于第二维纳滤波；

数据传输模块804，用于将第一滤波数据和第二滤波数据发送至第二终端设备，以使第二终端设备利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，并根据判断结果对第二滤波数据进行数据处理。

在本发明实施例可能的实现方式中，第一滤波模块802，具体用于：利用强度系数的M次方，对音频数据进行第一维纳滤波，得到第一滤波数据；第二滤波模块803，具体用于：利用强度系数的N次方，对音频数据进行第二维纳滤波，得到第二滤波数据；其中，M大于N。

可选的，第一滤波模块802，包括：第一处理子模块；第二滤波模块801，包括：第二处理子模块；

第一处理子模块，用于按照公式

第二处理子模块，用于按照公式

其中，M＝1，N＝1/2，强度系数为P_yy(jω)为音频数据的功率谱，P_xx(jω)为音频数据空间滤波前的原始音频数据的平均功率谱，EPS为极小值。

在本发明实施例可能的实现方式中，该音频数据处理装置，还包括：数据处理模块；

数据处理模块，用于对第一滤波数据进行去干扰处理；去干扰处理，包括瞬态噪声消除处理、降噪处理和噪声平滑处理中的一个或多个；

数据传输模块804，具体用于将数据处理模块处理后的第一滤波数据和第二滤波数据发送至第二终端设备，以使第二终端设备利用处理后的，第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，并根据判断结果对第二滤波数据进行数据处理。

可选的，当去干扰处理包括瞬态噪声消除处理时，数据处理模块，具体包括：降噪子模块；

降噪子模块，具体用于：

在本发明实施例可能的实现方式中，数据获取模块801，具体用于：

获得录音设备采集的原始音频数据；对原始音频数据进行短时傅里叶变换后，得到录音设备中每个通道对应的频域信号；对每个通道对应的频域信号进行空间滤波处理，得到空间滤波后的音频数据。

在本发明实施例可能的实现方式中，数据传输模块804，具体用于：对第一滤波数据进行降采样处理后发送至第二终端设备。

可选的，数据传输模块804，还具体用于：将第一滤波数据和第二滤波数据打包压缩后，发送至第二终端设备。

基于上述实施例提供的音频数据处理方法及装置，本发明实施例还提供了一种音频数据处理终端。该音频数据处理终端，包括：存储器和处理器。其中，存储器，用于存储程序代码，并将程序代码传输至处理器；处理器，用于根据程序代码中的指令，执行如上述任意实施例所述的音频数据处理方法。

基于上述实施例提供的音频数据处理方法及装置，本发明实施例还提供了一种音频数据处理系统。该音频数据处理系统，包括：第一设备和第二设备；

第一设备，用于获得空间滤波后的音频数据；还用于对音频数据分别进行第一维纳滤波和第二维纳滤波，得到第一滤波数据和第二滤波数据，第一维纳滤波对噪声的抑制程度大于第二维纳滤波；还用于将第一滤波数据和第二滤波数据发送至第二设备；

第二设备，用于利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，并根据判断结果对第二滤波数据进行音频识别。

需要说明的是，本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法、装置或系统而言，由于其与实施例公开的方法相对应，所以描述比较简单，相关之处参见方法部分说明即可。

还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。任何熟悉本领域的技术人员，在不脱离本发明技术方案范围情况下，都可利用上述揭示的方法和技术内容对本发明技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本发明技术方案保护的范围内。

Claims

1.一种音频数据处理方法，其特征在于，所述方法，包括：

获得空间滤波后的音频数据；

对所述音频数据进行第一维纳滤波得到第一滤波数据；对所述音频数据进行第二维纳滤波得到第二滤波数据；所述第一维纳滤波对噪声的抑制程度大于所述第二维纳滤波；

2.根据权利要求1所述的方法，其特征在于，所述对所述音频数据分别进行第一维纳滤波和第二维纳滤波，分别得到第一滤波数据和第二滤波数据，具体包括：

3.根据权利要求2所述的方法，其特征在于，

所述利用强度系数的M次方，对所述音频数据进行所述第一维纳滤波，得到所述第一滤波数据，具体包括：

按照公式

按照公式

其中，M＝1，N＝1/2，所述强度系数为

4.根据权利要求1所述的方法，其特征在于，利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，之前还包括：

对所述第一滤波数据进行去干扰处理；

5.根据权利要求4所述的方法，其特征在于，所述瞬态噪声消除处理，具体包括：

根据所述第一值和所述第二值，获得瞬态消除增益；

6.一种音频数据处理方法，其特征在于，应用于第一终端设备，所述方法，包括：

获得空间滤波后的音频数据；

7.根据权利要求6所述的方法，其特征在于，所述对所述音频数据分别进行第一维纳滤波和第二维纳滤波，分别得到第一滤波数据和第二滤波数据，具体包括：

8.根据权利要求6所述的方法，其特征在于，利用所述第一滤波数据判断对第二滤波数据处理的开始节点和结束节点，之前还包括：

对所述第一滤波数据进行去干扰处理；

9.根据权利要求6-8任意一项所述的方法，其特征在于，所述将所述第一滤波数据和所述第二滤波数据发送至第二终端设备，具体包括：

对所述第一滤波数据进行降采样处理；

将处理后的第一滤波数据和所述第二滤波数据发送至所述第二终端设备；或者，将处理后的第一滤波数据和所述第二滤波数据打包压缩后，发送至所述第二终端设备。

10.一种音频数据处理装置，其特征在于，所述装置，包括：数据获取模块、第一滤波模块、第二滤波模块和第一处理模块；

所述数据获取模块，用于获得空间滤波后的音频数据；

11.一种音频数据处理装置，其特征在于，应用于第一终端设备，所述装置，包括：数据获取模块、第一滤波模块、第二滤波模块和数据传输模块；

所述数据获取模块，用于获得空间滤波后的音频数据；

12.一种音频数据处理终端，其特征在于，包括：存储器和处理器；

13.一种音频数据处理系统，其特征在于，包括：第一设备和第二设备；

所述第一设备，用于获得空间滤波后的音频数据；还用于对所述音频数据进行第一维纳滤波得到第一滤波数据；对所述音频数据进行第二维纳滤波得到第二滤波数据；所述第一维纳滤波对噪声的抑制程度大于所述第二维纳滤波；还用于将所述第一滤波数据和所述第二滤波数据发送至第二设备；