CN113160797B

CN113160797B - 音频特征处理方法及装置、存储介质及电子设备

Info

Publication number: CN113160797B
Application number: CN202110447185.0A
Authority: CN
Inventors: 岑吴镕; 李骊
Original assignee: Beijing HJIMI Technology Co Ltd
Current assignee: Beijing HJIMI Technology Co Ltd
Priority date: 2021-04-25
Filing date: 2021-04-25
Publication date: 2023-06-02
Anticipated expiration: 2041-04-25
Also published as: CN113160797A

Abstract

本发明提供了一种音频特征处理方法及装置、存储介质及电子设备，该方法包括：获取待处理音频的目标音频帧的音频特征，所述音频特征由多个维度的子特征数据组成；在所述音频特征的各个维度的子特征数据中确定出所述音频特征的目标子特征数据；对所述目标子特征数据进行增强，获得增强子特征数据；将所述音频特征中的目标子特征数据替换为所述增强子特征数据，获得目标音频特征。应用本发明提供的音频特征处理方法，能够对音频特征的部分特征维度的子特征数据进行增强，从而获取到新的目标音频特征数据，能够极大的减少扩充音频特征的所花费时间，节约计算资源，提升音频特征的扩充效率。

Description

音频特征处理方法及装置、存储介质及电子设备

技术领域

本发明涉及音频数据处理技术领域，特别涉及一种音频特征处理方法及装置、存储介质及电子设备。

背景技术

随着科学技术发展，语音识别模型已广泛应用到各行各业，在各个场景发挥着非常重要的作用。语音识别模型需要大量音频特征进行训练，而在音频特征的数量不足的情况下会导致模型的训练效果不好。

目前，为了增加音频特征的数量，通常会通过对原始音频增加速度扰动、音量扰动以及增加噪声的方式扩充音频的数量，从而增加音频特征的数量，然而，采用现有的方式来扩充音频特征的数量，会导致需要处理的音频的数量增多，进而增加了音频特征的提取时间，计算资源消耗大。

发明内容

本发明所要解决的技术问题是提供一种音频特征处理方法，能够有效的减少扩充音频特征的时间。

本发明还提供了一种音频特征处理装置，用以保证上述方法在实际中的实现及应用。

一种音频特征处理方法，包括：

获取待处理音频的目标音频帧的音频特征，所述音频特征由多个维度的子特征数据组成；

在所述音频特征的各个维度的子特征数据中确定出所述音频特征的目标子特征数据；

对所述目标子特征数据进行增强，获得增强子特征数据；

将所述音频特征中的目标子特征数据替换为所述增强子特征数据，获得目标音频特征。

上述的方法，可选的，所述获取待处理音频的目标音频帧的音频特征，包括：

基于已设定的采样点数量以及移动步长对所述待处理音频进行分帧，获得所述待处理音频的各个音频帧；

在所述各个音频帧中确定所述待处理音频的目标音频帧；

对所述目标音频帧进行特征提取，获得所述目标音频帧的音频特征。

上述的方法，可选的，所述对所述目标音频帧进行特征提取，获得所述目标音频帧的音频特征，包括：

对所述目标音频帧进行预加重处理，获得第一音频帧；

为所述第一音频帧添加汉明窗，获得的第二音频帧；

对所述第二音频帧进行快速傅里叶变换，获得所述第二音频帧的频域数据；

基于所述频域数据获得所述目标音频帧对应的梅尔频谱；

依据所述梅尔频谱获得各个已设定的特征维度对应的三角滤波器；

将所述频域数据对应的能量输入至各个所述三角滤波器，获得所述目标音频的音频特征。

上述的方法，可选的，所述对所述目标子特征数据进行增强，获得增强子特征数据，包括：

确定所述目标子特征数据对应的增强倍数；

基于所述增强倍数对所述目标子特征数据进行增强，获得所述增强子特征数据。

上述的方法，可选的，还包括：

应用所述目标音频数据对预设的语音识别模型进行训练。

一种音频特征处理装置，包括：

获取单元，用于获取待处理音频的目标音频帧的音频特征，所述音频特征由多个维度的子特征数据组成；

确定单元，用于在所述音频特征的各个维度的子特征数据中确定出所述音频特征的目标子特征数据；

第一执行单元，用于对所述目标子特征数据进行增强，获得增强子特征数据；

第二执行单元，用于将所述音频特征中的目标子特征数据替换为所述增强子特征数据，获得目标音频特征。

上述的装置，可选的，所述获取单元，包括：

分帧子单元，用于基于已设定的采样点数量以及移动步长对所述待处理音频进行分帧，获得所述待处理音频的各个音频帧；

第一确定子单元，用于在所述各个音频帧中确定所述待处理音频的目标音频帧；

特征提取子单元，用于对所述目标音频帧进行特征提取，获得所述目标音频帧的音频特征。

上述的装置，可选的，所述特征提取子单元，包括：

预加重处理子单元，用于对所述目标音频帧进行预加重处理，获得第一音频帧；

第一执行子单元，用于为所述第一音频帧添加汉明窗，获得的第二音频帧；

第二执行子单元，用于对所述第二音频帧进行快速傅里叶变换，获得所述第二音频帧的频域数据；

第三执行子单元，用于基于所述频域数据获得所述目标音频帧对应的梅尔频谱；

第四执行子单元，用于依据所述梅尔频谱获得各个已设定的特征维度对应的三角滤波器；

第五执行子单元，用于将所述频域数据对应的能量输入至各个所述三角滤波器，获得所述目标音频的音频特征。

上述的装置，可选的，所述第一执行单元，包括：

第二确定子单元，用于确定所述目标子特征数据对应的增强倍数；

数据增强子单元，用于基于所述增强倍数对所述目标子特征数据进行增强，获得所述增强子特征数据。

上述的装置，可选的，还包括：模型训练单元，所述模型训练单元，用于应用所述目标音频数据对预设的语音识别模型进行训练。

一种存储介质，所述存储介质包括存储指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如上所述的音频特征处理方法。

一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如上所述的音频特征处理方法。

与现有技术相比，本发明包括以下优点：

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明提供的一种音频特征处理方法的方法流程图；

图2为本发明提供的一种获取待处理音频的目标音频帧的音频特征的过程的流程图；

图3为本发明提供的一种获得目标音频帧的音频特征的过程的流程图；

图4为本发明提供的一种音频特征处理装置的结构示意图；

图5为本发明提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本申请中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明实施例提供了一种音频特征处理方法，该方法可以应用于电子设备，所述方法的方法流程图如图1所示，具体包括：

S101：获取待处理音频的目标音频帧的音频特征，所述音频特征由多个维度的子特征数据组成。

本发明实施例提供的方法中，该目标音频帧可以为当前待处理的音频帧。

其中，该目标音频帧的数量可以为一个或多个。

具体的，该音频特征可以为Fbank特征，该音频特征是由多个维度的子特征数据组成的特征向量，该音频特征的维度数可以为71维或72维等不同数量。

可选的，获取待处理音频的目标音频帧的音频特征的一种可行的方式为对所述目标音频帧进行特征提取，获得所述目标音频帧的音频特征。

S102：在所述音频特征的各个维度的子特征数据中确定出所述音频特征的目标子特征数据。

本发明实施例提供的方法中，该目标子特征数据可以为随机确定出的子特征数据，也可以为指定维度的子特征数据。

其中，音频特征中的目标子特征数据的数量可以一个或多个。

S103：对所述目标子特征数据进行增强，获得增强子特征数据。

本发明实施例提供的方法中，可以按预设的增强方式对目标子特征数据进行增强，获得该目标子特征数据的增强子特征数据。

其中，在目标子特征数据的数量为多个的情况下，则对每个目标子特征数据进行增强，获得每个目标子特征数据的增强子特征数据。

S104：将所述音频特征中的目标子特征数据替换为所述增强子特征数据，获得目标音频特征。

本发明实施例提供的方法中，目标音频特征包含该音频特征中出该目标子特征数据以外的各个子特征数据以及该增强子特征数据。

本发明实施例提供了一种音频特征处理方法，该方法包括：获取待处理音频的目标音频帧的音频特征，所述音频特征由多个维度的子特征数据组成；在所述音频特征的各个维度的子特征数据中确定出所述音频特征的目标子特征数据；对所述目标子特征数据进行增强，获得增强子特征数据；将所述音频特征中的目标子特征数据替换为所述增强子特征数据，获得目标音频特征。应用本发明提供的音频特征处理方法，能够对音频特征的部分特征维度的子特征数据进行增强，从而获取到新的目标音频特征数据，能够极大的减少扩充音频特征的所花费时间，节约计算资源，提升音频特征的扩充效率。

在本发明实施例提供的方法中，基于上述的实施过程，具体的，所述获取待处理音频的目标音频帧的音频特征的过程，如图2所示，具体包括：

S201：基于已设定的采样点数量以及移动步长对所述待处理音频进行分帧，获得所述待处理音频的各个音频帧。

本发明实施例提供的方法中，该采样点数量可以为构成一个音频帧的采样点的数量，该移动步长的长度可以为预设数量的采样点，该预设数量可以小于该采样点数量。

其中，该采样点数量可以为任意数量，例如，可以为500或512等。

可选的，该移动步长的长度可以为160个点。

S202：在所述各个音频帧中确定所述待处理音频的目标音频帧。

本发明实施例提供的方法中，可以将待处理音频中顺序连续的多个音频帧均确定为目标音频帧，也可以将待处理音频中的当前待处理的音频帧作为目标音频帧。

S203：对所述目标音频帧进行特征提取，获得所述目标音频帧的音频特征。

本发明实施例提供的方法中，所述音频特征可以为任意类型的音频特征，可以通过预先设置的特征提取方式对目标音频帧进行特征提取，获得目标音频帧的与该特征提取方式对应的音频特征。

在本发明实施例提供的方法中，基于上述的实施过程，具体的，所述对所述目标音频帧进行特征提取，获得所述目标音频帧的音频特征的过程，如图3所示，具体包括：

S301：对所述目标音频帧进行预加重处理，获得第一音频帧。

其中，可以通过已设定的预加重公式对目标音频帧进行预加重处理，获得第一音频帧。

可选的，该预加重公式可以为：Y_t+1＝X_t+1-α*X_t。

其中，其中X_t表示t时刻采样点的数值，Y表示预加重后的采样点的值，α为预加重系数，该预加重系统的范围可以为0.95到1，该目标音频帧的第一个采样点可以不变。

S302：为所述第一音频帧添加汉明窗，获得的第二音频帧。

其中，可以通过汉明窗处理公式为第一音频帧添加汉明窗。

可选的，该汉明窗处理公式可以为：Z_n＝Y_n*h_n。

其中，其中Y表示加窗前的采样点，Z表示加窗后的采样点，h表示加窗系数。

其中，

其中，可以设置β＝0.46，N表示需要加窗的点的总数，n表示某一个采样点。

S303：对所述第二音频帧进行快速傅里叶变换，获得所述第二音频帧的频域数据。

S304：基于所述频域数据获得所述目标音频帧对应的梅尔频谱。

其中，可以通过梅尔频谱转换公式对该频域数据进行计算，获得目标音频帧对应的梅尔频谱。

可选的，该梅尔频谱转换公式可以为：

其中，Mel(f)为梅尔频谱，f为频域数据。

S305：依据所述梅尔频谱获得各个已设定的特征维度对应的三角滤波器。

其中，将梅尔频谱等分为预设维度数量的初始三角滤波器，再将各个初始三角滤波器转回频域，获得各个已设定的特征维度对应的三角滤波器。

S306：将所述频域数据对应的能量输入至各个所述三角滤波器，获得所述目标音频的音频特征。

本发明实施例提供的方法中，可以将该频域数据的实部平方加上该频域数据的虚部平方，获得该频域数据对应的能量。

可以通过各个三角滤波器对该频域数据对应的能量进行处理，获得各个特征维度的子特征数据，由各个维度的子特征数据组成目标音频的音频特征。

在本发明实施例提供的方法中，基于上述的实施过程，具体的，所述对所述目标子特征数据进行增强，获得增强子特征数据，包括：

确定所述目标子特征数据对应的增强倍数；

本发明实施例提供的方法中，可以确定预先设置的增强倍数集合，在该增强倍数集合内随机选取任意一个倍数，将已选取的倍数作为目标子特征数据对应的增强倍数。

可以将该增强倍数乘上改目标子特征数据，以实现对该目标子特征数据进行增强，获得目标子特征数据的增强子特征数据。

其中，该增强倍数集合可以依据实际需求进行设置，例如，可以为[0.95，1.05]，还可以为[0.96，1.06]。

应用本发明实施例提供的方法，能够有效的对目标子特征数据进行增强，从而能够将音频特征中除该目标子特征数据以外的各个子特征数据以及增强子特征数据，组成目标音频特征。

在本发明实施例提供的方法中，基于上述的实施过程，具体的，还包括：

应用所述目标音频数据对预设的语音识别模型进行训练。

本发明提供的音频特征处理方法，在实际应用过程中，目标音频帧的音频特征可以为Fbank特征，下面以Fbank特征为例进行说明：

第一，提取出待处理音频的Fbank特征，具体如下：

步骤a1：对该处理音频进行音频分帧，512个采样点为一帧，每次移动160个点，获得各个音频帧。

步骤a2：每一音频帧提取FBank特征：

(1)音频预加重，其公式为：Y_t+1＝X_t+1-α*X_t。

其中，X_t表示t时刻采样点的数值，Y表示预加重后的采样点的值，α为预加重系数，其范围为0.95到1，音频第一个采样点不变。

(2)添加汉明窗。

其中，添加汉明窗可以防止傅里叶变换后边缘出现震荡现象。

具体公式为：Z_n＝Y_n*h_n。

其中，Y表示加窗前的采样点，Z表示加窗后的采样点，h表示加窗系数。

其中，

可以设置β＝0.46，N表示需要加窗的点的总数，n表示某一个采样点。

(3)通过快速傅里叶变换，将预加重及加汉明窗后的音频帧从时域转换为频域，获得频域数据。

(4)通过公式

将频域数据转为梅尔频谱，而后将梅尔频谱等分为71三角滤波器，再将三角滤波器转回频域。

(5)将频域对应能量通过该三角滤波器，获得71维的特征向量。

第二，对FBank特征增强，具体如下：

对于提取到的每个一音频帧的71维Fbank特征，对每一音频帧中的71维向量(71个数)，做随机抽样一次，以从71个数中抽1个数出来，将抽到的数做随机0.95-1.05倍的大小变换，将变换后的数替换原数，获得该音频帧的目标音频特征。

其中，假设该增强倍数为0.97，抽到的数为10，则变换后的数为9.7，而后将该变换后的数9.7替换原数10。

与图1所述的方法相对应，本发明实施例还提供了一种音频特征处理装置，用于对图1中方法的具体实现，本发明实施例提供的音频特征处理装置可以应用于电子设备中，其结构示意图如图4所示，具体包括：

获取单元401，用于获取待处理音频的目标音频帧的音频特征，所述音频特征由多个维度的子特征数据组成；

确定单元402，用于在所述音频特征的各个维度的子特征数据中确定出所述音频特征的目标子特征数据；

第一执行单元403，用于对所述目标子特征数据进行增强，获得增强子特征数据；

第二执行单元404，用于将所述音频特征中的目标子特征数据替换为所述增强子特征数据，获得目标音频特征。

本发明实施例提供了一种音频特征处理装置，能够获取待处理音频的目标音频帧的音频特征，所述音频特征由多个维度的子特征数据组成；在所述音频特征的各个维度的子特征数据中确定出所述音频特征的目标子特征数据；对所述目标子特征数据进行增强，获得增强子特征数据；将所述音频特征中的目标子特征数据替换为所述增强子特征数据，获得目标音频特征。应用本发明提供的音频特征处理装置，能够对音频特征的部分特征维度的子特征数据进行增强，从而获取到新的目标音频特征数据，能够极大的减少扩充音频特征的所花费时间，节约计算资源，提升音频特征的扩充效率。

在本发明提供的一实施例中，基于上述的方案，可选的，所述获取单元401，包括：

在本发明提供的一实施例中，基于上述的方案，可选的，所述特征提取子单元，包括：

在本发明提供的一实施例中，基于上述的方案，可选的，所述第一执行单元403，包括：

在本发明提供的一实施例中，基于上述的方案，可选的，还包括：模型训练单元，所述模型训练单元，用于应用所述目标音频数据对预设的语音识别模型进行训练。

上述本发明实施例公开的音频特征处理装置中的各个单元和模块具体的原理和执行过程，与上述本发明实施例公开的音频特征处理方法相同，可参见上述本发明实施例提供的音频特征处理方法中相应的部分，这里不再进行赘述。

本发明实施例还提供了一种存储介质，所述存储介质包括存储的指令，其中，在所述指令运行时控制所述存储介质所在的设备执行上述音频特征处理方法。

本发明实施例还提供了一种电子设备，其结构示意图如图5所示，具体包括存储器501，以及一个或者一个以上的指令502，其中一个或者一个以上指令502存储于存储器501中，且经配置以由一个或者一个以上处理器503执行所述一个或者一个以上指令502进行以下操作：

对所述目标子特征数据进行增强，获得增强子特征数据；

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

以上对本发明所提供的一种音频特征处理方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频特征处理方法，其特征在于，包括：

在所述音频特征的各个维度的子特征数据中确定出所述音频特征的目标子特征数据，所述目标子特征数据为随机确定出的子特征数据，或者，指定维度的子特征数据；

对所述目标子特征数据进行增强，获得增强子特征数据；

2.根据权利要求1所述的方法，其特征在于，所述获取待处理音频的目标音频帧的音频特征，包括：

在所述各个音频帧中确定所述待处理音频的目标音频帧；

3.根据权利要求2所述的方法，其特征在于，所述对所述目标音频帧进行特征提取，获得所述目标音频帧的音频特征，包括：

对所述目标音频帧进行预加重处理，获得第一音频帧；

为所述第一音频帧添加汉明窗，获得的第二音频帧；

基于所述频域数据获得所述目标音频帧对应的梅尔频谱；

4.根据权利要求1所述的方法，其特征在于，所述对所述目标子特征数据进行增强，获得增强子特征数据，包括：

确定所述目标子特征数据对应的增强倍数；

5.根据权利要求1所述的方法，其特征在于，还包括：

应用所述目标音频数据对预设的语音识别模型进行训练。

6.一种音频特征处理装置，其特征在于，包括：

确定单元，用于在所述音频特征的各个维度的子特征数据中确定出所述音频特征的目标子特征数据，所述目标子特征数据为随机确定出的子特征数据，或者，指定维度的子特征数据；

7.根据权利要求6所述的装置，其特征在于，所述获取单元，包括：

8.根据权利要求7所述的装置，其特征在于，所述特征提取子单元，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储指令，其中，在所述指令运行时控制所述存储介质所在的设备执行如权利要求1～5任意一项所述的音频特征处理方法。

10.一种电子设备，其特征在于，包括存储器，以及一个或者一个以上的指令，其中一个或一个以上指令存储于存储器中，且经配置以由一个或者一个以上处理器执行如权利要求1～5任意一项所述的音频特征处理方法。