CN109829067B

CN109829067B - 音频数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN109829067B
Application number: CN201910165235.9A
Authority: CN
Inventors: 张文文; 李岩; 姜涛
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-03-05
Filing date: 2019-03-05
Publication date: 2020-12-29
Anticipated expiration: 2039-03-05
Also published as: CN109829067A

Abstract

本公开是关于一种音频数据处理方法、装置、电子设备及存储介质，涉及多媒体技术领域，所述方法包括：对音频文件进行特征提取，得到音频文件的多个第一音频片段的第一特征；调用情感识别模型，将多个第一音频片段的第一特征输入情感识别模型中，输出多个第一音频片段的情感程度值；根据多个第一音频片段的情感程度值，将音频文件中总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段，作为音频文件的高潮片段。本公开实施例并非简单的检测音频文件中重复的部分，而是对音频文件的各个部分的情感进行分析，从而将情感表达的相对激烈的部分作为高潮片段，音频数据处理方法的准确率高。

Description

音频数据处理方法、装置、电子设备及存储介质

技术领域

本公开涉及多媒体技术领域，尤其涉及一种音频数据处理方法、装置、电子设备及存储介质。

背景技术

随着多媒体技术的发展，人们经常使用音频播放应用播放音频文件。例如，可以使用音频播放软件播放歌曲。每首歌曲通常包括高潮片段，其中，高潮片段是指歌曲中乐思最集中、情绪最紧张和情感最丰富的片段。

相关技术中，音频数据处理方法通常是对音频文件进行检测，将该音频文件中重复次数最多的部分作为该音频文件的高潮片段。而一些歌曲中重复次数最多的不一定是高潮片段，例如，一些歌曲中主歌和副歌的重复次数相同，其中，副歌即为该歌曲的高潮片段。通过上述方法中则无法获取该歌曲的高潮片段，因而，上述音频数据处理方法的准确率低。

发明内容

本公开提供一种音频数据处理方法、装置、电子设备及存储介质，能够克服准确率低的问题。

根据本公开实施例的第一方面，提供一种音频数据处理方法，包括：

对音频文件进行特征提取，得到所述音频文件的多个第一音频片段的第一特征；

调用情感识别模型，将所述多个第一音频片段的第一特征输入所述情感识别模型中，输出所述多个第一音频片段的情感程度值；

根据所述多个第一音频片段的情感程度值，将所述音频文件中总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段，作为所述音频文件的高潮片段，所述第二音频片段与所述第一音频片段相同，或所述第二音频片段与所述第一音频片段不同。

在一种可能实现方式中，所述根据所述多个第一音频片段的情感程度值，将所述音频文件中总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段，作为所述音频文件的高潮片段，包括：

获取所述音频文件的多个候选高潮片段，每个候选高潮片段为总长度为所述目标长度的至少一个连续的第二音频片段；

根据所述多个第一音频片段的情感程度值，获取每个候选高潮片段所包括的第二音频片段的情感程度值的和值；

将所述和值最大的候选高潮片段作为所述音频文件的高潮片段。

在一种可能实现方式中，所述根据所述多个第一音频片段的情感程度值，获取每个候选高潮片段所包括的第二音频片段的情感程度值的和值，包括：

根据所述多个第一音频片段的情感程度值，确定所述音频文件中每个第二音频片段的情感程度值；获取每个候选高潮片段包括的至少一个连续的第二音频片段的情感程度值的和值；或，

对于每个候选高潮片段，根据所述多个第一音频片段的情感程度值，获取所述候选高潮片段包括的每个第二音频片段的情感程度值；获取所述候选高潮片段包括的至少一个连续的第二音频片段的情感程度值的和值。

输出所述总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段的播放起始点和播放结束点；或，

从所述音频文件中，截取所述总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段对应的片段作为所述音频文件的高潮片段；或，

对所述总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段进行拼接，得到所述音频文件的高潮片段。

在一种可能实现方式中，所述对音频文件进行特征提取，得到所述音频文件的多个第一音频片段的第一特征，包括：

对所述音频文件进行分段，得到所述音频文件的多个第一音频片段；

对每个第一音频片段进行重采样，得到所述每个第一音频片段的第一特征。

在一种可能实现方式中，所述对每个第一音频片段进行重采样，得到所述每个第一音频片段的第一特征，包括：

按照目标采样率和目标窗函数，对所述每个第一音频片段进行音频处理，得到所述每个第一音频片段的梅尔尺度的第一特征；

基于第一目标函数，对所述每个第一音频片段的梅尔尺度的第一特征进行处理，得到对数尺度的第一特征。

在一种可能实现方式中，所述将所述多个第一音频片段的第一特征输入所述情感识别模型中，输出所述多个第一音频片段的情感程度值，包括：

将所述多个第一音频片段的第一特征输入所述情感识别模型中，由所述情感识别模型对每个第一音频片段的第一特征进行特征提取，得到所述每个第一音频片段的第二特征；

由所述情感识别模型基于所述每个第一音频片段的第二特征和所述第二特征中每位特征值的位置信息，获取所述每个第一音频片段的情感程度值，所述第二特征中每位特征值的位置信息用于指示所述位特征值在所述第一音频片段中对应的位置；

输出所述多个第一音频片段的情感程度值。

在一种可能实现方式中，所述由所述情感识别模型对每个第一音频片段的第一特征进行特征提取，得到所述每个第一音频片段的第二特征，包括：

由所述情感识别模型中的卷积层对所述每个第一音频片段的第一特征进行计算，得到所述每个第一音频片段的第二特征。

在一种可能实现方式中，所述基于所述每个第一音频片段的第二特征和所述第二特征中每位特征值的位置信息，获取所述每个第一音频片段的情感程度值，包括：

获取所述第二特征中每位特征值的位置信息；

基于所述每个第一音频片段的第二特征和所述第二特征中每位特征值的位置信息，得到所述每个第一音频片段的第三特征；

基于所述情感识别模型中的全连接层，对所述每个第一音频片段的第三特征进行计算，得到所述每个第一音频片段的情感程度值。

在一种可能实现方式中，所述基于所述情感识别模型中的全连接层，对所述每个第一音频片段的第三特征进行计算，得到所述每个第一音频片段的情感程度值，包括：

基于所述情感识别模型中的全连接层，对所述每个第一音频片段的第三特征进行计算，得到所述第三特征对应的计算结果；

通过第二目标函数，对所述每个第一音频片段的第三特征对应的计算结果进行计算，得到所述每个第一音频片段的情感程度值。

在一种可能实现方式中，所述情感识别模型的训练过程包括：

获取多个样本音频文件，每个样本音频文件携带有情感标签，所述情感标签用于表示样本音频文件的情感倾向；

对每个样本音频文件进行特征提取，得到每个样本音频文件的多个第一音频片段的第一特征；

调用初始模型，将所述多个样本音频文件的多个第一音频片段的第一特征输入初始模型中，对于每个第一音频片段，由所述初始模型基于所述第一音频片段的第一特征，得到所述第一音频片段的第二特征；

由所述初始模型基于所述第一音频片段的第二特征，对所述第一音频片段进行分类，得到所述第一音频片段的分类结果，所述分类结果用于表示所述第一音频片段的情感倾向；

由所述初始模型基于所述第二特征，获取所述第一音频片段的情感程度值；

对于每个样本音频文件，由所述初始模型基于所述样本音频文件的多个第一音频片段的分类结果和情感程度值，输出所述样本音频文件的分类结果，所述分类结果用于表示所述样本音频文件的分类结果；

基于所述多个样本音频文件的分类结果以及每个样本音频文件携带的情感标签，对所述初始模型的模型参数进行调整，直到符合目标条件，得到情感识别模型，所述模型参数包括基于所述第二特征获取第一音频片段的情感程度值所需的参数。

根据本公开实施例的第二方面，提供一种音频数据处理装置，包括：

特征提取模块，被配置为执行对音频文件进行特征提取，得到所述音频文件的多个第一音频片段的第一特征；

情感识别模块，被配置为执行调用情感识别模型，将所述多个第一音频片段的第一特征输入所述情感识别模型中，输出所述多个第一音频片段的情感程度值；

片段获取模块，被配置为执行根据所述多个第一音频片段的情感程度值，将所述音频文件中总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段，作为所述音频文件的高潮片段，所述第二音频片段与所述第一音频片段相同，或所述第二音频片段与所述第一音频片段不同。

在一种可能实现方式中，所述片段获取模块被配置为执行：

获取所述音频文件的多个候选高潮片段，每个候选高潮片段为总长度为所述目标长度的至少一个连续的第一音频片段；

在一种可能实现方式中，所述片段获取模块被配置为执行：

在一种可能实现方式中，所述特征提取模块被配置为执行：

在一种可能实现方式中，所特征提取模块被配置为执行：

在一种可能实现方式中，所述情感识别模块被配置为执行：

输出所述多个第一音频片段的情感程度值。

在一种可能实现方式中，所述情感识别模块被配置为执行由所述情感识别模型中的卷积层对所述每个第一音频片段的第一特征进行计算，得到所述每个第一音频片段的第二特征。

在一种可能实现方式中，所述情感识别模块被配置为执行：

获取所述第二特征中每位特征值的位置信息；

在一种可能实现方式中，所述情感识别模块被配置为执行：

在一种可能实现方式中，所述装置还包括模型训练模块，所述模型训练模块被配置为执行：

根据本公开实施例的第三方面，提供一种电子设备，该电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，该非临时性计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种音频数据处理方法，所述方法包括：

根据本公开实施例的第五方面，提供一种应用程序，包括一条或多条指令，该一条或多条指令可以由电子设备的处理器执行时，使得电子设备能够执行一种音频数据处理方法，所述方法包括：

本公开的实施例提供的技术方案可以包括以下有益效果：本公开实施例通过对音频文件进行分段，对每个第一音频片段进行情感分析，确定每个第一音频片段的情感程度值，从而根据高潮片段的长度，将相同长度的情感程度值的和值最大的部分作为音频文件的高潮片段，并非简单的检测音频文件中重复的部分，而是对音频文件的各个部分的情感进行分析，从而将情感表达的相对激烈的部分作为高潮片段，这样得到的高潮片段的准确度较高，音频数据处理方法的准确率高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种音频数据处理方法的流程图。

图2是根据一示例性实施例示出的一种音频数据处理方法的流程图。

图3是根据一示例性实施例示出的一种情感识别模型的训练过程的流程图。

图4是根据一示例性实施例示出的一种情感识别模型的网络结构示意图。

图5是根据一示例性实施例示出的一种音频数据处理装置的结构示意图。

图6是根据一示例性实施例示出的一种终端的结构框图。

图7是根据一示例性实施例示出的一种服务器的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种音频数据处理方法的流程图，如图1所示，包括以下步骤。

在步骤S11中，电子设备对音频文件进行特征提取，得到该音频文件的多个第一音频片段的第一特征。

在步骤S12中，电子设备调用情感识别模型，将该多个第一音频片段的第一特征输入该情感识别模型中，输出该多个第一音频片段的情感程度值。

在步骤S13中，电子设备根据该多个第一音频片段的情感程度值，将该音频文件中总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段，作为该音频文件的高潮片段，该第二音频片段与该第一音频片段相同，或该第二音频片段与该第一音频片段不同。

本公开实施例通过对音频文件进行分段，对每个第一音频片段进行情感分析，确定每个第一音频片段的情感程度值，从而根据高潮片段的长度，将相同长度的情感程度值的和值最大的部分作为音频文件的高潮片段，并非简单的检测音频文件中重复的部分，而是对音频文件的各个部分的情感进行分析，从而将情感表达的相对激烈的部分作为高潮片段，这样得到的高潮片段的准确度较高，音频数据处理方法的准确率高。

在一种可能实现方式中，该根据该多个第一音频片段的情感程度值，将该音频文件中总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段，作为该音频文件的高潮片段，包括：获取该音频文件的多个候选高潮片段，每个候选高潮片段为总长度为该目标长度的至少一个连续的第二音频片段；根据该多个第一音频片段的情感程度值，获取每个候选高潮片段所包括的第二音频片段的情感程度值的和值；将该和值最大的候选高潮片段作为该音频文件的高潮片段。

在一种可能实现方式中，该根据该多个第一音频片段的情感程度值，获取每个候选高潮片段所包括的第二音频片段的情感程度值的和值，包括：根据该多个第一音频片段的情感程度值，确定该音频文件中每个第二音频片段的情感程度值；获取每个候选高潮片段包括的至少一个连续的第二音频片段的情感程度值的和值；或，对于每个候选高潮片段，根据该多个第一音频片段的情感程度值，获取该候选高潮片段包括的每个第二音频片段的情感程度值；获取该候选高潮片段包括的至少一个连续的第二音频片段的情感程度值的和值。

在一种可能实现方式中，该根据该多个第一音频片段的情感程度值，将该音频文件中总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段，作为该音频文件的高潮片段，包括：输出该总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段的播放起始点和播放结束点；或，从该音频文件中，截取该总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段对应的片段作为该音频文件的高潮片段；或，对该总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段进行拼接，得到该音频文件的高潮片段。

在一种可能实现方式中，该对音频文件进行特征提取，得到该音频文件的多个第一音频片段的第一特征，包括：对该音频文件进行分段，得到该音频文件的多个第一音频片段；对每个第一音频片段进行重采样，得到该每个第一音频片段的第一特征。

在一种可能实现方式中，该对每个第一音频片段进行重采样，得到该每个第一音频片段的第一特征，包括：按照目标采样率和目标窗函数，对该每个第一音频片段进行音频处理，得到该每个第一音频片段的梅尔尺度的第一特征；基于第一目标函数，对该每个第一音频片段的梅尔尺度的第一特征进行处理，得到对数尺度的第一特征。

在一种可能实现方式中，该将该多个第一音频片段的第一特征输入该情感识别模型中，输出该多个第一音频片段的情感程度值，包括：将该多个第一音频片段的第一特征输入该情感识别模型中，由该情感识别模型对每个第一音频片段的第一特征进行特征提取，得到该每个第一音频片段的第二特征；由该情感识别模型基于该每个第一音频片段的第二特征和该第二特征中每位特征值的位置信息，获取该每个第一音频片段的情感程度值，该第二特征中每位特征值的位置信息用于指示该位特征值在该第一音频片段中对应的位置；输出该多个第一音频片段的情感程度值。

在一种可能实现方式中，该由该情感识别模型对每个第一音频片段的第一特征进行特征提取，得到该每个第一音频片段的第二特征，包括：由该情感识别模型中的卷积层对该每个第一音频片段的第一特征进行计算，得到该每个第一音频片段的第二特征。

在一种可能实现方式中，该基于该每个第一音频片段的第二特征和该第二特征中每位特征值的位置信息，获取该每个第一音频片段的情感程度值，包括：获取该第二特征中每位特征值的位置信息；基于该每个第一音频片段的第二特征和该第二特征中每位特征值的位置信息，得到该每个第一音频片段的第三特征；基于该情感识别模型中的全连接层，对该每个第一音频片段的第三特征进行计算，得到该每个第一音频片段的情感程度值。

在一种可能实现方式中，该基于该情感识别模型中的全连接层，对该每个第一音频片段的第三特征进行计算，得到该每个第一音频片段的情感程度值，包括：

基于该情感识别模型中的全连接层，对该每个第一音频片段的第三特征进行计算，得到该第三特征对应的计算结果；通过第二目标函数，对该每个第一音频片段的第三特征对应的计算结果进行计算，得到该每个第一音频片段的情感程度值。

在一种可能实现方式中，该情感识别模型的训练过程包括：

获取多个样本音频文件，每个样本音频文件携带有情感标签，该情感标签用于表示样本音频文件的情感倾向；

调用初始模型，将该多个样本音频文件的多个第一音频片段的第一特征输入初始模型中，对于每个第一音频片段，由该初始模型基于该第一音频片段的第一特征，得到该第一音频片段的第二特征；

由该初始模型基于该第一音频片段的第二特征，对该第一音频片段进行分类，得到该第一音频片段的分类结果，该分类结果用于表示该第一音频片段的情感倾向；

由该初始模型基于该第二特征，获取该第一音频片段的情感程度值；

对于每个样本音频文件，由该初始模型基于该样本音频文件的多个第一音频片段的分类结果和情感程度值，输出该样本音频文件的分类结果，该分类结果用于表示该样本音频文件的分类结果；

基于该多个样本音频文件的分类结果以及每个样本音频文件携带的情感标签，对该初始模型的模型参数进行调整，直到符合目标条件，得到情感识别模型，该模型参数包括基于该第二特征获取第一音频片段的情感程度值所需的参数。

图2是根据一示例性实施例示出的一种音频数据处理方法的流程图，如图2所示，该音频数据处理方法可以包括以下步骤：

在步骤S21中，电子设备获取音频文件。

在本公开实施例中，该电子设备可以提供音频数据处理功能，对于一个音频文件，电子设备可以通过对音频文件进行分析处理，确定该音频文件的高潮片段。其中，该电子设备可以被提供为一终端，也可以被提供为一服务器，本公开实施例对此不作限定。相应地，该步骤S21中该电子设备获取音频文件的方式以及执行时机可能不同，具体可以包括以下两种情况：

在第一种情况中，当该电子设备为终端时，该步骤S21的执行时机可以为：用户想要获取某个音频文件的高潮片段时，可以在电子设备上进行高潮片段获取操作，电子设备获取到该高潮片段获取操作触发的高潮片段获取指令时，可以获取该音频文件，以便于后续对该音频文件进行分析处理。

相应地，该步骤S21中，电子设备获取该音频文件的获取方式可以包括以下几种：在一种可能实现方式中，该音频文件可以为电子设备中已存储的文件，电子设备从本次存储文件中获取该音频文件即可。在另一种可能实现方式中，该音频文件存储于服务器中，该电子设备的本次存储文件中不包括该音频文件，电子设备可以向服务器发送音频文件获取请求，由服务器基于该音频文件获取请求，获取并向电子设备发送该音频文件，该电子设备接收该音频文件，从而获取到该音频文件。

在第二种情况中，当电子设备为服务器时，该步骤S21的执行时机可以为：用户想要获取某个音频文件的高潮片段时，可以在终端上进行高潮片段获取操作。该终端获取到该高潮片段获取操作触发的高潮片段获取指令时，可以向该电子设备发送高潮片段获取请求。该电子设备接收到该高潮片段获取请求后，可以获取该高潮片段获取请求所指示的音频文件。

具体地，该高潮片段获取请求可以携带有音频文件的标识信息，相应地，在该步骤S21中，电子设备可以基于该音频文件的标识信息，从存储文件中获取该标识信息对应的音频文件。例如，该音频文件可以存储于多媒体数据库中，电子设备可以基于该标识信息，从多媒体数据库中获取该标识信息对应的音频文件。

在步骤S22中，电子设备对该音频文件进行分段，得到该音频文件的多个第一音频片段。

电子设备在获取高潮片段时，可以先将该音频文件分成多个第一音频片段，从而分析每个第一音频片段的情感程度，可以理解地，高潮片段的情感程度在整个音频文件中一般是最高的，这样将音频文件分段分析，可以分析得到音频文件的情感程度分布情况，从而找出哪一部分的情感程度比较高，情感程度最高的部分则可能是高潮片段。

具体地，电子设备可以根据预设长度，对该音频文件进行分段，得到该音频文件的多个第一音频片段，每个第一音频片段的长度为预设长度。电子设备可以将音频文件分为彼此不重叠的多个第一音频片段，相邻的两个第一音频片段也可以有部分重叠，重叠的部分可以较小，本公开实施例对此不作限定。其中，该预设长度可以由相关技术人员预先设置，例如，该预设长度可以为3秒，通过该步骤S22可以将音频文件划分为多个时长为3秒的第一音频片段，本公开实施例对该预设长度的具体取值不作限定。

在一种可能实现方式中，电子设备对音频文件进行分段的过程可以采用窗函数实现。也即是，该电子设备可以通过对该音频文件进行加窗处理，得到该音频文件的多个第一音频片段。其中，窗长可以为上述预设长度，当然，该窗函数的各项参数均可以由相关技术人员根据需求进行设置，本公开实施例对此不作限定。

在步骤S23中，电子设备对每个第一音频片段进行重采样，得到该每个第一音频片段的第一特征。

电子设备对音频文件进行分段后，可以先提取每个第一音频片段的特征，以便后续基于提取到的特征对第一音频片段进行分析。具体地，该特征提取步骤可以采用重采样的方式实现。

在一种可能实现方式中，该步骤S23中重采样得到第一特征的过程可以为采用下述步骤一和步骤二实现：

步骤一、电子设备按照目标采样率和目标窗函数，对该每个第一音频片段进行音频处理，得到该每个第一音频片段的梅尔尺度的第一特征。

在该步骤一中，对于每个第一音频片段，电子设备可以对音频文件进行重采样，提取该第一音频片段的梅尔频谱特征。其中，该目标采样率和目标窗函数均可以由相关技术人员根据需求进行设置，例如，该目标采样率可以为22050赫兹(Hz)，目标窗函数可以为汉明(Hanmming)窗函数，窗长可以为2048，帧移可以为512，这样通过重采样过程可以提取到129个128维的梅尔频谱特征。上述仅提供了一个具体示例，本发明实施例对该目标采样率和目标窗函数不作限定。

步骤二、电子设备可以基于第一目标函数，对该每个第一音频片段的梅尔尺度的第一特征进行处理，得到对数尺度的第一特征。

需要说明的是，电子设备通过对第一音频片段进行采样和加窗处理后，得到的可以为梅尔尺度的第一特征。在该步骤二中，电子设备可以将梅尔尺度的第一特征转换为对数尺度的第一特征，从而便于后续对该第一特征进行计算。其中，该第一目标函数可以由相关技术人员预先设置，例如，该第一目标函数可以为g(x)＝log(1+10000x)，通过该第一目标函数则可以将梅尔尺度的第一特征转换为对数尺度的第一特征，其中，x为梅尔尺度的第一特征，log()为对数函数，g(x)为对数尺度的第一特征。

通过上述步骤一和步骤二，可以得到该音频文件的多个第一音频片段中每个第一音频片段的第一特征。例如，可以称第一音频片段为片段(chunk)，每个chunk得到的第一特征可以为X_t，t∈{1，...，T}，T为正整数，t为第一音频片段chunk的标识。该X_t的数据数量可以为129x128，也即是，129个128维的第一特征。

上述步骤S22至步骤S23为对音频文件进行特征提取，得到该音频文件的多个第一音频片段的第一特征的过程，通过该特征提取步骤，可以提取得到该音频文件中各个第一音频片段的特征，从而可以基于特征分析第一音频片段的情感程度，进而通过多个第一音频片段的情感程度所体现的音频文件的情感程度分布情况，确定该音频文件的高潮片段。

在步骤S24中，电子设备调用情感识别模型，将该多个第一音频片段的第一特征输入该情感识别模型中，由该情感识别模型对每个第一音频片段的第一特征进行特征提取，得到该每个第一音频片段的第二特征。

电子设备得到第一音频片段的第一特征后，可以通过情感识别模型，来分析每个第一音频片段的情感程度，从而进一步基于分析结果，确定高潮片段。电子设备可以调用情感识别模型，将上述步骤S23中获取得到的多个第一音频片段的第一特征输入该情感识别模型中，由该情感识别模型对每个第一音频片段进行分析，得到每个第一音频片段的情感程度值，该情感程度值用于表示该第一音频片段的情感程度。

电子设备将该多个第一音频片段的第一特征输入该情感识别模型后，该情感识别模型可以对该第一特征进行多步处理。具体地，对于每个第一音频片段，情感识别模型可以先对该第一音频片段的第一特征进一步进行特征提取，得到更能准确表达该第一音频片段的第二特征。再基于该第二特征，分析该第一音频片段的情感程度。

具体地，该情感识别模型获取第二特征的过程可以为：由该情感识别模型中的卷积层对该每个第一音频片段的第一特征进行计算，得到该每个第一音频片段的第二特征。

例如，情感识别模型可以为卷积神经网络(Convolutional Neural Networks，CNN)模型，该情感识别模型中通过3个卷积层对该第一音频片段的第一特征进行计算，可以将该第一音频片段的第一特征输入第一个卷积层中，该第一个卷积层对该第一特征进行计算，向下一个卷积层输入计算结果，由下一个卷积层对输入的计算结果进一步进行计算，以此类推，该3个卷积层中的最后一个卷积层输出该每个第一音频片段的第二特征。

在一个具体示例中，每个音频文件输入该情感识别模型的第一特征可以为X_t，t∈{1，...，T}，T为正整数，t为第一音频片段chunk的标识。情感识别模型可以使用该3个卷积层进行特征抽取，然后通过池化(pooling)层对抽取到的特征进行处理，得到第二特征h_t。其中，该池化层可以采用MaxPooling Over Time的方式获取第二特征。该MaxPooling OverTime是CNN模型中的一种下采样方式，电子设备可以通过该池化层得到第二特征，该第二特征可以理解为中间特征，后续可以基于该中间特征进一步进行处理，得到想要的情感程度或情感倾向等。例如，该MaxPooling Over Time可以通过下述公式实现：

h_t＝TimeMaxPool(Conv(X_t))

其中，h_t为第二特征，TimeMaxPool()为最大池化函数，Conv()为卷积函数，X_t为第一特征，t为第一音频片段的标识。

通过该公式，电子设备可以只取卷积层提取到的特征中得分最大的值作为第二特征，其他的特征值抛弃即可。

需要说明的是，该情感识别模型存储于该电子设备上，该电子设备调用本地的情感识别模型即可。该情感识别模型也可以存储于其他电子设备上，在该电子设备需要进行情感识别时，可以从其他电子设备中调用该情感识别模型即可。当然，该情感识别模型可以在该电子设备上训练得到，也可以在其他电子设备上训练得到，从而其他电子设备将该情感识别模型封装为配置文件，并发送至该电子设备，该电子设备即可获取得到该情感识别模型。

在步骤S25中，电子设备中的该情感识别模型基于该每个第一音频片段的第二特征和该第二特征中每位特征值的位置信息，获取该每个第一音频片段的情感程度值。

其中，该第二特征中每位特征值的位置信息用于指示该位特征值在该第一音频片段中对应的位置。可以理解地，音频具有时间序列相关性，相距越近的第一音频片段具有越强的相关性，因而，电子设备在获取每个第一音频片段的情感程度值时，可以考虑到该第一音频片段中各个时间点对应的特征值在该第一音频片段中的位置，从而考虑到上述相关性，获取到的情感程度值更准确。

具体地，该步骤S25中由情感识别模型获取情感程度值的过程可以通过下述步骤一至步骤三实现：

步骤一、情感识别模型获取第二特征中每位特征值的位置信息。

对于一个第一音频片段，在将该第一音频片段的第二特征进行情感识别之前，可以先为第二特征添加位置信息，添加位置信息时，可以先获取该第二特征中每位特征值的位置信息。

在一种可能实现方式中，该位置信息可以通过p_t表示。p_t的维度与第二特征h_t的维度相同，都可以为M，其中，p_t，j表示p_t的第j维。p_t的计算过程可以通过下述公式实现：

其中，p_t，2z-1为p_t的第2z-1维，p_t，2z为p_t的第2z维，M为p_t的总维度，t为第一音频片段的标识，sin()为正弦函数，cos()为余弦函数。

步骤二、情感识别模型基于该每个第一音频片段的第二特征和该第二特征中每位特征值的位置信息，得到该每个第一音频片段的第三特征。

计算得到该第二特征中每位特征值的位置信息后，情感识别模型可以将其嵌入第二特征中，得到第三特征。该第三特征即为综合了第二特征和第二特征中每位特征值的位置信息后的特征。

在一种可能实现方式中，该第三特征可以通过

来表示，由于第二特征和位置信息的维度相同，则该第三特征可以为第二特征与位置信息的和值，也即是，第三特征中的每个特征值均可以为第二特征的特征值与位置信息中对应位的值的和值。具体地，可以通过下述公式实现：

其中，

为第三特征，h_t为第二特征，p_t为位置信息，t为第一音频片段的标识。

步骤三、情感识别模型基于该情感识别模型中的全连接层，对该每个第一音频片段的第三特征进行计算，得到该每个第一音频片段的情感程度值。

电子设备获取到第三特征后，则可以基于该第三特征来分析第一音频片段的情感程度。在一种可能实现方式中，电子设备可以基于该情感识别模型中的全连接层，对该每个第一音频片段的第三特征进行计算，得到第三特征对应的计算结果。进而，电子设备可以通过第二目标函数，对该每个第一音频片段的第三特征对应的计算结果进行计算，得到该每个第一音频片段的情感程度值。

例如，该情感识别模型中用于对第三特征进行计算的全连接层可以包括4个，通过4个全连接层对第三特征进行计算，得到计算结果，再通过第二目标函数进一步进行计算，可以得到该第一音频片段的情感程度值。具体地，该计算过程可以通过下述两个公式实现：

其中，

为第三特征，f_t为全连接层的计算结果，FC()为全连接层进行的卷积处理，其中，FC为全连接(Fully connected)的意思，t为第一音频片段的标识。

α_t＝W₂tanh(W₁f_t+σ₁)+σ₂

其中，α_t为情感程度值，f_t为全连接层的计算结果，tanh()为双曲线函数，W₁、W₂、σ₁、σ₂为参数，t为第一音频片段的标识。

在一种可能实现方式中，该第二目标函数中的参数值基于情感识别模型的训练过程得到。对应于上述公式示例，W₁、W₂、σ₁、σ₂即为第二目标函数的参数值，均可以在情感识别模型训练过程中训练得到。

在步骤S26中，电子设备中的该情感识别模型输出该多个第一音频片段的情感程度值。

电子设备中的情感识别模型获取到各个第一音频片段的情感程度值后，即可将其输出，从而电子设备可以基于输出的各个第一音频片段的情感程度值,确定该音频文件的高潮片段。

上述步骤S24至步骤S26为调用情感识别模型，将该多个第一音频片段的第一特征输入该情感识别模型中，输出该多个第一音频片段的情感程度值的过程。该情感识别模型可以基于第一音频片段的特征，分析得到该音频文件的情感程度分布情况。下面仅以该情感识别模型的训练过程在该电子设备上进行为例进行说明，训练过程可以包括以下步骤：

步骤一、电子设备获取多个样本音频文件，每个样本音频文件携带有情感标签，该情感标签用于表示样本音频文件的情感倾向。

在需要进行模型训练时，电子设备可以获取多个样本音频文件，通过样本音频文件对初始模型训练该初始模型的模型参数，以提高该初始模型进行情感识别的准确度。其中，该多个样本音频文件可以存储于多媒体数据库中，电子设备可以从多媒体数据库中获取该多个样本音频文件。当然，电子设备获取多个样本音频文件还可以包括其他获取方式，例如，从网站抓取音频文件作为样本音频文件等。

在一种可能实现方式中，电子设备可以从第一数据库中，获取多个样本音频文件的标识信息以及对应的情感标签，并基于该标识信息从第二数据中，获取对应的样本音频文件，本公开实施例对具体从哪个数据库中获取得到样本音频文件不作限定。

其中，该情感标签可以由相关技术人员预先对样本音频文件进行分析得到，该情感标签的内容即为样本音频文件的情感倾向，例如，该情感倾向可以包括悲伤(sad),快乐(happy),欢快的(aggressive),平和的(peaceful)等。上述仅为几种示例说明，本公开实施例对该情感倾向不作限定。当然，本公开实施例对该情感标签的种类数量也不作限定，例如，该情感标签可以包括190种。

步骤二、电子设备对每个样本音频文件进行特征提取，得到每个样本音频文件的多个第一音频片段的第一特征。

该步骤二中电子设备对每个样本音频文件进行特征提取的过程与上述步骤S22和步骤S23的特征提取步骤同理，本公开实施例在此不多赘述。

步骤三、电子设备调用初始模型，将该多个样本音频文件的多个第一音频片段的第一特征输入初始模型中，对于每个第一音频片段，由该初始模型基于该第一音频片段的第一特征，得到该第一音频片段的第二特征。

该步骤三中电子设备对每个样本音频文件的每个第一音频片段进行特征提取的过程与上述步骤S24中的特征提取步骤同理，本公开实施例在此不多赘述。初始模型在得到第二特征后，可以输出到两个分支，其中一个分支可以基于该第二特征进行分类，另一个分支可以基于该第二特征获取情感程度值，具体可以参见下述步骤四和步骤五。

步骤四、由该初始模型基于该第一音频片段的第二特征，对该第一音频片段进行分类，得到该第一音频片段的分类结果，该分类结果用于表示该第一音频片段的情感倾向。

在一个分支中，初始模型在得到每个第一音频片段的第二特征后，可以根据该第一音频片段的第二特征，对该第一音频片段进行分类，以确定该第一音频片段的情感倾向。例如，来确定该第一音频片段表达的情感为悲伤还是快乐等。在该分支中，完成了对音频文件中的片段程度的预测，后续还可以基于该片段程度的预测结果对音频文件进行整体的预测。

其中，分类得到的分类结果可以为该第一音频片段为每种情感倾向的概率。例如，如果情感倾向共包括190种，则该分类结果可以为一个190维的数组或矩阵，每一位的特征值为该第一音频片段的情感倾向为该位对应的情感倾向的概率。

在一个具体的示例中，该分类步骤可以基于2个全连接层实现，该分类过程可以基于下述公式实现：

其中，

为第一音频片段的分类结果，t为第一音频片段的标识，softmax()为归一化指数函数，该函数可以在此用于对全连接层输出的结果进行分类。h_t为第二特征，FC()为全连接层进行的卷积处理，其中，FC为全连接(Fully connected)的意思。

步骤五、由该初始模型基于该第二特征，获取该第一音频片段的情感程度值。

在另一个分支中，电子设备可以对该第二特征进行进一步计算，得到该第一音频片段的情感程度值，从而将该情感程度值作为上述步骤四中得到的分类结果的权重，以此来进行下述步骤六，预测整个音频文件的情感倾向。

该步骤五中获取第一音频片段的情感程度值的过程与上述步骤S25中所示的内容同理，本公开实施例在此不多做赘述。

步骤六、对于每个样本音频文件，由该初始模型基于该样本音频文件的多个第一音频片段的分类结果和情感程度值，输出该样本音频文件的分类结果，该分类结果用于表示该样本音频文件的分类结果。

初始模型在得到每个第一音频片段的分类结果和情感程度值后，可以将情感程度值作为该第一音频片段的分类结果的权重，从而对样本音频文件进行整体的预测。具体地，对于一个样本音频文件，该初始模型可以对该样本音频文件的多个第一音频片段的分类结果和情感程度值进行加权求和，得到该样本音频文件的分类结果。

在一种可能实现方式中，该步骤六中获取该样本音频文件的分类结果的过程可以通过下述公式实现：

其中，

为样本音频文件的分类结果，α_t为第一音频片段的情感程度值，t为第一音频片段的标识，

为第一音频片段的分类结果，∑为求和符号。

步骤七、电子设备基于该多个样本音频文件的分类结果以及每个样本音频文件携带的情感标签，对该初始模型的模型参数进行调整，直到符合目标条件，得到情感识别模型。

初始模型可以得到样本音频文件的整体的预测结果，也即是，该样本音频文件的分类结果，从而输出该分类结果。电子设备则可以基于对该样本音频文件的分类结果和该样本音频文件携带的情感标签所指示的该样本音频文件的情感倾向，确定该情感识别模型的分类准确度，如果基于该分类准确度确定分类准确度未收敛，或者，当前迭代次数小于次数阈值时，则可以对初始模型的模型参数进行调整，直到符合目标条件为止。

其中，该情感标签所指示的该样本音频文件的情感倾向即为该样本音频文件的正确的分类结果。该目标条件即可为该分类准确度收敛，或当前迭代次数达到次数阈值。

在一种可能实现方式中，该模型训练过程中可以基于梯度下降法确定是否符合目标条件，在一个具体的可能实施例中，上述训练过程中还可以以多个样本音频文件为一个批(batch)，采用梯度下降法进行训练。当然也可以采用其他方法，例如，k-折验证法等，本公开实施例对此不作限定。

例如，在一个具体示例中，电子设备可以获取到30000首歌曲，任取该30000首歌曲中的6000首歌曲作为验证集，18000首歌曲作为训练集，进行上述模型训练过程。如图3所示，电子设备可以对音频文件进行特征提取后，将提取的每个第一音频片段的第一特征输入卷积层中，由卷积层进一步对第一特征进行特征提取，并由池化(pooling)层进行特征抽取，得到每个第一音频片段的第二特征。在得到第二特征后，可以分为两个分支，一个分支中，将第二特征输入到全连接层中进行计算，并通过归一化指数(softmax)函数的处理，得到每个第一音频片段的分类结果，实现片段级别的预测。另一个分支中，为第二特征添加位置信息，通过注意力(Attention)机制，获取每个第一音频片段的情感程度值，也即是，每个第一音频片段的分类结果的权重。然后该模型可以综合每个第一音频片段的分类结果和权重，得到整个音频文件的分类结果。

再例如，该情感识别模型的网络结构可以如图4所示，假设16个样本音频文件为一批，每个样本音频文件被分为8个第一音频片段，一批样本音频文件输入的第一特征有16*8*129*128，该情感识别模型可以基于3个卷积层进行特征提取对第一特征进行特征提取，并经过池化层，得到第二特征，其中，卷积层后通过线性整流函数(Rectified LinearUnit,ReLU)进行整流。该情感识别模型可以为该第二特征增加位置信息，再基于注意力机制(attention mechanism)中的4个卷积层对该增加了位置信息的第二特征进行计算，并通过归一化函数，得到每个第一音频片段的情感程度值，因而此时得到的数据的数量为16*8。对于第二特征，情感识别模型还可以通过2个卷积层和归一化函数对其进行片段级别的预测，得到每个第一音频片段的分类结果，以情感标签的种类数量为190为例，16个音频文件的第一音频片段的分类结果中数据的数量可以为16*8*190。最终情感识别模型可以综合分类结果和情感程度值，进行歌曲级别的预测，因而16个音频文件的输出结果中数据量可以为16*190。

可以理解地，在本公开实施例中，电子设备在使用训练完成的情感识别模型时，该池化层中得到第二特征后，不再将其输入全连接层中进行分类，而是直接添加位置信息，并通过Attention机制获取每个第一音频片段的情感程度值即可输出该情感程度值。

在步骤S27中，电子设备根据该多个第一音频片段的情感程度值，将该音频文件中总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段，作为该音频文件的高潮片段。

电子设备在得到该多个第一音频片段的情感程度值后，则可以进一步确认该音频文件的高潮片段。在该电子设备中可以设置有高潮片段的长度，也即是目标长度。该目标长度可以由相关技术人员预先设置，也可以由用户根据自身使用需求进行设置，例如，该目标长度可以为24秒，本公开实施例对该目标长度的具体取值不作限定。

当然还有一种可能情况，相关技术人员也可以设置有：目标长度为第一目标长度，用户使用时，根据使用需求，将该第一目标长度更改为第二目标长度。例如，该目标长度默认为24秒，用户将其更改为30秒，当然也可以改为其他数值，比如10秒等。

可以理解地，音频文件的高潮片段的情感程度值较大，电子设备在获取高潮片段时，则可以根据上述步骤S26中得到的各个第一音频片段的情感程度值，从而也即获知该音频文件的情感程度分布情况，因而，电子设备可以进一步根据高潮片段的长度，来考虑该音频文件中相同长度的片段的情感程度值总和，总和最大即为该音频文件对应的高潮片段。

在确定高潮片段时，电子设备可以基于第二音频片段进行判断。其中，该第二音频片段与该第一音频片段相同，或该第二音频片段与该第一音频片段不同。

在一种可能情况中，该第二音频片段可以与第一音频片段相同，则该步骤S27中，电子设备在获取到每个第一音频片段的情感程度值后，可以将总长度为目标长度且情感程度值的和值最大的至少一个连续的第一音频片段，作为该音频文件的高潮片段。例如，该第一音频片段的长度可以为3秒，目标长度为30秒，则电子设备可以将情感程度值的和值最大的连续10个第一音频片段作为高潮片段。

在另一种情况中，该第二音频片段与第一音频片段不同。例如，该第二音频片段的长度可以小于该第一音频片段，比如第二音频片段的长度为1秒，则每个第一音频片段中包括三个第二音频片段。该第一音频片段的长度可以为3秒，第二音频片段的长度可以为1秒，目标长度为30秒，则电子设备可以将情感程度值的和值最大的连续30个第二音频片段作为高潮片段。每个第二音频片段的情感程度值可以基于该第二音频片段所在的第一音频片段的情感程度值确定。具体地，第二音频片段的情感程度值可以与该第二音频片段所在的第一音频片段的情感程度值相同，也可以为第二音频片段所在的第一音频片段的情感程度值与第一音频片段包括的第二音频片段的数量的比值，本公开实施例对此不作限定。

又例如，该第二音频片段的长度可以大于该第一音频片段。每个第二音频片段的情感程度值可以基于该第二音频片段所包括的第一音频片段的情感程度值确定。具体地，第二音频片段的情感程度值可以为该第二音频片段所包括的第一音频片段的情感程度值的和值，也可以为该第二音频片段所包括的第一音频片段的情感程度值的平均值，本公开实施例对此不作限定。再例如，该第二音频片段的长度与第一音频片段的长度相同，但第二音频片段与第一音频片段的划分方式不同，例如，某个第一音频片段对应的播放时间为4秒至6秒，某个第二音频片段对应的播放时间为3秒至5秒。

下面针对该步骤S27中电子设备获取高潮片段的具体过程进行说明，具体地，该步骤S27可以通过以下步骤一至步骤三实现。

步骤一、电子设备获取该音频文件的多个候选高潮片段，每个候选高潮片段为总长度为该目标长度的至少一个连续的第二音频片段。

电子设备可以先根据该目标长度，将至少一个连续的第二音频片段获取为候选高潮片段，从而比较多个候选高潮片段的情感程度。

步骤二、电子设备根据该多个第一音频片段的情感程度值，获取每个候选高潮片段所包括的第二音频片段的情感程度值的和值。

电子设备在获取到多个候选高潮片段后，可以获取每个候选高潮片段包括的第二音频片段的情感程度值的和值，以比较该多个候选高潮片段的情感程度。具体地，每个候选高潮片段所包括的第二音频片段的情感程度值的和值的获取过程通过以下任一种方式实现：

方式一中，电子设备根据该多个第一音频片段的情感程度值，确定该音频文件中每个第二音频片段的情感程度值；获取每个候选高潮片段包括的至少一个连续的第二音频片段的情感程度值的和值。

方式二中，对于每个候选高潮片段，电子设备根据该多个第一音频片段的情感程度值，获取该候选高潮片段包括的每个第二音频片段的情感程度值；获取该候选高潮片段包括的至少一个连续的第二音频片段的情感程度值的和值。

在方式一中，电子设备在获取到多个第一音频片段的情感程度值时，即可确定该音频文件的每个第二音频片段的情感程度值，在后续需要使用该第二音频片段的情感程度值时获取即可。在方式二中，电子设备在获取到多个第一音频片段的情感程度值时，可以先不确定每个第二音频片段的情感程度值，在需要确定候选高潮片段的情感程度时，可以再基于第一音频片段的情感程度值，确定候选高潮片段包括的第二音频片段的情感程度值，再进行求和计算。

步骤三、电子设备将该和值最大的候选高潮片段作为该音频文件的高潮片段。

可以理解地，和值越大的候选高潮片段是高潮片段的可能性越大，因而电子设备可以将和值最大的候选高潮片段作为高潮片段。

上述仅以一种可能实现方式为例进行说明，该高潮片段获取步骤还可以采用其他方式实现，例如，电子设备可以基于该音频文件的多个第一音频片段的情感程度值，得到该音频文件的情感程度曲线，该情感程度曲线的横坐标可以为播放时间，纵坐标可以为情感程度值，从而通过对该情感程度曲线进行处理，确定该音频文件的高潮片段，本公开实施例对具体采用哪种实现方式不作限定。

需要说明的是，电子设备获取高潮片段时，该高潮片段可以包括多种体现方式，例如，电子设备只需要输出高潮片段对应的为该音频文件的哪一段即可，可以输出播放起始点和播放结束点。电子设备也可以将该音频文件的高潮片段截取出来作为一个新的音频文件。

具体地，该步骤S27中，电子设备获取高潮片段的步骤可以为：电子设备输出该总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段的播放起始点和播放结束点；或，电子设备从该音频文件中，截取该总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段对应的片段作为该音频文件的高潮片段；或，电子设备对该总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段进行拼接，得到该音频文件的高潮片段。

相应地，在上述步骤三，电子设备可以输出和值最大的候选高潮片段的播放起始点和播放结束点；或，电子设备从该音频文件中，截取该和值最大的候选高潮片段作为该音频文件的高潮片段；或，电子设备对和值最大的候选高潮片段对应的至少一个连续的第二音频片段进行拼接，作为高潮片段。

在一种可能实现方式中，一个音频文件还可能包括多个高潮片段，例如，一首歌曲中包括两段相同的高潮片段相同。则上述步骤S27中，如果该音频文件中包括多组总长度为目标长度且情感程度值的和值最大的连续至少一个第二音频片段，则可以将该多组至少一个第一音频片段均获取为该音频文件的高潮片段。

图5是根据一示例性实施例示出的一种音频数据处理装置的结构示意图。参照图5，该装置包括：

特征提取模块501，被配置为执行对音频文件进行特征提取，得到该音频文件的多个第一音频片段的第一特征；

情感识别模块502，被配置为执行调用情感识别模型，将该多个第一音频片段的第一特征输入该情感识别模型中，输出该多个第一音频片段的情感程度值；

片段获取模块503，被配置为执行根据该多个第一音频片段的情感程度值，将该音频文件中总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段，作为该音频文件的高潮片段，该第二音频片段与该第一音频片段相同，或该第二音频片段与该第一音频片段不同。

在一种可能实现方式中，该片段获取模块503被配置为执行：获取该音频文件的多个候选高潮片段，每个候选高潮片段为总长度为该目标长度的至少一个连续的第一音频片段；根据该多个第一音频片段的情感程度值，获取每个候选高潮片段所包括的第二音频片段的情感程度值的和值；将该和值最大的候选高潮片段作为该音频文件的高潮片段。

在一种可能实现方式中，该片段获取模块503被配置为执行：根据该多个第一音频片段的情感程度值，确定该音频文件中每个第二音频片段的情感程度值；获取每个候选高潮片段包括的至少一个连续的第二音频片段的情感程度值的和值；或，对于每个候选高潮片段，根据该多个第一音频片段的情感程度值，获取该候选高潮片段包括的每个第二音频片段的情感程度值；获取该候选高潮片段包括的至少一个连续的第二音频片段的情感程度值的和值。

在一种可能实现方式中，该片段获取模块503被配置为执行：输出该总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段的播放起始点和播放结束点；或，从该音频文件中，截取该总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段对应的片段作为该音频文件的高潮片段；或，对该总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段进行拼接，得到该音频文件的高潮片段。

在一种可能实现方式中，该特征提取模块501被配置为执行：对该音频文件进行分段，得到该音频文件的多个第一音频片段；对每个第一音频片段进行重采样，得到该每个第一音频片段的第一特征。

在一种可能实现方式中，所特征提取模块501被配置为执行：按照目标采样率和目标窗函数，对该每个第一音频片段进行音频处理，得到该每个第一音频片段的梅尔尺度的第一特征；基于第一目标函数，对该每个第一音频片段的梅尔尺度的第一特征进行处理，得到对数尺度的第一特征。

在一种可能实现方式中，该情感识别模块502被配置为执行：将该多个第一音频片段的第一特征输入该情感识别模型中，由该情感识别模型对每个第一音频片段的第一特征进行特征提取，得到该每个第一音频片段的第二特征；由该情感识别模型基于该每个第一音频片段的第二特征和该第二特征中每位特征值的位置信息，获取该每个第一音频片段的情感程度值，该第二特征中每位特征值的位置信息用于指示该位特征值在该第一音频片段中对应的位置；输出该多个第一音频片段的情感程度值。

在一种可能实现方式中，该情感识别模块502被配置为执行由该情感识别模型中的卷积层对该每个第一音频片段的第一特征进行计算，得到该每个第一音频片段的第二特征。

在一种可能实现方式中，该情感识别模块502被配置为执行：获取该第二特征中每位特征值的位置信息；基于该每个第一音频片段的第二特征和该第二特征中每位特征值的位置信息，得到该每个第一音频片段的第三特征；基于该情感识别模型中的全连接层，对该每个第一音频片段的第三特征进行计算，得到该每个第一音频片段的情感程度值。

在一种可能实现方式中，该情感识别模块502被配置为执行：基于该情感识别模型中的全连接层，对该每个第一音频片段的第三特征进行计算，得到该第三特征对应的计算结果；通过第二目标函数，对该每个第一音频片段的第三特征对应的计算结果进行计算，得到该每个第一音频片段的情感程度值。

在一种可能实现方式中，该装置还包括模型训练模块，该模型训练模块被配置为执行：获取多个样本音频文件，每个样本音频文件携带有情感标签，该情感标签用于表示样本音频文件的情感倾向；对每个样本音频文件进行特征提取，得到每个样本音频文件的多个第一音频片段的第一特征；调用初始模型，将该多个样本音频文件的多个第一音频片段的第一特征输入初始模型中，对于每个第一音频片段，由该初始模型基于该第一音频片段的第一特征，得到该第一音频片段的第二特征；由该初始模型基于第一音频片段的第二特征，对该第一音频片段进行分类，得到该第一音频片段的分类结果，该分类结果用于表示该第一音频片段的情感倾向；由该初始模型基于该第二特征，获取该第一音频片段的情感程度值；对于每个样本音频文件，由该初始模型基于该样本音频文件的多个第一音频片段的分类结果和情感程度值，输出该样本音频文件的分类结果，该分类结果用于表示该样本音频文件的分类结果；基于该多个样本音频文件的分类结果以及每个样本音频文件携带的情感标签，对该初始模型的模型参数进行调整，直到符合目标条件，得到情感识别模型，该模型参数包括基于该第二特征获取第一音频片段的情感程度值所需的参数。

本公开实施例提供的装置，通过对音频文件进行分段，对每个第一音频片段进行情感分析，确定每个第一音频片段的情感程度值，从而根据高潮片段的长度，将相同长度的情感程度值的和值最大的部分作为音频文件的高潮片段，并非简单的检测音频文件中重复的部分，而是对音频文件的各个部分的情感进行分析，从而将情感表达的相对激烈的部分作为高潮片段，这样得到的高潮片段的准确度较高，音频数据处理方法的准确率高。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

上述电子设备可以被提供为下述图6所示的终端，也可以被提供为下述图7所示的服务器，本公开实施例对此不作限定。

图6是根据一示例性实施例示出的一种终端的结构框图。该终端600可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本公开中方法实施例提供的音频数据处理方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本公开对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时，由处理器601根据用户对显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制显示屏605的显示亮度。具体地，当环境光强度较高时，调高显示屏605的显示亮度；当环境光强度较低时，调低显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图7是根据一示例性实施例示出的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)701和一个或一个以上的存储器702，其中，该存储器702中存储有至少一条指令，该至少一条指令由该处理器701加载并执行以实现上述各个方法实施例提供的音频数据处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种非临时性计算机可读存储介质，当该非临时性计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种音频数据处理方法，该方法包括：对音频文件进行特征提取，得到该音频文件的多个第一音频片段的第一特征；调用情感识别模型，将该多个第一音频片段的第一特征输入该情感识别模型中，输出该多个第一音频片段的情感程度值；根据该多个第一音频片段的情感程度值，将该音频文件中总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段，作为该音频文件的高潮片段，该第二音频片段与该第一音频片段相同，或该第二音频片段与该第一音频片段不同。

在示例性实施例中，还提供了一种应用程序，包括一条或多条指令，该一条或多条指令可以由电子设备的处理器执行，以完成上述实施例中提供的音频数据处理方法的方法步骤，该方法步骤可以包括：对音频文件进行特征提取，得到该音频文件的多个第一音频片段的第一特征；调用情感识别模型，将该多个第一音频片段的第一特征输入该情感识别模型中，输出该多个第一音频片段的情感程度值；根据该多个第一音频片段的情感程度值，将该音频文件中总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段，作为该音频文件的高潮片段，该第二音频片段与该第一音频片段相同，或该第二音频片段与该第一音频片段不同。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频数据处理方法，其特征在于，包括：

调用情感识别模型，将所述多个第一音频片段的第一特征输入所述情感识别模型中，由所述情感识别模型对每个第一音频片段的第一特征进行特征提取，得到所述每个第一音频片段的第二特征；

由所述情感识别模型基于所述每个第一音频片段的第二特征和所述第二特征中每位特征值的位置信息，获取所述每个第一音频片段的情感程度值，所述第二特征中每位特征值的位置信息用于指示所述位特征值在所述第一音频片段中对应的位置；输出所述多个第一音频片段的情感程度值；

2.根据权利要求1所述的音频数据处理方法，其特征在于，所述根据所述多个第一音频片段的情感程度值，将所述音频文件中总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段，作为所述音频文件的高潮片段，包括：

3.根据权利要求2所述的音频数据处理方法，其特征在于，所述根据所述多个第一音频片段的情感程度值，获取每个候选高潮片段所包括的第二音频片段的情感程度值的和值，包括：

4.根据权利要求1所述的音频数据处理方法，其特征在于，所述根据所述多个第一音频片段的情感程度值，将所述音频文件中总长度为目标长度且情感程度值的和值最大的至少一个连续的第二音频片段，作为所述音频文件的高潮片段，包括：

5.根据权利要求1所述的音频数据处理方法，其特征在于，所述对音频文件进行特征提取，得到所述音频文件的多个第一音频片段的第一特征，包括：

6.根据权利要求5所述的音频数据处理方法，其特征在于，所述对每个第一音频片段进行重采样，得到所述每个第一音频片段的第一特征，包括：

7.根据权利要求1所述的音频数据处理方法，其特征在于，所述由所述情感识别模型对每个第一音频片段的第一特征进行特征提取，得到所述每个第一音频片段的第二特征，包括：

8.根据权利要求1所述的音频数据处理方法，其特征在于，所述基于所述每个第一音频片段的第二特征和所述第二特征中每位特征值的位置信息，获取所述每个第一音频片段的情感程度值，包括：

获取所述第二特征中每位特征值的位置信息；

9.根据权利要求8所述的音频数据处理方法，其特征在于，所述基于所述情感识别模型中的全连接层，对所述每个第一音频片段的第三特征进行计算，得到所述每个第一音频片段的情感程度值，包括：

10.根据权利要求1所述的音频数据处理方法，其特征在于，所述情感识别模型的训练过程包括：

11.一种音频数据处理装置，其特征在于，包括：

情感识别模块，被配置为执行将所述多个第一音频片段的第一特征输入所述情感识别模型中，由所述情感识别模型对每个第一音频片段的第一特征进行特征提取，得到所述每个第一音频片段的第二特征；由所述情感识别模型基于所述每个第一音频片段的第二特征和所述第二特征中每位特征值的位置信息，获取所述每个第一音频片段的情感程度值，所述第二特征中每位特征值的位置信息用于指示所述位特征值在所述第一音频片段中对应的位置；输出所述多个第一音频片段的情感程度值；

12.根据权利要求11所述的音频数据处理装置，其特征在于，所述片段获取模块被配置为执行：

13.根据权利要求11所述的音频数据处理装置，其特征在于，所述片段获取模块被配置为执行：

14.根据权利要求11所述的音频数据处理装置，其特征在于，所述片段获取模块被配置为执行：

15.根据权利要求11所述的音频数据处理装置，其特征在于，所述特征提取模块被配置为执行：

16.根据权利要求15所述的音频数据处理装置，其特征在于，所特征提取模块被配置为执行：

17.根据权利要求11所述的音频数据处理装置，其特征在于，所述情感识别模块被配置为执行由所述情感识别模型中的卷积层对所述每个第一音频片段的第一特征进行计算，得到所述每个第一音频片段的第二特征。

18.根据权利要求11所述的音频数据处理装置，其特征在于，所述情感识别模块被配置为执行：

获取所述第二特征中每位特征值的位置信息；

19.根据权利要求18所述的音频数据处理装置，其特征在于，所述情感识别模块被配置为执行：

20.根据权利要求11所述的音频数据处理装置，其特征在于，所述装置还包括模型训练模块，所述模型训练模块被配置为执行：

由所述初始模型基于所述每个第一音频片段的第二特征，对所述第一音频片段进行分类，得到所述第一音频片段的分类结果，所述分类结果用于表示所述第一音频片段的情感倾向；

21.一种电子设备，其特征在于，包括：

一个或多个处理器；

用于存储一个或多个处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行所述指令，以实现如权利要求1至权利要求10任一项所述的音频数据处理方法。

22.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至权利要求10任一项所述的音频数据处理方法。