CN114627882A

CN114627882A - 音频处理方法、电子设备及计算机可读存储介质

Info

Publication number: CN114627882A
Application number: CN202210379551.8A
Authority: CN
Inventors: 张斌; 林慧镔
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-04-12
Filing date: 2022-04-12
Publication date: 2022-06-14

Abstract

本申请实施例公开了一种音频处理方法、电子设备及计算机可读存储介质，其中，该方法包括：响应针对目标音频的音频增强开启指令，从目标音频中获取待播放的第一音频；该目标音频为处于播放状态的音频；将第一音频输入预先训练完成的音频增强模型，得到音频增强模型输出的第二音频；根据第一音频的高频带模对第二音频的模进行处理以及根据第一音频的低频带相位对第二音频的相位进行修正，以将第二音频处理为第三音频；该第三音频为超高品质音频；将播放目标音频替换为播放第三音频。通过本申请实施例可以实时地对正在播放的音频进行频谱扩展，以提高音频的播放效果。

Description

音频处理方法、电子设备及计算机可读存储介质

技术领域

本申请涉及音频处理技术领域，尤其涉及一种音频处理方法、电子设备及计算机可读存储介质。

背景技术

随着终端设备的发展，各式各样的应用层出不穷。在使用终端设备对歌曲进行播放时，对于一些年代久远的老歌，或者由录制效果较差的设备所录制的歌曲，由于这些歌曲在音频信号分量不够丰富，因此，无法向用户提供极致的听觉感受，从而影响用户体验。

发明内容

本申请实施例提供了一种音频处理方法、电子设备及计算机可读存储介质，能够实时地对正在播放的音频进行频谱扩展，以提高音频的播放效果。

第一方面，本申请实施例公开了一种音频处理方法，该方法应用于终端设备中，该终端设备包括音频增强模型，该方法包括：

响应针对目标音频的音频增强开启指令，从目标音频中获取待播放的第一音频；该目标音频为处于播放状态的音频；

将第一音频输入预先训练完成的音频增强模型，得到音频增强模型输出的第二音频；

根据第一音频的高频带模对第二音频的模进行处理以及根据第一音频的低频带相位对第二音频的相位进行修正，以将第二音频处理为第三音频；该第三音频为超高品质音频；

将播放目标音频替换为播放第三音频。

第二方面，本申请实施例公开了一种音频处理装置，该装置包括：

获取模块，用于响应针对目标音频的音频增强开启指令，从目标音频中获取待播放的第一音频；该目标音频为处于播放状态的音频；

处理模块，用于将第一音频输入预先训练完成的音频增强模型，得到音频增强模型输出的第二音频；

该处理模块，还用于根据第一音频的高频带模对第二音频的模进行处理以及根据第一音频的低频带相位对第二音频的相位进行修正，以将第二音频处理为第三音频；该第三音频为超高品质音频；

播放模块，用于将播放目标音频替换为播放第三音频。

第三方面，本发明实施例提供了一种电子设备，该电子设备包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行前述第一方面提供的音频处理方法。

第四方面，本发明实施例提供了一种计算机存储介质，其特征在于，该计算机存储介质中存储有计算机程序指令，该计算机程序指令被处理器执行时，用于执行前述第一方面提供的音频处理方法。

第五方面，本发明实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品包括计算机程序，计算机程序存储在计算机存储介质中；计算机设备的处理器从计算机存储介质中读取该计算机指令时，该处理器执行前述第一方面提供的音频处理方法。

在本发明实施例中，终端设备通过接收并响应针对处于播放状态的目标音频输入的音频增强开启指令，可以根据音频增强开启指令，从目标音频中获取待播放的第一音频，以将第一音频输入预先训练完成的音频增强模型，得到该音频增强模型输出的第二音频，并根据第一音频的高频带模对第二音频的模进行处理，以及根据第一音频的低频带相位对第二音频的相位进行修正，以将第二音频处理为超高品质的第三音频，并将播放目标音频替换为播放该第三音频，从而使得终端设备可以在音频的实时播放状态下，对目标音频实时地进行音频增强处理，进而得到超高品质的第三音频，以提升用户的听觉体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A是本申请实施例提供的一种时域频谱扩展的示意图；

图1B是本申请实施例提供的一种频域频谱扩展的示意图；

图1C是本申请实施例提供的一种系统架构的示意图；

图2是本申请实施例提供的一种音频处理方法的流程示意图；

图3是本申请实施例提供的一种目标音频的播放界面的示意图；

图4是本申请实施例提供的另一种目标音频的播放界面的示意图；

图5是本申请实施例提供的又一种目标音频的播放界面示意图；

图6A是本申请实施例提供的一种目标音频对应的音频设置界面的示意图；

图6B是本申请实施例提供的一种第一音频的示意图；

图6C是本申请实施例提供的另一种第一音频的示意图；

图6D是本申请实施例提供的又一种第一音频的示意图；

图6E是本申请实施例提供的还一种第一音频的示意图；

图7A是本申请实施例提供的一种高频模的后处理流程示意图；

图7B是本申请实施例提供的一种改进后的Griffinlim算法的流程示意图；

图8A是本申请实施例提供的一种显示第一音频频谱图和第三音频频谱图的示意图；

图8B是本申请实施例提供的一种显示音频片段1的前后对比频谱的示意图；

图8C是本申请实施例提供的另一种显示音频片段1的前后对比频谱的示意图；

图9是本申请实施例提供的另一种音频增强模型生成方法的流程示意图；

图10是本申请实施例提供的一种编码-解码架构的内部结构示意图；

图11是本申请实施例提供的一种通过生成式对抗网络进行训练的流程示意图；

图12是本申请实施例提供的一种低频带和高频带频点的示意图；

图13是本申请实施例提供的一种通过生成对抗网络模型进行预测的流程示意图；

图14是本申请实施例提供的一种音频处理装置的结构示意图；

图15是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了便于理解，首先介绍本申请涉及的术语。

1、超高品质(super quality,SQ)音质

SQ音质也可以称为无损音质。其中，若将音源为光盘(compact disc,CD) 品质及CD品质以上的音频记为音频A，则音频A可以为SQ音质。或者，若将音频A经过无损编码器得到的音频记为音频B，则音频B可以为SQ音质。或者，若音频A或音频B经过较高品质的有损编码器进行编码后仍能以无损格式存储，则编码后的音频可以记为音频C，音频C可以为SQ音质。

2、高品质(high quality,HQ)音质

HQ音质，指的是未经过低码率上转的标准的mp3格式(码率为320kbps) 的音频。评判是否为HQ音质的主要技术指标是：(1)频谱最高切线达到20K 以上；(2)若20K频谱附近有衰减，则高于20K的频谱占比需大于25％；(3) 若18K附近有衰减，则高于18K频谱的占比需大于45％。其中，标准mp3格式 (320kbps)的频谱可以到达20K。

3、低品质(low quality,LQ)音质

若将以较低采样率(如28kHz以下)进行采样得到的音频，记为音频D；则音频D可以为LQ音质。或者，若将经过较低码率的编码器(如LAME 64bits version 3.99.5编码器在80kbps及以下的码率进行编码)进行编码后且频谱高度未达到14kHz的音频，记为音频E，则音频E可以为LQ音质。

4、非超高品质音质

非超高品质音质也可以称为非无损音质。非超高品质音质可以是HQ音质或LQ音质。评判是否为非无损音质的主要技术指标可以概括为：(1)文件格式为有损编码器压缩；(2)文件格式为无损编码器压缩，或者未压缩，但是可以找到经过有损压缩后重新二次保存为无损格式的，即有明显的有损压缩过的痕迹；其中，上述痕迹主要可以通过频谱高度和密度描述为：频谱达到20k以上(不含20k)，且满足一定的比例，如10％以上有有效能量。

5、音乐频谱扩展

音乐频谱扩展(Music Bandwidth Extension)技术也可以称为音乐超分辨率(Music Super Resolution)技术。从时域上看，如图1A所示，可以使用深度神经网络(DeepNeural Networks,DNN)技术进行时域插值，以引入高频细节；从频域上看，如图1B所示，可以使用DNN技术进行修复，将丢失的高频成分重建修复出来。

下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了能够增强音乐的律动和体感反馈，提高用户体验，本申请实施例提供了一种音频处理方法。为了更好地理解本申请实施例提供的音频处理方法，下面先对该音频处理方法应用的系统架构进行介绍。

请参见图1C，是本申请实施例提供的一种系统架构的示意图，可以通过该系统架构执行本申请所提出的音频处理方法。该系统架构包括终端设备101和服务器102。终端设备101和服务器102之间通过有线或无线的方式进行通信连接。需要说明的是，上述终端设备101可以设置音频增强模型，以通过该音频增强模型对正在播放的音频进行处理，从而得到超高品质的音频。

其中，终端设备101是一种具有无线通信功能的设备，可以是智能手机、平板电脑、智能可穿戴设备、个人电脑等等设备，在该设备中可以运行应用客户端，如音频播放软件。在本申请的一些实施例中，终端设备还可以是具有收发功能的装置，例如芯片系统。其中，芯片系统可以包括芯片，还可以包括其它分立器件，本申请实施例对此并不限定。

终端设备101可以从服务器102中获取数据，如视频、音频、文字等。其中，服务器102可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102中的数据库可以是服务器102的本地数据库，也可以是服务器102能够访问的云端数据库，本申请对此不作限制。需要说明的是，上述系统架构以包括一个终端设备101 和一个服务器102为例进行说明，终端设备的数量和服务器的数量不构成对本申请的限定。

下面对本申请实施例提供的音频处理方法进一步进行详细描述：

请参见图2，图2是本申请实施例提供的一种音频处理方法的流程示意图。该音频处理方法可以由终端设备(如上述图1C所示的终端设备101)执行，该方法也可以由服务器执行，或者由服务器和终端共同执行(如服务器获取终端所播放的目标音频，对目标音频中的第一音频进行音质增强后得到第二音频，并根据第一音频和第二音频确定超高品质的第三音频，以将第三音频返回终端进行播放)。为便于理解，图2实施例以该方法由终端设备执行为例进行说明。其中，该音频处理方法至少可以包括以下步骤S201～S204：

S201、响应针对目标音频的音频增强开启指令，从目标音频获取待播放的第一音频。

其中，目标音频为处于播放状态的音频。该目标音频可以为非超高品质音频，即非无损音质音频，例如为HQ音质或LQ音质的音频。目标音频可以是歌曲、录音等，本申请对此不作限制。上述目标音频处于播放状态可以理解为终端设备正在播放目标音频，例如终端设备的音乐应用或播放模块(如：收音机或录音机)等正在播放目标音频，本申请以终端设备上的音乐应用正在播放目标音频为例进行说明。

上述音频增强开启指令，可以用于针对目标音频开启音频处理流程，即针对目标音频执行步骤S201至S204。需要说明的是，用户可以在上述音乐应用中针对目标音频输入音频增强开启指令，相应的，终端设备接收该增强开启指令。

终端设备可于如下两种界面中的一种界面，接收到针对目标音频输入的音频增强开启指令。具体的：

界面一：目标音频的播放界面。即终端设备可以于目标音频的播放界面，接收针对目标音频输入的音频增强开启指令。

其中，目标音频的播放界面可以为终端设备上的音乐应用播放目标音频时的界面；如图3所示，图3示出了目标音频的播放界面。在图3所示的播放界面中，目标音频的下方可以列出不同的音质以及各个音质对应的文件大小，如：标准品质2.0M、HQ品质7.1M、SQ品质18.5M等；在各个音质选项的下方可以提供一个音频增强开启按钮，用于开启音频增强处理流程。可选的，用户可以针对上述三种不同的音质进行选择，以使得终端设备可以根据用户所选择的音质播放目标音频。可选的，用户也可以设置自动选择音质，以使得终端设备可以根据目前的网络状况等因素，自动选择当前适用的音质。如图3所示，在开启音频增强按钮之前，目标音频可以HQ音质进行播放。可选的，音质选项和音频增强开启按钮位于目标音频的下方仅用于举例，不构成对本申请的限定。

需要说明的是，在如图3所示的目标音频的播放界面中，用户可以通过点击针对目标音频的音频增强开启按钮，以开启对目标音频的音频增强处理流程，即执行步骤S201至S204。

界面二：目标音频对应的音频设置界面。即终端设备可以于目标音频对应的音频设置界面，接收针对目标音频输入的音频增强开启指令。

需要说明的是，在目标音频的播放界面不存在音频增强开启按钮的情况下，终端设备可以通过在目标音频的播放界面中进行点击操作，以跳转至目标音频对应的音频设置界面。如图4所示，图4中的目标音频的播放界面中不存在音频增强开启按钮，则终端设备可以通过接收到针对音频增强按钮的点击操作后，跳转至该目标音频对应的音频设置界面；或者，如图5所示，图5中的目标音频的播放界面不存在音频增强开启按钮，则终端设备可以通过接收到针对目标音频输入的音频设置操作后(如通过点击右键，从菜单中选取音频设置按钮)，跳转至该目标音频对应的音频设置界面，本申请对此不作限制。

如图6A所示，图6A示出了目标音频对应的音频设置界面。在图6A所示的目标音频对应的音频设置界面中，用户可以通过点击音频增强开启按钮，以开启针对目标音频的音频增强流程。

终端设备在对目标音频进行播放时，可以接收到用户针对目标音频输入的音频增强开启指令。也就是说，终端设备在播放目标音频时，可以接收到用户针对该目标音频输入的音频增强开启指令，以将该目标音频进行频谱扩展，从而提高音频品质，进而提升用户体验。

其中，为了与进行音质增强后的音频进行区分，可以将进行音质增强前的音频称为第一音频。该第一音频可以为终端设备从目标音频中获取的音频，如图6B所示，该第一音频可以为从目标音频中获取到的一段时长较短的音频(按照预设时长获取第一音频)；可选的，如图6C所示，该第一音频也可以为从目标音频中获取到的一段时长较长的音频(从接收到音频增强开启指令的时间点到目标音频的结束时间点获取第一音频)，本申请对此不作限制。

需要说明的是，在接收到音频增强开启指令时，终端设备可以将接收到该音频增强开启指令的时间点作为起始时间点，以从该起始时间点开始获取预设时长的第一音频。如上述图6B或图6C所示，若终端设备接收到音频增强开启指令时，目标音频已经播放了30秒的音频数据，则终端设备可以将第30秒作为起始时间点，以从第30秒开始获取上述第一音频。

在一种可选的实施方式中，获取第一音频的开始时间点为接收到音频增强开启指令的时间点，截止时间点为目标音频的结束时间点。此种情况下，如果用于获取第一音频的预设时长短于目标音频的剩余播放时长，那么可以从目标音频中获取到多个第一音频。另外，由于不同音频的时长可以不同，因此，终端设备从不同音频中获取的第一音频的个数也可以不同。例如：假设音频1的总时长为3分钟，若第一音频的时长为5秒，则终端设备最多可以从该音频1 中获取到36个第一音频；假设音频2的总时长为1分钟，若第一音频的时长为5秒，则终端设备最多可以从该音频2中获取到12个第一音频。

可选的，针对不同的音频，终端设备获取的第一音频的时长也可以不同。例如：假设音频3的总时长为3分钟，针对该音频3，若终端设备获取的第一音频的时长为5秒，则最多可以从该音频3中获取到36个第一音频；假设音频4 的总时长为3分钟，针对该音频4，若终端设备获取的第一音频的时长为10秒，则最多可以从该音频4中获取到18个第一音频。本申请对终端设备所获取的第一音频的个数不作限制。

在一种实现方式中，上述第一音频中可以包括一个或多个音频片段。如图 6D所示，该第一音频可以包括一个音频片段；可选的，如图6E所示，该第一音频也可以包括多个音频片段，本申请对此不作限制。

需要说明的是，在第一音频包括一个音频片段的情况下，终端设备所获取到的第一音频的数量与音频片段的数量可以相同。如图6D所示，目标音频的总时长为3分钟，第一音频(如称作第一音频1)包括的一个音频片段，若该音频片段的时长为5秒，则在目标音频已经播放了30秒的音频数据时，终端设备可以从该目标音频获取到30个音频片段(即30个第一音频1)。

可选的，在第一音频包括多个音频片段的情况下，终端设备所获取到的第一音频的数量与音频片段的数量可以不同。如图6E所示，目标音频的总时长为 3分钟，第一音频(如称作第一音频2)包括从目标音频第30秒开始之后所有的音频数据，该第一音频2包括多个音频片段，若该音频片段的时长为5秒，则在目标音频已经播放了30秒的音频数据时，终端设备可以从该目标音频获取到1个第一音频2，该第一音频2中包括30个音频片段。

需要说明的是，一个音频片段中可以包括终端设备进行音频增强处理所需要的最小音频数据量，以使得终端设备获取到该音频片段后可以进行音频增强处理。例如，若终端设备可以进行音频增强处理的最小音频数据量为5毫秒时长的音频，则一个音频片段中可以至少包括5毫秒时长的音频。其中，音频增强处理的最小音频数据量为5毫秒时长的音频仅用于举例，不构成对本申请的限定。

其中，上述音频片段也可称作单位时长的音频数据，即第一音频可以包括一个或多个单位时长的音频数据。可选的，上述一个音频片段还可称为一个批大小的音频数据。本申请实施例中均以音频片段为例进行说明，不构成对本申请的限定。可选的，上述音频片段也可以帧为单位，本申请对此不作限制。

终端设备在接收到音频增强开启指令后，可以根据该音频增强开启指令，从目标音频中获取到第一音频中包括的一个或多个音频片段，以将正在播放的时长较长的目标音频，分割为一个或多个时长较短的音频片段，从而在获取到一个音频片段后，便可以快速地开始音频增强处理，进而可以更快速地得到处理后的音频片段。

S202、将第一音频输入预先训练完成的音频增强模型，得到音频增强模型输出的第二音频。

其中，上述第二音频可以为音频增强模型输出的音频。该第二音频可以为将第一音频经过音频增强处理后的音频，该第二音频可以比第一音频包含更多的信号分量。需要说明的是，该第二音频可以与第一音频相对应，也就是说，若第一音频包括一个音频片段，则第二音频也包括一个音频片段；若第一音频包括多个音频片段，则第二音频也包括多个音频片段。

在一种实现方式中，上述音频增强模型为通过生成式对抗网络(GenerativeAdversarial Networks，GAN)对音频样本进行训练得到的模型，该音频样本为超高品质音频。如何生成音频增强模型将在图9所示的实施例进行详细描述，在此不再赘述。

S203、根据第一音频的高频带模对第二音频的模进行处理以及根据第一音频的低频带相位对第二音频的相位进行修正，以将第二音频处理为第三音频；该第三音频为超高品质音频。

其中，上述第三音频可以为基于上述第一音频和上述第二音频进行高频模后处理和相位修正后的音频。也就是说，将音频增强模型输出的第二音频进行模和相位的优化之后，可以得到该第三音频。

在一种实现方式中，基于第一音频的高频带模和第二音频的高频带模，对第二音频的模进行高频模后处理，得到第二音频的全频带模；根据第一音频的低频带相位，对第二音频的相位进行相位修正，得到第二音频的全频带相位；基于全频带模和全频带相位对第二音频进行处理，以确定第三音频。

其中，高频模后处理流程可参见图7A所示的示意图。具体的，终端设备可以将第一音频的高频带模与第二音频的高频带模进行比较，以确定出高频频点能量更大的高频带模，从而采用能量更大的高频带模作为高频模后处理后的高频带模。例如：若第一音频的高频带模的能量高于第二音频的高频带模的能量，则采用第一音频的高频带模作为高频模后处理后的高频带模。通过对高频模的后处理流程，可以在原始高频频点能量更大的情况下，尽可能地保留原始高频频点，从而做到不损害原始音频的特征。可选的，上述高频模的后处理流程与针对图像的模的后处理流程相似，在此不再赘述。

在一种实现方式中，将第一音频的低频带相位进行镜像处理，得到镜像相位；利用语音信号重建算法对镜像相位进行运算，得到运算后的相位；根据运算后的相位，对第二音频的相位进行相位修正，得到第二音频的全频带相位。

其中，上述语音信号重建算法可以为改进后的Griffinlim算法，该改进后的Griffinlim算法的具体流程可以如图7B所示。具体的，本申请实施例中，可以通过将第一音频的低频带相位进行镜像处理，以将该镜像处理后的相位作为改进后的Griffinlim算法中的初始相位，从而使得运算后的相位更准确。

需要说明的是，针对第二音频的相位修正处理的迭代次数可以人为设置，虽然迭代的次数越多可以使得结果更准确，但是为了减少终端设备的计算量，一般可以人为设置为迭代1次或2次即可，本申请对此不作限制。可选的，改进后的Griffinlim算法对应的其他步骤，可参见Griffinlim算法的相关步骤，本申请在此不再赘述。

终端设备可以根据第二音频、经过高频模后处理后的全频带模，以及经过改进Griffinlim算法进行相位修正后的全频带相位，确定出第三音频。具体的，终端设备可以将上述第二音频、全频带模和全频带相位基于欧拉公式组合，并经过短时间傅里叶逆转换(InverseShort-time Fourier Transform，ISTFT)恢复得到时域信号，本申请对此不作限制。通过将第二音频的进行模和相位的优化处理，可以使得处理后的第三音频中的细节更准确，从而提升用户的听感体验。

需要说明的是，终端设备得到第三音频之后，可以缓存第三音频，以供终端设备获取并播放该第三音频。可选的，终端设备可以将第三音频缓存至该终端设备的内存，也可以将第三音频缓存至其他存储空间，本申请对此不作限制。

在一种实现方式中，终端设备可以于音频设置界面，显示第一音频和第三音频的频谱。

需要说明的是，为了简化描述，下文均以“第三音频为进行音频增强处理后的超高品质音频”为例进行说明，该“音频增强处理”可以表示“音频增强处理以及模和相位优化处理”，不构成对本申请的限定。

由前述内容可知，第一音频可以为音频增强处理前的音频，第三音频可以为音频增强处理后的超高品质的音频。如图8A所示，在音频设置界面开启增强处理按钮之后，终端设备还可以在该音频设置界面将音频增强之前的音频(即上述第一音频)的频谱图和音频增强后的音频(即上述第三音频)的频谱图显示出来，以用于向用户展示开启音频增强的前后对比效果。其中，图8A中第一音频和第三音频频谱图的放置位置仅用于举例，不构成对本申请的限定。

可选的，上述音频增强的前后对比效果图可以是示例性的，例如，开启音频增强前的频谱高度可以为12K左右的频谱，开启音频增强后的频谱高度可以为22K左右的频谱。可以理解的是，不同音频所对应的图例可以相同，也可以不同，以向用户示出大致的效果，并不代表实际的第一音频和第三音频的频谱。

可选的，上述音频增强的前后对比效果图可以是音频增强处理过程中实际生成的图例，例如，开启音频增强前的频谱图可以为正在播放的第一音频的频谱，开启音频增强后的频谱图可以为经过音频增强处理的第三音频的频谱。可以理解的是，不同音频所对应的前后对比效果图可以不同，以向用户示出实际处理过程中的第一音频和第三音频的频谱。

在一种实现方式中，终端设备可以针对音频增强模型当前正在处理的目标音频片段，显示目标音频片段的第一频谱和第二频谱；该第一频谱为目标音频片段输入音频增强模型前的频谱，第二频谱为目标片段输入音频增强模型后的频谱，目标音频片段为多个音频片段中正在处理的音频片段。

其中，上述第一频谱可以为目标音频片段进行音频增强处理之前(即上述输入音频增强模型前)的频谱，上述第二频谱可以为目标音频片段进行音频增强处理之后(即上述输入音频增强模型后)的频谱，本申请对此不作限制。

需要说明的是，在第一音频包括多个音频片段(即多个音频片段)时，上述前后对比效果图可以用于示出正在处理的音频片段的频谱。例如：如图8B所示，假设第一音频包括音频片段1、音频片段2和音频片段3，且终端设备正在对音频片段1(即上述目标音频片段)进行音频增强处理，则前后对比效果图可以示出处理音频片段1时的前后对比频谱。可选的，若终端设备开始处理音频片段2(即上述目标音频片段)，则前后对比效果图可以示出处理音频片段2时的前后对比频谱，本申请对此不作限制。

可选的，假设第一音频包括音频片段1、音频片段2和音频片段3，前后对比效果图可以先示出音频片段1的前后对比频谱，再示出音频片段2的前后对比频谱，最后示出音频片段3的前后对比频谱，以将第一音频所包括的所有音频片段的前后对比频谱均显示出来。如图8C所示，该图示例性地先示出了音频片段1的前后对比频谱。

S204、将播放目标音频替换为播放第三音频。

终端设备获取到第三音频后，可以为用户播放该第三音频。可选的，终端设备在获取到第一音频的情况下，可暂停对第一音频的播放，并在获取到第三音频时，及时地缓存并播放第三音频，以提升用户听觉体验。其中，从暂停第一音频到播放第三音频的间隔时间较短，即将第一音频输入音频增强模型进行处理的时间较短，音频增强模型可以快速处理第一音频所包括的一个或多个音频片段，以减少用户等待时间。

在一种实现方式中，终端设备在第三音频的播放完毕时，删除缓存的第三音频。

由前述内容可知，该第三音频可以包括一个或多个音频片段，终端设备在播放第三音频时，可以依次播放音频片段，且当播放完一个音频片段，则删除该音频片段的缓存。示例性的，假设第三音频包括多个音频片段，如音频片段4、音频片段5和音频片段6，且音频片段4播放完毕，则终端设备可以删除缓存的音频片段4。可选的，终端设备也可以在第二音频播放完毕后，即音频片段4、音频片段5和音频片段6均播放完毕后，删除缓存的第二音频，本申请对此不作限制。通过删除播放完毕的音频片段，可以清空缓存，进而释放存储空间，以存储终端设备后续进行音频增强处理的音频片段。

在一种实现方式中，终端设备在接收到针对目标音频输入的播放进度条拖动指令或音频切换指令时，删除缓存的第三音频。

其中，播放进度条拖动指令可以用于拖动音频的播放进度，如将音频拖动至1分30秒；音频切换指令可以用于切换正在播放的音频，如将正在播放的音频1切换为音频3。

由于终端设备是实时地对当前正在播放的音频进行音频增强处理，因此，在终端设备接收到针对目标音频输入的播放进度条拖动指令或音频切换指令时，该终端设备需要进行音频增强处理的音频发生了改变；也就是说，先前已经处理并缓存的音频将不再被播放，所以终端设备可以删除缓存的音频，以清空缓存，进而使用该缓存存储执行了播放进度条拖动指令或音频切换指令后，并经过音频增强处理后的音频。

在一种实现方式中，终端设备在接收到针对目标音频输入的音频增强关闭指令时，停止将目标音频中的音频输入音频增强模型。

其中，音频增强关闭指令可以用于关闭音频增强处理流程。终端设备在接收到针对目标音频输入的音频增强关闭指令时，可以停止针对目标音频的音频增强处理，即停止将目标音频中的音频(如第一音频)输入音频增强模型，进而结束上述音频增强处理进程。

需要说明的是，在针对目标音频进行的音频增强处理效果不够理想，或者在针对目标音频的音频增强处理失败的情况下，终端设备可以接收到上述音乐增强关闭指令，以减少终端设备的能耗。可以理解的是，终端设备在接收到音频增强关闭指令时，目标音频将以原始的音质进行播放。

还需要说明的是，上述目标音频也可以为超高品质的音频，即无损音质音频，例如为SQ音质的音频。终端设备通过将超高品质的目标音频进行音频增强处理，可以补齐该目标音频在高频的缺失，从而使得音频增强后的音频声音更宏亮，细节更丰富。

本申请实施例中，终端设备通过接收针对处于播放状态的音频(如目标音频)输入的音频增强开启指令，可以根据音频增强开启指令，从目标音频中获取第一音频，以将第一音频输入音频增强模型，得到音频增强模型输出的音频 (如上述第二音频)，并根据第一音频和第二音频确定出进行模和相位优化后的第三音频，以缓存并播放该第三音频，从而使得终端设备可以在音频的实时播放状态下，对该音频进行音频增强处理，进而得到超高品质的音频，以提升用户的听觉体验。

请参见图9，图9是本申请实施例提供的一种音频增强模型生成方法的流程示意图。该音频增强模型生成方法可以由终端设备(该终端设备可以为执行图2 所示实施例的终端设备，也可以为其他终端设备)或服务器执行。假设图2所示实施例由终端设备1执行，音频增强模型生成方法由终端设备2或服务器执行，终端设备2或服务器生成的音频增强模型可部署在终端设备1中。为便于理解和区分，图9所示实施例以该方法由终端设备2执行为例进行说明。其中，该音频增强模型生成方法至少可以包括以下步骤S901～S902：

S901、生成音频增强模型的初始架构。

音频增强模型的初始架构中可以包括音频增强模型所需要采用的一个或多个算法。由于音频增强模型可以从低频带通过模型学习得到高频带的映射关系，因此，可以采用编码-解码(encoder-decoder)网络模型作为音频增强模型的初始架构。

可选的，图10为encoder-decoder架构的内部结构示意图。由图10所示，该encoder-decoder架构中可以包括深度可分离卷积(Depthwise Separable Convolution，DWconv2D)、分裂超分模块(SplitSRBlock)和子像素卷积(sub-pixel consvolution，SubPixel2D)等轻量化算法，下文将对几种轻量化算法的具体计算过程进行简要的说明。

1、DWconv2D

其中，DWconv2D为深度(Depthwise，DW)卷积与逐点(Pointwise，PW)卷积的合称。深度卷积不同于常规卷积操作，深度卷积的一个卷积核负责一个通道，一个通道只被一个卷积核卷积；而常规卷积的每个卷积核是同时操作输入的每个通道。以对图像进行处理为例，对于一张5×5像素、三通道彩色输入图像(即该输入图像的大小为5×5×3)，深度卷积可以在二维平面内进行运算，其卷积核的数量与上一层的通道数相同(通道和卷积核一一对应)；因此，一个三通道的图像经过运算后可以生成3个特征图像。

逐点卷积的运算与常规卷积运算非常相似，不同之处在于，逐点卷积的卷积核的尺寸为1×1×M，M为上一层的深度。因此，通过逐点卷积运算可以将上一步的图像在深度方向上进行加权组合，以生成新的特征图像。在逐点卷积中，特征图像的数量与过滤器的数量相同。

2、SplitSRBlock

在DWconv2D基础上进一步优化，提出了一种新的端到端手机端超分辨率系统SplitSR，分裂卷积按一定比率(该比率可调)沿深度通道分割输入特征，以降低计算量和内存损耗，从而加速推理过程。具体的，可以先将输入特征沿着深度通道分隔，一部分参与DWconv2D计算，一部分不参与任何计算(即特征保留)；再将两个部分的特征按照深度通道进行合并拼接。通过该算法可以减小计算量，还可以保留一部分特征到下一层中，从而使得解码层也能得到更多的初级特征。

3、SubPixel2D

SubPixel2D是结合了上采样(upsample)和卷积(consvolution)操作的一种算法，该算法可以作用于低分率特征，以使得该低分辨率特征通过该算法得到高分辨率特征。通过该算法可以降低使用逆卷积作为上采样手段时可能会带入过多认为因素的风险。SubPixel2D可以将每个像素的每个通道重新排列成一个r*r的区域，以对应高分辨率图像中的一个r*r大小的子块，即大小为1*H*W 的特征图像可以被重新排列成1*rH*rW大小的高分辨率图像。若是四维向量重组特征大小，则可以由[B,H,W，r*r*C]重新排列为[B,rH,rW,C]。该算法虽然被称作sub-pixel convolution，但实际上并没有卷积操作。

本申请实施例中，通过采用精简的encoder-decoder网络模型来生成音频增强模型的初始架构，可以减少网络层数以及输入帧数；其中，该encoder-decoder 网络模型使用特殊的编码(encoder)网络结构单元，以减小计算量和模型大小；并使用特殊的解码(decoder)模块进行上采样，以降低内存使用单元，使得终端设备1在运行音频增强模型时，既能实时运行又占用极低中央处理器(Central Processing Unit，CPU)资源和内存消耗。

S902、通过生成式对抗网络GAN，对音频样本进行训练，得到音频增强模型。其中，上述音频样本可以为超高品质音频。

需要说明的是，上述GAN训练可以包括生成器(Generator)和判别器(Discriminator)，通过GAN训练可以使得生成器生成的预测音频无法辨别真假。其中，生成器可以使用上述步骤中提到的轻量级encoder-decoder架构，判别器可以使用二分类网络模型结构(如VGG-like)。

如图11所示，图11示出了通过GAN训练的流程示意图。具体的，终端设备2可以从该音频样本中获取第四音频，该第四音频为音频样本的低频带音频；并将上述第四音频输入上述encoder-decoder架构，得到第五音频；该第五音频可以为通过GAN训练得到的音频。

需要说明的是，在获取到音频样本时，终端设备2可以提取音频样本的短时傅里叶变换(Short-time Fourier Transform，STFT)特征，并对该STFT特征取模，再取对数，以得到该音频样本的模对数；其中，fft_length＝2048，hop_length＝256。该音频样本的模对数大小可以表示为[T,1024]，其中，T为可以为一个特征序列(即上述第一音频)的长度，该T值的大小与音频样本的时长有关。可选的，若将模对数转换为固定帧长为32帧的大小，则可以将该音频样本的模对数大小可以表示为[X,32,1024]，其中，X＝T/32。

由于在encoder-decoder架构中使用轻量级DWconv2D作为卷积运算单元，因此可以构建一个四维的输入输出，比如将第二维默认扩展为1，则上述音频样本的模对数大小可以表示为[X,1,32,464]，即在训练过程中模型的输入可以为 [X,1,32,464]，各个数值可以分别表述为[批大小,固定值1,帧长,低频带点数]。其中，低频带点数464可以对应于10K的频谱高度，其计算方式可以为： 464＝2048*10K(频谱高度)/44.1K(采样率)。可以理解的是，在训练过程中模型的输出可以为[X,1,32,580]，各个数值可以分别表述为[批大小,固定值1,帧长, 高频带点数]。其中，高频带频点数580的计算方式可以为：580＝(1024-464)+20；其中，1024可以对应于44.1K采样率全频带22.05K频谱高度，20可以对应于重叠区(overlap)频点数，该数值不固定、可调整，以用于预防计算过程中的突变情况。可参见图12，图12示出了低频带和高频带频点的示意图。

可选的，GAN中Generator和Discriminator的损失函数分别可以为：

其中，

可以表示判别器的损失函数；E可以表示交叉熵损失函数；x可以表示音频样本，D可以表示判别器，D(x)可以表示将音频样本置于判别器进行判别；z可以表示音频增强模型的输入，该输入为音频样本的低频带音频；G可以表示生成器，G(z)可以表示将输入音频增强模型的低频带音频进行预测生成，该生成结果为全频带音频；D(G(z))可以表示将生成的全频带音频至于判别器进行判别；

可以表示生成器的损失函数；可以先训练D(判别器)，再训练G (生成器)，两者相互对抗，直至收敛。需要说明的是，除了使用上述损失函数外，还可以额外引入两个损失函数以加强低频带特征到高频带特征的预测，如下所示，总的L_G损失函数可以为：

其中，L_G可以表示总的损失函数，L_LSD可以表示最小显著差(Least SignificantDifference,LSD)的损失函数，也可称为L2 loss；L_l1pixcel可以表示L1 loss，也可称为L1范数损失；上述λ₁和λ₂可以表示权重超参数，一般可以分别设置为10 和0.1即可；L可以表示时间(即频谱图中的横轴)，K可以表示频点(即频谱图中的纵轴)，X^HR可以表示高频带，X^HR(l,k)可以表示高频带中具体频点的位置，X^SR可以表示生成的高频带，X^SR(l,k)可以表示生成的高频带中具体频点的位置。可以看出，L_LSD损失函数可以通过把目标值(高频带)与模型输出值(生成的高频带)之差的平方再开根号得到误差；L_l1pixcel损失函数可以通过把目标值(高频带)与模型输出值(生成的高频带)之差进行绝对值运算得到误差。

本申请实施例中，通过采用GAN训练模型，并不直接使用一般的生成模型 (如自动编码器(auto encoder))训练方式，可以更加充分地训练模型，从而从低频带学习得到更多高频带的细节，使得高频带生成得到更多高频细节，进而更加逼真的还原真实高频特征。

可选的，终端设备2通过训练好的音频增强模型进行预测生成时，可以对音频增强后的音频的模和相位进行后处理。具体的，如图13所示，输入44.1K 采样率音频(如上述音频样本)，然后计算STFT特征，得到对应模和相位，对模取对数得到对数模，将对数模截取到频谱高度10K(如上述第四音频)，输入训练好的生成器和高频模后处理模块，可以得到一个全频带模，将生成的全频带模和通过低频带相位镜像得到全频带相位，通过欧拉公式，并使用ISTFT，可以得到44.1K采样率时域波形，进一步送入改进Griffinlim算法以修正相位，即可得到经过模和相位后处理的时域波形(即图13中预测后的音频)。

需要说明的是，在通过训练好的音频增强模型进行预测生成时，所输入的音频样本可以为超高品质的音频(即图13中采样率为44.1K的音频)，将该音频样本进行音频增强处理(包括模和相位的优化处理)之后，所得到的音频仍然可以为预测后的超高品质音频(即采样率为44.1K的音频)。该预测后的音频可以补齐音频样本在频域上的高频缺失，可以使得音频样本在时域上波动更快，进而使得预测后的音频声音更宏亮，细节更丰富。

可选的，在通过音频增强模型进行预测生成时，所采用的高频模后处理流程以及相位修正处理流程，可以参见前述图2对应实施例中S203对应的高频模后处理和相位修正的详细描述，本申请在此不再赘述。

本申请实施例中，通过在生成音频增强模型的初始架构时，部署轻量化算法，可以减少计算量和模型大小；并通过GAN对超高品质的音频样本进行训练，可以得到音频增强模型，从而从低频带学习到更多高频带的细节；再对音频增强模型预测生成的音频进行模和相位的优化处理，可以使得预测结果更准确，进而提高音频的播放效果。

基于上述的音频处理方法，本发明实施例提供了一种音频处理装置。请参见图14，是本发明实施例提供的一种音频处理装置的结构示意图，该音频处理装置1400可以运行如下单元：

获取单元1401，用于响应针对目标音频的音频增强开启指令，从目标音频中获取待播放的第一音频；该目标音频为处于播放状态的音频；

处理单元1402，用于将第一音频输入预先训练完成的音频增强模型，得到音频增强模型输出的第二音频；

该处理单元1402，还用于根据第一音频的高频带模对第二音频的模进行处理以及根据第一音频的低频带相位对第二音频的相位进行修正，以将第二音频处理为第三音频；该第三音频为超高品质音频；

播放单元1403，用于将播放目标音频替换为播放第三音频。

在一实施例中，上述音频处理装置中还包括确定单元1404。上述处理单元 1402，还用于基于第一音频的高频带模和第二音频的高频带模，对第二音频的模进行高频模后处理，得到第二音频的全频带模；上述处理单元1402，还用于根据第一音频的低频带相位，对第二音频的相位进行相位修正，得到第二音频的全频带相位；该确定单元1404，用于基于全频带模和全频带相位对所述第二音频进行处理，以确定第三音频。

在一实施例中，上述处理单元1402，还用于将第一音频的低频带相位进行镜像处理，得到镜像相位；上述处理单元1402，还用于利用语音信号重建算法对镜像相位进行运算，得到运算后的相位；上述处理单元1402，还用于根据运算后的相位，对第二音频的相位进行相位修正，得到第二音频的全频带相位。

在一实施例中，上述处理单元1402，还用于在接收到针对目标音频输入的拖动指令或切换指令时，删除缓存的第三音频。

在一实施例中，上述处理单元1402，还用于在第三音频的播放完毕时，删除缓存的第三音频。

在一实施例中，上述处理单元1402，还用于在接收到针对目标音频输入的音频增强关闭指令时，停止将目标音频中的音频输入音频增强模型。

在一实施例中，上述音频处理装置中还包括通信单元1405。该通信单元1405，用于于目标音频的播放界面，接收针对目标音频输入的音频增强开启指令。

在一实施例中，上述通信单元1405，还用于于目标音频对应的音频设置界面，接收针对目标音频输入的音频增强开启指令。

在一实施例中，上述音频处理装置中还包括显示单元1406。该显示单元1406，用于于音频设置界面，显示第一音频和第三音频的频谱。

在一实施例中，上述显示单元1406，还用于针对音频增强模型当前正在处理的目标音频片段，显示目标音频片段的第一频谱和第二频谱；该第一频谱为目标音频片段输入音频增强模型前的频谱，第二频谱为目标片段输入音频增强模型后的频谱，目标音频片段为多个音频片段中正在处理的音频片段。

在一实施例中，上述音频增强模型为通过生成式对抗网络对音频样本进行训练得到的模型，该音频样本为超高品质音频。

根据本发明的一个实施例，图2所示的音频处理方法所涉及各个步骤可以是由图14所示的音频处理装置中的各个单元来执行的。例如，图2的步骤S201 可由图14所示的音频处理装置1400中的获取单元1401来执行，步骤S202可由图14所示的音频处理装置1400中的处理单元1402来执行，步骤S204可由图14所示的音频处理装置1400中的播放单元1403来执行等等。

根据本发明的另一个实施例，图14所示的音频处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于音频处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本发明的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图14中所示的音频处理装置，以及来实现本发明实施例音频处理方法。所述计算机程序可以记载于例如计算机存储介质上，并通过计算机存储介质装载于上述计算设备中，并在其中运行。

综上所述，终端设备通过接收针对处于播放状态的音频(如目标音频)输入的音频增强开启指令，可以响应音频增强开启指令，从目标音频中获取待播放的第一音频，以将第一音频输入预先训练完成的音频增强模型，得到音频增强模型输出的音频(如第二音频)，并根据第一音频和第二音频，确定超高品质的第三音频，以播放该第三音频，从而使得终端设备可以在音频的实时播放状态下，对该音频进行音频增强处理，进而得到超高品质的音频，以提升用户的听觉体验。

基于上述的音频处理方法以及音频处理装置的实施例，本发明实施例还提供了一种电子设备，此处所述电子设备可以对应于前述的终端设备。请参见图 15，是本发明实施例提供的一种电子设备的结构示意图，该电子设备1500至少可包括：处理器1501、输入接口1502、输出接口1503以及计算机存储介质1504 可通过总线或其他方式连接。

计算机存储介质1504可以存储在电子设备1500的存储器1505中，所述计算机存储介质1501用于存储计算机程序，所述计算机程序包括程序指令，所述处理器1501用于执行所述计算机存储介质1504存储的程序指令。处理器1501 (或称CPU(Central ProcessingUnit，中央处理器))是电子设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行：

响应针对目标音频的音频增强开启指令，从目标音频中获取待播放的第一音频；该目标音频为处于播放状态的音频；将第一音频输入预先训练完成的音频增强模型，得到音频增强模型输出的第二音频；根据第一音频的高频带模对第二音频的模进行处理以及根据第一音频的低频带相位对第二音频的相位进行修正，以将第二音频处理为第三音频；该第三音频为超高品质音频；将播放目标音频替换为播放第三音频。

在一实施例中，上述处理器1501，还用于基于第一音频的高频带模和第二音频的高频带模，对第二音频的模进行高频模后处理，得到第二音频的全频带模；上述处理器1501，还用于根据第一音频的低频带相位，对第二音频的相位进行相位修正，得到第二音频的全频带相位；上述处理器1501，还用于全频带模和全频带相位对所述第二音频进行处理，以确定第三音频。

在一实施例中，上述处理器1501，还用于将第一音频的低频带相位进行镜像处理，得到镜像相位；上述处理器1501，还用于利用语音信号重建算法对镜像相位进行运算，得到运算后的相位；上述处理器1501，还用于根据运算后的相位，对第二音频的相位进行相位修正，得到第二音频的全频带相位。

在一实施例中，处理器1501，在接收到针对目标音频输入的拖动指令或切换指令时，删除缓存的第三音频。

在一实施例中，处理器1501，在第三音频的播放完毕时，删除缓存的第三音频。

在一实施例中，处理器1501，在接收到针对目标音频输入的音频增强关闭指令时，停止将目标音频中的音频输入音频增强模型。

在一实施例中，处理器1501，于目标音频的播放界面，接收针对目标音频输入的音频增强开启指令。

在一实施例中，处理器1501，于目标音频对应的音频设置界面，接收针对目标音频输入的音频增强开启指令。

在一实施例中，处理器1501，于音频设置界面，显示第一音频和第三音频的频谱。

在一实施例中，处理器1501，针对音频增强模型当前正在处理的目标音频片段，显示目标音频片段的第一频谱和第二频谱；该第一频谱为目标音频片段输入音频增强模型前的频谱，第二频谱为目标片段输入音频增强模型后的频谱，目标音频片段为多个音频片段中正在处理的音频片段。

在一实施例中，上述音频增强模型为对生成式对抗网络模型进行相位修正得到的模型，该生成式对抗网络模型为通过生成式对抗网络对音频样本进行训练得到的模型，该音频样本为超高品质音频。

综上所述，电子设备接收针对目标音频输入的音频增强开启指令，该目标音频为处于播放状态的音频；并响应音频增强开启指令，从目标音频中获取待播放的第一音频；以将第一音频输入预先训练完成的音频增强模型，得到音频增强模型输出的第二音频，并根据第一音频和第二音频，确定超高品质音频的第三音频；从而播放第三音频。应当理解的，电子设备在通过将第一音频输入音频增强模型能够得到超高品质的第三音频，进而提高用户体验。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等，具体可以是计算机设备中的处理器)执行本申请各个实施例上述方法的全部或部分步骤。其中，而前述的存储介质可包括：U盘、移动硬盘、磁碟、光盘、只读存储器 (英文：Read-Only Memory，缩写：ROM)或者随机存取存储器(英文：Random AccessMemory，缩写：RAM)等各种可以存储程序代码的介质。

本领域普通技术人员可以意识到，结合本申请中所公开的实施例描述的各示例的单元及步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用，使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程设备。计算机指令可以存储在计算机存储介质中，或者通过计算机存储介质进行传输。计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如，同轴电缆、光纤、数字用户线(DSL))或无线(例如，红外、无线、微波等) 方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种音频处理方法，其特征在于，所述方法应用于终端设备，所述方法包括：

响应针对目标音频的音频增强开启指令，从所述目标音频获取待播放的第一音频；所述目标音频为处于播放状态的音频；

将所述第一音频输入预先训练完成的音频增强模型，得到所述音频增强模型输出的第二音频；

根据所述第一音频的高频带模对所述第二音频的模进行处理以及根据所述第一音频的低频带相位对所述第二音频的相位进行修正，以将所述第二音频处理为第三音频；所述第三音频为超高品质音频；

将播放所述目标音频替换为播放所述第三音频。

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一音频和所述第二音频，确定第三音频，包括：

基于所述第一音频的高频带模和所述第二音频的高频带模，对所述第二音频的模进行高频模后处理，得到所述第二音频的全频带模；

根据所述第一音频的低频带相位，对所述第二音频的相位进行相位修正，得到所述第二音频的全频带相位；

基于所述全频带模和所述全频带相位对所述第二音频进行处理，以确定所述第三音频。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一音频的低频带相位，对所述第二音频的相位进行相位修正，得到所述第二音频的全频带相位，包括：

将所述第一音频的低频带相位进行镜像处理，得到镜像相位；

利用语音信号重建算法对所述镜像相位进行运算，得到运算后的相位；

根据所述运算后的相位对所述第二音频的相位进行相位修正，得到所述第二音频的全频带相位。

4.根据权利要求2所述的方法，其特征在于，所述音频增强模型为通过生成式对抗网络对音频样本进行训练得到的模型，所述音频样本为超高品质音频。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述方法还包括：

在接收到针对所述目标音频输入的拖动指令或切换指令时或者在所述第三音频播放完毕时，删除缓存的所述第三音频。

6.根据权利要求1-4中任一项所述的方法，其特征在于，所述接收针对目标音频输入的音频增强开启指令，包括：

于所述目标音频的播放界面或所述目标音频对应的音频设置界面，接收针对所述目标音频输入的音频增强开启指令。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

于所述音频设置界面，显示所述第一音频和所述第三音频的频谱。

8.根据权利要求7所述的方法，其特征在于，所述第一音频包括多个音频片段，所述第二音频包括各个所述音频片段分别增强后的音频片段，且所述音频增强模型依次对各个所述音频片段进行处理得到音频增强后的音频片段；

所述显示所述第一音频和所述第三音频的频谱，包括：

针对所述音频增强模型当前正在处理的目标音频片段，显示所述目标音频片段的第一频谱和第二频谱；其中，所述第一频谱为所述目标音频片段的频谱，所述第二频谱为所述目标音频片段对应的增强后的音频片段的频谱。

9.一种电子设备，其特征在于，包括处理器和存储器，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-8任一项所述的方法。