CN111526242B

CN111526242B - 音频处理方法、装置和电子设备

Info

Publication number: CN111526242B
Application number: CN202010366389.7A
Authority: CN
Inventors: 王诗云
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2021-09-07
Anticipated expiration: 2040-04-30
Also published as: CN111526242A

Abstract

本申请公开了一种音频处理方法、装置和电子设备，属于电子设备技术领域。其中，该音频处理方法包括：获取目标音频，目标音频包括N个第一子音频段，第一子音频包括一个发声对象的声音；按照第一子音频段所属的发声对象，为第一子音频段添加发声对象标识；显示目标音频对应的M个音频轨道，每个音频轨道包括至少一个第一子音频段，一个音频轨道对应一个发声对象标识；其中，N为正整数，M为小于或等于N的正整数。根据本申请公开的音频处理方法、装置和电子设备，能够解决现有技术中音频处理的难度较高的问题。

Description

音频处理方法、装置和电子设备

技术领域

本申请属于电子设备技术领域，具体涉及一种音频处理方法、装置和电子设备。

背景技术

目前，电子设备在录音或录像时，会将来自不同发声对象的声音进行融合录制。当用户需要对所录制的音频中的某一个或多个发声对象的声音进行后期处理时，需要人工从所录制的音频中对这些声音进行分离，不但费时费力，还会出现声音无法分离或者分离错误的问题，使得音频处理的难度较高。

发明内容

本申请实施例的目的是提供一种音频处理方法、装置和电子设备，能够解决现有技术中音频处理的难度较高的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种音频处理方法，该方法包括：

获取目标音频，目标音频包括N个第一子音频段，第一子音频包括一个发声对象的声音；

按照第一子音频段所属的发声对象，为第一子音频段添加发声对象标识；

显示目标音频对应的M个音频轨道，每个音频轨道包括至少一个第一子音频段，一个音频轨道对应一个发声对象标识；

其中，N为正整数，M为小于或等于N的正整数。

第二方面，本申请实施例提供了一种音频处理装置，该装置包括：

音频获取模块，用于获取目标音频，目标音频包括N个第一子音频段，第一子音频包括一个发声对象的声音；

第一添加模块，用于按照第一子音频段所属的发声对象，为第一子音频段添加发声对象标识；

第一显示模块，用于显示目标音频对应的M个音频轨道，每个音频轨道包括至少一个第一子音频段，一个音频轨道对应一个发声对象标识；

其中，N为正整数，M为小于或等于N的正整数。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序或指令，程序或指令被处理器执行时实现如第一方面所述的音频处理方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，可读存储介质上存储程序或指令，程序或指令被处理器执行时实现如第一方面所述的音频处理方法的步骤。

第五方面，本申请实施例提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现如第一方面所述的音频处理方法。

在本申请实施例中，能够在获取到目标音频之后，根据目标音频中的每个第一子音频段所属的发声对象，为每个第一子音频段添加发声对象标识，并且显示每个发声对象标识对应的音频轨道，由于每个音频轨道内都包含了具有该音频轨道对应的发声对象标识的第一子音频段，因此，能够对目标音频中来自不同发声对象的子音频段进行分轨录制，从而使用户可以根据需要直接对不同音频轨道对应的子音频段进行音频处理，降低了音频处理的难度。

附图说明

图1是本申请一个实施例提供的音频处理方法的流程示意图；

图2是本申请一个实施例提供的录制显示界面的界面示意图；

图3是本申请第一实施例提供的录音处理过程的界面示意图；

图4是本申请第二实施例提供的录音处理过程的界面示意图；

图5是本申请第三实施例提供的录音处理过程的界面示意图；

图6是本申请第四实施例提供的录音处理过程的界面示意图；

图7是本申请第五实施例提供的录音处理过程的界面示意图；

图8是本申请第六实施例提供的录音处理过程的界面示意图；

图9A是本申请第七实施例提供的一种录音处理过程的界面示意图；

图9B是本申请第七实施例提供的另一种录音处理过程的界面示意图；

图10是本申请另一个实施例提供的录制显示界面的界面示意图；

图11A是本申请第一实施例提供的一种视频处理过程的界面示意图；

图11B是本申请第一实施例提供的另一种视频处理过程的界面示意图；

图12是本申请第二实施例提供的视频处理过程的界面示意图；

图13是本申请第三实施例提供的视频处理过程的界面示意图；

图14A是本申请第四实施例提供的一种视频处理过程的界面示意图；

图14B是本申请第四实施例提供的另一种视频处理过程的界面示意图；

图15是本申请第五实施例提供的视频处理过程的界面示意图；

图16是本申请一个实施例提供的音频处理装置的结构示意图；

图17是实现本申请实施例的一种电子设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

目前，用户一般通过电子设备对声音或者画面进行录制，以便用户可以在录制后进行回放和编辑。当电子设备在录音或录像时，会将来自不同发声对象的声音进行融合录制。例如，在电子设备对多人对话的录音和录像中，会将不同人声、背景声和杂声都融合在一起录制。

在实际实践过程中，申请人发现现有技术中至少存在如下问题：

当用户需要对所录制的音频中的某一个或多个发声对象的声音进行后期处理时，需要人工从所录制的音频中对这些声音进行分离，不但费时费力，还会出现声音无法分离或者分离错误(例如弄错说话对象)的问题，使得音频处理的难度较高。

为了解决上述的问题，本申请实施例提供了一种音频处理方法、装置和电子设备。下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音频处理方法进行详细地说明。

图1示出了本申请一个实施例提供的音频处理方法的流程示意图。

在本申请一些实施例中，图1所示的方法可以由音频处理装置执行。如图1所示，该音频处理方法可以包括：

步骤110、获取目标音频，目标音频包括N个第一子音频段，第一子音频包括一个发声对象的声音；

步骤120、按照第一子音频段所属的发声对象，为第一子音频段添加发声对象标识；

步骤130、显示目标音频对应的M个音频轨道，每个音频轨道包括至少一个第一子音频段，一个音频轨道对应一个发声对象标识；

其中，N为正整数，M为小于或等于N的正整数。

上述各步骤的具体实现方式将在下文中进行详细描述。

下面介绍上述各个步骤的具体实现方式。

在本申请一些实施例中，目标音频可以为已经录制好的音频。

可选地，在这些实施例中，步骤110的具体方法可以包括：

从目标存储位置获取目标音频。

在一些实施例中，目标音频可以为本地音频，目标存储位置可以为音频处理装置的本地存储空间中的存储位置。此时，音频处理装置可以基于目标存储路径直接从本地存储空间中获取目标音频。

在另一些实施例中，目标音频可以为网络音频，目标存储位置可以为互联网存储设备。此时，音频处理装置可以基于目标访问地址访问互联网存储设备，并从互联网存储设备中获取目标音频。

可选地，在这些实施例中，步骤110的具体方法还可以包括：

接收目标设备发送的目标音频。

其中，目标设备可以为与音频处理装置通讯的电子设备，例如，可以为通过即时通信应用与音频处理装置通信的电子设备。

在本申请另一些实施例中，目标音频可以为多媒体文件中的音频。

可选地，在这些实施例中，步骤110的具体方法可以包括：

获取多媒体文件；

从多媒体文件中提取目标音频。

其中，多媒体文件可以为本地多媒体文件、网络多媒体文件或者目标设备发送的多媒体文件，获取多媒体文件的方法与上述的获取目标音频的方法相似，在此不做赘述。

在获取多媒体文件后，可以基于音频提取技术或音频提取应用，从多媒体文件中提取目标音频。

在本申请又一些实施例中，目标音频可以为音频处理装置正在录制的音频。

可选地，在这些实施例中，步骤110的具体方法可以包括：

通过音频采集设备采集目标音频。

其中，音频采集设备可以包括音频处理装置上安装的麦克风、与音频处理装置之间通信的录音机、录像机或者话筒等。

在本申请实施例中，发声对象可以包括人物、动物、事物和干扰源中的至少一种。

其中，当发声对象为人物时，发声对象的声音可以为人物的说话声；当发声对象为动物时，发声对象的声音可以为动物的叫声；当发声对象为事物时，事物可以包括自然现象(例如，刮风、下雨、打雷等)、交通工具、建筑工地等，发送对象的声音可以为自然现象的声音(例如，风声、雨声、雷鸣声等)、交通工具的鸣笛声、建筑工地的施工声音等；当发声对象为干扰源时，干扰源可以为电磁波等，发声对象的声音可以为杂音。

以上为步骤110的具体实现方式，下面将介绍步骤120的具体实现方式。

在本申请一些实施例的步骤120中，可以为每个第一子音频段添加该子音频段所属的发声对象对应的发声对象标识。其中，发声对象标识为用于识别该子音频段所属的发生对象的标签，一个发声对象具有一个发声对象标识。

在本申请一些实施例中，在步骤120之前，该音频处理方法还可以包括：

获取第一子音频段的声音特征；

根据声音特征，确定第一子音频段所属的发声对象。

在一些实施例中，声音特征可以为发声对象所发出的声音的响度、音调和音色等特征。在另一些实施例中，声音特征也可以为发声对象所发出的声音的声纹特征。其中，声纹特征可以包括发声对象所发出的声音所形成的音频信号对应的音频波形中反映发声对象的生理和行为特征的音频参数特征，每个发声对象的声纹特征均不同。

在一些实施例中，可以获取多个第一子音频段的声音特征，并基于声音特征对N个第一子音频段进行声纹识别，将声音特征相同的第一子音频段分为一组，此时，该组第一子音频段属于一个发声对象。

在对N个第一子音频段进行分组后，可以根据第一子音频段的组数，为各组第一子音频段进行编号，并将该编号作为每组第一子音频段所属发声对象的发声对象标识，从而为每个第一子音频段添加所属分组的编号。

例如，如果第一子音频段对应的分组为第一组，则确定该第一子音频段所属的发声对象可以为对象A，为其添加的发声对象标识可以为标签1。

在另一些实施例中，音频处理装置中还可以预先存储有多个预设声音特征。例如，可以预先存储有多个人物的声音特征、动物的声音特征或者交通工具的声音特征。并且，每个预设声音特征对应有预设发声对象标识。

具体地，用户可以利用音频处理装置分别预先录制人物、动物或者交通工具的声音，并利用音频处理装置识别所录制的声音中的声音特征，将其存储为预设声音特征。用户还可以在存储预设声音特征时，为其添加个性化的预设发声对象标识，例如，预设发生对象标识可以为人名、动物名等。

例如，用户可以利用音频处理装置预先录制自己的声音，并利用音频处理装置识别所录制的声音中的声音特征，将其存储为预设声音特征，同时，将预设声音特征对应的预设发声对象标识设置为“自己”。

再例如，用户可以利用音频处理装置预先录制自己宠物的声音，并利用音频处理装置识别所录制的声音中的声音特征，将其存储为预设声音特征，同时，将预设声音特征对应的预设发声对象标识设置为“小花”。

在音频处理装置获取第一子音频段的声音特征之后，可以与预设声音特征进行比较，并且将与声音特征相同的预设声音特征所属的发声对象，作为第一子音频段所属的发声对象。

在确定第一子音频段所属的发声对象之后，可以为第一子音频段添加与声音特征相同的预设声音特征对应的预设发声对象标识。

在另一些实施例中，音频处理装置在获取首个第一子音频段后，可以获取该第一子音频段的声音特征，并确定该第一子音频段所属的发声对象可以为对象A，为其添加的发声对象标识可以为标签1；音频处理装置在获取第二个第一子音频段后，可以获取该第一子音频段的声音特征，并确定该第二个第一子音频段的声音特征是否与首个第一子音频段的声音特征相同，如果相同，则确定该第一子音频段所属的发声对象可以为对象A，为其添加的发声对象标识可以为标签1，如果不相同，则确定该第一子音频段所属的发声对象可以为对象B，为其添加的发声对象标识可以为标签2，以此类推，识别多个第一子音频段所属的发声对象，并为各个第一子音频段添加发声对象标识。

在为每个第一子音频段添加所属的发声对象对应的发声对象标识之后，可以根据发声对象标识按照时间由先至后的顺序分轨记录第一子音频段，每个第一子音频段在所属音频轨道中的记录时间与该第一子音频段在目标音频中的播放时间相同。

以上为步骤120的具体实现方式，下面将介绍步骤130的具体实现方式。

在本申请一些实施例中，在目标音频为已经录制好的音频的情况下，可以在目标音频的音频显示界面中，显示目标音频对应的M个音频轨道。

在本申请另一些实施例中，在目标音频为正在录制的音频的情况下，可以在目标音频的录制显示界面中，显示目标音频对应的M个音频轨道。

由于音频处理装置可以根据发声对象标识分轨记录第一子音频段，因此，一个音频轨道可以对应一个发声对象标识，即一个音频轨道中可以记录有一个发声对象对应的至少一个第一子音频段。

在本申请实施例中，可选地，可以纵向显示M个音频轨道，各个音频轨道的轨道长度和轨道时长均相同。

在本申请实施例中，可选地，可以显示每个音频轨道所属的发声对象对应的发声对象标识。

在用户预先为预设声音特征设置的预设发声对象标识为发声对象的对象名称的情况下，音频处理装置能够自动显示每个音频轨道所属的发声对象的对象名称，例如，“自己”和“小花”。

在发声对象标识为发声对象对应的子音频段分组的编号的情况下，用户还可以对显示的发声对象标识进行修改，使用户可以对每个发声对象的发声对象标识进行自定义设置。

图2示出了本申请一个实施例提供的录制显示界面的界面示意图。

如图2所示，该录制显示界面显示有录音名称“录音1”、录制时长00:10:17、对象A的音频轨道1、对象B的音频轨道2、对象C的音频轨道3以及功能按钮202。其中，音频轨道1、音频轨道2和音频轨道3中分别包括一个第一子音频段201。

在目标音频为多人对话的场景中，对象A可以为用户A，对象B可以为用户B，对象 C可以为用户C，此时，每个音频轨道对应一个人声。

在目标音频为自然环境采风的场景中，对象A可以为鸟，对象B可以为风，对象C可以为流水，此时，音频轨道1对应鸟鸣声，音频轨道2对应风声，音频轨道3对应流水声。

在本申请另一种实施方式中，目标音频还可以包括K个第二子音频段，第二子音频段包括至少两个发声对象的声音，K为正整数。为了更准确地分轨记录声音，在步骤130之前，该音频处理方法还可以包括：

对第二子音频段进行音频分离，得到至少两个第三子音频段；其中，一个第三子音频段包括一个发声对象的声音；

按照第三子音频段所属的发声对象，为第三子音频段添加发声对象标识；

其中，音频轨道还包括第三子音频段。

在一些实施例中，可以利用针对多说话人的音频分离技术，对第二子音频段进行音频分离，得到至少两个第三子音频段，使每个三子音频段包括一个发声对象的声音，然后，按照第三子音频段所属的发声对象，为第三子音频段添加发声对象标识。

其中，为第三子音频段添加发声对象标识的方法与为第一子音频段添加发声对象标识的方法相似，在此不做赘述。

需要说明的是，在分轨记录第三子音频段时，属于同一个第二子音频段的第三子音频段所属音频轨道中的记录时间均与该第二子音频段在目标音频中的播放时间相同。

由此，本说明书实施例可以将包括两个以上发声对象的声音的第二子音频段拆分为至少两个包括一个发声对象的声音的第三子音频段，并且分别为第三子音频段添加发声对象标识，从而能够更准确地分轨记录不同发声对象的声音，进一步降低音频处理的难度。

在本申请一些实施例中，在步骤110之前，该音频处理方法还可以包括：

获取目标音频中的至少两个音频帧；

确定每个音频帧对应的声音特征；

基于声音特征相同的连续音频帧，生成目标音频的至少一个子音频段。

具体地，音频处理装置可以基于目标音频中的每个音频帧的声音特征，将目标音频划分为至少一个子音频段，从而可以根据声音特征更精确地划分子音频段。

其中，如果一个子音频段中包括一个发声对象的声音，则该子音频段为第一子音频段，如果一个子音频段中包括至少两个发声对象的声音，则该子音频段为第二子音频段。

在本申请另一些实施例中，在步骤110之前，该音频处理方法还可以包括：

基于目标音频中的预定数量的连续音频帧，生成目标音频的至少一个子音频段。

具体地，可以由目标音频中的首个音频帧开始，将每组预定数量的连续音频帧作为一个子音频段。

由此，可以快速对目标音频进行子音频段的划分，降低数据处理量。

在本申请又一种实施方式中，为了进一步降低音频处理的难度，在步骤130之后，该音频处理方法还可以包括：

接收用户对第一音频轨道的第一输入；

响应于第一输入，按照第一输入对应的第一处理方式，对第一音频轨道中的至少一个子音频段进行音频处理；

其中，第一处理方式包括下列中的至少一项：音频删除、音频变速、音频变声、音频修音、音频文字提取。

在一些实施例中，第一输入可以为用于触发音频处理的输入，第一输入可以包括点击输入、双击输出、长按输入、滑动输入、拖动输入中的至少一种。相应地，第一处理方式可以包括音频删除、音频变速、音频文字提取中的至少一种。

具体地，音频处理装置在接收到用户的第一输入后，可以基于第一输入与处理方式的对应关系，确定第一输入对应的第一处理方式，并且按照第一处理方式对第一音频轨道中的至少一个子音频段进行音频处理。

可选地，可以对第一音频轨道中的全部子音频段进行音频处理，也可以对处于选中状态的子音频段进行音频处理。

在对处于选中状态的子音频段进行音频处理的情况下，在接收用户对第一音频轨道的第一输入之前，还音频处理方法还可以包括：

接收用户对第一音频轨道的第九输入；

响应于第九输入，将第九输入所选择的子音频段设置为选中状态。

在另一些实施例中，在接收用户对第一音频轨道的第一输入之前，还可以接收用户对第一音频轨道的第十输入，第十输入可以为用于触发显示处理方式选项的输入，第十输入可以包括点击输入、双击输出、长按输入中的至少一种。

具体地，在音频处理装置在接收到用户的第十输入后，可以显示第一音频轨道对应的多个处理方式选项。相应地，处理方式选项可以包括音频删除选项、音频变速选项、音频变声选项、音频修音选项、音频文字提取选项中的至少一种。

此时，第一输入可以为用户对针对第一音频轨道的各个处理方式选项以及每个处理方式选项下的子选项的选择输入，第一输入可以包括点击输入、双击输出、长按输入中的至少一种。相应地，第一处理方式可以包括音频删除、音频变速、音频变声、音频修音、音频文字提取中的至少一种。

可选地，在显示第一音频轨道对应的多个处理方式选项时，可以隐藏显示其他音频轨道，也可以将多个处理方式选项显示于第一音频轨道对应的显示区域，例如，第一音频轨道下相邻的空白区域。

下面，参考图3至图8对用户输入的第一输入以及第一输入对应的第一处理方式进行详细说明。

图3示出了本申请第一实施例提供的录音处理过程的界面示意图。

如图3所示，该音频显示界面显示有录音名称“录音1”、音频时长00:10:17、对象A的音频轨道1、对象B的音频轨道2、对象C的音频轨道3以及功能按钮301。用户可以点击音频轨道1，使音频显示界面内隐藏显示音频轨道2和音频轨道3，并且显示音频轨道1 对应的处理方式选项302：“删除”选项、“变速”选项、“变声”选项、“修音”选项和“文字提取”选项。

图4示出了本申请第二实施例提供的录音处理过程的界面示意图。

如图4所示，该音频显示界面显示有录音名称“录音1”、音频时长00:10:17、对象A的音频轨道1、音频轨道1对应的处理方式选项401：“删除”选项、“变速”选项、“变声”选项、“修音”选项和“文字提取”选项。用户可以点击“删除”选项，使音频显示界面内显示第一提示信息402，第一提示信息可以为“确定删除此音频？”，并且，第一提示信息 402还可以包括“删除”选项的子选项403：“确定”选项和“取消”选项。用户可以点击“确定”选项，完成对音频轨道1的删除。删除音频轨道1后的音频显示界面可以显示有录音名称“录音1”、音频时长00:10:17、对象B的音频轨道2、对象C的音频轨道3以及功能按钮404。

图5示出了本申请第三实施例提供的录音处理过程的界面示意图。

如图5所示，该音频显示界面显示有录音名称“录音1”、音频时长00:10:17、对象A的音频轨道1、音频轨道1对应的处理方式选项501：“删除”选项、“变速”选项、“变声”选项、“修音”选项和“文字提取”选项。用户可以点击“变速”选项，使音频显示界面内显示“变速”选项的子选项502：“0.5X”选项、“0.75X”选项、“1X”选项、“1.25X”选项、“1.5X”选项和“2X”选项，不同子选项对应不同的变速倍数。用户可以点击需要的变速倍数对应的选项，使音频轨道1的各个子音频段根据用户所选的变速倍数进行变速。

图6示出了本申请第四实施例提供的录音处理过程的界面示意图。

如图6所示，该音频显示界面显示有录音名称“录音1”、音频时长00:10:17、对象A的音频轨道1、音频轨道1对应的处理方式选项601：“删除”选项、“变速”选项、“变声”选项、“修音”选项和“文字提取”选项。用户可以点击“变声”选项，使音频显示界面内显示“变声”选项的子选项602：“大叔音”选项、“正太音”选项、“萝莉音”选项、“御姐音”选项、“AI音”选项和“原音”选项，不同子选项对应不同的变声效果。用户可以点击需要的变声效果对应的选项，使音频轨道1的各个子音频段根据用户所选的变声效果进行变声。

图7示出了本申请第五实施例提供的录音处理过程的界面示意图。

如图7所示，该音频显示界面显示有录音名称“录音1”、音频时长00:10:17、对象A的音频轨道1、音频轨道1对应的处理方式选项701：“删除”选项、“变速”选项、“变声”选项、“修音”选项和“文字提取”选项。用户可以点击“修音”选项，使音频显示界面内显示“修音”选项的子选项702：“流行”选项、“R&B”选项、“摇滚”选项、“嘻哈”选项、“空灵”选项、“留声机”选项和“原声”选项，不同子选项对应不同的修音效果。用户可以点击需要的修音效果对应的选项，使音频轨道1的各个子音频段根据用户所选的修音效果进行修音。

图8示出了本申请第六实施例提供的录音处理过程的界面示意图。

如图8所示，该音频显示界面显示有录音名称“录音1”、音频时长00:10:17、对象A的音频轨道1、音频轨道1对应的处理方式选项801：“删除”选项、“变速”选项、“变声”选项、“修音”选项和“文字提取”选项。用户可以点击“文字提取”选项，使音频处理装置将音频轨道1的子音频段内的声音转换为文本文字，并且在音频显示界面内显示转换得到的文本文字“今天天气真好”。

可选地，在图8中显示文本文字“今天天气真好”的同时，还可以显示音频轨道1的子音频段内的声音所转换的文本文字的字数，例如，“6字”。

在本申请另一些实施例中，在步骤130之后，该音频处理方法还可以包括：

接收用户对至少一个第二音频轨道的第二输入；

响应于第二输入，按照第二输入对应的第二处理方式，对每个第二音频轨道中的至少一个子音频段进行音频处理；

其中，第二处理方式包括下列中的至少一项：音频合并、音频删除。

具体地，在显示有至少一个第二音频轨道的情况下，用户可以输入第二输入，第二输入可以为点击输入、长按输入、双击输入中的至少一个，第二处理方式可以为音频合并、音频删除中的至少一个。

具体地，音频处理装置在接收到用户的第二输入后，可以基于第二输入与处理方式的对应关系，确定第二输入对应的第二处理方式，并且按照第二处理方式对音频处理装置所显示的至少一个第二音频轨道中的至少一个子音频段进行音频处理。

可选地，可以对第二音频轨道中的全部子音频段进行音频处理，也可以对处于选中状态的子音频段进行音频处理。其中，使子音频段处于选中状态的方法已在上文中说明，在此不做赘述。

在本申请又一些实施例中，在接收用户对至少一个第二音频轨道的第二输入之前，该音频处理方法还可以包括：

接收用户对第二目标控件的第十一输入；

响应于第十一输入，显示每个音频轨道对应的选择控件和处理方式选项。

其中，第二目标控件可以为触发进入批量处理模式的控件。

在这些实施例中，第十一输入可以点击输入、长按输入、双击输入中的至少一个。第二输入可以为对至少一个选择控件和处理方式选项的选中输入。第二输入可以点击输入、长按输入、双击输入中的至少一个。其中，第二输入所选中的选择控件由未选中状态变更为选中状态，选择控件为选中状态的音频轨道可以作为第二音频轨道。

在这些实施例中，处理方式选项可以包括合并选项和删除选项。当用户选中合并选项后，可以将至少一个第二音频轨道中的至少一个子音频段合并；当用户选中删除选项后，可以将至少一个第二音频轨道中的至少一个子音频段合并。

在一些实施例中，在用户选中删除选项后，还可以响应于第二输入，显示第二提示信息，第二提示信息用于提示用户进行删除确认。第二提示信息可以包括“删除”选项的子选项：“确定”选项和“取消”选项。用户可以点击“确定”选项，以使音频处理装置完成对第二音频轨道的删除。

下面，参考图9对用户输入的第二输入以及第二输入对应的第二处理方式进行详细说明。

图9A示出了本申请第七实施例提供的一种录音处理过程的界面示意图。

如图9A所示，该音频显示界面显示有录音名称“录音1”、音频时长00:10:17、对象A的音频轨道1、对象B的音频轨道2、对象C的音频轨道3、第二目标控件901和功能按钮 902。用户可以点击第二目标控件901，使音频显示界面内的每个音频轨道的右上方显示选择控件903，并且在音频显示界面内显示处理方式选项904：“合并”选项和“删除”选项。用户可以点击音频轨道2和音频轨道3的选择控件903，使选择控件903为选中状态，然后点击“合并”选项，使音频处理装置将音频轨道2和音频轨道3中的各个子音频段合并，得到合并轨道1。

图9B示出了本申请第七实施例提供的另一种录音处理过程的界面示意图。

如图9 B所示，该音频显示界面显示有录音名称“录音1”、音频时长00:10:17、对象A 的音频轨道1、对象B的音频轨道2、对象C的音频轨道3、第二目标控件901和功能按钮902。用户可以点击第二目标控件901，使音频显示界面内的每个音频轨道的右上方显示选择控件903，并且在音频显示界面内显示处理方式选项904：“合并”选项和“删除”选项。用户可以点击音频轨道2和音频轨道3的选择控件903，使选择控件903为选中状态，然后点击“删除”选项，使音频显示界面内显示第二提示信息905，第二提示信息905可以为“确定删除此音频？”，并且，第二提示信息905还可以包括“删除”选项的子选项906：“确定”选项和“取消”选项。用户可以点击“确定”选项，完成对音频轨道2和音频轨道3的删除。删除音频轨道2和音频轨道3后的音频显示界面可以显示有录音名称“录音1”、音频时长00:10:17、对象1的音频轨道1、第二目标控件901和功能按钮902。

在本申请实施例中，上述各个实施例中的功能按钮还可以包括存储按钮，用户可以点击存储安全，对编辑好的音频轨道进行保存。

由此，在本申请实施例中，可以利用声纹识别技术，准确识别出不同子音频段所属的发声对象，将不同发声对象的子音频段按发声对象标识分轨录入并且展示在不同的音频轨道上，让用户在录音时能准确区分出不同发声对象的音频内容，在之后其他人收听录音的时候也能准确的区分出不同发声对象的音频内容，并且可以基于不同音频轨道对不同发声对象的音频内容进行音频处理，提升了音频处理效率，同时也增加了音频处理的趣味性，使用户可以自主对音频内容进行修改和调整。

在本申请再一种实施方式中，该音频处理方法还可以包括：

获取目标音频对应的目标视频；

显示目标视频对应的图像预览窗口和视频轨道，图像预览窗口用于显示目标视频的图像帧。

在本申请一些实施例中，目标视频可以为已经录制好的视频，目标视频可以为与目标音频关联存储的视频。其中，获取目标音频对应的目标视频的方法与上述的获取目标音频的方法相似，在此不做赘述。

在本申请另一些实施例中，目标视频可以为多媒体文件中的音频。

可选地，在这些实施例中，获取目标音频对应的目标视频的具体方法可以包括：

获取多媒体文件；

从多媒体文件中提取目标音频对应的目标视频。

在获取多媒体文件后，可以基于视频提取技术或视频提取应用，从多媒体文件中提取目标视频。

在本申请又一些实施例中，目标视频可以为音频处理装置正在录制的视频。

在通过音频采集设备采集目标音频的同时，通过视频采集设备采集目标音频对应的目标视频。

其中，视频采集设备可以包括音频处理装置上安装的摄像头或者录像机等。

在本申请一些实施例中，在目标音频和目标视频为已经录制好的音频和视频的情况下，可以在视频显示界面中，显示目标音频对应的M个音频轨道以及目标视频对应的图像预览窗口和视频轨道。

在本申请另一些实施例中，在目标音频和目标视频为正在录制的音频和视频的情况下，可以在录制显示界面中，显示目标音频对应的M个音频轨道以及目标视频对应的图像预览窗口和视频轨道。

由于音频处理装置可以根据发声对象标识分轨记录子音频段，因此，一个音频轨道可以对应一个发声对象标识，即一个音频轨道中可以记录有一个发声对象对应的至少一个子音频段。

在本申请实施例中，可选地，在显示界面的顶部显示图像预览窗口，在图像预览窗口的下方显示视频轨道，并且可以在视频轨道的下方纵向显示M个音频轨道，视频轨道和各个音频轨道的轨道长度和轨道时长均相同。

图10示出了本申请另一个实施例提供的录制显示界面的界面示意图。

如图10所示，该录制显示界面显示有图像预览窗口1001、视频轨道、对象A的音频轨道1、对象B的音频轨道2、对象C的音频轨道3以及功能按钮1002。其中，音频轨道1、音频轨道2和音频轨道3中分别包括一个子音频段1003。

在本申请一些实施例中，该音频处理方法还可以包括：

在图像预览窗口显示目标图像帧的情况下，接收用户对第三音频轨道的第三输入；

响应于第三输入，按照第三输入对应的第三处理方式，对第三音频轨道中的目标音频帧进行音频处理；

其中，目标音频帧为与目标图像帧的时间戳相同的音频帧，第三处理方式包括下列中的至少一项：音频删除、音频分割、音频变速、音频变声、音频替换、添加字幕。

在一些实施例中，第三输入可以为用于触发音频处理的输入，第三输入可以包括点击输入、双击输出、长按输入、滑动输入、拖动输入中的至少一种。相应地，第三处理方式可以包括音频删除、音频变速、添加字幕中的至少一种。

具体地，音频处理装置在接收到用户的第三输入后，可以基于第三输入与处理方式的对应关系，确定第三输入对应的第三处理方式，并且按照第三处理方式对第三音频轨道中的至少一个子音频段进行音频处理。

可选地，可以对第三音频轨道中的全部子音频段进行音频处理，也可以对处于选中状态的子音频段进行音频处理。其中，使子音频段处于选中状态的方法已在上文中说明，在此不做赘述。

在另一些实施例中，在接收用户对第三音频轨道的第三输入之前，还可以接收用户对第三音频轨道的第十二输入，第十二输入可以为用于触发显示处理方式选项的输入，第十二输入可以包括点击输入、双击输出、长按输入中的至少一种。

具体地，在音频处理装置在接收到用户的第十二输入后，可以显示第三音频轨道对应的多个处理方式选项。相应地，处理方式选项可以包括音频删除选项、音频分割选项、音频变速选项、音频变声选项、音频替换选项、添加字幕选项中的至少一种。

此时，第三输入可以为用户对针对第三音频轨道的各个处理方式选项以及每个处理方式选项下的子选项的选择输入，第三输入可以包括点击输入、双击输出、长按输入中的至少一种。相应地，第三处理方式可以包括音频删除、音频分割、音频变速、音频变声、音频替换、添加字幕中的至少一种。

可选地，在显示第三音频轨道对应的多个处理方式选项时，可以隐藏显示其他音频轨道，也可以将多个处理方式选项显示于第三音频轨道对应的显示区域，例如，第三音频轨道下相邻的空白区域，还可以在全部音频轨道的下方显示处理方式选项，并且在第三音频轨道显示选中框。

下面，参考图11至图13对用户输入的第三输入以及第三输入对应的第三处理方式进行详细说明。

图11A示出了本申请第一实施例提供的一种视频处理过程的界面示意图。

如图11A所示，该视频显示界面显示有图像预览窗口1101、视频轨道、对象A的音频轨道1、对象B的音频轨道2、对象C的音频轨道3以及音频轨道1对应的处理方式选项 1102：“删除”选项、“分割”选项、“变速”选项、“变声”选项、“替换”选项和“添加字幕”选项。音频轨道1被框选。用户可以点击“分割”选项，使音频处理装置删除音频轨道1中与图像预览窗口1101中显示的视频帧的时间戳相同的音频帧。用户可以点击“变声”选项，使视频显示界面内显示“变声”选项的子选项1105：“大叔音”选项、“正太音”选项、“萝莉音”选项、“御姐音”选项、“AI音”选项和“原音”选项，不同子选项对应不同的变声效果。用户可以点击需要的变声效果对应的选项，使音频轨道1的各个子音频段根据用户所选的变声效果进行变声。用户可以点击“替换”选项，使视频显示界面显示“替换”选项的子选项：多个预设音频1106、“确定”选项和“取消”选项。预设音频1106可以包括本地音频和网络音频，用户可以选择一个预设音频1106，并且点击“确定”选项，使音频处理装置利用预设音频1106替换音频轨道1中的音频。

图11B示出了本申请第一实施例提供的另一种视频处理过程的界面示意图。

如图11B所示，该视频显示界面显示有图像预览窗口1101、视频轨道、对象A的音频轨道1、对象B的音频轨道2、对象C的音频轨道3以及音频轨道1对应的处理方式选项1102：“删除”选项、“分割”选项、“变速”选项、“变声”选项、“替换”选项和“添加字幕”选项。音频轨道1被框选。用户可以点击“删除”选项，使音频显示界面内显示第三提示信息1103，第三提示信息可以为“确定删除此音频？”，并且，第三提示信息1103还可以包括“删除”选项的子选项1104：“确定”选项和“取消”选项。用户可以点击“确定”选项，完成对音频轨道1的删除。删除音频轨道1后的视频显示界面可以显示有图像预览窗口1101、视频轨道、对象B的音频轨道2、对象C的音频轨道3以及音频轨道1对应的处理方式选项1102：“删除”选项、“分割”选项、“变速”选项、“变声”选项、“替换”选项和“添加字幕”选项。

图12示出了本申请第二实施例提供的视频处理过程的界面示意图。

如图12所示，该视频显示界面显示有图像预览窗口1201、视频轨道、对象A的音频轨道1、对象B的音频轨道2、对象C的音频轨道3以及音频轨道1对应的处理方式选项 1202：“删除”选项、“分割”选项、“变速”选项、“变声”选项、“替换”选项和“添加字幕”选项。用户可以点击“变速”选项，使音频显示界面内显示“变速”选项的子选项1203：“0.5X”选项、“0.75X”选项、“1X”选项、“1.25X”选项、“1.5X”选项和“2X”选项，不同子选项对应不同的变速倍数。用户可以点击需要的变速倍数对应的选项，使音频轨道1 的各个子音频段根据用户所选的变速倍数进行变速。

图13示出了本申请第三实施例提供的视频处理过程的界面示意图。

如图13所示，该视频显示界面显示有图像预览窗口1301、视频轨道、对象A的音频轨道1、对象B的音频轨道2、对象C的音频轨道3以及音频轨道1对应的处理方式选项 1302：“删除”选项、“分割”选项、“变速”选项、“变声”选项、“替换”选项和“添加字幕”选项。用户可以点击“添加字幕”选项，使音频处理装置将音频轨道1的子音频段内的声音转换为文本文字，并且在图像预览窗口1301内显示转换得到的文本文字。

在本申请另一些实施例中，该音频处理方法还可以包括：

在图像预览窗口显示目标图像帧的情况下，接收用户对至少一个第四音频轨道的第四输入；

响应于第四输入，按照第四输入对应的第四处理方式，对每个第四音频轨道中的目标音频帧进行音频处理；

其中，目标音频帧为与目标图像帧的时间戳相同的音频帧，第四处理方式包括下列中的至少一项：音频合并、音频删除。

具体地，在显示有至少一个第四音频轨道的情况下，用户可以输入第四输入，第四输入可以为点击输入、长按输入、双击输入中的至少一个，第四处理方式可以为音频合并、音频删除中的至少一个。

具体地，音频处理装置在接收到用户的第四输入后，可以基于第四输入与处理方式的对应关系，确定第四输入对应的第四处理方式，并且按照第四处理方式对音频处理装置所显示的至少一个第四音频轨道中的至少一个子音频段进行音频处理。

可选地，可以对第四音频轨道中的全部子音频段进行音频处理，也可以对处于选中状态的子音频段进行音频处理。其中，使子音频段处于选中状态的方法已在上文中说明，在此不做赘述。

在本申请又一些实施例中，在接收用户对至少一个第四音频轨道的第四输入之前，该音频处理方法还可以包括：

接收用户对第三目标控件的第十三输入；

其中，第三目标控件可以为触发进入批量处理模式的控件。

在这些实施例中，第十三输入可以点击输入、长按输入、双击输入中的至少一个。第四输入可以为对至少一个选择控件和处理方式选项的选中输入。第四输入可以点击输入、长按输入、双击输入中的至少一个。其中，第四输入所选中的选择控件由未选中状态变更为选中状态，选择控件为选中状态的音频轨道可以作为第四音频轨道。

在这些实施例中，处理方式选项可以包括合并选项和删除选项。当用户选中合并选项后，可以将至少一个第四音频轨道中的至少一个子音频段合并；当用户选中删除选项后，可以将至少一个第四音频轨道中的至少一个子音频段合并。

下面，参考图14对用户输入的第四输入以及第四输入对应的第四处理方式进行详细说明。

图14A示出了本申请第四实施例提供的一种视频处理过程的界面示意图。

如图14A所示，该视频显示界面显示有图像预览窗口1401、第三目标控件1402、视频轨道、对象A的音频轨道1、对象B的音频轨道2、对象C的音频轨道3以及音频轨道1 对应的处理方式选项1403：“删除”选项、“分割”选项、“变速”选项、“变声”选项、“替换”选项和“添加字幕”选项。用户可以点击第三目标控件1402，使视频显示界面内的每个音频轨道的右上方显示选择控件1404，并且在视频显示界面内显示处理方式选项1043：“合并”选项和“删除”选项。用户可以点击音频轨道2和音频轨道3的选择控件1404，使选择控件1404为选中状态，然后点击“合并”选项，使音频处理装置将音频轨道2和音频轨道3中的各个子音频段合并，得到合并轨道1。

图14B示出了本申请第四实施例提供的另一种视频处理过程的界面示意图。

如图14B所示，该视频显示界面显示有图像预览窗口1401、第三目标控件1402、视频轨道、对象A的音频轨道1、对象B的音频轨道2、对象C的音频轨道3以及音频轨道1 对应的处理方式选项1403：“删除”选项、“分割”选项、“变速”选项、“变声”选项、“替换”选项和“添加字幕”选项。用户可以点击第三目标控件1402，使视频显示界面内的每个音频轨道的右上方显示选择控件1404，并且在视频显示界面内显示处理方式选项1043：“合并”选项和“删除”选项。用户可以点击音频轨道2和音频轨道3的选择控件1404，使选择控件1404为选中状态，然后点击“删除”选项，使视频显示界面内显示第四提示信息1405，第四提示信息1405可以为“确定删除此音频？”，并且，第四提示信息1405还可以包括“删除”选项的子选项1406：“确定”选项和“取消”选项。用户可以点击“确定”选项，完成对音频轨道2和音频轨道3的删除。删除音频轨道2和音频轨道3后的音频显示界面可以显示有图像预览窗口1401、第三目标控件1402、视频轨道、对象A的音频轨道 1以及音频轨道1对应的处理方式选项1403：“删除”选项、“分割”选项、“变速”选项、“变声”选项、“替换”选项和“添加字幕”选项。

在本申请实施例中，上述各个视频显示界面中还可以显示功能按钮，功能按钮可以包括存储按钮，用户可以点击存储安全，对编辑好的音频轨道进行保存。

在本申请另一些实施例中，该音频处理方法还可以包括：

在图像预览窗口显示目标图像帧的情况下，接收用户对第一目标控件的第五输入；

响应于第五输入，显示至少一个预设音频；

接收用户对至少一个预设音频中的第一音频的第六输入；

响应于第六输入，将第一音频添加至第五音频轨道中的目标轨道位置；

其中，第五音频轨道为与第一音频的声音特征相同的音频轨道，目标轨道位置对应的时间戳与目标图像帧的时间戳相同。

在本申请一些实施例中，第一目标控件可以为用于触发音频添加功能的控件，第五输入可以点击输入、长按输入、双击输入中的至少一个，第六输入可以点击输入、长按输入、双击输入中的至少一个。

音频处理装置可以响应于第五输入进入音频添加功能，并且显示音频添加功能的子选项：至少一个预设音频和音频添加按钮，预设音频可以包括本地音频和网络音频，用户可以对至少一个预设音频中的第一音频和音频添加按钮输入第六输入，使音频处理装置获取第一音频的声音特征，并且识别与第一音频的声音特征相同的第五音频轨道，然后将第一音频添加至第五音频轨道中的目标轨道位置。

在本申请另一些实施例中，该音频处理方法还可以包括：

接收用户对第一目标控件的第七输入；

响应于第七输入，显示至少一个预设音频；

接收用户对至少一个预设音频中的第二音频的第八输入；

响应于第八输入，添加第二音频对应的第六音频轨道。

在本申请一些实施例中，第一目标控件可以为用于触发音频添加功能的控件，第七输入可以点击输入、长按输入、双击输入中的至少一个，第八输入可以点击输入、长按输入、双击输入中的至少一个。

音频处理装置可以响应于第七输入进入音频添加功能，并且显示音频添加功能的子选项：至少一个预设音频和音频添加按钮，预设音频可以包括本地音频和网络音频，用户可以对至少一个预设音频中的第二音频和音频添加按钮输入第六输入，使音频处理装置直接将第二音频对应的第六音频轨道添加在当前显示界面内，例如添加至M个音频轨道的下方。

由此，本申请实施例可以通过选取新的音频，为目标音频添加新的音频轨道，以为目标音频添加新的声音元素，使用户可以对目标音频进行个性化编辑。

图15示出了本申请第五实施例提供的视频处理过程的界面示意图。

如图15所示，该视频显示界面显示有图像预览窗口1501、第一目标控件1502、视频轨道、对象A的音频轨道1、对象B的音频轨道2、对象C的音频轨道3以及音频轨道1 对应的处理方式选项1503：“删除”选项、“分割”选项、“变速”选项、“变声”选项、“替换”选项和“添加字幕”选项。用户可以长按第一目标控件1502，使视频显示界面内显示至少一个预设音频1504、“确定”选项和“取消”选项。用户可以选择一个预设音频1504，并且点击“确定”选项，使音频处理装置在视频显示界面内添加预设音频1504对应的音频轨道4。

由此，在本申请实施例中，可以利用声纹识别技术，准确识别出不同子音频段所属的发声对象，将不同发声对象的子音频段按发声对象标识分轨录入并且展示在不同的音频轨道上，并且在展示界面上分轨展示视频轨道和音频轨道，可以使用户基于不同音频轨道对不同发声对象的音频内容进行音频处理，提升了视频处理效率，同时也增加了视频处理的趣味性，使用户可以自主对视频对应的音频内容进行修改和调整。

综上所述，本申请提高的音频处理方法能够将不同发声对象的声音分轨记录，使音频处理更加高效、便捷，并且在音频处理的过程中增加更多的趣味玩法，增添用户的乐趣。

需要说明的是，上述实施例中以执行主体为音频处理装置为例说明对音频处理方法进行说明。但是，本申请实施例提供的音频处理方法的执行主体不限于音频处理装置，也可以为该音频处理装置中的用于执行加载音频处理方法的各个步骤的功能模块。

图16示出了本申请一个实施例提供的音频处理装置的结构示意图。

如图16所示，该音频处理装置可以包括：

音频获取模块1610，用于获取目标音频，所述目标音频包括N个第一子音频段，第一子音频包括一个发声对象的声音；

第一添加模块1620，用于按照第一子音频段所属的发声对象，为第一子音频段添加发声对象标识；

第一显示模块1630，用于显示目标音频对应的M个音频轨道，每个音频轨道包括至少一个第一子音频段，一个音频轨道对应一个发声对象标识；

其中，N为正整数，M为小于或等于N的正整数。

在本申请一些实施例中，该音频处理装置还可以包括：

特征获取模块，用于获取第一子音频段的声音特征；

对象确定模块，用于根据声音特征，确定第一子音频段所属的发声对象。

在本申请一些实施例中，目标音频还包括K个第二子音频段，第二子音频段包括至少两个发声对象的声音，K为正整数；

相应地，该音频处理装置还可以包括：

音频分离模块，用于对第二子音频段进行音频分离，得到至少两个第三子音频段；其中，一个第三子音频段包括一个发声对象的声音；

第二添加模块，用于按照第三子音频段所属的发声对象，为第三子音频段添加发声对象标识；

其中，音频轨道还包括第三子音频段。

在本申请一些实施例中，该音频处理装置还可以包括：

第一接收模块，用于接收用户对第一音频轨道的第一输入；

第一处理模块，用于响应于第一输入，按照第一输入对应的第一处理方式，对第一音频轨道中的至少一个子音频段进行音频处理；

在本申请一些实施例中，该音频处理装置还可以包括：

第二接收模块，用于接收用户对至少一个第二音频轨道的第二输入；

第二处理模块，用于响应于第二输入，按照第二输入对应的第二处理方式，对每个第二音频轨道中的至少一个子音频段进行音频处理；

在本申请一些实施例中，该音频处理装置还可以包括：

视频获取模块，用于获取目标音频对应的目标视频；

第二显示模块，用于显示目标视频对应的图像预览窗口和视频轨道，图像预览窗口用于显示目标视频的图像帧。

在本申请一些实施例中，该音频处理装置还可以包括：

第三接收模块，用于在图像预览窗口显示目标图像帧的情况下，接收用户对第三音频轨道的第三输入；

第三处理模块，用于响应于第三输入，按照第三输入对应的第三处理方式，对第三音频轨道中的目标音频帧进行音频处理；

在本申请一些实施例中，该音频处理装置还可以包括：

第四接收模块，用于在图像预览窗口显示目标图像帧的情况下，接收用户对至少一个第四音频轨道的第四输入；

第四处理模块，用于响应于第四输入，按照第四输入对应的第四处理方式，对每个第四音频轨道中的目标音频帧进行音频处理；

在本申请一些实施例中，该音频处理装置还可以包括：

第五接收模块，用于在图像预览窗口显示目标图像帧的情况下，接收用户对第一目标控件的第五输入；

第三显示模块，用于响应于第五输入，显示至少一个预设音频；

第六接收模块，用于接收用户对至少一个预设音频中的第一音频的第六输入；

第五处理模块，用于响应于第六输入，将第一音频添加至第五音频轨道中的目标轨道位置；

在本申请一些实施例中，该音频处理装置还可以包括：

第七接收模块，用于接收用户对第一目标控件的第七输入；

第四显示模块，用于响应于第七输入，显示至少一个预设音频；

第八接收模块，用于接收用户对至少一个预设音频中的第二音频的第八输入；

第五显示模块，用于响应于第八输入，添加第二音频对应的第六音频轨道。

在本申请一些实施例中，该音频处理装置还可以包括：

音频帧获取模块，用于获取目标音频中的至少两个音频帧；

特征识别模块，用于确定每个音频帧对应的声音特征；

音频段生成模块，用于基于声音特征相同的连续音频帧，生成目标音频的至少一个子音频段。

本申请实施例中的音频处理装置可以是装置，也可以是装置中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音频处理装置可以为具有操作系统的装置。该操作系统可以为安卓 (Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的音频处理装置能够实现图1至图15的方法实施例中音频处理装置实现的各个过程，为避免重复，这里不再赘述。

综上所述，本申请提高的音频处理装置能够将不同发声对象的声音分轨记录，使音频处理更加高效、便捷，并且在音频处理的过程中增加更多的趣味玩法，增添用户的乐趣。

可选的，本申请实施例还提供一种电子设备，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的程序或指令，该程序或指令被处理器执行时实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图17示出了实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1700包括但不限于：射频单元1701、网络模块1702、音频输出单元1703、输入单元1704、传感器1705、显示单元1706、用户输入单元1707、接口单元1708、存储器1709、以及处理器1710等部件。

其中，输入单元1704用于接收音频或视频信号，可以包括摄像头17041和麦克风17042，显示单元1706用于显示由用户输入的信息或提供给用户的信息，可以包括显示面板，用户输入单元1707用于接收输入的数字或字符信息，以及产生与移动终端的用户设置以及功能控制有关的键信号输入，可以包括触控面板和其他输入设备，触控面板可覆盖在显示面板上，存储器1709用于存储软件程序以及各种数据，可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等，存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。

本领域技术人员可以理解，电子设备1700还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1710逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图17中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，输入单元1704，在本申请一些实施例中，输入单元1704包括音频采集设备，例如麦克风17042，用于获取目标音频，目标音频包括N个第一子音频段，第一子音频包括一个发声对象的声音；

处理器1710，用于按照第一子音频段所属的发声对象，为第一子音频段添加发声对象标识；

显示单元1706，用于显示目标音频对应的M个音频轨道，每个音频轨道包括至少一个第一子音频段，一个音频轨道对应一个发声对象标识；

其中，N为正整数，M为小于或等于N的正整数。

在本申请一些实施例中，处理器1710还用于获取第一子音频段的声音特征，并根据声音特征，确定第一子音频段所属的发声对象。

相应地，处理器1710还用于对第二子音频段进行音频分离，得到至少两个第三子音频段；以及按照第三子音频段所属的发声对象，为第三子音频段添加发声对象标识；

其中，一个第三子音频段包括一个发声对象的声音，音频轨道还包括第三子音频段。

在本申请一些实施例中，用户输入单元1707，用于接收用户对第一音频轨道的第一输入；

相应地，处理器1710还用于响应于第一输入，按照第一输入对应的第一处理方式，对第一音频轨道中的至少一个子音频段进行音频处理；其中，第一处理方式包括下列中的至少一项：音频删除、音频变速、音频变声、音频修音、音频文字提取。

在本申请一些实施例中，用户输入单元1707还用于接收用户对至少一个第二音频轨道的第二输入；

相应地，处理器1710还用于响应于第二输入，按照第二输入对应的第二处理方式，对每个第二音频轨道中的至少一个子音频段进行音频处理；其中，第二处理方式包括下列中的至少一项：音频合并、音频删除。

在本申请一些实施例中，输入单元1704还包括视频采集设备，例如摄像头17041，输入单元1704还用于获取目标音频对应的目标视频；

相应地，显示单元1706还用于显示目标视频对应的图像预览窗口和视频轨道，图像预览窗口用于显示目标视频的图像帧。

在本申请一些实施例中，用户输入单元1707还用于在图像预览窗口显示目标图像帧的情况下，接收用户对第三音频轨道的第三输入；

相应地，处理器1710还用于响应于第三输入，按照第三输入对应的第三处理方式，对第三音频轨道中的目标音频帧进行音频处理；

在本申请一些实施例中，用户输入单元1707还用于在图像预览窗口显示目标图像帧的情况下，接收用户对至少一个第四音频轨道的第四输入；

相应地，处理器1710还用于响应于第四输入，按照第四输入对应的第四处理方式，对每个第四音频轨道中的目标音频帧进行音频处理；

在本申请一些实施例中，用户输入单元1707还用于在图像预览窗口显示目标图像帧的情况下，接收用户对第一目标控件的第五输入；

相应地，显示单元1706还用于响应于第五输入，显示至少一个预设音频；

用户输入单元1707还用于接收用户对至少一个预设音频中的第一音频的第六输入；

处理器1710还用于响应于第六输入，将第一音频添加至第五音频轨道中的目标轨道位置；

在本申请一些实施例中，用户输入单元1707还用于接收用户对第一目标控件的第七输入；

相应地，显示单元1706还用于响应于第七输入，显示至少一个预设音频；

用户输入单元1707还用于接收用户对至少一个预设音频中的第二音频的第八输入；

显示单元1706还用于响应于第八输入，添加第二音频对应的第六音频轨道。

在本申请一些实施例中，处理器1710还用于获取目标音频中的至少两个音频帧，确定每个音频帧对应的声音特征，以及基于声音特征相同的连续音频帧，生成目标音频的至少一个子音频段。

综上所述，本申请提高的电子设备能够将不同发声对象的声音分轨记录，使音频处理更加高效、便捷，并且在音频处理的过程中增加更多的趣味玩法，增添用户的乐趣。

本申请实施例还提供一种可读存储介质，可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，处理器为上述实施例中所述的电子设备中的处理器。可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，芯片包括处理器和通信接口，通信接口和处理器耦合，处理器用于运行程序或指令，实现上述音频处理方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种音频处理方法，其特征在于，包括：

获取目标音频中的至少两个音频帧；

确定每个音频帧对应的声音特征；

基于声音特征相同的连续音频帧，生成所述目标音频的至少一个第一子音频段；

获取所述第一子音频段的声音特征；

根据所述声音特征，确定所述第一子音频段所属的发声对象；

获取目标音频，所述目标音频包括N个第一子音频段，所述第一子音频段包括一个发声对象的声音；

按照所述第一子音频段所属的发声对象，为所述第一子音频段添加发声对象标识；

显示所述目标音频对应的M个音频轨道，每个所述音频轨道包括至少一个所述第一子音频段，一个所述音频轨道对应一个所述发声对象标识；

其中，N为正整数，M为小于或等于N的正整数。

2.根据权利要求1所述的方法，其特征在于，所述目标音频还包括K个第二子音频段，所述第二子音频段包括至少两个发声对象的声音，K为正整数；

其中，所述显示所述目标音频对应的M个音频轨道之前，所述方法还包括：

对所述第二子音频段进行音频分离，得到至少两个第三子音频段；其中，一个所述第三子音频段包括一个发声对象的声音；

按照所述第三子音频段所属的发声对象，为所述第三子音频段添加发声对象标识；

其中，所述音频轨道还包括所述第三子音频段。

3.根据权利要求1至2中任一项所述的方法，其特征在于，所述显示所述目标音频对应的M个音频轨道之后，所述方法还包括：

接收用户对第一音频轨道的第一输入；

响应于所述第一输入，按照所述第一输入对应的第一处理方式，对所述第一音频轨道中的至少一个子音频段进行音频处理；

其中，所述第一处理方式包括下列中的至少一项：音频删除、音频变速、音频变声、音频修音、音频文字提取。

4.根据权利要求1至2中任一项所述的方法，其特征在于，所述显示所述目标音频对应的M个音频轨道之后，所述方法还包括：

接收用户对至少一个第二音频轨道的第二输入；

响应于所述第二输入，按照所述第二输入对应的第二处理方式，对每个所述第二音频轨道中的至少一个子音频段进行音频处理；

其中，所述第二处理方式包括下列中的至少一项：音频合并、音频删除。

5.根据权利要求1至2中任一项所述的方法，其特征在于，所述方法还包括：

获取所述目标音频对应的目标视频；

显示所述目标视频对应的图像预览窗口和视频轨道，所述图像预览窗口用于显示所述目标视频的图像帧。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在所述图像预览窗口显示目标图像帧的情况下，接收用户对第三音频轨道的第三输入；

响应于所述第三输入，按照所述第三输入对应的第三处理方式，对所述第三音频轨道中的目标音频帧进行音频处理；

其中，所述目标音频帧为与所述目标图像帧的时间戳相同的音频帧，所述第三处理方式包括下列中的至少一项：音频删除、音频分割、音频变速、音频变声、音频替换、添加字幕。

7.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在所述图像预览窗口显示目标图像帧的情况下，接收用户对至少一个第四音频轨道的第四输入；

响应于所述第四输入，按照所述第四输入对应的第四处理方式，对每个所述第四音频轨道中的目标音频帧进行音频处理；

其中，所述目标音频帧为与所述目标图像帧的时间戳相同的音频帧，所述第四处理方式包括下列中的至少一项：音频合并、音频删除。

8.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在所述图像预览窗口显示目标图像帧的情况下，接收用户对第一目标控件的第五输入；

响应于所述第五输入，显示至少一个预设音频；

接收所述用户对至少一个所述预设音频中的第一音频的第六输入；

响应于所述第六输入，将所述第一音频添加至第五音频轨道中的目标轨道位置；

其中，所述第五音频轨道为与所述第一音频的声音特征相同的音频轨道，所述目标轨道位置对应的时间戳与所述目标图像帧的时间戳相同。

9.根据权利要求5所述的方法，其特征在于，所述方法还包括：

接收用户对第一目标控件的第七输入；

响应于所述第七输入，显示至少一个预设音频；

接收所述用户对至少一个所述预设音频中的第二音频的第八输入；

响应于所述第八输入，添加所述第二音频对应的第六音频轨道。

10.一种音频处理装置，其特征在于，包括：

音频帧获取模块，用于获取目标音频中的至少两个音频帧；

特征识别模块，用于确定每个音频帧对应的声音特征；

音频段生成模块，用于基于所述声音特征相同的连续音频帧，生成所述目标音频的至少一个第一子音频段；

特征获取模块，用于获取第一子音频段的声音特征；

对象确定模块，用于根据声音特征，确定第一子音频段所属的发声对象；

音频获取模块，用于获取目标音频，所述目标音频包括N个第一子音频段，所述第一子音频段包括一个发声对象的声音；

第一添加模块，用于按照所述第一子音频段所属的发声对象，为所述第一子音频段添加发声对象标识；

第一显示模块，用于显示所述目标音频对应的M个音频轨道，每个所述音频轨道包括至少一个所述第一子音频段，一个所述音频轨道对应一个所述发声对象标识；

其中，N为正整数，M为小于或等于N的正整数。

11.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-9任一项所述的音频处理方法的步骤。