CN106935253A

CN106935253A - 音频文件的裁剪方法、装置及终端设备

Info

Publication number: CN106935253A
Application number: CN201710142469.2A
Authority: CN
Inventors: 周锋春
Original assignee: Beijing Qihoo Technology Co Ltd
Current assignee: Beijing Anyun Century Technology Co Ltd
Priority date: 2017-03-10
Filing date: 2017-03-10
Publication date: 2017-07-07

Abstract

本发明公开了一种音频文件的裁剪方法、装置及终端设备，所述方法包括：确定出音频文件中的无效音频及其所在的文件片段；对所述音频文件中无效音频所在的文件片段进行裁剪，生成裁剪后的音频文件。本发明中，可以自动确定出音频文件中的无效音频所在的文件片段，并进行裁剪，相当于对音频文件中的无效音频进行了滤除。从而在保留音频文件中有效音频的情况下，减小了音频文件所占用的存储空间的大小，提升存储音频文件的设备的存储空间的利用效率水平。并且，在播放时，节省了播放音频文件中无效音频的时间，节省了用户花费在聆听无效音频上的时间和精力，提升了音频文件的播放效率，从而可以提升用户体验。

Description

音频文件的裁剪方法、装置及终端设备

技术领域

本发明涉及终端技术领域，更具体地，涉及一种音频文件的裁剪方法、装置及终端设备。

背景技术

随着科技的进步和社会的发展，台式电脑、笔记本电脑、智能手机和平板电脑等终端设备已经广泛普及。

用户的终端设备中通常存储有大量的音频文件。音频文件包括音乐文件、和录音文件等。用户可以通过终端设备自带或外接的音频采集设备，例如麦克风，采集声音，生成录音文件，用于即时通讯中的语音聊天、进行音视频直播或自行制作音视频节目等。

由于对于从事媒体行业的用户而言，很可能需要存储大量的音频文件。

然而，本发明的发明人发现，相当数量的音频文件尤其是录音文件，比较臃肿，占用了终端设备大量的存储空间。

发明内容

鉴于上述问题，本发明提出了一种音频文件的裁剪方法、装置及终端设备，以通过自动裁剪音频文件中的无效音频，减小音频文件占用的存储空间，提升终端设备存储空间的利用效率水平，提升音频文件的播放效率。

第一方面，本发明实施例中提供了一种音频文件的裁剪方法，包括：

确定出音频文件中的无效音频及其所在的文件片段；

对音频文件中无效音频所在的文件片段进行裁剪，生成裁剪后的音频文件。

结合第一方面，本发明实施例在第一方面的第一种实现方式中，当音频文件中每个时刻的音频符合下述至少一项时，确定出该时刻的音频为无效音频：特征值低于预设的空白音频阈值、频率与预设的噪声音频相匹配、音源方向与指定方向不一致；进而确定出无效音频所在的文件片段。

结合第一方面的第一种实现方式，在第一方面的第二种实现方式中，当音频文件中每个时刻采样得到的音频的数值低于预设的空白音频阈值时，确定出该时刻的音频为无效音频；其中，音频文件中每个时刻的音频的特征值具体为该时刻采样得到的音频的数值。

结合第一方面的第二种实现方式，在第一方面的第三种实现方式中，当音频文件为用户方录音得到的录音文件时，将该录音文件中数值低于第一空白音频阈值的各时刻的音频，都确定为无效音频；或者，当音频文件为服务方提供的音乐文件时，将该音乐文件中数值低于第二空白音频阈值的各时刻的音频，都确定为无效音频；其中，第一空白音频阈值高于第二空白音频阈值。

结合第一方面的第一种实现方式，在第一方面的第四种实现方式中，当音频文件中多个时刻的音频的频率保持基本不变时，确定出该多个时刻的音频都为无效音频；当音频文件中多个时刻的音频的频率的变化规律与已知噪声的变化规律相匹配时，确定出该多个时刻的音频都为无效音频。

结合第一方面的第一种实现方式，在第一方面的第五种实现方式中，当音频文件为多个音频采集设备采集指定方向的声音所得时，将该音频文件中与指定方向不一致的音源对应的音频，确定为无效音频。

结合第一方面或第一方面的第一至五种实现方式中任意一种实现方式，在第一方面的第六种实现方式中，根据预设的衔接时长，对音频文件中无效音频所在的每个文件片段的时长进行裁剪；根据经过裁剪的音频文件的各文件片段，生成裁剪后的音频文件。

结合第一方面的第六种实现方式，在第一方面的第七种实现方式中，当音频文件为多媒体文件中的音频流文件时，将经过裁剪的音频流文件的各文件片段，匹配到该多媒体文件的播放时间轴上。

第二方面，本发明实施例提供了一种音频文件的裁剪装置，该音频文件的裁剪装置具有实现上述第一方面中音频文件的裁剪方法行为的功能。功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，音频文件的裁剪装置的结构中包括：

无效音频确定模块，用于确定出音频文件中的无效音频及其所在的文件片段；

音频文件裁剪模块，用于对音频文件中无效音频所在的文件片段进行裁剪，生成裁剪后的音频文件。

结合第二方面，在第二方面的第一种实现方式中，无效音频确定模块具体用于当音频文件中每个时刻的音频符合下述至少一项时，确定出该时刻的音频为无效音频：特征值低于预设的空白音频阈值、频率与预设的噪声音频相匹配、音源方向与指定方向不一致；进而确定出无效音频所在的文件片段。

结合第二方面的第一种实现方式，在第二方面的第二种实现方式中，无效音频确定模块具体用于当音频文件中每个时刻采样得到的音频的数值低于预设的空白音频阈值时，确定出该时刻的音频为无效音频；其中，音频文件中每个时刻的音频的特征值具体为该时刻采样得到的音频的数值。

结合第二方面的第二种实现方式，在第二方面的第三种实现方式中，无效音频确定模块具体用于当音频文件为用户方录音得到的录音文件时，将该录音文件中数值低于第一空白音频阈值的各时刻的音频，都确定为无效音频；或者，当音频文件为服务方提供的音乐文件时，将该音乐文件中数值低于第二空白音频阈值的各时刻的音频，都确定为无效音频；其中，第一空白音频阈值高于第二空白音频阈值。

结合第二方面的第一种实现方式，在第二方面的第四种实现方式中，无效音频确定模块具体用于当音频文件中多个时刻的音频的频率保持基本不变时，确定出该多个时刻的音频都为无效音频；当音频文件中多个时刻的音频的频率的变化规律与已知噪声的变化规律相匹配时，确定出该多个时刻的音频都为无效音频。

结合第二方面的第一种实现方式，在第二方面的第五种实现方式中，无效音频确定模块具体用于当音频文件为多个音频采集设备采集指定方向的声音所得时，将该音频文件中与指定方向不一致的音源对应的音频，确定为无效音频。

结合第二方面或第二方面的第一至五种实现方式中任意一种实现方式，在第二方面的第六种实现方式中，音频文件裁剪模块还用于根据预设的衔接时长，对音频文件中无效音频所在的每个文件片段的时长进行裁剪；根据经过裁剪的音频文件的各文件片段，生成裁剪后的音频文件。

结合第二方面的第六种实现方式，在第二方面的第七种实现方式中，音频文件裁剪模块还用于当音频文件为多媒体文件中的音频流文件时，将经过裁剪的音频流文件的各文件片段，匹配到该多媒体文件的播放时间轴上。

第三方面，本发明实施例提供了一种终端设备，该终端设备具有实现上述第一方面中音频文件的裁剪方法行为的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，终端设备的结构中包括：触敏显示器、一个或多个处理器、存储器和一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个应用程序配置用于：

确定出音频文件中的无效音频及其所在的文件片段；

第四方面，本发明实施例提供了一种计算机存储介质，用于储存为上述音频文件的裁剪装置所用的计算机软件指令，其包含用于执行上述方面为音频文件的裁剪装置所设计的程序。

相对于现有技术，本发明提供的方案，可以自动确定出音频文件中的无效音频、以及无效音频所在的文件片段；然后对音频文件中无效音频所在的文件片段进行裁剪，相当于对音频文件中的无效音频进行了滤除，使得生成的裁剪后的音频文件中保留了绝大部分的有效音频。从而在保留音频文件中有效音频的情况下，减小了音频文件所占用的存储空间的大小，提升存储音频文件的设备的存储空间的利用效率水平。并且，在播放音频文件的过程中，节省了播放音频文件中无效音频的时间，节省了用户花费在聆听无效音频上的时间和精力，提升了音频文件的播放效率，有利于提升用户从播放的音频中获取信息的效率，从而可以提升用户体验。

而且，本发明的实施例中，基于预设的空白音频阈值、噪声音频、音源的指定方向，确定出音频文件中每个时刻的音频是否为无效音频。可以提升确定无效音频的精度和效率；有利于在不影响音频文件中有效音频的情况下，裁剪无效音频所在的文件片段，减小音频文件所占的存储空间。

进一步，本发明的实施例中，在裁剪无效音频所在的文件片段的过程中，保留预设的衔接时长的部分。合理的设置语境衔接时长可以使得前后语句衔接顺畅，有助于更加充分地表达语义、感情色彩和场景氛围等等；合理地设置音乐声之间的音乐衔接时长，能够更加充分地表述情感、烘托场景氛围和进行诸如篇章转换的故事性表达等等，有利于给听众带来充分的音乐享受和想象空间。

本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例的音频文件的裁剪方法的流程示意图；

图2示出了本发明实施例的音频文件的裁剪装置的内部结构的框架示意图；

图3示出了本发明实施例的终端设备的内部结构的框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本发明的发明人经过研究发现，对于音频文件中的录音文件，一种现有方案是，保存录音时间段内所有采集到的内容(包括空白音频、噪声等等)，生成现有的录音文件。有些方案会在录音结束后向用户提供手动的裁剪功能，用户需要自行查找到录音中的空白音频和噪声等无效内容，然而再进行手动裁剪、保持；操作繁琐，工作量较大，导致音频文件的裁剪效率低下，容易造成用户体验的降低。

基于上述发现，本发明实施例提供了音频文件的裁剪方法，该方法的流程示意图如图1所示，包括：S101确定出音频文件中的无效音频及其所在的文件片段；S102对音频文件中无效音频所在的文件片段进行裁剪，生成裁剪后的音频文件。

无效音频包括下述至少一项：空白音频、噪声、来源于非指定音源的音频。除了无效音频之外的音频为有效音频。例如，有效音频可以包括：人声、乐器声、电子合成的音乐、大自然的背景声音、社会生活的背景声音等等。

本发明实施例中，自动确定出音频文件中的无效音频、以及无效音频所在的文件片段；然后对音频文件中无效音频所在的文件片段进行裁剪，相当于对音频文件中的无效音频进行了滤除，使得生成的裁剪后的音频文件中保留了绝大部分的有效音频。从而在保留音频文件中有效音频的情况下，减小了音频文件所占用的存储空间的大小，提升存储音频文件的设备的存储空间的利用效率水平。并且，在播放音频文件的过程中，节省了播放音频文件中无效音频的时间，节省了用户花费在聆听无效音频上的时间和精力，提升了音频文件的播放效率，有利于提升用户从播放的音频中获取信息的效率，从而可以提升用户体验。

下面展开介绍本发明实施例中的音频文件的裁剪方法。

上述步骤S101中，当音频文件中每个时刻的音频符合下述至少一项时，确定出该时刻的音频为无效音频：特征值低于预设的空白音频阈值、频率与预设的噪声音频相匹配、音源方向与指定方向不一致；进而确定出无效音频所在的文件片段。

较佳地，当音频文件中每个时刻的音频的特征值低于预设的空白音频阈值时，确定出该时刻的音频为无效音频。

具体地，本发明的发明人经过研究发现，音频文件的生成过程大体如下：终端设备通过内置或外接的音频采集设备，例如麦克风，采集声音，得到连续的模拟的初始音频电信号；根据指定的位深度和采样频率，对连续的模拟的初始音频电信号进行模数转换，得到离散的数字的音频信号，生成音频文件。

常用的采样频率包括8kHz(千赫兹)、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、或48kHz等。因此，本发明实施例的音频文件中的音频在时间轴上是离散的。

本发明实施例中，数字化的音频文件中每个时刻的音频，包括该时刻的频谱，即多个频率各自的声音强度对应的电信号强度值。

本发明实施例中，根据每个时刻的各频率各自的声音强度对应电信号强度值的总和，确定出该时刻采样得到的音频的数值，作为该时刻的音频的特征值。当一个时刻的音频包含的频率越多时，该音频的数值(特征值)就越大。

将音频文件中每个时刻采样得到的音频的数值与预设的空白音频阈值进行比较。当音频文件中每个时刻采样得到的音频的数值低于预设的空白音频阈值时，可以认为该时刻不存在音频(或该时刻的音频是空白音频)，确定出该时刻的音频为无效音频。其中，本领域技术人员可以根据实验数据、历史数据、经验数据、和/或实际情况，来预先确定出空白音频阈值。

进一步，当音频文件中每个时刻采样得到的音频的数值低于预设的空白音频阈值时，确定出该时刻的音频为无效音频中的空白音频。

当音频文件中每个时刻采样得到的音频的数值不低于预设的空白音频阈值时，可以认为该时刻存在音频，确定出该时刻的音频为有效音频。

更优的，本发明的发明人考虑到，音频文件可以细分出多个种类的文件。例如，录音文件和音乐文件。录音文件是指用户方录音得到的录音文件，包括终端设备的用户自行录制的录音文件、以及其他用户录制并传输至该用户终端设备的录影文件等等。音乐文件是指服务方制作、发行和/或提供的音乐文件。

较佳地，将空白音频阈值细分出第一空白音频阈值、和第二空白音频阈值，并使得第一空白音频阈值高于第二空白音频阈值。

当音频文件为用户方录音得到的录音文件时，将该录音文件中各时刻的音频的数值，分别与第一空白音频阈值的比较；将该录音文件中数值低于第一空白音频阈值的各时刻的音频，都确定为无效音频中的空白音频。

可以理解，由于普通用户通常不具有专业的音频采集设备、不具备专业的后期音频处理能力，因此录音文件在某些频段的噪声水平较高。利用数值较高的第一空白音频阈值，有利于后续裁剪过程中去除录音文件中的噪声，减小录音文件所占存储空间，并且可以浓缩录音文件的有效音频，提升录音文件的回放效率。

或者，当音频文件为服务方提供的音乐文件时，将该录音文件中各时刻的音频的数值，分别与第二空白音频阈值的比较；将该音乐文件中数值低于第二空白音频阈值的各时刻的音频，都确定为无效音频中的空白音频。

可以理解，由于服务方通常具有专业的音频采集设备、专业的后去音频处理设备和技术力量，因此音乐文件中的噪声水平非常低，很可能还包括一些声音强度较小(声音较为细微)的音效。因此，利用数值较低的第二空白音频阈值，可以在后续的裁剪过程中在保留较为细微的声效的情况下更好的去除音频文件中的噪声。

进一步，本发明实施例中还提供了用户方录音得到的录音文件的识别方法。例如，当检测到用户向录音软件输入的涉及录音的指令或操作时，将该录音软件对应输出的音频文件确定为录音文件。再如，云端服务器预先收集大量的用户方录音得到的录音文件作为样本录音文件，确定出这些样本录影文件中的声音特征，训练出录音文件的声音特征模型；由终端设备基于待识别的音频文件与录音文件的声音特征模型之间的相似度，识别出待识别的音频文件是否是录音文件。

较佳地，当音频文件中每个时刻的音频的频率与预设的噪声音频相匹配时，确定出该时刻的音频为无效音频。

具体地，本发明的发明人进行研究发现，无效音频中的噪声可以细分为很多类型，可以包括固定频率的噪声、和特定频率的噪声等。固定频率的噪声是指在一段时间内保持一个频率；例如空调运行时发出的嗡嗡声。特定频率的噪声是指在一段时间内频率有规律地发生变化；例如汽车、火车或飞机等交通工具的特定背景音。

因此，对音频文件中多个时刻的音频的频率进行检测。

当音频文件中多个时刻的音频的频率保持基本不变时，确定出该多个时刻的音频都为无效音频。进一步，当检测出音频文件中多个时刻的音频的频率保持基本不变时，确定出该多个时刻的音频都为无效音频中的噪声。

当音频文件中多个时刻的音频的频率的变化规律与已知噪声的变化规律相匹配时，确定出该多个时刻的音频都为无效音频。进一步，当检测出音频文件中多个时刻的音频的频率的变化规律与已知噪声的变化规律相匹配时，确定出该多个时刻的音频都为无效音频中的噪声。

更优的，本发明的发明人注意到，很多场合下可能会采用多个音频采集设备(例如麦克风)采集指定方向的声音；然而在采集过程中，不可避免地会采集其它方向的声音。因此，后续生成的音频文件中的音频，既包括指定方向的(声音对应的)音频，也包括其它方向的音频。而其他方向的音频实际上是不需要的。

例如，会议上，需要保留的是朝向讲台处发言人方向(即指定方向)所采集的音频，但是不可避免地会采集到朝向台下方向(即出来指定方向的其它方向)的与会者的咳嗽声、细语声、肢体与物体接触的声音等等不需要的音频，属于无效音频。音频采集设备越灵敏，音频文件中包含的其它方向的无效音频的成分越多。

因此，当音频文件为多个音频采集设备采集指定方向的声音所得到的时，对音频的方向进行检测；将该音频文件中与指定方向不一致的音源对应的音频，确定为无效音频。进一步，将该音频文件中与指定方向不一致的音源对应的音频，确定为无效音频中的噪声。

较佳地，指定方向可以基于用户输入的指定方向相关指令的方式获得。也可以由云端服务器预先收集大量的已知指定方向的音频文件作为样本音频文件，确定出这些样本音频文件中的音频的方向特征，训练出音频文件的音频方向特征模型；由终端设备基于待识别的音频文件与音频文件的音频方向特征模型之间的相似度，识别出待识别的音频文件中的指定方向。

基于上述从音频文件中确定出的无效音频，确定出无效音频所在的文件片段。较佳地，确定出无效音频所在的文件片段的起始时刻和结束时刻。

上述步骤S102中，对音频文件中无效音频所在的文件片段进行裁剪，生成裁剪后的音频文件进行保存。

具体地，将无效音频所在的文件片段从音频文件中裁剪掉，将剩余的文件片段拼接为裁剪后的音频文件进行保存。

可以理解，剩余文件片段包含了原音频文件的有效音频，裁剪拼接的过程，实际上是滤除原音频文件中的无效音频的过程。实现在保留原音频文件的有效音频的情况下减小音频文件所占的存储空间；并播放裁剪后的音频文件过程中，播放的都是有效音频，提升了播放音频文件的效率。

更优的，本发明的发明人经过研究发现，为了提升播放音频文件时作为听众的用户的体验，音频之间实际上需要设置一些合适的语境衔接时长。

本发明实施例中，根据预设的衔接时长，对音频文件中无效音频所在的每个文件片段的时长进行裁剪；根据经过裁剪的音频文件的各文件片段，生成裁剪后的音频文件。

本领域技术人员可以根据实验数据、历史数据、经验数据、应用场景和/或实际情况，预先确定出衔接时长。衔接时长可以包括语境衔接时长、和音乐衔接时长。较佳地，语境衔接时长可以设置为1-10S(秒)范围内的某一时长。

将音频文件中无效音频所在的每个文件片段的时长与预设的衔接时长进行比较；当该文件片段的时长超过衔接时长，将该文件片段中超出衔接时长的部分裁剪掉；将经过裁剪的各文件片段、以及未经过裁剪的各文件片段，拼接为裁剪后的音频文件进行保存。进一步，从无效音频所在的文件片段的结束时刻开始延时间轴向前，裁剪掉超过衔接时长的部分。

较佳地，对于对话的人声而言，根据正常对话语境的停顿，设置语境衔接时间。将音频文件中无效音频所在的每个文件片段的时长与语境衔接时间进行比较；当该文件片段的时长超过语境衔接时间时，保留从该文件片段的起始时刻开始的语境衔接时间的部分，将超出语境衔接时间的时间段对应的部分裁剪掉；将经过裁剪的各文件片段，拼接为裁剪后的音频文件进行保存。

例如，从录音文件中确定出空白音频所在的文件片段，该文件片段的时刻从00:05至01:10；当语境衔接时间为2S(秒)时，裁剪掉00:07至01:10时段的空白音频部分，保留00:05至00:06时段的空白音频部分；将保留的空白音频部分与原有的其它文件片段进行拼接，例如，将00:05至00:06时段的空白音频部分，直接与以01:11为起始时刻的音频文件片段进行拼接。本例中音频的单位时间为1S(秒)，实际上本例适用于任何单位时间，例如适用于0.1S、0.01S、毫秒、微秒、或纳秒等等，本领域技术人员可以根据实际情况确定单位时间。

可以理解，对于人声而言，人声语句之间往往需要根据语境产生一定时长的停顿，即语境衔接时长(例如2S)，该语境衔接时长为人们按照正常语速说话时的停顿时间，合理的设置语境衔接时长可以使得停顿前后语句衔接顺畅，有助于更加充分地表达语义、感情色彩和场景氛围等等。

较佳地，对于音乐而言，将音频文件中无效音频所在的每个文件片段的时长与音乐衔接时长进行比较；当该文件片段的时长超过音乐衔接时长时，保留从该文件片段的起始时刻开始的音乐衔接时长的部分，将超出音乐衔接时长的时间段对应的部分裁剪掉；将经过裁剪的各文件片段、以及未经过裁剪的各文件片段，拼接为裁剪后的音频文件进行保存。进一步，可以根据音乐的类型、乐器的种类和/或演奏的场景，进一步细分音乐衔接时长。

可以理解，对于音乐而言，很多情况下需要在音乐声之间设置一些合适时长的停顿(即音乐衔接时长)。因此，合理地设置音乐声之间的音乐衔接时长，能够更加充分地表述情感、烘托场景氛围和进行诸如篇章转换的故事性表达等等，有利于给听众带来充分的音乐享受和想象空间。

更优的，本发明实施例的音频文件还包括音频流文件。

具体地，多媒体文件中通常包括：视频流文件和音频流文件；可能还包括字幕文件等等。在播放多媒体文件时，音频流文件通常与视频流文件等其它文件按照同一个播放时间轴进行播放。

因此，当音频文件为多媒体文件中的音频流文件时，可以利用上述方法确定出音频流文件中的无效音频、以及无效音频所在的文件片段；对音频流文件中无效音频所在的文件片段进行裁剪，得到经过裁剪的该音频流文件的各文件片段；将经过裁剪的音频流文件的各文件片段，匹配到该多媒体文件的播放时间轴上；将经过裁剪的音频流文件中各文件片段、以及各文件片段相匹配的播放时刻对应保存。这样，既不影响多媒体文件的播放效果，又减少了音频流文件的大小，节省了音频流文件所占的存储空间。

基于上述音频文件的裁剪方法，本发明实施例中还提供了音频文件的裁剪装置，该装置的内部结构的框架示意图如图2所示，包括：无效音频确定模块201和音频文件裁剪模块202。

其中，无效音频确定模块201用于确定出音频文件中的无效音频及其所在的文件片段。

音频文件裁剪模块202用于对音频文件中无效音频所在的文件片段进行裁剪，生成裁剪后的音频文件。

较佳地，无效音频确定模块201具体用于当音频文件中每个时刻的音频符合下述至少一项时，确定出该时刻的音频为无效音频：特征值低于预设的空白音频阈值、频率与预设的噪声音频相匹配、音源方向与指定方向不一致；进而确定出无效音频所在的文件片段。

较佳地，无效音频确定模块201具体用于当音频文件中每个时刻采样得到的音频的数值低于预设的空白音频阈值时，确定出该时刻的音频为无效音频；其中，音频文件中每个时刻的音频的特征值具体为该时刻采样得到的音频的数值。

较佳地，无效音频确定模块201具体用于当音频文件为用户方录音得到的录音文件时，将该录音文件中数值低于第一空白音频阈值的各时刻的音频，都确定为无效音频；或者，当音频文件为服务方提供的音乐文件时，将该音乐文件中数值低于第二空白音频阈值的各时刻的音频，都确定为无效音频；其中，第一空白音频阈值高于第二空白音频阈值。

较佳地，无效音频确定模块201具体用于当音频文件中多个时刻的音频的频率保持基本不变时，确定出该多个时刻的音频都为无效音频；当音频文件中多个时刻的音频的频率的变化规律与已知噪声的变化规律相匹配时，确定出该多个时刻的音频都为无效音频。

较佳地，无效音频确定模块201具体用于当音频文件为多个音频采集设备采集指定方向的声音所得时，将该音频文件中与指定方向不一致的音源对应的音频，确定为无效音频。

较佳地，音频文件裁剪模块202还用于根据预设的衔接时长，对音频文件中无效音频所在的每个文件片段的时长进行裁剪；根据经过裁剪的音频文件的各文件片段，生成裁剪后的音频文件。

较佳地，音频文件裁剪模块202还用于当音频文件为多媒体文件中的音频流文件时，将经过裁剪的音频流文件的各文件片段，匹配到该多媒体文件的播放时间轴上。

上述无效音频确定模块201和音频文件裁剪模块202功能的实现方法，可以参考上述音频文件的裁剪方法中的具体内容，此处不再赘述。

本发明实施例还提供了终端设备，如图3所示，为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该终端可以为包括手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、POS(Point ofSales，销售终端)、车载电脑等任意终端设备，以终端为手机为例：

图3示出的是与本发明实施例提供的终端相关的手机的部分结构的框图。参考图3，手机包括：射频(Radio Frequency，RF)电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真(wireless fidelity，WiFi)模块370、处理器380、以及电源390等部件。本领域技术人员可以理解，图3中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图3对手机的各个构成部件进行具体的介绍：

RF电路310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器380处理；另外，将设计上行的数据发送给基站。通常，RF电路310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器320可用于存储软件程序以及模块，处理器380通过运行存储在存储器320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元330可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元330可包括触控面板331以及其他输入设备332。触控面板331，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上或在触控面板331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器380，并能接收处理器380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。除了触控面板331，输入单元330还可以包括其他输入设备332。具体地，其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元340可包括显示面板341，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板341。进一步的，触控面板331可覆盖显示面板341，当触控面板331检测到在其上或附近的触摸操作后，传送给处理器380以确定触摸事件的类型，随后处理器380根据触摸事件的类型在显示面板341上提供相应的视觉输出。虽然在图3中，触控面板331与显示面板341是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板331与显示面板341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板341的亮度，接近传感器可在手机移动到耳边时，关闭显示面板341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路360、扬声器361，传声器362可提供用户与手机之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号，传输到扬声器361，由扬声器361转换为声音信号输出；另一方面，传声器362将收集的声音信号转换为电信号，由音频电路360接收后转换为音频数据，再将音频数据输出处理器380处理后，经RF电路310以发送给比如另一手机，或者将音频数据输出至存储器320以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图3示出了WiFi模块370，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器380可包括一个或多个处理单元；优选的，处理器380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器380中。

手机还包括给各个部件供电的电源390(比如电池)，优选的，电源可以通过电源管理系统与处理器380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

此外，尽管未示出，本发明实施例中以手机为代表的终端设备，还包括内置的至少一个音频采集装置、或者外接的至少一个音频采集装置。

在本发明实施例中，该终端所包括的处理器380还具有以下功能：

运行一个或多个程序用于确定出音频文件中的无效音频及其所在的文件片段；对音频文件中无效音频所在的文件片段进行裁剪，生成裁剪后的音频文件。

较佳地，运行一个或多个程序用于当音频文件中每个时刻的音频符合下述至少一项时，确定出该时刻的音频为无效音频：特征值低于预设的空白音频阈值、频率与预设的噪声音频相匹配、音源方向与指定方向不一致；进而确定出无效音频所在的文件片段。

较佳地，运行一个或多个程序用于当音频文件中每个时刻采样得到的音频的数值低于预设的空白音频阈值时，确定出该时刻的音频为无效音频；其中，音频文件中每个时刻的音频的特征值具体为该时刻采样得到的音频的数值。

较佳地，运行一个或多个程序用于当音频文件为用户方录音得到的录音文件时，将该录音文件中数值低于第一空白音频阈值的各时刻的音频，都确定为无效音频；或者，当音频文件为服务方提供的音乐文件时，将该音乐文件中数值低于第二空白音频阈值的各时刻的音频，都确定为无效音频；其中，第一空白音频阈值高于第二空白音频阈值。

较佳地，运行一个或多个程序用于当音频文件中多个时刻的音频的频率保持基本不变时，确定出该多个时刻的音频都为无效音频；当音频文件中多个时刻的音频的频率的变化规律与已知噪声的变化规律相匹配时，确定出该多个时刻的音频都为无效音频。

较佳地，运行一个或多个程序用于当音频文件为多个音频采集设备采集指定方向的声音所得时，将该音频文件中与指定方向不一致的音源对应的音频，确定为无效音频。

较佳地，运行一个或多个程序用于根据预设的衔接时长，对音频文件中无效音频所在的每个文件片段的时长进行裁剪；根据经过裁剪的音频文件的各文件片段，生成裁剪后的音频文件。

较佳地，运行一个或多个程序用于当音频文件为多媒体文件中的音频流文件时，将经过裁剪的音频流文件的各文件片段，匹配到该多媒体文件的播放时间轴上。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种终端设备进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频文件的裁剪方法，其特征在于，包括：

确定出音频文件中的无效音频及其所在的文件片段；

对所述音频文件中无效音频所在的文件片段进行裁剪，生成裁剪后的音频文件。

2.根据权利要求1所述的方法，其特征在于，所述确定出音频文件中的无效音频及其所在的文件片段，包括：

当所述音频文件中每个时刻的音频符合下述至少一项时，确定出该时刻的音频为无效音频：特征值低于预设的空白音频阈值、频率与预设的噪声音频相匹配、音源方向与指定方向不一致；

进而确定出无效音频所在的文件片段。

3.根据权利要求2所述的方法，其特征在于，当所述音频文件中每个时刻的音频的特征值低于预设的空白音频阈值时，确定出该时刻的音频为无效音频，包括：

当所述音频文件中每个时刻采样得到的音频的数值低于预设的空白音频阈值时，确定出该时刻的音频为无效音频；

其中，所述音频文件中每个时刻的音频的特征值具体为该时刻采样得到的音频的数值。

4.根据权利要求3所述的方法，其特征在于，当所述音频文件中每个时刻采样得到的音频的数值低于预设的空白音频阈值时，确定出该时刻的音频为无效音频，包括：

当所述音频文件为用户方录音得到的录音文件时，将该录音文件中数值低于第一空白音频阈值的各时刻的音频，都确定为无效音频；或者

当所述音频文件为服务方提供的音乐文件时，将该音乐文件中数值低于第二空白音频阈值的各时刻的音频，都确定为无效音频；

其中，第一空白音频阈值高于第二空白音频阈值。

5.根据权利要求2所述的方法，其特征在于，当所述音频文件中每个时刻的音频的频率与预设的噪声音频相匹配时，确定出该时刻的音频为无效音频，包括：

当所述音频文件中多个时刻的音频的频率保持基本不变时，确定出该多个时刻的音频都为无效音频；

当所述音频文件中多个时刻的音频的频率的变化规律与已知噪声的变化规律相匹配时，确定出该多个时刻的音频都为无效音频。

6.根据权利要求2所述的方法，其特征在于，当所述音频文件中每个时刻的音频的音源方向与指定方向不一致时，确定出该时刻的音频为无效音频，包括：

当所述音频文件为多个音频采集设备采集指定方向的声音所得时，将该音频文件中与所述指定方向不一致的音源对应的音频，确定为无效音频。

7.根据权利要求1-6任一项所述的方法，其特征在于，对所述音频文件中无效音频所在的文件片段进行裁剪，生成裁剪后的音频文件，还包括：

根据预设的衔接时长，对所述音频文件中无效音频所在的每个文件片段的时长进行裁剪；

根据经过裁剪的所述音频文件的各文件片段，生成裁剪后的音频文件。

8.根据权利要求7所述的方法，其特征在于，根据源自所述音频文件的经过裁剪的各文件片段，生成裁剪后的音频文件，还包括：

当所述音频文件为多媒体文件中的音频流文件时，将经过裁剪的所述音频流文件的各文件片段，匹配到该多媒体文件的播放时间轴上。

9.一种音频文件的裁剪装置，其特征在于，包括：

音频文件裁剪模块，用于对所述音频文件中无效音频所在的文件片段进行裁剪，生成裁剪后的音频文件。

10.一种终端设备，包括：

触敏显示器；

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：

确定出音频文件中的无效音频及其所在的文件片段；