CN106057220B

CN106057220B - 一种音频信号的高频扩展方法和音频播放器

Info

Publication number: CN106057220B
Application number: CN201610340304.1A
Authority: CN
Inventors: 刘智成; 胡以璇
Original assignee: TCL Corp
Current assignee: TCL Corp
Priority date: 2016-05-19
Filing date: 2016-05-19
Publication date: 2020-01-03
Anticipated expiration: 2036-05-19
Also published as: CN106057220A

Abstract

本发明公开了一种音频信号的高频扩展方法和音频播放器，用于实现对缺失高频部分的音频信号进行高频扩展，满足用户对高品质音频的要求。本发明实施例提供一种音频信号的高频扩展方法，包括：对原始的第一音频信号进行上采样，得到第二音频信号；获取所述第二音频信号的低频段频谱，并根据所述低频段频谱对所述第二音频信号进行高频段频谱的估计，得到高频段频谱包络线；按照所述高频段频谱包络线将所述低频段频谱拷贝到所述第二音频信号的高频段，得到第三音频信号；对所述第三音频信号进行能量调整，得到第四音频信号。

Description

一种音频信号的高频扩展方法和音频播放器

技术领域

本发明涉及音频处理技术领域，尤其涉及一种音频信号的高频扩展方法和音频播放器。

背景技术

人耳能听到的声音的频率范围大约为2-20千赫兹(Kilo Hertz，KHz)，普通人对音频信号的高频部分不太敏感，人耳虽然听不到频率超过20KHz的声音，但有些人能感觉到。在存储和传输音频文件时，为了节约空间和提高传输效率，往往要去掉人耳不太敏感的高频成分，这虽然损失了一定的音质，但是可以大大提高音频文件的压缩率，这种权衡迎合了市场的需求，例如大部分风靡一时的MP3音频文件就将高于16KHz的高频部分去掉，音质虽然下降了一些，但并不影响普通人欣赏音频文件，而且音频文件占用较小的存储空间，MP3也趁着互联网的东风流行起来，大大满足了普通人对音乐欣赏的需求。

随着人们消费水平的提高，人们对音频文件的品质要求也日益提高，人们越来越喜欢高分辨率、频域成分完整的、高保真的高品质音乐。但是这种高品质的音频文件往往收费昂贵，因此对大部分免费的但缺失了高频成分的音频文件进行合理扩展以提高音频的播放效果就成了普通用户的极大需求，而现有技术中的音频播放器只能播放缺失高频成分的音频文件，而无法对这些音频文件进行高频扩展。

发明内容

本发明实施例提供了一种音频信号的高频扩展方法和音频播放器，用于实现对缺失高频部分的音频信号进行高频扩展，满足用户对高品质音频的要求。

为解决上述技术问题，本发明实施例提供以下技术方案：

第一方面，本发明实施例提供一种音频信号的高频扩展方法，包括：

对原始的第一音频信号进行上采样，得到第二音频信号；

获取所述第二音频信号的低频段频谱，并根据所述低频段频谱对所述第二音频信号进行高频段频谱的估计，得到高频段频谱包络线；

按照所述高频段频谱包络线将所述低频段频谱拷贝到所述第二音频信号的高频段，得到第三音频信号；

对所述第三音频信号进行能量调整，得到第四音频信号。

第二方面，本发明实施例还提供一种音频播放器，包括：

上采样模块，用于对原始的第一音频信号进行上采样，得到第二音频信号；

高频估计模块，用于获取所述第二音频信号的低频段频谱，并根据所述低频段频谱对所述第二音频信号进行高频段频谱的估计，得到高频段频谱包络线；

频谱拷贝模块，用于按照所述高频段频谱包络线将所述低频段频谱拷贝到所述第二音频信号的高频段，得到第三音频信号；

能量调整模块，用于对所述第三音频信号进行能量调整，得到第四音频信号。

从以上技术方案可以看出，本发明实施例具有以下优点：

在本发明实施例中，首先对原始的第一音频信号进行上采样，得到第二音频信号，然后获取第二音频信号的低频段频谱，并根据低频段频谱对第二音频信号进行高频段频谱的估计，得到高频段频谱包络线，接下来按照高频段频谱包络线将低频段频谱拷贝到第二音频信号的高频段，得到第三音频信号，最后对第三音频信号进行能量调整，得到第四音频信号。本发明实施例中第一音频信号作为原始信号经过上采样之后，估计出了第二音频信号的高频段频谱包络线，第二音频信号在高频段拷贝进行低频段频谱后再进行能量调整，可以得到第四音频信号，第四音频信号中携带有高频段的频谱信息，当音频播放器播放该第四音频信号时可以提高音频信号的播放效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种音频信号的高频扩展方法的流程方框示意图；

图2为本发明实施例提供的另一种音频信号的高频扩展方法的流程方框示意图；

图3为本发明实施例中对第一音频信号进行上采样的应用场景示意图；

图4为本发明实施例提供的另一种音频信号的高频扩展方法的流程方框示意图；

图5为本发明实施例提供的第二音频信号的频谱包络线示意图；

图6为本发明实施例提供的一种频谱拟合过程的示意图；

图7-a为本发明实施例提供的一种音频播放器的组成结构示意图；

图7-b为本发明实施例提供的一种上采样模块的组成结构示意图；

图7-c为本发明实施例提供的另一种音频播放器的组成结构示意图；

图7-d为本发明实施例提供的一种高频估计模块的组成结构示意图；

图7-e为本发明实施例提供的另一种音频播放器的组成结构示意图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域的技术人员所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本发明的实施例中对相同属性的对象在描述时所采用的区分方式。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。

以下分别进行详细说明。

本发明音频信号的高频扩展方法的一个实施例，可应用于音频播放器对缺失高频部分的音频信号的扩展中，请参阅图1所示，本发明一个实施例提供的音频信号的高频扩展方法，可以包括如下步骤：

101、对原始的第一音频信号进行上采样，得到第二音频信号。

在本发明实施例中，第一音频信号是输入到音频播放器的原始音频文件，该第一音频信号可以是缺失高频部分的音频信号，若音频播放器直接播放该第一音频信号，由于频域的不完整，播放效果差，因此可以根据本发明实施例提供的音频信号的高频扩展方法进行高频部分的扩展。本发明实施例中，第一音频信号为时域信号，可以对第一音频信号进行上采样，得到第二音频信号，通过第一音频信号的上采样，可以在第一音频信号上内插一些符号，从而可以得到第二音频信号，该第二音频信号相对于原始的第一音频信号，在时域上得到了扩展。

102、获取第二音频信号的低频段频谱，并根据低频段频谱对第二音频信号进行高频段频谱的估计，得到高频段频谱包络线。

在本发明实施例中，将第一音频信号转换为第二音频信号之后，先从该第二音频信号中提取出低频段频谱，其中，低频段频谱是指在第二音频信号中已经存在的频谱分量，该低频段频谱携带有频谱能量信息，通过低频段频谱可以播放出在第二音频信号中携带的内容信息。通常情况下，第二音频信号的低频段频谱的振幅绝对值的自然对数值从低频率到高频率呈现出的变化规律是线性递减，因此根据该低频段频谱可以对第二音频信号进行高频段频谱的估计，从而可以生成第二音频信号的高频段频谱包络线，该高频段频谱包络线是第二音频信号中缺失的高频部分的振幅绝对值的自然对数值随着时间变化的曲线，通过估计出第二音频信号的高频段频谱包络线可以确定在第二音频信号中缺失的高频信号的大致区域。

103、按照高频段频谱包络线将低频段频谱拷贝到第二音频信号的高频段，得到第三音频信号。

在本发明实施例中，从第二音频信号中生成高频段频谱包络线之后，可以按照该高频段频谱包络线将低频段频谱拷贝到第二音频信号的高频段中，此时高频段中填充有频谱信息的第二音频信号可以称为第三音频信号。因此，本发明实施例中在第二音频信号的高频段中填充低频段频谱，可以使得第二音频信号中缺失的高频部分得到有效扩展，从而使得第三音频信号中既包含低频部分，也包括高频部分，这样的第三音频信号在播放时可以呈现出高品质的音质效果。

104、对第三音频信号进行能量调整，得到第四音频信号。

在本发明实施例中，获取到第三音频信号之后，还可以对第三音频信号进行能量调整，因为通过前述步骤中高频段的频谱填充，在第三音频信号的高频段填充的是低频段频谱，而已知的是，低频段频谱往往有较大的能量，若在高频段中继续使用大能量的频谱，在第三音频信号播放时会造成刺耳声，用户感觉不适应，因此需要降低第三音频信号中的高频部分的能量，以适应用户的普遍需求。其中能量调整的具体方式可以有多种，例如，直接按照预置的比例关系降低第三音频信号中高频段的能量，或者设置能量调整系数，按照该能量调整系数来调整第三音频信号，从而可以生成第四音频信号。第四音频信号和第三音频信号中都携带有高频段的频谱信息，当音频播放器播放该第四音频信号时可以提高音频信号的播放效果，使用户可以欣赏到高品质的音频文件。本发明实施例中通过音频播放器侧的编码技术可以实现缺失高频部分的音频信号的高频扩展，使用户不需要支付昂贵的费用而只需要使用本发明实施例提供的音频播放器就可以享受到高品质的音频文件，使得本发明实施例提供的音频播放器具有较高的竞争力。

通过前述实施例对本发明的详细说明可知，首先对原始的第一音频信号进行上采样，得到第二音频信号，然后获取第二音频信号的低频段频谱，并根据低频段频谱对第二音频信号进行高频段频谱的估计，得到高频段频谱包络线，接下来按照高频段频谱包络线将低频段频谱拷贝到第二音频信号的高频段，得到第三音频信号，最后对第三音频信号进行能量调整，得到第四音频信号。本发明实施例中第一音频信号作为原始信号经过上采样之后，估计出了第二音频信号的高频段频谱包络线，第二音频信号在高频段拷贝进行低频段频谱后再进行能量调整，可以得到第四音频信号，第四音频信号中携带有高频段的频谱信息，当音频播放器播放该第四音频信号时可以提高音频信号的播放效果。

前述实施例介绍了本发明提供的一种音频信号的高频扩展方法，接下来以另一个实施例介绍本发明提供的音频信号的高频扩展方法，接下来请参阅如图2所示，本发明一个实施例提供的音频信号的高频扩展方法，可以包括如下步骤：

201、对第一音频信号进行分帧，得到多个帧的第一音频信号，多个帧的第一音频信号中相邻两帧的第一音频信号之间有重叠。

在本发明的一些实施例中，原始的第一音频信号是时域信号，首先对该第一音频信号进行分帧，例如可以将第一音频信号每N个比特为一帧，从而可以得到多个帧的第一音频信号，多个帧的第一音频信号中相邻两帧的第一音频信号之间有重叠，假设相邻两帧的第一音频信号之间的重叠区域的长度为2L。

202、对每一帧的第一音频信号分别进行离散余弦变换(Discrete CosineTransform，DCT)处理，得到DCT处理后的第一音频信号。

在本发明的一些实施例中，对于每一帧的第一音频信号可以依次转换到DCT域。例如，对每帧进行DCT变换时，可以根据matlab进行DCT处理。例如，可以采用如下公式进行DCT的计算：

其中：ω(k)表示变换因子，X(k)表示第k个DCT处理后的第一音频信号，x(n)表示DCT处理之前的第一音频信号，N表示每一帧的第一音频信号的长度。

在本发明的一些实施例中，变换因子ω(k)可以通过如下公式计算：

其中，对于第1个DCT处理后的第一音频信号，变换因子ω(k)的取值为

在k为其它取值的情况下，变换因子ω(k)的取值为

不限定的是，上述变换因子还可以有其它取值实现方式，只要能够用于计算出X(k)即可。

203、根据采样率转换比在DCT处理后的每帧第一音频信号的尾端添加0，得到补0后的第一音频信号，采样率转换比为目标采样率和原采样率的比值。

在本发明的一些实施例中，得到每一帧的DCT处理后的第一音频信号之后，可以根据预先配置的采样率转换比计算需要在每帧第一音频信号的尾端添加0的个数，从而得到补0后的第一音频信号，具体的，该采样率转换比可以是目标采样率和原采样率的比值，例如采样率转换比可以表示为^I/_D，I表示目标采样率，D表示原采样率。举例说明如下，将采样率为48KHz的音频文件上采样至192KHz，则原采样率为48KHz，目标采样率为192KHz。

在本发明的一些实施例中，DCT处理后的每帧第一音频信号的尾端添加0可以实现在DCT域对第一音频信号的扩展，N个样本点进行DCT变换后得到N条谱线，假设采样率转换比为^I/_D，那么在X(k)后添加N₁-N个0得到上采样的频谱Y(k)：

其中N₁/N＝I/D，例如将采样率为44.1KHz的音频上采样为192KHz音频，那么N₁/N＝192/44.1＝640/147≈4.35374。

204、对补0后的第一音频信号进行逆离散余弦转换(Inverse Discrete CosineTransformation，IDCT)处理，得到IDCT处理后的第一音频信号。

在本发明的一些实施例中，在第一音频信号中补0之后，由于步骤202中对第一音频信号进行了DCT处理，再补0之后还需要对第一音频信号进行IDCT处理，从而可以得到IDCT处理后的第一音频信号。

举例说明如下，补0后的第一音频信号为Y(k)，可以根据matlab进行IDCT处理，对Y(k)用IDCT函数进行IDCT变换，并乘以缩放系数

可以得到上采样的时域信号y(n)：

205、将所有帧的IDCT处理后的第一音频信号按照首尾拼接的方式连接起来，得到第二音频信号。

在本发明的一些实施例中，通过前述方式计算出每一帧的IDCT处理后的第一音频信号之后，可以得到所有帧的IDCT处理后的第一音频信号，然后可以对相邻两个帧的第一音频信号进行首尾拼接，所有帧的IDCT处理后的第一音频信号连接起来之后，可以得到第二音频信号。

需要说明的是，在本发明前述步骤中，对原始的第一音频信号进行上采样得到第二音频信号的方式进行了详细说明，不限定的是，本发明实施例还可以采用其它的上采样方式来生成第二音频信号。例如，在进行高频扩展时首先要进行音频上采样，例如把采样率为48KHz的音频上采样至192KHz的音频，可以使用有限长单位冲激响应滤波器(FiniteImpulse Response，FIR)方式在时域中实现上采样，但是这种方式相对于前述的本发明实施例，会比较消耗硬件资源，而前述举例说明中本发明则采用在DCT频域里加0的方式进行上采样，节约了硬件资源。另外在对长序列音频信号进行频域上采样时采用分帧重叠技术，接下来本发明举例说明如何选择合适的帧长和重叠区域长度使得序列总长误差降为0。

在本发明的一些实施例中，步骤204对补0后的第一音频信号进行逆离散余弦转换IDCT处理，得到IDCT处理后的第一音频信号之后，本发明实施例提供的音频信号的高频扩展方法，还可以包括如下步骤：

A1、将IDCT处理后的第一音频信号的首端和尾端剪切掉，得到剪切掉首尾端的第一音频信号。

其中，当IDCT处理后的第一音频信号的序列长度很长时，为了避免重叠区域造成的上采样后时域信号的压缩或者拉伸，还可以对IDCT处理后的第一音频信号进行首端和尾端的剪切处理，从而可以得到剪切掉首尾端的第一音频信号，将IDCT处理后的第一音频信号的首端和尾端剪切掉，可以避免音频信号的压缩或者拉伸。

进一步的，在本发明的一些实施例中，步骤A1中，IDCT处理后的第一音频信号中剪切掉的首端和尾端的长度均为L₁，其中L₁的取值通过如下公式计算得到：

其中，L₁的取值为正整数，多个帧的第一音频信号中相邻两帧的第一音频信号之间的重叠区域的长度为2L，I表示目标采样率，D表示原采样率。请参阅图3所示，为本发明实施例中对第一音频信号进行上采样的应用场景示意图。举例说明如下，第一音频信号作为原音频序列，在帧P、帧P+1、帧P+2中，每个帧中都包括N个点，每个帧的首端和尾端与相邻帧的帧间重叠区域为2L，经过上采样之后的第一音频信号中包括N₁个点，在每个帧中首端和尾端的舍弃区域长度为L₁，将每帧y(n)首尾两端的L₁个样本去掉，该L₁＝I/D×L，然后各帧首尾连接起来形成最后上采样的长序列信号。

需要说明的是，在选择舍弃长度L₁和重叠区域2L时不允许出现小数，即需要使I×L是D的整数倍，例如在将采样率为44.1KHz的音频上采样为192KHz的音频时，因为上采样比例为I/D＝192/44.1＝640/147，所以为确保N₁和L₁为整数，N和L必须为147的倍数，因此可以取帧长N＝2352，L＝147作为一组合适值，如果出现小数，则上采样后的时域信号会有轻微压缩或拉伸现象，序列越长越严重。

在本发明实施例执行步骤A1的实现场景下，步骤205将所有帧的IDCT处理后的第一音频信号按照首尾拼接的方式连接起来，得到第二音频信号，具体为：

B1、将所有帧的剪切掉首尾端的第一音频信号按照首尾拼接的方式连接起来，得到第二音频信号。

也就是说，若对第一音频信号的首尾端进行了剪切，那么在所有帧的第一音频信号进行首尾拼接时，需要对第一音频信号新生成的首尾端进行拼接，相邻帧的第一音频信号拼接完成后可以生成第二音频信号。

206、获取第二音频信号的低频段频谱，并根据低频段频谱对第二音频信号进行高频段频谱的估计，得到高频段频谱包络线。

207、按照高频段频谱包络线将低频段频谱拷贝到第二音频信号的高频段，得到第三音频信号。

208、对第三音频信号进行能量调整，得到第四音频信号。

在本发明的一些实施例中，步骤205执行之后，可以执行步骤206至步骤208，步骤206至步骤208的实现方式与前述实施例中步骤102至步骤104的实现方式相类似，此处不再赘述。

通过前述实施例对本发明的详细说明可知，本发明实施例中第一音频信号作为原始信号进行DCT处理，然后再添加0，可以实现对第一音频信号的扩展，最后再进行IDCT处理后对第一音频信号进行首尾拼接，得到第二音频信号，整个上采样过程占用的硬件资源较少，并且得到的第二音频信号的序列总长误差可以消减为0。估计出了第二音频信号的高频段频谱包络线，第二音频信号在高频段拷贝进行低频段频谱后再进行能量调整，可以得到第四音频信号，第四音频信号中携带有高频段的频谱信息，当音频播放器播放该第四音频信号时可以提高音频信号的播放效果。

前述实施例介绍了本发明提供的一种音频信号的高频扩展方法，接下来以另一个实施例介绍本发明提供的音频信号的高频扩展方法，接下来请参阅如图4所示，本发明一个实施例提供的音频信号的高频扩展方法，可以包括如下步骤：

401、对原始的第一音频信号进行上采样，得到第二音频信号。

在本发明的一些实施例中，步骤401的实现方式与前述实施例中步骤101的实现方式相类似，此处不再赘述。

402、对第二音频信号进行分帧，得到多个帧的第二音频信号。

在本发明的一些实施例中，得到第二音频信号之后，对该第二音频信号进行分帧，例如可以将第二音频信号分为多个帧，对于每个帧的第二音频信号分别执行后续步骤403至步骤405中描述的高频段频谱包络线的生成方式。

403、对每一帧的第二音频信号进行修正离散余弦变换(Modified DiscreteCosine Transform，MDCT)处理，得到MDCT处理后的第二音频信号。

在本发明的一些实施例中，每一个帧的第二音频信号转换到MDCT频域，从而得到MDCT处理后的第二音频信号，通过MDCT的变换方式，可以实现从时域到频域的转换，MDCT处理后的第二音频信号是包括多个频谱信息的频域信号。

404、采用随机采样检验(RANdom Sample Consensus，RANSAC)算法对MDCT处理后的第二音频信号的低频段频谱的振幅绝对值的自然对数值进行直线拟合，得到低频段频谱包络线，低频段频谱包括：处于MDCT处理后的第二音频信号的有效截止频率之前的频谱段。

在本发明的一些实施例中，得到MDCT处理后的第二音频信号之后，可以采用RANSAC算法对MDCT处理后的第二音频信号的低频段频谱的振幅绝对值的自然对数值进行直线拟合，得到低频段频谱包络线。其中，低频段频谱可以通过计算第二音频信号的有效截止频率的方式来得到，处于MDCT处理后的第二音频信号的有效截止频率之前的频谱段就可以构成低频段频谱。

405、按照低频段频谱包络线对应的直线方程估计MDCT处理后的第二音频信号的高频段频谱，得到高频段频谱包络线。

在发明的一些实施例中，计算出低频段频谱包络线对应的直线方程后，根据该直线方程可以估计出MDCT处理后的第二音频信号的高频段频谱，从而生成第二音频信号中的高频段频谱包络线，该高频段频谱包络线中可以包括第二音频信号中需要扩展的高频部分分量。

举例说明如下，在音频编码压缩的方案可以基于MDCT完成，如图5所示，图5为本发明实施例提供的第二音频信号的频谱包络线示意图，在MDCT频域，频谱的ln|X[n]|包络线大致是线性递减的，根据这一特征，第二音频信号中缺失的高频部分也遵循这一规律，具体可以先将上采样之后得到的第二音频信号(为时域信号)分帧，每帧转换到MDCT频域得到X[n]，在X[n]中，可以用较小的正值10^-9代替0，以便后续过程能够计算出对应的ln|X[n]|，再求得有效截止频率，然后选取截止频率前的一些谱线的ln|X[n]|值进行直线拟合作为低频段频谱包络线。在图5中，竖直的虚线表示扩展后的高频段频谱在多个频点的频谱线，每条频谱线的对应值是该频谱线的频率点对应的振幅绝对值的自然对数值，斜虚线表示直线拟合后得到的频谱包络线。在拟合直线时，先将ln|X[n]|曲线的有效截止频率前的谱线分成几段，每段求最大值，然后用这些最大值对应的点进行直线拟合，设拟合出来的直线方程为y＝a*x+b，其中x为谱线序号，y为谱线绝对值的自然对数值，a为斜率，b为截距，大部分情况下，拟合出来的直线斜率为逆，即a<0。在用每段的最大值点进行直线拟合时，可以采用RANSAC算法，从而有效应付离群点的影响。请参阅图6所示，为本发明实施例提供的一种频谱拟合过程的示意图，图6中，标记为“*”号的点表示在频谱分组中的最大值点，标记为圆圈的点为分组的边界点，点画线表示用RANSAC方法拟合得到的直线。

在本发明的一些实施例中，步骤404采用RANSAC算法对MDCT处理后的第二音频信号的低频段频谱进行直线拟合，得到低频段频谱包络线之后，本发明实施例提供的音频信号的高频扩展方法，还可以包括如下步骤：

C1、根据预置的频谱坐标系中的最小值点、有效截止频率在频谱坐标系中的有效值点确定直线方程的校正参数；

C2、根据校正参数对低频段频谱包络线对应的直线方程进行参数调整。

在本发明的上述实施例中，当低频段频谱包络线对应的直线方程中斜率为正值时，还可以对该直线方程的参数进行校正，先通过步骤C1的方式计算出校正参数，该校正参数由频谱坐标系中的最小值点、有效截止频率在频谱坐标系中的有效值点这两个点来确定，通过最小点和有效值点可以计算出一个斜率值作为校正参数。举例说明如下，若拟合出来的直线方程为y＝a*x+b，大部分情况下，拟合出来的直线斜率为负，即a<0，但有的帧中，会存在a>0的情况，此时就需要对a、b进行修正，修正的方式为：在频谱坐标系最右端设立一个最小值点(kNum,ln(2^(-MBits)))，求取该点与有效截止频率点(k_c,ln|X[kc]|)确定的校正参数，用该校正参数代替原参数a，其中kNum为谱线的总数量，MBits为采样位数，例如一般为16或24。

进一步的，在本发明的一些实施例中，处于MDCT处理后的第二音频信号的有效截止频率可以通过如下方式获取：

D1、读取预先缓冲的T个帧的第二音频信号，并获取T个帧中每一个帧的第二音频信号的对应于多个频率点的频谱线，T的取值为自然数；

D2、对于T个帧中的每一个帧都按照如下对第一帧的处理方式确定出每一个帧的有效截止频率：从第一帧的最后一条频谱线往前开始搜索，找到第一频谱线对应的频率作为第一帧的有效截止频率，第一频谱线为第一帧的第二音频信号的对应于多个频率点的频谱线中第一条其振幅绝对值的自然对数值大于一预置门限的频谱线，第一帧为T个帧中的任意一个帧；

D3、获取到T个帧中每一个帧的有效截止频率之后，确定T个帧的有效截止频率中的最大值作为全局截止频率；

D4、从全局截止频率开始往前搜索MDCT处理后的第二音频信号的频谱线，找到第一条其振幅绝对值的自然对数值大于另一预置门限的频谱线对应的频率点作为MDCT处理后的第二音频信号的有效截止频率。

其中，预先缓存T个帧的第二音频信号，例如T为25，则可以先读取到缓冲的25个帧的第二音频信号，通过MDCT处理的方式，得到25个帧中每一个帧的第二音频信号的对应于多个频率点频谱线。如图5所示，对于一个帧的第二音频信号，每一条竖线(包括虚线和实线)都是一条频谱线，对于25个帧中的每一个帧都可以确定出该帧的有效截止频率，在步骤D2中，以第一帧的有效截止频率的计算为例，如图5所示，从第一帧的最后一条频谱线往前开始搜索，找到第一频谱线对应的频率作为第一帧的有效截止频率，第一频谱线为第一帧的第二音频信号的对应于多个频率点的频谱线中第一条其振幅绝对值的自然对数值大于预置门限的频谱线，也就是说对于第一帧的所有频谱线，从后往前找，找到振幅绝对值的自然对数值大于一预置门限的频谱线作为第一频谱线，该第一频谱线的频率点就是第一帧的有效截止频率，然后从25个帧的有效截止频率中选择出最大值作为全局截止频率。其中，上述预置门限可以通过如下方式计算：ln(2^(-MBits))+q，其中，q为可调整的参量，MBits为采样位数，另外该预置门限还可以结合具体的应用场景来确定具体取值，此处不再赘述。在步骤D3中，举例说明如下，计算每个帧的MDCT处理后的第二音频信号的有效截止频率时，统一从所有帧中的第一个帧开始求每帧的有效截止频率，求取的方法是，从全局截止频率处往前开始搜索，找到第一条其振幅绝对值的自然对数值大于另一预置门限的频谱线的频率点作为该帧的有效截止频率k_c，其中，上述另一预置门限可以通过如下方式计算：ln(2^(-MBits))+p其中，p为可调整的参量。这么处理的目的是避免每一个帧都从最后一条谱线往前搜索，以节省搜索时间、提高速度。

需要说明的是，在本发明前述步骤中，对获取第二音频信号的低频段频谱，并根据低频段频谱对第二音频信号进行高频段频谱的估计，得到高频段频谱包络线的方式进行了详细说明，不限定的是，本发明实施例还可以采用其它的方式来生成第二音频信号的高频段频谱包络线。举例说明，对原音频信号进行上采样之后得到音频序列x[n]，再转换到MDCT频域得到X[n]，然后求得ln|X[n]|，将有效截止频率k_c之前的频谱包络线进行分组，接着采用最小二乘法进行拟合直线。但是，在本发明的前述实施例中采用RANSAC算法对每组的最大值点进行直线拟合求得直线参数，然后依据此参数对缺失的高频部分进行扩展。由于频域波形变化的多样性，最小二乘法拟合直线时容易受离群点影响，从而导致拟合的直线出现较大偏差，使得高频拓展后的音质不佳，而采用RANSAC算法则可以有效地应对离群点的干扰，提高了音质效果。

406、按照高频段频谱包络线将低频段频谱拷贝到第二音频信号的高频段，得到第三音频信号。

407、对第三音频信号进行能量调整，得到第四音频信号。

在本发明的一些实施例中，步骤405执行之后，可以执行步骤406至步骤407，步骤406至步骤407的实现方式与前述实施例中步骤103至步骤104的实现方式相类似，此处不再赘述。

在本发明的一些实施例中，步骤406按照高频段频谱包络线将低频段频谱拷贝到第二音频信号的高频段，得到第三音频信号，具体可以包括如下步骤：

E1、根据第二音频信号的有效截止频率将低频段频谱分为多个谱线段；

E2、将多个谱线段依次拷贝到第二音频信号的高频段，得到第三音频信号。

其中，在进行高频拓展时需要拷贝低频段频谱，本发明实施例中采用循环镜像方式进行频段拷贝，使得拷贝频段的交界处相对平滑，有助于音质的提升。举例说明，拷贝低频段频谱时采用镜像拷贝，拷贝镜像对称谱线依次为k_c+n*U(U为被拷贝的谱线条数，n表示对称轴的标号，n＝0/1/2/3…)，例如第k_c+1、kc+2、…、k_c+U条谱线依次拷贝自k_c-1、k_c-2、k_c-U，继而第k_c+U+1、k_c+U+2、…、k_c+2U条谱线拷贝自k_c+(U-1)、k_c+(U-2)、…、k_c+1、k_c，依次类推。镜像拷贝的目的是让拷贝段的两边交界处的谱线尽量不发生跳跃，以提高音质。不限定的是，在本发明的其它实施例中，还可以先从低频段选取一段频谱，然后采用平移方式多次拷贝到高频区域直到填满，但是如果被拷贝频段两端的谱线差值较大，那么在拷贝后的频段交界处会产生跳跃现象，这会导致音质下降，而步骤E1至步骤E2提供的应用场景中，采用循环镜像方式进行频段拷贝，使得拷贝频段的交界处相对平滑，有助于音质的提升。

在本发明的一些实施例中，步骤407对第三音频信号进行能量调整，得到第四音频信号，具体可以包括如下步骤：

F1、根据第三音频信号的有效截止频率和信号终止频率将第三音频信号分为S个谱线段，其中，每一个谱线段包括w条谱线，S和w为自然数；

F2、S个谱线段中的每一条谱线通过如下方式进行能量调整：

X′[n]＝X[n]×α_i，

n＝k_c+i×w～k_c+(i+1)×w-1，i＝0～S-1，

其中，X′[n]表示第四音频信号，X[n]表示第三音频信号，α_i表示能量调整系数，E_i表示每段谱线调整前的能量，P_i表示在第二音频信号的高频段中填充的伪能量，k_c表示第三音频信号的有效截止频率，a和b表示第三音频信号的直线方程参数。

具体的，在通过前述方式拷贝完谱线之后，可以将有效截止频率k_c到信号终止频率end分为S个谱线段，每一个谱线段包括w条谱线，每段分别进行能量调整，需要先计算每段谱线的调整前能量E_i、伪能量P_i，然后计算每段的能量调整系数α_i，最后每段谱线乘以相应的调整系数即可得到调整后谱线值。需要说明的是，上述实现方式只是能量调整的一种具体可行的实现场景，不限定的是，本发明实施例中能量调整系数还可以采用其它的方式，例如对上述能量调整系数进行进一步的修正，设置修正因子。另外，本发明实施例中第四音频信号X′[n]的实现方式也可以不局限于上述举例方式，还可以通过对第三音频信号按照固定能量调整值进行修改，具体结合应用场景进行详细设置，此处不做限定。

需要说明的是，在本发明的一些实施例中，步骤403中对每一帧的第二音频信号进行MDCT处理，得到MDCT处理后的第二音频信号，通过步骤407进行能量调整后得到的第四音频信号还可以是频域信号，该第四音频信号还可以进一步的进行逆修正离散余弦变换(Inverse Modified Discrete Cosine Transform，IMDCT)处理，并对各个帧的IMDCT处理后的第四音频信号进行合帧处理，从而得到完整的时域的第四音频信号，该第四音频信号可以向用户输出进行音频文件播放，使用户体验到高品质的音频效果。

通过前述实施例对本发明的详细说明可知，本发明实施例中估计第二音频信号的高频段频谱包络线时，可以采用RANSAC算法，可以有效地应对离群点的干扰，提高了音质效果。第二音频信号在高频段拷贝进行低频段频谱后再进行能量调整，可以得到第四音频信号，第四音频信号中携带有高频段的频谱信息，当音频播放器播放该第四音频信号时可以提高音频信号的播放效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

为便于更好的实施本发明实施例的上述方案，下面还提供用于实施上述方案的相关装置。

请参阅图7-a所示，本发明实施例提供的一种音频播放器700，可以包括：上采样模块701、高频估计模块702、频谱拷贝模块703、能量调整模块704，其中，

上采样模块701，用于对原始的第一音频信号进行上采样，得到第二音频信号；

高频估计模块702，用于获取所述第二音频信号的低频段频谱，并根据所述低频段频谱对所述第二音频信号进行高频段频谱的估计，得到高频段频谱包络线；

频谱拷贝模块703，用于按照所述高频段频谱包络线将所述低频段频谱拷贝到所述第二音频信号的高频段，得到第三音频信号；

能量调整模块704，用于对所述第三音频信号进行能量调整，得到第四音频信号。

在本发明的一些实施例中，如图7-b所示，上采样模块701包括：

第一分帧模块7011，用于对所述第一音频信号进行分帧，得到多个帧的第一音频信号，所述多个帧的第一音频信号中相邻两帧的第一音频信号之间有重叠；

DCT处理模块7012，用于对每一帧的第一音频信号分别进行离散余弦变换DCT处理，得到DCT处理后的第一音频信号；

扩展模块7013，用于根据采样率转换比在所述DCT处理后的每帧第一音频信号的尾端添加0，得到补0后的第一音频信号，所述采样率转换比为目标采样率和原采样率的比值；

ICDT处理模块7014，用于对所述补0后的第一音频信号进行逆离散余弦转换IDCT处理，得到IDCT处理后的第一音频信号；

拼接模块7015，用于将所有帧的所述IDCT处理后的第一音频信号按照首尾拼接的方式连接起来，得到所述第二音频信号。

在本发明的一些实施例中，如图7-c所示，音频播放器700还可以包括如下模块：

剪切模块705，用于IDCT处理模块对所述补0后的第一音频信号进行逆离散余弦转换IDCT处理，得到IDCT处理后的第一音频信号之后，将所述IDCT处理后的第一音频信号的首端和尾端剪切掉，得到剪切掉首尾端的第一音频信号；

在这种情况下，拼接模块7015具体用于将所有帧的所述剪切掉首尾端的第一音频信号按照首尾拼接的方式连接起来，得到所述第二音频信号。

在本发明的一些实施例中，所述IDCT处理后的第一音频信号中剪切掉的首端和尾端的长度均为L₁，所述L₁的取值通过如下公式计算得到：

其中，所述L₁的取值为正整数，所述多个帧的第一音频信号中相邻两帧的第一音频信号之间的重叠区域的长度为2L，所述I表示目标采样率，所述D表示原采样率。

在本发明的一些实施例中，如图7-d所示，高频估计模块702包括：

第二分帧模块7021，用于对所述第二音频信号进行分帧，得到多个帧的第二音频信号；

MDCT处理模块7022，用于对每一帧的第二音频信号进行修正离散余弦变换MDCT处理，得到MDCT处理后的第二音频信号；

直线拟合模块7023，用于采用随机采样检验算法对所述MDCT处理后的第二音频信号的低频段频谱的振幅绝对值的自然对数值进行直线拟合，得到低频段频谱包络线，所述低频段频谱包括：处于所述MDCT处理后的第二音频信号的有效截止频率之前的频谱段；

包络线生成模块7024，用于按照所述低频段频谱包络线对应的直线方程估计所述MDCT处理后的第二音频信号的高频段频谱，得到所述高频段频谱包络线。

在本发明的一些实施例中，所述MDCT处理后的第二音频信号的有效截止频率通过如下方式获取：

读取预先缓冲的T个帧的第二音频信号，并获取所述T个帧中每一个帧的第二音频信号的对应于多个频率点的频谱线，所述T的取值为自然数；

对于所述T个帧中的每一个帧都按照如下对第一帧的处理方式确定出每一个帧的有效截止频率：从所述第一帧的最后一条频谱线往前开始搜索，找到第一频谱线对应的频率作为所述第一帧的有效截止频率，所述第一频谱线为所述第一帧的第二音频信号的对应于多个频率点的频谱线中第一条其振幅绝对值的自然对数值大于一预置门限的频谱线，所述第一帧为所述T个帧中的任意一个帧；

获取到所述T个帧中每一个帧的有效截止频率之后，确定所述T个帧的T个有效截止频率中的最大值作为全局截止频率；

从所述全局截止频率开始往前搜索所述MDCT处理后的第二音频信号的频谱线，找到第一条其振幅绝对值的自然对数值大于另一预置门限的频谱线对应的频率点作为所述MDCT处理后的第二音频信号的有效截止频率。

在本发明的一些实施例中，如图7-e所示，相对于如图7-a所示，音频播放器700还可以包括如下模块：

校正模块706，用于直线拟合模块采用随机采样检验算法对所述MDCT处理后的第二音频信号的低频段频谱的振幅绝对值的自然对数值进行直线拟合，得到低频段频谱包络线之后，根据预置的频谱坐标系中的最小值点、所述有效截止频率在所述频谱坐标系中的有效值点确定直线方程的校正参数；根据所述校正参数对所述低频段频谱包络线对应的直线方程进行参数调整。

在本发明的一些实施例中，频谱拷贝模块703，具体用于根据所述第二音频信号的有效截止频率将所述低频段频谱分为多个谱线段；将所述多个谱线段依次拷贝到所述第二音频信号的高频段，得到所述第三音频信号。

在本发明的一些实施例中，能量调整模块704，具体用于根据所述第三音频信号的有效截止频率和信号终止频率将所述第三音频信号分为S个谱线段，其中，每一个谱线段包括w条谱线，所述S和w为自然数；所述S个谱线段中的每一条谱线通过如下方式进行能量调整：

X′[n]＝X[n]×α_i，

n＝k_c+i×w～k_c+(i+1)×w-1，i＝0～S-1，

其中，所述X′[n]表示所述第四音频信号，所述X[n]表示所述第三音频信号，所述α_i表示能量调整系数，所述E_i表示每段谱线调整前的能量，所述P_i表示在所述第二音频信号的高频段中填充的伪能量，所述k_c表示所述第三音频信号的有效截止频率，所述a和所述b表示所述第三音频信号的直线方程参数。

需要说明的是，上述装置各模块/单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，其带来的技术效果与本发明方法实施例相同，具体内容可参见本发明前述所示的方法实施例中的叙述，此处不再赘述。

另外需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

综上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照上述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对上述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种音频信号的高频扩展方法，其特征在于，包括：

对原始的第一音频信号进行上采样，得到第二音频信号；

对所述第三音频信号进行能量调整，降低所述第三音频信号中高频部分的能量，得到第四音频信号；

所述获取所述第二音频信号的低频段频谱，并根据所述低频段频谱对所述第二音频信号进行高频段频谱的估计，得到高频段频谱包络线，包括：

对所述第二音频信号进行分帧，得到多个帧的第二音频信号；

对每一帧的第二音频信号进行修正离散余弦变换MDCT处理，得到MDCT处理后的第二音频信号；

采用随机采样检验算法对所述MDCT处理后的第二音频信号的低频段频谱的振幅绝对值的自然对数值进行直线拟合，得到低频段频谱包络线，所述低频段频谱包括：处于所述MDCT处理后的第二音频信号的有效截止频率之前的频谱段；

按照所述低频段频谱包络线对应的直线方程估计所述MDCT处理后的第二音频信号的高频段频谱，得到所述高频段频谱包络线。

2.根据权利要求1所述的方法，其特征在于，所述对原始的第一音频信号进行上采样，得到第二音频信号，包括：

对所述第一音频信号进行分帧，得到多个帧的第一音频信号，所述多个帧的第一音频信号中相邻两帧的第一音频信号之间有重叠；

对每一帧的第一音频信号分别进行离散余弦变换DCT处理，得到DCT处理后的第一音频信号；

根据采样率转换比在所述DCT处理后的每帧第一音频信号的尾端添加0，得到补0后的第一音频信号，所述采样率转换比为目标采样率和原采样率的比值；

对所述补0后的第一音频信号进行逆离散余弦转换IDCT处理，得到IDCT处理后的第一音频信号；

将所有帧的所述IDCT处理后的第一音频信号按照首尾拼接的方式连接起来，得到所述第二音频信号。

3.根据权利要求2所述的方法，其特征在于，所述对所述补0后的第一音频信号进行逆离散余弦转换IDCT处理，得到IDCT处理后的第一音频信号之后，所述方法还包括：

将所述IDCT处理后的第一音频信号的首端和尾端剪切掉，得到剪切掉首尾端的第一音频信号；

所述将所有帧的所述IDCT处理后的第一音频信号按照首尾拼接的方式连接起来，得到所述第二音频信号，具体为：

将所有帧的所述剪切掉首尾端的第一音频信号按照首尾拼接的方式连接起来，得到所述第二音频信号。

4.根据权利要求3所述的方法，其特征在于，所述IDCT处理后的第一音频信号中剪切掉的首端和尾端的长度均为L₁，所述L₁的取值通过如下公式计算得到：

5.根据权利要求1所述的方法，其特征在于，所述MDCT处理后的第二音频信号的有效截止频率通过如下方式获取：

6.根据权利要求1所述的方法，其特征在于，所述采用随机采样检验RANSAC算法对所述MDCT处理后的第二音频信号的低频段频谱进行直线拟合，得到低频段频谱包络线之后，所述方法还包括：

根据预置的频谱坐标系中的最小值点、所述有效截止频率在所述频谱坐标系中的有效值点确定直线方程的校正参数；

根据所述校正参数对所述低频段频谱包络线对应的直线方程进行参数调整。

7.根据权利要求1至6中任意一项所述的方法，其特征在于，所述按照所述高频段频谱包络线将所述低频段频谱拷贝到所述第二音频信号的高频段，得到第三音频信号，包括：

根据所述第二音频信号的有效截止频率将所述低频段频谱分为多个谱线段；

将所述多个谱线段依次拷贝到所述第二音频信号的高频段，得到所述第三音频信号。

8.根据权利要求1至6中任意一项所述的方法，其特征在于，所述对所述第三音频信号进行能量调整，得到第四音频信号，包括：

根据所述第三音频信号的有效截止频率和信号终止频率将所述第三音频信号分为S个谱线段，其中，每一个谱线段包括w条谱线，所述S和w为自然数；

所述S个谱线段中的每一条谱线通过如下方式进行能量调整：

X′[n]＝X[n]×α_i，

n＝k_c+i×w～k_c+(i+1)×w-1，i＝0～S-1，

9.一种音频播放器，其特征在于，包括：

高频估计模块，用于获取所述第二音频信号的低频段频谱，并根据所述低频段频谱对所述第二音频信号进行高频段频谱的估计，得到高频段频谱包络线；频谱拷贝模块，用于按照所述高频段频谱包络线将所述低频段频谱拷贝到所述第二音频信号的高频段，得到第三音频信号；

能量调整模块，用于对所述第三音频信号进行能量调整，降低所述第三音频信号中高频部分的能量，得到第四音频信号；

所述高频估计模块包括：

第二分帧模块，用于对所述第二音频信号进行分帧，得到多个帧的第二音频信号；

MDCT处理模块，用于对每一帧的第二音频信号进行修正离散余弦变换MDCT处理，得到MDCT处理后的第二音频信号；

直线拟合模块，用于采用随机采样检验算法对所述MDCT处理后的第二音频信号的低频段频谱的振幅绝对值的自然对数值进行直线拟合，得到低频段频谱包络线，所述低频段频谱包括：处于所述MDCT处理后的第二音频信号的有效截止频率之前的频谱段；

包络线生成模块，用于按照所述低频段频谱包络线对应的直线方程估计所述MDCT处理后的第二音频信号的高频段频谱，得到所述高频段频谱包络线。

10.根据权利要求9所述的音频播放器，其特征在于，所述上采样模块包括：

第一分帧模块，用于对所述第一音频信号进行分帧，得到多个帧的第一音频信号，所述多个帧的第一音频信号中相邻两帧的第一音频信号之间有重叠；

DCT处理模块，用于对每一帧的第一音频信号分别进行离散余弦变换DCT处理，得到DCT处理后的第一音频信号；

扩展模块，用于根据采样率转换比在所述DCT处理后的每帧第一音频信号的尾端添加0，得到补0后的第一音频信号，所述采样率转换比为目标采样率和原采样率的比值；

ICDT处理模块，用于对所述补0后的第一音频信号进行逆离散余弦转换IDCT处理，得到IDCT处理后的第一音频信号；

拼接模块，用于将所有帧的所述IDCT处理后的第一音频信号按照首尾拼接的方式连接起来，得到所述第二音频信号。

11.根据权利要求10所述的音频播放器，其特征在于，所述音频播放器还包括：

剪切模块，用于IDCT处理模块对所述补0后的第一音频信号进行逆离散余弦转换IDCT处理，得到IDCT处理后的第一音频信号之后，将所述IDCT处理后的第一音频信号的首端和尾端剪切掉，得到剪切掉首尾端的第一音频信号；

所述拼接模块，具体用于将所有帧的所述剪切掉首尾端的第一音频信号按照首尾拼接的方式连接起来，得到所述第二音频信号。

12.根据权利要求9所述的音频播放器，其特征在于，所述音频播放器还包括：

校正模块，用于直线拟合模块采用随机采样检验算法对所述MDCT处理后的第二音频信号的低频段频谱的振幅绝对值的自然对数值进行直线拟合，得到低频段频谱包络线之后，根据预置的频谱坐标系中的最小值点、所述有效截止频率在所述频谱坐标系中的有效值点确定直线方程的校正参数；根据所述校正参数对所述低频段频谱包络线对应的直线方程进行参数调整。