CN103971692A

CN103971692A - 音频处理方法、装置及系统

Info

Publication number: CN103971692A
Application number: CN201310031782.0A
Authority: CN
Inventors: 杨磊; 王立众; 洪準晟
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2013-01-28
Filing date: 2013-01-28
Publication date: 2014-08-06

Abstract

本申请公开了一种音频处理方法、装置及系统，其中，该方法包括：获取左声道信号和右声道信号的平均值，对得到的下混合信号进行编码得到主码流；对左声道信号和右声道信号分别进行MLT得到左声道MLT系数序列和右声道MLT系数序列，将左声道MLT系数序列和右声道MLT系数序列分别划分为低频序列和高频序列；根据左声道MLT系数序列的低频序列与右声道MLT系数序列的低频序列之差获取低频边带信号，对低频边带信号的幅度和位置进行量化编码得到低频码流；根据左声道MLT系数序列的高频序列和右声道MLT系数序列的高频序列获取强度立体声系数，对强度立体声系数的幅度进行量化编码得到高频码流；将主码流和由低频码流和高频码流组成的辅助码流进行混合后输出。

Description

音频处理方法、装置及系统

技术领域

本申请涉及音频处理技术领域，特别涉及一种音频处理方法、装置及系统。

背景技术

在立体声音频技术中，编码端（具体可以是立体声编码器）可以采用立体声编码标准将模拟的立体声信号进行编码处理得到数字码流，以及解码端（具体可以是立体声解码器）可以采用相应的立体声解码标准将数字码流进行相应的解码处理，从而将该数字码流还原为模拟的立体声信号。与单声道相比，立体声在改善声音质量和加强临场效果，以及如实地再现出实际声场中各个声源的方位和空间分布等方面均具有更好的优势，因此，立体声音频技术广泛地应用于各种音视频通信业务中，例如，应用于视频会议中。立体声音频技术能够使得视频会议中的用户更好地进行沟通，让用户的交流更加自然，提高了会议效率。并且，立体声音频技术的较低的复杂度与较小的带宽占用的优点也可以允许用户使用各种便携式设备，如手机和平板电脑等接入视频会议，从而保证用户可以随时随地通过视频会议进行交流，大大提高了工作效率，具有广阔的市场前景。

目前，现有的立体声编/解码标准（或算法）主要有AMR-WB+（AdaptiveMulti-rate-Wideband，自适应多速率宽带编码）和HEAAC v2（High-Efficiency AdvancedAudio Coding version2，高性能高级音频编码第二版），但是，这两种标准在使用立体声方式进行编码时均会产生较大的延时，其中，AMR-WB+标准的延时可以达到108～325ms，而HEAAC v2的延时甚至可以达到386～513ms之长。因此，在应用于对实时性要求较高的音视频通信业务，例如，视频会议中时，现有的上述立体声编/解码标准的高延时已经无法满足这些实时性要求较高的音视频通信业务的要求，会对视频会议等音视频通信业务的语音交互带来较大的不利影响。

发明内容

本申请提供了一种音频处理方法、装置及系统，以解决现有的AMR-WB+和HEAAC v2这样的立体声编/解码标准的时延较大的问题。

本申请的技术方案如下：

一方面，提供了一种音频处理方法，包括：

获取输入的待编码的立体声信号的左声道信号和右声道信号的平均值得到下混合信号，对下混合信号进行编码得到主码流；

对左声道信号和右声道信号分别进行调制重叠变换MLT得到左声道MLT系数序列和右声道MLT系数序列，将左声道MLT系数序列和右声道MLT系数序列分别划分为低频序列和高频序列，其中，低频序列的频率小于或等于预设的第一频率值，高频序列的频率大于第一频率值；

根据左声道MLT系数序列的低频序列与右声道MLT系数序列的低频序列之差获取低频边带信号，对低频边带信号的幅度和位置进行量化编码得到低频码流；

根据左声道MLT系数序列的高频序列和右声道MLT系数序列的高频序列获取强度立体声系数，对强度立体声系数的幅度进行量化编码得到高频码流，其中，强度立体声系数用于表示左声道信号的能量与立体声信号的能量的比值的均方根、以及右声道信号的能量与立体声信号的能量的比值的均方根；

将主码流和辅助码流进行混合得到立体声码流，输出立体声码流，其中，辅助码流由低频码流和高频码流组成。

另一方面，还提供了一种音频处理方法，包括：

将输入的待解码的立体声码流进行分离得到主码流和辅助码流，对分离得到的主码流进行解码得到解码的下混合信号，其中，待解码的立体声码流是上述输出的立体声码流；

对分离得到的辅助码流进行解码和反量化得到边带低频系数和强度立体声系数的幅度，对边带低频系数进行反调制重叠变换IMLT得到解码的低频边带信号；

根据解码的低频边带信号和解码的下混合信号的低频部分，获取左声道低频段的解码信号和右声道低频段的解码信号；

根据强度立体声系数的幅度和解码的下混合信号的高频部分，获取左声道高频段的解码信号和右声道高频段的解码信号；

获取左声道低频段的解码信号与左声道高频段的解码信号之和得到解码的左声道信号，获取右声道低频段的解码信号与右声道高频段的解码信号之和得到解码的右声道信号，输出解码的左声道信号和解码的右声道信号。

又一方面，还提供了一种音频处理装置，包括：

下混合模块，用于获取输入的待编码的立体声信号的左声道信号和右声道信号的平均值得到下混合信号；

主编码模块，用于对下混合模块输入的下混合信号进行编码得到主码流；

调制重叠变换MLT模块，用于对左声道信号和右声道信号分别进行MLT得到左声道MLT系数序列和右声道MLT系数序列，将左声道MLT系数序列和右声道MLT系数序列分别划分为低频序列和高频序列，其中，低频序列的频率小于或等于预设的第一频率值，高频序列的频率大于第一频率值；

第一获取模块，用于根据MLT模块输入的左声道MLT系数序列的低频序列与右声道MLT系数序列的低频序列之差，获取低频边带信号；还用于根据左声道MLT系数序列的高频序列和右声道MLT系数序列的高频序列获取强度立体声系数，其中，强度立体声系数用于表示左声道信号的能量与立体声信号的能量的比值的均方根、以及右声道信号的能量与立体声信号的能量的比值的均方根；

量化编码模块，用于对第一获取模块输入的低频边带信号的幅度和位置进行量化编码得到低频码流；还用于对第一获取模块输入的强度立体声系数的幅度进行量化编码得到高频码流，输出低频码流和高频码流组成的辅助码流；

混合模块，用于将主编码模块输入的主码流和量化编码模块输入的辅助码流进行混合得到立体声码流，输出立体声码流。

又一方面，还提供了一种音频处理装置，包括：

分离模块，用于将输入的待解码的立体声码流进行分离得到主码流和辅助码流，其中，该待解码的立体声码流是上述输出的立体声码流；

主解码模块，用于对分离模块输入的主码流进行解码，得到解码的下混合信号；

反量化解码模块，用于对分离模块输入的辅助码流进行解码和反量化得到边带低频系数和强度立体声系数的幅度；

反调制重叠变换IMLT模块，用于对反量化解码模块输入的边带低频系数进行IMLT得到解码的低频边带信号；

第二获取模块，用于根据IMLT模块输入的解码的低频边带信号和主解码模块输入的解码的下混合信号的低频部分，获取左声道低频段的解码信号和右声道低频段的解码信号；还用于根据反量化解码模块输入的强度立体声系数的幅度和主解码模块输入的解码的下混合信号的高频部分，获取左声道高频段的解码信号和右声道高频段的解码信号；还用于获取左声道低频段的解码信号与左声道高频段的解码信号之和得到解码的左声道信号，获取右声道低频段的解码信号与右声道高频段的解码信号之和得到解码的右声道信号，输出解码的左声道信号和解码的右声道信号。

又一方面，还提供了一种音频处理系统，包括：上述的两种音频处理装置。

本申请的技术方案中，基于域变换编码和强度立体声理论，分别对左声道信号和右声道信号进行MLT变换得到左声道MLT系数序列和右声道系数序列，然后，分别将这两个MLT系数序列划分为高频序列和低频序列，并进一步将高频序列划分为多个高频子带，从而，分别将左声道信号和右声道信号划分为了多个子带（低频序列也可以看成是一个子带），对低频序列使用MLT域变换编码的方法，对高频子带使用强度立体声方法。因此，本申请的方法具有比AMRWB+和HEAACv2更好的性能，同时延时低于AMR-WB+和HEAACv2。

附图说明

图1是本申请的实施例一的音频处理方法中的立体声编码方法的流程图；

图2是本申请的实施例一的音频处理方法中的立体声解码方法的流程图；

图3是本申请的实施例二的可以作为立体声编码器的音频处理装置的结构示意图；

图4是本申请的实施例二的可以作为立体声解码器的音频处理装置的结构示意图。

具体实施方式

为了解决现有技术中存在的AMR-WB+和HEAACv2这样的立体声编/解码标准的时延较大的问题，本申请的以下实施例提供了一种音频处理方法、一种可以应用该方法的音频处理装置以及一种音频处理系统。

实施例一

本实施例的音频处理方法包括以下两个部分，一个部分是立体声信号的编码过程，另一部分是相应的解码过程。下面分别对这两个部分进行详细地介绍。

一、立体声信号的编码过程

本实施例的音频处理方法中对立体声信号进行编码过程（也可称为立体声编码方法）可以由编码端来执行，如图1所示，该编码过程包括以下步骤：

步骤S102，获取输入的待编码的立体声信号的左声道信号和右声道信号的平均值得到下混合信号，对下混合信号进行编码得到主码流；

在实际实施过程中，获取立体声信号的左声道信号和右声道信号的平均值的过程也可称为对立体声信号进行下混合。可以按照以下公式（1）对立体声信号进行下混合：

x_{Mixed} = \frac{x_{L} + x_{R}}{2} - - - (1)

其中，x_Mixed表示下混合信号，x_L表示左声道信号，x_R表示右声道信号。

对立体声信号进行下混合后，可以使用任意一种单声道编码器如AMR-WB编码器和SILK编码器（Skype公司提出的超宽带音频编码器）等对得到的下混合信号进行编码，编码得到的码流可以称为主码流。

步骤S104，对左声道信号和右声道信号分别进行MLT（Modulated LappedTransrm，调制重叠变换）得到左声道MLT系数序列和右声道MLT系数序列，将左声道MLT系数序列和右声道MLT系数序列分别划分为低频序列和高频序列，其中，低频序列的频率小于或等于预设的第一频率值，高频序列的频率大于第一频率值；

在该步骤S104中，对左声道信号进行MLT得到多个MLT系数，可以将这些MLT系数组成的序列称为左声道MLT系数序列，记为X_L。同时，对右声道信号进行MLT也得到多个MLT系数，可以将这些MLT系数组成的序列称为右声道MLT系数序列，记为X_R。然后，以预设的第一频率值为分界，将左声道MLT系数序列X_L分为两个部分：低频序列和高频序列，同样，以该第一频率值为分界，将右声道MLT系数序列X_R划分为两个部分：低频序列和高频序列，左声道MLT系数序列X_L的低频序列和右声道MLT系数序列X_R的低频序列的频率范围均在(0,第一频率值]的范围内，左声道MLT系数序列X_L的高频序列和右声道MLT系数序列X_R的高频序列的频率范围均在(第一频率值,+∞)的范围内。

在实际实施过程中，可以根据实际情况，设定第一频率值的大小，例如，一个较佳的值为2kHz。

步骤S106，根据左声道MLT系数序列的低频序列与右声道MLT系数序列的低频序列之差获取低频边带信号，对低频边带信号的幅度和位置进行量化编码得到低频码流；

在步骤S106中，根据左声道MLT系数序列的低频序列与右声道MLT系数序列的低频序列之差获取低频边带信号的方法可以包括以下步骤1-2：

步骤1：按照以下公式（2）计算左声道MLT系数序列的低频序列与右声道MLT系数序列的低频序列之差

X_{S}^{Lo} = \frac{X_{L}^{Lo} - X_{R}^{Lo}}{2} - - - (2)

例如，

X_{L}^{Lo} = {X_{L}^{Lo} (j)}, j = 1, . . ., M 1,

X_{R}^{Lo} = {X_{R}^{Lo} (j)}, j = 1, . . ., M 1,

则：

X_{S}^{Lo} = {\frac{X_{L}^{Lo} (j) - X_{R}^{Lo} (j)}{2}}, j = 1, . . ., M 1 .

显然，也是一个序列。

步骤2：从中取出数值最大的预定数量的MLT系数，将取出的预定数量的MLT系数作为低频边带信号。

由于MLT变换具有较好的能量集中性，因此可以从中取出数值最大的M^Lo（该预定数量可以用M^Lo表示）个MLT系数，用这M^Lo个MLT系数近似表示低频边带信号。

步骤S108，根据左声道MLT系数序列的高频序列和右声道MLT系数序列的高频序列获取强度立体声系数，对强度立体声系数的幅度进行量化编码得到高频码流，其中，强度立体声系数用于表示左声道信号的能量与立体声信号的能量的比值的均方根、以及右声道信号的能量与立体声信号的能量的比值的均方根；

在该步骤S108中，根据左声道MLT系数序列的高频序列和右声道MLT系数序列的高频序列获取强度立体声系数的方法可以包括以下步骤1-2：

步骤1：按照预设划分方式分别将左声道MLT系数序列的高频序列和右声道MLT系数序列的高频序列划分为H个高频子带，其中，H为大于1的自然数，每一个高频子带中包含至少一个MLT系数；

具体的，按照预设划分方式将左声道MLT系数序列的高频序列划分为H个高频子带，同时将右声道MLT系数序列的高频序列划分为H个高频子带，H个高频子带中包含的MLT系数的个数可以相同，也可以不相同，本申请对此不做限定。显然，每一个高频子带也是一个MLT系数序列。

在实际实施过程中，预定划分方式可以是根据音频的质量来设定，例如，定义各个高频子带的频率范围，从而将高频序列划分为H个高频子带，可以定义：H个高频子带中的第i个高频子带的第一个MLT系数的索引（即起始的MLT系数的索引）用P_i表示，最后一个MLT系数的索引（即终止的MLT系数的索引）用Q_i表示，其中，i＝1，...,H。其中，MLT系数的索引具体可以是该MLT系数在本序列中的序号，例如，一个序列中共包含有32个系数，则这32个系数的索引可以分别为1,2,3，…，32。

步骤2：按照以下公式（3）和（4）计算强度立体声系数和

{sf}_{L}^{i} = \sqrt{Σ_{k = P_{i}^{hi} + 1}^{Q_{i}^{hi}} X_{L} {(k)}^{2} / Σ_{k = P_{i}^{hi} + 1}^{Q_{i}^{hi}} {[\frac{X_{L} (k) + X_{L} (k)}{2}]}^{2}}, i = 1, . . ., H - - - (3)

{sf}_{R}^{i} = \sqrt{Σ_{k = P_{i}^{hi} + 1}^{Q_{i}^{hi}} X_{R} {(k)}^{2} / Σ_{k = P_{i}^{hi} + 1}^{Q_{i}^{hi}} {[\frac{X_{R} (k) + X_{R} (k)}{2}]}^{2}}, i = 1, . . ., H - - - (4)

其中，X_L(k)表示左声道MLT系数序列中索引为k的MLT系数，X_R(k)表示右声道MLT系数序列中索引为k的MLT系数，表示第i个高频子带（即，将左声道MLT系数序列的高频序列或右声道MLT系数序列的高频序列划分得到的H个高频子带中的第i个高频子带）的第一个MLT系数的索引，表示该第i个高频子带中的最后一个MLT系数的索引，k,i为变量。

那么，对强度立体声系数的幅度进行量化编码得到的高频码流中就应该包括：对的幅度进行量化编码得到的第一码流和对的幅度进行量化编码得到的第二码流。

步骤S110，将主码流和辅助码流进行混合得到立体声码流，输出立体声码流，其中，辅助码流由低频码流和高频码流组成。

在实际实施过程中，对主码流和辅助码流进行混合的方式可以有多种方式，例如，将辅助码流排在主码流的后面等，本申请对此不做限定。

立体声码流即为对输入的立体声信号进行编码后得到的最终的编码码流。

本实施例的立体声编码方法中，基于域变换编码和强度立体声理论，分别对左声道信号和右声道信号进行MLT变换得到左声道MLT系数序列和右声道系数序列，然后，分别将这两个MLT系数序列划分为高频序列和低频序列，并进一步将高频序列划分为多个高频子带，从而，分别将左声道信号和右声道信号划分为了多个子带（低频序列也可以看成是一个子带），对低频序列使用MLT域变换编码的方法，对高频子带使用强度立体声方法。因此，本实施例的立体声编码方法具有比AMR WB+和HEAACv2更好的性能，同时延时低于AMR-WB+和HEAAC v2。

二、相应的解码过程

本实施例的音频处理方法中对立体声码流进行解码过程（也可称为立体声解码方法）可以由解码端来执行，如图2所示，该解码过程包括以下步骤：

步骤S202，将输入的待解码的立体声码流进行分离得到主码流和辅助码流，对分离得到的主码流进行解码得到解码的下混合信号，其中，待解码的立体声码流是上述步骤S110中输出的立体声码流；

由上述的立体声编码过程可知，辅助码流中又进一步包括：高频码流和低频码流，高频码流中又进一步包括：第一码流和第二码流。

在实际实施过程中，可以使用任意的单声道解码器对主码流进行解码，其中，该单声道解码器应该与步骤S102中使用的单声道编码器对应。

步骤S204，对分离得到的辅助码流进行解码和反量化得到边带低频系数和强度立体声系数的幅度，对边带低频系数进行IMLT（Inverse Modulated Lapped Transform，反调制重叠变换）得到解码的低频边带信号

其中，对辅助码流中的低频码流进行解码和反量化得到边带低频系数；对辅助码流中的高频码流进行解码和反量化得到强度立体声系数的幅度和更进一步的，对高频码流中的第一码流进行解码和反量化得到的是对第二码流进行解码和反量化得到的是i＝1,...,H。

步骤S206，根据解码的低频边带信号和解码的下混合信号的低频部分，获取左声道低频段的解码信号和右声道低频段的解码信号；

在该步骤S206中，根据解码的低频边带信号和解码的下混合信号的低频部分，获取左声道低频段的解码信号和右声道低频段的解码信号的方法可以包括以下步骤1-2：

步骤1：获取解码的下混合信号的低频部分例如可以采用以下两种方式进行获取：

方式一：对解码的下混合信号进行FFT（Fast Fourier Transform，快速傅里叶变换）得到FFT系数序列，将该FFT系数序列划分为低频序列和高频序列，其中，低频序列的频率小于或等于预设的第二频率值，高频序列的频率大于第二频率值；将该FFT系数序列的低频序列进行IFFT（Inverse Fast Fourier Transform，快速傅里叶逆变换，也称为反快速傅里叶变换）得到解码的下混合信号的低频部分

其中，FFT系数序列即为对解码的下混合信号进行FFT得到的FFT系数组成的序列，然后，以预设的第二频率值为分界将该FFT系数序列划分为两个部分：低频序列和高频序列，其中，低频序列的频率在(0,第二频率值]范围内，高频序列的频率在(第二频率值，+∞)范围内。

方式二、使用低通滤波器对解码的下混合信号进行滤波，得到解码的下混合信号的低频部分其中，该低通滤波器的频率范围是(0,第二频率值]。

步骤2：按照以下公式（5）和（6）计算左声道低频段的解码信号和右声道低频段的解码信号

x_{L}^{Lo, Dec} = x_{Mixed}^{Lo, Dec} + x_{S}^{Lo, Dec} - - - (5)

x_{R}^{Lo, Dec} = x_{Mixed}^{Lo, Dec} - x_{S}^{Lo, Dec} - - - (6)

其中，表示解码的低频边带信号，表示解码的下混合信号的低频部分。

步骤S208，根据分离得到的辅助码流中的高频码流和解码的下混合信号的高频部分，获取左声道高频段的解码信号和右声道高频段的解码信号；

在该步骤S208中，根据强度立体声系数的幅度和解码的下混合信号的高频部分，获取左声道高频段的解码信号和右声道高频段的解码信号的方法可以包括以下步骤1-2：

步骤1：将解码的下混合信号的高频部分划分为H个子部分例如可以采用以下两种方式进行划分：

方式一：按照预设划分方式将FFT系数序列的高频序列划分为H个下混合子带，每一个下混合子带中包含至少一个FFT系数，分别对H个下混合子带进行IFFT得到i＝1,...,H；是对第i个下混合子带进行IFFT得到的，即为解码的下混合信号的高频部分中的第i个子部分；

其中，本方式中的预设划分方式应该与步骤S108中的步骤1中的预设划分方式相同。

方式二、使用H个带通滤波器对解码的下混合信号进行滤波，得到下混合信号的高频部分的H个子部分

这H个带通滤波器的频率范围应该与方式一中的预定划分方式中规定的各个子带的频率范围一致。

步骤2：按照以下公式（7）计算左声道高频段的解码信号和右声道高频段的解码信号

\{\begin{matrix} x_{L, i}^{hi, Dec} = s f_{L}^{i, Dec} * x_{Mixed, i}^{hi, Dec}, i = 1, . . ., H \\ x_{R, i}^{hi, Dec} = {sf}_{R}^{i, Dec} * x_{Mixed, i}^{hi, Dec}, i = 1, . . ., H \\ x_{L}^{hi, Dec} = Σ_{i = 1}^{H} x_{L, i}^{hi, Dec} \\ x_{R}^{hi, Dec} = Σ_{i = 1}^{H} x_{R, i}^{hi, Dec} \end{matrix} - - - (7)

其中，和表示强度立体声系数的幅度。

从而，使用步骤1中得到的步骤S204中得到的和按照上述公式（7）即可得到左声道信号的高频部分和右声道高频段的解码信号

步骤S210，获取左声道低频段的解码信号与左声道高频段的解码信号之和得到解码的左声道信号（也可称为左声道的解码信号），获取右声道低频段的解码信号与右声道高频段的解码信号之和得到解码的右声道信号（也可称为右声道的解码信号），输出解码的左声道信号和解码的右声道信号

通过实验表明，使用本申请实施例的方法，立体声编解码的延时下降到了30ms，对于8kHz带宽的语音信号，在使用AMR-WB对下混合信号进行编码的情况下，左右声道的MOS（Mean Opinion Score，平均意见值）较AMR-WB+均有提高。

实施例二

针对上述的实施例一，本申请的实施例提供了一种可以应用上述方法中的立体声编码方法的音频处理装置和一种可以应用上述方法中的立体声解码方法的音频处理装置，其中，可以应用上述方法中的立体声编码方法的音频处理装置具体可以是一个立体声编码器，可以应用上述方法中的立体声解码方法的音频处理装置具体可以是一个立体声解码器。

如图3所示，可以作为立体声编码器的音频处理装置包括以下模块：下混合模块10、主编码模块20、MLT模块30、第一获取模块40、量化编码模块50和混合模块60，其中：

下混合模块10，用于获取输入的待编码的立体声信号的左声道信号和右声道信号的平均值得到下混合信号；

主编码模块20，用于对下混合模块10输入的下混合信号进行编码得到主码流；

MLT模块30，用于对左声道信号和右声道信号分别进行MLT得到左声道MLT系数序列和右声道MLT系数序列，将左声道MLT系数序列和右声道MLT系数序列分别划分为低频序列和高频序列，其中，低频序列的频率小于或等于预设的第一频率值，高频序列的频率大于第一频率值；

第一获取模块40，用于根据MLT模块30输入的左声道MLT系数序列的低频序列与右声道MLT系数序列的低频序列之差，获取低频边带信号；还用于根据左声道MLT系数序列的高频序列和右声道MLT系数序列的高频序列获取强度立体声系数，其中，强度立体声系数用于表示左声道信号的能量与立体声信号的能量的比值的均方根、以及右声道信号的能量与立体声信号的能量的比值的均方根；

量化编码模块50，用于对第一获取模块40输入的低频边带信号的幅度和位置进行量化编码得到低频码流；还用于对第一获取模块40输入的强度立体声系数的幅度进行量化编码得到高频码流，输出低频码流和高频码流组成的辅助码流；

混合模块60，用于将主编码模块10输入的主码流和量化编码模块50输入的辅助码流进行混合得到立体声码流，输出立体声码流。

为了根据MLT模块30输入的左声道MLT系数序列的低频序列与右声道MLT系数序列的低频序列之差获取低频边带信号，第一获取模块40中进一步包括以下单元：

第一计算单元，用于按照上述公式（2）计算左声道MLT系数序列的低频序列与右声道MLT系数序列的低频序列之差

提取单元，用于从第一计算单元计算出的中取出数值最大的预定数量的MLT系数，将取出的预定数量的MLT系数作为低频边带信号。

为了根据左声道MLT系数序列的高频序列和右声道MLT系数序列的高频序列获取强度立体声系数，第一获取模块40中进一步还包括以下单元：

高频子带划分单元，用于按照预设划分方式分别将左声道MLT系数序列的高频序列和右声道MLT系数序列的高频序列划分为H个高频子带，其中，H为大于1的自然数，每一个高频子带中包含至少一个MLT系数；

第二计算单元，用于按照上述的公式（3）和（4）计算强度立体声系数和

那么，量化编码模块50在对第一获取模块40输入的强度立体声系数的幅度进行量化编码得到高频码流时，会对第二计算单元计算出的的幅度进行量化编码得到第一码流，对的幅度进行量化编码得到第二码流，其中，第一码流和第二码流组成高频码流。

如图4所示，可以作为立体声解码器的音频处理装置包括以下模块：分离模块101、主解码模块102、反量化解码模块103、IMLT模块104和第二获取模块105，其中：

分离模块101，用于将输入的待解码的立体声码流进行分离得到主码流和辅助码流，其中，待解码的立体声码流是可以作为立体声编码器的音频处理装置输出的立体声码流；

主解码模块102，用于对分离模块101输入的主码流进行解码，得到解码的下混合信号；

反量化解码模块103，用于对分离模块101输入的辅助码流进行解码和反量化得到边带低频系数和强度立体声系数的幅度；

IMLT模块104，用于对反量化解码模块103输入的边带低频系数进行IMLT得到解码的低频边带信号；

第二获取模块105，用于根据IMLT模块104输入的解码的低频边带信号和主解码模块102输入的解码的下混合信号的低频部分，获取左声道低频段的解码信号和右声道低频段的解码信号；还用于根据反量化解码模块103输入的强度立体声系数的幅度和主解码模块102输入的解码的下混合信号的高频部分，获取左声道高频段的解码信号和右声道高频段的解码信号；还用于获取左声道低频段的解码信号与左声道高频段的解码信号之和得到解码的左声道信号，获取右声道低频段的解码信号与右声道高频段的解码信号之和得到解码的右声道信号，输出解码的左声道信号和解码的右声道信号。

为了根据IMLT模块104输入的解码的低频边带信号和主解码模块102输入的解码的下混合信号的低频部分，获取左声道低频段的解码信号和右声道低频段的解码信号，第二获取模块105中进一步包括以下单元：

FFT单元，用于对主解码模块102输入的解码的下混合信号进行FFT得到FFT系数序列，将FFT系数序列划分为低频序列和高频序列，其中，低频序列的频率小于或等于预设的第二频率值，高频序列的频率大于第二频率值；

IFFT单元，用于将FFT单元输入的FFT系数序列的低频序列进行IFFT，得到解码的下混合信号的低频部分；

第三计算单元，用于按照上述公式（5）和（6）计算左声道低频段的解码信号和右声道低频段的解码信号

为了根据反量化解码模块103输入的强度立体声系数的幅度和主解码模块102输入的解码的下混合信号的高频部分，获取左声道高频段的解码信号和右声道高频段的解码信号，第二获取模块105中还可以进一步包括以下单元：

下混合子带划分单元，用于按照预设划分方式将FFT单元输入的FFT系数序列的高频序列划分为H个下混合子带，每一个下混合子带中包含至少一个FFT系数；

IFFT单元，还用于分别对下混合子带划分单元输入的H个下混合子带进行IFFT，得到i＝1,...,H，其中，是对第i个下混合子带进行IFFT得到的；

第四计算单元，用于按照上述公式（7）计算左声道高频段的解码信号和右声道高频段的解码信号

另外，本申请的实施例还提供了一种音频处理系统，该系统中包括：上述的两种音频处理装置，即，可以作为立体声编码器的音频处理装置和可以作为立体声解码器的音频处理装置。在实际实施过程中，该系统具体可以是一个立体声编解码器，也可以是一个由立体声编码器和立体声解码器组成的系统，本申请对此不做限定。

综上，本申请以上实施例可以达到以下技术效果：

基于域变换编码和强度立体声理论，分别对左声道信号和右声道信号进行MLT变换得到左声道MLT系数序列和右声道系数序列，然后，分别将这两个MLT系数序列划分为高频序列和低频序列，并进一步将高频序列划分为多个高频子带，从而，分别将左声道信号和右声道信号划分为了多个子带（低频序列也可以看成是一个子带），对低频序列使用MLT域变换编码的方法，对高频子带使用强度立体声方法。因此，本申请的方法具有比AMRWB+和HEAAC v2更好的性能，同时延时低于AMR-WB+和HEAAC v2。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种音频处理方法，其特征在于，包括：

获取输入的待编码的立体声信号的左声道信号和右声道信号的平均值得到下混合信号，对所述下混合信号进行编码得到主码流；

对所述左声道信号和所述右声道信号分别进行调制重叠变换MLT得到左声道MLT系数序列和右声道MLT系数序列，将所述左声道MLT系数序列和所述右声道MLT系数序列分别划分为低频序列和高频序列，其中，低频序列的频率小于或等于预设的第一频率值，高频序列的频率大于所述第一频率值；

根据所述左声道MLT系数序列的低频序列与所述右声道MLT系数序列的低频序列之差获取低频边带信号，对所述低频边带信号的幅度和位置进行量化编码得到低频码流；

根据所述左声道MLT系数序列的高频序列和所述右声道MLT系数序列的高频序列获取强度立体声系数，对所述强度立体声系数的幅度进行量化编码得到高频码流，其中，所述强度立体声系数用于表示所述左声道信号的能量与所述立体声信号的能量的比值的均方根、以及所述右声道信号的能量与所述立体声信号的能量的比值的均方根；

将主码流和辅助码流进行混合得到立体声码流，输出所述立体声码流，其中，所述辅助码流由所述低频码流和所述高频码流组成。

2.根据权利要求1所述的方法，其特征在于，所述根据所述左声道MLT系数序列的低频序列与所述右声道MLT系数序列的低频序列之差获取低频边带信号的方法包括：

按照以下公式计算所述左声道MLT系数序列的低频序列与所述右声道MLT系数序列的低频序列之差

从中取出数值最大的预定数量的MLT系数，将取出的预定数量的MLT系数作为所述低频边带信号。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述左声道MLT系数序列的高频序列和所述右声道MLT系数序列的高频序列获取强度立体声系数的方法包括：

按照预设划分方式分别将所述左声道MLT系数序列的高频序列和所述右声道MLT系数序列的高频序列划分为H个高频子带，其中，H为大于1的自然数，每一个高频子带中包含至少一个MLT系数；

按照以下公式计算所述强度立体声系数和

{sf}_{L}^{i} = \sqrt{Σ_{k = P_{i}^{hi} + 1}^{Q_{i}^{hi}} X_{L} {(k)}^{2} / Σ_{k = P_{i}^{hi} + 1}^{Q_{i}^{hi}} {[\frac{X_{L} (k) + X_{L} (k)}{2}]}^{2}}, i = 1, . . ., H,

{sf}_{R}^{i} = \sqrt{Σ_{k = P_{i}^{hi} + 1}^{Q_{i}^{hi}} X_{R} {(k)}^{2} / Σ_{k = P_{i}^{hi} + 1}^{Q_{i}^{hi}} {[\frac{X_{R} (k) + X_{R} (k)}{2}]}^{2}}, i = 1, . . ., H,

其中，X_L(k)表示所述左声道MLT系数序列中索引为k的MLT系数，X_R(k)表示所述右声道MLT系数序列中索引为k的MLT系数，表示划分得到的第i个高频子带中第一个MLT系数的索引，表示所述第i个高频子带中最后一个MLT系数的索引，k,i为变量。

4.一种音频处理方法，其特征在于，包括：

将输入的待解码的立体声码流进行分离得到主码流和辅助码流，对分离得到的主码流进行解码得到解码的下混合信号，其中，所述待解码的立体声码流是根据权利要求1至3中任一项所述的立体声码流；

对分离得到的辅助码流进行解码和反量化得到边带低频系数和强度立体声系数的幅度，对所述边带低频系数进行反调制重叠变换IMLT得到解码的低频边带信号；

根据所述解码的低频边带信号和所述解码的下混合信号的低频部分，获取左声道低频段的解码信号和右声道低频段的解码信号；

根据所述强度立体声系数的幅度和所述解码的下混合信号的高频部分，获取左声道高频段的解码信号和右声道高频段的解码信号；

获取所述左声道低频段的解码信号与所述左声道高频段的解码信号之和得到解码的左声道信号，获取所述右声道低频段的解码信号与所述右声道高频段的解码信号之和得到解码的右声道信号，输出所述解码的左声道信号和所述解码的右声道信号。

5.根据权利要求4所述的方法，其特征在于，所述根据所述解码的低频边带信号和所述解码的下混合信号的低频部分，获取左声道低频段的解码信号和右声道低频段的解码信号的方法包括：

对解码的下混合信号进行快速傅里叶变换FFT得到FFT系数序列，将所述FFT系数序列划分为低频序列和高频序列，其中，低频序列的频率小于或等于预设的第二频率值，高频序列的频率大于所述第二频率值；

将所述FFT系数序列的低频序列进行快速傅里叶逆变换IFFT得到所述解码的下混合信号的低频部分；

按照以下公式计算左声道低频段的解码信号和右声道低频段的解码信号

x_{L}^{Lo, Dec} = x_{Mixed}^{Lo, Dec} + x_{S}^{Lo, Dec},

x_{R}^{Lo, Dec} = x_{Mixed}^{Lo, Dec} - x_{S}^{Lo, Dec},

其中，表示所述解码的低频边带信号，表示所述解码的下混合信号的低频部分。

6.根据权利要求5所述的方法，其特征在于，所述根据所述强度立体声系数的幅度和所述解码的下混合信号的高频部分，获取左声道高频段的解码信号和右声道高频段的解码信号的方法包括：

按照预设划分方式将所述FFT系数序列的高频序列划分为H个下混合子带，每一个下混合子带中包含至少一个FFT系数，分别对所述H个下混合子带进行IFFT得到i＝1,...,H，其中，是对第i个下混合子带进行IFFT得到的；

按照以下公式计算所述左声道高频段的解码信号和右声道高频段的解码信号

\{\begin{matrix} x_{L, i}^{hi, Dec} = s f_{L}^{i, Dec} * x_{Mixed, i}^{hi, Dec}, i = 1, . . ., H \\ x_{R, i}^{hi, Dec} = {sf}_{R}^{i, Dec} * x_{Mixed, i}^{hi, Dec}, i = 1, . . ., H \\ x_{L}^{hi, Dec} = Σ_{i = 1}^{H} x_{L, i}^{hi, Dec} \\ x_{R}^{hi, Dec} = Σ_{i = 1}^{H} x_{R, i}^{hi, Dec} \end{matrix},

其中，和表示所述强度立体声系数的幅度。

7.一种音频处理装置，其特征在于，包括：

主编码模块，用于对所述下混合模块输入的下混合信号进行编码得到主码流；

调制重叠变换MLT模块，用于对所述左声道信号和所述右声道信号分别进行MLT得到左声道MLT系数序列和右声道MLT系数序列，将所述左声道MLT系数序列和所述右声道MLT系数序列分别划分为低频序列和高频序列，其中，低频序列的频率小于或等于预设的第一频率值，高频序列的频率大于所述第一频率值；

第一获取模块，用于根据所述MLT模块输入的左声道MLT系数序列的低频序列与所述右声道MLT系数序列的低频序列之差，获取低频边带信号；还用于根据所述左声道MLT系数序列的高频序列和所述右声道MLT系数序列的高频序列获取强度立体声系数，其中，所述强度立体声系数用于表示所述左声道信号的能量与所述立体声信号的能量的比值的均方根、以及所述右声道信号的能量与所述立体声信号的能量的比值的均方根；

量化编码模块，用于对所述第一获取模块输入的低频边带信号的幅度和位置进行量化编码得到低频码流；还用于对所述第一获取模块输入的强度立体声系数的幅度进行量化编码得到高频码流，输出所述低频码流和所述高频码流组成的辅助码流；

混合模块，用于将所述主编码模块输入的主码流和所述量化编码模块输入的辅助码流进行混合得到立体声码流，输出所述立体声码流。

8.根据权利要求7所述的装置，其特征在于，所述第一获取模块包括：

第一计算单元，用于按照以下公式计算所述左声道MLT系数序列的低频序列与所述右声道MLT系数序列的低频序列之差

提取单元，用于从所述第一计算单元计算出的中取出数值最大的预定数量的MLT系数，将取出的预定数量的MLT系数作为所述低频边带信号。

9.根据权利要求8所述的装置，其特征在于，所述第一获取模块还包括：

高频子带划分单元，用于按照预设划分方式分别将所述左声道MLT系数序列的高频序列和所述右声道MLT系数序列的高频序列划分为H个高频子带，其中，H为大于1的自然数，每一个高频子带中包含至少一个MLT系数；

第二计算单元，用于按照以下公式计算所述强度立体声系数和

{sf}_{L}^{i} = \sqrt{Σ_{k = P_{i}^{hi} + 1}^{Q_{i}^{hi}} X_{L} {(k)}^{2} / Σ_{k = P_{i}^{hi} + 1}^{Q_{i}^{hi}} {[\frac{X_{L} (k) + X_{L} (k)}{2}]}^{2}}, i = 1, . . ., H,

{sf}_{R}^{i} = \sqrt{Σ_{k = P_{i}^{hi} + 1}^{Q_{i}^{hi}} X_{R} {(k)}^{2} / Σ_{k = P_{i}^{hi} + 1}^{Q_{i}^{hi}} {[\frac{X_{R} (k) + X_{R} (k)}{2}]}^{2}}, i = 1, . . ., H,

其中，X_L(k)表示所述左声道MLT系数序列中索引为k的MLT系数，X_R(k)表示所述右声道MLT系数序列中索引为k的MLT系数，表示高频子带划分单元将所述左声道MLT系数序列的高频序列或所述右声道MLT系数序列的高频序列进行划分得到的第i个高频子带中第一个MLT系数的索引，表示所述第i个高频子带中最后一个MLT系数的索引，k,i为变量。

10.一种音频处理装置，其特征在于，包括：

分离模块，用于将输入的待解码的立体声码流进行分离得到主码流和辅助码流，其中，所述待解码的立体声码流是根据权利要求7至9中任一项所述的立体声码流；

主解码模块，用于对所述分离模块输入的主码流进行解码，得到解码的下混合信号；

反量化解码模块，用于对所述分离模块输入的辅助码流进行解码和反量化得到边带低频系数和强度立体声系数的幅度；

反调制重叠变换IMLT模块，用于对所述反量化解码模块输入的边带低频系数进行IMLT得到解码的低频边带信号；

第二获取模块，用于根据所述IMLT模块输入的解码的低频边带信号和所述主解码模块输入的解码的下混合信号的低频部分，获取左声道低频段的解码信号和右声道低频段的解码信号；还用于根据所述反量化解码模块输入的强度立体声系数的幅度和所述主解码模块输入的解码的下混合信号的高频部分，获取左声道高频段的解码信号和右声道高频段的解码信号；还用于获取所述左声道低频段的解码信号与所述左声道高频段的解码信号之和得到解码的左声道信号，获取所述右声道低频段的解码信号与所述右声道高频段的解码信号之和得到解码的右声道信号，输出所述解码的左声道信号和所述解码的右声道信号。

11.根据权利要求10所述的装置，其特征在于，所述第二获取模块包括：

快速傅里叶变换FFT单元，用于对主解码模块输入的解码的下混合信号进行FFT得到FFT系数序列，将所述FFT系数序列划分为低频序列和高频序列，其中，低频序列的频率小于或等于预设的第二频率值，高频序列的频率大于所述第二频率值；

快速傅里叶逆变换IFFT单元，用于将所述FFT单元输入的FFT系数序列的低频序列进行IFFT，得到所述解码的下混合信号的低频部分；

第三计算单元，用于按照以下公式计算左声道低频段的解码信号和右声道低频段的解码信号

x_{L}^{Lo, Dec} = x_{Mixed}^{Lo, Dec} + x_{S}^{Lo, Dec},

x_{R}^{Lo, Dec} = x_{Mixed}^{Lo, Dec} - x_{S}^{Lo, Dec},

12.根据权利要求11所述的装置，其特征在于，所述第二获取模块还包括：

下混合子带划分单元，用于按照预设划分方式将所述FFT单元输入的FFT系数序列的高频序列划分为H个下混合子带，每一个下混合子带中包含至少一个FFT系数；

IFFT单元，还用于分别对所述下混合子带划分单元输入的H个下混合子带进行IFFT，得到i＝1,...,H，其中，是对第i个下混合子带进行IFFT得到的；

第四计算单元，用于按照以下公式计算所述左声道高频段的解码信号和右声道高频段的解码信号

\{\begin{matrix} x_{L, i}^{hi, Dec} = s f_{L}^{i, Dec} * x_{Mixed, i}^{hi, Dec}, i = 1, . . ., H \\ x_{R, i}^{hi, Dec} = {sf}_{R}^{i, Dec} * x_{Mixed, i}^{hi, Dec}, i = 1, . . ., H \\ x_{L}^{hi, Dec} = Σ_{i = 1}^{H} x_{L, i}^{hi, Dec} \\ x_{R}^{hi, Dec} = Σ_{i = 1}^{H} x_{R, i}^{hi, Dec} \end{matrix},

其中，和表示所述强度立体声系数的幅度。

13.一种音频处理系统，其特征在于，包括：根据权利要求7至9中任一项所述的音频处理装置和根据权利要求10至12中任一项所述的音频处理装置。