CN101836251B

CN101836251B - 使用mdct频谱的组合编码的可缩放的语音和音频编码

Info

Publication number: CN101836251B
Application number: CN2008801125420A
Authority: CN
Inventors: 尤里·列兹尼克; 黄鹏军
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2007-10-22
Filing date: 2008-10-22
Publication date: 2012-12-12
Anticipated expiration: 2028-10-22
Also published as: BRPI0818405A2; CN102968998A; AU2008316860B2; RU2010120678A; KR20100085994A; MX2010004282A; TWI407432B; JP2011501828A; TW200935402A; JP2013178539A; EP2255358A1; EP2255358B1; AU2008316860A1; CA2701281A1; IL205131A0; CN101836251A; RU2459282C2; US20090234644A1; US8527265B2; WO2009055493A1

Abstract

本发明提供一种实施组合频谱编码的可缩放的语音和音频编解码器。从基于码激励线性预测(CELP)的编码层获得残余信号，其中所述残余信号为原始音频信号与所述原始音频信号的经重建版本之间的差异。在离散余弦变换(DCT)型变换层处变换所述残余信号以获得具有多个频谱线的对应变换频谱。使用组合位置译码技术来变换所述变换频谱频谱线。所述组合位置译码技术包括针对选定的频谱线子集而产生词典式索引，其中每一词典式索引表示多个表示所述选定的频谱线子集的位置的可能二进制串中的一者。所述词典式索引以比所述二进制串的长度少的位的二进制串来表示非零频谱线。

Description

使用MDCT频谱的组合编码的可缩放的语音和音频编码

根据35U.S.C.§119主张优先权

本专利申请案主张2007年10月22日申请的标题为“用于以可缩放语音+音频编解码器对经量化的MDCT频谱进行编码/解码的低复杂技术(Low-Complexity Technique forEncoding/Decoding of Quantized MDCT Spectrum in Scalable Speech+Audio Codecs)”的第60/981,814号美国临时申请案的优先权，所述美国临时申请案转让给本案受让人且借此以引用的方式明确地并入本文中。

技术领域

以下描述大体上涉及编码器和解码器，且具体来说，涉及一种作为可缩放的语音和音频编解码器的一部分而对修正型离散余弦变换(MDCT)频谱进行译码的有效方式。

背景技术

音频译码的一个目标为将音频信号压缩成所要有限信息量，同时尽可能地保持原始声音质量。在编码过程中，将时域中的音频信号变换成频域。

知觉音频译码技术(例如，MPEG层3(MP3)、MPEG-2和MPEG-4)利用人耳的信号掩蔽特性，以便减少数据量。通过这样，以使量化噪声由占优势的总信号掩蔽(即，其保持为不可闻的)的方式而将量化噪声分布到频带。可观的存储尺寸的减少是可能的，伴随着很少或无可察觉的音频质量的损失。知觉音频译码技术通常为可缩放的且产生具有基本或核心层和至少一个增强层的分层位流。此允许位速率可缩放性，即，在解码器侧处以不同音频质量水平进行解码或在网络中通过业务成形或调节来减少位速率。

码激励线性预测(CELP)为广泛地用于语音译码的一类算法，包括代数CELP(ACELP)、松驰CELP(RCELP)、低延迟(LD-CELP)和向量和激励线性预测(VSELP)。CELP所背后的一个原理被称作合成式分析(Analysis-by-Synthesis，AbS)且指通过在闭合回路中靠知觉优化经解码(合成)信号来执行编码(分析)。理论上，将通过尝试所有可能位的组合且选择产生最佳音效的经解码信号的位组合来产生最佳CELP流。此实际上出于以下两个原因而为明显不可能的：非常难以实施，且“最佳音效”选择准则暗示着人类收听者。为了使用有限计算资源来实现实时编码，使用靠知觉加权的函数而将CELP搜索分解成较小的更易管理的顺序搜索。通常，编码包括(a)计算和/或量化(通常作为线频谱对)输入音频信号的线性预测译码系数、(b)使用码簿来搜索最佳匹配以产生经译码的信号、(c)产生作为经译码信号与真实输入信号之间的差异的误差信号，和(d)在一个或一个以上层中对此误差信号进行进一步编码(通常在MDCT频谱中)以改进经重建或经合成信号的质量。

许多不同技术可用于基于CELP算法来实施语音和音频编解码器。在这些技术中的一些中，产生误差信号，误差信号随后经变换(通常使用DCT、MDCT或类似变换)和经编码以进一步改进经编码信号的质量。然而，归因于许多移动装置和网络的处理和带宽限制，需要此MDCT频谱译码的有效实施，以减少经存储或发射的信息的大小。

发明内容

下文呈现对一个或一个以上实施例的简化概述，以便提供对一些实施例的基本理解。此概述不为对所有所涵盖实施例的广泛综述，且既不希望识别所有实施例的重要或关键元素，也不希望描绘任何或所有实施例的范围。其唯一目的是以简化形式来呈现一个或一个以上实施例的一些概念以作为稍后呈现的更详细描述的序言。

提供一种用于以可缩放的语音和音频压缩算法对MDCT(或类似基于变换的)频谱进行编码/解码的有效技术。此技术利用靠知觉量化的MDCT频谱的稀疏特性来界定码的结构，其包括捕述非零频谱线在经编码频带中的位置的元素，且使用组合列举技术来计算此元素。

在一个实例中，提供一种用于在可缩放的语音和音频编解码器中对MDCT频谱进行编码的方法。对变换频谱的此编码可通过编码器硬件、编码软件和/或两者的组合来执行，且可在处理器、处理电路和/或机器可读媒体中实施。从基于码激励线性预测(CELP)的编码层获得残余信号，其中残余信号为原始音频信号与原始音频信号的经重建版本之间的差异。可通过以下操作来获得原始音频信号的经重建版本：(a)合成来自基于CELP的编码层的原始音频信号的经编码版本以获得经合成信号、(b)重新强调经合成信号，和/或(c)对经重新强调信号进行上取样以获得原始音频信号的经重建版本。

在离散余弦变换(DCT)型变换层处变换残余信号以获得具有多个频谱线的对应变换频谱。DCT型变换层可为修正型离散余弦变换(MDCT)层，且变换频谱为MDCT频谱。

使用组合位置译码技术对变换频谱频谱线进行编码。对变换频谱频谱线的编码可包括基于针对非零频谱线位置使用组合位置译码技术来表示频谱线位置而对选定的频谱线子集的位置进行编码。在一些实施方案中，可在编码之前丢弃频谱线集合以减少频谱线的数目。在另一实例中，组合位置译码技术可包括针对选定的频谱线子集而产生词典式索引，其中每一词典式索引表示多个表示选定的频谱线子集的位置的可能二进制串中的一者。词典式索引可以比二进制串的长度少的位的二进制串来表示频谱线。

在另一实例中，组合位置译码技术可包括产生表示频谱线在二进制串内的位置的索引，基于组合公式对频谱线的位置进行编码：

index (n, k, w) = i (w) = Σ_{j = 1}^{n} w_{j} (\begin{matrix} n - j \\ Σ_{i = j}^{n} w_{i} \end{matrix})

其中n为二进制串的长度，k为待编码的选定频谱线的数目，且w_j表示二进制串的个别位。

在一些实施方案中，可将多个频谱线分裂成多个子带，且可将连续子带分组为若干区域。可对选自用于所述区域中的子带中的每一者的多个频谱线的主脉冲进行编码，其中所述区域中的选定的频谱线子集排除用于子带中的每一者的主脉冲。另外，可基于针对非零频谱线位置使用组合位置译码技术来表示频谱线位置而对选定的频谱线子集在区域内的位置进行编码。区域中的选定的频谱线子集可排除用于子带中的每一者的主脉冲。对变换频谱频谱线的编码可包括基于选定的频谱线子集的位置而产生等于区域中的所有位置的长度的所有可能二进制串的阵列。所述区域可重叠，且每一区域可包括多个连续子带。

在另一实例中，提供一种用于在可缩放的语音和音频编解码器中对变换频谱进行解码的方法。对变换频谱的此解码可通过解码器硬件、解码软件和/或两者的组合来执行，且可在处理器、处理电路和/或机器可读媒体中实施。获得表示残余信号的多个变换频谱频谱线的索引，其中残余信号为原始音频信号与来自基于码激励线性预测(CELP)的编码层的原始音频信号的经重建版本之间的差异。索引可以比二进制串的长度少的位的二进制串来表示非零频谱线。在一个实例中，所获得的索引可表示频谱线在二进制串内的位置，基于组合公式对频谱线的位置进行编码：

index (n, k, w) = i (w) = Σ_{j = 1}^{n} w_{j} (\begin{matrix} n - j \\ Σ_{i = j}^{n} w_{i} \end{matrix})

通过将用以对多个变换频谱频谱线进行编码的组合位置译码技术反向而对索引进行解码。在反离散余弦变换(IDCT)型反变换层处使用经解码的多个变换频谱频谱线来合成残余信号的版本。合成残余信号的版本可包括将反DCT型变换应用于变换频谱频谱线以产生残余信号的时域版本。对变换频谱频谱线进行解码可包括基于针对非零频谱线位置使用组合位置译码技术来表示频谱线位置而对选定的频谱线子集的位置进行解码。DCT型反变换层可为反修正型离散余弦变换(IMDCT)层，且变换频谱为MDCT频谱。

另外，可接收对原始音频信号进行编码的经CELP编码信号。可对经CELP编码信号进行解码以产生经解码信号。可将经解码信号与残余信号的经合成版本组合以获得原始音频信号的(较高保真度)经重建版本。

附图说明

通过下文结合图式时所陈述的详细描述，可明白各种特征、性质和优势，在图式中，相似参考符号始终对应地进行识别。

图1为说明可实施一个或一个以上译码特征的通信系统的框图。

图2为说明根据一个实例的可经配置以执行有效音频译码的发射装置的框图。

图3为说明根据一个实例的可经配置以执行有效音频解码的接收装置的框图。

图4为根据一个实例的可缩放的编码器的框图。

图5为说明可由编码器实施的MDCT频谱编码过程的框图。

图6为说明可如何选择帧和将其划分成若干区域和子带以促进对MDCT频谱的编码的一个实例的图。

图7说明用于以有效方式对音频帧进行编码的一般方法。

图8为说明可对MDCT音频帧中的脉冲进行有效地编码的编码器的框图。

图9为说明用于获得帧的形状向量的方法的流程图。

图10为说明用于在可缩放的语音和音频编解码器中对变换频谱进行编码的方法的框图。

图11为说明解码器的实例的框图。

图12为说明用于在可缩放的语音和音频编解码器中对变换频谱进行编码的方法的框图。

图13为说明用于在可缩放的语音和音频编解码器中对变换频谱进行解码的方法的框图。

具体实施方式

现参看图式来描述各种实施例，其中相同参考标号始终用以指代相同组件。在以下描述中，出于解释的目的，陈述许多特定细节，以便提供对一个或一个以上实施例的透彻理解。然而，可显然的是，可在无这些特定细节的情况下实践此(此些)实施例。在其它例子中，以框图的形式来展示众所周知的结构和装置，以便促进描述一个或一个以上实施例。

综述

在用于对音频信号进行编码/解码的可缩放的编解码器(其中使用多个译码层对音频信号进行迭代地编码)中，修正型离散余弦变换可用于一个或一个以上译码层中，其中音频信号残差经变换(例如，经变换成MDCT域)以供编码。在MDCT域中，可将频谱线的帧划分成若干子带，且界定重叠子带的若干区域。对于一区域中的每一子带，可选择主脉冲(即，子带中的最强频谱线或频谱线群组)。可使用整数对主脉冲的位置进行编码以表示其在其子带中的每一者内的位置。主脉冲中的每一者的振幅/量值可经单独编码。另外，选择区域中排除已经选择的主脉冲的多个(例如，四个)子脉冲(例如，剩余的频谱线)。基于选定子脉冲在区域内的总体位置而对其进行编码。可使用组合位置译码技术对这些子脉冲的位置进行编码以产生可以比区域的总长度少的位来表示的词典式索引。通过以此方式来表示主脉冲和子脉冲，可使用相对少量的位对其进行编码以供存储和/或发射。

通信系统

图1为说明可实施一个或一个以上译码特征的通信系统的框图。译码器102接收传入的输入音频信号104且产生经编码音频信号106。可经由发射信道(例如，无线或有线)将经编码音频信号106发射到解码器108。解码器108试图基于经编码音频信号106来重建输入音频信号104以产生经重建输出音频信号110。出于说明的目的，译码器102可对发射器装置操作，而解码器装置可对接收装置操作。然而，应清楚，任何此些装置可包括编码器和解码器两者。

图2为说明根据一个实例的可经配置以执行有效音频译码的发射装置202的框图。输入音频信号204由麦克风206捕获、由放大器208放大且由A/D转换器210转换成数字信号，数字信号被发送到语音编码模块212。语音编码模块212经配置以对输入信号执行多层(经缩放)译码，其中至少一个此层涉及在MDCT频谱中对残差(误差信号)进行编码。如结合图4、图5、图6、图7、图8、图9和图10所解释，语音编码模块212可执行编码。可将来自语音编码模块212的输出信号发送到执行信道解码的发射路径编码模块214，且将所得输出信号发送到调制电路216且经调制以便经由D/A转换器218和RF放大器220而发送到天线222以供发射经编码音频信号224。

图3为说明根据一个实例的可经配置以执行有效音频解码的接收装置302的框图。经编码音频信号304由天线306接收且由RF放大器308放大且经由A/D转换器310发送到解调电路312，使得将经解调信号供应到发射路径解码模块314。来自发射路径解码模块314的输出信号被发送到经配置以对输入信号执行多层(经缩放)解码的语音解码模块316，其中至少一个此层涉及在IMDCT频谱中对残差(误差信号)进行解码。如结合图11、图12和图13所解释，语音解码模块316可执行信号解码。将来自语音解码模块316的输出信号发送到D/A转换器318。经由放大器320将来自D/A转换器318的模拟语音信号发送到扬声器322以提供经重建输出音频信号324。

可缩放的音频编解码器架构

可将译码器102(图1)、解码器108(图1)、语音/音频编码模块212(图2)和/或语音/音频解码模块316(图3)实施为可缩放的音频编解码器。此可缩放的音频编解码器可经实施以向易出错的电信信道提供高性能的宽带语音译码，其具有高质量的经递送的经编码窄带语音信号或宽带音频/音乐信号。用以实现可缩放的音频编解码器的一种方法为提供迭代译码层，其中来自一个层的误差信号(残差)在后续层中被编码以进一步改进先前层中所编码的音频信号。例如，码簿激励线性预测(CELP)是基于线性预测译码的概念，其中具有不同激励信号的码簿维持于编码器和解码器上。编码器找出最合适的激励信号且将其对应索引(来自固定、代数和/或自适应码簿)发送到解码器，解码器接着使用其来再生信号(基于码簿)。编码器通过对音频信号进行编码且接着对音频信号进行解码来执行合成式分析以产生经重建或经合成音频信号。编码器接着找出使误差信号(即，原始音频信号与经重建或经合成音频信号之间的差异)的能量最小化的参数。可通过使用更多或更少译码层来调整输出位速率以满足信道需求和所要音频质量。此可缩放的音频编解码器可包括若干层，其中可放弃较高层位流而不影响对较低层的解码。

使用此多层架构的现有可缩放的编解码器的实例包括ITU-T推荐G.729.1和新兴的ITU-T标准，代码名称为G.EV-VBR。举例来说，可将嵌入式可变位速率(EV-VBR)编解码器实施为多个层L1(核心层)到LX(其中X为最高延伸层的数目)。此编解码器可接受以16kHz取样的宽带(WB)信号和以8kHz取样的窄带(NB)信号两者。类似地，编解码器输出可为宽带或窄带的。

编解码器(例如，EV-VBR编解码器)的层结构的实例展示于表1中，其包含五个层；被称作L1(核心层)到L5(最高延伸层)。较低的两个层(L1和L2)可基于码激励线性预测(CELP)算法。核心层L1可得自可变多速率宽带(VMR-WB)语音译码算法且可包含针对不同输入信号而优化的若干译码模式。即，核心层L1可对输入信号进行分类以更佳地使音频信号模型化。基于自适应码簿和固定代数码簿，通过增强或延伸层L2对来自核心层L1的译码误差(残差)进行编码。可使用修正型离散余弦变换(MDCT)通过较高层(L3-L5)在变换域中对来自层L2的误差信号(残差)进行进一步译码。可在层L3中发送边侧信息以增强帧擦除隐藏(FEC)。

层	位速率(千位/秒)	技术	取样速率(kHz)
				L1	8	CELP核心层(分类)	12.8
L2	+4	代数码簿层(增强)	12.8
				L3	+4	FEC MDCT	12.8 16
L4	+8	MDCT	16
				L5	+8	MDCT	16

表1

核心层L1编解码器实质上为基于CELP的编解码器，且可与许多众所周知的窄带或宽带声码器中的一者兼容，例如，自适应多速率(AMR)、AMR宽带(AMR-WB)、可变多速率宽带(VMR-WB)、增强型可变速率编解码器(EVRC)或EVR宽带(EVRC-WB)编解码器。

可缩放的编解码器中的层2可使用码簿来进一步使来自核心层L1的靠知觉加权的译码误差(残差)最小化。为了增强编解码器帧擦除隐藏(FEC)，可计算边侧信息且在后续层L3中发射边侧信息。与核心层译码模式无关，边侧信息可包括信号分类。

假定：对于宽带输出，基于修正型离散余弦变换(MDCT)或类似类型的变换而使用重叠相加变换译码对在层L2编码后的经加权误差信号进行译码。即，对于经译码层L3、L4和/或L5，可在MDCT频谱中对信号进行编码。因此，提供在MDCT频谱中对信号进行译码的有效方式。

编码器实例

图4为根据一个实例的可缩放的编码器402的框图。在编码之前的预处理级中，输入信号404经高通滤波406以抑制非所要的低频率分量以产生经滤波输入信号S_HP(n)。举例来说，高通滤波器406可具有针对宽带输入信号的25Hz截止和对于窄带输入信号的100Hz。接着通过再取样模块408对经滤波输入信号S_HP(n)进行再取样以产生经再取样输入信号S_12.8(n)。举例来说，可以16kHz对原始输入信号404进行取样且经再取样到12.8kHz，12.8kHz可为用于层L1和/或L2编码的内部频率。预强调模块410接着应用第一阶高通滤波器以强调经再取样输入信号S_12.8(n)的较高频率(且使低频率衰减)。所得信号接着传递到编码器/解码器模块412，编码器/解码器模块412可基于基于码激励线性预测(CELP)的算法来执行层L1和/或L2编码，其中由通过表示频谱包络的线性预测(LP)合成滤波器的激励信号将语音信号模型化。可针对每一知觉临界带而计算信号能量且将其用作层L1和L2编码的一部分。另外，经编码的编码器/解码器模块412还可合成(重建)输入信号的一版本。即，在编码器/解码器模块412对输入信号进行编码后，编码器/解码器模块412对其进行解码，且去强调模块416和再取样模块418再造输入信号404的版本

通过采用原始信号S_HP(n)与经再造信号

之间的差异420来产生残余信号x₂(n)(即，残余信号x₂(n)接着由加权模块424靠知觉加权且由MDCT模块428变换成MDCT频谱或域以产生残余信号X₂(k)。接着将残余信号X₂(k)提供到组合频谱编码器432，组合频谱编码器432对残余信号X₂(k)进行编码以针对层L3、L4和/或L5而产生经编码参数。在一个实例中，组合频谱编码器432产生表示残余信号X₂(k)中的非零频谱线(脉冲)的索引。举例来说，索引可表示多个表示非零频谱线的位置的可能二进制串中的一者。归因于组合技术，索引可以比二进制串的长度少的位的二进制串来表示非零频谱线。

来自层L1到L5的参数接着可用作输出位流436且随后可用以在解码器处重建或合成原始输入信号404的一版本。

层1-分类编码：核心层L1可在编码器/解码器模块412处实施且可使用信号分类和四个相异译码模式来改进编码性能。在一个实例中，可针对每一帧的不同编码而考虑的这四个相异信号类别可包括：(1)用于无声语音帧的无声译码(UC)；(2)针对具有平滑间距演进的准周期性区段而优化的有声译码(VC)；(3)用于在帧擦除的情况下经设计成使误差传播最小化的有声开始后的帧的转变模式(TC)；以及(4)用于其它帧的通用译码(GC)。在无声译码(UC)中，不使用自适应码簿，且激励是选自高斯码簿。用有声译码(VC)模式对准周期性区段进行编码。通过平滑间距演进来调节有声译码选择。有声译码模式可使用ACELP技术。在转变译码(TC)帧中，用固定码簿来替换含有第一间距周期的声门脉冲的子帧中的自适应码簿。

在核心层L1中，可使用基于CELP的范例通过通过表示频谱包络的线性预测(LP)合成滤波器的激励信号来使信号模型化。对于通用和有声译码模式，可在导抗频谱频率(ISF)域中使用安全网(Safety-Net)方法和多级向量量化(MSVQ)来量化LP滤波器。通过间距追踪算法来执行开放回路(OL)间距分析以确保平滑间距轮廓。然而，为了增强间距估计的稳健性，可比较两个并发间距演进轮廓且选择产生较平滑轮廓的轨迹。

估计两个LPC参数集合且在大多数模式中使用20ms分析窗而每帧地对其进行编码，一个集合用于帧末尾且一个集合用于中间帧。用内插分裂VQ对中间帧ISF进行编码，其中针对每一ISF子群组而找出线性内插系数，使得经估计ISF与经内插量化ISF之间的差异最小化。在一个实例中，为了量化LP系数的ISF表示，可并行地搜索两个码簿集合(对应于弱和强预测)以找出使经估计频谱包络的失真最小化的预测器和码簿项。此安全网方法的主要原因为在帧擦除与频谱包络快速地演进的区段重合时减少误差传播。为了提供额外的误差稳健性，有时将弱预测器设定到零，其导致无预测的量化。在量化失真充分接近于具有预测的一个量化失真时，或在其量化失真足够小以提供明显译码时，可始终选择不具有预测的路径。另外，在强烈预测性码簿搜索中，选择次最佳码向量(如果此不影响清晰信道性能，而是预期在存在帧擦除的情况下减少误差传播)。在无预测的情况下进一步系统地量化UC和TC帧的ISF。对于UC帧，即使无预测，足够位还可用于允许非常良好的频谱量化。认为TC帧对于待使用的预测的帧擦除过于敏感，尽管清晰信道性能存在潜在降低。

对于窄带(NB)信号，使用在非量化最佳增益的情况下所产生的L2激励来执行间距估计。此方法跨越层而移除增益量化的效应且改进间距滞后估计。对于宽带(WB)信号，使用标准间距估计(具有量化增益的L1激励)。

层2-增强编码：在层L2中，编码器/解码器模块412可再次使用代数码簿对来自核心层L1的量化误差进行编码。在L2层中，编码器进一步修正自适应码簿以不仅包括过去的L1贡献，而且包括过去的L2贡献。自适应间距滞后在L1和L2中为相同的，以在层之间维持时间同步。对应于L1和L2的自适应和代数码簿增益接着经重新优化以使靠知觉加权的译码误差最小化。相对于L1中已经量化的增益来预测地向量量化经更新的L1增益和L2增益。CELP层(L1和L2)可以内部(例如，12.8kHz)取样速率而操作。来自层L2的输出因此包括0-6.4kHz频带中所编码的经合成信号。对于宽带输出，AMR-WB带宽延伸可用以产生失去的6.4-7kHz带宽。

层3-帧擦除隐藏：为了在帧擦除条件(FEC)中增强性能，帧误差隐藏模块414可从编码器/解码器模块412获得边侧信息且使用其来产生层L3参数。边侧信息可包括用于所有译码模式的类别信息。还可发射先前的帧频谱包络信息以用于核心层转变译码。对于其它核心层译码模式，还可发送经合成信号的相位信息和间距同步能量。

层3、4、5-变换译码：可在层L3、L4和L5中使用MDCT或具有重叠相加结构的类似变换来量化由层L2中的第二级CELP译码引起的残余信号X₂(k)。即，来自先前层的残余或“误差”信号由后续层用以产生其参数(其设法有效地表示此误差以供发射到解码器)。

可通过使用若干技术来量化MDCT系数。在一些例子中，使用可缩放的代数向量量化来量化MDCT系数。可每20毫秒(ms)计算MDCT，且在8维块中量化其频谱系数。应用得自原始信号的频谱的音频清除器(MDCT域噪声成形滤波器)。在层L3中发射全局增益。另外，很少的位用于高频率补偿。剩余层L3位用于MDCT系数的量化。使用层L4和L5位，使得以层L4和L5水平而独立地使性能最大化。

在一些实施方案中，可针对语音和音乐占优势的音频内容而不同地量化MDCT系数。语音内容与音乐内容之间的辨别是基于通过比较L2加权合成MDCT分量与对应的输入信号分量而对CELP模型效率的评估。对于语音占优势的内容，可缩放的代数向量量化(AVQ)在L3和L4中与在8维块中所量化的频谱系数一起使用。在L3中发射全局增益，且很少的位用于高频率补偿。剩余L3和L4位用于MDCT系数的量化。量化方法为多速率晶格VQ(MRLVQ)。已使用新颖的基于多水平排列的算法来减少索引编制程序的复杂性和存储器成本。以若干步骤来进行秩计算：第一，将输入向量分解成符号向量和绝对值向量。第二，将绝对值向量进一步分解成若干水平。最高水平向量为原始绝对值向量。通过从上部水平向量移除最频繁元素来获得每一下部水平向量。基于排列和组合函数而使每一下部水平向量的与其上部水平向量有关的位置参数被编制索引。最后，将所有下部水平的索引与符号组成输出索引。

对于音乐占优势的内容，可在层L3中使用带选择性形状增益向量量化(形状增益VQ)，且可将额外脉冲位置向量量化器应用于层L4。在层L3中，首先，可通过计算MDCT系数的能量来执行带选择。接着，使用多脉冲码簿来量化选定带中的MDCT系数。使用向量量化器来量化MDCT系数的子带增益。对于层L4，可使用脉冲定位技术对整个带宽进行译码。在语音模型归因于音频源模型失配而产生不想要的噪声的情况下，L2层输出的某些频率可衰减以允许更主动地对MDCT系数进行译码。这是以闭合回路方式通过经由层L4而使输入信号的MDCT与经译码音频信号的MDCT之间的平方差最小化来进行。所应用的衰减量可高达6dB，其可通过使用2个或更少位来传送。层L5可使用额外的脉冲位置译码技术。

MDCT频谱的译码

因为层L3、L4和L5在MDCT频谱(例如，表示先前层的残差的MDCT系数)中执行译码，所以需要使此MDCT频谱译码为有效的。因此，提供MDCT频谱译码的有效方法。

对此过程的输入为在CELP核心(层L1和/或L2)后的误差信号(残差)的完整MDCT频谱或在先前层后的残余MDCT频谱。即，在层L3处，接收完整的MDCT频谱且对其进行部分编码。接着，在层L4处，对层L3处的经编码信号的残余MDCT频谱进行编码。可针对层L5和其它后续层重复此过程。

图5为说明可在编码器的较高层处实施的实例MDCT频谱编码过程的框图。编码器502从先前层获得残余信号504的MDCT频谱。此残余信号504可为原始信号与原始信号的经重建版本(例如，从原始信号的经编码版本所重建)之间的差异。可量化残余信号的MDCT系数以针对给定音频帧而产生频谱线。

在一个实例中，子带/区域选择器508可将残余信号504划分成多个(例如，17个)均一子带。举例来说，给定三百二十个(320个)频谱线的音频帧，可丢弃最初和最后的二十四个(24个)点(频谱线)，且可将剩余的两百七十二个(272个)频谱线划分成各自具有十六个(16个)频谱线的十七个(17个)子带。应理解，在各种实施方案中，可使用不同数目的子带，可被丢弃的最初和最后的点的数目可变化，且/或每子带或帧可被分裂的频谱线的数目也可变化。

图6为说明可如何选择音频帧602和将其划分成若干区域和子带以促进对MDCT频谱的编码的一个实例的图解。根据此实例，可界定由多个(例如，5个)连续或邻接子带604组成的多个(例如，8个)区域(例如，一区域可覆盖5个子带*16个频谱线/子带＝80个频谱线)。多个区域606可经布置以与每一相邻区域重叠且覆盖整个带宽(例如，7kHz)。可产生用于编码的区域信息。

一旦选择区域，便通过形状量化器510和增益量化器512使用形状增益量化来量化区域中的MDCT频谱，在形状增益量化中循序地量化目标向量的形状(与位置定位和符号同义)和增益。成形可包含形成对应于每子带的一主脉冲和多个子脉冲的频谱线的位置定位、符号，连同主脉冲和子脉冲的量值。在图6中所说明的实例中，区域606内的八十个(80个)频谱线可由每区域5个主脉冲(5个连续子带604a、604b、604c、604d和604e中的每一者一个主脉冲)和4个额外子脉冲组成的形状向量表示。即，对于每一子带604，选择一主脉冲(即，那个子带中的16个频谱线内的最强脉冲)。另外，对于每一区域606，选择额外4个子脉冲(即，80个频谱线内次最强的频谱线脉冲)。如图6中所说明，在一个实例中，可用50个位对主脉冲和子脉冲位置与符号的组合进行编码，其中：

20个位用于5个主脉冲(每子带一个主脉冲)的索引；

5个位用于5个主脉冲的符号；

21个位用于80个频谱线区域内任何地方的4个子脉冲的索引；

4个位用于4个子脉冲的符号。

每一主脉冲可使用4个位(例如，由4个位表示的数字0-16)通过其在16个频谱线的子带内的位置来表示。因此，对于区域中的五个(5个)主脉冲，此总共采用20个位。每一主脉冲和/或子脉冲的符号可由一个位表示(例如，0或1用于正或负)。可使用组合位置译码技术(使用二项式系数来表示每一选定子脉冲的位置)而对一区域内的四个(4个)选定子脉冲中的每一者的位置进行编码以产生词典式索引，使得用以表示所述区域内的四个子脉冲的位置的位的总数小于区域的长度。

应注意，额外位可用于对主脉冲和/或子脉冲的振幅和/或量值进行编码。在一些实施方案中，可使用两个位对脉冲振幅/量值进行编码(即，00-无脉冲、01-子脉冲，和/或10-主脉冲)。在形状量化后，对经计算的子带增益执行增益量化。由于所述区域含有5个子带，所以针对所述区域而获得可使用10个位进行向量量化的5个增益。向量量化利用切换式预测机制。应注意，可获得(通过从原始输入残余信号504减去514量化残余信号S_quant)可用作下一编码层的输入的输出残余信号516。

图7说明用于以有效方式对音频帧进行编码的一般方法。可从多个连续或邻接子带界定N个频谱线的区域702，其中每一子带704具有L个频谱线。区域702和/或子带704可用于音频帧的残余信号。

对于每一子带，选择主脉冲(706)。例如，选择子带的L个频谱线内的最强脉冲作为那个子带的主脉冲。可选择最强脉冲作为子带中具有最大振幅或量值的脉冲。举例来说，针对子带A 704a而选择第一主脉冲P_A，针对子带B 704b而选择第二主脉冲P_B，且针对子带704中的每一者而如此进行。应注意，由于区域702具有N个频谱线，所以区域702内每一频谱线的位置可通过c_i(对于1≤i≤N)来表示。在一个实例中，第一主脉冲P_A可处于位置c₃，第二主脉冲P_B可处于位置c₂₄，第三主脉冲P_C可处于位置c₄₁，第四主脉冲P_D可处于位置c₅₉，第五主脉冲P_E可处于位置c₇₉。可通过使用整数对这些主脉冲进行编码以表示其在其对应子带内的位置。因此，对于L＝16个频谱线，可通过使用四个(4个)位来表示每一主脉冲的位置。

从区域中的剩余频谱线或脉冲产生串w(708)。为了产生串，从串w移除选定主脉冲，且剩余脉冲w₁...w_N-p保留于串中(其中p为区域中的主脉冲的数目)。应注意，串可通过零“0”和“1”来表示，其中“0”表示无脉冲存在于特定位置处且“1”表示脉冲存在于特定位置处。

基于脉冲强度而从串w选择多个子脉冲(710)。例如，可基于强度(振幅/量值)来选择四个(4个)子脉冲S₁、S₂、S₃和S₄(即，选择串w中所保留的最强的4个脉冲)。在一个实例中，第一子脉冲S₁可处于位置w₂₀，第二子脉冲S₂可处于位置w₂₉，第三子脉冲S₃可处于位置w₅₁，且第四子脉冲S₄可处于位置w₆₉。接着基于二项式系数使用词典式索引对每一选定子脉冲的位置进行编码(712)，使得词典式索引i(w)是基于选定子脉冲位置的组合，i(w)＝w₂₀+w₂₉+w₅₁+w₆₉。

图8为说明可对MDCT音频帧中的脉冲进行有效地编码的编码器的框图。编码器802可包括子带产生器802，子带产生器802将所接收的MDCT频谱音频帧801划分成具有多个频谱线的多个频带。区域产生器806接着产生多个重叠区域，其中每一区域由多个邻接子带组成。主脉冲选择器808接着从区域中的每一子带选择主脉冲。主脉冲可为子带内具有最大振幅/量值的脉冲(一个或一个以上频谱线或点)。区域中的每一子带的选定主脉冲接着由符号编码器810、位置编码器812、增益编码器814和振幅编码器816编码以针对每一主脉冲而产生对应的经编码位。类似地，子脉冲选择器809接着从整个区域选择多个(例如，4个)子脉冲(即，不认为子脉冲属于哪一子带)。可从区域中的剩余脉冲(即，排除已经选择的主脉冲)选择子带内具有最大振幅/量值的子脉冲。区域的选定子脉冲接着由符号编码器818、位置编码器820、增益编码器822和振幅编码器822编码以针对子脉冲而产生对应的经编码位。位置编码器820可经配置以执行组合位置译码技术以产生词典式索引，其减少用以对子脉冲的位置进行编码的位的总大小。具体来说，在将对整个区域中的仅一些脉冲进行编码的情况下，将很少子脉冲表示为词典式索引比表示区域的总长度更有效。

图9为说明用于针对帧而获得形状向量的方法的流程图。如早先所指示，形状向量由5个主脉冲和4个子脉冲(频谱线)组成，其位置定位(在80个线的区域内)和符号将通过使用最少可能数目的位来传送。

对于此实例，作出关于主脉冲和子脉冲的特性的若干假定。第一，假定主脉冲的量值高于子脉冲的量值，且比率可为预设常数(例如，0.8)。这意味着所提议的量化技术可将以下三个可能重建水平(量值)中的一者指派到每一子带中的MDCT频谱：零(0)、子脉冲水平(例如，0.8)和主脉冲水平(例如，1)。第二，假定每一16个点(16个频谱线)的子带正好具有一个主脉冲(具有专用增益，其还每子带被发射一次)。因此，针对区域中的每一子带而存在一主脉冲。第三，可将剩余的四个(4个)(或更少)子脉冲注入于80个线的区域中的任一子带中，但其不应置换选定主脉冲中的任一者。子脉冲可表示用以表示子带中的频谱线的位的最大数目。例如，子带中的四个(4个)子脉冲可表示任一子带中的16个频谱线，因此，用以表示子带中的16个频谱线的位的最大数目为4。

基于上文的描述，可如下得到用于脉冲的编码方法。将一帧(具有多个频谱线)划分成多个子带(902)。可界定多个重叠区域，其中每一区域包括多个连续/邻接子带(904)。基于脉冲振幅/量值而在区域中的每一子带中选择一主脉冲(906)。对每一选定主脉冲的位置索引进行编码(908)。在一个实例中，因为主脉冲可处于具有16个频谱线的子带内的任何地方，所以其位置可由4个位(例如，0...15中的整数值)表示。类似地，可对每一主脉冲的符号、振幅和/或增益进行编码(910)。符号可由1个位(1或0)表示。因为主脉冲的每一索引将采用4个位，所以除了用于每一主脉冲的增益和振幅编码的位以外，可使用20个位来表示五个主脉冲索引(例如，5个子带)且使用5个位来表示主脉冲的符号。

对于子脉冲的编码，从来自区域中的剩余脉冲的选定多个子脉冲创建二进制串，其中移除选定主脉冲(912)。“选定多个子脉冲”可为来自剩余脉冲的具有最大量值/振幅的数目k的脉冲。而且，对于具有80个频谱线的区域，如果移除所有5个主脉冲，则此留下80-5＝75个子脉冲位置待考虑。因此，可创建曲以下各项组成的75个位的二进制串w：

0：指示无子脉冲

1：指示选定子脉冲存在于一位置中。

接着计算具有多个(k个)非零位的所有可能二进制串的集合的此二进制串w的词典式索引(914)。还可对每一选定子脉冲的符号、振幅和/或增益进行编码(916)。

产生词典式索引

可基于二项式系数而使用组合位置译码技术来产生表示选定子脉冲的词典式索引。举例来说，可计算具有k个非零位的长度n的所有可能

个二进制串的集合的二进制串w(串w中的每一非零位指示待编码的脉冲的位置)。在一个实例中，可使用以下组合公式来产生一索引，所述索引对二进制串w内的所有k个脉冲的位置进行编码：

index (n, k, w) = i (w) = Σ_{j = 1}^{n} w_{j} (\begin{matrix} n - j \\ Σ_{i = j}^{n} w_{i} \end{matrix})

其中n为二进制串的长度(例如，n＝75)，k为选定子脉冲的数目(例如，k＝4)，w_j表示二进制串w的个别位，且假定对于所有k＞n，对于k＝4且n＝75的实例，由所有可能子脉冲向量的索引所占据的值的总范围因此将为：

(\begin{matrix} 75 \\ 4 \end{matrix}) + (\begin{matrix} 75 \\ 3 \end{matrix}) + (\begin{matrix} 75 \\ 2 \end{matrix}) + (\begin{matrix} 75 \\ 1 \end{matrix}) + (\begin{matrix} 75 \\ 0 \end{matrix}) = 1285826

因此，此可被表示为log₂1285826≈20.294...个位。使用最接近的整数将导致21个位的使用。应注意，此小于二进制串的75个位或80位区域中所保留的位。

从串产生词典式索引的实例

根据一个实例，可基于二项式系数来计算表示选定子脉冲的位置的二进制串的词典式索引，在一个可能实施方案中，可如下预计算二项式系数且将其存储于三角形阵列(帕斯卡三角形)中：

/*maximum value of n:*/

#define N_MAX 32

/*Pascal′s triangle:*/

static unsigned*binomial[N_MAX+1]，b_data[(N_MAX+1)*(N_MAX+2)/2]；

/*initialize Pascal triangle*/

static void compute_binomial_coeffs(void)

{

int n，k；unsigned*b＝b_data；

for(n＝0；n＜＝N_MAX；n++){

binomial[n]＝b；b+＝n+1；/*allocate a row*/

binomial[n][0]＝binomial[n][n]＝1；/*set 1 st & last coeffs*/

for(k＝1；k＜n；k++){

binomial[n][k]＝binomial[n-1][k-1]+binomial[n-1][k]；

}

因此，可针对表示二进制串w的各个位置处的多个子脉冲(例如，二进制“1”)的二进制串w而计算二项式系数。

通过使用此二项式系数阵列，可如下实施词典式索引(i)的计算：

/*get index of a(n，k)sequence:*/

static int index(unsigned w，int n，int k)

{

int i＝0，j；

for (j＝1；j＜＝n；j++){

if(w & (1＜＜n-j)){

if(n-j＞＝k)

i+＝binomial[n-j][k]；

k--；

}

return i；

}

实例编码方法

图10为说明用于在可缩放的语音和音频编解码器中对变换频谱进行编码的方法的框图。从基于码激励线性预测(CELP)的编码层获得残余信号，其中残余信号为原始音频信号与原始音频信号的经重建版本之间的差异(1002)。可通过以下操作来获得原始音频信号的经重建版本：(a)合成来自基于CELP的编码层的原始音频信号的经编码版本以获得经合成信号、(b)重新强调经合成信号，和/或(c)对经重新强调信号进行上取样以获得原始音频信号的经重建版本。

在离散余弦变换(DCT)型变换层处变换残余信号以获得具有多个频谱线的对应变换频谱(1004)。DCT型变换层可为修正型离散余弦变换(MDCT)层，且变换频谱为MDCT频谱。

使用组合位置译码技术对变换频谱频谱线进行编码(1006)。对变换频谱频谱线的编码可包括基于针对非零频谱线位置使用组合位置译码技术来表示频谱线位置而对选定的频谱线子集的位置进行编码。在一些实施方案中，可在编码之前丢弃频谱线集合以减少频谱线的数目。在另一实例中，组合位置译码技术可包括针对选定的频谱线子集而产生词典式索引，其中每一词典式索引表示多个表示选定的频谱线子集的位置的可能二进制串中的一者。词典式索引可以比二进制串的长度少的位的二进制串来表示频谱线。

index (n, k, w) = i (w) = Σ_{j = 1}^{n} w_{j} (\begin{matrix} n - j \\ Σ_{i = j}^{n} w_{i} \end{matrix})

在一个实例中，可将多个频谱线分裂成多个子带，且可将连续子带分组为若干区域。可对选自用于区域中的子带中的每一者的多个频谱线的主脉冲进行编码，其中区域中的选定的频谱线子集排除用于子带中的每一者的主脉冲。另外，可基于针对非零频谱线位置使用组合位置译码技术来表示频谱线位置而对选定的频谱线子集在区域内的位置进行编码。区域中的选定的频谱线子集可排除用于子带中的每一者的主脉冲。对变换频谱频谱线的编码可包括基于选定的频谱线子集的位置而产生等于区域中的所有位置的长度的所有可能二进制串的阵列。区域可重叠，且每一区域可包括多个连续子带。

对词典式索引进行解码以合成经编码脉冲的过程仅为针对编码而描述的操作的反向。

MDCT频谱的解码

图11为说明解码器的实例的框图。在每一音频帧(例如，20毫秒帧)中，解码器1102可接收含有一个或一个以上层的信息的输入位流1104。所接收层可在从层1直到层5的范围内，其可对应于8千位/秒到32千位/秒的位速率。这意味着解码器操作是通过在每一帧中所接收的位(层)的数目来调节。在此实例中，假定输出信号1132为WB，且在解码器1102处已正确地接收到所有层。首先通过解码器模块1106对核心层(层1)和ACELP增强层(层2)进行解码，且执行信号合成。经合成信号接着由去强调模块1108去强调且由再取样模块1110再取样到16kHz以产生信号

后处理模块进一步处理信号

以产生层1或层2的经合成信号

接着通过组合频谱解码器模块1116对较高层(层3、4、5)进行解码以获得MDCT

频谱信号通过反MDCT模块1120来反变换MDCT频谱信号

且将所得信号

添加到层1和2的靠知觉加权的经合成信号

接着通过成形模块1122来应用时间噪声成形。接着将与当前帧重叠的先前帧的经加权的经合成信号添加到合成。接着应用反知觉加权1124以复原经合成WB信号。最后，对经复原信号应用间距后滤波器1126，随后为高通滤波器1128。后滤波器1126利用由MDCT的重叠相加合成(层3、4、5)所引入的额外解码器延迟。其以最佳方式来组合两个间距后滤波器信号。一者为通过利用额外解码器延迟而产生的层1或层2解码器输出的高质量间距后滤波器信号

另一者为较高层(层3、4、5)合成信号的低延迟间距后滤波器信号

接着通过噪声门1130而输出经滤波的经合成信号

图12为说明可对MDCT频谱音频帧的脉冲进行有效地解码的解码器的框图。接收多个经编码的输入位，其包括音频帧的MDCT频谱中的主脉冲和/或子脉冲的符号、位置、振幅和/或增益。通过主脉冲解码器对用于一个或一个以上主脉冲的位进行解码，主脉冲解码器可包括符号解码器1210、位置解码器1212、增益解码器1214和/或振幅解码器1216。主脉冲合成器1208接着使用经解码信息来重建一个或一个以上主脉冲。同样地，可在子脉冲解码器处对用于一个或一个以上子脉冲的位进行解码，子脉冲解码器包括符号解码器1218、位置解码器1220、增益解码器1222和/或振幅解码器1224。应注意，可基于组合位置译码技术使用词典式索引对子脉冲的位置进行编码。因此，位置解码器1220可为组合频谱解码器。子脉冲合成器1209接着使用经解码信息来重建一个或一个以上子脉冲。区域再生器1206接着基于子脉冲而再生多个重叠区域，其中每一区域由多个邻接子带组成。子带再生器1204接着使用主脉冲和/或子脉冲来再生子带，从而导致音频帧1201的经重建MDCT频谱。

从词典式索引产生串的实例

为了对表示子脉冲的位置的所接收词典式索引进行解码，可执行相反过程以基于给定词典式索引来获得序列或二进制串。可如下实施此相反过程的一个实例：

/*generate an(n，k)sequence using its index：*/

static unsigned make_sequence(int i，int n，int k)

{

unsigned j，b，w＝0；

for(j＝1；j＜＝n；j++){

if(n-j＜k)goto l1；

b＝binomial[n-j][k]；

if(i＞＝b){

i-＝b；

l1：

w|＝1U＜＜(n-j)；

k--；

}

return w；

}

在仅具有很少位集合(例如，k＝4时)的长序列(例如，n＝75时)的情况下，可进一步修正此例程以使其更实用。例如，不再搜索整个位序列，可传递非零位的索引以供编码，使得index()函数变成：

/*j0...j3-indices of non-zero bits:*/

static int index (int n，int j0，int j1，int j3，int j4)

{

int i＝0；

if(n-j0＞＝4)i+＝binomial[n-j0][4]；

if(n-j1＞＝3)i +＝binomial[n-j1][3]；

if(n-j2＞＝2)i+＝binomial[n-j2][2]；

if(n-j3＞＝2)i+＝binomial[n-j3][1]；

return i；

}

应注意，仅使用二项式阵列的头4行。因此，仅使用存储器的75*4＝300个字以将其存储。

在一个实例中，可通过以下算法完成解码过程：

static void decode_indices(int i，int n，int *j0，int *j1，int *j2，int *j3)

{

unsigned b，j；

for (j＝1；j＜＝n-4；j++){

b＝binomial[n-j][4]；

if(i＞＝b){i-＝b；break；}

}

*j0＝n-j；

for (j++；j＜＝n-3；j++){

b＝binomial[n-j][3]；

if(i＞＝b){i-＝b；break；}

}

*j1＝n-j；

for (j++；j＜＝n-2；j++){

b＝binomial[n-j][2]；

if(i＞＝b){i-＝b；break；}

}

*j2＝n-j；

for (j++；j＜＝n-1；j++){

b＝binomial[n-j][1]；

if(i＞＝b)break；

}

*j3＝n-j；

}

此为具有n次迭代的展开回路，其中在每一步骤处仅使用查找和比较。

实例编码方法

图13为说明用于在可缩放的语音和音频编解码器中对变换频谱进行解码的方法的框图。获得表示残余信号的多个变换频谱频谱线的索引，其中残余信号为原始音频信号与来自基于码激励线性预测(CELP)的编码层的原始音频信号的经重建版本之间的差异(1302)。索引可以比二进制串的长度少的位的二进制串来表示非零频谱线。在一个实例中，所获得的索引可表示频谱线在二进制串内的位置，基于组合公式对频谱线的位置进行编码：

index (n, k, w) = i (w) = Σ_{j = 1}^{n} w_{j} (\begin{matrix} n - j \\ Σ_{i = j}^{n} w_{i} \end{matrix})

通过将用以对多个变换频谱频谱线进行编码的组合位置译码技术反向而对索引进行解码(1304)。在反离散余弦变换(IDCT)型反变换层处使用经解码的多个变换频谱频谱线来合成残余信号的版本(1306)。合成残余信号的版本可包括将反DCT型变换应用于变换频谱频谱线以产生残余信号的时域版本。对变换频谱频谱线进行解码可包括基于针对非零频谱线位置使用组合位置译码技术来表示频谱线位置而对选定的频谱线子集的位置进行解码。DCT型反变换层可为反修正型离散余弦变换(IMDCT)层，且变换频谱为MDCT频谱。

另外，可接收对原始音频信号进行编码的经CELP编码信号(1308)。可对经CELP编码信号进行解码以产生经解码信号(1310)。可将经解码信号与残余信号的经合成版本组合以获得原始音频信号的(较高保真度)经重建版本(1312)。

本文所描述的各种说明性逻辑块、模块和电路以及算法步骤可被实施或执行为电子硬件、软件或两者的组合。为了清楚地说明硬件与软件的此可互换性，上文已大体上就其功能性而描述了各种说明性组件、块、模块、电路和步骤。此功能性是被实施为硬件还是软件取决于特定应用和强加于整个系统上的设计约束。应注意，可将配置描述为被描绘为程序框图、流程图、结构图或框图的过程。虽然流程框图可将操作描述为连续过程，但许多操作可并行地或同时地执行。另外，可重新布置操作的次序。过程在其操作完成时终止。过程可对应于方法、函数、程序、子例程、子程序，等等。当过程对应于函数时，其终止对应于函数返回到调用函数或主函数。

在以硬件实施时，各种实例可采用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列信号(FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件，或其经设计以执行本文中所描述的功能的任何组合。通用处理器可为微处理器，但在替代方案中，处理器可为任何常规处理器、控制器、微控制器或状态机。处理器还可被实施为计算装置的组合，例如，DSP与微处理器的组合、多个微处理器的组合、结合DSP核心的一个或一个以上微处理器，或任何其它此类配置。

在以软件实施时，各种实例可采用固件、中间件或微码。用以执行必要任务的程序代码或代码段可存储于例如存储媒体或其它存储装置等计算机可读媒体中。处理器可执行必要任务。代码段可表示过程、函数、子程序、程序、例程、子例程、模块、软件包、类别，或指令、数据结构或程序语句的任何组合。可通过传递和/或接收信息、数据、自变量、参数或存储器内容而将一代码段耦合到另一代码段或硬件电路。可经由包括存储器共享、消息传递、权标传递、网络发射等任何合适手段来传递、转发或发射信息、自变量、参数、数据等。

如本申请案中所使用，术语“组件”、“模块”、“系统”等意在指代计算机相关实体：硬件、固件、硬件与软件的组合、软件或执行中的软件。举例来说，组件可为(但不限于)在处理器上运行的进程、处理器、对象、可执行体、执行线程、程序和/或计算机。以说明的方式，在计算装置上运行的应用程序和计算装置两者均可为组件。一个或一个以上组件可驻存于进程和/或执行线程内，且一组件可局部化于一个计算机上和/或分散于两个或两个以上计算机之间。另外，这些组件可从存储有各种数据结构的各种计算机可读媒体执行。所述组件可(例如)根据具有一个或一个以上数据包的信号(例如，来自与本地系统、分布式系统中的另一组件交互和/或通过所述信号跨越例如因特网等网络与其它系统交互的一个组件的数据)通过区域和/或远程过程而通信。

在本文中的一个或一个以上实例中，所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件来实施，则所述功能可作为一个或一个以上指令或代码而存储于计算机可读媒体上或经由计算机可读媒体而传输。计算机可读媒体包括计算机存储媒体和通信媒体两者，通信媒体包括促进将计算机程序从一个位置转移到另一位置的任何媒体。存储媒体可为可由计算机存取的任何可用媒体。以实例而非限制的方式，所述计算机可读媒体可包含RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置，或可用于载运或存储呈指令或数据结构的形式且可由计算机存取的所要程序代码的任何其它媒体。而且，可将任何连接适当地称为计算机可读媒体。举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和微波等无线技术从网站、服务器或其它远程源传输软件，则所述同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和微波等无线技术包括于媒体的定义中。在本文中使用时，磁盘和光盘包括压缩光盘(CD)、激光光盘、光盘、数字多功能光盘(DVD)、软盘和蓝光光盘，其中磁盘通常以磁性方式再现数据，而光盘用激光以光学方式再现数据。还应将以上各项的组合包括于计算机可读媒体的范围内。软件可包含单一指令或许多指令，且可分布在若干不同代码段上、在不同程序中和多个存储媒体上。示范性存储媒体可耦合到处理器，使得处理器可从存储媒体读取信息以及将信息写入到存储媒体。在替代方案中，存储媒体可与处理器成一体。

本文中所揭示的方法包含一个或一个以上步骤或动作以用于实现所描述的方法。在不脱离权利要求书的范围的情况下，方法步骤和/或动作可彼此互换。换句话说，除非所描述的实施例的恰当操作需要特定步骤或动作次序，否则在不脱离权利要求书的范围的情况下，可修改特定步骤和/或动作的次序和/或使用。

图1、图2、图3、图4、图5、图6、图7、图8、图9、图10、图11、图12和/或图13中所说明的组件、步骤和/或功能中的一者或一者以上可经重新布置和/或组合成单一组件、步骤或功能或以若干组件、步骤或功能来实施。还可添加额外元件、组件、步骤和/或功能。图1、图2、图3、图4、图5、图8、图11和图12中所说明的设备、装置和/或组件可经配置或调适以执行图6到图7以及图10到图13中所描述的方法、特征或步骤中的一者或一者以上。可以软件和/或嵌入式硬件来有效地实施本文所描述的算法。

应注意，前述配置仅为实例且不被视为限制权利要求书。希望对配置的描述是说明性的且不限制权利要求书的范围。如此，本教示可容易应用于其它类型的设备，且所属领域的技术人员将明白许多替代方案、修改和变化。

Claims

1.一种用于在具有多个层的可缩放的语音和音频编解码器中进行编码的方法，其包含：

从基于码激励线性预测CELP的编码层获得残余信号，其中所述基于CELP的编码层包含所述可缩放的语音和音频编解码器中的一个或两个先前层，且其中所述残余信号为原始音频信号与所述原始音频信号的经重建版本之间的差异；

在离散余弦变换DCT型变换层处从先前层变换所述残余信号以获得具有多个频谱线的对应变换频谱；以及

使用组合位置译码技术对所述变换频谱频谱线进行编码。

2.根据权利要求1所述的方法，其中所述DCT型变换层为修正型离散余弦变换MDCT层，且所述变换频谱为MDCT频谱。

3.根据权利要求1所述的方法，其中对所述变换频谱频谱线的编码包括：

基于针对非零频谱线位置使用所述组合位置译码技术来表示频谱线位置而对选定的频谱线子集的位置进行编码。

4.根据权利要求1所述的方法，其进一步包含：

将所述多个频谱线分裂成多个子带；以及

将连续子带分组为若干区域。

5.根据权利要求4所述的方法，其进一步包含：

对选自所述区域中的所述子带中的每一者的多个频谱线的主脉冲进行编码。

6.根据权利要求4所述的方法，其进一步包含：

基于针对非零频谱线位置使用所述组合位置译码技术来表示频谱线位置而对选定的频谱线子集在一区域内的位置进行编码；

其中对所述变换频谱频谱线的编码包括基于所述选定的频谱线子集的所述位置而产生等于所述区域中的所有位置的长度的所有可能二进制串的阵列。

7.根据权利要求4所述的方法，其中所述区域是重叠的且每一区域包括多个连续子带。

8.根据权利要求1所述的方法，其中所述组合位置译码技术包括：

针对选定的频谱线子集而产生词典式索引，其中每一词典式索引表示多个表示所述选定的频谱线子集的位置的可能二进制串中的一者。

9.根据权利要求8所述的方法，其中所述词典式索引以比所述二进制串的长度少的位的二进制串来表示非零频谱线。

10.根据权利要求1所述的方法，其中所述组合位置译码技术包括：

产生表示频谱线在二进制串w内的位置的索引，基于组合公式对所述频谱线的所述位置进行编码：

index (n, k, w) = i (w) = Σ_{j = 1}^{n} w_{j} (\begin{matrix} n - j \\ Σ_{i = j}^{n} w_{i} \end{matrix})

其中n为所述二进制串的长度，k为待编码的选定频谱线的数目，且w_j表示所述二进制串的个别位。

11.根据权利要求1所述的方法，其进一步包含：

在编码之前丢弃一频谱线集合以减少频谱线的数目。

12.根据权利要求1所述的方法，其中通过以下操作获得所述原始音频信号的所述经重建版本：

合成来自所述基于CELP的编码层的所述原始音频信号的经编码版本以获得经合成信号；

重新强调所述经合成信号；以及

对所述经重新强调信号进行上取样以获得所述原始音频信号的所述经重建版本。

13.一种可缩放的语音和音频编码器装置，其包含：

基于码激励线性预测CELP的编码层模块，其适于产生残余信号，其中所述残余信号为原始音频信号与所述原始音频信号的经重建版本之间的差异；

离散余弦变换DCT型变换层模块，其适于：

从基于码激励线性预测CELP的编码层模块获得残余信号，其中所述基于CELP的编码层模块包含具有可缩放的语音和音频编解码器中的一个或两个先前层的基于CELP的编码层；以及

组合频谱编码器，其适于使用组合位置译码技术对所述变换频谱频谱线进行编码。

14.根据权利要求13所述的装置，其中所述DCT型变换层模块为修正型离散余弦变换MDCT层模块，且所述变换频谱为MDCT频谱。

15.根据权利要求13所述的装置，其中对所述变换频谱频谱线的编码包括：

16.根据权利要求13所述的装置，其进一步包含：

子带产生器，其适于将所述多个频谱线分裂成多个子带；以及

区域产生器，其适于将连续子带分组为若干区域。

17.根据权利要求16所述的装置，其进一步包含：

主脉冲编码器，其适于对选自所述区域中的所述子带中的每一者的多个频谱线的主脉冲进行编码。

18.根据权利要求16所述的装置，其进一步包含：

子脉冲编码器，其适于基于针对非零频谱线位置使用所述组合位置译码技术来表示频谱线位置而对选定的频谱线子集在一区域内的位置进行编码；

19.根据权利要求16所述的装置，其中所述区域是重叠的且每一区域包括多个连续子带。

20.根据权利要求13所述的装置，其中所述组合位置译码技术包括：

21.根据权利要求20所述的装置，其中所述词典式索引以比所述二进制串的长度少的位的二进制串来表示非零频谱线。

22.根据权利要求13所述的装置，其中所述组合频谱编码器适于产生表示频谱线在二进制串w内的位置的索引，所述频谱线的所述位置基于组合公式而被编码：

index (n, k, w) = i (w) = Σ_{j = 1}^{n} w_{j} (\begin{matrix} n - j \\ Σ_{i = j}^{n} w_{i} \end{matrix})

23.根据权利要求13所述的装置，其中所述原始音频信号的所述经重建版本是通过以下操作而获得：

重新强调所述经合成信号；以及

24.一种可缩放的语音和音频编码器装置，其包含：

用于从基于码激励线性预测CELP的编码层获得残余信号的装置，其中所述基于CELP的编码层包含可缩放的语音和音频编解码器中的一个或两个先前层，其中所述残余信号为原始音频信号与所述原始音频信号的经重建版本之间的差异；

用于在离散余弦变换DCT型变换层处从先前层变换所述残余信号以获得具有多个频谱线的对应变换频谱的装置；以及

用于使用组合位置译码技术对所述变换频谱频谱线进行编码的装置。

25.一种用于具有多个层的可缩放的语音和音频编解码器中的解码的方法，其包含：

获得表示残余信号的多个变换频谱频谱线的索引，其中所述残余信号为原始音频信号与来自基于码激励线性预测CELP的编码层的所述原始音频信号的经重建版本之间的差异，其中所述基于CELP的编码层包含可缩放的语音和音频编解码器中的一个或两个先前层；

通过将用以对所述多个变换频谱频谱线进行编码的组合位置译码技术反向而在较高层中对所述索引进行解码；以及

在反离散余弦变换IDCT型反变换层处使用所述经解码的多个变换频谱频谱线来合成所述残余信号的版本。

26.根据权利要求25所述的方法，其进一步包含：

接收对所述原始音频信号进行编码的经CELP编码信号；

对经CELP编码信号进行解码以产生经解码信号；以及

将所述经解码信号与所述残余信号的所述经合成版本组合以获得所述原始音频信号的经重建版本。

27.根据权利要求25所述的方法，其中合成所述残余信号的版本包括

将反DCT型变换应用于所述变换频谱频谱线以产生所述残余信号的时域版本。

28.根据权利要求25所述的方法，其中对所述变换频谱频谱线的解码包括：

基于针对非零频谱线位置使用所述组合位置译码技术来表示频谱线位置而对选定的频谱线子集的位置进行解码。

29.根据权利要求25所述的方法，其中所述索引以比所述二进制串的长度少的位的二进制串来表示非零频谱线。

30.根据权利要求25所述的方法，其中所述DCT型反变换层为反修正型离散余弦变换IMDCT层，且所述变换频谱为MDCT频谱。

31.根据权利要求25所述的方法，其中所述所获得的索引表示频谱线在二进制串w内的位置，基于组合公式对所述频谱线的所述位置进行编码：

index (n, k, w) = i (w) = Σ_{j = 1}^{n} w_{j} (\begin{matrix} n - j \\ Σ_{i = j}^{n} w_{i} \end{matrix})

32.一种可缩放的语音和音频解码器装置，其包含：

组合频谱解码器，其适于

获得表示残余信号的多个变换频谱频谱线的索引，其中所述残余信号为原始音频信号与来自基于码激励线性预测CELP的编码层模块的所述原始音频信号的经重建版本之间的差异，其中所述基于CELP的编码层模块包含具有可缩放的语音和音频编解码器中的一个或两个先前层的基于CELP的编码层；

反离散余弦变换IDCT型反变换层模块，其适于使用所述经解码的多个变换频谱频谱线来合成所述残余信号的版本。

33.根据权利要求32所述的装置，其进一步包含：

CELP解码器，其适于

接收对所述原始音频信号进行编码的经CELP编码信号；

对经CELP编码信号进行解码以产生经解码信号；以及

34.根据权利要求32所述的装置，其中在合成所述残余信号的版本时，所述IDCT型反变换层模块适于将反DCT型变换应用于所述变换频谱频谱线以产生所述残余信号的时域版本。

35.根据权利要求32所述的装置，其中所述索引以比所述二进制串的长度少的位的二进制串来表示非零频谱线。

36.一种可缩放的语音和音频解码器装置，其包含：

用于获得表示残余信号的多个变换频谱频谱线的索引的装置，其中所述残余信号为原始音频信号与来自基于码激励线性预测CELP的编码层的所述原始音频信号的经重建版本之间的差异，其中所述基于CELP的编码层包含可缩放的语音和音频编解码器中的一个或两个先前层；

用于通过将用以对所述多个变换频谱频谱线进行编码的组合位置译码技术反向而在较高层中对所述索引进行解码的装置；以及

用于在反离散余弦变换IDCT型反变换层处使用所述经解码的多个变换频谱频谱线来合成所述残余信号的版本的装置。