CN1218339A

CN1218339A - 可缩放的音频编码/解码方法和装置

Info

Publication number: CN1218339A
Application number: CN98109815A
Authority: CN
Inventors: 朴成熙; 金延培
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 1997-11-20
Filing date: 1998-06-09
Publication date: 1999-06-02
Anticipated expiration: 2018-06-09
Also published as: RU2185024C2; EP0918401A3; US6349284B1; MY122265A; DE69833834D1; IL124836A0; ID21288A; BR9804457A; EP0918401B1; JP3412081B2; JPH11186911A; IL124836A; KR19990041073A; EG21510A; KR100335609B1; EP0918401A2; DE69833834T2; BR9804457B1; CN1131598C

Abstract

提供了一种可缩放的音频编码/解码方法和装置。为了将一个音频信号编码为具有一个基层和至少一个增强层的分层数据流,编码方法包括步骤:对每一预定比例因子带用相同的比例因子时间/频率映射输入音频信号并量化频谱数据,将量化数据打包成位流,其中位流产生步骤包括基层编码步骤、增强层编码步骤和随后的编码步骤,算法编码是按从最高有效位序列到最低有效位序列的序列顺序、通过将与要编码的层对应的辅助信息和量化数据表示成预定数目的数字、并利用一个预定概率模型来执行的。

Description

可缩放的音频编码/解码方法和装置

本发明涉及音频编码和解码，特别涉及使用位分片(bit-sliced)算法编码的可缩放的音频编码和解码方法和装置。本发明被采用为ISO/IEC/JTC1/SC29/WG11N1903(ISO/IEC Committee Draft 14496-3SUBPART4)。

MPEG音频标准或AC-2/AC-3方法利用常规的数字编码的六分之一到八分之一的64～384 Kbps的比特率，提供了与压缩磁盘几乎相同的音频质量。因此，MPEG音频标准在存储和传输数字音频广播(DAB)、互连网电话或即时音频(AOD)中的音频信号方面具有重要的作用。

有关对以较低的比特率恢复原始信号中清楚的音频质量的方法的研究已经在进行。一种方法是作为新的国际标准被授权的MPEG-2高级音频编码(AAC)。MPEG-2AAC以专家组推荐的64Kbps的比特率提供清楚的原始声音音频质量。

在常规技术中，编码器被赋予一个固定的比特率，并寻找适合于给定比特率的最佳状态，然后执行量化和编码，因而相当好地展示了其有效性。但是，随着多媒体技术的出现，对于在低比特率具有多变性的编码器/解码器(编码解码器)的需要增加。可缩放的(scalable)音频编码解码器可以将以高比特率编码的位流变为低比特率位流，然后只恢复它们中的一部分。据此，信号可以被合理有效地恢复且只具有位流的某些部分，而只具有很少的因降低比特率、给系统加上辅助位或解码器的性能很低、或由于用户的需要所导致的性能退化。

根据MPEG-2 AAC标准等一般的音频编码技术，赋予编码装置一个固定的比特率，对给定的比特率查找其最佳状态，然后执行量化和编码，因此形成了符合此比特率的位流。一个位流包括一个比特率的信息。换句话说，比特率信息包含在位流和所用固定比特率的头部。因此，可以使用在特定的比特率表现最好有效性的方法。例如，当位流是由一个编码器以64 Kbps的比特率所形成时，最好的质量声音可以通过与具有64 Kbps比特率的编码器所对应的解码器所恢复。

根据这些方法，位流的形成没有考虑其它比特率，但却形成了具有适合于给定比特率而不是位流的顺序的一个量值的位流。实际上，如果这样形成的位流被通过一个通信网络进行传输，那么位流要先被分片成几个时间片然后才被传输。当在传输通道上使用了辅助位时，或者当因为传输通道的带宽较窄，只有从传输端发送的某些时间片被接收端接收到时，数据不可能被彻底重建。而且由于位流不是根据有效位形成的，所以，如果只有某些位流被恢复，质量将严重退化。重建的音频数据使得声音很难听。

在利用可缩放的音频编码解码器来解决上述问题的情况下，先对一个基层执行了编码，然后把原始信号和编码信号之间的差量信号编码到下一个增强层中(K.Brandenburg.等人，“有关可缩放的音频编码的第一种方法”，97th AES-Conventional,preprint 3924,San Francisco,1994)以及(K.Brandenburg.等人，“一个两级或三级比特率可缩放的音频编码系统”，99th AES-Conventin,preprint 4132,New York,1995)。因此，具有的层越多，在高比特率的性能越低。在使用可缩放的编码装置的情况下，初步重建了一个具有很好音频质量的信号。但是，如果通信通道的状态变坏，或者加到接收终端的解码器的负荷增加，那么就重建了一个低比特率的声音。因此，前面所提到的编码方法并不适合实际达到的比例性。

为解决以上问题，本发明的一个目的是提供可缩放的的数字音频数据编码方法、装置以及记录编码方法的记录媒体，使用位分片算法编码(BSAC)技术来代替无损耗编码模块并保持常规编码器的所有其它模块不变。

本发明的另一个目的是提供可缩放的的数字音频数据解码方法、装置和记录解码方法的记录媒体，使用位分片算法编码(BSAC)技术来代替无损耗编码模块并保持常规音频解码器的所有其它模块不变。

要完成本发明的第一个目的，提供了一种可缩放的音频编码方法，用于将音频信号编码成具有一个基层和预定数目的增强层的一个分层数据流，它包括步骤：信号处理和量化每一预定编码带(coding band)的输入音频信号；打包量化数据产生位流，其中位流产生步骤包括：编码与基层对应的量化数据；编码与被编码的基层的下一增强层对应的量化数据以及由于层大小限制和属于已编码层的剩下的未编码量化数据；并随后对所有增强层执行层编码步骤来形成位流，其中基层编码步骤、增强层编码步骤和随后的编码步骤执行的结果是辅助信息和与要编码的层所对应的量化数据由相同预定位数来表示；然后按从MSB序列到LSB序列的顺序排列的预定概率模型执行算法编码，辅助信息包括在算法编码中所用的比例因子和概率模型。

编码比例因子的步骤包括步骤：得到最大比例因子；以及得到最大比例因子和各比例因子之间的差量并算法编码此差量。

当量化数据由符号数据和量值数据组成时，编码步骤包括步骤：通过预定编码方法编码最高有效位序列，此序列包括由相同的位数表示的量化数据的量值数据的最高有效位；编码与已编码的最高有效位序列中的非零数据对应的符号数据；通过预定编码方法编码数字数据的未编码量值数据中的最高有效位序列；以及对数字数据的各个位执行量值数据编码步骤和符号数据编码步骤。

编码步骤是通过将组成量值数据和符号数据的各个位序列连接到具有预定数目位数的位单元来执行的。

连接到位单元的一个四维向量根据它在编码各采样中的预状态被分成两个子向量。

基层的比特率是16 Kbps，而层间比特率为8 Kbps。

为完成本发明的第二个目的，提供了一个可缩放的音频编码装置，它包括：信号处理输入音频信号并为每一编码带量化输入音频信号的量化部分；以及一个位打包部分，它通过限带(band-limiting)一个基层使其可缩放、编码与基层对应的辅助信息、从最高有效位序列到最低有效位序列以及从低频部分到高频部分顺序编码量化信息以及编码与基层的下一增强层所对应的辅助信息和量化数据对所有层执行编码，产生位流。

量化部分包括：将时域的输入音频信号转换为频域信号的时间/频率映射部分；一个音质评价部分，它用来连接通过时间/频率映射由预定子带(subband)信号转换的转换信号并利用由各信号的相互作用所产生的遮蔽(masking)现象来计算每一子带上的遮蔽门限；以及一个量化部分，用于对每一预定编码带量化信号，并将每一个带(band)的量化噪声与遮蔽门限比较。

为完成本发明的第三个目的，提供了一种可缩放的音频解码方法，它可以解码对音频数据进行编码使其具有分层比特率的编码音频数据，此方法包括步骤：解码至少具有比例因子的辅助信息，并按具有分层比特率的数据流中层被创建的顺序，通过从高有效位到低有效位分析组成数据流的位的有效位，利用与量化数据对应的算法编码模型，算法编码分配到每一个带的模型信息；解码比例因子和量化数据恢复成具有原始量值的信号；以及将反向量化的数据转换为时域信号。

比例因子的解码是通过以下步骤执行的：解码位流中的最大比例因子，算法解码最大比例因子和各比例因子之间的差量，以及从最大比例因子中将差量减去。

另外，还提供了一个可缩放的音频解码装置，包括：一个位流分析部分，它按分层位流中的层的创建顺序解码至少具有比例因子的辅助信息和算法模型信息以及被量化的数据；一个反向量化部分，它将被解码的比例因子和被量化的数据恢复为具有原始量值的信号；以及一个时间/频率映射部分，它将反向量化的频域信号转换为时域信号。

本发明可以在从计算机可用媒体中运行程序的通用数字计算机中实施，计算机可用媒体包括但不仅仅限于磁存储媒体(如ROM、软盘、硬盘等)、光可读媒体(如CD-ROM、DVD等)等存储媒体和载波(如在Internet上的传输)。例如，提供了一种计算机可用媒体，它明白地实施了一个指令程序，此程序可由机器执行，它执行一种可缩放的音频编码方法，将音频信号编码成具有一个基层和预定数目的增强层的一个分层数据流，此方法包括步骤：信号处理输入音频信号和为每一预定编码带量化输入音频信号；以及打包量化数据来生成位流，其中位流生成步骤包括：编码与基层对应的量化数据；编码与被编码基层的下一增强层对应的量化数据和由于层大小限制和属于被编码层的剩下的未编码量化数据；以及随后对所有增强层执行层编码步骤来形成位流，其中基层编码步骤、增强层编码步骤和随后的编码步骤的执行结果为辅助信息和与要编码的一个层所对应的量化数据由相同预定数目的位来表示；然后按从MSB序列到LSB序列的顺序、利用预定概率模型算法编码包含比例因子和要在算法编码中使用的概率模型的辅助信息。

比例因子编码步骤包括步骤：得到最大比例因子；以及得到最大比例因子和各比例因子之间的差量并算法编码这些差量。

概率模型的信息编码按以下步骤执行：得到概率模型信息值的最小值；得到最小概率模型信息和各模型信息值之间的差量，并利用表5.5到5.9中所列的概率模型来算法编码这些差量。

另外，还提供了一种计算机可用媒体，它明白地实施了一个指令程序，此程序可由机器执行，它执行一种可缩放的音频解码方法，对被编码为具有分层比特率的编码音频数据进行解码，它包括步骤：解码至少具有比例因子的辅助信息，并按具有分层比特率的数据流中层被创建的顺序，通过从高有效位到低有效位分析组成数据流的位的有效位，利用与量化数据对应的算法编码模型，算法编码分配到每一个带的模型信息；将被解码的比例因子和量化数据恢复成具有原始量值的信号；以及将反向量化的数据转换为时域信号，能够读取程序并利用计算机来执行可缩放的音频编码方法的一个记录媒体。

位流是按四维向量的单位被解码的，而且在四维向量中的四个样本的位分片信息被解码。

比例因子的解码是通过解码最大比例因子、算法编码最大比例因子和各比例因子之间的差量并将差量从最大比例因子中减去来执行的。

算法模型索引的解码是通过解码位流中的最小算法模型索引、解码最小索引和各层的辅助信息中的各索引之间的差量并将最小索引和差量相加来执行的。

通过参考附图对一个优选实施例进行详细描述，本发明的以上目的和优点将更加明显。其中：

图1是简单的可缩放的编码/解码装置(编码解码器)的框图；

图2是根据本发明的一个编码装置的框图；

图3是根据本发明的一个位流的结构；

图4是根据本发明的一个解码装置的框图；

图5举例说明了一个长块(窗口大小=2048)的频率部分的排列；以及

图6举例说明了一个短块(窗口大小=2048)的频率部分的排列。

最佳实施例的描述

下面，将参考附图，对本发明的最佳实施例进行详细描述。

本发明中所形成的位流并非由单独一个比特率构成，而是由基于一个基层的几个增强层构成。本发明具有很好的编码效率，即以常规的编码技术中的一个固定比特率表现了最好的性能，并涉及一个编码/解码方法和装置，据此可以恢复适合于多媒体技术的出现的被编码比特率。

图2是根据本发明的一个可缩放的音频编码装置的框图，它一般包括一个量化处理器230和一个位打包部分240。

信号处理为预定编码带并量化输入音频信号的量化处理器230包括一个时间/频率映射部分200、一个音质评价部分210和一个量化部分220。时间/频率映射部分200将时域的输入音频信号转换为频域信号。人耳察觉到的信号特征之间的差异暂时并不很大。但是，根据人的音质评价模型，对每一个带将产生一个大的差异。因此，通过根据频率带分配不同的量化位，可以增强压缩效率。

音质评价部分210连接由时间/频率映射部分200对预定子带的信号所转换的转换信号，并利用因各信号的相互作用而产生的遮蔽现象计算每一子带上的一个遮蔽门限。遮蔽现象指的是一个音频信号(声音)因为另一个信号而变得听不到的现象。例如，当一辆列车经过一个车站时，由于列车所导致的噪音，一个人听不到跟他低声谈话的另一个人的声音。

量化部分220量化每一预定编码带的信号，使得每一个带的量化噪声比遮蔽门限小。换句话说，每一个带的频率信号被进行了比例量化，使得每一个带的量化噪声的量值比遮蔽门限小，从而变得察觉不到。执行量化是使得NMR(噪声与掩模的比)值，这是由音质评价部分210所计算的遮蔽门限与每一个带上所产生的噪声的一个比值，小于或等于0 dB。NMR值小于或等于0 dB表示遮蔽门限高于量化噪声。换句话说，即量化噪声听不到。

位打包部分240编码辅助信息和与具有最低比特率的一个基层对应的量化数据，随后的编码辅助信息和与基层的下一增强层对应的量化数据，并对所有层执行这一过程，来产生位流。在此，辅助信息包括算法编码中所用的比例因子和概率模型信息。对各层的量化数据的编码是按以下步骤执行的，首先通过将量化数据表示为包括相同预定数目位的二进制数据，把每一量化数据分割成位单元，然后利用预定的概率模型，从最高有效位到最低有效位顺序编码位分片数据。当数字数据包括符号数据和量值数据时，位打包部分240收集位分片数据中具有相同有效位水平的位的每一个量值数据，编码量值数据，然后编码与被编码的量值数据中的非零量值数据对应的符号数据中的未编码符号数据。在此，符号数据和量值数据的编码过程是从MSBs到较低有效位顺序执行的。

由具有前面所述的配置的编码装置所形成的位流具有一个分层结构，其中较低比特率层的位流包含在较高比特率层的位流中，如图3所示。一般，辅助信息被首先编码，然后剩下信息被编码，形成位流。但是，在本发明中，如图3所示，每一增强层的辅助信息是被单独进行编码的。而且，尽管在本发明中，所有量化数据一般是顺序地在采样单元中编码的，但量化数据是由二进制数据表示并被从二进制数据的MSB序列中编码来形成分配位中的位流的。

现在，将对编码装置的操作进行描述。输入音频信号被编码并形成为位流。最后，输入信号通过时间/频率映射部分200中的MDCT(改进的离散余弦变换)被转换为频域信号。音质评价部分210通过适当的子带连接频率信号，获得一个遮蔽门限。

量化部分220执行比例量化，使得每一比例因子带(scale factor band)的量化噪声的量值小于遮蔽门限，在分配位中能听得到但却察觉不到它。如果满足此条件的量化被执行，将产生各比例因子带的比例因子和量化的频率值。

一般的，从人的音质评价的观点来看，靠近的频率部分在较低频率时可以很容易地察觉到。但是，随着频率的增加，可察觉的频率间隔变得越来越宽。当频率带变高时，比例因子带的带宽也增加。但是，为了使编码容易，带宽不是常数的比例因子带并不用于编码，而是用带宽为常数的编码带来代替。编码带包括32个量化的频率系数值。

1、比例因子的编码

为了压缩比例因子，使用了一种算法编码方法。最终，首先得到最大比例因子(max_scalefactor)。然后，得到各比例因子和最大比例因子之间的差量，并对差量进行算法编码。在比例因子之间的差量的算法编码中使用了四个模型，这四个模型分别表示在表5.1到5.4中。模型信息存放在scalefactor_model中。

表5.1差量比例因子算法模型l

大小	累积频率
大小	累积频率	8	1342,790,510,344,214,127,57,0

表5.2差量比例因子算法模型2

大小	累积频率
大小	累积频率	16	2441,2094,1798,1563,1347,1154,956,818,634,464,342,241,157,97,550

表5.3差量比例因子算法模型3

大小	累积频率
大小	累积频率	32	3963,3525,3188,2949,2705,2502,2286,2085,1868,1668,1515,1354,1207,1055,930,821,651,510,373,269,192,134,90,58,37,29,24,15,10,8,5,0

表5.4差量比例因子算法模型4

大小	累积频率
大小	累积频率	64	13587,13282,12961,12656,12165,11721,11250,10582,10042,9587,8742,8010,7256,6619,6042,5480,4898,4331,3817,3374,3058,2759,2545,2363,2192 1989,1812,1582,1390,1165,1037,935,668,518,438,358,245,197,181,149,144,128,122,117,112,106,101,85,80,74,69,64,58,53,48,42,37,32,26,21,16,10,5,0

2、算法编码模型索引的编码

每一编码带包括32个频率部分。32个量化频率系数被进行算法编码。然后，确定每一编码带的算法编码所用模型，并将此信息存放到算法编码模型索引(ArModel)中。为了压缩ArModel，使用了一种算法编码方法。最终，首先得到最小的ArModel索引(min_ArModel)。然后，得到各ArModel索引和最小ArModel索引之间的差量，并对此差量进行算法编码。这里在差量的算法编码中使用了四个模型。这四个模型表示在表5.5到5.8中。算法编码中所用的模型的信息存放在ArModel_model中。

表5.5差量ArModel算法模型1

大小	累积频率
大小	累积频率	4	9868,3351,1676,0

表5.6差量ArModel算法模型2

大小	累积频率
大小	累积频率	8	12492,8600,5941,3282,2155,1028,514,0

表5.7差量ArModel算法模型3

大小	累积频率
大小	累积频率	16	14316,12248,9882,7516,6399,5282,4183,3083,2247,1411,860,309,185,61,31,0

表5.8差量ArModel算法模型4

大小	累积频率
大小	累积频率	40	12170,7956,6429,4901,4094,3287,2982,2677,2454,2230,2062,1894,1521,1348,1199,1050,854,658,468,278,169,59,38,18,17,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0

1.3量化频率部分的位分片编码

一般的，MSB(最高有效位)的有效位远大于LSB(最低有效位)的有效位。但是，根据常规的方法，编码的执行与有效位无关。因此，如果仅仅要使用来自所有位流中的前导位流的一些位流，那么比未用的滞后位流中包括的信息的重要性要小的信息将主要包括在前导位流中。

根据前面的理由，在本发明中，各带的量化信号是从MSBs到LSBs被顺序编码的。换句话说，各量化信号用二进制表示法表示，而各频率部分的量化值在位单元中从低频部分到高频部分被顺序处理。首先，得到各频率部分的MSBs，然后按位对下一高有效位顺序编码，直到LSBs。按这种方法，比较重要的信息被首先进行编码，使得位流从开始产生。

量化值的符号值被单独存放，并用它们的绝对值来得到表示为正值的数据。量化频率数据被分割成位单元，然后从MSB到LSB顺序排列。位分片数据通过四维向量被重建。现在，假定有8个量化值，每个值都具有用二进制表示法表示的4个位，如下所示：

LSB MSB

↓ ↓

0: 1 0 0 1

1: 1 0 0 0

2: 0 1 0 1

3: 0 0 1 0

4: 0 0 0 0

5: 1 0 0 0

6: 0 0 0 0

7: 0 1 0 0

一般的最低频率部分的1001被首先编码，然后1000、0101、0010依次被编码(即对每一频率部分水平进行)。但是，根据本发明，通过将几位相连接，得到包括最低频率部分的MSB的MSB序列1、和其它频率部分的MSBs 0,1,1,0,…，并对其进行处理。例如，在按4位的单位进行编码的情况下，1010先被编码，然后0000被编码。如果完成了MSBs的编码，将得到下一高有效位序列，并按0001,000,…的顺序进行编码，直到LSBs为止。

按四位的单位连接的各四维向量根据它们的状态被分成两个子向量。这两个子向量通过算法编码等有效的无损耗编码进行编码。最后，确定每一编码带的算法编码中所用的模型。此信息存放在ArModel中。各算法编码模型由几个低阶模型组成。子向量用某个低阶模型编码。低阶模型根据要编码的子向量的维数、一个向量的有效位或各样本的编码状态进行分类。一个向量的有效位是根据要编码的向量的位的位置来确定的。换句话说，根据位分片信息是对MSB、下一MSB还是对LSB的不同，一个向量的有效位也有所不同。MSB具有最高的有效位，而LSB具有最低的有效位。各样本的编码状态值随从MSB到LSB的向量编码进行的过程而更新。一开始，编码状态值被初始化为零。然后，当碰到非零位值时，编码状态值变为1。

1.4符号位的编码

基本上，符号位的编码是从MSB序列到LSB序列顺序执行的，其中其符号数据被编码的频率部分数据的编码被保留，而其符号位未被编码的频率部分数据的编码首先执行。在按这种方法对所有频率部分的符号位执行编码之后，保留的频率部分数据的编码按高有效位序列的顺序执行。

在此将对其进行详细描述。参考所述例子，MSB序列‘1010,0000’都被编码，因为它们的符号位前面都没有被编码，也就是说，没必要保留编码。然后，下一高有效位序列‘0001,0000’被编码。在此，对0001，第一个0和第三个0没被编码，因为符号位已经在MSBs中进行了编码，然后第二和第四位0和1被编码。在此，由于在高位中没有1，所以第四位1的频率部分的符号位被编码。对0000，由于在高位中没有已编码的符号位，所以这四位都被编码。按这种方法，符号位被编码直到LSBs，然后剩下的未编码信息从高有效位被顺序编码。

1.5可缩放的位流的形成

现在将对本发明中形成的位流的结构进行描述。当将各频率部分值表示成二进制位时，MSBs在基层中首先被编码，然后下一高有效位在下一增强层中被编码，最后，LSBs在最高层中被编码。换句话说，在基层中，只有所有频率部分的轮廓被编码。然后，随着比特率的增加，可以表达更加详细的信息。由于详细信息数据值是根据增加的比特率、即层的增强被编码的，所以可改善音频质量。

现在将对利用这样表示的数据来形成可缩放的位流的方法进行描述。首先，基层的位流形成。接着，基层要用到的辅助信息被编码。辅助信息包括比例因子带的比例因子信息和每一编码带的算法编码模型索引。如果辅助信息的编码完成，将从MSBs到LSBs、从低频部分到高频部分对量化值的信息顺序进行编码。如果某一带的分配位比当前正编码的带的位少，编码将不执行。当带的分配位等于正被编码的带的位时，编码才被执行。换句话说，编码是在预定带限中执行的。

现在将描述采取带限的理由。如果在各增强层的编码信号中没有带限，编码将与带无关，从MSB执行。随后，有可能产生很难听的声音，因为当恢复具有低比特率的层的信号时，信号是打开和关闭的。因此，建议根据比特率适当地对带进行限制。而且，如果带是按各增强层被限制的，那么各增强层的解码器的复杂性将降低。因此，质量的比例性和复杂性的比例性都可以得到支持。在基层被编码之后，辅助信息和下一增强层的音频数据的量化值被编码。按这种方法，所有层的数据将被编码。这样编码的信息收集到一起就形成位流。

图4是一个解码装置的框图，它包括一个位流分析部分400，一个反向量化部分410和一个频率/时间映射部分420。

位流分析部分400按具有分层结构的位流的产生顺序，解码至少具有比例因子和算法编码模型的辅助信息和位分片量化数据。通过一个处理模块，如AAC标准等常规的音频运算，解码数据被恢复为时域信号。首先，反向量化部分410将解码的比例因子和量化数据恢复为具有原始量值的信号。频率/时间映射部分420将反向量化的信号转换为时域信号，以便进行重建。

接下来将描述解码装置的操作。解码由编码装置产生的位流的顺序与编码顺序正好相反。首先，基层的信息被解码。解码过程将简单描述一下。首先，一般被所有层所用的信息，即存放在最前面的位流中的头部信息，将先被解码。

基层中所用的辅助信息包括比例因子和分配到基层中的带的算法模型索引。因此，比例因子和算法模型索引被解码。通过解码的算法模型索引可以知道分配到每一编码带的位。在分配位中，最大值被得到。同编码过程一样，位流中的量化值从MSBs到LSBs、从低频部分到高频部分被顺序解码。如果某一个带的分配位小于当前正解码的分配位，将不执行解码。当某一个带的分配位等于当前正解码的带的分配位时，解码开始。

在完成了为基层分配的位流的解码之后，辅助信息和下一增强层的音频数据的量化值将被解码。按这种方法，可以对所有层的数据进行解码。

按编码的相反顺序，通过图4所示的反向量化部分410和频率/时间映射部分420，通过解码过程量化的数据被恢复为原始信号。

现在，将描述本发明一个最佳实施例。本发明可采用为AAC标准的基本结构并实现一个可缩放的数字音频数据编码器。换句话说，在本发明中，在使用了AAC标准编码/解码中所用的基本模块的情况下，只用位分片编码方法代替了无损耗编码模块。因此，根据本发明，在编码器中形成的位流不同于在AAC技术中形成的位流。在本发明中，不是只对一个位流中的一个比特率的信息进行编码，而是对具有如图3所示的分层结构的一个位流中的不同增强层的比特率信息，按从较重要的信号部分到较不重要的信号部分的顺序进行解码。

使用这样形成的位流，根据用户的需要或根据传输通道的状态，通过简单地重新排列在最高位流中所包含的低比特率位流，就可以形成具有低比特率的位流。换句话说，由编码装置在实时基础上形成的位流，或存放在媒体中的位流可以根据用户的需要重新排列为适合于所需比特率，然后进行传输。而且，如果用户的硬件性能很低，或者用户想降低解码器的复杂性，即便对合适的位流，也只有某些位流可以恢复，因而控制了复杂性。

例如，在形成一个可缩放的位流时，基层的比特率为16 Kbps，最高层的比特率为64 Kbps，而各增强层的比特率之间的间隔为8 Kbps，即，位流具有7层，分别为16,24,32,40,48,56,和64 Kbps。各增强层按表2.1所示进行定义。由于编码装置所形成的位流具有图3所示的分层结构，所以64 Kbps的最高层的位流包括各增强层(16,24,32,40,48,56和64 Kbps)的位流。如果用户需要最高层的数据，最高层的位流将不进行任何处理被传输。另外，如果另一个用户需要基层(对应于16 Kbps)的数据，那么只有前导位流被简单传输。

表2.1每一层(8kbps间隔)的比特率

层	比特率(kbps)
层	比特率(kbps)	0	16
1	24	0	16
1	24	2	32
3	40	2	32
3	40	4	48
5	56	4	48
5	56	6	64

表2.2短窗口每一层的带限(8kbps间隔)

层	带限
层	带限	0	20
1	28	0	20
1	28	2	40
3	52	2	40
3	52	4	60
5	72	4	60
5	72	6	84

表2.3长窗口每一层的带限(8kbps间隔)

层	带限
层	带限	0	160
1	244	0	160
1	244	2	328
3	416	2	328
3	416	4	500
5	584	4	500
5	584	6	672

表2.4每层中每一通道的可用位(8kbps间隔)

层	可用位
层	可用位	0	341
1	512	0	341
1	512	2	682
3	853	2	682
3	853	4	1024
5	1194	4	1024
5	1194	6	1365

表2.5短窗口时新加到每一层的最小比例因子带(8kbps间隔)

层	比例因子带
层	比例因子带	0	5
1	6	0	5
1	6	2	8
3	9	2	8
3	9	4	10
5	11	4	10
5	11	6	12

表2.6长窗口时新加到每一层的最小比例因子带(8kbps间隔)

层	比例因子带
层	比例因子带	0	22
1	27	0	22
1	27	2	30
3	32	2	30
3	32	4	35
5	38	4	35
5	38	6	40

另外，增强层可以按间隔进行构造。基层的比特率为16 Kbps，最高层的比特率为64 Kbps，而每一增强层具有1 Kbps的比特率间隔。各增强层的构造如表3.1中所示。因此，可以实现精确的分组比例性，即从16Kbps到64 Kbps按1 Kbps的比特率间隔形成了可缩放的的位流。

表3.1每层的比特率(1kbps间隔)

层	比特率	层	比特率	层	比特率	层	比特率
层	比特率	层	比特率	层	比特率	层	比特率	0	16	12	28	24	40	36	52
1	17	13	29	25	41	37	53	0	16	12	28	24	40	36	52
1	17	13	29	25	41	37	53	2	18	14	30	26	42	38	54
3	19	15	31	27	43	39	55	2	18	14	30	26	42	38	54
3	19	15	31	27	43	39	55	4	20	16	32	28	44	40	56
5	21	17	33	29	45	41	57	4	20	16	32	28	44	40	56
5	21	17	33	29	45	41	57	6	22	18	34	30	46	42	58
7	23	19	35	31	47	43	59	6	22	18	34	30	46	42	58
7	23	19	35	31	47	43	59	8	24	20	36	32	48	44	60

9	25	21	37	33	49	45	61
9	25	21	37	33	49	45	61	10	26	22	38	34	50	46	62
11	27	23	39	35	51	47	63	10	26	22	38	34	50	46	62
11	27	23	39	35	51	47	63							48	64

表3.2短窗口的每层中的带限(1kbps间隔)

层	带限	层	带限	层	带限	层	带限
层	带限	层	带限	层	带限	层	带限	0	20	12	36	24	52	36	68
1	20	13	36	25	52	37	68	0	20	12	36	24	52	36	68
1	20	13	36	25	52	37	68	2	20	14	36	26	52	38	68
3	24	15	40	27	56	39	72	2	20	14	36	26	52	38	68
3	24	15	40	27	56	39	72	4	24	16	40	28	56	40	72
5	24	17	40	29	56	41	72	4	24	16	40	28	56	40	72
5	24	17	40	29	56	41	72	6	28	18	44	30	60	42	76
7	28	19	44	31	60	43	76	6	28	18	44	30	60	42	76
7	28	19	44	31	60	43	76	8	28	20	44	32	60	44	76
9	32	21	48	33	64	45	80	8	28	20	44	32	60	44	76
9	32	21	48	33	64	45	80	10	32	22	48	34	64	46	80
11	32	23	48	35	64	47	80	10	32	22	48	34	64	46	80
11	32	23	48	35	64	47	80							48	84

表3.3长窗口的每层中的带限(1kbps间隔)

层	带限	层	带限	层	带限	层	带限
层	带限	层	带限	层	带限	层	带限	0	160	12	288	24	416	36	544
1	168	13	296	25	424	37	552	0	160	12	288	24	416	36	544
1	168	13	296	25	424	37	552	2	180	14	308	26	436	38	564
3	192	15	320	27	448	39	576	2	180	14	308	26	436	38	564
3	192	15	320	27	448	39	576	4	200	16	328	28	456	40	584
5	212	17	340	29	468	41	596	4	200	16	328	28	456	40	584

6	224	18	352	30	480	42	608
6	224	18	352	30	480	42	608	7	232	19	360	31	488	43	616
8	244	20	372	32	500	44	628	7	232	19	360	31	488	43	616
8	244	20	372	32	500	44	628	9	256	21	384	33	512	45	640
10	264	22	392	34	520	46	648	9	256	21	384	33	512	45	640
10	264	22	392	34	520	46	648	11	276	23	404	35	532	47	660
						48	672	11	276	23	404	35	532	47	660

表3.4每层中每个通道的可用位(1kbps间隔)

层	可用位	层	可用位	层	可用位	层	可用位
层	可用位	层	可用位	层	可用位	层	可用位	0	341	12	597	24	853	36	1109
1	362	13	618	25	874	37	1130	0	341	12	597	24	853	36	1109
1	362	13	618	25	874	37	1130	2	384	14	640	26	896	38	1152
3	405	15	661	27	917	39	1173	2	384	14	640	26	896	38	1152
3	405	15	661	27	917	39	1173	4	426	16	682	28	938	40	1194
5	448	17	704	29	960	41	1216	4	426	16	682	28	938	40	1194
5	448	17	704	29	960	41	1216	6	469	18	725	30	981	42	1237
7	490	19	746	31	1002	43	1258	6	469	18	725	30	981	42	1237
7	490	19	746	31	1002	43	1258	8	512	20	768	32	1024	44	1280
9	533	21	789	33	1045	45	1301	8	512	20	768	32	1024	44	1280
9	533	21	789	33	1045	45	1301	10	554	22	810	34	1066	46	1322
11	576	23	832	35	1088	47	1344	10	554	22	810	34	1066	46	1322
11	576	23	832	35	1088	47	1344							48	1365

表3.5短窗口时要在每层中新加的最低比例因子带(1kbps间隔)

层	比例因子带	层	比例因子带	层	比例因子带	层	比例因子带
层	比例因子带	层	比例因子带	层	比例因子带	层	比例因子带	0	5	12	7	24	9	36	10
1	5	13	7	25	9	37	10	0	5	12	7	24	9	36	10
1	5	13	7	25	9	37	10	2	5	14	7	26	9	38	10
3	6	15	8	27	9	39	10	2	5	14	7	26	9	38	10
3	6	15	8	27	9	39	10	4	6	16	8	28	9	40	11
5	6	17	8	29	9	41	11	4	6	16	8	28	9	40	11
5	6	17	8	29	9	41	11	6	6	18	8	30	10	42	11
7	6	19	8	31	10	43	11	6	6	18	8	30	10	42	11
7	6	19	8	31	10	43	11	8	6	20	8	32	10	44	11
9	7	21	9	33	10	45	11	8	6	20	8	32	10	44	11
9	7	21	9	33	10	45	11	10	7	22	9	34	10	46	12
11	7	23	9	35	10	47	12	10	7	22	9	34	10	46	12
11	7	23	9	35	10	47	12							48	12

表3.6长窗口时要在每层中新加的最低比例因子带(1kbps间隔)

层	比例因子带	层	比例因子带	层	比例因子带	层	比例因子带
层	比例因子带	层	比例因子带	层	比例因子带	层	比例因子带	0	22	12	28	24	32	36	36
1	23	13	29	25	32	37	37	0	22	12	28	24	32	36	36
1	23	13	29	25	32	37	37	2	24	14	29	26	33	38	37
3	24	15	29	27	33	39	37	2	24	14	29	26	33	38	37
3	24	15	29	27	33	39	37	4	25	16	30	28	34	40	38
5	25	17	30	29	34	41	38	4	25	16	30	28	34	40	38
5	25	17	30	29	34	41	38	6	26	18	30	30	34	42	38

7	26	19	31	31	35	43	39
7	26	19	31	31	35	43	39	8	27	20	31	32	35	44	39
9	27	21	31	33	35	45	39	8	27	20	31	32	35	44	39
9	27	21	31	33	35	45	39	10	27	22	32	34	36	46	40
11	28	23	32	35	36	47	40	10	27	22	32	34	36	46	40
11	28	23	32	35	36	47	40							48	40

表3.1～表3.6

根据比特率，各层具有限制的带宽。如果要用8 Kbps间隔的比例性，那么带宽将按表2.1和2.3所示进行限制。在使用1 Kbps间隔的情况下，带宽按表3.2和3.3所示进行限制。

输入信号是以48 KHz采样的PCM数据，而一帧的量值为1024。对64 Kbps的比特率来说，对一帧可用的位数平均为1365.3333(=64000位/秒×(1024/48000))。同样，一帧的可用位的大小可以根据各比特率来计算。计算所得的一帧的可用位的数目在8 Kbps的情况下表示在表2.4，在1 Kbps的情况下表示在表3.4。

2.1编码过程

整个编码过程与MPEG-2 ACC国际标准中所描述的一样，且本发明中所提出的位分片编码被采取为无损耗编码。

2.1.1音质评价部分

在量化之前，利用音质评价模型，当前处理的块类型(长、起始、短或停止)、各处理带的SMR值、一个短块的组信息和暂时显示的与音质评价模型同步的时间/频率的PCM数据首先从输入数据产生并被传输到时间/频率映射部分。采用ISO/IEC 11172-3 Model 2来计算音质评价模型【MPEG Committee ISO/IEC/JTC1/SC29/WG11，信息技术-大约1.5Mbits/s的数据存储媒体的动态图象和相关音频的编码-Part3:Audio,ISO/OEC IS 11172-3,1993】

2.1.2时间/频率映射部分

采用了MPEG-2 AAC国际标准中定义的时间/频率映射部分。时间/频率映射部分利用音质评价模型，根据块类型输出，通过MDCT将时域数据转换为频域数据。此时，在长/起始/停止块和短块的情况下，块的大小分别为2048和256，而MDCT被执行8次【MPEG CommitteeISO/IEC/JTC1/SC29/WG11,ISO/IEC MPEG-2 AAC IS 13818-7,1997】。在此采用了与常规的MPEG-2 AAC【MPEG CommitteeISO/IEC/JTC1/SC29/WG11,ISO/IEC MPEG-2 AAC IS 13818-7,1997】中使用的过程相同的过程。

2.1.3量化部分

转换为频域数据的数据利用增加的比例因子进行量化，使得表1.1和1.2中所示的比例因子带的SNR值小于作为音质评价模型的输出值的SMR。在此，执行了比例量化，而基本的比例因子间隔为21/4。量化的执行使得可察觉的噪声被最小化。实际的量化过程在MPEG-2 AAC中描述。在此，获得的输出是量化数据和各比例因子带的比例因子。

表1.1长块的比例因子带

swb	swb_offset_long窗口	swb	swb_offset_long窗口	swb	swb_offset_long窗口	swb	swb_offset_long窗口
swb	swb_offset_long窗口	swb	swb_offset_long窗口	swb	swb_offset_long窗口	swb	swb_offset_long窗口	0	0	12	56	24	196	37	576
1	4	13	64	25	216	38	608	0	0	12	56	24	196	37	576
1	4	13	64	25	216	38	608	2	8	14	72	26	240	39	640
3	12	15	80	27	264	40	672	2	8	14	72	26	240	39	640
3	12	15	80	27	264	40	672	4	16	16	88	28	292	41	704
5	20	17	96	29	320	42	736	4	16	16	88	28	292	41	704
5	20	17	96	29	320	42	736	6	24	18	108	30	352	43	768

7	28	19	120	31	384	44	800
7	28	19	120	31	384	44	800	8	32	20	132	32	416	45	832
9	36	21	144	33	448	46	864	8	32	20	132	32	416	45	832
9	36	21	144	33	448	46	864	10	40	22	160	34	480	47	896
11	48	23	176	35	512	48	928	10	40	22	160	34	480	47	896
11	48	23	176	35	512	48	928					36	544		1024

表1.2短块的比例因子带

swb	swb_offset short窗口	swb	swb_offset_short窗口
swb	swb_offset short窗口	swb	swb_offset_short窗口	0	0	8	44
1	4	9	56	0	0	8	44
1	4	9	56	2	8	10	68
3	12	11	80	2	8	10	68
3	12	11	80	4	16	12	96
5	20	13	112	4	16	12	96
5	20	13	112	6	28		128
7	36			6	28		128

表1.1～表1.2

2.1.4.频率部分的排列

为了方便编码，频率部分被重新排列。重新排列的顺序根据块类型的不同而有所不同。在块类型中使用长窗口的情况下，频率部分按比例因子带的顺序进行排列，如图5中所示。在图5中，sfb表示比例因子带。在块类型中使用短窗口的情况下，八个块中的每四个频率部分按升序被重复排列，如图6中所示。在图6中，B表示8个块，而下面所列的位表示每个块中的频率部分。

2.1.5.利用位分片算法编码(BSAC)的位打包部分

重排列的量化数据和比例因子被形成为分层位流。

位流是由表7.1到7.10中所示的语法所形成的。

表7.1 raw-data-stream()的语法

语法	位数	备注
语法	位数	备注	raw_data_stream(){while(data_available()){raw_data_block()byte_alignment()}}

表7.2 raw-data-block()的语法

语法	位数	备注
语法	位数	备注	raw_data_block(){while(id=id_syn_ele)!=ID_END){3switch(id){case ID_SCE:single_channel_element()break；default break；}}}	3	unimsbf

表7.3 single-channel-element()的语法

语法

位数

备注

single_channel_element(){eiemert_nstant_tagbsac_channel_stream(target_layer)}

4

unimsbf

表7.4 ics-info()的语法

语法	位数	备注
语法	位数	备注	ics_info(){lcs_reserved_bitwindow_sequencewindow_shapeIf(window_sequence==EIGHT_SHORT_SEQUENCE){max_sfbscale_factor_grouping}else{max_sfb}}	121476	bslbfuimsbfuimsbfuimsbfuimsbfuimsbf

表7.5 bsac-channel-stream()的语法

语法

位数

备注

bsac channel_stream(target_layer){max_sfbics_info()bsac_data(target_layer)；}

d

uimbf

表7.6 bsac-data()的语法

语法	位数	备注
语法	位数	备注	bsac_data(target_layer){frame_lengthencoded_layerscalefactor_modelmin_ArModelArModel_modelbsac_stream(target_layer)；leftover arithmetic codebits}	93/62520..14	uimbfuimbfuimbfuimbfuimbfbslbf

表7.7

表7.8bsac-stream()的语法

语法

位数

备注

bsac_stream(target_layer){base_initialization()for(layer=0；layer=＜encoded_layer；layer++){bsac_side_info(layer)bsac_spectral_data(layer)if(layer==target_layer)return；}}

表7.9 bsac-side-info()的语法

语法

位数

备注

bsac_side_info(layer){for(g=0；g＜num_window_group,g++)for(sfb=layer_sfb[layer]；sfb＜layer_sfb[layer+1]；sfb++acode_scf[g][sfb]for(sfb=layer_sfb[layer]；sfb＜layer_sfb[layer+1]；sfb++for(g=0；g＜num_window_group；g++){band=(sfb*num_window_group)+gfor(i=swb_offset[band]；i＜swb_offset[band+1]；i+=4){cband=index2cd(g,i)；if(!decode_cband[g][cband]){acode_Model[g][cband]decode_cband[g][cband]=1；}}}}

0..130..13

bslbfbslbf

表7.10 bsac-spectral-data()的语法

语法

位数

备注

bsac_spectral_data(layer){layer_initianzation(layer),for(snf=maxsnf；snf＞0；snf--){for(i=0；i＜fast_index；i+=4){if(i＞=layer_index)continue；if(cur_snf[i]＜snf)continue；amodel_selection()dim0=dim1=0for(k=0；k＜4；k++)if(prestate[i+k])dim1++else dim0++if(dim0)acode_vec0if(dim1)acode_vec1construct_sample()；for(k=0；k＜4；k++){if(sample[i+k]&&!Prestate[i+k]){acode_signprestate[i+k]=1}}cur_snf[i]--if(total_estimated_bits＞=available_bits[layer])return}if(total_estimated_bits＞=avaiable_bits[layer])return}}

0..140..140..1

bslbfbslbfbslbf

位流的前导单元是在常规的AAC中可以使用的单元，而本发明中新提出的单元将进行特别解释，但原理结构与AAC标准的原理结构一样。下面，将对本发明中新提出的位流单元进行描述。

表7.5表示了对bsac_channel_stream编码的语法，其中的‘max_scalefactor’表示最大的比例因子，它是一个整数，即8位。

表7.6表示了对bsac_data编码的语法，其中的‘frame_length’表示一帧的所有位流的大小，它以字节为单位表达。而且，‘encoded_layer’表示对在位流中被编码的最高层的编码，在8 Kbps的间隔和1 Kbps的间隔的情况下分别为3位和6位。增强层的信息表示在表2.1和3.1中。另外，‘scalefactor_model’表示与在对比例因子的差量进行算法编码的过程中所用的模型有关的信息。这些模型表示在表4.1中。‘min_ArModel’表示算法编码模型索引的最小值。‘ArModel_model’表示与在算法编码ArModel和min_ArModel之间的一个差量信号的过程中所用的模型有关的信息。这一信息表示在表4.2中。

表4.1差量比例因子的算法模型

模型号	最大差量比例因子	模型所列的表
模型号	最大差量比例因子	模型所列的表	0	7	表5.1
1	15	表5.2	0	7	表5.1
1	15	表5.2	2	31	表5.3
3	63	表5.4	2	31	表5.3

表4.2差量ArModel的算法模型

模型号	最大差量比例因于	模型所列的表
模型号	最大差量比例因于	模型所列的表	0	3	表5.5
1	7	表5.6	0	3	表5.5

2	15	表5.7
2	15	表5.7	3	31	表5.8

表7.9表示对bsac_side_info进行编码的语法。对所有层都可使用的信息被首先编码，然后各增强层一般可用的辅助信息被编码。‘acode_scf’表示通过算法编码比例因子所得到的一个码字。‘acode_ArModel’表示通过算法编码ArModel所得到的一个码字。ArModel是与从表4.3中所列的模型中选择的模型有关的信息。

表4.3 BSAC算法模型参数

ArModel索引	编码带的分配位	模型所列的表	ArModel索引	编码带的分配位	模型所列的表
ArModel索引	编码带的分配位	模型所列的表	ArModel索引	编码带的分配位	模型所列的表	0	0	表6.1	16	8	表6.16
1		未用	17	8	表6.17	0	0	表6.1	16	8	表6.16
1		未用	17	8	表6.17	2	1	表6.2	18	9	表6.18
3	1	表6.3	19	9	表6.19	2	1	表6.2	18	9	表6.18
3	1	表6.3	19	9	表6.19	4	2	表6.4	20	10	表6.20
5	2	表6.5	21	10	表6.21	4	2	表6.4	20	10	表6.20
5	2	表6.5	21	10	表6.21	6	3	表6.6	22	11	表6.22
7	3	表6.7	23	11	表6.23	6	3	表6.6	22	11	表6.22
7	3	表6.7	23	11	表6.23	8	4	表6.8	24	12	表6.24
9	4	表6.9	25	12	表6.25	8	4	表6.8	24	12	表6.24
9	4	表6.9	25	12	表6.25	10	5	表6.10	26	13	表6.26
11	5	表6.11	27	13	表6.27	10	5	表6.10	26	13	表6.26
11	5	表6.11	27	13	表6.27	12	6	表6.12	28	14	表6.28
13	6	表6.13	29	14	表6.29	12	6	表6.12	28	14	表6.28
13	6	表6.13	29	14	表6.29	14	7	表6.14	30	15	表6.30
15	7	表6.15	31	15	表6.31	14	7	表6.14	30	15	表6.30

表6.1 BSAC算法模型0分配位=0BSAC算法模型1未用

表6.2 BSAC算法模型2分配位=1

snf	pre_state	维数	累积频率
snf	pre_state	维数	累积频率	1	0	4	14858,13706,12545,11545,10434,9479,8475,7619,6457,5456,4497,3601,2600,1720,862,0

表6.3 BSAC算法模型3分配位=1

snf	pre_state	维数	累积频率
snf	pre_state	维数	累积频率	1	0	4	5476,4279,3542,3269,2545,2435,2199,2111,850,739,592,550,165,21,0

表6.4 BSAC算法模型4分配位=2

snf	pre_state	维数	累积频率
snf	pre_state	维数	累积频率	2	0	4	4299,3445,2583,2473,1569,1479,1371,1332,450,347,248,219,81,50,15,0
1	0	4	15290,14389,13434,12485,11559,10627,9683,8626,7691,5767,4655 3646,2533,1415,0	2	0	4
1	0	4				3	15139,13484,11909,9716,8068,59193590,0
		2	14008,10384,6834,0			3	15139,13484,11909,9716,8068,59193590,0

1	11228,0
1	11228,0	1	4	10355,9160,7553,7004,5671,49024133,3433,1908,1661,1345,1222,796,714,233,0
3	8328,6615,4466,3586,1759,1062,321,0	1	4
3	8328,6615,4466,3586,1759,1062,321,0		2	4631,2696,793,0
1	968,0		2	4631,2696,793,0

表6.5 BSAC算法模型5分配位=2

snf	pre_state	维数	累积频率
snf	pre_state	维数	累积频率	2	0	4	3119,2396,1878,1619,1076,1051,870,826,233,231,198,197,27,26,1,0
1	0	4	3691,2897,2406,2142,1752,1668,1497,1404,502,453,389,368,131,102,18,0	2	0	4
1	0	4				3	11106,8393,6517,4967,2739,2200,608,0
		2	10771,6410,2619,0			3	11106,8393,6517,4967,2739,2200,608,0
		2	10771,6410,2619,0			1	6112,0
	1	4	11484,10106,7809,7043,5053,3521,2756,2603 2296,2143,1990,1531765,459,153,0			1	6112,0
	1	4				3	10628,8930,6618,4585,2858,2129,796,0
		2	7596,4499,1512,0			3	10628,8930,6618,4585,2858,2129,796,0
		2	7596,4499,1512,0			1	4155,0

表6.6 BSAC算法模型6分配位=3

snf	pre_state	维数	累积频率
snf	pre_state	维数	累积频率	3	0	4	2845,2371,1684,1524,918,882,760,729,200198,180,178,27,25,1,0
2	0	4	1621,1183,933,775,645,628,516,484,210,207,188,186,39,35,1,0	3	0	4
2	0	4	1621,1183,933,775,645,628,516,484,210,207,188,186,39,35,1,0			3	8800,6734,4886,3603,1326,1204,104,0
		2	8869,5163,1078,0			3	8800,6734,4886,3603,1326,1204,104,0
		2	8869,5163,1078,0			1	3575,0
	1	4	12603,12130,10082,9767,8979,8034,7404,6144,4253,3780,3150,2363,1575,945,630,0			1	3575,0
	1	4				3	10410,8922,5694,4270,2656,1601,533,0
		2	8459,5107,1670,0			3	10410,8922,5694,4270,2656,1601,533,0
		2	8459,5107,1670,0			1	4003,0
1	0	4	5185,4084,3423,3010,2406,2289,2169,2107,650,539,445,419,97,61,15,0			1	4003,0
1	0	4				3	13514,11030,8596,6466,4345,3250,1294,0
		2	13231,8754,4635,0			3	13514,11030,8596,6466,4345,3250,1294,0
		2	13231,8754,4635,0			1	9876,0
	1	4	14091,12522,11247,10299,8928,7954,6696,6024,4766,4033,3119,2508,1594,1008,353,0			1	9876,0
	1	4				3	12596,10427,7608,6003,3782,2580,928,0
		2	10008,6213,2350,0			3	12596,10427,7608,6003,3782,2580,928,0
		2	10008,6213,2350,0			1	5614,0

表6.7 BSAC算法模型7分配位=3

snf

pre_state

维数

累积频率

3	0	4	3833,3187,2542,2390,1676,1605,1385,1337468,434,377,349,117,93,30,0
3	0	4		2	0	4	6621,5620,4784,4334,3563,3307,2923,2682,1700,1458,1213,1040,608,431,191,0
		3	11369,9466,7519,6138,3544,2441,1136,0	2	0	4
		3	11369,9466,7519,6138,3544,2441,1136,0			2	11083,7446,3439,0
		1	8823,0			2	11083,7446,3439,0
		1	8823,0		1	4	12027,11572,9947,9687,9232,8126,7216,6176,4161,3705,3055,2210,1235,780,455,0
		3	9566,7943,4894,3847,2263,1596,562,0		1	4
		3	9566,7943,4894,3847,2263,1596,562,0			2	7212,4217,1240,0
		1	3296,0			2	7212,4217,1240,0
		1	3296,0	1	0	4	14363,13143,12054,11153,10220,9388,8609,7680,6344,5408,4578,3623 2762,1932,1099,0
		3	14785,13256,11596,9277,7581,5695,3348,0	1	0	4
		3	14785,13256,11596,9277,7581,5695,3348,0			2	14050,10293,6547,0
		1	10948,0			2	14050,10293,6547,0
		1	10948,0		1	4	13856,12350,11151,10158,8816,7913,6899,6214,4836,4062,3119,2505,1624,1020,378,0
		3	12083,9880,7293,5875,3501,2372,828,0		1	4
		3	12083,9880,7293,5875,3501,2372,828,0			2	8773,5285,1799,0
		1	4452,0			2	8773,5285,1799,0

表6.8 BSAC算法模型8分配位=4

snf	pre_state	维数	累积频率
snf	pre_state	维数	累积频率	4	0	4	2770,2075,1635,1511,1059,1055,928,923,204,202,190,188,98,1,0

3	0	4	1810,1254,1151,1020,788,785,767,758,139,138,133,132,14,13,1,0
3	0	4		3	7113,4895,3698,3193,1096,967,97,0
		2	6858,4547,631,0	3	7113,4895,3698,3193,1096,967,97,0
		2	6858,4547,631,0	1	4028,0
	1	4	13263,10922,10142,9752,8582,7801,5851,5071,3510,3120,2730,2340,1560,780,390,0	1	4028,0
	1	4		3	12675,11275,7946,6356,4086,2875,1097,0
		2	9473,5781,1840,0	3	12675,11275,7946,6356,4086,2875,1097,0
		2	9473,5781,1840,0	1	3597,0
2	0	4	2600,1762,1459,1292,989,983,921,916,238,233,205,202,32,30,3,0	1	3597,0
2	0	4		3	10797,8840,6149,5050,2371,1697,483,0
		2	10571,6942,2445,0	3	10797,8840,6149,5050,2371,1697,483,0
		2	10571,6942,2445,0	1	7864,0
	1	4	14866,12983,11297,10398,9386,8683,7559,6969,5451,4721,3484,3007,1882,1208,590,0	1	7864,0
	1	4		3	12611,10374,8025,6167,4012,2608,967,0
		2	10043,6306,2373,0	3	12611,10374,8025,6167,4012,2608,967,0
		2	10043,6306,2373,0	1	5766,0
1	0	4	6155,5057,4328,3845,3164,2977,2728,2590,1341,1095,885,764,303,188,74,0	1	5766,0
1	0	4		3	12802,10407,8142,6263,3928,3013,1225,0
		2	13131,9420,4928,0	3	12802,10407,8142,6263,3928,3013,1225,0
		2	13131,9420,4928,0	1	10395,0
	1	4	14536,13348,11819,11016,9340,8399,7135,6521,5114,4559,3521,2968,1768,1177,433,0	1	10395,0
	1	4		3	12735,10606,7861,6011,3896,2637,917,0
		2	9831,5972,2251,0	3	12735,10606,7861,6011,3896,2637,917,0

1

4944,0

表6.9 BSAC算法模型9分配位=4

snf	pre_state	维数	累积频率
snf	pre_state	维数	累积频率	4	0	4	3383,2550,1967,1794,1301,1249,1156,1118,340,298,247,213,81,54,15,0
3	0	4	7348,6275,5299,4935,3771,3605,2962,2818,1295,1143,980,860,310,230,75,0	4	0	4
3	0	4				3	9531,7809,5972,4892,2774,1782,823,0
		2	11455,7068,3383,0			3	9531,7809,5972,4892,2774,1782,823,0
		2	11455,7068,3383,0			1	9437,0
	1	4	12503,9701,8838,8407,6898,6036,4527,3664,2802,2586,2371,2155,1293,431,215,0			1	9437,0
	1	4				3	11268,9422,6508,5277,3076,2460,1457,0
		2	7631,3565,1506,0			3	11268,9422,6508,5277,3076,2460,1457,0
		2	7631,3565,1506,0			1	2639,0
2	0	4	11210,9646,8429,7389,6252,5746,5140,4692,3350,2880,2416,2014,1240,851,404,0			1	2639,0
2	0	4				3	12143,10250,7784,6445,3954,2528,1228,0
		2	10891,7210,3874,0			3	12143,10250,7784,6445,3954,2528,1228,0
		2	10891,7210,3874,0			1	9537,0
	1	4	14988,13408,11860,10854,9631,8992,7834,7196,5616,4793,3571,2975,1926,1212,627,0			1	9537,0
	1	4				3	12485,10041,7461,5732,3669,2361,940,0
		2	9342,5547,1963,0			3	12485,10041,7461,5732,3669,2361,940,0
		2	9342,5547,1963,0			1	5410,0
1	0	4	14152 13258,12486,11635,11040,10290,97408573,7546 6643,5903,4928,4005,2972,1751,0			1	5410,0

3	14895,13534,12007,9787,8063,5761,3570,0
3	14895,13534,12007,9787,8063,5761,3570,0		2	14088,10108,6749,0
1	11041,0		2	14088,10108,6749,0
1	11041,0	1	4	14817,13545,12244,11281,10012,8952,7959,7136,5791,4920,3997,3126,2105,1282,623,0
3	12873,10678,8257,6573,4186,2775,1053,0	1	4
3	12873,10678,8257,6573,4186,2775,1053,0		2	9969,6059,2363,0
1	5694,0		2	9969,6059,2363,0

表6.10 BSAC算法模型10分配位(Abit)=5

snf	pre_state	维数	累积频率
snf	pre_state	维数	累积频率	Abit	0	4	2335,1613,1371,1277,901,892,841,833,141,140,130,129,24,23,1,0
Abit-1	0	4	1746,1251,1038,998,615,611,583,582,106,104,101,99,3,2,1,0	Abit	0	4
Abit-1	0	4	1746,1251,1038,998,615,611,583,582,106,104,101,99,3,2,1,0			3	7110,5230,4228,3552,686,622,46,0
		2	6101,2575,265,0			3	7110,5230,4228,3552,686,622,46,0
		2	6101,2575,265,0			1	1489,0
	1	4	13010,12047,11565,11083,9637,8673,6264,5782,4336,3855,3373,2891,2409,1927,963,0			1	1489,0
	1	4				3	10838,10132,8318,7158,5595,3428,2318,0
		2	8209,5197,1287,0			3	10838,10132,8318,7158,5595,3428,2318,0
		2	8209,5197,1287,0			1	4954,0
Abit-2	0	4	2137,1660,1471,1312,1007,1000,957,951,303,278,249,247,48,47,1,0			1	4954,0
Abit-2	0	4				3	9327,7413,5073,4391,2037,1695,205,0
		2	8658,5404,1628,0			3	9327,7413,5073,4391,2037,1695,205,0

1	5660,0
1	5660,0		1	4	13360,12288,10727,9752,8484,7899,71196631,5363,3900,3023,2535,1852,1267,585,0
3	13742,11685,8977,7230,5015,3427,1132,0		1	4
3	13742,11685,8977,7230,5015,3427,1132,0			2	10402,6691,2828,0
1	5298,0			2	10402,6691,2828,0
1	5298,0	Abit-3	0	4	4124,3181,2702,2519,1949,1922,1733,1712,524,475,425,407,78,52,15,0
3	10829,8581,6285,4865,2539,1920,594,0	Abit-3	0	4
3	10829,8581,6285,4865,2539,1920,594,0			2	11074,7282,3092,0
1	8045,0			2	11074,7282,3092,0
1	8045,0		1	4	14541,1 3343,11637,10862,9328,8783,7213,6517,5485,5033,4115,3506,2143,1555,509,0
3	13010,11143,8682,7202,4537,3297,1221,0		1	4
3	13010,11143,8682,7202,4537,3297,1221,0			2	9941,5861,2191,0
1	5340,0			2	9941,5861,2191,0
1	5340,0	其它snf	0	4	9845,8235,7126,6401,5551,51 31,4664,4320,2908,2399,1 879,1506,935,603,277,0
3	13070,11424,9094,7203,4771,3479,1486,0	其它snf	0	4
3	13070,11424,9094,7203,4771,3479,1486,0			2	13169,9298,5406,0
1	10371,0			2	13169,9298,5406,0
1	10371,0		1	4	14766,13685,12358,11442,10035,9078,7967,7048,5824,5006,4058,3400,2350,1612,659,0
3	13391,11189,8904,7172,4966,3183,1383,0		1	4
3	13391,11189,8904,7172,4966,3183,1383,0			2	10280,6372 2633,0
1	5419,0			2	10280,6372 2633,0

表6.11 BSAC算法模型11分配位(Abit)=5

snf	pre_state	维数	累积频率
snf	pre_state	维数	累积频率	Abit	0	4	2872,2294,1740,1593,1241,1155,1035,960,339,300,261,247,105,72,34,0
Abit-1	0	4	3854,3090,2469,2276,1801,1685,1568,1505,627,539,445,400,193,141,51,0	Abit	0	4
Abit-1	0	4				3	10654,8555,6875,4976,3286,2229,826,0
		2	10569,6180,2695,0			3	10654,8555,6875,4976,3286,2229,826,0
		2	10569,6180,2695,0			1	6971,0
	1	4	11419,11170,10922,10426,7943,6950,3723,3475,1737,1489,1241,992,744,496,248,0			1	6971,0
	1	4				3	11013,9245,6730,4962,3263,3263,1699,883,0
		2	6969,4370,1366,0			3	11013,9245,6730,4962,3263,3263,1699,883,0
		2	6969,4370,1366,0			1	3166,0
Abit-2	0	4	9505,8070,6943,6474,5305,5009,4290,4029,2323,1911,1591,1363,653,443,217,0			1	3166,0
Abit-2	0	4				3	11639,9520,7523,6260,4012,2653,1021,0
		2	12453,8284,4722,0			3	11639,9520,7523,6260,4012,2653,1021,0
		2	12453,8284,4722,0			1	9182,0
	1	4	13472,12294,10499,9167,7990,7464,6565,6008,4614,3747,2818,2477,1641,1084,557,0			1	9182,0
	1	4				3	13099,10826,8476,6915,4488,2966,1223,0
		2	9212,5772,2053,0			3	13099,10826,8476,6915,4488,2966,1223,0
		2	9212,5772,2053,0			1	4244,0

Abit-3	0	4	14182,12785,11663,10680,9601,8748,8135,7353,6014,5227,4433,3727,2703,1818,866,0
Abit-3	0	4		3	13654,11814,9714,7856,5717,3916,2112,0
		2	12497,8501,4969,0	3	13654,11814,9714,7856,5717,3916,2112,0
		2	12497,8501,4969,0	1	10296,0
	1	4	15068,13770,12294,11213,10230,9266,8439,7438,6295,5368,4361,3620,2594,1797,895,0	1	10296,0
	1	4		3	13120,10879,8445,6665,4356,2794,1047,0
		2	9311,5578,1793,0	3	13120,10879,8445,6665,4356,2794,1047,0
		2	9311,5578,1793,0	1	4695,0
其它snf	0	4	15173,14794,14359,13659,13224,12600,11994,11067,10197,9573,9081,7624,6697,4691,3216,0	1	4695,0
其它snf	0	4		3	15328,13985,12748,10084,8587,6459,4111,0
		2	14661,11179,7924,0	3	15328,13985,12748,10084,8587,6459,4111,0
		2	14661,11179,7924,0	1	11399,0
	1	4	14873,13768,12458,11491,10229,9164,7999,7186,5992,5012,4119,3369,2228,1427,684,0	1	11399,0
	1	4		3	13063,10913,8477,6752,4529,3047,1241,0
		2	10101,6369,2615,0	3	13063,10913,8477,6752,4529,3047,1241,0
		2	10101,6369,2615,0	1	5359,0

表6.12 ASAC算法模型12

与BSAC算法模型10相同，但分配位=6

表6.13 ASAC算法模型13

与BSAC算法模型11相同，但分配位=6

表6.14 ASAC算法模型14

与BSAC算法模型10相同，但分配位=7

表6.15 ASAC算法模型15

与BSAC算法模型11相同，但分配位=7

表6.16 ASAC算法模型16

与BSAC算法模型10相同，但分配位=8

表6.17 ASAC算法模型17

与BSAC算法模型11相同，但分配位=8

表6.18 ASAC算法模型18

与BSAC算法模型10相同，但分配位=9

表6.19 ASAC算法模型19

与BSAC算法模型11相同，但分配位=9

表6.20 ASAC算法模型20

与BSAC算法模型10相同，但分配位=10

表6.21 ASAC算法模型21

与BSAC算法模型11相同，但分配位=10

表6.22 ASAC算法模型22

与BSAC算法模型10相同，但分配位=11

表6.23 ASAC算法模型23

与BSAC算法模型11相同，但分配位=11

表6.24 ASAC算法模型24

与BSAC算法模型10相同，但分配位=12

表6.25ASAC算法模型25

与BSAC算法模型11相同，但分配位=12

表6.26 ASAC算法模型26

与BSAC算法模型10相同，但分配位=13

表6.27 ASAC算法模型27

与BSAC算法模型11相同，但分配位=13

表6.28 ASAC算法模型28

与BSAC算法模型10相同，但分配位=14

表6.29 ASAC算法模型29

与BSAC算法模型11相同，但分配位=14

表6.30 ASAC算法模型30

与BSAC算法模型10相同，但分配位=1 5

表6.31 ASAC算法模型31

与BSAC算法模型11相同，但分配位=15

表6.1～表6.31

表7.10表示的是对bsac_spectral_data进行编码的语法。各增强层通常所用的辅助信息、量化频率部分首先利用BSAC技术进行位分片，然后进行算法编码。‘acode_vec0’表示通过利用被定义为ArMordel值的算法模型对第一个子向量(子向量0)进行算法编码所得到的一个码字。

‘acode_vec1’表示通过利用被定义为ArModel值的算法模型对第二个子向量(子向量1)进行算法编码所得到的一个码字。‘acode_sign’表示利用在表5.9中定义的算法模型对符号位进行算法编码所得到的一个码字。

表5.9符号算法模型

大小	累积频率
大小	累积频率	2	8192.0

在计算编码各子向量时所用的位数并与各增强层的可用位数进行比较的过程中，当所用位等于或多于可用位时，下一增强层的编码重新开始。

在长块的情况下，由于基层的带宽被限制为最多到第21个比例因子带，因此，到第21个比例因子带的比例因子和对应的编码带的算法编码模型被进行编码。从算法编码模型中得到位分配信息。从分配给每编码带的位信息中可得到分配位的最大值，然后通过前面提到的编码方法从最大量化位值中执行编码。如果某一个带的分配位少于当前被编码的带的位，将不执行编码。当某一个带的分配位与当前正编码的带的位相等时，带被第一次编码。由于基层的比特率为16 Kbps，因此整个位余量为336位。因此，被用位的总数量被顺序进行计算并在位数量超过336时结束编码。

在基层(16 Kbps)的所有位流都被形成之后，将形成下一增强层的位流。由于对较高的层其限制带宽增大，所以只对新加入到基层的限制带中的新加入带执行比例因子的编码和算法编码模型。在基层中，每一个带的未编码的位分片数据和新加入的带的位分片数据按与基层中的方法相同的万法从MSBs被编码。当总的使用位的数量大于可用位数量时，编码结束并为形成下一增强层位流作准备。按这种方法，可以生成剩下的层32、40、48、56和64Kbps的位流。

现在，将描述解码过程。

3.1.位流的分析和解码

3.1.1.bsac_channel_stream的解码

bsac_channel_stream的解码如表7.5所示，按从Get max_scale因子到Getics_info()和Get BSAC数据的顺序被执行。

3.1.2.bsac_data的解码

解码frame_length、encoded_layer、比例因子模型和算法模型中所必要的辅助信息在位流中被解码，如表7.6所示。

3.1.3.bsac_side_info的解码

上面所形成的可缩放的位流具有分层结构。首先，将基层的辅助信息与位流分离并进行解码。然后，将基层的位流中所包含的量化频率部分的位分片信息与位流分离并进行解码。与基层所用的解码过程一样的过程可以应用于其它增强层。

1)比例因子的解码

频率部分被分解为比例因子带，它们具有为4的倍数的频率系数。max_scalefactor被解码为一个8位的无符号整数。对所有的比例因子可获得比例因子和max_scalefactor之间的差量，并随后对其进行算法解码。在对差量进行解码的过程中所用的算法模型是形成位流的单元之一，并将其与已经被解码的位流分离。原始的比例因子可以按编码过程的逆顺序被恢复。

以下的伪代码描述了基层和其它增强层的比例因子的解码方法。

　　for(g=0；g＜num_window_group；g++){

　　for(sfb=layer_sfb[layer]；sfb＜layer_sfb[layer+1]；sfb++){

　　    sf[g][sfb]=max_scalefactor-arithmetic_decoding()；

　　}

　　}

在此，layer_sfb[layer]是对各增强层中的比例因子进行解码的起始比例因子带，而layer_sfb[layer+1]则是结束比例因子带。

2)算法模型索引的解码

频率部分被分解为编码带，它们具有要进行无损耗编码的32个频率系数。编码带是无损耗编码中所用的基本单元。算法编码模型索引是与算法编码/解码每个编码带的位分片数据过程中所用的模型有关的信息，它表示在算法编码/解码过程中使用了表4.3中所列的模型中的哪个模型。

首先计算有关偏移值和所有算法编码模型索引之间的差量，然后利用表4.2中所列的模型对差量信号进行算法编码。在此，在表4.2中所列的四个模型中，要使用的一个模型用ArModel_model的值表示，并以2位存放到位流中。偏移值是存放在位流中的5位的min_ArModel值。差量信号首先按编码过程的逆顺序被解码，然后将差量信号加到偏移值上来恢复算法编码模型索引。

以下的伪代码描述了算法编码模型索引和各增强层中的ArModel[cband]解码方法。

　　for(sfb=layer_sfb[layer]；sfb＜iayer_sfb[layer+1]；sfb++)

　　  for(g=0；g＜num_window_group；g++){

　　      band=(sfb*num_window_group)+g

　　       for(i=0；swb_offset[band]；i＜swb_offset[band+1]；i+=4){

　　           cband=index2cb(g,i)；

　　           if(！decode_cband[ch][g][cband]){ArModel[g][cband]=min_ArModel+arithmetic_decoding()

　　       decode_cband[ch][g][cband]=1；

　　     }

　　  }
   }

在此，layer_sfb[layer]是对各增强层中的算法编码模型索引进行解码的一个起始比例因子带，而layer_sfb[layer+1]则是结束比例因子带。decode_cband[ch][g][cband]是表示算法编码模型已经被解码(1)还是没有解码(0)的一个标记。

3.1.4.位分片数据的解码

量化序列被形成为位分片序列。各四维向量根据它们的状态被分解为两个子向量。为了有效压缩，两个子向量被算法编码为无损耗编码。确定每一编码带的算法编码中要用的模型。此信息存放到ArModel中。

如表6.1到表6.31中所示，各算法编码模型由几个低阶模型组成。子向量被用一个低阶模型编码。低阶模型根据要编码的子向量的维数、一个向量的有效位或各样本的编码状态进行分类。向量的有效位通过要编码的向量的位的位置确定。换句话说，一个向量的有效位根据位分片信息是有关MSB、下一MSB还是LSB的信息的不同而有所不同。MSB具有最高的有效位，而LSB具有最低的有效位。各样本的编码状态值随向量编码从MSB到LSB的过程进行更新。开始，编码状态值被初始化为零。随后，当碰到非零位值时，编码状态值变为1。

两个子向量是一维到四维的向量。子向量从MSB到LSB，从低频部分到高频部分被进行算法编码。在将位分片数据以编码带为单位传输到每一编码带之前，算法编码中所用的算法编码模型索引被首先按从低频到高频的顺序存放在位流中。

各位分片数据被算法编码来得到码字索引。利用以下伪代码，通过位连接，这些索引被恢复成原始量化数据。

‘pre_state[]’是表示当前被解码的值是否为0的一个状态。‘snf’是被解码向量的有效位。‘idx0’是其以前状态为0的一个码字索引。‘idx1’是其以前状态为1的一个码字索引。‘dec_sample[]’是被解码数据。‘start i’是被解码向量的起始频率线。

for(i=start_i；i＜(start_i+4)；i++){

　　   if(prc_state[i]){

　　       if(idx1 &amp; 0x01)

　　           dec_sample[i]=(1＜＜(snf-1))

　　       idx1＞＞=1；

　　  }

　　 else{

　　       if(idx0 &amp; 0x01)

　　           dec_sample[i]=(1＜＜(snf-1))

　　       idx0＞＞=1；
				
				<dp n="d47"/>
　　   }

　　}

当量化的频率部分的位分片数据从MSB到LSB被编码时，非零频率系数的符号位被进行算法编码。负(-)符号位用1来表示，而正(+)符号位用0来表示。

因此，如果位分片数据在解码器中被算法解码且首先碰到一个非零算法解码位值，那么在位流中，后面将跟有符号信息，即acode_sign。利用此信息并通过表5.9中所列的模型，sign_bit被算法解码。如果sign_bit是1，那么符号信息被赋予如下通过连接独立数据而形成的量化数据(y)。

　　if(y!=0)

　　    if(sign_bit==1)

　　       y=-y

3.2.反向量化

反向量化部分将解码的比例因子和量化数据恢复为具有原始量值的信号。反向量化过程在AAC标准中已经进行了描述。

3.3.频率/数据映射

频率/数据映射部分反向地将频域的音频信号转换为时域信号，以便可由用户重新生成。将频域信号映射为时域信号的公式在AAC标准中定义。另外，诸如与映射有关的窗口等不同项在AAC标准中也已经描述过。

前面所提到的本发明的实施例可以以在计算机中可执行的程序的形式出现。程序可以存储在诸如CD-ROM、硬盘、软盘或存储器等记录媒体中。记录媒体是商业可用的。记录媒体显然在本发明的范围之内。

本发明可以在从计算机可用媒体中运行一个程序的通用数字计算机中实现，计算机可用媒体包括但不仅仅限于磁存储媒体(如ROM、软盘、硬盘等)、光可读媒体(如CD-ROM、DVD等)和载波(如在Internet上传输)等存储媒体。因此，本发明可以实施为其中具有计算机可读程序代码装置来编码预定数目的一个数字数据序列的计算机可用媒体，计算机可用媒体中的计算机可读程序代码装置包括，使计算机完成对输入音频信号的信号处理以及量化每一预定编码带的输入音频信号的计算机可读程序代码装置和使计算机完成对量化数据的打包来产生位流的计算机可读程序代码装置，其中位流产生步骤包括编码与基层对应的量化数据、编码与被编码的基层的下一增强层对应的量化数据以及因层大小限制而没被编码且属于被编码层的剩下的量化数据，随后对所有增强层顺序执行层编码步骤来形成位流，其中基层编码步骤、增强层编码步骤和随后的编码步骤执行的结果是与要编码的层所对应的辅助信息和量化数据用相同预定数目的位来表示；然后利用预定的概率模型、按从MSB序列到LSB序列的顺序对其进行算法编码，辅助信息包括在算法编码中要使用的比例因子和概率模型。从在此所包含的对本发明的描述中，熟练的计算机编程人员可以提取出用来实现本发明的功能程序、代码和代码段。

根据本发明，在使用MPEG-2 AAC等常规的音频算法时，只对无损耗编码部分进行修改来允许比例性。

另外，由于使用了常规的音频算法，所以简化了实现本发明所必需的操作。

由于位流是可缩放的，所以一个位流可以包括具有几个比特率的不同位流。如果将本发明与AAC标准相结合，那么以最高层的比特率几乎可以达到同样的音频质量。

另外，由于对每一层，编码是根据量化位的有效位来执行的，而不是在处理了前一层的量化信号和原始信号之间的差量之后才执行编码，所以降低了编码装置的复杂性。

由于一个位流包括多个位流，所以各层的位流可以简单生成，且降低了代码转换机的复杂性。

如果由于限制带宽使比特率降低，那么滤波器的复杂性，这是复杂的编码和解码的重要来源，将大大减少。因而减少了编码和解码装置的复杂性。

另外，根据用户的解码器的性能和传输通道的带宽/拥挤或用户的需要，可以对比特率或复杂性进行控制。

为满足用户的各种需要，形成了灵活的位流。换句话说，根据用户的需要，各层的比特率信息与一个位流结合而无重叠，因而提供了具有很好的音频质量的位流。另外，在传输终端和接收终端之间不必有转换器。此外，可以适应任何传输通道状态和各种用户需要。

Claims

1、一种可缩放的音频编码方法，用来将音频信号编码为具有一个基层和预定数目的增强层的一个分层数据流。包括步骤：

信号处理及量化每一预定编码带的输入音频信号；以及

打包量化数据产生位流，其中位流产生步骤包括：

编码与基层对应的量化数据；

编码与被编码基层的下一增强层对应的量化数据以及因为层大小限制而未编码的且属于编码层的剩下的量化数据；以及

顺序地对所有增强层执行层编码步骤，其中执行基层编码步骤、增强层编码步骤和随后的编码步骤以使与要编码的一个层的对应的辅助信息和量化数据由一个相同预定数目的数字来表示；然后按从MSB序列到LSB序列的顺序、利用预定概率模型对其进行算法编码，辅助信息包括在算法编码中要使用的比例因子和概率模型。

2、根据权利要求1的可缩放的音频编码方法，其中比例因子的编码步骤包括步骤：

得到最大比例因子；以及

得到最大比例因子和各比例因子之间的差量并对差量进行算法编码。

3、根据权利要求2的可缩放的音频编码方法，其中在对差量进行算法编码的步骤中使用了表5.1到表5.4中所列的概率模型。

4、根据权利要求1的可缩放的音频编码方法，其中在算法编码步骤中使用了表6.1到表6.31中所列的概率模型。

5、根据权利要求4的可缩放的音频编码方法，其中概率模型信息的编码由以下步骤执行：

得到概率模型信息值的最小值；

得到最小概率模型信息和各模型信息值之间的差量并对差量进行算法编码。

6、根据权利要求5的可缩放的音频编码方法，其中在算法编码步骤中使用了表5.5到表5.9中所列的概率模型。

7、根据权利要求1的可缩放的音频编码方法，其中，当量化数据由符号数据和量值数据组成时，编码步骤包括步骤：

通过预定的编码方法对由用相同数目的位表示的量化数据的量值数据的最高有效位组成的最高有效位序列进行编码；

对与被编码的最高有效位序列中的非零数据对应的符号数据进行编码；

通过预定编码方法对未编码的数字数据的量值数据中的最高有效位序列进行编码；

对与位序列中的非零量值数据对应的符号数据中的未编码符号数据进行编码；以及

对数字数据的各位执行量值数据编码步骤和符号数据编码步骤。

8、根据权利要求7的可缩放的音频编码方法，其中概率模型大小为2，累积频率值为8192，且0被用于符号数据的算法编码步骤中。

9、根据权利要求7的可缩放的音频编码方法，其中的编码步骤通过将组成各量值数据和符号数据的位序列的位连接成预定数目的位单元来执行。

10、根据权利要求9的可缩放的音频编码方法，其中位的数目为4。

11、根据权利要求9或10的可缩放的音频编码方法，其中以位单元连接的一个四维向量根据它在编码各采样的过程中的预状态被分解为两个子向量。

12、根据权利要求1的可缩放的音频编码方法，其中基层的比特率为16kbps，而层间的比特率为8kbps。

13、根据权利要求1的可缩放的音频编码方法，其中基层的比特率为16kbps，而层间的比特率为1kbps。

14、根据权利要求1的可缩放的音频编码方法，其中一般被所有带所用的头部信息被编码，且通过位分片信息形成各层所必要的分解信息和量化频率，然后对其编码使其具有分层结构。

15、根据权利要求1的可缩放的音频编码方法，其中按以下步骤执行量化：

将时域的输入音频信号转换为频域信号；

通过时间/频率映射将转换信号连接为预定子带信号并计算每一有子带上的遮蔽门限；以及

量化每一预定编码带的信号，使得每个带的量化噪声小于遮蔽门限。

16、一个可缩放的音频编码装置，包括：

一个量化部分，用于信号处理和量化每一编码带的输入音频信号；以及

一个位打包部分，用于通过带限一个基层使其可缩放、编码与基层对应的辅助信息、从最高有效位序列到最低有效位序列以及从低频部分到高频部分顺序编码量化信息、以及编码与基层的下一增强层对应的辅助信息和量化数据来对所有层执行编码以形成位流。

17、根据权利要求16的可缩放的音频编码装置，其中量化部分包括：

一个时间/频率映射部分，用于将时域的输入音频信号转换为频域信号；

一个音质评价部分，用于通过时间/频率映射将转换信号连接为预定子带信号，并利用各信号之间的相互作用而产生的遮蔽现象来计算每一子带上的遮蔽门限；以及

一个量化部分，用于量化每一预定编码带的信号，并将每一个带的量化噪声与遮蔽门限进行比较。

18、对被编码为具有分层比特率的音频数据进行解码的一种可缩放的音频解码方法，包括步骤：

按层在具有分层比特率的数据流中的创建顺序、通过分析组成数据流的位的有效位、从高有效位到低有效位、利用与量化数据对应的算法编码模型，解码至少具有比例因子和被分配给每一个带的算法编码模型信息的辅助信息。

将被解码的比例因子和量化数据恢复为具有原始量值的信号；以及

将反向量化的信号转换为时域信号。

19、根据权利要求18的可缩放的音频解码方法，其中位流以四维向量为单位进行解码。

20、根据权利要求19的可缩放的音频解码方法，其中四维向量根据各采样的编码状态从被算法解码的两个子向量来恢复。

21、根据权利要求20的可缩放的音频解码方法，其中在算法解码步骤中使用了表6.1到表6.31中所列的概率模型。

22、根据权利要求18的可缩放的音频解码方法，其中比例因子的解码按以下步骤执行：

解码位流中的最大比例因子，算法解码最大比例因子和各比例因子之间的差量并从最大比例因子中减去差量。

23、根据权利要求22的可缩放的音频解码方法，其中在算法解码步骤中使用了表5.1到表5.4中所列的概率模型。

24、根据权利要求18的可缩放的音频解码方法，其中算法模型索引的解码是通过解码位流中的最小算法模型索引、解码最小算法模型索引和各层的辅助信息中的各索引之间的差量并将差量与最小索引相加来执行的。

25、根据权利要求22的可缩放的音频解码方法，其中在算法解码步骤中使用了表5.5到5.8中所列的概率模型。

26、一个可缩放的音频解码装置，包括：

一个位流分析部分，用于按层在分层位流中的创建顺序，解码至少具有比例因子和算法模型信息的辅助信息和量化数据；

一个反向量化部分，用于将解码的比例因子和量化数据恢复成具有原始量值的信号；以及

一个频率/时间映射部分，用于将反向量化的频域信号转换为时域信号。

27、一种计算机可用媒体，它包括一个可由机器执行的指令程序，用来执行可缩放的音频编码方法，将音频信号编码为至少具有一个基层和预定数目的增强层的分层数据流，此方法包括步骤：

信号处理和量化每一预定编码带的输入音频信号；以及

打包量化数据以生成位流，其中位流生成步骤包括：

编码与基层对应的量化数据；

编码与被编码基层的下一增强层对应的量化数据和因为层大小限制而未编码的和属于被编码层的剩下的量化数据；以及

对所有增强层顺序执行层编码步骤来形成位流，其中执行基层编码步骤、增强层编码步骤和随后的编码步骤以使与要编码的层对应的辅助信息和量化数据由相同的预定数目的数字来表示；然后按从MSB序列到LSB序列的顺序利用预定概率模型对其进行算法编码，辅助信息包括在算法编码中使用的比例因子和概率模型。

28、根据权利要求27的程序存储装置，其中比例因子编码步骤包括步骤：

得到最大比例因子；以及

29、根据权利要求28的程序存储装置，其中概率模型信息的编码按以下步骤执行：

得到概率模型信息值的最小值；

得到最小概率模型信息和各模型信息值之间的差量并利用表5.5到表5.9中所列的概率模型对其进行算法编码。

30、一种计算机可用媒体，它包括了一个可由机器执行的指令程序，用来执行可缩放的音频解码方法，解码被编码为具有分层比特率的音频数据，包括步骤：

按层在具有分层比特率的数据流中创建的顺序、通过分析组成数据流的位的有效位、从高有效位到低有效位、利用与量化数据对应的算法编码模型解码至少具有比例因子和分配给每一个带的算法编码模型信息的辅助信息；

将解码的比例因子和量化数据恢复为具有原始量值的信号；以及

将反向量化信号转换为时域信号，能读取程序的记录媒体利用计算机来执行可缩放的音频编码方法。

31、根据权利要求30的程序存储装置，其中位流是以四维向量为单位被解码的，且在四维向量中的四个采样的位分片信息被解码。

32、根据权利要求30的程序存储装置，其中比例因子的解码是通过解码最大比例因子、算法编码最大比例因子和各比例因子之间的差量并将差量从最大比例因子中减去来执行的。

33、根据权利要求30的程序存储装置，其中算法模型索引的解码是通过解码位流中的最小算法模型索引、解码最小索引和各层的辅助信息中的各索引之间的差量并将最小索引与差量相加来执行的。