CN102047564A

CN102047564A - 将重叠变换因式分解成两个块变换

Info

Publication number: CN102047564A
Application number: CN2009801209539A
Authority: CN
Inventors: S·梅若特拉
Original assignee: Microsoft Corp
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2008-05-30
Filing date: 2009-05-22
Publication date: 2011-05-04
Anticipated expiration: 2029-05-22
Also published as: EP2279562A4; US8447591B2; EP2279562B1; JP2011522291A; WO2009148858A3; KR101679083B1; CN102047564B; WO2009148858A2; KR20110021803A; JP5400143B2; EP2279562A2; US20090299754A1

Abstract

音频编码器/解码器使用具有可逆实现的重叠加窗变换与块变换的组合以提供可逆的、整数-整数形式的重叠变换。该可逆重叠变换准许对具有可变子帧大小的音频信号进行有损和无损变换域编码。

Description

将重叠变换因式分解成两个块变换

背景

随着便携式数字媒体播放器、用于音乐存储的紧致盘以及因特网上的音频递送的引入，以数字音频格式存储、购买和分发音乐及其他音频内容现在是很常见的。数字音频格式使得人们能够在其个人计算机(PC)或便携式媒体播放器上有成百上千首音乐歌曲可用。

知觉变换编码

该音频编码利用挖掘人类听觉的各种知觉模型的编码技术。例如，靠近强声调的许多较弱声调被掩蔽以使得无需对它们进行编码。在传统的知觉音频编码中，这是作为对不同频率数据的自适应量化来利用的。知觉重要频率数据被分配较多位及由此较精细的量化，反之亦然。

例如，变换编码常规上以用于压缩音频信号的高效方案著称。输入音频被数字地时间采样。在变换编码中，输入音频样本块被变换(例如，经由使用最广泛的修正离散余弦变换，即MDCT)，处理，并量化。对经变换系数的量化是诸如经由标量量化器基于知觉重要性(例如，掩蔽效应和人类听觉的频率敏感度)来执行的。

在使用标量量化器时，该重要性被映射到相对加权，并且从每一个系数的权重和全局分辨率来导出该系数的量化器分辨率(步长)。全局分辨率可从目标质量、比特率等来确定。对于给定步长，每一个系数被量化成为零或非零整数值的水平。

在较低比特率下，零水平系数通常比非零水平系数多得多。它们可用行程长度编码来高效率地编码，行程长度编码可与诸如Huffman编码等熵编码方案组合。

重叠变换和可变窗口帧大小

许多音频压缩系统利用调制重叠变换(MLT，也称之为修正离散余弦变换，即MDCT)来执行音频变换编码中的时频分析。MLT减少由于量化而引入到所重构的音频信号中的成块伪像。更具体地，在非重叠的块被独立地进行变换编码时，在解码器处重构音频信号之际，量化误差将在信号中的块边界处产生不连续性。对于音频，听到周期性微小静电干扰声(clicking)效应。

MLT通过重叠块减少该成块效应。在MLT中，来自两个连贯块的2M个样本的“窗口”经历调制余弦变换。返回M个变换系数。然后将窗口移动M个样本，并计算下一组M个变换系数。因此，每一个窗口重叠前一窗口的后M个样本。尽管变换系数由于量化而改变，但重叠增强了重构样本的连续性。

一些音频压缩系统随时间改变窗口的大小以适应音频不断变化的性质。音频编码器通常将输入音频信号划分成固定大小的“帧”，每一帧为一编码单位(例如，可在每一帧的首部部分中发送编码表和/或参数)在使用时变MLT的音频压缩系统中，每一帧可包含一个或多个具有可变大小的“窗口”，每一个窗口为一MLT单位。一般而言，较大的窗口对于编码效率是有益处的，而较小的窗口提供较好的时间分辨率。因此，对在何处采用什么窗口大小的决定对于编码信号的压缩性能和听觉质量是至关重要的。

音频编码中的一个问题常被称为“前回声”。当音频经历突变(称为“瞬变”)时发生前回声。在变换编码中，特定频率系数常被量化(即，分辨率降低)。当变换系数在稍后被逆变换以再现音频信号时，此量化引入分布在时域的整个块上的量化噪声。这固有地导致在编码帧内非常均匀的噪声拖尾效应。对于该帧的某个部分一般可容忍的噪声可能被听到，并且对于该帧中掩蔽水平较低的那些部分期间的听觉质量是灾难性的。实际上，此效应在信号继低能量区域之后立即有急剧冲击时显得尤为突出，因此称为“前回声”。由于人类听觉系统的属性，在信号从高能量转换至低能量时发生的“后回声”对可感觉到的听觉质量而言问题较小。

重叠变换和无损编码

重叠变换也可被用于无损编码。许多无损编码技术在时域中对音频信号数据进行操作。然而，通过对在施加重叠变换之后不经过量化所得到的变换系数简单地执行熵编码或其他无损编码，也可在频域中执行无损编码。这样的频域无损编码使得能够更为容易地一同导出音频信号的有损和无损压缩版本。但是，频域无损压缩技术要求变换是可逆的。此外对于使得变换可逆所需要的一致性计算，该变换应具有整数实现。

可逆的整数-整数变换造成的困难在于它们要求使用行列式为1的方形变换矩阵来实现，这与其实现在变换矩阵中使用矩形子块的重叠变换设计不兼容。先前已知的可逆重叠变换也已通常要求对于音频信号的所有子帧要有相同的子帧配置，这与如上所讨论地采用可变子帧大小以诸如减小前回声的音频编解码器不兼容。

在先前的可逆变换实现中，诸如MDCT和MLT之类的变换被作为2NxN变换来处理，其中使2NxN变换可逆。尽管此程序在所有子帧为相同大小时是很好的，但在子帧大小变化时工作得不是特别好。另外，重叠正交变换具有难以理解和修改的实现。

概述

以下详细描述涉及使用具有可变子帧大小的重叠变换的用于变换域中的无损音频压缩的各种音频编码/解码技术和工具。这些技术使用对应可变帧大小的可逆整数-整数重叠变换的实现，这可以通过将诸如调制重叠变换之类的变换分解成两个移位块变换的组合来行程，一个移位块变换是重叠变换，而另一个是块变换(诸如任何类型的标准DCT)。

提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本概述不旨在标识所要求保护的主题的关键特征或本质特征，也不旨在用于帮助确定所要求保护的主题的范围。本发明的其它特征和优点在参考附图继续阅读以下对实施例的详细描述后将变得显而易见。

附图简述

图1)是可结合来实现所描述的各实施例的通用操作环境的框图。

图2)、3)、4)和5)是可结合来实现所描述的各实施例的通用编码器和/或解码器的框图。

图6)是示出用于音频比特流的示例子帧配置的示图。

图7)是示出图6)中的示例子帧配置中被施加了重叠变换的重叠算子部分的重叠区的示图。

图8)是说明图6)的示例子帧配置中向其施加了重叠变换的块变换部分的块的示图。

详细描述

描述了用于表示、编码和解码音频信息的各种技术和工具。这些技术和工具便于即使以非常低的比特率来创建、分发和回放高质量音频内容。

本文描述的各种技术和工具可以独立使用。某些技术和工具也可以结合使用(例如，在组合的编码和/或解码过程的各不同阶段)。

如下将参考处理动作的流程图描述各种技术。在流程图中示出的各种处理动作可以合并为更少的动作或者分割成更多的动作。为了简明，在特定流程图中示出的各动作与在其它地方描述的各动作之间的关系通常没有示出。在许多情况下，可以重排流程图中的动作。

大部分详细描述着眼于表示、编码和解码音频信息。此处所描述的用于表示、编码和解码音频信息的许多技术和工具也可应用于视频信息、静止图像信息或在单个或多个通道中发送的其它媒体信息。

I.计算环境

图1示出了其中可实现所描述的实施例的合适计算环境100的一个通用示例。计算环境100并非对使用范围或功能提出任何限制，因为所描述的实施例可以在完全不同的通用或专用计算环境中实现。

参考图1，计算环境100包括至少一个处理单元110和存储器120。在图1中，这一最基本配置130包括在虚线内。处理单元110执行计算机可执行指令，且可以是真实或虚拟处理器。在多处理系统中，多个处理单元执行计算机可执行指令以提高处理能力。处理单元还可包括中央处理单元和协作处理器，和/或专用或特殊用途的处理单元(例如，音频编码器)。存储器120可以是易失性存储器(例如，寄存器、高速缓存、RAM)、非易失性存储器(例如，ROM、EEPROM、闪存)或两者的某一组合。存储器120储存实现根据一个或多个所描述的实施例的一个或多个音频处理技术和/或系统的软件180。

计算环境可具有其他特征。例如，计算环境100包括存储140、一个或更多个输入设备150、一个或更多个输出设备160以及一个或更多个通信连接170。诸如总线、控制器或网络等互连机制(未示出)将计算环境100的组件互连。通常，操作系统软件(未示出)为在计算环境100中执行的软件提供了操作环境，并协调计算环境100的组件的活动。

存储140可以是可移动或不可移动的，且包括磁盘、磁带或磁带盒、CD、DVD或可用于储存信息并可在计算环境100内访问的任何其它介质。存储140储存用于软件180的指令。

输入设备150可以是诸如键盘、鼠标、笔、触摸屏或跟踪球等触摸输入设备、语音输入设备、扫描设备或向计算环境100提供输入的另一设备。对于音频或视频，输入设备150可以是话筒、声卡、显卡、TV调谐卡、或接受模拟或数字形式的音频或视频输入的类似的设备、或将音频或视频样本读入计算环境的CD或DVD。输出设备160可以是显示器、打印机、扬声器、CD/DVD刻录机、网络适配器、或从计算环境100提供输出的另一设备。

通信连接170允许通过通信介质到一个或多个其它计算实体的通信。通信介质传达诸如计算机可执行指令、音频或视频信息、或数据信号形式的其它数据等的信息。已调制数据信号是其一个或多个特征以在信号中编码信息的方式设置或改变的信号。作为示例而非局限，通信介质包括以电、光、RF、红外、声学或其他载波实现的有线或无线技术。

各实施例可以在计算机可读介质的一般上下文中描述。计算机可读介质可以是可在计算环境内访问的任何可用介质。作为示例而非局限，对于计算环境100，计算机可读介质包括存储器120、存储140、以及上述任一个的组合。

各实施例可在诸如程序模块中所包括的在真实或虚拟目标处理器上的计算环境中执行的计算机可执行指令的一般上下文中描述。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、库、对象、类、组件、数据结构等。程序模块的功能可以如各实施例中所需的组合或在程序模块之间分离。用于程序模块的计算机可执行指令可以在本地或分布式计算环境中执行。

出于表示的目的，详细描述使用了如“确定”、“接收”和“执行”等术语来描述计算环境中的计算机操作。这些术语是由计算机执行的操作的高级抽象，且不应与人类所执行的动作混淆。对应于这些术语的实际的计算机操作取决于实现而不同。

II.示例编码器和解码器

图2示出了其中可实现一个或多个所描述的实施例的第一音频编码器200。编码器200是基于变换的知觉音频编码器200。图3示出了对应的音频解码器300。

图4示出了其中可实现一个或多个所描述的实施例的第二音频编码器400。编码器400也是基于变换的知觉音频编码器，但是编码器400包括附加模块，诸如用于处理多声道音频的模块。图5示出了对应的音频解码器500。

尽管图2到5所示的系统是通用的，但其各自都具有可在真实系统中找到的特性。在任何情况下，在编码器和解码器内的模块之间示出的关系指示了编码器和解码器中的信息流；为简明起见未示出其它关系。取决于所需的实现和压缩类型，编码器或解码器的模块可被添加、省略、拆分成多个模块、与其它模块组合、和/或用类似模块来替换。在替换实施例中，根据一个或多个所描述的实施例，具有不同模块和/或其它配置的编码器/解码器处理音频数据或某一其它类型的数据。

A.第一音频编码器

编码器200以某一采样深度和速率接收输入音频样本205的时间序列。输入音频样本205是针对多声道音频(例如，立体声)或单声道音频的。编码器200压缩音频样本205，并多路复用由编码器200的各模块产生的信息以输出诸如WMA格式、如高级流格式(“ASF”)等容器格式、或其它压缩或容器格式等压缩格式的比特流295。

频率变换器210接收音频样本205，并将其转换成频率(或频谱)域中的数据。例如，频率变换器210将帧的音频样本205拆分成子帧块，块可以是可变的大小以允许可变时间分辨率。块可重叠以减小块之间否则会由稍后的量化引入的可察觉的不连续性。频率变换器210将时变调制重叠变换(“MLT”)、调制DCT(“MDCT”)、MLT或DCT的某一其它变体、或某种其它类型的调制或非调制、重叠或非重叠频率变换应用于块，或使用子带或小波编码。频率变换器210向多路复用器(“MUX”)280输出频谱系数数据块，并输出诸如块大小等辅助信息。

对于多声道音频数据，多声道变换器220可将多个原始的、独立编码的声道转换成联合编码的声道。或者，多声道变换器220可使左和右声道作为独立编码的声道通过。多声道变换器220向MUX 280产生指示所使用的声道模式的辅助信息。编码器200可在多声道变换之后向音频数据块应用多声道重新矩阵化。

知觉建模器230对人类听觉系统的特性建模以改善对给定比特率的重构音频信号的察觉质量。知觉建模器230使用各种听觉模型中的任一种，并将激励模式信息或其它信息传递给加权器240。例如，一听觉模型通常考虑人类听觉的范围和临界频带(例如，Bark频带)。除了范围和临界频带之外，音频信号之间的相互作用可显著影响知觉。另外，听觉模型可以考虑与人类对声音的感知的物理或神经方面有关的各种其它因素。

知觉建模器230输出加权器240用于对音频数据中的噪声整形以降低噪声的可听见性的信息。例如，使用各种技术中的任一种，加权器240基于所接收到的信息生成用于量化矩阵(有时称为掩码)的加权因子。用于量化矩阵的加权因子包括用于该矩阵中的多个量化带中的每一个的权重，其中量化带是频率系数的频率范围。由此，加权因子指示噪声/量化误差在量化带上分布的比例，由此控制了噪声/量化误差的频谱/时间分布，且其目标是通过在听见程度较小的频带中放入较多噪声(反之亦然)来最小化噪声的可听见性。

加权器240然后向从多声道变换器220接收到的数据应用加权因子。

量化器250量化加权器240的输出，从而向熵编码器260产生量化的系数数据，并向MUX 280产生包括量化步长的辅助信息。在图2中，量化器250是自适应的、均匀的标量量化器。量化器250向每一频谱系数应用相同的量化步长，但是量化步长本身可在量化循环的各次迭代之间变化以影响熵编码器260输出的比特率。其它种类的量化有非均匀、向量量化和/或非自适应量化。

熵编码器260无损地压缩从量化器250接收到的量化的系数数据，例如执行行程级别编码和向量可变长度编码。熵编码器260可计算编码音频信息所花费的比特数并将该信息传递到速率/质量控制器270。

控制器270与量化器250一起工作以调节编码器200的输出的比特率和/或质量。控制器270以满足比特率和质量约束为目标向量化器250输出量化步长。

另外，编码器200可向音频数据块应用噪声替代和/或频带截断。

MUX 280多路复用从音频编码器200的其它模块接收到的辅助信息以及从熵编码器260接收到的经熵编码的数据。MUX 280可包括储存要由编码器200输出的比特流295的虚拟缓冲器。

B.第一音频解码器

解码器300接收包括经熵编码的数据以及辅助信息的压缩音频信息的比特流305，从该比特流中，解码器300重构音频样本395。

多路分解器(“DEMUX”)310解析比特流305中的信息，并将该信息发送到解码器300的各模块。DEMUX 310包括一个或多个缓冲器以补偿由于音频复杂性波动、网络抖动和/或其它因素而产生的比特率短期变化。

熵解码器320无损地解压从DEMUX 310接收到的熵代码，从而产生经量化的频谱系数数据。熵解码器320通常应用编码器中使用的熵编码技术的逆过程。

逆量化器330从DEMUX 310接收量化步长，并从熵解码器320接收经量化的频谱系数数据。逆量化器330向经量化的频率系数数据应用量化步长，以部分地重构频率系数数据，或以其它方式执行逆量化。

噪声生成器340从DEMUX 310接收指示数据块中的哪些频带进行了噪声替代以及用于该形式的噪声的任何参数的信息。噪声生成器340生成用于所指示的频带的模式，并将该信息传递给逆加权器350。

逆加权器350从DEMUX 310接收加权因子，从噪声生成器340接收任何经噪声替代的频带的模式，并从逆量化器330接收部分重构的频率系数数据。在必要时，逆加权器350解压加权因子。逆加权器350将加权因子应用于还未经噪声替代的频带的部分重构的频率系数数据。逆加权器350然后对经噪声替代的频带将从噪声生成器340接收到的噪声模式相加。

多声道逆变换器360从逆加权器350接收重构的频谱系数数据，并从DEMUX 310接收声道模式信息。如果多声道音频是独立编码的声道，则多声道逆变换器360使该声道通过。如果多声道数据是联合编码的声道，则多声道逆变换器360将数据转换成独立编码的声道。

频率逆变换器370接收由多声道变换器360输出的频谱系数数据以及来自DEMUX 310的诸如块大小等辅助信息。频率逆变换器370应用编码器中所使用的频率变换的逆过程，并输出重构的音频样本395的块。

C.第二音频编码器

参考图4，编码器400以某一采样深度和速率接收输入音频样本405的时间序列。输入音频样本405是针对多声道音频(例如，立体声、环绕)或单声道音频的。编码器400压缩音频样本405，并多路复用由编码器400的各模块产生的信息以输出诸如WMA Pro格式、如ASF等容器格式、或其它压缩或容器格式等格式的比特流295。

编码器400在用于音频样本405的多个编码模式之间选择。在图4中，编码器400在混合/纯无损编码模式和有损编码模式之间切换。无损编码模式包括混合/纯无损编码器472，且通常用于高质量(以及高比特率)压缩。有损编码模式包括诸如加权器442和量化器460等组件，且通常用于可调整质量(以及受控比特率)压缩。选择决策取决于用户输入或其它准则。

对于多声道音频数据的有损编码，多声道预处理器410可任选地对时域音频样本405重新矩阵化。例如，多声道预处理器410选择性地对音频样本405重新矩阵化以丢弃一个或多个已编码声道或增加编码器400中的声道间相关，但仍允许解码器500中的(某种形式的)重构。多声道预处理器410可将诸如用于多声道后处理的指令等辅助信息发送到MUX 490。

加窗模块420将音频输入样本405的帧划分成子帧块(窗口)。窗口可具有时变大小和窗口整形函数。当编码器400使用有损编码时，可变大小窗口允许可变时间分辨率。加窗模块420向MUX 490输出划分的数据块，并输出诸如块大小等辅助信息。

在图4中，瓦块配置器422在每声道的基础上划分多声道音频的帧。瓦块配置器422在质量/比特率允许的情况下独立地划分帧中的每一声道。这允许例如瓦块配置器422以较小的窗隔离出现在特定声道中的瞬变，而对其它声道中的频率分辨率或压缩效率使用较大的窗。这可通过在每声道的基础上隔离瞬变来提高压缩效率，但是在许多情况下需要指定个别声道中的划分的附加信息。在时间上处于同一点处的相同大小的窗口能够通过多声道变换来进行进一步的冗余度降低。由此，瓦块配置器422将时间上相同位置的相同大小的窗口编组为瓦块。

频率变换器430接收音频样本，并将其转换成频域中的数据，从而应用了如上对图2的频率变换器210所述的变换。频率变换器430向加权器442输出频谱系数数据块，并向MUX 490输出诸如块大小等辅助信息。频率变换器430向知觉建模器440输出频率系数和辅助信息两者。

知觉建模器440对人类听觉系统的特性建模，从而一般如上参考图2的知觉建模器230所描述的根据听觉模型来处理音频数据。

加权器442基于从知觉建模器440接收到的信息来生成用于量化矩阵的加权因子，一般如上参考图2的加权器240所描述的。加权器442向从频率变换器430接收到的数据应用加权因子。加权器442向MUX 490输出诸如量化矩阵和声道权重因子等辅助信息。量化矩阵可以被压缩。

对于多声道音频数据，多声道变换器450可应用多声道变换，以利用声道间相关。例如，多声道变换器450瓦块中的部分但不是全部声道和/或量化频带选择性地且灵活地应用多声道变换。多声道变换器450选择性地使用预定义的矩阵或自定义矩阵，并向自定义矩阵应用有效压缩。多声道变换器450向MUX490产生指示例如所使用的多声道变换和经多声道变换的瓦块部分的辅助信息。

量化器460量化多声道变换器450的输出，从而向熵编码器470产生经量化的系数数据，并向MUX 490产生包括量化步长的辅助信息。在图4中，量化器460是对每一瓦块计算一量化因子的自适应、均匀、标量量化器，但是量化器460也可执行某种其它量化。

熵编码器470一般如上参考图2的熵编码器260所述地无损地压缩从量化器460接收到的经量化的系数数据。

控制器480与量化器460一起工作以调节编码器400的输出的比特率和/或质量。控制器480以满足质量和/或比特率约束为目标向量化器460输出量化因子。

混合/纯无损编码器472和相关联的熵编码器474压缩用于混合/纯无损编码模式的音频数据。编码器400对整个序列使用混合/纯无损编码模式，或在逐帧、逐块、逐瓦块或其它基础上在编码模式之间切换。

MUX 490多路复用从音频编码器400的其它模块接收到的辅助信息以及从熵编码器470、474接收到的经熵编码的数据。MUX 490包括用于速率控制或其它目的的一个或多个缓冲器。

D.第二音频解码器

参考图5，第二音频解码器500接收压缩音频信息的比特流505。比特流505包括经熵编码的数据以及辅助信息，解码器500从这些数据和信息中重构音频样本595。

DEMUX 510解析比特流505中的信息并将该信息发送到解码器500的诸模块。DEMUX 510包括一个或多个缓冲器以补偿由于音频复杂性波动、网络抖动和/或其它因素而产生的比特率短期变化。

熵解码器520无损地解压从DEMUX 510接收到的熵代码，通常应用编码器400中使用的熵编码技术的逆过程。当解码以有损编码模式压缩的数据时，熵解码器520产生经量化的频谱系数数据。

混合/纯无损解码器522和相关联的熵解码器520无损地解压用于混合/纯无损编码模式的无损编码音频数据。

瓦块配置解码器530从DEMUX 590接收指示帧的瓦块的模式的信息，并在必要时对其解码。瓦块模式信息可被熵编码或以其它方式参数化。瓦块配置解码器530然后将瓦块模式信息传递到解码器500的各其它模块。

多声道逆变换器540从熵解码器520接收经量化的频谱系数数据，并从瓦块配置解码器530接收小块模式信息，并从DEMUX 510接收指示例如所使用的多声道变换和已变换的瓦块部分的辅助信息。使用该信息，多声道逆变换器540在必要时解压变换矩阵，并向音频数据选择性地且灵活地应用一个或多个多声道逆变换。

逆量化器/加权器550从DEMUX 510接收诸如瓦块和声道量化因子等信息以及量化矩阵，并从多声道逆变换器540接收经量化的频谱系数数据。逆量化器/加权器550在必要时解压所接收的加权因子信息。量化器/加权器550然后执行逆量化和加权。

频率逆变换器560接收由逆量化器/加权器550输出的频谱系数数据，以及来自DEMUX 510的辅助信息和来自瓦块配置解码器530的瓦块模式信息。频率逆变换器570应用编码器中使用的频率变换的逆过程，并向重叠器/累加器570输出各块。

除了从瓦块配置解码器530接收瓦块模式信息之外，重叠器/累加器570还从频率逆变换器560和/或混合/纯无损解码器522接收已解码信息。重叠器/累加器570在必要时重叠并累加音频数据，并交织用不同模式编码的帧或其它音频数据序列。

多声道后处理器580可任选地重新矩阵化由重叠器/累加器570输出的时域音频样本。对于受比特流控制的后处理，后处理变换矩阵随时间变化，且在比特流505中用信号表示或包括在其中。

III.可变子帧大小上的可逆调制重叠变换

如上讨论的，代表性编码器(例如，瓦块配置器422)使用变化的子帧大小来编码音频信号，诸如以便在为了避免前回声效应而对音频中的瞬变使用较小子帧大小和为了编码效率而使用较大子帧大小之间进行平衡。编码器可采用各种技术来自适应地选择子帧大小，诸如由Chen等人在美国专利申请公开号US-2003-0115052-A1“ADAPTIVE WINDOW-SIZE SELECTION IN TRANSFORM CODING(变换编码中的自适应窗口大小选择)”中所描述地那样。

图6)示出了代表性编码器所产生的示例子帧配置，其中音频样本的一部分被划分成各自具有256、512、512、1024和512个样本大小的子帧611-615。图6)中所示的子帧大小仅仅表示示例性编码器实现中可用的子帧大小选择，并且是出于说明目的而选择的。在各种替换编码器实现中，编码器可使用其他的子帧大小和/或对子帧大小的更多或更少选择。

还是如上讨论的，代表性编码器对音频样本应用频率变换(例如，通过频率变换器430)。该代表性编码器中所使用的频率变换是一种类型的调制重叠变换(MLT)，诸如修正离散余弦变换(MDCT)。这种对每一个子帧的MLT与先前和后续子帧中的样本重叠。换言之，除了当前子帧中的样本之外，该变换还从先前和后续子帧中的样本的重叠部分中获取输入。在此示例中，使用等于较小子帧(即，相邻子帧大小和当前子帧大小中的较小者)的一半大小的重叠。例如，子帧612(大小为512个样本)的重叠是前一子帧(其具有为256个样本的较小的大小)的128个子帧。另一方面，子帧615(具有512个样本)小于其前一子帧614(具有1024个样本)，并因此使用前一子帧614的256个样本的重叠。在替换实现中，编码器可使用具有来自先前和后续子帧的不同重叠量的MLT(例如，较小子帧大小的四分之一等)。如从此示例可以看出的，选择三种子帧大小导致较大数目的先前、当前及后续子帧大小组合，并由此产生对于子帧的重叠变换大小的较大置换。

在编码器的无损压缩情形中，MLT合需地具有可逆整数-整数变换实现。以下描述解决了对于子帧大小的各种组合如何导出这样的可逆整数-整数变换实现。每种子帧大小组合的调制重叠变换是通过因式分解成跨越子帧的重叠加窗变换711-714(图7中所示)与应用于子帧的块变换811-815(图8中所示)的组合来产生的。

IV.调制重叠变换的因式分解

以下小节给出用于理解和实现诸如MLT等特定重叠正交变换的简单方法。MLT(MCLT的实部)可被写为以下正交变换(负号是任意的，但由于其匹配音频编解码器中常用的变换的定义(比例因子除外)而添加)。

Y [k + Ml] = - \sqrt{\frac{2}{M}} Σ_{n = 0}^{2 M - 1} x [n - \frac{M}{2} + Ml] \sin [(n + \frac{1}{2}) \frac{π}{2 M}] \cos [(n + \frac{M + 1}{2}) (k + \frac{1}{2}) \frac{π}{M}]

上式中，输入音频样本由

项表示。sin项是窗口函数，而cos项是该变换的基函数。变量k是频谱索引，M是子帧大小，而l是该子帧的索引。

由于cos(-θ+π)＝-cosθ，得到

\cos [(M - 1 - n + \frac{M + 1}{2}) (k + \frac{1}{2}) \frac{π}{M}]

= \cos [(- n - \frac{M + 1}{2}) (k + \frac{1}{2}) \frac{π}{M} + 2 M (k + \frac{1}{2}) \frac{π}{M}]

= \cos [(- n - \frac{M + 1}{2}) (k + \frac{1}{2}) \frac{π}{M} + (2 k + 1) π]

= - \cos [(n + \frac{M + 1}{2}) (k + \frac{1}{2}) \frac{π}{M}]

类似地，由于cos(-θ+2π)＝cosθ，还知道

\cos [(\frac{3 M}{2} - 1 - n + \frac{M + 1}{2}) (k + \frac{1}{2}) \frac{π}{M}]

= \cos [(- n - \frac{3 M}{2} - \frac{M + 1}{2}) (k + \frac{1}{2}) \frac{π}{M} + 4 M (k + \frac{1}{2}) \frac{π}{M}]

= \cos [(- n - \frac{3 M}{2} - \frac{M + 1}{2}) (k + \frac{1}{2}) \frac{π}{M} + (4 k + 2) π]

= \cos [(\frac{3 M}{2} + n + \frac{M + 1}{2}) (k + \frac{1}{2}) \frac{π}{M}]

将以上两个关系应用于MLT公式中，有

Y [k + Ml] = - \sqrt{\frac{2}{M}} Σ_{n = 0}^{\frac{M}{2} - 1} \{\begin{matrix} x [n + Ml] \sin [(n + \frac{M + 1}{2}) \frac{π}{2 M}] - \\ x [- n - 1 + Ml] \sin [(- n + \frac{M - 1}{2}) \frac{π}{2 M}] \end{matrix}\} \cos [(n + M + \frac{1}{2}) (k + \frac{1}{2}) \frac{π}{M}]

- \sqrt{\frac{2}{M}} Σ_{n = \frac{M}{2}}^{M - 1} \{\begin{matrix} x [n + Ml] \sin [(n + \frac{M + 1}{2}) \frac{π}{2 M}] + \\ x [2 M - 1 - n + Ml] \sin [(- n + \frac{5 M - 1}{2}) \frac{π}{2 M}] \end{matrix}\} \cos [(n + M + \frac{1}{2}) (k + \frac{1}{2}) \frac{π}{M}]

假设项z[n]被定义为：

对于n＝0，...，M/2-1，

z [n + Ml] = x [n + Ml] \sin [(n + \frac{M + 1}{2}) \frac{π}{2 M}] - x [- n - 1 + Ml] \sin [(- n + \frac{M - 1}{2}) \frac{π}{2 M}],

以及，对于n＝M/2，...，M-1

z [n + Ml] = x [n + Ml] \sin [(n + \frac{M + 1}{2}) \frac{π}{2 M}] + x [2 M - 1 - n + Ml] \sin [(- n + \frac{5 M - 1}{2}) \frac{π}{2 M}] .

于是，MLT公式可被写为：

Y [k + Ml] = - \sqrt{\frac{2}{M}} Σ_{n = 0}^{M - 1} z [n + Ml] \cos [(n + M + \frac{1}{2}) (k + \frac{1}{2}) \frac{π}{M}]

= - \sqrt{\frac{2}{M}} Σ_{n = 0}^{M - 1} z [M - 1 - n + Ml] \cos [(M - 1 - n + M + \frac{1}{2}) (k + \frac{1}{2}) \frac{π}{M}]

= - \sqrt{\frac{2}{M}} Σ_{n = 0}^{M - 1} z [M - 1 - n + Ml] \cos [(- n - \frac{1}{2}) (k + \frac{1}{2}) \frac{π}{M} + (2 k + 1) π]

= \sqrt{\frac{2}{M}} Σ_{n = 0}^{M - 1} z [M - 1 - n + Ml] \cos [(n + \frac{1}{2}) (k + \frac{1}{2}) \frac{π}{M}],

这是翻转的z[n+Ml]的IV型DCT。

如由此重写的公式所展示的，MLT可被认为是两个基于块的变换。第一块变换是从x到z的重叠一级蝶形，而第二块变换是对翻转z项的简单的基于块的DCT-IV。

MLT的两个相邻块之间的重叠区由块l的前一半和块(l-1)的后一半构成。因为所以可以将此重叠区的项z[n+Ml]写为

对于n＝0，...，M/2-1

z [n + Ml] = x [n + Ml] \sin [(n + \frac{M + 1}{2}) \frac{π}{2 M}] - x [- n - 1 + Ml] \sin [(- n + \frac{M - 1}{2}) \frac{π}{2 M}]

= x [n + Ml] \sin [(n + \frac{M + 1}{2}) \frac{π}{2 M}] - x [- n - 1 + Ml] \cos [(n + \frac{M + 1}{2}) \frac{π}{2 M}]

以及，对于n＝M/2，...，M-1

z [n + Ml - M] = x [n + Ml - M] \sin [(n + \frac{M + 1}{2}) \frac{π}{2 M}] + x [2 M - 1 - n + Ml - M] \sin [(- n + \frac{5 M - 1}{2}) \frac{π}{2 M}]

。

在作出替换n’＝M-1-n之后并且由于

且sin(-θ+π)＝sinθ，因此

对于n＝0，...，M/2-1

z [- 1 - n + Ml] = x [- n - 1 + Ml] \sin [(- n + \frac{3 M - 1}{2}) \frac{π}{2 M}] + x [n + Ml] \sin [(n + \frac{3 M - 1}{2}) \frac{π}{2 M}]

= x [- n - 1 + Ml] \sin [(n + \frac{M + 1}{2}) \frac{π}{2 M}] + x [n + Ml] \cos [(n + \frac{M + 1}{2}) \frac{π}{2 M}] .

这与以下简单的2x2变换块相同

[\begin{matrix} z [n + Ml] \\ z [- 1 - n + Ml] \end{matrix}] = [\begin{matrix} \sin θ & - \cos θ \\ \cos θ & \sin θ \end{matrix}] [\begin{matrix} x [n + Ml] \\ x [- 1 - n + Ml] \end{matrix}]

其中

n＝0，...，M/2-1。然后，作出又一替代n’＝M/2-1-n，给出

[\begin{matrix} z [Ml + \frac{M}{2} - 1 - n] \\ z [Ml - \frac{M}{2} + n] \end{matrix}] = [\begin{matrix} \sin θ & - \cos θ \\ \cos θ & \sin θ \end{matrix}] [\begin{matrix} x [Ml + \frac{M}{2} - 1 - n] \\ x [Ml - \frac{M}{2} + n] \end{matrix}],

其中n＝0，....，M/2-1且

并使用sin(-θ+π/2)＝cosθ且cos(-θ+π/2)＝sinθ这一事实。此2x2变换可被用作音频编解码器的重叠加窗块变换711-714(图7)。通过将每一个重叠区当作单级蝶形来对待，可将此变换应用于变化的子帧大小。由于可以使得此变换中的2x2旋转可逆，所以此重叠加窗变换被容易地实现为可逆变换。

当子帧大小变化时(诸如举例而言在图6中所示出的)，只改变MLT的窗口形状。然而，该窗口仍遵守原始窗口的所有对称属性。因此，在适应变化大小的子帧时唯一的改变是重叠窗口大小M。

此外，通过简单地对数据内的给定块应用任何正交变换、随后平移成块栅格并应用如图6)-8)中所示的另一正交变换，此方法能更一般地适应于创建重叠正交变换。

III.通用重叠变换的因式分解

在特定条件下，相邻块之间不超过50％的重叠的任何变换都能被因式分解成两个块变换。确切的必要条件将在以下推导中解释。考虑以不超过50％的重叠对块进行操作的重叠变换。此类线性变化可被写成矩阵，其中矩阵中的每一个块是N/2 x N/2矩阵，N是变换中最小的块大小(如果允许可变的块大小的话)。例如，假设重叠变换被允许使用512、1024和2048大小的块。然后，若块大小是512、1024、512和512，则重叠变换的变换矩阵可被写成如下：

A = [\begin{matrix} A_{00} & A_{01} & A_{02} & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ A_{10} & A_{11} & A_{12} & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & A_{21} & A_{22} & A_{23} & A_{24} & A_{25} & A_{26} & 0 & 0 & 0 \\ 0 & A_{31} & A_{32} & A_{33} & A_{34} & A_{35} & A_{36} & 0 & 0 & 0 \\ 0 & A_{41} & A_{42} & A_{43} & A_{44} & A_{45} & A_{46} & 0 & 0 & 0 \\ 0 & A_{51} & A_{52} & A_{53} & A_{54} & A_{55} & A_{56} & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & A_{65} & A_{66} & A_{67} & A_{68} & 0 \\ 0 & 0 & 0 & 0 & 0 & A_{75} & A_{76} & A_{77} & A_{78} & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & A_{87} & A_{88} & A_{89} \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & A_{97} & A_{98} & A_{99} \end{matrix}]

其中每一个子矩阵为是256x256矩阵。

考虑将此操作分裂为两步，第一步是应用重叠算子(C)以及对实际块大小应用块变换的另一算子(B)。然后，可将这两个矩阵写成：

B = [\begin{matrix} B_{00} & B_{01} & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ B_{10} & B_{11} & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & B_{22} & B_{23} & B_{24} & B_{25} & 0 & 0 & 0 & 0 \\ 0 & 0 & B_{32} & B_{33} & B_{34} & B_{35} & 0 & 0 & 0 & 0 \\ 0 & 0 & B_{42} & B_{43} & B_{44} & B_{45} & 0 & 0 & 0 & 0 \\ 0 & 0 & B_{52} & B_{53} & B_{54} & B_{55} & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & B_{66} & B_{67} & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & B_{76} & B_{77} & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & B_{88} & B_{89} \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & B_{98} & B_{99} \end{matrix}]

和

C = [\begin{matrix} I & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & C_{11} & C_{12} & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & C_{21} & C_{22} & 0 & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & I & 0 & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & I & 0 & 0 & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & C_{55} & C_{56} & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & C_{65} & C_{66} & 0 & 0 & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & C_{77} & C_{78} & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & C_{87} & C_{88} & 0 \\ 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & 0 & I \end{matrix}]

目标是找到B和C，以使得A＝BC。由于A的第n行仅取决于B的第n行，因此单独地查看变换的单个块是足够的。例如，变换的第三个块可被写成：

[\begin{matrix} A_{65} & A_{66} & A_{67} & A_{68} \\ A_{75} & A_{76} & A_{77} & A_{78} \end{matrix}] = [\begin{matrix} B_{66} & B_{67} \\ B_{76} & B_{77} \end{matrix}] [\begin{matrix} C_{65} & C_{66} & 0 & 0 \\ 0 & 0 & C_{77} & C_{78} \end{matrix}]

= [\begin{matrix} B_{66} C_{65} & B_{66} C_{66} & B_{67} C_{77} & B_{67} C_{78} \\ B_{76} C_{65} & B_{76} C_{66} & B_{77} C_{77} & B_{77} C_{78} \end{matrix}]

对变换的第三个块的前一半求解简化为对以下方程求解：

[\begin{matrix} B_{66} \\ B_{76} \end{matrix}] [\begin{matrix} C_{65} & C_{66} \end{matrix}] = [\begin{matrix} A_{65} & A_{66} \\ A_{75} & A_{76} \end{matrix}]

这只有在矩阵具有以下属性的情况下才是可解的

A_{65} A_{75}^{- 1} = A_{66} A_{76}^{- 1},

或者对于给定的j，对于所有的i，A_ij＝0。对此有许多解。令B₆₆是某一任意的满秩N/2xN/2矩阵。然后，得到

C_{65} = B_{66}^{- 1} A_{65}

C_{66} = B_{66}^{- 1} A_{66}

B_{76} = A_{75} B_{66} A_{65}^{- 1}

变换块的后一半以及矩阵A中的其他变换块可以类似方式求解。

这示出在特定条件(即，属性

)下，重叠变换可被写成两个块变换的乘积，一个块变换关注重叠，另一个是简单块变换。

因此，通过为大小N的子帧将重叠变换的表示形成为矩形线性变化矩阵

导出具有变化大小的子帧的音频信号的子帧的重叠变换的可逆整数-整数实现。此矩形线性变换矩阵由N/2 x N/2的矩阵块元素构成，且i、j是矩阵块的索引。此外，该矩阵具有

或者对于给定n，对于所有m，A_mn＝0的属性。矩形线性变换矩阵A因式分解成

形式的重叠加窗变换矩阵C和

形式的块变换矩阵B，其中的分量通过对以下关系求解来得到：

C_{i (j - 1)} = B_{ij}^{- 1} A_{i (j - 1)}

C_{ij} = B_{ij}^{- 1} A_{ij}

B_{(i + 1) j} = A_{(i + 1) (j - 1)} B_{ij} A_{i (j - 1)}^{- 1}

鉴于可应用本发明的原理的许多可能的实施例，要求保护落入所附权利要求书及其等效技术方案的范围和精神之内的所有这样的实施例作为本发明。

Claims

1.一种编码音频信号的方法，所述方法包括：

接收包括时域音频样本序列的音频信号(405)的输入；

将所述音频信号划分成具有至少两个不同子帧大小的子帧(611-615)；

对所述不同大小的子帧执行具有可逆的整数输入至整数输出的重叠变换(430)，其中所述重叠变换被实现为应用于具有相应子帧大小的子帧的可逆块变换与使相应相邻子帧重叠的可逆块旋转变换的组合，其中每一个可逆块旋转变换重叠至多所述重叠相邻子帧中的较小子帧的一半，其中所述对子帧的可逆块变换和与相邻子帧进行重叠的可逆块旋转变换是所述重叠变换的因式分解；

将所得变换系数编码为压缩比特流(495)。

2.如权利要求1所述的方法，其特征在于，所述重叠变换是调制重叠变换。

3.如权利要求2所述的方法，其特征在于，所述重叠变换是修正离散余弦变换。

4.如权利要求3所述的方法，其特征在于，所述块变换是基于块的DCT-IV型变换，并且所述可逆块旋转变换是单级蝶形型变换。

5.如权利要求1所述的方法，其特征在于，所述对子帧的重叠变换在前相邻子帧和后相邻子帧大小不同的情况下被因式分解成用于使所述前后相邻子帧重叠的不同大小的可逆块旋转变换。

6.一种解码音频信号的方法，所述方法包括：

解码被划分成不同大小的子帧(611-615)的音频信号(505)的变换系数；

对所述不同大小的子帧执行具有可逆的整数输入至整数输出的重叠变换(560)，其中所述重叠变换被实现为应用于具有相应子帧大小的子帧的可逆块变换与使相应相邻子帧重叠的可逆块旋转变换的组合，其中每一个可逆块旋转变换重叠至多所述重叠相邻子帧中的较小子帧的一半，其中所述对子帧的可逆块变换和与相邻子帧进行重叠的可逆块旋转变换是所述重叠变换的因式分解；

从经逆变换的变换系数产生时域音频信号的音频样本；以及

输出所述音频信号(595)。

7.如权利要求6所述的方法，其特征在于，所述重叠变换是调制重叠变换。

8.如权利要求7所述的方法，其特征在于，所述重叠变换是修正离散余弦变换。

9.如权利要求8所述的方法，其特征在于，所述块变换是基于块的DCT-IV型变换，且所述可逆块旋转变换是单级蝶形型变换。

10.如权利要求9所述的方法，其特征在于，所述对子帧的重叠变换在前相邻子帧和后相邻子帧大小不同的情况下被因式分解成用于使所述前后相邻子帧重叠的不同大小的可逆块旋转变换。

11.一种导出重叠变换的可逆整数输入/整数输出实现以便处理被划分成多种不同大小的子帧的输入音频信号的的方法，所述方法包括：

将所述重叠变换(430)因式分解成用于使相邻子帧(611-615)重叠的重叠区(711-714)的重叠加窗变换与用于所述子帧的块变换(811-815)的组合，其中所述因式分解包括，

将用于给定子帧的重叠变换的表示形成为具有形式

的矩形线性变换矩阵A，其中所述矩阵中的每一个子块是对应所述子帧的大小N的N/2 x N/2矩阵，且i、j是所述矩阵子块的索引，并且其中所述矩阵具有性质

A_{i (j - 1)} A_{(i + 1) (j - 1)}^{- 1} = A_{ij} A_{(i + 1) j}^{- 1};

将所述矩形线性变换矩阵A因式分解成

形式的重叠加窗变换矩阵C和

形式的块变换矩阵B，其中所述因式分解包括对以下关系求解：

C_{i (j - 1)} = B_{ij}^{- 1} A_{i (j - 1)}

C_{ij} = B_{ij}^{- 1} A_{ij};

B_{(i + 1) j} = A_{(i + 1) (j - 1)} B_{ij} A_{i (j - 1)}^{- 1}

接收具有所述子帧的音频信号(405)的输入；以及

对所述子帧及其在前相邻子帧应用所述重叠加窗变换矩阵C；以及

对所述子帧应用所述块变换矩阵B。