CN109983535B

CN109983535B - 具有子带能量平滑的基于变换的音频编解码器和方法

Info

Publication number: CN109983535B
Application number: CN201780066489.4A
Authority: CN
Inventors: J·K·汤普森; E·奈米尔; A·考克
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2016-08-31
Filing date: 2017-08-30
Publication date: 2023-09-12
Anticipated expiration: 2037-08-30
Also published as: EP3507800B1; WO2018045099A1; CN109983535A; US10146500B2; JP7157736B2; EP3507800A1; KR102553003B1; US20180060023A1; EP3507800A4; KR20190042058A; EP3507800C0; JP2019532329A

Abstract

具有能量平滑的基于变换的编解码器和方法，用于减轻编码过程期间的矢量量化误差(例如“小鸟(birdie)”)。编解码器和方法的实施例使用编码器将正交变换和矢量置换组合地应用于频率变换系数。在一些实施例中，首先执行变换，然后执行置换，而在其他实施例中，顺序被反向。使用的顺序在解码器处反向。包含要应用的能量平滑的等级的平滑参数从编码器传递到解码器，并由两者使用以计算变换矩阵和逆变换矩阵。在一些实施例中，变换矩阵是可逆的、能量保持的、可控的和稳定的分数哈达马矩阵。

Description

具有子带能量平滑的基于变换的音频编解码器和方法

背景技术

数字音频编码(也称为“数字音频压缩”)是用于在存储(用以减少存储要求)或传输(用以减少带宽要求)之前最小化音频数据的大小的各种技术。感知音频编码技术考虑了人类如何实际感知声音，并且较多关注人类最清楚地听到的音频信号的频率而较少关注人类不太可能注意到任何差异的频率。

一类数字音频编码被称为基于变换的编码。基于变换的音频编码在量化和编码之前将时间信号变换为系数的频域矢量。一种常见类型的变换是修正离散余弦变换(MDCT)。MDCT是重叠变换，指的是变换是在重叠的块上执行的，并且减轻了在块边界处发生的可听伪音(artifact)。MDCT用于若干种有损音频编解码器和技术中。

表示给定子带的MDCT系数通常使用矢量量化(VQ)技术被量化。VQ使用最小均方误差(MMSE)方法在给定可用比特数量的情况下获取尽可能多的系数。MMSE方法是一种寻求最小化均方误差的估计方法。在典型音频信号的上频谱中，子带是类噪声的，并且每个上子带包含大量非零变换系数。

然而，当以粗略方式量化子带中的变换系数时出现问题。特别地，音频信号的上子带通常被分配比下子带更少的比特数。如果VQ技术没有可用比特来对给定子带进行矢量量化，则往往将仅量化单个系数，从而有效地产生单系数子带。在解码器处，不是在此子带中重新产生类噪声信号，而是单系数子带将具有“音调”声音。由于单系数在时间和频率上移动，因此会产生“音乐噪音”或“小鸟(birdie)”伪音。这种音乐噪音或小鸟伪音自身向听众展示为在回放的音频内容中随机出现和消失的金属音调。

发明内容

提供本发明内容是为了以简化的形式介绍概念汇集，这些概念将在下面的具体实施方式中被进一步描述。本发明内容并不意图标识所要求保护的主题的关键特征或必要特征，也不意图被用于限制所要求保护的主题的范围。

利用能量平滑的基于变换的编解码器和方法的实施例被用于以消除小鸟伪音和音乐噪声的方式编码和解码音频信号。编解码器和方法的实施例将置换过程和变换过程结合使用。正交变换过程是可控的，这意味着可以根据需要应用能量平滑等级。能量平滑等级在编码器侧被确定。包含要被应用的能量平滑等级的平滑参数被从编码器传递到解码器。

平滑参数用于构造由编码器在正交变换处理中使用的变换矩阵和由解码器在逆变换处理中使用的逆变换矩阵。所使用的变换矩阵是如下这样的一类矩阵：其是可逆的、能量保持的、可控的(使得能够指定能量平滑等级)、并且是稳定的，使得矩阵对于量化噪声是鲁棒的。在一些实施例中，所使用的变换矩阵的类型是分数哈达马(fractional Hadamard)矩阵。此外，在一些实施例中，正交变换的大小是2的大于或等于4的任何次幂。

编解码器和方法的实施例具有优于当前解决方案的若干优点。首先，与许多现有解决方案相比，整体计算复杂性降低。这部分地归因于特定类型的变换矩阵的使用和正交变换的大小。此外，通过使用正交变换和矢量置换的组合来降低计算复杂度。其次，当在跨越许多音床(bed)混合和比特率的大数据库上进行测试时，编解码器和方法的实施例的整体性能有所改善。

实施例包括一种用于通过使用编码器以将正交变换和矢量置换两者应用于音频信号的频率变换系数来处理音频信号的方法。在一些实施例中，首先应用变换，然后应用置换。在其他实施例中，首先应用置换，然后应用变换。在一些实施例中，变换的大小是2的大于或等于4的任何次幂。经处理的系数被量化并被打包成编码比特流以用于存储、传输、或存储和传输两者。解码器用于处理编码比特流和编码器的反向操作并恢复音频信号。

在一些实施例中，正交变换是可变的，并且由包含要应用的能量平滑等级的平滑参数控制。平滑参数是至少一个编解码器度量(metric)的函数。平滑等级被传送到解码器，然后编码器和解码器两者都可以使用完全相同的能量平滑等级。在编码器处每帧确定平滑等级。决策是基于对音频信号的频谱的频谱分析的，并通过测量该频谱是具有音调结构还是具有类噪声结构而做出。为了确定这一点，平坦度测度(measure)在每个子带中计算并在所有子带上平均。基于该测度，在一些实施例中，确定4个平滑等级。即，该4个等级为：无平滑、轻度平滑、中度平滑和重度平滑。

在一些实施例中，正交变换和矢量置换仅被应用一次，而在其他实施例中，它们被应用多次。后者通常在频率变换系数的矢量的大小不是变换矩阵大小的倍数时发生。此外，在一些实施例中，通过交织来实现矢量置换。交织是根据给定规则重新排列矢量的系数(或元素)的过程。在一些实施例中，该规则是确定性的，并且在其他实施例中，该规则是概率性的。

实施例还包括一种用于通过将音频信号划分为多个频率子带并且为每个子带计算变换矩阵来对音频信号进行编码的方法。然后，编码器使用变换矩阵将正交变换应用于每个子带中的频率变换系数。正交变换的大小是2的大于或等于4的任何次幂。另外，编码器对频率变换系数应用交织以获得经处理的频率变换系数。经处理的系数被矢量量化，然后比特打包成代表音频信号的编码比特流。

编码器的实施例还包括计算每个子带的频谱平坦度并根据频谱平坦度确定平滑参数，该平滑参数包括表示应用于每个子带的能量平滑量的能量平滑等级。该平滑参数在编码比特流中从编码器发送到解码器。一些实施例中的平滑参数被用于计算变换矩阵。特别地，用于计算变换矩阵的变换参数是平滑参数、正在处理的当前子带的长度以及矢量量化器的脉冲数的函数。

解码器的实施例还包括通过将逆变换矩阵和逆置换应用于音频信号的每个子带来解码表示音频信号的编码比特流。使用得到的恢复的频率变换系数，重构音频信号以获得恢复的音频信号。恢复的音频信号在回放设备上被回放。

与编码比特流一起接收到的是平滑参数，其用于计算用于生成逆变换矩阵的变换矩阵。这是通过反转变换矩阵以获得逆变换矩阵并根据能量平滑等级应用逆变换矩阵来实现的。此外，解码器以与编码器的应用相反的顺序来应用逆变换矩阵和逆置换。

应当注意，替代实施例是可能的，并且取决于特定实施例，可以改变、添加或消除这里讨论的步骤和元件。在不脱离本发明的范围的情况下，这些替代实施例包括可以使用的替代步骤和替代元件，以及可以进行的结构改变。

附图说明

现在参考附图，其中相同的附图标记表示相应的部件：

图1是示出具有能量平滑的基于变换的编解码器和方法的实施例的总体概述的框图。

图2是示出图1中所示的具有能量平滑的基于变换的编解码器的操作的实施例的流程图。

图3是示出图1中所示的具有能量平滑的基于变换的编码器的实施例的细节的框图。

图4是示出图1中所示的具有能量平滑的基于变换的解码器的实施例的细节的框图。

图5是示出图3中所示的正交变换和置换系统的实施例的详细框图。

图6是示出与置换系统交互的正交变换系统的实施例的详细框图。

图7示出了使用基于矩阵的交织来应用置换的示例性实施例。

图8是示出图1和3中所示的具有能量平滑的基于变换的编码器的操作的实施例的流程图。

图9是示出图4中所示的正交逆变换和置换系统的实施例的详细框图。

图10是示出与逆置换系统交互的正交逆变换系统的实施例的详细框图。

图11示出了使用基于矩阵的去交织来应用逆置换的示例性实施例。

图12是示出图1和4中所示的具有能量平滑的基于变换的解码器的操作的实施例的流程图。

图13是示出当经扩展的原始序列不是M的倍数时与置换系统交互的正交变换系统的实施例的详细框图。

具体实施方式

在以下参考附图对具有能量平滑的基于变换的编解码器和方法的实施例进行描述。这些附图通过图示的方式示出了具有能量平滑的基于变换的编解码器和方法的实施例的具体示例可以如何实现。应当理解，在不背离所要求保护的主题的范围的情况下，可以利用其他实施例并且可以进行结构改变。

I.系统和操作概述

具有能量平滑的基于变换的编解码器和方法的实施例用于减少和减轻在编码期间由矢量量化引起的伪音。这是通过将正交变换和矢量置换的组合应用于音频信号的频率变换系数来实现的。现在将讨论编解码器和方法的实施例的概述。

图1是示出具有能量平滑的基于变换的编解码器和方法的实施例的总体概述的框图。参考图1，编解码器100包括具有能量平滑的基于变换的编码器110和具有能量平滑的基于变换的解码器120。最初，在内容创建环境130中创建音频内容(诸如音乐或声音轨道)。该环境130可以包括多个麦克风135(或其他声音捕捉设备)以记录音频源。作为替代，音频源可能已经是数字信号，使得不必使用麦克风来记录源。无论创建声音的方法如何，内容创建环境130的输出都是音频信号140。

然后，使用具有能量平滑的基于变换的编码器110对音频信号140进行编码。编码器110通常位于具有一个或多个处理设备的计算设备上。编码器110使用本文描述的系统和方法对音频信号140进行编码以生成编码比特流150。

编码比特流150通过传送环境160被传送以供收听者消费。存在数种可用的传送选项，包括通过网络165的流传送。作为替代，编码比特流150存储在媒介170(例如光盘)上以供收听者消费。另外，还存在这里没有列举出的可以用于传递编码比特流150的许多其他传送选项。

传送环境160的输出是被传输的编码比特流175，其被输入到具有能量平滑的基于变换的解码器120。解码器120对被传输的编码比特流175进行解码以获得恢复的音频信号180。解码器120的实施例通常位于具有一个或多个处理设备的计算设备上。在包括回放扬声器(或通道)布局的回放环境185中再现恢复的音频信号180。回放扬声器布局可以与内容创建扬声器布局相同或不同。图4中所示的回放扬声器布局是11.2布局，并且环境185包括收听者190。在其他实施例中，回放扬声器布局可以是耳机，使得扬声器仅仅是虚拟扬声器，通过该虚拟扬声器声音好像源自于回放环境185。例如，收听者190可以通过耳机收听恢复的音频信号180。在这种情况下，扬声器不是实际的物理扬声器(耳机除外)，但声音好像源自例如对应于11.2环绕声扬声器配置的回放环境185中的不同空间位置。

图2是示出图1中所示的具有能量平滑的基于变换的编解码器的操作的实施例的流程图。该操作开始于接收来自正被处理的音频信号140的频率变换系数的块作为输入(框200)。该音频信号140是由音频工程师(或其他类型的内容创建者)最初记录和混合的音频信号。在一些实施例中，频率变换系数的块用于音频信号140的子带或分区。

编码器110用于将正交变换和矢量置换两者应用于频率变换系数的块(框210)。在一些实施例中，正交变换是2的大于或等于4的任何次幂。然后，对得到的经处理的频率变换系数进行量化，以获得经量化的经处理的频率变换系数(框220)。然后，将经量化的经处理的频率变换系数打包到编码比特流150中(框230)。

编码比特流150被传输、存储，或者在某些情况下传输和存储两者都进行(框240)。如果执行存储和传输两者，则它们的执行顺序可以是先存储然后传输，反之亦然。解码器120用于处理编码比特流50和编码器110的反向操作(框250)。在解码编码比特流150之后，恢复音频信号。在一些实施例中，恢复的音频信号180是音频信号的逐比特再现。在其他实施例中，恢复的音频信号180是音频信号的近似。回放设备用于回放恢复的音频信号180(框260)。

编码器实施例概述

图3是示出图1中所示的具有能量平滑的基于变换的编码器的实施例的细节的框图。如图3所示，编码器110包括正交变换和置换系统300，下面将对其进行详细说明。编码器110的输入是音频信号140。该信号140包括频率变换系数块310，其被输入到正交变换和置换系统300。在一些实施例中，这些频率变换系数块310是归一化的修正离散余弦变换(MDCT)系数。

系统300的输出是其已被应用了正交变换和矢量置换的经处理的频率变换系数320。然后，使用矢量量化器330对经处理的频率变换系数320进行量化，以生成经量化的经处理的频率变换系数。使用比特流打包系统340将这些经量化的系数打包到比特流中。编码器110的输出是编码比特流150。

解码器实施例的概述

如上所述，编码比特流50被存储、传输或存储和传输两者。然后，编码比特流50被传送到包含具有能量平滑的基于变换的解码器120的接收设备，以便渲染。图4是示出图1中所示的具有能量平滑的基于变换的解码器的实施例的细节的框图。解码器120包括正交逆变换和置换系统400，其使得应用于频率变换系数的正交变换和矢量置换反向。这将在下面进一步详细讨论。

解码器120的输入是被传输的(或存储的或被传输和存储)编码比特流150。首先使用比特流解包系统410对编码比特流150进行解包。接下来，使用逆矢量量化器420将逆矢量量化应用于经解包的编码比特流。该逆量化产生一组被接收的频率变换系数430，其被输入到正交逆变换和置换系统400。系统400的输出是被恢复的频率变换系数块440。解码器120的输出是被恢复的音频信号180。

II.系统和操作细节

现在将讨论具有能量平滑的基于变换的编解码器和方法的细节。应当注意，许多变化是可能的，并且本领域普通技术人员基于本文的公开内容将看到可以实现相同结果的许多其他方式。

编码器

图5是示出图3中所示的正交变换和置换系统300的实施例的详细框图。应该注意，图5示出了系统300和包含在其中的方法的示例性实施例，并且根据图5所示的实施例可以有多种变型。应当注意，在时域中对音频信号执行的任何滤波、预加重或任何其他操作是在系统300处理音频信号之前执行的。

如图5所示，系统300接收频率变换系数块310。注意，在一些实施例中，系数是MDCT系数310，而在其他实施例中，系数类型是离散余弦变换(DCT)或音频编解码器使用的任何其他频率变换的任何变型。不管使用哪种类型的频率变换系数，它们都由置换系统500和正交变换系统510接收。置换系统500和正交变换系统510的组合是与置换过程相结合的变换过程。

编码器110中的变换和置换过程的顺序是重要的，因为该顺序在解码器120处反向。例如，在编码器10处，如果频率变换系数(诸如，频率变换系数块310)首先由置换系统500处理，然后由正交变换系统510处理。然后，在解码器120处应用逆变换，然后进行逆置换。在一些实施例中，在编码器110侧，频率变换系数首先由置换系统500处理，然后由正交变换系统510处理。在其他实施例中，在编码器110侧，频率变换系数首先由正交变换系统50处理，然后由置换系统500。下面详细描述置换系统500和正交变换系统510。

频率变换系数也由能量平滑决策框520使用。决策框520首先执行频率变换系数的信号频谱的分析。基于该分析，决策框520确定是否需要能量平滑，并且如果是，然后确定应用多少能量平滑。如果不是，则不对频率变换系数块应用能量平滑。

如果确定需要能量平滑，则决策框520使用该分析来确定应用多少能量平滑。能量平滑决策框520的输出是平滑参数，其指定要应用的平滑的等级或量。关于是否平滑能量的确定以及平滑等级的确定是根据来自编码器110的多个参数的。在各种实施例中，这些参数包括子带长度和可用比特数的任何组合。

能量平滑决策框520将平滑参数发送到变换参数系统530。该系统530计算用于创建变换矩阵的变换参数(表示为“x”)。系统530还接收来自矢量量化器330的为多个脉冲的形式的输入。变换参数x是平滑参数、要变换的子带的长度以及矢量量化器330的脉冲数的函数。将这些变换参数发送到正交变换系统510以创建变换矩阵。置换系统500的输出(如果正交变换系统510首先处理频率变换系数)或正交变换系统510(如果置换系统500首先处理频率变换系数)是用于给定子带或分区的经处理的频率变换系数320。如上所述，然后使用矢量量化器330对这些经处理的频率变换系数320进行量化，以生成用于给定子带或分区的经量化的经处理的频率变换系数。

正交变换系统的细节

图6是示出与置换系统500交互的正交变换系统510的实施例的详细框图。具体而言，图6示出了如何将置换(在这些实施例中为交织)和变换的组合应用于频率子带或分区。在图1所示的这些实施例中，在图6中，假设系数矢量的长度是M的整数倍，其中M是变换矩阵的大小。在图6所示的示例性实施例中，M的大小等于4。此外，在图6所示的示例性实施例中，置换系统500首先处理频率变换系数，然后是正交变换系统510。

如图6所示，将子带系数的原始序列600被输入到置换系统500。在该示例中，序列600的长度等于M＝4的倍数(在这种情况下，长为16个系数)。置换系统500所进行的第一处理被应用于整个原始序列600并且是交织。该交织生成交织序列610，其是原始序列600的长度(或在该示例中长为16个系数)。

接下来，通过正交转换系统510来处理交织序列610。系统510将变换矩阵应用于交织序列中的每组M个连续点(在该示例中M＝4)。正交变换系统510所进行的处理生成处理序列620，其是图3和图5中所示的经处理的频率变换系数320的具体示例。在图6所示的示例中，处理序列620的每个块是4×4系数矩阵。另外，在该示例中，处理序列中有4个块，即第一块630、第二块640、第三块650和第四块660。

变换矩阵

在一些实施例中，变换矩阵为分数哈达马矩阵的类中的一种类型。矩阵满足上文和下文给出的对变换矩阵的要求。具体地说，矩阵是正交的，使得

A.A^T＝I，

通过适当归一化而能量保持，可控。

作为示例，以下是变换矩阵的实现示例，该变换矩阵是大小为4(H_4w)的分数哈达马矩阵：

其中，

并且，x是变换参数，范围在0到1之间。

举例来说，当x＝0→无平滑时，则变换矩阵变为，

当x＝1→H_2f最大平滑时，变换矩阵变为，

大小为4的分数哈达马矩阵的另一种变型如下：

这里，

并且，x是变换参数。

应当注意，除了上面示出的两个示例之外，变换矩阵的若干变型和其他类型也是可能的。对于变换矩阵的主要要求是它是可逆的和能量保持的。此外，变换矩阵应该是可控的(以允许一定程度的平滑)并且稳定且对于量化噪声鲁棒。

变换参数

变换参数x根据子带的长度N、用于对子带进行矢量量化的脉冲数K、以及作为对于所希望的平滑等级的设置的平滑参数s被计算。

在数学上，变换参数可以写成：

同样，s是平滑参数，它是关于应用多少平滑的设置。平滑参数s每帧(或对于每个子带)被确定一次。平滑参数s的细节在下面给出。

在一些实施例中，平滑等级被给出为3个离散等级：轻度，中度和高度。此外，这三个设置中的每一个的值由下式给出：

s(轻度)＝0.35；s(中度)＝0.45；s(高度)＝0.75

平滑等级被传送到解码器120，并且编码器110和解码器120都使用平滑参数s来得出变换参数x的完全相同的值。

置换系统的细节

在一些实施例中，置换系统500执行交织。交织是根据给定规则重新排列矢量的系数(或元素)的过程。在一些实施例中，该规则是确定性的，而在其他实施例中，该规则是概率性的。如本领域普通技术人员将知晓的，可以以多种方式执行交织。

图7示出了使用基于矩阵的交织来应用置换的示例性实施例。该交织由编码器110上的置换系统500执行。在该示例中，使用4列和P行的矩阵对长度为P×4的序列进行交织。如图7所示，当进行交织时，矩阵被逐行(或沿着行)填充，并且被逐列(或沿着列)读取。为了交织，矩阵按行填充，并按列读取。

能量平滑决策框的细节

能量平滑决策框520的实施例确定是否应该应用能量平滑，并且如果是，则确定应当应用什么程度的平滑。在一些实施例中，在编码器110处针对每个帧或子带确定关于是否应用平滑的决策。在一些实施例中，该决策是基于对上频谱的分析的，并涉及测量该频谱是具有音调结构还是类噪声结构。

基于平均平坦度测度的决策制定

为了量化该分析，平坦度测度被针对每个子带计算，并且在高于特定阈值(例如，高于2kHz)的子带上平均。如果平均平坦度测度低于阈值，则不对子带应用能量平滑。另一方面，如果平均平坦度测度等于或高于阈值，则将能量平滑应用于子带。

平均平坦度测度还用于确定每个帧或子带的平滑等级。在一些实施例中，存在三个离散的平滑等级：(1)轻度能量平滑；(2)重度能量平滑；(3)重度能量平滑。当然，如果决策不应用能量平滑，那么这是一个无平滑等级，其指的是在任一侧都不应用变换。

对于频谱平坦度分析，将上频谱划分为子频带。在一些实施例中，这可以基于感知标度，例如巴克(Bark)标度。在归一化MDCT频带上计算平坦度的频谱测度。存在数种方法可用于计算频谱平坦度。在一些实施例中，使用下式对于给定子带计算所谓的基于熵的测度：

其中K是子带的长度(以区段(bin)为单位)，是给定MDCT区段的归一化(绝对)值，其由下式给定：

其中X(k)是区段k处的MDCT的值。

然后给出平坦度的线性测度：

因此，测度针对每个子带被计算，并对于所有子带和通道被平均，以产生单个测度，即平均平坦度测度(或“flat”)。基于该测度，在一些实施例中，根据以下启发法来确定平滑决策：

如果((flat<1.19))，则决策＝无(不应用能量平滑)；

如果((flat>＝1.19)&(flat<1.25)，则平滑决策＝轻度；

如果((flat>＝1.25)&(flat<1.48))，则平滑决策＝中度；

如果((flat>＝1.48))，平滑决策＝重度。

基于稀疏性的决策制定

在其他实施例中，使用频谱的稀疏性测度来确定平滑等级。与上文类似，使用下式对于每个子带在编码器上计算该稀疏性测度：

这里，

以及

类似的启发法可用于确定平滑等级。

具有能量平滑的基于变换的编码器的操作细节

图8是示出图1和3中所示的具有能量平滑110的基于变换的编码器的操作的实施例的流程图。操作由接收音频信号140作为输入而开始(框800)。音频信号140包括频率变换系数块310，在该示例中为归一化的修正离散余弦变换(MDCT)系数(框810)。

然后，编码器110将音频信号140的频谱(由MDCT系数表示)划分为多个子带。这些子带可以具有相等的大小或不相等的大小。特别地，在一些实施例中，子带的大小遵循对数标度，例如常用的巴克标度。然而，这不是必需的，并且在其他实施例中，子带具有不相等的长度。

不管子带是具有相等的长度或不相等的长度，编码器110都遍历所有子带和通道(框815)。对于每个通道中的每个子带，编码器110如上所述地计算频谱平坦度(框820)。将各子带的频谱平坦度进行平均以获得平均平坦度测度，其被用于确定是否应用能量平滑以及是否应用什么平滑等级(框830)。此处理得到包含平滑等级的平滑参数。如上所述，在一些实施例中，存在四种不同的平滑等级，即无平滑、轻度平滑、中度平滑和重度平滑。包含平滑等级的平滑参数被包含在编码比特流150中并在编码器110和解码器120之间传递。

编码器110还将平滑参数用于变换和置换过程。编码器110遍历所有通道(框840)，并且在每个通道内，遍历所有子带(框850)。在每次迭代时，编码器110计算变换矩阵(框860)并应用置换，在该示例中，置换是交织(框870)。编码器110还将变换矩阵应用于变换处理(框880)。如上所述，在一些实施例中，首先应用变换处理，然后进行置换处理，并且在其他实施例中，首先应用置换处理，然后应用变换处理。然后使用矢量量化器330对得到的经处理的MDCT系数进行矢量量化(框890)。

解码器

图9是示出图4中所示的正交逆变换和置换系统400的实施例的详细框图。应该注意，图9示出了系统400和包含在其中的方法的示例性实施例，并且如图9所示的实施例可以有多种变型，。

如图9所示，逆矢量量化器420基于接收的矢量重新创建子带系数。逆矢量量化器420的输出是所接收的频率变换系数430。正交逆变换和置换系统300的输入是所接收的频率变换系数430。

正交逆变换和置换系统300包括正交逆变换系统900和逆置换系统910。重要的是要注意，在解码器120上执行逆变换和逆置换的顺序取决于在编码器110上执行变换和置换的顺序。如上所述，在编码器110上执行的任何方式在解码器120上反向。下面详细描述逆置换系统910和正交逆变换系统900。

解码器侧变换参数系统920计算用于创建变换矩阵的变换参数x。这与在编码器110上由变换参数系统530使用的信息相同。平滑参数也是从编码器110传递到解码器20的变换参数之一，并且被包含在解码器侧变换参数系统920中。

正交逆变换系统900还反转在编码器110处执行的频域变换。另外，由编码器110执行的任何时域处理也由系统900反向进行。系统900的输出是恢复的频率变换系数块440。

正交逆变换系统的细节

图10是示出与逆置换系统910交互的正交逆变换系统900的实施例的详细框图。具体而言，图10示出了如何将逆置换(在这些实施例中为解交织)和逆变换的组合应用于频率子带或分区。在图10所示的这些实施例中，在图10中，假设系数矢量的长度是M的整数倍，其中M是变换矩阵的大小。在图10所示的示例性实施例中，M的大小等于4。而且，在图10所示的示例性实施例中，正交逆变换系统900首先处理频率变换系数，然后是逆置换系统910。

如图10所示，所传输的经处理的子带系数序列1000被输入到正交逆变换系统900。在图10所示的示例中，所传输的经处理的序列1000的每个块是4×4系数矩阵。另外，在该示例中，在经处理的序列中存在4个块，即第一接收块1010、第二接收块1020、第三接收块1030和第四接收块1040。

正交逆变换系统900应用逆变换矩阵以生成经恢复的交织序列1050，其具有多组M个连续点(在该示例中M＝4)。然后，经恢复的交织序列1050由逆置换系统910处理。系统910对经恢复的交织序列1050进行解交织以获得经恢复的原始序列1060。在该示例中，序列1060的长度等于M＝4的倍数(在这种情况下长为16个系数)。

逆变换矩阵的计算的示例如下。首先，从编码比特流获得平滑参数。接下来，计算变换参数x。在一些实施例中，使用上文给出的式子计算x：

在计算了x之后，计算变换矩阵。如上所述，在一些实施例中，变换矩阵被计算为：

其中，

逆变换矩阵是通过对变换矩阵取逆(或者转置)来计算的，即然后由解码器应用逆变换矩阵。它位于逆置换(在该示例中是解交织)之前或之后。

逆置换系统的细节

图11示出了使用基于矩阵的解交织来应用逆置换的示例性实施例。这是图7中所示的交织操作的相反操作或逆操作。该解交织由解码器120上的逆置换系统910执行。在该示例中，使用4列和P行的逆矩阵对长度为P×4的序列进行解交织。如图11所示，当解交织时，矩阵被逐列填充并逐行读取。

具有能量平滑的基于变换的解码器的操作细节

图12是示出图1和4中所示的具有能量平滑120的基于变换的解码器的操作的实施例的流程图。操作从接收编码比特流150作为输入而开始(框1200)。将逆量化应用于编码比特流(框1210)。编码比特流150还包括从编码器110传递到解码器120的平滑参数。解码器120从平滑参数读取平滑等级(框1220)。

然后，解码器120在每个通道(框1230)和每个通道内的每个子带(框1240)上进行迭代。对于特定通道中的每个子带，解码器120使用所接收的平滑参数计算变换矩阵(框1250)。变换矩阵被反转以获得逆变换矩阵，并且逆变换矩阵被应用于所接收的MDCT系数(框1260)。

解码器120还将解交织应用于MDCT系数(框1270)。解码器120以与编码器110应用的顺序相反的顺序应用逆变换处理和解交织。该逆变换和去交织的结果是经恢复的MDCT系数(框1280)。

III.替代实施例和示例性操作环境

正交变换系统510和置换系统500的替换实施例是可能的。作为示例，图13是示出当经扩展的原始序列1300不是M的倍数时正交变换系统510与置换系统500交互的实施例的详细框图。图13示出了当系数矢量的长度不是M的倍数时置换(在这些实施例中为交织)和变换的组合如何应用于频率子带或分区，其中M是变换矩阵的大小。在图13所示的示例中，M＝4并且序列1300的长度是18个系数。

经扩展的原始序列1300的作为M的倍数的第一部分被隔离和交织。如在图6中所示的情况中，首先应用置换(在这种情况下为交织)，然后进行变换。具体地，将18个子带系数的经扩展的原始序列1300输入到置换系统500。置换系统500的处理应用于经扩展的原始序列1300中的其数量为M的倍数的系数(在这种情况下是前16个系数)。在这种情况下的置换是交织。此交织生成准交织序列1310，其为经扩展的原始序列1300的长度(或在该示例中长为18个系数)。

接下来，准交织序列1310由正交变换系统510处理。系统510将变换矩阵应用于准交织序列中的每组M个连续点。在该示例中，变换矩阵被应用于前4个具有4个系数的组。正交变换系统510的处理生成第一经处理的准交织序列1320。在图13所示的示例中，第一经处理的准交织序列1320的前4个块是4×4系数矩阵。在这种情况下，这意味着只有前16个点被交织和变换，而最后两个点不被交织和变换。

因为最后2个点未被交织和变换，所以附加步骤涉及从左到右翻转经扩展的原始序列1300以获得第一翻转序列1330。变换矩阵被应用于第一翻转序列1330中的前4个具有4个系数的组。正交变换系统510的该处理生成第二经处理的准交织序列1340。如前所述，在图13所示的示例中，第二经处理的准交织序列1340的前4个块是4×4系数矩阵。

对于第二经处理的准交织序列1340从左到右执行最后的翻转，以使系数序列回到其原始顺序并生成第二翻转序列1350。在解码器120处，正交逆变换系统900和逆置换系统910以与编码器110相反的顺序执行反向操作。在解码器处可获得确定用于翻转准交织序列的附加操作序列所需的信息。因此，没有附加比特被从编码器110用信号通知或传递到解码器120。

本文所述的变型之外的许多其他变型从本文档是显见的。例如，取决于实施例，本文描述的任何方法和算法的某些动作、事件或函数可被以不同的顺序执行，可以被添加、合并或一起省略(从而，不是所有描述的动作或事件是方法和算法实现所必需的)。此外，在某些实施例中，动作或事件可以同时执行，例如通过多线程处理、中断处理、或多个处理器或处理器核、或在其他并行架构上，而不是顺序执行。此外，可以由可以一起工作的不同机器和计算系统执行不同的任务或过程。

结合本文公开的实施例描述的各种说明性逻辑块、模块、方法和算法过程和序列可以实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性，上文已经在功能方面对各种说明性组件、框、模块和处理动作进行了描述。这样的功能是实现为硬件还是软件取决于特定应用和施加于整个系统的设计约束。所描述的功能可以针对每个特定应用以不同方式实现，但是这种实现决策不应被解释为导致偏离本文档的范围。

结合本文公开的实施例描述的各种说明性逻辑块和模块可以由被设计用于执行本文所述的功能的机器实现或执行，机器为例如通用处理器，处理设备，具有一个或多个处理设备的计算设备，数字信号处理器(DSP)，专用集成电路(ASIC)，现场可编程门阵列(FPGA)或其他可编程逻辑器件，离散门或晶体管逻辑，分立硬件组件或其任何组合。通用处理器和处理设备可以是微处理器，但是在替代方案中，处理器可以是控制器，微控制器或状态机，它们的组合等。处理器还可以实现为计算设备的组合，诸如DSP和微处理器的组合，多个微处理器，一个或多个微处理器结合DSP内核，或任何其他这样的配置。

本文描述的具有能量平滑的基于变换的编解码器和方法的实施例可在多种类型的通用或专用计算系统环境或配置中操作。通常，计算环境可以包括任何类型的计算机系统，包括但不限于基于一个或多个微处理器的计算机系统，大型计算机，数字信号处理器，便携式计算设备，个人组织器，设备控制器，设备内的计算引擎，移动电话，台式计算机，移动计算机，平板计算机，智能电话和具有嵌入式计算机的器具，仅举几例。

这种计算设备通常可被发现位于具有至少一些最小计算能力的设备中，包括但不限于个人计算机，服务器计算机，手持计算设备，膝上型或移动计算机，诸如蜂窝电话和PDA之类的通信设备，多处理器系统，基于微处理器的系统，机顶盒，可编程消费电子产品，网络PC，迷你计算机，大型计算机，音频或视频媒体播放器等等。在一些实施例中，计算设备将包括一个或多个处理器。每个处理器可以是专用微处理器，例如数字信号处理器(DSP)，超长指令字(VLIW)或其他微控制器，或者可以是具有一个或多个处理核(包括多核CPU中的专用的基于图形处理单元(GPU)的核)的常规中央处理单元(CPU)。

结合本文中所揭示的实施例而描述的方法，过程，框或算法的过程动作可直接体现于硬件中、由处理器执行的软件中或两者的任何组合中。该软件可以被包含在可以由计算设备访问的计算机可读介质中。计算机可读介质包括易失性和非易失性介质两者，其可移除，不可移除或它们的某种组合。计算机可读介质用于存储信息，诸如计算机可读或计算机可执行指令，数据结构，程序模块或其他数据。作为示例而非限制，计算机可读介质可包括计算机存储介质和通信介质。

计算机存储介质包括但不限于计算机或机器可读介质或存储设备，诸如蓝光盘(BD)，数字通用盘(DVD)，压缩盘(CD)，软盘，磁带驱动器，硬盘驱动器，光学驱动器，固态存储设备，RAM存储器，ROM存储器，EPROM存储器，EEPROM存储器，闪存或其他存储器技术，磁盒，磁带，磁盘存储器或其他磁存储设备，或可被用于存储所需信息并且可以由一个或多个计算设备访问的任何其他设备。

软件可以驻留在RAM存储器，闪存，ROM存储器，EPROM存储器，EEPROM存储器，寄存器，硬盘，可移动磁盘，CD-ROM或任何其他形式的非暂时性计算机可读存储介质，媒介，或本领域已知的物理计算机存储器中。示例性存储介质可以耦合到处理器，使得处理器可以从存储介质读取信息以及向存储介质写入信息。在替代方案中，存储介质可以与处理器集成。处理器和存储介质可以驻留在专用集成电路(ASIC)中。ASIC可以驻留在用户终端中。作为替代，处理器和存储介质可以作为分立组件驻留在用户终端中。

本文件中使用的短语“非暂时性”是指“持久或长久”。短语“非暂时性计算机可读介质”包括任何和所有计算机可读介质，唯一的例外是暂时性传播信号。作为示例而非限制，这包括诸如寄存器存储器、处理器高速缓存和随机存取存储器(RAM)的非暂时性计算机可读介质。

短语“音频信号”是表示物理声音的信号。通过捕捉物理声音来构造音频信号的一种方式。音频信号在回放设备上回放以产生物理声音，使得听众可以听到音频内容。回放设备可以是能够解释并转换电子信号为物理声音的任何设备。

诸如计算机可读或计算机可执行指令、数据结构、程序模块等的信息的保持也可以通过使用各种通信介质编码一个或多个调制数据信号，电磁波(例如载波)或其他传输机制或通信协议来实现，包括任何有线或无线信息传递机制。通常，这些通信介质指的是如下信号：该信号的一个或多个特征被以将信息或指令编码在信号中的方式设置或改变。例如，通信介质包括诸如承载一个或多个调制数据信号的有线网络或直接有线连接的有线介质，以及诸如声学，射频(RF)，红外，激光和用于发送、接收、或者发送和接收一个或多个调制数据信号或电磁波的其他无线介质的无线介质。上述任何组合也应包括在通信媒体的范围内。

此外，本文所述的具有能量平滑的基于变换的编解码器和方法的各种实施例中的一些或全部的软件、程序、计算机程序产品中的一个或任何组合或其部分可被以计算机可执行指令或其他数据结构的形式存储、接收、发送、或者从计算机或机器可读介质或存储设备和通信介质的任何期望组合中读取。

可以在计算机可执行指令(例如程序模块)由计算设备执行的一般上下文中进一步描述本文描述的具有能量平滑的基于变换的编解码器和方法的实施例。通常，程序模块包括执行特定任务或实现特定抽象数据类型的例程，程序，对象，组件，数据结构等。这里描述的实施例还可以在分布式计算环境中实践，在分布式计算环境中，任务由一个或多个远程处理设备执行，或者在通过一个或多个通信网络链接的一个或多个设备的云内执行。在分布式计算环境中，程序模块可以位于包括媒体存储设备的本地和远程计算机存储介质中。更进一步地，上述指令可以部分或全部地实现为硬件逻辑电路，其可以包括或不包括处理器。

除非另有说明或者在所使用的上下文中以其他方式理解，否则本文使用的条件语言，例如“可以”，“可能”，“可”，“例如”等，通常意图传达某些实施例包括某些特征，元素和/或状态，而其他实施例不包括。因此，这种条件语言通常不意图暗示该特征、元素和/或状态以任何方式被一个或多个实施例需要，或者一个或多个实施例必须包括用于在有或没有作者输入或提示的情况下决定这些特征、元素和/或状态是否被包括在任何特定实施例中或将在任何特定实施例中执行的逻辑。术语“包括”，“包含”，“具有”等是同义的，并且以开放式方式被包含性地使用，并且不排除其他元件，特征，动作，操作等。此外，术语“或”在其包含意义上(而不是在其排他意义上)使用，因此当使用时，例如为了连接元素列表，术语“或”表示列表中的元素中的一个、一些或全部。

虽然以上详细描述已经示出，描述并指出了应用于各种实施例的新颖特征，但是应当理解，可以在不背离本公开的精神的情况下，可以做出作为所示的装置或算法的形式和细节的各种省略、替换和改变。如将认识到的，本文描述的本发明的某些实施例可被以不提供本文所述的所有特征和益处的形式来体现，因为一些特征可以与其他特征分开使用或实践。

此外，尽管用结构特征和方法动作专用的语言描述了本发明主题，但应理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述具体特征和动作作为实现权利要求的示例形式被公开。

Claims

1.一种处理音频信号的方法，包括：

使用编码器将正交变换和矢量置换应用于音频信号的频率变换系数，以产生经处理的频率变换系数；

量化经处理的频率变换系数以获得经量化的经处理的频率变换系数；

将经量化的经处理的频率变换系数打包成编码比特流；以及

使用解码器处理编码比特流和编码器的反向操作并恢复音频信号，

其中，所述正交变换是可变的，并且所述方法还包括通过平滑参数来控制正交变换，所述平滑参数是至少一个编码器度量和/或解码器度量的函数。

2.根据权利要求1所述的方法，其中，所述正交变换是2的大于或等于4的任何次幂。

3.根据权利要求1所述的方法，还包括：将正交变换和矢量置换应用于频率变换系数仅一次。

4.根据权利要求1所述的方法，还包括将正交变换和矢量置换应用于所述频率变换系数多于一次。

5.根据权利要求1所述的方法，其中，所述矢量置换的置换序列的大小是大于或等于所述正交变换的大小的任何值。

6.根据权利要求1所述的方法，还包括：将矢量置换应用于包含频率变换系数的频率变换系数矢量，以根据置换规则重新布置频率变换系数矢量的元素，该频率变换系数矢量具有矢量长度。

7.根据权利要求6所述的方法，还包括将正交变换应用于频率变换系数矢量，该正交变换是大小为M的变换矩阵。

8.根据权利要求7所述的方法，还包括：在所述频率变换系数矢量的时间将所述变换矩阵应用于M个点，其中，所述矢量长度大于或等于M。

9.一种用于编码音频信号以减轻音乐噪声伪音的方法，包括：

将音频信号分成多个频率子带；

计算用于每个子带的变换矩阵；

在每个子带中使用变换矩阵对频率变换系数应用正交变换，并对频率变换系数应用交织，以获得经处理的频率变换系数，其中正交变换是2的大于或等于4的任何次幂；并且

将经处理的频率变换系数矢量量化并比特打包成表示音频信号的编码比特流，从而减轻音乐伪音，

其中，所述方法还包括：

计算每个子带的频谱平坦度；以及

从频谱平坦度确定平滑参数，该平滑参数包括能量平滑等级，该能量平滑等级表示要应用于每个子带的能量平滑量，

其中所述变换矩阵是通过使用平滑参数被计算的。

10.根据权利要求9所述的方法，还包括：将编码比特流中的平滑参数从编码器发送到解码器。

11.根据权利要求9所述的方法，其中，计算用于每个子带的变换矩阵还包括：

根据平滑参数、正被处理的子带的长度、以及矢量量化器的脉冲数，计算变换参数；以及

使用所述变换参数计算变换矩阵。

12.根据权利要求9所述的方法，其中，首先将正交变换应用于频率变换系数，并且在应用正交变换之后应用交织。

13.根据权利要求9所述的方法，其中，首先将交织应用于频率变换系数，并且在应用交织之后应用正交变换。

14.一种用于解码表示音频信号的编码比特流的方法，包括：

接收编码比特流；

利用编码比特流接收平滑参数，其中平滑参数包含要应用于每个子带的能量平滑等级；

使用平滑参数来计算用于生成逆变换矩阵的变换矩阵；

将逆变换矩阵和逆置换应用于音频信号的每个子带，以获得恢复的频率变换系数；

重构音频信号以获得恢复的音频信号；并且

在回放设备上回放恢复的音频信号。

15.根据权利要求14所述的方法，还包括：

反转变换矩阵以获得逆变换矩阵；以及

根据能量平滑等级应用逆变换矩阵。

16.根据权利要求14所述的方法，还包括以与编码所述编码比特流的编码器所应用的顺序相反的顺序应用所述逆变换矩阵和所述逆置换。