CN101809657B

CN101809657B - 用于噪声填充的方法和设备

Info

Publication number: CN101809657B
Application number: CN2008801048087A
Authority: CN
Inventors: A·塔莱布; M·布赖恩德; G·尤尔伯格
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2007-08-27
Filing date: 2008-08-26
Publication date: 2012-05-30
Anticipated expiration: 2028-08-26
Also published as: US20130218577A1; US20100241437A1; MX2010001504A; EP3401907B1; US9111532B2; ES2774956T3; EP2186089A1; CA2698031A1; CA2698031C; EP2186089B1; DK2186089T3; PL3401907T3; WO2009029036A1; EP3591650A1; JP2010538317A; EP3401907A1; ES2858423T3; DK3591650T3; PL3591650T3; DK3401907T3

Abstract

用于感知频谱解码的方法包括将从二进制流恢复的频谱系数解码成初始频谱系数集的解码的频谱系数。对所述初始频谱系数集进行频谱填充。所述频谱填充包括通过将初始频谱系数集中没有被从二进制流解码出的频谱系数设置成等于从解码的频谱系数得到的元素来对频谱空穴进行噪声填充。将通过频谱填充形成的频域的重构频谱系数集转换成时域的音频信号。感知频谱解码器包括根据用于感知频谱解码的方法来进行操作的噪声填充器。

Description

用于噪声填充的方法和设备

技术领域

本发明一般涉及用于对音频信号进行编码和解码的方法和设备，并且特别地涉及用于感知频谱解码(perceptual spectral decoding)的方法和设备。

背景技术

当音频信号将被存储和/或传送时，现今标准的方法是根据不同的方案将该音频信号编码成数字表示。为了保存存储和/或传输容量，通常希望减小允许重构具有足够感知质量的音频信号所需的数字表示的大小。编码的信号的大小和信号质量之间的权衡取决于实际应用。

为了精确地编码时域信号的幅度的变化(evolution)，即利用少量的信息来描述，通常将该时域信号分成更小的部分。现有技术的编码方法通常将时域信号变换到频域中，在频域中能够通过使用感知编码(即有损编码但在理想状态下人类的听觉系统不能注意到)来达到更好的编码增益。参见例如J.D.Johnston的“Transform coding of audiosignals using perceptual noise criteria”，IEEE J.Select.Areas Commun.，第6卷，第314-323页，1988[1]。然而，当比特率约束太强时，感知音频编码概念不能避免引入失真，即编码噪声超过掩蔽阈值(maskingthreshold)。减少感知音频编码中的失真的普遍问题已被例如J.Herre，“Temporal Noise Shaping，Quantization and Coding Methods inPerceptual Audio Coding：A tutorial introduction”，AES 17th Int.conf.onHigh Quality Audio Coding，1997[2]中描述的时域噪声整形(TemporalNoise Shaping TNS)技术解决。基本上，TNS方法基于两个主要的考虑，即对时间/频率二元性以及利用开环预测编码来整形量化噪声频谱的考虑。

此外，不断地设计音频编码标准以便根据专用应用以用于合理复杂度的低数据率递送高级或中级音频质量-从窄带语音到全带音频。已引入了在3GPP TS 26.404V6.0.0(2004-09)“Enhanced aacPlus generalaudio codec-encoder SBR part(Release 6)”，2004[3]中描述的频带复制(SBR)技术，以允许通过将特定参数关联到由窄带信号的感知音频编码产生的二进制流(binary flux)来以低数据率进行宽带或全带音频编码。这样的特定参数通常在解码器侧使用以重新生成没有被核心编解码器从低频解码频谱解码出的遗漏的高频。

如在[3]中描述的那样，在基于变换的音频编解码器中的TNS和SBR技术的结合已成功地实施于中级数据率应用，即用于中级音频质量的典型的32kbps比特率。然而，这些高度完善的编码方法非常复杂，因为它们包括预测编码和需要某些延迟的自适应分辨率滤波器组。它们的确不适合于低延迟和低复杂度应用。

发明内容

因此，本发明的主要目的是提供用于减少编码假象(codingartifact)并且还适用于低比特率的方法和设备。本发明的另一个目的是还提供用于减少编码假象的、具有低复杂度的方法和设备。

通过根据所包括的专利权利要求的方法和设备来实现上面所提到目的。一般来说，在第一方面中，用于感知频谱解码的方法包括将从二进制流恢复的频谱系数解码成初始频谱系数集的解码的频谱系数。将所述初始频谱系数集频谱填充成重构(reconstructed)频谱系数集。所述频谱填充包括通过将初始频谱系数集中没有被从二进制流解码出的频谱系数设置成等于从解码的频谱系数得到的元素来对频谱空穴(spectral hole)进行噪声填充。将频域的所述重构频谱系数集转换成时域的音频信号。

在第二方面中，用于在感知频谱解码中进行信号处理的方法包括获得初始频谱系数集的解码的频谱系数。将所述初始频谱系数集频谱填充成重构频谱系数集。所述频谱填充包括通过将初始频谱系数集中具有零量值(magnitude)或未编码的频谱系数设置成等于从解码的频谱系数得到的元素来对频谱空穴进行噪声填充。所述重构频谱系数集被输出。

在第三方面中，感知频谱解码器包括用于二进制流的输入端以及被安排成用于将从所述二进制流恢复的频谱系数解码成初始频谱系数集的解码的频谱系数的频谱系数解码器。感知频谱解码器还包括连接到所述频谱系数解码器并且被安排成用于对频谱系数集进行频谱填充的频谱填充器。该频谱填充器包括用于通过将初始频谱系数集中没有被从二进制流解码出的频谱系数设置成等于从解码的频谱系数得到的元素来对频谱空穴进行噪声填充的噪声填充器。该感知频谱解码器还包括连接到所述频谱填充器并且被安排成用于将频域的重构频谱系数集转换成时域的音频信号的转换器，以及用于所述音频信号的输出端。

在第四方面中，用于感知频谱解码器的信号处理设备包括：用于初始频谱系数集的解码的频谱系数的输入端；以及连接到所述输入端并且被安排成用于对所述初始频谱系数集进行频谱填充的频谱填充器。所述频谱填充器包括用于通过将初始频谱系数集中具有零量值或未解码出的频谱系数设置成等于从解码的频谱系数得到的元素来对频谱空穴进行噪声填充的噪声填充器。该信号处理设备还包括用于重构频谱系数集的输出端。

本发明的一个优点是音频信号的原始信号时域包络被更好地保存，因为如噪声填充在传统的噪声填充方法中出现的那样它在没有注入随机噪声的情况下依赖于解码的频谱系数。本发明还有可能以低复杂度的方式来实施。结合在下面进一步描述的不同实施例来进一步讨论其它优点。

附图说明

通过参考结合附图得到的下面的描述可以更好地理解本发明及其其它目的和优点，其中：

图1是编解码器系统的示意性方框图；

图2是音频信号编码器的实施例的示意性方框图；

图3是音频信号解码器的实施例的示意性方框图；

图4是根据本发明的噪声填充器的实施例的示意性方框图；

图5A-B是根据本发明的实施例的用于噪声填充目的的频谱码本(spectral codebook)的创建和利用的图示；

图6是根据本发明的解码器的实施例的示意性方框图；

图7是根据本发明的噪声填充器的另一个实施例的示意性方框图；

图8A-B是依据根据本发明的频谱折叠方法的实施例的带宽扩展的实施例的图示；

图9是根据本发明的噪声填充器的又一个实施例的示意性方框图；

图10是根据本发明的实施例的具有包络编码器的编码器的示意性方框图；

图11是根据本发明的解码方法的实施例的步骤的流程图；以及

图12是根据本发明的信号处理方法的实施例的步骤的流程图。

具体实施方式

在全部附图中，相同的参考标记被用于相应的或相似的元素。

本发明依赖于编码-解码系统的解码侧的频域处理。该频域处理被称为噪声填充(NF)，其能够减少特别对于低比特率而言出现的编码假象，并且其甚至还可以被用于以低速率并且利用低复杂度方案来重新生成全带宽音频信号。

在图1中示意性地图示了用于音频信号的一般编解码器系统的实施例。音频源10产生音频信号15。在编码器20中处理音频信号15，所述编码器20产生包括表示音频信号15的数据的二进制流25。例如，在多媒体通信的情况下，该二进制流25可以由传输和/或存储装置30来传送。传输和/或存储装置30可选地还可以包括一定存储容量。二进制流25还可以仅被存储在该传输和/存储装置30中，仅在二进制流的利用中引入时间延迟。因此，传输和/或存储装置30是引入二进制流25的空间重新定位或时间延迟中至少一项的装置。当使用该二进制流25时，在解码器40中对其进行处理，所述解码器40根据包括在该二进制流中的数据来产生音频输出35。典型地，音频输出35应该近似原始音频信号15，并且还有可能受到某些约束，例如数据率、延迟或复杂度。

在许多实时应用中，通常情况下不允许原始音频信号15的产生和所产生的音频输出35之间的时间延迟超过某一时间。如果在同一时间的传输资源是受限的，则可用的比特率通常也很低。为了以最佳可能的方式来利用可用的比特率，已开发出了感知音频编码。因此，对现今的许多多媒体服务来说感知音频编码已变成了重要部分。基本原理是将音频信号转换成频域中的频谱系数，并且使用感知模型来确定依赖于频率和时间的频谱系数的掩蔽。

图2图示了典型感知音频编码器20的实施例。在该特定实施例中，感知音频编码器20是基于时间到频率变换器或滤波器组的频谱编码器。接收包括音频信号的帧的音频源15。

在典型的变换编码器中，包括时域处理的第一步骤通常被称为信号的加窗(windowing)，这引起输入音频信号x[n]的时间分割。因此，加窗部21接收音频信号并且提供经时间分割的音频信号x[n]22。将经时间分割的音频信号x[n]22提供给被安排成用于将时域音频信号22转换成频域的频谱系数集的转换器23。能够根据任何现有技术的变换器或滤波器组来实施该转换器23。对于要起作用的本发明的原理来说这些细节不是特别重要，并且因此从说明书中省略这些细节。编码器使用的时域到频域变换可以是例如：

离散傅立叶变换(DFT)，

X [k] = Σ_{n = 0}^{N - 1} w [n] \times x [n] \times e^{- j 2 π \frac{nk}{N}}, k &Element; [0, . . ., \frac{N}{2} - 1]

其中X[k]是加窗的输入信号x[n]的DFT。N是窗口w[n]的大小，n是时间索引并且k是频率槽(frequency bin)索引；

离散余弦变换(DCT)；

改进的离散余弦变换(MDCT)；

X [k] = Σ_{n = 0}^{2 N - 1} w [n] \times x [n] \times \cos [\frac{π}{N} (n + \frac{N + 1}{2}) (k + \frac{1}{2})], k &Element; [0, . . ., N - 1]

其中X[k]是加窗的输入信号x[n]的MDFT。N是窗口w[n]的大小，n是时间索引并且k是频率槽索引等等。

在本实施例中，基于输入音频信号的这些频率表示之一，感知音频编解码器旨在关于听觉系统的临界带(例如Bark标度(bark scale))来分解频谱，或其近似。能够通过对依据根据临界带而建立的感知标度的变换系数进行频率分组来实现该步骤。

X_b[k]＝{X[k]}，k∈[k_b，…，k_b+1-1]，b∈[1，…，N_b]：

其中N_b是频带或心理声学带的数目，并且b是相对索引。

转换器23的输出是作为输入音频信号的频率表示24的频谱系数集。

典型地，感知模型被用来确定依赖于频率和时间的频谱系数的掩蔽。在本实施例中，感知变换编解码器依赖于掩蔽阈值MT[b]的估计，以便得到应用于心理声学子带(subband)域中的变换系数X_b[k]的频率整形函数(例如标度因子SF[b])。定标(scale)的频谱Xs_b[k]能够被定义为：

Xs_b[k]＝X_b[k]×MT[b]，k∈[k_b，…，k_b+1-1]，b∈[1，…，N_b]

为此，在图2的实施例中，心理声学建模部26被连接到用于访问原始声信号22的加窗部21，以及被连接到用于访问频率表示的转换器23。在本实施例中，心理声学建模部26被安排成利用上述的估计并且输出掩蔽阈值MT[k]27。

输入音频信号的掩蔽阈值MT[k]27和频率表示24被提供给量化和编码部28。首先，对频率表示24应用掩蔽阈值MT[k]27，从而给出频谱系数集。在本实施例中，频谱系数集对应于基于频率分组Xb[k]的定标的频谱系数Xs_b[k]。然而，在更一般的变换编码器中，还能够直接对单独的频谱系数X[k]执行定标。

量化及编码部28还被安排成用于以任何适当的方式量化频谱系数集，以给出信息压缩。该量化及编码部28还被安排成用于编码经量化的频谱系数集。这样的编码优选地利用感知特性并且操作用来以最佳可能的方式来对量化噪声进行掩蔽。因此，感知编码器可以为了编码目的来利用在感知上定标的频谱。因此能够通过量化及编码过程来执行冗余缩减，所述量化及编码过程将能够通过使用定标的频谱来集中于在感知上最相关的原始频谱系数。根据将被使用的传输或存储标准来将编码的频谱系数以及附加的辅助信息一起打包(pack)成比特流。因此，从量化及编码部28输出具有表示频谱系数集的数据的二进制流25。

在解码阶段，基本上实现逆操作。在图3中，图示了典型的感知音频解码器40的实施例。接收到二进制流25，其具有来自在本文中以上描述的编码器的特性。在频谱系数解码器41中执行所接收的二进制流25(例如比特流)的解量化和解码。该频谱系数解码器41被安排成用于将从该二进制流恢复的频谱系数解码成初始频谱系数集42的解码的频谱系数X^Q[k]，还有可能以频率分组X_b ^Q[k]来分组。

初始频谱系数集42通常是不完整的，从这该方面来说其通常包括所谓的“频谱空穴”，其对应于在二进制流中没有被接收的或者至少没有从该二进制流解码出的频谱系数。换句话说，频谱空穴是由频谱系数解码器41自动设置成预定值(通常是零)或未解码出的频谱系数X^Q[k]的频谱系数。来自频谱系数编码器41的不完整的初始频谱系数集42被提供给频谱填充器43。该频谱填充器43被安排成用于对该初始频谱系数集42进行频谱填充。该频谱填充器43又包括噪声填充器50。该噪声填充器50被安排成用于通过将初始频谱系数集42中没有被从二进制流25解码出的频谱系数设置成定值来提供对频谱空穴进行噪声填充的过程。如将在下面详细描述的那样，根据本发明，将频谱空穴的频谱系数设置成等于从解码的频谱系数得到的元素。因此，解码器40呈现出允许变换域中的高质量噪声填充的特定模块。来自频谱填充器43的结果是完整的重构频谱系数集44X′_b[k]，其具有所定义的某个频率范围内的所有频谱系数。

将完整的频谱系数集44提供给连接到频谱填充器43的转换器45。该转换器45被安排成用于将频域的完整的重构频谱系数集44转换成时域的音频信号46。转换器45通常基于对应于在编码器20(图2)中使用的变换技术的逆变换器或滤波器组。在特定实施例中，利用逆变换(例如逆MDCT-IMDCT或逆DFT-IDFT等等)来将信号46提供回到时域中。在其它实施例中，利用逆滤波器组。因为在编码器侧，转换器45的技术同样在本领域中是公知的，并且将不再进一步讨论。最后，使用重叠相加的方法来在所述音频信号34的输出端35处生成最终的在感知上重构的音频信号34x′[n]。在本示例性实施例中，这由加窗部47和重叠适应部49提供。

上面给出的编码器和解码器实施例可以被提供用于子带编码以及对整个感兴趣的频带的编码。

在图4中，图示了根据本发明的噪声填充器50的实施例。该特定高质量的噪声填充器50允许利用基于被称为频谱噪声码本的新概念的频谱填充来保存时域结构。基于解码的频谱(即解码的频谱系数)来即时(on-the-fly)建立该频谱噪声码本。解码的频谱包含总的时域包络信息，这意味着所生成的来自噪声码本的可能随机的噪声还将包含这样的将避免时间上平坦的噪声填充的信息，所述噪声填充将引入噪声失真。

图4的噪声填充器的架构依赖于两个连续部，每一个都与相应的步骤相关联。由频谱码本生成器51执行的第一步骤是：建立具有由解码的频谱X_b ^Q[k]提供的元素(即初始频谱系数集42的解码的频谱系数)的频谱码本。

然后，在填充频谱部52中，利用码本元素来填充被看作频谱空穴的解码的频谱子带或频谱系数，以便减少编码假象。对于最低频率一直到过渡频率，该频谱填充优选地都应当被考虑，所述过渡频率能够被自适应地定义。然而，如果需要能够在整个频率范围内执行填充。还通过使用与当前音频信号的特定时域结构相关联的码本元素，将某一时域结构保存引入到填充的频谱系数中。

图4能够被认为图示出用于感知频谱解码器中的信号处理设备。该信号处理设备包括用于初始频谱系数集的解码的频谱系数的输入端。该信号处理设备还包括连接到所述输入端并且被安排成用于将所述初始频谱系数集频谱填充成重构频谱系数集的频谱填充器。该频谱填充器包括用于通过将初始频谱系数集中具有零量值或未解码出的频谱系数设置成等于从解码的频谱系数得到的元素来对频谱空穴进行噪声填充的噪声填充器。该信号处理设备还包括用于重构频谱系数集的输出端。

在图5A-B中示意性图示了该过程。在本文中示出噪声填充过程的第一步骤依赖于根据频谱系数(例如变换系数)来建立频谱码本。通过连结(concatenate)解码的频谱的感知上相关的频谱系数X_b ^Q[k]来实现该步骤。在本实施例中，解码的频谱被分成频谱系数组。然而，本原理适用于任何这样的分组。于是特殊情况是当每个频谱系数X^Q[k]组成其自己的组时，即等同于根本没有任何分组的情况。图5A的解码的频谱具有一些由黑色矩形指示的零系数或未解码出的系数系列，它们通常被称为频谱空穴。通常出现具有某一长度L的频谱系数X_b ^Q[k]的组。该长度可以是固定长度或由量化及编码过程确定的值。

根据由量化及编码过程产生的频谱空穴在感知上不相关的事实，在该实施例中的频谱码本由不仅具有零的频谱系数X_b ^Q[k]的组或等同地频谱子带构成。例如，在该实施例中，具有Z个零的长度为L(Z＜L)的子带是码本的一部分，因为一部分子带已被编码(即被量化)。以这种方式来将码本大小自适应地限定成在感知上相关的输入频谱的含量。

在其它实施例中，当生成频谱码本时可以使用其它选择标准。将被包括在频谱码本中的一个可能的标准可以是不允许某一频谱系数X_b ^Q[k]组的频谱系数是未定义的或等于零。这减少了在频谱码本中的选择可能性，但是同时它确保频谱码本的所有元素携带相同的时域结构信息。如本领域中任何一个技术人员所认识的那样，存在着用于选择从解码的频谱系数得到的适当元素的可能标准的不受限的变化。

在该实施例中，当请求填充频谱空穴时，提议通过来自频谱码本的元素来填充频谱空穴。这被执行以便减少典型的量化及编码假象。本发明与现有技术相比的一个改进依赖于以下事实：利用在感知上相关的频谱自身的部分来实现频谱填充，并且然后允许保存原始信号的时域结构。通常，由现在技术水平的噪声填充方案[1]提议的白噪声注入不满足保存时域结构的重要需求，这意味着可能会产生前回声假象。相反，根据本实施例的频谱填充将不引入前回声假象，且同时仍减少量化及编码假象。

如在图5B中示出的那样，频谱码本元素被用来填充频谱空穴，例如优选地一直到过渡频率的连续的Z＝L个零。该过渡频率可以由编码器定义并且然后被传送到解码器或者根据音频信号内容由解码器自适应地确定。然后假设以与由编码器例如基于每子带的编码系数的数目来定义过渡频率的相同方式来在解码器处定义过渡频率。

因为所有频谱空穴的总长度可以比频谱码本的长度大，所以相同的码本元素必须被用来填充若干个频谱空穴。

从频谱码本选择被用于填充的元素能够通过下面的一个或多个标准来完成。对应于在图5B中图示的实施例的一个标准是以索引排序(index order)(优选地开始于低频端)来使用频谱码本的元素。如果频谱系数集的索引由i指示并且频谱码本的索引由j指示，则对(i，j)能够表示填充策略。于是，索引排序方法能够被表达为通过将码本索引j增加成与索引i一样多来探索地(blindly)填充频谱空穴。这被用来覆盖所有频谱空穴。如果存在比频谱码本中的元素更多的频谱空穴，则当利用频谱码本的所有元素时，可以再次从开端处开始频谱码本元素的使用，即通过频谱码本的循环使用。

其它标准还可以被用来定义对(i，j)，比如频谱空穴系数和码本元素之间的频谱距离(例如频率)。以这种方式，例如能够确信所利用的时域结构基于与离待填充的频谱空穴不太远的频率相关联的频谱系数。典型地，应该相信利用与比待填充的频谱空穴的频率更低的频率相关联的元素填充频谱空穴是更适当的。

另一个标准是考虑频谱空穴邻居的能量，以使得所注入的码本元素将平滑地适合于所恢复的编码系数。换句话说，噪声填充器被安排成基于与待填充的频谱空穴邻近的解码的频谱系数的能量以及所选择的元素的能量来从频谱码本选择元素。

还可以考虑这样的标准的结合。

在上面的实施例中，频谱码本包括来自音频信号的当前帧的解码的频谱系数。还存在通过帧边界的时域相关性。在可替换的实施例中，为了利用这样的帧间时域相关性，将有可能例如保存从一个帧到另一个帧的频谱码本的部分。换句话说，频谱码本可以包括来自过去帧和将来帧中至少一个的解码的频谱系数。

如上面实施例所指出的那样，频谱码本的元素可以直接对应于某些解码的频谱系数。然而，还有可能将噪声填充器安排成进一步包括后处理器。该后处理器被安排成用于对频谱码本的元素进行后处理。这使得噪声填充器必须被安排成用于从后处理的频谱码本选择元素。以这种方式，在频率和/或时域空间中的某些相关性能够被平滑，从而减少了例如量化或编码噪声的影响。

频谱码本的使用是将频谱空穴设置成等于从解码的频谱系数得到的元素的方案的实际实施方式。然而，还可以以可替换的方式来实现简单的解决方案。作为对明确地收集用于填充单独码本中的元素的候选，将被用来填充频谱空穴的元素的选择和/或推导能够根据所述集的解码的频谱系数来直接执行。

在优选的实施例中，解码器的频谱填充器被进一步安排成用于提供带宽扩展。在图6中，图示了解码器40的实施例，其中频谱填充器43附加地包括带宽扩展器55。如本领域中所公知的那样，该带宽扩展器55增加了频率区域，在该频率区域中在高频端可获得频谱系数。在典型的情况下，主要在过渡频率之下提供恢复的频谱系数。任何频谱空穴都通过上述噪声填充来填充。在高于过渡频率的频率处，通常不可获得所恢复的频谱系数或者可获得少数所恢复的频谱系数。该频率区域因此通常是未知的，并且对感知来说具有非常低的重要性。通过也在该区域内扩展可用频谱系数，能够提供适合于例如逆变换的频谱系数全集。简言之，通常对低于过渡频率的频率执行噪声填充，并且通常对高于该过渡频率的频率执行带宽扩展。

在图7所图示的特定实施例中，带宽扩展器55被认为是噪声填充器50的一部分。在该特定实施例中，带宽扩展器55包括频谱折叠部56，在该频谱折叠部56中通过频谱折叠来生成高频频谱系数以便建立全带宽音频信号。换句话说，在本实施例中，该过程通过基于过渡频率的值进行频谱折叠来从所填充的频谱合成高频频谱。

图8A描述了全带宽生成的实施例。它基于低于过渡频率的频谱到高频频谱的频谱折叠，即在过渡频率之上基本上为零。为此，利用低频填充的频谱来填充超过过渡频率的频率处的零。在本实施例中，等于待填充的高频频谱的长度的一半的低频填充频谱的长度从刚刚在过渡频率之下的频率选择。然后，关于由过渡频率定义的对称点来实现第一频谱复制。最后，高频频谱的第一半部分然后被用来通过附加折叠来生成高频频谱的第二半部分。

该过程能够被看成能够被如下描述的一般方法的特定实施方式。根据信号谐波结构(比如语音信号)或任何其它适合的标准来将高于过渡频率(Z变换系数)的频谱分成U(U≥2)个频谱单元或块。实际上，如果原始信号具有强谐波结构，则为了避免令人讨厌的假象而减小用于折叠的频谱部分的长度(增加U)是适当的。

在图8B描述的可替换实施例中，刚刚在过渡频率之下的低频填充频谱部在此还被用于频谱折叠。如果预定的带宽扩展Z小于或等于可用低频填充频谱的一半(N-Z)/2，则对应于待填充的高频谱的长度的低频填充频谱部被选择并且折叠到过渡频率附近的高频上。然而，如果预定的带宽扩展Z大于可用低频填充频谱的一半(N-Z)/2，即在N＜3*Z的情况下，仅低频填充频谱的一半被选择并且在第一位置中被折叠。然后，从刚刚折叠的频谱中选择频谱范围以覆盖高频范围的其余部分。如果必要的话，即如果N＜2*Z，则能够用第三复制(copy)、第四复制等等来重复这样的折叠直到整个高频范围被覆盖，以确保频谱连续性和全带宽信号生成。

在高频频谱的情况下，在过渡频率之上不是全部充满零或未定义的系数，这意味着一些变换系数实际上已在感知上被编码或量化，于是，如在图8B中所指示的那样，频谱折叠应该优选地不代替、修改或甚至删除这些系数。

在图9中，图示了还呈现频谱填充包络的应用的解码器40的实施例。为此，噪声填充器50包括频谱填充包络部57。该频谱填充包络部57被安排成用于将频谱填充包络应用于所有子带上的填充的且折叠的频谱，以使得解码的频谱X′_b[k]的最终能量将近似于原始频谱X_b[k]的能量，即为了保存初始能量。当在标准化域(normalized domain)中执行噪声填充时这也是适用的。

在一个实施例中，这通过使用子带增益校正来完成，该子带增益校正可以被写成：

X_{b}^{'} [k] = X_{b}^{Q} [k] \times 10^{\frac{G [b]}{20}},

k∈[k_b，…，k_b+1-1]，b∈[1，…，N_b]

其中以dB计的增益G[b]由每个子带b的平均量化误差的对数值给出：

G [b] = 10 \times \log_{10} (\frac{1}{(k_{b + 1} - k_{b})} Σ_{k = k_{b}}^{k_{b + 1} - 1} {| X_{b} [k] - X_{b}^{Q} [k] |}^{2})

为了这样做，原始频谱和/或噪声基准(floor)的能级(例如包络G[b])应该已被编码并且由编码器作为辅助信息传送到解码器。

如上面的等式描述的那样，高于过渡频率的子带的类信号(signallike)估计的包络G[b]能够以这种方式使频谱折叠之后的填充频谱的能量适应于原始频谱的初始能量。

在特定实施例中，以依赖于频率的方法进行类信号和噪声基准能量估计的结合以便在频谱填充和折叠之后建立待使用的适当的包络。图10图示用于这样的目的的编码器20的一部分。将频谱系数66(例如变换系数)输入到包络编码部。频谱系数的量化引入量化误差67。包络编码部60包括两个估计器，即类信号能量估计器62和类噪声基准能量估计器62。估计器62、61被连接到量化器63以量化能量估计输出。

如在图10中看到的那样，在本发明中提议对于低于过渡频率的子带使用类噪声基准能量估计，而不是仅使用类信号估计的包络。与上面等式的类信号能量估计的主要差异依赖于计算，这样将通过使用量化误差的系数的对数值的平均而不是每子带的平均系数的对数值来使该量化误差变平。将编码器处的类信号和噪声基准能量估计的组合用于建立适当的包络，其被应用于解码器侧的填充的频谱。

图11图示根据本发明的解码方法的实施例的步骤的流程图。在步骤200中开始用于感知频谱解码的方法。在步骤210中，从二进制流恢复的频谱系数被解码成初始频谱系数集的解码的频谱系数。在步骤212中，执行初始频谱系数集的频谱填充，从而给出重构频谱系数集。在步骤216中将频域的重构频谱系数集转换成时域的音频信号。步骤212又包括步骤214，在步骤214中通过将初始频谱系数集中没有被从二进制流解码出的频谱系数设置成等于从解码的频谱系数得到的元素来对频谱空穴进行噪声填充。该过程在步骤249中结束。

在结合上面的设备描述的过程中可以找到该方法的优选实施例。

图11的过程的频谱填充部分还能够被看成通常在感知频谱解码中使用的单独信号处理方法。这样的信号处理方法包括中心噪声填充步骤以及用于获得初始频谱系数集和用于输出重构频谱系数集的步骤。

在图12中，图示了根据本发明的这样的噪声填充方法的优选实施例的步骤的流程图。该方法可以由此被用作图11中图示的方法的一部分。在步骤250中开始信号处理方法。在步骤260中，获得初始频谱系数集。作为频谱填充步骤的步骤270包括噪声填充步骤272，该噪声填充步骤272又包括多个子步骤262-266。在步骤262中，根据解码的频谱系数来创建频谱码本。在步骤264(其可以被省略)中，如上面所描述的那样对频谱码本进行后处理。在步骤266中，从码本选择填充元素以填充初始频谱系数集中的频谱空穴。在步骤268中，输出恢复的频谱系数集。该过程在步骤299中结束。

本文中的上述发明具有许多优点，将在这里提到一些优点。与例如具有标准高斯白噪声注入的典型噪声填充相比根据本发明的噪声填充提供了高质量。其保存原始信号时域包络。与根据现有技术的解决方案相比本发明的实施方式的复杂度非常低。频域中的噪声填充能够例如通过在编码器和/或解码器侧定义自适应过渡频率来在使用状态下适应于编码方案。

上述实施例可以被理解为本发明的一些说明性实例。本领域技术人员将会理解，在不偏离本发明范围的情况下可以进行各种修改、结合和改变。特别地，在不同实施例中的不同部分解决方案可以以技术上可行的其它配置来结合。然而，本发明的范围由所附权利要求限定。

参考文献

[1]J.D.Johnston，“Transform coding of audio signals usingperceptual noise criteria”，IEEE J.Select.Areas Commun.，第6卷，第314-323页，1988年.

[2]J.Herre，“Temporal Noise Shaping，Quantization and CodingMethods in Perceptual Audio Coding：A tutorial introduction”，AES 17thInt.conf.on High Quality Audio Coding，1997年.

[3]3GPP TS 26.404 V6.0.0(2004-09)，“Enhanced aacPlus generalaudio codec-encoder SBR part(Release 6)”，2004年.

Claims

1.一种用于感知频谱解码的方法，包括以下步骤：

将从二进制流恢复的频谱系数解码成初始频谱系数集的解码的频谱系数；

将所述初始频谱系数集频谱填充成重构频谱系数集；

所述频谱填充包括通过将所述初始频谱系数集中没有被从所述二进制流解码出的频谱系数设置成等于从所述解码的频谱系数得到的元素来对频谱空穴进行噪声填充；以及

将频域的所述重构频谱系数集转换成时域的音频信号，

其特征在于

所述噪声填充又包括根据所述解码的频谱系数来创建频谱码本，由此对频谱空穴的所述噪声填充包括将所述初始频谱系数集中的频谱系数设置成等于根据至少一个标准从所述频谱码本中选择的元素；

以作为循环缓冲器的索引排序从所述频谱码本中选择所述元素，所述索引排序从低频端开始。

2.根据权利要求1所述的方法，其中所述频谱码本包括基于来自当前帧的感知上相关的解码的频谱系数的元素。

3.根据权利要求1或2所述的方法，其中所述频谱码本包括基于来自过去帧和将来帧中至少一个的感知上相关的解码的频谱系数的元素。

4.根据权利要求1或2所述的方法，其中所述噪声填充还包括对所述频谱码本进行后处理，由此从所述后处理的频谱码本中选择所述元素。

5.根据权利要求1或2所述的方法，其中所述频谱填充还包括带宽扩展。

6.根据权利要求5所述的方法，其中对低于过渡频率的频率执行所述噪声填充，并且对高于所述过渡频率的频率执行所述带宽扩展。

7.根据权利要求5所述的方法，其中所述带宽扩展包括频谱折叠。

8.根据权利要求6所述的方法，其中所述带宽扩展包括频谱折叠。

9.根据权利要求1或2所述的方法，其中在标准化域中执行所述噪声填充。

10.根据权利要求9所述的方法，还包括对所述重构频谱系数集应用频谱填充包络以便于保存初始能量的步骤。

11.根据权利要求1或2所述的方法，其中所述转换包括使用逆变换和逆滤波器组中至少一个进行逆变换。

12.一种用于在感知频谱解码中进行信号处理的方法，包括以下步骤：

获得初始频谱系数集的解码的频谱系数；

将所述初始频谱系数集频谱填充成重构频谱系数集；

所述频谱填充包括通过将所述初始频谱系数集中具有零量值或未解码出的频谱系数设置成等于从所述解码的频谱系数得到的元素来对频谱空穴进行噪声填充；以及

输出所述重构频谱系数集，

其特征在于

13.一种感知频谱解码器，包括：

用于二进制流的输入端；

频谱系数解码器，被安排成用于将从所述二进制流恢复的频谱系数解码成初始频谱系数集的解码的频谱系数；

频谱填充器，连接到所述频谱系数解码器并且被安排成用于将所述频谱系数集频谱填充成重构频谱系数集；

所述频谱填充器包括用于通过将所述初始频谱系数集中没有被从所述二进制流解码出的频谱系数设置成等于从所述解码的频谱系数得到的元素来对频谱空穴进行噪声填充的噪声填充器；以及

转换器，连接到所述频谱填充器并且被安排成用于将频域的所述重构频谱系数集转换成时域的音频信号；以及

用于所述音频信号的输出端，

其特征在于

所述噪声填充器又包括频谱码本生成器；

所述频谱码本生成器被安排成用于根据所述解码的频谱系数来创建频谱码本，

所述噪声填充器被安排成用于利用根据至少一个标准从所述频谱码本中选择的元素来填充所述频谱空穴；并且

所述噪声填充器被安排成以作为循环缓冲器的索引排序从所述频谱码本中选择所述元素，所述索引排序从低频端开始。

14.根据权利要求13所述的感知频谱解码器，其中所述频谱码本生成器被安排成用于创建所述频谱码本以包括基于来自当前帧的感知上相关的解码的频谱系数的元素。

15.根据权利要求13或14所述的感知频谱解码器，其中所述频谱码本生成器被安排成用于创建所述频谱码本以包括基于来自过去帧和将来帧中至少一个的感知上相关的解码的频谱系数的元素。

16.根据权利要求13或14所述的感知频谱解码器，其中所述噪声填充器进一步包括被安排成用于对所述频谱码本进行后处理的后处理器，由此所述噪声填充器被安排成用于从所述后处理的频谱码本中选择所述元素。

17.根据权利要求13或14所述的感知频谱解码器，其中所述频谱填充器还包括带宽扩展器。

18.根据权利要求17所述的感知频谱解码器，其中所述噪声填充器被安排成用于对低于过渡频率的频率执行噪声填充，并且所述带宽扩展器被安排成用于扩展高于所述过渡频率的频率的带宽。

19.根据权利要求17所述的感知频谱解码器，其中所述带宽扩展器包括频谱折叠部。

20.根据权利要求18所述的感知频谱解码器，其中所述带宽扩展器包括频谱折叠部。

21.根据权利要求13或14所述的感知频谱解码器，其中所述噪声填充器被安排成在标准化域中操作。

22.根据权利要求21所述的感知频谱解码器，还包括频谱填充包络应用器，其被安排成用于将频谱填充包络应用于所述重构频谱系数集，以便于保存初始能量。

23.根据权利要求13或14所述的感知频谱解码器，其中所述转换器包括逆变换部和逆滤波器组中至少一个。

24.一种用于感知频谱解码器中的信号处理设备，包括：

输入端，用于输入初始频谱系数集的解码的频谱系数；

频谱填充器，连接到所述输入端并且被安排成用于将所述初始频谱系数集频谱填充成重构频谱系数集；

其中所述频谱填充器包括用于通过将所述初始频谱系数集中具有零量值或未解码出的频谱系数设置成等于从所述解码的频谱系数得到的元素来对频谱空穴进行噪声填充的噪声填充器；以及

输出端，用于输出所述重构频谱系数集，

其特征在于

所述噪声填充器又包括频谱码本生成器和填充频谱部；

其中所述频谱码本生成器被安排成用于创建具有由所述初始频谱系数集的解码的频谱系数提供的元素的频谱码本，

其中所述填充频谱部被安排成用于利用根据至少一个标准对于最低频率直到过渡频率从所述频谱码本中选择的元素来填充所述频谱空穴。