CN102395033A

CN102395033A - 对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法

Info

Publication number: CN102395033A
Application number: CN2011104215102A
Authority: CN
Inventors: 拉尔夫·盖格尔; 马克斯·诺伊恩多夫; 横谷义一; 尼古拉斯·里特尔博谢; 于尔根·赫勒; 斯特凡·盖尔斯贝格
Original assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Foerderung der Angewandten Forschung eV
Priority date: 2006-12-12
Filing date: 2007-12-07
Publication date: 2012-03-28
Anticipated expiration: 2027-12-07
Also published as: WO2008071353A2; BR122019024992B1; US11581001B2; HK1126602A1; US20140222442A1; US9653089B2; US11961530B2; US20130282389A1; WO2008071353A3; ZA200903159B; ES2383217T3; JP5171842B2; KR20090085655A; MY148913A; US20100138218A1; NO20092506L; US20170249952A1; NO342080B1; US9043202B2; BRPI0718738A8

Abstract

一种用于对表示时域数据流的数据段进行解码的设备，数据段是在时域中或者在频域中编码的，在频域中编码的数据段具有表示连续且重叠的时域数据采样块连续数据块。设备包括：时域解码器，用于对在时域中编码的数据段进行解码；以及处理器，用于对在频域中编码的数据段以及时域解码器的输出数据进行处理，以获得重叠的时域数据块。该设备还包括重叠/加法组合器，用于将重叠的时域数据块相组合，以获得时域数据流的已解码数据段。

Description

对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法

技术领域

本发明属于编码领域，其中，例如在视频以及音频编码中，针对编码速率来使用将被编码的数据的不同特性。

背景技术

当前技术的编码策略可以利用将被编码的数据流的特性。例如，在音频编码中，使用感知模型对原始数据进行压缩，而在重新播放时几乎不会有显著的质量降低和降级。现代的感知音频编码方案，例如MPEG2/4AAC(MPEG＝Moving Pictures Expert Group，运动图像专家组；AAC＝Advanced Audio Coding，高级音频编码)，参见Generic Coding of Moving Pictures and Associated Audio：Advanced Audio Coding，International Standard 13818-7，ISO/IEC JTC1/SC29/WG11 Moving Pictures Expert Group，1997，可以使用滤波器组，例如修正离散余弦变换(Modified Discrete Cosine Transform，MDCT)，以便在频域中表示音频信号。

在频域中，可以依据感知模型来进行频率系数的量化。对于一般类型的音频信号(例如音乐)，这样的编码器可以提供优越的感知音频质量。另一方面，现代的语音编码器，例如ACELP(ACELP＝Algebraic Code Excited Linear Prediction，代数码激发线性预测)，使用一种预测的方式，并且利用此种方式可以在时域中表示音频/语音信号。这样的语音编码器可以对人类语音产生过程(即，人类声道)的特征进行建模，从而以较低的比特率即可达到优越的语音信号性能。反之，对于以低比特率编码的语音，感知音频编码器无法达到语音编码器所提供的性能水平，并且使用语音编码器来表示一般的音频信号/音乐会造成显著的质量减损。

传统的构思提供一种分层组合，在所述分层组合中所有的局部编码器始终是活动的(即，时域和频域编码器)，通过将这些局部编码器对于一个给定的处理过的时间帧所作的贡献相组合，计算出最终的输出信号。分层编码的一般示例是MPEG-4可缩放语音/音频编码，具有作为基本层的语音编码器以及基于滤波器组的增强层，参见Bernhard Grill，Karlheinz Brandenburg，“A Two-or Three Stage Bit-Rate Scalable Audio Coding System，”，Preprint Number 4132，99th Convention of the AES(1995年9月)。

传统的频域编码器可以利用MDCT滤波器组。因为MDCT优秀的性质，其已经成为用于传统感知音频编码器的最具优势的滤波器组。举例而言，MDCT可以在处理块之间提供平滑的交叉衰落(cross fade)。例如，即使由于谱系数的量化使得在每一个处理块中的信号皆以不同的方式改变，然而因为加窗的重叠/加法(windowed overlap/add)操作，所以不会产生因为从一个块到另一个块的突然转变而造成的分块伪迹(blocking artifact)。MDCT使用时域混迭消除(time-domain aliasing cancellation，TDAC)的构思。

MDCT是一种以Ⅳ型离散余弦变换为基础的傅立叶相关变换，具有重迭的附加性质。MDCT被设计为用于在较大数据集合的连续块中执行，其中随后的块互相重叠，使得一个块的后半部与下一个块的前半部重合。除了DCT的能量压缩(energy-compaction)质量之外，这种重叠使得MDCT对于信号压缩应用是特别有吸引力的，因为这种重叠有助于避免源于块边界的所述伪迹。作为重迭变换(lapped transform)，MDCT与其它傅立叶相关的变换相比的些许不同之处在于，MDCT的输出的数目仅有输入的数目的一半，而非与输入的数目相同。具体地，将2N个实数转换成N个实数，其中N是正整数。

逆MDCT也称为IMDCT。因为输入与输出的数目不相同，在乍看之下MDCT似乎是不可逆的。然而，通过将随后重叠块的重叠IMDCT相加，实现了完美的可逆性，这使得消除误差并恢复原始数据(即，实现TDAC)。

于是，滤波器组输出处谱值的数目等于该滤波器组输入处时域输入值的数目，这也称作临界采样(critical sampling)。

MDCT滤波器组提供了高频率选择性，并且能够得到高编码增益。通过使用时域混迭消除技术，可以实现块和临界采样的重叠性质，参见J.Princen，A.Bradley，“Analysis/Synthesis Filter Band Design Based on Time Domain Aliasing Cancellation，”，IEEE Trans.ASSP，ASSP-34(5)：1153-1161，1986。图4说明了MDCT的这些效应。图4示出了MDCT输入信号，以沿着上面的时间轴400的脉冲来表示。然后利用两个连续的加窗和MDCT块对输入信号400进行转换，其中在图4中输入信号400的下方示出了窗410。在图4中以时间线420和425显示了经过后向变换之后独立的、加窗的信号。

在逆MDCT之后，第一块产生具有正号的混迭分量420，第二块产生具有相同大小并且具有负号的混迭分量425。如在图4的底部的最终输出430处所显示的，在两个输出信号420与425相加之后这两个混迭分量互相抵消。

在“扩展适应性多速率宽带(AMR-WB+)编解码器”，3GPP TS26.290V6.3.0，2005-06技术规范中，详细说明了AMR-WB+(AMR-WB＝Adaptive Multi-Rate Wideband，适应性多速率宽带)编解码器。依据第5.2节，AMR-WB+编解码器核心的编码算法基于混合ACELP/TCX(TCX＝Transform Coded Excitation，变换编码激发)模型。对于输入信号的每一个块，编码器可以在开回路或者闭回路模式下决定哪一种编码模式，即，ACELP或者TCX，是最佳的。ACELP是时域预测编码器，最适于语音和瞬态信号。AMR-WB编码器用于ACELP模式中。备选地，TCX模型是基于变换的编码器，并且更适于典型的音乐采样。

具体地，AMR-WB+针对变换编码模式TCX使用离散傅立叶变换(DFT)。为了允许相邻块之间的平滑转变，使用加窗和重叠。这种加窗和重叠对于不同的编码模式(TCX/ACELP)之间的转变以及对于连续的TCX帧之间的转变而言都是必要的。因此，DFT与加窗和重叠一起表示并未经过临界采样的滤波器组。滤波器组产生比新的输入采样的数目更多的频率值，参见在3GPP TS 26.290V6.3.0(3GPP＝Third Generation Partnership Project，第三代伙伴计划，TS＝Technical Specification，技术规范)中的图4。每一个TCX帧使用1/8帧长度的重叠，所述帧长度系等于新的输入采样的数目。因此，该DFT的对应长度是9/8帧长度。

考虑在TCX中非临界采样的DFT滤波器组，即，在滤波器组输出处谱值的数目大于在该滤波器组输入处时域输入值的数目，这种频域编码模式与诸如AAC(AAC＝Advanced Audio Coding，高级音频编码)等使用MDCT(临界采样的重迭变换)的音频编解码器不同。

在Fielder，Louis D.；Todd，Craig C.，“The Design of a Video Friendly Audio Coding System for Distributing Applications，”，Paper Number 17-008，The AES 17th International Conference：High-Qqality Audio Coding(1999年8月)，以及Fielder，Louis D.；Davidson，Grant A.，“Audio Coding Tools for Digital Television Distribution，”，Preprint Number 5104，108thConvention of the AES(2000年1月)中，描述了杜比E(Dolby E)编解码器。杜比E编解码器使用MDCT滤波器组。在这种编码的设计中，特别关注在编码域中直接执行编辑的可能性。为了达成这个目标，使用特殊的无混迭窗。在这些窗的边界，不同信号部分的平滑交叉衰落或接合是可能的。在前文中所参考的文件中概括出，例如参见“The Design of a Video Friendly Audio Coding System for Distribution Applications，”第三节，仅简单地使用会引入时域混迭的一般MDCT窗是不可能实现这一点的。然而，其中也指出，为了消除混迭，所需要的代价是变换系数的数目增加，这个结果指出所得到的滤波器组将不再具有临界采样的性质。

发明内容

本发明的目的是提供一种更高效的编码和解码数据段的构思。

利用根据权利要求1所述的用于解码的设备、根据权利要求22所述的用于解码的方法、根据权利要求24所述的用于产生已编码数据流的设备、以及根据权利要求35所述的用于产生已编码数据流的方法，实现了这一目的。

本发明基于以下成果：通过使用时域和频域编码器的组合，以及相应地时域和频域解码器的组合，可以实现更高效的编码和解码。通过在解码器中将时域数据转换至频域，以及通过将得到的转换后的频域数据与接收到的已经解码频域数据相组合，可以以有效地对抗时间混迭问题。通过使施加到数据段的重叠窗的重叠区域适于编码领域的变化，可以减少开销。当使用时域编码时，以及相应地从时域编码切换或者切换至时域编码时，采用具有较小重叠区域的窗可以是有利的。

本发明的实施例可以提供一种通用的音频编码和解码构思，对于例如语音信号和音乐信号这两种类型的输入信号可以实现更高的性能。实施例可以很好地利用将多种编码方式(如，时域和频域编码构思)相组合的优点。实施例可以有效地将基于滤波器组的和基于时域为的编码构思组合成单个方案。实施例可以得到一种组合的编解码器，可以例如在用于音乐类音频内容的音频编解码器与用于语音类内容的语音编解码器之间进行切换，实施例可以频繁地使用这种切换机制，特别是对于混合的内容。

本发明的实施例可以提供不出现切换伪迹的优点。在实施例中，对于切换过程，可以使附加传输数据或者附加编码采样的量最小化，以避免在该操作阶段降低效率。由此，局部编码器的切换式组合的构思与所有局部编码器始终是活动的分层组合是不同的。

附图说明

图1a示出了用于解码的设备的实施例；

图1b示出了用于解码的设备的另一实施例；

图1c示出了用于解码的设备的另一实施例；

图1d示出了用于解码的设备的另一实施例；

图1e示出了用于解码的设备的另一实施例；

图1f示出了用于解码的设备的另一实施例；

图2a示出了用于编码的设备的实施例；

图2b示出了用于编码的设备的另一实施例；

图2c示出了用于编码的设备的另一实施例；

图3a说明了在一个窗的持续时间内在频域和时域编码之间进行切换时的重叠区域；

图3b说明了在两个窗的持续时间内在频域编码和时域编码之间进行切换时的重叠区域；

图3c说明了具有不同的重叠区域的多个窗；

图3d说明了在实施例中对具有不同重叠区域的窗的使用；以及

图4示出了使用MDCT时的时域混迭消除。

具体实施方式

在下文中将参考附图来详细描述本发明的实施例。

图1a示出了用于对表示时域数据流的数据段进行解码的设备100，数据段是在时域中或者在频域中编码的，在频域中编码的数据段具有表示连续且重叠的时域数据采样块的连续数据块。例如，所述数据流可以与音频流相对应，其中这些数据块当中的一些数据块在时域中编码，而其他数据块在频域中编码。在频域中编码的数据块或者数据段可以表示重叠数据块的时域数据采样。

设备100包括时域解码器110，用于对在时域中编码的数据段进行解码。此外，设备100包括处理器120，用于处理在频域中编码的数据段以及时域解码器110的输出数据，以获得重叠的时域数据块。此外，设备100包括重叠/加法组合器130，用于将重叠的时域数据块相组合，以获者时域数据流的已解码数据段。

图1b示出了设备100的另一个实施例。在实施例中，处理器120可以包括频域解码器122，用于对在频域中编码的数据段进行解码，以获得频域数据段。此外，在实施例中，处理器120可以包括时域至频域转换器124，用于对时域解码器110的输出数据进行转换，以获得转换后的频域数据段。

此外，在实施例中，处理器120可以包括频域组合器126，用于将频域段以及转换后的频域数据段相组合，以获得频域数据流。处理器120还可以包括频域至时域转换器128，用于将频域数据流转换成重叠的时域数据块，然后可以由重叠/加法组合器130来组合这些重叠的时域数据块。

实施例可以在不作任何修改的情况下，尤其是在不放弃任何临界采样性质的情况下，使用MDCT滤波器组，如同例如在MPEG-4AAC中所使用的。实施例可以提供最佳的编码效率。实施例可以实现平滑的转变，转变至与已建立的MDCT窗兼容的时域编解码器，同时并不引入额外的切换伪迹并且仅带来最小的开销。

实施例可以在滤波器组中保持时域混迭，并且刻意地将对应的时域混迭引入由时域编解码器编码的信号部分中。因此，所得到的时域混迭分量可以互相抵消，所采用的方式与它们针对MDCT谱的两个连续帧所采用的方式相同。

图1c说明了设备100的另一实施例，依据图1c，频域解码器122可以包括重新量化级122a。此外，时域至频域转换器124可以包括余弦调制滤波器组(cosine modulated filterbank)、扩展重迭变换(extended lapped transform)、低延迟滤波器组或者多相滤波器组。图1c所示的实施例说明时域至频域转换器124可以包括MDCT 124a。

此外，图1c描述了频域组合器126可以包括加法器126a。如图1c所示，频域至时域转换器128可以分别包括余弦调制滤波器组以及逆MDCT128a。可以利用编码器来产生包括时域编码和频域编码的数据段在内的数据流，该编码器将在下文中更详细地描述。通过利用频域编码器对输入信号的一些部分进行编码，以及利用时域编码器对一些输入信号的部分进行编码，可以实现在频域编码与时域编码之间的切换。图1c所示的设备100的实施例说明了对应的用于解码的设备100的原理结构。在其它的实施例中，重新量化122a以及逆修正离散余弦变换128a可以代表频域解码器。

如图1c所示，对于由时域解码器110所接管的信号部分，可以利用前向MDCT 124a对时域解码器110的时域输出进行变换。时域解码器可以利用预测滤波器对时域编码的数据进行解码。此处，在MDCT 124a的输入会引入一些重叠，且从而会引入一些开销。在下文中，将描述可以减小或者最小化这种开销的一些实施例。

理论上，图1c中所示的实施例还包括操作模式，在所述操作模式下两个编解码器可以并行地操作。在实施例中，处理器120可以适于处理在时域以及在频域中并行编码的数据段。以此方式，信号可以部分在频域中编码，部分在时域中编码，类似于分层编码方式。所得到的信号之后在频域中加在一起，比较频域组合器126a。然而，实施例可以执行专门在两个编解码器之间进行切换的操作模式，并且优选地仅具有最小数目的采样，其中这两个编解码器都是活动的，以获得最佳的可能效率。

在图1c中，时域解码器110的输出由MDCT 124a来转换，接着再由IMDCT 128a来转换。在另一个实施例中，这两个步骤可以有利地组合成单个步骤，以降低复杂度。图1d说明了设备100的一个实施例，以说明此种方法。图1d所示的设备100说明处理器120可以包括计算器129，用于依据时域解码器110的输出数据计算重叠的时域数据块。处理器120或者计算器129可以适于依据时域解码器110的输出数据，再现频域至时域转换器128的性质以及相应地重叠性质，即，处理器120或者计算器129可以再现时域数据块的重叠特性，该重叠特性类似于由频域至时域转换器128所产生的的重叠特性。此外，处理器120或者计算器129可以适于依据时域解码器110的输出数据再现时域混迭，该时域混迭类似于由频域至时域转换器128所引入的时域混迭。

之后，频域至时域转换器128可以适于将频域解码器122所提供的频域数据段转换成重叠的时域数据块。重叠/加法组合器130可以适于组合由频域至时域转换器128以及计算器129所提供的数据块，以获得时域数据流的已解码数据段。

如在图1e的实施例中所说明的，计算器129可以包括时域混迭级129a。时域混迭级129a可以适于对时域解码器的输出数据进行时间混迭，以获得重叠的时域数据块。

对于时域编码数据，MDCT和IMDCT的组合可以使实施例中的过程在结构以及计算复杂度方面都更为简化，因为在这些实施例中仅剩下时域混迭(time-domain aliasing，TDA)过程。这个高效的过程可以基于许多观察。对2N个采样的输入段进行加窗的(windowed)MDCT可以分成三个步骤。

第一，将输入信号乘以分析窗。

第二，然后将得到的结果从2N个采样折迭(fold down)成N个采样。对于MDCT，该过程意味着将采样的时间反转顺序的第一个四分之一与采样的第二个四分之一组合(即，后者减去前者)，以及将采样的第四个四分之一与采样的时间反转顺序的第三个四分之一组合(即，相加)。在信号的修改过的第二和第三个四分之一中，所得到的结果是经过时间混迭的、下采样后的信号，包括N个采样。

第三，然后使用正交DCT式变换对下采样后的信号进行转换，其中所述正交DCT式变换将N个输入映射到N个输出采样，以形成最终的MDCT输出。

对N个谱采样的输入序列进行加窗的IMDCT重建同样也可以分成三个步骤。

第一，使用正交逆DCT式变换对N个谱采样的输入序列进行转换，所述正交逆DCT式变换将N个输入映射到N个输出采样。

第二，将得到的结果从N个采样展开成2N个采样，这是通过以下方式来实现的：将逆DCT变换后的值写入2N个采样输出缓冲区的第二和第三个四分之一，并且分别以第二个四分之一的时间反转且反相后的版本填充第一个四分之一，以及以第三个四分之一的时间反转的版本填充第四个四分之一。

第三，将得到的2N个采样乘以合成窗，以形成加窗的IMDCT输出。

因此，在实施例中，利用由加窗的MDCT的第一和第二步骤，以及加窗的IMDCT的第二和第三步骤所构成的序列，可以高效地执行加窗的MDCT与加窗的IMDCT的级联(concatenation)。在实施例中可以完全省略的MDCT的第三步骤以及IMDCT的第一步骤，因为它们是相对于彼此逆运算且从而互相抵销。其余的步骤可以仅在时域中执行，因此使用此种方式的实施例在计算复杂度上可以实质上很低。

对于由MDCT以及相继的IMDCT组成的一个块，MDCT的第二和第三步骤以及IMDCT的第二和第三步骤可以写成与下列的稀疏2N×2N矩阵相乘。

换句话说，计算器129可以适于将时域解码器110的输出分割成包括 2N个连续采样的计算器区段(calculator segment)，依据分析窗函数对这2N个采样施加权重，从第二N/2个采样中减去反转顺序的第一N/2个采样，将反转顺序的最后N/2个采样加至第三N/2个采样中，使第二和第三N/2个采样反相，以第二N/2个采样的时间反转且反相后的版本取代第一N/2个采样，以第三N/2个采样的时间反转的版本取代第四N/2个采样，以及依据合成窗函数对2N个采样施加权重。

在其它的实施例中，重叠/加法组合器130可以适于依据合成窗函数，对频域至时域转换器128所提供的重叠时域数据块施加权重。此外，重叠/加法组合器130可以适于依据以下合成窗函数来施加权重：该合成窗函数与连续重叠时域数据块的重叠区域的大小相适应。

计算器129可以适于依据分析窗函数对2N个采样施加权重，该分析窗函数与连续重叠时域数据块的重叠区域的大小相适应，该计算器还可以适于依据合成窗函数对2N个采样施加权重，该合成窗函数与重叠区域的大小相适应。

在实施例中，在频域中编码的两个连续时域数据块的重叠区域的大小，可以大于一个块在频域中编码而另一个块在时域中编码的两个连续时域数据块的重叠区域的大小。

在实施例中，数据块的大小可以与重叠区域的大小相适应。在实施例中，可以高效实现组合的MDCT/IMDCT过程，即，包括分析加窗、折迭与展开、以及合成加窗在内的块TDA。此外，在实施例中，可以在实际实现中将这些步骤当中的一些步骤部分地或者完全地相组合。

如图1f所示的设备100的另一个实施例说明了，设备100可以进一步包括针对处理器120和重叠/加法组合器130的旁路140，旁路140适于在时域中编码的数据段中没有出现重叠的连续时域数据块时，绕过处理器120和重叠/加法组合器130。如果多个数据段是在时域中编码的，即并不需要转换至频域以解码连续的数据段，则可以在没有任何重叠的情况之下传输这些数据段。对于这些情况，图1f中所示的实施例可以绕过处理器120和重叠/加法组合器130。在实施例中，可以依据AAC规范来确定块的重叠。

图2a示出了设备200的实施例，设备200用于依据时域数据流来产生已编码的数据流，该时域数据流具有信号采样。该时域数据流可以例如对应于音频信号，所述音频信号包括语音片段以及音乐片段或者同时包括这两者。设备200包括区段处理器210，用于从数据流提供数据段，两个连续的数据段具有第一或者第二重叠区域，第二重叠区域小于第一重叠区域。设备200还包括：时域编码器220，用于编码在时域中的数据段；以及频域编码器230，用于依据第一或者第二窗函数对时域数据流的采样施加权重以获得加窗的数据段，以及用于在频域中对加窗的窗数据段进行编码，其中所述第一和第二窗函数适于第一和第二重叠区域。

此外，设备200包括：时域数据分析器240，用于确定与数据段相关联的传输指示；以及控制器250，用于控制该设备，使得对于具有第一转变指示的数据段，将时域编码器220的输出数据包含于已编码的数据流中，对于具有第二转变指示的数据段，将频域编码器230的输出数据包含于已编码的数据流中。

在实施例中，时域数据分析器240可以适于从时域数据流中，或者从区段处理器210所提供的数据段中，确定转变指示。在图2b中示出了这些实施例。在图2b中说明，时域数据分析器240可以耦合至区段处理器210的输入，以从时域数据流中确定转变指示。在另一实施例中，时域数据分析器240可以耦合至区段处理器210的输出，以从数据段中确定转变指示。在实施例中，时域数据分析器240可以直接耦合至区段处理器210，以从该区段处理器直接地提供的数据中确定转变指示。这些实施例在图2b中以虚线表示。

在实施例中，时域数据分析器240可以适于确定转变度量(transition measure)，所述转变度量基于在时域数据流或者数据段中的瞬时性(transience)的水平，其中转变指示器可以指示瞬时性的水平是否超过预定的阈值。

图2c示出了设备200的另一个实施例。在图2c所示的实施例中，区段处理器210可以适于提供具有第一和第二重叠区域的数据段，时域编码器220可以适于对所有数据段进行编码，频域编码器230可以适于对所有加窗的数据段进行编码，以及控制器250可以适于控制时域编码器220以及频域编码器220以及该频域编码器230，使得对于具有第一转变指示的数据段，将时域编码器220的输出数据包含于已编码的数据流中，以及对于具有第二转变指示的数据段，将频域编码器230的输出数据包含于已编码的数据流中。在其它的实施例中，可以将时域编码器220和频域编码器230两者的输出数据都包含于已编码的数据流中。转变指示器可以指示，数据段是与语音信号还是与音乐信号相关联或有关。在实施例中，频域编码器230可以用于更类似于音乐的数据段，时域编码器220可以用于更类似于语音的数据段。在实施例中，可以使用并行编码，例如对于具有背景音乐的类似语音的音频信号。

在图2c所示的实施例中，对于控制器250控制设备200内的多个组件，可以想到多种可能性。在图2c中以虚线来表示不同的可能性。举例而言，控制器250可以耦合至时域编码器220和频域编码器230，以选择哪个编码器应该依据该转变指示来产生已编码的输出。在另一实施例中，控制器250可以对时域编码器220和频域编码器230的输出处的开关加以控制。

在这样的实施例中，时域编码器220和频域编码器230皆可以对所有数据段进行编码，控制器250可以适于：依据编码效率以及相应地(respectively)转变指示，经由所述耦合至编码器输出的开关来选择应当将哪个已编码的数据段包含于已编码的数据流中。在其它的实施例中，控制器250可以适于控制区段处理器210向时域编码器220或者频域编码器230提供数据段。控制器250也可以控制区段处理器210，以为数据段设置重叠区域。在其它的实施例中，控制器250还可以适于控制在区段处理器210与时域编码器220之间，以及相应地与频域编码器230之间的开关。控制器250接着可以影响该开关，以将数据段传递至这两个解码器之一，以及相应地传递至两者。控制器250还可以适于设置针对频域编码器230的加窗函数以及重叠区域和编码策略。

此外，在实施例中，频域编码器230可以适于依据AAC规范来施加窗函数的权重。频域编码器230可以适于将加窗的数据段转换至频域，以获得频域数据段。此外，频域编码器230可以适于对频域数据段进行量化，频域编码器230还可以适于依据感知模型来评估频域数据段。

频域编码器230可以适于使用余弦调制滤波器组、扩展重迭变换、低延迟滤波器组或者多相滤波器组来获得频域数据段。

频域编码器230可以适于使用MDCT来获得频域数据段。时域编码器220可以适于使用预测模型来编码数据段。

在实施例中，频域编码器230中的MDCT操作于所谓的长块模式下，即，用于编码非瞬时输入信号的常规操作模式，对照AAC规范，切换过程所引入的开销可能很高。这对于以下情况也成立：只有一个帧(即，N个采样的长度/帧速率(framing rate))应当使用时域编码器220而非频域编码器230来编码。

然后可能必须利用时域编码器220对MDCT的所有输入值进行编码，即，在频域解码器110的输出处2N个采样是可用的。因此会引入N个附加采样的开销。图3a至3d图说明了一些可以想到的区段重叠区域，以及相应地可应用的加窗函数。可能必须利用时域编码器220对2N个采样进行编码，以取代一块(one block of)频域编码数据。图3a示出了示例，其中使用实线来表示频域编码的数据块，使用虚线来表示时域编码的数据。在加窗函数下面描述了可以在频域中编码(实线方块)或者在时域中编码(虚线方块)的数据段。在图3b至图3d中也将参考这种表示。

图3a示出了以下情况：在这种情况下，在频域中编码数据，所述数据被在时域中编码的一个数据段所中断，并且在其之后的数据段再次地在频域中编码。为了提供对于消除由频域编码器230所引起的时域混迭所需要的时域数据，在从频域切换至时域时需要重叠的区段大小的一半，这对于从时域切换回频域时也同样成立。假设图3a中时域编码数据段的大小为2N，那么该时域编码数据段在其开始和结尾处与频域编码数据有着N/2个采样的重叠。

如果可以使用时域编码器220对多于一个的后续帧进行编码，则对于时域编码部分的开销维持在N个采样。如图3b所示，在时域中对两个连续的帧进行编码，并且在时域编码部分的开始和结尾处的重叠区域具有与先前参考图3a所解释的相同的重叠。图3b示出了在以时域编码器220来编码两个帧的情况下的重叠结构。在此情况中，必须利用时域编码器220对3N个采样进行编码。

例如，在实施例中，可以依据在AAC中所使用的结构通过使用窗切换来减小这种开销。图3c示出了如在AAC中所使用的，由长窗、开始窗、短窗以及停止窗所组成的序列。从图3c可以看出，窗大小、数据段大小、以及从而的重叠区域大小随着不同的窗而不同。图3c所示的序列是上述序列的示例。

实施例不应该局限于AAC窗大小的窗，然而，实施例可以利用具有不同重叠区域的窗以及不同持续时间的窗。在实施例中，可以使用减小的重叠来转变至短窗或者从短窗转变，例如在下述文献中所公开的：Bernd Edler，“Codierung von Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen”，Frequenz，Vol.43，No.9，p.252-256，September 1989，以及Generic Coding of Moving Pictures and Associated Audio：Advanced Audio Coding，International Standard 13818-7，ISO/IEC JTC1/SC29/WG11 Moving Pictures Expert Group，1997，这可以用在一些实施例中，以减小转变至时域编码区域或者从时域编码区域转变所需要的开销，如在图3d中所说明的。图3d说明了四个数据段，其中前两个以及最后一数据段是在频域中编码的，而第三个区段是在时域中编码的。当从频域切换至时域时，使用具有减小的重叠大小的不同窗，由此减小了开销。

在实施例中，可以根据与AAC中所使用的完全相同的开始窗和停止窗来实现转变。用于转变至时域编码区域或者从时域编码区域转变的、对应的窗是仅具有小区域重叠的窗。因此，开销，即，由于切换过程而导致的要额外传送的值的数目可以实质上减少。一般而言，对于具有N_ovl个采样的窗重叠的每个转变来说，开销可以是N_ovl/2。因此，如AAC一样，N_ovl＝1024的常规完全重叠窗的转变，对于左侧(即，淡入窗)会带来1024/2＝512个采样的开销，对于右侧(即，该淡出窗)会带来1024/2＝512个采样的开销，转变所造成的总开销是1024(＝N)个采样。选择减小的重叠窗，例如N_ovl＝128的AAC短块窗，仅会造成128个采样的总开销。

实施例可以在频域编码器230中使用滤波器组，例如，广为使用的MDCT滤波器组；然而，其它实施例也可以与基于其它余弦调制滤波器组的频域编解码器一起使用。这可以包括MDCT的衍生物(derivates)，例如，扩展重迭变换、或者低延迟滤波器组以及例如在 MPEG-1-Layer-1/2/3音频编解码器中所使用的多相滤波器组。在实施例中，前向/后向滤波器组操作的高效实现可以考虑在滤波器组中使用的特定类型窗以及折迭/展开过程。对于每种类型的调制滤波器组，可以通过预处理步骤以及用于调制的块变换(即，DCT式或者DFT)，来高效地实现分析级。在实施例中，可以使用对应的逆变换以及后处理步骤来实现对应的合成级。在实施例中，也可以针对时域编码信号部分仅使用预处理和后处理步骤。

本发明的实施例所提供的优点是，可以实现更佳的编码效率，这是因为，可以在时域编码器220和频域编码器230之间进行切换，这仅带来非常低的开销。在实施例中，仅在后续时域编码的信号部分中可以完全省略重叠。设备100的实施例使得可以对已编码的数据流进行对应的解码。

由此实施例提供了以下优点：例如，可以针对音频信号的相同质量实现较低的编码速率，以及相应地可以以相同的编码速率来实现较高的质量，这是因为，各个编码器可以适于音频信号中的瞬时性。

依据本发明方法的特定实现需求，可以以硬件、软件或者其组合来实现本发明的方法。可以使用数字储存介质来执行所述实现，所述数字存储介质具体为盘、DVD或CD，其上存储有电可读控制信号，所述电可读控制信号与可编程计算机系统协作以使本发明的方法可以执行。因此，一般来说发明的实施例是在机器可读载体上存储有计算机程序代码的计算机程序产品，所述程序代码用于当所述计算机程序产品运行于计算机上时执行本发明的方法。换句话说，发明方法的实施例因此是具有程序代码的计算机程序，所述程序代码用于当计算机程序码运行于计算机上时执行本发明的方法当中的至少一个方法。

参考列表

100用于解码的设备

110时域解码器

120处理器

122频域解码器

122a重新量化

124时域至频域转换器

124a修正离散余弦变换

126频域组合器

126a加法器

128频域至时域转换器

128a逆修正离散预先变换

129计算器

129a时域混迭级

130重叠/加法组合器

200用于编码的设备

210区段处理器

220时域编码器

230频域编码器

240时域数据分析器

250控制器

400修正离散余弦变换输入

410逆修正离散预先变换输出第一窗

425逆修正离散预先变换输出第二窗

430最终输出。

Claims

1.一种用于依据时域数据流来产生已编码数据流的设备，所述时域数据流具有信号的采样，该设备包括：

区段处理器，用于从数据流提供数据段；

时域编码器，用于在时域中对加窗数据段进行编码；

频域编码器，用于依据第一加窗函数或者第二加窗函数对时域数据流的采样施加权重，以获得加窗数据段，所述第一加窗函数和第二加窗函数适于不同长度的重叠区域，所述频域编码器适于在频域中对加窗数据段进行编码；

时域数据分析器，用于确定与数据段有关的转变指示；以及

控制器，用于控制该设备，使得对于具有第一转变指示的数据段，将时域编码器的输出数据包含于已编码数据流中，以及对于具有第二转变指示的数据段，将频域编码器的输出数据包含于已编码数据流中，

其中，控制器适于针对频域编码器设置加窗函数，使得当在频域和时域之间切换时使用重叠大小减小的窗。

2.根据权利要求1所述的设备，其中，控制器适于针对频域编码器设置加窗函数，使得在频域中编码的两个连续加窗数据段的重叠区域大小大于由在频域中编码的一个加窗数据段和在时域中编码的一个加窗数据段组成的两个连续加窗数据段的重叠区域的大小。

3.根据权利要求1所述的设备，其中，所述时域数据分析器适于从时域数据流、数据段中或者从区段处理器直接提供的数据中，确定转变指示。

4.根据权利要求1所述的设备，其中，所述时域数据分析器适于确定转变度量，所述转变度量基于在时域数据流或者数据段中的瞬时性的水平，以及，其中转变指示器指示瞬时性的水平是否超过预定的阈值。

5.根据权利要求1所述的设备，其中，所述区段处理器适于提供具有不同长度的重叠区域的数据段，

时域编码器适于对数据段进行编码，

频域编码器适于对加窗数据段进行编码，以及

控制器适于控制时域编码器和频域编码器，使得对于具有第一转变指示的数据段，将时域编码器的输出数据包含于已编码数据流中，以及对于具有第二转变指示的加窗数据段，将频域编码器的输出数据包含于已编码数据流中。

6.根据权利要求1所述的设备，其中，所述控制器适于控制区段处理器将数据段提供给时域编码器或者频域编码器。

7.根据权利要求1所述的设备，其中，所述频域编码器适于依据AAC规范来施加窗函数的权重。

8.根据权利要求1所述的设备，其中，所述频域编码器适于将加窗数据段转换至频域，以获得频域数据段。

9.根据权利要求8所述的设备，其中，所述频域编码器适于对频域数据段进行量化。

10.根据权利要求9所述的设备，其中，所述频域编码器适于依据感知模型来评估频域数据段。

11.根据权利要求10所述的设备，其中，所述频域编码器适于使用余弦调制滤波器组、扩展重迭变换、低延迟滤波器组或者多相滤波器组来获得频域数据段。

12.根据权利要求8所述的设备，其中，所述频域编码器适于使用修正离散余弦变换来获得频域数据段。

13.根据权利要求1所述的设备，其中，所述时域编码器适于使用预测滤波器，以对数据段进行编码。

14.一种依据时域数据流来产生已编码数据流的方法，所述时域数据流具有信号的采样，该方法包括步骤：

从数据流提供数据段；

确定与数据段相关联的转变指示；

在时域中对数据段进行编码，和

依据第一加窗函数或者第二加窗函数对时域数据流的采样施加权重以获得加窗数据段，以及在频域中对加窗数据段进行编码，所述第一加窗函数和第二加窗函数适于不同长度的重叠区域；以及

执行控制，使得对于具有第一转变指示的数据段，将在时域中编码的输出数据包含于已编码数据流中，以及对于具有第二转变指示的数据段，将在频域中编码的输出数据包含于已编码数据流中；

其中，针对频域编码的加窗函数被设置为使得当在从频域向时域或者从时域向频域切换时使用重叠大小减小的窗。