CN101553870A - 后处理谱值的设备和方法及音频信号的编码器和解码器 - Google Patents
后处理谱值的设备和方法及音频信号的编码器和解码器 Download PDFInfo
- Publication number
- CN101553870A CN101553870A CNA2007800403496A CN200780040349A CN101553870A CN 101553870 A CN101553870 A CN 101553870A CN A2007800403496 A CNA2007800403496 A CN A2007800403496A CN 200780040349 A CN200780040349 A CN 200780040349A CN 101553870 A CN101553870 A CN 101553870A
- Authority
- CN
- China
- Prior art keywords
- spectral values
- blocks
- sequence
- spectral
- post
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Error Detection And Correction (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
为了对基于将音频信号转换成谱表示的第一变换算法的谱值进行后处理,首先提供表示音频信号采样块序列的谱值块序列。然后,对谱值块序列的谱值进行加权相加,以得到后处理谱值块序列,其中,执行组合,使得使用针对频带和持续时间的块序列的谱值、以及使用针对另一频带或者另一持续时间的谱值,来计算针对该频带和该持续时间的后处理谱值,进一步执行组合,以便使用这样的加权因子使得后处理谱值是通过使用与第一变换算法不同的第二变换算法将音频信号转换成谱表示而得到的谱值的近似。具体地,后处理谱值分别地用于在可缩放编码器中的差形成或者用于在可缩放解码器中的相加。
Description
技术领域
本发明涉及音频编码/解码,并且具体涉及具有基本层和扩展层的可缩放编码器/解码器构思。
背景技术
音频编码器/解码器长久以来已经为众人所周知。具体地,根据标准ISO/IEC 11172-3来进行操作的音频编码器/解码器也称为变换编码器,其中标准ISO/IEC 11172-3也已知为MP3标准。这样的MP3编码器接收时间采样序列作为输入信号,其中对所述输入信号加窗。加窗会得到顺序的时间采样块,然后将所述顺序的时间采样块逐块地转换成谱表示。根据MP3标准,此处的转换是以所谓的混合滤波器组来执行的。该混合滤波器组的第一级是具有32个通道的滤波器组,以产生32个子频带信号。该第一级的子频带滤波器包括重叠的通带,这也是这种滤波方式易于产生混叠(aliasing)的原因。第二级是将32个子频带信号分成576个谱值的修正离散余弦变换MDCT级。然后考虑到心理声学模型将谱值量化,并且随后对其进行霍夫曼(Huffman)编码,以最后得到包括Huffman码字流以及在解码时所需要的侧信息在内的比特序列。
在解码器侧,将Huffman码字计算还原成量化索引。重新量化(requantization)得到谱值,然后将把所述谱值馈送至类比于(analogto)分析滤波器组而实现的混合合成滤波器组,以再次得到已编码且又解码的音频信号的时间采样块。在编码器侧以及在解码器侧的所有步骤皆存在于MP3标准中。有关于术语,注意下文中也将引用“反量化”(inverse quantization)。虽然量化是不可逆的,因为其包括不可恢复的数据损耗,但是经常使用反量化这个措辞,其表示之前出现的重新量化。
此外,现有技术中已知所谓的AAC(AAC=高级音频编码)音频编码器/解码器算法。在国际标准ISO/IEC 13818-7中标准化的这种编码器同样根据音频信号的时间采样来进行操作。同样对音频信号的时间采样进行加窗以得到顺序的已加窗时间采样块。与其中使用混合滤波器组的MP3编码器不同,在AAC编码器中,执行一单个MDCT变换,以得到MDCT谱值块序列。然后同样根据心理声学模型将这些MDCT谱值量化,并且最后对量化后的谱值进行Huffman编码。在解码器侧相应地进行处理。对Huffman码字进行解码并且将分别从Huffman码字得到的量化索引或者量化谱值分别重新量化或者反量化,以最后得到可以提供给MDCT合成滤波器组的谱值,从而最终同样得到已编码/已解码的时间采样。
如同在专业出版物“Codierung von Audiosignalen mitüberlappender Transformation und adaptiven Fensterfunktionen”,BerndEdler,Frequenz,vol.43,1989,pp.252-256中所叙述的,两种方法都以重叠块和适应窗函数来运作。
具体地,当在音频信号中确定了瞬态区域时,执行从长窗函数至短窗函数的切换,以得到降低的频率分辨率以及从而更佳的时间分辨率。通过起始窗引入短窗序列,并且通过停止窗来终止短窗序列。从而可以实现在重叠长窗函数与重叠短窗函数之间的无间隙转换(gapless transition)。根据实现,采用短窗的重叠区域小于采用长窗的该重叠区域,这相对于在音频信号中存在瞬态信号部分的这一事实而言是合理的,然而并不一定要如此。因此,可以以50%的重叠来实现短窗序列以及长窗序列。然而,具体地在短窗的情况下,为了改善瞬态信号部分的编码,可以选择更小重叠宽度,例如,仅10%或者更少,而不是50%。
在MP3标准以及也在AAC标准中都存在以长和短窗的加窗,并且分别对起始窗或者停止窗进行缩放,使得一般而言总是可以维持相同的块光栅(block raster)。对于MP3标准,这意味着对于每一个长块产生576个谱值并且三个短块对应一个长块。这意味着,一个短块产生192个谱值。在采用50%的重叠的情况下,从而使用1152个时间采样的窗长度来进行加窗,这是因为50%重叠的叠加原理(overlapand add principle)使得两个时间采样块总是得到一个谱值块。
在MP3编码器以及也在AAC编码器这两种情况下,都发生有损压缩。损耗是由于对谱值进行量化而产生的。具体地对谱值具进行量化,使得量化所引入的失真(也称之为量化噪声)具有低于心理声学遮蔽阈值的能量。
音频信号的量化越粗糙,即,量化器步长越大,则量化噪声越高。然而,另一方面,对于一个较粗糙的量化,仅需考虑一个较小的量化器输出值集合,使得可以使用较少的比特对较粗糙地量化的值进行熵编码。这意味着,较粗略的量化可得到更高的数据压缩率,然而,同时也导致更高的信号损耗。
如果这些信号损耗低于遮蔽阈值,则它们不会造成任何问题。即使仅稍微超过心理声学遮蔽阈值,对于非专业收听者而言可能仍不会导致听得到的干扰。然而,无论如何还是会发生的信息损耗,这可能是不期望的,例如由于在特定情况下听得见的人为效应(artifact)而导致的信息损耗。
分别地,具体在采用宽带数据连接的情况下或者当数据率不是确定性的参数时,或者当宽带和窄带数据网路都可用时,可能期望具有音频信号的并非有损而无损或者几乎无损的压缩表示。
在图7中示意性地示出的这种可缩放的编码器以及在图8中示意性地示出于的关联的解码器是从以下专业出版物中得知的:“INTMDCT-A Link Between Perceptual And Lossless Audio Coding”,Ralf Geiger,Jürgen Herre,Jürgen Koller,Karlheinz Brandenburg,Int.Conference on Acoustics Speech and Signal Processing(ICASSP),13-17 May,2002,Orlando,Florida。在欧洲专利EP 1495464B 1中描述了类似的技术。在图7中,元件71、72、73、74表示AAC编码器,用于产生称作“感知编码流(perceptually coded bitstream)”的有损编码比特流。该比特流表示基本层。具体地,在图7中的块71标示分析滤波器组,所述分析滤波器组包括根据AAC标准采用长和短窗的加窗。块73表示根据AAC标准的量化/编码,块74表示比特流的产生,使得在输出侧的比特流不仅包括量化后的谱值的Huffman码字还包括例如缩放因子等必要的侧信息,以便可以执行解码。在块73中,有损量化在此处是由图7中标示为“感知模型(perceptual model)”72的心理声学模型来控制的。
如同已经在先前指出的,块74的输出信号是基本缩放层,所述基本缩放层需要相对较少的比特,然而该基本缩放层仅是原始音频信号的有损表示并且可能包括编码器人为效应。如图7所示,块75、76、77、78表示产生无损的或者几乎足无损的扩展比特流所需的附加元件。具体地,如块75所描述的,在输入70处对原始音频信号进行整数MDCT(IntMDCT)。此外,必须对由块73产生的、其中已引入编码器损耗的、量化后的谱值进行反量化并随后进行舍入,以得到舍入后的谱值。将这些谱值提供给差形成器(difference former)77以形成逐谱值差(spectral-value-wise difference),接著在块78中对所述逐谱值差进行熵编码,以产生图7中缩放方案的无损增强比特流。从而在块77的输出处的差值谱(spectrum of differential value)表示在块73中由心理声学量化所引入的失真。
在解码器侧,将有损编码比特流或者感知编码比特流提供给比特流解码器81。在输出侧,块81提供量化谱值块序列,接著将在块82中对所述量化谱值块序列进行反量化。从而在块82的输出会出现反量化后的谱值,与在块82的输入处的值不同,所述反量化后的谱值现在不再表示量化器索引而是现在可以说是“正确的”谱值,然而由于有损量化使得这些谱值与在图7的块73中执行编码之前的谱值不同。将这些量化后的谱值提供给块83中的合成滤波器组或者反MDCT变换(反MDCT),以得到在心理声学上已编码且又解码的音频信号(感知信号),由于图7的编码器所引入的编码误差,所以该音频信号(感知信号)与在图7的输入70处的原始音频信号不同。为了不仅可以得到有损的压缩甚至还可以得到无损的压缩,将块82的音频信号提供给块84中的舍入。现在在加法器85中将舍入后的、反量化后的谱值与差形成器77所产生的差值(differential value)相加,其中,在块86中执行熵解码,以分别对包括在扩展比特流中的熵码字进行解码,所述扩展比特流包括无损或者实质上无损的信息。
从而在块85的输出处存在IntMDCT谱值,在最佳情况下所述IntMDCT谱值与图7编码器的块75的输出处的MDCT谱值相同。然后对该IntMDCT谱值进行反整数MDCT(inverse Int-MDCT),以在块87的输出处得到已编码的无损音频信号或者实质上无损的音频信号(无损音频)。
整数MDCT(IntMDCT)是MDCT的近似,然而产生整数输出值。使用提升(lifting)方案从MDCT得到整数MDCT。这具体在MDCT被分成所谓的Givens旋转的情况下是有用的。那么,在编码器侧得到采用Givens旋转以及随后的DCT-IV的二级算法作为整数MDCT,在解码器侧得到采用DC-IV以及下游多个(a downstream number of)Givens旋转的二级算法作为整数MDCT。在图7和图8的方案中,从而在AAC编码器中产生的量化后的MDCT谱用于断定(predicate)整数MDCT谱。一般而言,该整数MDCT因此是整数变换的一个实例,所述整数变换产生整数谱值并再根据整数谱值来产生时间采样,而没有由于舍入误差而引入的损耗。除了整数MDCT之外,还存在其它的整数变换。
仅当差形成器77的输出处的差很小时,图7和8中所指示的缩放方案才有足够高效。在图7所描述的方案中情况就是如此,分别地,因为MDCT与整数MDCT相类似,以及因为块75中的IntMDCT得自于块71中的MDCT。如果情况并非如此,则所描述的方案将不再适用,因为这样在许多情况中差值将大于原始MDCT值或者甚至大于原始IntMDCT值。那么图7中的缩放方案就失去了它的价值,这是因为块78所输出的扩展缩放层关于基本缩放层具有高冗余性。
可缩放性方案在以下情况下总是最优的:基本层包括许多比特,扩展层包括许多比特,并且基本层和扩展层中的比特之和等于在基本层已是无损编码的情况下所得到的比特数。在实际的可缩放性方案中从未实现这种最佳情况,因为对于扩展层而言,附加的信号传递比特(singaling bit)必要的。然而,尽可能地以这种最优情况为目标。因为在图7中在块71以及块75中的变换是相对类似的,所以图7中所描述的构思接近最优。
然而,这种简单的可缩放性构思并非如同应用于MP3编码器的输出信号的一样,因为如同已经说明的,MP3编码器并不包括纯粹的MDCT滤波器组作为滤波器组,而是包括混合滤波器组,所述混合滤波器组具有用于产生不同子频带信号的第一滤波器组级以及用于进一步将子频带信号分解的下游MDCT,其中,如同也在MP3标准中所指出的,此外还实现了混合滤波器组的附加混叠消去级。由于图7的块75中的整数MDCT与根据MP3标准的混合滤波器组之间的相似性很低,将图7所示的构思直接地应用于MP3输出信号将在差形成器77的输出处得到非常高的差值,这将造成一种非常低效率的可缩放性构思,因为扩展层需要太多的比特数来合理地对差形成器77的输出处的差值进行编码。
图9中描述了对于编码器而言用于产生MP3输出信号的扩展比特流的可能性,而在图10中描述了对于解码器而言用于产生MP3输出信号的扩展比特流的可能性。MP3编码器90对音频信号进行编码并且在输出侧提供基本层91。然后将这个MP3编码的音频信号提供给MP3解码器92,所述MP3解码器92在时间范围内提供有损音频信号。然后将该信号提供给IntMDCT块,理论上可以如同图7中的块75一样来设置该IntMDCT块,其中,该块75接著在输出侧提供IntMDCT谱值,所述IntMDCT被提供给差形成器77,所述差形成器77还包括作为另外的输入值的IntMDCT谱值,然而所述作为另外的输入值的IntMDCT谱值并不是由MP3解码的音频信号所产生的,而是由提供给MP3编码器90的原始音频信号所产生的。
在解码器侧,同样将基本层提供给MP3解码器92,以在输出100处提供有损解码音频信号,该有损解码音频信号与在图8的块83的输出处的信号相对应。然后必须对所述有损解码音频信号进行整数MDCT 75,以便接着将所述有损解码音频信号与在差形成器77的输出处所产生的扩展层93一起进行编码。然后在加法器102的输出101处将出现无损谱,并且仅需利用反IntMDCT 103将所述无损谱转换至时间范围内,以得到无损解码的音频信号,所述无损解码的音频信号将与图8的块87的开始的“无损音频”相对应。
在图9和图10中所描述的的构思(其可以如同图7与图8中所描述的构思一样,提供相对高效的编码扩展层)分别地对于编码器侧(图9)同时也对于解码器侧(图10)而言都是非常昂贵的。与图7中的构思不同,需要完整的MP3解码器92以及附加的IntMDCT 75。
该方案的另一个缺点是,必须定义比特精确的(bit-accurate)MP3解码器。然而这并不是想要的,因为MP3标准并不表示比特精准的规范,而仅是在“一致性(conformance)”的范围之内必须被解码器所满足。
在解码器侧,还需要完整的附加IntMDCT 75,这两个附加元件都会造成计算开销,并且具体对于移动设备中的使用来说,在晶片消耗和电流消耗方面以及在关联的延迟方面,都是十分不利的。
总之,图7和图8中所描述的构思的优点是:与时域方法相比,不需要对音频适应编码信号(audio-adapted encoded signal)进行完整的解码,并且通过在频率范围中表示要另外进行熵编码的量化误差,得到了高效的编码。因此,由ISO/IEC MPEG-4可缩放无损编码(Scalable Lossless Coding)(SLS)所标准化的方法使用此种方式,如在下列文献中所描述的:R.Geiger,R.Yu,J.Herre,S.Rahardja,S.Kim,X.Lin,M.Schmidt,“ISO/IEC MPEG-4 High-Definition ScalableAdvanced Audio Coding”,120th AES meeting,May 20-23,2006,Paris,France,Preprint 6791。因此,得到了音频编码方法(例如MPEG-2/4AAC)的后向兼容(backward compatible)无损耗扩展,其使用MDCT作为滤波器组。
然而,此种方式并没有直接地应用于广为使用的MPEG-1/2Layer 3(MP3)方法中,因为与MDCT相比,在此方法中所使用的混合滤波器组不与IntMDCT或者其它的整数变换兼容。因此,一般而言,在解码后的谱值与对应的IntMDCT值之间的差形成并不会得到小的差值,因此不会得到对差值的高效编码。此处问题的核心在于IntMDCT与MP3混合滤波器组的对应调制函数之间的时间移位。这将导致相位移位,所述相位移位在不利的情况中甚至导致这些差值包括比IntMDCT值更高的值的这一事实。此外,将IntMDCT所基于的原理(例如,抬升方案)应用到MP3的混合滤波器组是有问题的,因为与MDCT相比,混合滤波器组就其基本方式而言是一种无法提供完美重建的滤波器组。
发明内容
本发明的目的是提供一种高效地处理音频数据,具体地对音频数据进行高效编码或者解码的构思。
利用如权利要求1所述的用于对谱值进行后处理的设备、如权利要求17所述的编码器、如权利要求22所述的解码器、或者如权利要求23、24、25所述的方法、或者如权利要求26所述的计算机程序,可以实现该目的。
本发明基于以下研究结果:对例如表示缩放方案的基本层的谱值(即,例如MP3谱值)进行后处理,以从这些谱值得到与根据备选的变换算法所得到值兼容的值。根据本发明,从而通过使用对谱值的加权相加来执行这样的后处理,使得该后处理的结果尽可能地类似于:在并未使用第一变换算法而是使用第二变换算法将同样的音频信号转换成谱表示时所得到的结果,在本发明的优选实施例中所述第二变换算法是整数变换算法。
从而发现,即使在采用极其不兼容的第一变换算法与第二变换算法的情况下,通过对第一变换算的特定谱值进行加权相加,可以达成后处理数值与第二变换算法的结果的兼容性,该兼容性非常好以致于可以以差值形成高效扩展层,而不一定需要在图9与图10中的昂贵且因而不利的编码和解码构思。具体地,执行该加权相加,使得通过对第一变换算法的输出处的谱值和相邻谱值进行加权相加来产生后处理谱值,其中优选的是,分别地既使用来自于相邻频率范围的谱值又使用来自于相邻时间块或者时间周期的谱值。通过相邻谱值的加权相加,认为在第一变换算法中滤波器的相邻滤波器重叠,因为对于所有滤波器组而言实质上都是这样的。通过使用时间上相邻的数个谱值,即,通过对第一变换的两个连续谱值块的(例如,相同频率或者仅略微不同频率的)谱值进行加权相加,还认为典型地使用其中使用块重叠的变换算法。
优选地,将加权因子永久地编程在编码器侧以及解码器侧上,如此一来可以不需要附加的比特来传递加权因子。取而代之地,将加权因子设定一次,并且例如存储为表或者稳固地实现于硬件中,这是因为加权因子不是信号相关的,而是仅依赖于第一变换算法和第二变换算法。具体地,优选的是,设定加权因子,使得第一变换算法和后处理的结构的脉冲响应等于第二变换算法的脉冲响应。在这方面,可以使用已知的最优化方法,手动地或者通过计算机辅助(例如使用特定的代表性测试信号,或者如所指出的直接使用所得到的滤波器的脉冲响应)将加权因子最优化。
可以在该编码器侧和解码器侧使用同样的后处理设备,以将实际上不兼容的、第一变换算法的谱值调整为适合第二变换算法的谱值,如此一来可以对两个谱值块进行差形成,以便最终提供针对音频信号的扩展层,所述音频信号是例如基本层中的MP3编码信号并且包括作为扩展层的无损扩展。
应注意,本发明并不局限于MP3与整数MDCT的组合,在对实际上不兼容的变换算法一起进行处理时,本发明可以用于任何地方,例如,出于差形成的目的,在音频编码器或者音频解码器中的相加或者任何其它的组合运算。然而,本发明的后处理设备的优选使用方式是,针对在其中以特定质量对音频信号进行编码的基本层来提供扩展层,其中扩展层与基本层一起用于实现更高质量的解码,其中所述更高质量的解码优选地已经是无损解码,然而也可以是实质上无损的解码,只要与仅使用基本层的解码相比,使用扩展层使得已解码的音频信号的质量得以提高。
附图说明
在下文中,将参考附图更详细地说明本发明的优选实施例。
图1示出了用于后处理谱值的本本发明的设备;
图2示出了本发明的编码器构思的编码器侧;
图3示出了本发明的解码器构思的解码器侧;
图4示出了针对长块的本发明后处理和差形成的优选实施例的详细图示;
图5a示出了根据第一变体的、针对短块的本发明后处理设备的优选实现;
图5b示出了一起属于图5a所示构思的值块的示意图;
图5c示出了针对图5a所示变体的窗序列;
图6a示出了根据本发明第二变体的、针对短块的本发明后处理设备以及差形成的优选实现;
图6b示出了针对图6a所示变体的不同值的图示;
图6c示出了针对图6a所示变体的块光栅;
图7示出了用于产生已缩放数据流的现有编码器图示;
图8示出了用于处理已缩放数据流的现有解码器图示;
图9示出了低效率的编码器变体;以及
图10示出了低效率的解码器变体。
具体实施方式
图1示出了用于对谱值(优选地,是音频信号的有损表示)进行后处理的本发明的设备,其中所述谱值以基础的第一变换算法将音频信号转换成谱表示而与它们是有损还是无损无关。图1所示的本发明的设备,或者也示意性地在图1示出的方法,分别地(参考设备)特征在于用于提供表示音频信号采样块序列的谱值块序列的装置12。在以下将说明的本发明的优选实施例中,装置12所提供的块序列是由MP3滤波器组产生的块序列。将谱值块序列提供给本发明的组合器13,其中组合器13用于对谱值块序列的谱值执行加权相加,以在输出侧得到后处理谱值块序列(sequence of blocks of postprocessed spectralvalue)(如输出14所描述的)。具体地,组合器13用于:使用针对频带和时间周期的块序列的谱值,以及针对相邻频带和/或相邻时间周期的谱值,计算出针对该频带和该时间周期的后处理谱值(postprocessedspectral value)。此外,组合器还用于使用这样的加权因子对所使用的谱值进行加权,使得后处理谱值是对于利用将音频信号转换成谱表示的第二转换算法而得到的谱值的近似,然而其中所述第二变换算法与所述第一变换算法不同。
这是在图1底部的示意图示出的,利用参考数字16来表示第一变换算法。利用参考数字13来表示由组合器所执行的后处理,利用参考数字17来表示第二变换算法。在块16、13、17当中,块16和17是固定的并且典型地是因外部条件而强制性的。只有相应地由参考数字18来表示的、后处理装置13或者组合器13的加权因子是可以由用户来设定的。然而就此而论,这并不是信号相关的(signal-dependent),而是依赖于第一变换算法以及第二变换算法。利用加权因子18,还可以设定有多少个在频率上相邻的谱值或在时间上相邻的谱值彼此组合。如同将参考图4至图6更详细地解释的,如果将加权因子设定为0,则认为与该加权因子相关联的谱值不在组合中。
在本发明的优选实施例中,针对每一个谱值提供加权因子集合。因此,会得到相当多的加权因子。然而,这并不会造成问题,因为并不需要传递加权因子,而仅需要将加权因子永久地编程到编码器侧和解码器侧。如果编码器和解码器从而对于每一个谱值、以及若适用的话分别地对于每一个时间周期或者如以下将说明的对于每一个子块或者排序位置(ordering position),就相同的加权因子集合达成一致,则对于本发明而言不需要信号传递,如此一来,本发明的构思可以实现在扩展层中的数据速率的显著降低,而不需要任何附加信息的信号传递,不会造成任何伴随的品质损耗。
本发明因此提供了对通过第一变换算法而得到的频率值与通过第二变换算法得到的频率值之间相位移位的补偿,其中可以通过复谱表示(complex spectral representation)来给出这种对相位移位的补偿。为此,为了清楚起见,将包括DE 10234130中所述的构思,其中为了根据实数滤波器组输出值来计算虚部,得到在时间上和在谱上相邻的谱值的线性组合。如果将该过程用于已解码的MP3谱值,则会得到复值谱表示。现在可以通过乘以复修正因子来对每一个所得到的复谱值的相位进行修改,使得根据本发明该复数谱值尽可能地接近第二变换算法,即,优选地相应的IntMDCT值,并从而适于差形成。此外,根据本发明,还执行可能需要的振幅修正。根据本发明,分别地对形成复值谱表示以及相位或者总和修正的这些步骤进行概括,使得通过对基于第一变换算法的谱值及其在时间上和谱上相邻的谱值进行线性组合,可形成新的谱值,所述新的谱值使得与相应的IntMDCT值之差最小。根据本发明,与DE 10234130不同,并不使用加权因子对滤波器组输出值执行后处理以得到实部和虚部;取而代之地,如同在图1的底部所描述的,根据本发明使用这样的加权因子执行后处理,使得利用所述加权因子来设定第一变换算法16与后处理13的组合,从而所得到的结果尽可能地与第二变换算法相对应。
图2与图3示出了图1中所描述的本发明构思在可缩放编码器的编码器侧(图2)且同时也在解码器侧(图3)的优选使用领域。将可以通过第一变换算法而得到的MP3比特流或者一般地比特流分别馈送至块21,以根据比特流来产生谱值,例如MP3谱值。从而在块21中对谱值的解码将典型地包括熵解码和反量化。
然后在块10中执行近似值的计算,其中如图1所示分别执行对近似值或者后处理谱值块的计算。随即在块22中使用在块23中通过IntMDCT转换而得到的IntMDCT谱值来执行差形成。块23从而得到音频信号作为输入信号,根据所述输入信号,可以通过编码来得到如同馈送至输入20中一样的MP3比特流。优选地,对从块22得到的差谱(differential spectrum)进行无损编码24,例如,所述无损编码24包括delta编码、Huffman编码、算术(arithmetic)编码或者任何其它的熵编码,由此降低了数据率可以降低,而不会在信号中造成损耗。
在解码器侧,同样由块21对馈送至图2的输入20中的MP3比特流20执行谱值的解码,该块21可以对应于图2的块21。随即同样根据图1或者块10对在块21的输出处得到的MP3谱值进行处理。然而,在解码器侧,将块10所输出的后处理谱值块提供给加法级30,加法级30在它的另一个输入处得到IntMDCT差值,所述IntMDCT差值是由无损解码31根据图2的块24所输出的无损扩展比特流而得到的。通过将块31所输出的IntMDCT差值与块10所输出的处理后的谱值相加,之后可以在加法级30的输出32处得到IntMDCT谱值块,所述IntMDCT谱值块是原始音频信号(即输入至图2的块23的音频信号)的无损表示。然后由块33产生无损音频输出信号,其中所述块33执行反IntMDCT以得到无损或者实质上无损的音频输出信号。一般而言,与在以MP3合成混合滤波器组来处理块21的输出信号的情况下所得到的音频信号相比,在块33的输出处的音频信号具有更好的品质。根据实现,在输出33处的音频输出信号从而可以是输入至图2的块23中的音频信号的相同再现,或者是该音频信号的并非相同的表示,即,并非是完全无损的,然而已经具有了比普通MP3编码的音频信号更好的品质。
在此点上,必须注意的是,作为第一变换算法,MP3变换算法及其混合滤波器组是优选的,作为第二变换算法,作为整数变换算法的IntMDCT算法是优选的。然而,本发明在各方面都已经具有优点,然而两个变换算法是彼此不同的,其中这两种变换算法不一定是IntMDCT变换算法范围内的整数变换算法,而还可以是MDCT范围内的正态变换(normal transformation)算法,不一定是可逆的整数变换。然而根据本发明优选的是,第一变换算法非整数变换算法,第二变换算法是整数变换算法,其中,当与第二变换算法所提供的谱相比,第一变换算法所提供的谱被相位移位和/或相对于其总量已经改变时,本发明的后处理是尤其有利的。具体地,当第一变换算法没有进行甚至完美的重建时,本发明的利用线性组合的简单后处理是特别有利的,并且可以得以高效地使用。
图4示出了在编码器内的组合器13的优选实施例。然而,如果加法器22并非如同在图4中一样执行差形成(如加法器22上的减号所示),而是执行加法运算时(如在图3的块30所示),在解码器内的实现是相同的。在每一种情况中,馈送至输出40的值是通过针对编码器实现的图2的第二变换算法23而得到的值,或者是利用解码器实现中图3的块31而得到的值。
在本发明的优选实施例中,组合器包括三个部分41、42、43,每一个部分包括三个乘法器42a、42b、42c,其中每一个乘法器与频率索引为k-1、k或者k+1的谱值相关联。从而乘法器42a与频率索引k-1相关联,乘法器42b与频率索引k相关联,以及乘法器42c与频率索引k+1相关联。
因此每一个分支用于分别对块索引为v或n+1、n或n-1的当前块的谱值进行加权,以得到当前块的已加权谱值。
因此第二部分42用于对时间上在前的块以及时间上在后的块的谱值进行加权。相对于部分41,部分42用于对时间上在块n+1后面的块n的谱值进行加权,部分43用于对在块n后面的块n-1进行加权。为了指出该过程,在图4中指出了延迟元件44。为了清楚起见,仅有一个延迟元件“z-1”以参考数字44来标示。
具体地,为每一个乘法器提供谱索引相关的加权因子c0(k)至c8(k)。因此,在本发明的优选实施例中,得到9个已加权谱值,根据这9个加权谱值来针对频率索引k和时间块n计算后处理谱值。在块45中对这9个加权谱值求和。
从而,通过将时间上在前的块(n-1)与在时间上在后的块(n+1)的可能不同地加权的谱值相加,以及分别地使用向上相邻的谱值(k+1)和向下相邻的谱值(k-1),计算出针对频率索引k和时间索引n的后处理谱值。然而,更简单的实现可以仅是:将频率索引k的谱值仅与来自于同一块的一个相邻谱值k+1或者k-1相组合,其中,与频率索引k的谱值相组合的这个谱值不一定是直接相邻的,而还可以是来自于该块的不同谱值。然而,由于相邻频带的典型重叠,优选的是执行与直接相邻于顶部或者底部的谱值的组合。
此外,可选地或另外地,可以将具有针对不同持续时间(即,不同的块索引)的谱值的每一个谱值与来自于块n的相应谱值相组合,其中来自于不同块的这个谱值不一定必须具有相同的频率索引,而可以具有不同的(例如相邻的)频率索引。然而,优选地,至少将来自于不同块的、具有相同频率索引的谱值与来自于当前所考虑的块的谱值相组合。这个另外的块同样不一定是在时间上直接相邻的块,尽管在第一变换算法和/或第二变换算法具有块重叠特性时(如典型地对于MP3编码器或者AAC编码器而言),这尤其是优选的。
这意味着,当考虑图4的加权因子时,至少加权因子c4(k)不等于0,并且至少第二加权因子不等于0,而所有其它的加权因子也可以等于0,这还可以提供了处理,然而由于不等于0的加权因子的数目少,所以这仅是第二变换算法的相对粗略的近似,如果同样考虑图1的下半部的话。为了考虑多于9个的谱值,可以增加另外在未来中以及另外在过去中的其它的块分支。此外,也可以针对在谱上离得更远的谱值增加另外的乘法器以及另外的相应加权因子,以根据图4的3×3区域产生包括多于三行和/或三列的范围。然而已经发现,当对于每一个谱值容许9个加权因子时,与更少数目的加权因子相比,可以实现实质上的改进,而当加权因子的数目增大时,关于在块22的输出处递减的差值,并不会得另外的实质上的改进,因此在采用相邻子频带滤波器的重叠以及相邻块的时间重叠的典型变换算法的情况下,更大数目的加权因子并不会带来实质上的改进。
关于在长块序列中所使用的50%重叠,参考图5c的示意图中图左侧的45处,其中示意性地示出两个接续的长块。因此,根据本发明,当使用长块序列时,总是使用图4中所描述之的组合器构思,其中将IntMDCT算法23的块长度、以及IntMDCT算法的重叠程度设定为等于:MP3分析滤波器的重叠程度、以及MP3分析滤波器组的块长度。一般而言,优选的是,相等地设定两种变换算法的块重叠以及块长度,这并不表示特殊的限制,因为可以容易地关于那些参数来设定第二变换算法(即,例如图2的IntMDCT23),然而这尤其在以下情况下对于第一变换算法来说并不容易:如同关于MP3的示例一样将第一变换算法标准化并且频繁地使用,从而使得第一变换算法可以不变。
如同已经参考于图2以及图3所说明的,在图3中关联的解码器同样通过将相同的近似值(即,图2的块22的输出处或者图3的块31的输出处的IntMDCT差值)相加来将差形成反转。
根据本发明,因此该方法通常可以用于谱表示之间的差形成,所述谱表示是使用不同的滤波器组而得到的,即,当支持第一变换算法的滤波器组/变换与支持第二变换算法的滤波器组/变换不同时得到的。
具体应用的一个示例是,如同已经参考于图4所描述的,连同IntMDCT使用来自于“长块”的MP3谱值。因为在此情况中混合滤波器组的频率分辨率是576,IntMDCT也将包括频率分辨率576,如此一来,窗长度可以包括1152个时间采样的最大值。
在下文中所叙述的示例中,仅使用时间上和谱上直接相邻的谱值,而在一般的情况中也可以(或者可选地)使用离得更远的值。
如果以x(k,n)来标示第n个MP3块中第k个频带中的谱值,并且以y(k,n)来标示IntMDCT的相应谱值,则对于d(k,n)如图4所示计算差。是通过线性组合而得到的y(k,n)的近似值,并且是如图4下方的长方程所描述的方式来确定的。
在此处需要注意的是,由于对于576个子频带当中每一个子频带的不同相位差,因此可能需要相异的系数设定。在实际的实现中,如同在图4中所描述的,为了访问时间上相邻的谱值使用延迟44,延迟44的输出值分别与相应的前面的块中的输入值相对应。为了可以访问时间上在后的谱值,从而还利用延迟46对应用到输入40的IntMDCT谱值进行延迟。
图5a示出了在MP3混合滤波器组提供短块时在某种程度上修改后的过程,其中三个子块分别由192个谱值产生,其中,此处除了图5a的第一变体之外,根据本发明在图6a中的第二变体也是优选的。
第一变体依赖于以频率分辨率192对IntMDCT的三重应用,以形成相应的谱值块。此处,可以根据属于频率索引的三个值及其相应的相邻谱值来形成近似值。对于每一个子频带,此处需要相异的系数集合。为了描述该过程,从而引入了子块索引u,使得n同样与长度为576的整个块的索引相对应。以方程来表示,从而得到图5a中的方程组。在图5b中关于值示出了这样的块序列,在图5c中关于窗示出了这样的块序列。MP3编码器提供如同在50处所描述的短MP3窗。第一变体还提供如同在图5b中在51处所描述的短IntMDCT块y(u0)、y(u1)与y(u2)。藉此,可以计算三个短差块(short differential block)52,使得在块50、51以及52中在频率k处的相应谱值之间得到1∶1表示。
与图4不同,注意到在图5a中并未指出延迟44。这因为以下事实:仅当计算过块n中的所有三个子块0、1、2之后才可以执行后处理。如果具有索引0的子块是在时间上的第一个块,且具有索引1的下一个子块是在时间上较晚的块,且索引u=2又在时间上更晚的短块,则使用来自于子块u0、子块u1以及子块u2的谱值来计算针对索引u=0的差块。这意指,仅参考于具有索引0的当前计算的子块来使用未来块1和2,然而并未使用来自于过去的谱值。在执行至短块的切换时这是合理的,因为如同所习知的以及例如在前述Edler的专业出版物中所描述的,在音频信号中存在瞬态结果(transient result)。然而,根据时间上在前的、从时间上当时的以及时间上在后的子块来计算用于得到具有子块索引1的差值的、具有索引1的子块的后处理值,而具并未使用未来的子块而仅使用具有索引1和索引0的过去的子块来计算有索引2的第三块的后处理谱值,这在技术上也是合理的,只要:同样如图5c中所指出的,可以很容易地由停止窗发起至长窗的窗切换,使得在稍后可以执行至图4中的长块方案的直接改变。
图5因此清楚地示出了,具体在短块的清况中,然而也一般地,以下情况是合理的:仅关注过去或者仅关注未来,以及如同在图4中所指示的并不总是既关注过去也关注未来,以得到在加权和求和之后提供后处理谱值的谱值。
接下来,参考图6a、6b和6c示出了短块的第二变体。在该第二变体中,IntMDCT的频率分辨率仍然是576,使得三个在谱上相邻的IntMDCT谱值各处于一个MP3谱值的频率范围中。因此,对于这三个IntMDCT谱值之中的每一个谱值,为了差形成,根据这三个时间上连续的子块谱值以及它们的相邻谱值,形成相异的线性组合,其中索引s(也称之为顺序索引)现在指示在每三个一组当(each group ofthree)中的位置。从而得到如图6a中在方块图下面所描述的方程。如果在IntMDCT中使用具有小重叠区域的窗函数,则第二变体是尤为合适的,因为如此一来所考虑的信号部分完全对应于这三个子块的信号部分。在此情况中,类似于在第一变体的情况下,优选的分别调节在前面或者后面长块的IntMDCT的窗形式,以得到完美的重建。在图5c中示出了第一变体的相应框图。在图6c中示出了第二变体的相应框图,其中现在仅由长窗63产生一单个长IntMDCT块,其中该长IntMDCT块现在包括k个三重谱值块,其中从s=0、s=1以及s=2得到的这样的三重块的带宽等于在图6b中短MP3块60的块k的带宽。从图6a中可以看的出来,为了从s=0的第一谱值中减去具有索引k的三重块,再次地使用现在的、未来的以及下一个未来的子块0、1、2的值,然而不使用过去的值。然而为了计算三重群组的第二值s=1的差值,使用来自于前面的子块以及未来的子块的谱值,而为了计算顺序索引为s=2的差谱值(differential spetrum value),仅使用前面的子块,如同在图6a中参考于分支43处于过去的分支41和42所描述的。
在这一点上,应注意的是,对于所有的计算规则,忽略每一个超过频率范围限制的项目(即,例如频率索引-1或者576或者192)。在这些情况中,在图4至图6的一般示例中,线性组合因此减小至6项而不是9项。
接下来,详细参考图5c和图6c中的窗序列。窗序列包括长块序列,如同在图4的情况下处理的。然后,接著是具有非对称形式的起始窗56,因为该起始窗56从起始窗开始处的长重叠区域“转换”至在起始窗末尾处的短重叠区域。类比于此,存在停止窗57,其同样从短块序列转换至长块序列,从而在开始处包括短重叠区域并在末尾处包括长重叠区域。
如同在前面所提到的Edler的专业出版物中所描述的,如果编码器检测到音频信号中包括瞬态信号的持续时间,则可以选择窗切换。
这样的信号传递位于MP3比特流中,使得当根据图2以及根据图5c的第一变体的IntMDCT也切换至短块时,相异瞬态检测不是必要的,而是进行基于MP3比特流中的短窗通知(notice)的瞬态检测。对于在起始窗中的值的后处理,由于前面窗的长重叠区域,因此优选的是使用具有前面块索引n-1的块,而由于短重叠区域,具有后面块索引的块仅被很小地加权或者一般而言并不被使用。类比于此,用于后处理的停止窗将除了当前块n的值之外仅考虑具有未来块索引n+1的值,但是将仅执行弱加权或者等于0的加权,即,不使用来自于过去(即,例如来自于第三个短块)的值。
如同图6c中所示,当如利用IntMDCT 23(即,第二变换算法)实现的窗序列并不执行至短窗的切换而是实现优选使用的窗切换时,则优选的是还利用起始窗56和停止窗57使图6c中以63标示的具有短重叠的窗开始或终止。
虽然在图6c中所描述的具体实施例中,图2的IntMDCT并末改变成短窗模式,然而无论如何MP3比特流中短窗的信号传递可以用于:以起始窗、具有短重叠的窗(如同在图6c中的63处所指示的)、以及停止窗来发起窗切换。
此外应注意的是,具体地在AAC标准中所描述的窗序列适于分别地576个值(对于长块)和192个值(对于短块)的MP3块长度或者MP3馈送,并且具体地在AAC标准中所描述的起始窗和停止窗特别适于实现本发明的块23中的IntMDCT。
在下文中,参考第一变换算法和后处理的近似的精度。
对于分别在块内的位置0,...,575具有一个脉冲的576个输入信号,执行下列步骤:
-计算混合滤波器组+近似
-计算MDCT
-计算MDCT谱分量的平方和
-计算MDCT谱分量与近似之间的偏差的平方和。此处,跨越所有576个信号来确定最大平方偏差。
其中
-当使用如图4中的长块时,跨越所有位置的最大相对平方偏差大约为3.3%
-当使用根据图6的短块(混合)和长块(MDCT)时,跨越所有位置的最大相对平方偏差大约为20.6%。
可以说,在这两个变换的输入处存在脉冲的情况下,在近似与第二变换的谱分量之间的偏差的平方和不应大于第二变换的谱分量的平方和的30%(优选地,甚至分别不大于它的25%或10%),而与脉冲在输入块中的位置无关。为了计算平方和,应考虑受脉冲影响的所有谱分量块。
应注意,在上面的误差检验(error inspection)中(MDCT对应混合FB+后处理),总是考虑与信号无关的相对误差。
然而,在IntMDCT(对应MDCT)中,绝对误差是信号相关的,并且处于大约-2至2的舍入后整数值的范围中。由此而得到的结果是,相对误差变成是信号相关的。为了消除这种信号相依性,优选地假设一种完全受控的脉冲(例如16比特PCM处的值32767)。这将在之后得到实质上平坦的谱,其平均幅度大约为32767/sqrt(576)=1365(能量守恒)。那么均方误差将大约为2^2/1365^2=0.0002%,即,是可忽略的。
然而,在输入处非常低的脉冲的情况下,误差将十分剧烈。幅度为1或2的脉冲在IntMDCT近似误差中将实质上完全丢失。
从而在针对完全受控的脉冲指出近似精度的误差标准(即,针对加权因子所预期的值)时,所述近似精度的误差标准是最佳兼容的。
根据情况,可以在硬件或软件中实现本发明的方法。该实现可以在数字存储介质中进行,具体地,具有电可读控制信号的软磁盘或CD,它们与可编程计算机系统协作以执行本发明的方法。一般而言,本发明从而还在于一种计算机程序产品,该计算机程序产品具有存储于机器可读载体上的程序代码,所述程序代码用于在计算机上运行所述计算机程序产品时执行本发明的方法。换言之,因此而可以将本发明实现为具有程序代码的计算机程序,所述程序代码用于在计算机上运行所述计算机程序时执行本方法。
Claims (29)
1.一种对谱值进行后处理的设备(10),用于根据第一变换算法(16)将音频信号转换成一种谱表示,包括:
用于提供谱值块序列的装置(12),所述谱值块序列表示音频信号的采样块序列;以及
组合器(13),用于对所述谱值块序列的谱值进行加权相加,以得到后处理的谱值块序列,其中所述组合器(13)被实现为:使用针对频带和持续时间的块序列的谱值、以及使用针对另一频带或者另一持续时间的谱值,来计算针对所述频带和所述持续时间的后处理谱值,其中所述组合器(13)被实现为:在当进行加权相加时,使用这样的加权因子,使得后处理谱值是对于利用将音频信号转换成谱表示的第二变换算法(17)而得到的谱值的近似,其中所述第二变换算法(17)与所述第一变换算法(16)不同。
2.如权利要求1所述的设备,其中,所述第一变换算法(16)是具有两个级的混合变换算法,所述第二变换算法(17)是一级变换算法。
3.如权利要求1所述的设备,其中,所述第一变换算法(16)包括多相滤波器组以及修正离散余弦变换,所述第二变换算法(17)是整数MDCT。
4.如权利要求1所述的设备,其中,实现所述第一变换算法(16)以及所述第二变换算法(17),使得它们提供实输出信号。
5.如权利要求1所述的设备,其中,所述组合器(13)被实现为:使用这样的加权因子,使得第一变换算法(16)和由组合器(13)所执行的后处理一起提供与第二变换算法(17)的脉冲响应近似的脉冲响应。
6.如权利要求5所述的设备,其中,在根据第一变换算法和后处理的近似中,选择加权因子,使得对于这两个变换的输入处的脉冲,近似与第二变换的谱分量之间的偏差的平方和不大于第二变换的谱分量的平方和的30%。
7.如权利要求1所述的设备,其中,用于提供块序列的装置(12)被实现为:提供是音频信号的有损表示的块。
8.如权利要求1所述的设备,其中,用于计算针对频带k的后处理谱值的组合器(13)包括:
第一部分(41、42、43),用于对频带k、频带k-1或者频带k+1的当前块的谱值进行加权,以得到当前块的已加权谱值;
第二部分(41、42、43),用于对时间上在前的块k-1或者时间上在后的块k+1的谱值进行加权,以得到时间上在前的块或者时间上在后的块的已加权谱值;以及
用于将已加权谱值相加的装置(45),以得到当前、在前或者在后的后处理谱值块的、针对频带k的后处理谱值。
9.如权利要求8所述的设备,还包括:
第三部分(43),用于对在前块的谱值进行加权,其中所述第一部分被实现为对在后块的谱值进行加权,所述第二部分(42)被实现为对当前块的谱值进行加权,所述加法器(45)被实现为将这三部分的已加权谱值相加,以得到针对当前后处理谱值块的后处理谱值。
10.如权利要求1所述的设备,
其中,所述第一变换算法包括块重叠函数,其中谱值块序列所基于的时间音频信号采样块是重叠的。
11.如权利要求1所述的设备,其中,所述组合器(13)被实现为:针对每一个谱值使用信号独立的加权因子集合。
12.如权利要求1所述的设备,其中,所述谱值块序列包括一组比长谱值块更短的谱值块,所述长谱值块紧接在该组块之后或者在该组块之前,以及
其中所述组合器(13)被实现为:使用相同的频带、或者在该组短块当中的数个块之外的邻近频带,来计算该组谱值块的后处理谱值。
13.如权利要求12所述的设备,其中,所述组合器(13)被实现为:仅使用短块的谱值而不使用在前长块或者在后长块的谱值,来计算依据短谱值块的后处理谱值。
17.一种用于编码音频信号的编码器,包括:
如权利要求1所述对谱值进行后处理的设备(10);
用于根据第二变换算法(17)从音频信号计算谱值块序列的装置(23);
用于在依据第二变换算法的块序列与后处理谱值块序列之间形成逐谱值差的装置(22)。
18.如权利要求17所述的编码器,还包括:
用于依据由用于形成逐谱值差的装置(22)所产生的结果来产生扩展比特流的产生装置(24)。
19.如权利要求18所述的编码器,其中,所述产生装置(24)包括熵编码器。
20.如权利要求17所述的编码器,其中,依据第一变换算法(16)的块序列基于有损压缩,依据第二变换算法(17)的块序列基于无损或者实质上无损的压缩。
21.如权利要求17所述的编码器,包括用于存储加权因子的存储器,其中所述加权因子是可独立于信号存储的。
22.如权利要求17所述的编码器,其中,使用第二变换算法(17)来产生块序列的该装置(23)被实现为以窗序列来执行加窗,其中所述窗序列依赖于:依据第一变换算法(16)而给定的谱值块序列所基于的窗序列。
23.如权利要求22所述的编码器,其中,使用第二变换算法(17)来提供块序列的装置(23)被实现为从具有长重叠区域的长窗切换至具有一短重叠区域的长窗,或者切换至多个短窗,当在依据第一变换算法(16)的谱值块序列中时,发生至短窗的切换。
24.一种解码器,用于对已编码音频信号进行解码,包括:
如权利要求1所述对谱值进行后处理的设备;
用于提供在依据第一变换算法(16)的后处理谱值块序列与依据第二变换算法(17)的块序列之间的逐谱值差值的装置(31);
用于将后处理谱值块序列与差值相组合以得到组合谱值块序列的装置(30);以及
用于根据第二变换算法(17)对组合谱值块序列进行反变换以得到已解码音频信号的装置(33)。
25.一种对谱值进行后处理的方法(10),其中,所述谱值基于将音频信号转换成谱表示的第一变换算法(16),该方法包括下列步骤:
提供表示音频信号采样块序列的谱值块序列(12);以及
对所述谱值块序列的谱值进行加权相加以得到后处理谱值块序列(13),其中为了计算针对频带和持续时间的后处理谱值,使用针对该频带和该持续时间的块序列的谱值以及针对另一频带或者另一持续时间的谱值,以及在进行加权相加时,使用这样的加权因子,使得后处理谱值是利用将音频信号转换成谱表示的第二变换算法(17)而得到谱值的近似,其中所述第二变换算法(17)与所述第一变换算法(16)不同。
26.一种对音频信号进行编码的方法,包括下列步骤:
如权利要求25所述对谱值进行后处理(10);
根据第二变换算法(17)从音频信号计算谱值块序列(23);
形成在依据第二变换算法的谱值块序列与后处理谱值块序列之间的逐谱值差(22)。
27.一种对已编码音频信号进行解码的方法,包括下列步骤:
如权利要求25所述对谱值进行后处理;
提供在依据第一变换算法(16)的后处理谱值块序列与依据第二变换算法(17)的谱值块序列之间的逐谱值差值(31);
将后处理谱值块序列与差值相组合以得到组合谱值块序列(30);
根据第二变换算法(17)对组合谱值块序列进行反变换以得到已解码音频信号(33)。
28.一种具有程序代码的计算机程序,所述程序代码用于在计算机上运行所述计算机程序时执行如权利要求25所述的方法。
29.一种比特流扩展层,用于输入至音频解码器,其中,所述比特流扩展层包括差值块序列,其中所述差值块逐谱值地包括利用第二变换算法(17)所得到的谱值块与后处理谱值块之差,其中所述后处理谱值是通过对利用第一变换算法(16)而得到块序列的谱值进行加权相加而产生的,其中,为了计算针对频带和持续时间的后处理谱值,使用针对该频带和该持续时间的块序列的谱值以及针对另一频带或者另一持续时间的谱值,为了进行组合,使用加权因子使得后处理谱值表示利用第二变换算法(17)而得到的谱值的近似,其中所述第二变换算法(17)与所述第一变换算法(16)不同。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE102006051673A DE102006051673A1 (de) | 2006-11-02 | 2006-11-02 | Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale |
DE102006051673.7 | 2006-11-02 | ||
PCT/EP2007/008477 WO2008052627A1 (en) | 2006-11-02 | 2007-09-28 | Device and method for postprocessing spectral values and encoder and decoder for audio signals |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101553870A true CN101553870A (zh) | 2009-10-07 |
CN101553870B CN101553870B (zh) | 2012-07-18 |
Family
ID=38962597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007800403496A Active CN101553870B (zh) | 2006-11-02 | 2007-09-28 | 后处理谱值的设备和方法及音频信号的编码器和解码器 |
Country Status (22)
Country | Link |
---|---|
US (1) | US8321207B2 (zh) |
EP (2) | EP2264699B1 (zh) |
JP (1) | JP5301451B2 (zh) |
KR (1) | KR101090541B1 (zh) |
CN (1) | CN101553870B (zh) |
AT (1) | ATE489703T1 (zh) |
AU (2) | AU2007315373B2 (zh) |
BR (1) | BRPI0716308B1 (zh) |
CA (1) | CA2668056C (zh) |
DE (2) | DE102006051673A1 (zh) |
ES (2) | ES2720871T3 (zh) |
HK (1) | HK1120328A1 (zh) |
IL (1) | IL198192A (zh) |
MX (1) | MX2009004639A (zh) |
MY (2) | MY156427A (zh) |
NO (2) | NO341615B1 (zh) |
PL (2) | PL1964111T3 (zh) |
PT (1) | PT2264699T (zh) |
RU (1) | RU2423740C2 (zh) |
TR (1) | TR201903942T4 (zh) |
TW (1) | TWI350068B (zh) |
WO (1) | WO2008052627A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106575508A (zh) * | 2014-06-10 | 2017-04-19 | 瑞内特有限公司 | 音频信号的数字封装 |
CN110709926A (zh) * | 2017-03-31 | 2020-01-17 | 弗劳恩霍夫应用研究促进协会 | 用于使用基于预测的整形后处理音频信号的装置和方法 |
CN115148215A (zh) * | 2016-01-22 | 2022-10-04 | 弗劳恩霍夫应用研究促进协会 | 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2383217T3 (es) | 2006-12-12 | 2012-06-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador, descodificador y métodos para codificar y descodificar segmentos de datos que representan una corriente de datos de dominio de tiempo |
EP2099027A1 (en) * | 2008-03-05 | 2009-09-09 | Deutsche Thomson OHG | Method and apparatus for transforming between different filter bank domains |
CN102089812B (zh) * | 2008-07-11 | 2013-03-20 | 弗劳恩霍夫应用研究促进协会 | 用以使用混叠切换方案将音频信号编码/解码的装置与方法 |
MY165853A (en) | 2011-02-14 | 2018-05-18 | Fraunhofer Ges Forschung | Linear prediction based coding scheme using spectral domain noise shaping |
EP2676270B1 (en) | 2011-02-14 | 2017-02-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Coding a portion of an audio signal using a transient detection and a quality result |
CN102959620B (zh) * | 2011-02-14 | 2015-05-13 | 弗兰霍菲尔运输应用研究公司 | 利用重迭变换的信息信号表示 |
EP2676267B1 (en) | 2011-02-14 | 2017-07-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding of pulse positions of tracks of an audio signal |
WO2012110415A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing a decoded audio signal in a spectral domain |
EP2702589B1 (en) * | 2011-04-28 | 2017-04-05 | Dolby International AB | Efficient content classification and loudness estimation |
US20140046670A1 (en) * | 2012-06-04 | 2014-02-13 | Samsung Electronics Co., Ltd. | Audio encoding method and apparatus, audio decoding method and apparatus, and multimedia device employing the same |
AR096576A1 (es) | 2013-02-20 | 2016-01-20 | Fraunhofer Ges Forschung | Aparato y método para generar una señal codificada o para decodificar una señal de audio codificada utilizando una porción de superposiciones múltiples |
EP2830058A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Frequency-domain audio coding supporting transform length switching |
KR101820028B1 (ko) * | 2013-08-23 | 2018-02-28 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. | 오버랩 범위 내의 결합을 사용하여 오디오 신호를 처리하기 위한 장치 및 방법 |
CN111179953B (zh) | 2013-11-13 | 2023-09-26 | 弗劳恩霍夫应用研究促进协会 | 编码音频的编码器、音频发送系统和确定校正值的方法 |
US10390048B2 (en) | 2016-02-15 | 2019-08-20 | Qualcomm Incorporated | Efficient transform coding using optimized compact multi-pass transforms |
US10448053B2 (en) * | 2016-02-15 | 2019-10-15 | Qualcomm Incorporated | Multi-pass non-separable transforms for video coding |
US10349085B2 (en) | 2016-02-15 | 2019-07-09 | Qualcomm Incorporated | Efficient parameter storage for compact multi-pass transforms |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE59008047D1 (de) * | 1989-03-06 | 1995-02-02 | Bosch Gmbh Robert | Verfahren zur Datenreduktion bei digitalen Tonsignalen und zur genäherten Rückgewinnung der digitalen Tonsignale. |
SE9700772D0 (sv) * | 1997-03-03 | 1997-03-03 | Ericsson Telefon Ab L M | A high resolution post processing method for a speech decoder |
US6131084A (en) | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
JP4267084B2 (ja) * | 1998-04-09 | 2009-05-27 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 伝送システムの損失のない符号化/復号化 |
DE69933119T2 (de) | 1998-05-27 | 2007-09-13 | Microsoft Corp., Redmond | Verfahren und vorrichtung zur maskierung des quantisierungsrauschens von audiosignalen |
JP4263412B2 (ja) * | 2002-01-29 | 2009-05-13 | 富士通株式会社 | 音声符号変換方法 |
JP4290917B2 (ja) * | 2002-02-08 | 2009-07-08 | 株式会社エヌ・ティ・ティ・ドコモ | 復号装置、符号化装置、復号方法、及び、符号化方法 |
US7275036B2 (en) * | 2002-04-18 | 2007-09-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data |
DE10217297A1 (de) * | 2002-04-18 | 2003-11-06 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten |
JP4238535B2 (ja) * | 2002-07-24 | 2009-03-18 | 日本電気株式会社 | 音声符号化復号方式間の符号変換方法及び装置とその記憶媒体 |
DE10234130B3 (de) | 2002-07-26 | 2004-02-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Erzeugen einer komplexen Spektraldarstellung eines zeitdiskreten Signals |
DE10236694A1 (de) * | 2002-08-09 | 2004-02-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren |
JP4292767B2 (ja) | 2002-09-03 | 2009-07-08 | ソニー株式会社 | データレート変換方法及びデータレート変換装置 |
US7318027B2 (en) * | 2003-02-06 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Conversion of synthesized spectral components for encoding and low-complexity transcoding |
DE602004013031T2 (de) | 2003-10-10 | 2009-05-14 | Agency For Science, Technology And Research | Verfahren zum codieren eines digitalen signals in einen skalierbaren bitstrom, verfahren zum decodieren eines skalierbaren bitstroms |
DE102004021403A1 (de) * | 2004-04-30 | 2005-11-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung |
JPWO2005106848A1 (ja) | 2004-04-30 | 2007-12-13 | 松下電器産業株式会社 | スケーラブル復号化装置および拡張レイヤ消失隠蔽方法 |
US8843378B2 (en) * | 2004-06-30 | 2014-09-23 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel synthesizer and method for generating a multi-channel output signal |
EP1883067A1 (en) * | 2006-07-24 | 2008-01-30 | Deutsche Thomson-Brandt Gmbh | Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream |
EP1903559A1 (en) * | 2006-09-20 | 2008-03-26 | Deutsche Thomson-Brandt Gmbh | Method and device for transcoding audio signals |
US20100114581A1 (en) * | 2006-10-06 | 2010-05-06 | Te Li | Method for encoding, method for decoding, encoder, decoder and computer program products |
-
2006
- 2006-11-02 DE DE102006051673A patent/DE102006051673A1/de not_active Ceased
-
2007
- 2007-09-28 KR KR1020097009139A patent/KR101090541B1/ko active Active
- 2007-09-28 ES ES10173938T patent/ES2720871T3/es active Active
- 2007-09-28 EP EP10173938.1A patent/EP2264699B1/en active Active
- 2007-09-28 ES ES07818557T patent/ES2354743T3/es active Active
- 2007-09-28 MY MYPI20091684A patent/MY156427A/en unknown
- 2007-09-28 AT AT07818557T patent/ATE489703T1/de not_active IP Right Cessation
- 2007-09-28 PL PL07818557T patent/PL1964111T3/pl unknown
- 2007-09-28 JP JP2009534996A patent/JP5301451B2/ja active Active
- 2007-09-28 MX MX2009004639A patent/MX2009004639A/es active IP Right Grant
- 2007-09-28 BR BRPI0716308-8A patent/BRPI0716308B1/pt active IP Right Grant
- 2007-09-28 PL PL10173938T patent/PL2264699T3/pl unknown
- 2007-09-28 TR TR2019/03942T patent/TR201903942T4/tr unknown
- 2007-09-28 MY MYPI2015002126A patent/MY181471A/en unknown
- 2007-09-28 PT PT10173938T patent/PT2264699T/pt unknown
- 2007-09-28 DE DE602007010721T patent/DE602007010721D1/de active Active
- 2007-09-28 WO PCT/EP2007/008477 patent/WO2008052627A1/en active Application Filing
- 2007-09-28 CA CA2668056A patent/CA2668056C/en active Active
- 2007-09-28 AU AU2007315373A patent/AU2007315373B2/en active Active
- 2007-09-28 EP EP07818557A patent/EP1964111B1/en active Active
- 2007-09-28 US US12/446,772 patent/US8321207B2/en active Active
- 2007-09-28 RU RU2009117571/09A patent/RU2423740C2/ru active
- 2007-09-28 CN CN2007800403496A patent/CN101553870B/zh active Active
- 2007-10-23 TW TW096139650A patent/TWI350068B/zh active
-
2008
- 2008-12-10 HK HK08113440.1A patent/HK1120328A1/xx unknown
-
2009
- 2009-04-19 IL IL198192A patent/IL198192A/en active IP Right Grant
- 2009-05-29 NO NO20092125A patent/NO341615B1/no unknown
-
2011
- 2011-02-07 AU AU2011200509A patent/AU2011200509B2/en active Active
-
2017
- 2017-07-14 NO NO20171179A patent/NO343261B1/no unknown
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106575508A (zh) * | 2014-06-10 | 2017-04-19 | 瑞内特有限公司 | 音频信号的数字封装 |
CN106575508B (zh) * | 2014-06-10 | 2021-05-25 | Mqa 有限公司 | 编码器和解码器系统及提供数字音频信号的方法 |
CN115148215A (zh) * | 2016-01-22 | 2022-10-04 | 弗劳恩霍夫应用研究促进协会 | 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法 |
CN115148215B (zh) * | 2016-01-22 | 2025-04-01 | 弗劳恩霍夫应用研究促进协会 | 使用频谱域重新取样来编码或解码音频多通道信号的装置及方法 |
CN110709926A (zh) * | 2017-03-31 | 2020-01-17 | 弗劳恩霍夫应用研究促进协会 | 用于使用基于预测的整形后处理音频信号的装置和方法 |
US11562756B2 (en) | 2017-03-31 | 2023-01-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using prediction based shaping |
CN110709926B (zh) * | 2017-03-31 | 2023-08-15 | 弗劳恩霍夫应用研究促进协会 | 用于使用基于预测的整形后处理音频信号的装置和方法 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101553870B (zh) | 后处理谱值的设备和方法及音频信号的编码器和解码器 | |
US20250029621A1 (en) | Harmonic transposition in an audio coding method and system | |
JP3391686B2 (ja) | 符号化されたオーディオ信号を復号する方法及び装置 | |
JP4081447B2 (ja) | 時間離散オーディオ信号を符号化する装置と方法および符号化されたオーディオデータを復号化する装置と方法 | |
US7275036B2 (en) | Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data | |
CN102243875B (zh) | 分解滤波器组、合成滤波器组、编码器、解码器、混合器及会议系统 | |
AU2021303726B2 (en) | Audio quantizer and audio dequantizer and related methods | |
WO2005055203A1 (en) | Audio signal coding | |
RU2807462C1 (ru) | Устройство квантования аудиоданных, устройство деквантования аудиоданных и соответствующие способы | |
RU2809981C1 (ru) | Аудиодекодер, аудиокодер и связанные способы с использованием объединенного кодирования параметров масштабирования для каналов многоканального аудиосигнала | |
AU2015221516A1 (en) | Improved Harmonic Transposition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |