[go: up one dir, main page]

CN101529503B - 信息信号的编码装置及方法 - Google Patents

信息信号的编码装置及方法 Download PDF

Info

Publication number
CN101529503B
CN101529503B CN2007800387563A CN200780038756A CN101529503B CN 101529503 B CN101529503 B CN 101529503B CN 2007800387563 A CN2007800387563 A CN 2007800387563A CN 200780038756 A CN200780038756 A CN 200780038756A CN 101529503 B CN101529503 B CN 101529503B
Authority
CN
China
Prior art keywords
frame
grid
envelope
audio signal
reconstruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007800387563A
Other languages
English (en)
Other versions
CN101529503A (zh
Inventor
马库斯·施内尔
迈克尔·舒尔特
曼弗雷德·卢茨基
曼努埃尔·扬德尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=38657988&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN101529503(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN101529503A publication Critical patent/CN101529503A/zh
Application granted granted Critical
Publication of CN101529503B publication Critical patent/CN101529503B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Circuits Of Receivers In General (AREA)
  • Synchronisation In Digital Transmission Systems (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明可以圆满地解决瞬变问题,并且如果利用其中不移位帧边界(902a、902b)的新SBR帧类,即,网格边界仍旧与帧边界(902a、902b)同步,则可以针对解决瞬变问题而降低另一解码延迟,但是,其中,瞬变位置的指示还用作语法元素,以便在该新帧类的帧内使用语法元素,从而在编码器和/或解码器侧确定这些帧内的网格边界。

Description

信息信号的编码装置及方法
技术领域
本发明涉及信息信号编码,如音频编码,并且在该上下文中,具体涉及SBR(频带复制)编码。 
背景技术
在具有极小可用比特率的应用中,在对音频信号进行编码的上下文中,已知使用SBR技术进行编码。仅低频部分被完全编码,即,以足够的时间和空间分辨率被编码。对于高频部分,仅检测到谱包络或音频信号的谱时间曲线的包络,并对其进行编码。在解码器侧,低频部分是从已编码的信号获取到的,并随后用于从该信号中重构或“复制”高频部分。然而,为了使已预先重构的高频部分的能量适配于原始音频信号的高频部分内的实际能量,在解码器侧使用所发送的谱包络来对预先重构的高频部分进行谱加权。 
当然,对于上述有价值的工作,重要的是,用于发送谱包络的比特的数目要尽可能少。因此,期望在其中对谱包络进行编码的时间网格尽可能粗。然而,另一方面,太粗的网格会导致显著的可听伪像,特别地还带有瞬变,即,在高频部分占优势而不是如平常情况低频部分占优势的位置处,或者在高频部分的振幅至少快速增大的位置处。在音频信号中,这样的瞬变与例如音符的开始相对应,例如,对钢琴琴弦的触动等。如果网格在瞬变时间段上太粗,则可能会在整个音频信号的解码器侧重构过程中导致可听伪像。如已知的那样,在解码器侧,从低频部分重构高频信号在于,在网格区域内,解码后的低频部分的谱能量被归一化,并适配于通过加权而发送的谱包络。换言之,在网格区域内简单执行谱加权,以便从低频部分再现高频部分。然而,如果瞬变周围的网格区域太大,则在该网格区域内,除了瞬变能量外,许多能量将被定位于用于再现高频部分的低频部分中的背景和/或和 弦部分。通过加权因子协同放大所述低频部分,即便这不会产生对高频部分的良好估计。在整个网格区域上,这将导致可听伪像,此外,可听伪像甚至将设置在实际瞬变之前。该问题也可被称作“前回声”。 
当瞬变周围的网格区域足够精细以使该网格区域内的低频部分的瞬变/背景部分比率得到提高时,能够解决该问题。然而,小网格区域或小网格边界距离是上述期望谱包络编码低比特消耗的障碍。 
在ISO/IEC 14496-3标准(以下简称为“该标准”)中,在AAC编码器上下文中描述SBR编码。AAC编码器以逐帧的方式对低频部分进行编码。对于每一个这样的SBR帧,定义以上指定的时间和频率分辨率,在这样的时间和频率分辨率下,在该帧中对高频部分的谱包络进行编码。为了解决瞬变也可能落在SBR帧边界上的问题,该标准允许,可以临时定义时间网格,以使网格边界不必与帧边界重合。更确切地,在该标准中,编码器每帧向解码器发送语法元素bs_frame_class,所述语法元素指示,对于每一帧,将针对相应帧的谱包络网格的时间网格精确地定义在两个帧边界之间还是定义在偏离于帧边界(具体而言,在前和/或在后)的边界之间。总之,有四种不同的SBR帧类,即,FIXFIX、FIXVAR、VARFIX和VARVAR。在图12的伪码表示中示出了定义每SBR帧中网格的标准中的编码器所使用的语法。具体地,在图12的表示中,由编码器实际编码和/或发送的那些语法元素在图12中以黑体字打印,在相应的行中右起第二列指示用于发送和/或编码的比特的数目。可见,对于每个SBR帧,首先发送刚提到的语法元素bs_frame_class。根据该语法元素,以下将示出的其他语法元素定义了时间分辨率和/或网格。例如,如果2比特的语法元素bs_frame_class指示所提到的SBR帧是FIXFIX SBR帧,则定义在该SBR帧中网格区域数目和/或定义包络数目(如2tmp)的语法元素tmp将作为第二语法元素而被发送。根据bs_num_env来自动调整语法元素bs_amp_res,并不对语法元素bs_amp_res进行编码或将其发送,其中语法元素bs_amp_res用于在当前SBR帧中对谱包络进行编码所需要的量化步长。最后,对于FIXFIX帧,发送比特以确定网格的频率分辨率bs_freq_res。针对一个帧精确定义FIXFIX帧,即,网格边界与如由AAC编码器所定义的帧边 界重合。 
这对于其他三个类是不同的。对于FIXVAR、VARFIX和VARVAR帧,发送语法元素bs_var_bord_1和/或bs_bar_bod_0以指示时隙(即,用于对音频信号进行谱分解的滤波器组借以进行操作的时间单位)的数目,其为相对于正常帧边界的偏移。根据该语法元素,还发送语法元素bs_num_rel_1及关联的tmp和/或bs_num_rel_0及关联的tmp,以定义多个网格区域、或包络、及其距偏移帧边界的大小。最后,还在可变SBR帧中发送语法元素bs_pointer,所述语法元素指向所定义的包络之一,并用于根据谱包络网格来定义用于确定帧内噪声部分的一个或两个噪声包络,然而,为了简化表示,以下将不再详细说明该语法元素。最后,针对相应可变帧中的所有网格区域和/或包络,确定相应的频率分辨率,即每包络的相应1比特语法元素bs_freq_res。 
作为示例,图13a表示FIXFIX帧,其中,语法元素tmp是1,从而包络的数目是bs_num_env 21=2。在图13a中,假设时间轴以水平方式从左向右延伸。SBR帧(即,AAC编码器对低频部分进行编码所在的帧之一)由图13a中的附图标记902指示。可见,SBR帧902具有16 QMF时隙长度,如所述,QMF时隙是分析滤波器组进行操作所在的作为单位的时隙,QMF时隙由图13a中的方框904所指示。在FIXFIX帧中,包络或网格区域906a和906b(即,这里数目为2)在SBR帧902中具有相同长度,从而在SBR帧902的中心精确地定义时间网格和/或包络的边界908。采用这种方式,图13a的示例性FIXFIX帧定义:根据分析滤波器组的谱值,在时间上确定网格区域或包络906a的谱分布和包络906的另一谱分布。因此,包络或网格区域906a和906b指定在其中对谱包络进行编码和/或将谱包络发送的网格。 
通过比较,图13b示出了VARVAR帧。再次指示了SBR帧902及关联的QMF时隙904。然而,对于该SBR帧,语法元素bs_var_bord_0和/或bs_var_bord_1已定义:与其关联的包络906a’、906b’和906c’并非在SBR帧起始902a处开始和/或在SBR帧结尾902b处结束。更确切地,可以从图13b看出,前一SBR帧(在图13b中未示出)已被扩展到当前SBR帧的SBR帧起始902a之外两个QMF时隙,从而前一SBR帧的最后一个 包络910也扩展进当前SBR帧902。当前帧的最后一个包络906c’也扩展到当前SBR帧902的SBR帧结尾之外,即,作为示例,这里也扩展了两个QMF时隙。此外,作为示例,这里还可以看出,利用如下附加信息将VARVAR帧的语法元素bs_num_rel_0和bs_num_rel_1分别调整至1:由此定义的包络(即根据tmp=1,为906a’和906b’)在SBR帧902的起始和结尾处具有四个QMF时隙的长度,从而从帧边界以该时隙数扩展进SBR帧902。然后,SBR帧902的剩余空间将由剩余包络(该情况下为第三包络906b’)占用。 
作为示例,通过在QMF时隙904之一中设置T,图13b指示了这里已定义VARVAR帧的原因,即,由于瞬变位置T接近于SBR帧结尾902b,以及由于在当前SBR帧的前一SBR帧中也可能存在瞬变(未示出)。 
因此,根据ISO/ICE 14496-3的标准化版本涉及两个连续SBR帧的重叠。不管根据波形的实际SBR帧边界如何,这都实现了以可变方式设置包络边界。因此,可以将瞬变包在其自身包络中,并且可以从剩余信号切断瞬变的能量。然而,如上所示,重叠还涉及附加的系统延迟。具体地,四个帧类在该标准中用于发信号通知。在FIXFIX类中,如图13a所示,SBR包络的边界与核心帧的边界重合。当在该帧中不存在瞬变时,使用FIXFIX类。包络的数目指定了包络在帧内的等距离分布。当在当前帧中存在瞬变时,提供FIXVAR类。这里,相应的包络组从而在SBR帧边界处开始,并以可变方式在SBR发送区域结束。在瞬变并不位于当前帧中而是位于前一帧中的情况下,提供VARFIX类。这里,在SBR帧边界处结束的新的包络组续接在最后一帧的包络序列后。在最后一帧和当前帧中均存在瞬变的情况下,提供VARVAR类。这里,另一可变序列续接在可变包络序列后。如上所述,彼此相关地发送可变包络的边界。 
尽管通过语法元素bs_var_bord_0和bs_var_bord_1指示边界可以相对于固定帧边界偏移的QMF时隙数,但由于扩展到SBR帧边界之外的包络的出现,这种指示的可能性会导致解码器侧的延迟,并因此需要形成SBR帧边界上的谱信号能量和/或对该能量进行平均。然而,该延时在一些应用中是不可容忍的,例如,电话领域中的应用,或依赖 于通过编码和解码使延时变小的其他实况应用中。尽管由此防止了前回声的出现,但该方案不适合需要短延迟时间的应用。此外,在上述标准中发送SBR帧所需的比特的数目相对高。 
发明内容
本发明的目的是提供一种编码方案,通过充分解决瞬变和/或前回声问题,在适中或更低比特率下使延迟时间更短,或者通过充分解决瞬变和/或前回声问题,在适中比特率损失下使延迟时间减小。 
通过权利要求1或34所述的编码器、权利要求13、28和38所述的解码器、权利要求25或41所述的已编码信息信号、以及权利要求26、27、33、35、39或40所述的方法,来实现上述目的。 
本发明的结论是:可以充分解决瞬变问题,并且为此目的,如果采用新的SBR帧类,则可以减小解码器侧的另一延迟,在新的SBR帧类中,帧边界不偏移,即,网格边界仍旧与帧边界同步,但瞬变位置指示还用作语法元素,从而在编码器和/或解码器侧,在该新帧类的帧内,使用该瞬变位置指示来确定这些帧内的网格边界。 
根据本发明的一个实施例,使用该瞬变位置指示,以便将相对较短的网格区域(以下称作瞬变包络)定义在瞬变位置周围,因而,在帧中,仅一个包络将在其前和/或其后的剩余部分中,从瞬变包络扩展至该帧的起始和/或结尾处。对于新帧类,要发送和/或要编码的比特的数目因此也非常小。另一方面,可以充分地解决与其相关联的瞬变和/或前回声问题。那么,将不再需要诸如FIXVAR、VARFIX和VARVAR等可变SBR帧,从而将不再需要用于补偿扩展到SBR帧边界之外的包络的延迟。因此,根据本发明的一个实施例,仅两个帧类将是可允许的,即,FIXFIX类以及刚刚描述的类,该类以下称作LD_TRAN类。 
根据本发明的另一实施例,并不总是如下这种情况:针对LD_TRAN类的帧内的每一网格区域,将一个或多个谱包络和/或谱能量值发送和/或插入到已编码的信息信号中。具体而言,在如下条件下甚至不会出现上述情况:由瞬变位置指示指定了帧内位置的瞬变包络接近于时间上靠前的帧边界,从而该LD_TRAN帧的包络(所述包络 位于时间上靠前的帧边界与瞬变包络之间)将仅在短时间段上扩展,不能从编码效率的观点证明该短时间段有效,这是由于,如已知的那样,该包络的短暂并不归因于瞬变,而是归因于帧边界与瞬变的偶然时间邻近。因此,根据该备选实施例,对于所涉及的包络(正如噪声部分),采用前一包络的谱能量值和相应频率分辨率。因此,可以省略发送,这是压缩率增大的原因。相反,可听度方面的损失很小,这是由于在这一点上不存在瞬变问题。此外,在解码器侧将不会出现延迟,这是由于对于所有涉及的包络(即,前一帧的包络、瞬变包络和介入的包络),可以直接利用高频重构。 
根据另一实施例,在LD_TRAN帧的结尾处瞬变出现过程中的意想不到的大量数据的问题如下得以解决:就位于当前LD_TRAN帧的后部帧边界处的瞬变包络虚拟地投入后一帧中多远的问题,在编码器与解码器之间达成一致。例如,通过访问编码器和类似解码器中的表来进行判断。根据一致意见,缩短后一帧的第一包络(例如,FIXFIX帧的单个包络),以便仅在虚拟扩展包络的结尾处开始。编码器在该虚拟包络的整个时间段上计算该虚拟包络的谱能量值,但可能以根据前帧和后帧中虚拟包络的时间部分比值而简化的方式,来仅发送似乎瞬变包络的结果。在解码器侧,位于结尾处的瞬变包络的谱能量值既用于该瞬变包络中的高频重构,又用于与其分离的、后续帧中初始扩展区域中的高频重构,这是由于可以从瞬变包络的谱能量值导出该区域的一个和/或多个谱能量值。从而避免了位于帧边界处的瞬变的“过采样”。 
根据本发明的另一方面,本发明的结论是:可以充分解决说明书背景技术中描述的瞬变问题,并且在如下情况下可以减小解码器侧的延迟:确实使用了包络和/或网格区域划分,根据该划分,包络可以确实扩展到越过帧边界从而与两个相邻帧重叠,而在帧边界处解码器对这些包络进行再划分,并且在以这种方式再划分并与帧边界重合的网格处执行高频重构。对于重叠网格区域中由此获得的部分网格区域,根据已针对扩展到越过帧边界的包络而发送的一个或多个谱能量值,在解码器侧相应地获得一个或多个谱能量值。 
根据本发明的另一方面,本发明的结论是:通过减小帧大小和/或减少其包含的样本数目,可以获得解码侧的延迟,并且对于具有网格边界与帧边界重合这种重构模式的帧(如FIXFIX帧)、和/或对于相应的重构模式,如果引入新的标记和/或引入瞬变不存在的指示,则可以减小与延迟相关联的增大的比特率的影响。具体而言,如果在这样的更短的帧中不存在瞬变,并且如果在该帧的附近不存在其他瞬变,以使在该点处信息信号是平稳的,则针对这种帧的第一网格区域,可以使用瞬变不存在的指示以不将用于描述谱包络的任何值引入已编码的信息信号中,而是同样在解码器侧从用于表示谱包络的值导出或获得该值,所述值是在时间上前一帧的最后一个网格区域和/或最后一个包络的已编码信息信号中提供的。采用这种方式,可以在减小比特率影响的情况下缩短帧,缩短一方面实现了更短的延迟时间,另一方面实现了由于更小帧单位而引起的瞬变问题。 
附图说明
以下将参考附图更详细地说明本发明的优选实施例,在附图中: 
图1示出了根据本发明一个实施例的编码器的框图; 
图2示出了一种伪码,其用于描述定义SBR帧网格划分的、图1编码器所使用的语法元素的语法; 
图3示出了可在编码器和解码器侧定义的表,以从图2中的语法元素bs_transient_position获得与包络和/或网格区域的数目以及LD_TRAN帧内网格区域边界的位置有关的信息; 
图4a示出了用于阐释LD_TRAN帧的图示; 
图4b示出了用于阐释图1中分析滤波器组与包络数据计算器的相互影响的图示; 
图5示出了根据本发明一个实施例的解码器的框图; 
图6a示出了用于阐释具有远离前端的瞬变包络的LD_TRAN帧的图示,用于阐释在这种情况下产生的问题; 
图6b示出了用于阐释瞬变位于两个帧之间的情况的图示,用于阐释关于这种情况下高编码开销的相应问题; 
图7a示出了用于阐释根据克服图6a问题的一个实施例的包络编码的图示; 
图7b示出了用于阐释根据克服图6b问题的一个实施例的包络编码的图示; 
图8示出了用于阐释具有根据图3的表的瞬变位置TranPos=1的LD_TRAN帧的图示; 
图9示出了可在编码器和解码器侧定义的表,以从图2中的语法元素bs_transient_position获得与包络和/或网格区域的数目和LD_TRAN帧内的一个或多个网格区域边界有关的信息,以及与根据图7a的从前一帧数据接收和根据图7b的向后一帧的数据扩展有关的信息; 
图10示出了用于阐释具有扩展到越过帧边界扩展的包络的包络信号通知的FIXVAR-VARFIX的图示; 
图11示出了根据本发明另一实施例的解码的图示,该解码在尽管存在根据图10的包络信号通知的情况下实现了更短的延迟时间; 
图12示出了根据ISO/IEC 14496-3标准的、用于SBR帧包络划分的语法的伪码;以及 
图13a和13b示出了FIXFIX和/或VARVAR帧的图示。 
具体实施方式
图1示出了根据本发明一个实施例的编码器的架构。作为示例,图1的编码器是总体上由附图标记100指示的音频编码器。该编码器包括:要编码的音频信号的输入102和已编码的音频信号的输出104。以下假设输入102中的音频信号是采样后的音频信号,例如PCM编码信号。然而,图1的编码器还可以以不同方式实现。 
图1的编码器还包括下采样器104和音频编码器106,下采样器104和音频编码器106按照所提到的顺序连接在输入102与格式器108的第一输入之间,格式器108的输出进而连接至编码器100的输出104。由于部分104和106的连接,对下采样后的音频信号102的编码在音频编码器106的输出处结束,所述编码器进而与对音频信号102低频部分的编码相对应。音频编码器106是以逐帧的方式在如下意义上进行操作的编码 器:仅以这些帧为单位对音频编码器106输出处的编码器结果进行解码。作为示例,以下假设音频编码器106是符合根据ISO/IEC 14496-3标准的AAC-LD的编码器。 
分析滤波器组110、包络数据计算器112以及包络数据编码器114按照所提到的顺序连接在输入102与格式器108的另一输入之间。此外,编码器100包括SBR帧控制器116,在SBR帧控制器116的输入与输入102之间连接有瞬变检测器118。SBR帧控制器116的输出同时与包络数据计算器112的输入和格式器118的另一输入相连接。 
以上已描述了图1的编码器的架构,以下将描述该编码器的操作模式。如上所述,由于音频编码器106对音频信号102的下采样版本进行编码,因此音频信号102的低频部分的编码版本到达格式器108的第一输入,其中,例如,仅转发原始音频信号的每隔一个样本。分析滤波器组110产生具有特定时间分辨率的、音频信号102的谱分解。作为示例,假设分析滤波器组110是QMF滤波器组(QMF=正交镜像滤波器)。分析滤波器组110在每个QMF时隙产生M个子带值,例如,每个QMF时隙均包括64个音频样本。为了减小数据速率,包络数据计算器112根据具有较高时间和谱分辨率的分析滤波器组110的谱信息,形成具有适当的更低分辨率的(即,在适当的时间和频率网格内的)、音频信号102的谱包络表示。在该上下文中,SBR帧控制器116为每一帧(即,由音频编码器106所定义的帧的每一帧)设置时间和频率网格。同样,SBR帧控制器116根据由瞬变检测器118检测和/或定位的已检测和/或定位的瞬变来执行该控制。对于检测瞬变和/或音符开始时间,瞬变检测器118对音频信号102执行适当的统计分析。该分析可以在时域或谱域中执行。举例而言,瞬变检测器118可以估计音频信号的时间包络曲线,例如,估计时间包络曲线的增大。如以下将更详细描述的,SBR帧控制器116将每一帧和/或SBR帧与两种可能的SBR帧类之一相关联,即,与FIXFIX类相关联或与LD_TRAN类相关联。具体地,SBR帧控制器116将FIXFIX类与不包含瞬变的每一帧相关联,而帧控制器将LD_TRAN类与定位有瞬变的每一帧相关联。包络数据计算器112根据通过SBR帧控制器116已与帧相关联的SBR帧类来设置时间网格。与 精确关联无关,所有帧边界将始终与网格边界重合。仅帧内的网格边界受到类关联的影响。如以下将更详细描述的,SBR帧控制器根据关联的帧类来设置其他语法元素,并且将这些语法元素输出至格式器108。即使在图1中并未明确示出,但该语法元素自然也可以进行编码操作。 
因此,包络数据计算器112输出与由SBR帧控制器116预定义的时间和谱网格相对应的(即,每网格区域一个谱值)、采用分辨率的谱包络表示。这些谱值由包络数据编码器114进行编码,并被转发至格式器108。也可以省略包络数据编码器114。格式器108将接收到的信息组合进已编码的音频数据流104和/或已编码的音频信号,并在输出104处将其输出。 
以下将使用关于时间网格划分的图2至4b,稍更详细地描述图1的编码器的操作模式,时间网格划分由SBR帧控制器116所设置,并由包络数据计算器112所使用,以根据分析滤波器组输出信号来确定预定义网格划分中的信号包络。 
图2通过伪码首先示出了语法元素,SBR帧控制器116通过该语法元素来预定义包络数据计算器112要使用的网格划分。正如图12的情况中,在图2中以粗体印刷示出了实际上从SBR帧控制器116转发至格式区108以编码和/或发送的那些语法元素,列202中相应的行指示了用于表示相应语法元素的比特的数目。可见,通过语法元素bs_frame_class,首先针对SBR帧确定SBR帧是FIXFIX帧还是LD_TRAN帧。然后根据确定(204)来发送不同的语法元素。在FIXFIX类(206)的情况下,首先通过2比特语法元素tmp(208)将当前SBR帧ch的语法元素bs_num_env[ch]设置为2tmp。根据数目bs_num_env[ch],语法元素bs_amp_res为已缺省预置的值1,或者设置为0(210),语法元素bs_amp_res指示了量化精度,将预定义网格中由计算器112获得的、具有该量化精度的谱包络值,在编码器114对其进行编码的状态下,转发至格式器108。关于网格区域和/或包络的频率分辨率(同样要由包络数据计算器112使用来确定其中的谱包络),通过公共(211)语法元素bs_freq_res[ch]设置由bs_num_env[ch]以数字预定义的网格区域和/或 包络,其中利用来自SBR帧控制器116的比特,将公共语法元素bs_freq_res[ch]转发(212)至格式器108。 
当SBR帧控制器116指定了当前SBR帧902是FIXFIX帧时,以下将再次参照图13a来描述包络数据计算器112的操作模式。在这种情况下,包络数据计算器112将(这里作为示例)由N=16个分析滤波器组时隙904组成的当前帧902平均地再划分成网格区域和/或包络906a和906b,从而这里两个网格区域和/或两个包络906a、906b都具有N/bs_num_inv[ch]个时隙904的长度,并占用SBR帧边界902a与902b之间的多个时隙。换言之,对于FIXFIX帧,包络数据计算器112在SBR帧边界902a与902b之间均匀地布置网格边界908,以使网格边界908等距离分布在这些SBR帧内。如上所述,分析滤波器组110输出每一时隙904的子带谱值。包络数据计算器112以逐包络的方式在时间上组合这些子带值,并相加求得子带值的平方和,以便获得包络分辨率下的子带能量。根据语法元素bs_freq_res[ch],包络数据计算器112还沿谱方向组合多个子带来降低频率分辨率。采用这种方式,包络数据计算器112针对每一包络906a、906b输出依赖于bs_freq_res[ch]的频率分辨率下的谱包络能量采样。然后,利用进而依赖于bs_amp_res的量化,编码器114对这些值进行编码。 
至此,以上描述了与SBR帧控制器116将特定帧同FIXFIX类相关联的情况(在该帧中不存在瞬变的情况)相关的在前描述。然而,以下描述涉及另一个类,即,LDN_TRAN类,LDN_TRAN类与由检测器118指示定位有瞬变的帧相关联。因此,如果语法元素bs_frame_class指示该帧是LDN_TRAN帧(214),则SBR帧控制器116将确定语法元素bs_transient_position并利用四个比特发送该语法元素,从而以时隙904为单位(例如,相对于帧起始902a,或备选地,相对于帧结尾902b)指示已由瞬变检测器118定位的瞬变位置(216)。目前,四个比特足以满足该目的。图4a示出了示例性情况。图4a进而示出了包括16个时隙904的SBR帧902。从SBR帧起始902a起第六个时隙904定位有与bs_transient_position=5相对应的瞬变T(第一时隙是时隙0)。如图2中218所示,用于设置LD_TRAN帧的网格的后续语法依赖于 bs_transient_position,在解码器侧,在由相应的解复用器执行的解析中必须考虑bs_transient_position。然而,在218,可以如下阐释在从SBR帧控制器116获得语法元素bs_transient_position时包络数据计算器112的操作模式。通过瞬变位置指示,计算器112在表中查找bs_transient_position,图3示出了该表的示例。如以下参照图3的表将更详细说明的,通过该表,计算器112将在SBR帧内采用如下方式设置包络再划分:将短瞬变包络布置在瞬变位置T周围,而一个或两个包络222a和222b占用SBR帧902的剩余部分,即,从瞬变包络220至SBR帧起始902a的部分和/或从瞬变包络220至SBR帧结尾902b的部分。 
图3所示且由计算器112使用的表包括五列。第一列中已输入本示例中的从0至15的可能瞬变位置。第二列指示了在相应的瞬变位置处产生的包络和/或网格区域220、222a和/或222b的数目。可见,可能的数目是2或3,依赖于瞬变位置是接近于SBR帧起始还是SBR帧结尾902a、902b,对于后一种情况,仅存在两个包络。第三列指示了帧内第一包络边界(即,以时隙904为单位的前两个相邻包络的边界)的位置,具体而言是第二包络的起始位置,位置=0指示SBR帧中第一个时隙。相应地,第四列指示了第二包络边界的位置,即,第二和第三包络之间的边界,该指示当然是仅针对提供三个包络的那些瞬变位置而定义的。否则,在该列中可以忽略所输入的值,在图3中由“-”指示。通过图3中表格的示例可见,例如,在瞬变位置T位于从SBR帧起始902a起前两个时隙904之一中的情况下,仅存在瞬变包络220和后续包络222b。直到瞬变位置位于从SBR帧起始902a起第三个时隙中时,才存在三个包络222a、220、222b,包络222a包括前两个时隙,瞬变包络220包括第三和第四时隙,包络222b包括剩余时隙,即,从第五个时隙往前。图3的表中最后一列针对每种瞬变位置可能性指示了两个或三个包络中的哪一个与具有瞬变和/或定位有瞬变位置的包络相对应,该信息明显是多余的,并因此不必须在表中提出。然而,最后一列中的信息用于(采用以下将更详细描述的方式)指定两个噪声包络之间的边界,在包络内,计算器112确定指示这些噪声包络内噪声部分的幅度的值。在解码器侧已知由计算器112确定这些噪声包络和/或网格区域之间边界的方 式,并且正如图3的表也存在于解码侧一样,在解码器侧以相同方式执行该确定方式,即,用于解析和网格划分。 
再次参照图2,计算器112因此可以根据图3的表2来确定LD_TRAN帧中的包络和/或网格区域的数目,针对这两个或三个包络中的每一个,SBR帧控制器(116)通过每一包络相应的1比特语法元素bs_freq_res[ch]来指示频率分辨率(220)。控制器116还向格式器108发送设置频率分辨率的语法值bs_freq_res[ch](220)。 
因此,对于所有LD_TRAN帧,计算器112计算谱包络能量值作为各个包络222a、220、222b的持续时间上的时间手段,该计算器根据相应包络的bs_freq_res,在频率分辨率下组合不同数目的子带。 
以上描述主要讨论了编码器操作模式,关于计算用于在由SBR帧控制器指定的时间/频率网格中表示谱包络的信号能量。然而,此外,图1的编码器还针对噪声网格的每一网格区域发送噪声值,该噪声值针对该时间噪声网格区域指示音频信号的高频部分中噪声部分的幅度。如以下将描述的,使用这些噪声值,可以在解码器侧执行从已解码的低频部分对高频部分的更好的重构。从图2可见,LD_TRAN帧的噪声包络的数目bs_num_noise始终是2,而bs_num_env=1情况下FIXFIX帧的包络数目也可以是1。 
例如,通过参考本申请的说明书,采用该上下文中应参照的、在该方面段落应被包括的上述标准中章节4.6.18.3.3中所述的相同方式,不仅可以将LD_TRAN SBR帧再划分成两个噪声包络,还可以将FIXFIX帧再划分成一个或两个噪声包络。具体地,例如,对于LD_TRAN帧,包络数据计算器112将两个噪声包络之间的边界定位在同包络220a与瞬变包络220之间的包络边界(如果存在包络220a)相同的边界上以及同瞬变包络220与包络222b之间的包络边界(如果不存在包络222)相同的边界上。 
在继续描述能够对图1的编码器100的输出104处的已编码音频信号进行解码的解码器之前,应当更详细地讨论分析滤波器组110与包络数据计算器112之间的相互影响。作为示例,通过方框250,图4b示出了由分析滤波器组110输出的各个子带值。在图4b中,假设时间轴t同 样以水平方式从左向由延伸。因此,垂直方向上方框的列与由分析滤波器组110在特定时隙所获得的子带值相对应,轴f意在指示频率沿向上的方向增大。作为示例,图4b示出了属于SBR帧902的16个连续时隙。在图4b中,假设本帧是LD_TRAN帧,并且瞬变位置与图4作为示例所示的相同。图4b还示出了帧902内产生的网格分类和/或产生的包络。图4b还具体通过252和254指示了噪声包络。如图4b中的虚线260所示,使用平方和的形式,包络数据计算器112确定时间和谱网格中的平均信号能量。在图4b的实施例中,针对包络222a和包络222b,包络数据计算器112由此将用于表示谱包络的多个谱能量值的仅一半确定为瞬变包络220的谱能量值。然而,还可以看出,由于如已知的那样,音频编码器106对低频部分进行编码,因此仅通过位于更高频子带1至32中的子带值250来形成用于表示谱包络的谱能量值,而忽略低频子带33至64。在该上下文中,作为预防应当注意,这里的子带数目仅作为示例,当然,如图4b所示,在各个包络内子带成包以分别形成4个或2个的组的情况也是示例。为了保持在图4b的示例的范围内,在图4b的示例中包络数据计算器112计算用于表示谱包络的总共32个谱能量值,如上所述,实现该谱包络的量化精度以同样根据bs_amp_res进行编码。此外,包络数据计算器112分别基于噪声包络252或254内的子带1至32的子带值,来分别确定相应包络252和254的噪声值。 
以上已描述了编码器,以下将描述根据本发明一个实施例的解码器,该解码器适于对输出103处的已编码音频信号进行解码,以下描述还解决了关于比特率和延迟而描述的、LD_TRAN类所需的优点。 
由300总体指示的、图5的解码器包括:用于接收已编码音频信号的数据输入302和用于输出已解码的音频信号的输出304。拥有三个输出的解复用器306的输入紧接在输入302后。音频解码器308、分析滤波器组310、子带适配器312、合成滤波器组314以及加法器316按照所提到的顺序连接在这些输出中的第一个与输出304之间。音频解码器308的输出还连接至加法器316的另一输入。如下所述,可以提供分析滤波器组310的输出与合成滤波器组314的另一输入的连接,来代替具有附加输入的加法器316。然而,分析滤波器组310的输出还连接至增益值 计算器318的输入,增益值计算器318的输出连接至子带适配器312的另一输入,而且增益值计算器318还包括第二和第三输入,其第二输入连接至解复用器的另一输出,其第三输入经由包络数据解码器320连接至解复用器306的第三输出。 
解码器300的操作模式如下。解复用器306通过解析将到达输入302处的已编码音频信号进行分离。具体而言,解复用器306向音频解码器308输出与已由音频编码器106产生的低频部分相关的已编码的信号,音频编码器308被配置成能够从所获得的信息中获得音频信号的低频部分的解码版本,并在其输出处输出该解码版本。因此,解码器300已获知要解码的音频信号的低频部分。然而,解码器300没有获得关于高频部分的任何直接信息。更确切地,解码器308的输出信号还同时充当初步高频部分信号,或至少充当用于在解码器300中再现音频信号高频部分的主信号或基础信号。解码器300的部分310、312、314、318和320用于利用该主信号来从其中再现或重构最终的高频部分,通过加法器316将由此重构的高频部分再次与已解码的低频部分进行组合,以最终获得解码后的音频信号304。在该上下文中,为了完整性应当注意,来自解码器308的已解码低频信号在被输入进分析滤波器组310之前,还可以经过另外的预处理,然而,在图5中未示出这一点。 
在分析滤波器组310中,以与编码器110的分析滤波器组实质上的相应分辨率相对应的固定时间分辨率和频率分辨率,再次对已解码的低频信号进行谱分散。保持在图4b的示例的范围内,分析滤波器组310将每时隙输出32个子带值,例如,所述子带值与32个低频子带(图4b中的33-64)相对应。在分析滤波器组310的输出处,或在子带适配器312的输入之前,可以将由分析滤波器组310输出的子带值重新解释为高频部分的子带值,即,好像拷贝到高频部分中。然而,还可以在子带适配器312中,首先将高频子带值与从分析滤波器组310获得的低频子带值相加,在于将所有或一些低频子带值拷贝到高频部分中,例如,将从分析滤波器组310获得的子带33至64的子带值拷贝到子带1至32中。 
为了将在编码器侧已编码的谱包络适配于已编码的音频信号 104,解复用器306将首先向包络数据解码器320转发已编码的音频信号302的、与在编码器侧已由编码器114产生的对谱包络表示的编码相关的那部分,包络数据解码器320进而将向增益值计算器318转发解码后的该谱包络表示。此外,解复用器306向增益值计算器318输出已编码的音频信号的、与已由SBR帧控制器116引入已编码音频信号中的用于网格划分的语法元素相关的那部分。增益值计算器318以与编码器侧的SBR帧控制器116同步的方式将图2的语法元素与音频解码器308的帧相关联。对于图4b中所设想的示例性帧,举例而言,针对虚线网格260的每一时/频域,增益值计算器318从包络数据解码器320获得能量值,这些能量值共同表示谱包络。 
在同一网格260中,增益值计算器318还计算初步再现的高频部分中的能量,以便能够归一化该网格中的再现的高频部分,并能够利用其已从包络数据解码器320获得的相应能量值对再现的高频部分进行加权,从而将初步再现的高频部分调整至原始音频信号的谱包络。这里,增益值计算器考虑到同样已从包络数据解码器320获得的针对每一噪声包络的噪声值,以对该噪声帧内的各个子带值的加权值进行校正。因此,在子带适配器312的输出处转发的是包括如下子带值的子带:利用校正后的加权值将该子带值适配于高频部分中原始信号的谱包络。合成滤波器组314使用这些谱值,将在时间域中由此再现的高频部分合在一起,加法器316由此将该高频部分与来自音频解码器308的低频部分组合成输出304处的最终的已解码的音频信号。如图5中虚线所示,备选地,为了进行合成,合成滤波器组314还可以不仅使用已由子带适配器312适配的高频子带,而且使用与分析滤波器组310的输出直接对应的低频子带。采用这种方式,合成滤波器组314的结果将与已解码的输出信号直接对应,然后,可以在输出304处输出已解码的输出信号。 
上述实施例的共同之处在于,SBR帧包括了重叠区域。换言之,包络的时间划分适于帧的时间划分,从而没有包络重叠两个相邻的帧,为此,具体通过LD_TRAN和FIXFIX类对包络时间网格进行相应信号通知。然而,如果在块或帧的边缘处出现瞬变,则将出现问题。在这种情况下,需要不相称地大量包络来对谱数据进行编码,该谱数据包 括谱能量值或谱包络值、和频率分辨率值。换言之,所消耗的比特比瞬变的定位所需的比特更多。在图6a和6b中大体示出了可区分的两种“不利的”情况。 
如图6a所示,当由瞬变检测器118确定的瞬变几乎位于帧404的帧起始处时,将出现第一种不利情况。图6a示出了示例性情况,其中,FIXFIX类的帧406处在帧404之前,帧406包括单个包络408,包络408在所有16个QMF时隙上扩展,瞬变检测器118已在帧404的起始处检测到瞬变,因此,SBR帧控制器116将帧404与LD_TRAN类相关联,其中瞬变位置指向帧404的第三QMF时隙,从而帧404被再划分成三个包络410、412和414,其中包络412表示瞬变包络,另两个包络410和414围着包络412并扩展至相应帧404的帧边界416b和416c。仅为了避免混淆,应当指出,图6a基于如下假设:已使用了不同于图3的表。 
如指向LD_TRAN帧404中第一包络410的箭头418所示,实际上不能证明谱能量值或频率分辨率值和噪声值具体针对相应的时间域(即,QMF时隙0和1)的发送是有效地,这是由于该域并不明显地与任何瞬变相对应,而相反,该域在时间上非常小。因此,在图6a中以阴影线的方式突出显示该“消耗高的”包络。 
如果瞬变存在于两个帧之间,或由瞬变检测器118检测到,则将出现类似的问题。图6b示出了这种情况。图6b示出了两个连续帧502和504,分别具有16个QMF时隙的长度,瞬变检测器118已在两个帧502和504之间,或在这两个SBR帧502和504之间的帧边界附近检测到瞬变,从而SBR帧控制器116将两个帧502和504都与LD_TRAN类相关联,且两个帧502和504均分别仅具有两个包络502a、502b和504a、504b,以使前帧502的瞬变包络502b和后帧504的瞬变包络504b将在SBR帧边界上相接。可见,第一帧502的瞬变包络502b极短且仅在一个QMF时隙上扩展。即使存在瞬变,如上所述,由于同样针对后瞬变包络504b对谱数据进行编码,因此这意味着包络编码有不相称地大量的开销。因此,以阴影线的方式突出显示两个瞬变包络502b和504b。 
因此,以上已参照图6a和6b概述的两种情况所具有的共同之处在于,在每一种情况中都需要用于描述相对短时间段并相应地耗费太多 或相对大量比特的包络(阴影线区域)。这些包络包含也可能描述完整帧的谱数据集合。然而,如本申请的说明书的背景技术中所述,由于将出现意料之外的前回声,因此需要精确的时间划分来封装瞬变周围的能量。 
因此,以下将描述编码器和/或解码器的备选操作模式,通过该备选操作模式,解决图6a和6b中的上述问题或者不需要在编码器侧发送用于描述太短时间段的数据集合。 
例如,如果考虑图6a的情况,其中,瞬变检测器118指示在帧404的起始处附近存在瞬变,则在所述实施例中,SBR帧控制器116仍旧将包括相同瞬变位置指示的LD_TRAN类与该帧相关联,但对于包络410,包络数据计算器112和包络数据编码器114不产生比例因子和/或谱能量值,也不产生噪声部分,并且对于该包络410,SBR帧控制器116不向格式器108转发频率分辨率指示,如图7a所示,其与图6a的情况的对应之处在于,包络410的线示出为虚线,并且相应的QMF时隙示出为阴影线,以指示输出104中的由格式器108输出的数据流实际上不包含用于高频重构的数据。在解码器侧,“数据空隙(data void)”418被填充进从前一包络408的相应数据获得的所有必要的数据,例如比例因子、噪声部分和频率分辨率。更具体地,如以下将参照图9更详细说明的,包络数据解码器320从帧404的瞬变位置指示推断出目前的情况是根据图6a的情况,从而不期望帧404中第一包络的任何包络数据。为了用符号表示该备选操作模式,图5通过虚线箭头指示在其操作模式或语法分析方面,包络数据解码器320还依赖于图2中以粗体印刷的语法元素,在这种情况下,特别依赖于语法元素bs_transient_position。包络数据解码器320填充数据空隙418,在于从包络410的前一包络408拷贝相应数据。采用这种方式,将包络408的数据集合好像从前一帧406扩展至第二帧404的第一(阴影线)QMF时隙。因此,再次重构解码器300中的丢失包络410的时间网格,并拷贝相应的数据集合。因此,关于帧404,图7a的时间网格同样与图6a的时间网格相对应。 
根据图7a的方式提供了与以上参照图3描述的方式相比的另一优点,在于采用这种方式,可以始终精确地发信号通知QMF时隙上的瞬 变起始。因此,可以更清晰地映射到由瞬变检测器118检测到的瞬变。为了进一步阐释这一点,图8示出了如下情况:根据图3,包括包络604的FIXFIX帧602后紧跟包括两个包络(即,瞬变包络608和最后包络610)的LD_TRAN帧606,瞬变位置指示指向第二QMF时隙。从图8可见,包括帧606第一QMF时隙的瞬变包络608的开始方式与从图3可见的、瞬变位置指示指向第一QMF时隙的情况下的开始方式相同。该方式的原因在于,出于编码效率的原因,不需要在将瞬变位置指示从TRANS-POS=0移位至TRANS-POS=1时在帧606的起始处提供第三包络,这是由于为此将必须再次具体发送包络数据。根据图7a的方式,不会出现问题,这是由于很明显,根本不需要针对起始包络410发送包络数据。因此,以根据图7a方式的有效方式,在LD_TRAN类中可以根据瞬变位置指示,以QMF时隙为单位来对准瞬变包络,为此,在图9的表中表示出一个可能的实施例。在图7a的备选方式的上下文中,图9的表表示出可在图1的编码器和图5的解码器中使用的可能的表,作为图3的表的备选。该表包括7列,其中,前5列的类型与图3中前5列相对应,即,其中,从第1列至第5列,列出了瞬变位置指示,并针对该瞬变位置指示,列出了帧中所提供的包络数目、第一包络边界的位置、第二包络边界的位置、和指向瞬变所处包络的瞬变索引。第六列指示了根据图7a提供给数据空隙418的瞬变位置指示。1所指示的是位于1与5之间(每种情况中都包括1和5)的瞬变位置指示的情况。对于剩余的瞬变位置指示,在该列中已输入0。以下将参照图7b讨论最后一列。 
考虑图6b的情况,根据作为根据图7a的修改的备选或附加方案而提供的方式,防止了将瞬变区域不利地划分成瞬变包络502b和504b,在于,实质上使用了在两个瞬变包络502b和504b的QMF时隙上扩展的包络502,但仅针对帧502的瞬变包络将在该包络402上获得的比例因子连同噪声部分和频率分辨率一起发送,并且在解码器侧,该比例因子还简单地用于接下来的帧的起始处的QMF时隙,如图7b所示,与图6b不同的是,包络502b的单个阴影线、虚线指示的瞬变包络504b、和第二帧504起始处的QMF时隙的阴影线。 
更具体地,根据图7b,在帧502与504之间出现瞬变的情况下,编 码器100将按照以下方式运行。瞬变检测器118指示出现瞬变。于是,如图6b的情况,SBR帧控制器116针对帧502选择包括指向最后一个QMF时隙的瞬变位置指示的LD_TRAN类。然而,由于瞬变位置指示指向帧502结尾的事实,包络数据计算器112根据QMF输出值来形成比例因子或谱能量值,但不仅在瞬变包络502b的QMF时隙上,而是在虚拟包络702的所有QMF时隙上,虚拟包络702还另外包括紧跟在接下来的帧504后的三个QMF时隙。因此,由于音频编码器106n可以仅在帧结尾处向格式器108转发帧504,因而在编码器100的输出104处不连接延迟。换言之,包络数据计算器112通过以预定频率分辨率对虚拟包络702的QMF时隙的QMF值进行平均,来形成比例因子,对于第一帧502的瞬变包络502b,所产生的比例因子由包络编码器114进行编码,并输出至格式器108,SBR帧控制器116转发该瞬变包络502b的相应频率分辨率值。不管关于帧502的类的判断如何,SBR帧控制器116都判断帧504的类成员。在这种情况下,作为示例,在帧504附近或帧504内不存在瞬变,从而在图7b的示例性情况下,SBR帧控制器116针对仅具有一个包络504a’的帧504选择FIXFIX类。SBR帧控制器116向格式器108和包络数据计算器112输出相应的判断。然而,以不同于以往的方式解释该判断。即,包络数据计算器112已“记住”,虚拟包络702已扩展至当前帧504中,并由此将帧504的直接相邻包络504a’缩短了相应数目的QMF时隙,以便确定仅在该更小数目的QMF时隙上的相应比例值,并向包络数据解码器104输出该比例值。因此,在输出104处的数据流中,在前三个QMF时隙上出现数据空隙704。换言之,根据图7b的方式,首先在编码器侧针对包络702计算完整的数据集合,为此,还使用来自在帧502看来在帧504的起始处的未来QMF时隙的数据,并由此在虚拟包络处计算谱包络。然后将属于包络502b的数据集合发送至解码器。 
在解码器处,包络数据解码器320从其输入数据产生虚拟包络702的比例因子,因此,增益值计算器318拥有帧502的最后一个QMF时隙或最后一个包络502b的所有必要信息,以仍在该帧内执行重构。包络数据解码器320还获得接下来的帧504的包络的比例因子,并将其转发至增益值计算器318。然而,根据前一LD_TRAN帧的瞬变位置输入指 向该帧502的结尾的事实,所述增益值计算器318获知:已发送的、该帧502的最后瞬变包络502b的包络数据还与帧504的起始处的QMF时隙相关,该数据属于虚拟包络702,因此,引入或建立这些QMF时隙的特定包络504b’,并针对所建立的包络504b’,假设由包络数据计算器112从前一包络502b的相应包络数据获得的比例因子、噪声部分和频率分辨率,以针对该包络504b’计算用于在模块312内进行重构的谱加权值。然后,增益值计算器318仅将实际的后一包络504a’的、从包络数据解码器320获得的包络数据应用至跟在虚拟包络702之后的后续QMF时隙,并向子带适配器312转发已相应地计算出的增益和/或加权值以进行高频重构。换言之,在解码器侧,首先,将虚拟包络702的数据集合仅应用至当前帧502的最后一个或多个QMF时隙,并因此无任何延迟地重构当前帧502。第二帧、后一帧504的数据集合包括数据空隙704,即,所发送的新包络数据仅在来自接下来的QMF时隙时才是有效的,该接下来的QMF时隙是图7b的典型示例中的第三QMF时隙。因此,在图7b的情况下,仅发送单一包络。与在第一种情况下一样,再次重构丢失的包络504b’并向该包络504b’填充前一包络502b的数据。因此,关闭数据空隙704,并且可以再现帧504。 
在图7b的示例性情况下,已将FIXFIX类发信号通知给第二帧504,其中,包络实际上跨越整个帧。然而,如刚刚描述的,考虑到前一帧502或其LD_TRAN类成员包括较高瞬变位置指示,限制了解码器中的包络504a’,在时间上,直到多个QMF时隙之后,数据集合才开始有效。在该上下文中,图7b解决了瞬变率较低的情况。然而,在多个连续帧中,如果在每一种情况下都在边缘处出现瞬变,则在每一种情况下瞬变位置将与LDN_TRAN类一同被发送,并相应地将在接下来的帧中扩展(如以上参照图7b所述)。如以上参照FIXFIX类的包络504a’的作为示例所描述的,根据该扩展,分别在大小上减小第一包络,或在其起始处限制第一包络。 
如上所述,在编码器和解码器之间,已知瞬变包络在LD_TRAN帧的结尾处扩展至后一帧中多远,在图9的实施例中或在图9所示的表中还示出了对这一点的可能的一致意见,因此,提出了组合根据图7a 和7b的两个修改后方式的示例。在该实施例中,编码器和解码器使用表9。为了发送信号通知包络的时间网格,同样仅使用瞬变索引bs_transient_position。瞬变位置在帧起始处的情况下,如上所述并从图9的表的倒数第二列可见,防止了包络的发送(图7a)。在这点上,在图9的最后一列中还确定了扩展因子(或QMF时隙的数目),利用该扩展因子(或越过该QMF时隙),帧结尾处的瞬变包络将扩展至后一帧中(比较图7b)。关于第一种情况(图7a)和第二种情况(图7b),根据图9的信号通知中的不同之处在于信号通知的时间点。在情况1中,信号通知发生在当前帧中,即,不存在对前一帧的依赖。只有瞬变位置才是决定性的。相应地,在解码器侧,从包括所有瞬变位置条目的图9中的表可以看到未发送帧的第一包络的情况。 
然而,在第二种情况下,在前一帧中进行判断,并将该判断传送至下一帧。使用图9中表的最后一列,具体而言,扩展因子指定了前帧的瞬变包络将扩展至下一帧中的前帧瞬变位置以及扩展的程度。这意味着,如果在帧中,瞬变位置被确定在当前帧的结尾处(根据图9,在最后一个或倒数第二个QMF时隙处),则针对下一帧将存储图9的最后一列中所指示的扩展因子,由此,确定或指定下一帧的时间网格。 
在以下提出本发明的下一实施例之前,应当注意的是,类似于根据图7b的针对虚拟包络产生包络数据的方式,在图7a的示例中,还可以在扩展的时间段上(即,通过“节省的(saved)”包络410的两个QMF时隙)产生包络408的包络数据,从而针对这些QMF时隙的分析滤波器组110的QMF输出值还将被包括在包络408的相应包络数据中。然而,还可能有备选方式,根据备选方式,包络408的包络数据仅通过与该包络数据相关联的QMF时隙来确定。 
前述实施例使用LD_TRAN类避免了大量延迟。以下是对一个实施例的描述,根据该实施例,通过网格或包络的分类来避免大量延迟,其中,包络还可以扩展到越过帧边界。具体地,以下假设图1的编码器在其输出104处产生数据流,其中,将帧分成四种帧类,即,如上述MPEG4-SBR标准中所建立的FIXFIX、FIXVAR、VARFIX和VARVAR类。 
如本申请的说明书的背景技术中所述,SBR帧控制器116也将帧序列分成还可扩展到越过帧边界的包络。为此,提供了语法元素bs_num_rel_#,其针对帧类FIXVAR、VARFIX和VARVAR等指定了相对于帧的前帧边界和后帧边界的位置,其中,该帧的第一个包络在前帧边界处开始,和/或该帧的最后一个包络在后帧边界处结束。包络数据计算器112针对具有由SBR帧控制器116指定的频率分辨率的、由包络所指定的网格,计算谱值或比例因子。因此,对于SBR帧控制器116,通过这些类,可以在帧和重叠区域上任意扩展包络边界。图1的编码器可以以产生一个帧的最大重叠区域的方式,利用四种不同类执行信号通知,该最大重叠区域与CORE编码器106的延迟相对应,并因此还与可被缓冲而不会引起附加延迟的时间段相对应。从而确保了将始终存在足够的“未来”值,可用于使包络数据计算器112即使在这些数据中大部分将仅在后续帧中有效的情况下也能预先计算和发送包络数据。 
然而,根据本实施例,图5的解码器目前拥有这样的具有四种SBR类的数据流,在某种意义上,会导致谱数据同时压缩的低等待时间。通过比特流中的数据空隙来实现这一点。为此,首先参照图10,图10根据该实施例将包括其分类的两个帧示出作为图1编码器的结果,在这种情况下,作为示例,第一帧是FIXVAR帧,第二帧是VARFIX帧。在图10的示例性情况下,两个连续帧802和804包括两个或一个包络,即,分别为包络802a和802b,和/或包络804a,FIXVAR帧802的第二包络扩展进帧804中三个QMF时隙,VARFIX帧804的包络804a的起始仅位于QFM时隙3处。关于每一包络802a、802b和804a,输出104处的数据流包含由包络数据计算器112通过在相应QMF时隙上对分析滤波器组110的QMF输出信号进行平均而确定的比例因子值。为了确定包络802b的包络数据,如上所述,计算器112采用分析滤波器组110的“未来”数据,为此,如图10中的阴影线所示,可得到帧大小的虚拟重叠区域。 
为了重构包络802b的高频部分,解码器在从分析滤波器组310接收到重构的低频部分之前必须等待,如上所述,这将引起帧大小的延迟。如果图5的解码器按照以下方式进行操作,则可以防止该延迟。包 络数据解码器320向增益值计算器318输出包络数据,具体地,输出包络802a、802b和804a的比例因子。然而,增益值计算器318首先仅针对扩展进后一帧804的包络802b所扩展的QMF时隙的第一部分(即,该部分最远到两个帧802与804之间的SBR帧边界)使用包络802b的包络数据。因此,增益值计算器318相对于图1的编码器在编码中所提供的划分重新解释包络划分,并首先仅针对重叠包络802b的位于当前帧802内的那部分使用包络数据。该部分在与图10的情况相对应的图11中示出为包络802b1。采用这种方式,增益值计算器318和子带适配器312能够重构该包络802b1的高频部分,而不引起任何延迟。 
由于上述重新解释,在输入302处的数据流自然缺少重叠包络802b的剩余部分的包络数据。增益值计算器318以类似于图7b实施例的方式来克服该问题,即,增益值计算器318使用从包络802b1的包络数据导出的包络数据,以根据所导出的包络数据,同子带适配器312一起在包络802b2处重构高频部分,包络802b在与重叠包络802b的剩余部分相对应的、第二帧804的前几QMF时隙上扩展。采用这种方式填充数据空隙806。 
遵循前述实施例,其中,采用在比特率方面有效的不同方式解决了瞬变问题,以下将给出对一个实施例的描述,根据该实施例,在语法中配置了修正的FIXFIX类作为帧和网格边界匹配的类的示例,使得修正的FIXFIX类包括标记或瞬变不存在指示,从而由于可以以在比特率方面更有效的方式来对信息和/或音频信号的固定部分进行编码,因而尽管减小帧大小可能会引起比特率丢失,但同时也可能降低丢失的量。在该上下文中,既可以在上述实施例中附加地采用该实施例,又可以与如本申请的说明书的背景技术中描述的对FIXFIX、FIXVAR、VARFIX和VARVAR类的帧类型划分的上下文中的其他实施例无关地采用该实施例,而如下所述,可以对FIXFIX类进行修正。具体而言,根据该实施例,另一语法元素(例如,1比特标记)对以上还参照图2所述的FIXFIX类的语法描述进行补充,SBR帧控制器116根据由瞬变检测器118检测到的瞬变位置,在编码器侧设置该标记,以指示信息信号在相应FIXFIX帧的区域中是固定的或不是固定的。在信息信号在相 应的FIXFIX帧的区域中固定的情况下,例如设置了瞬变不存在标记的情况下,如果FIXFIX帧包括多个包络,则对于相应FIXFIX帧的包络,或对于该FIXFIX帧中时间上的第一个包络,在已编码的数据流1 04中不执行包络数据信号通知,或不发送噪声能量值和比例因子以及频率分辨率值,而在解码器侧,从在时间上直接在前的前一帧的包络的相应包络数据获得该丢失信息,所述帧还可能是例如FIXFIX帧,或任何其他帧,所述包络数据被包含在已编码的信息信号中。因此,对于具有较小延迟的SBR编码的变体,采用这种方式可以实现比特率的减小,或者由于增加的或加倍的重复率,可以在这样的低延迟变体中实现比特率增大的组合。结合上述实施例,这样的信号通知完成了比特率的减小,这是由于该信号通知不仅是可采用减小比特率的方式发送和/或编码的瞬变信号,而且是固定的信号。关于获得或导出丢失的包络数据信息,应参照关于前述实施例(具体而言是关于图12和7b)的描述。 
应当注意以下关于图6a至11的说明。有时,与图3不同的表用作这些图的基础。自然地,还可以将这样的区别应用于对噪声包络的定义。举例而言,利用LD_TRAN类,噪声包络可以始终在整个帧上扩展。在图7a和7b的情况下,前一帧或前一包络的噪声值而后可以用于例如针对前几个QMF时隙的解码器的一部分上的高频重构,在这种情况下,为2或3个QMF时隙(作为示例),并且相应地将缩短实际噪声包络。 
此外,应当注意,关于图7b和11的方式,在如何分别发送虚拟包络702和802b的包络数据或比例因子方面存在大量可能性。如上所述,具体通过如上所述进行平均,经由QMF时隙来确定虚拟包络的比例因子,作为示例,QMF时隙的数目在图7b中是四个,在图11中是六个。在数据流中,可以发送经由相应QMF时隙而确定的、瞬变包络502b或包络502b1的比例因子。在这种情况下,在解码器侧,计算器318可能考虑已在整个区域上将比例因子或谱能量值分别确定为4和6个QMF时隙,并且因此,以与例如分别跟第一帧502和802相关联的QMF时隙同分别跟第二帧504和804相关联的QMF时隙之间的比值相对应的比 值,将这些值的幅度分别再划分成两个部分包络502b和504b’以及802b1和802b2,从而利用为了在子带适配器312中控制谱整形而发送的比例因子的、由此再划分的部分。然而,还可能的是,编码器直接发送这样的比例因子,首先可以在解码器侧分别对第一部分包络502b和802b1直接应用该比例因子,并且分别根据虚拟包络702与第二帧504的重叠、和虚拟包络802b与第二帧804的重叠,分别针对以下部分包络504b’或804b’或802b2相应地重新按比例缩放该比例因子。在编码器与解码器之间可以任意指定两个部分包络之间分割能量的方式。换言之,由于已仅在这些部分包络和/或相应QMF时隙上对比例因子进行平均,因此编码器可以直接发送在解码器侧可分别对第一部分包络502b和502b1直接应用的比例因子。作为示例,可以对这种情况示出如下。在或多或少重叠的包络的情况下,其中,第一部分由两个时间单位或QMF时隙构成,第二部分由三个时间单位构成,在编码器侧,仅正确计算第一部分,和/或仅在该部分中对能量值进行平均,并输出相应的比例因子。采用这种方式,包络数据精确地匹配第一部分中的相应时间部分。然而,从第一部分获得第二部分的比例因子,并根据与第一部分相比的尺寸比例(即,在这种情况下为第一部分的比例因子的3/2倍)对第二部分的比例因子进行缩放。借此机会应当指出,上述术语“能量”与比例因子同义地使用;能量或比例因子由经过包络时间段的SBR频带的所有能量值之和产生。在刚刚示出的示例中,每一种情况下的辅助比例因子描述了针对相应SBR频带的或多或少重叠的包络的第一部分中两个时间单位的能量之和。 
此外,在上述实施例中,当然,还可以规定始终要以归一化至QMF时隙的数目的方式发送的谱包络或比例值,用于确定每一频率/时间网格区域内的相应值,例如,平方平均能量,即,归一化至贡献QMF时隙的数目和QMF谱带的数目的能量。在这种情况下,不需要刚刚描述的、用于在编码器侧或解码器侧将虚拟包络的比例因子分割成相应子部分的手段。 
关于以上描述,还应当注意多个其他角度。尽管已经给出描述,例如,在图1中,通过分析滤波器组110,利用固定的时间分辨率来执 行谱分散,然后,包络数据计算器112将该时间分辨率适配于由控制器116设置的时间/频率网格,但备选方式也是可行的,根据备选方式(关于与由控制器316给出的指定适配的时间/频率分辨率),直接计算该分辨率下的谱包络,而无需图1所示的两个阶段。可以省略图1的包络数据编码器114。另一方面,可以通过例如差分编码来实现表示谱包络的信号能量的编码类型,可能在时间或频率方向上或以混合形式(例如,在时间和/或频率方向上以逐帧或逐包络的方式)来实现差分编码。应当注意,参照图5,增益值计算器对在初步再现的高频部分中所包含的信号能量执行归一化,并对由编码器为了发信号通知谱包络而发送的信号能量执行加权,二者的顺序是不相关的。自然地,同样的情况也适用于考虑每一噪声包络中噪声部分值的校正。还应当注意的是,本发明不限于通过滤波器组进行的谱分散。更确切地,自然还可以采用傅立叶变换和/或傅立叶逆变换,或类似的时间/频率变换,其中,例如,用与时隙相对应的音频值的数目来移位相应变换窗口。还应当注意的是,可以规定,编码器不确定谱包络和对谱包络进行编码,且不关于时间/频率网格中高频部分中的所有子带将该谱包络引入已编码音频信号中。更确切地,编码器还可以确定高频部分的、不需在解码器侧执行再现的这些部分。在这种情况下,编码器向解码器发送例如要执行对其执行再现的高频部分中的那些部分和/或高频部分中的子带区域。此外,关于设置频率方向上的网格,各种修改也是可能的。例如,可以规定,不执行对频率网格的设置,其中,在这种情况下,可以省略语法元素bs_freq_res,并且例如,始终使用全分辨率。此外,可以省略用于表示谱包络的信号能量的量化步宽的可调整性,即,可以省略语法元素bs_amp_res。此外,可以在图1的下采样器中执行不同下采样来代替每隔一个音频值而执行的下采样,以使得高频和低频部分将具有不同的谱扩展。此外,LD_TRAN帧的网格划分在表的帮助下对bs_transient_position的依赖性仅是示例性的,包络扩展和频率分辨率的分析依赖性也是可行的。 
无论如何,编码器和解码器的上述示例允许针对以上引用的标准的AAC-LD编码方案使用SBR技术。使用上述实施例可以克服 AAC+SBR的较大延迟,该延迟与在48kHz下具有大约20ms的短算法延以及块长度为480的AAC-LD的目标相冲突。这里,将可以克服ACC-LD与该标准中定义的先前SBR的结合的缺点,这种缺点是由于与960或1024帧长度的AAC-LD相比更短的帧长度ACC-LD 480或512使该标准中所定义的不变的SBR单元的数据速率是HE ACC的数据率的二倍。因此,上述实施例使ACC-LD+SBR的延迟得以减小且辅助信息的数据速率同时较小。 
具体地,在上述实施例中,针对SBR模块的LD变体的延迟,移除了SBR帧的重叠区域,以便减小系统。因此,无需能与SBR帧边界无关地设置包络边界和/或网格边界的可能性。然而,然后由新帧类LD_TRAN对瞬变进行处理,从而上述实施例还仅需要用于信号通知的一个比特,以指示当前SBR帧是FIXFIX类的SBR帧还是LD_TRAN类的SBR帧。 
在上述实施例中,定义了LD_TRAN类型以使其具有包络边界,某种意义上,在帧内的边缘和可变边界处,该包络边界始终与SBR帧同步。通过QMF时隙网格或时隙网格内的瞬变位置来确定内部分布。在瞬变位置周围分布了封装瞬变能量的小包络。用包络向前和向后填充了剩余区域直至边缘。为此,在编码器侧,包络数据计算器312使用了图3的表,在解码器侧,增益值计算器318使用了图3的表,其中,根据瞬变位置,存储预定义的包络网格,图3的表自然仅作为示例,并且在各种情况下,根据应用的情况,自然还可以作出更改。 
具体地,上述实施例的LD_TRAN类因此实现了压缩信号通知,并将比特需求调整至具有双倍帧率的LD环境,因此,还需要网格信息的双倍数据速率。因此,上述实施例消除了根据该标准的先前SBR包络信号通知的缺点,该缺点在于,对于VARVAR、VARFIX和FIXVAR类,用于发送语法元素和/或辅助信息的比特需求规模很大,并且对于FIXFIX类,针对块内瞬变对包络的精确时间调整是不可能的。通过对比,上述实施例实现了在解码器侧进行延迟优化,具体而言是在音频信号原始区域中6个QMF时隙或384个音频样本的延迟优化,其粗略地与音频信号采样48kHz下的8ms相对应。此外,对VARVAR、VARFIX 和FIXVAR帧类的排除实现了用于发送谱包络的数据速率的节省,这就得到了用于低频编码和/或核的更高数据速率的可能性,因此得到了改进的音频质量。有效地,上述实施例提供了包在与SBR帧边界同步的LD_TRAN类帧内的瞬变。 
应当注意的是,具体地,与图3的前述示例性表不同,瞬变包络长度还可以包括多于仅2个QMF时隙,然而,瞬变包络长度优选地小于帧长度的1/3。 
关于以上描述,还应当注意的是,本发明不限于音频信号。更确切地,自然还可以在视频编码中采用上述实施例。 
关于上述实施例,还应当注意的是,图1和5中的各个方框既可以以硬件实现,又可以以软件实现,例如,实现为ASIC的部分或计算机程序的程序例程。 
借此机会应当注意,根据环境,本发明的方案还可以以软件实现。可以在数字存储介质上实现,具体地,在具有可与可编程计算机系统交互的电子可读控制信号的盘或CD上实现,以执行相应方法。通常,本发明因此还在于具有程序代码的计算机程序产品,该程序代码被存储在机器可读载体上,当计算机程序产品运行在计算上时,该程序代码执行本发明的方法。换言之,本发明因此可以实现为具有程序代码的计算机程序,当计算机程序运行在计算机上时,该程序代码执行所述方法。关于上述实施例,还应当注意,所产生的已编码信息信号可以被存储在例如存储介质(例如,电子存储介质)上。 

Claims (24)

1.一种编码器,包括:
用于以音频信号的帧(902)为单位对音频信号的低频部分进行编码的装置(104、106);
用于在音频信号内定位瞬变的装置(118);
用于根据定位将至少两个可能的重构模式当中的相应重构模式与音频信号的帧相关联、以及对于已与所述至少两个可能的重构模式中的第一个相关联的帧来将相应的瞬变位置指示与所述帧相关联的装置(116);以及
装置(110、112、114),用于在依赖于与所述帧相关联的重构模式的时间网格中,产生音频信号的高频部分的谱包络的表示,从而对于与所述至少两个可能的重构模式中的第一个相关联的帧,所述帧(902)的帧边界(902a、902b)与网格(222a、220、222b)的网格边界重合,并且所述帧内的网格的网格边界依赖于瞬变位置指示(T);以及
用于将已编码的低频部分、谱包络表示、以及与关联重构模式和瞬变位置指示有关的信息组合进已编码的音频信号中的装置(108)。
2.根据权利要求1所述的编码器,其中,用于产生的装置被配置为使与所述至少两个可能的重构模式中的第一个相关联的帧内的网格边界被定位,以使所述网格边界指定至少第一网格区域(220)以及第二和/或第三网格区域(222a、222b),第一网格区域(220)在相应帧内的位置依赖于瞬变位置指示,并且第一网格区域(220)的时间扩展小于帧长度的1/3,第二和/或第三网格区域(222a、222b)占用所述相应帧中从第一网格区域至帧边界(902a、902b)的剩余部分,帧边界(902a、902b)是所述相应帧的时间上靠前的边界和/或时间上靠后的边界。
3.根据权利要求2所述的编码器,其中,与第一重构模式相关联的帧(404)包括三个网格区域(410、412、414),并且其中,三个网格区域当中的第一网格区域(412)与前一帧的距离比预定值小,对于所述与第一重构模式相关联的帧(404),用于产生的装置和用于组合的装置被配置为仅针对第一和第三网格区域(412、414),将描述具有相应频率分辨率的谱包络的一个或多个谱包络值引入已编码的音频信号中,而对于所述与第一重构模式相关联的帧(404)的第二网格区域(410),不向已编码的音频信号引入谱包络值。
4.根据权利要求2所述的编码器,其中,与第一重构模式相关联的帧(502)仅包括两个网格区域(502a、502b),并且其中,第一网格区域(502b)与时间上靠后的帧边界相接,对于所述与第一重构模式相关联的帧(502),用于产生的装置和用于组合的装置被配置为:针对两个网格区域,将一个或多个谱包络值引入已编码的音频信号中,所述一个或多个谱包络值描述具有相应频率分辨率的谱包络;使用位于后一帧中与靠后帧边界相接的扩展网格区域(504b’)中的音频信号的部分,来确定第一网格区域(502b)的谱包络值;以及缩短由后一帧的重构模式指定的、后一帧(504)的时间上靠前的网格区域(504a’),从而仅在扩展网格区域(504b’)处开始。
5.根据权利要求3所述的编码器,其中,对于与第二重构模式相关联或与第一重构模式相关联、但是既不满足包括三个网格区域、且与此同时三个网格区域当中的第一网格区域与前一帧的距离小于预定值的条件、又不满足仅包括两个网格区域、且与此同时第一网格区域与时间上靠后的帧边界相接的条件的帧,用于产生的装置和用于组合的装置被配置为针对所述帧的每一网格区域,将一个或多个谱包络值引入已编码的音频信号中。
6.根据权利要求2所述的编码器,其中,用于产生的装置被配置以使得:如果不存在第二网格区域(222a),则第一网格区域(220)与相应帧的时间上靠前的帧边界(902a)相接,以及如果不存在第三网格区域(222b),则第一网格区域(220)与相应帧的时间上靠后的帧边界(902b)相接。
7.根据权利要求1所述的编码器,其中,用于产生的装置被配置为使与所述至少两个可能的重构模式中的第二个相关联的帧内的网格边界被定位,以使所述网格边界在时间上均匀分布,从而所述帧仅包括一个网格区域或被再划分成相等大小的网格区域(906a、906b)。
8.根据权利要求1所述的编码器,其中,用于关联的装置被配置为将帧再划分数目指示与同所述至少两个可能的重构模式中的第二个相关联的每一帧相关联;用于产生的装置被配置以使得所述帧内的网格边界将所述帧再划分成一定数目的网格区域,所述数目依赖于相应的帧再划分数目指示。
9.根据权利要求1所述的编码器,其中,用于产生的装置被配置以使得帧的帧边界始终与网格的网格边界重合,而与所述帧相关联的可能的重构模式无关。
10.根据权利要求1所述的编码器,其中,用于产生的装置包括分析滤波器组(110),所述分析滤波器组(110)针对音频信号的每一滤波器组时隙(904)产生一组谱值(250),每一帧(902)的长度是多个滤波器组时隙,并且用于产生的装置(112)还包括:用于以网格的分辨率对能量谱值进行平均的装置。
11.根据权利要求10所述的编码器,其中,以滤波器组时隙(904)为单位来定义瞬变位置指示。
12.一种解码器,包括:
用于从已编码的音频信号中提取音频信号的已编码低频部分、音频信号的高频部分的谱包络的表示、以及与重构模式和瞬变位置指示有关的信息的装置(306),所述重构模式与音频信号的帧相关联且分别与至少两个重构模式中的一个相对应,所述瞬变位置指示与在每一种情况下同所述至少两个重构模式中的第一个相关联的帧相关联;
用于以音频信号的帧为单位对音频信号的已编码低频部分进行解码的装置(308);
用于根据已解码的低频部分来提供初步高频部分信号的装置(310);以及
装置(318、312、314),用于根据时间网格中谱包络的表示,通过对初步高频部分信号进行谱加权,将初步高频部分信号谱适配于谱包络,从而对于与所述至少两个可能的重构模式中的第一个相关联的帧,所述帧的帧边界与网格的网格边界重合,并且所述帧内的网格的网格边界依赖于瞬变位置指示,其中所述网格依赖于与所述帧相关联的重构模式。
13.根据权利要求12所述的解码器,其中,用于谱适配的装置被配置为使与所述至少两个可能的重构模式中的第一个相关联的帧内的一个或多个网格边界被定位,以使所述一个或多个网格边界指定至少第一网格区域(220)以及第二和/或第三网格区域(222a、222b),第一网格区域(220)在相应帧内的位置依赖于瞬变位置指示,并且第一网格区域(220)的时间扩展小于帧长度的1/3,第二和/或第三网格区域(222a、222b)占用所述相应帧的从第一网格区域至帧边界(902a、902b)的剩余部分,帧边界(902a、902b)是所述相应帧的时间上靠前的边界或时间上靠后的边界。
14.根据权利要求13所述的解码器,其中,与第一重构模式相关联的帧(404)包括三个网格区域(410、412、414),并且其中,三个网格区域当中的第一网格区域(412)与前一帧(406)的距离比预定值小,对于所述与第一重构模式相关联的帧(404),用于提取的装置被配置为预期已编码音频信号中的一个或多个谱包络值,并且仅针对第一和第三网格区域(412、414)从已编码音频信号中提取所述一个或多个谱包络值,所述一个或多个谱包络值描述具有相应频率分辨率的谱包络;以及用于提取的装置被配置为针对第二网格区域(410)从网格区域(408)获得用于表示谱包络的一个或多个谱包络值,所述网格区域(408)是前一帧(406)的时间上最后一个网格区域。
15.根据权利要求13所述的解码器,其中,与第一重构模式相关联的帧(502)包括两个网格区域(502a、502b),并且其中,第一网格区域(502b)与所述与第一重构模式相关联的帧(502)的时间上靠后的帧边界相接,对于所述与第一重构模式相关联的帧(502),用于提取的装置被配置为预期已编码音频信号中的一个或多个谱包络值,并针对两个网格区域从已编码音频信号中提取所述一个或多个谱包络值,所述一个或多个谱包络值描述具有相应频率分辨率的谱包络;以及用于提取的装置被配置为从第一网格区域(502b)的谱包络值中获得后一帧(504)中补充网格区域(504b’)的一个或多个谱包络值,所述补充网格区域(504b’)与靠后的帧边界相接;以及用于提取的装置被配置为相应地缩短由后一帧的重构模式定义的、后一帧(504)的时间上靠前的网格区域(504a’),从而仅在补充网格区域(504b’)处开始,由此对后一帧(504)内时间网格进行再划分;用于谱适配的装置被配置为在再划分后的时间网格中执行适配。
16.根据权利要求14所述的解码器,其中,对于与第二重构模式相关联或与第一重构模式相关联、但是既不满足包括三个网格区域、且与此同时三个网格区域当中的第一网格区域与前一帧的距离小于预定值的条件,又不满足仅包括两个网格区域、且与此同时第一网格区域与时间上靠后的帧边界相接的条件的帧,用于提取的装置被配置为针对所述帧的每一网格区域,将一个或多个谱包络值引入已编码的音频信号中,或从已编码的音频信号中提取所述一个或多个谱包络值。
17.根据权利要求16所述的解码器,其中,用于谱适配的装置被配置以使得:如果不存在第二网格区域(222a),则第一网格区域(220)与相应帧的时间上靠前的帧边界(902a)相接,以及如果不存在第三网格区域(222b),则第一网格区域(220)与相应帧的时间上靠后的帧边界(902b)相接。
18.根据权利要求12所述的解码器,其中,用于谱适配的装置被配置为使与所述至少两个可能的重构模式中的第二个相关联的帧内的网格边界被定位,以使所述网格边界在时间上均匀分布,从而所述帧仅包括一个网格区域或被再划分成相等大小的网格区域(906a、906b)。
19.根据权利要求12所述的解码器,其中,用于提取的装置被配置为从已编码音频信号中还提取帧再划分数目指示,在每一种情况下,所述帧再划分数目指示都与同可能的重构模式中的第二个重构模式相关联的帧相关联;用于谱适配的装置被配置以使得所述帧内的网格边界被再划分成一定数目的网格区域,所述数目依赖于相应帧再划分数目指示。
20.根据权利要求12所述的解码器,其中,用于谱适配的装置被配置以使得帧的帧边界始终与网格的网格边界重合,而与所述帧相关联的可能的重构模式无关。
21.根据权利要求12所述的解码器,其中,用于谱适配的装置包括分析滤波器组(310),所述分析滤波器组(310)针对音频信号的每一滤波器组时隙产生一组谱值,每一帧的长度是多个滤波器组时隙,并且用于谱适配的装置还包括:用于以网格的分辨率确定谱值的能量的装置(318)。
22.根据权利要求21所述的解码器,其中,以滤波器组时隙为单位来定义瞬变位置指示。
23.一种编码方法,包括:
以音频信号的帧(902)为单位对音频信号的低频部分进行编码;
定位音频信号内的瞬变;
根据定位,将至少两个可能的重构模式当中的相应重构模式与音频信号的帧相关联,并且对于已与所述至少两个可能的重构模式中的第一个相关联的帧,将相应的瞬变位置指示与所述帧相关联;以及
在依赖于与所述帧相关联的重构模式的时间网格中,产生音频信号的高频部分的谱包络的表示,从而对于与所述至少两个可能的重构模式中的第一个相关联的帧,所述帧(902)的帧边界(902a、902b)与网格(222a、220、222b)的网格边界重合,并且所述帧内的网格的网格边界依赖于瞬变位置指示(T);以及
将已编码的低频部分、谱包络表示、以及与关联重构模式和瞬变位置指示有关的信息组合进已编码音频信号中。
24.一种解码方法,包括:
从已编码的音频信号中提取音频信号的已编码低频部分、音频信号的高频部分的谱包络的表示、以及与重构模式和瞬变位置指示有关的信息,所述重构模式与音频信号的帧相关联,且分别与至少两个重构模式中的一个相对应,所述瞬变位置指示与在每一种情况下同所述至少两个重构模式中的第一个相关联的帧相关联;
以音频信号的帧为单位对音频信号的已编码低频部分进行解码;
根据已解码的低频部分,提供初步高频部分信号;以及
根据时间网格中谱包络的表示,通过对初步高频部分信号进行谱加权,将初步高频部分信号谱适配于谱包络,从而对于与所述至少两个可能的重构模式中的第一个相关联的帧,所述帧的帧边界与网格的网格边界重合,并且所述帧内的网格的网格边界依赖于瞬变位置指示,其中所述时间网格依赖于与所述帧相关联的重构模式。
CN2007800387563A 2006-10-18 2007-10-01 信息信号的编码装置及方法 Active CN101529503B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102006049154A DE102006049154B4 (de) 2006-10-18 2006-10-18 Kodierung eines Informationssignals
DE102006049154.8 2006-10-18
PCT/EP2007/008527 WO2008046505A1 (de) 2006-10-18 2007-10-01 Kodierung eines informationssignals

Publications (2)

Publication Number Publication Date
CN101529503A CN101529503A (zh) 2009-09-09
CN101529503B true CN101529503B (zh) 2012-05-09

Family

ID=38657988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800387563A Active CN101529503B (zh) 2006-10-18 2007-10-01 信息信号的编码装置及方法

Country Status (20)

Country Link
EP (1) EP2057625B1 (zh)
JP (1) JP5266234B2 (zh)
KR (1) KR101183962B1 (zh)
CN (1) CN101529503B (zh)
AT (1) ATE507554T1 (zh)
AU (1) AU2007312667B2 (zh)
BR (1) BRPI0715555B1 (zh)
CA (1) CA2664466C (zh)
DE (2) DE102006049154B4 (zh)
ES (1) ES2365433T3 (zh)
HK (1) HK1126567A1 (zh)
IL (1) IL197561A (zh)
MX (1) MX2009004045A (zh)
MY (1) MY147067A (zh)
NO (1) NO341258B1 (zh)
PL (1) PL2057625T3 (zh)
RU (1) RU2413312C2 (zh)
TW (1) TWI355648B (zh)
WO (1) WO2008046505A1 (zh)
ZA (1) ZA200810394B (zh)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI618350B (zh) 2009-02-18 2018-03-11 杜比國際公司 用於高頻重建或參數立體聲之複指數調變濾波器組
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
JP4921611B2 (ja) * 2009-04-03 2012-04-25 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
CN102667920B (zh) * 2009-12-16 2014-03-12 杜比国际公司 Sbr比特流参数缩混
US9338523B2 (en) * 2009-12-21 2016-05-10 Echostar Technologies L.L.C. Audio splitting with codec-enforced frame sizes
CN102436820B (zh) 2010-09-29 2013-08-28 华为技术有限公司 高频带信号编码方法及装置、高频带信号解码方法及装置
EP2477188A1 (en) 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
TWI479478B (zh) 2011-02-14 2015-04-01 Fraunhofer Ges Forschung 用以使用對齊的預看部分將音訊信號解碼的裝置與方法
MY165853A (en) 2011-02-14 2018-05-18 Fraunhofer Ges Forschung Linear prediction based coding scheme using spectral domain noise shaping
TWI488176B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 音訊信號音軌脈衝位置之編碼與解碼技術
CA2827000C (en) 2011-02-14 2016-04-05 Jeremie Lecomte Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
MX2013009344A (es) 2011-02-14 2013-10-01 Fraunhofer Ges Forschung Aparato y metodo para procesar una señal de audio decodificada en un dominio espectral.
WO2012110416A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoding and decoding of pulse positions of tracks of an audio signal
JP5914527B2 (ja) 2011-02-14 2016-05-11 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 過渡検出及び品質結果を使用してオーディオ信号の一部分を符号化する装置及び方法
TWI483245B (zh) * 2011-02-14 2015-05-01 Fraunhofer Ges Forschung 利用重疊變換之資訊信號表示技術
MX2013009303A (es) 2011-02-14 2013-09-13 Fraunhofer Ges Forschung Codec de audio utilizando sintesis de ruido durante fases inactivas.
EP2686849A1 (en) 2011-03-18 2014-01-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frame element length transmission in audio coding
JP5807453B2 (ja) 2011-08-30 2015-11-10 富士通株式会社 符号化方法、符号化装置および符号化プログラム
US9621889B2 (en) * 2012-03-02 2017-04-11 Sun Patent Trust Image encoding method, image decoding method, image encoding apparatus, image decoding apparatus, and image coding apparatus
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
JP6019266B2 (ja) 2013-04-05 2016-11-02 ドルビー・インターナショナル・アーベー ステレオ・オーディオ・エンコーダおよびデコーダ
KR101789085B1 (ko) * 2013-06-10 2017-11-20 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 분포 양자화 및 코딩을 사용하는 오디오 신호 엔벨로프의 분할에 의한 오디오 신호 엔벨로프 인코딩, 처리 및 디코딩을 위한 장치 및 방법
RU2662921C2 (ru) 2013-06-10 2018-07-31 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для кодирования, обработки и декодирования огибающей аудиосигнала путем моделирования представления совокупной суммы с использованием квантования и кодирования распределения
WO2017050398A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
EP3405949B1 (en) * 2016-01-22 2020-01-08 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for estimating an inter-channel time difference
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1514997A (zh) * 2001-06-08 2004-07-21 �ʼҷ����ֵ������޹�˾ 音频信号的编辑
CN1579047A (zh) * 2002-08-21 2005-02-09 索尼株式会社 信号编码装置及方法、以及信号解码装置及方法
CN1846253A (zh) * 2003-09-05 2006-10-11 皇家飞利浦电子股份有限公司 低比特率音频编码

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3531178B2 (ja) * 1993-05-27 2004-05-24 ソニー株式会社 ディジタル信号処理装置及び方法
JP3277677B2 (ja) * 1994-04-01 2002-04-22 ソニー株式会社 信号符号化方法及び装置、信号記録媒体、信号伝送方法、並びに信号復号化方法及び装置
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
WO2002037688A1 (en) * 2000-11-03 2002-05-10 Koninklijke Philips Electronics N.V. Parametric coding of audio signals
ES2298394T3 (es) * 2001-05-10 2008-05-16 Dolby Laboratories Licensing Corporation Mejora de sesiones transitorias de sistemas de codificacion de señales de audiofrecuencia a baja velocidad de transferencia de bits por reduccion de preruidos.
RU2325046C2 (ru) * 2002-07-16 2008-05-20 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
JP4767687B2 (ja) * 2003-10-07 2011-09-07 パナソニック株式会社 スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法
KR100608062B1 (ko) * 2004-08-04 2006-08-02 삼성전자주식회사 오디오 데이터의 고주파수 복원 방법 및 그 장치
JP4822697B2 (ja) * 2004-12-01 2011-11-24 シャープ株式会社 ディジタル信号符号化装置およびディジタル信号記録装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1514997A (zh) * 2001-06-08 2004-07-21 �ʼҷ����ֵ������޹�˾ 音频信号的编辑
CN1579047A (zh) * 2002-08-21 2005-02-09 索尼株式会社 信号编码装置及方法、以及信号解码装置及方法
CN1846253A (zh) * 2003-09-05 2006-10-11 皇家飞利浦电子股份有限公司 低比特率音频编码

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ISO/IEC.Text of ISO/IEC 14496-3:2001/FDAM1, Bandwidth Extension.《ISO/IEC 14496-3:2001/FDAM1:2003(E), Bandwidth Extension,ISO/IEC JTC1/SC29/WG11/N5570,INTERNATIONAL STANDARD,Amendment,Document stage(50)Approval》.2003,1-127. *

Also Published As

Publication number Publication date
DE102006049154A1 (de) 2008-04-24
MY147067A (en) 2012-10-15
IL197561A (en) 2013-02-28
AU2007312667A1 (en) 2008-04-24
JP2010507113A (ja) 2010-03-04
TW200830277A (en) 2008-07-16
IL197561A0 (en) 2009-12-24
ZA200810394B (en) 2009-08-26
BRPI0715555B1 (pt) 2020-09-15
KR20090073172A (ko) 2009-07-02
KR101183962B1 (ko) 2012-09-18
PL2057625T3 (pl) 2011-09-30
CA2664466A1 (en) 2008-04-24
ES2365433T3 (es) 2011-10-05
AU2007312667B2 (en) 2010-09-09
NO341258B1 (no) 2017-09-25
MX2009004045A (es) 2009-05-28
WO2008046505A1 (de) 2008-04-24
JP5266234B2 (ja) 2013-08-21
CN101529503A (zh) 2009-09-09
DE102006049154B4 (de) 2009-07-09
HK1126567A1 (en) 2009-09-04
RU2009118384A (ru) 2010-11-27
BRPI0715555A2 (pt) 2014-03-18
CA2664466C (en) 2015-03-17
BRPI0715555A8 (pt) 2019-01-15
NO20083755L (no) 2008-09-01
RU2413312C2 (ru) 2011-02-27
EP2057625A1 (de) 2009-05-13
TWI355648B (en) 2012-01-01
DE502007007077D1 (de) 2011-06-09
EP2057625B1 (de) 2011-04-27
ATE507554T1 (de) 2011-05-15

Similar Documents

Publication Publication Date Title
CN101529503B (zh) 信息信号的编码装置及方法
US8041578B2 (en) Encoding an information signal
US8417532B2 (en) Encoding an information signal
US9812136B2 (en) Audio processing system
US5886276A (en) System and method for multiresolution scalable audio signal encoding
KR100666814B1 (ko) 스테레오 폭 파라미터를 보간하는 장치 및 방법, 그리고 의사 스테레오 발생기
KR102255142B1 (ko) 적어도 하나의 필 요소 내의 향상된 스펙트럼 대역 복제 메타데이터를 사용한 오디오 비트스트림들의 디코딩
CN102089816B (zh) 音频信号合成器及音频信号编码器
US8126721B2 (en) Encoding an information signal
JP2009513992A (ja) オーディオ信号を符号化する装置と方法および符号化されたオーディオ信号を復号化する装置と方法
WO2003017254A1 (en) An encoder programmed to add a data payload to a compressed digital audio frame
US7835918B2 (en) Encoding and decoding a set of signals
KR102725805B1 (ko) 오디오 신호에 대한 고주파 재구성 기술의 하위 호환 통합
KR102275129B1 (ko) 오디오 신호의 고주파 재구성을 위한 하모닉 트랜스포저의 하위호환형 통합

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant