CN102089812B - 用以使用混叠切换方案将音频信号编码/解码的装置与方法 - Google Patents
用以使用混叠切换方案将音频信号编码/解码的装置与方法 Download PDFInfo
- Publication number
- CN102089812B CN102089812B CN200980127114XA CN200980127114A CN102089812B CN 102089812 B CN102089812 B CN 102089812B CN 200980127114X A CN200980127114X A CN 200980127114XA CN 200980127114 A CN200980127114 A CN 200980127114A CN 102089812 B CN102089812 B CN 102089812B
- Authority
- CN
- China
- Prior art keywords
- block
- aliasing
- sub
- domain
- window
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种用于编码音频信号的装置,包含窗口化器(11),用于使用具有混叠部及另一部的分析窗口来窗口化该音频信号的第一块。该装置进一步包含处理器(12),用于通过将该第一子块窗口化之后,将该子块由一域变换至一不同域来处理与该混叠部相关联的该音频信号的第一子块而获得已处理的第一子块;以及用于通过在窗口化该第二子块之前,将该第二子块由该域变换至该不同域来处理与该另一部相关联的该音频信号的第二子块而获得已处理的第二子块。此外,该装置包含变换器,用于使用相同块变换规则,将该已处理的第一子块及该已处理的第二子块由该不同域变换至又一个不同域来获得已变换的第一块,然后该块可使用众所周知的数据压缩算法中的任一者压缩。如此,由于出现在不同域的混叠部彼此匹配,故可获得两种编码模式间的临界采样的切换。
Description
技术领域
本发明涉及音频编码,更特别地,涉及低比特率音频编码方案。
背景技术
在现有技术中,已知频域编码方案,诸如MP3或AAC。这些频域编码器基于时域/频域变换;随后是量化级,其中使用来自心理声学模块的信息控制量化误差;及编码级,其中使用码表对该已量化的频谱系数及相对应辅助信息进行熵编码。
另一方面,存在极为适合用于语音处理的编码器,诸如AMR-WB+,在3GPP TS 26.290对此进行了说明。这种语音编码方案执行时域信号的线性预测滤波。这种LP滤波是由该输入的时域信号的线性预测分析所导出。然后,所得的LP滤波系数经量化/编码,并作为辅助信息传输。该方法称作为线性预测编码(LPC)。在滤波器的输出端,使用ACELP编码器的合成-分析级,或另外地,使用变换编码器,对预测残留信号或预测误差信号(也称作为激励信号)进行编码,该变换编码器使用具有重叠的傅立叶变换。ACELP编码与变换编码激励编码(也称作为TCX编码)间的判定是使用闭环或开环算法进行的。
组合AAC编码方案及频带复制技术的频域音频编码方案(诸如高效率-AAC编码方案)也可与借助于术语“MPEG环绕”一词而已知的联合立体声编码工具或多声道编码工具组合。
另一方面,语音编码器(诸如AMR-WB+)也有高频加强级及立体声功能。
频域编码方案的优点在于,其对于音乐信号,以低比特率显示高质量,但问题在于低比特率的语音信号的质量。
语音编码方案即使以低比特率也对语音信号显示高质量,但对音乐信号,以低比特率显示的质量不佳。
频域编码方案经常使用所谓的MDCT(MDCT=修改型离散余弦变换)。MDCT最初在J.Princen,A.Bradley的“Analysis/Synthesis FilterBank Design Based on Time Domain Aliasing Cancellation (基于时域混叠抵消的分析/合成滤波器组设计)”,IEEE Trans.ASSP,ASSP-34(5):1153-1161,1986中进行了说明。MDCT或MDCT滤波器组广泛用于近代且有效的音频编码器。这种信号处理提供下列优点:
各处理块间的平滑交叉衰减:即使各个处理块的信号有不同变化(例如由于频谱系数的量化),但由于窗口化重叠/加法操作,故不会因块之间的突然转换,造成遮蔽伪像。
临界采样:滤波器组的输出端的频谱值的数目等于其输入端的时域输入值与必须传输的额外开销值的数目。
MDCT滤波器组提供高频率选择性及编码增益。
利用时域混叠抵消技术,可实现这些重大性质。时域混叠抵消是通过对两相邻已窗口化信号进行重叠相加而在合成时进行的。如果在MDCT的分析级与合成级间未施加量化,则获得原始信号的完美重建。但该MDCT是用于特别适合音乐信号的编码方案的。如前文所述,这些频域编码方案对于语音信号在低比特率下具有较低的质量,而特别适配的语音编码器与频域编码方案相比,在相似的比特率下具有较高质量,甚至对于相同质量具有显著更低的比特率。
语音编码技术(诸如定义于“Extended Adaptive Multi-Rate-Wideband(AMR-WB+)codec(延伸的适应性多速率-宽带(AMR-WB+)编码解码器),3GPP TS 26.290 V6.3.0,2005-06,技术规范”的所谓的AMR-WB+编码解码器)并未应用MDCT,因此无法由MDCT的优异性质获得任何优势,特别地,MDCT一方面仰赖临界采样处理,而另一方面仰赖由一个块至另一个块的跨越。因此,通过MDCT所得的由一个块至另一个块的跨越就比特率而言不会有任何牺牲,因此尚未在语音编码器中获得MDCT的临界采样性质。
当将语音编码器及音频编码器组合于单一混合编码方案中时,仍然存在以下问题:如何以低比特率及高质量获得由一种编码模式至另一种编码模式的切换。
发明内容
本发明的目的是提供一种改良式编码/解码构想。
本目的是通过如权利要求1的用于编码音频信号的装置、如权利要求8的用于解码已编码音频信号的装置、如权利要求14的已编码音频信号、如权利要求15的用于编码音频信号的方法、如权利要求16的用于解码已编码音频信号的方法、或如权利要求17的计算机程序达成。
本发明的一个方面在于应用混合编码方案,其中应用特别适合某些信号并操作于一个域的第一编码模式,并且,共同使用特别适合其它信号并操作于不同域的另一编码模式。在本编码/解码构想中,由一个编码模式至另一个编码模式的临界采样切换为可能在于,在编码器端,已经由一次窗口化操作所产生的音频采样的同一个块是以不同方式处理的。特别地,音频信号的该块的混叠部的处理方式是:在将与窗口的混叠部相关的子块窗口化之后,将该子块由一个域变换至另一域;而在对相同窗口化操作所得的不同子块使用分析窗口窗口化之前,将该不同子块由一域变换至另一域。
已处理的第一子块及已处理的第二子块随后使用相同块变换规则变换成又一域,来获得该音频信号的已变换的第一块,其然后可使用众所周知的数据压缩算法(诸如量化、熵编码等)中的任一种进一步进行处理。
在解码器端,基于处理了该块的混叠部还是该块的其它另一部,以不同方式再度处理此块。混叠部是在进行合成窗口化之前被变换到目标域的,而另一部是在变换至目标域之前接受合成窗口化处理的。此外,为了获得临界采样性质,进行时域混叠抵消,其中在另一已编码的音频信号块的混叠部变换至目标域之后组合该音频数据的窗口化混叠部及该另一已编码块的窗口化混叠部,因此获得与该第一块的混叠部相对应的已解码音频信号。有鉴于此,一个窗口确实存在有两个子块/部分。一个部分/子块(混叠子块)具有混叠分量,其与在不同域中编码的第二块重叠;及第二子块/部分(另一子块)可具有或可未具有混叠分量,其与第二块或不同于第二块的一块重叠。
优选地,引入彼此相对应但在不同域中编码的某些部分的混叠可优异地用于通过以不同方式处理音频采样的同一个已窗口化块内部的混叠部及另一部,而获得由一种编码模式至另一种编码模式的临界采样切换。
此点与基于分析窗口及合成窗口的现有技术处理相反,原因在于至目前为止,通过应用分析窗口所得的完整数据块接受相同处理。但根据本发明,已窗口化块的混叠部是以与本块的另一部不同的方式处理的。
当使用特定开始/停止窗口时,另一部可包含非混叠部。另外,另一部包含与相邻窗口化处理所得的部分重叠的混叠部。然后,另一(混叠)部与在当前帧的另一(混叠)部相同的域中处理的邻近帧的混叠部重叠,而混叠部与在当前帧的混叠部不同的域中处理的邻近帧的混叠部重叠。
依据不同的实现,另一部及混叠部共同形成对音频采样的块应用窗口函数的完整结果。另一部可完全不含混叠,或可完全混叠,或可包括一混叠子部及一无混叠子部。此外,可任意选择这些子部的顺序以及混叠部和另一部的顺序。
在切换音频编码方案的较佳实施例中,输入信号的相邻分段可在两个不同域中处理。举例而言,AAC在信号域计算MDCT,而MTPC(Sean A.Ramprashad,“The Multimode Transform predictive CodingParadigm(多模式变换预测编码范例)”,IEEE Transaction on Speechand Audio Processing,第11卷,第2期,2003年3月)在LPC残留域计算MDCT。由于MDCT的使用,当重叠区具有时域混叠分量时特别成问题。事实上,由一个编码器转换至另一个编码器时,时域混叠无法抵消,原因在于它们是在两个不同域中产生的。一种解决方案是以无混叠的交叉衰减窗口化信号进行转换。然后,已切换的编码器不再经过临界采样,并产生信息的开销。实施例允许通过抵消由于操作于两个不同域所计算的时域混叠分量,而维持临界采样的优点。
在本发明的较佳实施例中,顺序提供两个开关,其中,第一开关在使用频域编码器在频谱域进行编码和在LPC域进行编码(亦即在LPC分析级的输出端处理该信号)之间进行判定。第二开关设置用于在LPC域切换,以便在LPC域对该LPC域信号(诸如使用ACELP编码器)进行编码;或在LPC频谱域对该LPC域信号进行编码,这需要用于将该LPC域信号变换至LPC频谱域的变换器,由于LPC频谱域展现出LPC已滤波信号的频谱而非时域信号的频谱,故LPC频谱域与频谱域不同。
第一开关在两个处理分支之间进行判定,此处一个分支主要是由宿(sink)模型及/或心理声学模型(亦即,通过听觉遮蔽)激励;而另一分支主要是由源(source)模型及分段SNR计算激励。举例而言,一个分支具有频谱域编码器,而另一个分支具有基于LPC的编码器(诸如语音编码器)。源模型通常为语音处理,因此通常使用LPC。
第二开关再度在两个处理分支之间进行判定,但是在与该“外部(outer)”第一分支域不同的域。再次,一个“内部(inner)”分支主要是由源模型或SNR计算激励,而另一个“内部”分支可由宿模型及/或心理声学模型(亦即,通过遮蔽或至少包括频率/频谱域编码方面)来激励。举例而言,一个“内部”分支具有频域编码器/频谱变换器,而另一个分支具有在另一域(诸如LPC域)进行编码的编码器,其中这种编码器例如是CELP或ACELP量化器/定标器,其处理输入信号而未作频谱变换。
又一较佳实施例是一种音频编码器,包含:第一信息宿导向的编码分支,诸如频谱域编码分支;第二信息源或SNR导向编码分支,诸如LPC域编码分支;及用于在该第一编码分支与该第二编码分支间切换的开关,其中,该第二编码分支包含变换器,用于变换成与时域不同的特定域,诸如LPC分析级,以产生激励信号;其中,该第二编码分支进一步包含特定域(诸如LPC域)处理分支及特定频谱域(诸如LPC频谱域)处理分支;及用于在该特定域编码分支与该特定频谱域编码分支间切换的另一开关。
本发明的又一个实施例是一种音频解码器,包含:第一域,诸如频谱域解码分支;第二域,诸如用于对第二域的信号(诸如激励信号)进行解码的LPC域解码分支;及第三域,诸如用于对第三域(诸如LPC频谱域)的信号(诸如激励信号)进行解码的LPC频谱解码器分支,其中,该第三域是通过执行从第二域的频率变换获得的,其中,设置用于第二域信号及第三域信号的第一开关,及其中,设置用于在该第一域解码器与针对第二域或第三域的解码器间切换的第二开关。
附图说明
随后将就附图来说明本发明的较佳实施例,附图中:
图1A是用于对音频信号进行编码的较佳装置或方法的示意代表图;
图1B是由MDCT-TCX转换至AAC的示意代表图;
图1C是由AAC转换至MDCT-TCX的示意代表图;
图1D是本发明的构想的较佳实施例作为流程图的示例说明;
图2是用于示例说明发生于本发明的实施例的四个不同域及其关系的示意代表图;
图3A是示例说明用于对音频信号进行解码的本发明的装置/方法的方案;
图3B是根据本发明的实施例的解码方案的进一步示例说明;
图4A示意了诸如应用于两种编码模式的MDCT的混叠变换的细节;
图4B示意了与图4A的窗口函数类似但具有混叠部及非混叠部的窗口函数;
图5是在诸如AAC-MDCT编码模式的一种编码模式中编码器及解码器的示意代表图;
图6是在AMR-WB+中的TCX编码的上下文中,在诸如LPC域的不同域应用MDCT的编码器及解码器的代表图;
图7是在AAC与AMR-WB+间转换的窗口的特定序列;
图8A是在由TCX模式切换至AAC模式的上下文中,用于编码器及解码器的较佳实施例的代表图;
图8B是用于示意由AAC转换至TCX的编码器及解码器的较佳实施例;
图9A是可应用本发明的较佳混合切换编码方案的方框图;
图9B是示例说明在图9A的控制器中执行的处理的流程图;
图10A是在混合切换编码方案中的解码器的较佳实施例;
图10B是用于示例说明在图10A的转换控制器中执行的过程的流程图;
图11A示意了其中优选地应用本发明的编码器的较佳实施例;及
图11B示意了其中优选地应用本发明的较佳解码器。
具体实施方式
图11A标示意了具有两个级联开关的本发明的一个实施例。单声信号、立体声信号、或多声道信号被输入开关200。开关200由判定级300控制。判定级接收输入模块200的信号,作为输入信号。另外,判定级300也接收辅助信息,该辅助信息被含括于该单声信号、立体声信号、或多声道信号中,或至少是与这些信号关联,此处存在有信息,而该信息例如是在最初产生该单声信号、立体声信号、或多声道信号时生成的。
判定级300激励开关200,以便将信号馈送至图11A的上分支示意出的频率编码部400,或馈送至图11A的下分支示意出的LPC域编码部500。频域编码部的关键组件是频谱变换模块411,该模块411操作用于将公共预处理级输出信号(容后详述)变换至频谱域。频谱域变换模块可包括MDCT算法、QMF、FFT算法、小波分析或滤波器组,诸如具有某个数目的滤波器组声道的经临界采样(critically sampled)的滤波器组,此处滤波器组中的子频带信号可为实值信号或复值信号。使用频谱音频编码器421对频谱变换模块411的输出进行编码,这可包括如由AAC编码方案所已知的处理模块。
通常,分支400中的处理是基于感官模型或信息宿模型的处理。如此,该分支对接收声音的人类听觉系统进行建模。相反地,分支500中的处理用于产生激励域、残留域或LPC域的信号。大致上,分支500中的处理为语音模型或信息产生模型的处理。对于语音信号,该模型为产生声音的人类语音/声音产生系统的模型。但若欲编码来自要求不同声音产生模型的不同源的声音,则分支500中的处理可不同。
对于下编码分支500,关键组件为LPC装置510,其输出用于控制LPC滤波器的特性的LPC信息。这种LPC信息被传输至解码器。LPC级510输出信号是由激励信号及/或加权信号所组成的LPC域信号。
LPC装置通常输出LPC域信号,其可为LPC域的任一信号,诸如激励信号或加权(TCX)信号,或通过将LPC滤波系数应用于音频信号所产生的任何其它信号。此外,LPC装置也可决定这些系数,还可量化/编码这些系数。
判定级的判定可以是信号适应性判定,因此判定级执行音乐/语音鉴别,且控制开关200,以使得音乐信号被输入上分支400,而语音信号被输入下分支500。在一个实施例中,判定级将其判定信息馈入输出比特流,以使得解码器可使用该判定信息来执行正确的解码操作。
这种解码器示意于图11B。由频谱音频编码器421所输出的信号在传送后被输入频谱音频解码器431。频谱音频解码器431的输出被输入时域变换器440。同理,图11A的LPC域编码分支500的输出被解码器端接收且由组件536及537处理,以获得LPC激励信号。该LPC激励信号被输入LPC合成级540,该级540接收由相对应的LPC分析级510所产生的LPC信息作为另一输入。时域变换器440的输出及/或LPC合成级540的输出被输入开关600。开关600是通过开关控制信号控制的,该开关控制信号例如是由判定级300所产生,或由外部提供,例如由原始单声信号、立体声信号或多声道信号的形成器所提供。开关600的输出是完整单声信号、立体声信号或多声道信号。
输入开关200及判定级300的输入可以是单声信号、立体声信号或多声道信号,或通称为音频信号。依据可由开关200的输入信号导出的或由任何外部源(诸如输入级200的信号隐含的原始音频信号的产生器)导出的判定,开关在频率编码分支400与LPC编码分支500间切换。频率编码分支400包含频谱变换级411及随后连接的量化/编码级421。量化/编码级包括由近代频域编码器(诸如AAC编码器)已知的任一项功能。此外,可通过心理声学模块控制量化/编码级421的量化操作,该心理声学模块产生心理声学信息,诸如频率上的心理声学遮蔽阈值,此处此项信息被输入级421。
在LPC编码分支,开关输出信号经由LPC分析级510处理而产生LPC辅助信息及LPC域信号。激励编码器包含另一开关521,该开关用于在LPC域的量化/编码操作526或处理LPC频谱域的数值的量化/编码级527间切换LPC域信号的进一步处理。为了达成此项目的,设置频谱变换器527。依据特定设定值而定,例如说明于AMR-WB+技术规范,以开环方式或闭环方式控制开关521。
针对闭环控制模式,编码器还步包括用于LPC域信号的逆量化器/编码器、用于LPC频谱域信号的逆量化器/编码器、及用于该逆量化器/编码器的输出的频谱逆变换器。第二编码分支的处理分支中的已编码且再度已解码的信号被输入开关控制装置。在该开关控制装置中,这两个输出信号彼此比较及/或与目标函数比较,或计算目标函数,该目标函数的计算可基于两个信号的失真的比较,使得具有较低失真的信号被用于判定开关521须采取哪一种位置。可选地,当两个分支提供非恒定比特率时,可选择用于提供较低比特率的分支,即使此分支的信号与噪声之比低于另一分支的信号与噪声之比。可选地,目标函数可使用各个信号的信号与噪声之比及各个信号的比特率及/或额外标准,作为输入,来找出针对特定目的的最佳判定。例如,如果目的是比特率须尽可能地低,则目标函数极其仰赖由逆量化器/编码器及频谱逆变换器输出的两个信号的比特率。但当主要目的是对某个比特率具有最佳质量时,开关控制将抛弃高于容许比特率的各信号;而当两个信号低于容许比特率时,开关控制将选择具有较佳信号与噪声之比(亦即具有较小的量化/编码失真)的信号。
如前文说明,根据本发明的解码方案示意于图11B。针对三种可能的输出信号中的每一种,存在特定解码/再量化级431、536或537。当级431输出频谱(也称作为“时频谱”(时域信号的频谱),且被使用频率/时间变换器440变换至时域)时,级536输出LPC域信号,级537接收该LPC域信号的频谱(也称作为“LPC谱”)。为了确定输入开关532的输入信号皆是LPC域的,在LPC域设置频率/时间变换器537。开关532的输出数据被使用LPC合成级540变换回时域,该LPC合成级540是经由编码器端所产生的且所传输的LPC信息而控制的。然后,在模块540之后,两个分支具有时域信息,该时域信息根据开关控制信号切换,以便最终获得音频信号,诸如单声信号、立体声信号或多声道信号,这取决于输入图11A的编码方案的信号。
因此,图11A示意了根据本发明的较佳编码方案。连接至开关200输入端的公共预处理方案包含环绕/联合立体声模块101,其产生联合立体声参数及单声输出信号,作为输出信号,该单声输出信号是通过将具有两个或多个声道的输入信号下混频而产生的。大致上,模块101的输出端的信号也可为具有多个声道的信号,但由于模块101的下混频功能,模块101的输出端的声道数目将少于输入模块101的声道的数目。
替代模块101或除了模块101之外,公共预处理方案可包含带宽延伸级102。在图11A的实施例中,模块101的输出被输入带宽延伸级102,在图11A的编码器中,带宽延伸级102在其输出端输出一带限信号,诸如低频带信号或低通信号。优选的,此信号也经过下采样(例如通过因子2的下采样)。此外,针对输入模块102的信号的高频带,产生带宽延伸参数,诸如频谱包络参数、反相滤波参数、噪声本底参数等(如由MPEG-4的HE-AAC简介所知的),且将其转发至比特流复用器800。
优选地,判定级300接收输入模块101或输入模块102的信号,以便在音乐模式或语音模式间作判定。在音乐模式中选择上编码分支400,而在语音模式选择下编码分支500。优选地,判定级还控制联合立体声模块101及/或带宽延伸模块102,来将这些模块的功能调整以适合特定信号。如此,当判定级判定输入信号的某个时间部分具有第一模式(诸如音乐模式)时,模块101及/或模块102的特定特性可由判定级300控制。可选地,当判定级300判定信号是语音模式或一般而言是第二LPC域模式时,模块101及102的特定特性将根据判定级的输出而控制。
优选地,编码分支400的频谱变换是使用MDCT操作进行的,MDCT操作又优选地为时间翘曲的MDCT操作,此处强度或一般而言为翘曲强度被控制在零翘曲强度与高翘曲强度间。在零翘曲强度中,模块411的MDCT操作是本领域已知的直接式MDCT操作。时间翘曲强度连同时间翘曲辅助信息可被传输/输入比特流复用器800,作为辅助信息。
在LPC编码分支,LPC域编码器可包括ACELP核心526,其计算音高增益、音高滞后及/或码本信息,诸如码本指数及增益。由3GPP TS26.290已知的TCX模式引起变换域的感官加权信号的处理。傅立叶已变换且已加权的信号被使用带有噪声因数量化的分割多速率格状量化(代数VQ)而量化。以1024、512、或256个采样窗口计算变换。通过反相加权滤波器对该已量化且已加权的信号进行反相滤波,恢复激励信号。
在第一编码分支400中,频谱变换器优选地包含特别调整的MDCT操作,其具有某些窗口功能、接着是量化/熵编码级,该级可包含单一向量量化级,但优选地为类似于频域编码分支中的量化器/编码器(亦即图11A的项目421)的组合式标量量化器/熵编码器。
在第二编码分支中,存在LPC模块510,接着是开关521,再度接着是ACELP模块526或TCX模块527。ACELP被描述于3GPP TS 26.190,TCX被描述于3GPP TS 26.290。通常,ACELP模块526接收LPC激励信号。TCX模块527接收加权信号。
在TCX中,变换施加至通过基于LPC的加权滤波器对输入信号进行滤波而得的已加权信号。本发明的较佳实施例使用的加权滤波器由(1-A(z/γ))/(1-μz-1)表示。如此,已加权信号为LPC域信号,其变换至LPC频谱域。由ACELP模块526处理的信号为激励信号,且与由模块527处理的信号不同,但两个信号皆在LPC域。激励信号是通过分析滤波器(1-A(z/γ))对输入信号进行滤波获得的。
在图11B的解码器端,在模块537的频谱逆变换之后,施加加权滤波器的倒数,亦即(1-μz-1)/(1-A(z/γ))。任选地,信号可额外通过(1-A(z))滤波来进入LPC激励域。如此,经由滤波,来自TCX-1模块537的信号可由加权域变换至激励域,然后用于模块536。在最后编码被选择用于下一个帧的情况下,该典型滤波是在AMR-WB+中在反相TCX(537)末端进行的,用于馈送ACELP的适应性码本。
虽然图11A的项目510示意了单一模块,但模块510也可输出不同信号,只要这些信号是在LPC域即可。模块510的实际模式(诸如激励信号模式或加权信号模式)可取决于实际切换状态。可选地,模块510可具有两个并联处理装置。如此,模块510的输出端的LPC域可表示LPC激励信号或LPC加权信号或任何其它LPC域信号。
在图11a或图11b的第二编码分支(ACELP/TCX)中,优选地在编码前通过滤波器1-0.68z-1对信号进行预加强。在图11B中的ACELP/TCX解码器处,使用滤波器1/(1-0.68z-1)对已合成的信号进行解除加强。预加强可构成LPC模块510的一部分,此处在分析与量化之前,对信号进行预加强。同理,解除加强可构成LPC合成模块LPC-1 540的一部分。
在较佳实施例中,第一开关200(参考图11A)是经由开环判定控制的,而第二开关是经由闭环判定控制的。
举例而言,可能存在下述情况:在第一处理分支,第一LPC域表示LPC激励信号;而在第二处理分支,第二LPC域表示LPC加权信号。换言之,第一LPC域信号是通过(1-A(z))滤波而变换至LPC残留域获得的;而第二LPC域信号是通过滤波器(1-A(z/γ))/(1-μz-1)而变换至LPC加权信号获得的。在较佳模式中,μ等于0.68。
图11B示意了与图11A的编码方案相对应的解码方案。图11A中由比特流复用器800产生的比特流被输入比特流解复用器900。依据例如由模式检测模块601从比特流导出的信息,解码器端开关600被控制用于将来自上分支的信号或来自下分支的信号转发至带宽延伸模块701。带宽延伸模块701接收来自比特流解复用器900的辅助信息,并基于此辅助信息及模式判定601的输出,基于由开关600输出的低频带而重建高频带。
模块701产生的全频带信号被输入联合立体声/环绕处理级702,其重建两个立体声声道或数个多声道。通常模块702将输出比输入本模块更多的声道。依据应用用途而定,输入模块702的信号甚至可以包括两个声道,诸如立体声模式,并且甚至可以包括更多个声道,只要本模块的输出具有比本模块的输入更多个声道即可。
已经显示开关200在两个分支间切换,故只有一个分支接收信号进行处理,而另一分支并未接收信号来处理。但在另一个可选实施例中,开关也可以配置在例如频域编码器421及LPC域编码器510、521、526、527之后,表示两个分支400、500并行处理相同信号。但为了不致于使比特率加倍,只有由这些编码分支400或500中的一个输出的信号被选择用于写入输出比特流。然后判定级操作,使得写入比特流的信号最小化某个代价函数,此处该代价函数可以是所产生的比特率、或所产生的感官失真、或比特率/失真的组合代价函数。因此在该模式中或在附图所示的模式中,判定级也可以在闭环模式下操作,以便确保最后只有对给定感官失真有最低比特率、或对给定比特率有最低感官失真的编码分支输出被写入该比特流。
在有二个开关的实施例中,亦即第一开关200及第二开关521,优选地,第一开关的时间分辨率低于第二开关的时间分辨率。换言之,通过开关操作而切换的输入第一开关的输入信号块大于在LPC域操作的第二开关所切换的块。举例而言,频域/LPC域开关200可切换长1024个采样的块,而第二开关521可切换各自有256个或512个采样的块。
大致上用于第一编码分支400的音频编码算法反映出音频宿情况且对其进行建模。音频信息的宿通常为人耳。人耳可被建模为频率分析器。因此,第一编码分支输出已编码的频谱信息。优选地,第一编码分支进一步包括心理声学模型,用于额外施加心理声学遮蔽阈值。在量化音频频谱值时使用这种心理声学遮蔽阈值,此处优选地进行量化以使得通过量化隐藏于心理声学遮蔽阈值下方的频谱音频值而导入量化噪声。
第二编码分支表示信息源模型,反映出音频声音的产生。因此,信息源模型包括语音模型,其由LPC分析级反映,亦即通过将时域信号变换至LPC域、且随后处理该LPC残留信号(亦即激励信号)而反映。但另一种声音源模型是表示某种乐器或任何其它声音产生器(诸如存在于实际世界的特定声音源)的声音源模型。不同声音源模型间的选择可在有数个声音源模型可用时进行,例如基于SNR计算,亦即基于计算来选出哪一个源模型最适合用于编码音频信号的某个时间部分及/或频率部分。但优选地,编码分支间的切换是在时域进行的,换言之,某个时间部分是使用一种模型编码的,而中间信号的某个不同时间部分是使用另一个编码分支编码的。
信息源模型以某些参数表示。关于语音模型,当考虑诸如AMR-WB+的现代语音编码器时,参数为LPC参数及已编码的激励参数。AMR-WB+包含ACELP编码器及TCX编码器。这种情况下,已编码激励参数可为整体增益、噪声本底、及可变长度码。
图11A的音频输入信号是存在于第一域,该域例如可为时域,但也可为任何其它域,诸如频域、LPC域、LPC频谱域或任何其它域。通常由一个域变换至另一个域是通过诸如众所周知的时间/频率变换算法或频率/时间变换算法中的任一者的变换算法进行的。
由时域到例如LPC域的另一种变换是对时域信号进行LPC滤波,结果导致LPC残留信号或激励信号。任何其它滤波操作产生已滤波信号,其在变换可用作变换算法(视情况而定)之前,对相当大量信号采样有影响。因此,使用基于LPC的加权滤波器来加权音频信号是又一种变换,其产生LPC域的信号。在时间/频率变换中,在变换前对单一频谱值的修改将对全部时域值有影响。类似地,任何时域采样的修改将对各个频域采样有影响。同理,由于LPC滤波器的长度,在LPC域情况中激励信号采样的修改将在LPC滤波之前对相当大量的采样有影响。同理,LPC变换前的采样修改将对通过此LPC变换所得的多个采样有影响,原因在于LPC滤波器特有的记忆效应。
图1A示意了用于编码音频信号10的装置的较佳实施例。该音频信号优选地被导入具有诸如图11A中400的第一编码分支的编码装置,用于在第三域对该音频信号进行编码,第三域例如可为直接(straightforward)频域。该编码器还可包含用于基于第四域来对该音频信号进行编码的第二编码分支,该第四域例如为图11A的TCX模块527所得的LPC频域。
优选地,本发明装置包含窗口化器11,用于使用具有分析窗口形状的第一分析窗口来窗口化第一域的该音频信号的第一块,该分析窗口具有如在图8A及图8B或其它图所讨论的混叠部(诸如Lk或Rk)、及如图5或其它图所示意的非混叠部(诸如Mk)。
该装置还包含处理器12,用于处理与该分析窗口的混叠部相关联的该音频信号的第一子块,通过在对第一子块窗口化之后,将该子块从第一域(诸如信号域或直接时域)变换至第二域(诸如LPC域)来获得已处理的第一子块;以及用于处理与该分析窗口的另一部相关联的该音频信号的第二子块,通过在对第二子块窗口化之前,将该第二子块从第一域(诸如直接时域)变换至第二域(诸如LPC域)来获得已处理的第二子块。本发明装置还包含变换器13,用于使用相同的块变换规则,将该已处理的第一子块及已处理的第二子块由第二域变换至第四域(诸如LPC频域)来获得已变换的第一块。然后,此已变换的第一块可在另一处理级14被进一步处理,来进行数据压缩。
优选地,进一步处理还接收与该第一块重叠的第一域的音频信号的第二块作为输入,其中第一域(诸如时域)的音频信号的第二块是使用第二分析窗口在第三域(亦即直接频域)处理的。这种第二分析窗口具有混叠部,该混叠部与第一分析窗口的混叠部相对应。第一分析窗口的混叠部及第二分析窗口的混叠部优选地与窗口化之前的原始音频信号的相同音频采样相关,这些部分经过时域混叠抵消,亦即解码器端的重叠-加法过程。
图1B示意了当进行从在第四域(例如LPC频域)编码的块变换至第三域(诸如频域)时发生的情况。在一个实施例中,第四域为MDCT-TCX域,第三域为AAC域。施加在于MDCT-TCX域编码的音频信号的窗口具有混叠部20及非混叠部21。该相同块(在图1B中称为“第一块”)可具有或可不具有又一混叠部22。对于非混叠部亦为真。其可存在或可不存在。
在另一域(诸如AAC域)编码的该音频信号的第二块包含相对应的混叠部23,视情况而定,此第二块可包括另一部,诸如非混叠部或混叠部,在图1B中指示为24。因此,图1B示意了音频信号的重叠处理,使得窗口化之前第一块的混叠部20中的音频采样与窗口化之前第二块的相对应混叠部23的音频采样相同。如此,第一块的音频采样是经由将分析窗口施加至属于音频采样流的音频信号而获得;第二块是经由将第二分析窗口施加至多个音频采样而获得,这些多个音频采样包括第二块的相对应混叠部23的采样及另一部24的采样。因此,混叠部20的音频采样为与混叠部20相关联的音频信号的第一块,音频信号的另一部21的音频采样与同该另一部21相关联的音频信号的第二子块相对应。
图1C示意了如图1B的类似情况,但是由AAC(亦即第三域)转换至MDCT-TCX域(亦即第四域)。
图1B与图1C间的差异大致上为:图1B的混叠部20包括在时间上出现在另一部21的音频采样之后的采样;而图1C中,混叠部20的音频采样在时间上是出现在另一部21的音频采样之前。
图1D示意了使用音频采样的同一个窗口化块的第一子块及第二子块中的音频采样进行的步骤的细节代表图。大致上,窗口有递增部及递减部,依据窗口形状而定,可有或无相对恒定的中部。
在第一步骤30,进行块形成操作,其中从音频采样流取得某个数目的音频采样。特定而言,块形成操作30将定义哪些音频采样属于图1B及图1C中的第一块及哪些音频采样属于第二块。
混叠部20的音频采样在步骤31a经窗口化。但重要的是,在较佳实施例中,非混叠部(亦即于第二子块)的音频采样在步骤32变换至第二域,亦即LPC域。然后,在转变第二子块的音频采样后,进行窗口化操作31b。窗口化操作31b所得的音频采样形成采样,这些采样输入至第四域的块变换操作,这在图1D中示意为项目35。
模块31a、31b的窗口化操作可包括或可未包括如就图8A、8B、9A、10A所讨论的折叠操作。优选地,窗口化操作31a、31b额外包含折叠操作。
但在模块33中,混叠部被变换至第二域(诸如LPC域)。如此,要变换至第四域(指示于34)的采样块完成,模块34组成一个数据块,该一个数据块被输入一个块变换操作,诸如时间/频率操作。因于在优选实施例中,第二域为LPC域,故步骤35的块变换操作的输出将在第四域,亦即LPC频域。由块变换35所产生的此块是已转换的第一块36,其然后首先在步骤37处理,以便应用任一种数据压缩,例如包含在AMR-WB+编码器中施加至TCX数据的数据压缩操作。当然,所有其它数据压缩操作也可在模块37进行。因此,模块37与图1A的项目14相对应,图1D的模块35与图1A图的项目13相对应,及窗口化操作相当于图1D的31b及31a,与图1A的项目11相对应,对另一部及混叠部而言不同的变换与窗口化间的顺序调度是由图1A的处理器12进行的。
图1D示意了其中另一部是由图1B或图1C的非混叠子部21及混叠子部22所组成的情况。可选地,另一部可只包括混叠部而不含非混叠部。在这种情况下,图1B及图1C的21不存在,而22将由该块的边界延伸至混叠部20的边界。总而言之,另一部/另一子块是以相同方式处理(而与完全无混叠或完全混叠或具有混叠子部或非混叠子部无关),但该处理方式与混叠子块的处理方式不同。
图2示意了在本发明的较佳实施例中发生的不同域的综论。
通常音频信号将在第一域40,例如为时域。但本发明实际上应用于将在两个不同域对音频信号进行编码时的情况,并应用于必须以比特率最佳化方式(亦即使用临界采样)进行由一个域切换至另一个域时的全部情况。
在较佳实施例中,第二域为LPC域41。由第一域变换至第二域将通过如图2指示的LPC滤波器/变换进行。
在较佳实施例中,第三域为直接频域42,这是通过众所周知的时间/频率变换的任一种方式获得的,该时间/频率变换是诸如DCT(离散余弦变换)、DST(离散正弦变换)、傅立叶变换或快速傅立叶变换或任何其它时间/频率变换。
相对应地,由第二域变换至第四域43(诸如LPC频域,或一般而言的,关于第二域41的频域)也可通过诸如DCT、DST、FT、FFT的众所周知的时间/频率变换算法中的任一者获得。
然后,将图2与图11A或图11B作比较,模块421的输出将具有第三域的信号。此外,模块526的输出将具有第二域的信号,模块527的输出将包含第四域的信号。输入开关200的其它信号(或一般而言,输入判定级300或环绕/联合立体声级101的其它信号)将在第一域,诸如时域。
图3A示意了用于对具有音频数据的已编码第一块50的编码音频信号进行解码的本发明装置的较佳实施例,此处,已编码块具有混叠部及另一部。本发明的解码器还包含处理器51,用于处理该混叠部,通过将该混叠部变换至目标域,以执行合成窗口化,来获得已窗口化混叠部52;以及用于在将另一部变换至目标域之前,执行该另一部的合成窗口化。
因此,在解码器端,属于同一个窗口的块的各部分是以不同方式处理。类似处理应用于编码器端,以允许不同域间切换的临界采样开关。
本发明解码器还包含时域混叠抵消器53,用于在已编码第二块的混叠部变换至目标域之后,组合第一块的已窗口化混叠部(亦即输入52)与音频数据的已编码第二块的已窗口化混叠部,来获得已解码音频信号55,其与第一块的混叠部相对应。已编码第二块的已窗口化混叠部经由54而输入时域混叠抵消器53。
优选地,时域混叠抵消器53被实现为重叠/加法装置,例如施加50%的重叠。这意味着,一个块的合成窗口的结果与音频数据的相邻已编码块的合成窗口处理结果重叠,此处,此重叠优选地包含该块的50%。这意味着,在前块的合成已窗口化音频数据的第二部以逐一采样方式被加至已编码音频数据的在后第二块的第一部,故最终,已解码音频数据为两个相邻块的相对应已窗口化采样之和。在其它实施例中,重叠范围可多于或少于50%。这种时域混叠抵消器的组合特征提供了由一个块至下一个块的连续交叉衰减,完全消除了出现在任何基于块的变换编码方案中的任何遮蔽伪像。由于实际上不同域的混叠部可通过本发明组合,所以获得了由一个域的块至另一个域的块的临界采样切换操作。
与进行由一个块至另一个块的硬切换的不含任何交叉衰减的开关编码器相比较,本发明的过程改良了音频质量,原因在于,硬切换无可避免地将导致块边界的遮蔽伪像,诸如可听闻的爆裂或任何其它非期望的杂音。
但与确实将去除块边界的这种非期望的尖锐杂音的非临界采样交叉衰减相比较,本发明不会因切换导致任何数据率增加。在先前技术中,当相同音频信号经由第一编码分支编码为第一块、且经由第二编码分支编码为第二块时,若在不引入混叠的情况下处理,则在二个编码分支编码的采样量将耗用比特率。但根据本发明,在块边界引入混叠。但这种混叠引入是通过采样减少而获得的,结果导致可能通过时域混叠抵消器53应用交叉衰减操作,而不会有比特率增高或非临界采样切换的损失。
在最佳实施例中,进行真正临界采样切换。但在某些情况下,也存在低效实施例,其中只引入某个量的混叠,而允许一定量的比特率开销。但由于实际上使用且组合混叠部,虽言如此,全部这些低效实施例总是优于带有交叉衰减的完全无混叠转换;或就质量方面而言优于由一个编码分支硬切换至另一个编码分支。
在该上下文中,须了解,TCX中的非混叠部仍然产生临界采样的已编码采样。添加TCX中的非混叠部不会对临界采样造损害,但是危害转换质量(较低切换)及频谱呈示质量(较低能量压缩)。有鉴于此,优选地,使TCX中的非混叠部尽可能地小或甚至接近于零,故该另一部完全混叠,而不具有不含混叠的子部。
随后将讨论图3B来示意图3A的过程的较佳实施例。
在步骤56,进行处于例如第四域的该已编码的第一块的解码器处理。这种解码器处理可为熵解码,诸如霍夫曼解码,或与图1A的模块14在编码器端的额外处理操作相对应的算术解码。在步骤57,进行如步骤57所指示的完整第一块的频率/时间变换。根据图2,步骤57的该过程获得第二域的完整第一块。现在,根据本发明,第一块的各部分以不同方式处理。特定而言,混叠部(亦即步骤57的输出的第一子块)将在使用合成窗口进行窗口化操作前变换至目标域。这由变换步骤58a及窗口化步骤59a的顺序指示。如59b指示的,第二子块(亦即无混叠子块)按原样(亦即未经图3B的项目58a的变换操作)使用合成窗口而窗口化。模块59a或59b的窗口化操作可包含或可未包含折叠(展开)操作。但优选地,窗口化操作包含折叠(展开)操作。
依据与另一部相对应的第二子块实际上是混叠子块还是非混叠子块,进行如59b指示的变换至目标域的操作,而在第二子块为非混叠子块的情况下,不进行TDAC操作/组合操作。但当第二子块为混叠子块时,在步骤59b变换至目标域的变换操作之前,进行与另一个块的相对应部的TDAC操作,亦即组合操作60b,以算出第二块的已解码音频信号。
在另一分支,亦即对于第一子块相对应的混叠部,步骤59a的窗口化操作结果被输入组合级60a。该组合级60a还接收第二块的混叠部作为输入信号,该第二块亦即已经在其它域(例如图2的实例中的AAC域)编码的块。然后,模块60a的输出组成第一子块的已解码音频信号。
比较图3A与图3B,显然组合操作60a是与图3A的模块53进行的处理相对应。此外,处理器51进行的变换操作及窗口化操作就变换操作而言是与项目58a、58b相对应,而就窗口化操作而言是与59a及59b相对应,此处图3A的处理器51进一步确保维持混叠部与另一部(亦即第二子块)的正确顺序。
在较佳实施例中,施用修改型离散余弦变换(MDCT)来获得由一个域的编码操作切换至不同的另一域的编码操作的临界采样。但也可施用所有其它变换。但因MDCT为较佳实施例,将就图4A及图4B讨论MDCT的进一步细节。
图4A示意了窗口70,其具有朝左的递增部及朝右的递减部,此处可将此窗口划分成为四部分:a、b、c、及d。由该图可知,窗口70在示出的50%重叠/加法情况下只有混叠部。特定而言,具有由零至N采样的第一部是与前一个窗口69的第二部相对应,延伸于窗口70的采样N至采样2N间的第二半个部分与窗口71的第一部重叠,窗口71在所示实施例中为窗口i+1,而窗口70为窗口i。
可见MDCT操作为折叠操作与随后变换操作及特别为接着DCT操作的级联,此处应用IV型DCT(DCT-IV)。特定而言,经由将折叠块的第一部N/2计算为-cR-d,及折叠输出的第二部N/2采样计算为a-bR,此处R为倒序,获得折叠操作。如此,折叠操作获得N个输出值,而接收2N个输入值。
也在图4A以方程式形式示意了解码器端的相对应的展开操作。
大致上,对(a,b,c,d)的MDCT操作恰好获得与如图4A指示的(-cR-d,a-bR)的DCT-IV相同的输出值。
相对应地且使用展开操作,IMDCT操作获得施加至DCT-IV逆变换的输出的展开操作的输出。
因此,经由在解码器端执行折叠操作,引入了时间混叠。然后使用需要N个输入值的DCT-IV块变换,将折叠操作结果变换至频域。
在解码器端,使用DCT-IV-1操作,将N个输入值变换回时域,这种逆变换操作的输出改变为展开操作,而获得2N个输出值,但这些输出值为混叠输出值。
为了移除已经由折叠操作引入并在展开操作之后仍然存在的混叠,需要通过图3A的时域混叠抵消器53进行重叠/加法操作。
因此,当展开操作的结果与重叠半数的先前IMDCT结果相加时,在图4A底部的方程式中,反相项抵消,而只获得例如b及d,如此恢复了原始数据。
为了对已窗口化的MDCT获得TDAC,存在有一种要求,被称作为“普林生-布拉利(Princen-Bradley)”条件,表示对于时域混叠抵消器中组合的相对应采样的窗口系数升至平方,从而针对各个采样获得一单位(1)。
图4A示意了例如对长窗口或短窗口、在AAC-MDCT中应用的窗口序列;图4B示意了不同的窗口函数,其除了混叠部之外,还具有非混叠部。
图4B示意了分析窗口函数72具有零部a1及d2、具有混叠部72a、72b并具有非混叠部72c。
延伸在c2、d1上的混叠部72b具有随后窗口73的相对应混叠部,以73b指示。相对应地,窗口73还包含非混叠部73a。将图4B与图4A比较,显然,由于窗口72有零部a1、d1或窗口73有零部c1,两个窗口获得非混叠部,并且混叠部的窗口函数比图4A更陡峭。有鉴于此,在图4B中,混叠部72a对应于Lk,非混叠部72c对应于Mk部,及混叠部72b对应于Rk。
当折叠函数施用于通过窗口72而窗口化的采样块时,获得如图4B所示的情况。延伸在前N/4个采样上的左部具有混叠。延伸在N/2个采样上的第二部不含混叠,原因在于折叠操作是应用于具有零值的窗口部分,最后N/4个采样再度具有混叠。由于折叠操作,故折叠操作的输出值数目等于N,而输入值数目为2N,但实际上,因使用窗口72进行窗口化操作,本实施例的N/2个值被设定为零。
现在将DCT IV应用于折叠操作的结果,但重要的是,由一个编码模式转换至另一个编码模式的混叠部72是以与非混叠部不同的方式处理,尽管这两个部分是属于音频采样的同一块,重要的是,这两个部分被输入图1A中由变换器30所执行的相同块变换操作。
图4B还示意了窗口72、73、74的窗口序列,此处窗口73为由确实存在有非混叠部的情况转换至只存在有混叠部的情况的转换窗口。这是由非对称地形成窗口函数形状而获得的。窗口73的右部是类似于图4A的窗口序列中窗口的右部,而左部具有非混叠部及相对应的零部(位于c1)。因此,图4B示意了当欲使用完全重叠窗口进行AAC时,由MDCT-TCX至AAC的转换;或可选地,示意了当窗口74以完全重叠方式窗口化TCX数据块时、由AAC至MDCT-TCX的转换,当并无理由由一种模式切换至另一种模式时,此乃一方面为MDCT-TCX的常规操作,另一方面为MDCT-AAC的常规操作。
因此,窗口73被称为“开始窗口”或“停止窗口”,其额外具有的较佳特性为:本窗口长度是与至少一个邻近窗口的长度相等,因此当一块被设定为具有与窗口系数相等数目,亦即图4B或图4A的实例中的2n个采样时,维持一般块格栅(raster)或帧格栅。
随后,就图5讨论编码器端及解码器端的AAC-MDCT过程。
在窗口化操作80中,应用如81示意的窗口函数。该窗口函数具有两个混叠部Lk及Rk及非混叠部Mk。因此,窗口函数81类似于图4B的窗口函数72。应用该窗口函数至相对应的多数音频采样,结果产生具有对应于Rk/Lk的混叠子块及对应于Mk的非混叠子块的音频采样的已窗口化块。
如图4B所指示的,执行以82示意的折叠操作,获得N个输出,表示Lk部、Rk部减少成具有较少数采样。
然后如结合图4A的MDCT方程式所讨论的,执行DCT IV 83。通过任何可利用的数据压缩器(诸如量化器84)或任何其它执行众所周知的AAC工具的装置,进一步处理MDCT输出。
在解码器端,执行逆处理85。然后,通过DCT-1 IV 86,执行由第三域变换至第一域。然后如图4A所讨论的,执行展开操作87。然后在模块88,执行合成窗口化操作,项目89a及89b共同执行时域混叠抵消。项目89b为应用Mk+Rk采样延迟的延迟装置,以便获得如结合图4A所讨论的重叠;加法器89执行音频信号的当前部分的组合,诸如当前窗口输出的第一部Lk与前一个窗口的最末部Rk-1的组合。如90所指示的,结果产生无混叠部Lk及Mk。须注意,Mk由一开始即为无混叠,但通过装置89a、89b的处理已经抵消了混叠部Lk中的混叠。
在较佳实施例中,AAC-MDCT也可施加以只有混叠部的窗口,如图4A所指示的,但对一种编码模式至另一种编码模式的切换,优选地,应用具有混叠部并具有非混叠部的AAC窗口。
本发明的实施例是用于在AAC与AMR-WB+[4]间切换的切换音频编码。
如图5所述,AAC使用MDCT。AAC极为适合用于音乐信号。当在先前处理中检测得到输入信号为音乐或由使用者标示为音乐时,切换编码使用AAC。
输入信号帧k是通过尺寸为Lk、Mk及Rk的三部分窗口而窗口化。在将信号变换至执行量化的频域之前,MDCT引入时域混叠分量。在加上大小Rk-1=Lk的重叠前一个窗口化信号之后,若引入了任何量化误差,则可恢复原始信号帧的头Lk+Mk采样。时域混叠被抵消。
随后,就图6讨论本发明的TCX-MDCT过程。
与图5的编码器相反,变换至第二域是由项目92执行。项目92为产生LPC残留信号或加权信号的LPC变换器,该加权信号可使用如由TCX处理已知的加权滤波器,经由对LPC残留信号进行加权而计算出。当然,该TCX信号也可使用单一滤波器计算,通过对时域信号滤波,获得TCX信号,该TCX信号是LPC域的信号或概括言而言是第二域的信号。因此,第一域/第二域变换器92在其输出端提供输入窗口化装置80的信号。除了变换器92的外,图6的编码器中的过程是类似图5的编码器中的过程。当然,在图5及图6的模块84可应用不同的数据压缩算法,当比较AAC编码工具与TCX编码工具时,这是显而易见的。
在解码器端,执行如结合图5讨论的相同步骤,但这些步骤并非对直接频域(第三域)的已编码信号执行,而是对在第四域(亦即LPC频域)所产生的已编码信号执行。
因此,图6中装置89a、89b的重叠加法过程是在第二域执行的,而非如图5所示在第一域执行的。
AMR-WB+是基于语音编码ACELP及基于变换的编码TCX。对1024个采样的各个超帧而言,AMR-WB+是用闭环判定在TCX与ACELP的17种不同的组合间作选择。使用SegSNR客观评估,根据闭环判定选出最佳者。AMR-WB+适合用于语音及语音/音乐信号。原先的TCX的DFT由MDCT置换来享有其重要性质。然后,AMR-WB+的TCX等于MPTC编码,但量化除外,量化仍然存在。当输入信号被检测或被标示为语音或语音/音乐时,由已切换的音频编码器使用修改型AMR-WB+。
TCX-MDCT并非直接对信号域执行MDCT,而是在基于LPC系数通过分析滤波器W(z)对该信号滤波后执行MDCT。滤波器被称作为加权分析滤波器,允许TCX同时白化该信号且按照符合心理声学理论的基于共振峰(formant)的曲线来对量化噪声进行整形。
图5示意的处理是对直接AAC-MDCT模式执行的,不使用图4A的完全重叠窗口切换至TCX模式或任何其它模式。但当检测到转换时,应用特定窗口,该窗口为用于转换至其它编码模式的AAC开始窗口,或为用于由其它编码模式转换至AAC模式的AAC停止窗口,如图7所示。AAC停止窗口93具有混叠部(示于93b)及非混叠部(示于93a),亦即在图中示为窗口93的水平部分。相对应地,AAC停止窗口94被示为具有混叠部94b及非混叠部94a。在AMR-WB+部中,应用类似于图4B的窗口72的窗口,此处该窗口具有混叠部72a及非混叠部72c。虽然图7示出有单一AMR-WB+窗口,可看作开始/停止窗口,但可存在多个优选具有50%重叠的窗口,因此可类似于图4A的窗口。通常AMR-WB+中的TCX不使用50%重叠。只采用小量重叠,以能够使用特有的矩形窗口,亦即0%重叠,敏捷地切换至ACELP/从ACELP切换。
但当进行转换时,如图7的左中位置所示的,应用AMR-WB+开始窗口;当判定欲执行由AMR-WB+切换至AAC时,应用AMR-WB+停止窗口。开始窗口在左侧具有混叠部,而停止窗口在右侧具有混叠部,此处这些混叠部示于72a,及此处这些混叠部与示于93b或94b的邻近AAC开始/停止窗口的混叠部相对应。
在图7的128个采样的两个重叠区进行特殊处理。为了抵消AAC的时域混叠,AMR-WB+分段的第一个帧及最后一个帧被强制变成TCX而非ACELP。这可通过在闭环判定中对SegSNR分数进行偏移来进行。此外,特别地,如图8A所示来处理TCX-MDCT的前128个采样,此处Lk=128。
如图8B所示来处理AMR-WB+的最末128个采样,此处Rk=128。
图8A示意了混叠部Rk朝非混叠部右侧的处理,用于由TCX转换至AAC;图8B示意了混叠部Lk朝非混叠部左侧的特殊处理,用于由AAC转换至TCX。该处理与图6相似,但加权操作(亦即由第一域变换至第二域)的位置不同。特定而言,图6中,变换是在窗口化之前进行;而图8B中,变换92是于窗口化80(及折叠82)之后进行,亦即以“TDA”指示的时域混叠引入操作。
再度,在解码器端,进行如图6的相当类似的处理步骤;但再度,混叠部的反相加权位置是位于窗口化88之前(及展开87之前),而在图8A以86指示的由第一域变换至第二域之后。
因此,根据本发明的较佳实施例,如图1A或图1B所指示地处理TCX的转换窗口的混叠部,而根据图6处理该窗口的非混叠部。
任何AAC-MDCT窗口的处理维持相同,除了转换时选择开始窗口或停止窗口之外。但在其它实施例中,TCX处理维持相同,AAC-MDCT窗口的混叠部与非混叠部相比较以不同方式处理。
此外,视情况而定,两个窗口(亦即AAC窗口或TCX窗口)的两个混叠部可以以与其非混叠部不同的方式处理。但在较佳实施例中,优选地AAC处理就照现在的样子进行;原因在于由图5显然易知,在重叠-加法过程之后AAC处理已经在信号域;以及针对TCX转换窗口,对非混叠部是如图6的上下文所示地处理,而对混叠部是如图8A或图8B所示地处理。
接着讨论图9A,其中图1A的处理器12示为控制器98。
图9A中具有与图11A的各项相对应的附图标记的装置具有类似的功能而不再讨论。
特别地,图9A示出的控制器98如图9B所示地进行操作。在步骤98a,检测到转换,此处此转换是由判定级300指示。然后控制器98启动而偏移开关521,使得开关521选择替代(2b)。
然后由控制器98执行步骤98b。特别地,控制器进行操作而取混叠部的数据,不将该数据直接馈至LPC 510,而在LPC滤波器510之前,将该数据直接馈至TDA模块527a,未通过LPC滤波器加权。然后由控制器98取得此数据并加权,然后在已经通过控制器98输出端的加权滤波器加权后,馈至DCT模块527b。控制器98的加权滤波器在信号分析后使用在LPC模块510计算出的LPC系数。LPC模块可馈至ACELP或TCX,此外,执行LPC分析来获得LPC系数。MDCT装置的DCT部分527b是由TDA装置527a及DCT装置527b组成。控制器98输出端的加权滤波器具有与LPC模块510的滤波器及可能存在的额外加权滤波器(诸如AMR-WB+TCX处理中的感官滤波器)相同的特性。如此,在步骤98b,照此顺序进行TDA-、LPC-、及DCT处理。
另一部分的数据馈入LPC模块510,及随后如图9A的正常信号路径所示,馈至MDCT模块527a、527b。在这种情况下,TCX加权滤波器并未明示于图9A,原因在于其属于LPC模块510。
如前述,如图8A指示,混叠部的数据在模块527a窗口化,在模块527内部产生的已窗口化数据在控制器输出端经LPC滤波,然后LPC滤波结果被应用至MDCT模块527的变换部527b。用于加权由LPC装置510所产生的LPC残留信号的TCX加权滤波器未显示在图9A中。此外,如结合图8A所讨论的,装置527a包括窗口化级80及折叠级82;装置527b包括DCT IV级83。然后DCT IV级83/527b接收处理后的混叠部及相对应处理后的另一部分,进行公共的MDCT操作,随后如图9B中步骤98d所指示地,进行模块528中的数据压缩。因此,在就图9A所讨论的有线编码器或软件控制编码器的情况下,如图9D所指示的,控制器98在不同模块510与527a、527b间进行数据调度。
在解码器端,除了图11B所指示的模块之外,设置转换控制器99,如前文说明。
转换控制器99的功能将就图10B进行讨论。
一旦如图10B的步骤99a所摘述,转换控制器99检测到转换,在数据解压缩器537a的数据解压缩后,整个帧被馈至MDCT-1级537b。此过程指示于图10B的步骤99b。然后如步骤99c所指示,在进行TDAC处理之前,混叠部被直接馈至LPC-1级。但混叠部并未接受完整“MDCT”处理,而如图8B所示,只接受由第四域至第二域的反相变换。
在图8B的DCT-1 IV级86/级537b之后,混叠部被馈至图10A的额外LPC-1级537d,确保由第二域变换至第一域,随后,在模块537c进行图8B的展开操作87及窗口化操作88。因此,在级86的DCT-1操作后,转换控制器99接收来自模块537b的数据,然后将此数据馈至LPC-1模块537d。然后本过程的输出信号被馈入模块537d来进行展开87及窗口化88。然后混叠部的窗口化结果被转发至TDAC模块440b,以便执行与AAC-MDCT块的相对应混叠部的重叠-加法操作。有鉴于此,混叠块的处理顺序为:537a中的数据解压缩,537b中的DCT-1,537d中的反相LPC及反相TCX感官加权(共同表示反相加权),537c中的TDA-1处理及然后440b中的重叠及加法。
虽言如此,当忽略与模块99连接的箭头时,帧的其余部分在540中的TDAC及反相滤波/加权之前被馈至窗口化级,如就图6所讨论且如图10A的正常信号流程图指示。
有鉴于此,步骤99c获得TDAC 440b后混叠部的已解码音频信号;步骤99d获得TDAC 537c的LPC域及模块540的反相加权后的剩余部分/另一部的已解码音频信号。
依据某些实施要求而定,本发明的实施例可以以硬件或软件实施。该实施例可使用数字存储媒体,例如软盘、DVD、CD、ROM、PROM、EPROM、EEPROM、或闪存进行,这些数字存储媒体有电可读控制信号储存于其上,与可变成计算机系统协力合作(或可协力合作)而进行各种方法。
根据本发明的若干实施例包含具有电可读控制信号的数据载体,这些控制信号可与可变成计算机系统协力合作,而执行如此处所述的方法之一。
大致上,本发明的实施例可实施为带有程序代码的计算机程序产品,当该计算机程序产品在计算机上运转时,该程序代码可操作用以执行这些方法之一。程序代码例如可储存于机器可读取载体上。
其它实施例包含储存于机器可读取载体上的用于执行此处所述方法之一的计算机程序。
换言之,因此本发明的实施例为一种计算机程序,具有一程序代码,当该计算机程序于计算机上运转时,用于执行此处所述的方法之一。
因此本发明的又一实施例为一种数据载体(或数字存储媒体或计算机可读取媒体),包含记录于其上的用于执行此处所述方法之一的计算机程序。
因此本发明的又一实施例为一种表示该计算机程序的数据流或信号序列,用于执行此处所述方法之一。该数据流或信号序列例如可配置成通过数据通信连接(例如因特网)传送。
又一实施例包含一种处理装置,例如计算机或可变成逻辑装置,其被配置成或适合执行此处所述方法之一。
又一实施例包含一种计算机,其上安装用于执行此处所述方法之一的计算机程序。
在若干实施例中,可变成逻辑装置(例如现场可编程栅极阵列)可用于执行部分或全部此处所述的方法功能。在若干实施例中,现场可编程栅极阵列可与微处理器协力合作来执行此处所述方法之一。
前文说明的实施例仅供举例说明本发明的原理。须了解,本领域技术人员显然易知前文说明的配置及细节的修改及变化。因此本发明的范围仅受随附的权利要求所限,而非受此处实施例的说明及解释表示的特定细节所限。
Claims (15)
1.一种用于编码音频信号的装置,包含:
用于使用第一分析窗口将该音频信号的第一块窗口化的窗口化器(11),该第一分析窗口具有混叠部及另一部;
处理器(12),用于通过在窗口化该音频信号的第一子块(20)之后将该音频信号的第一子块变换至与该音频信号所在的第一域不同的第二域来处理与混叠部相关联的该音频信号的第一子块,以获得已处理的第一子块;及用于通过在窗口化第二子块(21)之前将第二子块变换至所述第二域来处理与该另一部相关联的该音频信号的第二子块而获得已处理的第二子块;及
变换器(13),用于使用相同块变换规则,将该已处理的第一子块及该已处理的第二子块由所述第二域变换至第三域而获得已变换的第一块,
其中该装置被配置用于使用数据压缩算法进一步处理(14)该已变换的第一块。
2.如权利要求1所述的装置,其被配置成使用第二分析窗口(73)处理该音频信号的与第一块重叠的第二块,所述第二分析窗口具有与该第一分析窗口的混叠部相对应的混叠部。
3.如权利要求1所述的装置,其中该音频信号所在的第一域为时域;所述第二域为LPC域;与该音频信号的第一块重叠的该音频信号的第二块所编码的第四域为频域;以及该变换器(13)被配置用于进行变换的所述第三域为LPC频域,及
其中该处理器(12)包含用于由第一域变换至第二域的LPC滤波器;或其中该变换器(13)包含用于将输入数据变换至该输入数据的频域的基于傅立叶的变换算法。
4.如权利要求1所述的装置,其中用于将输入数据变换至该输入数据的频域的基于傅立叶的变换算法包括DCT、DST、FFT、或DFT。
5.如权利要求1所述的装置,其中该窗口化器(11)包含用于将输入值折叠而获得输出值的折叠函数(82),输出值的数目小于输入值的数目,其中该折叠函数将时间混叠引入输出值。
6.如权利要求5所述的装置,其中该窗口化器(11)操作用于执行窗口化来获得用于随后执行的折叠函数(82)的输入值。
7.如权利要求1所述的装置,其中该装置包含用于在频域编码音频信号的第一编码分支(400),及用于基于不同频域编码音频信号的第二编码分支(500),
其中该第二编码分支具有用于在另一频域编码该音频信号的第一子分支(527,528),及用于在另一域编码该音频信号的第二子分支(526);该装置进一步包含判定级(300),用于判定音频数据块是使用该第一编码分支还是该第二编码分支的第一子分支或第二子分支所产生的数据而呈现于输出比特流,及
其中控制器(98)被配置成用于控制判定级(300)以在进行由第一编码分支转换至第二编码分支或由第二编码分支转换至第一编码分支时判定有利于该第一子分支。
8.如权利要求1所述的装置,其中该另一部包含非混叠部及附加混叠部或与该音频信号的邻近块的相对应混叠部重叠的混叠部。
9.一种用于解码具有已编码第一音频数据块的已编码音频信号的装置,该已编码块具有混叠部及另一部,该装置包含:
处理器(51),用于通过在执行合成窗口化之前将该混叠部变换(86)至目标域,处理该混叠部,来获得已窗口化的混叠部,以及用于在执行变换(98)至该目标域之前,执行该另一部的合成窗口化;及
时域混叠抵消器(53),用于在将该音频数据的已编码第一块的混叠部变换至目标域之后,将该已窗口化混叠部与音频数据的已编码第二块的已窗口化混叠部组合,以获得与该第一块的混叠部相对应的已解码音频信号。
10.如权利要求9所述的装置,其中该处理器(51)包含用于将该混叠部由第四域变换至第二域的第一变换器;及该处理器进一步包含用于将呈现于第二域的混叠部变换至第一域的第二变换器,其中该第一变换器操作用于执行基于块的频率/时间变换算法。
11.如权利要求9所述的装置,其中该处理器(51)操作用于执行展开操作(87),以用于获得具有大于输入该展开操作(87)的输入值数目的数值数目的输出数据。
12.如权利要求9所述的装置,其中该处理器(51)操作用于执行合成窗口化操作,该合成窗口化操作与在产生该已编码音频信号时所使用的分析窗口化操作相关。
13.如权利要求9所述的装置,其中第一编码模式及第二编码模式包含熵解码级、解量化级、包含展开操作的频率-时间变换级、及合成窗口化操作,
其中该时域混叠抵消器(53)包含加法器(89a),用于将由该合成窗口化操作所得的已编码块的相对应混叠部相加,这些相对应混叠部是通过该音频信号的重叠处理(89b)获得的,及
其中在该第一编码模式中,该时域混叠抵消器(53)被配置用来将由该合成窗口化操作所得的各块部分相加而获得目标域的已解码信号,作为该加法器(89a)的输出,及
其中在该第二编码模式中,该加法器(89a)的输出由该处理器(51)处理,以执行该加法的输出变换至该目标域。
14.一种编码音频信号的方法,包含:
使用分析窗口将该音频信号的第一块窗口化(11),该分析窗口具有混叠部及另一部;
经由将该音频信号的第一子块(20)变换至与该域不同的域来处理与混叠部相关联的该音频信号的该第一子块,其中该音频信号在窗口化第一子块之后获得已处理的第一子块;
通过在窗口化第二子块(21)之前,将该第二子块变换至不同域,来处理与该另一部相关联的该音频信号的第二子块,获得已处理的第二子块;
使用相同块变换规则,将该已处理的第一子块及该已处理的第二子块由所述不同的域变换至另一域来获得已变换的第一块;及
使用数据压缩算法,进一步处理(14)该已变换的第一块。
15.一种解码具有音频数据的已编码第一块的已编码音频信号的方法,该已编码块具有混叠部及另一部,该方法包含:
通过在执行合成窗口化之前,将该混叠部变换至目标域,处理该混叠部来获得已窗口化混叠部;
在变换至该目标域之前,对该另一部进行合成窗口化;及
在该音频数据的已编码第一块的混叠部变换至目标域之后,组合该已窗口化混叠部与该音频数据的已编码第二块的已窗口化混叠部来获得时域混叠抵消,而获得与该第一块的混叠部相对应的已解码音频信号。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US7985208P | 2008-07-11 | 2008-07-11 | |
US61/079,852 | 2008-07-11 | ||
PCT/EP2009/004374 WO2010003532A1 (en) | 2008-07-11 | 2009-06-17 | Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102089812A CN102089812A (zh) | 2011-06-08 |
CN102089812B true CN102089812B (zh) | 2013-03-20 |
Family
ID=41058650
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980127114XA Active CN102089812B (zh) | 2008-07-11 | 2009-06-17 | 用以使用混叠切换方案将音频信号编码/解码的装置与方法 |
Country Status (18)
Country | Link |
---|---|
US (1) | US8862480B2 (zh) |
EP (1) | EP2301020B1 (zh) |
JP (1) | JP5551693B2 (zh) |
KR (1) | KR101250309B1 (zh) |
CN (1) | CN102089812B (zh) |
AR (1) | AR072479A1 (zh) |
AU (1) | AU2009267518B2 (zh) |
BR (1) | BRPI0910783B1 (zh) |
CA (1) | CA2730355C (zh) |
CO (1) | CO6341672A2 (zh) |
ES (1) | ES2401487T3 (zh) |
MX (1) | MX2011000373A (zh) |
MY (1) | MY152252A (zh) |
PL (1) | PL2301020T3 (zh) |
RU (1) | RU2492530C2 (zh) |
TW (1) | TWI426503B (zh) |
WO (1) | WO2010003532A1 (zh) |
ZA (1) | ZA201009259B (zh) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
MX2011000375A (es) * | 2008-07-11 | 2011-05-19 | Fraunhofer Ges Forschung | Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada. |
FR2936898A1 (fr) * | 2008-10-08 | 2010-04-09 | France Telecom | Codage a echantillonnage critique avec codeur predictif |
WO2010044593A2 (ko) | 2008-10-13 | 2010-04-22 | 한국전자통신연구원 | Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 |
KR101649376B1 (ko) * | 2008-10-13 | 2016-08-31 | 한국전자통신연구원 | Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치 |
US8457975B2 (en) | 2009-01-28 | 2013-06-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
EP3474279A1 (en) * | 2009-07-27 | 2019-04-24 | Unified Sound Systems, Inc. | Methods and apparatus for processing an audio signal |
MY163358A (en) | 2009-10-08 | 2017-09-15 | Fraunhofer-Gesellschaft Zur Förderung Der Angenwandten Forschung E V | Multi-mode audio signal decoder,multi-mode audio signal encoder,methods and computer program using a linear-prediction-coding based noise shaping |
ES2978918T3 (es) * | 2009-10-20 | 2024-09-23 | Fraunhofer Ges Zur Foerderungder Angewandten Forschung E V | Decodificador de señal de audio, procedimiento correspondiente y programa informático |
FR2956495B1 (fr) * | 2010-02-18 | 2021-08-06 | Snecma | Procede de numerisation d'un signal analogique par un convertisseur analogique-numerique de frequence de shannon determinee |
EP2375409A1 (en) * | 2010-04-09 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction |
WO2011158485A2 (ja) | 2010-06-14 | 2011-12-22 | パナソニック株式会社 | オーディオハイブリッド符号化装置およびオーディオハイブリッド復号装置 |
CN105390140B (zh) | 2010-07-02 | 2019-05-17 | 杜比国际公司 | 用于音频信号的音高增强滤波器 |
EP4372742A3 (en) * | 2010-07-08 | 2024-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Coder using forward aliasing cancellation |
EP2619758B1 (en) | 2010-10-15 | 2015-08-19 | Huawei Technologies Co., Ltd. | Audio signal transformer and inverse transformer, methods for audio signal analysis and synthesis |
MY167853A (en) | 2011-02-14 | 2018-09-26 | Fraunhofer Ges Forschung | Apparatus and method for error concealment in low-delay unified speech and audio coding (usac) |
MY164797A (en) | 2011-02-14 | 2018-01-30 | Fraunhofer Ges Zur Foederung Der Angewandten Forschung E V | Apparatus and method for processing a decoded audio signal in a spectral domain |
TWI488176B (zh) | 2011-02-14 | 2015-06-11 | Fraunhofer Ges Forschung | 音訊信號音軌脈衝位置之編碼與解碼技術 |
PT3239978T (pt) | 2011-02-14 | 2019-04-02 | Fraunhofer Ges Forschung | Codificação e descodificação de posições de pulso de faixas de um sinal de áudio |
AR085794A1 (es) | 2011-02-14 | 2013-10-30 | Fraunhofer Ges Forschung | Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral |
WO2012110481A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio codec using noise synthesis during inactive phases |
ES2725305T3 (es) | 2011-02-14 | 2019-09-23 | Fraunhofer Ges Forschung | Aparato y procedimiento para codificar una señal de audio usando una parte de anticipación alineada |
CA2827305C (en) | 2011-02-14 | 2018-02-06 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Noise generation in audio codecs |
BR112012029132B1 (pt) | 2011-02-14 | 2021-10-05 | Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V | Representação de sinal de informações utilizando transformada sobreposta |
KR101525185B1 (ko) | 2011-02-14 | 2015-06-02 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법 |
EP2772914A4 (en) | 2011-10-28 | 2015-07-15 | Panasonic Corp | DECODER FOR HYBRID SOUND SIGNALS, COORDINATORS FOR HYBRID SOUND SIGNALS, DECODING PROCEDURE FOR SOUND SIGNALS AND CODING SIGNALING PROCESSES |
US9489962B2 (en) * | 2012-05-11 | 2016-11-08 | Panasonic Corporation | Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method |
EP2665208A1 (en) | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
CN104364843B (zh) | 2012-06-14 | 2017-03-29 | 杜比国际公司 | 解码系统、重构方法和设备、编码系统、方法和设备及音频发布系统 |
KR102131810B1 (ko) | 2012-07-19 | 2020-07-08 | 돌비 인터네셔널 에이비 | 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스 |
JP6065452B2 (ja) * | 2012-08-14 | 2017-01-25 | 富士通株式会社 | データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム |
CN103915100B (zh) * | 2013-01-07 | 2019-02-15 | 中兴通讯股份有限公司 | 一种编码模式切换方法和装置、解码模式切换方法和装置 |
IL309437B2 (en) | 2013-01-08 | 2025-02-01 | Dolby Int Ab | Model-based prediction in a critical sample filter bank |
PL2959481T3 (pl) * | 2013-02-20 | 2017-10-31 | Fraunhofer Ges Forschung | Urządzenie i sposób generowania zakodowanego sygnału audio lub dekodowania zakodowanego sygnału audio przy użyciu części wielozakładkowej |
JP6146069B2 (ja) | 2013-03-18 | 2017-06-14 | 富士通株式会社 | データ埋め込み装置及び方法、データ抽出装置及び方法、並びにプログラム |
KR20250036940A (ko) | 2013-04-05 | 2025-03-14 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 향상된 스펙트럼 확장을 사용하여 양자화 잡음을 감소시키기 위한 압신 장치 및 방법 |
JP6286552B2 (ja) | 2013-08-23 | 2018-02-28 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | オーバーラップ範囲における組み合わせを用いて音声信号を処理するための装置及び方法 |
FR3013496A1 (fr) * | 2013-11-15 | 2015-05-22 | Orange | Transition d'un codage/decodage par transformee vers un codage/decodage predictif |
CN105336339B (zh) | 2014-06-03 | 2019-05-03 | 华为技术有限公司 | 一种语音频信号的处理方法和装置 |
EP2980796A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for processing an audio signal, audio decoder, and audio encoder |
EP2988300A1 (en) | 2014-08-18 | 2016-02-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Switching of sampling rates at audio processing devices |
EP3276620A1 (en) * | 2016-07-29 | 2018-01-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis |
CN107731238B (zh) | 2016-08-10 | 2021-07-16 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
US10950251B2 (en) * | 2018-03-05 | 2021-03-16 | Dts, Inc. | Coding of harmonic signals in transform-based audio codecs |
US10475456B1 (en) * | 2018-06-04 | 2019-11-12 | Qualcomm Incorporated | Smart coding mode switching in audio rate adaptation |
CA3091150A1 (en) | 2018-07-02 | 2020-01-09 | Dolby Laboratories Licensing Corporation | Methods and devices for encoding and/or decoding immersive audio signals |
EP3644313A1 (en) * | 2018-10-26 | 2020-04-29 | Fraunhofer Gesellschaft zur Förderung der Angewand | Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and time domain aliasing reduction |
WO2020164752A1 (en) * | 2019-02-13 | 2020-08-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio transmitter processor, audio receiver processor and related methods and computer programs |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1338104A (zh) * | 1999-01-28 | 2002-02-27 | 多尔拜实验特许公司 | 自适应块长编码系统的数据分帧 |
EP1278184A2 (en) * | 2001-06-26 | 2003-01-22 | Microsoft Corporation | Method for coding speech and music signals |
CN1862969A (zh) * | 2005-05-11 | 2006-11-15 | 尼禄股份公司 | 自适应块长、常数变换音频解码方法 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3943880B4 (de) | 1989-04-17 | 2008-07-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Digitales Codierverfahren |
EP0880235A1 (en) | 1996-02-08 | 1998-11-25 | Matsushita Electric Industrial Co., Ltd. | Wide band audio signal encoder, wide band audio signal decoder, wide band audio signal encoder/decoder and wide band audio signal recording medium |
DE69926821T2 (de) * | 1998-01-22 | 2007-12-06 | Deutsche Telekom Ag | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US7424434B2 (en) * | 2002-09-04 | 2008-09-09 | Microsoft Corporation | Unified lossy and lossless audio compression |
KR100467617B1 (ko) * | 2002-10-30 | 2005-01-24 | 삼성전자주식회사 | 개선된 심리 음향 모델을 이용한 디지털 오디오 부호화방법과그 장치 |
EP1580895B1 (en) * | 2002-11-21 | 2009-03-04 | Nippon Telegraph and Telephone Corporation | Digital signal processing method, processor thereof, program thereof, and recording medium containing the program |
US7876966B2 (en) * | 2003-03-11 | 2011-01-25 | Spyder Navigations L.L.C. | Switching between coding schemes |
TW594674B (en) * | 2003-03-14 | 2004-06-21 | Mediatek Inc | Encoder and a encoding method capable of detecting audio signal transient |
US8311809B2 (en) | 2003-04-17 | 2012-11-13 | Koninklijke Philips Electronics N.V. | Converting decoded sub-band signal into a stereo signal |
FI118835B (fi) * | 2004-02-23 | 2008-03-31 | Nokia Corp | Koodausmallin valinta |
AU2004319555A1 (en) * | 2004-05-17 | 2005-11-24 | Nokia Corporation | Audio encoding with different coding models |
US8423372B2 (en) * | 2004-08-26 | 2013-04-16 | Sisvel International S.A. | Processing of encoded signals |
WO2006046546A1 (ja) * | 2004-10-26 | 2006-05-04 | Matsushita Electric Industrial Co., Ltd. | 音声符号化装置および音声符号化方法 |
US7418394B2 (en) | 2005-04-28 | 2008-08-26 | Dolby Laboratories Licensing Corporation | Method and system for operating audio encoders utilizing data from overlapping audio segments |
TWI271703B (en) * | 2005-07-22 | 2007-01-21 | Pixart Imaging Inc | Audio encoder and method thereof |
US7610195B2 (en) * | 2006-06-01 | 2009-10-27 | Nokia Corporation | Decoding of predictively coded data using buffer adaptation |
US7987089B2 (en) | 2006-07-31 | 2011-07-26 | Qualcomm Incorporated | Systems and methods for modifying a zero pad region of a windowed frame of an audio signal |
DE102006051673A1 (de) * | 2006-11-02 | 2008-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale |
KR101434198B1 (ko) * | 2006-11-17 | 2014-08-26 | 삼성전자주식회사 | 신호 복호화 방법 |
KR20080053739A (ko) * | 2006-12-11 | 2008-06-16 | 삼성전자주식회사 | 적응적으로 윈도우 크기를 적용하는 부호화 장치 및 방법 |
JP5171842B2 (ja) * | 2006-12-12 | 2013-03-27 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 時間領域データストリームを表している符号化および復号化のための符号器、復号器およびその方法 |
BRPI0910511B1 (pt) * | 2008-07-11 | 2021-06-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Aparelho e método para decodificar e codificar um sinal de áudio |
CN102105930B (zh) * | 2008-07-11 | 2012-10-03 | 弗朗霍夫应用科学研究促进协会 | 用于编码采样音频信号的帧的音频编码器和解码器 |
EP2146344B1 (en) * | 2008-07-17 | 2016-07-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding/decoding scheme having a switchable bypass |
EP3764356B1 (en) * | 2009-06-23 | 2025-01-08 | VoiceAge Corporation | Forward time-domain aliasing cancellation with application in weighted or original signal domain |
WO2011158485A2 (ja) * | 2010-06-14 | 2011-12-22 | パナソニック株式会社 | オーディオハイブリッド符号化装置およびオーディオハイブリッド復号装置 |
EP4372742A3 (en) * | 2010-07-08 | 2024-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Coder using forward aliasing cancellation |
EP2619758B1 (en) * | 2010-10-15 | 2015-08-19 | Huawei Technologies Co., Ltd. | Audio signal transformer and inverse transformer, methods for audio signal analysis and synthesis |
-
2009
- 2009-06-17 BR BRPI0910783-5A patent/BRPI0910783B1/pt active IP Right Grant
- 2009-06-17 MX MX2011000373A patent/MX2011000373A/es active IP Right Grant
- 2009-06-17 CA CA2730355A patent/CA2730355C/en active Active
- 2009-06-17 KR KR1020117000636A patent/KR101250309B1/ko active Active
- 2009-06-17 MY MYPI20110039 patent/MY152252A/en unknown
- 2009-06-17 AU AU2009267518A patent/AU2009267518B2/en active Active
- 2009-06-17 ES ES09776763T patent/ES2401487T3/es active Active
- 2009-06-17 CN CN200980127114XA patent/CN102089812B/zh active Active
- 2009-06-17 JP JP2011516982A patent/JP5551693B2/ja active Active
- 2009-06-17 RU RU2011102426/08A patent/RU2492530C2/ru active
- 2009-06-17 EP EP09776763A patent/EP2301020B1/en active Active
- 2009-06-17 PL PL09776763T patent/PL2301020T3/pl unknown
- 2009-06-17 WO PCT/EP2009/004374 patent/WO2010003532A1/en active Application Filing
- 2009-06-29 TW TW098121856A patent/TWI426503B/zh active
- 2009-07-07 AR ARP090102545A patent/AR072479A1/es active IP Right Grant
-
2010
- 2010-12-23 ZA ZA2010/09259A patent/ZA201009259B/en unknown
- 2010-12-29 CO CO10164069A patent/CO6341672A2/es active IP Right Grant
-
2011
- 2011-01-11 US US13/004,351 patent/US8862480B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1338104A (zh) * | 1999-01-28 | 2002-02-27 | 多尔拜实验特许公司 | 自适应块长编码系统的数据分帧 |
EP1278184A2 (en) * | 2001-06-26 | 2003-01-22 | Microsoft Corporation | Method for coding speech and music signals |
CN1862969A (zh) * | 2005-05-11 | 2006-11-15 | 尼禄股份公司 | 自适应块长、常数变换音频解码方法 |
Also Published As
Publication number | Publication date |
---|---|
US8862480B2 (en) | 2014-10-14 |
BRPI0910783A2 (pt) | 2020-11-03 |
AR072479A1 (es) | 2010-09-01 |
KR20110040823A (ko) | 2011-04-20 |
HK1155842A1 (zh) | 2012-05-25 |
PL2301020T3 (pl) | 2013-06-28 |
CN102089812A (zh) | 2011-06-08 |
RU2011102426A (ru) | 2012-07-27 |
RU2492530C2 (ru) | 2013-09-10 |
ZA201009259B (en) | 2011-09-28 |
CO6341672A2 (es) | 2011-11-21 |
EP2301020B1 (en) | 2013-01-02 |
KR101250309B1 (ko) | 2013-04-04 |
US20110173009A1 (en) | 2011-07-14 |
MX2011000373A (es) | 2011-03-15 |
TWI426503B (zh) | 2014-02-11 |
EP2301020A1 (en) | 2011-03-30 |
AU2009267518B2 (en) | 2012-08-16 |
WO2010003532A1 (en) | 2010-01-14 |
TW201011737A (en) | 2010-03-16 |
CA2730355A1 (en) | 2010-01-14 |
BRPI0910783B1 (pt) | 2024-02-27 |
MY152252A (en) | 2014-09-15 |
JP5551693B2 (ja) | 2014-07-16 |
ES2401487T3 (es) | 2013-04-22 |
JP2011527446A (ja) | 2011-10-27 |
AU2009267518A1 (en) | 2010-01-14 |
CA2730355C (en) | 2016-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102089812B (zh) | 用以使用混叠切换方案将音频信号编码/解码的装置与方法 | |
US11823690B2 (en) | Low bitrate audio encoding/decoding scheme having cascaded switches | |
US8321210B2 (en) | Audio encoding/decoding scheme having a switchable bypass | |
TWI459379B (zh) | 用以把音訊樣本編碼和解碼之音訊編碼器與解碼器 | |
CN102089814B (zh) | 对编码的音频信号进行解码的设备和方法 | |
EP2345030A2 (en) | Multi-resolution switched audio encoding/decoding scheme | |
AU2009301358B2 (en) | Multi-resolution switched audio encoding/decoding scheme | |
HK1155842B (zh) | 用以使用混迭切換方案將音頻信號編碼/解碼的裝置與方法 | |
HK1138673B (zh) | 具有可切換式旁路的音頻編碼/解碼方案 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |