CN102089814B - 对编码的音频信号进行解码的设备和方法 - Google Patents
对编码的音频信号进行解码的设备和方法 Download PDFInfo
- Publication number
- CN102089814B CN102089814B CN2009801267055A CN200980126705A CN102089814B CN 102089814 B CN102089814 B CN 102089814B CN 2009801267055 A CN2009801267055 A CN 2009801267055A CN 200980126705 A CN200980126705 A CN 200980126705A CN 102089814 B CN102089814 B CN 102089814B
- Authority
- CN
- China
- Prior art keywords
- signal
- decoding
- frequency
- module
- bwe
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种对编码的音频信号进行解码的设备,编码的音频信号包括根据第一编码算法编码的第一部分、根据第二编码算法编码的第二部分、用于第一部分及第二部分的BWE参数及指示第一解码算法或第二解码算法的编码模式信息,设备包括第一解码器、第二解码器、BWE模块及控制器。第一解码器根据用于编码的信号的第一时间部分的第一解码算法将第一部分解码以获得第一解码的信号。第二解码器根据用于编码的信号的第二时间部分的第二解码算法将第二部分解碼以获得第二解码的信号。BWE模块具有可控制的交叉频率且使用第一解码的信号及用于第一部分的BWE参数来执行带宽扩展算法,并使用第二解码的信号及用于第二部分的带宽扩展参数来执行带宽扩展算法。控制器根据编码模式信息控制用于BWE模块的交叉频率。
Description
技术领域
本发明涉及对编码的音频信号进行解码的设备及方法、用于编码的设备、用于编码的方法及音频信号。
背景技术
在现有技术中,诸如MP3或AAC的频域编码方案是已知的。这些频域编码器基于时域/频域转换、随后的量化阶段,在阶段,使用来自心理声学模块的信息控制量化误差、及编码阶段,在阶段,使用代码表对量化的频谱系数及对应的旁侧信息进行熵编码。
另一方面,如在3GPP TS 26.290中描述的AMR-WB+极为适于语音处理的编码器。这种语音编码方案执行滤波时域信号的线性预测(LP)。这种LP滤波源于对输入时域信号的线性预测分析。然后,所产生的LP滤波器系数被编码且作为旁侧信息予以传送。过程已知为线性预测编码(LPC)。在滤波器的输出处,使用ACELP编码器的综合分析阶段对已知为激励信号的预测残差信号或预测误差信号进行编码,或可选择地使用变换编码器来编码,变换编码器使用具有交迭的傅利叶变换。在ACELP编码和被称为TCX编码的变换编码的激励编码之间的决策使用闭环或开环算法来实现。
结合了AAC编码方案与频谱带宽复制技术的高效率AAC的频域音频编码方案还可结合于联合立体声或可称为“环绕MPEG”的多声道编码工具。另一方面,诸如AMR-WB+的语音编码器还具有高频增强阶段及立体声功能。
频谱带复制(SBR)包括附加到MP3及高阶音频编码(AAC)的受欢迎的感知音频的增加的受欢迎程度的技术。SBR包括带宽扩展(BWE)的方法,在方法中,频谱的低带(基带或核心带)使用现存的编码来编码,而高带(或高带)使用较少的参数予以粗略地参数化。SBR利用低带与高带之间的相关性来预测从较低频带特征提取的高带信号。
例如,在HE-AAC或AAC+SBR中使用SBR。在SBR中可能动态地改变交叉频率(BWE起始频率)以及每帧参数组(包络)之数量的时间分辨率。AMR-WB+实施与经转换时域/频域核心编码器相结合的时域带宽扩展,特别是为语音信号提供良好的音频质量。对AMR-WB+音频质量限制性的因素是音频带宽对于核心编解码器及为系统内部取样频率之四分之一的BWE起始频率二者是共享的。尽管ACELP语音模型能够在完全带宽中极佳地模型化语音信号,但是频域音频编码器不能为某些通常的音频信号传递良好质量。因而,语音编码方案仅在低位速率下对语音信号显示了高质量,而在低位速率下对音乐信号显示了差质量。
诸如HE-AAC之频域编码方案是有利的,因为它们显示了在低位速率下音乐信号的高质量。然而,问题是在低位速率下语音信号的质量。
因而,不同类别的音频信号要求不同特性的带宽扩展工具。
发明内容
本发明的目的是提供改良的编码/解码概念。
本发明的目的由权利要求1的音频解码器、权利他要求13的音频解码方法、权利要求8的编码器、权利要求14的编码方法、权利要求15的编码信号或权利要求16的计算机程序予以实现。
本发明是基于下述发现:交叉频率或BWE起始频率是影响音频质量的参数。尽管时域(语音)编解码器通常以给定的取样速率来编码整个频率范围,但是音频带宽是对变换式编码器(例如音乐编码器)的调谐参数,随着用以编码的频谱线的总数的降低,将同时增加用于编码的每一频谱线的位数,这意味着达到质量对音频带宽的折衷。因此,在新的方法中,具有可变音频带宽的不同核心编码器与具有共享BWE模块的转换系统相结合,其中BWE模块必须考虑不同的音频带宽。
可用直接的方式来找出所有核心编码器带宽的最低带宽且用此作为BWE起始频率,但这将恶化所感知的音频质量。而且,因为在具有与BWE起始频率相比较高的带宽的时间部分中核心编码器起作用,一些频率区域将由核心编码器以及引入冗余的BWE表现两次,所以编码效率将被降低。因而,较好的解决方案是使BWE起始频率适应于所使用的核心编码器的音频带宽。
因此,根据本发明之实施例,音频编码系统将带宽扩展工具与信号相依核心编码器(例如经转换的语音/音频编码器)相结合,其中交叉频率包括可变的参数。控制不同核心编码模式之间转换的信号分类器输出还可用以转换BWE系统的诸如时间分辨率与抹去(smearing)、频谱分辨率与交叉频率的特性。
因而,本发明的一方面是用于编码的音频信号的音频解码器,编码的音频信号包括根据第一编码算法编码的第一部分,根据第二编码算法编码的第二部分,用于第一部分及第二部分的BWE参数,指示第一解码算法或第二解码算法的编码模式信息,音频解码器包括第一解码器、第二解码器、BWE模块及控制器。第一解码器根据用于编码的信号的第一时间部分的第一解码算法解码第一部分,以获得第一解码的信号。第二解码器根据用于编码的信号的第二时间部分的第二解码算法解码第二部分,以获得第二解码的信号。BWE模块具有可控制的交叉频率且使用第一解码的信号及用于第一部分的BWE参数来执行带宽扩展算法,且使用第二解码的信号及用于第二部分的带宽扩展参数来执行带宽扩展算法。控制器根据编码模式信息来控制BWE模块的交叉频率。
根据本发明的另一方面,编码音频信号的设备包括第一及第二编码器、决策模块及BWE模块。第一编码器根据第一编码算法来编码,第一编码算法具有第一频率带宽。第二编码器根据第二编码算法来编码,第二编码算法具有较第一频率带宽小的第二频率带宽。决策模块指示用于音频信号的第一部分的第一编码算法及用于音频信号的第二部分的第二编码算法,第二部分不同于第一部分。带宽扩展模块计算用于音频信号的BWE参数,其中BWE模块由决策模块控制来为不包括在音频信号的第一部分中的第一频率带宽的频带且不包括在音频信号的第二部分中的第二频率带宽的频带计算BWE参数。
与本发明的实施例相反,现有技术中的SBR仅应用于导致下面缺点的非转换音频编解码器中。可动态地施加时间分辨率以及交叉频率二者,但是诸如3GPP的规范中,通常仅对瞬间的时间分辨率进行改变(如响板)。另外,当位速率依赖调谐参数时,可在较高速率下选择较细微整体时间分辨率。没有明显的分类被执行来判定时间分辨率或控制时间分辨率的决策阈值,以及判定例如静止的、音调音乐对语音的最佳匹配的信号类型。本发明的实施例克服了这些缺点。实施例特别允许采用的交叉频率与对所使用的核心编码器的弹性选择相结合,以便编码的信号提供相对比于现有技术的编码器/解码器明显较高的感知质量。
附图说明
下面,参考附图来描述本发明的优选实施例,其中:
图1显示了本发明第一方面的用于解码的设备的方块图;
图2显示了本发明第一方面的用于编码的设备的方块图;
图3显示了详细的编码方案的方块图;
图4显示了详细的解码方案的方块图;
图5显示了本发明第二方面的编码方案的方块图;
图6显示了本发明第二方面的解码方案的示意图;
图7示出了提供短期预测信息及预测误差信号的编码器侧的LPC阶段;
图8示出了用于产生加权信号的LPC装置的又一实施例;
图9a-9b显示了包括导致音频信号的不同时间分辨率的音频/语音开关的编码器;及
图10示出了编码的音频信号的示意图。
具体实施方式
图1显示用以将编码的音频信号102解码的解码器设备100。解码的音频信号102包括根据第一编码算法编码的第一部分104a、根据第二编码算法编码的第二部分104b、第一时间部分104a及第二时间部分104b的BWE参数106及为各个时间部分指示第一解码算法或第二解码算法的编码模式信息108。用以解码的设备100包括第一解码器110a、第二解码器110b、BWE模块130及控制器140。第一解码器110a适用于根据用于编码的信号102的第一时间部分的第一解码算法来解码第一部分104a,以获得第一解码的信号114a。第二解码器110b根据用于编码的信号的第二时间部分的第二解码算法来解码第二部分104b,以获得第二解码的信号114b。BWE模块130具有调整BWE模块130的性能的可控制的交叉频率fx。BWE模块130执行带宽扩展算法,以基于第一解码的信号114a及第一部分的BWE参数106在高频率带中产生音频信号的分量,并基于第二解码的信号114b及第二部分的带宽扩展参数106在高频率带中产生音频信号的分量。控制器140根据编码模式信息108来控制BWE模块130的交叉频率fx。
BWE模块130还可包括将低频履带与高频率带的音频信号分量相结合的结合器且输出所产生的音频信号105。
例如,编码模式信息108指示编码的音频信号102的哪个时间部分由哪种编码算法编码。此信息可同时识别用于不同时间部分的解码器。此外,编码模式信息108可控制开关以在不同时间部分的不同解码器之间转换。
因此,交叉频率fx是根据所使用的解码器予以调整的可调整的参数,其可包括例如作为第一解码器110a的语音解码器及作为第二解码器110b的音频解码器。如上所述,语音解码器的交叉频率(如对于基于LPC的范例)可高于用于音频解码器(例如对于音乐)的交叉频率。因而,在另一实施例中,控制器220在时间部分之一(例如第二时间部分)内增加交叉频率fx或降低交叉频率fx,使得交叉频率可获改变而不改变解码算法。这意味着交叉频率中的改变可与所使用的解码器中的改变不相关:交叉频率可获改变而不改变所使用的解码器或反之亦然,解码器可获改变而不改变交叉频率。
BWE模块130还可包括由控制器140和/或由BWE参数106控制的开关,以便第一解码的信号114a在第一时间部分期间由BWE模块130来处理,且第二解码的信号114b在第二时间部分期间由BWE模块130来处理。此开关可由交叉频率fx中的改变或由在编码的音频信号102内的明确的位指示在各个时间部分期间所使用的编码算法来激活。
在另外的实施例中,开关在第一和第二时间部分之间从第一解码器至第二解码器转换,使得带宽扩展算法应用于第一解码的信号或应用于第二解码的信号。可选择地,带宽扩展算法应用于第一和/或第二解码的信号,且开关放置在第一解码器和/或第二解码器之后,使得略去带宽扩展信号之一。
图2显示用于编码音频信号105的设备200的方块图。用于编码的设备200包括第一编码器210a、第二编码器210b、决策模块220及带宽扩展模块(BWE模块)230。第一编码器210a根据具有第一频率带宽的第一编码算法来编码。第二编码器210b根据具有小于第一频率带宽的第二频率带宽的第二编码算法来编码。例如,第一编码器可是如LPC编码器的语音编码器,而第二编码器210b可包括音频(音乐)编码器。决策模块220指示用于音频信号105的第一部分204a的第一编码算法,且指示用于音频信号105的第二部分204b的第二编码算法,其中第二时间部分不同于第一时间部分。第一部分204a可对应于第一时间部分,且第二部分204b可对应于不同于第一时间部分的第二时间部分。
BWE模块230计算音频信号105的BWE参数106,且由决策模块220控制以对不包括在音频信号105的第一时间部分204a中的第一频率带宽的第一频带计算BWE参数106。BWE模块230进一步对不包括在音频信号150的第二时间部分204b中的第二带宽的第二频带计算BWE参数106。因此,第一(第二)频带包括在第一(第二)频率带宽之外且由交叉频率fx限制于频谱的低端的音频信号105的频率分量。因而,第一或第二带宽由决策模块220控制的可变交叉频率来定义。
此外,BWE模块230可包括由决策模块220控制的开关。决策模块220可为给定的时间部分确定较佳的编码算法且控制开关,使得在给定时间部分期间使用较佳的编码器。所修改的编码模式信息108’包括对应的开关信号。而且,BWE模块230还可包括滤波器,以在由可包括大约4kHz或5kHz的值的交叉频率fx分离的低/高频率带中获得音频信号105的分量。最后,BWE 130还可包括分析工具,以确定BWE参数106。所修改的编码模式信息108’可等效(或相等)于编码模式信息108。例如,编码模式信息108指示在编码的音频信号105的比特流中各个时间部分所使用的编码算法。
根据另外的实施例,决策模块220包括分析最初输入信号105且产生触发选择不同编码模式的控制信息108的信号分类器工具。输入信号105分析的目的是对给定的输入信号帧选择最佳的核心编码模式。信号分类器的输出还可(可选的)用以影响其它工具的性能,例如环绕MPEG、增强SBR、时间扭曲滤波器组及其它。对信号分类器工具的输入包括例如最初未修改的输入信号105,而且还可选地包括附加的实施依赖参数。信号分类器工具的输出包括控制信号108,以控制核心编解码器(例如非LP滤波频域或LP滤波时域或频域编码或其它编码算法)的选择。
根据实施例,交叉频率fx是与转换环决策相结合可调整的信号,以便使用不同的编码算法。因而,简单的开关信号可仅是在交叉频率fx中的改变(跳跃)。此外,编码模式信息108还可包括同时指示较佳编码方案(例如语音/音频/音乐)的交叉频率fx的改变。
根据另外的实施例,决策模块220分析音频信号105或第一编码器210a的第一输出或第二编码器210b的第二输出或通过解码与目标函数相关的第一编码器210a或第二编码器210b的输出信号获得的信号。可选的,决策模块220以下述方式执行语音/音乐识别:相对于音乐决策偏爱于语音决策,即使当小于第一开关的帧的50%的部分是语音且大于第一开关的帧的50%的部分是音乐,也采用语音决策。因而,决策模块220可包括分析工具,该分析工具分析音频信号以决定音频信号是否主要为语音信号或主要为音乐信号,以便基于结果,决策模块可决定哪个是将用于分析音频信号的时间部分的最佳编解码器。
图1和2没有显示编码器/解码器的许多细节。编码器/解码器之可能的详细范例显示于下面的附图中。除了图1的第一及第二解码器110a、b,还可以存在使用或不使用其它编码算法的其他解码器。以同一方式,图2的编码器200还可包括可使用附加编码算法的附加编码器。在下面,将更详细地解释具有两个编码器/解码器的范例。
图3更详细地绘示具有两个串接开关的编码器。单声道信号、立体声信号或多声道信号被输入到决策模块220并输入到图2的BWE模块230的部分的开关232。开关232由决策模块220控制。可选的,决策模块220还可接收包括于单声道信号、立体声信号或多声道信号中或至少与这一信号相关联的旁侧信息,其中信息是现有的,例如是在最初产生单声道信号、立体声信号或多声道信号时所产生的。
决策模块220启动开关232,以将信号提供给在图3的上部分支处所示的频率编码部分210b或在图3的下部分支处所示的LPC域编码部分210a。频域编码分支的重要组件是将共享预处理阶段输出信号(如稍后将讨论的)转换成频谱域中的频谱转换模块410。频谱转换模块可包括MDCT算法、QMF、FFT算法、小波分析或诸如具有一定数量的滤波器组声道的临界取样滤波器组的滤波器组,其中此滤波器组中的子带信号可以是实值信号或复值信号。频谱转换模块410的输出使用可包括已知的AAC编码方案的处理模块的频谱音频编码器421来编码。
一般地,分支210b中的处理是基于感知式模型或信息汇聚模型的处理。因而,此分支模型化接收声音的人类听觉系统。相反地,分支210a中的处理用以产生在激励、残差或LPC域中的信号。一般地,分支210a中的处理是基于语音模型或信息产生模型的处理。对于语音信号,此模型是产生声音的人类语音/声音产生系统的模型。然而,如果来自需要不同声音产生模型的不同源的声音被编码时,那么分支210a中的处理可不同。除了所显示的编码分支,另外的实施例包括附加的分支或核心编码器。例如,对于不同的源,可选地存在不同的编码器,使得来自每个源的声音可由使用较佳的编码器予以编码。
在下部编码分支210a中,重要的组件是输出用于控制LPC滤波器特性的LPC信息的LPC装置510。此LPC信息被传送至解码器。LPC模块510的输出信号是由激励信号和/或加权信号组成的LPC域信号。
LPC装置一般地输出可能是在LPC域中的任何信号的LPC域信号或由将LPC滤波器系数应用于音频信号所产生的任何其它信号。此外,LPC装置还可判定这些系数且还可量化/编码这些系数。
决策模块220中的决策可是信号自适应,以便决策模块执行音乐/语音鉴别,以将音乐信号输入上部分支210b和将语音信号输入下部分支210a的方式来控制开关232。在实施例中,决策模块220将其决策信息提供给输出比特流,使得解码器可使用此决策信息来执行正确的解码操作。例如,此决策信息可包括编码模式信息108,编码模式信息108包括有关交叉频率fx或交叉频率fx的改变的信息。
这种解码器示于图4中。频谱音频编码器421的信号输出在传送之后输入至频谱音频解码器431。频谱音频解码器431的输出输入至时域转换器440(时域转换器一般地可以是从第一至第二域的转换器)。相似地,图3的LPC域编码分支210a的输出被接收于解码器侧且由组件531、533、534及532予以处理,以获得LPC激励信号。LPC激励信号输入至LPC合成模块540,LPC合成模块540接收由对应的LPC分析模块510所产生的LPC信息作为另一输入。时域转换器440的输出和/或LPC合成模块540的输出输入至图1的BWE模块130的部分的开关132。开关132经由例如由决策模块220所产生或诸如从外部由最初单声道信号、立体声信号或多声道信号的产生器所提供的开关控制信号(诸如编码模式信息108和/或BWE参数106)来控制。
在图3中,至开关232及决策模块220的输入信号可是单声道信号、立体声信号、多声道信号或通常地为任何音频信号。依据可来源于开关232的输入信号或来源于输入至模块232的信号的最初音频信号的产生器的任何外部来源的决策,开关在频率编码分支210b与LPC编码分支210a之间转换。频率编码分支210b包括频谱转换模块410及随后相连接的量化/编码模块421。量化/编码模块可包括来自诸如ACC编码器的当代频域编码器的已知的任何功能。此外,在量化/编码模块421中的量化操作可经由产生诸如心理声学遮蔽阈值的心理声学信息的心理声学模块来予以控制,其中,此信息输入至模块421。
在LPC编码分支210a中,开关输出信号经由产生LPC旁侧信息及LPC域信号的LPC分析模块510来处理。激励编码器可包括附加开关,用于在LPC域中的量化/编码操作522或正处理LPC频谱域中的值的量化/编码模块524之间的LPC域信号进行进一步处理。为此目的,频谱转换器523提供于量化/编码模块524的输入处。开关521依据例如AMR-WB+技术规范中所描述的特定设置以开环形式或以闭环形式来控制。
对于闭环控制模式,编码器另外包括对于LPC域信号的反向量化器/编码器531、对于LPC频谱域信号的反向量化器/编码器533及对于项533的输出的反向频谱转换器534。在第二编码分支的处理分支中编码的的及解码的的信号二者输入至开关控制装置525。在开关控制装置525中,这两个输出信号予以相互比较及/或与目标函数相比较或目标函数可基于二信号中失真的比较来计算,以便使用具有较低失真的信号来决定开关521应采用哪一位置。可选择地,如果二个分支提供非固定的位速率,那么即使当此分支的失真或感知失真低于另一分支的失真或感知失真(失真的范例可以是信号对噪声比)时可选择提供较低位速率的分支。可选择地,目标函数可使用每个信号的失真及每个信号的位速率及/或附加标准作为输入以找出对特定目的的最佳决策。例如,如果目的是位速率要尽可能的低,那么目标函数将很大程度上依赖于组件531、534的二个信号输出的位速率。然而,当主要目的是具有最好质量的某一位速率,那么开关控制525可丢弃在所允许的位速率之上的各个信号,且当二个信号在所允许之位速率之下时,开关控制将选择具有较佳估计主观质量,即具有较少的量化/编码失真或较好的信号对噪声比的信号。
根据实施例的解碼方案如前所述示于图4中。对于三个可能的输出信号类型的每一类型,存在特定的解碼/再量化模块431、531或533。尽管模块431输出使用频率/时间转换器440转换为时域的频率频谱,但是模块531输出LPC域信号,且项533输出LPC频谱。为了确保至开关532的输入信号均在LPC域中,提供了LPC频谱/LPC转换器534。开关532的输出数据通过使用经由编码器侧所产生且传送的LPC信息控制的LPC合成模块540转换回时域。接着,在模块540之后,为了依据输入至图3的编码方案的信号最终获得诸如单声道信号、立体声信号或多声道信号的音频信号,二个分支具有根据开关控制信号来转换的时域信息。
图5及6显示编码器/解码器的另外的实施例,其中BWE阶段作为BWE模块130、230的部分表现共享的处理单元。
图5示出了编码方案,其中连接于开关232输入的共享预处理方案可包括产生联合立体声参数及由下混频具有二个或更多个声道的信号的单声道信号作为输出的环绕/联合立体声模块101。一般地,在模块101的输出处的信号还可以是具有多个声道的信号,但由于模块101的下混频功能,在模块101的输出处的声道数量将小于输入至模块101的声道的数量。
共享的预处理方案除了包括模块101之外,还包括带宽扩展模块230。在图5的实施例中,模块101的输出输入至在其输出处输出如低频带信号或低通信号的限带信号的带宽扩展模块230。较佳地,此信号也是(例如由二个因子)下降取样。另外,对于输入至模块230的信号的高频带,如来自MPEG-4的HE-AAC简档的已知的频谱包络参数、反向滤波参数、噪声基准参数等的带宽扩展参数106被产生且发送至比特流多路复用器800。
较佳地,为了在例如音乐模式或语音模式之间决策,决策模块220接收输入至模块101或输入至模块230的信号。在音乐模式中,上编码分支210b(图2中的第二编码器)被选择,而在语音模式中,下编码分支210a被选择。较佳地,决策模块附加地控制联合立体声模块101及/或带宽扩展模块230,以使这些模块的功能适应于特定的信号。因而,当决策模块220判定输入信号的某一时间部分对应于如音乐模式的第一模式时,那么模块101及/或模块230的特定特征可由决策模块220控制。可选择地,当决策模块220判定信号对应于语音模式或一般地在第二LPC域模式中,那么模块101及230的特定特征可根据决策模块输出来控制。决策模块220还可产生控制信息108及/或还可传送至BWE模块230且至比特流多任务器800的交叉频率fx,该交叉频率fx将被传送至解码器侧。
较佳地,编码分支210b的频谱转换使用尤较佳地为时间扭曲MDCT操作的MDCT操作来完成,其中强度或一般地扭曲强度可被控制在零与高扭曲强度之间。在零扭曲强度中,模块411中的MDCT操作是在已知的直接MDCT操作。时间扭曲强度可与时间扭曲旁侧信息一起作为旁侧信息被传送/输入至比特流多任务器800。
在LPC编码分支中,LPC域编码器可包括计算间距增益、间距滞后及/或诸如码薄索引及增益的码薄信息的ACELP核心526。已知的来自3GPPTS 26.290的TCX模式包括在变换域中感知加权信号的处理。傅利叶变换加权信号利用具有噪声因数量化得分裂多速率格点量化(代数VQ)来量化。变换在1024、512或256个样本窗口中予以计算。激励信号由经过反向加权滤波器的反向滤波经量化的加权信号而重新获得。TCX模式还可以经修改的形式予以使用,其中MDCT与扩大的交迭、缩放量化及用以将频谱线编码的算术编码器一起使用。
在“音乐”编码分支210b中,频谱转换器较佳地包括具有某些窗口函数的特别适应的MDCT操作,其之后是可由单个矢量量化模块组成的量化/熵编码器模块,但是较佳地是类似于在频域编码分支中(即图5的项421中)的量化器/编码器的组合的缩放量化器/熵编码器。
在“语音”编码分支210a中,LPC模块510之后是开关521,再之后是ACELP模块526或TCX模块527。ACELP描述于3GPP TS 26.190中且TCX描述于3GPP TS 26.290中。一般地,ACELP模块526接收由图7所描述的程序所计算出的LPC激励信号。TCX模块527接收由图8所产生的加权信号。
在图6中所说明的解码器侧,在模块537中的反向频谱变换之后,加权滤波器的反向被应用,即(1-μz-1)/(1-A(z/γ))。接着信号由(1-A(z))予以滤波以转到LPC激励域。因而,对LPC域模块534及TCX-1模块537的转换包括反向变换及接着由而滤波以从加权域转换为激励域。
虽然图3和图5中项510说明了单一模块,但是只要这些信号在LPC域中,模块510就可输出不同的信号。模块510的实际模式,诸如激励信号模式或加权信号模式,可依实际的开关状态而定。可选择地,模块510可具有二个平行的处理装置,其中一个装置相似于图7予以实施且另一装置如图8予以实施。因此,在510输出处的LPC域可表现LPC激励信号或LPC加权信号或任何其它LPC域信号。
在图5的第二编码分支(ACELP/TCX)中,信号较佳地在编码之前由滤波器1-μz-1进行预滤波。在图6中ACELP/TCX解码器处,合成的信号由滤波器1/(1-μz-1)进行去滤波。在较佳实施例中,参数μ具有值0.68。预滤波可以是LPC模块510的部分,其中信号在LPC分析及量化之前进行预滤波。类似地,去滤波可是LPC合成模块LPC-1540的部分。
图6示出了对应于图5的编码方案的解码方案。由图5的比特流多路复用器800(或输出接口)所产生的比特流输入至比特流解多路复用器900(或输入接口)。依据来源于例如经由模式检测模块601(例如图1中控制器140的部分)的比特流的信息,编码器侧开关132被控制以将来自上分支的信号或来自下分支的信号发送至带宽扩展模块701。带宽扩展模块701从比特流解多路复用器900接收旁侧信息且基于此旁侧信息及模式检测601的输出重建基于由开关132输出的低频带的高频带。控制信号108控制所使用的交叉频率fx。
由模块701所产生的全带信号输入至重建二个立体声声道或多个多声道的联合立体声/环绕处理模块702。一般地,模块702将输出比输入至模块702的声道多的声道。依据应用,至模块702的输入可包括诸如在立体声模式中的二哥声道,且只要模块702的输出具有比输入至模块702的声道多的声道,甚至可包括更多的声道。
图5中的开关232已显示在二个分支之间转换,使得仅一个分支接收需处理的信号而另一分支不接收信号进行处理。然而,在其它实施例中,开关232还可安排于例如音频编码器421及激励编码器522、523、524之后,这意味着二个分支210a、210b并行地处理相同的信号。然而,为了不使位速率加倍,仅选择将编码分支210a或210b之一的信号输出写入输出比特流。接着,决策模块将操作使得写入比特流的信号最小化某一成本函数,其中成本函数可能是所产生的位速率或所产生的感知失真或组合的速率/失真成本函数。因而,在此模式中或在等图中所说明的模式中,为了确保最终仅将编码分支输出写入对于给定的感知失真具有最低的位速率,或对于给定的位速率具有最低的感知失真的比特流中,决策模块还可在闭环模式中操作。在闭环模式中,反馈输入可来源于图3中三个量化器/缩放模块421、522及424的输出。
而且在图6的实施例中,开关132可在其它的实施例中配置于BWE模块701之后,使得带宽扩展对于二个分支并行地执行且开关选择二个带宽扩展信号之一。
在具有二个开关(即第一开关232及第二开关521)的实施中,较佳的是第一开关的时间分辨率低于第二开关的时间分辨率。所述不同的是,输入至可由开关操作来转换的第一开关的输入信号的模块大于由操作于LPC域中的第二开关521来转换的模块。作为示范,频域/LPC域开关232可转换1024个样本的长度的模块且第二开关521可转换各具有256个样本的模块。
图7示出了LPC分析模块510的更加详细的实施。音频信号输入至判定滤波器信息A(z)的滤波器判定模块83。此信息作为解码器所需的短期预测信息予以输出。短期预测信息是实际预测滤波器85需要的。在减法器86中,输入音频信号的当前样本且减去当前样本的预测的值,以便对于此样本,在线84处产生预测误差信号。
图7示出了用以计算激励信号的较佳的方式,而图8示出了用以计算加权信号的较佳的方式。相较于图7,滤波器85在γ不为1时不同。γ较佳的是小于1的值。另外,存在模块87,且μ较佳地是小于1的数字。一般地,图7、8中的组件可以如3GPP TS 26.190或3GPP TS 26.290实施。
随后,为了说明应用于此算法的修改,对分析合成CELP编码器予以讨论。此CELP编码器被详细地描述于“Speech Coding:A TutorialReview”,Andreas Spanias,Proceedings of the IEEE,Vol.82,No.10,October 1994,pages 1541-1582中。
对于特定的情况,当帧是无声及有声语音的混合时或当语音和音乐交替出现时,TCX编码可能较适于编码在LPC域中的激励。TCX编码直接地处理在频域中的激励而不用对激励的产生做任何假设。于是TCX与CELP编码相比更普通且不限于有声的或无声的激励源模型。TCX更是使用用以模型化等像语音信号之共振峰的线性预测滤波器的源滤波器模型编码。
在像AMR-WB+编码中,如AMR-WB+描述中已知的,在不同的TCX模式与ACELP之间发生选择。TCX模式是不同的,其中,快速傅利叶变换的长度对于不同的模式是不同的,最佳模式可由分析合成方法或由直接“前馈”模式而予以选择。
如对图5及6的有关讨论,共享的预处理模块100较佳地包括联合多声道(环绕/联合立体声装置)101及附加的带宽扩展模块230。相应地,解码器包括带宽扩展模块701及随后相连接的联合多声道模块702。较佳地,对于编码器,联合多声道模块101连接于带宽扩展模块230之前,且在解码器侧,带宽扩展模块701相对于信号处理方向连接于联合多声道模块702之前。然而,可选择地,共享预处理模块可包括联合多声道模块而不包括随后相连接的带宽扩展模块、或包括带宽扩展模块而不包括相连接的联合多声道模块。
图9a至9b显示了图5的编码器的简化视图,其中编码器包括开关决策单元220及立体声编码单元101。此外,编码器还包括如包络数据计算器及SBR相关模块的带宽扩展工具230。开关决策单元220提供了在音频编码器210b与语音编码器210a之间转换的开关决策信号108’。语音编码器210a可进一步分为有声及无声编码器。每个编码器可使用不同数量的样本值(例如,对于较高分辨率为1024或对于较低分辨率为256)对核心频率带中的音频信号进行编码。开关决策信号108’还提供给带宽扩展(BWE)工具230。例如,为了调整频谱包络104的数量、开启/关闭可选的瞬时检测器和调整交叉频率fx,BWE工具230将使用开关决策108’。音频信号105输入至开关决策单元220且输入至立体声编码101,使得立体声编码101可产生输入至带宽扩展单元230的样本值。依据由开关决策单元220所产生的决策108’,带宽扩展工具230将产生依次发送至音频编码器210b或语音编码器210a的频谱带复制数据。
开关决策信号108’是信号依赖且可从开关决策单元220由分析音频信号而获得,例如,使用瞬时检测器或可包括或可不包括可变阈值的其它检测器来分析音频信号。可选择地,开关决策信号108’可手动地(例如由使用者)调整或从数据流(包括于音频信号中)获得。
音频编码器210b及语音编码器210a的输出可再输入至比特流格式器800(参见图5)中。
图9b显示了在第一时间ta之前且第二时间tb之后的时段检测音频信号的开关决策信号108’的范例。在第一时间ta与第二时间tb之间,开关决策单元220对于开关决策信号108’检测到产生不同离散值的语音信号。
使用较高交叉频率fx的决策由转换决策单元220来控制。这意味着所描述的方法在SBR模块与仅单一核心编码器及可变交叉频率fx相结合的系统内也是可用的。
虽然图1至9的一些作为装置的方块图予以绘示,但这些附图同时是方法的说明,其中模块功能对应于方法步骤。
图10示出了包括第一部分104a、第二部分104b、第三部分104c及第四部分104d的编码的音频信号102的示意图。在此示意图中,编码的音频信号102是通过传送声道传送的比特流,其另外包括编码模式信息108。编码的音频信号102的各部分104可表示不同的时间部分,尽管不同的部分104可在频域以及时域中,使得编码的音频信号102可以不表示时间线。
在此实施例中,编码的音频信号102还包括识别第一部分104a所使用的编码算法的第一编码模式信息108a;识别第二部分104b所使用的编码算法的第二编码模式信息108b;识别第四部分104d所使用之编码算法的第三编码模式信息108d。第一编码模式信息108a还可识别在第一部分104a内所使用的第一交叉频率fx1,且第二编码模式信息108b还可识别在第二部分104b内所使用的第二交叉频率fx2。例如,在第一部分104a内可使用“语音”编码模式且在第二部分104b内可使用“音乐”编码模式,使得第一交叉频率fx1可高于第二交叉频率fx2。
在此示范实施例中,编码的音频信号102不包括第三部分104c的编码模式信息,这指示在第一及第三部分104a、c之间所使用的编码器及/或交叉频率fx没有改变。因而,编码模式信息108对于与前面部分相比使用不同核心编码器及/或交叉频率的部分104仅可作为标头出现。在不是发信令通知不同部分104的交叉频率的值的另外的实施例中,编码模式信息108可包括指示各个部分104所使用的核心编码器(第一或第二编码器210a、b)的单一位。
因而,在不同SBR工具之间的开关性能的信令通知可由递交为在比特流内的特定位来完成,使得此特定位可开启或关闭解码器中的特定性能。可选择地,在根据实施例具有二个核心编码器的系统中,开关的信令通知还可由分析核心编解码器来启动。在这种情况下,提交合适的SBR工具可隐含地完成,这意味着由对应的核心编码器行动所决定。
关于SBR有效载荷的比特流组件的标准描述的更多细节可在ISO/IEC 14496-3,子条款第4.5.2.8条中查到。此标准比特流的修改包括对主频率表的索引的扩展(以识别所使用的交叉频率)。例如,所使用的索引用允许交叉带频在0至15个频带的范围上可变的四个位来编码。
因此,本发明的实施例可总结如下。具有不同时间/频率特性的不同信号对带宽扩展的特性具有不同的要求。瞬时信号(例如在语音信号内)需要BWE的细微的时间分辨率且交叉频率(核心编码器的高频率边界)应尽可能高(例如4kHz或5kHz或6kHz)。特别是在有声语音中,失真的时间结构可能降低所感知的质量。音调信号需要稳定再生的频谱分量及相匹配的再生高频部分的谐波图。音调部分的稳定再生限制核心编码器的带宽,但是这不需要具有细微时间分辨率而是需要具有更细微频谱分辨率的BWE。经转换的语音/音频编码器设计中,还可能使用核心编码器决策以适应BWE的时间及频谱特性二者以及将BWE起始频率(交叉频率)适应到信号特性。因而,实施例提供带宽扩展,其中核心编码器决策就像带宽扩展特性的自适应标准。
改变的BWE起始(交叉)频率的信令可明确地由发送比特流中的附加信息(例如,作为编码模式信息108)或隐含地由从所使用的核心编码器直接地导出交叉频率fx(如果在比特流内发信令通知核心编码器)来实现。例如,对于变换编码器(例如音频/音乐编码器)的较低的BWE频率fx且对于时域(语音)编码器的较高的BWE频率fx,在这种情况下,交叉频率可在0Hz直至奈奎斯特(Nyquist)频率之间的范围中。
虽然一些方面已经以装置的上下文来描述,但是应清楚的是此方面还表示相对应的方法的描述,其中模块或装置相对应于方法步骤或方法步骤的特征。相似地,以方法步骤的上下文所描述的方面也表示对应得模块或对应得装置的项或特征的描述。
本发明的编码的音频信号可储存于数字储存介质上或可在如无线传送介质或如因特网的有线传送介质的传送介质上传送。
依据某些实施要求,本发明的实施例可在硬件中或在软件中实施。实施可使用具有储存于其上的具有电子可读控制信号的例如软磁盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存的数字储存介质来执行,数字储存介质与可编程的计算机系统相协作(或能够协作),使得各种方法予以执行。
根据发明,一些实施例包括具有电子可读控制信号的数据载体,电子可读控制信号能够与可编程的计算机系统相协作,使得在此所描述的方法之一获得执行。
一般地,本发明的实施例可作为具有程序代码的计算机程序产品予以实施,程序代码可操作,以当计算机程序产品运行于计算机上时执行方法之一。例如,程序代码可储存于机器可读载体上。
另外的实施例包括储存在机器可读载体上的计算机程序,用以执行在此所描述的方法之一,。
换句话说,发明的方法的实施例是当计算机程序运行于计算机上时,用于执行在此所描述的方法之一的程序代码的计算机程序。
因而,发明的方法的又一实施例是包括用以执行在此所描述之等方法之一的记录于其上的计算机程序的数据载体(或数字储存介质,或计算机可读介质)。
因而,发明的方法的又一实施例是表示用以执行在此所描述的方法之一的计算机程序的数据流或序列信号。数据流或序列信号可经由数据通讯连接,例如经由因特网予以传输。
另一实施例包括执行在此所描述的方法之一的处理装置,例如计算机,或可编程的逻辑装置。
另一实施例包括具有用以执行在此所描述之等方法之一的安装了计算机程序的计算机。
在一些实施例中,可编程的逻辑装置(例如现场可编程的门阵列)可用以执行在此所描述的方法的一些或所有功能。在一些实施例中,现场可编程的门阵列与微处理器相协作执行在此所描述的方法之一。一般地,方法较佳地由任何硬件装置来执行。
上面所描述的实施例仅是对本发明之原理的说明。应理解的是在此所描述的安排及细节的修改及变化对本领域技术人员是显而易见的。因而,本发明仅由权利要求限定的范围来限制而不是由实施例的描述及解释所呈现的特定细节来限制。
Claims (12)
1.一种用于对编码的音频信号(102)进行解码的设备(100),
编码的音频信号(102)包括根据第一编码算法编码的第一部分(104a)、根据第二编码算法编码的第二部分(104b)、用于第一部分(104a)及第二部分(104b)的带宽扩展模块BWE参数(106)及指示第一解码算法或第二解码算法的编码模式信息(108),包括:
第一解码器(110a),根据用于编码的信号(102)的第一时间部分的第一解码算法解码第一部分(104a),以获得第一解码的信号(114a),其中,第一解码器(110a)包括LPC编码器;
第二解码器(110b),根据用于编码的信号(102)的第二时间部分的第二解码算法解码第二部分(104b),以获得第二解码的信号(114b),其中,第二解码器(110b)包括变换式编码器;
BWE模块(130),具有可控制的交叉频率,BWE模块(130)使用第一解码的信号(114a)及用于第一部分(104a)的BWE参数(106)来执行带宽扩展算法,并使用第二解码的信号(114b)及用于第二部分(104b)的BWE参数(106)来执行带宽扩展算法,其中,BWE模块(130)对于第一解码的信号(114a)的带宽扩展使用第一交叉频率、对于第二解码的信号(114b)的带宽扩展使用第二交叉频率,其中,第一交叉频率高于第二交叉频率;及
控制器(140),根据编码模式信息(108)控制用于BWE模块(130)的交叉频率。
2.根据权利要求1所述的解码的设备(100),还包括输入接口(900),用于输入编码的音频信号(102)作为比特流。
3.根据权利要求1所述的解码的设备(100),其中,BWE模块(130)包括在第一和第二时间部分之间从第一解码器(110a)切换至第二解码器(110b)的开关(132),使得带宽扩展算法应用于第一解码的信号(114a)或应用于第二解码的信号(114b)。
4.根据权利要求3所述的解码的设备(100),其中,控制器(140)依赖于编码模式信息(108)内所指示的解码算法来控制开关(132)。
5.根据权利要求1所述的解码的设备(100),其中,控制器(140)在第一时间部分内增加交叉频率或在第二时间部分内降低交叉频率。
6.一种对音频信号(105)进行编码的设备(200),包括:
第一编码器(210a),根据第一编码算法进行编码,第一编码算法具有第一频率带宽,其中,第一编码器(210a)包括LPC编码器;
第二编码器(210b),根据第二编码算法进行编码,第二编码算法具有小于第一频率带宽的第二频率带宽,其中,第二编码器(210b)包括音频或音乐编码器;
决策模块(220),用于指示音频信号(105)的第一部分(204a)的第一编码算法、用于指示音频信号(105)的第二部分(204b)的第二编码算法,所述第二部分(204b)不同于第一部分(204a);以及
带宽扩展模块BWE(230),用于计算音频信号(105)的BWE参数(106),其中,BWE模块(230)由决策模块(220)控制,以计算不包括音频信号(105)的第一部分(204a)中的第一频率带宽的频带和不包括音频信号(105)的第二部分(204b)中的第二频率带宽的频带的BWE参数(106),
其中,第一或第二频率带宽由可变交叉频率定义,决策模块(220)输出可变交叉频率,
其中,第一频率带宽高于第二频率带宽。
7.根据权利要求6所述的编码的设备(200),还包括输出接口(800),用于输出编码的音频信号(102),编码的音频信号(102)包括根据第一编码算法编码的第一部分(104a)、根据第二编码算法编码的第二部分(104b)、用于第一部分(104a)及第二部分(104b)的BWE参数(106)、以及指示第一解码算法或第二解码算法的编码模式信息(108)。
8.根据权利要求6所述的编码的设备(200),其中,第一或第二频率带宽由可变的交叉频率来定义,其中,决策模块(220)输出可变的交叉频率。
9.根据权利要求6所述的编码的设备(200),其中,BWE模块(230)包括由决策模块(220)控制的开关(232),其中,所述开关(232)在第一与第二时间编码器(210a、210b)之间转换,使得音频信号(105)在不同的时间部分由第一或由第二编码器(210a、210b)编码。
10.根据权利要求6所述的编码的设备(200),其中,决策模块(220)分析音频信号(105)、第一编码器(210a)的第一输出、第二编码器(210b)的第二输出、由关于目标函数而解码第一编码器(210a)或第二编码器(210b)的输出信号所获得的信号。
11.一种对编码的音频信号(102)进行解码的方法,编码的音频信号(102)包括根据第一编码算法编码的第一部分(104a)、根据第二编码算法编码的第二部分(104b)、用于第一部分(104a)及第二部分(104b)的带宽扩展模块BWE参数(106)及指示第一解码算法或第二解码算法的编码模式信息(108),所述方法包括:
在编码的信号(102)的第一时间部分根据第一解码算法解码第一部分(104a),以获得第一解码的信号(114a),其中,解码第一部分的步骤包括使用LPC编码器;
在编码的信号(102)的第二时间部分根据第二解码算法解码第二部分(104b),以获得第二解码的信号(114b),其中,解码第二部分(104b)的步骤包括使用变换式编码器;
由具有可控制的交叉频率的BWE模块(130)使用第一解码的信号(114a)和第一部分(104a)的BWE参数(106)执行带宽扩展算法、并由具有可控制的交叉频率的BWE模块(130)使用第二解码的信号(114b)和第二部分(104b)的BWE参数(106)执行带宽扩展算法,其中,第一交叉频率用于第一解码的信号(114a)的带宽扩展,第二交叉频率用于第二解码的信号(114b)的带宽扩展,其中,第一交叉频率高于第二交叉频率;以及
根据编码模式信息(108)控制BWE模块(130)的交叉频率。
12.一种对音频信号(105)进行编码的方法,包括步骤:
根据第一编码算法进行编码,第一编码算法具有第一频率带宽,其中,根据第一编码算法的编码的步骤包括使用LPC编码器;
根据第二编码算法进行编码,第二编码算法具有小于第一频率带宽的第二频率带宽,其中,根据第二编码算法的编码的步骤包括使用音频或音乐编码器;
指示用于音频信号(105)的第一部分(204a)的第一编码算法和用于音频信号(105)的第二部分(204b)的第二编码算法,所述第二部分(204b)不同于第一部分(204a);以及
计算用于音频信号(105)的带宽扩展模块BWE参数(106),以便计算不包括音频信号(105)的第一部分(204a)中的第一频率带宽的频带和不包括音频信号(105)的第二部分(204b)中的第二频率带宽的频带的BWE参数(106),
其中,第一或第二频率带宽由可变交叉频率定义,
其中,第一频率带宽高于第二频率带宽。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US7984108P | 2008-07-11 | 2008-07-11 | |
US61/079,841 | 2008-07-11 | ||
US10382008P | 2008-10-08 | 2008-10-08 | |
US61/103,820 | 2008-10-08 | ||
PCT/EP2009/004522 WO2010003545A1 (en) | 2008-07-11 | 2009-06-23 | An apparatus and a method for decoding an encoded audio signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102089814A CN102089814A (zh) | 2011-06-08 |
CN102089814B true CN102089814B (zh) | 2012-11-21 |
Family
ID=40886797
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009801267055A Active CN102089814B (zh) | 2008-07-11 | 2009-06-23 | 对编码的音频信号进行解码的设备和方法 |
Country Status (19)
Country | Link |
---|---|
US (1) | US8275626B2 (zh) |
EP (2) | EP2304723B1 (zh) |
JP (1) | JP5325293B2 (zh) |
KR (1) | KR101224560B1 (zh) |
CN (1) | CN102089814B (zh) |
AR (1) | AR072481A1 (zh) |
AU (1) | AU2009267531B2 (zh) |
BR (1) | BRPI0910511B1 (zh) |
CA (1) | CA2730232C (zh) |
CO (1) | CO6341674A2 (zh) |
ES (2) | ES2439549T3 (zh) |
HK (2) | HK1154432A1 (zh) |
IL (1) | IL210414A (zh) |
MX (1) | MX2011000370A (zh) |
PL (2) | PL2304723T3 (zh) |
RU (1) | RU2483366C2 (zh) |
TW (1) | TWI435316B (zh) |
WO (1) | WO2010003545A1 (zh) |
ZA (1) | ZA201100087B (zh) |
Families Citing this family (52)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101403340B1 (ko) * | 2007-08-02 | 2014-06-09 | 삼성전자주식회사 | 변환 부호화 방법 및 장치 |
EP2198424B1 (en) * | 2007-10-15 | 2017-01-18 | LG Electronics Inc. | A method and an apparatus for processing a signal |
DE602008005250D1 (de) * | 2008-01-04 | 2011-04-14 | Dolby Sweden Ab | Audiokodierer und -dekodierer |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
MY152252A (en) * | 2008-07-11 | 2014-09-15 | Fraunhofer Ges Forschung | Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme |
US8442837B2 (en) * | 2009-12-31 | 2013-05-14 | Motorola Mobility Llc | Embedded speech and audio coding using a switchable model core |
CN103270553B (zh) | 2010-08-12 | 2015-08-12 | 弗兰霍菲尔运输应用研究公司 | 对正交镜像滤波器式音频编译码器的输出信号的重新取样 |
JP5743137B2 (ja) * | 2011-01-14 | 2015-07-01 | ソニー株式会社 | 信号処理装置および方法、並びにプログラム |
CN102610231B (zh) * | 2011-01-24 | 2013-10-09 | 华为技术有限公司 | 一种带宽扩展方法及装置 |
EP2686849A1 (en) | 2011-03-18 | 2014-01-22 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Frame element length transmission in audio coding |
RU2610293C2 (ru) * | 2012-03-29 | 2017-02-08 | Телефонактиеболагет Лм Эрикссон (Пабл) | Расширение полосы частот гармонического аудиосигнала |
GB201210373D0 (en) * | 2012-06-12 | 2012-07-25 | Meridian Audio Ltd | Doubly compatible lossless audio sandwidth extension |
EP2688066A1 (en) * | 2012-07-16 | 2014-01-22 | Thomson Licensing | Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction |
US9129600B2 (en) | 2012-09-26 | 2015-09-08 | Google Technology Holdings LLC | Method and apparatus for encoding an audio signal |
JPWO2014068817A1 (ja) * | 2012-10-31 | 2016-09-08 | 株式会社ソシオネクスト | オーディオ信号符号化装置及びオーディオ信号復号装置 |
SG10201608613QA (en) * | 2013-01-29 | 2016-12-29 | Fraunhofer Ges Forschung | Decoder For Generating A Frequency Enhanced Audio Signal, Method Of Decoding, Encoder For Generating An Encoded Signal And Method Of Encoding Using Compact Selection Side Information |
BR112015018019B1 (pt) * | 2013-01-29 | 2022-05-24 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V | Codificadores de áudio, decodificadores de áudio, sistemas e métodos utilizando uma resolução temporal elevada na proximidade temporal de iníciações ou compensações de fricativos ou africativos |
KR101766802B1 (ko) | 2013-01-29 | 2017-08-09 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 코딩 모드 스위칭 보상을 위한 개념 |
PL3067890T3 (pl) * | 2013-01-29 | 2018-06-29 | Fraunhofer Ges Forschung | Koder audio, dekoder audio, sposób dostarczania zakodowanej informacji audio, sposób dostarczania zdekodowanej informacji audio, program komputerowy i zakodowana reprezentacja, wykorzystujące adaptacyjne względem sygnału powiększanie szerokości pasma |
TWI546799B (zh) * | 2013-04-05 | 2016-08-21 | 杜比國際公司 | 音頻編碼器及解碼器 |
EP3382699B1 (en) * | 2013-04-05 | 2020-06-17 | Dolby International AB | Audio encoder and decoder for interleaved waveform coding |
EP2987166A4 (en) * | 2013-04-15 | 2016-12-21 | Nokia Technologies Oy | BESTIMMER FOR MULTI-CHANNEL AUDIOSIGNAL CODIER MODE |
US9426569B2 (en) | 2013-06-13 | 2016-08-23 | Blackberry Limited | Audio signal bandwidth to codec bandwidth analysis and response |
PL3011564T3 (pl) | 2013-06-21 | 2018-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Przelicznik czasu, dekoder sygnału audio, sposób i program komputerowy wykorzystujący kontrolę jakości |
ES2642352T3 (es) | 2013-06-21 | 2017-11-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Control de búfer de fluctuación, decodificador de audio, método y programa informático |
US9666202B2 (en) | 2013-09-10 | 2017-05-30 | Huawei Technologies Co., Ltd. | Adaptive bandwidth extension and apparatus for the same |
CN104517610B (zh) * | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
US9620134B2 (en) * | 2013-10-10 | 2017-04-11 | Qualcomm Incorporated | Gain shape estimation for improved tracking of high-band temporal characteristics |
FR3013496A1 (fr) * | 2013-11-15 | 2015-05-22 | Orange | Transition d'un codage/decodage par transformee vers un codage/decodage predictif |
US9293143B2 (en) | 2013-12-11 | 2016-03-22 | Qualcomm Incorporated | Bandwidth extension mode selection |
EP3095117B1 (en) | 2014-01-13 | 2018-08-22 | Nokia Technologies Oy | Multi-channel audio signal classifier |
KR102354331B1 (ko) * | 2014-02-24 | 2022-01-21 | 삼성전자주식회사 | 신호 분류 방법 및 장치, 및 이를 이용한 오디오 부호화방법 및 장치 |
US9685164B2 (en) * | 2014-03-31 | 2017-06-20 | Qualcomm Incorporated | Systems and methods of switching coding technologies at a device |
FR3020732A1 (fr) * | 2014-04-30 | 2015-11-06 | Orange | Correction de perte de trame perfectionnee avec information de voisement |
US9685166B2 (en) | 2014-07-26 | 2017-06-20 | Huawei Technologies Co., Ltd. | Classification between time-domain coding and frequency domain coding |
SG11201509526SA (en) * | 2014-07-28 | 2017-04-27 | Fraunhofer Ges Forschung | Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction |
EP2980797A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition |
CN106448688B (zh) | 2014-07-28 | 2019-11-05 | 华为技术有限公司 | 音频编码方法及相关装置 |
EP2980794A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder using a frequency domain processor and a time domain processor |
EP3067886A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal |
US9837089B2 (en) * | 2015-06-18 | 2017-12-05 | Qualcomm Incorporated | High-band signal generation |
US10847170B2 (en) | 2015-06-18 | 2020-11-24 | Qualcomm Incorporated | Device and method for generating a high-band signal from non-linearly processed sub-ranges |
EP3343558A4 (en) * | 2015-09-04 | 2018-07-04 | Samsung Electronics Co., Ltd. | Signal processing methods and apparatuses for enhancing sound quality |
ES2994324T3 (en) * | 2016-02-17 | 2025-01-22 | Fraunhofer Ges Forschung | Audio encoder, audio decoder and related methods for enhancing transient processing, computer program |
EP3208800A1 (en) | 2016-02-17 | 2017-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for stereo filing in multichannel coding |
US10157621B2 (en) * | 2016-03-18 | 2018-12-18 | Qualcomm Incorporated | Audio signal decoding |
GB201620317D0 (en) * | 2016-11-30 | 2017-01-11 | Microsoft Technology Licensing Llc | Audio signal processing |
US10734001B2 (en) * | 2017-10-05 | 2020-08-04 | Qualcomm Incorporated | Encoding or decoding of audio signals |
US10733318B2 (en) * | 2017-11-21 | 2020-08-04 | International Business Machines Corporation | Processing analytical queries over encrypted data using dynamical decryption |
KR102570480B1 (ko) * | 2019-01-04 | 2023-08-25 | 삼성전자주식회사 | 오디오 신호 처리 방법 및 이를 지원하는 전자 장치 |
JP7092047B2 (ja) * | 2019-01-17 | 2022-06-28 | 日本電信電話株式会社 | 符号化復号方法、復号方法、これらの装置及びプログラム |
CN111554312A (zh) * | 2020-05-15 | 2020-08-18 | 西安万像电子科技有限公司 | 控制音频编码类型的方法、装置和系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
CN1475010A (zh) * | 2000-11-15 | 2004-02-11 | ���뼼�����ɷݹ�˾ | 增强使用高频重建方法的编码系统的性能 |
CN1517993A (zh) * | 2003-01-20 | 2004-08-04 | �����ɷ� | 光盘装置 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE9903553D0 (sv) * | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
US6618701B2 (en) | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
US6978236B1 (en) | 1999-10-01 | 2005-12-20 | Coding Technologies Ab | Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching |
US6901362B1 (en) * | 2000-04-19 | 2005-05-31 | Microsoft Corporation | Audio segmentation and classification |
SE0001926D0 (sv) * | 2000-05-23 | 2000-05-23 | Lars Liljeryd | Improved spectral translation/folding in the subband domain |
US6658383B2 (en) * | 2001-06-26 | 2003-12-02 | Microsoft Corporation | Method for coding speech and music signals |
EP1423847B1 (en) * | 2001-11-29 | 2005-02-02 | Coding Technologies AB | Reconstruction of high frequency components |
JP2006502426A (ja) * | 2002-10-11 | 2006-01-19 | ノキア コーポレイション | ソース制御された可変ビットレート広帯域音声の符号化方法および装置 |
SE0301901L (sv) | 2003-06-26 | 2004-12-27 | Abb Research Ltd | Metod för att diagnostisera utrustningsstatus |
JP4767687B2 (ja) | 2003-10-07 | 2011-09-07 | パナソニック株式会社 | スペクトル包絡線符号化のための時間境界及び周波数分解能の決定方法 |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
CN100511308C (zh) | 2004-06-28 | 2009-07-08 | Abb研究有限公司 | 用于抑制冗余报警的系统和方法 |
US7676043B1 (en) * | 2005-02-28 | 2010-03-09 | Texas Instruments Incorporated | Audio bandwidth expansion |
KR100803205B1 (ko) * | 2005-07-15 | 2008-02-14 | 삼성전자주식회사 | 저비트율 오디오 신호 부호화/복호화 방법 및 장치 |
RU2008112137A (ru) * | 2005-09-30 | 2009-11-10 | Панасоник Корпорэйшн (Jp) | Устройство кодирования речи и способ кодирования речи |
KR100647336B1 (ko) * | 2005-11-08 | 2006-11-23 | 삼성전자주식회사 | 적응적 시간/주파수 기반 오디오 부호화/복호화 장치 및방법 |
US7546237B2 (en) * | 2005-12-23 | 2009-06-09 | Qnx Software Systems (Wavemakers), Inc. | Bandwidth extension of narrowband speech |
KR101366124B1 (ko) * | 2006-02-14 | 2014-02-21 | 오렌지 | 오디오 인코딩/디코딩에서의 인지 가중 장치 |
EP1852849A1 (en) * | 2006-05-05 | 2007-11-07 | Deutsche Thomson-Brandt Gmbh | Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream |
DE602006013359D1 (de) * | 2006-09-13 | 2010-05-12 | Ericsson Telefon Ab L M | Ender und empfänger |
US8417532B2 (en) * | 2006-10-18 | 2013-04-09 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Encoding an information signal |
FR2912249A1 (fr) * | 2007-02-02 | 2008-08-08 | France Telecom | Codage/decodage perfectionnes de signaux audionumeriques. |
WO2008151408A1 (en) * | 2007-06-14 | 2008-12-18 | Voiceage Corporation | Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711 |
EP2198424B1 (en) * | 2007-10-15 | 2017-01-18 | LG Electronics Inc. | A method and an apparatus for processing a signal |
KR101373004B1 (ko) | 2007-10-30 | 2014-03-26 | 삼성전자주식회사 | 고주파수 신호 부호화 및 복호화 장치 및 방법 |
WO2009081315A1 (en) * | 2007-12-18 | 2009-07-02 | Koninklijke Philips Electronics N.V. | Encoding and decoding audio or speech |
DE602008005250D1 (de) * | 2008-01-04 | 2011-04-14 | Dolby Sweden Ab | Audiokodierer und -dekodierer |
CN101965612B (zh) * | 2008-03-03 | 2012-08-29 | Lg电子株式会社 | 用于处理音频信号的方法和装置 |
CN102007534B (zh) * | 2008-03-04 | 2012-11-21 | Lg电子株式会社 | 用于处理音频信号的方法和装置 |
EP2144231A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
-
2009
- 2009-06-23 EP EP09776810A patent/EP2304723B1/en active Active
- 2009-06-23 ES ES11162255.1T patent/ES2439549T3/es active Active
- 2009-06-23 BR BRPI0910511-5A patent/BRPI0910511B1/pt active IP Right Grant
- 2009-06-23 PL PL09776810T patent/PL2304723T3/pl unknown
- 2009-06-23 PL PL11162255T patent/PL2352147T3/pl unknown
- 2009-06-23 AU AU2009267531A patent/AU2009267531B2/en active Active
- 2009-06-23 CN CN2009801267055A patent/CN102089814B/zh active Active
- 2009-06-23 CA CA2730232A patent/CA2730232C/en active Active
- 2009-06-23 JP JP2011516987A patent/JP5325293B2/ja active Active
- 2009-06-23 EP EP11162255.1A patent/EP2352147B9/en active Active
- 2009-06-23 KR KR1020117000699A patent/KR101224560B1/ko active IP Right Grant
- 2009-06-23 RU RU2011104000/08A patent/RU2483366C2/ru active
- 2009-06-23 ES ES09776810T patent/ES2396927T3/es active Active
- 2009-06-23 MX MX2011000370A patent/MX2011000370A/es active IP Right Grant
- 2009-06-23 WO PCT/EP2009/004522 patent/WO2010003545A1/en active Application Filing
- 2009-07-03 TW TW098122550A patent/TWI435316B/zh active
- 2009-07-07 AR ARP090102547A patent/AR072481A1/es active IP Right Grant
-
2010
- 2010-12-30 IL IL210414A patent/IL210414A/en active IP Right Grant
-
2011
- 2011-01-04 ZA ZA2011/00087A patent/ZA201100087B/en unknown
- 2011-01-07 CO CO11001549A patent/CO6341674A2/es active IP Right Grant
- 2011-01-11 US US13/004,272 patent/US8275626B2/en active Active
- 2011-08-15 HK HK11108519.2A patent/HK1154432A1/xx unknown
- 2011-09-29 HK HK11110283.2A patent/HK1156433A1/xx unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6134518A (en) * | 1997-03-04 | 2000-10-17 | International Business Machines Corporation | Digital audio signal coding using a CELP coder and a transform coder |
CN1475010A (zh) * | 2000-11-15 | 2004-02-11 | ���뼼�����ɷݹ�˾ | 增强使用高频重建方法的编码系统的性能 |
CN1517993A (zh) * | 2003-01-20 | 2004-08-04 | �����ɷ� | 光盘装置 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102089814B (zh) | 对编码的音频信号进行解码的设备和方法 | |
US20250061903A1 (en) | Low bitrate audio encoding/decoding scheme having cascaded switches | |
US8959017B2 (en) | Audio encoding/decoding scheme having a switchable bypass |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |