CN102177545A

CN102177545A - 用以产生合成音频信号及将音频信号编码的装置与方法

Info

Publication number: CN102177545A
Application number: CN2010800028666A
Authority: CN
Inventors: 福雷德里克·纳格尔; 马库斯·穆赖特鲁斯; 耶雷米·勒科米特; 斯特凡·拜尔; 纪尧姆·福奇斯; 约翰内斯·希尔珀特; 朱利安·罗比利亚德
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2009-04-09
Filing date: 2010-04-01
Publication date: 2011-09-07
Anticipated expiration: 2030-04-01
Also published as: BR122021012290A2; KR101207120B1; MX2010012343A; CA2734973A1; CN102177545B; JP5165106B2; TWI416507B; AR076237A1; CO6311123A2; PL2351025T3; EP2269189A1; BRPI1003636A2; ES2396686T3; HK1159842A1; CN102027537A; AU2010233858B9; CA2734973C; BR122021012145A2; TW201044379A; KR20110005865A

Abstract

一种使用一修补控制信号产生一合成音频信号的装置包含一第一转换器、一频域修补发生器、一高频重建操控器及一组合器。该第一转换器被配置用于将一音频信号的一时间部分转换为一频谱表示。该频域修补发生器被配置用于执行多个不同频域修补算法，其中每一修补算法产生一修改的频谱表示，该修改的频谱表示包含自该音频信号的一核心频带中相对应的频谱成分被获得的一在上频带的频谱成分。该频域修补发生器进一步被配置用于依据该修补控制信号针对一第一时间部分自该多个修补算法选择一第一频域修补算法及针对一第二不同时间部分自该多个修补算法选择一第二频域修补算法来获得该修改的频谱表示。该高频重建操控器被配置用于依据一频带复制参数操控该修改的频谱表示或一自该修改的频谱表示而获得的信号来获得一频宽延伸信号。最后，该组合器被配置用于将在该核心频带中具有频谱成分的该音频信号或一自该音频信号获得的信号与该频宽延伸信号相组合来获得该合成音频信号。

Description

用以产生合成音频信号及将音频信号编码的装置与方法

技术领域

本发明是有关于音频信号处理，及特别地，有关于用以产生一合成音频信号的一装置及一方法、用以编码一音频信号的一装置及一方法及一编码的音频信号。

背景技术

储存及传输音频信号经常受到严格的比特率限制。这些限制通常通过信号的一中间编码来解决。过去，当仅一极低比特率可利用时，编码器被迫急剧减少所传输的音频带宽。现代的音频编译码器通过使用频宽延伸方法能够编码宽带信号，如在M.Dietz，L.Liljeryd，K.and O.Kunz，“Spectral Band Replication，a novel approach in audio coding”in 112^th AESConvention，Munich，May 2002；S.Meltzer，R.

and F.Henn，“SBRenhanced audio codecs for digital broadcasting such as“Digital RadioMondiale”(DRM)，”in 112^th AES Convention，Munich，May 2002；T.Ziegler，A.Ehret，P.Ekstrand and M.Lutzky，“Enhancing mp3 with SBR：Features andCapabilities of the new mp3PRO Algorithm，”in 112^th AES Convention，Munich，May 2002；International Standard ISO/IEC 14496-3：2001/FPDAM 1，“Bandwidth Extension，”ISO/IEC，2002.Speech bandwidth extension methodand apparatus Vasu Iyengar et al.US Patent 5,455,888；E.Larsen，R.M.Aarts，and M.Danessis.Efficient high-frequency bandwidth extension of music andspeech.In AES 112^th Convention，Munich，Germany，May 2002；R.M.Aarts，E.Larsen，and O.Ouweltjes.A unified approach to low-and high frequencybandwidth extension.In AES 115^th Convention，New York，USA，October2003；K.

A Robust Wideband Enhancement for Narrowband SpeechSignal.Research Report，Helsinki University of Technology，Laboratory ofAcoustics and Audio Signal Processing，2001；E.Larsen and R.M.Aarts.Audio Bandwidth Extension-Application to psychoacoustics，SignalProcessing and Loudspeaker Design.John Wiley & Sons，Ltd，2004；E.Larsen，R.M.Aarts，and M.Danessis.Efficient high-frequency bandwidth extension ofmusic and speech.In AES 112^th Convention，Munich，Germany，May 2002；J.Makhoul.Spectral Analysis of Speech by Linear Prediction.IEEE Transactionsof Audio and Electroacoustics，AU-21(3)，June 1973；United States PatentApplication 08/951,029，Ohmori，et al.Audio band width extending systemand method；United States Patent 6895375，Malah，D & Cox，R.V.：System forbandwidth extension of Narrow-band speech，and Frederik Nagel，SaschaDisch，“A harmonic bandwidth extension method for audio codecs，”ICASSPInternational Conference on Acoustics，Speech and Signal Processing，IEEECNF，Taipei，Taiwan，April 2009中所述。

这些算法依靠对高频内容(HF)的一参数表示。此表示是通过将译码信号的低频部分(LF)变换至HF频谱区域(“修补”)并应用一推动后处理的参数而产生。

在现有技术中，频宽延伸方法，诸如频带复制(SBR)被用作一在一基于HFR(高频重建)的编译码器中产生高频信号的有效方法。

频带复制(SBR)，如M Dietz，L.Liljeryd，K.

and O.Kunz，“Spectral Band Replication，a novel approach in audio coding”in 112^th AESConvention，Munich，May 2002中所述，使用一正交镜像滤波器组(QMF)来产生HF信息。利用所谓的“修补”，较低QMF频带信号被复制至较高QMF频带中，造成LF部分信息复制到HF部分中。产生的HF部分在调整频谱包络及音调的参数的帮助下之后适于原始HF部分。

如在HE-AAC中标准化的，SBR中包括通过简单复制而修补的所有操作始终在QMF域中完成。然而，其它不同的修补方法可在不同域中完成，诸如FFT域或时域。人们可设想使SBR能够可选替地选择一在FFT域或时域中操作的修补算法，并需要一额外的转换来反馈QMF分析步骤。

在普通SBR中，仅可得一不计入硬件或软件需求也不计入信号特性的修补算法。因此，SBR不能够适于修补算法。人们可能设想在两不同修补算法之间简单选择。因为两修补算法运行于不同域中，过渡区域易于产生区块伪像，这使得在两方法之间密集切换实际上不可能。

WO 98/57436揭露了用于频带复制中的变换方法，其与频谱包络调整组合。

WO 02/052545教导的是，信号可被分类为脉冲串样(pulse-train-like)或非脉冲串样(non-pulse-train-like)且基于此分类的一适应性切换变换器被提出。该切换变换器并行执行两修补算法及混合单元依赖该分类(脉冲串或非脉冲串)来组合这两修补信号。变换器之间的实际切换或混合响应于包络及控制数据在一包络调整滤波器组中执行。再者，对于脉冲串样信号，基础信号被转换到一滤波器组域中，一完成的频率转译操作及对频率转译结果的一包络调整被执行。这是一组合的修补/进一步处理程序。对于非脉冲样信号，一频域变换器(FD变换器)被提供及频域变换器的结果接着被转换到滤波器组域中，其中包络调整被执行。因此，在一选替中具有一组合的修补/进一步处理方法、在另一选替中具有位于内部发生包络调整的滤波器组外的频域变换器的此程序的实施及灵活性，在灵活性与实施的可能性方面是成问题的。

发明内容

本发明的一目的是提供用以产生一能够改良质量及允许一有效实施的合成音频信号的一构想。

此目的通过根据权利要求1的所述的一用以产生一合成音频信号的装置、根据权利要求10所述的一用以编码一音频信号的装置、根据权利要求12所述的用以产生的一方法、根据权利要求13所述的用以编码的一方法、根据权利要求14所述的一编码音频信号或根据权利要求15所述的一计算机程序来实现。

本发明是基于此基本思想：当执行多个不同频谱域修补算法之前一音频信号的一时间部分被转换为一频谱表示时，刚才提到的改良质量及/或有效实施可被实现，其中每一修补算法产生一修改的频谱表示，该修改的频谱表示包含自该音频信号的一核心频带中对应于频谱成分获得的在一上频带中的频谱成分，及依据一修补控制信号针对一第一时间部分自该多个修补算法中选择一第一频域修补算法，并针对一第二不同时间部分自该多个修补算法中选择一第二频域修补算法。以此方式，由于在不同域中两修补算法之间的一切换，一降低的质量及/或灵活性可被预防及进而在保持感知质量的同时处理可较不复杂。

依据本发明的一实施例，一种使用一修补控制信号来产生一合成音频信号的装置包含一第一转换器、一频域修补发生器、一高频重建操控器及一组合器。该第一转换器被配置用于将一音频信号的一时间部分转换为一频谱表示。该频域修补发生器被配置用以执行多个不同的频域修补算法，其中每一修补算法产生一修改的频谱表示，该修改的频谱表示包含自该音频信号的一核心频带中的相对应频谱成分获得的在一上频带中的频谱成分。该频域修补发生器进一步被配置成依据该修补控制信号针对一第一时间部分自该多个修补算法中选择一第一频域修补算法，及针对一第二不同时间部分自该多个修补算法中选择一第二频域修补算法，来获得该修改的频谱表示。该高频重建操控器被配置用以依据一频谱带复制参数操控该修改的频谱表示或自该修改的频谱表示获得的一信号，来获得一频宽延伸信号。该组合器被配置用以将在该核心频带中有频谱成分的该音频信号或是自该音频信号获得的一信号与该频宽延伸信号相组合来获得合成音频信号。

依据本发明的另一实施例，一种用以编码一音频信号的装置包含一核心编码器、一参数提取器及一参数计算器。该音频信号包含一核心频带及一上频带。该核心编码器被配置用以编码在该核心频带中的该音频信号。该参数提取器被配置用以自该音频信号提取一修补控制信号，该修补控制信号指示多个不同频域修补算法中的一选定的修补算法，该选定的修补算法在一频域中被执行以在一频宽延伸译码器中产生一合成音频信号。该参数计算器被配置用以由该上频带计算该频带复制参数。

依据另一实施例，一编码的音频信号数据流包含一在一核心频带中被编码的编码音频信号及一修补控制信号，该修补控制信号指示多个不同频域修补算法中的一选定的修补算法，该选定的修补算法在该频域中被执行以在一频宽延伸译码器中产生一合成音频信号及一频带复制参数由该音频信号的一上频带而被计算。

因此，本发明的实施例有关于一用以在频域中的一修补算法组中的至少两不同频域修补算法之间切换的构想。该修补算法组可包含一包括一基于一单相语音编码器的谐波变换及非谐波复制SBR功能的第一修补算法、一包含一基于一多相语音编码器的谐波移调的第二修补算法、一包含非谐波复制SBR功能的第三算法及一包含一非线性失真的第四修补算法。此外，频宽延伸可被执行使得该频宽延伸信号包含具有一至少四倍于核心频带中的交叉频率的最大频率的上频带。

因此，通过在频域中该至少两不同修补算法之间切换，诸如在一频宽延伸情形中能以相同感知质量取得一降低的复杂性。

本发明的进一步的实施例有关于一不包含一时间/频率转换器的装置，该时间/频率转换器的装置用以将自该修改的频谱表示获得的一时域信号转换为该频域。因此，实施例允许高频重建操控器可在修改的频谱表示上直接操作而不需要自该时域至该频域的一进一步转换(例如，一QMF分析)，诸如在一组合修补/进一步处理方法在不同域中操作的情况中。

本发明的进一步的实施例有关于一参数提取器，该参数提取器被配置用于自该多个不同频域修补算法中决定一选定的修补算法。这里，该选定的修补算法是基于该音频信号或一自该音频信号获得的信号与多个频宽延伸信号之间的一比较，该多个频宽延伸信号是藉由执行该频域中的该多个修补算法及操控该音频信号的一时间部分的一修改的频谱表示而被获得。因此，实施例提供一种选择该最佳修补算法来在一频宽延伸译码器中产生一合成音频信号的方法。

控制参数可被用于决定哪一修补是最合适的。为实现此目标，一综合分析级可被使用；亦即，所有修补可被施加而依据一目标最好的被选择。在本发明的较佳模式中，目标是得到恢复的最佳感知质量。在选替模式中，一目标函数必须被优化。例如，该目标可以是维持原始HF的频谱平坦度尽可能近。

一方面，修补选择藉由考虑原始信号、分析的信号或此两者可仅在编码器完成。决策(修补控制信号)接着被传输至译码器。另一方面，仅考虑该同步信号的核心频宽，选择可在编码器与译码器端被同步执行。后一方法不需要产生额外的旁侧信息。

图式简单说明

下面，参考附图来阐述本发明的实施例，其中：

附图说明

第1A图示出一使用一修补控制信号产生一合成音频信号的装置的一实施例的一方框图；

第1B图示出第1A图的一频域修补发生器的一实施的一方框图；

第2A图示出一用以产生一合成音频信号的装置的一进一步实施例的一方框图；

第2B图示出一频宽延伸方案的一示意说明；

第3图示出一示范第一修补算法的一示意说明；

第4图示出一示范第二修补算法的一示意说明；

第5图示出一示范第三修补算法的一示意说明；

第6图示出一示范第四修补算法的一示意说明；

第7图示出第1A图的没有一时间/频率转换器置于该频域修补发生器之后的一实施例的一方框图；

第8图示出第1A图的有一第二转换器(时间/频率转换器)的一实施例的一方框图；

第9图示出一用以编码一音频信号的装置的一实施例的一方框图；

第10图示出用以编码一音频信号的装置的一进一步实施例的一方框图；

第11图示出一频域中的一修补方案的一实施例的一概观。

具体实施方式

第1a图示出一依据本发明的一实施例的使用一修补控制信号119来产生一合成音频信号145的装置100的一方框图。装置100包含一第一转换器110、一频域修补发生器120、一高频重建操控器130及一组合器140。第一转换器110被配置用于将一音频信号105的一时间部分转换为一频谱表示115。频域修补发生器120被配置用于执行多个117-1不同的频域修补算法，其中每一修补算法产生一修改的频谱表示125，该修改的频谱表示125包含自音频信号105的一核心频带中的相对应频谱成分获得的一在上频带中的频谱成分。如第1b图所示，频域发生器120可被配置成依据修补控制信号119针对一第一时间部分107-1自多个117-1修补算法中选择一第一频域修补算法117-2，及针对一第二不同时间部分107-2自多个117-1修补算法选择一第二频域修补算法117-3来获得修改的频谱表示125。

高频重建操控器130被配置用于依据一频谱带复制参数127来操控修改的频谱表示125或自修改的频谱表示125获得的一信号来获得一频宽延伸信号135。自修改的频谱表示125获得的信号可以是例如一QMF域中的一信号，其在将一QMF分析施于一基于修改的频谱表示125的修改的时域信号之后已被获得。组合器140被配置用于将在核心频带中有频谱成分的音频信号105或是自音频信号105获得的一信号与频宽延伸信号135相组合来获得合成音频信号145。这里，自音频信号105获得的信号可以是，例如一在译码核心频带中的一编码的音频信号之后已被获得的译码的低频信号。

如第1a图可见，装置100的频域修补发生器120被实施成在一频域中而非在一时域中操作。

第2a图示出一用以产生合成音频信号145的装置200的一进一步实施例的一方框图。这里，第2a图装置200与第1a图装置100中的相同成分被忽略且未被再次示出或描绘。在第2a图所示的实施例中，装置200的频域修补发生器120被配置用于执行频域中修补算法组203中的至少两不同的频域修补算法。修补算法组203包含一包括一基于一单相语音编码器的谐波变换及非谐波复制SBR功能的第一修补算法205-1、一包含一基于一多相语音编码器的谐波变换的第二修补算法205-2、一包含非谐波复制SBR功能的第三修补算法205-3及一包含一非线性失真的第四修补算法205-4。

如第2b图所示，装置200可适于执行一频宽延伸使得频宽延伸信号135包含上频带220，该上频带220具有至少四倍于核心频带210中的交叉频率215的一最大频率225。在SBR的情况下，被定义为核心频带210的最高频率的交叉频率215的典型值可以是，例如在小于4kHz、5kHz或6kHz的一范围中。因此，上频带220的最大频率225可以是例如，约16kHz、20kHz或24kHz。

第3图示出一示范第一修补算法205-1的一示意说明。特别地，频域修补发生器120被配置用于执行至少两不同的频域修补算法中的一选定的修补算法，该选定的修补算法包含第一修补算法205-1。第一修补算法205-1包含一基于一单相语音编码器305的谐波变换，该单相语音编码器305包含一为2的频宽延伸因子(σ)，控制自一自核心频带210提取的源频带310至一第一目标频带310’的一转换。这里，源频带310中频谱成分的相位乘以频宽延伸因子(σ)使得第一目标频带310具有范围为交叉频率(f_x)到两倍于交叉频率(f_x)的频率。第一修补算法205-1进一步包含非谐波复制SBR功能315，用以由一第一复制将第一目标频带310’中的频谱成分转换为一第二目标频带320’使得第二目标频带320具有范围为两倍于交叉频率(f_x)到三倍于交叉频率(f_x)的频率，且用以由一第二复制将第二目标频带320’中的频谱成分进一步转换为一第三目标频带330’使得第三目标频带330具有包括在上频带220中范围为三倍于交叉频率(f_x)到四倍于交叉频率(f_x)的频率，上频带220包含第一310’、第二320’及第三330’目标频带。特别地，如第3图所示，频宽延伸信号135包含自核心频带210产生的上频带220，其中上频带220具有四倍于交叉频率(f_x)的一最大频率。

第4图示出一示范第二修补算法205-2的一示意说明。这里特别地，频域修补发生器120被配置用于执行至少两不同的频域修补算法中的一选定的修补算法，该选定的修补算法包含第二修补算法205-2。第二修补算法205-2包含一基于一多相语音编码器405的谐波变换，该多相语音编码器405包含一为2的第一频宽延伸因子(σ₁)，控制自一自核心频带210提取的源频带410至一第一目标频带410’的一转换。这里，第一源频带410中频谱成分的相位乘以第一频宽延伸因子(σ₁)使得第一目标频带410’具有范围为交叉频率(f_x)到两倍于交叉频率(f_x)的频率。第二修补算法205-2进一步包含一为3的第二频宽延伸因子(σ₂)，控制自一自核心频带210提取的一第二源频带420-1、420-2至一第二目标频带420’、420”的一转换。这里，第二源频带420-1、420-2中频谱成分的相位乘以第二频宽延伸因子(σ₂)，使得第二目标频带420’、420”分别具有范围为两倍于交叉频率(f_x)到三倍于交叉频率(f_x)或范围为交叉频率(f_x)到三倍于交叉频率(f_x)的频率。最后，第二修补算法205-2进一步包含一为4的第三频宽延伸因子(σ₃)，控制自一自核心频带210提取的一第三源频带430-1、430-2至一第三目标频带430’、430”的一转换。这里，第三源频带430-1、430-2中频谱成分的相位乘以第三频宽延伸因子(σ₃)，使得第三目标频带430’、430”分别具有包括在上频带220中范围为三倍于交叉频率(f_x)到四倍于交叉频率(f_x)或范围为交叉频率(f_x)到四倍于交叉频率(f_x)的频率。如第3图所示的第一修补算法205-1中，频宽延伸信号135的上频带220包含第一410’、第二420’、420”及第三430’、430”目标频带，具有四倍于交叉频率(f_x)的一最大频率。

第5图示出一示范第三修补算法205-3的一示意说明。在第5图的实施例中，频域修补发生器120被配置用于执行至少两不同的频域修补算法中的一选定的修补算法，该选定的修补算法包含第三修补算法205-3。第三修补算法205-3包含非谐波复制SBR功能505，用以由一第一复制将在一源频带510中为核心频带210的频谱成分转换为一目标频带510’，使得第一目标频带510’具有范围为交叉频率(f_x)到两倍于交叉频率(f_x)的频率。第一目标频带510’中的频谱成分被一第二复制进一步转换为一第二目标频带520’，使得第二目标频带520’具有范围为两倍于交叉频率(f_x)到三倍于交叉频率(f_x)的频率。最后，第二目标频带520’中的频谱成分被一第三复制进一步转换为一第三目标频带530’，使得第三目标频带530’具有包括在上频带220中范围为三倍于交叉频率(f_x)到四倍于交叉频率(f_x)的频率。此外，频宽延伸信号135的上频带220包含第一510’、第二520’及第三530’目标频带，具有四倍于交叉频率(f_x)的一最大频率。

第6图示出一示范第四修补算法205-4的一示意说明。在第6图的实施例中，频域修补发生器120被配置用于执行至少两不同的频域修补算法中的一选定的修补算法，该选定的修补算法包含第四修补算法205-4。这里，第四修补算法205-4包含一非线性失真用以产生上频带220中具有范围为交叉频率(f_x)到四倍于交叉频率(f_x)的频率的频谱成分。

一般地，在如上所述第3-6图的实施例中，频域修补算法205-1；205-2；205-4；205-4随该频域修补发生器120被配置用于将自核心频带210获得的一初始频带310、310’、320’；410、420-1、420-2、430-1、430-2；510、510’、520’中的一频谱成分或不包括于核心频带210中的一上频带转换为上频带220中的一目标频谱成分而被执行，使得该目标频谱成分针对每一频域修补算法是不同的。

特别地，频域修补发生器120可包含一频通滤波器以自核心频带210或上频带220来提取初始频带，其中该频通滤波器的一频通特性可被选择，使得该初始频带将被转换为第3-6图所示的一相对应的频带310’、320’、330’；410’、420’、430’；510’、520’、530’。

不同的频域修补算法205-1、205-2、205-3、205-4可依据一需要的性能而被执行，诸如第2b图的频宽延伸方案。

具体地，通过分别使用例如第3图或第4图所示的一单或多相语音编码器，频率结构被谐波地正确延伸至高频域，因为基频(例如，核心频带210)被频谱延伸偶数倍(例如，σ₁＝2，σ₂＝3，σ₃＝4)，及因为基频中的频谱成分被与额外产生的频谱成分相组合。

如果基频已被牢牢地限制于频宽，例如，通过仅使用一很低位率，一基于相语音编码器的修补算法可以是有利的。因此，上频成分的重建已在一相对低的频率开始。在此情况中，典型地交叉频率不到约5KHz(或甚至不到4KHz)。在此区域，人类耳朵由于不正确定位的谐波而对不谐和很敏感。这可导致给人“不自然”音调的印象。另外，频谱紧密间隔的音调(具有约30Hz至300Hz的频谱不谐和)被感知为粗音调。基频带的频率结构的谐波延续避免了这些不正确及欠佳听觉印象。

此外，通过使用例如第5图所示的非谐波复制SBR功能，频谱区域可朝子频带方向被复制至一较高频率区域或要被复制频率区域。此外，复制依赖于观测，这适用于所有较高频信号的频谱性质在许多方面类似于基频带信号的性质的修补方法。彼此之间仅有极少变化。另外，人类耳朵通常在高频(典型地始于约5KHz)并不很敏感，特别是就一非精确频谱映射而言。实际上，这大体上是频带复制的主要思想。特别地，复制包含实施简单且快速的优点。此修补算法对修补边界也具有一高灵活性，因为对频谱的复制可在任一子频带边界执行。

最后，非线性失真的修补算法(见第6图)可包含通过裁减、限制、平方等产生谐波。如果举例而言，一展开信号被频谱很稀疏占用(例如，在施以上述相位语音编码器修补算法之后)，展开频谱能可取舍地被一失真信号相加补充以避免不想要的频率孔。

要注意的是，除了修补算法组203(见第2a图)中上面提到的修补算法之外，频域中的其它修补算法，诸如一频谱镜像，可被执行。

在第7图的实施例中，一可对应于第1a图的装置100的装置700被示出为不包含一用以将自修改的频谱表示125获得的一时域信号转换为频域的时间/频率转换器。这就是说，在此情况中，高频重建操控器130将接收修改的频谱表示125而非自这一时间/频率转换器获得的一频域信号来作为其输入。所描述的配置可以是有利的，因为在此情况中，高频重建操控器130所执行的对修改频谱表示125的进一步处理在相同域(例如，FFT或QMF域)中可易于发生，因为频域修补发生器120所执行的修补算法在其中有效。因此，不同域之间的一进一步转换，诸如自时域至频域的一转换将不需要，这样就造成一较简单实施。

在第8图的实施例中，一装置800被示出进一步包含一用以将修改的频谱表示125转换为时域的第二转换器810。再者，对应于第1a图装置100的组件的第8图装置800的组件被忽略。如第8图示出，第二转换器810可适于施加一匹配于第一转换器110所施加的一分析的合成。这里，第一转换器110被配置用于执行一具有一第一转换长度111的转换，而第二转换器810被配置用于执行一具有一第二转换长度的转换。特别地，第二转换长度可依靠一频宽延伸特性，因为上频带220中最大频率(f_max)与核心频带210中交叉频率(f_x)的一比值及第一转换长度111被说明。

在本发明的实施例中，第一转换器110例如可实施为执行一快速傅利叶变换(FFT)、一短时间傅利叶变换(STFT)、一离散傅利叶变换(DFT)或一QMF分析，而第二转换器810例如可实施为执行一快速傅利叶逆变换(IFFT)、一短时间傅利叶逆变换(ISTFT)、一离散傅利叶逆变换(IDFT)或一QMF合成。

具体地，第二转换长度可被选定使得它将等于f_max/f_x比值乘以第一转换长度111。以此方式，第二转换器应用的第二转换长度或频率分辨率将易适于第2b图所示频宽延伸方案的频宽延伸特性。这是因为根据Nyquist原理频宽延伸特性实质上受上面对应于一较高有效取样率的f_max/f_x比来控制。

第9图示出一编码一音频信号105的装置900的一实施例的一方框图。音频信号105包含一核心频带210及一上频带220。特别地，用以编码的装置900包含一核心编码器910、一参数提取器920及一参数计算器930。核心编码器910被配置用于编码核心频带210中的音频信号105来获得核心频带210中的一编码的音频信号915。此外，参数提取器920被配置用于自音频信号105提取一修补控制信号119，该修补控制信号119指示自多个117-1不同频域修补算法中的一选定的修补算法。具体地，选定的修补算法可在一频域中执行以在一频宽延伸译码器中产生合成音频信号。最后，参数计算器930被配置用于由上频带220计算一SBR参数127。由上频带220计算的SBR参数127、指示选定的修补算法的修补控制信号119及在核心频带210中被编码的编码音频信号915可构成一在一比特流中被储存或传输的编码音频信号935。

在第9图的实施例中，参数提取器920可被配置用于分析音频信号105或一自音频信号105获得的信号来基于分析信号的一信号特性决定修补控制信号119。举例而言，修补控制信号119可指示针对被分析信号的特征为‘语音’的一第一时间部分107-1的一第一修补算法，及针对被分析信号的特征为‘静音乐’的一第二时间部分107-2的一第二修补算法。

因此，如果是一语音信号，一基于一语音源模型的处理或诸如在一LPC(线性预测编码)内的一信息产生模型可使用。在前一情况中，产生声音的人类语音/声音产生系统被说明，在后一情况中，接收声音的人类听觉系统被说明。

另外，一依信号而定的处理方案可通过在一包含一瞬时事件的时间部分的一谐波变换与一不包含一瞬时事件的时间部分的一非谐波复制操作之间切换来实施。

上面对应于一开环的程序是基于对音频信号105或一自音频信号105获得的信号在其信号特性方面的一直接分析。

可选择地，参数提取器920也可在一对应于“综合分析”实施的闭回路中操作。

在第10图的实施例中，在这一综合分析实施中一用以编码一音频信号105的装置1000被说明。具体地，用以编码的装置1000的参数提取器920可被配置用于自多个117-1不同频域修补算法中决定选定的修补算法。这里，选定的修补算法可以是基于音频信号105或一自音频信号105获得的信号与多个1005频宽延伸信号的一比较，该多个1005频宽延伸信号是通过在频域中执行多个117-1修补算法及操控音频信号105的一时间部分的一修改的频谱表示125而获得。该比较可例如由一修补算法选择单元1010通过计算多个1005频宽延伸信号与音频信号105(SFM_ref)的频谱平坦度(SFM)参数(SFM₁₀₀₅)、比较计算的SFM参数SFM₁₀₀₅与SFM_ref及自多个117-1修补算法选择一特定(最佳)修补算法而完成，借此比较的SFM参数的一偏差是最小的。最后，选定的最佳修补算法可在参数提取器920的输出出现的修补控制信号119指示。

第11图示出一频域中的一修补方案的一实施例的一概观。特别地，一用以产生诸如在第2b图的频宽延伸方案中的一频宽延伸信号的装置1100被描绘。在第11图的实施例中，音频信号105被具有1024取样的一帧长度的PCM(脉冲编码调制)数据1101表示，PCM数据1101可以是例如一译码的低频信号，该译码的低频信号包含一自编码音频信号935获得的基频带，该编码的音频信号935已自用以编码的一装置传输，诸如编码器900。接着，例如一降取样器1110可用于以一因子2将PCM资料1101降取样来获得一降取样的信号1115。该降取样的信号1115被进一步提供给一分析窗口化器1120，该分析窗口化器1120由用“窗口”表示的一区块来指示，“窗口”被配置用于产生音频取样的多个重叠窗口化连续区块。这里，多个连续区块中的每一区块例如可包含512音频取样。另外，音频取样的两连续区块之间的一第一时间距离例如可被调整为对应于如用“Inc＝64”表示的64取样。音频取样的连续区块的重叠通过自分析窗口化器1120施以的多个不同分析窗口函数中选择一适当(最佳)分析窗口函数可另外被控制。可对应于音频取样的多个连续区块中的一连续区块的音频信号105的一时间部分1125被进一步提供给第一转换器110，该第一转换器110可被实施为例如一具有N＝512的第一转换长度111的FFT处理器1130。该FFT处理器1130可被配置用于将时间部分1125转换为例如能以一极坐标形式1135-1被实施的频谱表示115。特别地，此频谱表示1135-1包含振幅信息1135-2及相位信息1135-3，其受一可对应于第2a图的频域修补发生器120的频域修补发生器1141进一步处理。第11图的频域修补发生器1141可包含一用“相位语音编码器加复制”表示、对应于第一修补算法205-1的第一修补算法1141-1、一用“相位语音编码器”表示、对应于第二修补算法205-2的第二修补算法1143-1、一用“类似SBR函数”表示、对应于第三修补算法205-3的第三修补算法、一用“其它函数，诸如非线性失真”表示、对应于第2a图所示修补算法组203中的第四修补算法205-4的第四修补算法1147-1。

如前面在第2a图情况下的相应描述，第一修补算法1141-1包含一单一相位语音编码器1141-2及非谐波复制功能1141-3、1141-4。此外，基于一多相语音编码器操作的第二修补算法1143-1包含一第一相位语音编码器1143-2、一第二相位语音编码器1143-3及一第三语音编码器1143-4。此外，第三修补算法1145-1包含执行一第一复制操作1145-2、一第二复制操作1145-3及一第三复制操作1145-4的非谐波复制SBR功能。最后，第四修补算法1147-1包含一非线性失真功能。

特定地，在第11图实施例中，修补算法区块1141-1、1143-1、1145-1、1147-1可对应于第2a图的区块205-1、205-2、204-3、205-4。另外，符号(xover频带)可对应于交叉频率(f_x)。

再者，一修补选择器1150可被用来提供一对应于修补控制信号119的修补控制信号1155来控制频域修补发生器1141使得修补算法组1141-1、1143-1、1145-1、1147-1中的至少两不同的频域修补算法将被执行，造成对应于修改的频谱表示125的一修改的频谱表示1149。

修改的频谱表示1149可(可取舍地)被一随后内插器1160处理来获得一内插修改的频谱表示1165。该内插修改的频谱表示1165接着可被提供至第二转换器810，该第二转换器810可被实施为一具有N＝2048的一第二转换长度的iFFT处理器1170。这里，如第8图相应描述，N＝2048的第二转换长度被调整为正好高于N＝512的第一转换长度的四倍。因此，如以不同频域修补算法执行的频宽延伸方案的频宽延伸特性可被说明，这在前面已详细阐述。

iFFT处理器1170可被配置用于将内插修改的频谱表示1165转换为一对应于第8图修改的时域信号815的修改的时域信号1175。该修改的时域信号1175可接着被提供至一合成窗口化器1180供将一合成窗口函数施于修改的时域信号1175来获得一修改的窗口化时域信号1185。这里，合成窗口函数被匹配于分析窗口函数使得应用分析窗口函数的效果由应用合成窗口函数来补偿。

因为由于频宽延伸修改的窗口化时域信号1185较之原始取样率(例如，8KHz)必须以一较高有效取样率(例如，32KHz)来取样，修改的窗口化时域信号1185可最后在一用“重叠与相加”表示的区块1190中被重叠相加，因为例如被区块1190应用、用“Inc＝256”表示的256取样的一第二时间距离，与例如被分析窗口化器1120应用的64取样的第一时间距离之比(例如比值为4)将等于较高有效取样率与原始取样率之比。以此方式，一输出信号1195可被获得，其具有与原始(降取样)信号1115相同的重叠特性。装置1100提供的输出信号1195可自第1a图所示高频重建操控器130开始进一步被处理，以最终获得一在频宽上延伸的复制信号。

要注意的是，在第11图的实施例中，所有不同的修补算法都在同一域中被实施，例如在频域中。该域可以是QMF域(因为其以SBR来完成)或任一其它域，诸如傅利叶变换的域。实际修补数据产生可以在一不同域中完成。在此情况中，整个修补然而，始终在同一域中完成。

此外，不同源模型可关联于在选择中考虑的修补。例如，如在语音频宽延伸中使用的一语音源模型可针对语音信号而选择，而一静态源模型可针对静音乐采用。以如前所述相同方式，瞬时可有它们自己针对修补的模型。

再者，通过将时间-频率变换的分析与合成窗口重叠，不同修补方案之间的平滑过渡被保证。可选择地，分析与合成的特殊窗口可被使用，以便使较少重叠成为可能。

总之，在第11图的实施例中，修补方法可在对相邻频率段的一简单复制操作、一基于相位语音编码器的谐波变换方案、及一基于相位语音编码器的包括复制相邻频率段的谐波变换方案当中选择。

虽然本发明在其中区块表示实际或逻辑硬件组件的方框图的情况中予以描述，但本发明也可由一计算机实施方法来实施。在计算机实施方法中，区块表示相对应的方法步骤，其中这些步骤代表相对应逻辑或实体硬件区块执行的功能。

所予以描述的实施例仅仅是说明本发明的原理。明白的是，对本文所予以描述的安排及细节的修改及改变对其他熟于此技者而言将是显而易见的。因此，意图是仅受后附的申请专利范围的范围限制，而不受以本文实施例的说明及解释方式呈现的特性细节限制。

依靠发明方法的某些实施需求，发明方法可在硬件或软件中实施。该实施可使用一数字储存媒体而被执行，特别是其上储存有电子可读取控制信号的一磁盘、一DVD或一CD，它们可与可程序化计算机系统合作使得发明方法可被执行。大体上，因此本发明可被实施为一计算机程序产品，其中一程序被储存于一机器可读取载体上，当该计算机程序产品运行于一计算机上时该程序代码可被操作执行发明方法。换言之，发明方法因而是一具有一程序代码的计算机程序，当该计算机程序运行于一计算机上时该程序代码执行发明方法当中的至少一方法。发明编码音频信号可被储存于任一机器可读取储存媒体上，诸如一数字储存媒体。

本发明的实施例容许频宽延伸计入修补过程的声音、硬件、及信号特性。对最适合修补的决策可在一开环或一死循环中完成。因此，恢复质量可被控制及增强。

所呈现的构想也有不同修补算法之间的一平滑过渡可易于达到、基于信号允许对频宽延伸的一快速且准确的适应的优点。

大部分突出的应用是音频译码器，其经常在手持装置上被实施及因而靠一电池供电操作。

Claims

1.一种使用一修补控制信号(119；1155)来产生一合成音频信号(145)的装置(100；200；700；800；1100)，所述装置(100；200；700；800；1100)包含：

一第一转换器(110；1130)，其用以将一音频信号(105；1101)的一时间部分(107-1；107-2；1125)转换为一频谱表示(115；1135-1)；

一频域修补发生器(120；1141)，其用以执行多个(117-1)不同的频域修补算法，其中每一修补算法产生一修改的频谱表示(125；1149)，所述修改的频谱表示包含自所述音频信号(105；1101)的一核心频带(210)中的相对应频谱成分获得的在一上频带(220)中的频谱成分，及其中所述频域修补发生器(120；1141)被配置用于依据所述修补控制信号(119；1155)，针对一第一时间部分(107-1)自该多个(117-1)修补算法中选择一第一频域修补算法(117-2)，及针对一第二不同时间部分(107-2)自所述多个(117-1)修补算法中选择一第二频域修补算法(117-3)，来获得所述修改的频谱表示(125；1149)；

一高频重建操控器(130)，其用以依据一频谱带复制参数(127)操控所述修改的频谱表示(125；1149)或自所述修改的频谱表示获得的一信号(125；1195)来获得一频宽延伸信号(135)，及

一组合器(140)，其用以将在所述核心频带(210)中有频谱成分的所述音频信号(105；1101)或是自所述音频信号(105；1101)获得的一信号与所述频宽延伸信号(135)相组合来获得所述合成音频信号(145)。

2.根据权利要求1所述的装置(100；200；700；800；1100)，其中所述频域修补发生器(120；1141)被实施成在一频域而非一时域中操作。

3.根据权利要求1或2所述的装置(200)，其中所述频域修补发生器(120)被配置用于执行频域中一修补算法组(203)中的至少两不同的频域修补算法，所述修补算法组(203)包含一包括一基于一单相语音编码器的谐波变换及非谐波复制频带复制功能的第一修补算法(205-1)、一包含一基于多相语音编码器的谐波变换的第二修补算法(205-2)、一包含非谐波复制频带复制功能的第三修补算法(205-3)及一包含一非线性失真的第四修补算法(205-4)，所述装置(200)适于执行一频宽延伸，使得所述频宽延伸信号(135)包含具有一至少四倍于所述核心频带中的交叉频率的最大频率(225；f_max)的上频带(220)。

4.根据权利要求3所述的装置，其中频域修补发生器(120)被配置用于执行所述至少两不同的频域修补算法中的一选定的修补算法，所述选定的修补算法包含所述第一修补算法(205-1)，所述第一修补算法(205-1)包含一基于一单相语音编码器(305)的谐波变换，所述单相语音编码器包含一为二的频宽延伸因子(σ)，控制自一自所述核心频带(210)提取的源频带(310)至一第一目标频带(310’)的一转换，其中所述源频带(310)中的所述频谱成分的相位乘以所述频宽延伸因子(σ)，使得所述第一目标频带(310’)具有范围为所述交叉频率(f_x)到两倍于所述交叉频率(f_x)的频率，所述第一修补算法(205-1)进一步包含非谐波复制频带复制功能(315)，用以由一第一复制将所述第一目标频带(310’)中的频谱成分转换为一第二目标频带(320’)，使得所述第二目标频带(320’)具有范围为两倍于所述交叉频率(f_x)到三倍于所述交叉频率(f_x)的频率，及用以由一第二复制将所述第二目标频带(320’)中的频谱成分进一步转换为一第三目标频带(330’)，使得所述第三目标频带(330’)具有包括于所述上频带(220)中范围为三倍于所述交叉频率(f_x)到四倍于所述交叉频率(f_x)的频率，所述上频带(220)包含第一(310’)、第二(320’)及第三目标频带(330’)。

5.根据权利要求3所述的装置，其中所述频域修补发生器(120)被配置用于执行所述至少两不同的频域修补算法中的一选定的修补算法，所述选定的修补算法包含所述第二修补算法(205-2)，所述第二修补算法(205-2)包含一基于一多相语音编码器(405)的谐波变换，所述多相语音编码器包含一为二的第一频宽延伸因子(σ₁)，控制自一自所述核心频带(210)提取的第一源频带(410)至一第一目标频带(410’)的一转换，其中所述第一源频带中所述等频谱成分的相位乘以所述第一频宽延伸因子(σ₁)，使得所述第一目标频带具有范围为所述交叉频率(f_x)到两倍于所述交叉频率(f_x)的频率，所述第二修补算法(205-2)进一步包含一为三的第二频宽延伸因子(σ₂)，控制自一自核心频带提取的一第二源频带(420-1；420-2)至一第二目标频带(420’；420”)的一转换，其中所述第二源频带(420-1；420-2)中所述等频谱成分的相位乘以所述第二频宽延伸因子(σ₂)，使得所述第二目标频带(420’；420”)具有范围为两倍于所述交叉频率(f_x)到三倍于所述交叉频率(f_x)或范围为所述交叉频率(f_x)到三倍于所述交叉频率(f_x)的频率，所述第二修补算法(205-2)进一步包含一为四的第三频宽延伸因子(σ₃)，控制自一自核心频带(210)提取的一第三源频带(430-1，430-2)至一第三目标频带(430’；430”)的一转换，其中所述第三源频带(430’；430”)中所述等频谱成分的相位乘以所述第三频宽延伸因子(σ₃)，使得所述第三目标频带(430’；430”)具有包括在所述上频带(220)中范围为三倍于所述交叉频率(f_x)到四倍于所述交叉频率(f_x)或范围为所述交叉频率(f_x)到所述四倍于交叉频率(f_x)的频率，所述上频带(220)包含第一(410’)、第二(420’；420”)、及第三目标频带(430’；430”)。

6.根据权利要求3所述的装置，其中所述频域修补发生器(120)被配置用于执行所述至少两不同的频域修补算法中的一选定的修补算法，所述选定的修补算法包含所述第三修补算法(205-3)，所述第三修补算法(205-3)包含非谐波复制频带复制功能(505)，用以由一第一复制将在一源频带(510)中为核心频带(210)的频谱成分转换为一第一目标频带(510’)，使得所述第一目标频带(510’)具有范围为所述交叉频率(f_x)到两倍于所述交叉频率(f_x)的频率，用以由一第二复制将所述第一目标频带(510’)中的频谱成分进一步转换为一第二目标频带(520’)，使得所述第二目标频带(520’)具有范围为两倍于所述交叉频率(f_x)到三倍于所述交叉频率(f_x)的频率，及用以由一第三复制将所述第二目标频带(520’)中的频谱成分进一步转换为一第三目标频带(530’)，使得所述第三目标频带具有包括在所述上频带(220)中范围为三倍于所述交叉频率(f_x)到四倍于所述交叉频率(f_x)的频率，所述上频带(220)包含第一(510’)、第二及(520’)第三目标频带(530’)。

7.根据权利要求3所述的装置，其中所述频域修补发生器(120)被配置用于执行所述至少两不同频域修补算法中的一选定的修补算法，所述选定的修补算法包含所述第四修补算法(205-4)，所述第四修补算法(205-4)包含一非线性失真，以产生在所述上频带(220)中具有范围为所述交叉频率(f_x)到四倍于所述交叉频率(f_x)的频谱成分。

8.根据前述权利要求中任一项所述的装置(700)，所述装置(700)不包含一用以将一自所述修改的频谱表示(125)获得的时域信号(705)转换为所述频域的时间/频率转换器(710)。

9.根据前述权利要求中任一项所述的装置(800)，所述装置(800)进一步包含一用以将所述修改的频谱表示(125)转换为所述时域的第二转换器(810)，其中所述第二转换器(810)适于施加一匹配于所述第一转换器(110)所施加的一分析的合成，其中所述第一转换器(110)被配置用于执行一具有一第一转换长度(111)的转换，及其中所述第二转换器(810)被配置用于执行一具有一第二转换长度的转换，所述第二转换长度依靠一频宽延伸特性，因为在所述上频带(220)中的所述最大频率(f_max)与所述核心频带(210)中的所述交叉频率(f_x)的一比值与所述第一转换长度(111)被说明。

10.一种用以编码一音频信号(105)的装置(900；1000)，所述音频信号(105)包含一核心频带(210)及一上频带(220)，所述装置(900；1000)包含：

一核心编码器(910)，其用以编码所述核心频带(210)中的所述音频信号(105)，

一参数提取器(920)，其用以自所述音频信号(105)提取一修补控制信号(119)，所述修补控制信号(119)指示多个(117-1)不同频域修补算法中的一选定的修补算法，所述选定的修补算法在一频域中执行以在一频宽延伸译码器中产生一合成音频信号；及

一参数计算器(930)，其用以由所述上频带(220)计算一频带复制参数(127)。

11.根据权利要求10所述的译码装置(1000)，其中所述参数提取器(920)被配置用于自所述多个(117-1)不同频域修补算法中决定所述选定的修补算法，所述选定的修算法是基于所述音频信号(105)或自所述音频信号(105)获得的一信号与多个(1005)频宽延伸信号之间的一比较，所述多个频宽延伸信号是通过在所述频域中执行所述多个(117-1)修补算法及操控所述音频信号(105)的一时间部分的一修改的频谱表示(125)而获得。

12.一种使用一修补控制信号(190；1155)产生一合成音频信号(145)的方法(100；200；700；800；1100)，所述方法(100；200；700；800；1100)包含：

将一音频信号的一时间部分(107-1；107-2；1125)转换(110；1130)为一频谱表示(115；1135-1)；

执行(120；1141)多个(117-1)不同频域修补算法，其中每一修补算法产生一修改的频谱表示(125；1149)，所述修改的频谱表示包含自所述音频信号(105；1101)的一核心频带(210)中相对应的频谱成分获得的一上频带(220)中的频谱成分，及依据所述修补控制信号(119；1155)针对一第一时间部分(107-1)自所述多个(117-1)修补算法中选择(120；1141)一第一频域修补算法(117-2)，及针对一第二时间部分(107-2)自所述多个(117-1)修补算法中选择一第二频域修补算法(117-3)，来获得所述修改的频谱表示(125；1149)；

依据一频带复制参数(127)操控(130)所述修改的频谱表示(125；1149)或一自所述修改的频谱表示而获得的信号(125；1195)，来获得一频宽延伸信号(135)；及

将在所述核心频带(210)中具有频谱成分的所述音频信号(105；1101)或一自所述音频信号(105；1101)获得的信号，与所述频宽延伸信号(135)相组合(140)来获得所述合成音频信号(145)。

13.一种用以编码一音频信号的方法(900；1000)，所述音频信号(105)包含一核心频带(210)及一上频带(220)，所述方法(900；1000)包含：

编码(910)所述核心频带(210)内的所述音频信号(105)；

自所述音频信号(105)提取(920)一修补控制信号(119)，所述修补控制信号(119)指示多个(117-1)不同频域修补算法中的一选定的修补算法，所述选定的修补算法在一频域中执行以在一频宽延伸译码器中产生一合成音频信号；及

由所述上频带(220)计算(930)一频带复制参数(127)。

14.一种编码的音频信号(935)，其包含：

一在一核心频带(210)中被编码的编码的音频信号(915)；

一修补控制信号(119)，所述修补控制信号(119)指示多个(117-1)不同频域修补算法中的一选定的修补算法，所述选定的修补算法在一频域中执行以在一频宽延伸译码器中产生一合成音频信号(145)；及

一由所述音频信号(105)的一上频带(220)而计算的频带复制参数(127)。

15.一种计算机程序，具有当所述计算机程序在一计算机上执行时用以执行根据权利要求13或14所述的方法的程序代码。