CN1816848A

CN1816848A - 通过增加噪声改善解码音频的质量

Info

Publication number: CN1816848A
Application number: CNA2004800185182A
Authority: CN
Inventors: A·C·登布林克; F·P·迈布格
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2003-06-30
Filing date: 2004-06-25
Publication date: 2006-08-09
Anticipated expiration: 2024-06-25
Also published as: KR101058062B1; JP4719674B2; ATE486348T1; ES2354427T3; DE602004029786D1; US20070124136A1; JP2007519014A; CN100508030C; EP1642265A1; KR20060025203A; WO2005001814A1; EP1642265B1; US7548852B2

Abstract

本发明涉及编码和解码音频信号的方法。本发明还涉及用于编码和解码音频信号的设备。本发明还涉及包括表示音频信号的数据记录的计算机可读媒体，和用于传送已根据本发明编码的音频信号的设备。利用编码的方法，获得信号的双重描述，其中编码包括两个编码步骤，即，第一标准编码和附加第二编码。第二编码能够给出信号的粗略描述，以使得能够进行随机实现，并且能够把合适的部分添加到根据第一解码解码的信号。为了使之有可能实现随机信号，所要求的第二编码器的描述需要相对低的比特率，而其它的双/多重描述需要高得多的比特速率。

Description

通过增加噪声改善解码音频的质量

技术领域

本发明涉及编码和解码音频信号的方法。本发明还涉及用于编码和解码音频信号的设备。本发明进一步涉及包括表示编码音频信号的数据记录的计算机可读媒体，并涉及编码的音频信号。

背景技术

一种编码方式是使部分的音频或语音信号利用合成噪声来模型化，同时保持好的或可接受的质量，并且例如带宽扩展工具基于这个想法。在用于语音和音频的带宽扩展工具中，较高的频带在低比特速率的情况下在编码器中通常被除去，并且通过丢失频带的时间和频谱包络的参数描述来恢复，或者以某一方式从接收的音频信号中生成丢失频带。在任一情况下，丢失频带(至少位置)的知识对于生成互补噪声信号是必需的。

这个原理是通过在给定目标比特速率时由第一编码器创建第一比特流来执行的。比特速率需求在第一编码器中引起一些带宽限制。这个带宽限制在第二编码器中用作知识。附加(带宽扩展)比特流随后由第二编码器创建，其根据丢失频带的噪声特征覆盖信号的描述。在第一解码器中，第一比特流用于再建限带的音频信号，并且附加噪声信号由第二解码器生成，并被添加到限带的音频信号上，由此获得完全解码的信号。

上面的问题是：对于发送机或对于接收机来说，总是不知道在由第一编码器和第一解码器覆盖的分支中丢弃哪个信息。例如，如果第一编码器产生分层比特流并且在经由网络的传输期间除去层，则发送机或第一编码器和接收机或第一解码器都不知道这个事件。除去的信息例如可以是来自子带编码器的较高频带的子带信息。另一种可能性出现在正弦编码中：在可缩放的正弦编码器中，能够创建分层比特流，并且正弦数据能够根据其感知关联性(perceptual relevance)在层中进行分类。在传输期间除去层而不另外编辑剩余层以指示什么已被除去，这通常在已解码的正弦信号中产生谱间隙。

这个建立中的基本上问题是：第一编码器和第一解码器都不具有有关在从第一编码器到第一解码器的分支上已进行了什么适配的信息。编码器得不到该知识，这是因为适配可以发生在传输期间(即，在编码之后)，而解码器仅接收允许的比特流。

比特速率可缩放性也被称为嵌入式编码，这是音频编码器产生可缩放比特流的能力。可缩放比特流包含大量的能够被除去的层(或平面)，结果降低了比特速率和质量。第一(和最重要的)层通常称之为“基层(base layer)”，而剩余层称作“细化层(refinementlayer)”，并且通常具有预定义的重要等级。解码器应能够解码可缩放比特流的预定部分(层)。

在比特速率可缩放参数音频编码中，通常的实践是按照对比特流的感知重要性的顺序，增加音频对象(正弦波，瞬态和噪声)。特定帧中的各个正弦波根据其感知关联性进行排序，其中将最相关的正弦波设置在基层中。剩余的正弦波根据其感知关联性分布在细化层之间。全部的跟踪可以根据其感知关联性进行分类并分布在各层上，最相关的跟踪去往基层。为了实现各个正弦波和全部跟踪的这个感知排序，使用心理声学模型。

把最重要的噪声分量参数设置在基层上，同时把剩余噪声参数分布在细化层之间，这是众所周知的。这已被描述在以下文献中：题为Error Protection and Concealment for HILN MPEG-4ParametricAudio Coding(用于HILN MPEG-4参数编码的防错和隐蔽).H.Purnhagen，B.Edler，and N.Meine.Audio EngineeringSociety(AES)110th Convention，Preprint 5300，Amsterdam(NL)，May12-15，2001。

噪声分量总的来说也可以被添加到第二细化层。瞬态被认为是最不重要的信号分量。因此，它们通常被设置在一个较高细化层中。这被描述在以下文献中：题为A 6kbps to 85kbps Scalable AudioCoder(6kbps至85kbps可缩放音频编码器).T.S.Verma and T.H.Y.Meng.2000，IEEE International Conference on Acoustics，Speechand Signal Processing(ICASSP2000).pp.877-880.June 5--9，2000。

以上述方式构成的分层比特流的问题是：得到的每层的音频质量：通过从比特流中除去细化层而降低正弦波，这导致解码信号中的谱“空穴(hole)”。这些空穴未被噪声分量(或者任何其它的信号分量)填充，这是因为噪声在给定整个正弦分量时通常是编码器中导出的。此外，如果没有(整个)噪声分量，则引起附加人工产物。这些产生可缩放比特流的方法导致音频质量的不完美和不自然降级。

发明内容

本发明的目的是提供解决对上述问题的解决方案。

这是利用编码音频信号的方法来实现的，其中根据预定义编码方法从音频信号中生成代码信号，并且其中该方法还包括以下步骤：

-把音频信号变换成一组变换参数，所述变换参数至少定义所述音频信号中的谱-时间(spectro-temporal)信息的一部分，所述变换参数能够生成具有基本上类似于所述音频信号的谱-时间特征的噪声信号，以及

-利用所述代码信号和所述变换参数来代表所述音频信号。

因此，获得了信号的双重描述，包括两个编码步骤，即，第一标准编码和附加第二编码。第二编码能够提供信号的粗略描述，使得能够进行随机实现，并能够把合适的部分添加到来自第一解码的解码信号上。为了使随机信号的实现成为可能，第二解码器所要求的描述要求低的比特速率，而其它的双/多重描述将需要高得多的比特速率。变换参数例如可以是描述音频信号的频谱包络的滤波器系数以及描述时间能量或幅度包络的系数。可选择地，这些参数可以是由心理声学数据组成的附加信息，诸如音频信号的掩蔽曲线、激励图形或特定响度。

在一个实施例中，这些变换参数包括通过对音频信号执行线性预测而生成的预测系数。这是获得变换参数的一种简单方式，并且对于传输这些参数，只需要低比特速率。此外，这些参数使之有可能构成简单的解码过滤机制。

在一个特定的实施例中，代码信号包括定义所述音频信号的至少一个正弦分量的振幅和频率参数。由此，可以解决上述的参数编码器的问题。

在一个特定实施例中，变换参数代表所述音频信号的正弦分量的幅度的估算。因此，总的编码数据的比特速率被降低，并且此外获得对幅度参数的时间-差分编码的一种替代物。

在一个特定实施例中，对音频信号的重叠分段执行编码，从而对于每个分段，生成特定的参数组，这些参数包括分段特定的变换参数和分段特定的代码信号。因而，编码能够用于编码大量的音频数据，例如音频数据的活流(live stream)。

本发明还涉及依据变换参数和根据预定义编码方法生成的代码信号来解码音频信号的方法，该方法包括以下步骤：

-使用对应于所述预定义编码方法的解码方法，把所述代码信号解码成第一音频信号；

-从所述变换参数中生成具有基本上类似于所述音频信号的谱-时间特征的噪声信号；

-通过从噪声信号中除去已包含在第一音频信号中的音频信号的谱-时间部分，生成第二音频信号；和

-通过相加第一音频信号和第二音频信号，生成音频信号。

因而，该方法可以分类出利用解码方法生成的第一信号中的哪些谱-时间部分在丢失，并且可以利用适当(即，根据输入信号)噪声填充这些部分。这产生在谱-时间上更接近原始音频信号的音频信号。

在解码方法的一个实施例中，生成第二音频信号的所述步骤包括：

通过将第一音频信号的频谱与噪声信号的频谱进行比较，导出频率响应；和

根据所述频率响应，过滤噪声信号。

在解码方法的一个特定实施例中，生成第二音频信号的所述步骤包括：

-通过根据变换参数中的谱数据在频谱上展平(flatten)第一音频信号，生成第一剩余信号；

-通过根据变换参数中的时间数据在时间上整形噪声序列，生成第二剩余信号；

-通过比较第一剩余信号的频谱与第二剩余信号的频谱，导出频率响应；和

-根据所述频率响应，过滤噪声信号。

在解码方法的另一个实施例中，生成第二音频信号的所述步骤包括：

-通过根据变换参数中的频谱数据在频谱上展平第一音频信号，生成第一剩余信号；

-将第一剩余信号和第二剩余信号相加为和信号；

-导出用于在频谱上展平和信号的频率响应；

-通过根据所述频率响应过滤第二剩余信号，更新第二剩余信号；

-重复所述的相加、导出和更新步骤，直至和信号的频谱基本上是平坦的；和

-根据所有导出的频率响应，过滤噪声信号。

本发明还涉及用于编码音频信号的设备，该设备包括用于根据预定义编码方法生成代码信号的第一编码器，其中该设备还包括：

-第二编码器，用于把音频信号变换成定义所述音频信号中的谱-时间信息的至少一部分的一组变换参数，所述变换参数允许生成具有基本上类似于所述音频信号的谱-时间特征的噪声信号；和

-处理装置，用于利用所述代码信号和所述变换参数来表示所述音频信号。

本发明还涉及用于从变换参数和根据预定义编码方法生成的代码信号中解码音频信号的设备，该设备包括：

-第一解码器，用于利用对应于所述预定义编码方法的解码方法，把所述代码信号解码成第一音频信号；

-第二解码器，用于从所述变换参数中生成具有基本上类似于所述音频信号的谱-时间特征的噪声信号；

-第一处理装置，用于通过从噪声信号中除去已包含在第一音频信号中的音频信号的谱-时间部分，生成第二音频信号；和

-相加装置，用于通过相加第一音频信号和第二音频信号，生成音频信号。

本发明还涉及编码的音频信号，包括代码信号和一组变换参数，其中根据预定义编码方法从音频信号中生成所述代码信号，并且其中变换参数定义所述音频信号中的谱-时间信息的至少一部分，其中所述变换参数能够生成具有基本上类似于所述音频信号的谱-时间特征的噪声信号。

本发明还涉及计算机可读媒体，包括表示利用根据上述的编码方法编码的编码音频信号的数据记录。

附图说明

在下面，将参考附图描述本发明的优先实施例，其中

图1显示了根据本发明实施例的由于传送音频信号的系统的示意图；

图2显示了本发明的原理；

图3显示了根据本发明的解码器的原理；

图4显示了根据本发明的噪声信号生成器；

图5显示了将在噪声生成器中使用的控制部分的第一实施例；

图6显示了将在噪声成生器中使用的控制部分的第二实施例；

图7显示了其中使用本发明在特定编码器中改善性能的一个实例，其中第一编码器和第一解码器使用利用编码器的第二实施例创建的参数；

图8显示了线性预测分析和合成；

图9显示了根据本发明的编码器的第一有利实施例；

图10显示了用于解码利用图9的编码器编码的信号的解码器的实施例；

图11显示了根据本发明的编码器的第二有利实施例；

图12显示了用于解码利用图11的编码器编码的信号的解码器的

实施例。

具体实施方式

图1显示了根据本发明实施例的用于传送音频信号的系统的示意图。该系统包括用于生成编码音频信号的编码设备101；和用于把接收的编码信号解码成音频信号的解码设备105。编码设备101和解码设备105均可以是任何电子设备或者这种设备的一部分。这里，术语电子设备包括计算机诸如固定的和便携式PC、固定的和便携式无线电通信设备和其它的手持或便携式设备，诸如移动电话、寻呼机、音频播放机、多媒体播放机、通信器即电子组织器、智能电话、个人数字助理(PDA)、手持计算机或类似物。请注意，编码设备101和解码设备可以被组合在一个电子设备中，其中立体声信号被存储在计算机可读媒体中，用于以后再现。

编码设备101包括用于根据本发明编码音频信号的编码器102。该编码器接收音频信号x并生成编码的信号T。音频信号可以例如经由另一电子设备诸如混合设备等从一组麦克风中始发。这些信号还可以作为来自另一立体声播放器的输出来接收，或者作为无线电信号来无线接收，或者通过任何其它合适的手段来接收。下面将描述根据本发明的这样的编码器的优选实施例。根据一个实施例，编码器102连接到发射机103，用于经由通信信道109把已编码信号T发送给解码设备105。发射机103可以包括适合于例如经由有线或无线数据链路109进行数据通信的电路。这种发射机的例子包括：网络接口，网卡，无线电发射机，用于其它合适的电磁信号的发射机，诸如经由IrDa端口发射红外光的LED，例如，经由蓝牙收发信机的基于无线电的通信，等等。合适发射机的其它实例包括电缆调制解调器、电话调制解调器、综合业务数字网(ISDN)适配器、数字用户线(DSL)适配器、卫星收发信机、以太网适配器或类似物。相应地，通信信道109可以是例如基于分组的通信网络诸如因特网或其它TCP/IP网络的任何适合的有线或无线数据链路、短距离通信链路诸如红外链路、蓝牙连接或其它的基于无线电的链路。通信信道的其它实例包括计算机网络和无线电信网络，诸如蜂窝数字分组数据(CDPD)网络、全球移动系统(GSM)网络、码分多址(CDMA)网络、时分多址网络(TDMA)、通用分组无线电业务(GPRS)网络、第三代网络诸如UMTS网络或类似物。作为选择或另外，编码设备可以包括一个或多个其它接口104，用于把编码的立体信号T传送到解码设备105。

这种接口的例子包括用于在计算机可读媒体110上存储数据的盘驱动器，例如软盘驱动器、读/写CD-ROM驱动器和DVD驱动器等。其它的实例包括存储器卡槽、磁卡阅读器/写入器、用于接入智能卡的接口等。相应地，解码设备105包括：用于接收由发射机发射的信号的相应接收机108和/或用于接收经由接口104和计算机可读媒体110传送的编码立体声信号的另一接口106。解码设备还包括解码器107，其接收已接收信号T并把它解码成音频信号x’。下面将描述根据本发明的这种解码器的优选实施例。已解码的音频信号x’随后可以被馈入立体声播放机，用于经由一组扬声器、头戴耳机等重现。

对引言中所述的问题的解决方案是用于利用噪声补充解码音频信号的盲(blind)方法。这意味着：与带宽扩展工具相对照，第一编码器的知识是不需要的。然而，其中两个编码器和解码器都具有其特定操作的(部分)知识的专用解决方案是可能的。

图2显示了本发明的原理。该方法包括：第一编码器通过编码将由第一解码器203解码的音频信号x来生成比特流b1。在第一编码器与第一解码器之间，执行适配205，生成比特流b1’，该比特流b1’例如可以是在经由网络传输之前被除去的层，并且第一编码器和第一解码器都不知道如何执行适配。在第一解码器203中，解码适配的比特流b1’，得到信号x1’。根据本发明，第二编码器207分析整个输入信号x，以获得音频信号x的时间和频谱包络的描述。作为选择，第二编码器可以生成信息来捕获心理声学相关数据，例如由于输入信号引起的掩蔽曲线。这导致输入给第二解码器209的比特流b2。从这个辅助数据b2中，能够生成噪声信号，该噪声信号仅在时间和频谱包络中模拟输入信号，或者产生与原始输入相同的掩蔽曲线，但完全丢失与原始信号的波形匹配。依据第一解码信号x1’与噪声信号(的特征)的比较，在第二解码器209中确定必须进行补充的第一信号的部分，产生噪声信号x2’。最后，通过使用加法器211相加x1’和x2’，生成解码信号x’。

第二编码器207编码输入信号x或掩蔽曲线的的谱-时间包络的描述。导出谱-时间包络的典型方式是使用线性预测(产生预测系数，其中线性预测可以与FIR或IIR滤波器相关联)并分析通过对其(本地)能级或时间包络的线性预测(例如，通过时间噪声整形(TNS))产生的剩余物。在此情况下，比特流b2包含用于频谱包络的滤波器系数和用于时间振幅或能量包络的参数。

在图3中显示了用于生成附加噪声信号的第二解码器的原理。第二解码器301接收b2中的谱-时间信息，并且根据这个信息，生成器303可以生成具有与输入信号x相同的谱-时间包络的噪声信号r2’。然而，这个信号r2’丢失了与原始信号x的波形匹配。由于信号x的一部分已经包含在比特流b1中并因此包含在x1’中，具有输入b2’和x1’的控制部分305确定哪些谱-时间部分已被覆盖在x1’中。依据这个知识，可以设计时变滤波器307，其在被应用于噪声信号r2’时创建噪声信号x2’，覆盖那些不足地包含在x1’中的谱-时间部分。为了降低复杂性，来自生成器303的信息对于控制部分305是可接入的。

在谱-时间信息b2被包含在单独描述频谱和时间包络的滤波器系数中的情况下，生成器303中的处理通常包括：创建随机信号的实现；根据发射的时间包络调整其振幅(或能量)；以及利用合成滤波器进行滤波。在图4中更具体显示了在生成器303和时变滤波器307中可以包含哪些元件。信号创建x2’包括利用噪声生成器401生成(白)噪声序列以及三个处理步骤403、405和407：

-由时间整形器403根据b2中的数据进行时间包络适配，产生r2，

-由频谱整形器405根据b2中的数据进行频谱包络适配，产生r2’，和

-由自适应滤波器407使用来自图3中的控制部分305的时变系数c2进行过滤操作。

请注意，这三个处理步骤的顺序是相当任意的。自适应滤波器407可以利用横向滤波器(抽头式样延迟线)、ARMA滤波器通过在频域中滤波来实现，或者通过心理声学激励滤波器诸如出现在翘曲线性预测或者基于Laguerre和Kautz的线性预测中的滤波器来实现。

存在许多方式来定义自适应滤波器407和由控制部分估算其参数c2。

图5显示了在控制部分和自适应滤波器中通过使用直接比较执行的处理的第一实施例。通过分别在501和503取(开窗口的)傅里叶变换的绝对值，可以创建(本地)x1’和r2’的频谱X1’和R2’。在比较器505中，比较频谱x1’和r2’，根据x1’和r2’的特征的差值定义目标滤波器频谱。例如，可以把0的值分配给其中x1’的频谱超过r2’的频谱的那些频率，而1的值可以另外进行设置。然后，这指定希望的频率响应，并且若干标准过程可以用于构建近似这个频率特性的滤波器。在滤波器设计方框507中执行的滤波器的结构产生滤波(器)系数c2。在基于滤波器系数c2的陷波滤波器509中，过滤噪声信号r2’，从而噪声信号x2’仅包括那些未充分包含在x1’中的谱-时间部分。最后，通过相加x1’和x2’，生成解码信号x’。作为上面的一种选择，可以直接从参数流b2中导出R2’。

图6显示了在控制部分和自适应滤波器中通过使用剩余比较执行的处理的第二实施例。在这个实施例中，假设比特流b2包含在编码器Enc2中应用于输入音频x的预测滤波器的系数。随后，利用与这些预测系数相关联的分析滤波器可以过滤信号x1’，创建剩余信号r1。因而，x1’首先在601中基于b2的频谱数据在频谱上被展平，产生信号r1。然后，在603中从r1中确定本地傅里叶变换R1。将R1的频谱与R2的频谱即r2的频谱进行比较。由于r2是通过基于数据b2将包络应用于由NG产生的白噪声信号的顶部而创建的，因此可以从b2的参数中直接确定R2的频谱。在605中执行的比较定义目标滤波器频谱，其被输入到滤波器设计方框607，产生滤波器系数c2。

对于频谱比较的一种替代方式是使用线性预测。假定比特流b2包含应用于第二编码器中的预测滤波器的系数。然后，可以利用与这些预测滤波器相关联的分析滤波器过滤信号x1’，创建剩余信号r1。自适应滤波器AF可以被定义为：

F (z) = c_{0} [1 - Σ_{l = 1}^{L} c_{l} F_{l} (z)]

具有任意稳定的因果滤波器F₁(z)。控制部分的任务则是估算系数c_1，1＝0，1，...，L。

利用F(z)过滤的r1和r2之和应具有平坦频谱。现在可以按照迭代方式确定这些系数。过程如下：

-构建是r1加r2的信号sk，其中在第一迭代k＝1中，利用r2，1＝r2开始。

-通过线性预测，信号sk的频谱被展平。线性预测定义滤波器F^(k)。这个滤波器被应用于r2，k，创建r2，k+1。这个信号用于下一迭代中。

-当F^(k)充分接近普通滤波器时，即，在信号Sk不再可能被展平以及c₁，...c_L≈0时，迭代停止。

实际上，单个迭代也许是足够的。自适应滤波器由滤波器F⁽¹⁾至F^(k-1)的级联组成，其中k是最后迭代。

虽然未在图2中示出，但是比特流b2也可以是部分可缩放的。只要剩余的谱-时间信息对于保证第二解码器适当起作用是足够完整的，这就被允许。

在上面，该方案已被呈现为通用附加途径。显然，第一和第二编码器以及第一和第二解码器可以被合并，因而获得具有更佳性能(在质量、比特率和/或复杂度方面)优点的专用编码器，但以丢失通用性为代价。在图7中显示了这种情况的一个实例，其中使用多路复用器705，把由第一编码器701和第二编码器703生成的比特流b1和b2合并成单个比特流，并且其中第一编码器701使用来自第二编码器703的信息。结果，解码器707使用流b1和b2的信息来构建x1’。

在甚至进一步耦合中，第二编码器可以使用第一编码器的信息，并且噪声的解码则是以b为基础，即，再也没有明的分离。在所有情况下，比特流b只可以在它不是实质上影响能够构建适当的互补噪声信号的操作的范围内进行定标。

在下面，将给出在本发明与以比特速率可缩放模式操作的参数(或正弦)音频编码器组合使用时的特定实例。

限制到一帧的音频信号被表示为x[n]。这个实施例的基础是：通过在音频编码器中应用线性预测来近似x[n]的谱形状。在图8中显示了这些预测方案的一般方框图。利用LPA模块801来预测被限制到一帧的音频信号x[n]，产生预测剩余物r[n]和预测系数α1，...αk，其中预测级是k。

当通过最小化以下内容来确定预测系数α1，...αk时，预测剩余物r[n]是x[n]的频谱展平版本：

∑_n|r[n]²或者r[n]的加权版本。

线性预测分析模决LPA的传递函数可以利用F_A(z)＝F_A(α1，...αk；z)来表示，并且分析模块LPS的传递函数可以利用Fs(z)来表示，其中

Fs (z) = \frac{1}{F_{A} (z)}

LPA和LPS模块的脉冲响应能够分别利用f_A[n]和fs[n]来表示。在编码器中逐帧测量剩余信号r[n]的时间包络Er[n]，并且将其参数pE设置在比特流中。

解码器通过利用正弦频率参数产生补充正弦分量的噪声分量。将可以从比特流中所包含的数据pE中重建的时间包络Er[n]应用于频谱平坦的随机信号，获得r_random[n]，其中r_random[n]具有与r[n]相同的时间包络。r_random在下面也将被称为rr。

与这个帧相关联的正弦频率利用θ1，...，θNc来表示。通常，假设这些频率在参数音频编码器中是常数，然而，由于它们被链接以形成跟踪轨迹，因此它们可以线性地变化，例如，以便在帧边界上确保较平滑的频率过渡。

随后在这些频率上，通过将随机信号与下面的带阻滤波器的脉冲响应卷积来衰减该随机信号：

m[n]＝rr[n]*f_n[n]

其中f_n[n]＝f_n(θ1，...，θNc；n)，并且*代表卷积。通过把LPS模块(图8中的803)应用于rn[n]，逼近除了在编码的正弦波周围的频率区域之外的原始帧x[n]的谱形状，得到该帧的噪声分量：

xn[n]＝m[n]*f_s[n]

因此，根据正弦分量来适配噪声分量，以获得预期的谱形状。

帧x[n]的解码版本x’[n]是正弦和噪声分量之和。

x’[n]＝xs[n]+xn[n]

应注意，正弦分量xs[n]是按通常方式从比特流中包含的正弦参数中解码的：

xs [n] = Σ_{m = 1}^{Nc} am \cos (φm + θm [n] n)

其中am和φm分别是正弦波m的振幅和相位；并且比特流包含Nc正弦波。

从时间包络中导出的预测系数α1，...αK和平均功率p提供正弦振幅参数的估算：

预测误差δ_m[n]＝a_m[n]-_m[n]期望是小的，并且编码它们是便宜的。结果，如同参数音频编码器中的标准实践，不再对振幅参数进行帧间差分编码。反而，编码δ_m[n]’。这是超越当前的振幅参数编码的优点，因为δ_m[n]’对帧擦除不敏感。频率参数仍然被帧间差分编码的。当分层比特流中不包含振幅参数时，在解码器中通过以下来估算正弦分量：

下面，将说明使用上述理论的具体实例。

在解码器中执行的分析处理使用重叠振幅问候窗口(complimentary window)，以获得预测系数和正弦参数。应用于帧的窗口利用w[n]来表示。合适的窗口是Hann窗口：

w [n] = \{\begin{matrix} \frac{1}{2} - \frac{1}{2} \cos (2 π \frac{n - 1}{Ns - 1}) & ifn = 1, . . . ., Ns \\ 0 & else \end{matrix}

具有对应于10-60ms的Ns采样的持续时间。输入信号经由根据测量预测系数定期更新其系数的分析滤波器被馈送，因而创建了剩余信号r[n]。时间包络Er[n]被测量，并且其参数Ep被放入比特流中。此外，预测系数和正弦参数被放置在比特流中并且也被发送给解码器。

在解码器中，从自激(free running)噪声生成器中生成频谱平坦的随机信号rstochastic[n]。用于该帧的随机信号的振幅被调整，以使得其包络对应于比特流中的数据pE，产生信号rframe[n]。

信号rframe[n]被窗口化，并且这个窗口化信号的傅里叶变换利用Rw来表示。从这个傅里叶变换中，由带阻滤波器除去在发送的正弦分量周围的区域。

带阻滤波器在频率θ1[n]，...，θNc[n]具有零值，该带阻滤波器具有以下传递函数：

Fn (θ_{1}, . . ., θ_{Nc}; e^{jθ}) = 1 - Σ_{m = 1}^{Nc} (wn (θ - θm) + wn (θ - [2 π - θm]))

其中wn(θ)是Hann窗口：

wn (θ) = \{\begin{matrix} \frac{1}{2} - \frac{1}{2} \cos (π \frac{θ}{θ_{BW}}) & if | θ \leq θ_{Bw} | \\ 0 & else \end{matrix}

其中(有效)带宽θ_BW等于时间窗w[n]的(频谱)主瓣的宽度。通过应用带阻滤波器和LPS模块获得该帧的噪声分量：xn＝IDFT(Rw·Fn·Fs)，其中Fn和Fs是Fs和Fn的适当采样的版本，并且其中IDFT是逆DFT。连续序列xn可以被重叠相加，以形成完整的噪声信号。

在图9中，显示了本发明的编码器的一个实施例。首先，使用线性预测分析器901对音频信号执行线性预测分析，这产生预测系数α1，...αK和剩余物r[n]。接下来，在903中确定剩余物的时间包络Er[n]，并且输出包括参数pE。r[n]和原始音频信号x[n]与pE一起被输入给剩余编码器905。剩余编码器是修正的正弦编码器。在利用x[n]的同时对剩余r[n]中包含的正弦波进行编码，产生编码的剩余Cr。(从x[n]中以正弦波的频谱和时间掩蔽效应和感知相关性的形式获得感知信息)。此外，pE用来以类似于上述的方式对正弦波振幅参数进行编码。然后，利用α1，...αk，pE和cr来代表音频信号x。

在图10中显示了用于解码参数α1，...αk，pE和cr以生成解码的音频信号x’的解码器。在该解码器中，在剩余解码器1005中解码cr，产生rs[n]，这是r[n]中包含的确定性分量(或正弦波)的近似。cr中包含的正弦波频率参数θ1，...θNc还被馈入带阻滤波器1001。白噪声模块1003产生具有时间包络Er[n]的频谱平坦的随机信号rr[n]。利用带阻滤波器1001过滤rr[n]，产生rn[n]，该rn[n]在1008中加到rs[n]上，得到频谱平坦的rd[n]，这是编码器中的剩余物r[n]的近似。通过把线性预测合成滤波器1007应用于rd[n]，在给定预测系数α1，...αk的情况中，近似原始音频信号的频谱包络。所得到的信号x’[n]是x[n]的解码版本。

在图11中显示了根据本发明的编码器的另一实施例。由正弦编码器1101编码音频信号x[n]本身；这与图9中的实施例相反。线性预测分析1103应用于音频信号x[n]，产生预测系数α1，...αk和剩余物r[n]。在1105中确定剩余物的时间包络Er[n]，并且其参数包含在pE中。x[n]中包含的正弦波利用正弦编码器1101来编码，其中pE和预测系数α1，...αk如上讨论用于编码振幅参数，并且结果是编码的信号cx。然后，利用α1，...αk、pE和cx来代表音频信号x。

在图12中显示了解码参数α1，...αk、pE和cx以生成解码音频信号x’的解码器。在该解码器方案中，利用正弦解码器1201同时使用pE和预测系数α1，...αk对cx解码，得到xs[n]。白噪声模块1203产生频谱平坦的随机信号rr[n]，具有Er[n]的时间包络。cx中包含的正弦频率参数θ1，...，θNc被馈送给带阻滤波器1205。把带阻滤波器1205应用于rr[n]，得到rn[n]。然后，把LPS模块1207应用于rn[n]，给定预测系数α1，...αk，得到噪声分量xn[n]。相加xn[n]和xs[n]得到x’[n]，这是x[n]的已解码版本。

请注意，以上可以被实施为通用或专用可编程微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、专用电子电路等或其组合。

应当注意，上述实施例说明而不是限制本发明，并且本领域熟练技术人员将能够设计许多替代实施例，而不背离所附权利要求书的范围。在权利要求书中，任何置于括号之间的参考符号不应被构成为限制该权利要求。词“包括”并不排除除了权利要求中所列之外的其它元件或步骤的存在。本发明可以利用包括若干不同元件的硬件以及利用合适编程的计算机来实现。在列举若干装置的设备权利要求中，这些装置中的若干装置可以利用同一个硬件项来实施。在互不相同的从属权利要求中表述某些措施的唯一事实并不表示这些措施的组合不能被有利使用。

Claims

1、一种编码音频信号(x)的方法，其中根据预定义编码方法(201)从音频信号(x)中生成代码信号(b1)，以及其中该方法还包括以下步骤：

-把音频信号(x)变换(207)成一组变换参数(b2)，所述变换参数定义所述音频信号(x)中的谱-时间信息的至少一部分，所述变换参数(b2)能够生成具有基本上类似于所述音频信号的谱-时间特征的噪声信号，和

-利用所述代码信号(b1)和所述变换参数(b2)来表示所述音频信号(x)。

2、根据权利要求1所述的方法，其中变换参数(b 2)包括音频信号(x)的至少一个预测系数(α1，…αk)和/或能级和/或振幅电平和/或增益和/或功率电平。

3、根据权利要求1或2所述的方法，其中变换参数(b2)包括音频信号(x)的心理声学数据诸如掩蔽曲线和/或激励图形和/或响度。

4、根据权利要求1-3之中任何一项权利要求所述的方法，其中代码信号(b1)包括定义所述音频信号(x)的至少一个正弦分量的振幅和频率参数。

5、根据权利要求1-4之中任何一项权利要求所述的方法，其中变换参数(b2)表示所述音频信号(x)的正弦分量的振幅的估算。

6、一种从变换参数(b2)和根据预定义编码方法(201)生成的代码信号(b1)中解码音频信号的方法，该方法包括以下步骤：

-使用对应于所述预定义编码方法(201)的解码方法(203)，将所述代码信号(b1)解码成第一音频信号(x1’)；

-从所述变换参数(b2)中，生成具有基本上类似于所述音频信号的谱-时间特征的噪声信号(r2’)；

-通过从噪声信号(r2)中除去已包含在第一音频信号(x1’)中的音频信号的谱-时间部分，生成第二音频信号(x2’)，和

-通过相加(211)第一音频信号(x1’)和第二音频信号(x2’)，生成音频信号(x’)。

7、根据权利要求6所述的方法，其中生成第二音频信号(x2’)的所述步骤包括：

-通过将第一音频信号(x1’)的频谱与噪声信号(r2’)的频谱相比较，导出频率响应；和

根据所述频率响应，过滤噪声信号(r2’)。

8、根据权利要求6所述的方法，其中生成第二音频信号(x2’)的所述步骤包括：

-通过根据变换参数(b2)中的频谱数据在频谱上展平第一音频信号(x1’)，生成第一剩余信号(r1)；

-通过根据变换参数(b2)中的时间数据在时间上整形噪声序列，生成第二剩余信号(r2)；

-通过将第一剩余信号(r1)的频谱与第二剩余信号(r2)的频谱进行比较，导出频率响应；和

-根据所述频率响应，过滤噪声信号(r2’)。

9、根据权利要求6所述的方法，其中生成第二音频信号(x2’)的所述步骤包括：

-通过依据变换参数(b2)中的频谱数据在频谱上展平第一音频信号(x1’)，生成第一剩余信号(r1)；

-通过依据变换参数(b2)中的频谱数据在时间上整形噪声序列，生成第二剩余信号(r2)；

-把第一剩余信号(r1)和第二剩余信号(r2)相加成和信号(sk)；

-导出频率响应，用于在频谱上展平和信号(sk)；

-通过根据所述频率响应过滤第二剩余信号(r2)，更新第二剩余信号(r2)；

-重复所述的相加、导出和更新步骤，直至和信号(sk)的频谱基本上是平坦的；和

-根据所有导出的频率响应，过滤噪声信号(r2’)。

10、一种编码音频信号(x)的设备(102)，该设备包括用于根据预定义编码方法生成代码信号(b1)的第一编码器(701)，其中该设备还包括：

-第二编码器(703)，用于把音频信号(x)变换成定义所述音频信号(x)中的谱-时间信息的至少一部分的一组变换参数(b2)，所述变换参数(b2)允许生成具有基本上类似于所述音频信号(x)的谱-时间特征的噪声信号；和

-处理装置(705)，用于利用所述代码信号(b1)和所述变换参数(b2)来表示所述音频信号(x)。

11、一种用于从变换参数(b2)和根据预定义编码方法(201)生成的代码信号(b1)中解码音频信号的设备(107)，该设备包括：

-第一解码器(203)，用于利用对应于所述预定义编码方法(201)的解码方法，把所述代码信号(b1)解码成第一音频信号(x1’)；

-第二解码器(209)，用于从所述变换参数(b2)中生成具有基本上类似于所述音频信号的谱-时间特征的噪声信号(r2’)；

-第一处理装置(305，307)，用于通过从噪声信号(r2’)中除去已包含在第一音频信号(x1’)中的音频信号的谱-时间部分，生成第二音频信号(x2’)；和

-相加装置(211)，用于通过相加第一音频信号(x1’)和第二音频信号(x2’)，生成音频信号(x’)。

12、一种编码音频信号(b)，包括代码信号(b1)和一组变换参数(b2)，其中根据预定义编码方法(201)从音频信号(x)中生成所述代码信号(b1)，以及其中变换参数(b2)定义所述音频信号(x)中的谱-时间信息的至少一部分，其中所述变换参数(b2)能够生成具有基本上类似于所述音频信号的谱-时间特征的噪声信号。

13、一种计算机可读媒体，包括表示根据权利要求11的编码音频信号的数据记录。