CN103177726B

CN103177726B - 音频信号的分类

Info

Publication number: CN103177726B
Application number: CN201310059627.XA
Authority: CN
Inventors: 雅纳·韦尼奥; 阿尼·米克科拉; 帕西·奥雅拉; 雅里·马基南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2004-02-23
Filing date: 2005-02-16
Publication date: 2016-11-02
Anticipated expiration: 2025-02-16
Also published as: EP1719119B1; ZA200606713B; CA2555352A1; JP2007523372A; US8438019B2; BRPI0508328A; US20050192798A1; ES2337270T3; KR20080093074A; FI20045051L; KR100962681B1; DE602005019138D1; WO2005081230A1; EP1719119A1; KR20070088276A; CN103177726A; AU2005215744A1; CN1922658A; FI118834B; ATE456847T1

Abstract

本发明涉及一种编码器(200)，该编码器包括一个输入(201)，用来输入在一个频带中的音频信号的帧，包括至少第一激励块(206)，用来对类语音音频信号执行第一激励，以及第二激励块(207)，用来对非类语音音频信号执行第二激励。该编码器(200)还包括滤波器(300)，用来将该频带划分成多个子带，每个子带的带宽比所述频带更窄。该编码器(200)还包括激励选择块(203)，用于根据至少在一个所述子带处的所述音频信号的性质在所述至少第一激励块(206)和所述第二激励块(207)之中选择一个激励块，用来为该音频信号的帧执行激励。本发明还涉及一种设备、一种系统、一种方法和一种计算机程序的存储介质。

Description

音频信号的分类

相关申请引用

本申请是申请日为2005年2月16日、国际申请号为PCT/FI2005/050035、进入国家阶段日期为2006年8月22、中国申请号为200580005608.2的发明专利申请的分案申请。

技术领域

本发明涉及语音和音频编码，其中编码模式根据输入信号是类语音还是类音乐信号而改变。本发明涉及一种编码器，该编码器包括一个输入，用来输入在一个频带中的音频信号的帧，包括至少第一激励块，用来对类语音音频信号执行第一激励，以及第二激励块，用来对非类语音音频信号执行第二激励。本发明还涉及一种设备，该设备包括一个编码器，该编码器包括一个输入，用来输入在一个频带中音频信号的帧，包括至少第一激励块，用来对类语音音频信号执行第一激励，以及第二激励块，用来对非类语音音频信号执行第二激励。本发明还涉及一种系统，该系统包括一个编码器，该编码器包括一个输入，用来输入在一个频带中的音频信号的帧，包括至少第一激励块，用来对类语音音频信号执行第一激励，以及第二激励块，用来对非类语音音频信号执行第二激励。本发明还包括一种方法，用来压缩在一个频带中的音频信号，其中第一激励用于类语音音频信号，第二激励用于非类语音音频信号。本发明涉及一种模块，用来对在一个频带中的音频信号的帧进行分类，用于在至少用于类语音音频信号的第一激励和用于非类语音音频信号的第二激励中选择一个激励。本发明涉及一种计算机程序产品，该计算机程序产品包括一些机器可执行的步骤，用来压缩在一个频带中的音频信号，其中第一激励用于类语音音频信号，第二激励用于非类语音音频信号。

背景技术

在许多音频信号处理应用中，压缩音频信号，来减少在处理音频信号时的处理能力需求。例如，在数字通信系统中，在例如移动台的用户设备和基站之间的无线空中接口上传输之前，捕获一般是模拟信号的音频信号，在模-数(A/D)转换器中进行数字化，然后编码。编码的目的是压缩数字化信号，在空中接口上以最小量的数据传输它，同时保持可接受的信号质量水平。在蜂窝通信网络中无线空中接口上的无线信道容量有限的情况下，这尤为重要。还有一些应用，其中数字化音频信号存储在存储介质中，用于以后重现这些音频信号。

压缩可以是有损的，也可以是无损的。在有损压缩中，在压缩期间损失了一些信息，其中无法从压缩的信号完全重构原始信号。在无损压缩中，通常不损失信息。因此，一般可以从压缩的信号完全重构原始信号。

术语音频信号一般被理解为包含语音、音乐(非语音)或同时包含这两者的信号。语音和音乐的不同特性使得设计一种对语音和音乐都能工作的很好的压缩算法相当困难。因此，这个问题通常通过对音乐和语音设计不同的算法，并且利用某种形式的识别算法识别该音频信号是类语音还是类音乐，以及根据识别的结果选择适当的算法来解决。

总之，在语音和音乐或非语音信号之间进行完全的分类是一项困难的任务。所需的精确性很大程度上依赖于应用。在一些应用中，例如在语音识别，或者在用于存储和检索目的的精确存档中，精确性是非常重要的。但是如果分类是用于为输入信号选择最优压缩方法，那么情况就有些不一样。在这种情况下，可能会发生不存在一种压缩方法，其对于语音总是最优的，以及另一种压缩方法，其对于音乐或非语音信号总是最优的。实际上，对于语音瞬变的压缩方法也可以对于音乐瞬变非常有效。也可能对强音调分量的音乐压缩同样适应于浊音段。因此在这些情况下，用于仅完全针对语音和音乐进行分类的方法并不会生成选择最佳压缩方法的最优算法。

通常可以认为语音的带宽限制在约200赫兹至3400赫兹之间。A/D转换器在将模拟语音信号转换成数字信号时所用的采样率一般为8k赫兹或16k赫兹。音乐或非语音信号可能包含远在一般语音带宽之上的频率分量。在一些应用中，音频系统应当能够处理在大约20赫兹至20000k赫兹之间的频带。这类信号的采样率应当至少在40000k赫兹左右，以避免混叠。这里应当注意上面提到的这些值只是非限制性的例子。例如在一些系统中，音乐信号的上限可以是约10000k赫兹甚至比它还小。

采样的数字信号随后被编码，通常逐帧进行，从而产生数字数据流，其比特率由用于编码的编解码器决定。比特率越高就有更多的数据被编码，使得输入帧的表示更为准确。编码的音频信号随后被解码，并通过一个数模(D/A)转换器以重构信号，该信号尽可能接近原始信号。

理想的编解码器会用尽可能少的比特来编码音频信号从而优化信道容量，同时产生听起来与原始音频信号尽可能接近的解码的音频信号。实际上，这通常是在编解码器的比特率和解码的音频的质量之间的一种平衡。

目前，存在许多不同的编解码器，例如，自适应多速率(AMR)编解码器和自适应多速率宽带(AMR-WB)编解码器，它们被开发为用来压缩和编码音频信号。AMR由第三代合作项目(3GPP)为GSM/EDGE和WCDMA通信网络开发。此外，已经可以设想AMR将会用于分组交换网络。AMR基于代数码激励线性预测(ACELP)编码。AMR和AMR WB编解码器分别包括8和9活跃(active)比特率，还包括话音活动检测(VAD)和非连续传输(DTX)功能。目前，AMR编解码器的采样速率是8k赫兹，AMR WB编解码器的采样速率是16k赫兹。显然，上述编解码器和采样速率只是非限制性的例子。

ACELP编码采用信号源是怎样产生的模型而操作，并且从信号中提取模型参数。更具体的说，ACELP编码基于人类发声系统的模型，其中喉咙和嘴巴被建模为线性滤波器，以及语音由空气定期振动激励滤波器产生。编码器逐帧分析语音，并且编码器对每一帧产生并输出一组代表建模的语音的参数。该组参数可以包括滤波器的激励参数和系数以及其他参数。语音编码器的输出通常称为输入语音信号的参数表示。该组参数随后由一个适当地配置的解码器进行使用，以重新生成输入语音信号。

对于一些输入信号而言，类脉冲ACELP-激励产生了更高的质量，并且对于一些输入信号而言，变换编码激励(TCX)更为最优。这里假设ACELP-激励最常作为用于典型的语音内容的输入信号，TCX-激励最常作为用于典型的音乐的输入信号。但是，并不总是这样，也就是说有时候，语音信号具有类音乐的部分，而音乐信号具有类语音的部分。在本申请中，类语音信号的定义是语音的大部分属于该类别，并且音乐的一部分也可能属于这个类别。对于类音乐信号而言，定义正好相反。此外，存在一些在某种意义上是中性的语音信号部分和音乐信号部分，它们可以属于这两种分类。

激励的选择可以以多种方式进行：最复杂和相当好的方法是同时编码ACELP和TCX-激励，然后基于合成的语音信号选择最佳激励。这种分析综合类型的方法会提供较好的效果，但是在一些应用中，由于该方法过于复杂而不实际。在该方法中，可以采用例如SNR类型的算法来度量由这两种激励所产生的质量。这种方法可以称为“强力”方法，因为它尝试了不同激励的所有组合，并且之后才选择最佳的一个。复杂性较低的方法将只是通过事先分析信号特性，执行一次综合，随后选择最佳激励。该方法也可以是预选择和“强力”的组合，以在质量和复杂性之间进行折衷。

图1给出了具有现有技术高复杂性分类的简化的编码器100。音频信号被输入到输入信号块101，其中对信号进行数字化和滤波。输入信号块101还从数字化和滤波后的信号生成帧。这些帧被输入到线性预测编码(LPC)分析块102。它对数字化输入信号进行逐帧的LPC分析，以找到与输入信号匹配最好的参数集合。确定的参数(LPC参数)被量化并从编码器100输出109。编码器100还用LPC合成块103、104产生两个输出信号。第一LPC合成块103采用由TCX激励块105产生的信号，来合成音频信号以发现产生针对TCX激励的最佳结果的码矢量。第二LPC合成块104采用由ACELP激励块106产生的信号，来合成音频信号以发现产生ACELP激励最佳结果的码矢量。在激励选择块107中，比较由LPC合成块103、104所产生的信号，以确定哪个激励方法给出了最佳(最优)激励。选定的激励信号的参数和选定的激励方法的信息例如被量化和被信道编码108，随后从编码器100中输出109这些信号以进行传输。

发明内容

本发明的一个目的是提供一种改进的方法，用于利用信号的频率信息对类语音和类音乐信号进行分类。存在类音乐语音信号段以及类语音音乐信号段，并且在语音和音乐中，有些信号段可以属于任意一种类型。换句话说，本发明并不完全在语音和音乐之间分类。但是本发明定义了根据某些条件将输入信号划分成类音乐和类语音分量的手段。分类信息可以在例如多模式编码器中使用，用来选择编码模式。

本发明的基本思想是将输入信号划分成若干频带，分析这些频带中低频带和高频带之间的关系和能量水平变化，并且基于这两种计算度量或者那些度量的若干不同组合，利用不同的分析窗口或决定阈值，将信号分类为类音乐和类语音。该信息可以用于，例如为所分析的信号选择压缩方法。

根据本发明的编码器的主要特征在于，该编码器还包括一个滤波器，用来将该频带划分成多个子带，每个子带的带宽比所述频带更窄，该编码器还包括一个激励选择块，用于根据至少在一个所述子带处的所述音频信号的性质，在所述至少第一激励块和所述第二激励块之中选择一个激励块，用来为该音频信号的帧执行激励。

根据本发明的设备的主要特征在于，所述编码器还包括一个滤波器，用来将该频带划分成多个子带，每个子带的带宽比所述频带更窄，该设备还包括一个激励选择块，用于根据至少在一个所述子带处的所述音频信号的性质，在所述至少第一激励块和所述第二激励块之中选择一个激励块，用来为该音频信号的帧执行激励。

根据本发明的系统的主要特征在于，所述编码器还包括一个滤波器，用来将该频带划分成多个子带，每个子带的带宽比所述频带更窄，该系统还包括一个激励选择块，用于根据至少在一个所述子带处的所述音频信号的性质，在所述至少第一激励块和所述第二激励块之中选择一个激励块，用来为该音频信号的帧执行激励。

根据本发明的方法的主要特征在于，将该频带划分成多个子带，每个子带的带宽比所述频带更窄，以及根据至少在一个所述子带处的所述音频信号的性质，在所述至少第一激励和所述第二激励之中选择一个激励，用来为该音频信号的帧执行激励。

根据本发明的模块的主要特征在于，该模块还包括一个输入，用来输入指示该频带被划分成多个子带的信息，其中每个子带的带宽比所述频带更窄，该模块还包括一个激励选择块，用于根据至少在一个所述子带处的所述音频信号的性质，在所述至少第一激励块和所述第二激励块之中选择一个激励块，用来为该音频信号的帧执行激励。

根据本发明的计算机程序产品的主要特征在于，该计算机程序产品还包括这样的机器可执行步骤：将该频带划分成多个子带，每个子带的带宽比所述频带更窄，以及这样的机器可执行步骤：根据至少在一个所述子带处的所述音频信号的性质在所述至少第一激励和所述第二激励之中选择一个激励，用来为该音频信号的帧执行激励。

在本申请中，定义术语“类语音”和“类音乐”来将本发明与典型的语音和音乐分类相区分。即使约90％的语音在根据本发明的系统中被分类成类语音，其余的语音信号仍可以定义成类音乐信号，如果压缩算法的选择基于这种分类，则可以提高音频质量。此外，典型的音乐信号在80％-90％的情况下可以被分类成类音乐信号，但是将部分音乐信号划入类语音类别会提高压缩系统的声音信号质量。因此，在与现有技术和系统比较时，本发明具有明显优势。通过利用根据本发明的分类方法，可以提高重现的声音质量，而不会大幅度影响压缩效率。

与前面提到的强力方法比较，本发明提供了一种复杂性小得多的预选择类型方法，来在两种激励类型之间作出选择。本发明将输入信号划分成频带，并分析低频带和高频带之间的关系，并且还可以使用例如那些频带中的能量水平变化，并将信号分类成类音乐或类语音。

附图说明

图1给出了具有现有技术高复杂性分类的简化的编码器，

图2给出了具有按照本发明分类的编码器的示例性实施例，

图3举例说明了AMR-WB VAD算法中VAD滤波器组结构的一个例子，

图4示出了VAD滤波器组中能量水平标准偏差随音乐信号中低能量分量和高能量分量的关系而变化的图示的一个例子，

图5示出了VAD滤波器组中能量水平标准偏差随语音信号中低能量分量和高能量分量的关系而变化的图示的一个例子，

图6示出了音乐和语音信号组合图示的一个例子，以及

图7示出了根据本发明的系统的一个例子。

具体实施方式

下面将参考图2详细描述按照本发明示例性实施例的编码器200。编码器200包括一个输入块201，用于在需要时对输入信号进行数字化、滤波和成帧。这里应当注意，输入信号可能已经处于适合编码处理的形式。例如，输入信号可能在较早阶段已经进行了数字化，并且存储在存储介质中(未示出)。输入信号帧被输入到话音活动检测块202。话音活动检测块202输出多个窄带信号，它们被输入到激励选择块203中。激励选择块203分析该信号，决定哪一种激励方法最适合编码该输入信号。激励选择块203产生一个控制信号204，用于根据激励方法的确定，控制选择装置205。如果确定用于编码输入信号的当前帧的最佳激励方法是第一激励方法，控制选择装置205选择第一激励块206的信号。如果确定用于编码输入信号的当前帧的最佳激励方法是第二激励方法，控制选择装置205选择第二激励块207的信号。尽管图2的编码器只有第一激励块206和第二激励块207用于编码处理，显然编码器200中也可以有多于两种用于不同的激励方法的不同的激励块，用于对输入信号进行编码。

第一激励块206产生例如TCX激励信号，并且第二激励块207产生例如ACELP激励信号。

LPC分析块208对数字化的输入信号逐帧进行LPC分析，以找到最匹配输入信号的参数集合。

LPC参数210和激励参数211，例如在量化和编码块212中进行量化和编码，然后传送例如到通信网络704(图7)。但是，不一定需要传送这些参数，它们可以例如存储在存储介质中，并且在下一阶段被检索，以进行传输或者解码。

图3描绘了滤波器300的一个例子，它可以用于编码器200中用于信号分析。滤波器300是例如AMR-WB编解码器的话音活动检测块的滤波器组，其中不需要一个单独的滤波器，但是也可以使用其他滤波器用于该目的。滤波器300包括两个或多个滤波器块301，以将输入信号划分成不同频率上的两个或多个子带信号。换句话说，滤波器300的每个输出信号代表了输入信号的特定频带。滤波器300的输出信号可以用于激励选择块203，用来确定输入信号的频率内容。

激励选择块203评估滤波器组300的每个输出的能量水平，分析低频和高频子带之间的关系，以及这些子带中的能量水平变化，并且将信号划分成类音乐和类语音。

本发明基于检查输入信号的频率内容，为输入信号帧选择激励方法。以下采用AMR-WB扩展(AMR-WB+)作为用来将输入信号分类成类语音和类音乐，以及分别为这些信号选择ACELP或者TCX激励的实际例子。但是，本发明并不局限于AMR-WB编解码器或者ACELP和TCX激励方法。

在扩展的AMR-WB(AMR-WB+)编解码器中，有两种激励类型用于LP合成：类ACELP脉冲激励和变换编码激励(TCX)。ACELP激励与原始3GPP AMR-WB标准(3GPP TS26.190)中已经采用的相同，TCX是在扩展AMR-WB中实施的一种改进。

AMR-WB扩展例子基于AMR-WB VAD滤波器组，后者为每个20毫秒输入帧在频率范围从0-6400赫兹上产生12个子带中的信号能量E(n)，如图3所示。滤波器组的带宽通常并不相等，而是可以在不同频带上有所变化，这点可以在图3中看出。此外，子带的数目也可以有所变化，并且子带可以部分重叠。随后，如下对每个子带的能量水平进行归一化：将每个子带能量水平E(n)除以该子带的宽度(以赫兹为单位)，来产生每个频带的归一化EN(n)能量水平，其中n是频带号，范围从0-11。序号0是指图3所示的最低子带。

在激励选择块203中，利用例如两个窗口：短窗口stdshort(n)和长窗口stdlong(n)，对12个子带的每一个计算能量水平的标准偏差。对AMR-WB+情况而言，短窗口的长度是4帧，长窗口的长度是16帧。在这些计算中，利用过去的3或者15帧和当前帧的12个能量水平得出这两个标准偏差值。该计算的特殊特征是，只有在话音活动检测块202表明213活跃语音时才执行。这会使算法反应更快，尤其是在长语音停顿之后。

随后，对每一个帧，为长和短窗口二者，取所有12个滤波器组上的平均标准偏差，并且生成平均标准偏差值stdashort和stdalong。

对于音频信号帧，还计算低频带和高频带之间的关系。在AMR-WB+中，取从1到7的低频率子带的能量，将其除以这些子频带的长度(带宽)(以赫兹为单位)，来进行归一化以生成LevL。对从8到11的高频带，取它们能量，并且分别归一化以生成LevH。注意在该示例性实施例中，这些计算中没有采用最低子频带0，因为它通常包含了太多的能量，会使计算失真，并使其他子频带的贡献太小。根据这些度量定义关系LPH＝LevL/LevH。此外，利用当前和过去的3个LPH值，为每一个帧计算移动平均LPHa。在这些计算之后，利用当前和过去的7个移动平均LPHa值的加权和，计算当前帧的低频和高频关系LPHaF的度量，在权重设置中，最近的值权重稍高。

也可以这样实现本发明，使得只分析一个或几个可用子带。

此外，当前帧的滤波器块301的平均水平AVL通过如下计算：从每个滤波器块输出中减去背景噪声的估计水平，并且将这些乘有对应的滤波器块301的最高频率的水平进行累加，以平衡包含的能量少于较低频率子带的较高频率子带。

此外，通过从所有滤波器块301减去每个滤波器组301的背景噪声估计来计算当前帧的总能量TotE0。

在计算这些度量之后，通过例如利用以下方法进行ACELP或TCX激励的选择。下面假定在设置一个标记时，清除其他标记以防止冲突。首先，将长窗口的平均标准偏差值stdalong与第一阈值TH1，例如0.4相比较。如果标准偏差值stdalong小于第一阈值TH1，设置TCX模式标记。否则，将低频和高频关系LPHaF的计算度量与第二阈值TH2，例如280相比较。

如果低频和高频关系LPHaF的计算度量大于第二阈值TH2，设置TCX模式标记。否则，计算标准偏差值stdalong减去第一阈值TH1的倒数，并且在算出的倒数值上加上第一常量C1，例如5。将该和与低频和高频关系LPHaF的计算度量相比较：

C1+(1/(Stdalong-TH1))＞LPHaF (1)

如果比较的结果成立，则设置TCX模式标记。如果比较的结果不成立，将标准偏差值stdalong乘以第一被乘数M1(例如-90)，在相乘之后加上第二常量C2(例如120)。将该和与低频和高频关系LPHaF的计算度量相比较：

M1*stdalong+C2＜LPHaF (2)

如果该和小于低频和高频关系LPHaF的计算度量，则设置ACELP模式标记。否则设置一个未定模式标记，表明还不能为当前帧选择激励方法。

在上述步骤之后，执行另外的检查，然后才选择用于当前帧的激励方法。首先，检查是设置了ACELP模式标记，还是未定模式标记，以及如果当前帧的滤波器组301的计算平均水平AVL大于第三阈值TH3(例如2000)，在那点上设置TCX模式标记，清除ACELP模式标记和未定模式标记。

接着，如果设置了未定模式标记，则对短窗口的平均标准偏差值stdashort执行类似于以上针对长窗口的平均标准偏差值stdalong所进行的评估，但是，在比较中采用的常量和阈值略有不同。如果短窗口的平均标准偏差值stdashort小于第四阈值TH4(例如0.2)，设置TCX模式标记。否则，计算短窗口的标准偏差值stdashort减去第四阈值TH4的倒数，并且在算出的倒数值上加上第三常量C3(例如2.5)。将该和与低频和高频关系LPHaF的计算度量作比较：

C3+(1/(stdashort-TH4))＞LPHaF (3)

如果比较的结果成立，则设置TCX模式标记。如果比较的结果不成立，将标准偏差值stdashort乘以第二被乘数M2(例如-90)，并且在相乘之后加上第四常量C4(例如140)。将该和与低频和高频关系LPHaF的计算度量作比较：

M2*stdashort+C4＜LPHaF (4)

如果该和小于低频和高频关系LPHaF的计算度量，设置ACELP模式标记。否则设置一个未定模式标记，表明还不能为当前帧选择激励方法。

在下一阶段，检查当前帧和前一帧的能量水平。如果当前帧的总能量TotE0和前一帧的总能量TotE-1的比值大于第五阈值TH5(例如25)，设置ACELP模式标记，清除TCX模式标记和未定模式标记。

最后，如果设置了TCX模式标记或者未定模式标记，并且如果当前帧的滤波器组301的计算平均水平AVL大于第三阈值TH3，并且当前帧的总能量TotE0小于第六阈值TH6(例如60)，设置ACELP模式标记。

在执行上述评估方法时，如果设置了TCX模式标记则选择第一激励方法和第一激励块206，或者如果设置了ACELP模式标记，则选择第二激励方法和第二激励块207。但是，如果设置了未定模式标记，评估方法无法进行选择。在这种情况下，可以选择ACELP或TCX，或者必须执行进一步的分析来进行区分。

该方法还可以描述成以下伪码：

如果(stdalong＜TH1)

设置TCX模式

否则如果(LPHaF＞TH2)

设置TCX模式

否则如果((C1+(1/(stdalong-TH1)))＞LPHaF)

设置TCX模式

否则如果((M1*stdalong+C2)＜LPHaF)

设置ACELP模式

否则

设置未定模式

如果(ACELP模式或未定模式)和(AVL＞TH3)

设置TCX模式

如果(未定模式)

如果(stdashort＜TH4)

设置TCX模式

否则如果((C3+(1/(stdashort-TH4)))＞LPHaF)

设置TCX模式

否则如果((M2*stdashort+C4＜LPHaF)

设置ACELP模块

否则

设置未定模式

如果(未定模式)

如果((TotE0/TotE-1)＞TH5)

设置ACELP模式

如果(TCX模式||未定模式)

如果(AVL＞TH3和TotE0＜TH6)

设置ACELP模式

分类后面的基本思想在图4、5和6中举例说明。图4示出了VAD滤波器组中能量水平标准偏差随音乐信号中低和高能量分量的关系而变化的图示的一个例子。每个点对应于从包含不同音乐变化的长音乐信号中所取的20毫秒帧。线A拟合为近似对应于音乐信号区域的上边界，也就是在根据本发明的方法中，不认为该线右侧的点是类音乐信号。

相应地，图5则示出了VAD滤波器组中能量水平标准偏差随语音信号中低能量分量和高能量分量的关系而变化的图示的一个例子。每个点对应于从包含不同语音变化和不同发言者的长语音信号中所取的20毫秒帧。曲线B拟合为近似指示语音信号区域的下边界，也就是在根据本发明的方法中，不认为曲线B左侧的点是类语音信号。

图4中可以看出，大多数音乐信号具有较小的标准偏差，并且在分析的频率上有着相对均匀的频率分布。对图5中描绘的语音信号，趋势则正好相反，更高的标准偏差，更低的频率分量。将这两种信号都放入图6中的相同图示，并拟合曲线A和B来匹配音乐和语音信号区域的边界，很容易将大多数音乐信号和大多数语音信号划分成不同类别。这些图中拟合的曲线A和B与上述伪码中给出的相同。这些图只呈现了通过长窗口所计算的低对高频率值以及单个标准偏差。该伪码包含一种算法，其使用了两种不同的开窗术，从而利用了图4、5和6中给出的映射算法的两种不同版本。

图6中由曲线A、B所限定的区域C表明了这样一个重叠区域，其通常需要进一步手段来区分类音乐和类语音信号。通过为信号变化使用不同长度的分析窗口，并且组合这些不同的度量，就像在伪码例子中所做的那样，可以让区域C变得更小。可以允许一些重叠，因为一些音乐信号可以利用针对语音最优化的压缩来进行有效地编码，而一些语音信号可以利用针对音乐最优化的压缩来进行有效地编码。

在上述例子中，通过利用分析综合来选择最优化的ACELP激励，并且通过预选择来完成最佳ACELP激励和TCX激励之间的选择。

尽管以上通过使用两种不同的激励方法给出了本发明，但也可以采用多于两种的不同激励方法，并且可以在这些方法中进行选择，以压缩音频信号。显然，滤波器300可以将输入信号划分成与上述不同的频带，并且频带的数目也可以不同于12。

图7描绘了在其中可以应用本发明的系统的一个例子。该系统包括一个或多个产生语音和/或非语音音频信号的音频源701。在需要时，这些音频信号被A/D转换器702转换成数字信号。这些数字化的信号被输入到发送设备700的编码器200，在其中根据本发明进行压缩。在需要时，压缩信号在编码器200中进行量化和编码，以进行传输。发送器703，例如是移动通信设备700的发送器，向通信网络704发送压缩并编码的信号。接收设备706的接收机705从通信网络704接收这些信号。接收的信号从接收机705传送到解码器707，用于进行解码、去量化和解压缩。解码器707包括检测装置708，用于确定编码器200中为当前帧采用的压缩算法。解码器707根据确定结果，选择第一解压缩装置709或者第二解压缩装置710来解压缩当前帧。解压缩的信号从解压缩装置709、710传送到滤波器711和D/A转换器712，用于将数字信号转换成模拟信号。该模拟信号随后可以在例如扬声器713中转换成音频。

本发明可以在不同类型的系统中实现，尤其在低速率传输中实现，用以取得较现有技术系统更为高效的压缩。根据本发明的编码器200可以在通信系统的不同部分中实现。例如，编码器200可以在具有有限处理能力的移动通信设备中实现。

显然，本发明并非仅限于上述实施例，而是可以在后附权利要求书范围内加以修改。

Claims

1.一种编码器(200)，该编码器包括一个输入(201)，用来输入在一个频带中的音频信号的帧，包括至少第一激励块(206)以用于对类语音音频信号执行第一激励，以及第二激励块(207)以用于对类音乐音频信号执行第二激励，所述编码器(200)还包括滤波器(300)以用于将所述频带至少划分成第一组子带音频信号和第二组子带音频信号，其中每个子带音频信号的带宽比所述频带窄，并且所述第二组包含的自频带的频率高于所述第一组，其中所述滤波器还包括滤波器块以用于产生指示所述音频信号的当前帧在至少一个子带处的归一化信号能量的信息，并且所述编码器(200)还包括激励选择块(203)，用于在所述至少第一激励块(206)和所述第二激励块(207)之中选择一个激励块，其中所述选择基于所述第一组子带的归一化信号能量与所述第二组子带的归一化信号能量之间的针对所述音频信号的所述帧的已定义关系，并且在所述激励块的所述选择中使用所述关系以使所选择的激励块执行针对所述音频信号的帧的激励。

2.根据权利要求1的编码器(200)，其中可用子带中的一个或多个子带在所述第一和所述第二子带组之外。

3.根据权利要求2的编码器(200)，其中最低频率子带在所述第一和所述第二子带组之外。

4.根据权利要求1、2或3的编码器(200)，其中定义了第一数目帧和第二数目帧，所述第二数目大于所述第一数目，所述激励选择块(203)包括计算装置，用于使用包括在每个子带处的当前帧的第一数目帧的所述归一化信号能量，计算第一平均标准偏差值，以及用于使用包括在每个子带处的当前帧的第二数目帧的所述归一化信号能量，计算第二平均标准偏差值。

5.根据权利要求1的编码器(200)，其中所述滤波器(300)是话音活动检测器(202)的滤波器组。

6.根据权利要求1的编码器(200)，其中所述编码器(200)是自适应多速率宽带编解码器。

7.根据权利要求1的编码器(200)，其中所述第一激励是代数码激励线性预测激励，以及所述第二激励是变换编码激励。

8.一种用于压缩在一个频带中的音频信号的系统，所述系统包括一个编码器(200)，该编码器包括一个输入(201)以用于输入在所述频带中的音频信号的帧，包括至少第一激励块(206)以用于对类语音音频信号执行第一激励，以及第二激励块(207)以用于对类音乐音频信号执行第二激励，该编码器(200)还包括滤波器(300)以用于将所述频带至少划分成第一组子带音频信号和第二组自频带信号，其中每个子带音频信号的带宽比所述频带窄，并且所述第二组包含的自频带的频率高于所述第一组，其中所述滤波器还包括滤波器块以用于产生指示所述音频信号的当前帧在至少一个子带处的归一化信号能量的信息，并且所述系统还包括激励选择块(203)以用于在所述至少第一激励块(206)和所述第二激励块(207)之中选择一个激励块，其中所述选择基于所述第一组子带的归一化信号能量与所述第二组子带的归一化信号能量之间的针对所述音频信号的所述帧的已定义关系，并且在所述激励块的所述选择中使用所述关系以使所选择的激励块执行针对所述音频信号的帧的激励。

9.根据权利要求8的系统，其中可用子带中的一个或多个子带在所述第一和所述第二子带组之外。

10.根据权利要求9的系统，其中最低频率子带在所述第一和所述第二子带组之外。

11.根据权利要求8、9或10的系统，其中定义了第一数目帧和第二数目帧，所述第二数目大于所述第一数目，所述激励选择块(203)包括计算装置，用于使用包括在每个子带处的当前帧的第一数目帧的所述归一化信号能量，计算第一平均标准偏差值，以及用于使用包括在每个子带处的当前帧的第二数目帧的所述归一化信号能量，计算第二平均标准偏差值。

12.根据权利要求8的系统，其中所述滤波器(300)是话音活动检测器(202)的滤波器组。

13.根据权利要求8的系统，其中所述编码器(200)是自适应多速率宽带编解码器。

14.根据权利要求8的系统，其中所述第一激励是代数码激励线性预测激励，以及所述第二激励是变换编码激励。

15.根据权利要求8的系统，其中所述系统是一个移动通信设备。

16.根据权利要求8的系统，其中所述系统包括一个发送器，用于通过低比特率信道发送包括由选定的激励块(206、207)所产生的参数的帧。

17.一种压缩在一个频带中的音频信号的方法，其中第一激励用于类语音音频信号，以及第二激励用于类音乐音频信号，所述方法包括：

将所述频带至少划分成第一组子带音频信号和第二组子带音频信号，其中每个子带音频信号的带宽比所述频带窄，并且所述第二组包含的自频带的频率高于所述第一组；

产生指示所述音频信号的当前帧在至少一个子带处的归一化信号能量的信息；

在所述第一激励和所述第二激励之中选择一个激励，所述选择是通过针对所述音频信号的所述帧而定义所述第一组子带的归一化信号能量与所述第二组子带的归一化信号能量之间的关系，以及在所述激励的所述选择中使用所述关系；以及

使用所选择的激励来执行对所述音频信号的帧的激励。

18.根据权利要求17的方法，其中可用子带中的一个或多个子带在所述第一和所述第二子带组之外。

19.根据权利要求18的方法，其中最低频率子带在所述第一和所述第二子带组之外。

20.根据权利要求17、18或19的方法，其中定义第一数目帧和第二数目帧，所述第二数目大于所述第一数目，所述激励选择块(203)包括计算装置，用于使用包括在每个子带处的当前帧的第一数目帧的所述归一化信号能量，计算第一平均标准偏差值，以及用于使用包括在每个子带处的当前帧的第二数目帧的所述归一化信号能量，计算第二平均标准偏差值。

21.根据权利要求17的方法，其中所述划分包括利用话音活动检测器(202)的滤波器组来划分所述频带。

22.根据权利要求17的方法，其中所述方法由自适应多速率宽带编解码器实现。

23.根据权利要求17的方法，其中所述第一激励是代数码激励线性预测激励，以及所述第二激励是变换编码激励。

24.根据权利要求17的方法，其特征在于包括由选定的激励所产生的参数的所述帧通过低比特率信道发送。

25.一种对在一个频带中的音频信号的帧进行分类的模块，用于在用于类语音音频信号的至少第一激励和用于类音乐音频信号的第二激励之间选择激励，其中该模块还包括一个输入，用来输入指示了所述频带至少被划分成第一组子带音频信号和第二组子带音频信号的信息，其中每个子带音频信号的带宽比所述频带窄，并且所述第二组包含的自频带的频率高于所述第一组，其中所述模块还包括滤波器块以用于产生指示所述音频信号的当前帧在至少一个子带处的归一化信号能量的信息，并且所述模块还包括一个激励选择块(203)以用于在所述至少第一激励块(206)和所述第二激励块(207)之中选择一个激励块，其中所述选择基于所述第一组子带的归一化信号能量与所述第二组子带的归一化信号能量之间的针对所述音频信号的所述帧的已定义关系，并且在所述激励块的所述选择中使用所述关系以使所选择的激励块执行针对所述音频信号的帧的激励。

26.根据权利要求25的模块，其中可用子带中的一个或多个子带在所述第一和所述第二子带组之外。

27.根据权利要求26的模块，其中最低频率子带在所述第一和所述第二子带组之外。

28.根据权利要求25、26或27的模块，其中定义了第一数目帧和第二数目帧，所述第二数目大于所述第一数目，所述激励选择块(203)包括计算装置，用于使用包括在每个子带处的当前帧的第一数目帧的所述归一化信号能量，计算第一平均标准偏差值，以及用于使用包括在每个子带处的当前帧的第二数目帧的所述归一化信号能量，计算第二平均标准偏差值。