CN101622661A

CN101622661A - 一种数字语音信号的改进编解码方法

Info

Publication number: CN101622661A
Application number: CN200880006653A
Authority: CN
Inventors: 斯特凡·拉古特; 西里尔·纪尧姆
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2007-02-02
Filing date: 2008-01-30
Publication date: 2010-01-06
Anticipated expiration: 2028-01-30
Also published as: DE602008001718D1; JP5357055B2; EP2115741B1; US20100121646A1; KR101425944B1; CN101622661B; FR2912249A1; US8543389B2; EP2115741A1; KR20090104846A; ES2347850T3; WO2008104663A1; ATE473504T1; JP2010518422A

Abstract

本发明涉及一种在多个子带上信号编/解码的方法，其中相邻的至少第一和第二子带被变换编码(601，602)。特别地，为了在变换域中至少对第二子带进行感觉加权，本方法包括：确定至少一个频率屏蔽门限(606)以应用于第二子带；并且标准化所述屏蔽门限以在上述第一和第二子带间提供频谱连续性。本发明的一个有利应用还包括在符合G.729.1标准的分层编码器的TDAC变换编码中的高频带的感觉加权。

Description

一种数字语音信号的改进编解码方法

本发明涉及对于声音数据的处理。

该处理尤其适合于对于数字信号的发送和/或存储，例如音频信号(语音，音乐及其它)。

对于数字形式的音频信号的编码已有许多现有技术。其中最常见的技术为：

-波形编码方法，例如脉冲编码调制(PCM)以及自适应差分脉冲码调制(ADPCM)。

-分析-综合参数编码，例如码激励线性预测(CELP)编码，以及

-子带感觉编码(sub-band perceptual coding)方法或者变换编码。

这些技术对于输入信号进行连续处理，一个采样接着一个采样(PCM或ADPCM)或者以叫作“帧”的采样块进行(CELP以及变换编码)。

简要地进行回顾，通过使用短窗(例如10ms到20ms)上评估的参数，一个声音信号，例如语音信号，可以通过其最近的轨迹(例如在8kHz下的8到12采样)进行预测。这些通过线性预测编码(LPC)方法获得的短时预测数据代表了声道转移函数(vocal tract transferfunction)(例如发音协调度)。一种长时相关性也用于确定来自于声带振动的浊音(例如元音)周期。其中包括至少确定浊音信号的基频(fundamental frequency)，其根据发音者的不同主要在60Hz(低音)到600Hz(高音)范围内浮动。然后，使用一种长时预测(LTP)分析来确定一个长时预测器的LTP参数，特别是基频的倒数，通常称为“音调周期”。接着，在一个音调周期内的采样数目由F_e/F₀比(或取其整数部分)确定，其中：

-F_e代表采样速率，

-F₀代表基频。

通过回顾可知，长时预测LTP参数，包括音调周期，代表语音信号的基本振动情况(当浊化时)，而短时预测LPC参数代表该信号的频谱包络。

在特定编码器中，这些来源于一个语音编码的LPC与LTP参数序列可以通过块发送到一个相应的解码器中，通过一个或多个通信网络，从而使得原始的语音可以被重构。

在标准语音编码中，编码器产生一个固定码率的码流。这一码率的限制使编码器和解码器的执行和使用简单化。这种系统的例子包括UIT-T G.71164kbit/s编码标准，UIT-T G.7298kbit/s编码标准，或者GSM-EFR 12.2kbit/s编码。

在特定的应用中，例如移动电话或者VoIP基于IP(因特网协议)的语音，最好产生一个可变速率码流。该码率值取自于一个预先确定的集合。类似的编码技术被称为“多速率”，其与固定码率编码技术相比提供了更多的灵活性。

一些可变速率编码技术可以进行如下区分：

-来源和/或信道控制多模编码，特别用于3GPP AMR-NB，3GPPAMR-WB，或者3GPP2VMR-WB编码器，

-分层的，或者叫作“可分级”编码，可以产生一个所谓的“分层的”码流，因为它包括了一个核心码率以及一个或多个增强层(根据G.722的标准编码，在48，56 and 64kbit/s作为主要码率分级，而UIT-T G.729.1以及MPEG-4 CELP编码同时为码率以及宽带分级)，

-多描述编码，特别地描述在：

“A multiple description speech coder based on AMR-WB for mobilead hoc networks”，H.Dong，A.Gersho，J.D.Gibson，V.Cuperman，ICASSP，p.277-280，vol.1(May 2004).

分级编码将在下文中进行详细阐述，通过分发与一个将要在分级排列的子集合中进行编码的音频信号有关的信息，具有提供可变码率的能力，从而使得解码器可以根据与声音表现质量有关的重要性顺序使用该信息。所考虑的确定该顺序的标准是编码音频信号质量最优化(或者最低退化)的标准。分级编码特别适合于在不同种类的网络或者那些具备随时间可变码率的网络中的传输，或者传送到具有可变能力的终端的传输。

“分层”(或称“分级”)音频编码这一概念可以描述如下。

码流包括一个基层(base layer)以及一个或者多个增强层(enhancement layers)。基层是由一个定义为“核心编解码器”的(固定的)低码率编解码器产生，保证编码的最低质量。编解码必须接收到该层，用于维持一个可接受的质量水平。增强层用于增强质量。但也会发生解码器没有接收到所有增强层的情况。

分层编码的主要优点在于，可以简单地通过“码流截断”(bitstreamtruncation)以允许码率的适配。层级数(即可能的码流截断数)决定了编码的间隔度。“高间隔度”这一表述用于码流包括很少层(达到2-4层的数量)的情况，“低间隔度”编码允许例如达到1-2kbit/s的周期。

以下将更详细地阐述码率以及分级带宽编码技术，具有在电话频带中的CELP-型核心编码器，以及一个或者多个宽带增强层。在UIT-TG.729.18-32kbit/s精细间隔度标准中给出了类似系统的一个例子。G.729.1编解码算法将在下文进行概述。

对于G.729.1编码器的回顾

G.729.1编码器是对于UIT-T G.729编码器的扩展。它是一个变化的G.729分层核心编码器，产生一个频率在窄带(50-4000Hz)到宽带(50-7000Hz)延伸的码率为8-32kbit/s的信号用于语音服务。该编解码器与现存的基于IP的语音设备相适应(对于大多数符合G.729标准的设备)。在此有必要指出G.729.1标准已最终于2006年5月获得批准。

图1图示了G.729.1编码器。宽带输入信号s_wb，以16kHz采样，首先通过正交镜像滤波(QMF)分离为两个子带。低频(0-4000Hz)通过低通滤波器LP(块100)和抽取(块101)获得，高频(4000-8000Hz)通过高通滤波器HP(块102)和抽取(块103)获得。LP与HP滤波器的长度均为64比特。

低频带通过一个高通滤波器进行预处理，除去低于50Hz的成分(块104)，从而在以8和12kbit/s进行的窄带CELP编码(块105)之前，获取信号s_LB。高通滤波器考虑了有用频率被定义在覆盖50-7000Hz的范围的事实。窄带CELP编码是一个CELP分层编码，其第一层是一个不包括预处理滤波器的变化的G.729编码，第二层是一个附加的固定CELP字典。

首先，对高频带进行预处理(块106)，以补偿由于高通滤波器(块102)结合抽取(块103)所产生的混叠(aliasing)。然后，高频带通过一个低通滤波器(块107)进行滤波，消除在3000至4000Hz之间的成分(也就是原始信号中的7000至8000Hz的成分)，以获取信号s_HB。接着，执行频带扩展(块108)。

根据图1，G.729.1编码器的一个显著特征如下：根据CELP编码器(块105)的输出，计算低频带误差信号d_LB(块109)，在块110中执行一个预测(predictive)变换编码(例如G.729.1标准中的TDAC(时域混叠消除)类型)。参照图1，尤其可以看出TDAC编码同时用于低频带误差信号以及高频带滤波信号。

附加参数可以通过块111被发送到相应的解码器，该模块111执行一个称为“帧擦除隐藏(Frame Erasure Concealment)”简称“FEC”的过程，其目的是重构任意的擦除帧。

由编码块105，108，110以及111产生的不同的码流最终在多重复用块112中被多重复用并构造在一个分层码流中。该编码通过以20ms也就是每帧320个采样的分批采样(或者帧)实现。

因而，G.729.1编解码器具备一个三层编码结构，包括：

-CELP分层编码，

-宽带参数的扩展，通过时域宽带扩展(TDBWE)类型模块108进行，以及

-TDAC预测变换编码，在一个变化的离散余弦变换(MDCT)类型变换后应用。

对于G.729.1解码器的回顾

图2示出了根据G.729.1标准的相应解码器。每帧20ms的码流在块200中进行解复用。

8和12kbit/s的层级码流被CELP解码器所使用(块201)，用于产生窄带合成(synthesis)(0-4000Hz)。与14kbit/s的层有关的码流部分在宽带扩展模块(块202)中进行解码。与高于14kbit/s的码流速率相关的码流在TDAC模块(块203)中进行解码。块204和207执行一个前/后回声(pre-and post-echo)处理，以及增强(块205)和低频的后处理(块206)。

宽带输出信号以16kHz进行采样，通过使用QMF合成滤波器(块209，210，211，212和213)整合混叠消除(块208)获得。

以下对变换编码层进行详细阐述。

对于G.729.1编码器中的TDAC变换编码器的回顾

图3示出了G.729.1编码器中的TDAC型变换编码器。

滤波器W_LB(z)(块300)是一个感觉加权滤波器，具备增益补偿，将其应用于低频带误差信号d_LB。然后计算MDCT变换(块301和302)，以获得：

-差信号(difference signal)的MDCT频谱D_LB ^w，进行感觉加权，以及

-原始高频带信号的MDCT频谱S_HB。

这些MDCT变换(块301和302)被应用于以8kHz每20ms采样的信号(160个系数)。因而产生于合并块303的频谱Y(k)包括2x160，也就是320个系数。它由以下公式确定：

[Y (0) Y (1) \cdot \cdot \cdot Y (319)] = [D_{LB}^{w} (0) D_{LB}^{w} (1) \cdot \cdot \cdot D_{LB}^{w} (159) S_{HB} (0) S_{HB} (1) \cdot \cdot \cdot S_{HB} (159)]

该频谱被分为18个子带，其中子带j被分配了表示为nb_coef(j)的多个系数。对于子带的划分参见下表1。

因此，子带j包括了具有sb_bound(j)≤k＜sb_bound(j+1)的系数Y(k)。

J	sb_bound(j)	nb_coef(j)
J	sb_bound(j)	nb_coef(j)	0	0	16
1	16	16	0	0	16
1	16	16	2	32	16
3	48	16	2	32	16
3	48	16	4	64	16
5	80	16	4	64	16
5	80	16	6	96	16
7	112	16	6	96	16
7	112	16	8	128	16
9	144	16	8	128	16
9	144	16	10	160	16
11	176	16	10	160	16
11	176	16	12	192	16
13	208	16	12	192	16
13	208	16	14	224	16
15	240	16	14	224	16
15	240	16	16	256	16
17	272	8	16	256	16
17	272	8	18	280

表1：TDAC编码中的子带边界和大小

频谱包络{log_rms(j)}_{j＝0，...，17}在块304中按照下述公式进行计算：

\log_rms (j) = \frac{1}{2} \log_{2} [\frac{1}{nb_cofe (j)} Σ_{k = sb_bound (j)}^{sb_bound (j + 1) - 1} Y {(k)}^{2} + ϵ_{rms}],

j＝0，...，17

其中ε_rms＝2^-24。

频谱包络以一个可变码率在块305中进行编码。该块305产生量化整数值表示为rms_index(j)(其中j＝0...，17)，其由简单的分级量化获取：

rms_index(j)＝round(2·log_rms(j))

其中符号“round”表示四舍五入到最接近的整数，其限制条件为：

-11≤rms_index(j)≤+20

该量化值rms_index(j)被发送到码流分配块306。

频谱包络编码本身也由块305执行，分别用于低频段(rms_index(j)，其中j＝0，...，9)以及高频段(rms_index(j)，其中j＝10，...，17)。在每一频带中，可以根据一个给定的标准选择两种类型的编码，以及，更精确地，根据rms_index(j)值：

-可以通过称为“微分霍夫曼编码”编码方式(differential Huffmancoding)进行编码，

-或者通过自然二进制编码方式进行编码。

一个比特(0或1)被发送到解码器，以指示所选择的编码模式。

分配到每一个子带用于其自身量化的码元数在块306中确定，基于来自于块305的量化频谱包络。当关系到限制分配到每个子带的码元数以及不能超过的最大码元数时，执行码元分配以最小化均方根偏差。然后子带的频谱内容通过球形向量量化(spherical vectorquantization)编码(块307)。

由块305和307产生的不同码流接着在多路复用块308中被多路复用并构建到一个分层码流。

对于在G.729.1解码器中的变换解码器的回顾

在G.729.1解码器中的TDAC类型解码流程如图4所示。

与编码器(图3)的方式相类似，解码频谱包络(块401)使得重获码元分配成为可能(块402)。包络解码(块401)重构频谱包络(rms_index(j)，对于j＝0，...，17)的量化值，基于块305产生的(多路复用)码流，并由此推断解码包络：

rms_q(j)＝2^{1/2 rms_index(j)}

每个子带的频谱内容通过球形向量量化的倒数(块403)获取。由于“码元预算”的不足，没有发送的子带根据带宽扩展的输出信号的MDCT变换(图2中的块202)进行推断(块404)。

在对有关频谱包络以及后处理(块406)的频谱进行层级(level)调整之后(块405)，MDCT频谱被一分为二(块407)：

-对应于已解码的差信号的低频子带的频谱

的前160个系数(160 first coefficients)，进行感觉滤波，

-对应于原始的高频解码信号的频谱

的紧接着的160个系数。

通过MDCT逆变换，表示为IMDCT(块408和410)，上述两个频谱被转换为时间信号，并且，逆感觉加权(表示为W_LB(z)^-1滤波器)被应用于从逆变换中获得的信号

(块409)。

对于子带的码元分配(图3中的块306或者图4中的块402)将在下面进行详述。

根据rms_index(j)，j＝0，...，17的值，块306和402执行相同的操作。因此下面仅介绍块306的功能即可。

二进制分配的目的是在每一个子带间分配一个特定(可变的)的码元预算，表示为nbits_VQ，其中：

nbits_VQ＝351-nbits_rms，其中nbits_rms是频谱包络编码所使用的码元数。

分配的结果是，表示为nbit(j)(其中j＝0，...，17)的分配到每一个子带的整个码元数，具有一个整体限制：

Σ_{j = 0}^{17} nbit (j) \approx nbits_VQ

在G.729.1标准中，nbit(j)(j＝0，...，17)数值更多地由以下事实限制，即nbit(j)必须从一个如下表2具体所示的严格的取值范围中选择。

子带j的大小nb_coef(j)	对于nbit(j)所允许的值的集合(码元数表示)
子带j的大小nb_coef(j)	对于nbit(j)所允许的值的集合(码元数表示)	8	R₈＝{0，7，10，12，13，14，15，16}
16	R₁₆＝{0，9，14，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31，32}	8	R₈＝{0，7，10，12，13，14，15，16}

表2：在TDAC子带中分配的可能的码元数值

G.729.1标准中的分配依赖于与子带能量相关的每个子带的“感觉重要性”(perceptual importance)，表示为ip(j)(j＝0..17)，按照如下公式定义：

ip (j) = \frac{1}{2} \log_{2} (rms_q {(j)}^{2} \times nb_coef (j)) + offset

其中offset＝-2。

由于值rms_q(j)＝2^{1/2rms_index(j)}，这一公式可以简化为如下形式：

基于每个子带的感觉重要性，分配nbit(j)按照如下公式计算：

nbit (j) = \arg_{r &Element; R} \min_{nb_coef (j)} | nb_coef (j) \times (ip (j) - λ_{opt}) - r |

其中λ_opt是一个使用二分法(dichotomy)进行了优化的参数。

在TDAC变换编码的码元分配(块306)中的感觉加权的影响(块300的滤波)将进一步详述。

如上所述，在G.729.1标准中，TDAC编码使用了低频段中的感觉加权滤波器W_LB(z)(块300)。在本质上，感觉加权滤波器使得抑制编码噪音(shape the coding noise)成为可能。该滤波的原理是利用以下事实，即当原始信号具有很高的能量时可能在频率范围内加入更多的噪音。

在窄带CELP编码中最常用的感觉加权滤波器，其形式为

其中0＜γ2＜γ1＜1，并且

表示一个线性预测频谱(LPC)。因而CELP编码分析-综合(analyse-by-synthesis)的作用是，在通过该类型的滤波器感觉加权的信号域中，最小化均方根偏差。

然而，为了保证频谱延续性，当频谱D_LB ^w和S_HB相邻时(图3中的块303)，滤波器W_LB(z)根据下述公式定义：

W_{LB} (z) = fac \frac{\hat{A} (z / γ_{1})}{\hat{A} (z / γ 2)}

其中γ₁＝0.96，γ₂＝0.6，并且

fac = | \frac{Σ_{i = 0}^{p} {({- γ}_{2})}^{i} {\hat{a}}_{i}}{Σ_{i = 0}^{p} {({- γ}_{1})}^{i} {\hat{a}}_{i}} |

因子fac允许一个在高低频段交界处(4kHz)提供的1-4kHz的滤波器增益。有必要指出，根据G.729.1标准的TDAC编码，该编码仅仅依赖一种能量标准。

现有技术的缺陷

在G.729.1标准中，TDAC编码器共同处理：

-原始低频段和CELP合成之间的信号差，通过一个类型为

的滤波器进行感觉滤波，增益补偿(保证频谱连续性)，以及

-包括原始高频段信号的高频带。

低频段信号对应于50Hz-4kHz的频率，高频段信号对应于4-7kHz的频率。

根据均方根偏离标准，这两种信号的联合编码在MDCT域中执行。因而高频段是根据能量标准进行编码，这是次优(sub-optimal)的(从“感觉”(perceptual)的意义上而言)。

更普遍地，在许多频带上的编码可以考虑，一个感觉加权滤波器，应用于时域中的至少一个频带的信号，以及通过变换编码而被共同编码的子带集合。如果希望在频域中应用感觉加权，则出现的问题是子带频谱之间的连续性和均匀性。

本发明的目的在于改进上述情况。

为了实现这个目的，提出了一种在多个子带进行信号编码的方法，其中相邻的至少一个第一和一个第二子带被变换编码。

根据本发明，为了在变换域中应用感觉加权，至少对于第二子带，

本发明的方法包括：

-确定至少一个频率屏蔽门限，以应用于第二子带，

-标准化所述屏蔽门限，以保证在所述第一和第二子带之间的频谱连续性。

本发明因此提出了利用屏蔽门限，仅在频带的一部分上(至少在上述“第二子带”上)，计算频率感觉加权，以及保证与至少一个其它频带(至少上述的“第一子带”)之间的频谱连续性，使覆盖这两个频带的频谱的屏蔽门限标准化。

在本发明的第一实施例中，其中根据频谱包络，确定分配到每一个子带的多个码元，对于第二子带的码元分配还至少根据一个标准化的屏蔽曲线计算的函数确定，至少应用于第二子带。

因而在该第一实施例中，作为仅仅根据能量标准提供码元分配的替代，本发明的应用使得根据感觉标准分配大多数码元到子带成为可能。然后，在第一实施例的方法中，通过屏蔽声音频带(audio band)的一部分应用频率感觉加权，使得通过优化特别是根据感觉标准在子带之间分发码元，从而改进了音频质量。

在本发明的第二实施例中，在第二子带中的变换信号通过一个因子进行加权，该因子成比例于针对第二子带的标准化的屏蔽门限的均方根。

在该第二实施例中，标准化的屏蔽门限并未像在上述第一实施例中用于子带的码元分配，但是它可以有利地被用于对至少第二子带的信号的直接加权，在变换域中。

本发明可以进一步地但不限于应用到符合G.729.1标准的整个编码器中的TDAC类型变换编码中，第一子带包括在低频段中，而第二子带包括在高频段中，其可以通过带宽扩展延伸到7000Hz或者更高(典型的是14kHz)。本发明的应用可以进一步包括为高频段提供一个感觉加权，同时保证与低频段的频谱连续性。

通过回顾可知，在具备一个分层结构的整体编码器类型中，变换编码在一个整体分层编码器的上层(upper layer)中进行。有利地：

-第一子带包括一个来自于分层编码器的核心编码的信号，

-第二子带包括一个原始信号。

如G.729.1编码器中，来自核心编码的信号可以被感觉加权，并且，本发明的实施从整个频谱可以最终被感觉加权的角度是有利地的。

如G.729.1编码器，来自核心编码的信号可以表示原始信号和该原始信号的合成之间的差(称为“差信号”或者“误差信号”)。事实上将看到，根据下文描述的图12，有利地，为了实施本发明，获取原始信号并不是完全有必要的。

本发明还涉及一种解码方法，与上述编码方法相类似，其中相邻的至少一个第一和一个第二子带被变换解码。为了在变换域中应用一个感觉加权，至少对于第二子带，该解码方法包括：

-根据解码频谱包络，确定至少一个频率屏蔽门限应用于第二子带，

-标准化所述屏蔽门限，以保证在所述第一和第二子带间的频谱连续性。

解码方法的第一实施例与上述编码方法的第一实施例相似，涉及解码时的码元分配，并且根据频谱包络的解码，确定将要分配到每个子带的码元数。根据本发明的其中一个实施例，至少对于第二子带的码元分配还作为一个标准化屏蔽曲线计算的函数被确定，至少应用于第二子带。

根据本发明的解码方法的第二实施例，包括通过标准化屏蔽门限的均方根，在第二子带中对变换信号进行加权。该实施例将参考图10B作进一步详述。

此外，本发明更多的优点和特点通过下面实施例及其附图的详述将变得更加清楚，除了上述图1-4外：

-图5表示本发明的方法中一个有利的用于屏蔽的扩展函数，

-图6表示，与图3相对照，根据本发明的第一实施例的使用屏蔽曲线计算模块606用于分配码元的TDAC编码的结构，

-图7表示，与图4相对照，根据本发明的第一实施例的使用屏蔽曲线计算模块702的一个与图6相似的TDAC解码结构，

-图8表示一个屏蔽曲线的标准化，在第一实施例中，采样频率为16kHz，并且，本发明的屏蔽采用了4-7kHz的高频带，

-图9A表示一个变化的TDAC编码结构，其具有在本发明的第二实施例中对于4-7kHz的高频信号的直接加权，以及标准化屏蔽门限编码，

-图9B表示作为图9A所示的第二实施例的变化实施例的TDAC编码结构，此处包括了频谱包络的编码，

-图10A表示根据本发明的第二实施例的一个与图9A相似的TDAC解码结构，

-图10B表示根据本发明的第二实施例的一个与图9B相似的TDAC解码结构，此处包括了解码时对于屏蔽门限的计算，

-图11表示在本发明的第二实施例中在超宽带中的屏蔽曲线的标准化，其中采样频率为32kHz，本发明的屏蔽应用于从4-14kHz的超宽带，以及

-图12表示在CELP编码输出处的差信号D_LB(以实线表示)以及原始信号S_LB(以虚线表示)频谱能量。

下面将描述本发明的一个应用，有利地但不局限于，它应用于前文参考图1-4所述的符合G.729.1标准的编/解码器，并根据本发明加入了屏蔽信息。

然而，首先，为了更好地理解本发明的基本原理，下面将阐述感觉滤波以及频率屏蔽的增益补偿的概念。

通过使用叫做“同时屏蔽”(simultaneous masking)或者“频率屏蔽”(frequency masking)的屏蔽作用，本发明对于转换编码器中执行的感觉加权带来了改进。

这一性质对应于出现称为“掩蔽声”的声音的听觉阈的改变。这一效果主要是在例如试图在环境噪声中保持通话，比如在户外的街道上，以及车辆噪声“屏蔽”了说话者的声音时，可以观察到。

在音频编解码器中使用屏蔽的一个例子可以在Mahieux等人的文献中找到：

“High-quality audio transform coding at 64 kbps”，Y.Mahieux，J.P.Petit，IEEE Transactions on Communications，Volume 42，no.11，Pages：3010-3019(November 1994).

在该文献中，计算了频谱的每一行的近似屏蔽门限。该门限是指大于一个上限就被认为是可听到的。屏蔽门限基于信号频谱和扩展函数B(v)之间的卷积进行计算，该扩展函数通过另一个声音(正弦或滤波白噪声)模拟声音(正弦或滤波白噪声)的屏蔽效果进行建模。

图5示出了一个类似扩展函数的例子。该函数定义在频率域中，其单位是Bark。该频率刻度代表耳朵的频率敏感度。以Hertz表示的频率f的变换的一个通常近似值，标记为υ(以Barks为单位)的“频率”，是由以下关系式给出的：

&upsi; = 13 \cdot \arctan (0.00076 \cdot f) + 3.5 \cdot \arctan ({(\frac{f}{7500})}^{2})

在这份文献中，对于屏蔽门限的计算是以每个子带而非每行线执行的。因此获得的门限用于对每一个子带进行感觉加权。再执行码元分配，不是通过对均方根偏差的最小化，而是通过最小化“编码噪声对屏蔽”的比(“coding noise to mask”ratio)，其目标是抑制编码噪声，从而使其不可听见(在屏蔽门限值以下)。

当然，还提出了其它的屏蔽模型。主要地，扩展函数可以是一个幅度线和/或屏蔽线的频率的函数。还可以执行检测“峰值”。

有必要指出，为了降低根据G.729.1标准编码的次优特性(sub-optimal nature)，可以考虑在码元分配中整合频率屏蔽技术，以类似于Mahieux等人在上述文献中所提出的方式。然而，不同种类的两种信号，低频带以及高频带，阻碍了该文中的全频段屏蔽技术的应用。一方面，全频段屏蔽门限不适合在MDCT域中进行计算，因为低频段信号与“原始”信号不同类。另一方面，对全频段信号应用屏蔽门限可能导致对低频段信号的再次加权，该低频段信号已经通过

类型滤波器进行了加权，额外的门限加权对于低频段信号是多余的。

这里给出本发明的一个应用，使得改进根据G.729.1标准编码器的TDAC编码成为可能，特别是通过对于高频段信号(4到7kHz)应用感觉加权，同时保证高低频段之间的频谱连续性，以得到这两种频段满意的联合编码。

在一个符合G.729.1标准的编码器和/或解码器中，通过本发明的实施得到了增强，下面描述的只有TDAC编码器和解码器做了修改。

输入信号以16kHz进行采样，其有用频率为50Hz到7kHz。事实上编码器仍然在最大码率为32kbit/s下运行，而解码器能够接收到核心层(8kbit/s)以及一个或者多个增强层(12-32kbit/s，步长为2kbit/s)，正如标准G.729.1中的。编码和解码具有相同的结构，如图1和2所示。这里，仅仅块110和203做了修改，如图6和7所描述的。

在下面的参考图6的第一实施例中，变化的TDAC编码器与图3中的相同，除了根据求均方根偏差(块306)进行码元分配被屏蔽曲线计算以及一个变化的码元分配所取代(块606和607)，本发明被包括在屏蔽曲线计算的框架中(块606)以及码元分配的使用(块607)。

类似地，图7中示出了该第一实施例中的TDAC解码器。该解码器与图4中的相同，除了根据均方根偏差(块402)进行码元分配被屏蔽曲线计算以及一个变化的码元分配所取代(块702和703)。在一个变化的TDAC编码器的对称方式中，本发明涉及块702和703。

块606和702根据值rms_index(j)，j＝0，...，17执行相同的操作。相似地，块607和703根据值log_mas(j)以及rms_index(j)，j＝0，...，17执行相同的操作。

因此下面仅仅介绍块606和607的操作。

块606基于量化频谱包络rms_q(j)计算屏蔽曲线，其中j＝0，...，17是子带数。

子带j的屏蔽门限M(j)是由能量包络

{\hat{σ}}^{2} (j) = rms_q {(j)}^{2} \times nb_coef (j)

的卷积所定义的，通过扩展函数B(v)。在这里给出的G.729.1编码器中的TDAC编码的实施例中，该屏蔽仅仅在信号的高频段上执行的，具有：

M (j) = Σ_{k = 10}^{17} {\hat{σ}}^{2} (k) \times B (v_{j} - v_{k})

其中v_k是以Bark为单位的子带k的中心频率，

标记“×”表示“被多路复用”，具有下面所述的扩展函数。

更通常地，子带j的屏蔽门限M(j)，可以用以下两者之间的卷积定义：

-频谱包络的表达，

-包括子带j的中央频率的扩展函数。

图5示出了一个优选的扩展函数。这是一个三角函数，第一倾斜角是+27dB/Bark，第二倾斜角是-10dB/Bark。扩展函数的这一表述允许以下屏蔽曲线的迭代计算：

M (j) = \{\begin{matrix} M^{-} (10) & j = 10 \\ M^{+} (j) + M^{-} (j) + {\hat{σ}}^{2} (j) & j = 1, . . ., 16 \\ M^{+} (17) & j = 17 \end{matrix}

其中

M^{+} (j) = {\hat{σ}}^{2} (j - 1) \cdot Δ_{2} (j) + M^{+} (j - 1) \cdot Δ_{2} (j)

j＝11，...，17

M^{-} (j) = {\hat{σ}}^{2} (j + 1) \cdot Δ_{1} (j) + M^{-} (j + 1) \cdot Δ_{1} (j)

j＝10，...，16

并且

Δ_{2} (j) = 10^{\frac{- 10}{10} ({&upsi;}_{j} - {&upsi;}_{j - 1})}

Δ_{1} (j) = 10^{\frac{27}{10} ({&upsi;}_{j} - {&upsi;}_{j + 1})}

Δ₁(j)和Δ₂(j)的值可以被预先计算并存储。

下面将介绍本发明的第一实施例应用到一个分级编码器例如G.729.1编码器中的码元分配。

该码元分配标准在此基于下式给出的信号-屏蔽比率(signal-to-mask ratio)：

\frac{1}{2} \log_{2} (\frac{{\hat{σ}}^{2} (j)}{M (j)})

由于低频段已进行了感觉滤波，屏蔽门限的应用被限制于高频段。为了保证低频段频谱和被屏蔽门限加权了的高频段频谱之间的频谱连续性，并且防止偏离码元分配，屏蔽门限通过其在低频段的最后一个子带上的取值进行标准化。

因而感觉重要性根据以下公式重新定义：

ip (j) = \{\begin{matrix} \frac{1}{2} \log_{2} ({\hat{σ}}^{2} (j)) + offset & for & j = 0 . . 9 \\ \frac{1}{2} [\log_{2} (\frac{{\hat{σ}}^{2} (j)}{M (j)}) + normfac] + offset & for & j = 10 . . 17 \end{matrix}

其中offset＝-2，normfac是一个标准化因子，根据下式计算：

normfac = \log_{2} [Σ_{j = 9}^{17} {\hat{σ}}^{2} (j) \times B (v_{9} - v_{j})]

需要指出的是，感觉重要性ip(j)，j＝0，...，9，与在G.729.1标准中定义的相同。另一方面，术语ip(j)，j＝10，...，17，的定义已经改变。

上面定义的感觉重要性现在表示为：

ip (j) = \{\begin{matrix} \frac{1}{2} rms_index (j) & for & j = 0, . . ., 9 \\ \frac{1}{2} [rms_index (j) - \log_mask (j)] & for & j = 10, . . ., 17 \end{matrix}

其中log_mask(j)＝log₂(M(j))-normfac.

可以理解的是，用于计算感觉重要性的括号的第二行是本发明实施的一个表达式，该实施根据在分层编码器的上层(upper layer)的变换编码中的码元分配的第一应用。

图8示出了标准化屏蔽门限的一个示例，显示了应用了屏蔽(4-7的高频段与低频段(0-4kHz)的连接。

接着，块607和703执行码元分配计算：

nbit (j) = \arg_{r &Element; R} \min_{nb_coef (j)} | nb_coef (j) \times (ip (j) - λ_{opt}) - r |

其中λ_op通过二分法获得，如G.729.1标准。

与现有技术的块307和402相比，差别仅仅在于在高频段的子带上的感觉重要性ip(j)的定义。

在本实施例的一个变化实施例中，屏蔽门限的标准化的执行与其在低频段的最后一个子带上的值相关，屏蔽门限的标准化还可以根据高频段的第一个子带上的屏蔽门限的值执行，如下：

normfac = \log_{2} [Σ_{j = 10}^{17} {\hat{σ}}^{2} (j) \times B (v_{10} - v_{j})] .

在另一个变化实施例中，可以在整个频段上计算屏蔽门限，其中

M (j) = Σ_{k = 0}^{17} {\hat{σ}}^{2} (k) \times B (v_{j} - v_{k})

接着，屏蔽门限根据低频段的最后一个子带上的值进行标准化之后，屏蔽门限仅被应用于高频段：

normfac = \log_{2} [Σ_{j = 0}^{17} {\hat{σ}}^{2} (j) \times B (v_{9} - v_{j})]

或者屏蔽门限根据高频段的第一个子带上的值进行标准化之后：

normfac = \log_{2} [Σ_{j = 0}^{17} {\hat{σ}}^{2} (j) \times B (v_{10} - v_{j})]

当然，这些给出了标准化因子normfac或者屏蔽门限M(j)的关系式可以推及至任意数目的子带(总计不同于18)，包括高频段(不同于8的数)以及低频段(具有不同于10的数)。

更一般地，下面也将揭示出在高频段与低频段之间寻求能量连续性，为此而对低频段差信号d_LB ^W使用感觉加权，而不是原始信号本身。实际上，正如图12所示，在低频段末端(典型地，在2700Hz之后)的差信号(实曲线)上的CELP编码，给出了一个非常接近原始信号本身(虚曲线)的能量水平。正如G.729.1编码，在低频段中只有感觉加权差信号是可获得的，这一观察被用于确定高频段屏蔽标准化因子。

在第二实施例中，标准化屏蔽门限不用于对感觉重要性的定义中的能量进行加权，如前文所述的第一实施例那样，而是用于在TDAC编码之前对高频段信号进行直接加权。

图9A(用于编码)和图10A(用于解码)示出了该第二实施例。图9B(用于编码)和图10B(用于解码)示出了该第二实施例的一个变化实施例，本发明特别涉及该实施例中实施的解码。

在图9A和9B中，来自于块903的频谱Y(k)被分为18个子带，并按照如前所述计算频谱包络(块904)。

另一方面，根据非量化频谱包络计算(图9A中的块905以及图9B中的块906b)屏蔽门限。

在图9A所示的实施例中，表示通过屏蔽门限M(j)进行加权的信息被直接编码，而不是对频谱包络进行编码。实际上，在该实施例中，比例因子sf(j)的编码仅从j＝10到j＝17。

实际上，比例因子这样确定：

-在低频段，sf(j)＝1，当j＝0，…，9

-在高频段，对标准化屏蔽门限M(j)求均方根，即：

sf (j) = \sqrt{M (j)},

其中j＝10，...，17。

因此，对j＝0，...，9的比例因子进行编码是不必要的，比例因子仅仅在j＝10，...，17进行编码。

仍然参考图9A，对应于比例因子sf(j)其中j＝10，…，17的信息，可以通过与在G.729.1编码器(图3中的块305)所使用的相同类型的包络编码技术进行编码(块906)，例如，通过一个分级量化之后的对于高频部分的差分霍夫曼编码(differential Huffman coding)。

频谱Y(k)然后通过解码比例因子sf_q(j)，j＝0，…，17在增益-波形(“gain-shape”)类型编码之前进行划分(块907)。该编码是通过使用均方根偏差的代数运算实现的，正如在Ragot等人的文章中所描述的：

“Low-complexity multi-rate lattice vector quantization withapplication to wideband TCX speech coding at 32 kbit/s”，S.Ragot，B.Bessette，and R.Lefebvre，Proceedings ICAS SP-Montreal(Canada)，Pages：501-504，vol.1(2004).

该增益-波形类型量化方法特别用于3GPP AMR-WB+标准。

其相应的解码器在图10A中示出。比例因子sf_q(j)，j＝0，...，17是在块101中解码。块1002按照上述Ragot等人的文章所述加以实现。

对于丢失子带的推断遵循与G.729.1解码器(图4中的块404)相同的原则。因此，如果一个解码子带仅仅包括0，则通过频带扩展而解码的频谱将取代该子带。

块1004也执行与图4的块405相似的功能。然而，使用比例因子sf_q(j)，j＝0，…，17，而不是用解码频谱包络，rms_q(j)，j＝0，…，17。

第二实施例可以证明是特别有利地，尤其是在按照3GPP-AMR-WB+标准实施时，该标准也是上述Ragot等人的文章中所述的优选实施环境。

在如图9B与10B所示(在图9A和9B，以及10A和10B中相同的标号表示相同的元部件)的第二实施例的一个变化实施例中，被编码的信息还是能量包络(而不是像图9A和图10A中的屏蔽门限本身)。

在编码时，屏蔽门限基于已编码的频谱包络(块905b)进行计算与标准化(图9B中的块906b)。在解码时，屏蔽门限基于已解码的频谱包络(块1001b)进行计算与标准化(图10B中的块1011b)，对包络的解码使得基于量化值rms_q(j)的级别调整成为可能(图10B中的块1010b)。

因此，在解码子带为0的情况下，在该变化实施例中，执行推断并维持一个正确的被解码信号级别是有利的。

概括地，在第一实施例中，如第二实施例，可以理解的是，对于每一个子带，至少对于高频段的子带计算屏蔽门限，该屏蔽门限被标准化以保证所讨论的子带间的频谱连续性。

同样指出，本发明的方法中的频率屏蔽的计算或者也可不根据所要被编码的信号(特别是当其是音调时)而加以实现。

实际上已经指出，当所要编码的信号不是音调时，在上述第一和第二实施例中屏蔽门限的计算都是有特别有利的。

如果信号是音调的，扩展函数B(v)的应用会导致屏蔽门限非常接近一个具有轻度宽频扩展的音调。最小化编码噪声-屏蔽比的分配标准给出了一个非常普通的码元分配。这也同样适用于根据第二实施例的对高频段信号直接加权的情形。因此，优选地，对于音调信号根据能量标准使用码元分配。这样，优选地，只有在所要解码的信号不是音调时应用本发明。

在一般情况下，信号的获取(来自块305)依据要被编码的信号是音调与否，并且，对于高频段的感觉加权，和屏蔽门限的确定和标准化，也仅当信号不是音调时才执行。

这一观察的实现将在符合G.729.1的标准的编码器中描述。与频谱包络(特别是图3中的块305)的编码模式有关的码元表示“差分霍夫曼”(differential Huffman)模式或者“直接自然二进制”(directnatural binary)模式。这一模式码元可以被认为是作为音调的检测，通常，一个音调信号导致通过“直接自然二进制”模式的包络编码，而大多数非音调信号，具有更受限的频谱动态，导致通过“微分霍夫曼”模式的包络编码。

因此，可以从“信号音调检测”获得益处以便是否执行本发明。更具体地，本发明应用于通过“微分霍夫曼”模式对频谱包络进行编码的情形，然后根据本发明对感觉重要性进行定义，如下：

另一方面，如果包络以“直接自然二进制”模式进行编码，则感觉重要性仍然按照G.729.1标准中所定义的：

第二实施例指出，图9A中的模块904可以通过计算频谱包络确定信号是否是音调的，当是时，块905被旁路。类似地，对于图9B所示的实施例，模块904可以通过计算频谱包络确定信号是否是音调的，当是时，块907被旁路。

本发明还可能应用于G.729.1编码器的扩展，特别是在超宽频段的情形时，下面将对此进行描述。

图11概括了在超宽频编码时的屏蔽曲线(如图8)的标准化。在本实施例中，信号以32kHz(而不是16kHz)对50Hz-14kHz的有用频段进行采样。然后，至少针对7-14kHz范围内的子带定义屏蔽曲线log2[M(j)]。

实际上，覆盖50Hz-14kHz频段的频谱通过子带进行编码，并且分配到每一个子带的码元是基于频谱包络实现的，如同G.729.1编码器。在此情况下，可以按照前文所述计算一个局部屏蔽门限。

如图11所示的屏蔽门限的标准化，因此也可以推广至当高频段包括更多子带或者比G.729.1标准覆盖更宽的频率范围的情形。

参考图11，在50Hz和4kHz之间的低频段上，第一变换T1被用于时间加权差信号。第二转换T2被用于覆盖4-7kHz之间的第一高频段的信号上，以及第三转换T3被用于覆盖7-14kHz之间的第二高频段的信号上。

因此，可以理解的是，本发明不仅限于16kHz采样下的信号。对于以更高频率采样的信号实施本发明同样是特别有利地，例如对于根据G.729.1标准的但不再以16kHz而是以32kHz进行采样的信号的解码器的扩展，如前文所述。如果TDAC编码被推广到这样一个频段(50Hz-14kHz，而不是现有的50Hz-7kHz)，本发明也具备突出的优点。

事实上，在4-14kHz的频率范围内，均方根偏差标准的限制真地变得过高，为了码元分配保持准最佳状况，使用本发明的方法使用频率屏蔽的感觉加权被证明具有突出的优点。

因此，本发明还涉及对TDAC编码的改进，特别是对扩展高频段(4-14kHz)通过使用感觉加权，同时保证频段间的频谱延续性；这一标准对于第一低频段与扩展到14kHz的第二高频段的联合编码非常重要。

前文已经描述了一个实施例，其中低频段总是被感觉加权。该实施例对于本发明的实施来说不是必要的。作为一个变化实施例，在第一频段通过核心编码器实现分级编码器，并且直接变换与该核心编码器相关联的误差信号，在该第一频段中不进行感觉加权，以便与第二频段中的变换信号共同地进行编码。例如，原始信号可以以16kHz进行采样，并通过合适的QMF型滤波器组分成两个频段(从0到4000Hz以及从4000到8000Hz)。在该实施例中，编码器可以典型地是符合G.711标准的编码器(具有PCM压缩)。然后，执行变换编码于：

-在第一频段(0-4000Hz)上，原始信号与G.711合成之间的差信号，以及

-在第二频段(4000-8000Hz)上，根据本发明在频域中进行感觉加权的原始信号。

因此，在本实施例中，低频段的感觉加权对于本发明的应用来说不是必要的。

在另一个变化实施例中，原始信号以32kHz进行采样并通过一个适合的QMF型滤波器组分为两个频段(从0到8000Hz以及从8000到16000Hz)。在这里，编码器可以是符合G.722(在两个子带中ADPCM压缩)标准的编码器，并且执行变换编码于：

-在第一频段(0-8000Hz)上，原始信号与G.722合成之间的差信号，以及

-根据本发明在限制于第二频段(8000-16000Hz)上的频域中进行感觉加权的原始信号。

最后，需要指出的是，本发明还涉及第一软件程序，存储在电信通信终端的编码器中和/或存储在与所述编码器的读取器协作的存储媒介中。该第一程序还包括执行上述编码方法的指令，当这些指令通过编码器的处理器执行时。

本发明还涉及包括至少一个存储了该第一软件程序的存储器的编码器。

可以理解的是，根据本发明的不同实施例及其变化实施例，图6，9A和9B可以构成该第一软件程序的流程图，或者图示出这样的编码器的结构。

本发明还涉及第二软件程序，存储在电信通信终端的解码器中和/或存储在与所述解码器的读取器协作的存储媒介中。该第二程序还包括执行上述解码方法的指令，当这些指令通过这样的解码器的处理器执行时。

本发明还涉及包括至少一个存储了该第二软件程序的存储器的解码器。

可以理解的是，根据本发明的不同实施例及其变化实施例，图7，10A和10B可以构成该第二软件程序的流程图，或者图示出这样的解码器的结构。

Claims

1、一种在多个子带上进行信号编码的方法，其中相邻的至少一个第一和一个第二子带被变换编码(601，602；901，902)，其特征在于，以便在变换域中，至少对于第二子带应用感觉加权，所述方法包括：

-确定至少一个频率屏蔽门限(606；905；906b)，以应用于所述的第二子带，以及

2、根据权利要求1所述的方法，根据频谱包络确定被分配到每一个子带的码元，其特征在于，对于所述第二子带的码元分配(607)还至少作为标准化屏蔽曲线的计算的函数而被确定，并至少应用于所述第二子带(606)。

3、根据权利要求2所述的方法，其中在多于两个的子带上执行编码，所述第一子带被包括在第一频谱段中，所述第二子带被包括在第二频谱段中，其特征在于，根据基于下述关系式计算的感觉重要性ip(j)，对于每个子带的索引j，每个子带的码元数是给定的：

-

ip (j) = \frac{1}{2} rms_index (j),

当j是所述第一频段中的子带索引时，

-

ip (j) = \frac{1}{2} [rms_index (j) - \log_mask (j)],

当j是所述第二频段中的子带索引时，且log_mask(j)＝log₂(M(j))-normfac，其中：

-对于子带j，rms_index(j)是来自包络编码的量化值，

-M(j)是索引为j的所述子带的屏蔽门限，

-normfac是标准化因子，用于保证所述第一和第二子带间的频谱连续性。

4、根据权利要求1所述的方法，其特征在于，所述第二子带中的变换信号通过一个成比例于所述第二子带的标准化屏蔽门限的均方根的因子进行加权(905)。

5、根据权利要求4所述的方法，其中在多于两个的子带上执行编码，所述第一子带被包括在第一频谱段中，所述第二子带被包括在第二频谱段中，其特征在于，加权值

被编码(906)，其中M(j)是对于索引为j的子带的标准化屏蔽门限，被包括在所述第二频谱段中。

6、根据前述权利要求中任一项所述的方法，其特征在于，变换编码是在一个分级编码器的上层(110)中进行的，

-所述第一子带包括来自于所述分级编码器的核心编码(105)的信号(d_LB ^W)，

-所述第二子带包括原始信号(S_HB)。

7、根据权利要求6所述的方法，其特征在于，所述来自于核心编码的信号(d_LB ^W)被感觉加权(600；900)。

8、根据权利要求6或7所述的方法，其特征在于，所述来自于核心编码的信号(d_LB ^W)是一个表示原始信号与该原始信号的合成的之间的差的信号。

9、根据权利要求6至8中任一项所述的方法，其特征在于，所述变换编码是在符合标准G.729.1的整个编码器中的TDAC类型，并且所述第一子带被包括在一个低频段(T1)中，而所述第二子带被包括在一个高频段中。

10、根据权利要求9所述的方法，其特征在于，所述高频段可扩展到7000Hz(T2)，至少(T3)。

11、根据前述权利要求中任一项所述的方法，其中频谱包络被计算(604；904)，其特征在于，对于一个子带的屏蔽门限被定义为如下两者间的卷积：

-所述频谱包络的表达，以及

-包括所述子带的中央频率的扩展函数。

12、根据前述权利要求中任一项所述的方法，其中根据被编码信号是否是音调来获取信息(305)，其特征在于，仅当所述信号不是音调时，执行所述第二子带的感觉加权，以及所述屏蔽门限的确定和标准化。

13、一种在多个子带上的进行信号解码的方法，其中相邻的至少一个第一和一个第二子带被变换解码(709，711；1007，1009)，其特征在于，以便在变换域中，至少对于第二子带应用感觉加权，所述方法包括：

-基于解码频谱包络，确定至少一个频率屏蔽门限(702；1001；1011b)，以应用于所述第二子带，以及

14、根据权利要求13所述的方法，其中根据频谱包络的解码(701)确定被分配到每一个子带(703)的码元，其特征在于，对于所述第二子带的码元分配(703)至少还根据标准化的屏蔽曲线计算(702)来确定，至少应用于所述第二子带。

15、根据权利要求13所述的方法，其特征在于，在所述第二子带中的变换信号，通过一个成比例于所述第二子带的标准化屏蔽门限的均方根的因子进行加权(1004)。

16、一种软件程序，存储在电信通信终端的编码器中和/或存储在与所述编码器的读取器协作的存储媒介中，其特征在于，其包括执行根据权利要求1至12中任一项所述的编码方法的指令，当所述指令通过所述编码器的处理器执行时。

17、一种编码器，其特征在于，其包括至少一个用于存储根据权利要求16所述的软件程序的存储器。

18、一种软件程序，存储在电信通信终端的解码器中和/或存储在与所述解码器的读取器协作的存储媒介中，其特征在于，其包括执行根据权利要求13至15中任一项所述的解码方法的指令，当所述指令通过所述解码器的处理器执行时。

19、一种解码器，其特征在于，其包括至少一个用于存储根据权利要求18所述的软件程序的存储器。