CN1144180C

CN1144180C - 进行降低速率的可变速率声码合成的方法和装置

Info

Publication number: CN1144180C
Application number: CNB951907239A
Authority: CN
Inventors: ��³��P��ſ�; 安德鲁P·德雅克
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1994-08-05
Filing date: 1995-08-01
Publication date: 2004-03-31
Anticipated expiration: 2015-08-01
Also published as: CN1131994A; ES2343948T3; ATE388464T1; ZA956078B; TW271524B; BR9506307B1; ATE470932T1; DE69535723D1; EP1339044A3; KR960705306A; EP1339044B1; DE69535723T2; AU689628B2; FI961445A0; FI122726B; JP4851578B2; EP1339044A2; CA2172062C; BR9506307A; FI961445A

Abstract

本发明提供一种在可变速率编码系统中选择语音帧的编码模式的方法和装置。该方法和装置为每一语音帧选择提供速率效率编码的编码模式。模式测量部件接收语音信号和从该语音信号得到的信号，产生一组适于操作模式选择的参数组。速率确定逻辑接收该参数组，并利用预定的选择规则选择编码速率。选择规则还在非嗓音语音与临时掩蔽语音之间进行区分，以相同的速率但不同的编码策略编码。

Description

进行降低速率的可变速率声码合成的方法和装置

技术领域

本发明涉及通信技术。本发明尤其涉及进行可变速率的码激励线性预测(CELP)编码的经改进的方法和装置。

背景技术

用数字技术来进行语音传输已经变得普遍了，尤其在长距离和数字无线电话方面。这在确定能通过信道传送的能维持重构语音的感受质量的最少信息量方面同样引起了人们的兴趣。如果通过简单的取样和数字化来传输语音，则需要每秒64千比特(kbps)的数据速率，以达到传统模拟电话的语音质量。然而，通过使用语音分析，加上随后的合适的编码、传输和在接收机处进行的再合成，能显著地降低数据速率。

使用抽取与人产生语音的模型有关的参数的技术来压缩有声语音的设备一般称为声码器。这种设备由分析输入的语音来抽取相关参数的编码器和通过传输信道接收到的这些参数再合成语音的译码器组成。为了达到准确，模型必须恒定变化。因此，把语音分成时间块，或者分析帧。在分析帧期间，计算这些参数。然后对每一新帧更新这些参数。

码激励线性预测编码(CELP)、随机编码、或矢量激励语音编码属于各类语音编码器中的一种。在Thomas E.Tremain等人的“一种4.8kbps编码激励线性预测编码器”论文(移动卫星会议会刊，1988)中描述了这种特定类别的编码算法的一个例子。

声码器的功能是把数字化的语音信号压缩成低比特率的信号，除去语音中固有的所有的多余信息。一般语音具有主要由于声道的滤波作用引起的短期多余信息和由于声带对声道的刺激引起的长期多余信息。在CELP编码器中，这些操作由两个滤波器来模拟，一个短期共振峰滤波器和一个长期基音滤波器。在除去了这些多余信息之后，得到的剩余的信号可以模拟成高斯白噪声，但它还必须进行编码。这种技术的基础是计算被称为LPC滤波器的参数，这种滤波器用人的声道模型来进行语音波形的短期预测。另外，通过计算基音滤波器的参数来模拟与语音的基音相关的长期效应，基音滤波器主要模拟人的声带。最后，还必须激励这些滤波器。它是这样进行的，在用波形激励上述两个滤波器时，确定码本中的哪一种随机激励波形与原始语音最接近。因此，传输的参数涉及三项(1)LPC滤波器，(2)基音滤波器，和(3)码本激励。

虽然，使用声码合成技术能减少信道传送的信息量，同时维持重构语音的质量，但还需要使用另一些技术来进一步减少信息量。在此之前用来减少传送的信息量的一种技术是话音活动选通。在这种技术中，在语音中断期间不传输信息。虽然这种技术达到了所希望的减少数据的结果，但有几个缺点。

在许多情况下，语音的质量将由于截去了单词的开始部分而下降。在待用期间关闭信道带来的另一个问题是系统用户能觉察出缺少一般与语音一起出现的背景噪声，从而把这种信道的质量看作差于正常的电话通话。活动选通带来的再一个问题是在没有语音产生时，背景中偶然的突发噪声可以触发传输机，结果产生噪声脉冲打扰了接收机。

为尝试改善话音活动选通系统中合成的语音的质量，在译码过程中加入合成的舒适的噪声。虽然加入舒适的噪声能在在质量方面得到一些改善。但它不能实质上改善整体质量，这是由于在编码器上舒适的噪声不能模拟真实的背景噪声。

为了减少需要传送的信息，一种实现数据压缩的较佳的技术是进行可变速率的声码合成。由于语音中固含的无声期间，即暂停，所以可以减少表示这些期间所需的数据量。通过减小这些无声期间的数据速率，可变速率声码合成最有效地利用了这种无声的实际情况。与完全中断数据传输相反，降低无声期间的数据速率克服了与话音活动选通相关联的问题，同时使减少传输信息变得容易。

转让给本发明受让人的1993年1月14日申请的名称为“可变速率声码器”的待批美国专利申请No.08/004,484详细描述了上面提到的各类语音编码器、码激励线性预测(CELP)、随机编码和矢量激励语音编码等的声码合成算法。CELP本身就有效地减少了表示语音所必须的数据量，再合成能得到高质量的语音。如上所述，为每帧更新声码合成参数。待批专利申请中详述的声码器通过改变频率和模型参数的精度提供可变的输出数据速率。

上述专利申请中提到的声码合成算法与现有的CELP技术最显著的不同之处是根据语音变化(活动)产生可变的输出数据速率。其结构被定义成在语音暂停期间不经常更新参数，或者降低精度。这种技术可以大大降低传输的信息量。用来降低数据速率的是话音活动因子，它等于给定的讲话者在通话期间实际的讲话时间的平均百分率。对于一般的双向电话通话来说，平均数据速率降低到原来的二分之一或者更低。在语音暂停期间，声码器仅对背景噪声进行编码。在这些时间上，一些与人的声道模型有关的参数不需要传输。

如上所述，先前的限制在无声期间传输的信息量的方法被称为话音活动选通。在这种技术中，在无声期间，不传输信息。在接收侧，该期间可以用合成的“舒适噪声”填满。相反，可变速率声码器连续地传输数据，在持批申请的一个典型的实施例中，其速率范围在约为8kbps和1kbps之间。连续传输数据的声码器不需要合成的“舒适噪声”，对背景噪声进行编码为合成的语音提供了更自然的质量。因此，上述专利申请的发明比话音活动选通，显著地改进了合成的语音的质量，能平滑语音与背景之间的过渡。

上述专利申请的声码合成算法能检测到语音中短暂的暂停，能减小有效的话音活动因子。能一帧一帧地决定速率，而不用释放延迟，所以可以把短至帧周期(一般为20毫秒)的语音暂停的数据速率降低。因此，可以捕获诸如音节之间的暂停等。这种技术减小了话音活动因子，它不仅超出了传统上考虑的短语之间的长时间的暂停，还能以较低的速率对较短的暂停进行编码。

由于以一帧为基础来决定速率，因此不会有诸如话音活动选通系统中截去单字的开始部分的问题。由于语音检测和数据重新开始传输之间的延迟的原因，在话音活动选通系统中仍会发生截取现象。根据每帧来决定速率使得语音的所有过渡的声音都变得自然。

由于声码器总是在进行传输，在接收端将不断地听到讲话者周围的背景噪声，从而在语音暂停期间产生了较自然的声音。因此，本发明提供对背景噪声的平滑过渡。在讲话期间，听者所听到的背景声不会如话音活动选通系统中那样在暂停期间突然改变成合成的舒适噪声。

由于在传输期间，不断地对背景噪声进行声码合成，因此能完全清晰地传送背景中人们感兴趣的东西。在某些情况下，甚至把人们感兴趣的背景噪声以最高的速率进行编码。例如，当有人在杂声中大声讲话时，或者如果一辆救护车驶过一个站在街角的用户，则会用最大的速率进行编码。然而，对于恒定不变的背景噪声，或者缓慢变化的噪声，用低速率进行编码。

用可变速率的声码合成技术可以把基于数字蜂窝电话系统的码分多址(CDMA)容量提高到2倍以上。由于CDMA和可变速率声码唯一地匹配，使用CDMA时当通过任一信道传输数据的速率降低时，信道之间的干扰自动减小。相反，考虑分配传输时间片的系统如TDMA或FDMA。为了使这种系统利用数据传输速率的降低，需要外部干预协调把未使用的时间段再分配给其它用户。这种方法中的固有的延迟意味着仅在长语音暂停期间可以对信道进行再分配。因此，不能充分利用话音活动因子。然而，有了外部协调，因为其它已提到的原因，在与CDMA不同的系统中可变速率声码合成是有用的。

在CDMA系统中，在要求过大的系统容量时，语音质量可能稍稍下降。从理论上讲，可以把声码器看作多个声码器都工作在不同的速率上，得到不同的语音质量。因此，可以把这些语音质量混在一起，以进一步降低数据传输的平均速率。最初的试验显示，把全速率和半速率声码合成的语音混在一起，例如，最大允许数据速率一帧接一帧地在8kbps和4kbps之间变化，则得到的语音的质量比最大为4kbps的半可变速率好，但不如最大为8kbps的全可变速率好。

众所周知，在大多数通话中，在某一时刻，仅只有一个人在说。对于全双工电话链路的附加功能来说，可以提供速率互锁。如果链路的一个方向正在以最高传输速率进行传输，那么强制该链路的另一个方向以最低速率进行传输。链路的两个方向间的互锁能保证不大于链路的每个方向的50％的平均利用率。然而，当信道选通关闭时，如在激活选通时的速率互锁的情况，听者在通话时没有办法中止发话者，把说话权接过来。上述专利申请的声码合成方法能容易地用设置声码合成速率的控制信号提供自适应的速率互锁的能力。

在上述专利申请中，当语音出现时，声码器工作在全速率，而当没有语音出现时，声码器工作在八分之一速率。声码合成算法的半速率和四分之一速率运算是为容量受到冲击，或者当有其它数据要与语音数据并行传输时的特殊情况而保留的。

1993年9月8日提出的，名称为“确定多用户通信系统内的传输数据速率的方法和装置”的待批美国专利申请No.08/118,473(此申请已转让给本发明的受让人，并援引在此)详述了一种通信系统根据系统容量测定限制可变速率声码器编码的帧平均数据速率的方法。系统强制全速率帧流内的预定帧以低速率(即半速率)进行编码，以降低平均数据速率。以这种方式来降低实际的语音帧的编码速率的问题是这种限制并不对应于输入语音的任一特性，所以对于语音压缩质量来说它并不是最佳的。

另外，在1992年12月2日提出的，名称为“改进的确定可变速率声码器内的语音编码速率的方法”的待批美国专利申请No.07/984,602(现在已于1994年8月23日公告授权为美国专利No.5,341,456，此专利已转让给本发明的受让人，并援引在此)中，揭示了一种从有声语音中鉴别清音语音的方法。所揭示的方法检查语音的能量和语音的频谱覆盖度，用频谱覆盖度来鉴别背景噪声中的清音语音。

完全基于输入语音的声音活动性来改变编码速率的可变速率声码器不能体现基于在活动语音期间动态变化的复杂性或信息内容来改变编码速率的可变速率声码器的压缩效率。把编码速率与输入波形的复杂程度相匹配，可以得到更有效的语音编码器。而且，寻求动态调整可变速率声码器的输出数据速率的系统应当根据输入语音的特征来改变数据速率，以在所要求的平均数据速率下得到最佳的声音质量。

发明内容

本发明是一种以降低的速率对活动语音帧进行编码的和改进和方法和装置，它对语音帧以预定的最高速率和预定的最低速率之间的速率进行编码。本发明规定了一组活动语音工作模式。在本发明的一个典型的实施例中，有四种活动工作模式：全速率语音、半速率语音、四分之一速率清音语音和四分之一有声语音。

本发明的一个目的是提供一种从一组预定的编码速率中选择对包括多个语音样本的语音帧进行编码的编码速率的方法和装置，所述方法和装置根据所述语音样本和从所述语音样本取得的信号，产生一组表示所述语音帧的特征的参数；并且

根据所述参数组从所述预定的编码速率组中选择编码速率，所述参数组用于确定所述语音样本的感觉有效性，其中：当确定所述语音样本的感觉有效性较大时，按速率选择规则选择分配第一位的所述编码率，对所述语音样本进行编码，当确定所述语音样本的感觉有效性较小时，按所述速率选择规则选择分配第二位的所述编码率，对所述语音样本进行编码，所述第一位大于所述第二位。

本发明的另一个目的是提供一种从一组预定的编码速率中选择编码速率的方法和装置，所述方法和装置根据语音帧和从所述语音帧取得的信号，产生一组表示所述语音帧的特征的参数，所述参数组用于取得语音样本的感觉有效性；

接收一速率命令信号；

根据所述速率命令信号产生至少一个阈值；

把所述参数组的至少一个参数与所述至少一个阈值比较；和

根据比较结果选择编码速率，其中：当确定所述语音样本的感觉有效性较大时，按速率选择规则选择分配第一位的所述编码率，对所述语音样本进行编码，当确定所述语音样本的感觉有效性较小时，按所述速率选择规则选择分配第二位的所述编码率，对所述语音样本进行编码，所述第一位大于所述第二位。

附图概述

通过下面的结合附图的详细描述，本发明的特征、目的和优点将变得更明了，在所有附图中，相同的参考符号代表相应的内容：

图1是本发明的编码速率确定装置的方框图；

图2是速率确定逻辑的编码速率选择过程的流程图。

本发明的实施方式

在一个典型的实施例中，对有160个语音样本的语音帧进行编码。在本发明的一个典型的实施例中，有四种数据速率：全速率、半速率、四分之一速率和八分之一速率。全速率对应的输出数据速率为14.4kbps。半速率对应的输出数据速率为7.2kbps。四分之一速率对应的输出数据速率为3.6kbps。八分之一速率对应的输出数据速率为1.8kbp，这一速率为无声期间进行的传输而保留。

应当注意，本发明仅涉及对检测到在其内有语音出现的活动语音帧的编码。检测语音存在的方法在上面提到的美国专利申请No.08/004,484和07/984,602中有详细的描述。

参见图1，模式测定部件12确定由速率确定逻辑14选择活动语音帧的编码速率所用的五个参数值。在一个典型的实施例中，模式测定部件12确定这五个参数，提供给速率确定逻辑14。速率确定逻辑14基于模式测定部件12提供的参数选择全速率、半速率或四分之一速率的编码速率。

速率确定逻辑14根据产生的这五个参数选择四种编码模式中的一种模式。四种编码模式包括全速率模式、半速率模式、四分之一速率清音模式和四分之一速率有声模式。四分之一有声模式和四分之一清音模式以相同的速率提供数据，但其编码策略不同。半速率模式用于对平稳的、周期性的和有良好模型的语音进行编码。四分之一速率有声模式、四分之一清音模式和半速率模式都利用对帧进行编码时不需要很高的精度的那部分语音。

四分之一清音模式用于对清音语音进行编码。四分之一速率有声模式用于对暂时掩蔽的语音帧进行编码。大多数CELP语音编码器都利用同时掩蔽，在其中，给定频率的语音能量以相同的频率和时间掩蔽噪声能量，使噪声听不见。可变速率的语音编码器能利用暂时掩蔽，用前面的高能量的相似频率内容的语音帧来掩蔽低能量的活动语音帧。因为人耳在时间上在各种频带内综合能量，所以，把低能量帧与高能量帧在时间上平均，能降低对低能量帧的编码要求。利用这种暂时掩蔽听觉现象使可变速率语音编码器能在这种语音模式期间降低编码速率。这种心理声学现象在E.Zwicker和H.Fastl撰写的《心理声学》第56-101页中有详述。

模式测定部件12接收四个输入信号，用它们产生五个模式参数。模式测定部件12接收的第一个信号是S(n)，它是一个未编码的输入语音样本。在一个典型的实施例中，语音样本以包含160个语音样本的帧形式提供。所有提供给模式测定部件12的语音帧包含活动语音。在无声期间，本发明的活动语音速率确定系统不工作。

模式测定部件12接收的第二个信号是合成语音信号S(n)，它是从可变速率CELP编码器的编译码器译码得到的语音。编译码器对编码的语音帧进行译码，以便在基于综合分析的CELP编码器中更新滤波器参数和存储器。这种译码器的设计在本技术领域中是众所周知的，在上面提到的美国专利申请No.08/004,484中有详细的描述。

模式测定部件12接收的第三个信号是共振峰残留信号e(n)。共振峰残留信号是CELP编码器的线性预测编码(LPC)滤波器对语音信号S(n)滤波之后得到的信号。LPC滤波器的设计和这种滤波器对信号的滤波过程在本技术领域中是众所周知的，在上面提到的美国专利申请No.08/004,484中有详细的描述。输入到模式测定部件12中的第四个信号是A(z)，它是相关CELP编码器的感性加权滤波器(perceptual weighting filter)的滤波器抽头值。这抽头值的产生和感性加权滤波器的滤波操作在本技术领域中的众所周知的，在上面提到的美国专利申请No.08/004,484中有详细的描述。

目标匹配信噪比(SNR)计算部件2接收合成语音信号S(n)、语音样本S(n)和一组感性加权滤波器抽头值A(z)。目标匹配SNR计算部件2提供一个用TMSNR表示的参数，该参数指示语音模型如何好地跟踪输入语音。目标匹配SNR计算部件2根据公式1产生

TMSNR = 10 \cdot \log [\frac{Σ_{n = 0}^{159} {\hat{S}}_{w}^{2} (n)}{Σ_{n = 0}^{159} {(S_{w} (n) - {\hat{S}}_{w} (n))}^{2}}] . . . . . . . (1)

其中下标w表示信号已经由感性加权滤波器滤波。

请注意，这一测定是对前一语音帧的计算，而NACF、PGD、ED、ZC是根据当前语音帧计算的。由于它是所选的编码速率的函数，TMSNR是根据前一语音帧计算得到的。由于计算的复杂性的原因，它是根据被编码的帧的前一帧计算得到。

感性加权滤波器的设计和实现在该技术领域是众所周知的，并在上面提到的美国专利申请No.08/004,484中有详细的描述。应当注意，感性加权最好是对语音帧的可感知的显著特征进行加权。然而，可以预见，不用对信号感性的加权也可进行测定。

归一化自相关计算部件4接收共振峰残留信号e(n)。归一化自相关计算部件4的作用是提供语音帧内的样本具有的周期性的指示。归一化自相关部件4根据下式2产生一个用NACF表示的参数：

NACF = \max_{T &Element; [20,120]} \frac{Σ_{n = 0}^{159} e (n) \cdot e (n - T)}{Σ_{n = 0}^{159} e^{2} (n)} . . . . . . (2)

应当注意，产生这一参数需要对前一帧编码得到的共振峰残留信号的存储。这不仅可以测试当前帧的周期性，而且与前一帧一起测试当前帧的周期性。

在较佳实施例中，在产生NACF时用共振峰残留信号e(n)代替可以使用的语音样本S(n)的理由是为了消除语音信号共振峰的相互影响。使语音信号通过共振峰滤波器的作用是使语音包络平滑，白化得到的信号。应当注意，在一个典型的实施例中，延时T的值对于每秒8000个样本的取样频率对应于66Hz和400Hz之间的基音频率(pitch frequency)。给定延时值T的基音频率由下式3计算得到：

fpitch＝fs/T，其中fs是取样频率。 (3)应当注意，只要选择不同组的延时值，就可以扩大或者缩小该频率范围。还应当注意，本发明同样可以用于任何取样频率。

零交叉计数器6接收语音样本S(n)，并对语音样本的正负符号改变的次数进行计数。这是一种不花费计算的检测语音信号中的高频分量的方法。该计数器可以用循环形式以软件来实现：

cnt＝0 (4)

for n＝0,158 (5)

if(S(n)·S(n+1)＜0)cnt++ (6)式4-6的循环使连续的语音样本相乘，并测试乘积是否小于零，如果为零，则表示两个连续的样本之间的符号不同。这一运算假设在语音信号中没有直流分量。从信号中除去直流分量在该技术领域中是众所周知的。

预测增益微分部件8接收语音信号S(n)和共振峰残留信号e(n)。预测增益微分部件8产生用PGD表示的参数，该参数确定LPC模型是否仍维持其预测效率。预测增益微分部件8根据下式7产生预测增益Pg：

Pg = \frac{Σ_{n = 0}^{159} S^{2} (n)}{Σ_{n = 0}^{159} e^{2} (n)} . . . . . . . (7)

然后把该帧的预测增益与前一帧的预测增益相比较，用下式8产行输出参数PGD：

PGD = 10 \cdot \log [\frac{P_{g} (i)}{P_{g} (i - 1)}],

其中i表示帧数。 (8)在一较佳实施例中，预测增益部件8并不产生预测增益值Pg。在产生LPC系统时，Durbin递归运算的副产品是预测增益Pg，所以不必重复这一计算过程。

帧能量微分部件10接收该帧的语音样本s(n)，根据下式9计算该帧的语音信号的能量：

E_{i} = Σ_{n = 0}^{159} S^{2} (n) . . . . . . (9)

把该帧的能量与前几帧的平均能量Eave相比较。在一个典型的实施例中，通过有漏积分器(leaky integrator)的形式来产生平均能量Eave：

Eave＝α*Eave+(1-α)*Ei，其中0＜α＜1 (10)系数α确定与计算相关的帧的范围。在一个典型的实施例中，α被置为0.8825，它提供了8个帧的时间常数。然后帧能量微分部件10根据下式11产生参数ED：

ED = 10 \cdot \log \frac{E_{i}}{E_{ave}} . . . . . . (11)

把这五个参数TMSNR、NACF、ZC、PGD和ED提供给速率确定逻辑14。速率确定逻辑14根据这些参数和预定的一组选择准则选择下一帧样本的编码速率。现在参见图2，图2示出了速率确定逻辑部件14内的速率选择过程的流程图。

在速率确定过程在块18开始。在块20，把归一化自相关部件4的输出NACF与预定的阈值THR1比较，把零交叉计数器的输出与第二预定阈值THR2比较。如果NACF小于THR1，并且ZC大于THR2，则流程进行块22，把该语音作为四分之一的清音语音进行编码。NACF小于预定的阈值表示在语音内缺少周期性，ZC大于预定阈值表示在语音内有高频分量。这两个条件的比较表示该帧包含清音语音。在一个典型的实施例中，THR1为0.35，THR2为50个零交叉。如果NACF不小于THR1或者ZC不大于THR2，则流程进入块24。

在块24，把帧能量微分部件10的输出ED与第三阈值THR3比较。如果ED小于THR3，则在块26把当前语音帧以作为四分之一速率有声语音进行编码。如果当前帧的能量微分比平均值低的量多于阈值，则表示暂时掩蔽语音的情况。在一个典型的实施例中，THR3为-14dB。如果ED不超过THR3，则流程进入块28。

在块28，把目标匹配SNR计算部件2的输出TMSNR与第四个阈值THR4比较，把预测增益微分部件8的输出PGD与第五个阈值THR5比较，把归一化自相关计算部件4的输出NACF与第六个阈值THR6比较。如果TMSNR超过TH4，PGD小于THR5，并且NACF超过THR6，则流程进入块30，以半速率对该语音进行编码。TMSNR超过其阈值表示该模型和被模型化的语音在前一帧很好地匹配。参数PGD小于其预定阈值表示LPC模型维持其预测效率。参数NACF超过其预定阈值表示该帧包含周期性的语音，它与前一帧语音是有周期性的。

在一个典型的实施中，THR4最初被置为10dB，THR5被置为-5dB，THR6被置为0.4。在块28，如果TMSNR不超过THR4，或者PGD不超过THR5，或者NACF不超过THR6，则流程进入块32，对当前语音帧以全速率进行编码。

动态地调整阈值可以实现任意的总体数据速率。总体活动语音平均数据速率R可以相对于一个W个活动语音帧的分析窗来定义：

其中Rf是以全速率进行编码的帧的数据速率，Rh是以半速率进行编码的帧的数据速率，Rq是以四分之一速率进行编码的帧的数据速率，W＝#Rf帧+#Rh帧+#Rq帧。把每个编码速率与以该速率进行编码的帧数相乘，然后除以样本内的总帧数，就可以计算出活动语音样本的平均数据速率。帧样本尺寸W足够大以防止诸如发出的“s”声等长时间的清音语音使平均速率的统计失真是很重要的。在一个典型的实施例中，计算平均速率的帧样本的尺寸为400个帧。

增加以半速率来对全速率编码的帧进行编码的数量可以降低平均数据速率，相反，增加以全速率来对半速率编码的帧进行编码的数量可以提高平均数据速率。在一个较佳实施例中，调整它以影响这种变化的阈值为THR4。在一个典型的实施例中，存储TSNR值的直方图。在一个典型的实施例中，把存储的TMSNR值量化成偏离THR4当前值的分贝整数值。通过保持这种直方图，能容易地估计出在前一分析块中有多少帧从全速率编码改变为半速率编码，它等于THR4减去了一个分贝整数。相反，有多少帧从半速率编码改变为全速率编码的估计值为阈值加上分贝整数。

确定应当从1/2速率帧改变到全速率帧的帧数的公式由下式来确定：

其中，Δ为应当以全速率编码以获得目标速率而以半速率进行编码的帧数，W＝#Rf帧+#Rh帧+#Rq帧。

TMSNR_NEW＝TMSNR_OLD+(实现上式13所定义的Δ帧差分的TMSNR_OLD的dB数)请注意，TMSNR的初始值为所要求的目标速率的函数。在一个目标速率为8.7Kbps的典型的实施例中，Rf＝14.4kbps，Rf＝7.2kbps，Rq＝3.6kbps，TMSNR的初始值为10dB。应当注意，把TMSNR值量化成离阈值THR4的距离的整数分贝，可以容易地做得更精细如半个或四分之一分贝，或者较粗地量化，如一又二分之一或两分贝。

可以预见，也可以把目标速率存储在速率确定逻辑部件14的存储元件内，在这种情况下，目标速率将是一个静态值，根据它动态确定THR4值。除了这一初始目标速率，可以想象，通信系统可以基于系统的当前容量条件把一个速率命令信号传输给编码速率选择装置。

速率命令信号可以规定目标速率，也可以只要求增加或减小平均速率。如果系统规定了目标速率，则该速率将用于根据式12和13确定THR4的值。如果系统仅规定用户应当以较高的或较低的传输速率进行传输，则速率确定逻辑部件14可以把THR4改变一个预定的增加量来响应，或者可以根据预定增加的速率增加量或减小量来计算增加的改变量。

块22和26指出了根据语音样本是否表示有声或清音语音对语音编码的方法的差别。清音语音是诸如“f”、“s”、“sh”、“t”和“z”等的摩擦音或辅音形式的语音。四分之一速率的有声语音是暂时掩敝的语音，低音量的语音帧跟在相似频率的较高音量的语音帧后。人耳不能听到跟在高音量帧后的低音量帧内的语音细微点，所以可以通过以四分之一速率对这一语音进行编码来省去这些位。

在对清音的四分之一速率语音进行编码的一个典型的实施例中，把语音帧分成四个子帧。为这四个子帧的每个传输的是增益值G和LPC滤波器系数A(z)。在一个典型的实施例中，传输五个比特来表示每子帧的增益。在一个译码器上，为每个子帧随机地选择一个码本索引。把随机选出的码本矢量乘以传输的增益值，并使它通过LPC滤波器A(z)，产生合成的清音语音。

在对有声四分之一速率语音进行编码时，把一个语音帧分成两个子帧，CELP编码器确定码本索引和两个子帧中每个子帧的增益。在一个典型的实施例中，分配五个比特来表示码本索引，分配另五个比特来规定相对应的增益值。在一个典型的实施例中，四分之一速率有声编码所用的码本是半速率和全速率编码所用的码本矢量的子集。在一个典型的实施例中，用七个比特来指定全速率和半速率编码模式时的码本索引。

在图1中的块可以以结构块的形式来实现，以达到所设计的功能，或者，这些块可以表示数字信号处理器(DSP)内的程序或者一个专用集成电路ASIC实现的功能。对本发明的功能性的描述能使技术人员无需过多实验就能用DSP或ASIC来实现本发明。

前面对较佳实施例的描述能使本技术领域的熟练人员制造或使用本发明。对于本技术领域的熟练人员来说能容易地对这些实施例进行改变，并且此处所定义的一般原理可以应用于其它实施例而无需创造性技能。因此，本发明并不能限于此处所示的这些实施例，而应给予与此处所揭示的原理和特征相一致的最宽的范围。

Claims

1.一种从一组预定的编码速率中选择对包括多个语音样本的语音帧进行编码的编码速率的装置，其特征在于，包含：

模式测定装置，用于根据所述语音样本和从所述语音样本得到至少一个信号产生一组表示所述语音帧的特征的参数；和

速率确定逻辑装置，用于接收所述一组参数，根据所述参数组确定所述语音样本的感觉有效性，并利用预定速率选择规则从所述预定的一组编码速率中选择一个编码速率，其中：当确定所述语音样本的感觉有效性较大时，按所述速率选择规则选择分配第一位的所述编码率，对所述语音样本进行编码，当确定所述语音样本的感觉有效性较小时，按所述速率选择规则选择分配第二位的所述编码率，对所述语音样本进行编码，所述第一位大于所述第二位。

2.如权利要求1所述的选择编码速率的装置，其特征在于，所述参数组包含表示前一帧语音与从其得到的合成语音之间的匹配程度的编码质量比率。

3.如权种要求2所述的选择编码速率的装置，其特征在于，所述参数组还包括表示所述语音样本周期性的归一化自相关量值。

4.如权利要求2所述的选择编码速率的装置，其特征在于，所述参数组还包括表示所述语音帧内出现高频分量的零交叉计数值。

5.如权利要求2所述的选择编码速率的装置，其特征在于，所述参数组还包括表示帧之间共振峰的稳定度的预测增益微分量值。

6.如权利要求2所述的选择编码速率的装置，其特征在于，所述参数组还包括表示所述语音帧的能量和平均帧能量之间的能量变化的帧能量微分量值。

7.如权利要求1所述的选择编码速率的装置，其特征在于，所述预定的编码速率组包含全速率、半速率和四分之一速率。

8.如权利要求2所述的选择编码速率的装置，其特征在于，所述参数组还包括表示所述语音样本周期性的归一化自相关量值和表示所述语音帧内出现高频分量的零交叉计数值，当归一化自相关量值小于第一预定阈值，并且所述零交叉计数值超过第二预定阈值时，所述速率确定逻辑装置选择四分之一速率清音编码的编码模式。

9.如权利要求2所述的选择编码速率的装置，其特征在于，所述参数组还包括表示所述语音样本的能量和平均帧能量之间的能量变化的帧能量微分量值，当所述帧能量微分量值超过第三预定阈值时，所述速率确定逻辑装置选择四分之一速率有声编码的编码模式。

10.如权利要求1所述的选择编码速率的装置，其特征在于，所述参数组包含表示所述语音样本周期性的归一化自相关量值、表示前一帧语音与从其得到的合成语音之间的匹配程度的编码质量率和表示一组共振峰参数的帧之间的稳定度的预测增益微分量值，当所述归一化自相关量值超过第四预定阈值，所述预测增益微分值超过第五预定阈值，并且所述编码质量率超过第六预定阈值时，所述速率确定逻辑装置选择半速率编码的编码模式。

11.一种从一组预定的编码速率中选择编码速率的装置，其特征在于，所述装置包含：

模式测定装置，根据语音帧和从所述语音帧得到的信号，产生一组表示所述语音帧的特征的参数；和

速率确定逻辑装置，接收所述参数组，根据所述参数组确定语音样本的感觉有效性，并接收速率命令信号，根据所述速率命令信号产生至少一个阈值，把所述参数组中的至少一个参数与所述至少一个阈值比较，根据比较结果选择编码速率，其中：当确定所述语音样本的感觉有效性较大时，按速率选择规则选择分配第一位的所述编码率，对所述语音样本进行编码，当确定所述语音样本的感觉有效性较小时，按所述速率选择规则选择分配第二位的所述编码率，对所述语音样本进行编码，所述第一位大于所述第二位。

12.一种从一组预定的编码速率中选择对包括多个语音样本的语音帧进行编码的编码速率的方法，其特征在于，包含下列步骤：

根据所述语音样本和从所述语音样本取得的信号，产生一组表示所述语音帧的特征的参数；和

13.如权利要求12所述的方法，其特征在于，所述参数组包括表示前一帧语音与从其得到的合成语音之间的匹配程度的编码质量率。

14.如权种要求13所述的方法，其特征在于，所述参数组还包括表示所述语音样本周期性的归一化自相关量值。

15.如权利要求13所述的方法，其特征在于，所述参数组还包括表示所述语音帧内出现高频分量的零交叉计数值。

16.如权种要求13所述的装置，其特征在于，所述参数组还包括表示帧之间共振峰的稳定度的预测增益微分量值。

17.如权利要求13所述的方法，其特征在于，所述参数组还包括表示所述语音帧的能量和平均帧能量之间的能量变化的帧能量微分量值。

18.如权利要求12所述的方法，其特征在于，所述预定的编码速率组包含全速率、半速率和四分之一速率。

19.如权利要求13所述的方法，其特征在于，所述参数组还包括表示所述语音样本周期性的归一化自相关量值和表示所述语音帧内出现高频分量的零交叉计数值，当所述归一化自相关量值小于第一预定阈值，并且所述零交叉计数值超过第二预定阈值时，所述选择编码速率的步骤选择的编码模式为四分之一速率清音编码。

20.如权利要求13所述的方法，其特征在于，所述参数组还包括表示所述语音样本的能量和平均帧能量之间的能量变化的帧能量微分量值，当所述帧能量微分量值超过第三预定阈值时，所述选择编码速率的步骤选择的编码模式为四分之一速率有声编码。

21.如权利要求12所述的方法，其特征在于，所述参数组包含表示所述语音样本周期性的归一化自相关量值、表示前一语音帧与从其取得的合成语音之间的匹配程度的编码质量率和表示一组共振峰参数的帧之间的稳定度的预测增益微分量值，当所述归一化自相关量值超过第四预定阈值，所述预测增益微分值超过第五预定阈值，并且所述编码质量率超过预定的第六阈值时，所述选择编码速率的步骤选择的编码模式为半速率编码。

22.一种从一组预定的编码速率中选择编码速率的方法，其特征在于，所述方法包含下列步骤：

根据语音帧和从所述语音帧取得的信号，产生一组表示所述语音帧的特征的参数，所述参数组用于取得语音样本的感觉有效性；

接收一速率命令信号；

根据所述速率命令信号产生至少一个阈值；

把所述参数组的至少一个参数与所述至少一个阈值比较；和