CN1441949A

CN1441949A - 语音编码中的前向纠错

Info

Publication number: CN1441949A
Application number: CN01812602A
Authority: CN
Inventors: J·斯维贝里; J·松德奎斯特; A·乌夫利登; A·诺尔格伦; M·维斯特伦德
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2000-05-11
Filing date: 2001-05-10
Publication date: 2003-09-10
Also published as: EP1281174A1; EP2017829A3; JP4931318B2; ATE414315T1; PT2711925T; EP2711925A3; ES2527697T3; JP2003533916A; AU2001258973A1; EP1281174B1; EP2017829B1; EP2711925B1; DE60136537D1; EP2017829A2; WO2001086637A1; US6757654B1; EP2711925A2

Abstract

一种用于编码语音数据的改进的前向纠错(FEC)技术提供一种编码器模块，该编码器模块使用主合成模型主编码输入语音信号以产生主编码数据，并使用冗余合成模型冗余编码该输入语音信号以产生冗余编码数据。分组器把主编码数据和冗余编码数据合并入一系列分组中并经由基于分组的网络例如互联网协议(IP)网络发送这些分组。译码模块使用主合成模型主译码该分组，并使用冗余合成模型冗余译码该分组。该技术在译码期间和译码后在主合成模型和冗余合成模型之间提供交互作用以改善合成输出的语音信号的质量。例如，这样的“交互作用”可以采取在一个模型中使用其他模型更新状态的形式。

Description

语音编码中的前向纠错

发明背景

本发明涉及到在声频信息传输中用于执行前向纠错的系统和方法，并且更具体而言，本发明涉及到在基于分组的语音编码信息传输中用于执行前向纠错的系统和方法。

1.语音编码

目前水平的前向纠错(FEC)技术的缺点可以通过一些常规语音编码概念的引导性讨论来最好地理解。

1.1码激励线性预测(CELP)编码

图1示出常规码激励线性预测(CELP)综合分析编码器100。编码器100包括以下功能单元，称为成帧模块104、线性预测编码(LPC)分析模块106、差值计算模块118、误差加权模块114、误差最小化模块116以及译码器模块102。而译码器模块102又包括以级联关系相互连接以产生合成信号的固定码本112、长期预测(LTP)滤波器110和线性预测编码(LPC)滤波器108。LPC滤波器108模拟归因于声道的语音中的短期相关，相当于语音信号的频谱包络。它表示为：

1 / A (z) = 1 / (1 - Σ_{i = 1}^{p} a_{i} z^{- i})

(式1)

其中p表示滤波器阶数，a_i表示滤波器系数。另一方面，LTP滤波器110模拟归因于声带的语音的长期相关，相当于语音信号的精细的似周期频谱结构。例如，它可有下式给定的形式：

1 / P (z) = 1 / (1 - Σ_{i = - 1}^{I} b_{i} z^{- (D + i)})

(式2)

其中D通常相当于该长期相关的基音周期，且b_i与滤波器的长期增益系数有关。固定码本112存储一系列激励输入序列。该序列给LTP滤波器110和LPC滤波器108提供激励信号，并且在某种程度上该序列在模拟不能使用LTP滤波器110和LPC滤波器108以确定性的方法预测的语音信号特性(比如音乐内的声频成分)时是有用的。

在操作中，成帧模块104接收输入语音信号并把它分成连续的帧(例如20ms持续时间)。然后，LPC分析模块106接收且分析该帧以产生一组LPC系数。这些系数被LPC滤波器108用于模拟相当于语音信号频谱包络的语音信号的短期特性。然后，通过使该输入语音信号馈送通过包括计算的LPC系数的反向滤波器而形成LPC残余。如图2中所示，这个残余表示原始语音信号在由线性预测分析去除短期冗余之后剩余的成分。在两个音调脉冲之间的距离记作“L”且称为滞后。然后，编码器100可以使用该残余以预测长期系数。LTP滤波器110使用这些长期系数来模拟该语音信号的精细的频谱结构(例如音调延迟和音调增益)。LTP滤波器110和LPC滤波器108共同用来形成模拟语音信号的长期特性和短期特性的级联滤波器。当来自固定码本112的激励序列驱动该级联滤波器时，该级联滤波器生成表示原始语音信号s(n)的重构版本的合成语音信号

编码器100通过连续地生成一系列的合成语音信号、连续地比较该合成语音信号

和原始语音信号s(n)以及连续地调整译码器模块102的操作参数以最小化

和s(n)之间的差值来选择最佳激励序列。更准确地说，差值计算模块118形成原始语音信号s(n)和合成语音信号

之间的差值(即误差信号e(n))。误差加权模块114接收误差信号e(n)并生成基于感性加权因数的加权误差信号e_w(n)。误差最小化模块116使用一个搜索过程来调整语音译码器102的操作参数以使它产生尽可能最接近原始信号s(n)的合成信号

在达到最佳合成信号

之后，相关的译码器参数经由传输媒质(没有示出)传送到译码器地点(没有示出)。在译码器地点的译码器包括与编码器100的译码器模块102相同的结构。译码器使用传送的参数来再生在编码器100中计算的最佳的合成信号

。例如，编码器100可以传送表示在固定码本112中最优激励信号位置的码本索引连同相关的滤波器参数或系数(例如LPC和LTP参数)。传送这些参数以代替输入语音信号的更直接表示会显著地减少传送语音信息所需要的带宽。

图3示出图1中示出的综合分析编码器100的一种修改。图3中示出的编码器300包括成帧模块304、LPC分析模块306、LPC滤波器308、差值计算模块318、误差加权模块314、误差最小化模块316以及固定码本312。这些单元总地都各自对应于图1中示出的相似名字的部分。然而在图3中，LTP滤波器110被自适应码本320代替。另外，加法器模块322把从自适应码本320和固定码本312输出的激励信号加起来。

编码器300基本上以与图1的编码器100相同的方式运行。然而在编码器300中，自适应码本320模拟语音信号的长期特性。另外，施加于LPC滤波器308的激励信号表示自适应码本320输入项和固定码本312输入项的总和。

1.2GSM增强型全速率编码(GSM-EFR)

现有技术提供上面描述的CELP设计的许多具体的实施。一个这样的实施是GSM增强型全速率(GSM-EFR)语音代码转换标准，该标准在欧洲电信标准协会(ETSI)1996年十一月的“Global System for MobileCommunications：Digital Cellular Telecommunications Systems：Enhanced full Rate(EFR)Speech Transcoding(GSM 06.60)(全球移动通信系统：数字蜂窝电信系统：增强型全速率(EFR)语音代码转换(GSM 06.60))”中描述，在这里将其整体引入作为参考。

GSM-EFR标准使用下式模拟语音信号的短期性质：

H (z) = 1 / \hat{A} (z) = 1 / (1 + Σ_{i = 1}^{m} {\hat{a}}_{i} z^{- i})

(式3)

其中

表示量化的线性预测参数。该标准使用下式模拟语音信号的长期特征：

1/B(z)＝1/(1-g_pz^-T) (式4)

其中T与音调延迟有关，g_p与音调增益有关。自适应码本实施音调合成。另外，GSM-EFR标准使用由下式定义的感性加权滤波器：

W(z)＝(A(z/γ₁))/(A(z/γ₂)) (式5)

其中A(z)定义未量化的LPC滤波器，γ₁和γ₂表示感性加权因数。最后，GSM-EFR标准使用自适应且固定的(创新的)码本提供激励信号。特别是，固定的码本形成基于交织的单脉冲置换(ISPP)设计构成的代数码本。激励矢量由固定数目的、算术地计算的异于零的脉冲组成。激励由码本中选择的脉冲位置和符号规定。

在操作中，GSM-EFR编码器把输入语音信号分成20ms帧，而20ms帧又分为4个5ms子帧。然后，编码器每帧执行两遍LPC分析。更准确地说，GSM-EFR编码器使用自相关方法用30ms不对称窗口来计算短期参数。在LPC分析中没有使用超前(look-ahead)。超前是指在执行分析时使用来自将来的帧的样本。

然后，各个LP系数被转换为线性频谱对(LSP)表示以便使用LSP预测器进行量化和插值。LSP分析把滤波器系数映射到单位圆上-π到π范围内以产生线谱频率(LSF)数值。相对于比特误差，使用LSF数值与使用LPC数值相比较提供更好的健壮性和稳定性。另外，与使用LPC数值相比较，使用LSF数值允许更有效的信息量化。GSM-EFR特别地使用下列的预测器方程式来计算随后被量化的残余：

LSF_res＝LSF-LSF_mean-predFactor·LSF_prev，res (式6)

项LSF_res是指帧n的LSF残余矢量。量(LSF-LSF_mean)定义在帧n处去除均值的LSF矢量。项(predFactor·LSF_prev，res)是指在帧n处预测的LSF矢量，其中，predFactor是指预测因数常数，且LSF_prev，res是指来自过去的帧(即帧n-1)的第二残余矢量。译码器按照下面的式7使用反向过程：

LSF＝LSF_res+LSF_mean+predFactor·LSF_prev，res (式7)

为达到预测的结果，在译码器中先前的残余LSF_prev，res必须有正确的数值。在重构之后，系数转换为直接滤波器形式，并且在合成语音时使用。

然后编码器在每半个帧(每10ms)中基于感性加权的语音信号执行所谓的开环音调分析以估计音调滞后。此后，编码器对每个子帧执行许多操作。更准确地说，编码器通过从加权的语音信号中减去加权的合成滤波器W(z)H(z)的零输入响应以计算目标信号x(n)。然后编码器计算加权的合成滤波器的冲激响应h(n)。编码器使用冲激响应h(n)执行所谓的闭环分析以发现音调滞后和增益。闭环搜索分析涉及到最小化在原始和合成语音之间的均方加权误差。闭环搜索使用开环滞后计算结果作为初始估计。此后，编码器通过去除自适应码本的贡献来更新该目标信号x(n)，并且编码器使用总的目标以在该代数码本中发现最佳的改进矢量。然后使用码本预测器来标量量化该码本的相关参数，且使用确定的激励信号更新滤波器存储器以在下一个子帧中发现该目标信号。

编码器发送两组LSP系数(包含38比特)、音调延迟参数(包含30比特)、音调增益参数(包含16比特)、代数码参数(包含140比特)以及码本增益参数(包含20比特)。译码器接收这些参数并通过复制由所发送参数表示的编码器条件来重构该合成的语音。

1.3GSM-EFR编码中的误差隐藏(EC)

欧洲电信标准协会(ETSI)在1997年四月5.1.2版的“DigitalCellular Telecommunications System：Substitution and Muting ofLost Frames for Enhanced Full rate(EFR)Speech Trafficchannels(GSM 06.61)(数字蜂窝电信系统：用于增强型全速率(EFR)语音业务信道(GSM 06.61)的丢失帧的取代和静噪)”中建议在GSM-FER中使用误差隐藏，在这里将其整体上引入作为参考。参考的标准建议具有0到6共七个状态的示范性状态机。坏帧指示(BFI)标记指示当前语音帧是否包含错误(状态＝0表示没有错误，状态＝1表示有错误)。先前坏帧指示(PrevBFI)标记指示先前语音帧是否包含错误(状态＝0表示没有错误，状态＝1表示有错误)。状态0相当于这样一个状态，其中当前帧和过去的帧都没有包含错误(即BFI＝0，PrevBFI＝0)。当在当前帧中检测到一个错误(可以对帧使用8-比特循环冗余码校验检测错误)时状态机前进到状态1。状态机在后来的帧中检测到更多的错误后会连续地前进到更高的状态(直到最大状态6)。若状态机当前在状态6，当检测到一个好(即无错误)帧时它回到状态5，除此之外当检测到一个好帧时状态机回到状态0。

取决于标记BFI和PrevBFI的状态以及数值，译码器执行不同的误差隐藏操作。BFI＝0和PrevBFI＝0(在状态0中)状况与接收到两个连续的无错误帧有关。在这种状况下，译码器以在GSM-FER 6.60标准中提出的典型的方式处理语音参数。然后，译码器保存语音参数的当前帧。

BFI＝0和PrevBFI＝1(在状态0或5中)状况与在接收到一个“坏”帧之后接收到一个无错误帧有关。在这种状况下，译码器将LTP增益和固定的码本增益限制为用于该最近接收到的好子帧的数值。换句话说，如果当前LTP增益(g^p)的数值等于或小于最近接收的好的LTP增益，那么就使用当前LTP增益。然而，如果当前LTP增益的数值大于最近接收的好的LTP增益，那么就使用最近的LTP增益数值来代替当前LTP增益。固定码本的增益数值以相似的方式调整。

BFI＝1(在状态1到6的任何状态中，且PrevBFI＝0或1)状况指示在当前帧中检测到一个错误。在这种状况下，当前LTP增益由下列增益代替：

gp＝α_state(n)·g^p(-1) 如果g^p(-1)≤median，否则 (式8)

g^p＝α_state(n)·median 如果g^p(-1)＞median，

其中g^p表示LTP滤波器的增益，α_state(n)表示衰减系数，α_state(n)随状态n的增加而有连续地更大的衰减效应(例如α_state(1)＝0.98，而α_state(6)＝0.20)，“median”表示最近五个子帧的g^p数值的中值，且g^p(-1)表示先前的子帧。固定码本的增益数值以相似的方式调整。

在上面描述的状态(即当BFI＝1时)中，译码器也通过使用存储器中最近四个数值的平均值更新存储器中的码本增益。此外，译码器使过去的LSF移向它们的均值，即：

LSF_q1(i)＝LSF_q2(i)＝β·past_LSF_q(i)+(1-β)·mean_LSF(i) (式9)

其中LSF_q1(i)和LSF_q2(i)是来自当前帧的两个矢量，β是一个常数(例如0.95)，past_LSF_q(i)是来自先前帧的LSF_q2的数值，且mean_LSF(i)是平均LSF数值。更进一步，译码器用过去的来自第四个子帧的滞后数值代替LTP-滞后数值。并且最后，译码器接收到的固定码本激励脉冲与来自错误帧的同样地使用。

1.4声码器

图4示出另一类型的语音译码器：基于LPC的声码器400。在这种译码器中，从噪声矢量404(用于非浊音)或静态脉冲波形402(用于浊音语音)创建LPC残余。增益模块406按比例调整该残余到期望的电平。增益模块的输出供应给包括LPC滤波器408的LPC滤波器块，有下式定义的示范性的函数：

A (z) = Σ_{i = 1}^{n} a_{i} z^{- i}

(式10)

其中a_i表示可以通过最小化预测器误差的均方来计算的滤波器系数。一种已知的声码器称为“LPC-10”。这种译码器为美国军方开发以提供低比特速率的通信。LPC-10声码器使用22.5ms帧，相当于均等的54比特/帧以及2.4k比特/秒。

在操作中，LPC-10编码器(没有示出)做出发音判决以使用该脉冲串或噪声信号。在LPC-10中，这可以通过形成采样的输入信号的低通滤波的版本来执行。该判决基于信号的能量、信号的最大最小比和信号的过零点数目。发音判决是为当前帧的每一半做出的，并且最终的发音判决基于这些两半帧判决和来自下两个帧的判决。

从低通且反向滤波的信号确定音调。从信号的均方根值(RMS)确定音调增益。相关的、表征该编码的参数被量化、发送到该译码器并在译码器中用于产生合成的信号。更准确地说，这种编码技术提供具有十个系数的编码。

声码器400使用的合成模型比GSM-EFR技术更简单，且因此比GSM-EFR技术使用较少的比特表示语音，然而这却导致较次的质量。低比特速率使声码器象冗余的编码器一样适合于语音(将在下面描述)。声码器模拟浊音和非浊音时工作良好，但不能精确地处理爆破音(表示声道阻塞的完全闭合和随后的释放)和非语音信息(例如音乐)。

关于常规语音编码的进一步的细节可以从这本书中找到，即Digital Speech：Coding for Low Bit Rate Communication Systems(数字语音：用于低比特速率通信系统的编码)，A.M.Kondoz，1994，John Wiley和Sons，在这里将其整体引入作为参考。

2.前向纠错(FEC)

一旦被编码，通信系统就可以以多种格式传送语音。基于分组的网络在一系列的离散分组中传送声频数据。

基于分组的业务可能受到高分组丢失率、抖动和再排序的影响。前向纠错(FEC)是致力于丢失分组问题的一种技术。通常，FEC涉及到随同编码的语音一起发送冗余的信息。译码器试图使用该冗余信息重构丢失的分组。媒质无关的FEC技术基于该声频流中的比特添加冗余信息(与语音流的特征的更高级知识无关)。换句话说，与媒质相关的FEC技术基于该语音流的特征添加冗余信息。

Schuster等人的美国专利No.5,870,412描述了一种独立于媒质的技术。这种方法给一连串有效负载分组中的每一个有效负载分组附加单个前向纠错码。通过取前面指定数目的有效负载分组的XOR(异或)和来定义该纠错码。接收机可以由后继分组携带的冗余纠错码来重构丢失的有效负载，并且也可以纠正在一行中丢失的多个分组。这种技术的缺点是它使用可变的延迟。另外，XOR结果的尺寸必须与在计算中使用的最大有效负载的尺寸相同。

图5示出一个基于媒质的FEC技术的概述。编码器模块502包括主编码器508和冗余编码器510。分组器516接收主编码器508和冗余编码器510的输出，并经由传输媒质506发送它的输出。译码器模块504包括主译码器512和冗余译码器514。主译码器512和冗余译码器514的输出由控制逻辑518控制。

在操作中，主编码器508使用主合成模型产生主编码的数据。冗余编码器510使用冗余合成模型产生冗余编码的数据。与主合成模型相比较，冗余合成模型典型地提供语音的更强地压缩的版本(例如，其结果是更小的带宽和更低的质量)。例如，一个已知的方法使用PCM-编码的数据作为主编码的语音，并使用LPC-编码的数据作为冗余编码的语音(注意，例如，V.Hardman等人的“Reliable Audio for Use Over theInternet(在因特网上使用的可靠声频)”，1995，Proc.INET’95)。LPC-编码的数据具有比PCM-编码的数据低得多的比特速率。

图6示出冗余数据(由阴影的块表示)如何附加到主数据(由非阴影的块表示)上。例如，参考最上面的行的分组，第一个分组包含帧n的主数据。先前帧即帧n-1的冗余数据附加到这个主数据上。以这种方式，分组中的冗余数据始终是涉及先前发送的主数据。这种技术提供单级别冗余度，但可能提供附加的级别(通过发送冗余数据的附加的副本)。

具体的格式已被提出以用于附加冗余数据到主数据有效负载上。例如，Perkins等人已提出具体的格式用于在实时传送协议(RTP)中附加LPC-编码的冗余数据到主有效负载数据上(例如注意，C.Perkins等人的“RTP Payload for Redundant Audio Data(用于冗余声频数据的RTP有效负载)”，1997年9月，RFC 2198)。分组头标包括关于主数据的信息和关于冗余数据的信息。例如，头标包括用于提供主编码的时间标记的域，该域指示数据主编码的时间。这个头标也包括偏移时间标记，该偏移时间标记指示在分组中表示的主编码和冗余编码之间的时差。

参考图5和图6，译码器模块504接收既包含主数据又包含冗余数据的分组。译码器模块504包括用于分离主数据和冗余数据的逻辑(没有示出)。主译码器512译码主数据，而冗余译码器514译码冗余数据。更具体地说，当包含帧n的冗余数据的下一个分组到达时，译码器模块504译码帧n的主数据。这个延迟增加到再现(playback)上，在图6中用图表表示法由图例“额外延迟”表示。

在现有技术中，当接收到包含主编码数据的分组时，控制逻辑518命令译码器模块504使用由主译码器512生成的合成的语音。另一方面，当包含主数据的分组“丢失”时，控制逻辑518命令译码器模块504使用由冗余译码器514生成的合成的语音。在这样的情况下，控制逻辑518仅仅用于用冗余编码的帧填充接收到的主编码的帧流中的间隙。例如，在上面参考的Hardman等人的文章中描述的技术中，当在PCM-编码的流中检测到分组丢失后，译码器将译码LPC-编码的数据而不是PCM-编码的数据。

使用常规FEC来改善基于分组的声频传输的质量并不完全令人满意。例如，语音合成模型使用过去操作状态的参数在当前操作状态中生成精确的语音合成。在这种意义上，这种模型是“依赖于历史的”。例如，代数码激励线性预测(ACELP)语音模型使用以前产生的合成来更新它的自适应码本。LPC滤波器、误差隐藏历史和多种量化预测器也使用先前的状态以在当前状态中精确地生成语音。因此，由于主数据的丢失，即使译码器能够使用冗余的数据重构丢失的帧，主合成模型的“存储器”也是不完善的。这可能在语音合成质量中造成“拖延”问题。例如，更新不足的自适应码本可能造成多于十帧的失真波形。常规的FEC技术没有解决这些类型的拖延问题。

此外，基于FEC的语音编码技术可能遭受FEC技术至今没有解决的许多其他问题的影响。例如，在使用线性预测器的综合分析技术中，相位的不连续性可能是非常容易听见的。在使用自适应码本的技术中，位于反馈环中的相位误差可能会保持很多帧。另外，在使用编码时预测的LP系数的语音编码器中，LPC参数的丢失会降低预测器的精度。在LPC语音编码技术中这将会把误差引入到最重要的参数中去。

发明概述

因此，本发明的总的目的是改善使用FEC技术产生的语音的质量。

本发明通过改善的用于编码语音数据的FEC技术达到这个和其他目的。在该技术中，编码器模块使用主合成模型主编码输入语音信号以生成主编码的数据，并使用冗余合成模型冗余编码该输入语音信号以生成冗余编码的数据。分组器合并主编码的数据和冗余编码的数据成为一连串的分组，并经由基于分组的网络例如互联网协议(IP)网络发送该分组。译码模块使用主合成模型主译码该分组，并使用冗余合成模型冗余译码该分组。该技术在译码期间和译码之后提供在主合成模型和冗余合成模型之间的交互作用以改善合成的输出语音信号的质量。例如，这样的“交互作用”可以采取在一个模型中使用其他模型更新状态的形式。

另外，本技术利用主帧和冗余帧的FEC交叉耦合(即把帧n的主数据和帧n-1的冗余数据耦合在一起)以在编码器模块和译码器模块处提供超前的处理。超前处理补充关于语音信号的可用信息并因此改善输出的合成语音的质量。

两个模型进行交互式协作以编码语音信号，这大大地扩展常规系统在此以前所预期的冗余编码的使用。

附图简述

本发明前述的和其它的目的、特性和优点在结合附图阅读下列更详尽描述后将更容易理解，其中：

图1示出常规码激励线性预测(CELP)编码器；

图2说明由图1的CELP编码器生成的残余；

图3示出使用自适应码本的另一种CELP编码器；

图4示出常规的声码器；

图5示出在分组化的网络中执行前向纠错的常规系统；

图6示出在图5的系统中合并主信息和冗余信息的实例；

图7示出依照本发明的一个实例在分组化的网络中执行前向纠错的系统；

图8示出在本发明中使用的编码器模块的实例；

图9示出在本发明的一个实例中冗余编码器子帧的划分；以及

图10示出在图7示出的译码器模块控制逻辑中使用的状态机的实例。

发明详述

在下列的描述中，为了解释而并非为了限制，阐明具体的细节以便提供对本发明的全面理解。然而，一个本领域的技术人员将很清楚，本发明可以在脱离这些具体的细节的其他实施方案中实行。在其他实例中，省略众所周知的方法、装置和电路以免用不必要的细节使本发明的描述模糊不清。在附图中，相似的数字表示相似的特征。

本发明总地应用于使用前向纠错技术来处理声频数据。然而为便于讨论，下列的解释将在语音信号编码的具体上下文中进行组织。

1.概述

图7示出用于实施本发明的示范性系统700的概述，包括编码器模块702和译码器模块704。编码器模块702包括用于产生主编码的数据的主编码器708和用于产生冗余编码的数据的冗余编码器710。在编码器模块702中的控制逻辑720控制主编码器708和冗余编码器710的操作状况。分组器716接收来自主编码器708和冗余编码器710的输出，并进而经由传输媒质706发送主编码的数据和冗余编码的数据。译码器模块704包括由控制逻辑718控制的主译码器712和冗余译码器714。另外，译码器模块704包括接收缓冲器(没有示出)，以用于至少在接收到的分组的冗余数据在随后的分组中到达之前临时存储该接收到的分组。

在操作中，主编码器708使用主编码技术编码输入语音(基于主合成模型)，而冗余编码器710使用冗余编码技术编码输入语音(基于冗余合成模型)。与主编码技术相比较，尽管冗余编码技术不是必需的，但它典型地提供较小的带宽。分组器716合并主编码的数据和冗余编码的数据成为一连串的分组，其中每个分组包括主数据和冗余数据。更准确地说，分组器716能够使用图6说明的FEC技术。在这种技术中，包含当前帧即帧n的主数据的分组与属于前一个帧即帧n-1的冗余数据相合并。这种技术提供单级冗余度。分组器716能够使用任何已知的分组格式合并主数据和冗余数据，例如在发明背景部分讨论的由Perkins等人提出的格式(例如其中，分组头标包括关于主有效负载和冗余有效负载的信息，包括关于两个有效负载的时间标记信息)。

分组器716在分组装配之后经由传输媒质706转发分组。传输媒质706可以表示任何基于分组的传输系统例如互联网协议(IP)网络。可替代地，系统700可以不传输分组而是简单地在存储媒质中存储分组以用于以后的检索。

译码器模块704接收分组并使用主译码器712和冗余译码器714重构语音信息。通常，译码器模块704使用主译码器712译码主数据，并且当主数据不可用时使用冗余译码器714译码冗余数据。更准确地说，控制逻辑718可以使用状态机支配主译码器712和冗余译码器714的操作。状态机中的每个状态反映译码器模块704经历的不同错误状况。每个状态也定义用于译码当前数据帧的指令。就是说，该指令规定适于不同错误状况的不同译码策略以译码当前帧。更准确地说，该策略包括使用主合成模型、使用冗余合成模型和/或使用误差隐藏算法。错误状况取决于在先前帧中使用的编码策略、在当前帧中主数据和冗余数据的可用性以及下一分组收到或没有收到。分组收到或没有收到会触发状态间的转移。

不同于常规的系统，系统700提供若干机制以提供主合成模型和冗余合成模型之间的交互作用。更准确地说，编码器模块控制逻辑720包括控制机制，以用于提供分别由主编码器和冗余编码器(即编码器708和710)使用的主合成模型和冗余合成模型之间的交互作用。同样，译码器模块控制逻辑718包括控制机制，以用于提供分别由主译码器和冗余译码器(即译码器712和714)使用的主合成模型和冗余合成模型之间的交互作用。图7用图表形式使用箭头750示出主编码器708和冗余编码器710之间的交互作用，使用箭头752示出主译码器712和冗余译码器714之间的交互作用。

下列部分给出在系统700中使用的、提供上述在主合成模型和冗余合成模型之间交互作用的特征以及其他新FEC语音编码特征的概述。

1.1在译码器模块中更新状态

如在发明背景部分讨论的，常规的FEC技术通过基本地用冗余编码的数据替代丢失的主编码的数据来运行其功能，但是没有更新主合成模型的“存储器”以反映该主数据的丢失。为解决这个问题，本发明使用从冗余合成模型搜集的信息以更新该主合成模型的状态。类似地，译码器模块704可以使用从主合成模型获得的参数信息补救在冗余合成模型中“存储器”的不足。因此，一般而言，两个模型“互相帮助”以供给丢失的信息。相比较而言，在常规FEC中，两个模型没有共享信息。

当然，用于更新模型的具体策略取决于模型的要求。一些模型可能比其他模型对过去的状态有更多的需求相关性。它也取决于在译码器模块704给出的主要的错误状况。重复一遍，错误状况由在先前帧中使用的译码语音(例如主数据、冗余数据、误差隐藏)的策略、在当前帧中数据(例如主数据或冗余数据)的可用性以及下一帧收到或没有收到来表征。于是，译码指令与状态机的各个状态有联系，它们对误差状况是特定的，且优选地也定义用于更新合成模型的方法。以这种方式，译码器模块704为主要的误差状况设计合适的更新策略。

几个实例将用于说明本发明的更新特征。例如，考虑这种状态，其中，译码器模块704还没有接收到当前帧的主数据(即主数据丢失)，但已接收到携带当前帧冗余数据的下一帧的分组。在这个状态下，译码器模块704基于当前帧的冗余数据来译码语音。然后，用译码的数值更新主合成模型。例如，基于CELP的模型可以需要更新它的自适应码本、LPC滤波器、误差隐藏历史和多种量化预测器。冗余参数可能需要某种形式的转换以适应于在主译码器中使用的参数格式。

考虑具体情况，其中，译码器模块704使用基于GSM-EFR编码的主合成模型。如在发明背景部分讨论的，GSM-EFR模型使用量化预测器以在量化前减小LPC参数的动态范围。在这种情况下，译码器模块704也使用冗余合成模型，该冗余合成模型没有使用量化预测器，因此译码器模块704提供“绝对的”编码的LPC。在这种方法中，主合成模型提供与LSF残余(即LSF_res)有关的信息，而冗余模型提供与这些系数(即LSF_red)的绝对LSF数值有关的信息。译码器模块704使用该残余和绝对数值用下面的式11计算预测器状态，因此可很快地更新预测器：

LSF_prev，res＝(LSF_red-LSF_mean-LSF_res)/predFactor (式11)

其中，项LSF_mean定义平均LSF数值，项predFactor是指预测因数常数，且LSF_prev，res是指来自过去的帧(即帧n-1)的残余LSF。译码器模块704使用更新的预测器状态把LSF残余译码为LPC系数(例如使用上面的式7)。

当预测器状态已由于分组的丢失而变得不可靠时，使用式11将特别有利。

1.2译码器模块超前

如在图6中说明，译码器模块704必须延迟包含在分组中的主数据的译码直到它接收到下一个分组为止。在主数据的接收和译码之间的延迟允许译码器模块704使用主数据用于任何形式的预译码处理以改善语音合成的质量。此处这被称为“译码器超前”。例如，考虑这种情况，其中，译码器模块704未能接收到包含主编码的帧n的分组，但随后接收到包含帧n+1的主编码的数据的分组，该分组包括帧n的冗余编码的数据。据此，译码器模块704将使用冗余数据译码帧n的数据。同时，译码器模块704可以使用帧n+1(尚未译码)的主数据用于超前处理。例如，帧n+1的主数据可以用于改善能量电平的插值以在帧n和帧n+1之间提供更平滑的转移。超前也可以在LPC插值中使用以在靠近帧末端处提供更精确的插值结果。

1.3编码器模块超前

如前面解释的，编码器模块702的分组器716把属于当前帧的主数据和属于先前帧的冗余数据合并起来；例如，分组器把属于帧n的主数据和属于帧n-1的冗余数据合并起来。据此，译码器模块702必须延迟一帧去传输冗余编码的数据。由于这一帧的延迟，冗余编码器710也可以延迟它对冗余数据的编码，以便合并在一个分组中的所有数据(主数据和冗余数据)同时译码。例如，编码器模块702可以在编码帧n的主数据的同时编码帧n-1的冗余数据。因此，在译码之前的短暂时间内冗余数据是可用的。冗余数据(例如冗余帧n-1)的预先可用性为超前处理提供机会。超前处理的结果可以用于改善帧的后续冗余处理。例如，声码器合成模型(用于冗余合成模型)中的发音判决可以通过在它的计算中使用超前数据而改善。当浊音段实际开始时，这将导致较少的相关错误判决。

译码器模块702中的超前可以以多种方式实施，例如通过使用控制逻辑720以协调主编码器708和冗余编码器710之间的交互作用。

1.4维护音调脉冲相位

音调相位(即音调脉冲位置)提供有用信息以用于执行FEC技术。在第一种情况下，译码器模块704识别在与先前帧有关的自适应码本中的最近脉冲的位置。更准确地说，模块704可以通过计算自适应码本和预先确定的音调脉冲之间的相关以定位音调脉冲位置。然后，可以通过定位该相关的一个或多个尖峰而确定该音调脉冲相位。然后，译码器模块704基于最近脉冲的位置和音调滞后的知识来识别在当前帧中随后的脉冲应该放置的位置。它通过把一个或多个基音周期从最近脉冲的位置向前移动到新帧中而实现该功能。这种技术的一种具体应用是，GSM-EFR用作主译码器，并且基于声码器的模型用作冗余译码器。当未能接收主数据时，译码器模块704将使用冗余数据。在这种环境下，译码器模块704使用该技术、基于从自适应码本提取的相位信息来放置该声码器音调脉冲。这有助于确保不会把声码器音调脉冲放置在完全错误的周期内。

在第二种情况下，编码器模块702在冗余编码中确定且发送与原始语音信号的音调相位有关的信息(例如音调脉冲位置和音调脉冲符号)。此外，可以通过计算自适应码本和预先确定的音调脉冲之间的相关而获得该信息。在接收到音调相位信息后，译码器模块704可以比较接收到的音调相位信息和使用自适应码本检测的音调相位信息(以上面描述的方式计算)。冗余编码的音调相位信息和自适应码本音调相位信息之间的差值构成相位不连续性。为解决这个影响，该技术可以为了在帧的末端提供正确的相位而在当前帧期间调整基音周期。因而，当自适应码本更新时它将接收到正确的相位信息。这种技术的一种具体应用是，GSM-EFR技术用作主译码器，并且基于声码器的模型用作冗余译码器。此外，当未能接收到主数据时，译码器模块704将使用冗余数据。在这种景况下，声码器从冗余编码器接收关于脉冲位置和符号的信息。然后，它以上面描述的方式从自适应码本计算脉冲应该出现的位置。接收的位置和计算的位置之间的任何相位差值在帧上平滑，以致于在帧的末端相位将是正确的。这将确保译码器模块704在下一帧中返回去使用主译码(例如GSM-EFR译码)之后将有存储在自适应码本中的正确相位信息。

作为第二种情况的替代情况，冗余译码器没有从编码器地点接收关于脉冲位置的信息。相反地，它从下一帧中的译码的主数据计算脉冲位置。这通过从下一主帧提取脉冲相位信息并且然后后退入当前帧以在当前帧中确定正确的脉冲位置来完成。然后该信息与按照上面描述的方法从先前帧计算的另一个脉冲位置指示相比较。任何位置差异可以按照上面描述的方法纠正(例如通过在当前帧期间平滑相位误差以使下一帧将有如自适应码本中反映的正确相位)。

1.5冗余参数的可替代选择

图8示出在FEC技术中使用的可替代的编码器模块800。编码器800包括连接到分组器808的主编码器802。提取器804从主编码器802提取参数信息。延迟模块806延迟提取的参数，例如延迟一帧时间。延迟模块806把延迟的冗余参数转发到分组器808。

在操作中，提取器804从主编码的参数选择一个参数子集。该子集的选择应该允许从冗余参数创建合成的语音，并且当需要时允许主合成模型中状态的更新。例如，LPC、LTP滞后和增益数值将适合于在一种综合分析编码技术中复制。在一种情况下，提取器提取由主编码器生成的所有参数。这些参数可以转换为不同格式以用减少的带宽表示这些参数(例如，通过使用与主编码器802使用的主合成模型相比需要较少比特的一种方法来量化这些参数)。延迟模块806把冗余参数延迟一帧，且分组器把延迟的冗余参数与主编码的参数使用例如图6中说明的FEC协议合并在一起。

2.实例

2.1与FEC一起使用的主编码器和冗余编码器

在发明背景部分中讨论的GSM-EFR语音编码标准可以用于编码主语音数据流。GSM-EFR标准在1996年十一月的“Global System for MobileCommunications：Digital Cellular Telecommunications Systems：Enhanced Full Rate(EFR)Speech Transcoding(GSM 06.60)(全球移动通信系统：数字蜂窝电信系统：增强型全速率(EFR)语音代码转换(GSM 06.60))”中进一步描述。如上面描述，GSM-EFR语音编码标准使用代数码激励线性预测(ACELP)编码器。GSM-EFR的ACELP编码包含160个样本的20ms帧，相当于244比特/帧以及12.2kb/s的编码的比特流。另外，主编码器使用在1997年四月5.1.2版的“DigitalCellular Telecommunications System：Substitution and Muting ofLost Frames for Enhanced Full Rate(EFR) Speech Trafficchannels(GSM 06.61)(数字蜂窝电信系统：用于增强型全速率(EFR)语音业务信道(GSM 06.61)的丢失帧的取代和静噪)”中描述的误差隐藏技术(也在上面作了概括)。

声码器可以用于编码语音数据的冗余流。在这个实例中使用的声码器引入在发明背景部分讨论的LPC-10声码器的某些特征以及GSM-EFR系统的其他特征。基于GSM-EFR的特征使声码器的输出更容易与由GSM-EFR主编码器生成的主数据兼容。例如，LPC-10声码器使用22.5ms帧，而GSM-EFR编码器使用20ms帧。因此，混合设计引入20ms帧的使用。为这种FEC应用设计的混合声码器称为“GSM-VOC”声码器。

GSM-VOC声码器包括图4示出的基本的概念上的配置。换句话说，GSM-VOC包括用于应用激励信号的功能性，该激励信号包含噪声矢量(用于非浊音)或静态脉冲波形(用于浊音语音)。然后，LPC滤波器块处理该激励以产生合成的信号。

在操作中，GSM-VOC编码器把输入语音分割为20ms帧，并使用具有80Hz截止频率的滤波器对语音作高通滤波。然后计算语音的均方根(RMS)能量值。之后，GSM-VOC使用GSM-EFR标准中提出的方法计算并量化单组LP系数(然而，与此相反，上面描述的GSM-EFR标准计算两组系数)。GSM-VOC编码器基于如GSM-EFR 06.60标准中的、在最近样本上有更大权重的窗口导出该单组系数。编码器在发现LP系数之后计算残余。

然后编码器在每半个帧上执行开环音调搜索。更准确地说，编码器通过计算80个样本上的自相关来执行该搜索以找到在18到143个样本范围内的滞后。然后，编码器以有利于小滞后的方式加权该计算的相关值。这种加权通过把18到143个样本的跨距分成三段来完成，也就是第一个跨距为18-35样本、第二个跨距为36-71样本以及第三个跨距为72-143样本。然后，译码器确定并加权来自各段的最大值(以有利于小滞后)并选择最大的一个。之后，译码器比较与两个半帧有关的最大值并选择具有最大相关值的半帧的LTP滞后。当有多个滞后值在相关中给出时，小滞后的有利加权对选择主(基本)滞后值是有用的。

编码器基于来自开环搜索的未加权的最大相关值计算该发音。更准确地说，如图9中示出，编码器基于跨越两个先前的半帧、当前的半帧以及下面的两个半帧(总计五个相关)的样本范围做出发音判决。编码器需要20ms的超前以计算下一帧的相关。FEC技术提供超前而没有给编码器增加额外的延迟。也就是，编码器模块把属于帧n的主数据和属于较早的帧即帧n-1的冗余数据合并起来。通过在编码主帧n的同时编码冗余帧n-1，冗余编码器可以访问该超前帧。换句话说，冗余编码器在它的冗余编码之前有机会“研究”冗余帧n-1。

为确定语音是否为浊音，编码器把示出的五个相关与三个不同的门限相比较。首先，编码器从当前帧和下面的两个半帧计算一个中值，并把该中值与第一个门限相比较。编码器使用第一个门限迅速地对浊音段的开始做出反应。第二，编码器计算从所有的五个相关形成的另一个中值，然后把这个中值与第二个门限相比较。第二个门限低于第一个门限，并用于在浊音段期间检测发音。第三，编码器确定先前的半帧是否为浊音。如果这样，则编码器也把从所有的五个相关形成的中值与第三个门限相比较。第三个门限在这三个门限中是最低的。编码器使用第三个门限扩展浊音段到转移的真点(true point)或越过转移的真点(例如，创建一个“释放延迟(hang-over)”)。第三个门限将确保编码器会将发生从浊音语音到非浊音语音转移的半帧标记为浊音。发送到译码器的信息包括上面计算的两个半帧的发音。

编码器使用改进的GSM-EFR 06.60语音编码技术(或改进的IS-641技术)来量化LP系数。如对GSM-EFR 06.60的描述，它描述了一种预测器，该预测器使用基于先前帧的线谱频率LSF的预测因数。与此相反，本技术的预测器使用平均LSF数值(其中平均数值按照GSM-EFR 06.60标准计算)。这去除在量化LPC中对先前帧的依赖性。该技术聚合基于来自预测的残余(例如，10残余)的三个矢量。然后，该技术把该矢量与统计地产生的表相比较以确定最好的匹配。返回代表最好匹配的表索引。对应于三个矢量的三个索引使用26比特。

另外，编码器把RMS值转换为dB，然后，尽管可以使用较少的比特(例如五比特或六比特)，但编码器使用七比特线性量化它。发音状态使用两比特表示在各个半帧中的发音。音调有一定范围(18到143)的样本。减去数值18以便使有效的数值适合于七比特(即提供0到125范围内的样本)表示。

下面的表1概括上面讨论的GSM-VOC中的比特分配。

表1

参数	比特数
参数	比特数	LPC	26
音调滞后	7	LPC	26
音调滞后	7	RMS值	7
发音状态	2	RMS值	7
发音状态	2	音调脉冲位置	8
音调脉冲符号	1	音调脉冲位置	8
音调脉冲符号	1	总计(带宽)	51(2550b/s)

音调脉冲位置和它的符号提供用于执行FEC技术的有用信息。这些参数以一个样本的分辨率指示一帧中音调脉冲的起始位置。该信息的使用允许该技术保持该激励及其合成与该原始语音同相。通过首先把残余和一个固定的脉冲波形相关可以找到这些参数。然后，在发音判决的帮助下，在相关曲线中定位该位置和符号以用于识别正确的半帧(例如，发音判决可以在非浊音半帧中用于排除已检测到的“错误”脉冲)。与之相对照，独立的编码器(即没有与另一个编码器耦合以执行FEC的编码器)并没有规定任何与脉冲位置(即脉冲相位)有关的信息。这是因为在一个独立的声码器中只要音调时期(epoch)具有给定的音调滞后距离，脉冲相位就是不相关的。

现在转向译码器，GSM-VOC译码器从发音判决和音调创建激励矢量。发音有六个不同的状态，包括两个稳定状态和四个转移状态。稳定状态包括浊音状态和非浊音状态。转移状态包括与从非浊音状态到浊音状态转移有关的状态以及与从浊音状态到非浊音状态转移有关的状态。这些转移状态发生在任何一个半帧中，因此定义了四个不同的状态。对于帧的浊音部分，译码器使用给定的音调以确定计算的时期(其中，术语“时期”是指对应于例如一个基音周期的样本跨度)。另一方面，译码器把非浊音帧划分为各为40样本的四个时期以用于插值目的。

对于每个音调时期，译码器插值RMS和音调的新旧数值(即分别从先前帧和当前帧)以提供更软的转移。此外，对于浊音，该译码技术从25样本长的脉冲和低强度噪声创建激励。对于非浊音，激励信号只包括噪声。更准确地说，在浊音音调时期内，译码器对脉冲做低通滤波且对噪声做高通滤波。然后，由1+0.7αA(z)定义的滤波器对创建的激励进行滤波，其中α是A(z)的增益。如在1982年四月《Speech Technology(语音技术)》40-48页Tremain.T.的“The Government StandardLinear Predictive Coding(国标线性预测编码算法：LPC-10)”中讨论的，这减少合成语音的峰值特性。在RMS数值比先前帧的RMS数值增加大于八倍的非浊音帧中，译码器增加爆破音。爆破音的位置在第一个非浊音音调时期中是随机的，且由连续的正(增加的)脉冲和负(减去的)脉冲形成的双脉冲组成。双脉冲提供来自滤波器的最大响应。然后，该技术调整该时期的RMS数值以与插值的数值(例如，从过去帧、当前帧以及如果可用的话从下一帧的RMS数值形成的插值RMS数值)相匹配。这通过计算合成滤波的激励的当前RMS数值来实现。

然后，译码器在LSF域内为每个40样本子帧作LPC插值，并且接着把结果应用于该激励。用于浊音激励的脉冲包括偏置。高通滤波器使用80Hz的截止频率去除该偏置。

现已阐明GSM-VOC冗余编码器和译码器的特征，将描述使用GSM-EFR(用于主编译码)和GSM-VOC(用于冗余编译码)的全面的FEC技术的操作。

2.2在FEC中利用主编码器和冗余编码器

图10示出在控制逻辑718(图7)中提供的状态机的状态图。每个分组的到达或不到达促使状态机在状态之间转移(或保留在相同的状态中)。更准确地说，下一分组的到达定义了在图中标记为“0”的转移。下一帧的不到达(即分组丢失)定义了在图中标记为“1”的转移。下面将标识图10示出的状态的特性。

状态：EFR Norm

状态“EFR Norm”指示译码器模块已接收到当前分组和下一分组。

译码器模块依照在例如GSM-EFR 06.60中提出的标准协议使用主译码器来译码语音。

状态：EFR Nxt E

状态“EFR Nxt E”指示译码器模块已接收到当前分组，但没有接收到下一分组(注意，图10中的状态图把从状态“EFR Norm”到状态“EFR Nxt E”的转移标记为“1”，指示一个分组已丢失)。

在该状态下，译码器模块与在状态“EFR Norm”中一样译码语音。但是因为该帧的冗余数据丢失，故没有提供RMS参数数值。因此，译码器模块计算RMS数值并把它输入历史记录。相似地，因为发音状态参数不可用，故译码器模块通过取自相关的最大值并把它馈给在编码器中使用的发音判决模块来计算该帧的发音(例如从生成的合成语音)。由于没有使用超前，导致判决精度较低。

状态：Red Single Error

状态“Red Single Error(Red单个错误)”指示译码器模块没有接收到当前帧的主数据(即主数据丢失)，但已接收到携带当前帧冗余数据的下一帧的分组。

在该状态下，译码器模块使用当前帧的冗余数据和下一帧的主数据译码该语音。更准确地说，译码器模块根据冗余帧为当前帧的四个子帧译码LPC。然后用译码的数值更新主LPC译码器的预测器(即用于量化LPC数值的预测器)。译码器模块基于先前帧的LSF残余(将在下面参照状态“ERF R+C”进一步详细讨论)进行该更新计算。使用冗余数据(而不是主数据)可能引入量化误差。译码器模块通过在LSF域中在当前帧中译码的数值和先前帧的LPC之间插值来计算其他子帧的LPC数值。

该编码技术提取LTP滞后、RMS数值、音调脉冲位置和音调脉冲符号，并把提取的数值译码为译码的参数数值。该技术也从帧中提取发音判决以用于创建发音状态。发音状态取决于在先前半帧中做出的发音判决以及在两个当前半帧中的判决。该发音状态控制在构造该激励中采取的行动。

在该状态下，译码也利用预取主数据的可能性。更准确地说，译码器模块把纠错(EC)应用于当前帧的LTP增益和代数码本(Alg CB)增益(包含按照上面讨论的GSM 06.61标准平均且衰减这些增益)。然后，当预测器和历史记录已对当前帧作出反应时，译码器模块译码下一帧的参数。这些数值用于预测下一帧的RMS。更准确地说，该技术通过依照下式使用平均LTP增益(即LTP_gain，mean)、先前RMS数值(即prevRMS)和应用增益的Alg CB矢量的能量(即RMS(AlgCB·Alggain))来执行预测：

R \hat{M} S = {[{LTP}_{gain, mean} \cdot {prevRMS}^{2} + {(RMS (AlgCB \cdot Alggain))}^{2}]}^{1 / 2}

(式12)

在具有代表稳态浊音的发音状态的帧中，译码器模块以一种不同于其他状态的方式创建激励。也就是，译码器模块以在GSM-EFR标准中提出的方式创建激励。该模块通过在来自冗余数据和先前帧的数值之间插值LTP滞后并把该结果复制到激励历史记录中来创建LTP矢量。只有当来自冗余数据和先前帧的数值之间的差值低于规定的门限例如低于八时，才执行这个过程。否则，译码模块使用在所有子帧中的新滞后(来自冗余数据)。该模块执行门限检验以避免插值一个间隙，该间隙由编码器选择一个双周期长的LTP滞后而产生。该技术随机化Alg CB以避免阻尼振荡，且计算增益以使Alg CB矢量具有LTP矢量的增益数值的十分之一。

译码器模块通过对LTP矢量和Alg CB矢量求和来形成该激励。然后，译码器模块用每个子帧的RMS数值调整该激励矢量的幅度。因为音调脉冲能量不是平均分布，故在子帧基础上的这样的调整可能不代表最好的选择。例如，在子帧中音调脉冲的两个高能量部分与子帧中的一个高能量部分相比较将接收较小的幅度。为了避免这种非最佳结果，译码器模块可以改为执行在音调脉冲基础上的调整。该技术在首先的三个子帧中在先前帧的最后子帧中的RMS数值和当前帧的RMS数值之间插值RMS数值。在当前帧的最后子帧中，该技术在当前帧的数值和预测的下一帧数值之间插值RMS数值。这导致更软地转移进入下一帧。

在具有不同于稳态浊音状态的其他发音状态的帧中，译码器模块以GSM-VOC特有的方式创建激励。也就是，在一个稳态非浊音状态中，激励构成噪声。译码器模块调整噪声的幅度以便使子帧接收正确的RMS。在向非浊音状态的转移中，该编码技术通过使先前帧的合成和脉冲波形相关来确定最后音调脉冲的位置。换句话说，该技术连续地使用有LTP滞后大小的步长来从该相关最大值定位下一个局部脉冲最大值，直到它发现最近的可能的最大值为止。然后，该技术更新声码器激励模块以在当前帧某处的最近脉冲的末端起动。另外，该编码技术从刚好在最近脉冲起始之前的位置复制该丢失的样本。如果该位置没有超出浊音段起始的位置，则译码器模块增加一个或多个声码器脉冲且朝帧的数值方向插值RMS数值。译码器模块从最近的浊音脉冲末端产生噪声到帧边界。译码器模块也插值噪声RMS以便使该技术提供到非浊音状况的软转移。

如果发音状态代表到浊音状态的转移，则该编码技术决定性地依赖于脉冲位置和符号。激励由直到该给定的音调脉冲位置的噪声组成。译码器模块朝接收的数值方向插值这个噪声的RMS(从冗余数据)。该技术用插值的RMS数值在音调脉冲位置放置声码器脉冲。所有的脉冲使用接收的滞后。该技术在先前帧的最后子帧的数值和在上半帧中接收的数值之间以及在接收的数值和在第二半帧中预测的数值之间形成RMS插值。

当为激励计算RMS数值时，译码器模块用正确的滤波器状态合成滤波该激励以计及滤波器增益。在能量调整之后，该技术高通滤波该激励以去除声码器脉冲的偏倚部分。另外，译码器模块把创建的激励输入激励历史记录以给LTP某些东西来对后面的帧作用。

然后，译码器模块把最终的时间应用于合成模块以创建该合成。来自稳态浊音状态的合成也是后置滤波的。

状态：EFR After Red

在状态“EFR After Red(EFR在Red之后)”中，尽管译码器模块仅仅使用冗余数据译码先前帧，但译码器模块已接收到当前帧和下一帧的分组。

在这种状态下，该技术使用常规的GSM-EFR译码。然而，译码器模块使用已经译码的增益参数。创建的合成调整它的幅度以便使整个帧的RMS数值符合从冗余数据接收的数值。为避免合成中可能产生高频噪声的不连续性，译码器模块对该激励执行调整。然后，该模块把激励馈入激励历史记录以与下一帧一致。另外，该模块将合成滤波器重置为它在当前帧中最初有的状态，且然后再次对该激励信号使用该滤波器。

状态：EFR Red Nxt E

在状态“EFR Red Nxt E”中，译码器模块已接收到当前帧的主数据，但还没有接收到下一帧的分组(即下一分组丢失)。另外，译码器模块使用冗余数据译码先前帧。

这个状态缺乏用于校正该合成的能量电平的冗余数据。代之以，译码器模块使用式12执行预测。

状态：EFR EC

在状态“EFR EC”中，译码器模块未能按顺序接收多个分组。从而，在当前帧中，既不存在用于译码语音的主数据，也不存在用于译码语音的冗余数据。

这个状态试图使用GSM-EFR误差隐藏技术(例如在发明背景部分描述的)来补救数据的缺乏。这包括取增益历史记录(LTP和Alg CB)的平均、衰减该平均值且把该平均值反馈给历史记录。因为数据是被丢失而不是由于比特错误而失真，所以译码器模块不能将代数码本矢量用作接收到的。据此，译码器模块随机化一个新码本矢量。这个方法在适于基于分组网络的GSM-EFR中使用。如果与此相反，译码器模块从最近的帧复制该矢量，则可能在语音中出现阻尼振荡。该编码技术象在状态“EFR Nxt E”中一样从合成的语音计算RMS数值和发音状态。使用最后好帧的音调可能在激励历史记录中导致大的脉冲位置的相位漂移。

状态：Red after EC

在状态“Red after EC(Red在EC之后)”中，译码器模块已接收到包含当前帧的冗余数据的下一帧的分组。译码器模块把纠错应用于一个或多个在先的帧(并且这个状态基于此

而区别于状态“Red Single Error”)。

在这个状态中，激励历史记录非常不确定并且不应该使用。编码器模块在稳态浊音状态中从声码器音调脉冲创建该激励，并且译码器模块从先前帧的数值、当前数值和下一帧的预测来插值该RMS能量。译码器模块从接收的(冗余)数据取脉冲的位置和符号以使激励历史记录的相位尽可能精确。译码器模块从激励历史记录复制该给定位置之前的点，在某种意义上这涉及到“Red Single Error”状态的稳态浊音状态的处理。(如果冗余数据缺乏音调脉冲相位信息，则可以使用首先提到的在上面1.4节讨论的技术确定音调脉冲的放置)。

状态：EFR R+EC Nxt E

在状态“EFR R+EC Nxt E”中，译码器模块未能接收到下一帧的分组。另外，译码器模块仅仅使用冗余数据译码先前帧，且使用EC译码在那个帧以前的帧。

译码器模块使用主数据译码当前帧。但这个状态表示译码主数据的状态类中最坏的状态。例如，LSF-预测器在这种情况下可能很差地执行(例如预测器是“不符合的”)且不能用可用的数据纠正。因此，译码器模块以标准的方式译码GSM-EFR LPC并因而略微地扩展LPC的带宽。更准确地说，这以GSM-EFR纠错的标准方式执行，但只是到较小程度以避免引起另一种类型的不稳定性(例如滤波器将由于过多地使用平均而变得不稳定)。译码器模块例如参照式12相对于预测的数值执行激励和合成的能量调整。然后，译码器模块从该合成计算当前帧的RMS和发音。

状态：ERF R+EC

在状态“ERF R+EC”中，译码器模块已接收到下一帧的分组，但仅仅使用冗余数据译码先前帧，且使用EC译码在那个帧以前的帧。

在这个状态中，译码器模块通常使用主数据和冗余数据译码当前帧。更准确地说，在EC应用于LP系数之后，预测器失去它的提供精确预测的能力。在这个状态中，译码器模块可以用冗余数据纠正。换句话说，译码器模块译码冗余LPC系数。这些系数与GSM-EFR标准提供的第二系列LPC系数表示相同的数值。该编码技术使用二者为当前帧计算预测器的估计，例如可以使用下式。(式13与式11相同，为方便起见复制在这儿)

LSF_prev，res＝(LSF_red-LSF_mean-LSF_res)/predFactor (式13)

LSF＝LSF_res+LSF_mean+predFactor·LSF_prev，res (式14)

在本方法中，主合成模型提供与LSF残余(即LSF_res)有关的信息，而冗余模型提供与这些系数的冗余LSF数值(即LSF_red)有关的信息。译码器模块用式13使用这些数值来计算预测器状态以提供快速的预测器更新。在式13中，项LSF_mean定义平均的LSF数值，项predFactor是指预测器因数常数，以及LSF_prev，res是指来自过去帧的残余LSF。然后，译码器模块用上面的式14使用更新的预测器状态将LSF残余译码为LPC系数。这种估计有利地确保当前帧的LP系数具有等于冗余LPC量化误差的误差。否则，当预测器已使用当前帧的LSF残余更新时，它将在下一帧中是正确的。

GSM-EFR标准提供另一种用于代数码本增益的预测器。GSM-EFR增益的数值表示相当随机的信息。没有可用的冗余参数匹配于这样的信息，这阻止了Alg CB增益的估计。在帧丢失之后当预测器变稳定前，预测器近似地取一帧。可以基于帧之间给出的能量变化来更新该预测器。编码器模块可以测量LTP增益和代数增益之间的分布(例如比率)并使用很少例如二或三比特发送它。更新预测器的技术也应该考虑发音状态。在到浊音的转移中，代数增益经常太大以至于不能建立在后面帧中使用的LTP的历史记录。在稳态中，该增益更加适中，且对于非浊音状态来说，它产生在非浊音状态中发现的大部分随机性。

2.4变化

想象上面描述的实例的许多变化。例如，在最近子帧中的RMS测量可以改变为测量最近的完整音调时期以便只测量一个音调脉冲。使用在最近子帧上的当前测量，可能取决于脉冲的位置和音调滞后而给出零个、一个或两个高能量部分。在状态“Red Single Error”和稳态浊音状态中一种相似的对能量分布的修改是可能的。在这些情况下，能量插值可以基于音调脉冲的数量调整。

可以修改编码器模块中的脉冲位置搜索以便它使用基于超前的发音判决。

当在错误状态“Red After EC”中时，该技术可以调整第一个音调脉冲的放置。这种调整应该既考虑接收的脉冲位置，又考虑在先前帧的合成中的相位信息。为最小化相位不连续性，该技术应该使用整个帧来纠正相位误差。这假定先前帧的合成由浊音组成。

使用多项式技术的插值可以取代线性插值。该技术应该使多项式匹配于下列数值：先前帧的总RMS、先前帧的最近脉冲的RMS、当前帧的RMS和下一帧的预测的RMS。

该技术可以使用更先进的能量预测。例如，存在足够的数据来确定下一帧的能量包络。可以修改该技术以在下一帧的开始从该包络预测能量和它的导数。该技术可以使用此信息来改善能量插值以提供甚至更软的帧边界。如果该技术提供略微不精确的预测，则该技术可以在下一帧中调整能量电平。为避免不连续性，该技术可以使用某些种类的不均匀调整。例如，该技术可以在帧的开始把增益调整设置为几乎是零，并在帧的中部期间增加该调整到需要的数值。

为减少经由网络发送的冗余数据(开销)的数量，该编码技术可以删除某些参数。更准确地说，该技术可以取决于发音状态而丢弃不同的参数。

例如，表2确定用于非浊音语音的适当参数。该技术需要LPC来整形该噪声的频谱特性。该技术需要RMS数值来传达该噪声的能量。该表列出发音状态，但这个参数可以被丢弃。在它的位置，该技术可以使用数据尺寸作为非浊音语音的指示器。就是说，没有发音状态的情况下，表2中的参数集提供33比特的帧尺寸和1650b/s的比特速率。这个数据尺寸(33比特)可以用作非浊音语音的指示器(在这种情况下，其中，分组化技术规定这个尺寸信息，例如在分组头标中)。另外，该编码技术可能不需要精确的数值用于噪声的频谱整形(与浊音段相比较)。从它的角度看来，该技术可以使用较差精度类型的量化以进一步减小带宽。然而，这样的修改可能损害主LPC译码器的预测器更新操作的有效性。

表2

参数	比特数
参数	比特数	LPC	26
RMS数值	7	LPC	26
RMS数值	7	发音状态	2
总计(带宽)	35(1750b/s)	发音状态	2

在从非浊音到浊音语音的转移中，该技术需要在表1(上面)中的所有参数。这是因为LPC参数在这种情况下典型地以一种急剧的方式变化。浊音语音包括音调，且在帧中存在一个新的能量电平。于是该技术使用音调脉冲和符号以生成用于该激励的正确相位。

在稳态浊音状态中以及在到非浊音状态的转移中，该技术可以去除音调脉冲位置和符号，因而将总比特数减小至42比特(即2100b/s)。因此在这些帧中译码器模块没有接收到相位信息，这可能对它的输出的质量会有负面影响。这将迫使译码器在先前帧中搜索相位，这样又会因为该算法由于分组突发的丢失不能检测该相位，而可以导致更大的相位误差。它也使得不可能纠正出现在误差隐藏周期期间的任何相位漂移。

上面描述的冗余译码器可以使用多脉冲编码而不是上面描述的GSM-VOC。在多脉冲译码中，该编码技术编码来自残余的最重要的脉冲。这种解决方案将更好地对从非浊音到浊音状态的转移中的变化作出反应。另外，当合并这种编码技术与GSM-EFR时，将不会引起相位复杂化。另一方面，这种技术比上面描述的GSM-VOC使用更高的带宽。

上面描述的实例提供单级的冗余度。然而，该技术可以使用多级冗余度。另外，上面描述的实例优选地合并在同一帧中的主数据和冗余数据。然而，该技术可以在分开的分组中或以其他的可替代的格式传送主数据和冗余数据。

上面描述的原理的其他变化对本领域的技术人员来说将是明显的。所有这样的变化和修改被认为是包含于下列权利要求定义的本发明的范围和精神内。

Claims

1.一种用于译码声频数据的译码器模块，该声频数据被格式化成包含主编码数据和冗余编码数据的分组，该译码器模块包含：

使用主合成模型译码该分组的主译码器；

使用冗余合成模型译码该分组的冗余译码器；以及

取决于该译码器模块经历的误差状况，为每个分组选择多个译码策略中的一个策略以用于译码该分组的控制逻辑，

其中，在一个策略中，冗余合成模型用于更新在主合成模型中的状态，和/或主合成模型用于更新在冗余合成模型中的状态。

2.依照权利要求1用于译码声频数据的译码器模块，其中，状态属于下面状态中的至少一个：

自适应码本状态；

LPC滤波器状态；

误差隐藏历史状态；以及

量化预测器状态。

3.依照权利要求1用于译码声频数据的译码器模块，其中，该状态与在主合成模型中的LSF预测器状态有关，该状态使用下式更新：

LSF_prev，res＝(LSF_red-LSF_mean-LSF_res)/predFactor

其中，LSF_prev，res是指先前帧的LSF残余，

LSF_red是指从冗余数据提供的当前帧的LSF，

LSF_mean是指当前帧的平均LSF，

LSF_res是指当前帧的LSF残余，以及

predFactor是指预测因数。

4.依照权利要求1用于译码声频数据的译码器模块，其中，误差状况与先前分组的接收或没有接收、当前分组的接收或没有接收以及下一分组的接收或没有接收有关。

5.一种用于译码包含主编码数据和冗余编码数据的声频数据的译码器模块，其中，主编码数据和冗余编码数据合并入一系列的分组，这样使得在各个分组中属于当前帧的主编码数据与属于先前帧的冗余编码数据合并起来，该译码器模块包含：

使用主合成模型译码该分组的主译码器；

使用冗余合成模型译码该分组的冗余译码器；以及

当译码该分组中的冗余数据时，用于处理也包含在那个分组中的主编码数据的超前装置。

6.依照权利要求5用于译码声频数据的译码器模块还包括装置，该装置用于使用超前处理装置的结果预测下一帧中的能量以及平滑帧间的能量转移。

7.一种用于译码声频数据的译码器模块，该声频数据被格式化成包含主编码数据和冗余编码数据的分组，该译码器模块包含：

使用主合成模型译码该分组的主译码器；

使用冗余合成模型译码该分组的冗余译码器；以及

用于在当前帧中定位音调脉冲位置的装置，该装置通过在先前帧中定位最近的已知脉冲位置并然后从该最近的已知脉冲位置前进一个或多个音调滞后数值以在当前帧中定位该脉冲位置，其中在当前帧中定位的音调脉冲位置用于减小相位不连续性。

8.依照权利要求7用于译码声频数据的译码器模块，其中，用于定位音调脉冲的装置还配置为从编码地点接收音调脉冲位置数值、比较该接收的数值和定位的音调脉冲位置并随后在当前帧期间平滑任何检测到的相位差异。

9.一种用于编码声频数据的编码器模块包含：

使用主合成模型编码输入声频信号以产生主编码数据的主编码器；

使用冗余合成模型编码输入声频信号以产生冗余编码数据的冗余编码器；

用于把主编码数据和冗余编码数据合并入一系列分组中的分组器，其中，该分组器在单个分组中合并属于当前帧的主编码数据和属于先前帧的冗余编码数据，并且，其中主编码器在冗余编码器编码先前帧的同时编码当前帧；以及

用于在编码之前处理将由冗余编码器编码的数据的超前装置。

10.依照权利要求9用于编码声频数据的编码器模块，其中超前装置使用它的处理结果以改善关于冗余编码数据的发音判决。

11.一种用于译码声频数据的方法，该声频数据被格式化成包含主编码数据和冗余编码数据的分组，该方法包含以下步骤：

在译码地点接收该分组；

使用主合成模型主译码该接收的分组；

使用冗余合成模型冗余译码该接收的分组；以及

取决于在译码器地点经历的误差状况，为每个分组选择多个译码策略中的一个策略以用于译码该分组，

12.依照权利要求11用于译码声频数据的方法，其中，该状态属于下面状态中的至少一个：

自适应码本状态；

LPC滤波器状态；

误差隐藏历史状态；以及

量化预测器状态。

13.依照权利要求11用于译码声频数据的方法，其中，该状态与主合成模型中的LSF预测器状态有关，该状态使用下式更新：

LSF_prev，res＝(LSF_red-LSF_mean-LSF_res)/predFactor

其中，LSF_prev，res是指先前帧的LSF残余，

LSF_red是指从冗余数据提供的当前帧的LSF，

LSF_mean是指当前帧的平均LSF，

LSF_res是指当前帧的LSF残余，以及

predFactor是指预测因数。

14.依照权利要求11用于译码声频数据的方法，其中，误差状况与先前分组的接收或没有接收、当前分组的接收或没有接收以及下一分组的接收或没有接收有关。

15.一种用于译码包含主编码数据和冗余编码数据的声频数据的方法，其中，主编码数据和冗余编码数据合并入一系列的分组，这样使得在各个分组中属于当前帧的主编码数据与属于先前帧的冗余编码数据合并起来，该方法包含以下步骤：

在译码地点接收该分组；

使用主合成模型主译码该接收的分组；

使用冗余合成模型冗余译码该接收的分组；以及

当译码一个分组中的冗余数据时，超前处理也包含在那个分组中的主编码数据。

16.依照权利要求15用于译码声频数据的方法，包括使用超前处理的结果预测下一帧的能量以及平滑帧间的能量转移。

17.一种用于译码声频数据的方法，该声频数据被格式化成包含主编码数据和冗余编码数据的分组，该方法包含：

使用主合成模型主译码该分组；

使用冗余合成模型冗余译码该分组；

其中，主译码或冗余译码包含在当前帧中定位音调脉冲位置的步骤，该步骤通过在先前帧中定位最近的已知脉冲位置并然后从该最近的已知脉冲位置前进一个或多个音调滞后数值以在当前帧中定位脉冲位置，其中该定位的音调脉冲位置用于减小相位不连续性。

18.依照权利要求17用于译码声频数据的方法，其中，定位音调脉冲位置的步骤还包含从编码地点接收音调脉冲位置数值、比较该接收的数值和定位的音调脉冲位置并随后在当前帧期间平滑任何检测到的相位差异。

19.一种用于编码声频数据的方法包含：

使用主合成模型主编码输入声频信号以产生主编码数据；

使用冗余合成模型冗余编码该输入声频信号以产生冗余编码数据；

把主编码数据和冗余编码数据合并入一系列分组中，其中，分组器在单个分组中合并属于当前帧的主编码数据和属于先前帧的冗余编码数据，并且其中，当前帧的主编码与先前帧的冗余编码同时发生；以及

在编码之前超前处理将由冗余编码器编码的数据。

20.依照权利要求19用于编码声频数据的方法，还包括使用超前处理的结果以改善关于冗余编码数据的发音判决。