CN112489665A

CN112489665A - 语音处理方法、装置以及电子设备

Info

Publication number: CN112489665A
Application number: CN202011254361.0A
Authority: CN
Inventors: 秦永红; 李勇强
Original assignee: Beijing Rongxun Technology Co ltd
Current assignee: Beijing Rongxun Technology Co ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-03-12
Anticipated expiration: 2040-11-11
Also published as: CN112489665B

Abstract

本发明实施例公开了一种语音处理方法、装置以及电子设备，该方法包括：当检测到语音帧丢包时，确定语音帧为当前语音帧并获取与当前语音帧相邻的正确语音帧的冗余信息；根据冗余信息对当前语音帧进行解码；其中，冗余信息包括处于与正确语音帧的传输时间相邻的预设传输时长内的激励脉冲参数以及编码参数。本实施例的技术方案，解决了语音帧重传和进行前向纠错编码传输时易造成的带宽消耗大以及网络拥塞的技术问题，实现了在部分语音帧中添加少量冗余信息，以增强丢包后的数据恢复，同时达到节省带宽，避免网络拥塞，并提高了语音质量的技术效果。

Description

语音处理方法、装置以及电子设备

技术领域

本发明实施例涉及音频处理技术，尤其涉及一种语音处理方法、装置以及电子设备。

背景技术

在实际的语音通话中，通话质量主要受网络丢包影响。由于传输网络的不稳定性会导致语音信息传输过程出现丢包现象，造成声音的卡顿和不连续。

目前，为了进行丢包后的数据恢复，可以使用重传的方式，但是该方式需要额外消耗带宽，容易引发网络拥塞，而且一旦碰上连续丢包，也很难进行恢复。另外，在实时语音通讯中，当超过一定时延，即使重传到达，也会被丢弃。使用前向纠错的方式，不必重传数据，但是编解码时增加了计算的开销和复杂性，用处理能力和带宽来换取可靠性和较小的回复延迟，在丢包率较高的情况下，性能明显下降。在接收端采用差错掩盖技术容易实现，但是掩盖性能较差，语音质量较差。

发明内容

本发明实施例提供了一种语音处理方法、装置以及电子设备，以实现根据丢包语音帧的相邻的正确语音帧对丢包语音帧进行解码，进而提高语音质量。

第一方面，本发明实施例提供了一种语音处理方法，包括：

当检测到语音帧丢包时，确定所述语音帧为当前语音帧并获取与所述当前语音帧相邻的正确语音帧的冗余信息；

根据所述冗余信息对所述当前语音帧进行解码；

其中，所述冗余信息包括处于与所述正确语音帧的传输时间相邻的预设传输时长内的激励脉冲参数以及编码参数。

第二方面，本发明实施例还提供了一种语音处理装置，包括：

冗余信息确定模块，用于当检测到语音帧丢包时，确定所述语音帧为当前语音帧并确定获取与所述当前语音帧相邻的正确语音帧的冗余信息；

语音解码模块，用于根据所述冗余信息对所述当前语音帧进行解码；

第三方面，本发明实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例任一所述的语音传输方法。

第四方面，本发明实施例还提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例任一所述的语音传输方法。

本发明实施例的技术方案，通过检测到语音帧丢包时，将该语音帧作为当前语音帧并获取与当前语音帧相邻的正确语音帧的冗余信息，根据冗余信息对当前语音帧进行解码，解决了语音帧重传和进行前向纠错编码传输时易造成的带宽消耗大以及网络拥塞的技术问题，实现了在部分语音帧中添加少量冗余信息，以增强丢包后的数据恢复，同时达到节省带宽，避免网络拥塞，并提高了语音质量的技术效果。

附图说明

为了更加清楚地说明本发明示例性实施例的技术方案，下面对描述实施例中所需要用到的附图做一简单介绍。显然，所介绍的附图只是本发明所要描述的一部分实施例的附图，而不是全部的附图，对于本领域普通技术人员，在不付出创造性劳动的前提下，还可以根据这些附图得到其他的附图。

图1为本发明实施例一所提供的一种语音处理方法流程示意图；

图2为本发明实施例二所提供的一种语音处理方法流程示意图；

图3为本发明实施例二所提供的一种第二正确帧的子帧划分示意图；

图4为本发明实施例三所提供的一种语音处理装置的结构示意图；

图5为本发明实施例四所提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一所提供的一种语音处理方法流程示意图，本实施例可适用于在发生语音帧丢包时，通过丢包语音帧的相邻的正确语音帧对丢包语音帧进行解码的情况，该方法可以由语音处理装置来执行，该装置可以通过软件和/或硬件的形式实现。

如图1所述，本实施例的方法具体包括如下步骤：

S110、当检测到语音帧丢包时，确定语音帧为当前语音帧并获取与当前语音帧相邻的正确语音帧的冗余信息。

其中，当前语音帧相邻的正确语音帧是当前语音帧之前和/或当前语音帧之后的与当前语音帧相邻的正确语音帧。冗余信息可包括处于与正确语音帧的传输时间相邻的预设传输时长内的激励脉冲参数以及编码参数。预设传输时长是预先设定的用于获取冗余信息的时长，可选地，将一帧语音帧或两帧语音帧的时长作为预设传输时长。可以理解的是，预设传输时长也可以根据实际需求进行设置，例如20ms，预设传输时长的具体数值在此并不做限定。激励脉冲参数可以是激励的最优脉冲的位置与振幅参数。其中，激励的最优脉冲的确定方法可以是以感觉加权均方误差最小为判决准则，采用闭环搜索的方法，如合成分析法来确定。感觉加权指的是结合人耳的听觉掩蔽效应，在语音频谱中能量较高的频段，以及共振峰处的噪声相对于能量较低频段的噪声更不易被感知。编码参数可以理解为编解码器在进行语音帧编码所采用的参数，可选地，本发明实施例的编码参数可选是解码时所需的编码参数。具体地，语音帧的冗余信息中可包含有该语音帧之前预设传输时长内的最优脉冲的位置和振幅参数以及该语音帧的用于解码的编码参数。

具体的，当接收到语音帧时，可以对语音帧进行检测，若检测到该语音帧是完整的语音帧，即未丢包的语音帧，则可以将该语音帧以及该语音帧解码所需的编码参数信息输入至解码器，以对该语音帧进行解码；若检测到该语音帧丢包，则将该语音帧作为当前语音帧，并获取当前语音帧之后的第一个正确语音帧中的冗余信息，以便于后续对当前语音帧进行丢包恢复。获取当前语音帧之后的第一个正确语音帧中的冗余信息的原因在于，第一个正确语音帧中包含有第一个正确语音帧之前预设传输时长内的激励的最优脉冲参数，该参数信息与当前语音帧相关，因此根据这些参数信息可以对当前语音帧进行丢包恢复。

需要说明的是，若当前语音帧之后的第一个正确语音帧与当前语音帧之间的时长超过预先设定的间隔时长，则表明使用第一个正确语音帧的冗余信息对当前语音帧进行丢包恢复时可能会造成效果不佳的情况，此时，可以使用与当前语音帧相邻的正确语音帧通过语音信号差错掩盖等技术对当前语音帧进行恢复。预先设定的间隔时长可用于判断当前语音帧之后的第一个正确语音帧中的冗余信息可用性的时长。

S120、根据冗余信息对当前语音帧进行解码。

具体的，若当前语音帧之后的第一个正确语音帧中不包含冗余信息，或上述第一个正确语音帧中的冗余信息丢失，则利用丢包恢复产生的自适应码本进行解码。若当前语音帧之后的第一个正确语音帧中包含可用的冗余信息，根据上述第一个正确语音帧中的冗余信息，可以确定第一个正确语音帧之前预设传输时长内的激励的最优脉冲参数，该参数中包含当前语音帧的相关信息，因此，根据这些参数信息可以对当前语音帧进行解码。具体的解码方式可以是确定与上述第一个正确语音帧的冗余信息相对应的激励脉冲参数，进一步使用该脉冲参数代替由当前语音帧所对应的自适应码本产生的激励信号的周期部分，来对当前语音帧进行解码。

本实施例的技术方案，通过检测到语音帧丢包时，将该语音帧作为当前语音帧并获取与当前语音帧相邻的正确语音帧的冗余信息，根据冗余信息对当前语音帧进行解码，解决了语音帧重传和进行前向纠错编码传输时易造成的带宽消耗大以及网络拥塞的技术问题，实现了在部分语音帧中添加少量冗余信息，以增强丢包后的数据恢复，同时达到节省带宽，避免网络拥塞，并提高了语音质量的技术效果。

实施例二

图2为本发明实施例二所提供的一种语音处理方法流程示意图，本实施例在上述实施例的基础上，对步骤“根据冗余信息对当前语音帧进行解码”进行了进一步优化。其中与上述各实施例相同或相应的术语的解释在此不再赘述。

如图2所示，该方法具体包括以下步骤：

S210、当检测到语音帧丢包时，确定语音帧为当前语音帧并获取与当前语音帧相邻的正确语音帧的冗余信息。

在获取语音帧时，为了保证语音质量需要对语音帧进行丢包检测，若语音帧发生了丢包的情况，则需要进一步的将该语音帧确定为当前语音帧，并获取与当前语音帧相邻的正确语音帧的冗余信息，以便于后续对当前语音帧进行丢包恢复。

为了使语音帧携带后续用于丢包恢复的冗余信息，可以在编码端对语音帧添加所需的冗余信息，具体在语音帧中添加冗余信息并进行编码的步骤如下：

步骤一、根据语音活动检测方法以及基音检测方法对待传输语音帧进行检测。

其中，语音活动检测(Voice activity detection，VAD)用于检测语音信号是否存在，VAD检测能够识别静音和非静音的语音信号。基音检测用于估计语音信号中的周期性信号的音高或基本频率，可以将非周期的信号作为噪音信号，将周期信号作为非噪音信号。进而，可以将非静音且非噪音的信号作为基音信号。待传输语音帧是编码端获取到的原始语音帧，也可以将需要进行传输处理的语音帧作为待传输语音帧。

若语音帧为静音信号或噪音信号，则表明该语音帧中不存在具有实际意义的信息。为了确定语音帧是否包含基音信号，可以根据上述两种语音检测方法对待传输语音帧进行检测。

具体的，对待传输语音帧进行检测可以是将待传输语音帧分别进行VAD检测和基音检测。为了简化检测流程，也可以是先将待传输语音帧经过VAD检测来确定该待传输语音帧是否为静音信号，进一步的，将非静音的语音帧经过基音检测，来确定该语音帧是否包含基音信号。

步骤二、若待传输语音帧包含基音，则将处于与待传输语音帧传输时间相邻的预设传输时长内的激励脉冲参数以及编码参数，确定为待传输语音帧的冗余信息，并对待传输语音帧与冗余信息进行编码。

若待传输语音帧经检测后确定包含基音，则表明该语音帧包含具有实际意义的语音信息，可以在该语音帧中携带冗余信息，以保证在语音帧丢包时能够进行丢包恢复。

具体的，将待传输语音帧传输时间之前的预设传输时长内的激励的最优脉冲的位置和振幅作为激励脉冲参数，将编解码器在进行语音帧编码和解码时所需的参数作为编码参数，将上述激励脉冲参数以及编码参数确定为待传输语音帧的冗余信息。进而，可以对待传输语音帧与冗余信息通过编码器进行编码。

S220、将与当前语音帧相邻且位于当前语音帧之后预设获取时长内的正确语音帧确定为第一正确帧。

其中，预设获取时长是用于在当前语音帧之后等待获取第一正确帧的时长。具体的，预设获取时长可以是当前语音帧接收完成的时刻与第一正确帧接收开始的时刻之前的最长时长。如果第一正确帧与当前语音帧之间的时长大于预先设定的间隔时长，那么使用第一正确帧的冗余信息对当前语音帧进行丢包恢复时可能会造成效果不佳的情况，此时，可以使用与当前语音帧相邻的正确语音帧通过语音信号差错掩盖等技术对当前语音帧进行恢复。为了保证第一正确帧中冗余信息的可用性，预设获取时长应当小于等于预先设定的间隔时长。

具体的，将位于当前语音帧之后的预设获取时长内的第一个正确语音帧作为第一正确帧，以用于后续对当前语音帧解码。

S230、判断第一正确帧是否包含冗余信息，若包含冗余信息，则执行S240，若不包含冗余信息，则执行S250。

当获取第一正确帧之后，需要对第一正确帧中是否包含冗余信息进行判断。若第一正确帧中包含冗余信息，则表明可以根据第一正确帧中的冗余信息对当前语音帧进行解码以达到丢包恢复的目的。若第一正确帧中不包含冗余信息，则表明第一正确帧可能是静音或噪音的语音帧，或第一正确帧中的冗余信息缺失，因此，无法根据第一正确帧来对当前语音帧进行解码，那么可以使用当前语音帧之前的语音帧信号进行解码。

S240、根据冗余信息对当前语音帧进行解码。

根据第一正确帧中的冗余信息，可以确定第一正确帧之前预设传输时长内的激励的最优脉冲参数，由于该参数中包含当前语音帧的相关信息，因此可以根据这些参数信息可以对当前语音帧进行解码。

需要说明的是，自适应码本是通过对语音帧进行基音分析得到的，如倒谱法。每个语音帧都会生成相对应的自适应码本，自适应码本的参数包含基音延时和基音滤波器增益等。根据自适应码本中的参数信息可以对语音帧进行解码。

具体的，可以是利用丢包恢复生成当前语音帧的自适应码本，并且，用第一正确帧的冗余信息中的激励脉冲参数代替自适应码本产生当前帧的激励信号的周期部分，来对当前语音帧进行解码。

S250、将当前语音帧相邻且位于当前语音帧之前的正确语音帧确定为第二正确帧。

具体的，将位于当前语音帧之前的第一个正确语音帧作为第二正确帧，以用于后续对当前语音帧解码。

S260、判断第二正确帧是否包含基音，若包含基音，则执行S270，若不包含基音，则执行S280。

当获取第二正确帧之后，需要对第二正确帧中是否包含基音进行判断。若第二正确帧中包含基音，则可以根据第二正确帧获取当前语音帧的线谱频率参数以及当前语音帧的基音周期以对当前语音帧进行解码；若第二正确帧中不包含基音，则可以根据第一正确帧获取当前语音帧的线谱频率参数以及当前语音帧的自适应码本以对当前语音帧进行解码。

S270、根据第二正确帧获取当前语音帧的线谱频率参数以及当前语音帧的基音周期以对当前语音帧进行解码。

若第二正确帧中包含基音，则表明当前语音帧之前的语音帧中存在语音信息，则可以根据第二正确帧确定当前语音帧的线谱频率参数以及基音周期。

可选的，根据第二正确帧确定当前语音帧的线谱频率参数的步骤如下：

为了更准确的确定当前语音帧的线谱频率参数，可以将第二正确帧分为第一子帧和第二子帧。

具体的，将第二正确帧按时间分成两部分，将第二正确帧的前一部分作为第一子帧，并将第二正确帧的后一部分作为第二子帧，第二正确帧的子帧划分示意图如图3所示。

进一步的，根据第二子帧的线谱频率参数以及在当前语音帧之前与当前语音帧相邻的预设数量的语音帧的线谱频率参数确定当前语音帧的线谱频率参数。

其中，预设数量可以是预先设置的用于计算当前语音帧的线谱频率参数的相邻语音帧的数量。可以是将对第二子帧的线谱频率参数以及当前语音帧之前与当前语音帧相邻的预设数量的语音帧的线谱频率参数的均值确定为当前语音帧的线谱频率参数，可以是通过对第二子帧的线谱频率参数以及当前语音帧之前与当前语音帧相邻的预设数量的语音帧的线谱频率参数进行加权平均来确定当前语音帧的线谱频率参数，也可以是先对当前语音帧之前与当前语音帧相邻的预设数量的语音帧的线谱频率参数求均值，再与第二子帧的线谱频率参数进行加权平均以确定当前语音帧的线谱频率参数。

可选的，可以使用如下步骤确定当前帧的线谱频率参数：

步骤一、根据第二子帧的线谱频率参数以及预设参数确定当前语音帧的线谱频率参数的第一部分。

由于对语音帧进行编码时的线谱频率参数是经过量化处理的，因此，在使用线谱频率参数时需要先进行反量化处理。可选的，可以根据美国政府2400bps混合激励线性预测语音编码算法标准所描述的方法提取预设维数的线谱频率参数，如提取10维的线谱频率参数。

具体的，当前语音帧的线谱频率参数的第一部分可以根据如下公式来确定：

lsf_e_1(i)＝β×last_lsf_2(i)

其中，lsf_e_1(i)表示当前语音帧的第i维的线谱频率参数的第一部分，last_lsf_2(i)表示第二正确帧反量化后的第二子帧的第i维的线谱频率参数，β表示预设参数，该参数是预先设定好的，在每次计算时都是固定的。

当前语音帧的每一维的线谱频率参数的第一部分均可以根据上述公式来确定。

步骤二、将当前语音帧之前与当前语音帧相邻的预设数量的语音帧确定为参考语音帧。

为了使当前帧的线谱频率参数更加准确，可以将预设数量设置为至少两个。

步骤三、将每个参考语音帧分为第一参考子帧和第二参考子帧，并将第一参考子帧的线谱频率参数与第二参考子帧的线谱频率参数的差值确定为参考差值。

具体的，将每个参考语音帧按时间分成两部分，将参考语音帧的前一部分作为第一参考子帧，并将参考语音帧的后一部分作为第二参考子帧。具体的划分方法可以参考将第二正确帧划分为第一子帧和第二子帧的方法。

针对每一位的每一个参考子帧的参考差值可以根据如下公式来确定：

dif_lsf＝ref_lsf_1-ref_lsf_2

其中，dif_lsf表示参考差值，ref_lsf_1和ref_lsf_2分别表示第一参考子帧的线谱频率参数与第二参考子帧的线谱频率参数的差值。

步骤四、计算至少两个参考差值的加权平均值，并根据加权平均值以及预设参数确定当前语音帧的线谱频率参数的第二部分。

根据上述步骤可知，参考差值的数量与参考语音帧的数量应当是一致的。

因此，可以根据如下公式确定当前语音帧的线谱频率参数的第二部分：

其中，lsf_e_2(i)表示当前语音帧的第i维的线谱频率参数的第二部分，β表示预设参数，该参数是预先设定好的，在每次计算时都是固定的，dif_lsf(i,j)表示第i维第j个参考差值，ρ_j表示第j个参考差值的权重，权重的具体大小可以根据实际情况来设定，n表示参考差值的总数量。

步骤五、根据第一部分以及第二部分确定当前帧的线谱频率参数。

具体的，将第一部分以及第二部分进行求和运算可以确定当前帧的线谱频率参数，当前帧的线谱频率参数的公式如下：

lsf_e(i)＝lsf_e_1(i)+lsf_e_2(i)

基音周期作为语音信号中描述激励源的重要参数，如果直接复制前一帧的基音周期，则会缺乏对时变情况的适应能力。因此，需要对确定当前语音帧的基音周期进行确定，具体的，可以根据第一子帧和第二子帧的基音周期以及第一子帧和第二子帧的基音周期增益确定当前语音帧的基音周期。

可选的，可以使用如下步骤确定当前帧的基音周期：

计算第一子帧的基音周期和第一子帧的基音周期增益的乘积，得到第一子周期。计算第二子帧的基音周期和第二子帧的基音周期增益的乘积，得到第二子周期。计算第一子周期和第二子周期的平均值，将平均值确定为当前语音帧的基音周期。

具体的，当前语音帧的基音周期可以根据如下公式来计算：

其中，T为当前语音帧的基音周期，T(1)和T(2)分别为第一子帧的基音周期和第二子帧的基音周期，G(1)和G(2)分别为第一子帧的基音周期增益和第二子帧的基音周期增益

可选的，若将当前语音帧分成大于两个子帧，则可以将上述公式扩展为：

其中，T为当前语音帧的基音周期，T(i)为第i个子帧的基音周期，G(i)为第i个子帧的基音周期增益，n为子帧数量。

可选的，在确定当前帧的基音周期时，为了使基音周期更符合实际应用情况，可以对基音周期增益进行调整，例如：当T(i+1)比T(i)大时，将G(i+1)调整为1.25×G(i+1),即将G(i+1)乘以一个大于1的系数。具体的对基音周期增益的进行调整的方法在本实施例中不做具体限定，可以根据实际情况进行设置。

在确定当前语音帧的线谱频率参数以及当前语音帧的基音周期之后，可以对当前语音帧进行解码。

具体的，可以将确定的当前语音帧的线谱频率参数，当前语音帧的基音周期以及编码参数输入解码器，以实现对当前语音帧进行解码。

S280、根据第一正确帧获取当前语音帧的线谱频率参数以及当前语音帧的自适应码本以对当前语音帧进行解码。

若第二正确帧中不包含基音，则表明当前语音帧之前的语音帧是连续的噪音或静音，则无法根据第二正确帧确定当前语音帧的线谱频率参数以及基音周期。此时，可以根据第一正确帧确定当前语音帧的线谱频率参数。

可选的，根据第一正确帧确定当前语音帧的线谱频率参数的步骤如下：

根据第一正确帧的解码残差的线谱频率参数和当前语音帧的解码残差的线谱频率参数确定第一正确帧的线谱频率参数。

具体的，可以根据如下公式得到第一正确帧的线谱频率参数：

其中，lsf_r是第一正确帧的线谱频率参数，resi_lsf是第一正确帧的解码残差线谱频率参数，mean_lsf是当前语音帧的解码残差线谱频率参数，α是自适应参数，该自适应参数可以根据丢包率大小进行调整，参数值的大小在0到1之间。

解码残差是前后两语音帧之间的差值，是由编码器生成的。在解码端，可以根据预先设置的编码规则直接读取解码残差。可选的，可以根据美国政府2400bps混合激励线性预测语音编码算法标准所描述的方法提取预设维数的线谱频率参数，如提取10维的线谱频率参数。第一正确帧中每一维的线谱频率参数都可以使用上述公式来确定。

根据第一正确帧的线谱频率参数以及噪声线谱频率参数确定当前语音帧的线谱频率参数。

具体的，可以根据如下公式得到当前语音帧的线谱频率参数：

lsf_e＝lsf_r+lsf_rand

其中,lsf_e是当前语音帧的线谱频率参数。lsf_rand为随机噪声线谱频率参数，该参数可以设置在0-100范围内。

进一步的，根据第一正确帧的自适应码本参数以及加权参数确定当前语音帧的自适应码本。

由于检测到第二正确帧不包含基音，那么当前语音帧是静音或噪音信号后的发生丢包的语音帧。此时的自适应码本参数会被置零，在使用自适应码本对当前语音帧的直接进行解码将会存在较大的误差，会影响语音信号的质量。

并且，由于语音信号的基音周期在帧与帧之间是具有相关性的。因此，可以根据第一正确帧的自适应码本参数进行非线性加权来确定当前语音帧的自适应码本参数。具体的非线性加权方法可以根据应用场景和实际情况来设定。

在获取到当前语音帧的线谱频率参数以及当前语音帧的自适应码本之后，可以对当前语音帧进行解码，以实现对当前语音帧进行解码。

本实施例的技术方案，通过根据第一正确帧对当前语音帧的线谱频率参数及自适应码本参数进行调整或根据第二正确帧对线谱频率参数及基音周期进行调整，进而对当前语音帧进行解码，解决了简单采用静音或噪音信号的编码参数进行解码时带来连续杂音的问题以及简单采用第二正确帧的编码参数解码时带来的杂音和对时变情况的适应能力差的技术问题，实现了增强丢包后的数据恢复，同时节省带宽并提高语音质量的技术效果。

实施例三

图4为本发明实施例三所提供的一种语音处理装置的结构示意图，该装置包括：冗余信息确定模块310和语音解码模块320。

其中，冗余信息确定模块310，用于当检测到语音帧丢包时，确定语音帧为当前语音帧并确定获取与当前语音帧相邻的正确语音帧的冗余信息；语音解码模块320，用于根据冗余信息对所述当前语音帧进行解码；其中，冗余信息包括处于与正确语音帧的传输时间相邻的预设传输时长内的激励脉冲参数以及编码参数。

可选的，语音解码模块320包括：

第一正确帧确定子模块，用于将与当前语音帧相邻且位于当前语音帧之后预设获取时长内的正确语音帧确定为第一正确帧；

第一解码子模块，用于若第一正确帧包含冗余信息，则根据冗余信息对所述当前语音帧进行解码。

可选的，语音解码模块320还包括：

第二正确帧确定子模块，用于若第一正确帧不包含冗余信息，则将当前语音帧相邻且位于当前语音帧之前的正确语音帧确定为第二正确帧；

第二解码子模块，用于根据第二正确帧的基音包含状态，对当前语音帧进行解码；

其中，基音包含状态包括包含基音和不包含基音中的任意一个。

可选的，若基音包含状态为不包含基音，则第二解码子模块包括：

第一参数确定单元，用于根据第一正确帧的解码残差的线谱频率参数和当前语音帧的解码残差的线谱频率参数确定第一正确帧的线谱频率参数；

第二参数确定单元，用于根据第一正确帧的线谱频率参数以及噪声线谱频率参数确定当前语音帧的线谱频率参数；

自适应码本确定单元，用于根据第一正确帧的自适应码本参数以及加权参数确定当前语音帧的自适应码本；

第一解码单元，用于根据当前语音帧的线谱频率参数以及当前语音帧的自适应码本对当前语音帧进行解码。

子帧确定单元，用于将第二正确帧分为第一子帧和第二子帧；

线谱频率参数确定单元，用于根据第二子帧的线谱频率参数以及在当前语音帧之前与当前语音帧相邻的预设数量的语音帧的线谱频率参数确定当前语音帧的线谱频率参数；

基音周期确定单元，用于根据第一子帧和第二子帧的基音周期以及第一子帧和第二子帧的基音周期增益确定当前语音帧的基音周期；

第二解码单元，用于根据当前语音帧的线谱频率参数以及当前语音帧的基音周期对当前语音帧进行解码。

可选的，线谱频率参数确定单元，包括：

第一部分确定子单元，用于根据第二子帧的线谱频率参数以及预设参数确定当前语音帧的线谱频率参数的第一部分；

参考语音帧确定子单元，用于将当前语音帧之前与当前语音帧相邻的预设数量的语音帧确定为参考语音帧；其中，所述预设数量为至少两个；

参考差值确定子单元，用于将每个参考语音帧分为第一参考子帧和第二参考子帧，并将第一参考子帧的线谱频率参数与第二参考子帧的线谱频率参数的差值确定为参考差值；

第二部分确定子单元，用于计算至少两个参考差值的加权平均值，并根据加权平均值以及预设参数确定当前语音帧的线谱频率参数的第二部分；

线谱频率参数确定子单元，用于根据第一部分以及第二部分确定当前帧的线谱频率参数。

可选的，基音周期确定单元，包括：

第一子周期计算单元，用于计算第一子帧的基音周期和第一子帧的基音周期增益的乘积，得到第一子周期；

第二子周期计算单元，用于计算第二子帧的基音周期和第二子帧的基音周期增益的乘积，得到第二子周期；

基音周期确定子单元，用于计算第一子周期和第二子周期的平均值，将平均值确定为当前语音帧的基音周期。

可选的，该装置还包括：

语音帧检测模块，用于根据语音活动检测方法以及基音检测方法对待传输语音帧进行检测；

编码模块，用于若待传输语音帧包含基音，则将处于与待传输语音帧传输时间相邻的预设传输时长内的激励脉冲参数以及编码参数，确定为待传输语音帧的冗余信息，并对待传输语音帧与冗余信息进行编码。

本发明实施例所提供的语音处理装置可执行本发明任意实施例所提供的语音处理方法，具备执行方法相应的功能模块和有益效果。

值得注意的是，上述系统所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明实施例的保护范围。

实施例四

图5为本发明实施例四所提供的一种电子设备的结构示意图。图5示出了适于用来实现本发明实施例实施方式的示例性电子设备40的框图。图5显示的电子设备40仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，电子设备40以通用计算设备的形式表现。电子设备40的组件可以包括但不限于：一个或者多个处理器或者处理单元401，系统存储器402，连接不同系统组件(包括系统存储器402和处理单元401)的总线403。

总线403表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

电子设备40典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备40访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器402可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)404和/或高速缓存存储器405。电子设备40可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统406可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线403相连。存储器402可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块407的程序/实用工具408，可以存储在例如存储器402中，这样的程序模块407包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块407通常执行本发明所描述的实施例中的功能和/或方法。

电子设备40也可以与一个或多个外部设备409(例如键盘、指向设备、显示器410等)通信，还可与一个或者多个使得用户能与该电子设备40交互的设备通信，和/或与使得该电子设备40能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口411进行。并且，电子设备40还可以通过网络适配器412与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器412通过总线403与电子设备40的其它模块通信。应当明白，尽管图5中未示出，可以结合电子设备40使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元401通过运行存储在系统存储器402中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的语音处理方法。

实施例五

本发明实施例五还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种语音处理方法，该方法包括：

当检测到语音帧丢包时，确定语音帧为当前语音帧并获取与当前语音帧相邻的正确语音帧的冗余信息；

根据冗余信息对当前语音帧进行解码；

其中，冗余信息包括处于与正确语音帧的传输时间相邻的预设传输时长内的激励脉冲参数以及编码参数。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音处理方法，其特征在于，包括：

根据所述冗余信息对所述当前语音帧进行解码；

2.根据权利要求1所述的方法，所述根据所述冗余信息对所述当前语音帧进行解码，包括：

将与所述当前语音帧相邻且位于所述当前语音帧之后预设获取时长内的正确语音帧确定为第一正确帧；

若所述第一正确帧包含冗余信息，则根据所述冗余信息对所述当前语音帧进行解码。

3.根据权利要求2所述的方法，还包括：

若所述第一正确帧不包含冗余信息，则将所述当前语音帧相邻且位于所述当前语音帧之前的正确语音帧确定为第二正确帧；

根据所述第二正确帧的基音包含状态，对所述当前语音帧进行解码；

其中，所述基音包含状态包括包含基音和不包含基音中的任意一个。

4.根据权利要求3所述的方法，其特征在于，所述基音包含状态为不包含基音，所述对所述当前语音帧进行解码，包括：

根据所述第一正确帧的解码残差的线谱频率参数和所述当前语音帧的解码残差的线谱频率参数确定第一正确帧的线谱频率参数；

根据所述第一正确帧的线谱频率参数以及噪声线谱频率参数确定所述当前语音帧的线谱频率参数；

根据所述第一正确帧的自适应码本参数以及加权参数确定所述当前语音帧的自适应码本；

根据所述当前语音帧的线谱频率参数以及所述当前语音帧的自适应码本对所述当前语音帧进行解码。

5.根据权利要求3所述的方法，其特征在于，所述基音包含状态为包含基音，所述对所述当前语音帧进行解码，包括：

将所述第二正确帧分为第一子帧和第二子帧；

根据所述第二子帧的线谱频率参数以及在所述当前语音帧之前与所述当前语音帧相邻的预设数量的语音帧的线谱频率参数确定所述当前语音帧的线谱频率参数；

根据所述第一子帧和所述第二子帧的基音周期以及所述第一子帧和所述第二子帧的基音周期增益确定所述当前语音帧的基音周期；

根据所述当前语音帧的线谱频率参数以及所述当前语音帧的基音周期对所述当前语音帧进行解码。

6.根据权利要求5所述的方法，其特征在于，所述根据所述第二子帧的线谱频率参数以及在所述当前语音帧之前与所述当前语音帧相邻的预设数量的语音帧的线谱频率参数确定所述当前语音帧的线谱频率参数，包括：

根据所述第二子帧的线谱频率参数以及预设参数确定所述当前语音帧的线谱频率参数的第一部分；

将所述当前语音帧之前与所述当前语音帧相邻的预设数量的语音帧确定为参考语音帧；其中，所述预设数量为至少两个；

将每个参考语音帧分为第一参考子帧和第二参考子帧，并将所述第一参考子帧的线谱频率参数与所述第二参考子帧的线谱频率参数的差值确定为参考差值；

计算至少两个参考差值的加权平均值，并根据所述加权平均值以及预设参数确定当前语音帧的线谱频率参数的第二部分；

根据所述第一部分以及所述第二部分确定所述当前帧的线谱频率参数。

7.根据权利要求5所述的方法，其特征在于，所述根据所述第一子帧和所述第二子帧的基音周期以及第一子帧和所述第二子帧的基音周期增益确定所述当前语音帧的基音周期，包括：

计算所述第一子帧的基音周期和所述第一子帧的基音周期增益的乘积，得到第一子周期；

计算所述第二子帧的基音周期和所述第二子帧的基音周期增益的乘积，得到第二子周期；

计算所述第一子周期和所述第二子周期的平均值，将所述平均值确定为所述当前语音帧的基音周期。

8.根据权利要求1所述的方法，还包括：

根据语音活动检测方法以及基音检测方法对待传输语音帧进行检测；

若所述待传输语音帧包含基音，则将处于与所述待传输语音帧传输时间相邻的预设传输时长内的激励脉冲参数以及编码参数，确定为所述待传输语音帧的冗余信息，并对所述待传输语音帧与所述冗余信息进行编码。

9.一种语音处理装置，其特征在于，包括：

10.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的语音传输方法。