CN101604527A

CN101604527A - VoIP环境下基于G.711编码隐藏传送宽频语音的方法

Info

Publication number: CN101604527A
Application number: CNA2009100315087A
Authority: CN
Inventors: 张格伟; 承成; 刘继明
Original assignee: ITIBIA TECHNOLOGIES
Current assignee: ITIBIA TECHNOLOGIES
Priority date: 2009-04-22
Filing date: 2009-04-22
Publication date: 2009-12-16

Abstract

本发明提供一种VoIP环境下基于G.711编码隐藏传送宽频语音的方法，采用16k采样频率对声音信号进行采样，在语音包编码前进行前置处理，在频域上压缩处理，使其模拟成8k采样的传统电话语音信号的数据尺寸，然后用正常的G.711方式编码和发送，在接收端用反向算法进行解码和后置处理，获得原始语音信息。完全兼容于G.711原有的编解码算法，即使在没有该解码算法的普通电话接收端，仍然能大致听懂正常的语音，而在正确解码的情况下，可以提供比普通话机明显提升的语音质量。

Description

VoIP环境下基于G.711编码隐藏传送宽频语音的方法

技术领域

本发明涉及语音通讯中对声音信号处理和传输的方式，特别涉及VoIP环境下通过最普及的G.711编码在不增加数据量的情况下传送频率范围扩大一倍的宽带语音信号的方法。

背景技术

VoIP是指通过分组交换IP数据网络拨打电话的语音通信技术，其基本传输过程是声音经过模-数转换后，语音编码器将数字化的语音信号转化为比特流，比特流经过打包后通过IP网络传输，语音解码器利用接收的语音包，对语音信号进行重构，还原出原始语音信号。

语音编码算法是语音编码的核心组成部分，G.711是国际电信联盟(ITU-T)制定的目前使用最广泛的音频编码方式，在大多数VoIP系统中作为默认语音编码，其采样率为8k每秒，利用一个64kbps未压缩通道传输语音讯号。由于语音信号中存在着许多可被压缩的部分，其后又发展出许多新的编码，然而一种新的编码实施成本往往非常昂贵，加上G.711的MOS值仍然好于其它有损压缩编码，到目前为止，G.711仍然是使用最普遍的编码方式，兼容于大多数电话设备，尤其是无法通过软件升级来实现新的编码的硬件上。

受8k的采样频率限制，一般认为G.711的有效频率范围只有300Hz～3.4kHz，人类语言声的基音频率范围是100Hz-1kHz，泛音成分可达8kHz，而3.3kHz左右正好是人耳最敏感的频率范围，因此传统电话线路3.4kHz的频率限制使得语音中信息量相当丰富的一部分高频被截断。根据声学的研究可知，元音的频率范围集中在低频段，截断现象主要存在于辅音，例如/s/音和/f/音在3.4kHz以下的低频段很相近，在高频段才有区别，而电话线路只能传送低于3.4kHz的部分，因此使得电话中/s/音会被听成/f/音。如果对原始声音信号的采样频率提高到16k每秒，则可使声音的有效频率范围扩展到50Hz～7.0kHz，基本上涵盖了普通语音的频率范围，所带来的影响是原始采样点数据量增加了一倍，而语音质量大大提高，这就是所谓宽频语音，相对的，传统的PSTN线路称为窄频语音。由于宽频语音优良的频率特性，是语音通讯研究的热门课题。

为了传送宽频语音，已经发展出一系列相关标准如G.722，G.726，G.711.1等，但是目前应用情况并不理想，主要原因是新的编码对于系统改造所花的成本相当高，并且许多设备不能兼容。其中G.711.1是ITU-T于2008年3月发布的在G.711基础之上扩展的编码，其结构是前半段保留传统G.711编码，在后半段加上补充的低频扩展(50Hz～300Hz部分)和高频扩展(3.4kHz～7kHz部分)，因此相应地码率也增加到64～90kbps，相对传统的PSTN线路来说，G.711编码已经接近极限，因此G.711.1难以兼容于传统通信环境中。

FFT(快速傅里叶变换)算法是一种常用的声音信号处理方法，可用来将声音由时域变换到频域，是一种可逆算法，并且可以由硬件加速，适合实时处理。IFFT是其反变换，可用于将频域信号变换回时域。如果频域信号未改变，反变换的结果与原始语音相同。

发明内容

本发明的目的是克服现有技术存在的不足，提供一种VoIP环境下基于G.711编码隐藏传送宽频语音的方法，使系统既能兼容于G.711编码，又能传送频率范围增加一倍的宽频语音信号，大大提升通话质量。

本发明的目的通过以下技术方案来实现：

VoIP环境下基于G.711编码隐藏传送宽频语音的方法，特点是：采用16k采样频率对声音信号进行采样，在语音包编码前进行前置处理，在频域上压缩处理，使其模拟成8k采样的传统电话语音信号的数据尺寸，然后用正常的G.711方式编码和发送，在接收端用反向算法进行解码和后置处理，获得原始语音信息。

进一步地，上述的VoIP环境下基于G.711编码隐藏传送宽频语音的方法，具体包含以下步骤——

①对语音信号进行16k采样，获得原始宽频信号；

②编码前置处理，对原始信号进行FFT变换，对频域信号进行非对称压缩处理，使数据减少一半；

③对处理过的信号进行FFT尺寸减少一半的IFFT变换，由频域变换回时域，然后按正常G.711编码方式进行编码，通过上层通信环境发送到受话方；

④在语音接收端建立接收数据缓冲区，对收到的语音包根据G.711编码进行解码，然后用半尺寸FFT变换到频域；

⑤对频域数据进行扩展，还原成全尺寸FFT数据，然后进行IFFT，变换回时域信号，等待播放。

更进一步地，上述的VoIP环境下基于G.711编码隐藏传送宽频语音的方法，其中，所述前置处理，对语音采用16k采样频率后，将信号分帧用FFT变换，进行时域/频域转换成0-8kHz的频域信号，对频域进行半对称压缩成0-4kHz范围，使语音帧实际上带有扩展一倍的频域信号，然后用IFFT反变换回时域，伪装成正常8k采样频率的语音帧等待传送。

再进一步地，上述的VoIP环境下基于G.711编码隐藏传送宽频语音的方法，其中，所述语音解码后置处理，在对收到的语音数据根据G.711编码进行分帧解码后，进入后置处理程序，将信号用FFT变换到频域，将频率重新扩展到0-8kHz范围，然后用IFFT反变换回时域，还原出原始语音信号等待播放。

本发明技术方案突出的实质性特点和显著的进步主要体现在：

①通过将原始语音采样频率放大一倍，对频域信息进行特殊处理和压缩后，用G.711编码进行传输，在接收端使用反向处理将语音还原，从而实现在传统的PSTN线路上不改变线路结构、不增加传输数据量，而使可传输的语音信号频率范围扩展一倍；

②本发明技术完全隐藏在G.711中传输，因此避免了引入一种新编码方式对于原通讯系统调整的巨大代价，而G.711编码仍然是目前使用最广泛和通话质量最好的编码之一；相对于8k采样的电话音质，使用16k采样的语音质量更好；在接收方不知晓解码算法的情况下，按正常G.711解码仍然能获得可大致听懂的语音；

③完全兼容于G.711原有的编解码算法，即使在没有该解码算法的普通电话接收端，仍然能大致听懂正常的语音，而在正确解码的情况下，可以提供比普通话机明显提升的语音质量。

附图说明

下面结合附图对本发明技术方案作进一步说明：

图1：本发明流程示意图；

图2：编码过程示意图；

图3：频域压缩过程示意图；

图4：频域还原过程示意图；

图5：解码过程示意图；

图6：编码处理前后波形对比示意图；

图7：编码处理前后频谱对比示意图；

图中各附图标记的含义见下表：

附图标记	含义
附图标记	含义	1	FFT输出结果
2	掩膜向量	1	FFT输出结果
2	掩膜向量	3	掩膜后的频率向量

附图标记	含义
附图标记	含义	4	压缩后的频率向量
5	还原后的频率向量	4	压缩后的频率向量

具体实施方式

在G.711编码仍然被广泛使用的情况下，设计一种对G.711透明的语音编码增强技术，使用比传统电话线路增加一倍的16k采样频率对声音信号进行采样，在语音包编码前进行前置处理，在频域上进行特殊的压缩处理，使其在音质损伤很小的情况下压缩到正常电话信号的数据尺寸，然后当成普通电话信号，用正常的G.711方式编码和发送，在接收端用同样的反向算法进行解码和后处理，即可获得原始语音信息。而对于不知晓该解码算法的设备，直接用正常的G.711方式解码也能获得大致能听懂原始信息的语音。

本发明的关键在于，设计的频域压缩处理方式，既能将信号数据量压缩一倍，又对音质损伤很小，从而能在接收端还原出宽频的语音信号，同时在压缩状态下保持一定的频率特性，使未知解码方式的终端也能还原出可供理解的语音。

如图1所示，在G.711编码中隐藏传送宽频语音的方法，具体过程为：①对语音信号进行16k采样，获得原始宽频信号；②编码前置处理，对原始信号进行FFT变换，对频域信号进行非对称压缩处理，使数据减少一半；③对处理过的信号进行FFT尺寸减少一半的IFFT变换，由频域变换回时域，然后按正常G.711编码方式进行编码，通过上层通信环境发送到受话方；④在语音接收端建立接收数据缓冲区，对收到的语音包根据G.711编码进行解码，然后用半尺寸FFT变换到频域；⑤对频域数据进行扩展，还原成全尺寸FFT数据，然后进行IFFT，变换回时域信号，等待播放。

其中，语音编码前置处理方式，对语音采用比正常电话提高一倍的16k采样频率后，将信号分帧用FFT变换进行时域/频域转换成0-8kHz的频域信号，对频域进行半对称压缩成0-4kHz范围，使语音帧实际上带有扩展一倍的频域信号，同时对音质损伤非常微小，然后用IFFT反变换回时域，伪装成正常8k采样频率的语音帧等待传送。

语音解码后置处理方式，在对收到的语音数据根据G.711编码进行分帧解码后，进入后置处理程序，将信号用FFT变换到频域，将频率重新扩展到0-8kHz范围，然后用IFFT反变换回时域，还原出原始语音信号等待播放。

语音增强编码方式，经过前置处理后的声音数据采用G.711正常的编码方式编码后发送，在解码端不知晓的情况下，用普通的G.711解码算法解出的语音数据仍然能听清主要内容，而在正确解码的情况下，可以听到16kHz采样的宽频语音信号，音质明显好于传统电话效果。

图2描述了语音包前置处理和G.711编码相关过程，语音以16k/秒的频率采样后变成数字信号，建立帧缓冲，帧尺寸根据硬件处理能力调整，一般可取窗长256点，每帧重叠128点以平滑得到比较平滑的音质。对每一帧音频数据进行FFT运算，变换成频域信号。

频域信号的压缩算法是保证语音还原质量的关键环节，图3描述了频率压缩的算法，以16点FFT变换为例，设采样频率为fs，则根据香农定理，最大可传输的频率为fs/2，由于FFT的输出具有复频率对称性质，第一点为直流分量，剩余的元素以第N/2+1(此处N＝16)为中心呈两边对称，图中位置1表示了一个FFT输出结果，D表示直流分量，h为对称点，即fs/2频率分量对应点，折线表示了这种对称性。发现，当对称的一对信号分量一半交替置0时，通过IFFT反变换回时域所得到的信号与原始信号相比改变很小，因为几乎保留了所有频率分量，只是声音强度有所减弱，因此可以构造一个巧妙的掩膜交替向量2，与FFT结果相点乘，得到过滤掉一般数据的掩膜后的频率向量3；因为这时已经有一半的数据变为0，可以向左合并，去掉0分量，得到压缩后的频率向量4，此时向量长度缩为向量3的一半，但是仍然保持FFT的直流分量和对称性，如果把这个结果当作一个尺寸减少了一半的FFT输出，则原FFT中除了半频率h消失，g’成为新的半频率之外，直流分量D保持不变，其余频率分量仍然保持了接近原有频率分量的分布，例如ab原来相邻，而现在a’和b成为对称分量，代表了原始信号中距离很近的两个频率成分。由于语音信号本身是连续的，而FFT是对连续空间的一个近似离散，在FFT尺寸足够大时，经过这样的压缩，频域上的特征几乎全被保留了下来。

用256点FFT对16k的音频采样，按此方法将FFT输出压缩成128点，再反变换回波形，听觉上与原始信号几乎不发生变化，而且没有产生额外噪声。反变换后的信号数据量减少了一半，正好与8k采样相同，但是均匀地保留了0-8kHz的几乎全部分量，而普通8k采样时，只能保留0-4kHz的频率。另一方面，由于频谱的形状受到了压缩，但是各峰值的相对关系不变，因此回放压缩后的波形，人耳仍然能听出里面的音节，辨认出说话内容，只是声调被降低了(相当于频谱作了多普勒红移)。

变换后的时域信号与8k采样的正常电话信号在数据上是一样的，因此可以当作“电话语音”进行G.711编码进行发送，由于分频率分量都相当于降到了4k以下，因此对G.711完全兼容。

接收端收到语音包后，对频域进行反向处理即可恢复出向量3所代表的频率，步骤为：先将FFT尺寸扩大一倍，然后根据掩膜向量2补充0分量，同时把非0分量从压缩后的频率向量4的相应位置复制到还原后的频率向量5，其过程如图4所示。由图可以看出，反变换得到的频率向量5与掩膜后的频率向量3其实是相同的。

得到还原后的频率向量5后，用IFFT变换将频域变换回时域，即得到原始语音。图5描述了相应的整个解码过程。

图6分别描述了同一信号的原始语音(16k采样)、压缩后编码传输语音(8k采样)、接收端还原语音(16k采样)的波形图象，可以看出波形形状基本未改变，细节部分有轻微变化。

图7分别描述了同一信号的原始语音(16k采样)、压缩后编码传输语音(8k采样)、接收端还原语音(16k采样)以及这段声音直接用普通电话8k采样的声音频谱图象，可以看出恢复后的16k语音频谱基本与原始信号移植，细节稍有减弱，体现在听觉上强度稍微减轻。而压缩编码的8k信号比正常的8k电话语音频率被压扁了，但是携带的信号分量更多。

综上所述，本发明不改变原有G.711语音数据编码、传输、还原的方式，通过在语音编码前进行语音前置处理，使语音信号承载扩展一倍的频域信号，伪装成正常G.711语音包进行发送，在解码端增加后置处理，恢复正常语音，从而实现在兼容G.711编码的基础上，使可传输的语音频率范围扩展一倍，提升通话质量。

需要理解到的是：上述说明并非是对本发明的限制，在本发明构思范围内，所进行的添加、变换、替换等，也应属于本发明的保护范围。

Claims

1.VoIP环境下基于G.711编码隐藏传送宽频语音的方法，其特征在于：采用16k采样频率对声音信号进行采样，在语音包编码前进行前置处理，在频域上压缩处理，模拟成8k采样的电话语音信号的数据尺寸，然后用正常的G.711方式编码和发送，在接收端用反向算法进行解码和后置处理，获得原始语音信息。

2.根据权利要求1所述的VoIP环境下基于G.711编码隐藏传送宽频语音的方法，其特征在于：具体包含以下步骤——

①对语音信号进行16k采样，获得原始宽频信号；

3.根据权利要求1所述的VoIP环境下基于G.711编码隐藏传送宽频语音的方法，其特征在于：所述前置处理，对语音采用16k采样频率后，将信号分帧用FFT变换，进行时域/频域转换成0-8kHz的频域信号，对频域进行半对称压缩成0-4kHz范围，使语音帧实际上带有扩展一倍的频域信号，然后用IFFT反变换回时域，伪装成正常8k采样频率的语音帧等待传送。

4.根据权利要求1所述的VoIP环境下基于G.711编码隐藏传送宽频语音的方法，其特征在于：所述语音解码后置处理，在对收到的语音数据根据G.711编码进行分帧解码后，进入后置处理程序，将信号用FFT变换到频域，将频率重新扩展到0-8kHz范围，然后用IFFT反变换回时域，还原出原始语音信号等待播放。