CN105957533B

CN105957533B - 语音压缩方法、语音解压方法及音频编码器、音频解码器

Info

Publication number: CN105957533B
Application number: CN201610260757.3A
Authority: CN
Inventors: 杨洋; 姚嘉; 任金平; 高永泽
Original assignee: Hangzhou Nanosic Technology Co ltd
Current assignee: Hangzhou Nanosic Technology Co ltd
Priority date: 2016-04-22
Filing date: 2016-04-22
Publication date: 2020-11-10
Anticipated expiration: 2036-04-22
Also published as: CN105957533A

Abstract

本发明公开了一种语音压缩方法、语音解压方法及音频编码器、音频解码器，通过MLT变换时域信号转换成频域信号，采用RMS权重分析法细化频域信号量化分级，矢量量化和哈弗曼编码等方法分别对量化参数（量化权重、比特分配数）和频域数据进行压缩，以期在保证近似无损的频谱特性最大限度提高压缩比。

Description

语音压缩方法、语音解压方法及音频编码器、音频解码器

技术领域

本发明属于无线语音信号压缩领域，具体涉及一种基于MLT变换和向量熵编码的语音压缩方法、解压方法及音频编码器、音频解码器。

背景技术

语音信号压缩是为了节省硬件存储空间，方便存储和传输。而无线数字语音系统不同于一般的有线音频系统，其利用空中带宽传输语音信号，不需有线作为信号传输载体，方便了用户实际使用体验。

基于嵌入式技术的无线数字音频系统更是有效地将嵌入式技术、音频编解码技术、无线传输技术结合在一起，具有体积小，携带方便，功能专业化高，成本较低，稳定性高，实时性好等特点。但是会受到带宽、延迟和功耗等方面的限制。因此要求应用于无线语音传输的压缩算法同时具有有高音、质高压缩比、低延迟和低计算复杂度的特性。

而目前频域压缩编码蓝牙SBC语音算法的音质较低，而时域压缩算法ADPCM，G711等，又普遍具有较低的压缩比。因此，针对无线传输设计一款高压缩比、低延迟和低计算复杂度的情况下实现较高音质的语音编解码算并将之应用在基于嵌入式技术的无线音频系统中是十分有意义的。

语音数据压缩利用的是语音信号的冗余和人耳听觉系统的独特感知性，语音信号的冗余主要表现在时域冗余和频域冗余2中，目前公知的语音压缩方法按照编码方式可以分为两类。第一类是：时域压缩，该类型编码器通过分析语音数据时域上的相关性对其进行压缩；第二类是：频域压缩，该类型编码器通过分析语音数据频域上的相关性对其进行压缩。

第一类压缩方法主要采用消除语音信号的时域冗余进行压缩，通过计算音频数据和预测值的差值，并设定自适应量化器的量化级、更新下一数据的预测值。时域预测方法在保证一定压缩比的情况下很难将提高主观音质水平，所以时域预测方法的特点是低延迟、低运算量、中等音质和较低的压缩比。主流的时域预测方法有ADPCM和G711等，一般压缩比在2:1到4:1之间。

第二类压缩方法主要采用消除语音信号的频域冗余进行压缩，一般采用变换域结合心里声学模型的方法，通过变换域将时域语音数据变换为频域数据而后通过心里声学模型，按照人耳听觉特性对该语音数据的频域信号进行分级量化，对人耳听觉敏感度高的频域部分进行较少的量化，保留较高的精度，对人耳听觉敏感度低的频域部分进行较多的量化，保留较少的精度。由于有心理声学模型的分析，变换域方法可以在保证人耳主观感受的情况下最大限度地压缩音频数据流，所以变换域方法的特点就是高延迟、高复杂度、高音质和低码流。以主流的变换域方法有余弦调制滤波器组实现的子带编码，如SBC(音质一般，压缩比仅有5:1左右)，改进型离散余弦变换(MDCT)实现的编码，如CELT，SPEEX等(音质较高，但延迟需要50ms到100ms)。

由于基于无线语音传输的语音码流需要的高音质、高压缩比、低延迟和低计算复杂度，因此主流第一类编码器中的主流的域预测编码因其低压缩比和音质而同样无法满足要求；而第二类编码器的主流变换域编码因为其高延迟和高运算量无法达到无线传输的要求。

发明内容

针对现有技术存在的问题，本发明的目的在于提供一种基于MLT变换和向量熵编码的语音压缩方法，该方法可同时有效满足无线语音传输的高音质、低延迟、高压缩比且低复杂运算量。本发明的另一目的是提供一种基于MLT变换和向量熵编码的语音解压方法。

为实现上述目的，本发明基于MLT变换和向量熵编码的语音压缩方法，具体为：

1)MLT频域变换：将数字麦克采集的时域数字语音信号转换为频域谱系数；

2)RMS量化权重计算：频域谱系数为分组计算信号的均方根RMS，通过分组均方根计算频域分量权重；

3)最优分组比特位分配：根据分组信号频域分量权重和设定比特率参数获得最优分组比特位；

4)将分组频域语音信号进行矢量量化，生成分组矢量量化系数；

5)将分组矢量量化系数进行哈弗曼编码，完成数据压缩。

进一步，所述步骤1)采用调制混叠变换，通过MLT变换，将短时帧的PCM时域音频数据转换成MLT频域谱系数，按频域相关性对MLT频域谱系数进行分组。

进一步，所述PCM时域音频数据首先经过50％数据重叠混合处理，再进行反混叠滤波，防止频谱溢出，之后进行DCT-IV变换，将时域数据变换成频域谱系数。

进一步，所述MLT频域变换的公式如下：

进一步，所述步骤2)中将时频转换后的频域谱系数通过均方根RMS计算量化权重，其RMS计算公式如下：

计算每组RMS值的量化权重值：

进一步，所述步骤3)中，最优分组比特位计算方法为：根据量化权重计算最大比特位和最小比特位，根据比特率参数优化分组比特位，使优化后的比特位在比特位限制下满足各分组频谱系数的需求。

进一步，根据量化权重值，计算每组比特分配系数：

category(r)＝MAX{0,MIN{7,(offset-rms_index(r)/2)}}；

(0≤r≤number_of_regions；-32≤offset≤31)；

根据比特分配参数计算预计量化所需比特数：

然后，根据设定比特率参数计算可用比特数：

estimated_number_of_available_bits＝320+((number_of_available_bits.320)*5/8)；

调整每组的比特分配参数，以获取在可用比特数范围内，每组可用比特达到最大化，确定最优分组比特位。

进一步，所述步骤4)、步骤5)的处理过程为：

A)将频域谱系数拆分为符号位和强度，计算每组强度的归一化指数：

k(i)＝MIN{(x*magnitude of(mlt(20r+i))+deadzone_rounding),kmax}

((0＜i＜20；x＝1/(stepsize*(magnitude_of_rms(r))；)；

B)将归一化之后的指数组成矢量组比特流：

C)对每组矢量组和符号位组进行哈弗曼编码，形成压缩比特流。

一种针对上述语音压缩方法的基于MLT变换和向量熵编码的语音解压方法，采取反矢量量化和反MLT来解压数据压缩后的语音，具体为：

1)对压缩比特流进行解析和哈弗曼解码，得到矢量组和符号位组；

2)对矢量组进行反归一化运算，获取频域谱系数强度和对应符号位，得到频域谱系数；

3)对频域谱系数进行反调制混叠变换IMLT，获取时域语音数据，完成解码。

进一步，所述步骤1)中对经过编码压缩的码流数据进行分析，获取采样率、比特率和分时帧长的时域PCM流信息。

进一步，所述步骤2)中反归一化运算公式如下：

进一步，所述步骤3)中IMLT变换公式如下：

其中

一种实施上述语音压缩方法的音频编码器，包括MLT频域变换器、RMS量化权重计算器、最优分组比特位分配器、哈弗曼编码器，通过MLT变换器将时域信号转换成频域信号，采用RMS量化权重计算器细化频域信号量化分级，采用最优分组比特位分配器、哈弗曼编码器分别对量化参数和频域数据进行压缩，在保证近似无损的频谱特性下最大限度提高语音数据压缩比。

一种实施上述语音解压方法的音频解码器，包括码流分析器、哈弗曼解码器、反矢量量化器、逆MLT变换滤波器，其中：

在码流分析器中，读经过编码压缩的码流数据进行分析，获取采样率，比特率和分时帧长等时域PCM流信息；

在哈弗曼解码器中，解码获取RMS权重、比特分配参数和量化后的MLT频域谱矢量；

在反矢量量化器中，使用RMS权重和比特分配参数对量化后MLT频域谱矢量进行反量化运算，获取MLT频域谱系数；

在逆MLT变换滤波器中，对MLT频域谱系数进反MLT变换滤波，获取时域PCM数据；

通过码流解析的PCM流信息，控制PCM数据，重建整合PCM语音码流。

本发明的有益效果主要表现在：在保证语音数据高音质的情况下实现了高压缩比、低延迟和中等的运算复杂度，更适应无线语音应用。

附图说明

图1为压缩流程图；

图2为解压缩流程图；

图3为MLT变换原理图；

图4为最优比特分配流程图；

图5为原始PCM波形数据时域数据图；

图6为原始PCM波形数据频谱数据图；

图7为MLT变换后PCM波形数据时域数据图；

图8为MLT变换后PCM波形数据频谱数据图。

具体实施方式

下面，参考附图，对本发明进行更全面的说明，附图中示出了本发明的示例性实施例。然而，本发明可以体现为多种不同形式，并不应理解为局限于这里叙述的示例性实施例。而是，提供这些实施例，从而使本发明全面和完整，并将本发明的范围完全地传达给本领域的普通技术人员。

本发明基于MLT变换和向量熵编码的语音压缩方法，具体为：

(1)MLT(Modulated Lapped Transform)频域变换器，MLT变换是一种频域变换，可将时域数据分短时独立帧进行变换，并采用50％的帧混叠的方式保证了临界数据的频谱不失真，具有线性和完美信号重建等特性；MLT变换公式如下:

(2)RMS量化权重计算器，RMS计算分组频域谱系数的均方根(Root-Mean-Square)，用于表示量化权重；相比绝对值表示的量化权重，通过RMS值表示的量化层级更多，量化精度更高，RMS计算公式如下：

计算每组RMS值的量化权重值：

(3)最优分组比特位分配器，根据量化权重值，计算每组比特分配系数：

category(r)＝MAX{0,MIN{7,(offset-rms_index(r)/2)}}，

(0≤r≤number_of_regions；-32≤offset≤31)；

根据比特分配参数计算预计量化所需比特数：

然后，根据设定比特率参数计算可用比特数：

estimated_number_of_available_bits＝320+((number_of_available_bits.320)*5/8)，

调整每组的比特分配参数，以获取在可用比特数范围内，每组可用比特达到最大化，确定最优分组比特位；

(4)对频域谱系数进行矢量量化，生成分组矢量量化系数：

将频域谱系数拆分为符号位和强度，计算每组强度的归一化指数：

k(i)＝MIN{(x*magnitude of(mlt(20r+i))+deadzone_rounding),kmax}，

((0＜i＜20；x＝1/(stepsize*(magnitude_of_rms(r))；)，

将归一化之后的指数组成矢量组比特流：

(5)对每组矢量组和符号位组进行哈弗曼编码，形成压缩比特流。

(1)将压缩后的码流经过哈弗曼解码器进行解码分析，获得量化后的MLT频域谱系数量化数据；

(2)采用反矢量量化器对MLT频域谱系数量化数据进行反量化解析，对矢量组进行反归一化运算，获取频域谱系数强度和对应符号位，得到频域谱系数；

(3)对频域谱系数进行IMLT(反调制混叠变换)，获取时域语音数据，完成解码；IMLT变换公式如下：

其中

本发明中，压缩部分具体实施方式如图1：

(1)使用数字麦克风采样语音数据，获取PCM原始数字语音数据，并将语音数据分成短时帧：5ms(80sample)、10ms(160sample)或20ms(320sample)，并将PCM配置的比特率采样率等信息写入码流。

(2)通过MLT变换，将短时帧的时域PCM数据转换成MLT频域谱系数。按频域相关性对MLT频域谱系数进行分组，分为20组MLT频域谱矢量。

(3)通过RMS权重计算器，计算分组MLT频域谱矢量的RMS，获取各组频域谱矢量的量化权重，量化权重值直接写入码流。

(4)在最优比特分配器中使用分组频域谱系数的量化权重RMS，对各分组MLT频域谱矢量进行比特分配计算，求取最优比特分配数，比特分配数也直接写入码流。

(5)在矢量量化器组中，使用量化权重和最优比特分配对量化谱系数。分组MLT频域谱矢量进行矢量量化。

(6)在哈弗曼编码器中，对量化权重、比特分配参数和量化后的分组MLT频域谱矢量进行哈弗曼编码，获取最终编码压缩码流。

本发明中，解码部分具体实施方式如图2：

(1)在码流分析器中，对经过编码压缩的码流数据进行分析，获取采样率，比特率和分时帧长等时域PCM流信息；

(2)在哈弗曼解码器中，解码获取RMS权重、比特分配参数和量化后的MLT频域谱矢量；

(3)在反矢量量化器中，使用RMS权重和比特分配参数对量化后MLT频域谱矢量进行反量化运算。获取MLT频域谱系数；

(4)在逆MLT变换滤波器中，对MLT频域谱系数进反MLT变换滤波，获取时域PCM数据；

(5)通过码流解析的PCM流信息，控制PCM数据，重建整合PCM语音码流。

如图3所示的为MLT变换原理图，PCM时域音频数据首先经过50％数据重叠混合处理，再进行反混叠滤波，防止频谱溢出，之后进行DCT-IV变换，将时域数据变换成频域谱系数，MLT变换的优点为线性和完美重构的特性，能无损的将PCM数据进行时域到频域的相互转换。如图5、图6、图7、图8所示，为MLT变换前后的PCM数据，可以看到，经过变换的PCM数据和原始PCM数据在时域和频域信息上都达到无损的效果。

如图4所示的最优比特分配流程，按照分组频域谱系数为单位进行比特分配的流程：

(1)首先，分析该组频域谱系数的RMS量化权重信息，设定比特分配参数，进行比特分配计算；

(2)之后，根据比特分配结果计算预计比特分配所消耗的比特数，在预制信噪比和剩余比特数的限制，分析当前预计比特分配数是否满足该限制。如不满足，重设比特分配参数，重新进行比特分配，如满足，则进入下一组频域谱系数的比特分配计算。同时更新剩余比特数，用于下一组比特分配运算。

本实施例的心理声学模型、比特分配和量化方式经过优化后简化了心理声学模型的计算复杂度，直接应用经过验证的频域听觉阈值和掩蔽阈值对子频带数据进行分析；而在比特分配单元由于采用了对称量化方案，比特分配的结果并不直接通过码流传输至解码端，而是通过量化因子在解码端通过同样的比特分配机制计算比特分配数，这样减小了大量的码流可用于传输量化后音频数据，并且设定了码流长度调节参数，可随时根据无线传输环境调节比特分配数。

如上所述，本中针对无线语音传输应用的特点采用了完美重构的MLT变换用于时域到频域的转换，保证了语音数据的高音质，并且可以根据系统对延迟的要求，直接修改MLT变换长度，保证了低延迟，并采用了最优比特分配保证了压缩比在不影响音质的情况下达到最高，最终采用哈弗曼编码进一步对量化后数据进行压缩。

Claims

1.一种语音压缩方法，其特征在于，该方法具体为：

5)将分组矢量量化系数进行哈弗曼编码，完成数据压缩；

其中，比特分配单元采用对称量化方案，比特分配的结果通过量化因子在解码端通过同样的比特分配机制计算比特分配数，并且设定了码流长度调节参数，可随时根据无线传输环境调节比特分配数；

其中，按照分组频域谱系数为单位进行比特分配的流程：

(2)之后，根据比特分配结果计算预计比特分配所消耗的比特数，在预制信噪比和剩余比特数的限制，分析当前预计比特分配数是否满足该限制；如不满足，重设比特分配参数，重新进行比特分配，如满足，则进入下一组频域谱系数的比特分配计算；同时更新剩余比特数，用于下一组比特分配运算；

所述步骤3)中，最优分组比特位计算方法为：根据量化权重计算最大比特位和最小比特位，根据比特率参数优化分组比特位，使优化后的比特位在比特位限制下满足各分组频谱系数的需求；根据量化权重值，计算每组比特分配系数：

category(r)＝MAX{0,MIN{7,(offset-rms_index(r)/2)}}；

0≤r≤number_of_regions；-32≤offset≤31；

根据比特分配参数计算预计量化所需比特数：

然后，根据设定比特率参数计算可用比特数：

2.如权利要求1所述的语音压缩方法，其特征在于，所述步骤1)采用调制混叠变换，通过MLT变换，将短时帧的PCM时域音频数据转换成MLT频域谱系数，按频域相关性对MLT频域谱系数进行分组；所述PCM时域音频数据首先经过50％数据重叠混合处理，再进行反混叠滤波，防止频谱溢出，之后进行DCT-IV变换，将时域数据变换成频域谱系数。

3.如权利要求1所述的语音压缩方法，其特征在于，所述MLT频域变换的公式如下：

0≤m＜N，0≤n＜2N，N∈(80，160，320)；

所述步骤2)中将时频转换后的频域谱系数通过均方根RMS计算量化权重，其RMS计算公式如下：

4.如权利要求1所述的语音压缩方法，其特征在于，所述步骤4)、步骤5)的处理过程为：

k(i)＝MIN{(x*magnitude of(mlt(20r+i))+deadzone_rounding),kmax}

0＜i＜20；x＝1/(stepsize*(magnitude_of_rms(r)；

B)将归一化之后的指数组成矢量组比特流：

j＝index to j_thvalue of k()；vd＝vector dimension；

5.一种语音解压方法，其特征在于，采取反矢量量化和反MLT来解压数据压缩后的语音，具体为：

3)对频域谱系数进行反调制混叠变换IMLT，获取时域语音数据，完成解码；

其中，按照分组频域谱系数为单位进行比特分配的流程：

最优分组比特位计算方法为：根据量化权重计算最大比特位和最小比特位，根据比特率参数优化分组比特位，使优化后的比特位在比特位限制下满足各分组频谱系数的需求；根据量化权重值，计算每组比特分配系数：

category(r)＝MAX{0,MIN{7,(offset-rms_index(r)/2)}}；

0≤r≤number_of_regions；-32≤offset≤31；

根据比特分配参数计算预计量化所需比特数：

然后，根据设定比特率参数计算可用比特数：

6.如权利要求5所述的语音解压方法，其特征在于，所述步骤1)中对经过编码压缩的码流数据进行分析，获取采样率、比特率和分时帧长的时域PCM流信息；所述步骤2)中反归一化运算公式如下：

indicates taking the greatest integer value less than or equal to z，

i＝(n+1)vd-j-1；0≤j≤vd-1；0≤n≤vpr-1。

7.如权利要求5所述的语音解压方法，其特征在于，所述步骤3)中IMLT变换公式如下：

其中

8.一种音频编码器，其特征在于，包括MLT频域变换器、RMS量化权重计算器、最优分组比特位分配器、哈弗曼编码器，通过MLT变换器将时域信号转换成频域信号，采用RMS量化权重计算器细化频域信号量化分级，采用最优分组比特位分配器、哈弗曼编码器分别对量化参数和频域数据进行压缩，在保证近似无损的频谱特性下最大限度提高语音数据压缩比；其中，比特分配单元采用对称量化方案，比特分配的结果通过量化因子在解码端通过同样的比特分配机制计算比特分配数，并且设定了码流长度调节参数，可随时根据无线传输环境调节比特分配数；

其中，按照分组频域谱系数为单位进行比特分配的流程：

category(r)＝MAX{0,MIN{7,(offset-rms_index(r)/2)}}；

0≤r≤number_of_regions；-32≤offset≤31；

根据比特分配参数计算预计量化所需比特数：

然后，根据设定比特率参数计算可用比特数：

9.一种音频解码器，包括码流分析器、哈弗曼解码器、反矢量量化器、逆MLT变换滤波器，其中：

通过码流解析的PCM流信息，控制PCM数据，重建整合PCM语音码流；

其中，按照分组频域谱系数为单位进行比特分配的流程：

category(r)＝MAX{0,MIN{7,(offset-rms_index(r)/2)}}；

0≤r≤number_of_regions；-32≤offset≤31；

根据比特分配参数计算预计量化所需比特数：

然后，根据设定比特率参数计算可用比特数：