[go: up one dir, main page]

CN105957533B - 语音压缩方法、语音解压方法及音频编码器、音频解码器 - Google Patents

语音压缩方法、语音解压方法及音频编码器、音频解码器 Download PDF

Info

Publication number
CN105957533B
CN105957533B CN201610260757.3A CN201610260757A CN105957533B CN 105957533 B CN105957533 B CN 105957533B CN 201610260757 A CN201610260757 A CN 201610260757A CN 105957533 B CN105957533 B CN 105957533B
Authority
CN
China
Prior art keywords
bit
frequency domain
bit allocation
quantization
bits
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610260757.3A
Other languages
English (en)
Other versions
CN105957533A (zh
Inventor
杨洋
姚嘉
任金平
高永泽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Nanosic Technology Co ltd
Original Assignee
Hangzhou Nanosic Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Nanosic Technology Co ltd filed Critical Hangzhou Nanosic Technology Co ltd
Priority to CN201610260757.3A priority Critical patent/CN105957533B/zh
Publication of CN105957533A publication Critical patent/CN105957533A/zh
Application granted granted Critical
Publication of CN105957533B publication Critical patent/CN105957533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种语音压缩方法、语音解压方法及音频编码器、音频解码器,通过MLT变换时域信号转换成频域信号,采用RMS权重分析法细化频域信号量化分级,矢量量化和哈弗曼编码等方法分别对量化参数(量化权重、比特分配数)和频域数据进行压缩,以期在保证近似无损的频谱特性最大限度提高压缩比。

Description

语音压缩方法、语音解压方法及音频编码器、音频解码器
技术领域
本发明属于无线语音信号压缩领域,具体涉及一种基于MLT变换和向量熵编码的语音压缩方法、解压方法及音频编码器、音频解码器。
背景技术
语音信号压缩是为了节省硬件存储空间,方便存储和传输。而无线数字语音系统不同于一般的有线音频系统,其利用空中带宽传输语音信号,不需有线作为信号传输载体,方便了用户实际使用体验。
基于嵌入式技术的无线数字音频系统更是有效地将嵌入式技术、音频编解码技术、无线传输技术结合在一起,具有体积小,携带方便,功能专业化高,成本较低,稳定性高,实时性好等特点。但是会受到带宽、延迟和功耗等方面的限制。因此要求应用于无线语音传输的压缩算法同时具有有高音、质高压缩比、低延迟和低计算复杂度的特性。
而目前频域压缩编码蓝牙SBC语音算法的音质较低,而时域压缩算法ADPCM,G711等,又普遍具有较低的压缩比。因此,针对无线传输设计一款高压缩比、低延迟和低计算复杂度的情况下实现较高音质的语音编解码算并将之应用在基于嵌入式技术的无线音频系统中是十分有意义的。
语音数据压缩利用的是语音信号的冗余和人耳听觉系统的独特感知性,语音信号的冗余主要表现在时域冗余和频域冗余2中,目前公知的语音压缩方法按照编码方式可以分为两类。第一类是:时域压缩,该类型编码器通过分析语音数据时域上的相关性对其进行压缩;第二类是:频域压缩,该类型编码器通过分析语音数据频域上的相关性对其进行压缩。
第一类压缩方法主要采用消除语音信号的时域冗余进行压缩,通过计算音频数据和预测值的差值,并设定自适应量化器的量化级、更新下一数据的预测值。时域预测方法在保证一定压缩比的情况下很难将提高主观音质水平,所以时域预测方法的特点是低延迟、低运算量、中等音质和较低的压缩比。主流的时域预测方法有ADPCM和G711等,一般压缩比在2:1到4:1之间。
第二类压缩方法主要采用消除语音信号的频域冗余进行压缩,一般采用变换域结合心里声学模型的方法,通过变换域将时域语音数据变换为频域数据而后通过心里声学模型,按照人耳听觉特性对该语音数据的频域信号进行分级量化,对人耳听觉敏感度高的频域部分进行较少的量化,保留较高的精度,对人耳听觉敏感度低的频域部分进行较多的量化,保留较少的精度。由于有心理声学模型的分析,变换域方法可以在保证人耳主观感受的情况下最大限度地压缩音频数据流,所以变换域方法的特点就是高延迟、高复杂度、高音质和低码流。以主流的变换域方法有余弦调制滤波器组实现的子带编码,如SBC(音质一般,压缩比仅有5:1左右),改进型离散余弦变换(MDCT)实现的编码,如CELT,SPEEX等(音质较高,但延迟需要50ms到100ms)。
由于基于无线语音传输的语音码流需要的高音质、高压缩比、低延迟和低计算复杂度,因此主流第一类编码器中的主流的域预测编码因其低压缩比和音质而同样无法满足要求;而第二类编码器的主流变换域编码因为其高延迟和高运算量无法达到无线传输的要求。
发明内容
针对现有技术存在的问题,本发明的目的在于提供一种基于MLT变换和向量熵编码的语音压缩方法,该方法可同时有效满足无线语音传输的高音质、低延迟、高压缩比且低复杂运算量。本发明的另一目的是提供一种基于MLT变换和向量熵编码的语音解压方法。
为实现上述目的,本发明基于MLT变换和向量熵编码的语音压缩方法,具体为:
1)MLT频域变换:将数字麦克采集的时域数字语音信号转换为频域谱系数;
2)RMS量化权重计算:频域谱系数为分组计算信号的均方根RMS,通过分组均方根计算频域分量权重;
3)最优分组比特位分配:根据分组信号频域分量权重和设定比特率参数获得最优分组比特位;
4)将分组频域语音信号进行矢量量化,生成分组矢量量化系数;
5)将分组矢量量化系数进行哈弗曼编码,完成数据压缩。
进一步,所述步骤1)采用调制混叠变换,通过MLT变换,将短时帧的PCM时域音频数据转换成MLT频域谱系数,按频域相关性对MLT频域谱系数进行分组。
进一步,所述PCM时域音频数据首先经过50%数据重叠混合处理,再进行反混叠滤波,防止频谱溢出,之后进行DCT-IV变换,将时域数据变换成频域谱系数。
进一步,所述MLT频域变换的公式如下:
Figure BDA0000972459130000031
Figure BDA0000972459130000041
进一步,所述步骤2)中将时频转换后的频域谱系数通过均方根RMS计算量化权重,其RMS计算公式如下:
Figure BDA0000972459130000042
计算每组RMS值的量化权重值:
Figure BDA0000972459130000043
进一步,所述步骤3)中,最优分组比特位计算方法为:根据量化权重计算最大比特位和最小比特位,根据比特率参数优化分组比特位,使优化后的比特位在比特位限制下满足各分组频谱系数的需求。
进一步,根据量化权重值,计算每组比特分配系数:
category(r)=MAX{0,MIN{7,(offset-rms_index(r)/2)}};
(0≤r≤number_of_regions;-32≤offset≤31);
根据比特分配参数计算预计量化所需比特数:
Figure BDA0000972459130000044
然后,根据设定比特率参数计算可用比特数:
estimated_number_of_available_bits=320+((number_of_available_bits.320)*5/8);
调整每组的比特分配参数,以获取在可用比特数范围内,每组可用比特达到最大化,确定最优分组比特位。
进一步,所述步骤4)、步骤5)的处理过程为:
A)将频域谱系数拆分为符号位和强度,计算每组强度的归一化指数:
k(i)=MIN{(x*magnitude of(mlt(20r+i))+deadzone_rounding),kmax}
((0<i<20;x=1/(stepsize*(magnitude_of_rms(r)););
B)将归一化之后的指数组成矢量组比特流:
Figure BDA0000972459130000045
Figure BDA0000972459130000051
C)对每组矢量组和符号位组进行哈弗曼编码,形成压缩比特流。
一种针对上述语音压缩方法的基于MLT变换和向量熵编码的语音解压方法,采取反矢量量化和反MLT来解压数据压缩后的语音,具体为:
1)对压缩比特流进行解析和哈弗曼解码,得到矢量组和符号位组;
2)对矢量组进行反归一化运算,获取频域谱系数强度和对应符号位,得到频域谱系数;
3)对频域谱系数进行反调制混叠变换IMLT,获取时域语音数据,完成解码。
进一步,所述步骤1)中对经过编码压缩的码流数据进行分析,获取采样率、比特率和分时帧长的时域PCM流信息。
进一步,所述步骤2)中反归一化运算公式如下:
Figure BDA0000972459130000052
Figure BDA0000972459130000053
进一步,所述步骤3)中IMLT变换公式如下:
Figure BDA0000972459130000054
Figure BDA0000972459130000055
Figure BDA0000972459130000056
其中
Figure BDA0000972459130000057
一种实施上述语音压缩方法的音频编码器,包括MLT频域变换器、RMS量化权重计算器、最优分组比特位分配器、哈弗曼编码器,通过MLT变换器将时域信号转换成频域信号,采用RMS量化权重计算器细化频域信号量化分级,采用最优分组比特位分配器、哈弗曼编码器分别对量化参数和频域数据进行压缩,在保证近似无损的频谱特性下最大限度提高语音数据压缩比。
一种实施上述语音解压方法的音频解码器,包括码流分析器、哈弗曼解码器、反矢量量化器、逆MLT变换滤波器,其中:
在码流分析器中,读经过编码压缩的码流数据进行分析,获取采样率,比特率和分时帧长等时域PCM流信息;
在哈弗曼解码器中,解码获取RMS权重、比特分配参数和量化后的MLT频域谱矢量;
在反矢量量化器中,使用RMS权重和比特分配参数对量化后MLT频域谱矢量进行反量化运算,获取MLT频域谱系数;
在逆MLT变换滤波器中,对MLT频域谱系数进反MLT变换滤波,获取时域PCM数据;
通过码流解析的PCM流信息,控制PCM数据,重建整合PCM语音码流。
本发明的有益效果主要表现在:在保证语音数据高音质的情况下实现了高压缩比、低延迟和中等的运算复杂度,更适应无线语音应用。
附图说明
图1为压缩流程图;
图2为解压缩流程图;
图3为MLT变换原理图;
图4为最优比特分配流程图;
图5为原始PCM波形数据时域数据图;
图6为原始PCM波形数据频谱数据图;
图7为MLT变换后PCM波形数据时域数据图;
图8为MLT变换后PCM波形数据频谱数据图。
具体实施方式
下面,参考附图,对本发明进行更全面的说明,附图中示出了本发明的示例性实施例。然而,本发明可以体现为多种不同形式,并不应理解为局限于这里叙述的示例性实施例。而是,提供这些实施例,从而使本发明全面和完整,并将本发明的范围完全地传达给本领域的普通技术人员。
本发明基于MLT变换和向量熵编码的语音压缩方法,具体为:
(1)MLT(Modulated Lapped Transform)频域变换器,MLT变换是一种频域变换,可将时域数据分短时独立帧进行变换,并采用50%的帧混叠的方式保证了临界数据的频谱不失真,具有线性和完美信号重建等特性;MLT变换公式如下:
Figure BDA0000972459130000071
(2)RMS量化权重计算器,RMS计算分组频域谱系数的均方根(Root-Mean-Square),用于表示量化权重;相比绝对值表示的量化权重,通过RMS值表示的量化层级更多,量化精度更高,RMS计算公式如下:
Figure BDA0000972459130000072
计算每组RMS值的量化权重值:
Figure BDA0000972459130000073
(3)最优分组比特位分配器,根据量化权重值,计算每组比特分配系数:
category(r)=MAX{0,MIN{7,(offset-rms_index(r)/2)}},
(0≤r≤number_of_regions;-32≤offset≤31);
根据比特分配参数计算预计量化所需比特数:
Figure BDA0000972459130000081
然后,根据设定比特率参数计算可用比特数:
estimated_number_of_available_bits=320+((number_of_available_bits.320)*5/8),
调整每组的比特分配参数,以获取在可用比特数范围内,每组可用比特达到最大化,确定最优分组比特位;
(4)对频域谱系数进行矢量量化,生成分组矢量量化系数:
将频域谱系数拆分为符号位和强度,计算每组强度的归一化指数:
k(i)=MIN{(x*magnitude of(mlt(20r+i))+deadzone_rounding),kmax},
((0<i<20;x=1/(stepsize*(magnitude_of_rms(r));),
将归一化之后的指数组成矢量组比特流:
Figure BDA0000972459130000082
(5)对每组矢量组和符号位组进行哈弗曼编码,形成压缩比特流。
一种针对上述语音压缩方法的基于MLT变换和向量熵编码的语音解压方法,采取反矢量量化和反MLT来解压数据压缩后的语音,具体为:
(1)将压缩后的码流经过哈弗曼解码器进行解码分析,获得量化后的MLT频域谱系数量化数据;
(2)采用反矢量量化器对MLT频域谱系数量化数据进行反量化解析,对矢量组进行反归一化运算,获取频域谱系数强度和对应符号位,得到频域谱系数;
Figure BDA0000972459130000091
Figure BDA0000972459130000092
(3)对频域谱系数进行IMLT(反调制混叠变换),获取时域语音数据,完成解码;IMLT变换公式如下:
Figure BDA0000972459130000093
Figure BDA0000972459130000094
Figure BDA0000972459130000095
其中
Figure BDA0000972459130000096
一种实施上述语音压缩方法的音频编码器,包括MLT频域变换器、RMS量化权重计算器、最优分组比特位分配器、哈弗曼编码器,通过MLT变换器将时域信号转换成频域信号,采用RMS量化权重计算器细化频域信号量化分级,采用最优分组比特位分配器、哈弗曼编码器分别对量化参数和频域数据进行压缩,在保证近似无损的频谱特性下最大限度提高语音数据压缩比。
一种实施上述语音解压方法的音频解码器,包括码流分析器、哈弗曼解码器、反矢量量化器、逆MLT变换滤波器,其中:
在码流分析器中,读经过编码压缩的码流数据进行分析,获取采样率,比特率和分时帧长等时域PCM流信息;
在哈弗曼解码器中,解码获取RMS权重、比特分配参数和量化后的MLT频域谱矢量;
在反矢量量化器中,使用RMS权重和比特分配参数对量化后MLT频域谱矢量进行反量化运算,获取MLT频域谱系数;
在逆MLT变换滤波器中,对MLT频域谱系数进反MLT变换滤波,获取时域PCM数据;
通过码流解析的PCM流信息,控制PCM数据,重建整合PCM语音码流。
本发明中,压缩部分具体实施方式如图1:
(1)使用数字麦克风采样语音数据,获取PCM原始数字语音数据,并将语音数据分成短时帧:5ms(80sample)、10ms(160sample)或20ms(320sample),并将PCM配置的比特率采样率等信息写入码流。
(2)通过MLT变换,将短时帧的时域PCM数据转换成MLT频域谱系数。按频域相关性对MLT频域谱系数进行分组,分为20组MLT频域谱矢量。
(3)通过RMS权重计算器,计算分组MLT频域谱矢量的RMS,获取各组频域谱矢量的量化权重,量化权重值直接写入码流。
(4)在最优比特分配器中使用分组频域谱系数的量化权重RMS,对各分组MLT频域谱矢量进行比特分配计算,求取最优比特分配数,比特分配数也直接写入码流。
(5)在矢量量化器组中,使用量化权重和最优比特分配对量化谱系数。分组MLT频域谱矢量进行矢量量化。
(6)在哈弗曼编码器中,对量化权重、比特分配参数和量化后的分组MLT频域谱矢量进行哈弗曼编码,获取最终编码压缩码流。
本发明中,解码部分具体实施方式如图2:
(1)在码流分析器中,对经过编码压缩的码流数据进行分析,获取采样率,比特率和分时帧长等时域PCM流信息;
(2)在哈弗曼解码器中,解码获取RMS权重、比特分配参数和量化后的MLT频域谱矢量;
(3)在反矢量量化器中,使用RMS权重和比特分配参数对量化后MLT频域谱矢量进行反量化运算。获取MLT频域谱系数;
(4)在逆MLT变换滤波器中,对MLT频域谱系数进反MLT变换滤波,获取时域PCM数据;
(5)通过码流解析的PCM流信息,控制PCM数据,重建整合PCM语音码流。
如图3所示的为MLT变换原理图,PCM时域音频数据首先经过50%数据重叠混合处理,再进行反混叠滤波,防止频谱溢出,之后进行DCT-IV变换,将时域数据变换成频域谱系数,MLT变换的优点为线性和完美重构的特性,能无损的将PCM数据进行时域到频域的相互转换。如图5、图6、图7、图8所示,为MLT变换前后的PCM数据,可以看到,经过变换的PCM数据和原始PCM数据在时域和频域信息上都达到无损的效果。
如图4所示的最优比特分配流程,按照分组频域谱系数为单位进行比特分配的流程:
(1)首先,分析该组频域谱系数的RMS量化权重信息,设定比特分配参数,进行比特分配计算;
(2)之后,根据比特分配结果计算预计比特分配所消耗的比特数,在预制信噪比和剩余比特数的限制,分析当前预计比特分配数是否满足该限制。如不满足,重设比特分配参数,重新进行比特分配,如满足,则进入下一组频域谱系数的比特分配计算。同时更新剩余比特数,用于下一组比特分配运算。
本实施例的心理声学模型、比特分配和量化方式经过优化后简化了心理声学模型的计算复杂度,直接应用经过验证的频域听觉阈值和掩蔽阈值对子频带数据进行分析;而在比特分配单元由于采用了对称量化方案,比特分配的结果并不直接通过码流传输至解码端,而是通过量化因子在解码端通过同样的比特分配机制计算比特分配数,这样减小了大量的码流可用于传输量化后音频数据,并且设定了码流长度调节参数,可随时根据无线传输环境调节比特分配数。
如上所述,本中针对无线语音传输应用的特点采用了完美重构的MLT变换用于时域到频域的转换,保证了语音数据的高音质,并且可以根据系统对延迟的要求,直接修改MLT变换长度,保证了低延迟,并采用了最优比特分配保证了压缩比在不影响音质的情况下达到最高,最终采用哈弗曼编码进一步对量化后数据进行压缩。

Claims (9)

1.一种语音压缩方法,其特征在于,该方法具体为:
1)MLT频域变换:将数字麦克采集的时域数字语音信号转换为频域谱系数;
2)RMS量化权重计算:频域谱系数为分组计算信号的均方根RMS,通过分组均方根计算频域分量权重;
3)最优分组比特位分配:根据分组信号频域分量权重和设定比特率参数获得最优分组比特位;
4)将分组频域语音信号进行矢量量化,生成分组矢量量化系数;
5)将分组矢量量化系数进行哈弗曼编码,完成数据压缩;
其中,比特分配单元采用对称量化方案,比特分配的结果通过量化因子在解码端通过同样的比特分配机制计算比特分配数,并且设定了码流长度调节参数,可随时根据无线传输环境调节比特分配数;
其中,按照分组频域谱系数为单位进行比特分配的流程:
(1)首先,分析该组频域谱系数的RMS量化权重信息,设定比特分配参数,进行比特分配计算;
(2)之后,根据比特分配结果计算预计比特分配所消耗的比特数,在预制信噪比和剩余比特数的限制,分析当前预计比特分配数是否满足该限制;如不满足,重设比特分配参数,重新进行比特分配,如满足,则进入下一组频域谱系数的比特分配计算;同时更新剩余比特数,用于下一组比特分配运算;
所述步骤3)中,最优分组比特位计算方法为:根据量化权重计算最大比特位和最小比特位,根据比特率参数优化分组比特位,使优化后的比特位在比特位限制下满足各分组频谱系数的需求;根据量化权重值,计算每组比特分配系数:
category(r)=MAX{0,MIN{7,(offset-rms_index(r)/2)}};
0≤r≤number_of_regions;-32≤offset≤31;
根据比特分配参数计算预计量化所需比特数:
Figure FDA0002659038940000021
然后,根据设定比特率参数计算可用比特数:
estimated_number_of_available_bits=320+((number_of_available_bits.320)*5/8);
调整每组的比特分配参数,以获取在可用比特数范围内,每组可用比特达到最大化,确定最优分组比特位。
2.如权利要求1所述的语音压缩方法,其特征在于,所述步骤1)采用调制混叠变换,通过MLT变换,将短时帧的PCM时域音频数据转换成MLT频域谱系数,按频域相关性对MLT频域谱系数进行分组;所述PCM时域音频数据首先经过50%数据重叠混合处理,再进行反混叠滤波,防止频谱溢出,之后进行DCT-IV变换,将时域数据变换成频域谱系数。
3.如权利要求1所述的语音压缩方法,其特征在于,所述MLT频域变换的公式如下:
Figure FDA0002659038940000022
0≤m<N,0≤n<2N,N∈(80,160,320);
所述步骤2)中将时频转换后的频域谱系数通过均方根RMS计算量化权重,其RMS计算公式如下:
Figure FDA0002659038940000023
4.如权利要求1所述的语音压缩方法,其特征在于,所述步骤4)、步骤5)的处理过程为:
A)将频域谱系数拆分为符号位和强度,计算每组强度的归一化指数:
k(i)=MIN{(x*magnitude of(mlt(20r+i))+deadzone_rounding),kmax}
0<i<20;x=1/(stepsize*(magnitude_of_rms(r);
B)将归一化之后的指数组成矢量组比特流:
Figure DEST_PATH_FDA0002643982680000031
j=index to jthvalue of k();vd=vector dimension;
C)对每组矢量组和符号位组进行哈弗曼编码,形成压缩比特流。
5.一种语音解压方法,其特征在于,采取反矢量量化和反MLT来解压数据压缩后的语音,具体为:
1)对压缩比特流进行解析和哈弗曼解码,得到矢量组和符号位组;
2)对矢量组进行反归一化运算,获取频域谱系数强度和对应符号位,得到频域谱系数;
3)对频域谱系数进行反调制混叠变换IMLT,获取时域语音数据,完成解码;
其中,比特分配单元采用对称量化方案,比特分配的结果通过量化因子在解码端通过同样的比特分配机制计算比特分配数,并且设定了码流长度调节参数,可随时根据无线传输环境调节比特分配数;
其中,按照分组频域谱系数为单位进行比特分配的流程:
(1)首先,分析该组频域谱系数的RMS量化权重信息,设定比特分配参数,进行比特分配计算;
(2)之后,根据比特分配结果计算预计比特分配所消耗的比特数,在预制信噪比和剩余比特数的限制,分析当前预计比特分配数是否满足该限制;如不满足,重设比特分配参数,重新进行比特分配,如满足,则进入下一组频域谱系数的比特分配计算;同时更新剩余比特数,用于下一组比特分配运算;
最优分组比特位计算方法为:根据量化权重计算最大比特位和最小比特位,根据比特率参数优化分组比特位,使优化后的比特位在比特位限制下满足各分组频谱系数的需求;根据量化权重值,计算每组比特分配系数:
category(r)=MAX{0,MIN{7,(offset-rms_index(r)/2)}};
0≤r≤number_of_regions;-32≤offset≤31;
根据比特分配参数计算预计量化所需比特数:
Figure FDA0002659038940000041
然后,根据设定比特率参数计算可用比特数:
estimated_number_of_available_bits=320+((number_of_available_bits.320)*5/8);
调整每组的比特分配参数,以获取在可用比特数范围内,每组可用比特达到最大化,确定最优分组比特位。
6.如权利要求5所述的语音解压方法,其特征在于,所述步骤1)中对经过编码压缩的码流数据进行分析,获取采样率、比特率和分时帧长的时域PCM流信息;所述步骤2)中反归一化运算公式如下:
Figure FDA0002659038940000042
Figure FDA0002659038940000043
indicates taking the greatest integer value less than or equal to z,
i=(n+1)vd-j-1;0≤j≤vd-1;0≤n≤vpr-1。
7.如权利要求5所述的语音解压方法,其特征在于,所述步骤3)中IMLT变换公式如下:
Figure FDA0002659038940000051
Figure FDA0002659038940000052
Figure FDA0002659038940000053
其中
Figure FDA0002659038940000054
8.一种音频编码器,其特征在于,包括MLT频域变换器、RMS量化权重计算器、最优分组比特位分配器、哈弗曼编码器,通过MLT变换器将时域信号转换成频域信号,采用RMS量化权重计算器细化频域信号量化分级,采用最优分组比特位分配器、哈弗曼编码器分别对量化参数和频域数据进行压缩,在保证近似无损的频谱特性下最大限度提高语音数据压缩比;其中,比特分配单元采用对称量化方案,比特分配的结果通过量化因子在解码端通过同样的比特分配机制计算比特分配数,并且设定了码流长度调节参数,可随时根据无线传输环境调节比特分配数;
其中,按照分组频域谱系数为单位进行比特分配的流程:
(1)首先,分析该组频域谱系数的RMS量化权重信息,设定比特分配参数,进行比特分配计算;
(2)之后,根据比特分配结果计算预计比特分配所消耗的比特数,在预制信噪比和剩余比特数的限制,分析当前预计比特分配数是否满足该限制;如不满足,重设比特分配参数,重新进行比特分配,如满足,则进入下一组频域谱系数的比特分配计算;同时更新剩余比特数,用于下一组比特分配运算;
最优分组比特位计算方法为:根据量化权重计算最大比特位和最小比特位,根据比特率参数优化分组比特位,使优化后的比特位在比特位限制下满足各分组频谱系数的需求;根据量化权重值,计算每组比特分配系数:
category(r)=MAX{0,MIN{7,(offset-rms_index(r)/2)}};
0≤r≤number_of_regions;-32≤offset≤31;
根据比特分配参数计算预计量化所需比特数:
Figure FDA0002659038940000061
然后,根据设定比特率参数计算可用比特数:
estimated_number_of_available_bits=320+((number_of_available_bits.320)*5/8);
调整每组的比特分配参数,以获取在可用比特数范围内,每组可用比特达到最大化,确定最优分组比特位。
9.一种音频解码器,包括码流分析器、哈弗曼解码器、反矢量量化器、逆MLT变换滤波器,其中:
在码流分析器中,读经过编码压缩的码流数据进行分析,获取采样率,比特率和分时帧长等时域PCM流信息;
在哈弗曼解码器中,解码获取RMS权重、比特分配参数和量化后的MLT频域谱矢量;
在反矢量量化器中,使用RMS权重和比特分配参数对量化后MLT频域谱矢量进行反量化运算,获取MLT频域谱系数;
在逆MLT变换滤波器中,对MLT频域谱系数进反MLT变换滤波,获取时域PCM数据;
通过码流解析的PCM流信息,控制PCM数据,重建整合PCM语音码流;
其中,比特分配单元采用对称量化方案,比特分配的结果通过量化因子在解码端通过同样的比特分配机制计算比特分配数,并且设定了码流长度调节参数,可随时根据无线传输环境调节比特分配数;
其中,按照分组频域谱系数为单位进行比特分配的流程:
(1)首先,分析该组频域谱系数的RMS量化权重信息,设定比特分配参数,进行比特分配计算;
(2)之后,根据比特分配结果计算预计比特分配所消耗的比特数,在预制信噪比和剩余比特数的限制,分析当前预计比特分配数是否满足该限制;如不满足,重设比特分配参数,重新进行比特分配,如满足,则进入下一组频域谱系数的比特分配计算;同时更新剩余比特数,用于下一组比特分配运算;
最优分组比特位计算方法为:根据量化权重计算最大比特位和最小比特位,根据比特率参数优化分组比特位,使优化后的比特位在比特位限制下满足各分组频谱系数的需求;根据量化权重值,计算每组比特分配系数:
category(r)=MAX{0,MIN{7,(offset-rms_index(r)/2)}};
0≤r≤number_of_regions;-32≤offset≤31;
根据比特分配参数计算预计量化所需比特数:
Figure FDA0002659038940000071
然后,根据设定比特率参数计算可用比特数:
estimated_number_of_available_bits=320+((number_of_available_bits.320)*5/8);
调整每组的比特分配参数,以获取在可用比特数范围内,每组可用比特达到最大化,确定最优分组比特位。
CN201610260757.3A 2016-04-22 2016-04-22 语音压缩方法、语音解压方法及音频编码器、音频解码器 Active CN105957533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610260757.3A CN105957533B (zh) 2016-04-22 2016-04-22 语音压缩方法、语音解压方法及音频编码器、音频解码器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610260757.3A CN105957533B (zh) 2016-04-22 2016-04-22 语音压缩方法、语音解压方法及音频编码器、音频解码器

Publications (2)

Publication Number Publication Date
CN105957533A CN105957533A (zh) 2016-09-21
CN105957533B true CN105957533B (zh) 2020-11-10

Family

ID=56915027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610260757.3A Active CN105957533B (zh) 2016-04-22 2016-04-22 语音压缩方法、语音解压方法及音频编码器、音频解码器

Country Status (1)

Country Link
CN (1) CN105957533B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109583056A (zh) * 2018-11-16 2019-04-05 中国科学院信息工程研究所 一种基于仿真平台的网络攻防工具效能评估方法及系统
CN111402907B (zh) * 2020-03-13 2023-04-18 大连理工大学 一种基于g.722.1的多描述语音编码方法
CN113612672A (zh) * 2021-08-04 2021-11-05 杭州微纳科技股份有限公司 一种异步单线音频传输电路和音频传输方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0684705A2 (en) * 1994-05-06 1995-11-29 Nippon Telegraph And Telephone Corporation Multichannel signal coding using weighted vector quantization
CN101165778A (zh) * 2006-10-18 2008-04-23 宝利通公司 音频信号的双变换编码
CN101206860A (zh) * 2006-12-20 2008-06-25 华为技术有限公司 一种可分层音频编解码方法及装置
CN101572586A (zh) * 2008-04-30 2009-11-04 北京工业大学 编解码方法、装置及系统
CN101572087A (zh) * 2008-04-30 2009-11-04 北京工业大学 嵌入式语音或音频信号编解码方法和装置
CN102081926A (zh) * 2009-11-27 2011-06-01 中兴通讯股份有限公司 格型矢量量化音频编解码方法和系统
CN102150202A (zh) * 2008-07-14 2011-08-10 三星电子株式会社 对音频/语音信号进行编码和解码的方法和设备
CN102801427A (zh) * 2012-08-08 2012-11-28 深圳广晟信源技术有限公司 源信号变速率格矢量量化的编解码方法和系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9159331B2 (en) * 2011-05-13 2015-10-13 Samsung Electronics Co., Ltd. Bit allocating, audio encoding and decoding
CN102436819B (zh) * 2011-10-25 2013-02-13 杭州微纳科技有限公司 无线音频压缩、解压缩方法及音频编码器和音频解码器

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0684705A2 (en) * 1994-05-06 1995-11-29 Nippon Telegraph And Telephone Corporation Multichannel signal coding using weighted vector quantization
CN101165778A (zh) * 2006-10-18 2008-04-23 宝利通公司 音频信号的双变换编码
CN101206860A (zh) * 2006-12-20 2008-06-25 华为技术有限公司 一种可分层音频编解码方法及装置
CN101572586A (zh) * 2008-04-30 2009-11-04 北京工业大学 编解码方法、装置及系统
CN101572087A (zh) * 2008-04-30 2009-11-04 北京工业大学 嵌入式语音或音频信号编解码方法和装置
CN102150202A (zh) * 2008-07-14 2011-08-10 三星电子株式会社 对音频/语音信号进行编码和解码的方法和设备
CN102081926A (zh) * 2009-11-27 2011-06-01 中兴通讯股份有限公司 格型矢量量化音频编解码方法和系统
CN102801427A (zh) * 2012-08-08 2012-11-28 深圳广晟信源技术有限公司 源信号变速率格矢量量化的编解码方法和系统

Also Published As

Publication number Publication date
CN105957533A (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
JP4212591B2 (ja) オーディオ符号化装置
CN101064106B (zh) 用于低复杂度高级音频编码的自适应速率控制算法
US8135583B2 (en) Encoder, decoder, encoding method, and decoding method
US9754601B2 (en) Information signal encoding using a forward-adaptive prediction and a backwards-adaptive quantization
US6115689A (en) Scalable audio coder and decoder
EP1080579B1 (en) Scalable audio coder and decoder
CN103187065B (zh) 音频数据的处理方法、装置和系统
CN102436819B (zh) 无线音频压缩、解压缩方法及音频编码器和音频解码器
CN101421780B (zh) 用于编码和解码时变信号的方法和设备
CN101140759A (zh) 语音或音频信号的带宽扩展方法及系统
RU2505921C2 (ru) Способ и устройство кодирования и декодирования аудиосигналов (варианты)
CN107591157B (zh) 谐波音频信号的变换编码/解码
JPH08278799A (ja) 雑音荷重フィルタリング方法
TW201724087A (zh) 對信號的包絡進行寫碼的設備及對其進行解碼的設備
CN101206860A (zh) 一种可分层音频编解码方法及装置
CN102522092B (zh) 一种基于g.711.1的语音带宽扩展的装置和方法
CN104392726B (zh) 编码设备和解码设备
JP2018205766A (ja) 方法、符号化器、復号化器、及び移動体機器
KR20070070189A (ko) 음성 부호화 장치 및 음성 부호화 방법
CN105957533B (zh) 语音压缩方法、语音解压方法及音频编码器、音频解码器
CN101192410B (zh) 一种在编解码中调整量化质量的方法和装置
WO2024051412A1 (zh) 语音编码、解码方法、装置、计算机设备和存储介质
CA3190884A1 (en) Multi-channel signal generator, audio encoder and related methods relying on a mixing noise signal
KR20080059657A (ko) 스펙트럼 변화에 기초한 신호 코딩 및 디코딩

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant