CN108231083A - 一种基于silk的语音编码器编码效率提高方法 - Google Patents
一种基于silk的语音编码器编码效率提高方法 Download PDFInfo
- Publication number
- CN108231083A CN108231083A CN201810040152.2A CN201810040152A CN108231083A CN 108231083 A CN108231083 A CN 108231083A CN 201810040152 A CN201810040152 A CN 201810040152A CN 108231083 A CN108231083 A CN 108231083A
- Authority
- CN
- China
- Prior art keywords
- signal
- noise
- speech
- input
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000013139 quantization Methods 0.000 claims abstract description 28
- 238000001914 filtration Methods 0.000 claims abstract description 12
- 230000003595 spectral effect Effects 0.000 claims abstract description 6
- 230000008859 change Effects 0.000 claims abstract description 4
- 238000005086 pumping Methods 0.000 claims abstract 2
- 238000007493 shaping process Methods 0.000 claims description 43
- 238000004458 analytical method Methods 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 21
- 230000005284 excitation Effects 0.000 claims description 15
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 238000011045 prefiltration Methods 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 7
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 3
- 239000004615 ingredient Substances 0.000 claims 1
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 description 15
- 230000007774 longterm Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000002087 whitening effect Effects 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- PASHVRUKOFIRIK-UHFFFAOYSA-L calcium sulfate dihydrate Chemical compound O.O.[Ca+2].[O-]S([O-])(=O)=O PASHVRUKOFIRIK-UHFFFAOYSA-L 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
- G10L19/265—Pre-filtering, e.g. high frequency emphasis prior to encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提出一种基于SILK的语音编码器编码效率提高方法。具体实施方法包括:首先,对输入语音信号中添加特定噪声,生成模拟信号,然后对该模拟信号进行长时和短时预测,提高预测滤波器的预测增益,减少量化索引的熵,从而提高编码效率;其次,在编码端通过最小化感知加权重建误差来确定激励信号,在解码端采用后置滤波来压缩量化噪声和信号之间具有较高相关性的频谱区域,通过对噪声整形量化器的输入和重构信号添加不同的加权滤波器,使得以上两个功能在编码端的量化器中得到联合。采用本发明提出的方法,既不需要边带信息,也不用改变比特流格式,又能提高SILK的编码效率。
Description
技术领域
本发明属于语音通信领域,特别是涉及到一种基于SILK的宽带语音编码器,广泛应用于电话会议、网络语音电话业务(Voice over Internet Protocol,VoIP)、无线通信、游戏平台等实时语音通信场景中。
背景技术
语音是人类最直接、最方便、最高效的信息传递媒介,因此语音信号的传输是大多数通信系统具有的基本功能。随着科学技术的发展,图像、文本等非语音信息在信息传递中占据着越来越大的比例,但是有效的传递语音信息仍然是众多通信系统必备的功能之一。
在数字通信系统中,原始语音信号必须经过数字化后才能进行传输,但语音信号经过模/数转换后,数据量大增,如对语音信号进行16kHz采样、16bit均匀量化后,数码率可达到256kbps。高速率的数字语音信号在通信网中传输时需要更大的带宽,这对频带资源有限的通信系统,如蜂窝移动通信等,增加了传输成本,因此,有必要对数字化的语音信号进行压缩编码。
1972年,国际电报电话咨询委员会(Consultative Committee of InternationalTelegraph and Telephone,CCITT)公布了64kbps的语音编码标准G.711,它采用脉冲编码调制(Pulse Code Modulation,PCM)技术,应用于电话通信业务中;1980年,CCITT制定了32kbps自适应差分脉冲编码调制(Adaptive Differential Pulse Code Modulation,ADPCM)语音编码标准G.721;随后,基于分析合成的语音编码算法成为主流,1992年,CCITT公布了16kbps短延时码激励线性预测(Low Delay Code Excited Linear Prediction,LD-CELP)的语音编码方案G.728;1996年制定了8kbps共轭结构代数码激励线性预测(Conjugate Structure Algebraic Code Excited Linear Prediction,CS-ACELP)的语音编码标准G.729。该标准可应用于VoIP和H.323等话音通信领域。随着网络带宽的不断增加,终端处理能力不断增强,用户对通话质量要求也在不断的提高,宽带、超宽带、全频带语音编码技术得到了广泛的研究和应用。
在传统的窄带语音编码标准中,语音信号带宽一般限制在300Hz~3400Hz范围内,采样频率为8kHz。这种带宽的局限性限制了语音的自然度,使得一些特殊音处理效果不尽如意,也制约着语音编码质量的进一步提高。为了实现高品质的语音通信,人们引入了频带为50Hz~7000Hz的宽带语音编码。相对于窄带语音,50Hz~300Hz的低频段扩展部分提高了语音的自然度、现场感和舒适度;3400Hz~7000Hz的高频扩展部分,由于可以更好的区分摩擦音和爆破音等,从而提升了语音的可懂度。因此,国内和国际上很多研究机构和组织多年来一直在致力于宽带语音编码算法的研究和标准的制定。到目前为止,已制定出了多种宽带语音编码标准:ITU-T G.722、ITU-T G.722.1、ITU-T G.722.2和3GPP2可变速率多模式宽带语音编解码器(Variable-Rate Multimode Wideband,VMR-WB)。2003年3GPP2选定VMR-WB作CDMA2000系统的宽带语音编解码器。随后ITU-T又提出了几种新的嵌入式宽带语音编码标准ITU-T G.729.1、ITU-T G.711.1和ITU-T G.718,其中2006年制定的G.729.1最具代表性。G.729.1在G.729的基础上进行了宽带扩展(带宽扩展到50Hz~7000Hz);2008年3月ITU-T又颁布了标准化的嵌入式宽带语音和音频编码标准G.711.1,其编码速率为64kbps、80kbps、96kbps等;G.718是ITU-T于2008年6月标准化的一个对帧擦除具有鲁棒性的窄带/宽带嵌入式、可变速率语音和音频编码器,编码速率有8kbps、12kbps、16kbps、24kbps和32kbps五种,当进行窄带编解码时,编码器只支持8kbps、12kbps两种速率,宽带编码时,支持全部5种速率;早期的宽带多速率语音编码器主要应用在电视会议中,而现在则主要集中在VoIP与无线应用上。
随着互联网技术的发展和应用的普及,成本低廉的网络电话得到深入研究,世界多个标准化组织和工业实体提出了很多相应的语音编码方案。其中包括国际电信联盟的G.711、G.723.1和G.729A,GIPS公司和Skype公司等业界企业提出的iLBC、SILK等语音编码算法。SILK是Skype公司自行研制的一套语音编解码解决方案,它支持8、12、16和24kHz的采样频率以及6~40kbps的多速率编码比特率。该编码器不仅可以提供实时的伸缩性以适应网络质量的变化,而且可以在比以前网络占用量小于50%的情况下提供超宽带的音频信号,即使在丢包率较高的情况下,依然可以稳定维持一定的通话音质。由于能够在低带宽的环境中提供较优质的通话质量,SILK的应用前景被广泛关注,SILK编码器中关键算法的研究和性能的进一步提升成为目前众多研究者角逐的目标。因此,设计出一种基于SILK高质量和高编码效率的语音编码器,并将其应用到如电话会议、VoIP、无线通信、游戏平台等实时语音通信场景中,具有重要的研究意义和应用价值。
SILK编码时支持冗余信息编码和多帧打包的方式,该方式虽然可以增强SILK的容错能力,但是冗余信息编码会增加比特率,从而影响SILK的编码效率。因此本文旨在不减少编码质量的前提下,提高编码效率。
发明内容
针对现有技术的不足提出一种编码效率较高、编码质量较好的基于SILK的语音编码器。本发明的技术方案如下:其包括编码端的编码步骤及解码端的解码步骤,其中基于SILK的语音编码器编码效率提高方法,步骤如下:
101、输入语音信号,首先对输入语音信号进行语音激活检测(Voice activationdetection,VAD)处理,检测出语音中出现的停顿、静默间隔和有效语音成分;同时,将语音信号通过频率为70Hz的高通滤波器消除所有直流偏置和50Hz或60Hz嗡嗡声;
102、然后对语音信号进行基音分析,SILK通过开环基音分析对语音信号进行清浊音判决,对浊音信号的基音周期进行估计,从而得到基音的自相关系数和基音时延;
103、将高通滤波的输出信号进行噪声整形分析(Noise Shaping Analysis,NSA),利用NSA得到预滤波器和噪声整形量化器中使用的增益和滤波器系数;
104、将基音分析和NSA得到的信号输入生成模拟信号模块,同时对基音分析输出信号进行长时预测分析(Long Time Prediction,LTP)分析,对NSA的输出进行前置滤波处理;
105、对经过生成模拟信号和高通滤波处理后的信号进一步预测分析,然后将其转换为线谱频率(Linear spectral frequency,LSF)参数,并采用多级矢量量化来提取特征参数,再将量化之后的参数转换为线性预测参数(Linear Predictive Coding,LPC),通过这一转换实现编解码的同步;
106、在步骤105的基础上进行噪声整形量化(Noise Shaping Quantizer,NSQ),通过噪声整形使得噪声频谱跟随信号的频谱变化,使得噪声不易被听见;
107、对所提取到的语音特征参数进行区间编码,实现整个编码过程。
进一步的步骤104中生成模拟信号模块采用包含时变源滤波器模型来编码语音信号,该编码器由以下部分组成:
输入由包含一些列连续帧的语音信号组成;
第一个信号处理模块,旨在通过对输入的语音信号帧添加特定噪声信号的方法,来实现对一系列连续帧中的每一个语音信号生成模拟信号的操作。
第二个信号处理模块,旨在确定基于模拟信号帧的LPC系数信号;进一步确定基于输入信号的LPC系数的LPC残差信号;
第三个信号处理模块,旨在通过对LPC系数和LPC残差信号进行算数编码来生成代表语音信号的编码信号。
模拟信号生成步骤具体步骤如下:
A1:首先将输入语音信号和噪声整形滤波器的输出相加作为模拟输出信号的第一个输入,其中噪声整形滤波器由长时整形和短时整形滤波器组成;
A2:将白化噪声和由噪声整形分析得到的量化增益作为模拟输出信号的第二个输入,其中,白化噪声具有如下特点,即它的方差和量化噪声的方差相同的;
A3:将步骤A1和A2所得两个模拟信号的输出相加即可得到最后的模拟输出信号,完成步骤104中模拟信号的生成;
进一步的步骤106中噪声整形量化器单独对信号和编码噪声谱整形,使其能够在相同比特率下获得更高的语音质量。首先预滤波器输出信号乘以一个在NSA过程中计算出的补偿增益G,然后与合成整形滤波器的输出相加,再与一个预测滤波器的输出相减,最后得到一个残差信号,将该残差信号和NSA得到的量化增益相乘,将得到的结果和步骤104中生成的特定噪声输入格型量化器,量化器的量化索引代表输入到区间编码器的激励索引,预测滤波器的输出和激励信号相加从而得到量化的输出信号,同时又将量化输出信号作为合成整形和预测滤波的输入。与经典的NSQ不同,本发明中NSQ的噪声整形直接围绕在量化器的周围并反馈到输入端,将输入输出的语音信号进行比较后返回至量化器的输入端。
本发明的优点及有益效果如下:
采用本发明中基于SILK的语音编码器编码效率提高方法,可以在不影响编码质量的前提下,有效减少编码比特率,从而实现一种高编码效率、高质量的SILK语音编码器,可应用在电话会议、VoIP、无线通信、游戏平台等实时语音通信场景中,因此本发明具有良好的应用前景和实用价值。
附图说明
图1本发明提供的实施例SILK语音编码流程图
图2本发明生成模拟信号模块示意图
图3本发明提供的实施例高效率SILK语音编码流程图
图4本发明噪声整形量化原理框图
图5本发明提供的实施例SILK语音解码流程图
具体实施方法
以下结合附图,对本发明作进一步说明:
SILK语音编码原理框图如附图1所示,整体采用源滤波器经典模型,即对语音产生系统建模为基础,经过两级滤波,第一级长时预测滤波器,去除浊音语音中的周期成分,清音则不需要进行LTP处理;第二步进行短时滤波,去除近样点之间的冗余信息,这里采用伯格算法计算得到LPC系数,然后采用多级矢量量化的方法;经过这两级滤波就可以得到激励信号,然后进行增益量化、NSQ和归一化,对归一化后的信号采用区间编码。具体实施步骤如下:
步骤一:输入语音信号,首先对输入语音信号进行VAD处理,检测出语音中出现的停顿、静默间隔和有效语音成分;同时,将语音信号通过频率为70Hz的高通滤波器消除所有直流偏置和50Hz或60Hz嗡嗡声;
步骤二:然后对语音信号进行基音分析,SILK通过开环基音分析对语音信号进行清浊音判决,对浊音信号的基音周期进行估计,从而得到基音的自相关系数和基音时延;
步骤三:将高通滤波的输出信号进行噪声整形分析(Noise Shaping Analysis,NSA),利用NSA得到预滤波器和噪声整形量化器中使用的增益和滤波器系数;
步骤四:将基音分析和NSA得到的信号输入生成模拟信号模块,同时对基音分析输出信号进行长时预测分析分析,对NSA的输出进行前置滤波处理;
步骤五:对经过生成模拟信号和高通滤波处理后的信号进一步预测分析,然后将其转换为LSF参数,并采用多级矢量量化来提取特征参数,再将量化之后的参数转换为线性预测参数,通过这一转换实现编解码的同步;
步骤六:在步骤五的基础上进行噪声整形量化,通过噪声整形使得噪声频谱跟随信号的频谱变化,使得噪声不易被听见;
步骤七:对所提取到的语音特征参数进行区间编码,实现整个编码过程。
图2给出的是一种提高编码效率的具体实施方法,在编码端生成一种可以和频谱特征相匹配的模拟信号,用该模拟信号代替原始输入信号,然后结合对模拟信号的长时预测和短时预测,来使得预测滤波器的预测增益得到提升,而且使得量化索引的熵减少,从而减少了传输编码语音信号时所需的比特率,提高的编码器的编码效率。
采用包含时变源滤波器模型来编码语音信号,该编码器由以下部分组成:
输入由包含一些列连续帧的语音信号组成;
第一个信号处理模块,旨在通过对输入的语音信号帧添加特定噪声信号的方法,来实现对一系列连续帧中的每一个语音信号生成模拟信号的操作。
第二个信号处理模块,旨在确定基于模拟信号帧的LPC系数信号;进一步确定基于输入信号的LPC系数的LPC残差信号;
第三个信号处理模块,旨在通过对LPC系数和LPC残差信号进行算数编码来生成代表语音信号的编码信号。
模拟信号生成步骤具体步骤如下:
S1:首先将输入语音信号和噪声整形滤波器的输出相加作为模拟输出信号的第一个输入,其中噪声整形滤波器由长时整形和短时整形滤波器组成;
S2:将白化噪声和由噪声整形分析得到的量化增益作为模拟输出信号的第二个输入,其中,白化噪声具有如下特点,即它的方差和量化噪声的方差相同的;
S3:将步骤一和步骤二所得两个模拟信号的输出相加即可得到最后的模拟输出信号,完成步骤四中模拟信号的生成;
通过将生成模拟信号模块合理添加到SILK语音编码器,将步骤六得到的量化噪声作为NSQ的输入,即可得到图3所示的高效率SILK语音编码器。用该模拟信号代替原始输入信号,然后结合对模拟信号的长时预测和短时预测,来使得预测滤波器的预测增益得到提升,量化索引的熵减少,从而减少了传输编码语音信号时所需的比特率,提高的编码器的编码效率。
NSQ模块量化残差信号,同时也可以生成激励信号。在编码端通过最小化感知加权重建误差来确定激励信号,在解码端采用后置滤波来压缩量化噪声和信号之间具有较高相关性的频谱区域,本发明中的NSQ通过对输入和重构信号添加不同的加权滤波器,从而使得以上两个功能在编码器的量化器中得到联合。整合编码端的这两个操作不仅仅是为了简化解码端,同时也是为了使编码端使用任意简单/复杂的感知模型来同步/独自地整形量化噪声并增强/抑制频谱区域,采用这种模型,不需要花费边带信息或者改变比特流格式。图4是本发明提供的实施例噪声整形量化原理框图,图中预测滤波器包含LPC和LTP两种预测的滤波器。Fana和Fsyn分别是分析和合成噪声整形滤波器,对于浊音帧他们都包含长时和短时两种滤波器,量化的激励索引由i(n)表示。LTP系数、增益和噪声整形系数每个子帧更新一次,而LPC系数则每帧更新一次。NSQ量化器的输出由公式(1)得到:
公式(1)的第一部分是输入信号整形部分,第二部分是量化噪声整形部分。
图5本发明提供的实施例SILK语音解码流程图。
在接收端,接收到的数据包通过变码长解码器分割成很多帧,这些帧包含在数据包中。每帧包含重构一个20ms帧的输出信号的必要信息。
步骤一:区间解码器。改模块从接收到的比特流中解码语音特征参数,改模块的输出包括生成激励信号的脉冲和增益,以及LTP和LSF码本的索引,该索引用于解码LTP和LPC系数,而该系数可用于对激励信号进行LTP和LPC分析;
步骤二:解码参数。步骤一解码之后可以得到脉冲和增益,若解码得到的语音帧为浊音帧,则可以解码出LTP的目标码本和索引,通过LTP的目标码本解码出LTP系数,对每帧中的四个子帧中都进行同样的处理;LPC系数则通过LSF码本解码得到,码本中的每个矢量来自于码本中的各个阶段;
步骤三:生成激励信号。脉冲信号和量化增益相乘得到激励信号;
步骤四:LTP合成。对于浊音语音,将激励信号e(n)作为LTP合成滤波器的输入,该滤波器可以重建一个被LTP分析滤波器移除的长时自相关序列,并通过公式(2)产生一个LPC激励信号e_LPC(n);
其中,L是基音时延,b_i是解码LTP系数;
对于清音,输出信号则是激励信号的简单复制,即e_LPC(n)=e(n);
步骤五:LPC合成。LPC合成滤波器重建出由LPC分析滤波器过滤掉的短时自相关值,LPC激励信号e_LPC(n)通过LTP系数a_i进行滤波,根据公式(3)可以求出解码信号:
其中d_LPC是LPC合成滤波器的阶数,y(n)是解码输出信号。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (4)
1.一种基于SILK的语音编码器编码效率提高方法,其特征在于,其包括编码端的编码步骤及解码端的解码步骤,其中基于SILK的语音编码器编码效率提高方法,步骤具体为:
101、输入语音信号,首先对输入语音信号进行VAD处理,检测出语音中出现的停顿、静默间隔和有效语音成分,同时,将语音信号通过截止频率为70Hz的高通滤波器,消除所有直流偏置和50Hz或60Hz嗡嗡声;
102、对语音信号进行基音分析,SILK通过开环基音分析对语音信号进行清/浊音判决,对浊音信号的基音周期进行估计,得到基音的自相关系数和基音时延;
103、将高通滤波的输出信号进行噪声整形分析,利用噪声整形分析得到预滤波器和噪声整形量化器中使用的增益和滤波器系数;
104、将基音分析和噪声整形分析得到的信号,输入生成模拟信号模块,同时对基音分析输出信号进行LTP分析,对噪声整形分析的输出进行前置滤波处理;
105、对经过生成模拟信号模块和高通滤波处理后的语音信号进一步进行预测分析,然后提取出LSF参数,并采用多级矢量量化来提取特征参数,再将量化之后的参数转换为LPC系数,通过这一转换实现编解码的同步;
106、在步骤105的基础上进行噪声整形量化,通过噪声整形使得噪声频谱跟随信号的频谱变化,使噪声不易被听见;
107、对所提取到的语音特征参数进行区间编码,实现整个编码过程。
2.根据权利要求1所述的一种基于SILK的语音编码器编码效率提高方法,其特征在于步骤104中,生成模拟信号模块采用包含时变源滤波器模型来编码语音信号,该编码器由以下部分组成:
输入由包含一些列连续帧的语音信号组成;
第一个信号处理模块,旨在通过对输入的语音信号帧添加特定噪声信号的方法,来实现对一系列连续帧中的每一个语音信号生成模拟信号的操作;
第二个信号处理模块,旨在确定基于模拟信号帧的LPC系数信号,进一步确定基于输入信号的LPC系数的LPC残差信号;
第三个信号处理模块,旨在通过对LPC系数和LPC残差信号进行算数编码来生成代表语音信号的编码信号;
模拟信号生成步骤具体步骤如下:
A1:首先将输入语音信号和噪声整形滤波器的输出相加作为模拟输出信号的第一个输入,其中噪声整形滤波器由长时整形和短时整形滤波器组成;
A2:将白化噪声和由噪声整形分析得到的量化增益作为模拟输出信号的第二个输入,其中,白化噪声具有如下特点,即它的方差和量化噪声的方差相同的;
A3:将步骤A1和A2所得两个模拟信号的输出相加即可得到最后的模拟输出信号,完成步骤104中模拟信号的生成。
3.根据权利要求2所述的一种生成模拟信号模块实现方法,其特征在于:步骤A4中的编码器由以下部分组成:
输入由包含一些列连续帧的语音信号组成;
第一个信号处理模块,旨在通过对输入的语音信号帧添加特定噪声信号的方法,来实现对一系列连续帧中的每一个语音信号生成模拟信号的操作;
第二个信号处理模块,旨在确定基于模拟信号帧的LPC系数信号,进一步确定基于输入信号的LPC系数的LPC残差信号;
第三个信号处理模块,旨在通过对LPC系数和LPC残差信号进行算数编码来生成代表语音信号的编码信号。
4.根据权利要求1所述的一种基于SILK的语音编码器的编码效率的提高方法,其特征在于:步骤106中噪声整形量化器单独对信号和编码噪声谱整形,使其能够在相同比特率下获得更高的语音质量,首先预滤波器输出信号乘以一个在NSA过程中计算出的补偿增益G,然后与合成整形滤波器的输出相加,再与一个预测滤波器的输出相减,最后得到一个残差信号,将该残差信号和NSA得到的量化增益相乘,将得到的结果输入一个格型量化器,量化器的量化指标代表输入到区间编码器的激励索引,预测滤波器的输出和激励信号相加从而得到量化的输出信号,同时又将量化输出信号作为合成整形和预测滤波的输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810040152.2A CN108231083A (zh) | 2018-01-16 | 2018-01-16 | 一种基于silk的语音编码器编码效率提高方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810040152.2A CN108231083A (zh) | 2018-01-16 | 2018-01-16 | 一种基于silk的语音编码器编码效率提高方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108231083A true CN108231083A (zh) | 2018-06-29 |
Family
ID=62641268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810040152.2A Pending CN108231083A (zh) | 2018-01-16 | 2018-01-16 | 一种基于silk的语音编码器编码效率提高方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108231083A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110085242A (zh) * | 2019-04-28 | 2019-08-02 | 武汉大学 | 一种基于最小失真代价的silk基音域自适应隐写方法 |
CN110097887A (zh) * | 2019-04-28 | 2019-08-06 | 武汉大学 | 一种基于lsf系数统计分布特征的silk安全隐写方法 |
CN110730015A (zh) * | 2019-11-20 | 2020-01-24 | 深圳市星网荣耀科技有限公司 | 一种多链路随身通信装置及其语音编码压缩和解码方法 |
CN111063361A (zh) * | 2019-12-31 | 2020-04-24 | 广州华多网络科技有限公司 | 语音信号处理方法、系统、装置、计算机设备和存储介质 |
CN112509591A (zh) * | 2020-12-04 | 2021-03-16 | 北京百瑞互联技术有限公司 | 一种音频编解码方法及系统 |
CN112992161A (zh) * | 2021-04-12 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 音频编码方法、音频解码方法、装置、介质及电子设备 |
WO2021136343A1 (zh) * | 2019-12-31 | 2021-07-08 | 华为技术有限公司 | 音频信号的编解码方法和编解码装置 |
CN113744751A (zh) * | 2021-08-16 | 2021-12-03 | 清华大学苏州汽车研究院(相城) | 一种应用于麦克风阵列的多通道语音信号增强方法 |
CN115050377A (zh) * | 2021-02-26 | 2022-09-13 | 腾讯科技(深圳)有限公司 | 音频转码方法、装置、音频转码器、设备以及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102341848A (zh) * | 2009-01-06 | 2012-02-01 | 斯凯普有限公司 | 语音编码 |
CN103714822A (zh) * | 2013-12-27 | 2014-04-09 | 广州华多网络科技有限公司 | 基于silk编解码器的子带编解码方法及装置 |
-
2018
- 2018-01-16 CN CN201810040152.2A patent/CN108231083A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102341848A (zh) * | 2009-01-06 | 2012-02-01 | 斯凯普有限公司 | 语音编码 |
CN103714822A (zh) * | 2013-12-27 | 2014-04-09 | 广州华多网络科技有限公司 | 基于silk编解码器的子带编解码方法及装置 |
Non-Patent Citations (3)
Title |
---|
K. VOS等: ""SILK Speech Codec"", 《HTTP://TOOLS.IETF.ORG/HTML/DRAFT-VOS-SILK-02》 * |
KOEN VOS等: ""Voice Coding with Opus"", 《AES 135TH CONVENTION》 * |
郑国宏 等: ""一种适用于VoIP 的宽带语音编码算法: SILK"", 《军事通信技术》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097887A (zh) * | 2019-04-28 | 2019-08-06 | 武汉大学 | 一种基于lsf系数统计分布特征的silk安全隐写方法 |
CN110085242A (zh) * | 2019-04-28 | 2019-08-02 | 武汉大学 | 一种基于最小失真代价的silk基音域自适应隐写方法 |
CN110085242B (zh) * | 2019-04-28 | 2021-04-16 | 武汉大学 | 一种基于最小失真代价的silk基音域自适应隐写方法 |
CN110730015A (zh) * | 2019-11-20 | 2020-01-24 | 深圳市星网荣耀科技有限公司 | 一种多链路随身通信装置及其语音编码压缩和解码方法 |
CN111063361B (zh) * | 2019-12-31 | 2023-02-21 | 广州方硅信息技术有限公司 | 语音信号处理方法、系统、装置、计算机设备和存储介质 |
CN111063361A (zh) * | 2019-12-31 | 2020-04-24 | 广州华多网络科技有限公司 | 语音信号处理方法、系统、装置、计算机设备和存储介质 |
US12057130B2 (en) | 2019-12-31 | 2024-08-06 | Huawei Technologies Co., Ltd. | Audio signal encoding method and apparatus, and audio signal decoding method and apparatus |
WO2021136343A1 (zh) * | 2019-12-31 | 2021-07-08 | 华为技术有限公司 | 音频信号的编解码方法和编解码装置 |
CN113129910A (zh) * | 2019-12-31 | 2021-07-16 | 华为技术有限公司 | 音频信号的编解码方法和编解码装置 |
CN113129910B (zh) * | 2019-12-31 | 2024-07-30 | 华为技术有限公司 | 音频信号的编解码方法和编解码装置 |
CN112509591A (zh) * | 2020-12-04 | 2021-03-16 | 北京百瑞互联技术有限公司 | 一种音频编解码方法及系统 |
CN112509591B (zh) * | 2020-12-04 | 2024-05-14 | 北京百瑞互联技术股份有限公司 | 一种音频编解码方法及系统 |
CN115050377A (zh) * | 2021-02-26 | 2022-09-13 | 腾讯科技(深圳)有限公司 | 音频转码方法、装置、音频转码器、设备以及存储介质 |
CN112992161A (zh) * | 2021-04-12 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 音频编码方法、音频解码方法、装置、介质及电子设备 |
CN113744751B (zh) * | 2021-08-16 | 2024-05-17 | 清华大学苏州汽车研究院(相城) | 一种应用于麦克风阵列的多通道语音信号增强方法 |
CN113744751A (zh) * | 2021-08-16 | 2021-12-03 | 清华大学苏州汽车研究院(相城) | 一种应用于麦克风阵列的多通道语音信号增强方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108231083A (zh) | 一种基于silk的语音编码器编码效率提高方法 | |
CN101335000B (zh) | 编码的方法及装置 | |
CN1154086C (zh) | Celp转发 | |
CN1820306B (zh) | 可变比特率宽带语音编码中增益量化的方法和装置 | |
KR101303145B1 (ko) | 계층적 오디오 신호를 코딩하기 위한 시스템, 오디오 신호를 코딩하는 방법, 컴퓨터-판독가능한 매체 및 계층적 오디오 디코더 | |
KR100923891B1 (ko) | 음성 비활동 동안에 보이스 송신 시스템들 사이에상호운용성을 제공하는 방법 및 장치 | |
CN1244907C (zh) | 宽带语音编解码器中的高频增强层编码方法和装置 | |
JP4270866B2 (ja) | 非音声のスピーチの高性能の低ビット速度コード化方法および装置 | |
KR100592627B1 (ko) | 스피치의 무성 세그먼트의 저비트율 코딩 | |
CN103325375B (zh) | 一种极低码率语音编解码设备及编解码方法 | |
WO2010028301A1 (en) | Spectrum harmonic/noise sharpness control | |
CN1484824A (zh) | 用于估算语音调制解调器中的模拟高频段信号的方法和系统 | |
WO2007140724A1 (fr) | procédé et appareil pour transmettre et recevoir un bruit de fond et système de compression de silence | |
WO2014131260A1 (en) | System and method for post excitation enhancement for low bit rate speech coding | |
CN102522092B (zh) | 一种基于g.711.1的语音带宽扩展的装置和方法 | |
CN105765653A (zh) | 自适应高通后滤波器 | |
CN101261836A (zh) | 基于过渡帧判决及处理的激励信号自然度提高方法 | |
KR100499047B1 (ko) | 서로 다른 대역폭을 갖는 켈프 방식 코덱들 간의 상호부호화 장치 및 그 방법 | |
KR20040080726A (ko) | 광대역 저전송률 음성 신호의 부호화기 | |
CN101651752B (zh) | 解码的方法及装置 | |
Ahmadi et al. | On the architecture, operation, and applications of VMR-WB: The new cdma2000 wideband speech coding standard | |
Srivastava et al. | Performance evaluation of Speex audio codec for wireless communication networks | |
KR100554164B1 (ko) | 서로 다른 celp 방식의 음성 코덱 간의 상호부호화장치 및 그 방법 | |
CN1275223C (zh) | 一种低比特变速率语言编码器 | |
Xydeas | An overview of speech coding techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180629 |