CN1193158A - 语音编码方法和装置以及声音信号编码方法和装置 - Google Patents
语音编码方法和装置以及声音信号编码方法和装置 Download PDFInfo
- Publication number
- CN1193158A CN1193158A CN97126222A CN97126222A CN1193158A CN 1193158 A CN1193158 A CN 1193158A CN 97126222 A CN97126222 A CN 97126222A CN 97126222 A CN97126222 A CN 97126222A CN 1193158 A CN1193158 A CN 1193158A
- Authority
- CN
- China
- Prior art keywords
- weighting
- vector
- coding
- parameter
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 230000005236 sound signal Effects 0.000 title claims abstract description 11
- 239000013598 vector Substances 0.000 claims abstract description 225
- 238000013139 quantization Methods 0.000 claims abstract description 191
- 238000004458 analytical method Methods 0.000 claims abstract description 51
- 230000004044 response Effects 0.000 claims abstract description 39
- 239000011159 matrix material Substances 0.000 claims description 74
- 230000035807 sensation Effects 0.000 claims description 52
- 230000006870 function Effects 0.000 claims description 25
- 230000009466 transformation Effects 0.000 claims description 19
- 230000008859 change Effects 0.000 claims description 13
- 230000006872 improvement Effects 0.000 claims 2
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 11
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 239000002131 composite material Substances 0.000 description 48
- 230000003595 spectral effect Effects 0.000 description 36
- 238000001228 spectrum Methods 0.000 description 34
- 230000008569 process Effects 0.000 description 30
- 238000005070 sampling Methods 0.000 description 21
- 230000015572 biosynthetic process Effects 0.000 description 19
- 238000011002 quantification Methods 0.000 description 18
- 238000006243 chemical reaction Methods 0.000 description 14
- 238000003786 synthesis reaction Methods 0.000 description 14
- 238000010189 synthetic method Methods 0.000 description 11
- 238000013519 translation Methods 0.000 description 11
- 239000000203 mixture Substances 0.000 description 8
- 238000005086 pumping Methods 0.000 description 8
- 230000007704 transition Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000007493 shaping process Methods 0.000 description 7
- 238000001914 filtration Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000005162 X-ray Laue diffraction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005284 excitation Effects 0.000 description 3
- 239000013604 expression vector Substances 0.000 description 3
- 230000035939 shock Effects 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 230000009931 harmful effect Effects 0.000 description 2
- 230000008676 import Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000004804 winding Methods 0.000 description 2
- 108091029480 NONCODE Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000006386 neutralization reaction Methods 0.000 description 1
- 230000001915 proofreading effect Effects 0.000 description 1
- 230000010349 pulsation Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/13—Residual excited linear prediction [RELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Abstract
一种语音编码方法和装置,以及一种声音信号编码方法和装置,其中在计算用于按声觉加权的矢量量化的加权值时的处理量可以降低,以加速处理或减轻硬件的负担。为此,反LPC滤波器111求出已利用正弦分析编码单元114按正弦分析编码处理的输入语音信号的LPC(线性预测编码)余值。形成的参数利用矢量量化器116按照按声觉加权的矢量量化方式进行处理。对于这种按声觉加权的矢量量化,根据由加权的传递函数的激励响应产生的参数的正交变换的结果,计算加权值。
Description
本发明涉及一种语音编码方法和装置,其中输入的语音信号按照数据块或帧划分作为编码单位并且按照编码单位进行编码;还涉及一种声音信号编码方法和装置,其中通过用与输入的声音信号对应的变换为频域信号的信号产生的参数来表示对输入的声音信号进行编码。
迄今为止,已有各种编码方法利用在时域、频域的统计特性和人的音质特性对声音信号(包括语音信号和一般声音信号)进行编码以压缩信号。编码方法可以粗略地分为时域编码,频域编码和分析/合成编码。
例如,高效语音信号编码包含正弦波分析编码,例如谐波编码或多频带激励(MBE)编码,分频带编码(SBC),线性预测编码(LPC),离散余弦变换(DCT),改进的DCT(MDCT)和快速傅里叶变换(FFT)。
同时,在利用由对应于变换为频域信号的声音信号的信号产生的参数表示输入的声音信号例如语音或音乐信号时,通常的作法是利用加权的矢量量化方式量化这些参数。这些参数包含输入的声音信号的频域参数,例如离散傅里叶变换(DFT)系数,DCT系数或MDCT系数,由这些参数产生的谐波幅值和LPC余值谐波。
在对这些参数进行加权的矢量量化时,常规的作法是计算LPC合成滤波器以及按声觉加权滤波器的频率特性,将它们彼此相乘;或者计算该乘积的分子和分母的频率特性,以便求出它们的比率。
然而,在计算用于矢量量化的加权值时,通常包含大量的处理操作,这样就希望进一步降低处理量。
因此,本发明的目的是提供一种语音编码方法和装置以及声音信号编码方法和装置,用于降低包含计算用于矢量量化的加权值在内的处理量。
根据本发明,提供一种语音编码方法,其中输入的语音信号沿时间轴按照预设的编码单位进行划分,并按照预设的编码单位进行编码。该方法包含的步骤有:求出输入的语音信号的短期预测余值,利用正弦分析编码对如此求出的短期预测余值进行编码以及利用波形编码对输入的语音信号编码。将按声觉加权的矢量量化或矩阵量化应用于短期预测余值的正弦分析编码的参数,以及在进行按声觉加权矢量量化或矢量量化时,根据由加权值的传递函数的冲击响应产生的参数的正交变换的结果计算加权值。
按照用于对声音信号编码的方法,其中输入的声音信号用由对应于输入的声音信号的变换为频域的信号产生的参数来表示,根据由加权值的传递函数的冲击响应产生的参数的正交变换结果,计算用于这些参数的加权的矢量量化的加权值。
图1是表示用于实施根据本发明的编码方法的语音信号编码装置(编码器)的基本结构的方块图。
图2是表示对利用图1所示的编码器编码的信号进行解码的语音信号解码装置(解码器)的基本结构的方块图。
图3是表示图1中所示的语音信号编码器的更具体的结构的方块图。
图4是表示用于对利用图1所示的编码器编码的信号进行解码的语音信号解码器的更具体的结构的方块图。
图5表示输出数据的比特速率。
图6是表示LPC量化器的基本结构的方块图。
图7是表示LPC量化器的更详细结构的方块图。
图8是表示矢量量化器的基本结构的方块图。
图9是表示矢量量化器的更详细结构的方块图。
图10是表示降低了处理量的加权计算程序的流程图。
图11表示量化值、维数和比特数之间的关系。
图12是表示根据本发明的语音信号编码器的CELP编码部分(第二编码部分)的具体结构的电路方块图。
图13是一流程图,用于描述在图12中所示装置中进行的处理过程。
图14A和14B表示高斯噪声和按不同阈值限幅之后的噪声的状态。
图15是一表示在通过学习产生形状代码簿时的处理过程的流程图。
图16是表示根据V/UV状态转换LSP内插的状态图。
图17表示由通过10级LPC分析得到的α参数产生的10级线性频谱参数对(LSP)。
图18表示从UV帧到V帧的增益变化方式。
图19表示对逐帧地合成的频谱和波形进行内插的方式。
图20表示在浊音(V)部分和清音(UV)部分之间的结合部重叠的方式。
图21表示在合成浊音部分时添加噪声的方式。
图22表示在合成浊音部分时计算添加的噪声幅值的一个实例。
图23表示后置滤波器结构的一个实例。
图24表示后置滤波器的增益更新周期和滤波器系数更新周期。
图25表示在后置滤波器的增益和滤波器系数的帧的边界的结合部的处理过程。
图26是表示采用根据本发明的语音信号编码器的便携式终端的发送端的结构的方块图。
图27是表示采用根据本发明的语音信号解码器的便携式终端的接收端的结构的方块图。
参照附图,对本发明优选实施例进行更详细的说明。
图1是表示语音编码装置(语音编码器)的基本结构,以实现根据本发明的语音编码方法。
图1所示的作为语音信号编码器基础的基本原理是编码器具有第一编码单元110,用于求出输入语音信号的短期预测余值,例如线性预测编码(LPC)余值,以便进行正弦分析编码例如谐波编码;和第二编码单元120,用于利用该具有相位复现性的信号波形编码方式对输入语音信号编码,第一编码单元110和第二编码单元120分别用于对输入信号的浊音(V)部分编码和对输入信号的清音(UV)部分编码。
第一编码单元110采用一种编码结构,其利用正弦分析编码例如谐波编码或多频带激励(MBE)编码方式对例如LPC余值进行编码。第二编码单元120采用一种结构,其利用闭环搜索和使用例如合成方法分析的闭环搜索的最佳矢量值,利用矢量量化进行按代码激励的线性预测(CELP)。
在图1所示的实施例中,提供到输入端101的语音信号送到LPC反滤波器111和第一编码单元110中的LPC分析和量化单元113。利用LPC分析量化单元113得到的LPC系数或所谓的α-参数送到第一编码单元110中的LPC反滤波器111。从LPC反滤波器111提取输入语音信号的线性预测余值(LPC余值)。从LPC分析量化单元113,提取一线性频谱对(LSPs)的量化输出并送到输出端102,下文予以解释。从LPC反滤波器111得到的LPC余值送到正弦分析编码单元114。正弦分析编码单元114进行音调检测并计算频谱包络线的幅值,以及利用一V/UV鉴别单元115鉴别V/UV。从正弦分析编码单元114得到的频谱包络线的幅值送给矢量量化单元116。作为频谱包络线的按矢量-量化的输出来自矢量量化单元116的代码簿索引,通过一开关117送到输出端103,同时,正弦分析编码单元114的输出通过开关118送到输出端104。V/UV鉴别单元115的一V/UV鉴别输出送到输出端105并作为一控制信号送到117、118。如果输入的语音信号是一浊音(V),则该索引和音调分别在输出端103、104选择和取出。
在图1所示本实施例中的第二编码单元120,具有一代码激励线性预测编码(CELP编码)结构;和利用一闭环搜索采用一合成法分析对时域波形进行矢量-量化,其中噪声代码簿121的输出是利用一加权合成滤波器进行合成的,形成的加权的语音送到减法器123,加权语音和提供给输入端101并从该处通过按声觉加权的滤波器125的语音信号之间的误差被取出,因此将得出的误差送到间距计算电路124,以便进行间距计算,并利用噪声代码簿121搜索一使误差最小的矢量。如前面说明的,CELP编码用于对清音部分编码。作为来自噪声代码簿121的VU数据的代码簿索引经过开关127在输出端107取出,该开关当V/UV鉴别的结果是清音(UV)时接通。
在本实施例中,利用量化器116按照按声觉加权的矢量量化方式对来自正弦分析编码单元114的频谱包络线幅值数据进行量化。在这一矢量量化过程中,根据由加权传递函数的冲击响应产生的参数的正交变换结果计算加权值,用于降低处理量。
图2是表示语音信号解码器基本结构的方块图,作为图1中语音信号编码器的配对装置,用于实现完成本发明的语音解码方法。
参照图2,作为来自图1的输出端102作为线性频谱对(LSP)的量化输出的一代码簿索引提供到输入端202。图1中输出端103、104和105的输出,即音调、V/UV鉴别输出和索引数据,作为包络线量化输出数据分别提供到输入端203到205。由图1的输出端107提供的清音部分数据的索引数据提供到输入端207。
作为输入端203的包络线量化输出的索引送到用于反矢量量化的一反矢量量化单元212,以求出送到一浊音合成器211的一LPC余值的频谱包络线。浊音合成器211利用正弦合成法合成浊音部分的线性预测编码(LPC)余值。将来自输入端204、205的音调和V/UV鉴别输出也送入合成器214。来自浊音合成单元211的浊音部分的LPC余值送给一LPC合成滤波器214。来自输入端207的UV数据的索引数据送到清音合成单元220,在其中为了取得清音部分的LPC余值,必须参考噪声代码簿。将这些LPC余值也送给LPC合成滤波器214。在LPC合成滤波器214中,浊音部分的LPC余值和清音部分的LPC余值利用LPC合成法独立进行处理。另一方面,加在一起的浊音部分LPC余值和清音部分的余值可以利用LPC合成法进行处理。来自输入端202的LSP索引数据送到LPC参数再现单元213,在其中将LPC的α-参数取出并送到LPC合成滤波器214。利用LPC合成滤波器214合成的语音信号在输出端201取出。
参照图3,说明图1中表示的语音信号编码器的更详细的结构。在图3中,与图1所示相同的部件或元件利用相同的参考数字表示。
在图3所示的语音信号编码器中,提供到输入端101的语音信号利用高通滤波器HPF109滤波,用以去掉无用范围的信号,并由该处提供给LPC分析/量化单元113的LPC分析电路132和反LPC滤波器111。
LPC分析/量化单元113的LPC分析电路132使用一汉明窗口(具有按照采样频率Fs=8千赫得到的输入信号波形的256个量级的采样的输入信号波形长度)作为一个数据块,利用自相关法求出线性预测系数即所谓的α-参数。作为数据输出单位的成帧间隔设定为大约160采样值。如果采样频率为8千赫,例如一帧间隔为20毫秒或160采样。
来自LPC分析电路132的α参数送到α-LSP变换电路133,用以变换为线性频谱对(LSP)参数。这样将利用直接型滤波器系数求出的α参数变换为例如10个即5对LSP参数。实现这一变换例如采用Newton-Rhapson方法。将α参数变换成LSP参数的原因是LSP参数在内插特性上优于α参数。
来自α-LSP变换电路133的LSP参数利用LSP量化器134进行矩阵或矢量量化。可以在进行矢量量化之前,取帧与帧的差,或汇集多个帧进行矩阵量化。在目前的情况下,每20毫秒计算的两个帧的LSP参数(每帧为20毫秒长)一起使用并利用矩阵量化和矢量量化进行处理。量化器134的量化输出,即LSP量化的索引数据,可以在102端取出,同时,量化的LSP矢量直接送到LSP内插电路136。
LSP内插电路136内插按每20毫秒或40毫秒量化LSP矢量,以提供八倍速率(超密采样)。即,LSP矢量每2.5毫秒进行更新。原因在于,如果利用谐波编码/解码方法通过分析/合成处理余留波形,则合成的波形的包络线呈现出非常光滑的波形,以至于如果每20毫秒LPC系数突然变化,则可能会产生一种不相干的噪声。即,如果LPC系数每2.5毫秒逐渐变化一次,就可以防止这种不相干的噪声产生。
对于利用每2.5毫秒产生的内插LSP矢量输入语音的反滤波器,将量化LSP参数利用LSP-向-α变换电路137变换为α-参数,其例如为10级直接型滤波器的滤波器系数。当利用每2.5毫秒更新的α参数进行反滤波以产生一平滑的输出时,LSP-向-α变换电路137的输出送到LPS反滤波器电路111。反LPC滤波器111的输出送到正弦分析编码单元114中的正交变换电路145(例如为一谐波编码电路),例如DCT电路。
从LPC分析/量化单元113中的LPC分析电路132得到的α-参数送到按声觉加权滤波器计算电路139,在其中求出按声觉加权的数据。将这些加权的数据送到按声觉加权矢量量化器116和送到第二编码单元120中的按声觉加权滤波器125和按声觉加权合成滤波器122。
谐波编码电路中的正弦分析编码单元114利用谐波编码方法分析反LPC滤波器111的输出。即,进行音调检测,对各个谐波的幅值Am的计算和对浊音(V)/清音(UV)进行鉴别,以及通过维的变换,可使随音调变化的为数很多的各个幅值Am或各个谐波的包络线成为恒定不变的。
在图3中所示的正弦分析编码单元114的示例中,使用了常用的谐波编码。尤其是在多频带激励(MBE)编码中,假设在模型化过程中在每个频率区域或频带内同一时间点(在同一数据块或帧内)出现浊音或清音。在其他的谐波编码技术中,唯一判断的是在一数据块或在一帧内的语音是浊音还是清音。在下面的说明中,如果整个频带是UV,则判断指定的帧是UV,在这种情况下涉及到MBE编码。对MBE的分析合成方法的技术的具体实施例在以本申请的受让人名义申请的专利申请号为№.4-91442的日本专利申请中可以找到。
图3所示正弦分析编码单元114的开环音调搜索单元141和过零计数器142分别由从输入端101输入语音信号和通过高通滤波器(HPF)10g输入信号。向正弦分析编码单元114的正交变换电路145提供有来自反LPC滤波器111的LPC余值或线性预测余值。开环音调搜索单元141取得输入信号的LPC余值,以便利用开环搜索实现对较粗略音调的搜索。提取的粗略音调数据送到正如下面说明的利用闭环搜索的细微音调搜索单元。与粗略音调数据一道,由开环音调搜索单元141取得:通过与粗略音调数据一道使用(power)。对LPC余值的自相关作用最大值归一化得到的归一化的自相关作用最大值,以便送到U/V鉴别单元115。
正交变换电路145进行正交变换,例如256点离散傅里叶变换(DFT),将在时间轴上的LPC余值变换为在频率轴上的频谱幅值数据。正交变换电路145的输出送到细微音调搜索单元146和其构成用于估计频谱幅值或包络线的频谱估计单元148。
将利用从开环音调搜索单元141提取的相对粗略的音调数据,以及通过DFT利用正交变换单元145获得的频域数据,输入细微音调搜索单元146。细微音调搜索单元146按0.2到0.5的变化率以中心围绕粗略音调值数据使音调数据摆动±n个采样,以便最终到达具有最佳小数点(浮点)的细微音调数据的数值。将利用合成法分析用作选择音调的细微音调搜索技术,以便使该功率谱将最接近原声音的功率谱。来自闭环细微音调搜索单元146的音调数据通过开关118送到输出端104。
在频谱估计单元148中,对每个谐波的幅值和作为谐波的总和的频谱包络线根据作为LPC余值正交变换输出的频谱幅值和音调进行估计,并送到细微音调搜索单元146,V/UV鉴别单元115和按声觉加权矢量量化单元116。
V/UV鉴别单元115根据下面五个量值鉴别一帧的V/UV,五个量值为正交变换电路145的输出,来自细微音调搜索单元146的一最佳音调,来自频谱估计单元148的频谱幅值数据,来自开环音调搜索单元141的归一的自相关r(p)的最大值和来自过零计数器142的过零记数值。另外,对于MBE的以频带为基准的V/UV鉴别的边界位置也可以作为V/UV鉴别的一个条件。V/UV分辩单元115的鉴别输出可以在输出端105得出。
频谱估计单元148的一输出单位或矢量量化单元116的一输入单位设有一些数据变换单位(进行一种采样速率变换的单元)。考虑到在频率轴线上分离频带的数目和按音调形成的数据的数目不同,数据变换单元的数目用于将包络线的幅值数据IAml设定为一常数。即,如果有效频带上升到3400kHz,根据音调可以将有效频带分为8到63个频带。按逐个频带得到的幅值数据的数目mMX+1在从8到63范围内变化。因此,数据数目变换单元将可变化数目mMX+1的幅值数目变换为预定数目M个数据,例如为44个数据。
来自数据数目变换单元的预定数目M例如为44的幅值数据或包络线数据(提供于频谱估计单元148的输出单元或矢量量化单元116的输入单元),按照预定数目的数据例如为44个数据,作为一个单元,利用矢量量化单元116,通过进行加权矢量量化一起进行处理。这种加权值由按声觉加权滤波器计算电路139的输出提供。包络线系数可以从矢量量化器116利用一开关117在输出端103的取出。先于进行加权矢量量化,对于由一预定数目数据构成的一矢量利用一合理的漏失系数取出在帧间的差值是适当的。
下面说明第二编码单元120。第二编码单元120具有一所谓CELP编码结构,并且特别适用于给输入语音信号的清音部分编码。在用于输入语音信号的清音部分的CELP编码结构中,有与清音的LPC余值相对应的噪声输出(作为噪声代码簿或者所谓随机代码簿121的代表性的输出值)通过一增益控制电路126送到按声觉加权合成滤波器122。加权合成滤波器122利用LPC合成对输入噪声进行LPC合成,并且将产生的加权清音信号送到减法器123。将由从输入端101通过一高通滤波器(HPF)109并且通过一按声觉加权滤波器125按声觉加权的一信号输入减法器123。减法器求出这一信号和来自合成滤波器122的信号之间的差或误差。同时,从按声觉加权滤波器125的输出值先减去按声觉加权合成滤波器的一零输入响应。该误差输入间距计算单元124以计算间距。在噪声代码簿121中搜索使误差最小的一代表性的矢量值。以上是利用分析合成方法采用闭环搜索的时域波形的矢量量化的概括。
作为对于来自采用CELP编码结构的第二编码器120的清音(UV)部分的数据,从噪声代码簿121取出代码簿中的形状因数和从增益电路126取出代码簿中的增益系数。形状因数(即从噪声代码簿121得到的UV数据)通过一开关127s送到输出端107s,同时,增益系数,即增益电路126的UV数据通过一开关127g送到输出端107g。
这些开关127s、127g和117、118的开与关取决于V/UV鉴别单元115的V/UV判断结果。确切地说,如果现时传输的帧的语音信号中的V/UV鉴别结果表明是浊音(V),则开关117、118接通,而如果现时传输的帧的语音信号是清音(UV),则开关127s、127g接通。
图4是图2中表示的一语音信号解码器的一更详细的结构。在图4中,用相同的数字表示图2中所示的元件。
在图4中,对应于图1和3的输出端102的LSPs矢量量化输出,即代码簿索引提供给输入端202。
LSP系数送到用于LPC参数再现单元213的LSP变换矢量量化器231,以便将反矢量变换量化为线性频谱对(LSP)数据,然后提供给用于LSP内插的LSP内插电路232、233。利用LSP-向-α变换电路234、235将形成的内插数据变换为α参数,再送到LSP合成滤波器214。LSP内插电路232和LSP-向-α变换电路234是设计用于浊音(V)声音部分,同时,LSP内插电路233和LSP-向-α变换电路235设计为用于清音(UV)声音部分。LPC合成滤波器214由浊音的LPC合成滤波器236和清音的LPC合成滤波器237构成。即,对于浊音部分和清音部分,可以独立地进行LPC系数内插,用于防止任何可能从浊音部分到清音部分或者反之的过渡部分中,由于内插具有完全不同的特点的LSPs产生的不利影响。
将对应于加权矢量量化频谱包络线Am的代码簿索引数据提供给对应于图1和3编码器输出端103的图4所示输入端203。来自图1和3所示的终端104的音调数据提供给输入端204,来自图1和3的终端105的V/UV鉴别数据提供给输入端205。
来自输入端203的频谱包络线Am的矢量-量化系数数据送到用于反矢量量化的反矢量量化器212,在其中进行数据数目变换与相反的变换。形成的频谱包络线数据送到正弦合成电路215。
在编码过程中,如果先于频谱矢量量化求出帧间的差,则在为产生频谱包络线数据而进行的反矢量量化后对帧间的差进行解码。
将来自输入端204的音调和来自输入端205的V/UV鉴别数据送入正弦合成电路215。从正弦合成电路215得到对应于图1和3所示的LPC反滤波器111的输出值的LPC余值数据并送到加法器218。这种正弦合成具体技术公开于例如由本受让人提出的申请号为4-91442和6-198451号日本专利申请中。
反矢量量化器212的包络线数据和来自输入端204、205的音调以及V/UV鉴别数据送到噪声合成电路216(其构成用于对浊音部分添加噪声)。噪声合成电路216的输出通过一加权叠加电路217送到加法器218。具体地说,将噪声添加到LPC余值信号中的浊音部分,要考虑如果利用正弦波合成产生作为一送到浊音LPC合成滤波器输入值的激励信号,则会产生一低声调的嗡嗡感觉(例如男性语音),并且在浊音和清音之间音质突然地变化,因而使听觉感觉不自然。这种噪声涉及到与语音编码数据相关的参数例如音调、频谱包络线的幅值、帧内的最大幅值、或与浊音部分的LPC合成滤波器的输入相关的余值信号电平,其实为一种激励信号。
加法器218的和输出送到用于LPC合成滤波器214的浊音合成滤波器236,在其中进行LPC合成以便形成随时间的波形数据,然后利用一用于浊音的后置滤波器238v滤波并送到加法器239。
将来自图3的输出端107s和107g作为UV数据的形状因数和增益系数,分别提供给图4中的输入端207s和207g,然后由该处提供给清音合成单元220。来自207s端的形状因数送到清音合成单元220的噪声代码簿221,而来自连接端207g的增益系数送到增益电路222。从噪声代码簿221读出的有代表性的输出值是一对应于清音LPC余值的噪声信号部分。这一部分变为在增益电路222的一预定增益幅值并送到开窗口电路223以便使与浊音的结合部平滑。
开窗口电路223的输出送到用于LPC合成滤波器214的清音(UV)合成滤波器237。利用LPC合成处理送到合成滤波器237的数据,以变成为对于清音按时间的波形数据。在将清音的按时间的波形数据送到加法器239之前利用用于清音的后置滤波器238进行滤波。
在加法器239中,来自用于浊音的后置滤波器238v的按时间的波形信号和来自清音的后置滤波器238u的清音部分按时间波形数据彼此相加,并用将形成的数据和从输出端201取出。
上述声音信号编码器可以要求的声音质量输出不同比特速率的数据。即输出的数据可以按可变的比特速率输出。例如低比特速率是2千比特/秒,高比特速率是6千比特/秒,则输出的数据为具有按照图5所示的比特速率的数据。
来自输出端104的音调数据用于浊音的始终按照8比特/20毫秒的比特速率输出,而来自输出端105的V/UV鉴别输出始终按1比特/20毫秒输出。由输出端102输出的用于LSP量化的系数在32比特/40毫秒与48比特/40毫秒之间转换。另一方面,在由输出端103输出浊音(V)的过程中该系数在15比特/20毫秒和87比特/20毫秒之间转换。由输出端107s和107g输出的用于清音(UV)的系数在11比特/10毫秒和23比特/5毫秒之间转换。用于浊音(UV)的输出数据为40比特/20毫秒(2千比特/秒)和120比特/20毫秒(6千比特/秒)。另一方面,用于浊音(UV)的输出数据为39比特/20毫秒(2千比特/秒)和117比特/20毫秒(6千比特/秒)。
下面结合相关部分解释用于LSP量化的系数、用于浊音(V)的系数和用于清音(UV)的系数。
参照图6和图7,详细解释在LSP量化器134中的矩阵量化和矢量量化。
来自LPC分析电路132的α参数送到α-LSP电路133,用以变换为LSP参数。如果在LPC分析电路132中进行P级的LPC分析,计算Pα-参数。这些Pα-参数变换为LSP参数,其保持在缓存器610中。
缓存器610输出两帧的LSP参数。利用由第一矩阵量化器6201和第二矩阵量化器6202构成的矩阵量化器620对两帧的LSP参数进行按矩阵量化。两帧的LSP参数在第一矩阵量化器6201中按矩阵量化,形成的量化误差进一步在第二矩阵量化器6202中按矩阵量化。矩阵量化消除了在时间轴和频率轴两者中的相关性。
来自矩阵量化器6202的两帧的量化误差输入到由第一矢量量化器6401和第二矢量量化器6402构成的矢量量化单元640。第一矢量量化器6401由两个矢量量化部分650、660构成,而第二矢量量化器6402由两个矢量量化部分670、680构成。来自矩阵量化单元620的量化误差利用第一量化器6401中的矢量量化部分650、660以帧为基准进行量化。形成的量化误差矢量由第二矢量量化器6402中的矢量量化部分670、680进一步进行矢量量化。上述矢量量化利用了沿频率轴的相关性。
执行上述矩阵量化的矩阵量化单元620包括:至少一个用于实施第一矩阵量化步骤的第一矩阵量化器6201,以及用于实施对由第一矩阵量化产生的量化误差进行矩阵量化的第二矩阵量化的第二矩阵量化器6202。实施上述矢量量化的矢量量化单元640包括:至少一个用实施第一矢量量化步骤的第一矢量量化器6401,以及用于实施对利用第一矢量量化产生的量化误差进行阵列量化的第二矩阵量化步骤的第二量化器6402。
下面详细解释矩阵量化和矢量量化。
存储在缓存器600中的对于两帧的LSP参数即-10×2的矩阵,输送到第一矩阵量化器6201中。第一矩阵量化器6201将对于两帧的LSP参数经过LSP参数加法器621输送到加权间距计算单元623,用于求出最小数值的加权间距。
在利用第一矩阵量化器进行代码簿搜索的过程中的畸变测量值dMQ1利用方程(1)确定: 其中X1是LSP参数,X1’是量化值,t和i是p维的数目。
加权值(其中没有计及在频率轴和时间轴上的加权限制)由方程(2)确定: 其中x(t,0)=0,x(t,p+1)=π,与t无关。
该方程(2)的加权值还用于下游侧的矩阵量化和矢量量化。
所计算的加权的间距输送到用于矩阵量化的矩阵量化器MQ1622。由这一矩阵量化器输出的8比特的索引数据送到单一的信号转换器690。由于矩阵量化形成的量化值在加法器621中由来自缓存器610的对于两帧LSP参数中减去。加权的间距计算单元623计算每两帧的加权的间距,以便在矩阵量化单元622中进行矩阵量化。此外,选择使加权的间距最小化的量化值。加法器621的输出送到第二矩阵量化器6202中的加法器631。
与第一矩阵量化器6201相似,第二矩阵量化器6202进行矩阵量化。加法器621的输出经过加法器631送到加权的间距计算单元633,在其中计算最小的加权的间距。
在利用第二矩阵量化器6202进行代码簿搜索的过程中形成的畸变量dMQ2利用方程(3)确定:
加权的间距送到阵列量化单元(MQ2)632,用以矩阵量化。由于矩阵量化输出的8比特索引数据送到信号转换器690。加权的间距计算单元633利用加法器631的输出顺序计算加权的间距。选择使加权的间距最小的量化值。加法器631的输出逐帧地送到第一矢量量化器6401中的加法器651、661。
第一矢量量化器6401逐帧地进行矢量量化。加法器631的输出逐帧地经过加法器651、661送到每个加权的间距计算单元653、663,用以计算最小加权的间距。
量化误差X2和量化误差X2’之间的差是一为(10×2)的矩阵。如果该差表示为X2-X2’=[X3-1,X3-2],在利用第一矢量量化器6401中的矢量量化单元652,662进行代码簿查索的过程中形成的畸变量dVQ1,dVQ2由方程(4)和(5)确定:
加权的间距送到矢量量化单元VQ1652和矢量量化单元VQ2662,用以进行矢量量化。经这种量化输出的每8比特索引数据送到信号转换器690。利用加法器651、661由按两帧输入的量化误差矢量减去该量化值。加权的间距计算单元653、663利用加法器651、661的输出顺序地计算该加权的间距,用以选择使加权的间距最小化的量化值。加法器651、652的输出送到第二矢量量化器6402中的加法器671、681。
在利用第二矢量量化器6402中的矢量量化器672、682进行代码簿查索的过程中形成的畸变程度dVQ3、dVQ4由于X4-1=X3-1-X’3-1
X4-2=X3-2-X’3-2而由方程(6)和(7)确定:
这些加权的间距送到矢量量化器(VQ3)672和矢量量化器(VQ4)682,用以进行矢量量化。利用加法器671、681由对于两帧的输入的量化矢量误差减去由于矢量量化形成的8比特输出索引数据。加权的间距计算单元673、683利用加法器671、681的输出顺序地计算加权的间距,用于选择使加权的间距最小化的量化的数值。
在学习代码簿的过程中,根据相应的畸变程度利用一般劳埃德算法进行学习。
在代码簿查索的过程中的和学习过程中的畸变计量值可以是不同的数值。
来自矩阵量化单元622、632和矢量量化单元652、662、672和682的8比特索引数据利用信号转换器620转换并在输出端621输出。
具体地说,对于低的比特速率,取得进行第一矩阵量化步骤的第一矩阵量化6201的输出,进行第二矩阵量化步骤的第二矩阵量化器6202的输出以及进行第一矢量量化步骤的第一矢量量化器6401的输出,而对于高的比特速率,取得对于低比特速率的输出加到进行第二矢量量化步骤的第二矢量量化器6422的输出上,所形成的和。
这样就分别输出32比特/40ms的索引数据和48比特/40ms的索引数据。
矩阵量化单元620和矢量量化单元640以与代表LPC系数的参数的特征一致的方式进行在频率轴和/或时间轴上限定的加权运算。
首先解释以与LSP参数的特征一致的方式进行在频率轴上限定的加权运算。如果级数P=10,各LSP参数X(i)被分组为低、中和高范围的三个范围:
L1={X(i)|1≤i≤2}
L2={X(i)|3≤i≤6}
L3={X(i)|7≤i≤10}如果各组L1、L2和L3的加权(值)分别为1/4、1/2和1/4,利用方程(8)、(9)、(10)确定仅限定在频率轴的加权(值):
仅在每组中进行对各个LSP参数进行加权,以及通过对每组进行加权限定这一加权值。
沿时间轴方向观察,各个帧的总和必定为1,使得沿时间轴方向的限值是以帧为基准的。利用方程(11)确定仅沿时间轴方向限定的加权值: 其中1≤i≤10和0≤t≤1。
利用这一方程(11),不限于在频率轴方向上的加权在帧号为t=0和t=1的两帧之间进行。这种仅限于沿时间轴方向的加权在按照矩阵量化处理的两帧之间进行。
在学习的过程中,用作学习的数据的总数为T的各帧的总和按照方程(12)加权: 其中1≤i≤10和0≤t≤T。
下面解释限于沿频率轴方向和沿时间轴方向的加权。如果数P=10,LSP参数X(i,t)被分组为下、中和高范围的三组范围:
L1={X(i,t)|1≤i≤2,0≤t≤1}
L2={X(i,t)|3≤i≤6,0≤t≤1}
L3={X(i,t)|7≤i≤10,0≤t≤1}如果对于组L1、L2、L3的加权值为1/4、1/2和1/4,利用方程(13)、(14)和(15)确定仅限于沿频率轴的加权: 利用这些方程(13)到(15),进行限于沿频率轴方向的利用矩阵量化处理的每三帧和遍及两帧的加权。在代码簿查索的过程中和学习的过程中这样加权都是有效的。
在学习的过程中,对于输入数据的各帧总和加权。LSP参数×(i,t)分组为低、中和高组范围:
L1={X(i,t)|1≤i≤2,0≤t≤T}
L2={X(i,t)|3≤i≤6,0≤t≤T}
L3={X(i,t)|7≤i≤10,0≤t≤T}如果组L1、L2、L3的加权值分别为1/4、1/2和1/4,利用方程(16)、(17)和(18)确定仅限于沿频率轴的对于各组L1、L2和L3的加权:
利用这些方程(16)到(18),对沿频率轴方向的3个范围和沿时间轴方向遍及各帧的总和可以进行加权。
此外,矩阵量化单元620和矢量量化单元640根据LSP参数中变化的幅度进行加权。在V到UV或UV到V的过渡区(代表在语音各帧的总和之中的少数帧)内,由于在辅音和元音之间的频率响应的差别,LSP参数明显变化。因此,由方程(19)表示的加权值可乘以用以在过渡区进行安排加重的加权的加权值w’(i,t)。 可以用如下方程(20)替换方程(19):
因此,LSP量化单元134进行两级矩阵量化和两级矢量量化,以使输出索引数据的比特数是可变的。
在图8中表示矢量量化单元116的基本结构,而图8中所示的矢量量化单元116的更详细的结构表示在图9中。下面解释在矢量量化单元116中用于频谱包络线Am的加权的矢量量化的说明性的结构。
首先,在图3中所示的语音信号编码装置中,解释用于数据数目变换的说明性的配置,这种配置用于在频谱估计单元148的输出侧或在矢量量化单元116的输入侧处提供恒定数目的频谱包络线的幅值的数据。
对于这种数据数目变换可以设想各种方法。在本实施例中,将对由一数据块中的最后的数据到该数据块中的第一数据的各数值进行内插的伪数据,或预置数据例如重复在一数据块中的最后数据或第一数据,附加到在频率轴上的有效频带中的一个数据块中的幅值数据,用以将数据的数目提高到NF,利用Os一多元组的例如8倍对有限带宽类型的超密采样,求出数目上等于Os次数,例如8次的幅值数据。为了扩展到更大的NM数目例如2048,线性内插((mMX+1)×Os)幅值数据。这一NM数据被二次采样,用以变换成上述预置数目M的数据,例如44个数据。实际上,通过超常采样和线性内插无需求出所有上述NM个数据,仅计算为对最终所需的M个数据列式所需的数据。
用于进行图7中所示的加权的矢量量化的矢量量化单元116至少包含:用于进行第一矢量量化步骤的第一矢量量化单元500和用于进行第二矢量量化步骤的第二矢量量化单元510,该第二矢量量化步骤用于对由第一矢量量化单元500进行第一矢量量化的过程中产生的量化误差矢量进行量化。这一第一矢量量化单元500是所谓的第一级矢量量化单元,而第二矢量量化单元510是所谓的第二级矢量量化单元。
频谱估计单元148的输出数据X,即预置数目为M的色络线数据,输入第一矢量量化单元500的输入端。这一输出矢量X利用矢量量化单元502按照加权矢量量化方式被量化。因此,由矢量量化单元502输出的形状因数在输出端503输出,而经量化的数值X0’在输出端504输出并送到加法器505、513。加法器505由源矢量X减去该量化的数值X0’,提供一多级的量化误差矢量y。
量化误差矢量y输送到在第二矢量量化单元510中的矢量量化单元511。这一第二矢量量化单元511由图7中所示的多个矢量量化器或两个矢量量化器5111、5112构成。量化误差矢量Y按维被分解,以便在两个矢量量化器5111、5112中以加权矢量量化的方式量化。由这二矢量量化器5111,5112输出的波形因数在输出端5121,5122输出,而量化值y’1,y’2与该维方向相关连并送到加法器513。加法器513将量化值y’1、y’2加到量化值X0’,以产生量化值X’1,在输出端514输出。
因此,对于低的比特速率,取得利用第一矢量量化单元500进行第一矢量量化步骤得到的输出,对于高的比特速率,输出第一矢量量化的输出和利用第二矢量量化单元510进行第二量化步骤得到的输出。
具体地说,在矢量量化部分116中的第一矢量量化单元500中的矢量量化器502为L级,例如44维两级结构,如图9所示。
即,将具有的代码簿规模为32的44维矢量量化代码薄的输出矢量的和乘以增益g,被用作44维频谱色络线矢量X的量化值X0’。因此,如图9所示,两个代码簿为CB0和CB1,而输出矢量为Si,Sj,其中0≤i和j≤31。另一方面,增益代码簿CBg的输出为gl,其中0≤l≤31,其中gl是一标量。最终输出X0’为ge(Sli+Slj)。
通过对LPC余值的上述MBE分析得到的并变换为预置维的频谱包络线Am为X。关键是X怎样有效地被量化。
利用下式来定义量化误差:
E=‖W{Hx-Hg1((S0i+S1j)}‖2
=‖WH{X-{X-g1(S0i+S1j)}‖2
…(21)其中H代表LPC合成滤波器的频率轴上的特性,W是一用于加权的矩阵,用于表示在频率轴上按声觉加权的特性。
如果利用对现时帧的LPC分析的结果得到的α参数用αi(1≤i≤P)表示,由用方程(22)表示的频率响应对L维例如44维对应点的数值进行采样:
为了计算将各个0填加到数字串1,α1,α2,…的后面,形成数字串1,α1,α2,…αp,0,0,…0,以提供256点数据。然后,通过256点FFT,对于与从0到π的一个范围相关的各点计算(re 2+m2)1/2和求出该结果的倒数。对这些例数二次采样达L点例如44点,形成这些L点作为沿对角线的顶的矩阵:由方程(23)提供按声觉加权的矩阵W 其中αi是LPC分析的结果,λa,λb是常数,如λa=0.4,λb=0.9。
可以由上述方程(23)的频率响应计算矩阵W。例如,对1,α1λb,α2λ1b2,…αpλbp,0,0,…0的256点的数据进行FFT,以求出从0到π的一个域的(re 2[i]+M2[i]1/2,其中0≤i≤128。通过对从0到π的一个域,在128点即对1,α1λa,α2λa2,…αpλpa,0,0,…0进行256点FFT求出分母的频率响应,以便求出(re’2[i]+im’2[i])1/2,其中0≤i≤128。
利用下式可以求出方程(23)所示的频率响应: 其中0≤i≤128。利用如下的方法,求出对例如44维矢量中的每一相关点的频率响应。应当采用更精确地线性内插。然而,在如下的实例中,代之使用最接近的点。
即,ω[i]=ω0[nin+{128i/L)],其中1≤i≤L。
在该方程中,nin+(X)是一函数,将一最接近X的数值还原到X。
利用类似的方法,对于H求出h(1),h(2),…h(L),即
作为另一个实例,首先求出H(Z)W(Z),然后为了降低FFT的次数求出频率响应。即方程(25) 的倒数展开为 利用数字串1,β1,β2,…β2p,0,0,…0,0产生例如256点数据。然后,利用幅值为 的频率响应进行256点FFT,其中0≤i≤128。由此,得 对于L维矢量的每一对应点求出这一数值。如果FFT的点数少,应采用线性内插。然而,在这里,利用 求出最接近的数值,其中1≤i≤L。如果对角线上各项为这些数值的矩阵为W’,则
方程(26)是与上述方程(24)相同的矩阵。另外,由方程(25)按ω≡iπ,可以直接计算|H(exp(jω))W(exp(jω))|,其中1≤i≤L;以便用于wh[i]。
另外,可以求出适应长度的例如40点的,方程(25)的激励响应及FFT处理,以便求出所使用的幅值的频率响应。
下面解释用于减少在计算按声觉加权的滤波器和LPC合成滤波器的特性时的处理量。在方程(25)中的H(Z)W(Z)是Q(Z),即
Q(z)=H(z)W(z)
从而按照0≤n≤Lmp,求出设为q(n)的激励响应Q(Z),其中Limp是激励响应长度,例如Limp=40。
在本实施例中,由于p=10,方程(a1)代表具有30系数的20级的无限激励响应(IIR)。由于Limp×3p近似等于1200个乘积运算之和,可以求出方程(a1)的激励响应的Limp个采样。通过将各个0填充在q(n),产生q’(n),其中0≤n≤2m,如例如m=7,将2m-Limp=128-40=88的0值填充到q(n)中(0填充),以便形成q(n)。
按2m(=128)点对这一q’(n)进行FFT。FFT的结果中的实数和虚数部分分别为re[i]和im[i]其中0≤is≤2m-1。由此, 这就是用2m-1点表示的幅值频率响应。通过线性内插rm[i]的邻近值,该频率响应用2m点来表示。虽然可以采用更高级(程序)的内插替代线性内插,但处理量相应增加。如果利用这样的内插得到的矩阵是W1pc[i],其中0≤i≤2m,w1pc[2i]=rm[i]where0≤i≤2m-1
…(a3)
w1pc[2i+1]=(rm[i]+rm[i+1])/2,其中O≤i≤2m-1
…(a4)
这样提供w1pc[i],其中0≤i≤2m-1。
由此,利用
wh[i]=w1pc[nint(1281i/L)],其中1≤i≤L.
…(a5)其中nin+(X)是将一最接近X的整数还原到X。这就表明,通过执行一个128点FFT运算,可以求出方程(26)的W’。
对于N点FFT所需的处理量通常是(N/2)log2N复数积和Nlog2N复数和;其等于(N/2)log2N×实数积和Nlog2N×2实数和。
利用这样一种方法,为了求出上述激励响应g(n)的对各积求和运算量是1200。另一方面,对于N=27=128的FFT的处理量约为128/2×7×4=1792和128×7×2=1792。如对各积求和的数目是1,处理量接近1792。正如对方程(a2)的处理一样,处理量近于3的平方和运算以及处理量近于50的平方根运算,被执行2m-1=26=64次,使得对于方程(a2)的处理量为:
64×(3+5c)=3392。
另一方面,方程(a4)的内插为64×2=128的量级。
因此,总计处理量等于1200+1792+3392+128=6512。
由于在W’TW的模型中采用加权的矩阵W,可仅求出rm 2[i]并使用,无需对平方根进行处理。在这种情况下,对于rm 2[i]而不是rm[i]实行上述方程(a3)和(a4)的运算,利用上述方案(a5)求出的不是wh[i]而是wh2[i]。在这种情况下为了求出rm 2[i]的处理量是192,使得总计处理量变为
1200+1792+192+128=3312。
如果由方程(25)到方程(26)直接进行处理,处理量的总和约为2160量级。即,对方程(25)中的分子和分母两者进行256点FFT。这种256点的FFT的处理量为256/2×8×4=4096的量级。另一方面,对于who[i]的处理包含:两个平方和运算,每个处理量为3;处理量约为25的除法以及处理量约为50的平方和运算。如果按照上述的方式略去平方根的运算,处理量的量级为128×(3+3+25)=3968。因此,总计处理量为4096×2+3968=12160。
因此,如果直接计算上述方程(25),以求出who 2[i]而不是who[i],所需处理量量级为12160,而如果进行由方程(a1)到a(5)的计算,处理量降低到约3312,这意味着,处理量可以降低到四分之一。如在图10中所示,可以概括按照降低的处理量的加权计量程序。
参阅图10,在第一步骤S91产生加权传递函数的上述方程(a1),在下一步骤S92产生(a1)的激励响应。在步骤S93在将0填加(0填充)到这一激励响应之后,在步骤S94进行FFT。如果产生长度等于2的乘方的激励响应,可以无需0填充直接进行FFT。在下一步骤S95,求出幅值或幅值平方的频率特性。在下一步骤S96,进行线性内插,用以增加频率特性的点数。
用于求出加权的矢量量化值的计算不仅能适用于语音编码而且还适用于对可形成声音的信号,例如音响信号,在可形成声音的信号中,其中的语音或音响信号作为频域参数由DFT系数、DCT系数MDCT系数,或者由这些参数产生的参数。例如谐波的幅值或LPC余值的谐波的幅值来表示;这些参数通过对加权的传递函数的激励响应或中途中断并填充0的激励响应进行FFT以及根据FFT的结果计算加权值,可利用加权的矢量量化方式量化0在这种情况下,最好,在对加权的激励响应进行FFT之后,对FFT系数本身(re,im)(其中re和im分别代表系数的实数和虚数部分)、re2+im2或(re2+im2)1/2进行内插并用作加权值。
如果利用上述方程(26)的矩阵W’重新改写方程(21),即加权的合成滤波器的频率响应,我们得到:E=‖Wk’(X-g1(S0c+S1j))‖2
…(27)
下面解释用于学习形状代码簿和增益代码簿的方法。
对于CBO选择代码矢量SOc的帧K的全体,将畸变的预期值降为最小。如果有M个这样的帧,如果使 降至最小,就足够了。在方程(28)中,Wk’、Xk、gk、和Sik分别表示对第k帧的加权,对第k帧的输入、第k帧的增益以及对于第k帧的代码簿CB1的输出。
接着,考虑增益最优化。
提供与选择该增益的代码字gc相关的第k帧的畸变的预期值,这是通过利用: 解 我们得到
以上方程(31)和(32)提供了关于形状S0i,S1i和增益g1的某些最佳条件(对于0≤i≤31,0≤j≤31,和0≤l≤31,即一最佳解码器输出。同时,按照对于S0i相同的方式可以求出S1j。
分析该最佳编码条件,即最接近的邻近条件。
每次求解用于求出畸变程度的上述方程(27),即为使方程E=‖W’(X-gl(S1i+S1j))‖2取最小值的S0i和S1j,提供输入X和加权矩阵W’,即在逐帧的基础上。
实质上,E是关于所有的gl(0≤l≤31),S0i(0≤i≤31)和S0j(0≤j≤31)的组合,即32×32×32=32768根据完整罗宾(rbin)方法求出的,以便求出一组S0i,S1j,提供E的最小值。然而,由于这需要大量的计算,在本实施例中要顺序地查索形状和增益。同时,将完整罗宾查索用于S0i和S1i的组合。对于S0i和S1j有32×32=1024种组合。在如下的介绍中,为了简化,将S1i+S1j表示为Sm。
上述方程(27)变为E=‖W’(X-glsm)‖2。如果为了进一步简化,令Xw=W’x和Sw=W’sm我们得到:E=‖Xw-g1Sw‖2
…(33)
因此,如果gl可以做到足够精确,查索可以按照两步进行,其中
(1)查索将使下式达最大值的Sw 以及
(2)查索最接近下式的g1 如果上式利用原来的符号重新改写,
(1)’对将使下式达最大值的一组S0i和S1i进行查索: 以及
(2)’对最接近下式的g1查索
上述方程(35)代表最佳编码条件(最接近的邻近条件)。
利用方程(31)和(32)的条件(形心条件)和方程(35)的条件;可同时通过利用所谓的广义劳埃德算法(GLA)来训练代码簿(CB0,CB1和CBg)。
在本实施例中,将经用输入X的范数去除的W’用作W’。即用W’/‖X‖代替在方程(31)、(3)和(35)中的W’。
另外,利用上述方程(26)限定加权(值)W’,其用于在利用矢量量化器116进行矢量量化时进行按声觉加权。然而,通过求出其中已考虑过去的帧W’的现时帧W’,也可以求出该计及时间标记的加权值W’。
在上述方程(26)中的wh(1),wh(2),…wh(L)的数值(按在时间n即第n帧求得的)分别表示为whn(1),whn(2),…whn(L)。
如果在时间n的各加权值(考虑了过去的数值)被限定作为An(i),其中1≤i≤L, 其中λ可设定例如等于0.2。在An(i)中,由于1≤i≤L,因此求出的具有作为对角线上的各项的这种An(i)的矩阵可用作上述加权值。
按照这种方式通过加权的矢量量化得到的形状因数值S0i,S1j分别在输出端520,522输出,而增益系数g1在输出端521输出。此外,量化值X0’在输出端504输出,同时送到加法器505。
加法器505由频谱包络线矢量X减去该量化值,以产生量化误差矢量y。具体地说,这一量化误差矢量y被送到矢量量化单元511,以便按维分离,和利用矢量量化器5111到5118按照加权的矢量量化方式量化。第二矢量量化单元510采用比第一矢量量化单元500更大的比特数。因此,代码簿的存储容量和用于代码簿的查索的处理量(复杂性)明显增加。因此对于44维(每维与第一矢量量化单元500一样)不可能进行矢量量化。因此,在第二矢量量化单元510中的矢量量化单元511由多个矢量量化器构成,输入的量化值按维分离成多个低维矢量,用以进行加权的矢量量化。
在图11中表示了用在矢量量化器5111到5118中的量化值y0到y7维数和比特数之间的关系。
在输出端5231到5288输出由矢量量化器5111到5118输出的系数值ldvq0到ldvq7。这些系数数据的比特之和为72。
如果通过将沿该维方向上的矢量量化器5111到5118的输出的量化值y0’到y7’相接合得到的数值是y’,利用加法器513将量化值y’到X’0求和,提供一个量化值X’1。因此,该量化值用下式
X’1=X’0+y’
=X-y+y’来表示。即,最终的量化误差矢量为y’-y。
如果对来自第二矢量量化器510的量化值要进行解码,语音信号解码装置不需来自第一量化单元500的量化值X’1。然而,需要来自第一量化单元500和第二量化单元510的索引数据。
下面解释在矢量量化部分511中的学习方法和代码簿查索。
因此被分离为低维的y和W’被分别称作为Yi和W’i,其中1≤i≤8。
畸变程度E按照下式确定:
E=‖Wi’(yi-s)‖2 …(37)
代码簿矢量s是对yi量化的结果。查索这种使畸变程度E最小化的代码簿的代码矢量。
在学习代码簿时,利用广义的劳埃德算法(GLA)进一步进行加权。首先解释用于学习的最佳形心条件。如果有M个输入矢量y,(它们选择代码矢量s作为最佳量化结果)和训练数据是yk,利用在对所有各帧k进行加权时的中心畸变最小的方程(38)提供畸变J的预期值: 解 得到 取两侧的转移值,得到 因此,
在上述方程(39)中,S是一最佳代表性矢量,代表最佳形心条件。
通过以二级矢量量化单元的形成构成在语音信号编码器中的矢量量化单元,使得输出的系数比特数是可变的。
采用本发明的上述CELP编码器结构的第二编码单元120如图12所示的由多级矢量量化处理器构成。在图12中的实施例中,这些多级矢量量化处理器是按照两级编码单元1201,1202构成的,其中所示的配置是为了倘若传输比特速率可以在2-6千比特/秒之间转换,能适应6千比特/秒的传输比特速率。此外,波形因数和增益系数可以在23比特/5毫秒到15比特/5毫秒之间转换。在图12中的配置中的流程图表示在图13中。
参照图12,图12中的第一编码单元300等效于图3中的第一编码单元,图12中的LPC分析电路302对应于图3中的LPC分析电路,而LSP参数量化电路303对应于在图3中的α向LSP变换电路133到由LSP向α变换电路137,图12中的按声觉加权的滤波器304对应于图3中的按声觉加权的滤波器计算电路139和按声觉加权的滤波器125。因此,在图12中,将与图3中的第一编码单元113中的LSP向α变换电路137相同的输出提供到连接端305,而将与图3中的按声觉加权的滤波器计算电路139的输出相同的输出提供到连接端307,以及将与图3中的按声觉加权的滤波器125的输出相同的输出提供到连接端306。然而,与按声觉加权的滤波器125不同,图12中的按声觉加权的滤波器304产生的按声觉加权的信号与图3中的按声觉加权的滤波器125的输出信号相同,利用输入的语音数据和预量化的α参数,而不是利用LSP-α变换电路137的输出。
在图12中所示的两级的第二编码单元1201和1202中,减法器313和323对应于图3中的减法器,而间距计算电路314,324对应于图3中的间距计算单元124。此外,增益电路311,321对应于图3中的增益电路126,而随机代码簿310、320和增益代码簿315、325对应于图3中的噪声代码簿。
在图12所示的结构中,LPC分析电路302在图13中的步骤S1,将由连接端301提供的输入的语音数据X分离成如上所述的各帧,以便为了求出α参数进行LPC分析。LSP参数量化电路303将来自LPC分析电路302的α参数变换为LSP参数,以便量化该LSP参数。对量化的LSP参数内插并变换为α参数。LSP参数量化电路303由量化的LSP参数变换的α参数产生LPC合成滤波器函数1/H(Z),并将所产生的LPC合成滤波器函数1/H(Z)经连接端305输送到第一级第二编码单元120中的按声觉加权的合成滤波器312。
按声觉加权的滤波器304由来自LPC合成滤波器电路302的(作为预量化的α参数的)α参数,求出用于按声觉加权的数据,这些数据与利用图3中的按声觉加权的滤波器计算电路139产生的数据相同。这些加权数据经过连接端307提供到第一级第二编码单元1201中的按声觉加权合成滤波器312。如在图12中的步骤S12中所示,按声觉加权的滤波器304由输入的语音数据和预量化的α参数产生按声觉加权的信号,其与由图3中所示的按声觉加权的滤波器125输出的信号相同。首先由预量化α参数产生合成滤波器函数W(Z)。因此用产生的滤波器函数W(Z)来表示输入的语音数据,以产生XW,该XW经过连接端306作为按声觉加权的信号提供到第一级第二编码单元1201中的减法器313。
在第一级第二编码单元1201中,9比特形状因数输出中的随机代码簿310的代表性的数值输出输送到增益电路313,其将来自随机代码簿310的代表性的输出与来自6比特增益系数输出中的增益代码簿315的增益系数(标量)相乘。经利用增益电路311乘以增益系数的代表性的数值输出被输送到该按照1/A(Z)=(1/H(Z))*W(Z)运算的按声觉加权的合成滤波器312。如在图13中在步骤S3中所表示的,加权的合成滤波器312向减法器313输送1/A零输入响应输出。减法器313对按声觉加权的合成滤波器312的零输入响应输出与来自按声觉加权滤波器304的按声觉加权的信号XW进行减法运算,将形成的差或误差取出作为参考矢量r。在第一级第二编码单元1201处查索的过程中,这一参考矢量r输送到间距计算电路314,在其中计算该间距以及查索形状矢量s和使量化误差能量E最小化的增益,如在图13中的步骤4所示。这里1/A(Z)处于零状态。即如果在零状态中利用1/A(Z)合成的代码簿中的形状矢量s是Ssyn,查索使方程(40)取最小值的形状矢量s和增益:
虽然,可以全部查索使量化误差能量(energe)E取最小值的s和g,但为了减少计算量可以采用如下的方法。
第一种方法是查索使利用如下方程(41)限定的Es取最小值的形状矢量s,方程(41)为: 根据由第一种方法得到的s,按照方程(42)表示理想的增益:
因此,按照第二种方法,查索这一使方程(43)取最小值的g,方程(43)为:
Eg=(gref-g)2
由于E是g的平方函数,这样的使Eg取最小值的g使E取最小值。
根据由第一和第二方法得到的s和g,利用如下方程(44):
e=r-gssyn …(44)可以计算量化误差矢量e。
这是按第二级第二编码单元1202的,与在第一级中一样的基准量量化的。
即,提供到连接端305和307上的信号是由第一级第二编码单元1201中的按声觉加权的合成滤波器312直接提供到第二级第二编码单元1202中的按声觉加权的合成滤波器322上。由第一级第二编码单元1201求出的量化误差矢量e提供到第二级第二编码单元1202中的减法器323。
在图13中的步骤S5,在第二级第二编码单元1202中进行与在第一级中进行的过程相似的过程。即来自与比特形状因数输出的随机的代码簿的有代表性的数值输出被输送到增益电路321,在其中将代码簿320的有代表性的数值输出与来自3比特增益系数输出的增益代码簿325的增益相乘。加权的合成滤波器322的输出输送到减法器323,在其中求出按声觉加权的合成滤波器322的输出和第一级量化误差矢量e之间的差。这一差被输送到用于计算间距的间距计算电路324,以便查索使量化误差能量(energy)E取最小值的形状矢量s和增益g。
第一级第二编码单元120中的随机代码簿310的形状因数输出和增益代码簿315的增益系数输出以及第二级第二编码单元1202中的随机代码簿320的因数输出和增益代码簿325的系数输出送到系数(因数)输出转换电路330。如果由第二编码单元输出的是23比特,将第一级和第二级第二编码单元1201、1202中的随机代码簿310、320的因数数据以及增益代码簿315和325的系数数据求和并输出。如果输出的是15比特,则输出第一级第二编码单元1201中的随机代码簿310的因数数据和增益代码簿315的系数数据。
然后,如在步骤S6所示,第一状态被更新,用以计算零输入响应输出。
在本实施例中,第二级第二编码单元1202的系数(因数)比特数对于形状矢量少至5,对于增益则少至3。如果在这种情况下在代码簿中没有出现适宜的形状和增益,量化误差很可能增加而不是降低。
虽然,可以在增益数据中形成0,以防止这一问题发生,但仅有3比特用于增益。如果将其中之一置为0,量化器运行明显劣化。考虑到这一点,对于已经分配占有大量比特的形状矢量,形成全为0的矢量。除了所有0矢量以外进行上述查索,如果量化误差已极为增加则选择所有0矢量。增益是任选的。这就使得可以防止在第二级第二编码单元1202中量化误差增加。
虽然,上面是按两级配置介绍的,但级数可以大于2。在这种情况下,如果由第一级闭环查索进行的矢量量化已近于结束,利用(N-1)级的量化误差做为一参考输入进行第N级量化(其中2≤N),并且将第N级的量化误差用作第(N+1)级的参考输入。
由图12和13可以看出,通过采用多级矢量量化器用于第二编码单元,与利用相同比特数或利用配对的代码簿,利用直接的矢量量化的计算量相比,该计算量降低了。特别是,在CELP编码过程中降低查索作业的次数是十分关键的,在这种CELP编码过程中,利用合成法进行(通过分析)利用闭环查索的对沿时间轴的波形的矢量量化。此外,通过在采用的两级第二编码单元1201、1202的系(因)数输出和仅采用的第一级第二编码单元1201的输出(而未采用第二级第二编码单元1201的输出)之间进行转换,可以易于转换比特数。如果将第一级和第二级第二编码单元1201、1202的系数(因数)输出综合并输出,通过选择这些系数(因数)的其中之一解码器就可易适应该结构。即,通过利用按2千比特/秒工作的解码器对例如按6千比特/秒编码的参数进行解码,解码器就能易于适应该结构。此外如果零矢量包含在第二级第二编码单元1202的形状代码簿中,就可能以与比如果将0添加到增益中使性能更少劣化的方式,防止量化误差增加。
例如利用如下的方法可以产生随机代码簿(形状矢量)的代码矢量。
例如通过对所谓的高斯噪声限幅可以产生随机代码簿的代码矢量。具体地说,通过产生高斯噪声、利用适当的阈值对高斯噪声限幅和将经限幅的高斯噪声归一化,可以产生该代码簿。
然而,有各种类型的语音。例如,高斯噪声可能与接近噪声的辅音例如“Sa,Shi,Su,Se和So”相适应,同时高斯噪声不可能与实际上上扬的辅音例如“Pa,Pi,Pu,Pe和Po”相适应。
根据本发明,将高斯噪声附加到某些代码矢量上,两代码矢量的其余部分通过学习来处理,使得具有明显上扬的辅间的辅音和接近噪声的辅音可以相一致(适应)。例如,阈值增加,得到具有几个较大的峰值的这种矢量,而如果阈值降低,则代码矢量接近高斯噪声。因此,通过增加限幅阈值的变化,就能够与具有急剧上升部的辅音例如“Pa,Pi,Pu,Pe和Po”或接近噪声的辅音例如“Sa,Shi,Su,Se和So”相适应,因此提高了清晰度。图14A和14B以实线和虚线分别表示的高斯噪声和经限幅的噪声的外观特性。图14A和14B表示利用等于1的限幅阈值(限较大阈值)限幅的噪声,以及利用等于0.4的限幅阈值(即较小阈值)限幅的噪声。由图14A和14B可以看出,如果将阈值选择得较大,则得到具有几个较大峰值的矢量,而如果将阈值选择得较小,则该噪声接近高斯噪声本身。
为了实现这一点,通过对高斯噪声限幅准备一起始的代码簿,并设置适当数量的非学习型代码矢量。该非学习型代码矢量的选择是为增加与接近噪声的辅音例如“ Sa,Si,Su,Se和So”相适应的变化值。通过学习得到的各个矢量利用该用于学习的LBG算法。在最接近的邻近条件下进行的编码采用固定的代码矢量和在学习过程中得到的代码矢量。在形心条件下,仅更新要学习的代码矢量。因此,该要学习的代码矢量与急剧上扬的辅音例如“Pa,Pi,Pu,Pe和Po”相适应。
通过利用学习方式,对于这些代码矢量可以学习最佳增益。
图15表示用于通过对高斯噪声限幅构成代码簿的过程流程图。
在图15中,作为起始化,在步骤S10,将学习的次数n设置为n=0。按误差D0=∞,设置学习的最大次数nmax,以及设置一确定学习终止条件的阈值←。
在下一步骤S11,通过对高斯噪声限幅产生该起始代码簿。在步骤S12,将一部分代码矢量固定作为非学习型代码矢量。
在下一步骤S13,利用上述代码簿进行编码。在步骤S14,计算误差。在步骤15,判别是(Dn1-Dn)/Dn<∈还是n=nmax。如果为“是”,过程终止。如果结果为“否”,过程转移到步骤S16。
在步骤S16,处理非用于编码的代码矢量。在下一步S17,更新代码簿。在步骤S18,在返回到步骤S13之前,增加学习次数n。
在图3中的语音编码器中,下面解释浊音/清音部分(V/UV)鉴别单元115的一个具体实例。
根据正交变换电路145的输出,来自高精度音调搜索单元146的最佳音调、来自频谱估计单元148的频谱幅值数据、来自开环音调搜索单元141的最大归-化的自相关值r(p)和来自过零点计数器412的过零点计数值,V/UV鉴别单元115对正经历的一帧进行V/UV鉴别。以频带为基准的V/UV判定结果的边界位置(与用于MBE的相似)还用作对于正经历的帧的其中一个条件)。
下面解释来用以频带为基准的V/UV鉴别结果的,对MBE的V/UV鉴别的条件。
可以利用下式表示在MBE情况下代表第m次谐波幅值的幅值|Am|的参数,该式为:在这一方程中,|S(j)|是DET化的LPC余值得到的频谱,|E(j)|是基本信号的频谱,确切地说是256点的汉明窗口,而am,bm是利用系数j表示的,与第m频带对应(再与第m次谐波对应)的频率的下限值和上限值。对于以频带为基准的V/UV鉴别,采用信噪比(NSR)。第四频带的NSR用下式表示: 如果NSR值大于一预设值,例如0.3,即如果误差较大,可以判别出在所涉及的频带内|S(j)|乘以|Am| |E(j)|的近似值是不佳的,即该激励信号|E(j)|作为基础是不适当的。因此所涉及的频带被确定为是清音部分(UV),如果相反,可以判别为该近似形成得相当好,因此确定是浊音部分(V)。
应指出,各个频带(谐波)的NSR表示一个谐波与另一谐波的谐波相似性。利用:
NSRall=(∑m|Am|NSRm)/(∑m|Am|)将各按增益加权的谐波的NSR求和。
根据这一频谱相似性NSRall是大于还是小于某一阈值来确定用作V/UV鉴定的规则基准,在这里将这一阈值设为ThNSR=0.3。这一规则基准与LPC余值的最大自相关作用值、帧功率和过零点相关。在用于按NSRall<ThNSR的规则基准的情况下,如果该规则适用和没有适用的规则,所涉及的帧分别为V和UV。
一个具体的规则如下:对于NSRall<ThNSR,
如果num Zero XP(24)frm Pow>340和ro>0.32,则所涉及的帧为V;
如果num Zero XP>30,frm Paw<900,和ro>0.23,则所涉及的帧为UV;
其中的各个变量定义如下:
num Zero XP:每帧中过零点的数目。
frm Pow:帧功率
ro:自相关最大值
代表如上面指定的一组具体规则的规则考虑用于进行V/UV鉴别。
下面更详细地解释图4中的语音信号解码器中的基本部分的构成和工作情况。
如前面解释的,LPC合成滤波器214分成用于浊音(V)合成滤波器236和用于清音(UV)合成滤波器237。如果按每20采样对各LSP连续地进行内插,即按每2.5毫秒内插,则不将合成滤波器分开,不进行V/UV区分,所有具有不同特性的LSP在从V到UV或从UV到V的过渡部分进行内插。其结果是UV和V的LPC分别用作V和UV的余部,这样往往会产生奇异的声音。为了防止这种不良影响发生,LPC合成滤波器分成V和UV部分,对V和UV独立地进行LPC系数的内插。
下面解释在这种情况下用于LPC滤波器236、237的系数内插的方法。具体说,根据V/UV状态转换LPC内插,如在图11中所示。
取10级的LPC分析的一个实例,相等间隔的LSP是这样的对应于用于平坦滤波器特性的α参数的以及增益等于1的LSP,即α0=1,α1=α2=...=α10=0,其中0≤α≤10。
这种10级的LPC分析,即10级的LSP是与完全平坦的频谱对应的LSP,各LSP按照相等的间隔按在0到π之间的均匀隔开的11个位置形成矩阵,如图17中所示。在这种情况下,这时合成滤波器的整个频带增益具有最小的贯通特性。
图18示意表示增益变化的方式。具体说,图15表示在由清音(UV)部分向浊音(V)部分过渡的过程中的1/HUV(Z)的增益和1/HV(Z)的增益是如何变化的。
至于内插的单位,对于1/HV(Z)的系数为2.5毫秒(20采样),而对于1/HUV(Z)的系数,则对于2千比特/秒的比特速率为10毫秒(80采样),对于6千比特/秒的比特速率为5毫秒(40采样)。对于W,由于第二编码单元120利用合成法采用分析来进行波形匹配,不需要按照相等间隔的LSP进行内插可以进行利用邻近V部分的LSP的内插。应当指出,在第二编码部分120中的UV部分的编码过程中,通过在由V到UV的过渡部分中清除1/A(Z)加权的合成滤波器122的内部状态,将零输入响应置为0。
这些LPC合成滤波器236、237的输出输送到各自独立设置的后置滤波器238U,238V。后置滤波器的强度和频率响应设定为对V和UV为不同的数值,用以将后置滤波器的强度和频率响应对于V和UV设定为不同的数值。
下面解释在LPC余值信号中的V和UV部分之间的结合部分的开窗口,即作为LPC合成滤波器输入的激励信号。利用浊音的合成单元211中的正弦合成电路215和清音合成单元212中的开窗口电路223实现这种开窗口。在由本受让人提出的申请号为4-21422的日本专利申请中详细地解释了用于激励信号的V部分的合成的方法,同时由本受让人提出的申请号为6-198451的日本专利申请中详细地解释了用于激励信号的V部分的快速合成的方法。在本说明性的实施例中,这种快速合成的方法用于产生激励信号的V部分。
在其中利用邻近各帧的频谱通过内插进行正弦合成的浊音(V)部分中,可以产生第n帧和第(n+1)帧之间的所有波形,如图19中所示。然而,对于跨在V和UV部分的信号部分,例如在图19中的第(n+1)帧和第(n+2)帧,或对于跨在UV部分和V部分的部分,该UV部分仅对±80采样(160个采样的总和等于一帧间隔)进行编码和解码。其结果是在V侧的邻近的各帧之间的中心点CN之外进行开窗口,而在UV侧远离中心点CN进行开窗口,用于重叠结合部,如图20所示。相反的程序用于从UV向V的过渡部分。在V侧的窗口也可在图20中用虚线表示。
下面解释在浊音(V)部分处的噪声合成和噪声叠加。利用噪声合成电路216、加权的重叠相加电路217和利用图4中的加法器218,通过将LPC余值信号中的浊音部分相加到考虑如下的参数的噪声中结合浊音部分的激励信号(作为LPC合成滤波器输入),来进行这些操作。
即,这些参数可以列举有:音调滞后Pch、浊音部分的频谱幅值Am[i],在帧Amax中的最大频谱幅值Amax和余值信号电平lev。音调滞后Pch是对预置采样频率fs在一音调区间的采样数,(例如fs=8千赫),而在频谱幅值Am[i]中的i是一整数,0<i<l,对于在fs/2的频带内的谐波数为l=Pch/2。
由这种噪声合成电路216进行的处理在很大程度上与例如利用多频带编码(MBE)合成清音部分相同。图21表示噪声合成电路216的一个具体实施例。
即,参阅图21,白噪声发生器401输出高斯噪声,然后利用SFFT处理器(402)按短时付立叶变换(STFT)对其进行处理,以便产生沿频率轴的噪声的功率谱。高斯噪声是利用适当的窗口函数例如具有预置长度例如256采样的汉明窗口来开窗口的噪声信号波形。为了进行幅值处理来自STFT处理器402的功率谱输送到乘法器403,以便与噪声幅值控制电路410的输出相乘。放大器403的输出送到反STFT(ISTFT)处理器404,在其中利用原有的白噪声的部分作为该部分对其进行ISTFT,用于变成时域信号。ISTFT处理器404的输出送到加权叠加和一般加法电路217。
在图21中的实施例中,由白噪声发生器401产生时域的噪声并利用正交变换例如STFT进行处理,用以产生时域的噪声。另外,利用噪声发生器也可以直接产生频域噪声。通过直接产生频域噪声,可以取消例如用于STFT或ISTFT的正交变换处理操作。
具体地说,可以采用:产生在±X的范围内的随机数和处理所产生的随机数作为FFT频谱的实数和虚数部分的方法;或者产生从0到一最大数(max)的范围内的正随机数的方法,用于将它们处理作为FFT频谱的幅值;以及产生范围在-π到π的随机数以及处理这些随机数作为FFT频谱的部分的方法。
这就使得能取消图21中的STFT处理器402,以简化结构或减少处理量。
噪声幅值控制电路410的基本结构例如在图22中所示,根据由图4中的频谱包络线的量化器212经连接端411提供的浊音(V)部分的频谱幅值,通过控制在乘法器403中的倍增系数,求出合成的噪声幅值(Am_noise[i])。即在图22中,输入有频谱幅值Am[i]和音调滞后Pch的最佳噪声混合值计算电路416的输出利用噪声加权电路417进行加权,形成的输出送到乘法器418,以便乘以频谱幅值Am[i],产生噪声幅值(Am_noise[i])。作为对于噪声合成和求和的第一具体实施例,下面解释一个实例,其中噪声幅值(Am_noise[i])变为上述4个参数中的两个参数即音调滞后Pch和频谱幅值Am[i]的函数。
在这些函数中f1(Pch,Am[i])为
f1(Pch,Am[i])=0,其中0<i<Noise_bxl)
f1(Pch,Am[i]=Am[i]×noise_mix,其中Noise_bxl≤i≤l,以及noise_mix=kxPch/2.0
应指出,noise_max的最大值是noise_mix_max,在该值下最大噪声被限幅。作为一个实例,K=0.02,noise_mix_max=0.3以及Noise_b=0.7,其Noise_b是一常数,它确定整个频带的哪一部分要添加噪声。在本实施例中,噪声添加在频率范围中的高于70%的部分,即如fs=8千赫,噪声添加在从4000×0.7=2800千赫直到4000千赫的范围内。
作为对于噪声合成和求和的第二具体实施例,其中噪声幅值Am_noise[i]是4个参数的3个(即音调滞后Pch、频谱幅值Am[i]和最大频谱幅值Amax)的函数f2(Pch,Am[i]Amax)下面解释
在这些函数中f2(Pch,Am[i],Amax)为
f2(Pch,Am[i],Amax)=0,其中0<i<Noise_bxl)
f1(Pch,Am[i],Amax)=Am[i]×noise_mix,其中Noise_bxl<i<l,以及
noise_mix=k×Pch/2.0
应注意,noise_mix的最大值为noise_mix_max,以及作为一个实例,k=0.02,noise mix_max=0.3,以及Noise_b=0.7。
如Am[i]×noise_mix>Amax×C×noise_mix,
f2(Pch,Am[i]Amax)=Amax×C×noise_mix,其中常数C设为0.3(C=0.3)。由于利用这一状态方程可以防止这一电平过高,上述K和noise_mix_max的电平可以进一步增加,如果高范围的电平变高,噪声电平可能进一步增加。
作为噪声合成和求和的第三具体实施例,上述噪声幅值(Am_noise)可以是上述全部4个参数的函数,即f3(Pch,Am[i],Amax,Lev)。
函数f3(Pch,Am[i],Am[max],Lev)的具体实例基本上与上述函数f2(Pch,Am[i],Amax)的实例相类似。该余值信号电平Lev是频谱幅值Am[i]的均一方根(RMS)或在时间轴计量的信号电平。与第二具体实施例的差别在于K和noise_mix_max的数值设为Lev的函数。即,如果Lev或小或大,k和noise_mix_max的数值分别置于较大和较小的数值。另外,可以将Lev的数值设置得与k和noise_mix_max的数值成反比。
下面解释后置滤波器238V,238U。
图23表示一可用作在图4的实施例中的后置滤波器238U,238V的后置滤波器。作为该后置滤波器中的主要部分的频谱形状滤波器440由主峰段加强滤波器441和高范围加强滤波器442组成。频谱形状滤波器440的输出送到一适于校正由频谱形状引起的增益变化的增益调节电路443。增益调节电路443的增益G由增益控制电路445通过将一输入X与频谱成形滤波器440的输出相比较来确定,用以计算增益变化,计算校正值。
如果LPC合成滤波器中的分母HV(Z)和HUV(Z)中的系数(即为‖-参数)表示为αi,频谱成形滤波器440的特性可用下式表示:
这一方程中的分数部分表示主峰段加强滤波器的特性,而(1-KZ-1)部分表示高范围加强滤波器的特性。β,γ和K是常数,例如β=0.6,γ=0.8和K=0.3。
增益调节电路443的增益由下式确定:
在上述方程中,x(i)和y(i)分别代表频谱滤波器440的输入和输出。
应指出,虽然频谱成形滤波器440的系数更新周期是20采样或2.5毫秒,(正如对于作为LPC合成滤波器的系数的α参数的更新周期一样),如图24所示,增益调节电路443的增益G的更新周期是160采样或20毫秒。
通过将频谱成形滤波器443的系数更新周期设定得长于作为后置滤波器的频谱成形滤波器440的系数更新周期,就能够防止由于增益调节脉动另外引起的影响。
即,在通常的后置滤波器中,将频谱成形滤波器的系数更新周期设定得等于增益更新周期,如果将增益更新周期选择为20采样或2.5毫秒,即使在一个音调周期内也会引起增益数值的变化,如图24中所示,因此,产生咯咯噪声。在本实施例中,通过将增益转换周期设定得较长,例如等于一帧或160采样或20毫秒,可以防止急剧的增益值变化。相反,如果频谱成形滤波器的系数更新周期为160采样或20毫秒,滤波器特性可能产生不平滑的变化,因此,对合成的波形产生不良影响。然而,通过将滤波器系数更新周期设定得比20采样或2.5毫秒为短的数值,则可实现更有效的后置滤波。
通过在各邻近帧之间的增益调节处理,前一帧和现时帧的滤波器系数和增益乘以由下式
W(i)=i/20(0≤i≤20)和1-W(i)表示的三角形窗口函数,其中0≤i≤20,用于淡入和淡出,并将所形成的积加在一起。图25表示前一帧的增益G怎样并合现时帧的增益G1。具体地说,利用前一帧的增益和滤波器系数的比例逐渐降低,而利用现时帧的增益和滤波器系数的比例逐渐提高。对于现时帧的内部状态和对于前一帧的内部状态在图25中的时间点T都由相同的状态开始,即由前一帧的最终状态开始。
上述信号编码和信号解码装置可以用作例如在如图26和27所示的便携式通信终端或便携式电话中采用的语音代码簿。
图26表示采用按照图1和3中所示构成的语音编码单元160的便携式终端的发送侧。由图26中的拾音器161汇集的语音信号由放大器162放大,由模/数(A/D)变换器163变换为数字信号,再送到按照图1和图3构成的语音编码单元。来自A/D变换器163的数字信号提供到输入端101。语音编码单元160按照结合图1和图3所解释的进行编码。图1和图2中的输出端的输出信号作为语音编码单元160的输出信号输送到发送信道编码单元164,然后其再对所提供的信号进行信道编码。发送信道编码单元164的输出信号送到调制电路165,用于进行调制,从该处经数/模(D/A)变换器166和RF放大器167提供到天线168。
图27表示采用如图4所示结构构成的话音解码单元260的便携式终端的接收侧。利用图27中的天线接收的语音信号由RF放大器262放大,经模/数(D/A)变换器263送到解调电路264,由其经解调的信号送到发送通道解调电路265。解码单元265的输出信号提供到按图2和4构成的语音解码单元260。语音解码单元260按照结合图2和图4所解释的方式对信号进行解码。在图2和图4中的输出端201的输出信号作为语音解码单元260的信号提供到数/模(D/A)变换器266。来自D/A变换器266的模拟语音信号送到扬声器268。
本发明并不局限于上述实施例。例如,图1和图3中的语音分析侧(编码器)的结构或图2和图4中的语音合成侧(解码器)的结构如上所述作为硬件利用例如数字信号处理器(DSP)通过软件编程可以实现。在解码器侧的合成滤波器236、237或后置滤波器238V,238U可以按照单独的LPC合成滤波器或单独的后置滤波器(没有分离为用于浊音或清音部分的对应滤波器)设计构成。本发明还不局限于发送或记录/重现,可以适用于各种用途,例如音调变换,速度变换、计算机化的语音合成或噪声抑制。
Claims (6)
1、一种语音编码方法,其中输入的语音信号根据预设的编码单位在时间轴被划分并根据预设的编码单位编码,包含的步骤有:
求出输入的语音信号的短期预测的余值;
通过正弦分析编码对因此求出的短期预测的余值编码;以及
通过对波形编码对输入的语音信号编码,其中改进在于:
将按声觉加权的矢量量化或矩阵量化应用于对短期预测的余值的参数的正弦分析编码;以及在于:
在按声觉加权的矢量量化或矩阵量化时,根据由加权的传递函数的激励响应产生的参数的正交变换的结果,计算加权值。
2、一种用于对声音信号编码的方法,其中输入的声音信号用由与输入的声音信号相对应的变换为频域的信号产生的参数来表示,其中的改进在于,
对于所述参数的加权的矢量量化,根据由加权的传递函数的激励响应产生的参数的正交变换的结果,计算加权值。
3、如权利要求2所述的用于对声音信号编码的方法,其中
所述正交变换是快速付立叶变换,并且其中,根据快速付立叶变换得到的系数中的实数和虚数部分分别用re和im表示,(re,im)本身,re 2+i2 m或(re 2+i2 m)1/2当被内插时用作所述加权权重。
4、一种语音编码装置,其中输入的语音信号根据预设的编码单位在时间轴上被划分,并根据预设的编码单位编码,该装置包含:
预测编码装置,用于求出输入的语音信号的短期预测的余部;
正弦分析编码装置,用于将正弦分析编码应用于上面求出的短期预测的余值;
波形编码装置,用于将波形编码应用于所述输入的语音信号,其中改进在于:
所述正弦分析编码装置,利用按声觉加权的矢量量化或矩阵量化,用于对所述短时预测的余值的正弦分析编码参数进行量化;以及在于:
根据由加权的传递函数的激励响应产生的参数的正交变换的结果,在按声觉加权矩阵量化或矢量量化时,计算加权值。
5、一种用于对声音信号编码的装置,其中输入的声音信号用由与输入的声音信号相对应的变换为频域的信号产生的参数来表示,其中的改进在于:
对于所述参数的加权的矢量量化,根据由加权的传递函数的激励响应产生的参数的正弦变换的结果,计算加权值。
6、如权利要求5所述的用于对输入的声音信号编码的装置,其中
所述正交变换是快速付立叶变换,以及其中如根据快速付立叶变换得到的系数的实数部分和虚数部分用re和im来表示,将(re,im)本身,re 2+i2 m或(re 2+i2 m)1/2被内插时,用作所述加权值。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP281111/96 | 1996-10-23 | ||
JP281111/1996 | 1996-10-23 | ||
JP8281111A JPH10124092A (ja) | 1996-10-23 | 1996-10-23 | 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1193158A true CN1193158A (zh) | 1998-09-16 |
CN1160703C CN1160703C (zh) | 2004-08-04 |
Family
ID=17634512
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB971262225A Expired - Fee Related CN1160703C (zh) | 1996-10-23 | 1997-10-22 | 语音编码方法和装置以及声音信号编码方法和装置 |
Country Status (7)
Country | Link |
---|---|
US (1) | US6532443B1 (zh) |
EP (1) | EP0841656B1 (zh) |
JP (1) | JPH10124092A (zh) |
KR (1) | KR19980032983A (zh) |
CN (1) | CN1160703C (zh) |
DE (1) | DE69729527T2 (zh) |
TW (1) | TW380246B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101542599B (zh) * | 2006-11-28 | 2013-08-21 | 三星电子株式会社 | 用于编码和解码宽带语音信号的方法、装置和系统 |
CN109478407A (zh) * | 2016-03-15 | 2019-03-15 | 弗劳恩霍夫应用研究促进协会 | 用于处理输入信号的编码装置和用于处理编码后的信号的解码装置 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3404350B2 (ja) * | 2000-03-06 | 2003-05-06 | パナソニック モバイルコミュニケーションズ株式会社 | 音声符号化パラメータ取得方法、音声復号方法及び装置 |
ES2287122T3 (es) * | 2000-04-24 | 2007-12-16 | Qualcomm Incorporated | Procedimiento y aparato para cuantificar de manera predictiva habla sonora. |
JP4538705B2 (ja) * | 2000-08-02 | 2010-09-08 | ソニー株式会社 | ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体 |
US20060025991A1 (en) * | 2004-07-23 | 2006-02-02 | Lg Electronics Inc. | Voice coding apparatus and method using PLP in mobile communications terminal |
CA2581810C (en) | 2004-10-26 | 2013-12-17 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
TWI397901B (zh) * | 2004-12-21 | 2013-06-01 | Dolby Lab Licensing Corp | 控制音訊信號比響度特性之方法及其相關裝置與電腦程式 |
US7587441B2 (en) * | 2005-06-29 | 2009-09-08 | L-3 Communications Integrated Systems L.P. | Systems and methods for weighted overlap and add processing |
US7966175B2 (en) * | 2006-10-18 | 2011-06-21 | Polycom, Inc. | Fast lattice vector quantization |
US7953595B2 (en) | 2006-10-18 | 2011-05-31 | Polycom, Inc. | Dual-transform coding of audio signals |
EP2144231A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
JP5525540B2 (ja) * | 2009-10-30 | 2014-06-18 | パナソニック株式会社 | 符号化装置および符号化方法 |
CN101968960B (zh) * | 2010-09-19 | 2012-07-25 | 北京航空航天大学 | 一种基于faac及faad2的多路音频实时编解码硬件设计平台 |
CN101968961B (zh) * | 2010-09-19 | 2012-03-21 | 北京航空航天大学 | 一种基于faac lc模式的多路音频实时编码软件设计方法 |
KR101747917B1 (ko) | 2010-10-18 | 2017-06-15 | 삼성전자주식회사 | 선형 예측 계수를 양자화하기 위한 저복잡도를 가지는 가중치 함수 결정 장치 및 방법 |
WO2012110448A1 (en) | 2011-02-14 | 2012-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result |
AU2012217269B2 (en) | 2011-02-14 | 2015-10-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for processing a decoded audio signal in a spectral domain |
JP5712288B2 (ja) | 2011-02-14 | 2015-05-07 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 重複変換を使用した情報信号表記 |
JP5849106B2 (ja) | 2011-02-14 | 2016-01-27 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法 |
TWI488176B (zh) | 2011-02-14 | 2015-06-11 | Fraunhofer Ges Forschung | 音訊信號音軌脈衝位置之編碼與解碼技術 |
PL2676267T3 (pl) | 2011-02-14 | 2017-12-29 | Fraunhofergesellschaft Zur Förderung Der Angewandten Forschung E V | Kodowanie i dekodowanie pozycji impulsów ścieżek sygnału audio |
MX2013009306A (es) | 2011-02-14 | 2013-09-26 | Fraunhofer Ges Forschung | Aparato y metodo para codificar y decodificar una señal de audio utilizando una porcion alineada anticipada. |
TWI480857B (zh) | 2011-02-14 | 2015-04-11 | Fraunhofer Ges Forschung | 在不活動階段期間利用雜訊合成之音訊編解碼器 |
US9252730B2 (en) | 2011-07-19 | 2016-02-02 | Mediatek Inc. | Audio processing device and audio systems using the same |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4827517A (en) | 1985-12-26 | 1989-05-02 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
US5420887A (en) | 1992-03-26 | 1995-05-30 | Pacific Communication Sciences | Programmable digital modulator and methods of modulating digital data |
CA2105269C (en) | 1992-10-09 | 1998-08-25 | Yair Shoham | Time-frequency interpolation with application to low rate speech coding |
US5781880A (en) * | 1994-11-21 | 1998-07-14 | Rockwell International Corporation | Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual |
JP3707116B2 (ja) | 1995-10-26 | 2005-10-19 | ソニー株式会社 | 音声復号化方法及び装置 |
JP4005154B2 (ja) * | 1995-10-26 | 2007-11-07 | ソニー株式会社 | 音声復号化方法及び装置 |
-
1996
- 1996-10-23 JP JP8281111A patent/JPH10124092A/ja not_active Abandoned
-
1997
- 1997-10-09 TW TW086115091A patent/TW380246B/zh not_active IP Right Cessation
- 1997-10-15 US US08/951,028 patent/US6532443B1/en not_active Expired - Lifetime
- 1997-10-17 DE DE69729527T patent/DE69729527T2/de not_active Expired - Lifetime
- 1997-10-17 EP EP97308287A patent/EP0841656B1/en not_active Expired - Lifetime
- 1997-10-20 KR KR1019970053788A patent/KR19980032983A/ko not_active Application Discontinuation
- 1997-10-22 CN CNB971262225A patent/CN1160703C/zh not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101542599B (zh) * | 2006-11-28 | 2013-08-21 | 三星电子株式会社 | 用于编码和解码宽带语音信号的方法、装置和系统 |
CN109478407A (zh) * | 2016-03-15 | 2019-03-15 | 弗劳恩霍夫应用研究促进协会 | 用于处理输入信号的编码装置和用于处理编码后的信号的解码装置 |
CN109478407B (zh) * | 2016-03-15 | 2023-11-03 | 弗劳恩霍夫应用研究促进协会 | 用于处理输入信号的编码装置和用于处理编码后的信号的解码装置 |
Also Published As
Publication number | Publication date |
---|---|
US6532443B1 (en) | 2003-03-11 |
EP0841656B1 (en) | 2004-06-16 |
TW380246B (en) | 2000-01-21 |
DE69729527D1 (de) | 2004-07-22 |
DE69729527T2 (de) | 2005-06-23 |
JPH10124092A (ja) | 1998-05-15 |
KR19980032983A (ko) | 1998-07-25 |
EP0841656A2 (en) | 1998-05-13 |
CN1160703C (zh) | 2004-08-04 |
EP0841656A3 (en) | 1999-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1160703C (zh) | 语音编码方法和装置以及声音信号编码方法和装置 | |
CN1156303A (zh) | 语音编码方法和装置以及语音解码方法和装置 | |
CN1154976C (zh) | 再现语音信号的方法和装置以及传输该信号的方法 | |
CN1145142C (zh) | 矢量量化方法和语音编码方法及其装置 | |
CN1229775C (zh) | 宽带语音和音频信号解码器中的增益平滑 | |
CN1200403C (zh) | 线性预测编码参数的矢量量化装置 | |
CN1223994C (zh) | 声源矢量生成装置以及声音编码装置和声音解码装置 | |
CN1296888C (zh) | 音频编码装置以及音频编码方法 | |
CN1131507C (zh) | 音频信号编码装置、解码装置及音频信号编码·解码装置 | |
CN1165892C (zh) | 对宽带信号进行解码时的周期性增强的方法和设备 | |
CN1245706C (zh) | 多模式语音编码器 | |
CN1632864A (zh) | 扩散矢量生成方法及扩散矢量生成装置 | |
CN1156872A (zh) | 语音编码的方法和装置 | |
CN1155725A (zh) | 语音编码方法和装置 | |
CN1222997A (zh) | 音频信号编码方法、解码方法,及音频信号编码装置、解码装置 | |
CN1898723A (zh) | 信号解码装置以及信号解码方法 | |
CN1890713A (zh) | 用于数字信号压缩编码的多脉冲字典的索引间的编码转换 | |
CN1669071A (zh) | 用于在音频代码的编码/解码处理之间转换代码的方法和装置以及使用该方法和装置的存储介质 | |
CN1216367C (zh) | 数据处理装置 | |
CN1808569A (zh) | 话音编码器,正交检索方法和celp话音编码方法 | |
CN1242860A (zh) | 话音信号编码器和话音信号解码器 | |
CN1877698A (zh) | 声源矢量生成装置以及声音编码装置和声音解码装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20040804 Termination date: 20131022 |