CN1222926C - 语音编码方法及其装置 - Google Patents
语音编码方法及其装置 Download PDFInfo
- Publication number
- CN1222926C CN1222926C CN01821214.XA CN01821214A CN1222926C CN 1222926 C CN1222926 C CN 1222926C CN 01821214 A CN01821214 A CN 01821214A CN 1222926 C CN1222926 C CN 1222926C
- Authority
- CN
- China
- Prior art keywords
- distortion
- vector
- driving
- search
- evaluation value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 239000013598 vector Substances 0.000 claims abstract description 285
- 238000011156 evaluation Methods 0.000 claims abstract description 140
- 239000002131 composite material Substances 0.000 claims abstract description 70
- 238000004364 calculation method Methods 0.000 claims abstract description 47
- 230000005484 gravity Effects 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 17
- 238000005070 sampling Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 abstract 1
- 230000035807 sensation Effects 0.000 description 37
- 230000000694 effects Effects 0.000 description 19
- 230000006866 deterioration Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 230000014509 gene expression Effects 0.000 description 14
- 238000001914 filtration Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 9
- 230000009471 action Effects 0.000 description 6
- 230000001052 transient effect Effects 0.000 description 6
- 239000000654 additive Substances 0.000 description 5
- 230000000996 additive effect Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- JEIPFZHSYJVQDO-UHFFFAOYSA-N ferric oxide Chemical compound O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000007634 remodeling Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
以提供一种很少产生解码语音的局部反常噪音的高质量的语音编码方法和装置为目的。所述装置中设有:多个生成驱动向量的驱动向量生成部件13;对每个驱动向量,计算出以关于在从输入语音求出的编码对象信号和从驱动向量求出的合成向量之间定义的波形的失真作为第一失真的第一失真计算部分23;对每个驱动向量,计算出在所述编码对象信号和从驱动向量求出的合成向量之间定义的、与第一失真不同的失真作为第二失真的第二失真计算部分24;对每个驱动向量,用所述第一失真和第二失真计算出规定的搜索用评价值的评价值计算部分29;选择使搜索用评价值为最小的驱动向量,并输出与被选择的驱动向量预先对应上的代码的搜索部件20。
Description
技术领域
本发明涉及把数字语音信号压缩成较小信息量的语音编码方法及其装置,尤其涉及语音编码方法及其装置的驱动向量(fixedexcitation)的搜索。
背景技术
到目前为止,在多数语音编码方法和装置中,把输入语音划分为频谱包络信息和声源,分别以帧为单位进行编码生成语音代码。
最具有代表性的是,在文献1“使用共轭结构代数码驱动线性预测的8kbit/s语音编码(CS-ACELP)”(ITU-T Recommendation G.729,“CODING OF SPEECH AT 8kbit/s USING CONJUGATE-STURUCTURE ALGEBRAIC-CODE-EXCITED LINEAR-PREDICTION(CS-ACELP)”),1996年3月)等文献中所公开的、使用代码驱动线性预测编码(Code-Excited Linear Prediction:CELP)方式的语音编码方法和装置。
图8是表示在文献1中所公开的传统的CELP系统的语音编码装置的整个结构的框图。
图中:1为输入语音、2为线性预测分析部件、3为线性预测系数编码部件、4为自适应声源编码部件、5为驱动声源编码部、6为增益编码部件、7为复用部件、8为语音代码。
在该传统的语音编码装置中,以10ms为1帧进行处理。对于声源的编码,则把一个帧分割为两个子帧并对每个子帧进行处理。而且,为了使说明容易理解,在以后的说明中,不对帧和子帧进行特别的区分,简单地记为帧。
以下,就该传统的语音编码装置的动作进行说明。首先,输入语音1被输入到线性预测分析部件2和自适应声源编码部件4和增益编码部件6。线性预测分析部件2对输入语音1进行分析,并抽出语音的频谱包络信息即线性预测系数。线性预测系数编码部件3对该线性预测系数进行编码,并把该代码输出到复用部件7,同时为了对声源进行编码输出被量化的线性预测系数。
自适应声源编码部件4,将以前的规定长度的声源(信号)作为自适应声源代码本进行存储,并对应于在内部产生的数个比特的二进制值表示的各个自适应声源代码,生成周期性地重复以前的声源的时间序列向量(自适应向量)。然后,使时间序列向量通过使用了从线性预测系数编码部件3输出的经量化的线性预测系数的合成滤波器,得到暂时的合成语音。检查该暂时的合成语音乘以适当增益后的信号与输入语音1之间的失真,并选择使该失真最小化的自适应声源代码输出到复用部件7,同时把对应于被选择的自适应声源代码的时间序列向量作为自适应声源,输出到驱动声源编码部分5和增益编码部件6。并且,把从输入语音1减去依据自适应声源的合成语音乘以适当增益后的信号所得的信号,作为编码对象信号输出到驱动声源编码部分5。
驱动声源编码部分5,首先,对应于在内部产生的用二进制值表示的各驱动声源代码,顺序地从存储在内部的驱动声源代码本读出时间序列向量(驱动向量)。然后,使时间序列向量通过使用了从线性预测系数编码部件3输出的量化的线性预测系数的合成滤波器,得到暂时的合成语音。对该暂时的合成语音乘以适当增益后的信号和从输入语音1减去依据自适应声源的合成语音所得的信号即编码对象信号之间的失真加以检查,并选择使该失真最小化的驱动声源代码输出到复用部件7,同时把对应于被选择的驱动声源代码的时间序列向量作为驱动声源,输出到增益编码部件6。
增益编码部件6,首先,对应于在内部产生的用二进制值表示的各增益代码,顺序地从存储在内部的增益代码本读出增益向量。然后,把各增益向量的各要素,跟从自适应声源编码部件4输出的自适应声源和从驱动声源编码部分5输出的驱动声源相乘,然后进行相加来生成声源,让生成的该声源通过使用了从线性预测系数编码部件3输出的量化的线性预测系数的合成滤波器,得到暂时的合成语音。对该暂时的合成语音与输入语音1之间的失真加以检查,并选择使该失真最小化的增益代码输出到复用部件7。另外,把对应于该增益代码的上述生成的声源输出到自适应声源编码部件4。
最后,自适应声源编码部件4,使用通过增益编码部件6生成的对应于增益代码的声源,对内部的自适应声源代码本进行更新。
复用部件7复用从线性预测系数编码部件3输出的线性预测系数的代码、从自适应声源编码部件4输出的自适应声源代码、从驱动声源编码部5输出的驱动声源代码、从增益编码部件6输出的增益代码,并输出由此得到的语音代码8。
图9是表示在文献1等中所公开的传统的CELP系语音编码装置的驱动声源编码部分5的详细结构的框图。
图9中:9为自适应向量生成部件、10和14为合成滤波器、11为减法运算部件、12为编码对象信号、13为驱动向量生成部件、15为失真计算部分、20为搜索部件、21为驱动声源代码、22为驱动声源。失真计算部分15由听觉加权滤波器16、听觉加权滤波器17、减法运算部件18、功率计算部件19构成。而且,自适应向量生成部件9、合成滤波器10、减法运算部件11包括在自适应声源编码部件4内,但是,为了更容易理解内容,一起在图中示出。
首先,自适应声源编码部件4内的自适应向量生成部件9,把对应于前述自适应声源代码的时间序列向量,作为自适应声源输出到合成滤波器10。
自适应声源编码部件4内的合成滤波器10,把从图8中的线性预测系数编码部件3输出的经量化的线性预测系数作为滤波器系数加以设定,并对从自适应向量生成部件9输出的自适应声源进行合成滤波,把得到的合成语音输出到减法运算部件11。
自适应声源编码部件4内的减法运算部件11,求出从合成滤波器10输出的合成语音和输入语音1之间的差信号,并将得到的差信号作为驱动声源编码部分5中的编码对象信号12加以输出。
另一方面,搜索部件20使得以二进制值表示的各驱动声源代码顺序地产生,并顺序地输出到驱动向量生成部件13。
驱动向量生成部件13对应于从搜索部件20输出的驱动声源代码,从存储在内部的驱动声源代码本读出时间序列向量,并作为驱动向量输出到合成滤波器14。而且,作为驱动声源代码本,有存储预先准备的噪声向量的驱动声源代码本和通过用代数方式使脉冲位置和极性相结合描述的代数声源代码本等。另外,还有相加两个以上的代码本形式的驱动声源代码本,或者将使用了自适应声源的重复周期的声调周期化包含在内的驱动声源代码本。
合成滤波器14,把从线性预测系数编码部件3输出的经量化的线性预测系数作为滤波器系数加以设定,并对从驱动向量生成部件13输出的驱动向量进行合成滤波,把得到的合成语音输出到失真计算部分15。
失真计算部分15内的听觉加权滤波器16,基于从线性预测系数编码部件3输出的经量化的线性预测系数,算出听觉加权滤波器系数,并把该听觉加权滤波器系数设定为滤波器系数,对从自适应声源编码部件4内的减法运算部件11输出的编码对象信号12进行滤波,把得到的信号输出到减法运算部件18。
失真计算部分15内的听觉加权滤波器17,设定于听觉加权滤波器16相同的滤波器系数,对从合成滤波器14输出的合成语音进行滤波,把得到的信号输出到减法运算部件18。
失真计算部分15内的减法运算部件18,求出在从听觉加权滤波器16输出的信号和从听觉加权滤波器17输出的信号乘以适当的增益后得到的信号之间的差信号,并把该差信号输出到功率计算部件19。
失真计算部分15内的功率计算部件19,求出从减法运算部件18输出的差信号的总功率,并将它作为搜索用评价值输出到搜索部件20。
搜索部件20对使从失真计算部分15内的功率计算部件19输出的搜索用评价值加以最小化的驱动声源代码进行搜索,并把使搜索用评价值最小化的驱动声源代码作为驱动声源代码21进行输出。另外,驱动向量生成部件13将在输入该驱动声源代码21时输出的驱动向量,作为驱动声源22进行输出。
而且,在减法运算部件18中相乘的增益,通过解偏微分方程式被唯一地确定,以使搜索用评价值达到最小化。为了减少运算量,有各种关于实际的失真计算部分15的内部结构的改型见于报道。
另外,在日本专利申请特开平7-271397号公报上,公开了几种减少失真计算部分的运算量的方法。以下,就在日本专利申请特开平7-271397号公报上所公开的失真计算部分的方法进行说明。
设将驱动向量通过合成滤波器14而得到的合成语音为Yi,输入语音为R(相当于图9中的编码对象信号12)时,定义为两个信号之间的波形失真的搜索用评价值,如式(1)所示。
E=|R-αYi|2 (1)
这与在图9中说明的搜索用评价值计算中,没有导入听觉加权滤波器的场合相一致。α为在减法运算部件18中所乘的增益,将式(1)对α进行偏微分后所得到的式设为零,求出α,并代入到式(1)得到式(2)。
E=|R|2-(R,Yi)2/|Yi|2 (2)
式(2)中的第一项是不依赖于驱动向量的常数,因此,使搜索用评价值E的最小化,相当于使式(2)的第二项的最大化。因此,在很多场合把式(2)中的第二项原样地直接地作为搜索用评价值使用。
由于运算该式(2)的第二项需要很多运算量,所以在日本专利申请特开平7-271397号公报中,进行使用了简化的搜索用评价值的预选择,只对预选择的驱动向量计算式(2)的第二项进行计算来减少运算量。作为在预选择中使用的经简化的搜索用评价值,有式(3)~(5)等已经被采用。
E′=(R,Yi)2 (3)
E′=W(yi)(R,Yi)2 (4)
E′=W(C,i)(R,Yi)2 (5)
式中,Yi为驱动向量,C为存储在代码本的驱动向量组,据报道,把由它们所定义的加权系数W与式(3)相乘所得的值作为预选择中的搜索用评价值,由此,与使用式(3)相比,使用式(4)或式(5)时的预选择的精度会更高。
预选择时的经简化的搜索用评价值即式(3)、式(4)、式(5),与本选择时的搜索用评价值即式(2)的第二项相比,只有基于驱动向量组C或驱动向量yi的加权系数的乘法运算和根据驱动向量的合成语音Yi的加权的除法运算部分不同。式(3)、式(4)、式(5)中的任何一项,都与式(2)的第二项相近似,对于评价式(1)中表示的两个信号之间的波形失真没有什么区别。
但是,在上述的传统语音编码方法和装置中,存在下述的问题。
如果能用于驱动声源代码的信息量少时,即驱动向量的数变小时,即使选择了使式(1)至式(5)中所说明的使波形失真最小化的驱动声源代码,在对包括该驱动声源代码的语音代码进行解码而得到的解码语音中,也还有引起音质恶化的场合。
图10是说明引起音质恶化的一个示例的说明图。图10中,(a)是编码对象信号、(c)是驱动向量、(b)是使(c)中表示的驱动向量通过合成滤波器后得到的合成语音。它们都表示编码对象帧内部的信号。在该例中,作为驱动向量使用了把脉冲位置和极性用代数方式描述的代数声源。
图10的场合,在帧的后半部分(a)和(b)类似度较高,能够比较良好地描述(a),但在帧的前半部分(b)的振幅为0,则完全不能描述(a)。在语音的上升部分等自适应声源的增益没有取较大值时,在许多场合下,解码语音中如图10所示的帧的一部分编码特性极端恶化的部分,听起来是局部的反常噪声的情况很多。
也就是说,在选择使所有帧的波形失真最小化的驱动声源代码的传统方法中,存在如图10所示,即使帧内部存在一部分编码特性极端恶化的部分也被选择,从而使解码语音的品质恶化的问题。
而且,即使使用日本专利申请特开平7-271397号公报中所公开的被简化的搜索用评价值,也不能消除此问题。
本发明是为了解决以上所述的问题而提出,并提供一种很少产生解码语音局部反常噪声的高质量的语音编码方法和装置为目的。并且,本发明的目的还在于,将运算量的增加抑制到最小限度,并提供一种高质量的语音编码方法和装置。
发明内容
为了达到上述目的,本发明的语音编码方法是一种对把输入语音称为帧的每个预定长度区域进行编码的语音编码方法,其中包括:生成多个驱动向量的驱动向量生成工序;对每个驱动向量,在从输入语音求出的编码对象信号和从驱动向量求出的合成向量之间定义的有关波形的失真作为第一失真进行计算的第一失真计算工序;对每个驱动向量,在从输入语音求出的编码对象信号和从驱动向量求出的合成向量之间定义的,与所述第一失真不同的,有关帧内的时间方向的振幅或功率的偏移失真作为第二失真进行计算的第二失真计算工序;对每个驱动向量,利用所述第一失真和第二失真计算出规定的搜索用评价值的评价值计算工序;以及选择使搜索用评价值最小化的驱动向量,并输出与被选择的驱动向量预先对应联系上的代码的搜索工序。
并且,所述语音编码方法包括:用以选择所述第一失真计算工序中算出的第一失真小的两个或两个以上的驱动向量的预选择工序,其特征在于:并且,把前述第二失真计算工序、评价值计算工序、搜索工序的对象限定于预选择工序所选择的驱动向量。
并且,所述语音编码方法包括多个生成互不相同的驱动向量的驱动向量生成工序,同时还包括对每个驱动向量生成工序,选择所述第一失真计算工序中算出的第一失真小的一个或一个以上的驱动向量的预选择工序;其特征在于:并且,把所述第二失真计算工序、评价值计算工序、搜索工序的对象,限定在预选择工序所选择的驱动向量上。
并且,所述语音编码方法的特征在于:所述第一失真计算工序在帧内相加输入语音求出的编码对象信号通过听觉加权滤波器后的信号和驱动向量求出的合成向量通过听觉加权滤波器后的信号的每个抽样的误差功率,将所得到的结果作为第一失真。
并且,所述语音编码方法的特征在于,所述第二失真计算工序把有关帧内的时间方向的振幅或权的偏移的失真作为第二失真。
并且,所述语音编码方法的特征在于,所述第二失真计算工序求出帧内的编码对象信号的振幅或权的重心位置,同时求出帧内的合成向量的振幅或权的重心位置,并把求出的两个重心位置之间的差作为第二失真。
并且,所述语音编码方法的特征在于,所述评价值计算工序通过按照第二失真对第一失真进行修正来计算搜索用评价值。
并且,所述语音编码方法的特征在于,所述评价值计算工序通过第一失真和第二失真的加权和来计算搜索用评价值。
并且,所述语音编码方法的特征在于,所述评价值计算工序依照从输入语音算出的规定参数,变更计算搜索用评价值的处理。
并且,所述语音编码方法的特征在于,包括贡献度计算工序,该贡献度计算工序求出从驱动向量以外的声源向量求出的合成向量的能量与输入语音的能量的比率,并把该比率作为其他声源的贡献度;而且,以算出的其他声源贡献度作为所述评价值计算工序中的规定参数。
并且,所述语音编码方法的特征在于,所述评价值计算工序根据驱动向量从哪一个驱动向量生成工序输出来变更计算搜索用评价值的处理。
并且,所述语音编码方法的特征在于,所述评价值计算工序包括将第一失真原样地作为搜索用评价值的处理,作为计算搜索用评价值的处理之一。
并且,本发明的语音编码装置是一种对把输入语音称为帧的每个规定长度区间进行编码的语音编码装置,其特征在于,包括:多个生成驱动向量的驱动向量生成部件;对每个驱动向量,将关于从输入语音求出的编码对象信号和从驱动向量求出的合成向量之间定义的波形的失真作为第一失真进行计算的第一失真计算部件;对每个驱动向量,计算跟从输入语音求出的编码对象信号和从驱动向量求出的合成向量之间定义的、与第一失真不同的、关于帧内的时间方向的振幅或功率的偏移失真作为第二失真的第二失真计算部件;对每个驱动向量,利用所述第一失真和第二失真计算出规定的搜索用评价值的评价值计算部件;选择使搜索用评价值最小化的驱动向量,并输出与被选择的驱动向量预先对应联系上的代码的搜索部件。
并且,所述语音编码装置的特征在于,所述第一失真计算部件在帧内对让输入语音求出的编码对象信号通过听觉加权滤波器后的信号和让从驱动向量求出的合成向量通过听觉加权滤波器后的信号的每个抽样的误差功率进行相加运算,将其结果作为第一失真。
并且,所述语音编码装置的特征在于,所述第二失真计算部件把有关帧内的时间方向的振幅或权的偏移的失真作为第二失真。
并且,所述语音编码装置的特征在于,所述评价值计算部件通过依照第二失真对第一失真进行修正来计算搜索用评价值。
并且,所述语音编码装置的特征在于,所述评价值计算部件依照从输入语音算出的规定参数,变更对搜索用评价值的计算处理。
附图说明
图1是表示采用本发明的语音编码方法的语音编码装置的第一实施例的驱动声源编码部分5的详细结构的框图。
图2是表示本发明第一实施例的搜索用评价值计算部分29的结构的结构图。
图3是说明本发明第一实施例的第二失真计算部分24的动作的说明图。
图4是表示本发明第二实施例的搜索用评价值计算部分29的结构的结构图。
图5是表示采用本发明的语音编码方法的语音编码装置的第三实施例的驱动声源编码部分5的详细结构的框图。
图6是表示采用本发明的语音编码方法的语音编码装置的第四实施例的驱动声源编码部分5的详细结构的框图。
图7是表示本发明第四实施例的搜索用评价值计算部分29的结构的结构图。
图8是表示在文献“使用共轭结构代数码驱动的线性预测的8kbit/s语音编码(CS-ACELP)”(ITU-T Recommendation G.729,“CODING OF SPEECH AT 8kbit/s USING CONJUGATE-STURUCTURE ALGEBRAIC-CODE-EXCITED LINEAR-PREDICTION(CS-ACELP)”),1996年3月)中所公开的CELP系语音编码装置的整体结构的框图。
图9是表示在上述文献1等中公开的CELP系语音编码装置的驱动声源编码部分5的详细结构的框图。
图10是关于引起音质恶化之一例的说明图。
本发明的最佳实施例
以下,参照附图,就本发明的各实施例进行说明。
第一实施例
图1是表示采用本发明的语音编码方法的语音编码装置的第一实施例的驱动声源编码部分5的详细结构的框图。
本第一实施例的语音编码装置的整个结构与图8中所示的结构相同,只是在驱动声源编码部分5上附加了输入语音1的输入端。
在图1中,与图9中所示的传统例的驱动声源编码部分5结构相同的部分均标上相同符号而省略其说明。新的符号中,23是由听觉加权滤波器16和17、减法运算部件18以及功率计算部件19构成的第一失真计算部分;24是由重心计算部件25和26及减法运算部件27构成的第二失真计算部分,28是自适应声源贡献度计算部件,29是搜索用评价值计算部分。再有,自适应向量生成部件9、合成滤波器10、减法运算部件11,包括在图8所示的自适应声源编码部件4内,但为了更容易理解内容,在图上一并示出。
以下,就本第一实施例的驱动声源编码部分5的动作进行说明。
首先,自适应声源编码部件4内的自适应向量生成部件9,把对应于前述自适应声源代码的时间序列向量,作为自适应声源输出到合成滤波器10。
自适应声源编码部件4内的合成滤波器10,把从线性预测系数编码部件3输出的经量化的线性预测系数作为滤波器系数设定,并对从自适应向量生成部件9输出的自适应声源进行合成滤波,把得到的合成语音输出到减法运算部件11和自适应声源贡献度计算部件28。
自适应声源编码部件4内的减法运算部件11,求出从合成滤波器10输出的合成语音和输入语音1之间的差信号,并把得到的差信号作为驱动声源编码部分5的编码对象信号12,输出到第一失真计算部分23和第二失真计算部分24。
自适应声源贡献度计算部件28,利用输入语音1和从合成滤波器10输出的合成语音,计算在对输入语音1进行编码中自适应声源贡献的大小,并把求出的自适应声源贡献度输出到搜索用评价值计算部分29。具体的自适应声源贡献度计算如以下所述进行。
首先,在从合成滤波器10输出的合成语音上乘上适当的增益时,设定增益以对输入语音1的波形失真达到最小化,并求出在从合成滤波器10输出的合成语音上乘上该增益后的信号的功率Pa。求出输入语音1的功率P,并计算Pa对P的比率即Pa/P作为自适应声源贡献度。而且,可根据偏微分方程式确定适当的增益,还可以通过与式(2)相同地把增益从计算式中消除的形式直接求出波形失真。如设输入语音1为R,从合成滤波器10输出的合成语音为X,则自适应声源贡献度G可通过式(6)计算。
G=(R,X)2/|R|2|X|2 (6)
另一方面,搜索部件20顺序地产生用二进制值表示的各驱动声源代码,顺序地输出到驱动向量生成部件13。
驱动向量生成部件13对应于从搜索部件20输出的驱动声源代码,从存储在内部的驱动声源代码本读出时间序列向量,并作为驱动向量输出到合成滤波器14。而且,作为驱动声源代码本,有存入了预先准备的噪声向量的驱动声源代码本,通过用代数方式使脉冲位置和极性相结合来描述的代数声源代码本等。另外,还有将两个以上的代码本相加的形式的驱动声源代码本,或者包括使用了自适应声源的重复周期的声调周期化的驱动声源代码本。
合成滤波器14,将从线性预测系数编码部件3输出的经量化的线性预测系数设定为滤波器系数,并对从驱动向量生成部件13输出的驱动向量进行合成滤波,把得到的合成语音输出到第一失真计算部分23和第二失真计算部分24。
第一失真计算部分23内的听觉加权滤波器16,基于从线性预测系数编码部件3输出的量化的线性预测系数,算出听觉加权滤波器系数,并把该听觉加权滤波器系数设定为滤波器系数,对从自适应声源编码部件4内的减法运算部件11输出的编码对象信号12进行滤波,把得到的信号输出到减法运算部件18。
第一失真计算部分23内的听觉加权滤波器17,设定与听觉加权滤波器16相同的滤波器系数,对从合成滤波器14输出的合成语音进行滤波,把得到的信号输出到减法运算部件18。
第一失真计算部分23内的减法运算部件18,求出在从听觉加权滤波器16输出的信号和从听觉加权滤波器17输出的信号乘以适当的增益而得到的信号之间的差信号,并把该差信号输出到功率计算部件19。
第一失真计算部分23内的功率计算部件19,求出从减法运算部件18输出的差信号的总功率,并将它作为第一失真输出到搜索用评价值搜索部件29。而且,在减法运算部件18中相乘的增益,通过解偏微分方程式被唯一地确定,使得第一失真成为最小。而对于实际的失真计算部分23的内部结构来说,为了减少运算量,可使用传统的修改方法。
在第二失真计算部分24内的重心计算部件25中,求出从减法运算部件11输出的编码对象信号12的帧内的振幅重心位置,并将求出的重心位置输出到减法运算部件27。振幅的重心位置,可通过计算设为对象的信号的振幅(抽样值的绝对值)的帧内总值,并再次从前端位置计算振幅的总值,然后算出到达帧内总值一半的位置来求得。
在第二失真计算部分24内的重心计算部件26中,求出从合成滤波器14输出的合成语音帧内振幅的重心位置,并将求出的重心位置输出到减法运算部件27。重心位置的计算与在重心计算部件25中所进行的计算相同。
第二失真计算部分24内的减法运算部件27,求出从重心计算部件25输出的重心位置与从重心计算部件26输出的重心位置之间的差,并将求出的重心位置的差作为第二失真输出到搜索用评价值计算部分29。
搜索用评价值计算部分29利用从自适应声源贡献度计算部件28输出的自适应声源贡献度和从第一失真计算部分23输出的第一失真及从第二失真计算部分24输出的第二失真,求出用于最终搜索的搜索用评价值,并把该搜索用评价值输出到搜索部件20。
搜索部件20对使从搜索用评价值搜索部件29输出的搜索用评价值最小的驱动声源代码进行搜索,并把使搜索用评价值最小的驱动声源代码作为驱动声源代码21进行输出。另外,驱动向量生成部件13将在输入该驱动声源代码21时输出的驱动向量,作为驱动声源22进行输出。
图2是表示上述搜索用评价值计算部分29的结构的结构图。
图2中,30和32是转换部件,31是乘法运算部件。
乘法运算部件31在从第一失真计算部分23输出的第一失真上乘上预先准备的常数β,输出乘法运算结果。常数β以1.2~2.0程度的值为最适宜。
转换部件32在从第二失真计算部分24输出的第二失真超过规定的阈值的场合,把转换开关连接到从乘法运算部件31输出的乘法运算结果,在从第二失真计算部分24输出的第二失真不超过规定的阈值的场合,把转换开关连接到从第一失真计算部分23输出的第一失真。规定的阈值以帧长度的10分之1左右为适宜。由此,转换部件32在第二失真大时输出在第一失真上乘上β的运算结果,在第二失真小时直接输出第一失真。
转换部件30在从自适应声源贡献度计算部件28输出的自适应声源贡献度超过规定的阈值的场合,把转换开关连接到从第一失真计算部分23输出的第一失真,在从自适应声源贡献度计算部件28输出的自适应声源贡献度不超过规定的阈值的场合,连接到转换部件32的输出结果。规定的阈值,以0.3~0.4左右为适宜。然后,该转换部件30的输出作为搜索用评价值,由搜索用评价值计算部分29输出。
通过以上结构,通常第一失真作为搜索用评价值进行输出,只有在第二失真大且自适应声源贡献度小的场合,在第一失真上乘上常数β后的值作为搜索用评价值进行输出。也就是说,只有在第二失真大并且自适应声源贡献度小的场合,搜索用评价值修正成较大的值,并在后面的搜索部件20中抑制选择相应的驱动声源代码。
图3是第二失真计算部分24动作的说明图。再有,编其码对象信号与图10的相同。
重心计算部件25求出如图3(a)所示的编码对象信号的重心位置。重心计算部件26求出如图3(b)所示的合成滤波后的驱动向量的重心位置。然后,减法运算部件27计算出如图3(b)所示的该两个重心位置的差。
如该图3所示,与编码对象信号相比,合成滤波后的驱动向量的振幅在帧内部极端地偏离时,作为重心位置差算出的第二失真值很大。
图3(d)是与图3(b)的场合不同的驱动向量通过合成滤波器时的合成语音。与图3(b)相比,以帧的后半部分为中心波形失真稍微大一些,但重心位置的差较小。在选择生成如该图3(d)的驱动向量的场合,帧内部没有零振幅的部分,而且解码语音的恶化也小,但是,在传统的方法中,由于只用波形失真进行选择,因此,选择了生成如图3(b)的驱动向量。与此相反地,在本实施例中,由于能够把重心位置的差作为第二失真反映在搜索用评价值上,因此,能够选择生成波形失真没有那么大而且重心位置差也小的如图3(d)所示的驱动向量。
而且,在上述的实施例中,根据编码对象信号12和从合成滤波器14输出的合成语音的振幅重心位置之间的差计算出第二失真,但是第二失真的计算不仅仅局限于此,也可以根据功率重心的位置差进行计算,或者从听觉加权滤波器16输出的信号和听觉加权滤波器17输出的信号来评价第二失真。
另外,也可以在时间方向上把帧分割成数个子帧,对编码对象信号12和从合成滤波器14输出的合成语音,分别计算出各分割的自帧内的平均振幅或平均功率,然后,求出每个编码对象信号12的分割的子帧的算出结果和从合成滤波器14输出的合成语音的每个分割的子帧的算出结果的平方距离为第二失真。并且,也可算出这几种类型的第二失真后,在搜索用评价值计算部件29中使用多个第二失真。
另外,也可以采用这样的结构:在搜索用评价值计算部分29中,不设转换部件32,把乘法运算部件31的输出改接到转换部件30上,而将在乘法运算部件31中使用的β按照第二失真进行变更。
对于第一失真计算部分23来说,也不仅仅局限于该结构,可以采用不设听觉加权滤波器的结构,或者对减法运算部件18的输出一并进行听觉加权的结构,或者采用用以减少上述运算量的各种变形。
对于自适应声源贡献度计算部件28来说,也可以对两个输入信号进行听觉加权滤波后再进行贡献度计算。
在本第一实施例中,将从输入语音1减去自适应向量通过了合成滤波器10后的合成语音的结果作为编码对象信号,但是,也可以把输入语音1直接作为编码对象信号使用,并代之以将驱动向量通过了合成滤波器14后的合成语音跟自适应向量通过了合成滤波器10后的合成语音正交的结构。
另外,在本第一实施例中,对每一帧进行驱动向量搜索,但是,当然也可以与传统技术相同地,把帧分割成多个,而对每个子帧进行搜索。
如上所述,根据本第一实施例,将关于编码对象信号和从驱动向量求出的合成向量之间定义的波形的失真被作为第一失真计算,并且对和定义在编码对象信号和从驱动向量求出的合成向量之间的第一失真不同的第二失真进行计算,并对使利用该第一失真和第二失真计算出的搜索用评价值最小的驱动向量进行选择;因此,能够通过第二失真检测到只用第一失真是无法知道的引起解码语音恶化的可能性高的驱动向量,并具有能够实现很少产生解码语音的局部反常噪声的高质量的语音编码的效果。
另外,根据本第一实施例,将从输入语音求出的编码对象信号通过了听觉加权滤波器后的信号和使从驱动向量求出的合成向量通过了听觉加权滤波器后的信号的每个抽样的误差功率在帧内部进行相加运算,将其结果作为第一失真,因此,可对主观上解码语音的失真感小的驱动向量进行选择,具有能够实现高质量的语音编码的效果。
另外,根据本第一实施例,由于把有关帧内部时间方向的振幅或功率偏移的失真作为第二失真,因此,通过第二失真能够检测到局部地产生太小振幅等引起解码语音的主观上恶化的可能性高的驱动向量,并具有能够实现很少产生解码语音的局部反常噪声的高质量的语音编码的效果。
另外,根据本第一实施例,由于求出帧内部的编码对象信号的振幅或功率的重心位置,求出帧内部的合成向量的振幅或功率的重心位置,并把求出的两个重心位置的差作为第二失真,因此,不管其处理是否简单,都可对帧内部的振幅或功率的偏移进行计算,并通过第二失真能够检测到局部地产生太小振幅等引起解码语音主观上的恶化的可能性高的驱动向量,并具有能够实现很少产生解码语音的局部反常噪声的高质量的语音编码的效果。
另外,根据本第一实施例,通过依照第二失真对第一失真进行修正,计算出搜索用评价值,因此,能够选择使基本上是波形失真的第一失真变小的、即使对于与第一失真不同的第二失真也很少出现问题的驱动向量,具有能够实现高质量语音编码的效果。
另外,根据本第一实施例,依照从输入语音算出的自适应声源贡献度等规定参数,计算出搜索用评价值,因此,通过按照语音的状态或者编码特性等只使用第一失真或者根据第二失真进行修正,能够选择很难引起解码语音的品质恶化的、适合于该帧的驱动向量,具有能够实现高质量的语音编码的效果。
另外,根据本第一实施例,计算出从自适应声源(驱动向量以外的声源向量)求出的合成向量的能量与输入语音的能量的比率,并把该比率作为自适应声源贡献度(其他声源贡献度),用于搜索用评价值的计算,因此,能够求出适合于每个帧的搜索用评价值,只在解码语音中的驱动向量贡献度大的帧内才使用第二失真等,能够选择很难引起解码语音品质恶化的、适合于该帧的驱动向量,具有能够实现高质量的语音编码的效果。
另外,根据本第一实施例,作为计算搜索用评价值处理之一,包含了把第一失真原样地直接当作搜索用评价值的处理,因此,在解码语音中的驱动向量的贡献度小、即使驱动向量的振幅存在偏移也不致引起解码语音恶化等场合中,能够选择使波形失真即第一失真最小的驱动向量,具有能够防止不必要地利用第二失真反而导致音质恶化的效果。
第二实施例
图4是表示本发明第二实施例的搜索用评价值计算部分29的结构的结构图。
图4中,30是转换部件、33和34是乘法运算部件、37是加法运算部件。
乘法运算部件33在从第一失真计算部分23输出的第一失真上乘预先准备的常数β1,并把该乘法运算结果输出到加法运算部件37。由于常数β1固定在1.0也没关系,所以乘法运算部件33本身可以省略。
另外,乘法运算部件34在从第二失真计算部分24输出的第二失真上乘预先准备的常数β2,并把该乘法运算结果输出到加法运算部件37。常数β2设定得使乘法运算部件34的平均输出小于乘法运算部件33的平均输出。
进而,加法运算部件37对乘法运算部件33的输出和乘法运算部件34的输出进行相加,并把相加结果输出到转换部件30。
转换部件30在从自适应声源贡献度计算部件28输出的自适应声源贡献度超过规定的阈值的场合,把转换开关连接到从第一失真计算部分23输出的第一失真;在从自适应声源贡献度计算部件28输出的自适应声源贡献度不超过规定阈值的场合,连接到转换部件37的输出结果。作为规定的阈值,以0.3~0.4左右为适宜。然后,该转换部件30的输出作为搜索用评价值,从搜索用评价值计算部分29输出。
通过以上结构,通常第一失真作为搜索用评价值进行输出,只有在自适应声源贡献度小的场合,第二失真被包含于搜索用评价值并加以输出。另外,通过预先设定β1和β2,使乘法运算部件34的平均输出小于乘法运算部件33的平均输出,结果主要用第一失真并且也用第二失真进行修正。因此,只有在第二失真较大且自适应声源贡献度小的场合,搜索用评价值才被修正为大值,并在后面的搜索部件20中相应的驱动声源代码的选择被抑制。
如上所述,根据本第二实施例,通过第一失真和第二失真的加权和计算出搜索用评价值,因此,能够选择使基本上是波形失真的第一失真变小的、即使与第一失真不同的第二失真也很少出现问题的驱动向量,并具有能够实现高质量的语音编码的效果。
并且,根据本第二实施例,计算出从驱动向量以外的声源向量求出的合成向量的能量与输入语音的能量的比率,并把该比率作为评价值计算工序的规定参数,因此,能够求出适合于每个帧的搜索用评价值,只有在解码语音中的驱动向量贡献度大的帧内才使用第二失真等,能够选择很难引起解码语音品质恶化的、适合于该帧的驱动向量,并具有能够实现高质量的语音编码的效果。
并且,根据本第二实施例,作为计算搜索用评价值的一种处理,包含了把第一失真原样地直接当作搜索用评价值的处理,因此,在解码语音中的驱动向量的贡献度小、即使驱动向量的振幅存在偏移解码语音也不致恶化等场合中,能够选择使波形失真即第一失真最小的驱动向量,具有能够防止不必要地使用第二失真反而导致引起音质恶化的效果。
第三实施例
图5是表示采用本发明的语音编码方法的语音编码装置的第三实施例的驱动声源编码部分5的详细结构的框图。
在本第三实施例中,语音编码装置的整个结构与图8中的相同,只是在驱动声源编码部分5上附加了输入语音1的输入端。
图5中,与图1中表示的第一实施例相同的部分采用相同的符号表示,省略其说明。新的符号35表示预选择部件。
以下,参照附图对动作进行说明。
从线性预测系数编码部件3输出的经量化的线性预测系数、从减法运算部件11输出的编码对象信号12和对每个驱动向量从合成滤波器14输出的合成语音,第一失真计算部分23求出听觉加权滤波器后的差信号的总功率,并将它作为第一失真输出到预选择部件35。
预选择部件35对从第一失真计算部分23输出的每个驱动向量的第一失真进行互相比较,并预选择M个该第一失真小的驱动向量。再有,M是小于整个驱动向量数的数。然后把预选择的驱动向量的号码输出到第二失真计算部分24,同时把对应于预选择的各驱动向量的第一失真输出到搜索用评价值计算部分29。
第二失真计算部分24对预选择部件35所预选择并输出的M个驱动向量的号码所指定的各驱动向量,求出从减法运算部件11输出的编码对象信号12和对每个驱动向量从合成滤波器14输出的合成语音之间的帧内振幅的重心位置的差值,并将求出的重心位置的差值作为第二失真输出到搜索用评价值计算部分29。
搜索用评价值计算部分29利用从自适应声源贡献度计算部件28输出的自适应声源贡献度、预选择部件35所预选择并输出的M个第一失真、从第二失真计算部分24输出的M个第二失真,求出M个用于最终搜索的搜索用评价值,并把该搜索用评价值输出到搜索部件20。
搜索部件20对使从搜索用评价值搜索部件29输出的搜索用评价值最小的驱动声源代码进行搜索,并将使搜索用评价值最小的驱动声源代码作为驱动声源代码21输出。另外,驱动向量生成部件13将在输入该驱动声源代码21时输出的驱动向量,作为驱动声源22输出。
而且,在上述第三实施例中,与第一实施例同样地,根据编码对象信号12和从合成滤波器14输出的合成语音的振幅重心位置之间的差值来计算出第二失真;但是第二失真的计算不仅局限于此,也可以根据功率重心的位置差进行计算,或者也可以对听觉加权滤波器后的信号来评价第二失真。另外,也可以在时间方向上把帧分割成数个子帧,对各编码对象信号12和从合成滤波器14输出的各合成语音,分别计算出分割子帧的平均振幅或平均功率,然后,求出每个编码对象信号12的分割子帧的算出结果和每个从合成滤波器14输出的合成语音分割子帧的算出结果的平方距离,作为第二失真。并且,能够在计算出这几种类型的第二失真后,在搜索用评价值计算部件29中使用多个第二失真。
对于第一失真计算部分23来说,可以是不设听觉加权滤波器的结构,或者是对听觉加权进行一并处理的结构,或者采用能减少运算量的各种变形结构。
并且,在本第三实施例中,从输入语音1减去让自适应向量通过合成滤波器10后的合成语音的运算结果作为编码对象信号,但是,也可以与第一实施例一样,把输入语音1原样地直接作为编码对象信号使用,并代之以让驱动向量通过合成滤波器14后的合成语音跟让自适应向量通过合成滤波器10后的合成语音正交的结构。
另外,在本第三实施例中,对每一个帧进行驱动向量搜索,但是,当然也可以与传统技术相同地,把帧分割成多个子帧,对每个子帧进行搜索。
如以上所述,根据本第三实施例,由于预选择第一失真小的不少于两个的驱动向量,而且,第二失真的计算、搜索用评价值的计算和搜索对象都限定于预选择的驱动向量,因此,除了第一实施例所具有的效果外,还可以将第二失真的计算和搜索用评价值的计算抑制到较小的运算量,并通过第二失真能够检测因(与只用第一失真进行搜索的传统的结构的相比较小的)运算量的增加引起解码语音恶化的可能性高的驱动向量,具有能够实现很少产生解码语音的局部反常噪声的高质量的语音编码的效果。
第四实施例
图6是表示采用本发明的语音编码方法的语音编码装置的第四实施例的驱动声源编码部分5的详细结构的框图。
在本第四实施例中,语音编码装置的整个结构与图8中的相同,只是在驱动声源编码部分5上附加了输入语音1的输入端。与图5中所表示的第三实施例相同的部分用相同的符号表示,省略其说明。在本第四实施例中,驱动向量生成部件13中设有从第一驱动向量生成部件到第N驱动向量生成部件的N个驱动向量生成部件和转换部件。
以下,参照附图对动作进行说明。
驱动向量生成部件13设有从第一驱动向量生成部件到第N驱动向量生成部件的N个驱动向量生成部件和转换部件,如果从外部输入驱动向量生成部件号码和驱动向量号码,则按照该驱动向量生成部件号码和驱动向量号码输出一个驱动向量。转换部件根据被输入的驱动向量生成部件号码,把转换开关连接到一个驱动向量生成部件,而被连接的第一到第N驱动向量生成部件,根据被输入的驱动向量号码,输出指定的驱动向量。
而且,多个驱动向量生成部件互不相同,可以预先设置用以对具有各种形式的语音信号进行稳定编码的各种形式的驱动向量生成部件,如:能量集中在帧内的前半部分的驱动向量生成部件、能量集中在帧内的后半部分的驱动向量生成部件、能量在帧内比较分散地分布的驱动向量生成部件、只由少量脉冲构成的驱动向量生成部件以及由多个脉冲构成的驱动向量生成部件等。
搜索部件20顺序地产生用二进制值表示的各驱动声源代码,并把该驱动声源代码分解成驱动向量生成部件号码和驱动向量号码,然后将驱动向量生成部件号码输出到驱动向量生成部件13内的转换部件和搜索用评价值计算部分29。另外,还把驱动向量号码输出到驱动向量生成部件13内的第一到第N驱动向量生成部件。
驱动向量生成部件13按照从搜索部件20输出的驱动向量生成部件号码和驱动向量号码,把一个驱动向量输出到合成滤波器14。
合成滤波器14将从线性预测系数编码部件3输出的经量化的线性预测系数设定为滤波器系数,并对从驱动向量生成部件13输出的驱动向量进行合成滤波,把得到的合成语音输出到第一失真计算部分23和第二失真计算部分24。
第一失真计算部分23根据从线性预测系数编码部件3输出的经量化的线性预测系数、从减法运算部件11输出的编码对象信号12和对每个驱动向量从合成滤波器14输出的合成语音,求出听觉加权滤波器后的差信号的总功率,并将它作为第一失真输出到预选择部件35。
预选择部件35对从第一失真计算部分23输出的每个驱动向量的第一失真进行互相比较,并预选择M个该第一失真小的驱动向量。而且,M是少于整个驱动向量个数的数。然后把预选择的驱动向量的号码输出到第二失真计算部分24,同时把和预选择的各驱动向量对应的第一失真输出到搜索用评价值计算部分29。而且,在从搜索部件20输入驱动向量生成部件号码的结构中,也可以对每个相同的驱动向量生成部件号码预选择L个驱动向量。如果假设L为1,则预选择数M就与N一致。
第二失真计算部分24对预选择部件35所预选择输出的M个驱动向量的号码所指定的各驱动向量,求出从减法运算部件11输出的编码对象信号12和对每个驱动向量从合成滤波器14输出的合成语音之间的帧内振幅的重心位置的差,并将求出的重心位置的差作为第二失真输出到搜索用评价值计算部分29。
搜索用评价值计算部分29利用从自适应声源贡献度计算部件28输出的自适应声源贡献度、从搜索部件20输出的驱动向量生成部件号码、预选择部件35所预选择输出的M个第一失真、从第二失真计算部分24输出的M个第二失真,求出用于最终搜索的M个搜索用评价值,并把该搜索用评价值输出到搜索部件20。
搜索部件20对使从搜索用评价值搜索部件29输出的搜索用评价值最小化的驱动声源代码进行搜索,并把使搜索用评价值最小化的驱动声源代码作为驱动声源代码21进行输出。另外,驱动向量生成部件13将在输入该驱动声源代码21时输出的驱动向量,作为驱动声源22进行输出。
图7是表示搜索用评价值计算部分29的结构的结构图。
图7中,30、32、36是转换部件,31是乘法运算部件。
在搜索用评价值计算部分29内,对应于驱动向量生成部件号码设定有N个常数β1至βN。
转换部件36按照从搜索部件20输出的驱动向量生成部件号码来切换转换开关,并选择一个常数进行输出,具体方式是当驱动向量生成部件号码为1时输出β1,当驱动向量生成部件号码为N时输出βN。
乘法运算部件31在从第一失真计算部分23输出的第一失真上,乘以从转换部件36输出的常数,并输出乘法运算的结果。
转换部件32在从第二失真计算部分24输出的第二失真超过规定阈值的场合,把转换开关连接到乘法运算部件31输出的乘法运算结果;在从第二失真计算部分24输出的第二失真不超过规定阈值的场合,把转换开关连接到第一失真计算部分23输出的第一失真。规定的阈值以帧长度的10分之1左右为适宜。由此,转换部件32在第二失真大时输出在第一失真上乘以对应于驱动向量生成部件号码的常数的运算结果,在第二失真小时原样地直接输出第一失真。
转换部件30在从自适应声源贡献度计算部件28输出的自适应声源贡献度超过规定阈值的场合,把转换开关连接到第一失真计算部分23输出的第一失真;在从自适应声源贡献度计算部件28输出的自适应声源贡献度不超过规定的阈值的场合,连接到转换部件32的输出结果。规定的阈值,以0.3~0.4左右为适宜。然后,该转换部件30的输出作为搜索用评价值,从搜索用评价值计算部分29输出。
通过以上结构,通常以第一失真作为搜索用评价值进行输出,只有在第二失真大并且自适应声源贡献度小的场合,才将在第一失真上乘以对应于驱动向量生成部件号码的常数的后的值作为搜索用评价值加以输出。也就是说,只有在第二失真大且自适应声源贡献度小的场合,搜索用评价值才被修正成大值,而且,该修正的大小按照驱动向量生成部件号码加以控制,在后续的搜索部件20中抑制相应的驱动声源代码选择。
而且,与第二实施例相同,上述第四实施例中可把转换开关32变更为如图4中所示的乘法运算部件33和加法运算部件37。
另外,与第一实施例同样地,根据编码对象信号12和合成滤波器14输出的合成语音的振幅重心位置之间的差值计算出第二失真,但是第二失真的计算不仅局限于此,也可以根据功率重心的位置差进行计算,也可以相对于听觉加权滤波器后的信号来评价第二失真。也可以在时间方向上把帧分割成数个子帧,对编码对象信号12和从合成滤波器14输出的合成语音,分别计算出各分割的子帧内的平均振幅或平均功率,然后,求出对每个编码对象信号12的分割子帧的算出结果和每个从合成滤波器14输出的合成语音分割子帧的算出结果的平方距离,作为第二失真。并且,也有可能采用这样的结构:计算出这几种类型的第二失真,在搜索用评价值计算部件29中使用多个第二失真。
对第一失真计算部分23来说,也有可能采用不设听觉加权滤波器的结构,对听觉加权一并进行处理的结构,或者用以减少运算量的各种变化形式。
并且,在本第四实施例中,从输入语音1减去自适应向量通过了合成滤波器10后的合成语音的运算结果作为编码对象信号,但是,也可以与第一实施例一样,把输入语音1原样地直接作为编码对象信号使用,并代之以让驱动向量通过了合成滤波器14后所得到的合成语音跟自适应向量通过了合成滤波器10后所得到的合成语音正交的结构。
并且,在本第四实施例中,对每一个帧进行驱动向量搜索,但是,当然也可以与传统技术相同地,把帧分割成多个子帧,并对每个子帧进行搜索。
如以上所述,根据该第四实施例,由于包括多个生成相互不同的驱动向量的驱动向量生成部件(工序),在每个驱动向量生成部件(工序),预选择所述第一失真计算部件(工序)算出的第一失真小的至少一个驱动向量,而且,第二失真的计算、搜索用评价值的计算和搜索对象都限定于预选择的驱动向量,因此,除了第三实施例所具有的效果外,能够为每个声源位置限定和脉冲数等各不相同的驱动向量生成部件(工序)留下至少一个驱动向量的候选向量,并通过第二失真从声源位置限定和脉冲数等各不相同的驱动向量的候选向量中检测引起解码语音恶化的可能性高的驱动向量,抑制选择该驱动向量,由此,尽管只是增加少量的运算量,却能够实现很少产生解码语音的局部反常噪声的高质量的语音编码的效果。
而且,在第三实施例中,由于无法保证声源位置限定和脉冲数等各不相同的驱动向量被预选择,因此,例如只有能量集中在帧内的前半部分的驱动向量被预选择的场合,有可能该被预选择的驱动向量中不包括重心位置的差(第二失真)小的驱动向量。这种场合,就不能消除解码语音的局部恶化。
依据本第四实施例,根据是从哪一个驱动向量生成部件(工序)输出的驱动向量,在β1与βN之间变更用于计算出搜索用评价值的常数(变更计算搜索用评价值的处理),因此,在第二失真变大时对易引起解码语音恶化的驱动向量生成部件(工序)选择性地加大搜索用评价值的第二失真的权重,从而能够抑制选择从该驱动向量生成部件(工序)输出的驱动向量,具有能够实现很少产生解码语音的局部反常噪声的高质量的语音编码的效果。
第五实施例
上述第一实施例至第四实施例,都是有关对通过自适应向量和驱动向量的相加运算构成的声源的驱动向量进行搜索并采用本发明的结构,但是声源的结构不仅仅局限于这些结构,例如,对于只由为了描述语音上升部分的驱动向量构成的声源,也可以采用本发明。
该场合,不需要自适应声源编码部件4、自适应向量生成部件9、以及合成滤波器10,只要自适应声源贡献度计算部件28的输出始终为0即可。
通过以上结构,即使是对于只由驱动向量构成声源的场合,通过第二失真能够检测只由第一失真是不能发现的,引起解码语音恶化的可能性高的驱动向量,并具有能够实现很少产生解码语音的局部反常噪声的高质量的语音编码的效果。
第六实施例
上述第一实施例至第四实施例,是关于驱动向量的搜索采用本发明的结构,但是,对于自适应向量的搜索也可以采用本发明。
该场合,最好把第五实施例中的驱动向量生成部件13变更为自适应向量生成部件9。
根据以上结构,通过第二失真能够检测只由第一失真是不能发现的,引起解码语音恶化的可能性高的自适应向量,并具有能够实现很少产生解码语音的局部反常噪声的高质量的语音编码的效果。
第七实施例
在上述第一实施例至第四实施例中,只选择了一个驱动向量,但是,当然也可以是包括两个驱动子向量生成部件,并根据分别从该驱动子向量生成部件输出的两个驱动子向量的相加运算形成一个驱动向量的结构。
该场合,其他的结构可以与第一实施例至第四实施例的结构相同,但是,也可以是如下结构:在对从一个驱动子向量生成部件输出的驱动子向量进行搜索时,求出已经被确定的另一个驱动子向量和自适应声源的贡献度用于搜索用评价值的计算。
根据以上结构,通过第二失真能够检测只由第一失真是不能发现的,引起解码语音恶化的可能性高的驱动子向量,并具有能够实现很少产生解码语音的局部反常噪声的高质量的语音编码的效果。
如以上所述,依据本发明,在编码对象信号和从驱动向量求出的合成向量之间定义的有关波形的失真作为第一失真进行计算,在编码对象信号和从驱动向量求出的合成向量之间定义的与第一失真不同的失真作为第二失真进行计算,并选择使利用该第一失真和第二失真计算出的搜索用评价值最小化的驱动向量,因此,通过第二失真能够检测只由第一失真是不能发现的,引起解码语音恶化的可能性高的驱动向量,并能够实现很少产生解码语音的局部反常噪声的高质量的语音编码。
Claims (15)
1.一种对每个称为帧的规定长度区间给输入语音编码的语音编码方法,其中包括:
生成多个驱动向量的驱动向量生成步骤;
对每个驱动向量,计算出关于在从输入语音求出的编码对象信号和从驱动向量求出的合成向量之间定义的波形的失真作为第一失真的第一失真计算步骤;
对每个驱动向量,计算出在从输入语音求出的编码对象信号和从驱动向量求出的合成向量之间定义的、与所述第一失真不同的、关于帧内的时间方向的振幅或功率的偏移失真作为第二失真的第二失真计算步骤;
对每个驱动向量,利用所述第一失真和第二失真计算出规定的搜索用评价值的评价值计算步骤;以及
选择使搜索用评价值成为最小的驱动向量,并输出与被选择的驱动向量预先对应上的代码的搜索步骤。
2.如权利要求1所述的语音编码方法,其特征在于:
设有选择所述第一失真计算步骤算出的第一失真小的不少于两个驱动向量的预选择步骤;
将所述第二失真计算步骤、评价值计算步骤、搜索步骤的对象限定于预选择步骤选择的驱动向量。
3.如权利要求1所述的语音编码方法,其特征在于:
设有多个生成互不相同的驱动向量的驱动向量生成步骤,同时还设有为每个驱动向量生成步骤选择所述第一失真计算步骤所算出的第一失真小的至少一个驱动向量的预选择步骤;
将所述第二失真计算步骤、评价值计算步骤、搜索步骤的对象限定于预选择步骤选择的驱动向量。
4.如权利要求1所述的语音编码方法,其特征在于:
所述第一失真计算步骤中,在帧内对让从输入语音求出的编码对象信号通过听觉加权滤波器后得到的信号和让从驱动向量求出的合成向量通过听觉加权滤波器后得到的信号的每个抽样的误差功率进行相加,并将相加的结果设为第一失真。
5.如权利要求1所述的语音编码方法,其特征在于:
所述第二失真计算步骤求出帧内的编码对象信号的振幅或功率的重心位置,同时求出帧内的合成向量的振幅或功率的重心位置,并将求出的两个重心位置之间的差值设为第二失真。
6.如权利要求1所述的语音编码方法,其特征在于:
所述评价值计算步骤通过根据第二失真对第一失真进行修正来计算出搜索用评价值。
7.如权利要求1所述的语音编码方法,其特征在于:
所述评价值计算步骤用第一失真和第二失真的加权和来计算出搜索用评价值。
8.如权利要求1所述的语音编码方法,其特征在于:
所述评价值计算步骤按照从输入语音算出的规定参数,对计算搜索用评价值的处理加以更改。
9.如权利要求8所述的语音编码方法,其特征在于:
设有贡献度计算步骤,该步骤求出从驱动向量以外的音源向量得到的合成向量能量和输入语音能量之间的比率,将该比率设为其他音源贡献度;所算出的其他音源贡献度被设为所述评价值计算步骤中的规定参数。
10.如权利要求3所述的语音编码方法,其特征在于:
所述评价值计算步骤根据驱动向量从哪个驱动向量生成步骤输出来对计算搜索用评价值的处理加以变更。
11.如权利要求1所述的语音编码方法,其特征在于:
所述评价值计算步骤中包括将第一失真原样地直接设为搜索用评价值的处理,作为计算搜索用评价值的处理之一。
12.一种对每个称为帧的规定长度区间给输入语音编码的语音编码装置,其中设有:
生成多个驱动向量的驱动向量生成部件;
对每个驱动向量,计算出关于在从输入语音求出的编码对象信号和从驱动向量求出的合成向量之间定义的波形的失真作为第一失真的第一失真计算部件;
对每个驱动向量,计算出在从输入语音求出的编码对象信号和从驱动向量求出的合成向量之间定义的、与所述第一失真不同的、关于帧内的时间方向的振幅或功率的偏移失真作为第二失真的第二失真计算部件;
对每个驱动向量,利用所述第一失真和第二失真计算出规定的搜索用评价值的评价值计算部件;以及
选择使搜索用评价值成为最小的驱动向量,并输出与被选择的驱动向量预先对应上的代码的搜索部件。
13.如权利要求12所述的语音编码装置,其特征在于:
所述第一失真计算部件中,在帧内对让从输入语音求出的编码对象信号通过听觉加权滤波器后得到的信号和让从驱动向量求出的合成向量通过听觉加权滤波器后得到的信号的每个抽样的误差功率进行相加,将相加的结果设为第一失真。
14.如权利要求12所述的语音编码装置,其特征在于:
所述评价值计算部件通过根据第二失真对第一失真进行修正来计算出搜索用评价值。
15.如权利要求12所述的语音编码装置,其特征在于:
所述评价值计算部件按照从输入语音算出的规定参数,对计算搜索用评价值的处理加以变更。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2000327322A JP3426207B2 (ja) | 2000-10-26 | 2000-10-26 | 音声符号化方法および装置 |
JP327322/2000 | 2000-10-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1483188A CN1483188A (zh) | 2004-03-17 |
CN1222926C true CN1222926C (zh) | 2005-10-12 |
Family
ID=18804359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN01821214.XA Expired - Fee Related CN1222926C (zh) | 2000-10-26 | 2001-04-16 | 语音编码方法及其装置 |
Country Status (8)
Country | Link |
---|---|
US (1) | US7203641B2 (zh) |
EP (1) | EP1339042B1 (zh) |
JP (1) | JP3426207B2 (zh) |
CN (1) | CN1222926C (zh) |
DE (1) | DE60141646D1 (zh) |
IL (1) | IL155243A0 (zh) |
TW (1) | TW517223B (zh) |
WO (1) | WO2002035522A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7644003B2 (en) | 2001-05-04 | 2010-01-05 | Agere Systems Inc. | Cue-based audio coding/decoding |
US7805313B2 (en) | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
US7720230B2 (en) | 2004-10-20 | 2010-05-18 | Agere Systems, Inc. | Individual channel shaping for BCC schemes and the like |
US8204261B2 (en) | 2004-10-20 | 2012-06-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Diffuse sound shaping for BCC schemes and the like |
KR101215868B1 (ko) * | 2004-11-30 | 2012-12-31 | 에이저 시스템즈 엘엘시 | 오디오 채널들을 인코딩 및 디코딩하는 방법, 및 오디오 채널들을 인코딩 및 디코딩하는 장치 |
US7787631B2 (en) | 2004-11-30 | 2010-08-31 | Agere Systems Inc. | Parametric coding of spatial audio with cues based on transmitted channels |
EP1817766B1 (en) | 2004-11-30 | 2009-10-21 | Agere Systems Inc. | Synchronizing parametric coding of spatial audio with externally provided downmix |
US7903824B2 (en) | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
DE102005002195A1 (de) * | 2005-01-17 | 2006-07-27 | Siemens Ag | Verfahren und Anordnung zur Regeneration eines optischen Datensignals |
WO2008018464A1 (fr) * | 2006-08-08 | 2008-02-14 | Panasonic Corporation | dispositif de codage audio et procédé de codage audio |
WO2008072732A1 (ja) * | 2006-12-14 | 2008-06-19 | Panasonic Corporation | 音声符号化装置および音声符号化方法 |
CN101615395B (zh) * | 2008-12-31 | 2011-01-12 | 华为技术有限公司 | 信号编码、解码方法及装置、系统 |
JP5314771B2 (ja) * | 2010-01-08 | 2013-10-16 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化装置、復号装置、プログラムおよび記録媒体 |
EP2705516B1 (en) * | 2011-05-04 | 2016-07-06 | Nokia Technologies Oy | Encoding of stereophonic signals |
JP6385936B2 (ja) * | 2013-08-22 | 2018-09-05 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 音声符号化装置およびその方法 |
KR101993828B1 (ko) * | 2014-07-28 | 2019-06-27 | 니폰 덴신 덴와 가부시끼가이샤 | 부호화 방법, 장치, 프로그램 및 기록 매체 |
US10127918B1 (en) * | 2017-05-03 | 2018-11-13 | Amazon Technologies, Inc. | Methods for reconstructing an audio signal |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6151200A (ja) | 1984-08-20 | 1986-03-13 | 日本電信電話株式会社 | 音声信号符号化方式 |
JPS60217744A (ja) * | 1984-04-13 | 1985-10-31 | Nippon Telegr & Teleph Corp <Ntt> | 情報割り当てを伴うブロツク符号化法 |
JPH0435527A (ja) | 1990-05-31 | 1992-02-06 | Fujitsu Ltd | 多段符号化・復号化方式 |
JP3151874B2 (ja) * | 1991-02-26 | 2001-04-03 | 日本電気株式会社 | 音声パラメータ符号化方式および装置 |
JP2936757B2 (ja) | 1991-03-08 | 1999-08-23 | 三菱電機株式会社 | 量子化器 |
JP2953238B2 (ja) | 1993-02-09 | 1999-09-27 | 日本電気株式会社 | 音質主観評価予測方式 |
JP3431655B2 (ja) | 1993-03-10 | 2003-07-28 | 三菱電機株式会社 | 符号化装置及び復号化装置 |
JP2624130B2 (ja) * | 1993-07-29 | 1997-06-25 | 日本電気株式会社 | 音声符号化方式 |
JP3471889B2 (ja) | 1994-04-01 | 2003-12-02 | 株式会社東芝 | 音声符号化方法及び装置 |
JP3285185B2 (ja) * | 1995-06-16 | 2002-05-27 | 日本電信電話株式会社 | 音響信号符号化方法 |
US6393391B1 (en) * | 1998-04-15 | 2002-05-21 | Nec Corporation | Speech coder for high quality at low bit rates |
JP3238063B2 (ja) | 1996-01-31 | 2001-12-10 | 株式会社東芝 | ベクトル量子化方法および音声符号化方法 |
JP3094908B2 (ja) | 1996-04-17 | 2000-10-03 | 日本電気株式会社 | 音声符号化装置 |
JP3246715B2 (ja) | 1996-07-01 | 2002-01-15 | 松下電器産業株式会社 | オーディオ信号圧縮方法,およびオーディオ信号圧縮装置 |
JPH1020890A (ja) | 1996-07-01 | 1998-01-23 | Matsushita Electric Ind Co Ltd | 音声符号化装置および情報記録媒体 |
EP1217614A1 (en) * | 1996-11-07 | 2002-06-26 | Matsushita Electric Industrial Co., Ltd. | Vector quantization codebook generation method |
US6014618A (en) * | 1998-08-06 | 2000-01-11 | Dsp Software Engineering, Inc. | LPAS speech coder using vector quantized, multi-codebook, multi-tap pitch predictor and optimized ternary source excitation codebook derivation |
US6823303B1 (en) * | 1998-08-24 | 2004-11-23 | Conexant Systems, Inc. | Speech encoder using voice activity detection in coding noise |
US6311154B1 (en) * | 1998-12-30 | 2001-10-30 | Nokia Mobile Phones Limited | Adaptive windows for analysis-by-synthesis CELP-type speech coding |
US6697430B1 (en) * | 1999-05-19 | 2004-02-24 | Matsushita Electric Industrial Co., Ltd. | MPEG encoder |
-
2000
- 2000-10-26 JP JP2000327322A patent/JP3426207B2/ja not_active Expired - Lifetime
-
2001
- 2001-04-16 CN CN01821214.XA patent/CN1222926C/zh not_active Expired - Fee Related
- 2001-04-16 DE DE60141646T patent/DE60141646D1/de not_active Expired - Lifetime
- 2001-04-16 EP EP01919951A patent/EP1339042B1/en not_active Expired - Lifetime
- 2001-04-16 WO PCT/JP2001/003240 patent/WO2002035522A1/ja active Application Filing
- 2001-04-16 US US10/398,808 patent/US7203641B2/en not_active Expired - Fee Related
- 2001-04-16 IL IL15524301A patent/IL155243A0/xx unknown
- 2001-04-20 TW TW090109564A patent/TW517223B/zh not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
IL155243A0 (en) | 2003-11-23 |
WO2002035522A1 (fr) | 2002-05-02 |
CN1483188A (zh) | 2004-03-17 |
TW517223B (en) | 2003-01-11 |
US20040111256A1 (en) | 2004-06-10 |
EP1339042A1 (en) | 2003-08-27 |
EP1339042A4 (en) | 2005-10-12 |
EP1339042B1 (en) | 2010-03-24 |
US7203641B2 (en) | 2007-04-10 |
DE60141646D1 (de) | 2010-05-06 |
JP2002132299A (ja) | 2002-05-09 |
JP3426207B2 (ja) | 2003-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1222926C (zh) | 语音编码方法及其装置 | |
CN1172294C (zh) | 音频编码装置、音频编码方法、音频解码装置及音频解码方法 | |
CN1106710C (zh) | 向量量化装置和方法 | |
CN1200403C (zh) | 线性预测编码参数的矢量量化装置 | |
CN1252681C (zh) | 一种码激励线性预测语音编码器的增益量化 | |
CN1185625C (zh) | 语音编码方法及语音编码装置 | |
CN1252679C (zh) | 声音编码装置、声音编码译码装置、以及声音编码方法 | |
CN1192358C (zh) | 声音信号加工方法和声音信号加工装置 | |
CN1187735C (zh) | 多模式话音编码装置和解码装置 | |
CN1201288C (zh) | 解码方法和设备 | |
CN1158648C (zh) | 语音可变速率编码方法与设备 | |
CN1236420C (zh) | 量化线谱对参数特征提取器及其特征提取方法 | |
CN1097396C (zh) | 声音编码装置和方法 | |
CN1202514C (zh) | 编码和解码语音及其参数的方法、编码器、解码器 | |
CN1507618A (zh) | 编码设备和解码设备 | |
CN1210690C (zh) | 音频解码器和音频解码方法 | |
CN1126397A (zh) | 纠错编码器、纠错解码器和具有纠错码的数据传输系统 | |
CN1173501C (zh) | 用于产生定点数据的电路和方法 | |
CN1435817A (zh) | 语音编码转换方法和装置 | |
CN1151491C (zh) | 音频编码装置和音频编码译码装置 | |
CN1977311A (zh) | 语音编码装置、语音解码装置及其方法 | |
CN1957399A (zh) | 语音/音频解码装置以及语音/音频解码方法 | |
CN1961486A (zh) | 多信道信号编码方法、解码方法、装置、程序及其存储介质 | |
CN1890713A (zh) | 用于数字信号压缩编码的多脉冲字典的索引间的编码转换 | |
CN1135528C (zh) | 声音编码装置以及声音解码装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20051012 Termination date: 20150416 |
|
EXPY | Termination of patent right or utility model |