CN110503964A - 编码方法、编码装置、程序以及记录介质 - Google Patents
编码方法、编码装置、程序以及记录介质 Download PDFInfo
- Publication number
- CN110503964A CN110503964A CN201910757348.8A CN201910757348A CN110503964A CN 110503964 A CN110503964 A CN 110503964A CN 201910757348 A CN201910757348 A CN 201910757348A CN 110503964 A CN110503964 A CN 110503964A
- Authority
- CN
- China
- Prior art keywords
- lsp
- string
- corrected
- quantized
- parameter string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
- G10L19/07—Line spectrum pair [LSP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及编码方法、编码装置、程序以及记录介质,编码方法包含:线性预测系数校正步骤,生成已校正线性预测系数串;已校正LSP生成步骤,生成已校正LSP参数串;已校正LSP编码步骤,生成已校正LSP码以及已校正已量化LSP参数串;LSP线性变换步骤,生成近似已量化LSP参数串;已量化线性预测系数串生成步骤,生成已校正已量化线性预测系数串;已量化已平滑化功率谱包络序列计算步骤,计算已量化已平滑化功率谱包络序列;频域编码步骤,生成对与上述声音信号对应的频域样本串;LSP生成步骤,生成LSP参数串;LSP编码步骤,生成LSP码以及已量化LSP参数串;以及时域编码步骤,生成时域信号码。
Description
本申请是发明名称为“频域参数串生成方法、编码方法、解码方法、频域参数串生成装置、编码装置、解码装置、程序以及记录介质”(申请号:201580020682.5;申请日:2015年2月16日)的申请的分案申请。
技术领域
本发明涉及编码技术,尤其涉及改变与线性预测系数等价的频域的参数的技术。
背景技术
在语音信号或声音信号的编码中,正在广泛使用利用对输入声音信号进行线性预测分析而获得的线性预测系数进行编码的方法。
例如,在非专利文献1或非专利文献2中对每帧的输入声音信号通过频域中的编码方法或时域中的编码方法进行编码。根据各帧的输入声音信号的特性而决定使用频域中的编码方法和时域中的编码方法中的哪一个。
无论是在时域中的编码方法还是频域中的编码方法,都将对输入声音信号进行线性预测分析而获得的线性预测系数变换为LSP参数的串,对LSP参数的串进行编码而获得LSP码并获得与LSP码对应的已量化LSP参数串。在时域中的编码方法中,将根据当前帧的已量化LSP参数串和前一帧的已量化LSP参数串而获得的线性预测系数作为时域的滤波器即合成滤波器的滤波器系数来利用,对将自适应码本中包含的波形和固定码本中包含的波形合成的信号应用合成滤波器而求得合成信号,通过将各码本的索引决定为所求出的合成信号与输入声音信号之间的失真成为最小,从而进行编码。
在频域的编码方法中,将已量化LSP参数串变换为线性预测系数而求出已量化线性预测系数串,对所求出的已量化线性预测系数串进行平滑化而求出已校正已量化线性预测系数串,利用与已校正已量化线性预测系数对应的频域的序列即功率谱包络序列的各值,通过对将输入声音信号变换为频域的频域信号序列的各值进行归一化而求出去除了谱包络的影响的信号,考虑谱包络信息而对求出的信号进行可变长度编码。
如此,在频域中的编码方法和时域中的编码方法中,共用对输入声音信号进行线性预测分析而获得的线性预测系数。线性预测系数被变换为与LSP(线谱对(Line SpectrumPair))参数或ISP(导抗谱对(Immittance Spectrum Pairs))参数等线性预测系数等价的频域的参数的串。然后,对LSP参数串(或者ISP参数串)进行编码而获得的LSP码(或者ISP码)被送入解码装置。有时将在量化或插补中使用的LSP参数的0至π为止的频率尤其与LSP频率(LSP Frequency:LSF)或者ISP频率的情况(ISP Frequency:ISF)区分标记,但在本申请的说明中,将这样的频率的参数标记为LSP参数、ISP参数而进行说明。
参照图1和图2,更具体说明现有的编码装置的处理。
在以下的说明中,将由p个LSP参数构成的LSP参数串标记为θ[1],θ[2],…,θ[p]。p是1以上的整数的预测阶数。方括号([])内的记号表示索引。例如,θ[i]是LSP参数串θ[1],θ[2],…,θ[p]中的第i个LSP参数。
在θ的右上角通过方括号标记的记号表示帧号。例如,将针对第f个帧的声音信号生成的LSP参数串标记为θ[f][1],θ[f][2],…,θ[f][p]。其中,由于多数处理是在帧内闭合进行,因此对与当前的帧(第f个帧)对应的参数省略右上角的帧号的记载而标记。设当省略帧号的记载的情况下,指对当前的帧生成的参数。即,
θ[i]=θ[f][i]。
右上角没有方括号而标记的记号表示幂运算。即,θk[i]表示θ[i]的k次方。
在文中使用的记号「~」、「^」、「-」等本来应记载在其后的字符的正上方,但由于文本记载方法的限制,记载在该字符的前方。在公式中这些记号记载在本来的位置即字符的正上方。
在步骤S100中,对现有的编码装置9输入作为规定的时间区间的帧单位的时间区域的语音声音数字信号(以下,称为输入声音信号)。编码装置9对输入声音信号按照每个帧进行以下的各处理部的处理。
帧单位的输入声音信号被输入到线性预测分析部105、特征量提取部120、频域编码部150以及时域编码部170。
在步骤S105中,线性预测分析部105对帧单位的输入声音信号进行线性预测分析,从而求出并输出线性预测系数串a[1],a[2],…,a[p]。这里,a[i]是i阶的线性预测系数。线性预测系数串的各系数a[i]是将输入声音信号z通过由式(1)表示的线性预测模型进行了模型化时的系数a[i](i=1,2,…,p)。
【数1】
从线性预测分析部105输出的线性预测系数串a[1],a[2],…,a[p]被输入到LSP生成部110。
在步骤S110中,LSP生成部110求出并输出与从线性预测分析部105输出的线性预测系数串a[1],a[2],…,a[p]对应的LSP参数的序列θ[1],θ[2],…,θ[p]。在以后的说明中,将LSP参数的序列θ[1],θ[2],…,θ[p]称为LSP参数串。LSP参数串θ[1],θ[2],…,θ[p]是被定义为在式(2)中定义的和多项式以及在(3)中定义的差多项式的根的参数的序列。
【数2】
F1(z)=A(z)+z-(p+1)A(z-1) …(2)
F2(z)=A(z)-z-(p+1)A(z-1) …(3)
LSP参数串θ[1],θ[2],…,θ[p]是按照值从小到大的顺序排列的序列。即,满足
0<θ[1]<θ[2]<…<θ[p]<π。
从LSP生成部110输出的LSP参数串θ[1],θ[2],…,θ[p]被输入到LSP编码部115。
在步骤S115中,LSP编码部115对从LSP生成部110输出的LSP参数串θ[1],θ[2],…,θ[p]进行编码,求出并输出LSP码C1、以及与该LSP码C1对应的已量化了的LSP参数的序列^θ[1],^θ[2],…,^θ[p]。在以后的说明中,将已量化了的LSP参数的序列^θ[1],^θ[2],…,^θ[p]称为已量化LSP参数串。
从LSP编码部115输出的已量化LSP参数串^θ[1],^θ[2],…,^θ[p]被输入到已量化线性预测系数生成部900、延迟输入部165以及时域编码部170。此外,从LSP编码部115输出的LSP码C1被输入到输出部175。
在步骤S120中,特征量提取部120提取输入声音信号的时间变动的大小作为特征量。特征量提取部120在提取的特征量小于规定的阈值的情况下(即,输入声音信号的时间变动小的情况下),进行控制使得已量化线性预测系数生成部900执行后续的处理。此外,同时,将表示频域编码方法的信息作为识别码Cg而输入到输出部175。另一方面,特征量提取部120在提取的特征量是规定的阈值以上的情况下(即,输入声音信号的时间变动大的情况下),进行控制使得时域编码部170执行后续的处理。此外,同时,将表示时域编码方法的信息作为识别码Cg输入到输出部175。
已量化线性预测系数生成部900、已量化线性预测系数校正部905、近似已平滑化功率谱包络序列计算部910以及频域编码部150的各处理在特征量提取部120中提取出的特征量小于规定的阈值的情况下(即,输入声音信号的时间变动小的情况下)执行(步骤S121)。
在步骤S900中,已量化线性预测系数生成部900根据从LSP编码部115输出的已量化LSP参数串^θ[1],^θ[2],…,^θ[p]求出线性预测系数的序列^a[1],^a[2],…,^a[p]而输出。在以后的说明中,将线性预测系数的序列^a[1],^a[2],…,^a[p]称为已量化线性预测系数串。
从已量化线性预测系数生成部900输出的已量化线性预测系数串^a[1],^a[2],…,^a[p]被输入到已量化线性预测系数校正部905。
在步骤S905中,已量化线性预测系数校正部905求出对从已量化线性预测系数生成部900输出的已量化线性预测系数串^a[1],^a[2],…,^a[p]的i阶的系数^a[i](i=1,…,p)乘以校正系数γR的i次方的值^a[i]×(γR)i的序列^a[1]×(γR),^a[2]×(γR)2,…,^a[p]×(γR)p而输出。在此,校正系数γR是预先决定的1以下的正整数。在以后的说明中,将序列^a[1]×(γR),^a[2]×(γR)2,…,^a[p]×(γR)p称为已校正已量化线性预测系数串。
从已量化线性预测系数校正部905输出的已校正已量化线性预测系数串^a[1]×(γR),^a[2]×(γR)2,…,^a[p]×(γR)p被输入到近似已平滑化功率谱包络序列计算部910。
在步骤S910中,近似已平滑化功率谱包络序列计算部910利用从已量化线性预测系数校正部905输出的已校正已量化线性预测系数串^a[1]×(γR),^a[2]×(γR)2,…,^a[p]×(γR)p的各系数^a[i]×(γR)i,通过式(4),生成近似已平滑化功率谱包络序列~WγR[1],~WγR[2],…,~WγR[N]而输出。在此,exp(·)是以纳皮尔数作为底数的指数函数,j是虚数单位,σ2是预测残差能量。
【数3】
如在式(4)中定义那样,近似已平滑化功率谱包络序列~WγR[1],~WγR[2],…,~WγR[N]是与已校正已量化线性预测系数串^a[1]×(γR),^a[2]×(γR)2,…,^a[p]×(γR)p对应的频域的序列。
从近似已平滑化功率谱包络序列计算部910输出的近似已平滑化功率谱包络序列~WγR[1],~WγR[2],…,~WγR[N]被输入到频域编码部150。
以下,说明将由式(4)定义的值的序列称为近似已平滑化功率谱包络序列的理由。
通过作为全极点模型的p阶自回归过程,时刻t上的输入声音信号x[t]根据追溯到p时刻为止的过去的自己的值x[t-1],…,x[t-p]、预测残差e[t]以及线性预测系数a[1],a[2],…,a[p],通过式(5)表示。此时,输入声音信号的功率谱包络序列W[1],W[2],…,W[N]的各系数W[n](n=1,…,N)通过式(6)表示。
【数4】
x[t]+a[1]x[t-1]+…+a[p]x[t-p]=e[t]…(5)
在此,将式(6)的a[i]置换为a[i]×(γR)i的、通过
【数5】
定义的序列WγR[1],WγR[2],…,WγR[N]相当于对通过式(6)定义的输入声音信号的功率谱包络序列W[1],W[2],…,W[N]的振幅的不平顺进行了平滑化的序列。即,通过对线性预测系数a[i]乘以校正系数γR的i次方而对线性预测系数进行校正的处理相当于在频域中使功率谱包络的振幅的不平顺削弱的处理(对功率谱包络进行平滑化的处理)。从而,将通过式(7)定义的序列WγR[1],WγR[2],…,WγR[N]称为已平滑化功率谱包络序列。
通过式(4)定义的序列~WγR[1],~WγR[2],…,~WγR[N]相当于通过式(7)定义的已平滑化功率谱包络系列WγR[1],WγR[2],…,WγR[N]的各值的近似值的序列。从而,将通过式(4)定义的序列~WγR[1],~WγR[2],…,~WγR[N]称为近似已平滑化功率谱包络序列。
在步骤S150中,频域编码部150对将输入声音信号变换为频域的频域信号串X[1],X[2],…,X[N]的各值X[n](n=1,…,N)通过近似已平滑化功率谱包络序列的各值~WγR[n]的平方根进行归一化,求出已归一化频域信号串XN[1],XN[2],…,XN[N]。也就是说,是XN[n]=X[n]/sqrt(~WγR[n])。在此,sqrt(y)表示y的平方根。接着,频域编码部150对已归一化频域信号串XN[1],XN[2],…,XN[N]进行可变长度编码而生成频域信号码。
从频域编码部150输出的频域信号码被输入到输出部175。
延迟输入部165以及时域编码部170在特征量提取部120中提取的特征量是规定的阈值以上的情况下(即,输入声音信号的时间变动大的情况下)执行(步骤S121)。
在步骤S165中,延迟输入部165保持被输入的已量化LSP参数串^θ[1],^θ[2],…,^θ[p],并延迟一个帧的量而输出到时域编码部170。例如,如果当前的帧是第f个帧,则将第f-1个帧的已量化LSP参数串^θ[f-1][1],^θ[f-1][2],…,^θ[f-1][p]输出到时域编码部170。
在步骤S170中,在时域编码部170中,对合成了在自适应码本中包含的波形以及在固定码本中包含的波形的信号应用合成滤波器而求出合成信号,通过将各码本的索引决定为所求出的合成信号与输入声音信号之间的失真最小,从而进行编码。在将各码本的索引决定为合成信号与输入声音信号之间的失真最小时,各码本的索引被决定为对从输入声音信号减去了合成信号的信号应用了听觉加权滤波器的值成为最小。听觉加权滤波器是用于求出在选择自适应码本或固定码本时的失真的滤波器。
合成滤波器以及听觉加权滤波器的滤波器系数利用第f个帧的已量化LSP参数串^θ[1],^θ[2],…,^θ[p]以及第f-1个帧的已量化LSP参数串^θ[f-1][1],^θ[f-1][2],…,^θ[f-1][p]而生成。
具体而言,首先,将帧分割为两个子帧,并如以下那样决定合成滤波器以及听觉加权滤波器的滤波器系数。
在后一半的子帧中,对合成滤波器的滤波器系数利用将第f个帧的已量化LSP参数串^θ[1],^θ[2],…,^θ[p]变换为线性预测系数的系数串即已量化线性预测系数串^a[1],^a[2],…,^a[p]的各系数^a[i]。此外,对听觉加权滤波器的滤波器系数利用对已量化线性预测系数^a[1],^a[2],…,^a[p]的各系数^a[i]乘以了校正系数γR的i次方的值的序列
^a[1]×(γR),^a[2]×(γR)2,…,^a[p]×(γR)p。
在前一半的子帧中,对合成滤波器的滤波器系数利用将第f个帧的已量化LSP参数串^θ[1],^θ[2],…,^θ[p]的各值^θ[i]与第f-1个帧的已量化LSP参数串^θ[f-1][1],^θ[f-1][2],…,^θ[f-1][p]的各值^θ[f-1][i]的中间的值的序列、即作为对各值^θ[i]与^θ[f-1][i]进行插补而得到的值的序列的已插补已量化LSP参数串~θ[1],~θ[2],…,~θ[p]变换为线性预测系数的系数串即已插补已量化线性预测系数串~a[1],~a[2],…,~a[p]的各系数~a[i]。此外,对听觉加权滤波器的滤波器系数利用对已插补已量化线性预测系数串~a[1],~a[2],…,~a[p]的各系数~a[i]乘以校正系数γR的i次方的值的序列
~a[1]×(γR),~a[2]×(γR)2,…,~a[p]×(γR)p。
由此,在解码装置中生成的解码声音信号中,具有将与前一帧的解码声音信号之间的连接性平滑的效果。另外,在时域编码部170中利用的校正系数γ与近似已平滑化功率谱包络序列计算部910中利用的校正系数γ相同。
在步骤S175中,编码装置9经由输出部175,将LSP编码部115输出的LSP码C1、特征量提取部120输出的识别码Cg、频域编码部150输出的频域信号码或时域编码部170输出的时域信号码中的任一个发送给解码装置。
现有技术文献
非专利文献
非专利文献1;3rd Generation Partnership Project(3GPP),“ExtendedAdaptive Multi-Rate-Wideband(AMR-WB+)codec;Transcoding functions”,TechnicalSpecification(TS)26.290,Version 10.0.0,2011-03.
非专利文献2:M.Neuendorf,et al.,“MPEG Unified Speech and Audio Coding-The ISO/MPEG Standard for High-Efficiency Audio Coding of All Content Types”,Audio Engineering Society Convention 132,2012.
发明内容
发明要解决的课题
校正系数γR具有如下的作用:在从输入声音信号去除功率谱包络的影响时,频率越高则越削弱功率谱包络的振幅的不平顺,从而实现进一步考虑了听觉的失真小的编码。
在频域编码部中,为了实现考虑了听觉的失真小的编码,需要近似已平滑化功率谱包络序列~WγR[1],~WγR[2],…,~WγR[N]高精度地近似于已平滑化功率谱包络WγR[1],WγR[2],…,WγR[N]。换言之,设为
aγR[i]=a[i]×(γR)i(i=1,…,p)
从而期望已校正已量化线性预测系数串^a[1]×(γR),^a[2]×(γR)2,…,^a[p]×(γR)p为高精度地近似于已校正线性预测系数串aγR[1],aγR[2],…,aγR[p]的序列。
然而,在现有的编码装置的LSP编码部中,进行编码处理,使得已量化LSP参数串^θ[1],^θ[2],…,^θ[p]与LSP参数串θ[1],θ[2],…,θ[p]之间的失真最小。这意味着将已量化LSP参数串^θ[1],^θ[2],…,^θ[p]决定为高精度地近似于不考虑听觉的(即,没有通过校正系数γR进行平滑化的)功率谱包络。因此,根据已量化LSP参数串^θ[1],^θ[2],…,^θ[p]生成的已校正已量化线性预测系数串^a[1]×(γR),^a[2]×(γR)2,…,^a[p]×(γR)p与已校正线性预测系数串aγR[1],aγR[2],…,aγR[p]之间的失真不会成为最小,频域编码部的编码失真会变大。
本发明的目的在于,提供一种在根据输入声音信号的特性而切换使用频域的编码和时域的编码的编码技术中,与以往相比,减小频域的编码的编码失真,且根据与通过频域的编码而获得的线性预测系数或以LSP参数等为代表的线性预测系数等价的系数,获得与在时域的编码中利用的前一帧的已量化LSP参数对应的LSP参数的编码技术。本发明的目的还在于,根据在上述的编码技术中利用那样的、与线性系数等价的系数,生成与平滑化的程度不同的线性预测系数等价的系数。
用于解决课题的手段
为了解决上述的课题,在本发明的第一方式的频域参数串生成方法中,将p设为1以上的整数,将a[1],a[2],…,a[p]设为对规定的时间区间的声音信号进行线性预测分析而获得的线性预测系数串,将ω[1],ω[2],…,ω[p]设为来自线性预测系数串a[1],a[2],…,a[p]的频域参数串,频域参数串生成方法包含:参数串变换步骤,将频域参数串ω[1],ω[2],…,ω[p]设为输入,从而求出变换后频域参数串~ω[1],~ω[2],…,~ω[p]。参数串变换步骤将变换后频域参数串~ω[1],~ω[2],…,~ω[p]中的各~ω[i](i=1,2,…,p),通过基于ω[i]和接近ω[i]的一个或多个频域参数之间的值的关系的线性变换,求出变换后频域参数~ω[i]的值。
在本发明的第二方式的频域参数串生成方法中,将p设为1以上的整数,将a[1],a[2],…,a[p]设为对规定的时间区间的声音信号进行线性预测分析而获得的线性预测系数串,将ω[1],ω[2],…,ω[p]设为,来自线性预测系数串a[1],a[2],…,a[p]的LSP参数串、来自线性预测系数串a[1],a[2],…,a[p]的ISP参数串、来自线性预测系数串a[1],a[2],…,a[p]的LSF参数串、来自线性预测系数串a[1],a[2],…,a[p]的ISF参数串、以及来自线性预测系数串a[1],a[2],…,a[p]且在ω[1],ω[2],…,ω[p-1]的全部处于0至π的期间且线性预测系数串中包含的所有的线性预测系数为0的情况下ω[1],ω[2],…,ω[p-1]在0至π的期间等间隔存在的频域参数串中的任一个,将γ1以及γ2分别设为作为1以下的正常数的校正系数,将K设为预先决定的p×p的带状矩阵,频域参数串生成方法包含:参数串变换步骤,生成通过以下式定义的变换后频域参数串
~ω[1],~ω[2],…,~ω[p]
【数6】
在本发明的第三方式的频域参数串生成方法中,将p设为1以上的整数,将a[1],a[2],…,a[p]设为对规定的时间区间的声音信号进行线性预测分析而获得的线性预测系数串,将ω[1],ω[2],…,ω[p]设为来自线性预测系数串a[1],a[2],…,a[p]的频域参数串,频域参数串生成方法包含:参数串变换步骤,将频域参数串ω[1],ω[2],…,ω[p]设为输入,从而求出变换后频域参数串~ω[1],~ω[2],…,~ω[p]。参数串变换步骤在ω[i]比ω[i+1]与ω[i-1]的中心点更接近ω[i+1]的情况下,求出变换后频域参数串~ω[1],~ω[2],…,~ω[p]中的各~ω[i](i=1,2,…,p),使得~ω[i]比~ω[i+1]与~ω[i-1]的中心点更接近~ω[i+1],且与ω[i+1]-ω[i]相比,~ω[i+1]-~ω[i]的值更小,在ω[i]比ω[i+1]与ω[i-1]的中心点更接近ω[i-1]的情况下,求出变换后频域参数串~ω[1],~ω[2],…,~ω[p]中的各~ω[i](i=1,2,…,p),使得~ω[i]比~ω[i+1]与~ω[i-1]的中心点更接近~ω[i-1],且与ω[i]-ω[i-1]相比,~ω[i]-~ω[i-1]的值更小。
在本发明的第四方式的频域参数串生成方法中,将p设为1以上的整数,将a[1],a[2],…,a[p]设为对规定的时间区间的声音信号进行线性预测分析而获得的线性预测系数串,将ω[1],ω[2],…,ω[p]设为来自线性预测系数串a[1],a[2],…,a[p]的频域参数串,频域参数串生成方法包含:参数串变换步骤,将频域参数串ω[1],ω[2],…,ω[p]设为输入,从而求出变换后频域参数串~ω[1],~ω[2],…,~ω[p]。参数串变换步骤在ω[i]比ω[i+1]与ω[i-1]的中心点更接近ω[i+1]的情况下,求出变换后频域参数串~ω[1],~ω[2],…,~ω[p]中的各~ω[i](i=1,2,…,p),使得~ω[i]比~ω[i+1]与~ω[i-1]的中心点更接近~ω[i+1],且与ω[i+1]-ω[i]相比,~ω[i+1]-~ω[i]的值更大,在ω[i]比ω[i+1]与ω[i-1]的中心点更接近ω[i-1]的情况下,求出变换后频域参数串~ω[1],~ω[2],…,~ω[p]中的各~ω[i](i=1,2,…,p),使得~ω[i]比~ω[i+1]与~ω[i-1]的中心点更接近~ω[i-1],且与ω[i]-ω[i-1]相比,~ω[i]-~ω[i-1]的值更大。
在本发明的第五方式的编码方法中,将γ设为作为1以下的正常数的校正系数,编码方法包含:线性预测系数校正步骤,生成对线性预测系数串a[1],a[2],…,a[p]利用校正系数γ进行了校正的已校正线性预测系数串aγ[1],aγ[2],…,aγ[p];已校正LSP生成步骤,利用已校正线性预测系数串aγ[1],aγ[2],…,aγ[p]生成已校正LSP参数串θγ[1],θγ[2],…,θγ[p];已校正LSP编码步骤,对已校正LSP参数串θγ[1],θγ[2],…,θγ[p]进行编码,从而生成已校正LSP码以及与已校正LSP码对应的已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p];LSP线性变换步骤,将频域参数串ω[1],ω[2],…,ω[p]设为已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p],并设为γ1=γ、γ2=1,通过执行第一方式至第四方式的任一个频域参数串生成方法的参数串变换步骤,生成变换后频域参数串~ω[1],~ω[2],…,~ω[p]作为近似已量化LSP参数串^θapp[1],^θapp[2],…,^θapp[p];已量化线性预测系数串生成步骤,生成将已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p]变换为线性预测系数的已校正已量化线性预测系数串^aγ[1],^aγ[2],…,^aγ[p];已量化已平滑化功率谱包络序列计算步骤,计算作为与已校正已量化线性预测系数串^aγ[1],^aγ[2],…,^aγ[p]对应的频域的序列的已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N];频域编码步骤,生成对与声音信号对应的频域样本串X[1],X[2],…,X[N],利用已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N]进行了编码的频域信号码;LSP生成步骤,利用线性预测系数串a[1],a[2],…,a[p]生成LSP参数串θ[1],θ[2],…,θ[p];LSP编码步骤,对LSP参数串θ[1],θ[2],…,θ[p]进行编码,生成LSP码以及与LSP码对应的已量化LSP参数串^θ[1],^θ[2],…,^θ[p];以及时域编码步骤,对声音信号,利用在前一个时间区间的LSP编码步骤中获得的已量化LSP参数串、在前一个时间区间的LSP线性变换步骤中获得的近似已量化LSP参数串的任一个、以及规定的时间区间的已量化LSP参数串,进行编码而生成时域信号码。
在本发明的第六方式的编码方法中,将γ设为作为1以下的正常数的校正系数,编码方法包含:线性预测系数校正步骤,生成对线性预测系数串a[1],a[2],…,a[p]利用校正系数γ进行了校正的已校正线性预测系数串aγ[1],aγ[2],…,aγ[p];已校正LSP生成步骤,利用已校正线性预测系数串aγ[1],aγ[2],…,aγ[p]生成已校正LSP参数串θγ[1],θγ[2],…,θγ[p];已校正LSP编码步骤,对已校正LSP参数串θγ[1],θγ[2],…,θγ[p]进行编码,从而生成已校正LSP码以及与已校正LSP码对应的已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p];LSP线性变换步骤,将频域参数串ω[1],ω[2],…,ω[p]设为已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p],并设为γ1=γ、γ2=1,通过执行第一方式至第四方式的频域参数串生成方法的参数串变换步骤,生成变换后频域参数串~ω[1],~ω[2],…,~ω[p]作为近似已量化LSP参数串^θapp[1],^θapp[2],…,^θapp[p];已量化已平滑化功率谱包络序列计算步骤,基于已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p],计算已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N],频域编码步骤,生成对与声音信号对应的频域样本串X[1],X[2],…,X[N],利用已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N]进行了编码的频域信号码;LSP生成步骤,利用线性预测系数串a[1],a[2],…,a[p]生成LSP参数串θ[1],θ[2],…,θ[p];LSP编码步骤,对LSP参数串θ[1],θ[2],…,θ[p]进行编码,生成LSP码以及与LSP码对应的已量化LSP参数串^θ[1],^θ[2],…,^θ[p];以及时域编码步骤,对声音信号,利用在前一个时间区间的LSP编码步骤中获得的已量化LSP参数串、在前一个时间区间的LSP线性变换步骤中获得的近似已量化LSP参数串的任一个、以及规定的时间区间的已量化LSP参数串,进行编码而生成时域信号码。
本发明的第七方式的解码方法包含:已校正LSP码解码步骤,对被输入的已校正LSP码进行解码,从而获得解码已校正LSP参数串^θγ[1],^θγ[2],…,^θγ[p];解码LSP线性变换步骤,将频域参数串ω[1],ω[2],…,ω[p]设为解码已校正LSP参数串^θγ[1],^θγ[2],…,^θγ[p],并设为γ1=γ、γ2=1,通过执行第一方式至第四方式的任一个频域参数串生成方法的参数串变换步骤,生成变换后频域参数串~ω[1],~ω[2],…,~ω[p]作为解码近似LSP参数串^θapp[1],^θapp[2],…,^θapp[p];解码线性预测系数串生成步骤,生成将解码已校正LSP参数串^θγ[1],^θγ[2],…,^θγ[p]变换为线性预测系数的解码已校正线性预测系数串^aγ[1],^aγ[2],…,^aγ[p];解码已平滑化功率谱包络序列计算步骤,计算作为与解码已校正线性预测系数串^aγ[1],^aγ[2],…,^aγ[p]对应的频域的序列的解码已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N];频域解码步骤,利用对被输入的频域信号码进行解码而获得的频域信号串、解码已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N],生成解码声音信号;LSP码解码步骤,对被输入的LSP码进行解码,获得解码LSP参数串^θ[1],^θ[2],…,^θ[p];以及时域解码步骤,对被输入的时域信号码进行解码,利用在前一个时间区间的LSP码解码步骤中获得的解码LSP参数串、在前一个时间区间的LSP线性变换步骤中获得的解码近似LSP参数串的任一个、以及规定的时间区间的解码LSP参数串而进行合成,从而生成解码声音信号。
本发明的第八方式的解码方法包含:已校正LSP码解码步骤,对被输入的已校正LSP码进行解码,从而获得解码已校正LSP参数串^θγ[1],^θγ[2],…,^θγ[p];解码LSP线性变换步骤,将频域参数串ω[1],ω[2],…,ω[p]设为解码已校正LSP参数串^θγ[1],^θγ[2],…,^θγ[p],并设为γ1=γ、γ2=1,通过执行第一方式至第四方式的频域参数串生成方法的参数串变换步骤,生成变换后频域参数串~ω[1],~ω[2],…,~ω[p]作为解码近似LSP参数串^θapp[1],^θapp[2],…,^θapp[p];解码已平滑化功率谱包络序列计算步骤,基于解码已校正LSP参数串^θγ[1],^θγ[2],…,^θγ[p]计算解码已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N];频域解码步骤,利用对被输入的频域信号码进行解码而获得的频域信号串、解码已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N],生成解码声音信号;频域解码步骤,利用对被输入的频域信号码进行解码而获得的频域信号串、解码已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N],生成解码声音信号;LSP码解码步骤,对被输入的LSP码进行解码,获得解码LSP参数串^θ[1],^θ[2],…,^θ[p];以及时域解码步骤,对被输入的时域信号码进行解码,利用在前一个时间区间的LSP码解码步骤中获得的解码LSP参数串、在前一个时间区间的LSP线性变换步骤中获得的解码近似LSP参数串的任一个、以及规定的时间区间的解码LSP参数串而进行合成,从而生成解码声音信号。
本发明的另一方式的编码方法,其中,将p设为1以上的整数,将γ设为作为1以下的正常数的校正系数,将a[1],a[2],…,a[p]设为对规定的时间区间的声音信号进行线性预测分析而获得的线性预测系数串,所述编码方法包含:线性预测系数校正步骤,生成对上述线性预测系数串a[1],a[2],…,a[p]利用上述校正系数γ而通过aγ[i]=a[i]×(γ)i进行了校正的已校正线性预测系数串aγ[1],aγ[2],…,aγ[p];已校正LSP生成步骤,利用上述已校正线性预测系数串aγ[1],aγ[2],…,aγ[p]生成已校正LSP参数串θγ[1],θγ[2],…,θγ[p];已校正LSP编码步骤,对上述已校正LSP参数串θγ[1],θγ[2],…,θγ[p]进行编码,从而生成已校正LSP码以及与上述已校正LSP码对应的已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p];LSP线性变换步骤,将频域参数串ω[1],ω[2],…,ω[p]设为上述已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p],通过执行将上述频域参数串ω[1],ω[2],…,ω[p]设为输入,从而求出变换后频域参数串~ω[1],~ω[2],…,~ω[p]的参数串变换步骤,生成上述变换后频域参数串~ω[1],~ω[2],…,~ω[p]作为近似已量化LSP参数串^θapp[1],^θapp[2],…,^θapp[p];已量化线性预测系数串生成步骤,生成将上述已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p]变换为线性预测系数的已校正已量化线性预测系数串^aγ[1],^aγ[2],…,^aγ[p];已量化已平滑化功率谱包络序列计算步骤,计算作为与上述已校正已量化线性预测系数串^aγ[1],^aγ[2],…,^aγ[p]对应的频域的序列的已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N];频域编码步骤,生成对与上述声音信号对应的频域样本串X[1],X[2],…,X[N],利用上述已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N]进行了编码的频域信号码;LSP生成步骤,利用上述线性预测系数串a[1],a[2],…,a[p]生成LSP参数串θ[1],θ[2],…,θ[p];LSP编码步骤,对上述LSP参数串θ[1],θ[2],…,θ[p]进行编码,生成LSP码以及与上述LSP码对应的已量化LSP参数串^θ[1],^θ[2],…,^θ[p];以及时域编码步骤,对上述声音信号,利用在前一个时间区间的上述LSP编码步骤中获得的已量化LSP参数串、在前一个时间区间的LSP线性变换步骤中获得的近似已量化LSP参数串的任一个、以及上述规定的时间区间的已量化LSP参数串,进行编码而生成时域信号码,上述参数串变换步骤通过基于ω[i]和接近ω[i]的一个或多个频域参数的值的关系的线性变换,求出上述变换后频域参数串~ω[1],~ω[2],…,~ω[p]中的各变换后频域参数~ω[i](i=1,2,…,p)。
本发明的另一方式的编码方法,其中,将p设为1以上的整数,将γ设为作为1以下的正常数的校正系数,将a[1],a[2],…,a[p]设为对规定的时间区间的声音信号进行线性预测分析而获得的线性预测系数串,所述编码方法包含:线性预测系数校正步骤,生成对上述线性预测系数串a[1],a[2],…,a[p]利用上述校正系数γ而通过aγ[i]=a[i]×(γ)i进行了校正的已校正线性预测系数串aγ[1],aγ[2],…,aγ[p];已校正LSP生成步骤,利用上述已校正线性预测系数串aγ[1],aγ[2],…,aγ[p]生成已校正LSP参数串θγ[1],θγ[2],…,θγ[p];已校正LSP编码步骤,对上述已校正LSP参数串θγ[1],θγ[2],…,θγ[p]进行编码,从而生成已校正LSP码以及与上述已校正LSP码对应的已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p];LSP线性变换步骤,将频域参数串ω[1],ω[2],…,ω[p]设为上述已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p],通过执行将上述频域参数串ω[1],ω[2],…,ω[p]设为输入,从而求出变换后频域参数串~ω[1],~ω[2],…,~ω[p]的参数串变换步骤,生成上述变换后频域参数串~ω[1],~ω[2],…,~ω[p]作为近似已量化LSP参数串^θapp[1],^θapp[2],…,^θapp[p];已量化已平滑化功率谱包络序列计算步骤,基于上述已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p],计算已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N];频域编码步骤,生成对与上述声音信号对应的频域样本串X[1],X[2],…,X[N],利用上述已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N]进行了编码的频域信号码;LSP生成步骤,利用上述线性预测系数串a[1],a[2],…,a[p]生成LSP参数串θ[1],θ[2],…,θ[p];LSP编码步骤,对上述LSP参数串θ[1],θ[2],…,θ[p]进行编码,生成LSP码以及与上述LSP码对应的已量化LSP参数串^θ[1],^θ[2],…,^θ[p];以及时域编码步骤,对上述声音信号,利用在前一个时间区间的上述LSP编码步骤中获得的已量化LSP参数串、在前一个时间区间的LSP线性变换步骤中获得的近似已量化LSP参数串的任一个、以及上述规定的时间区间的已量化LSP参数串,进行编码而生成时域信号码,上述参数串变换步骤通过基于ω[i]和接近ω[i]的一个或多个频域参数的值的关系的线性变换,求出上述变换后频域参数串~ω[1],~ω[2],…,~ω[p]中的各变换后频域参数~ω[i](i=1,2,…,p)。
本发明的另一方式的编码装置,其中,将p设为1以上的整数,将γ设为作为1以下的正常数的校正系数,将a[1],a[2],…,a[p]设为对规定的时间区间的声音信号进行线性预测分析而获得的线性预测系数串,所述编码装置包含:线性预测系数校正部,生成对上述线性预测系数串a[1],a[2],…,a[p]利用上述校正系数γ而通过aγ[i]=a[i]×(γ)i进行了校正的已校正线性预测系数串aγ[1],aγ[2],…,aγ[p];已校正LSP生成部,利用上述已校正线性预测系数串aγ[1],aγ[2],…,aγ[p]生成已校正LSP参数串θγ[1],θγ[2],…,θγ[p];已校正LSP编码部,对上述已校正LSP参数串θγ[1],θγ[2],…,θγ[p]进行编码,从而生成已校正LSP码以及与上述已校正LSP码对应的已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p];LSP线性变换部,将频域参数串ω[1],ω[2],…,ω[p]设为上述已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p],通过执行将上述频域参数串ω[1],ω[2],…,ω[p]设为输入,从而求出变换后频域参数串~ω[1],~ω[2],…,~ω[p]的参数串变换部,生成上述变换后频域参数串~ω[1],~ω[2],…,~ω[p]作为近似已量化LSP参数串^θapp[1],^θapp[2],…,^θapp[p];已量化线性预测系数串生成部,生成将上述已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p]变换为线性预测系数的已校正已量化线性预测系数串^aγ[1],^aγ[2],…,^aγ[p];已量化已平滑化功率谱包络序列计算部,计算作为与上述已校正已量化线性预测系数串^aγ[1],^aγ[2],…,^aγ[p]对应的频域的序列的已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N];频域编码部,生成对与上述声音信号对应的频域样本串X[1],X[2],…,X[N],利用上述已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N]进行了编码的频域信号码;LSP生成部,利用上述线性预测系数串a[1],a[2],…,a[p]生成LSP参数串θ[1],θ[2],…,θ[p];LSP编码部,对上述LSP参数串θ[1],θ[2],…,θ[p]进行编码,生成LSP码以及与上述LSP码对应的已量化LSP参数串^θ[1],^θ[2],…,^θ[p];以及时域编码部,对上述声音信号,利用在前一个时间区间的上述LSP编码部中获得的已量化LSP参数串、在前一个时间区间的LSP线性变换部中获得的近似已量化LSP参数串的任一个、以及上述规定的时间区间的已量化LSP参数串,进行编码而生成时域信号码,上述参数串变换部通过基于ω[i]和接近ω[i]的一个或多个频域参数的值的关系的线性变换,求出上述变换后频域参数串~ω[1],~ω[2],…,~ω[p]中的各变换后频域参数~ω[i](i=1,2,…,p)。
本发明的另一方式的编码装置,其中,将p设为1以上的整数,将γ设为作为1以下的正常数的校正系数,将a[1],a[2],…,a[p]设为对规定的时间区间的声音信号进行线性预测分析而获得的线性预测系数串,所述编码装置包含:线性预测系数校正部,生成对上述线性预测系数串a[1],a[2],…,a[p]利用上述校正系数γ而通过aγ[i]=a[i]×(γ)i进行了校正的已校正线性预测系数串aγ[1],aγ[2],…,aγ[p];已校正LSP生成部,利用上述已校正线性预测系数串aγ[1],aγ[2],…,aγ[p]生成已校正LSP参数串θγ[1],θγ[2],…,θγ[p];已校正LSP编码部,对上述已校正LSP参数串θγ[1],θγ[2],…,θγ[p]进行编码,从而生成已校正LSP码以及对与上述已校正LSP码对应的已校正LSP参数串的各值进行了量化的已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p];LSP线性变换部,将频域参数串ω[1],ω[2],…,ω[p]设为上述已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p],通过执行将上述频域参数串ω[1],ω[2],…,ω[p]设为输入,从而求出变换后频域参数串~ω[1],~ω[2],…,~ω[p]的参数串变换部,生成上述变换后频域参数串~ω[1],~ω[2],…,~ω[p]作为近似已量化LSP参数串^θapp[1],^θapp[2],…,^θapp[p];已量化已平滑化功率谱包络序列计算部,基于上述已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p],计算已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N];频域编码部,生成对与上述声音信号对应的频域样本串X[1],X[2],…,X[N],利用上述已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N]进行了编码的频域信号码;LSP生成部,利用上述线性预测系数串a[1],a[2],…,a[p]生成LSP参数串θ[1],θ[2],…,θ[p];LSP编码部,对上述LSP参数串θ[1],θ[2],…,θ[p]进行编码,生成LSP码以及与上述LSP码对应的已量化LSP参数串^θ[1],^θ[2],…,^θ[p];以及时域编码部,对上述声音信号,利用在前一个时间区间的上述LSP编码部中获得的已量化LSP参数串、在前一个时间区间的LSP线性变换部中获得的近似已量化LSP参数串的任一个、以及上述规定的时间区间的已量化LSP参数串,进行编码而生成时域信号码,上述参数串变换部通过基于ω[i]和接近ω[i]的一个或多个频域参数的值的关系的线性变换,求出上述变换后频域参数串~ω[1],~ω[2],…,~ω[p]中的各变换后频域参数~ω[i](i=1,2,…,p)。
发明效果
根据本发明的编码技术,比以往减小频域的编码的编码失真,且根据与通过频域的编码而获得的线性预测系数、LSP参数等为代表的线性预测系数等价的系数,获得与在时域的编码中利用的前一帧的已量化LSP参数对应的LSP参数。此外,根据在上述的编码技术中利用那样的、与线性预测系数等价的系数,能够生成与平滑化的程度不同的线性预测系数等价的系数。
附图说明
图1是例示现有的编码装置的功能结构的图。
图2是例示现有的编码方法的处理流程的图。
图3是例示编码装置与解码装置之间的关系的图。
图4是例示第一实施方式的编码装置的功能结构的图。
图5是例示第一实施方式的编码方法的处理流程的图。
图6是例示第一实施方式的解码装置的功能结构的图。
图7是例示第一实施方式的解码方法的处理流程的图。
图8是例示第二实施方式的编码装置的功能结构的图。
图9是用于说明LSP参数的性质的图。
图10是用于说明LSP参数的性质的图。
图11是用于说明LSP参数的性质的图。
图12是例示第二实施方式的编码方法的处理流程的图。
图13是例示第二实施方式的解码装置的功能结构的图。
图14是例示第二实施方式的解码方法的处理流程的图。
图15是例示第二实施方式的变形例的编码装置的功能结构的图。
图16是例示第二实施方式的变形例的编码方法的处理流程的图。
图17是例示第三实施方式的编码装置的功能结构的图。
图18是例示第三实施方式的编码方法的处理流程的图。
图19是例示第三实施方式的解码装置的功能结构的图。
图20是例示第三实施方式的解码方法的处理流程的图。
图21是例示第四实施方式的编码装置的功能结构的图。
图22是例示第四实施方式的编码方法的处理流程的图。
图23是例示第五实施方式的频域参数串生成装置的功能结构的图。
具体实施方式
以下,说明本发明的实施方式。另外,在以下的说明中利用的附图中,对具有相同功能的结构部或进行相同处理的步骤标记同一个符号,并省略重复说明。
【第一实施方式】
第一实施方式的编码装置在进行时域中的编码的帧中对从线性预测系数变换的LSP参数进行编码而获得LSP码,在进行频域中的编码的帧中对从被校正的线性预测系数变换的已校正LSP参数进行编码而获得已校正LSP码,从而在进行了频域中的编码的帧的下一个帧中进行时域中的编码时,将对与对应于已校正LSP码的LSP参数对应的线性预测系数进行逆校正而获得的线性预测系数变换为LSP的参数作为在下一帧的时域中的编码中利用的LSP参数。
第一实施方式的解码装置在进行时域中的解码的帧中,获得从对LSP码进行解码而获得的LSP参数变换的线性预测系数,并将其用于时域中的解码中,在进行频域中的解码的帧中,将对已校正LSP码进行解码而获得的校正后的LSP参数用于频域中的解码,且在进行了频域中的解码的帧的下一帧中进行时域中的解码时,将对与对应于已校正LSP码的LSP参数对应的线性预测系数进行逆校正而获得的线性预测系数变换为LSP的系数作为在下一帧的时域中的解码中利用的LSP参数。
如图3所示,在第一实施方式的编码装置以及解码装置中,被输入到编码装置1的输入声音信号被编码为码串,该码串从编码装置1送到解码装置2,通过解码装置2,码串被解码为解码声音信号而输出。
<编码装置>
如图4所示,与现有的编码装置9同样地,编码装置1例如包含输入部100、线性预测分析部105、LSP生成部110、LSP编码部115、特征量提取部120、频域编码部150、延迟输入部165、时域编码部170以及输出部175,进一步例如包含线性预测系数校正部125、已校正LSP生成部130、已校正LSP编码部135、已量化线性预测系数生成部140、第一已量化已平滑化功率谱包络序列计算部145、已量化线性预测系数逆校正部155、以及已逆校正LSP生成部160。
编码装置1例如是对具有中央运算处理装置(中央处理单元(Central ProcessingUnit)、CPU)、主存储装置(随机存取存储器(Random Access Memory)、RAM)等的公知或专用的计算机写入特殊的程序而构成的特殊的装置。编码装置1例如在中央运算处理装置的控制下执行各处理。被输入到编码装置1的数据或在各处理中获得的数据例如存储在主存储装置,被存储在主存储装置中的数据根据需要而被读取从而用于其他的处理。此外,编码装置1的各处理部的至少一部分也可以由集成电路等硬件构成。
如图4所示,第一实施方式的编码装置1与现有的编码装置9相比,其不同点在于,在通过特征量提取部120提取的特征量小于规定的阈值的情况下(即,输入声音信号的时间变动小的情况下),代替对将线性预测系数串a[1],a[2],…,a[p]变换为LSP参数的序列即LSP参数串θ[1],θ[2],…,θ[p]进行编码而输出LSP码C1,而是对将已校正线性预测系数串aγR[1],aγR[2],…,aγR[p]变换为LSP参数的序列即已校正LSP参数串θγR[1],θγR[2],…,θγR[p]进行编码而输出已校正LSP码Cγ。
在第一实施方式的结构中,在前一帧中通过特征量提取部120提取的特征量小于规定的阈值的情况下(即,输入声音信号的时间变动小的情况下),由于没有生成已量化LSP参数串^θ[1],^θ[2],…,^θ[p],因此不能输入到延迟输入部165。已量化线性预测系数逆校正部155以及逆校正LSP生成部160是因此而追加的处理部,是在前一帧中通过特征量提取部120提取的特征量小于规定的阈值的情况下(即,输入声音信号的时间变动小的情况下),根据已校正已量化线性预测系数串^aγR[1],^aγR[2],…,^aγR[p],生成在时域编码部170中利用的前一帧的已量化LSP参数串^θ[1],^θ[2],…,^θ[p]的近似值的序列的部。在此,已逆校正LSP参数串^θ’[1],^θ’[2],…,^θ’[p]是已量化LSP参数串^θ[1],^θ[2],…,^θ[p]的近似值的序列。
<编码方法>
参照图5,说明第一实施方式的编码方法。以下,着重说明与上述的现有技术的不同点。
在步骤S125中,线性预测系数校正部125求出对从线性预测分析部105输出的线性预测系数串a[1],a[2],…,a[p]的各系数a[i](i=1,…,p)乘以了校正系数γR的i次方的系数aγR[i]=a[i]×γRi的序列而输出。在以后的说明中,将所求出的序列aγR[1],aγR[2],…,aγR[p]称为已校正线性预测系数串。
从线性预测系数校正部125输出的已校正线性预测系数串aγR[1],aγR[2],…,aγR[p]被输入到已校正LSP生成部130。
在步骤S130中,已校正LSP生成部130求出作为与从线性预测系数校正部125输出的已校正线性预测系数串aγR[1],aγR[2],…,aγR[p]对应的LSP参数的序列即已校正LSP参数串θγR[1],θγR[2],…,θγR[p]而输出。已校正LSP参数串θγR[1],θγR[2],…,θγR[p]是按照值从小到大的顺序排列的序列。也就是说,满足
0<θγR[1]<θγR[2]<…<θγR[p]<π。
从已校正LSP生成部130输出的已校正LSP参数串θγR[1],θγR[2],…,θγR[p]被输入到已校正LSP编码部135。
在步骤S135中,已校正LSP编码部135对从已校正LSP生成部130输出的已校正LSP参数串θγR[1],θγR[2],…,θγR[p]进行编码,生成已校正LSP码Cγ、以及与已校正LSP码Cγ对应的量化后的已校正LSP参数的序列^θγR[1],^θγR[2],…,^θγR[p]而输出。在以后的说明中,将序列^θγR[1],^θγR[2],…,^θγR[p]称为已校正已量化LSP参数串。
从已校正LSP编码部135输出的已校正已量化LSP参数串^θγR[1],^θγR[2],…,^θγR[p]被输入到已量化线性预测系数生成部140。此外,从已校正LSP编码部135输出的已校正LSP码Cγ被输入到输出部175。
在步骤S140中,已量化线性预测系数生成部140根据从已校正LSP编码部135输出的已校正已量化LSP参数串^θγR[1],^θγR[2],…,^θγR[p]生成线性预测系数的序列^aγR[1],^aγR[2],…,^aγR[p]而输出。在以后的说明中,将序列^aγR[1],^aγR[2],…,^aγR[p]称为已校正已量化线性预测系数串。
从已量化线性预测系数生成部140输出的已校正已量化线性预测系数串^aγ[1],^aγ[2],…,^aγ[p]被输入到第一已量化已平滑化功率谱包络序列计算部145以及已量化线性预测系数逆校正部155。
在步骤S145中,第一已量化已平滑化功率谱包络序列计算部145利用从已量化线性预测系数生成部140输出的已校正已量化线性预测系数串^aγR[1],^aγR[2],…,^aγR[p]的各系数^aγR[i],通过式(8),生成已量化已平滑化功率谱包络序列^WγR[1],^WγR[2],…,^WγR[N]而输出。
【数7】
从第1已量化已平滑化功率谱包络序列计算部145输出的已量化已平滑化功率谱包络序列^WγR[1],^WγR[2],…,^WγR[N]被输入到频域编码部150。
频域编码部150的处理除了代替近似已平滑化功率谱包络序列~WγR[1],~WγR[2],…,~WγR[N]而利用已量化已平滑化功率谱包络序列^WγR[1],^WγR[2],…,^WγR[N]这一点之外,与现有的编码装置9的频域编码部150的处理相同。
在步骤S155中,已量化线性预测系数逆校正部155求出以校正系数γR的i次方除以从已量化线性预测系数生成部140输出的已校正已量化线性预测系数串^aγR[1],^aγR[2],…,^aγR[p]的各值^aγR[i]的值aγ[i]/(γR)i的序列^aγ[1]/(γR),^aγ[2]/(γR)2,…,^aγ[p]/(γR)p而输出。在以后的说明中,将序列^aγ[1]/(γR),^aγ[2]/(γR)2,…,^aγ[p]/(γR)p称为已逆校正线性预测系数串。校正系数γR设为与在线性预测系数校正部125中利用的校正系数γR相同的值。
从已量化线性预测系数逆校正部155输出的已逆校正线性预测系数串^aγ[1]/(γR),^aγ[2]/(γR)2,…,^aγ[p]/(γR)p被输入到已逆校正LSP生成部160。
在步骤S160中,已逆校正LSP生成部160根据从已量化线性预测系数逆校正部155输出的已逆校正线性预测系数串^aγ[1]/(γR),^aγ[2]/(γR)2,…,^aγ[p]/(γR)p求出LSP参数的序列^θ’[1],^θ’[2],…,^θ’[p]而输出。在以后的说明中,将LSP参数的序列^θ’[1],^θ’[2],…,^θ’[p]称为已逆校正LSP参数串。已逆校正LSP参数串^θ’[1],^θ’[2],…,^θ’[p]是按照值从小到大的顺序排列的序列。也就是说,是满足
0<^θ’[1]<^θ’[2]<…<^θ’[p]<π
的序列。
从已逆校正LSP生成部160输出的已逆校正LSP参数^θ’[1],^θ’[2],…,^θ’[p]作为已量化LSP参数串^θ[1],^θ[2],…,^θ[p]而被输入到延迟输入部165。也就是说,利用已逆校正LSP参数^θ’[1],^θ’[2],…,^θ’[p]代替使用已量化LSP参数串^θ[1],^θ[2],…,^θ[p]。
在步骤S175中,编码装置1经由输出部175,将LSP编码部115输出的LSP码C1、特征量提取部120输出的识别码Cg、已校正LSP编码部135输出的已校正LSP码Cγ、频域编码部150输出的频域信号码或时域编码部170输出的时域信号码中的任一个发送给解码装置2。
<解码装置>
如图6所示,解码装置2例如包含输入部200、识别码解码部205、LSP码解码部210、已校正LSP码解码部215、解码线性预测系数生成部220、第一解码已平滑化功率谱包络序列计算部225、频域解码部230、解码线性预测系数逆校正部235、解码已逆校正LSP生成部240、延迟输入部245、时域解码部250以及输出部255。
解码装置2例如是对具有中央运算处理装置(中央处理单元(Central ProcessingUnit)、CPU)、主存储装置(随机存取存储器(Random Access Memory)、RAM)等的公知或专用的计算机写入特殊的程序而构成的特殊的装置。解码装置2例如在中央运算处理装置的控制下执行各处理。被输入到解码装置2的数据或在各处理中获得的数据例如存储在主存储装置,被存储在主存储装置中的数据根据需要而被读取从而用于其他的处理。此外,解码装置2的各处理部的至少一部分也可以由集成电路等硬件构成。
<解码方法>
参照图7,说明第一实施方式的解码方法。
在步骤S200中,对解码装置2输入由编码装置1生成的码串。码串中包含有LSP码C1、识别码Cg、已校正LSP码Cγ、以及频域信号码或时域信号码中的任一个。
在步骤S205中,识别码解码部205进行控制,使得在被输入的码串中包含的识别码Cg与表示频域编码方法的信息对应的情况下,由已校正LSP码解码部215执行下一个处理,在识别码Cg与表示时域编码方法的信息对应的情况下,由LSP码解码部210执行下一个处理。
已校正LSP码解码部215、解码线性预测系数生成部220、第一解码已平滑化功率谱包络序列计算部225、频域解码部230、解码线性预测系数逆校正部235以及解码已逆校正LSP生成部240在被输入的码串中包含的识别码Cg与表示频域编码方法的信息对应的情况下被执行(步骤S206)。
在步骤S215中,已校正LSP码解码部215对被输入的码串中包含的已校正LSP码Cγ进行解码而获得解码已校正LSP码串^θγR[1],^θγR[2],…,^θγR[p]并将其输出。即,获得与已校正LSP码Cγ对应的LSP参数的串即解码已校正LSP参数串^θγR[1],^θγR[2],…,^θγR[p]而输出。当编码装置1输出的已校正LSP码Cγ不受到码错误等的影响而准确地输入到解码装置2的情况下,由于在此获得的解码已校正LSP参数串^θγR[1],^θγR[2],…,^θγR[p]与编码装置1生成的已校正已量化LSP参数串^θγR[1],^θγR[2],…,^θγR[p]相同,因此利用相同的标号。
从已校正LSP码解码部215输出的解码已校正LSP参数串^θγR[1],^θγR[2],…,^θγR[p]被输入到解码线性预测系数生成部220。
解码线性预测系数生成部220根据从已校正LSP码解码部215输出的解码已校正LSP参数串^θγR[1],^θγR[2],…,^θγR[p],生成线性预测系数的序列^aγR[1],^aγR[2],…,^aγR[p]并将其输出。在以后的说明中,将序列^aγR[1],^aγR[2],…,^aγR[p]称为解码已校正线性预测系数串。
从解码线性预测系数生成部220输出的解码线性预测系数串^aγR[1],^aγR[2],…,^aγR[p]被输入到第一解码已平滑化功率谱包络序列计算部225以及解码线性预测系数逆校正部235中。
第一解码已平滑化功率谱包络序列计算部225利用从解码线性预测系数生成部220输出的解码已校正线性预测系数串^aγR[1],^aγR[2],…,^aγR[p]的各系数^aγR[i],通过式(8),生成解码已平滑化功率谱包络序列^WγR[1],^WγR[2],…,^WγR[N]而输出。
从第一解码已平滑化功率谱包络序列计算部225输出的解码已平滑化功率谱包络序列^WγR[1],^WγR[2],…,^WγR[N]被输入到频域解码部230。
在步骤S230中,频域解码部230对被输入的码串中包含的频域信号码进行解码而求出解码已归一化频域信号串XN[1],XN[2],…,XN[N]。接着,频域解码部230通过对解码已归一化频域信号串XN[1],XN[2],…,XN[N]的各值XN[n](n=1,…,N)乘以解码已平滑化功率谱包络序列^WγR[1],^WγR[2],…,^WγR[N]的各值^WγR[n]的平方根,获得解码频域信号串X[1],X[2],…,X[N]而输出。也就是说,计算X[n]=XN[n]×sqrt(^WγR[n])。然后,将解码频域信号串X[1],X[2],…,X[N]变换为时域,获得解码声音信号而输出。
在步骤S235中,解码线性预测系数逆校正部235求出以校正系数γR的i次方除以了从解码线性预测系数生成部220输出的解码已校正线性预测系数串^aγR[1],^aγR[2],…,^aγR[p]的各值^aγR[i]的值^aγ[i]/(γR)i的序列^aγR[1]/(γR),^aγR[2]/(γR)2,…,^aγR[p]/(γR)p而输出。在以后的说明中,将序列^aγR[1]/(γR),^aγR[2]/(γR)2,…,^aγR[p]/(γR)p称为解码已逆校正线性预测系数串。校正系数γR设与在编码装置1的线性预测系数校正部125中利用的校正系数γR相同的值。
从解码线性预测系数逆校正部235输出的解码已逆校正线性预测系数串^aγR[1]/(γR),^aγR[2]/(γR)2,…,^aγR[p]/(γR)p被输入到解码已逆校正LSP生成部240。
在步骤S240中,解码已逆校正LSP生成部240根据解码已逆校正线性预测系数串^aγR[1]/(γR),^aγR[2]/(γR)2,…,^aγR[p]/(γR)p求出LSP参数的序列^θ’[1],^θ’[2],…,^θ’[p]而输出。在以后的说明中,将LSP参数的序列^θ’[1],^θ’[2],…,^θ’[p]称为解码已逆校正LSP参数串。
从解码已逆校正LSP生成部240输出的解码已逆校正LSP参数^θ’[1],^θ’[2],…,^θ’[p]作为解码LSP参数串^θ[1],^θ[2],…,^θ[p]被输入到延迟输入部245。
LSP码解码部210、延迟输入部245以及时域解码部250在被输入的码串中包含的识别码Cg与表示时域编码方法的信息对应的情况下被执行(步骤S206)。
在步骤S210中,LSP码解码部210对被输入的码串中包含的LSP码C1进行解码,获得解码LSP参数串^θ[1],^θ[2],…,^θ[p]而输出。即,获得与LSP码C1对应的LSP参数的串即解码LSP参数串^θ[1],^θ[2],…,^θ[p]而输出。
从LSP码解码部210输出的解码LSP参数串^θ[1],^θ[2],…,^θ[p]被输入到延迟输入部245以及时域解码部250。
在步骤S245中,延迟输入部245保持被输入的解码LSP参数串^θ[1],^θ[2],…,^θ[p],延迟一帧量而输出到时域解码部250。例如,若当前帧是第f个帧,则将第f-1个帧的解码LSP参数串^θ[f-1][1],^θ[f-1][2],…,^θ[f-1][p]输出到时域编码部250。
另外,当被输入的码中包含的识别码Cg与表示频域编码方法的信息对应的情况下,从解码已逆校正LSP生成部240输出的解码已逆校正LSP参数串^θ’[1],^θ’[2],…,^θ’[p]作为解码LSP参数串^θ[1],^θ[2],…,^θ[p]被输入到延迟输入部245。
在步骤S250中,时域解码部250根据在被输入的码串中包含的时域信号码,确定在自适应码本中包含的波形以及在固定码本中包含的波形。对合成了所确定的在自适应码本中包含的波形以及在固定码本中包含的波形的信号应用合成滤波器,求出去除了谱包络的影响的合成信号,并将所求出的合成信号作为解码声音信号而输出。
合成滤波器的滤波器系数利用第f个帧的解码LSP参数串^θ[1],^θ[2],…,^θ[p]以及第f-1个帧的解码LSP参数串^θ[f-1][1],^θ[f-1][2],…,^θ[f-1][p]而生成。
具体来说,首先将帧分割为两个子帧,并如以下那样决定合成滤波器的滤波器系数。
在后半部分的子帧中,对合成滤波器的滤波器系数,利用对将第f个帧的解码LSP参数串^θ[1],^θ[2],…,^θ[p]变换为线性预测系数的系数串即解码线性预测系数^a[1],^a[2],…,^a[p]的各系数^a[i]乘以校正系数γR的i次方的值的序列
^a[1]×(γR),^a[2]×(γR)2,…,^a[p]×(γR)p。
在前半部分的子帧中,对合成滤波器的滤波器系数,利用对将作为第f个帧的解码LSP参数串^θ[1],^θ[2],…,^θ[p]的各值^θ[i]和第f-1个帧的解码LSP参数串θ[f-1][1],θ[f-1][2],…,θ[f-1][p]的各值^θ[f-1][i]的中间值的序列的解码已校正LSP参数串~θ[1],~θ[2],…,~θ[p]变换为线性预测系数的系数串即解码已插补线性预测系数~a[1],~a[2],…,~a[p]的各系数~a[i]乘以了校正系数γR的i次方的值的序列
~a[1]×(γR),~a[2]×(γR)2,…,~a[p]×(γR)p。
也就是说,是
~θ[i]=0.5×^θ[f-1][i]+0.5×^θ[i](i=1,…,p)。
<第一实施方式的效果>
在编码装置1的已校正LSP编码部135中,求出使已校正LSP参数串θγR[1],θγR[2],…,θγR[p]和已校正已量化LSP参数串^θγR[1],^θγR[2],…,^θγR[p]之间的量化失真最小化的已校正已量化LSP参数串^θγR[1],^θγR[2],…,^θγR[p]。由此,能够将已校正已量化LSP参数串^θγR[1],^θγR[2],…,^θγR[p]决定为高精度地近似于考虑了听觉的(即,通过校正系数γR进行了平滑化的)功率谱包络序列。将已校正已量化LSP参数串^θγR[1],^θγR[2],…,^θγR[p]展开于频域而获得的功率谱包络序列即已量化已平滑化功率谱包络序列^WγR[1],^WγR[2],…,^WγR[N]能够高精度地近似于已平滑化功率谱包络序列WγR[1],WγR[2],…,WγR[N]。若LSP码C1与已校正LSP码Cγ的码量相同,则第一实施方式的频域的编码的编码失真能够小于以往。此外,在将编码失真假设为与现有的编码方法相同的情况下,与LSP码C1相比,已校正LSP码Cγ的编码量比以往小。从而,若是与以往相同的编码失真,则能够比以往减小码量,若是与以往相同的码量,则能够比以往减小编码失真。
[第二实施方式]
在第一实施方式的编码装置1以及解码装置2中,尤其已逆校正LSP生成部160、解码已逆校正LSP生成部240的计算成本大。因此,在第二实施方式的编码装置3中,不经由线性预测系数,根据已校正已量化LSP参数串^θγR[1],^θγR[2],…,^θγR[p]直接生成已量化LSP参数串^θ[1],^θ[2],…,^θ[p]的各值的近似值的序列即近似已量化LSP参数串^θ[1]app,^θ[2]app,…,^θ[p]app。同样地,在第二实施方式的解码装置4中,不经由线性预测系数,根据解码已校正LSP参数串^θγR[1],^θγR[2],…,^θγR[p]直接生成解码LSP参数串^θ[1],^θ[2],…,^θ[p]的各值的近似值的序列即解码近似LSP参数串^θ[1]app,^θ[2]app,…,^θ[p]app。
<编码装置>
图8表示第二实施方式的编码装置3的功能结构。
编码装置3与第一实施方式的编码装置1相比,不同点在于,不包含已量化线性预测系数逆校正部155、逆校正LSP生成部160,取而代之,包含LSP线性变换部300。
在LSP线性变换部300中,利用LSP参数的性质,实施近似于已校正已量化LSP参数串^θγR[1],^θγR[2],…,^θγR[p]的线性变换,生成近似已量化LSP参数串^θ[1]app,^θ[2]app,…,^θ[p]app。
首先,说明LSP参数的性质。
在LSP线性变换部300中将已量化的LSP参数的序列设为近似变换的对象,但已量化的LSP参数的序列的性质与未量化的LSP参数串的性质基本相同,因此首先,说明未量化的LSP参数串的性质。
LSP参数串θ[1],θ[2],…,θ[p]是与输入声音信号的功率谱包络有相关性的频域的参数串。LSP参数串的各值与输入声音信号的功率谱包络的极值的频率位置相关。在θ[i]与θ[i+1]之间的频率位置存在功率谱包络的极值,在该极值的周围的切线的倾斜越陡,θ[i]与θ[i+1]之间的间隔(也就是说,θ[i+1]-θ[i]的值)越小。即,功率谱包络的振幅的不平顺越陡,针对各i(i=1,2,…,p-1),θ[i]与θ[i+1]之间的间隔越不均匀。相反,在几乎没有功率谱包络的不平顺的情况下,针对各i,θ[i]与θ[i+1]之间的间隔近似于等间隔。
校正系数γ越小,在式(7)中定义的已平滑化功率谱包络序列Wγ[1],Wγ[2],…,Wγ[N]的振幅的不平顺与在式(6)中定义的功率谱包络序列W[1],W[2],…,W[N]的振幅的不平顺相比缓慢。从而,可以说校正系数γ的值越小,θ[i]与θ[i+1]之间的间隔越接近等间隔。另外,在没有γ的影响(γ=0)时,相当于功率谱包络平坦的情况。
设为校正系数γ=0时的已校正LSP参数θγ=0[1],θγ=0[2],…,θγ=0[p]成为
【数8】
针对所有的i=1,…,p-1,θ[i]与θ[i+1]之间的间隔成为等间隔。此外,在设为γ=1时,已校正LSP参数串θγ=1[1],θγ=1[2],…,θγ=1[p]与LSP参数串θ[1],θ[2],…,θ[p]等价。另外,已校正LSP参数满足
0<θγ[1]<θγ[2]…<θγ[p]<π
的性质。
图9是校正系数γ与已校正LSP参数θγ[i](i=1,2,…,p)的关系的一例。横轴表示校正系数γ的值,纵轴表示已校正LSP参数的值。作为预测次数p=16,从下依次图示了θγ[1],θγ[2],…,θγ[16]的值。各θγ[i]的值是利用对某语音声音信号进行线性预测分析而获得的线性预测系数串a[1],a[2],…,a[p],通过与线性预测系数校正部125同样的处理,按照各γ的值求出已校正线性预测系数串aγ[1],aγ[2],…,aγ[p],并通过与已校正LSP生成部130同样的处理,将已校正线性预测系数串aγ[1],aγ[2],…,aγ[p]变换为LSP参数而获得的值。另外,与γ=1时的θγ=1[i]与θ[i]等价。
如图9所示,作为0<γ<1,LSP参数θγ[i]成为θγ=0[i]与θγ=1[i]的分界点。在将横轴设为校正系数γ的值,将纵轴设为LSP参数的值的二维平面中,局部上看,各LSP参数θγ[i]相对于γ的增加或减少,处于线性的关系。作为不同的两个校正系数γ1、γ2(0<γ1<γ2≦1),连接二维平面上的点(γ1,θγ1[i])与点(γ2,θγ2[i])的直线的倾斜的大小与LSP参数串θγ1[1],θγ1[2],…,θγ1[p]中的θγ1[i]的前后的LSP参数(也就是说,θγ1[i-1]与θγ1[i+1])和θγ1[i]的相对间隔具有相关性。具体来说,在
【数9】
|θγ1[i]-θγ1[i-1]|>|θγ1[i+1]-θγ1[i]| …(9)
的情况下,成立
【数10】
|θγ2[i+1]-θγ2[i]|<|θγ1[i+1]-θγ1[i]|
且
|θγ2[i]-θγ2[i-1]|>|θγ1[i]-θγ1[i-1]| …(10)
的性质,在
【数11】
|θγ1[i]-θγ1[i-1]|<|θγ1[i+1]-θγ1[i]| …(11)
的情况下,成立
【数12】
|θγ2[i+1]-θγ2[i]|>|θγ1[i+1]-θγ1[i]|
且
|θγ2[i]-θγ2[i-1]|<|θγ1[i]-θγ1[i-1]| …(12)
的性质。
式(9)、(10)表示在θγ1[i]比θγ1[i+1]与θγ1[i-1]的中点更靠向θγ1[i+1]的情况下,θγ2[i]成为更靠向θγ2[i+1]的值(参照图10)。这意味着,与连接将横轴设为γ的值并将纵轴设为LSP参数的值的二维平面上的点(0,θγ=0[i])与点(γ1,θγ1[i])的直线L1的倾斜相比,连接点(γ1,θγ1[i])与点(γ2,θγ2[i])的直线L2的倾斜更大(参照图11)。
式(11)、(12)表示在θγ1[i]比θγ1[i+1]与θγ1[i-1]的中点更靠向θγ1[i-1]时,θγ2[i]成为更靠向θγ2[i-1]的值。这意味着,与连接将横轴设为γ的值并将纵轴设为LSP参数的值的二维平面上的点(0,θγ=0[i])与点(γ1,θγ1[i])的直线的倾斜相比,连接点(γ1,θγ1[i])与点(γ2,θγ2[i])的直线的倾斜更小。
基于以上的性质,θγ1[1],θγ1[2],…,θγ1[p]与θγ2[1],θγ2[2],…,θγ2[p]的关系能够设为Θγ1=(θγ1[1],θγ1[2],…,θγ1[p])T并设为Θγ2=(θγ2[1],θγ2[2],…,θγ2[p])T而通过式(13)进行模型化。
【数13】
Θγ2≈K(Θγ1-Θγ=0)(γ2-γ1)+Θγ1 …(13)
其中,K是通过式(14)定义的p×p矩阵。
【数14】
在此,0<γ1、γ2≦1且γ1≠γ2。在式(9)~(12)中,假设为γ1<γ2而记述关系性,但在式(13)的模型中,γ1与γ2的大小关系没有限制,也可以是γ1<γ2,也可以是γ1>γ2。
矩阵K是只有对角分量与其附近的元素具有非零的值的带状矩阵,是表现与对角分量对应的LSP参数和与其相邻的LSP参数之间成立的上述相关关系的矩阵。另外,在式(14)中,例示了带宽为3的带状矩阵,但带宽不限定于3。
在此,若设为
【数15】
则
~Θγ2=(~θγ2[1],~θγ2[2],…,~θγ2[p])T
是Θγ2的近似值。
若展开式(13a),则获得以下的式(15)。
【数16】
其中,设为i=2,…,p-1。
将与连接将横轴设为γ的值并将纵轴设为LSP参数的值的二维平面上的点(γ1,θγ1[i])与点(0,θγ=0[i])的直线L1的沿线上的γ2对应的纵轴的值,也就是说,对应于根据连接θγ1[i]与θγ=0[i]的直线L1的倾斜而进行了直线近似时的γ2的纵轴的值设为-θγ2[i](参照图11)。则,
【数17】
成立。若γ1>γ2则意味着直线插补,若γ1<γ2则意味着直线外推。
在式(14)中,若设为
【数18】
则成为~θγ2[i]=-θγ2[i],根据式(13a)的模型而获得的~θγ2[i]与根据连接二维平面上的点(γ1,θγ1[i])与点(0,θγ=0[i])的直线而进行了直线近似的情况下的与γ2对应的LSP参数的值的估计值-θγ2[i]一致。
将ui、vi设为1以下的正值,在上述的式(14)中,若
【数19】
则式(15)能够如以下那样改写。
【数20】
式(17)意味着通过LSP参数串θγ1[1],θγ1[2],…,θγ1[p]中的第i个LSP参数θγ1[i]与前后LSP参数的值之差(即,θγ1[i]-θγ1[i-1]与θγ1[i+1]-θγ1[i])的加权对-θγ2[i]的值进行校正,获得~θγ2[i]。也就是说,上述的式(9)~(12)那样的相关性反映于式(13a)的矩阵K的带状部分的元素(非零元素)。
另外,通过式(13a)获得的~θγ2[1],~θγ2[2],…,~θγ2[p]是将线性预测系数串a[1]×(γ2),…,a[p]×(γ2)p变换为LSP参数时的LSP参数的值θγ2[1],θγ2[2],…,θγ2[p]的近似值(估计值)。
此外,尤其在γ2>γ1的情况下,如式(16)、(17)所示,存在式(14)的矩阵K的对角分量具有正值,其附近的元素具有负值的倾向。
矩阵K是预先设定的矩阵,例如,利用预先利用学习数据学习过的矩阵。矩阵K的学习方法将在后面叙述。
对被量化的LSP参数,也成立相同的性质。也就是说,能够将式(13)中的LSP参数串的向量Θγ1和Θγ2分别置换为被量化的LSP参数串的向量^Θγ1和^Θγ2。具体来说,设为^Θγ1=(^θγ1[1],^θγ1[2],…,^θγ1[p])T,并设为^Θγ2=(^θγ2[1],^θγ2[2],…,^θγ2[p])T,
【数21】
成立。
由于矩阵K是带状矩阵,因此式(13)、(13a)、(13b)的运算所需的计算成本非常小。
第二实施方式的编码装置3中包含的LSP线性变换部300基于式(13b),根据已校正已量化LSP参数串^θγR[1],^θγR[2],…,^θγR[p]生成近似已量化LSP参数串^θ[1]app,^θ[2]app,…,^θ[p]app。另外,在生成已校正已量化LSP参数串^θγR[1],^θγR[2],…,^θγR[p]时所利用的校正系数γR与在线性预测系数校正部125中利用的校正系数γR相同。
<编码方法>
参照图12,说明第二实施方式的编码方法。以下,着重说明与上述的实施方式的不同点。
已校正LSP编码部135的处理与第一实施方式相同。只是从已校正LSP编码部135输出的已校正已量化LSP参数串^θγR[1],^θγR[2],…,^θγR[p]除了输入到已量化线性预测系数生成部140之外,还输入到LSP线性变换部300。
LSP线性变换部300设为^Θγ1=(^θγR[1],^θγR[2],…,^θγR[p])T,从而根据
【数22】
求出近似已量化LSP参数串^θ[1]app,^θ[2]app,…,^θ[p]app而输出。也就是说,利用式(13b)求出已量化LSP参数串的近似值的序列^θ[1]app,^θ[2]app,…,^θ[p]app。另外,γ1与γ2是常数,因此也可以代替式(18)的矩阵K而利用对矩阵K的各元素乘以(γ2-γ1)而获得的矩阵K’,根据
【数23】
求出近似已量化LSP参数串^θ[1]app,^θ[2]app,…,^θ[p]app。
从LSP线性变换部3000输出的近似已量化LSP参数串^θ[1]app,^θ[2]app,…,^θ[p]app作为已量化LSP参数串^θ[1],^θ[2],…,^θ[p]而输入到延迟输入部165。也就是说,在时域编码部170中,当在前一帧中通过特征量提取部120提取的特征量小于规定的阈值的情况下(即,输入声音信号的时间变动小的情况下。即,进行了频域中的编码的情况下),利用前一帧的近似已量化LSP参数串^θ[1]app,^θ[2]app,…,^θ[p]app来代替前一帧的已量化LSP参数串^θ[1],^θ[2],…,^θ[p]。
<解码装置>
图13表示第二实施方式的解码装置4的功能结构。
与第一实施方式的解码装置2相比,解码装置4的不同点在于,不包含解码线性预测系数逆校正部235、解码逆校正LSP生成部240,取而代之,包含解码LSP线性变换部400。
<解码方法>
参照图14,说明第二实施方式的解码方法。以下,着重说明与上述的实施方式的不同点。
已校正LSP码解码部215的处理与第一实施方式相同。只是从第已校正LSP码解码部215输出的解码已校正LSP参数串^θγR[1],^θγR[2],…,^θγR[p]除了输入到解码线性预测系数生成部220之外,还输入到解码LSP线性变换部400。
解码LSP线性变换部400作为^Θγ1=(^θγR[1],^θγR[2],…,^θγR[p])T而通过式(8)求出解码近似LSP参数串^θ[1]app,^θ[2]app,…,^θ[p]app而输出。也就是说,利用式(13b)求出解码LSP参数串的近似值的序列^θ[1]app,^θ[2]app,…,^θ[p]app。与LSP线性变换部300同样地,也可以利用式(18a)求出解码近似LSP参数串^θ[1]app,^θ[2]app,…,^θ[p]app。
从解码LSP线性变换部400输出的解码近似LSP参数串^θ[1]app,^θ[2]app,…,^θ[p]app作为解码LSP参数串^θ[1],^θ[2],…,^θ[p]被输入到延迟输入部245。也就是说,在时域解码部250中,当前一帧的识别码Cg对应于表示频域编码方法的信息的情况下,利用前一帧的近似已量化LSP参数串^θ[1]app,^θ[2]app,…,^θ[p]app来代替前一帧的解码LSP参数串^θ[1],^θ[2],…,^θ[p]。
<变换矩阵K的学习方法>
在LSP线性变换部300以及解码LSPX线性变换部400中利用的变换矩阵K通过以下的方法预先求出,并预先存储在编码装置3以及解码装置4内的存储部(未图示)。
(步骤1)关于预先准备的M个帧单位的语音声音信号的样本数据,对各样本数据进行线性预测分析而得到线性预测系数。将对第m个(1≦m≦M)样本数据进行线性预测分析而得到的线性预测系数串表示为a(m)[1],a(m)[2],…,a(m)[p],称为与第m个样本数据对应的线性预测系数串(m)[1],a(m)[2],…,a(m)[p]。
(步骤2)关于各m,根据线性预测系数串a(m)[1],a(m)[2],…,a(m)[p]求出LSP参数θγ=1 (m)[1],θγ=1 (m)[2],…,θγ=1 (m)[p]。对LSP参数θγ=1 (m)[1],θγ=1 (m)[2],…,θγ=1 (m)[p]通过与LSP编码部115同样的方法进行编码,从而得到已量化LSP参数串^θγ=1 (m)[1],^θγ=1 (m)[2],…,^θγ=1 (m)[p]。
这里,设为
^Θ(m) γ1=(^θγ=1 (m)[1],…,^θγ=1 (m)[p])T。
(步骤3)关于各m,将γL设为预先决定的比1小的正常数(例如,γL=0.92),计算已校正线性预测系数
aγ (m)[i]=a(m)[i]×(γL)i。
(步骤4)关于各m,根据已校正线性预测系数串aγL (m)[1],…,aγL (m)[p]求出已校正LSP参数串θγL (m)[1],…,θγL (m)[p]。将已校正LSP参数串θγL (m)[1],…,θγL (m)[p]通过与已校正LSP编码部135同样的方法进行编码,从而得到已量化LSP参数串^θγL (m)[1],…,^θγL (m)[p]。
这里,设为
^Θ(m) γ2=(^θγL (m)[1],…,^θγL (m)[p])T。
通过步骤1~4,获得M组的已量化的LSP参数串的组(^Θ(m) γ1,^Θ(m) γ2)。将该集合设为学习用数据集合Q。是Q={(^Θ(m) γ1,^Θ(m) γ2)|m=1,…,M}。另外,在生成学习用数据集合Q时利用的校正系数γL的值全部设为共同的固定值。
(步骤5)关于在学习用数据Q中包含的各LSP参数串的组(^Θ(m) γ1,^Θ(m) γ2),设为γ1=γL,γ2=1,^Θγ1=^Θ(m) γ1,^Θγ2=^Θ(m) γ2而代入到式(13b)的模型,通过方差准则(square error criterion)学习矩阵K的系数。即,将矩阵K的带状部分的分量从上依次排列的矢量设为
【数24】
通过
【数25】
获得B。在此,
【数26】
另外,在学习矩阵K时固定γL的值而进行。只是,在LSP线性变换部300中利用的矩阵K也可以不是利用与在编码装置3内利用的校正系数γR相同的值而被学习的矩阵K。
作为例子,设为p=15、γL=0.92,对通过上述方法获得的矩阵K的带状部分的各元素乘以(γ2-γ1)的值、即矩阵K’的带状部分的各要素的值成为以下那样。即,对式(14)的x1,x2,…,x15,y1,y2,…,y14,z2,z3,…,z15的各值乘以了γ2-γ1的值为以下的xx1,xx2,…,xx15,yy1,yy2,…,yy14,zz2,zz3,…,zz15。
xx1=1.11499,yy1=-0.54272,
zz2=-0.83414f,xx2=1.59810f,yy2=-0.70966,
zz3=-0.49432,xx3=1.38370,yy3=-0.78076,
zz4=-0.39319,xx4=1.23032,yy4=-0.67921,
zz5=-0.39166,xx5=1.18521,yy5=-0.69088,
zz6=-0.34784,xx6=1.04839,yy6=-0.60619,
zz7=-0.41279,xx7=1.13305,yy7=-0.63247,
zz8=-0.36450,xx8=0.95694,yy8=-0.53039,
zz9=-0.43984,xx9=1.01910,yy9=-0.51707,
zz10=-0.40120,xx10=0.90395,yy10=-0.44594,
zz11=-0.49262,xx11=1.07345,yy11=-0.51892,
zz12=-0.41695,xx12=0.96596,yy12=-0.49247,
zz13=-0.45002,xx13=1.00336,yy13=-0.48790,
zz14=-0.46854,xx14=0.93258,yy14=-0.41927,
zz15=-0.45020,xx15=0.88783
如上述的γ1=γL=0.92、γ2=1的例子那样,如果γ2>γ1,则矩阵K’如上述的例子那样对角分量取接近1的值,与对角分量相邻的分量取负的值。
相反,如果γ1>γ2,则矩阵K’如以下的例子那样对角分量取负的值,与对角分量相邻的分量取正的值。对在p=15、γ1=1、γ2=γL=0.92的情况下的矩阵K的带状部分的各元素乘以(γ2-γ1)的值、即矩阵K’的带状部分的各元素的值例如成为以下那样。
xx1=-0.557012055,yy1=0.213853042,
zz2=0.110112745,xx2=-0.534830085,yy2=0.2440903,
zz3=0.149879603,xx3=-0.522734808,yy3=0.23494022,
zz4=0.144479327,xx4=-0.533013231,yy4=0.259021145,
zz5=0.136523255,xx5=-0.502606738,yy5=0.248139539,
zz6=0.138005088,xx6=-0.478327709,yy6=0.244219107,
zz7=0.133771751,xx7=-0.467186849,yy7=0.243988642,
zz8=0.13667916,xx8=-0.408737408,yy8=0.192803054,
zz9=0.160602461,xx9=-0.427436157,yy9=0.190554547,
zz10=0.147621742,xx10=-0.383087812,yy10=0.165954888,
zz11=0.18358465,xx11=-0.434034351,yy11=0.183004742,
zz12=0.166249458,xx12=-0.409482196,yy12=0.170107295,
zz13=0.162343147,xx13=-0.409804718,yy13=0.165221097,
zz14=0.178158258,xx14=-0.400869431,yy14=0.123020055,
zz15=0.171958144,xx15=-0.447472325
在γ1>γ2的情况下,这相当于在<变换矩阵K的学习方法>(步骤2)中将^Θ(m) γ1设为
^Θ(m) γ1=(^θγL (m)[1],…,^θγL (m)[p])T,
在(步骤4)中将^Θ(m) γ2设为
^Θ(m) γ2=(^θγ=1 (m)[1],…,^θγ=1 (m)[p])T,
在(步骤5)中针对学习用数据Q中包含的各LSP参数串的组(^Θ(m) γ1,^Θ(m) γ2)设为γ1=1、γ2=γL、^Θγ1=^Θ(m) γ1、^Θγ2=^Θ(m) γ2而代入式(13b)的模型,并通过方差准则学习了矩阵K的系数的情况。
<第二实施方式的效果>
第二实施方式的编码装置3与第一实施方式同样地,是将现有的编码装置9中的量化线性预测系数生成部900、已量化线性预测系数校正部905以及近似已平滑化功率谱包络序列计算部910置换为线性预测系数校正部125、已校正LSP生成部130、已校正LSP编码部135、已量化线性预测系数生成部140以及第一已量化已平滑化功率谱包络序列计算部145的结构,因此具有与第一实施方式的编码装置1同样的效果。即,若是与现有相同的编码失真,则能够比以往减小码量,若是与现有相同的码量,则能够比以往减小编码失真。
进而,在第二实施方式的编码装置3中,由于在式(18)的计算中,K为带状矩阵,因此计算成本小。通过将第一实施方式的已量化线性预测系数逆校正部155以及已逆校正LSP生成部160置换为LSP线性变换部300,能够以比第一实施方式少的运算量生成已量化LSP参数串^θ[1],^θ[2],…,^θ[p]的近似值的序列。
[第二实施方式的变形例]
在第二实施方式的编码装置3中,在每一帧,基于输入声音信号的时间变动的大小而决定是进行时域中的编码还是进行频域中的编码。即使在输入声音信号的时间变动大且选择了频域中的编码的帧中,也有可能还存在实际上通过时域中的编码重新构成的声音信号与通过频域中的编码重新构成的信号相比能够减小与输入声音信号之间的失真的情况。此外,即使在输入声音信号的时间变动小且选择了时域中的编码的帧中,也有可能还存在实际上通过频域中的编码重新构成的声音信号与通过时域中的编码重新构成的声音信号相比能够减小与输入声音信号之间的失真的情况。即,在第二实施方式的编码装置3中,并非一定能够选择时域中的编码和频域中的编码之中的、能够减小与输入声音信号之间的失真的编码方法。因此,在第二实施方式的变形例的编码装置8中,在每一帧,进行时域中的编码和频域中的编码这两者,从而选择能够减小与输入声音信号之间的失真的编码。
<编码装置>
图15表示第二实施方式的变形例的编码装置8的功能结构。
编码装置8与第二实施方式的编码装置3相比,其不同点在于,不包含特征量提取部120,代替输出部175而包含码选择输出部375。
<编码方法>
参照图16,说明第二实施方式的变形例的编码方法。以下,着重说明与第二实施方式的不同点。
在第二实施方式的变形例的编码方法中,除了输入部100与线性预测分析部105之外,LSP生成部110、LSP编码部115、线性预测系数校正部125、已校正LSP生成部130、已校正LSP编码部135、已量化线性预测系数生成部140、第一已量化已平滑化功率谱包络序列计算部145、延迟输入部165以及LSP线性变换部300也与输入声音信号的时间变动大还是小无关地,针对全部的帧执行。这些各部的动作与第二实施方式相同。只是,由LSP线性变换部300生成的近似已量化LSP参数串^θ[1]app,^θ[2]app,…,^θ[p]app被输入到延迟输入部165。
延迟输入部165对从LSP编码部115输入的已量化LSP参数串^θ[1],^θ[2],…,^θ[p]和从LSP线性变换部300输入的近似已量化LSP参数串^θ[1]app,^θ[2]app,…,^θ[p]app至少持有一个帧的量,当在前一帧中码选择输出部375中选择了频域的编码方法的情况下(即,在前一帧中由码选择输出部375输出的识别码Cg是表示频域编码方法的信息的情况下),将从LSP线性变换部300输入的前一帧的近似已量化LSP参数串^θ[1]app,^θ[2]app,…,^θ[p]app作为前一帧的已量化LSP参数串^θ[1],^θ[2],…,^θ[p]而输出给时域编码部170,当在前一帧中码选择输出部375中选择了时域的编码方法的情况下(即,在前一帧中由码选择输出部375输出的识别码Cg是表示时域编码方法的信息的情况下),将从LSP编码部115输入的前一帧的已量化LSP参数串^θ[1],^θ[2],…,^θ[p]输出给时域编码部170(步骤S165)。
频域编码部150与第二实施方式的频域编码部150同样地,生成频域信号码而输出,并求出与频域信号码对应的声音信号相对于输入声音信号的失真或失真的估计值而输出。失真或其估计值可以在时域中求出也可以在频域中求出。即,频域编码部150也可以求出与频域信号码对应的频域的声音信号序列相对于将输入声音信号变换为频域而获得的频域的声音信号序列的失真或失真的估计值。
时域编码部170与第二实施方式的时域编码部170同样地,生成时域信号码而输出,并求出与时域信号码对应的声音信号相对于输入声音信号的失真或失真的估计值。
码选择输入部375中被输入由频域编码部150生成的频域信号码、由频域编码部150求出的失真或失真的估计值、由时域编码部170生成的时域信号码、由时域编码部170求出的失真或失真的估计值。
码选择输入部375在从频域编码部150输入的失真或失真的估计值比从时域编码部170输入的失真或失真的估计值小的情况下,输出频域信号码以及作为表示频域编码方法的信息的识别码Cg,在从频域编码部150输入的失真或失真的估计值比从时域编码部170输入的失真或失真的估计值大的情况下,输出时域信号码以及作为表示时域编码方法的信息的识别码Cg。在从频域编码部150输入的失真或失真的估计值与从时域编码部170输入的失真或失真的估计值相同的情况下,按照预先规定的规则,输出时域信号码与频域信号码中的任一个,并输出作为表示与所输出的码对应的编码方法的信息的识别码Cg。即,输出从频域编码部150输入的频域信号码与从时域编码部170输入的时域信号中的、根据码而重新构成的声音信号相对于输入声音信号的失真较小的码,并作为识别码Cg而输出表示失真小的编码方法的信息(步骤S375)。
另外,也可以设为选择根据码而重新构成的声音信号相对于输入声音信号的失真小的结构。在该结构中,在频域编码部150和时域编码部170中,代替失真或失真的估计值而根据码重新构成声音信号而输出。此外,码选择输出部375输出频域信号码与时域信号码中的、由频域编码部150重新构成的声音信号与由时域编码部170重新构成的声音信号中的相对于输入声音信号的失真小的码,并作为识别码Cg而输出表示失真小的编码方法的信息。
此外,也可以设为选择码量小的结构。在该结构中,频域编码部150与第二实施方式同样地,输出频域信号码。此外,时域编码部170与第二实施方式同样地,输出时域信号码。此外,码选择输出部375输出频域信号码与时域信号码中的码量小的码,并作为识别码Cg而输出表示码量小的编码方法的信息。
<解码装置>
与第二实施方式的编码装置3输出的码串同样地,由第二实施方式的变形例的编码装置8输出的码串能够在第二实施方式的解码装置4中解码。
<第二实施方式的变形例的效果>
第二实施方式的变形例的编码装置8是起到与第二实施方式的编码装置3相同的效果的装置,进而,是起到所输出的码量比第二实施方式的编码装置3小的效果的装置。
[第三实施方式]
在第一实施方式的编码装置1以及第二实施方式的编码装置3中,将已校正已量化LSP参数串^θγR[1],^θγR[2],…,^θγR[p]暂时变换为线性预测系数后,计算了已量化已平滑化功率谱包络系列^WγR[1],^WγR[2],…,^WγR[N]。在第三实施方式的编码装置5中,并非将已校正已量化LSP参数串变换为线性预测系数,而是根据已校正已量化LSP参数串^θγR[1],^θγR[2],…,^θγR[p]直接计算已量化已平滑化功率谱包络系列^WγR[1],^WγR[2],…,^WγR[N]。同样的,在第三实施方式的解码装置6中,并非将解码已校正LSP参数串变换为线性预测系数,而是根据解码已校正LSP参数串^θγR[1],^θγR[2],…,^θγR[p]直接计算解码已平滑化功率谱包络序列^WγR[1],^WγR[2],…,^WγR[N]。
<编码装置>
图17表示第三实施方式的编码装置5的功能结构。
编码装置5与第二实施方式的编码装置3相比,其不同点在于,不包含已量化线性预测序列生成部140、第一已量化已平滑化功率谱包络序列计算部145,取而代之包含第二已量化已平滑化功率谱包络序列计算部146。
<编码方法>
参照图18,说明第三实施方式的编码方法。以下,着重说明与上述的实施方式的不同点。
在步骤S146中,第二已量化已平滑化功率谱包络序列计算部146利用从已校正LSP编码部135输出的已校正已量化LSP参数^θγR[1],^θγR[2],…,^θγR[p],根据式(19)求出已量化已平滑化功率谱包络序列^WγR[1],^WγR[2],…,^WγR[N]而输出。
【数27】
<解码装置>
图19表示第三实施方式的解码装置6的功能结构。
解码装置6与第二实施方式的解码装置4相比,不包含解码线性预测系数生成部220、第一解码已平滑化功率谱包络序列计算部225,取而代之包含第二解码已平滑化功率谱包络序列计算部226。
<解码方法>
参照图20,说明第三实施方式的解码方法。以下,着重说明与上述的实施方式的不同点。
在步骤S226中,第二解码已平滑化功率谱包络序列计算部226与第二已量化已平滑化功率谱包络序列计算部146同样地,利用解码已校正LSP参数串^θγR[1],^θγR[2],…,^θγR[p],根据上述的式(19),求出解码已平滑化功率谱包络序列^WγR[1],^WγR[2],…,^WγR[N]而输出。
[第四实施方式]
已量化LSP参数串^θ[1],^θ[2],…,^θ[p]是满足
0<^θ[1]<…<^θ[p]<π
的序列。也就是说,是按照升序排列的序列。另一方面,由于在LSP线性变换部300中生成的近似已量化LSP参数串^θ[1]app,^θ[2]app,…,^θ[p]app是通过近似性的变换而生成的参数串,因此可能不会成为升序。因此,在第四实施方式中追加将从LSP线性变换部300输出的近似已量化LSP参数串^θ[1]app,^θ[2]app,…,^θ[p]app按照升序重新排列的处理。
<编码装置>
图21表示第四实施方式的编码装置7的功能结构。
编码装置7与第二实施方式的编码装置5相比,其不同点在于,进一步包含近似LSP序列修正部700。
<编码方法>
参照图22,说明第四实施方式的编码方法。以下,着重说明与上述的实施方式的不同点。
近似LSP序列修正部700将从LSP线性变换部300输出的近似已量化LSP参数串^θ[1]app,^θ[2]app,…,^θ[p]app的各值^θ[i]app按照升序重新排列的序列作为修正近似已量化LSP参数串^θ’[1]app,^θ’[2]app,…,^θ’[p]app而输出。从近似LSP序列修正部700输出的修正第一近似已量化LSP参数串^θ’[1]app,^θ’[2]app,…,^θ’[p]app作为已量化LSP参数串^θ[1],^θ[2],…,^θ[p]而被输入到延迟输入部165。
此外,也可以不仅简单地重新排列近似已量化LSP参数串的各值,而是作为^θ’[i]app而输出对各值^θ[i]app进行了校正的值,使得针对各i=1,…,p-1,|^θ[i+1]app-^θ[i]app|成为规定的阈值以上。
[变形例]
在上述的实施方式中,以LSP参数作为前提进行了说明,但也可以代替LSP参数串,取而代之利用ISP参数串。ISP参数串ISP[1],…,ISP[p]等价于根据p-1阶的LSP参数串和p阶(最高阶)的PARCOR系数kp构成的序列。也就是说,是
ISP[i]=θ[i],其中,i=1,…,p-1,
ISP[p]=kp。
在第二实施方式中,以对LSP线性变换部300的输入是ISP参数串的情况为例,说明具体的处理。
设对LSP线性变换部300的输入是已校正已量化ISP参数串^ISPγR[1],^ISPγR[2],…,^ISPγR[p]。在此,是
^ISPγR[1]=^θγR[i]
^ISPγR[p]=^kp。
^kp是kp的量化值。
在LSP线性变换部300中,通过以下的处理,求出近似已量化ISP参数串^ISP[1]app,…,^ISP[p]app而输出。
(步骤1)设为^Θγ1=(^ISPγR[1],…,^ISPγR[p-1])T,将p置换为p-1而计算式(18),从而求出^θ[1]app,…,^θ[p-1]app。
在此,设为
^ISP[i]app=^θ[i]app(i=1,…,p-1)。
(步骤2)求出通过以下的式定义的^ISP[p]app。
^ISP[p]app=^ISPγR[p]·(1/γR)p
[第五实施方式]
还可以将编码装置3、5、7、8具有的LSP线性变换部300、解码装置4、6具有的解码LSP线性变换部400作为独立的频域参数串生成装置而构成。
以下,说明将编码装置3、5、7、8具有的LSP线性变换部300、解码装置4、6具有的解码LSP线性变换部400作为独立的频域参数串生成装置而构成的例子。
<频域参数串生成装置>
如图23所示,第五实施方式的频域参数串生成装置10例如包含参数串变换部20,将频域参数ω[1],ω[2],…,ω[p]作为输入,输出变换后频域参数~ω[1],~ω[2],…,~ω[p]。
被输入的频域参数ω[1],ω[2],…,ω[p]是来自对规定的时间区间的声音信号进行线性预测分析而获得的线性预测系数a[1],a[2],…,a[p]的频域参数串。频域参数ω[1],ω[2],…,ω[p]例如可以是利用了现有的编码方法的LSP参数串θ[1],θ[2],…,θ[p],也可以是已量化LSP参数串^θ[1],^θ[2],…,^θ[p]。此外,例如也可以是在上述的各实施方式中利用的已校正LSP参数串θγR[1],θγR[2],…,θγR[p],也可以是已校正已量化LSP参数串^θγR[1],^θγR[2],…,^θγR[p]。进而,例如也可以是在上述的变形例中说明了的ISP参数串那样的、等价于LSP参数的频域参数。此外,来自线性预测系数a[1],a[2],…,a[p]的频域参数串是指以来自线性预测系数串a[1],a[2],…,a[p]的LSP参数串、ISP参数串、LSF参数串、ISF参数串、在频域参数ω[1],ω[2],…,ω[p-1]的全部处于0至π的区间且线性预测系数串中包含的所有的线性预测系数为0的情况下频域参数ω[1],ω[2],…,ω[p-1]在0至π的区间等间隔存在的频域参数串等为代表的、来自线性预测系数串的频域的序列,是通过与预测次数相同的个数来表示的序列。
与LSP线性变换部300以及解码LSP线性变换部400同样地,参数串变换部20利用LSP参数的性质,对频域参数串ω[1],ω[2],…,ω[p-1]施加近似性的线性变换而生成变换后频域参数串~ω[1],~ω[2],…,~ω[p]。参数串变换部20例如针对各i=1,2,…,p,通过以下的任一个方法,求出变换后频域参数~ω[i]的值。
1.通过基于ω[i]与接近于ω[i]的一个或多个频域参数之间的值的关系的线性变换,求出变换后频域参数~ω[i]的值。例如,进行线性变换,使得变换后频域参数串~ω[i]与频域参数串ω[i]相比,参数值的间隔更接近等间隔,或者更远离等间隔。使得接近等间隔的线性变换相当于在频域中使功率谱包络的振幅的不平顺削弱的处理(对功率谱包络进行平滑化的处理)。此外使得远离等间隔的线性变换相当于在频域中增强功率谱包络的振幅的不平顺的处理(对功率谱包络进行逆平滑化的处理)。
2.在ω[i]比ω[i+1]与ω[i-1]的中心点更接近ω[i+1]的情况下,求出~ω[i],使得~ω[i]比~ω[i+1]与~ω[i-1]的中心点更接近~ω[i+1]且~ω[i+1]-~ω[i]的值比ω[i+1]-ω[i]小。此外,在ω[i]比ω[i+1]与ω[i-1]的中心点更接近ω[i-1]的情况下,求出~ω[i],使得~ω[i]比~ω[i+1]与~ω[i-1]的中心点更接近~ω[i-1]且~ω[i]-~ω[i-1]的值比ω[i]-ω[i-1]小。这相当于在频域中加强功率谱包络的振幅的不平顺的处理(对功率谱包络进行逆平滑化的处理)。
3.在ω[i]比ω[i+1]与ω[i-1]的中心点更接近ω[i+1]的情况下,求出~ω[i],使得~ω[i]比~ω[i+1]与~ω[i-1]的中心点更接近~ω[i+1]且~ω[i+1]-~ω[i]的值比ω[i+1]-ω[i]大。此外,在ω[i]比ω[i+1]与ω[i-1]的中心点更接近ω[i-1]的情况下,求出~ω[i],使得~ω[i]比~ω[i+1]与~ω[i-1]的中心点更接近~ω[i-1]且~ω[i]-~ω[i-1]的值比ω[i]-ω[i-1]大。这相当于在频域中削弱功率谱包络的振幅的不平顺的处理(对功率谱包络进行平滑化的处理)。
例如,参数串变换部20通过以下的式(20),求出变换后频域参数~ω[1],~ω[2],…,~ω[p]而输出。
【数28】
在此,γ1与γ2是1以下的正系数。式(20)通过在将LSP参数进行了模型化的式(13)中设为Θγ1=(ω[1],ω[2],…,ω[p])T、Θγ2=(~ω[1],~ω[2],…,~ω[p])T,并设为
【数29】
从而能够导出。此时,频域参数ω[1],ω[2],…,ω[p]是与通过对线性预测系数a[1],a[2],…,a[p]的各系数a[i]乘以系数γ1的i次方而校正了的系数串即
a[1]×(γ1),a[2]×(γ1)2,…,a[p]×(γ1)p
等价的频域的参数串、或者是其量化值。此外,变换后频域参数~ω[1],~ω[2],…,~ω[p]成为近似于与通过对线性预测系数a[1],a[2],…,a[p]的各系数a[i]乘以系数γ2的i次方而校正了的系数串即
a[1]×(γ2),a[2]×(γ2)2,…,a[p]×(γ2)p
等价的频域的参数串的序列。
<第五实施方式的效果>
第五实施方式的频域参数串生成装置与编码装置3、5、7、8或解码装置4、6同样地,与根据编码装置1或解码装置2这样的频域参数经由线性预测系数求出变换后频域参数的情况相比,能够以更少的运算量根据频域参数求出变换后频域参数。
本发明当然并不限定于上述的实施方式,在不脱离本发明的宗旨的范围内能够进行适当变更。在上述实施方式中说明过的各种处理不仅按照记载的顺序时序地执行,也可以根据执行处理的装置的处理能力或需要而并列地或者单独执行。
[程序、记录介质]
当通过计算机来实现在上述实施方式中说明过的各装置中的各种处理功能的情况下,通过程序来记载各装置应具有的功能的处理内容。然后,通过计算机来执行该程序,从而在计算机上实现上述各装置中的各种处理功能。
记载了该处理内容的程序能够预先记录在计算机中可读取的记录介质。作为计算机中可读取的记录介质,例如可以是磁记录装置、光盘、光磁记录介质、半导体存储器等任意的记录介质。
此外,该程序的流通通过例如首先将记录了该程序的DVD、CD-ROM等可移动型记录介质进行销售、转让、出租等而进行。进而,也可以设为如下的结构:通过将该程序预先存储于服务器计算机的存储装置中,并经由网络从服务器计算机向其他计算机转发该程序,从而使该程序流通。
执行这样的程序的计算机例如将记录在可移动型记录介质中的程序或从服务器计算机转发的程序暂时存储在自己的存储装置中。然后,在执行处理时,该计算机读取在自己的记录介质中存储的程序,执行按照所读取的程序的处理。此外,作为该程序的其他的执行方式,也可以设为由计算机从可移动型记录介质直接读取程序,并执行按照该程序的处理,进而,也可以设为在每次该程序从服务器计算机被转发到该计算机时,依次执行按照接受到的程序的处理。此外,也可以设为如下的结构:不进行程序从服务器计算机向该计算机的转发,而是仅通过其执行指示与结果取得来实现处理功能的、所谓的ASP(ApplicationService Provider)型的服务,执行上述的处理。另外,设本方式中的程序中包含用于电子计算机进行的处理且基于程序的信息(不是对计算机的直接的指令但具有规定计算机的处理的性质的数据等)。
此外,在该方式中,设为通过在计算机上执行规定的程序,从而构成本装置,但也可以设为通过硬件来实现这些处理内容的至少一部分。
Claims (10)
1.一种编码方法,其中,
将p设为1以上的整数,将γ设为作为1以下的正常数的校正系数,将a[1],a[2],…,a[p]设为对规定的时间区间的声音信号进行线性预测分析而获得的线性预测系数串,
所述编码方法包含:
线性预测系数校正步骤,生成对上述线性预测系数串a[1],a[2],…,a[p]利用上述校正系数γ而通过aγ[i]=a[i]×(γ)i进行了校正的已校正线性预测系数串aγ[1],aγ[2],…,aγ[p];
已校正LSP生成步骤,利用上述已校正线性预测系数串aγ[1],aγ[2],…,aγ[p]生成已校正LSP参数串θγ[1],θγ[2],…,θγ[p];
已校正LSP编码步骤,对上述已校正LSP参数串θγ[1],θγ[2],…,θγ[p]进行编码,从而生成已校正LSP码以及与上述已校正LSP码对应的已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p];
LSP线性变换步骤,将频域参数串ω[1],ω[2],…,ω[p]设为上述已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p],通过执行将上述频域参数串ω[1],ω[2],…,ω[p]设为输入,从而求出变换后频域参数串~ω[1],~ω[2],…,~ω[p]的参数串变换步骤,生成上述变换后频域参数串~ω[1],~ω[2],…,~ω[p]作为近似已量化LSP参数串^θapp[1],^θapp[2],…,^θapp[p];
已量化线性预测系数串生成步骤,生成将上述已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p]变换为线性预测系数的已校正已量化线性预测系数串^aγ[1],^aγ[2],…,^aγ[p];
已量化已平滑化功率谱包络序列计算步骤,计算作为与上述已校正已量化线性预测系数串^aγ[1],^aγ[2],…,^aγ[p]对应的频域的序列的已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N];
频域编码步骤,生成对与上述声音信号对应的频域样本串X[1],X[2],…,X[N],利用上述已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N]进行了编码的频域信号码;
LSP生成步骤,利用上述线性预测系数串a[1],a[2],…,a[p]生成LSP参数串θ[1],θ[2],…,θ[p];
LSP编码步骤,对上述LSP参数串θ[1],θ[2],…,θ[p]进行编码,生成LSP码以及与上述LSP码对应的已量化LSP参数串^θ[1],^θ[2],…,^θ[p];以及
时域编码步骤,对上述声音信号,利用在前一个时间区间的上述LSP编码步骤中获得的已量化LSP参数串、在前一个时间区间的LSP线性变换步骤中获得的近似已量化LSP参数串的任一个、以及上述规定的时间区间的已量化LSP参数串,进行编码而生成时域信号码,
上述参数串变换步骤通过基于ω[i]和接近ω[i]的一个或多个频域参数的值的关系的线性变换,求出上述变换后频域参数串~ω[1],~ω[2],…,~ω[p]中的各变换后频域参数~ω[i](i=1,2,…,p)。
2.一种编码方法,其中,
将p设为1以上的整数,将γ设为作为1以下的正常数的校正系数,将a[1],a[2],…,a[p]设为对规定的时间区间的声音信号进行线性预测分析而获得的线性预测系数串,
所述编码方法包含:
线性预测系数校正步骤,生成对上述线性预测系数串a[1],a[2],…,a[p]利用上述校正系数γ而通过aγ[i]=a[i]×(γ)i进行了校正的已校正线性预测系数串aγ[1],aγ[2],…,aγ[p];
已校正LSP生成步骤,利用上述已校正线性预测系数串aγ[1],aγ[2],…,aγ[p]生成已校正LSP参数串θγ[1],θγ[2],…,θγ[p];
已校正LSP编码步骤,对上述已校正LSP参数串θγ[1],θγ[2],…,θγ[p]进行编码,从而生成已校正LSP码以及与上述已校正LSP码对应的已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p];
LSP线性变换步骤,将频域参数串ω[1],ω[2],…,ω[p]设为上述已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p],通过执行将上述频域参数串ω[1],ω[2],…,ω[p]设为输入,从而求出变换后频域参数串~ω[1],~ω[2],…,~ω[p]的参数串变换步骤,生成上述变换后频域参数串~ω[1],~ω[2],…,~ω[p]作为近似已量化LSP参数串^θapp[1],^θapp[2],…,^θapp[p];
已量化已平滑化功率谱包络序列计算步骤,基于上述已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p],计算已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N];
频域编码步骤,生成对与上述声音信号对应的频域样本串X[1],X[2],…,X[N],利用上述已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N]进行了编码的频域信号码;
LSP生成步骤,利用上述线性预测系数串a[1],a[2],…,a[p]生成LSP参数串θ[1],θ[2],…,θ[p];
LSP编码步骤,对上述LSP参数串θ[1],θ[2],…,θ[p]进行编码,生成LSP码以及与上述LSP码对应的已量化LSP参数串^θ[1],^θ[2],…,^θ[p];以及
时域编码步骤,对上述声音信号,利用在前一个时间区间的上述LSP编码步骤中获得的已量化LSP参数串、在前一个时间区间的LSP线性变换步骤中获得的近似已量化LSP参数串的任一个、以及上述规定的时间区间的已量化LSP参数串,进行编码而生成时域信号码,
上述参数串变换步骤通过基于ω[i]和接近ω[i]的一个或多个频域参数的值的关系的线性变换,求出上述变换后频域参数串~ω[1],~ω[2],…,~ω[p]中的各变换后频域参数~ω[i](i=1,2,…,p)。
3.如权利要求1或2所述的编码方法,进一步具有:
输出步骤,输出在上述频域编码步骤中生成的频域信号码和在上述时域编码步骤中生成的时域信号码中的任一个,
上述时域编码步骤在前一个时间区间的输出步骤中输出了频域信号码的情况下,进行利用了在前一个时间区间的LSP线性变换步骤中获得的近似已量化LSP参数串的编码,
在前一个时间区间的输出步骤中输出了时域信号码的情况下,进行利用了在前一个时间区间的LSP生成步骤中获得的已量化LSP参数串的编码。
4.如权利要求1或2所述的编码方法,其中,
上述参数串变换步骤中,
设为γ1=γ、γ2=1,并将K设为预先决定的、对角元素和在行方向上与对角元素相邻的元素具有非零的值的p×p的带状矩阵,
求得通过以下式定义的上述变换后频域参数串~ω[1],~ω[2],…,~ω[p]
【数30】
5.一种编码装置,其中,
将p设为1以上的整数,将γ设为作为1以下的正常数的校正系数,将a[1],a[2],…,a[p]设为对规定的时间区间的声音信号进行线性预测分析而获得的线性预测系数串,
所述编码装置包含:
线性预测系数校正部,生成对上述线性预测系数串a[1],a[2],…,a[p]利用上述校正系数γ而通过aγ[i]=a[i]×(γ)i进行了校正的已校正线性预测系数串aγ[1],aγ[2],…,aγ[p];
已校正LSP生成部,利用上述已校正线性预测系数串aγ[1],aγ[2],…,aγ[p]生成已校正LSP参数串θγ[1],θγ[2],…,θγ[p];
已校正LSP编码部,对上述已校正LSP参数串θγ[1],θγ[2],…,θγ[p]进行编码,从而生成已校正LSP码以及与上述已校正LSP码对应的已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p];
LSP线性变换部,将频域参数串ω[1],ω[2],…,ω[p]设为上述已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p],通过执行将上述频域参数串ω[1],ω[2],…,ω[p]设为输入,从而求出变换后频域参数串~ω[1],~ω[2],…,~ω[p]的参数串变换部,生成上述变换后频域参数串~ω[1],~ω[2],…,~ω[p]作为近似已量化LSP参数串^θapp[1],^θapp[2],…,^θapp[p];
已量化线性预测系数串生成部,生成将上述已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p]变换为线性预测系数的已校正已量化线性预测系数串^aγ[1],^aγ[2],…,^aγ[p];
已量化已平滑化功率谱包络序列计算部,计算作为与上述已校正已量化线性预测系数串^aγ[1],^aγ[2],…,^aγ[p]对应的频域的序列的已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N];
频域编码部,生成对与上述声音信号对应的频域样本串X[1],X[2],…,X[N],利用上述已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N]进行了编码的频域信号码;
LSP生成部,利用上述线性预测系数串a[1],a[2],…,a[p]生成LSP参数串θ[1],θ[2],…,θ[p];
LSP编码部,对上述LSP参数串θ[1],θ[2],…,θ[p]进行编码,生成LSP码以及与上述LSP码对应的已量化LSP参数串^θ[1],^θ[2],…,^θ[p];以及
时域编码部,对上述声音信号,利用在前一个时间区间的上述LSP编码部中获得的已量化LSP参数串、在前一个时间区间的LSP线性变换部中获得的近似已量化LSP参数串的任一个、以及上述规定的时间区间的已量化LSP参数串,进行编码而生成时域信号码,
上述参数串变换部通过基于ω[i]和接近ω[i]的一个或多个频域参数的值的关系的线性变换,求出上述变换后频域参数串~ω[1],~ω[2],…,~ω[p]中的各变换后频域参数~ω[i](i=1,2,…,p)。
6.一种编码装置,其中,
将p设为1以上的整数,将γ设为作为1以下的正常数的校正系数,将a[1],a[2],…,a[p]设为对规定的时间区间的声音信号进行线性预测分析而获得的线性预测系数串,
所述编码装置包含:
线性预测系数校正部,生成对上述线性预测系数串a[1],a[2],…,a[p]利用上述校正系数γ而通过aγ[i]=a[i]×(γ)i进行了校正的已校正线性预测系数串aγ[1],aγ[2],…,aγ[p];
已校正LSP生成部,利用上述已校正线性预测系数串aγ[1],aγ[2],…,aγ[p]生成已校正LSP参数串θγ[1],θγ[2],…,θγ[p];
已校正LSP编码部,对上述已校正LSP参数串θγ[1],θγ[2],…,θγ[p]进行编码,从而生成已校正LSP码以及对与上述已校正LSP码对应的已校正LSP参数串的各值进行了量化的已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p];
LSP线性变换部,将频域参数串ω[1],ω[2],…,ω[p]设为上述已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p],通过执行将上述频域参数串ω[1],ω[2],…,ω[p]设为输入,从而求出变换后频域参数串~ω[1],~ω[2],…,~ω[p]的参数串变换部,生成上述变换后频域参数串~ω[1],~ω[2],…,~ω[p]作为近似已量化LSP参数串^θapp[1],^θapp[2],…,^θapp[p];
已量化已平滑化功率谱包络序列计算部,基于上述已校正已量化LSP参数串^θγ[1],^θγ[2],…,^θγ[p],计算已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N];
频域编码部,生成对与上述声音信号对应的频域样本串X[1],X[2],…,X[N],利用上述已量化已平滑化功率谱包络序列^Wγ[1],^Wγ[2],…,^Wγ[N]进行了编码的频域信号码;
LSP生成部,利用上述线性预测系数串a[1],a[2],…,a[p]生成LSP参数串θ[1],θ[2],…,θ[p];
LSP编码部,对上述LSP参数串θ[1],θ[2],…,θ[p]进行编码,生成LSP码以及与上述LSP码对应的已量化LSP参数串^θ[1],^θ[2],…,^θ[p];以及
时域编码部,对上述声音信号,利用在前一个时间区间的上述LSP编码部中获得的已量化LSP参数串、在前一个时间区间的LSP线性变换部中获得的近似已量化LSP参数串的任一个、以及上述规定的时间区间的已量化LSP参数串,进行编码而生成时域信号码,
上述参数串变换部通过基于ω[i]和接近ω[i]的一个或多个频域参数的值的关系的线性变换,求出上述变换后频域参数串~ω[1],~ω[2],…,~ω[p]中的各变换后频域参数~ω[i](i=1,2,…,p)。
7.如权利要求5或6所述的编码装置,进一步具有:
输出部,输出在上述频域编码部中生成的频域信号码与在上述时域编码部中生成的时域信号码中的任一个,
上述时域编码部在前一个时间区间的输出部中输出了频域信号码的情况下,进行利用了在前一个时间区间的LSP线性变换部中获得的近似已量化LSP参数串的编码,
在前一个时间区间的输出部中输出了时域信号码的情况下,进行利用了在前一个时间区间的LSP生成部中获得的已量化LSP参数串的编码。
8.如权利要求5或6所述的编码装置,
上述参数串变换部中,
设为γ1=γ、γ2=1,并将K设为预先决定的、对角元素和在行方向上与对角元素相邻的元素具有非零的值的p×p的带状矩阵,
生成通过以下式定义的上述变换后频域参数串~ω[1],~ω[2],…,~ω[p]
【数31】
9.一种程序,用于使计算机执行权利要求1或2所述的编码方法的各步骤。
10.一种计算机可读取的记录介质,记录了用于使计算机执行权利要求1或2所述的编码方法的各步骤的程序。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014-089895 | 2014-04-24 | ||
JP2014089895 | 2014-04-24 | ||
PCT/JP2015/054135 WO2015162979A1 (ja) | 2014-04-24 | 2015-02-16 | 周波数領域パラメータ列生成方法、符号化方法、復号方法、周波数領域パラメータ列生成装置、符号化装置、復号装置、プログラム及び記録媒体 |
CN201580020682.5A CN106233383B (zh) | 2014-04-24 | 2015-02-16 | 频域参数串生成方法、频域参数串生成装置以及记录介质 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580020682.5A Division CN106233383B (zh) | 2014-04-24 | 2015-02-16 | 频域参数串生成方法、频域参数串生成装置以及记录介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110503964A true CN110503964A (zh) | 2019-11-26 |
CN110503964B CN110503964B (zh) | 2022-10-04 |
Family
ID=54332153
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580020682.5A Active CN106233383B (zh) | 2014-04-24 | 2015-02-16 | 频域参数串生成方法、频域参数串生成装置以及记录介质 |
CN201910757241.3A Active CN110503963B (zh) | 2014-04-24 | 2015-02-16 | 解码方法、解码装置以及记录介质 |
CN201910757348.8A Active CN110503964B (zh) | 2014-04-24 | 2015-02-16 | 编码方法、编码装置以及记录介质 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580020682.5A Active CN106233383B (zh) | 2014-04-24 | 2015-02-16 | 频域参数串生成方法、频域参数串生成装置以及记录介质 |
CN201910757241.3A Active CN110503963B (zh) | 2014-04-24 | 2015-02-16 | 解码方法、解码装置以及记录介质 |
Country Status (9)
Country | Link |
---|---|
US (3) | US10332533B2 (zh) |
EP (3) | EP3447766B1 (zh) |
JP (4) | JP6270992B2 (zh) |
KR (3) | KR101972007B1 (zh) |
CN (3) | CN106233383B (zh) |
ES (3) | ES2795198T3 (zh) |
PL (3) | PL3648103T3 (zh) |
TR (1) | TR201900472T4 (zh) |
WO (1) | WO2015162979A1 (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106233383B (zh) * | 2014-04-24 | 2019-11-01 | 日本电信电话株式会社 | 频域参数串生成方法、频域参数串生成装置以及记录介质 |
JP6517924B2 (ja) * | 2015-04-13 | 2019-05-22 | 日本電信電話株式会社 | 線形予測符号化装置、方法、プログラム及び記録媒体 |
JP7395901B2 (ja) * | 2019-09-19 | 2023-12-12 | ヤマハ株式会社 | コンテンツ制御装置、コンテンツ制御方法およびプログラム |
CN116151130B (zh) * | 2023-04-19 | 2023-08-15 | 国网浙江新兴科技有限公司 | 风电场最大频率阻尼系数计算方法、装置、设备及介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1387131A (zh) * | 2001-05-18 | 2002-12-25 | 株式会社东芝 | 预测参数分析装置与预测参数的分析方法 |
CN1488135A (zh) * | 2000-11-30 | 2004-04-07 | ���µ�����ҵ��ʽ���� | 线性预测编码参数的矢量量化装置 |
CN1509469A (zh) * | 2001-05-16 | 2004-06-30 | ��˹��ŵ�� | 语音编解码器中用于线频谱频率矢量量化的方法和系统 |
CN1973319A (zh) * | 2004-06-21 | 2007-05-30 | 皇家飞利浦电子股份有限公司 | 编码和解码多通道音频信号的方法和设备 |
CN101911501A (zh) * | 2008-01-24 | 2010-12-08 | 日本电信电话株式会社 | 编码方法、解码方法及其装置、以及其程序和记录介质 |
CN102449689A (zh) * | 2009-06-03 | 2012-05-09 | 日本电信电话株式会社 | 编码方法、解码方法、编码装置、解码装置、编码程序、解码程序以及它们的记录介质 |
JP2012128022A (ja) * | 2010-12-13 | 2012-07-05 | Nippon Telegr & Teleph Corp <Ntt> | 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体 |
CN102812512A (zh) * | 2010-03-23 | 2012-12-05 | Lg电子株式会社 | 处理音频信号的方法和装置 |
CN102915739A (zh) * | 2006-11-17 | 2013-02-06 | 三星电子株式会社 | 用于对高频信号进行编码和解码的方法和设备 |
CN103262161A (zh) * | 2010-10-18 | 2013-08-21 | 三星电子株式会社 | 确定用于线性预测编码(lpc)系数量化的具有低复杂度的加权函数的设备和方法 |
CN103460287A (zh) * | 2011-04-05 | 2013-12-18 | 日本电信电话株式会社 | 编码方法、解码方法、编码装置、解码装置、程序、记录介质 |
CN103620676A (zh) * | 2011-04-21 | 2014-03-05 | 三星电子株式会社 | 对线性预测编码系数进行量化的方法、声音编码方法、对线性预测编码系数进行反量化的方法、声音解码方法以及记录介质 |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58181096A (ja) * | 1982-04-19 | 1983-10-22 | 株式会社日立製作所 | 音声分析合成方式 |
US5003604A (en) * | 1988-03-14 | 1991-03-26 | Fujitsu Limited | Voice coding apparatus |
JP2659605B2 (ja) | 1990-04-23 | 1997-09-30 | 三菱電機株式会社 | 音声復号化装置及び音声符号化・復号化装置 |
US5504833A (en) * | 1991-08-22 | 1996-04-02 | George; E. Bryan | Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications |
US5327518A (en) * | 1991-08-22 | 1994-07-05 | Georgia Tech Research Corporation | Audio analysis/synthesis system |
JP2993396B2 (ja) | 1995-05-12 | 1999-12-20 | 三菱電機株式会社 | 音声加工フィルタ及び音声合成装置 |
JP2778567B2 (ja) * | 1995-12-23 | 1998-07-23 | 日本電気株式会社 | 信号符号化装置及び方法 |
JPH09230896A (ja) | 1996-02-28 | 1997-09-05 | Sony Corp | 音声合成装置 |
FI964975A (fi) * | 1996-12-12 | 1998-06-13 | Nokia Mobile Phones Ltd | Menetelmä ja laite puheen koodaamiseksi |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
JP2000242298A (ja) * | 1999-02-24 | 2000-09-08 | Mitsubishi Electric Corp | Lsp補正装置,音声符号化装置及び音声復号化装置 |
JP2000250597A (ja) * | 1999-02-24 | 2000-09-14 | Mitsubishi Electric Corp | Lsp補正装置,音声符号化装置及び音声復号化装置 |
ES2318820T3 (es) * | 2000-04-24 | 2009-05-01 | Qualcomm Incorporated | Procedimiento y aparatos de cuantificacion predictiva del habla de voces. |
JP4413480B2 (ja) | 2002-08-29 | 2010-02-10 | 富士通株式会社 | 音声処理装置及び移動通信端末装置 |
EP1755109B1 (en) * | 2004-04-27 | 2012-08-15 | Panasonic Corporation | Scalable encoding and decoding apparatuses and methods |
CN101656075B (zh) * | 2004-05-14 | 2012-08-29 | 松下电器产业株式会社 | 音频解码装置、音频解码方法以及通信终端和基站装置 |
US8239190B2 (en) * | 2006-08-22 | 2012-08-07 | Qualcomm Incorporated | Time-warping frames of wideband vocoder |
US8688437B2 (en) * | 2006-12-26 | 2014-04-01 | Huawei Technologies Co., Ltd. | Packet loss concealment for speech coding |
JP5006774B2 (ja) * | 2007-12-04 | 2012-08-22 | 日本電信電話株式会社 | 符号化方法、復号化方法、これらの方法を用いた装置、プログラム、記録媒体 |
ATE518224T1 (de) * | 2008-01-04 | 2011-08-15 | Dolby Int Ab | Audiokodierer und -dekodierer |
JP5223786B2 (ja) * | 2009-06-10 | 2013-06-26 | 富士通株式会社 | 音声帯域拡張装置、音声帯域拡張方法及び音声帯域拡張用コンピュータプログラムならびに電話機 |
SG10202101745XA (en) * | 2010-04-09 | 2021-04-29 | Dolby Int Ab | Audio Upmixer Operable in Prediction or Non-Prediction Mode |
EP3751564B1 (en) * | 2010-07-20 | 2022-10-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, audio decoding method and computer program |
KR20130111611A (ko) * | 2011-01-25 | 2013-10-10 | 니뽄 덴신 덴와 가부시키가이샤 | 부호화 방법, 부호화 장치, 주기성 특징량 결정 방법, 주기성 특징량 결정 장치, 프로그램, 기록 매체 |
WO2012111512A1 (ja) * | 2011-02-16 | 2012-08-23 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化装置、復号装置、プログラム及び記録媒体 |
US9916538B2 (en) * | 2012-09-15 | 2018-03-13 | Z Advanced Computing, Inc. | Method and system for feature detection |
ES2720253T3 (es) * | 2012-10-01 | 2019-07-19 | Nippon Telegraph & Telephone | Método de codificación, codificador, programa, y medio de grabación |
WO2014144579A1 (en) * | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
CN106233383B (zh) * | 2014-04-24 | 2019-11-01 | 日本电信电话株式会社 | 频域参数串生成方法、频域参数串生成装置以及记录介质 |
US20160292445A1 (en) * | 2015-03-31 | 2016-10-06 | Secude Ag | Context-based data classification |
US20170154188A1 (en) * | 2015-03-31 | 2017-06-01 | Philipp MEIER | Context-sensitive copy and paste block |
US10542961B2 (en) * | 2015-06-15 | 2020-01-28 | The Research Foundation For The State University Of New York | System and method for infrasonic cardiac monitoring |
US10839302B2 (en) * | 2015-11-24 | 2020-11-17 | The Research Foundation For The State University Of New York | Approximate value iteration with complex returns by bounding |
US11205103B2 (en) * | 2016-12-09 | 2021-12-21 | The Research Foundation for the State University | Semisupervised autoencoder for sentiment analysis |
US11568236B2 (en) * | 2018-01-25 | 2023-01-31 | The Research Foundation For The State University Of New York | Framework and methods of diverse exploration for fast and safe policy improvement |
-
2015
- 2015-02-16 CN CN201580020682.5A patent/CN106233383B/zh active Active
- 2015-02-16 PL PL19216781T patent/PL3648103T3/pl unknown
- 2015-02-16 PL PL18200102T patent/PL3447766T3/pl unknown
- 2015-02-16 WO PCT/JP2015/054135 patent/WO2015162979A1/ja active Application Filing
- 2015-02-16 EP EP18200102.4A patent/EP3447766B1/en active Active
- 2015-02-16 KR KR1020187017973A patent/KR101972007B1/ko active Active
- 2015-02-16 CN CN201910757241.3A patent/CN110503963B/zh active Active
- 2015-02-16 EP EP19216781.5A patent/EP3648103B1/en active Active
- 2015-02-16 KR KR1020187017982A patent/KR101972087B1/ko active Active
- 2015-02-16 ES ES18200102T patent/ES2795198T3/es active Active
- 2015-02-16 ES ES19216781T patent/ES2901749T3/es active Active
- 2015-02-16 TR TR2019/00472T patent/TR201900472T4/tr unknown
- 2015-02-16 EP EP15783646.1A patent/EP3136387B1/en active Active
- 2015-02-16 CN CN201910757348.8A patent/CN110503964B/zh active Active
- 2015-02-16 US US15/302,094 patent/US10332533B2/en active Active
- 2015-02-16 KR KR1020167029133A patent/KR101872905B1/ko active Active
- 2015-02-16 ES ES15783646T patent/ES2713410T3/es active Active
- 2015-02-16 PL PL15783646T patent/PL3136387T3/pl unknown
- 2015-02-16 JP JP2016514752A patent/JP6270992B2/ja active Active
-
2017
- 2017-12-25 JP JP2017247616A patent/JP6484325B2/ja active Active
- 2017-12-25 JP JP2017247615A patent/JP6486450B2/ja active Active
-
2019
- 2019-02-19 JP JP2019027368A patent/JP6650540B2/ja active Active
- 2019-04-30 US US16/398,429 patent/US10504533B2/en active Active
- 2019-10-15 US US16/601,740 patent/US10643631B2/en active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1488135A (zh) * | 2000-11-30 | 2004-04-07 | ���µ�����ҵ��ʽ���� | 线性预测编码参数的矢量量化装置 |
CN1509469A (zh) * | 2001-05-16 | 2004-06-30 | ��˹��ŵ�� | 语音编解码器中用于线频谱频率矢量量化的方法和系统 |
CN1387131A (zh) * | 2001-05-18 | 2002-12-25 | 株式会社东芝 | 预测参数分析装置与预测参数的分析方法 |
CN1973319A (zh) * | 2004-06-21 | 2007-05-30 | 皇家飞利浦电子股份有限公司 | 编码和解码多通道音频信号的方法和设备 |
CN102915739A (zh) * | 2006-11-17 | 2013-02-06 | 三星电子株式会社 | 用于对高频信号进行编码和解码的方法和设备 |
CN101911501A (zh) * | 2008-01-24 | 2010-12-08 | 日本电信电话株式会社 | 编码方法、解码方法及其装置、以及其程序和记录介质 |
CN102449689A (zh) * | 2009-06-03 | 2012-05-09 | 日本电信电话株式会社 | 编码方法、解码方法、编码装置、解码装置、编码程序、解码程序以及它们的记录介质 |
CN102812512A (zh) * | 2010-03-23 | 2012-12-05 | Lg电子株式会社 | 处理音频信号的方法和装置 |
CN103262161A (zh) * | 2010-10-18 | 2013-08-21 | 三星电子株式会社 | 确定用于线性预测编码(lpc)系数量化的具有低复杂度的加权函数的设备和方法 |
JP2012128022A (ja) * | 2010-12-13 | 2012-07-05 | Nippon Telegr & Teleph Corp <Ntt> | 符号化方法、復号方法、符号化装置、復号装置、プログラム、記録媒体 |
CN103460287A (zh) * | 2011-04-05 | 2013-12-18 | 日本电信电话株式会社 | 编码方法、解码方法、编码装置、解码装置、程序、记录介质 |
CN103620676A (zh) * | 2011-04-21 | 2014-03-05 | 三星电子株式会社 | 对线性预测编码系数进行量化的方法、声音编码方法、对线性预测编码系数进行反量化的方法、声音解码方法以及记录介质 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6650540B2 (ja) | 周波数領域パラメータ列生成方法、周波数領域パラメータ列生成装置、及びプログラム | |
US11501788B2 (en) | Periodic-combined-envelope-sequence generation device, periodic-combined-envelope-sequence generation method, periodic-combined-envelope-sequence generation program and recording medium | |
CN107408390B (zh) | 线性预测编码装置、线性预测解码装置、它们的方法以及记录介质 | |
CN107004422B (zh) | 编码装置、解码装置、它们的方法及程序 | |
CN107430869B (zh) | 参数决定装置、方法及记录介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |