CN1248195C - 语音编码转换方法和装置 - Google Patents
语音编码转换方法和装置 Download PDFInfo
- Publication number
- CN1248195C CN1248195C CNB031020232A CN03102023A CN1248195C CN 1248195 C CN1248195 C CN 1248195C CN B031020232 A CNB031020232 A CN B031020232A CN 03102023 A CN03102023 A CN 03102023A CN 1248195 C CN1248195 C CN 1248195C
- Authority
- CN
- China
- Prior art keywords
- coding
- algebraic
- voice
- gain
- lsp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000006243 chemical reaction Methods 0.000 claims abstract description 62
- 238000013139 quantization Methods 0.000 claims description 220
- 230000003044 adaptive effect Effects 0.000 claims description 61
- 239000002131 composite material Substances 0.000 claims description 61
- 230000005540 biological transmission Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 11
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 claims description 7
- 238000011002 quantification Methods 0.000 claims 1
- 101000852665 Alopecosa marikovskyi Omega-lycotoxin-Gsp2671a Proteins 0.000 abstract description 30
- 101100510615 Caenorhabditis elegans lag-2 gene Proteins 0.000 abstract description 28
- 101100074187 Caenorhabditis elegans lag-1 gene Proteins 0.000 abstract description 21
- 101100455541 Drosophila melanogaster Lsp2 gene Proteins 0.000 abstract description 16
- 101710088369 Bacterial RNA polymerase inhibitor Proteins 0.000 abstract 1
- 101710122194 Gene 2 protein Proteins 0.000 abstract 1
- 230000015572 biosynthetic process Effects 0.000 description 54
- 238000003786 synthesis reaction Methods 0.000 description 54
- 238000010586 diagram Methods 0.000 description 40
- 230000000737 periodic effect Effects 0.000 description 24
- 238000012937 correction Methods 0.000 description 19
- 239000013598 vector Substances 0.000 description 15
- 238000005070 sampling Methods 0.000 description 14
- 230000015556 catabolic process Effects 0.000 description 9
- 238000006731 degradation reaction Methods 0.000 description 9
- 238000011156 evaluation Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000001934 delay Effects 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 101000984710 Homo sapiens Lymphocyte-specific protein 1 Proteins 0.000 description 1
- 102100027105 Lymphocyte-specific protein 1 Human genes 0.000 description 1
- 101150017238 Magt1 gene Proteins 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供一种语音编码转换方法和装置,能够在子帧长度不同的语音编码方案之间转换语音编码。语音编码转换装置从第一语音编码方案的语音编码中分离出多个为重构语音信号所必需的多个编码分量(Lsp1、Lag1、Gain1、Cb1),逆量化每个分量的编码,把除代数编码分量之外的编码分量的逆量化值转换为第二语音编码方案的语音编码的编码分量(Lsp2,Lag2,Gp2)。此外,语音编码转换装置根据逆量化值再现语音,对被转换为第二语音编码方案编码的编码进行逆量化,使用逆量化值和再现的语音生成目标信号,把该目标信号输入到代数编码转换器,获得第二语音编码方案的代数编码(Cb2)。
Description
技术领域
本发明涉及一种语音编码转换方法和装置,用于把依据第一语音编码方案进行编码而获得的语音编码转换为第二语音编码方案的语音编码。尤其涉及这样一种语音编码转换方法和装置:把根据由因特网或者移动电话系统等使用的第一语音编码方案对语音进行编码而获得的语音编码转换为不同于第一语音编码方案的第二编码方案的语音编码。
背景技术
近年来移动电话的用户迅速增长,而且预计用户的数量还将会继续增加。使用因特网的语音通信(VoIP)在公司内部IP网络(Intranet)中得到越来越多的应用,而且还用于提供长途电话服务。在诸如移动电话系统和VoIP之类的语音通信系统中,为了有效地利用通信信道,使用了压缩语音的语音编码技术。
在移动电话的情况下,不同的国家或者系统使用的语音编码技术有所不同。在被认为是下一代移动电话系统的cdma 2000中,采用EVRC(Enhanced Variable-Rate Codec,增强的可变速率编码译码器)作为语音编码方案。另一方面,就VoIP来说,遵循ITU-T建议G.729A的方案正被广泛地用作语音编码方法。下面首先说明G.729A和EVRC的概况。
(1)G.729A的说明
编码器的结构与操作
图15示出了遵循ITU-T建议G.729A的编码器的结构。如图15所示,每帧具有规定采样数(=N)的输入信号(语音信号)X被逐帧地输入到LPC(Linear Prediction Coefficient,线性预测系数)分析器1中。如果采样速度是8kHz且单帧的长度是10ms,则一帧由80个采样组成。LPC分析器1(是由下列等式表示的全极滤波器)获得滤波器系数αi(i=1,……,P),其中P表示滤波器的级数:
H(z)=1/[1+∑αi z-1](i=1到P) (1)
通常,在电话频带语音的情况下,P采用10到12的值。LPC分析器1使用输入信号的80个采样、40个预读采样和120个过去信号采样总共240个采样来进行LPC分析,获得LPC系数。
参数转换器2把LPC系数转换为LSP(Line Spectrum Pair,线谱对)参数。LSP参数是能与LPC系数相互转换的频率区域的参数。由于其量化特性优于LPC系数,所以在LSP域中进行量化。LSP量化器3对通过转换获得的LSP参数进行量化,并且获得LSP编码和LSP逆量化值。LSP插值器4根据在当前帧中求出的LSP逆量化值和在前一帧中求出的LSP逆量化值,获得LSP内插值。更具体地说,一帧被分成两个5ms的子帧、即第一和第二子帧,LPC分析器1确定第二子帧的LPC系数,不决定第一子帧的LPC系数。使用在当前帧中求出的LSP逆量化值和在前一帧中求出的LSP逆量化值,LSP插值器4通过插值法预测第一子帧的LSP逆量化值。
参数逆转换器5把LSP逆量化值和LSP内插值转换为LPC系数,并且在LPC合成滤波器6中设置这些系数。在这种情况下,把从该帧的第一子帧的LSP内插值转换的LPC系数以及从第二子帧的LSP逆量化值转换的LPC系数用作LPC合成滤波器6的滤波器系数。在以下的说明中,在以“1”开头的索引项(例如lspi、li(n))中,“l”是字母表中的字母“l”。
在LSP量化器3中,LSP参数lspi(i=1,……,P)通过标量量化或者矢量量化被量化之后,量化索引(LSP编码)被发送到解码器。图16是用于说明量化方法的图。在此,与索引号1到n对应,大量的量化LSP参数组被保存在量化表3a中。距离计算单元3b依据下列等式计算距离:
d=∑i{lspq(i)-lspi}2 (i=i~P)
当q在1到n变化时,最小距离索引检测器3c求出使距离d最小的q,并且把该索引q作为LSP编码发送到解码器。
接下来,进行声源和增益搜索处理。以子帧为单位处理声源和增益。首先,声源信号被分成基音(pitch)周期分量和噪音分量,存储了过去的声源信号序列的自适应码本7被用来量化基音周期性分量,而代数码本或者噪音码本被用来量化噪音分量。下面对使用自适应码本7和代数码本8作为声源码本的语音编码进行说明。
自适应码本7与索引1到L相对应,输出被依次延迟一个采样的N个采样的声源信号(称为“周期性信号”)。图17是在每一个子帧40个采样(N=40)情况下的自适应码本7的结构图。自适应码本是由用于存储最新的(L+39)个采样的基音周期性分量的缓冲器BF构成的。包含第1到40个采样的周期性信号用索引1表示,包含第2到41个采样的周期性信号用索引2表示,……,以及包含第L到L+39个采样的周期性信号用索引L表示。在初始状态中,自适应码本7中的内容为所有信号的振幅都是零。将最旧信号逐子帧地丢弃(每次一个子帧长度),以便使将当前帧中获得的声源信号保存在自适应码本7中。
自适应码本搜索使用存储有过去声源信号的自适应码本7来标识声源信号中的周期性分量。也就是说,从自适应码本7中抽出的一个子帧长度(=40个采样)的过去声源信号,同时每次把从自适应码本7中开始读出的指针改变一个采样,把声源信号输入到LPC合成滤波器6中以创建基音合成信号βAPL,其中PL表示从自适应码本7中抽出的、对应于延迟L的过去周期性信号(适应编码矢量),A表示LPC合成滤波器6的脉冲响应,β表示自适应码本的增益。
运算单元9依据下列等式求出输入语音X和βAPL之间的误差功率EL:
EL=|X-βAPL|2(2)
如果我们用APL表示来自自适应码本的加权的合成输出、Rpp表示APL的自相关、Rxp表示APL和输入信号X之间的互相关,则使等式(2)中的误差功率最小的基音延迟(pitch lag)Lopt处的适应编码矢量PL由下列等式表示:
PL=argmax(Rxp2/Rpp) (3)
也就是说,用于读该码本的最优起始点在用该基音合成信号的自相关Rpp标准化(normalize)基音合成信号APL和输入信号X之间的互相关Rxp而获得的值为最大的地方。因此,误差功率评价单元10求出满足等式(3)的基音延迟Lopt。最优基音增益βopt可以用下式表示:
βopt=Rxp/Rpp (4)
接下来,使用代数码本8量化包含在该声源信号中的噪声分量。该代数码本由多个振幅为1或者-1的脉冲构成。举例来说,图18示出了帧长度是40个采样情况下的脉冲位置。该代数码本8把构成一个帧的N(=40)个采样点划分为多个脉冲系统组1到4,而且对于通过从每个脉冲系统组中抽出一个采样点而获得的所有组合,顺序地输出每个采样点处的具有+1或者-1脉冲的脉冲性信号作为噪声分量。在本示例中,每一帧基本上配置了四个脉冲。图19是用于说明分配给每个脉冲系统组1到4的采样点的图。
(1)0、5、10、15、20、25、30、35八个采样点被分配给脉冲系统组1;
(2)1、6、11、16、21、26、31、36八个采样点被分配给脉冲系统组2;
(3)2、7、12、17、22、27、32、37八个采样点被分配给脉冲系统组3;以及
(4)3、4、8、9、13、14、18、19、23、24、28、29、33、34、38、39十六个采样点被分配给脉冲系统组4。
需要三位来表示脉冲系统组1到3中的采样点,用一位来表示脉冲的正负号,总共四位。此外,需要四位来表示脉冲系统组4中的采样点,用一位来表示脉冲的正负号,总共五位。因此,指定从具有图18中的脉冲位置的噪音码本8输出的脉冲性信号需要17位,而且存在217种类型的脉冲性信号。
如图18中所示,每一个脉冲系统的脉冲位置是受限制的。在代数码本搜索中,从每一脉冲系统的脉冲位置的组合中确定重构区域中与输入语音的误差功率最小的脉冲组合。更具体地说,假设通过自适应码本搜索所求出的最优基音增益为βopt,把自适应码本的输出PL乘以βopt并把乘积输入到加法器11中。同时,从代数码本8连续地输入该脉冲性信号到加法器11中,并且确定使输入信号X和通过把该加法器的输出输入到LPC合成滤波器6中而获得的再现信号之间的差最小的脉冲性信号。更具体地说,首先依据以下等式,根据最优自适应码本输出PL和通过该自适应码本搜索从输入信号X获得的最优基音增益βopt,生成用于代数码本搜索的目标矢量X’:
X’=X-βoptAPL (5)
在本示例中,用17位表示脉冲位置和振幅(正负)所以存在217个组合。因此,用CK表示第k个代数编码输出矢量,通过一次代数码本的搜索,求出使下式中的评价函数误差功率D最小的编码矢量CK:
D=|X’-GcACK|2 (6)
其中GC表示该代数码本的增益。在该代数码本搜索中,该误差功率评价单元10将搜索:通过用该代数合成信号的自相关值Rcc标准化代数合成信号ACK和输入信号X’之间的互相关值的平方而获得的最大标准化互相关值(Rcx*Rcx/Rcc)的脉冲位置和极性组合。该代数码本搜索的输出结果是每个脉冲的位置和正负号(正或者负)。它们统称为代数编码。
接下来将说明增益量化。在G.729A系统中,不直接量化代数码本增益。相反地,对自适应码本增益Ga(=βopt)和代数码本增益Gc的校正系数γ进行矢量量化。该代数码本增益Gc和校正系数γ关系如下:
Gc=g’× γ
其中g’表示根据四个过去子帧的对数增益所预测的当前帧增益。
增益量化器12具有未显示的增益量化表(增益码本),其中准备有自适应码本增益Ga和用于代数码本增益的校正系数γ的128(=27)种组合。该增益码本的搜索方法包含:①对来自自适应码本的输出矢量以及来自该代数码本的输出矢量,从该增益量化表中抽出一组表值,并且分别在增益变化单元13、14中设置这些值;②分别使用增益变化单元13、14将这些矢量乘以增益Ga、Gc,并把该乘积输入到LPC合成滤波器6中;以及③通过误差功率评价单元10,选择相对于输入信号X的误差功率最小的组合。
信道编码器15通过多路复用①作为LSP量化索引的LSP编码、②基音延迟编码Lopt、③作为代数码本索引的代数编码、以及④作为增益的量化索引的增益编码来创建信道数据。该信道编码器15把该信道数据发送到解码器。
因此,如上所述,G.729A编码系统产生语音生成处理的模型(model),量化该模型的特征参数并且传输这些参数,由此使有效地压缩语音成为可能。
解码器的结构与操作
图20是示出了遵循G.729A的解码器的框图。从编码器发出的信道数据被输入到信道解码器21中,其进行处理以输出LSP编码、基音延迟编码、代数编码以及增益编码。解码器基于这些编码解码话音数据。现在说明该解码器的操作,由于该解码器的功能被包含在编码器中,所以部分说明是重复的。
当接收该LSP编码作为输入时,LSP逆量化器22进行逆量化并且输出LSP逆量化值。LSP插值器23根据在当前帧的第二个子帧中的LSP逆量化值和在前一帧的第二个子帧中的LSP逆量化值,插值该当前帧的第一个子帧的LSP逆量化值。接下来,参数逆转换器24把该LSP内插值和LSP逆量化值转换为LPC合成过滤系数。遵循G.729A的合成滤波器25使用根据初始第一子帧中的LSP内插值转换得到的LPC系数以及根据紧接着的第二子帧中的LSP逆量化值转换得到的LPC系数。
自适应码本26从由基音延迟编码指定的读出起始点开始输出一个子帧长度(=40个采样)的基音信号,噪音码本27从对应于代数编码的读出位置开始输出脉冲位置和脉冲极性。增益逆量化器28根据输入的增益编码,计算自适应码本增益逆量化值和代数码本增益逆量化值,并且分别在增益变化单元29、30中设置这些值。加法器31通过把该自适应码本的输出和该自适应码本增益逆量化值相乘获得的信号、以及通过把该代数码本的输出和该代数码本增益逆量化值相乘获得的信号相加来创建声源信号。该声源信号被输入到LPC合成滤波器25中。从而,能够从该LPC合成滤波器25获得重构的语音。
在初始状态,解码器上的自适应码本26的内容是所有信号都具有零振幅。将最旧信号逐子帧地丢弃(每次一个子帧长度),以便将在当前帧获得的声源信号保存在自适应码本26中。换句话说,编码器的自适应码本7和解码器的自适应码本26总是维持相同的最新的状态。
(2)EVRC说明
EVRC的特征在于:每一帧传输的位数依据输入信号的特性而改变。更具体地说,在诸如元音部分等稳定部分中提高比特率,而在无声或者过渡部分中降低传输的位数,由此减小按时间平均的比特率。EVRC比特率如表1所示。
表1
模式 | 比特率 | 所考虑的语音部分(segment) | |
位/帧 | 千比特/秒 | ||
全速率 | 171 | 8.55 | 稳定部分 |
半速率 | 80 | 4.0 | 变化部分 |
1/8速率 | 16 | 0.8 | 无声部分 |
利用EVRC确定当前帧中的输入信号的速率。速率的确定把输入语音信号的频率区域划分成高低区域,计算每个区域中的功率,将这些区域中的每一个的功率值与两个预定阈值进行比较,如果低区域功率和高区域功率超过了这些阈值的话,选择全速率;如果仅仅是低区域功率或者高区域功率超过了阈值的话,则选择半速率;如果该低和高区域的功率值都低于阈值的话,则选择1/8速率。
图21示出了EVRC编码器的结构。利用EVRC,被分割为20毫秒帧(160个采样)的输入信号被输入到编码器中。此外,如在下面的表2中所示,输入信号的一帧被分割为三个子帧。注意到,该编码器的结构在全速率和半速率情况下基本上是相同的,两者之间只有量化器的量化位数不同。因此下面将对全速率的情况进行说明。
表2
子帧编号 | 1 | 2 | 3 | |
子帧长度 | 采样数量 | 53 | 53 | 54 |
毫秒 | 6.625 | 6.625 | 6.750 |
如图22所示,LPC(线性预测系数)分析器41通过使用当前帧中的输入信号的160个采样以及预先读取的80个采样总共240个采样的LPC分析,获得LPC系数。LSP量化器42把LPC系数转换为LSP参数,然后进行量化以获得LSP编码。LSP逆量化器43根据LSP编码获得LSP逆量化值。使用在当前帧中求出的LSP逆量化值(第三个子帧的LSP逆量化值)以及在前一帧中求出的LSP逆量化值,LSP插值器44通过线性插值,预测当前帧中的第0、1和2个子帧的LSP逆量化值。
接下来,基音分析器45获得当前帧的基音延迟和基音增益。依据EVRC,每一个帧进行两次基音分析。在图22中示出了基音分析中的分析窗口的位置。该基音分析过程如下所示:
(1)把当前帧的输入信号以及预读信号输入到由上述LPC系数组成的LPC逆滤波器(inverse filter)中,由此获得LPC残差信号。如果H(z)表示LPC合成滤波器,则该LPC逆滤波器是1/H(z)。
(2)求出该LPC残差信号的自相关函数,并且获得自相关函数最大时的基音延迟和基音增益。
(3)在两个分析窗口位置进行上述的处理。用Lag1和Gain1分别表示由第一个分析求出的基音延迟和基音增益,用Lag2和Gain2分别表示通过第二个分析求出的基音延迟和基音增益。
(4)当Gain1和Gain2之间的差等于或者大于预定阈值时,则Gain1和Lag1被分别作为当前帧基音增益和基音延迟。当Gain1和Gain2之间的差小于预定阈值时,Gain2和Lag2被分别作为当前帧的基音增益和基音延迟。
通过上述过程求出基音延迟和基音增益。基音增益量化器46使用量化表量化该基音增益并且输出基音增益编码。基音增益逆量化器47逆量化该基音增益编码并且把结果输入到增益改变单元48中。在G.729A中以子帧为单位获得基音延迟和基音增益,而EVRC的不同之处是以帧为单位获得基音延迟和基音增益。
此外,EVRC的不同之处在于:输入语音校正单元49依据基音延迟编码校正该输入信号。也就是说,不是如依据G.729A所进行的那样求出相对于该输入信号的误差最小的基音延迟和基音增益,在EVRC中,输入语音校正单元49校正输入信号使之最接近由通过基音分析求出的基音延迟和基音增益所确定的自适应码本输出。更具体地说,该输入语音校正单元49通过LPC反向滤波器把该输入信号转换为残差信号,对该残差信号区域中的基音峰值位置进行时间移位以使该位置与自适应码本47的输出的基音峰值位置相同。
接下来以子帧为单位确定噪音性声源信号和增益。首先,通过算术运算单元52,从输入语音校正单元49输出的校正输入信号中减去使自适应码本50的输出通过增益改变单元48、LPC合成滤波器51而获得的自适应码本合成信号,由此生成代数码本搜索的目标信号X’。EVRC自适应码本53以类似于G.729A的方式由多个脉冲组成,在全速率情况下每个子帧分配35位。在下面的表3中示出了全速率的脉冲位置。
表3:EVRC代数码本(全速率)
脉冲系统 | 脉冲位置 | 极性 |
T0 | 0,5,10,15,20,25,30,35,40,45,50 | +/- |
T1 | 1,6,11,16,21,26,31,36,41,46,51 | +/- |
T2 | 2,7,12,17,22,27,32,37,42,47,52 | +/- |
T3 | 3,8,13,18,23,28,33,38,43,48,53 | +/- |
T4 | 4,9,14,19,24,29,34,39,44,49,54 | +/- |
虽然从每个脉冲系统中挑选出来的脉冲数不同,但是搜索该代数码本的方法类似于G.729A。两个脉冲被分配给这五个脉冲系统中的三个,而一个脉冲被分配给这五个脉冲系统中的两个。分配了一个脉冲的系统的组合被限制为四个,即T3-T4、T4-T0、T0-T1和T1-T2。因此,在下面表4中示出了脉冲系统和脉冲数的组合。
表4脉冲-系统组合
一个脉冲的系统 | 两个脉冲的系统 | |
(1) | T3,T4 | T0,T1,T2 |
(2) | T4,T0 | T1,T2,T3 |
(3) | T0,T1 | T2,T3,T4 |
(4) | T1,T2 | T3,T4,T0 |
因此,因为有分配一个脉冲的系统和分配两个脉冲的系统,脉冲数不同,分配给每个脉冲系统的位数不同。在下面的表5示出了在全速率情况下的代数码本的位分配。
表5EVRC代数码本的位分配
脉冲数 | 信息 | 位分配 |
一个脉冲 | 组合 | 2位(4) |
脉冲位置 | 7位(11×11)=121<128 | |
极性 | 2位 | |
两个脉冲 | 脉冲位置极性(与一个脉冲系统的极性相同) | 21位(7×3)3位(3×1) |
总计 | 35位 |
因为一个脉冲系统的组合数为四,所以需要两位。如果在脉冲数为1的双脉冲系统中的11个脉冲位置沿X和Y方向排列,则能够形成11×11的网格,并且能够用网格点确定该双脉冲系统中的脉冲位置。因此,在脉冲数为1的双脉冲系统中指定脉冲位置需要七位,而且在脉冲数量是1的双脉冲系统中,表示脉冲的极性需要两位。此外,在脉冲数是2的三个脉冲系统中,指定脉冲位置需要7×3位,在脉冲数是2的三个脉冲系统中,表示脉冲的极性需要1×3位。注意到在该脉冲系统中的脉冲极性是相同的。因此,在EVRC中,代数码本可由总共35位表示。
在该代数码本搜索中,该代数码本53通过把脉冲性信号顺序地输入到增益乘法器54和LPC合成滤波器55中来生成代数合成信号,算术运算单元56计算该代数合成信号和目标信号X’之间的差,获得使下面等式中的评价函数误差功率D最小的编码矢量Ck:
D=|X’-GCACK|2
其中Gc表示该代数码本的增益。在该代数码本搜索中,该误差功率评价单元59搜索:通过用该代数合成信号的自相关值Rcc标准化该代数合成信号ACK和目标信号X’之间的互相关值的平方获得的最大标准化互相关值(Rcx*Rcx/Rcc)的脉冲位置和极性组合。
代数码本增益不被直接量化。相反地,该代数码本增益的校正系数γ以每个子帧五位被标量量化。校正系数γ是通过用g’标准化代数码本增益Gc获得的值(γ=Gc/g’),其中g’表示根据过去子帧预测的增益。
信道多路复用器60通过多路复用①作为LSP量化索引的LSP编码、②基音延迟编码、③作为代数码本索引的代数编码、④作为基音增益量化索引的基音增益编码、以及⑤作为代数码本增益的量化索引的代数码本增益编码,来创建信道数据。该多路复用器60把该信道数据发送到解码器。
注意到该解码器被用来解码从编码器发出的LSP编码、基音延迟编码、代数编码、基音增益编码和代数码本增益编码。由于EVRC解码器能够采用类似于与G.729编码器对应地创建G.729解码器的方式来创建。因此,这里不需要说明EVRC解码器。
(3)根据现有技术的语音编码转换
可以相信:因特网和移动电话的日益普及将导致因特网用户和移动电话网络用户的语音通信不断增加。然而,如果由移动电话网络使用的语音编码方案和由因特网使用的语音编码方案不同,则不能进行在移动电话网络和因特网之间的通信。
图23示出了依据现有技术的典型语音编码转换方法的原理图。这个方法在下面称为“现有技术1”。这个示例仅考虑由用户A输入到终端71的语音被发给用户B的终端72的情况。这里假定,用户A具有的终端71仅具有编码方案1的编码器71a,而用户B的终端72仅具有编码方案2的解码器72a。
由用户A在传输端产生的语音被输入到包括在终端71中的编码方案1的编码器71a中。该编码器71a把该输入语音信号编码成编码方案1的语音编码,并且把这个编码到输出传输路径71b。当经由传输路径71b输入语音编码时,语音编码转换器73的解码器73a根据编码方案1的语音编码解码再现的语音。然后,语音编码转换器73的编码器73b把该重构的语音信号转换为编码方案2的语音编码,并且发送这个语音编码到传输路径72b。编码方案2的语音编码通过传输路径72b被输入到终端72。当接收作为输入的语音编码时,解码器72a根据该编码方案2的语音编码解码重构的语音。其结果,接收端的用户B能够听到重构的语音。对先被编码的语音进行解码,然后重新编码该解码的语音的处理被称为“串联连接(tandem connection)”。
利用现有技术1的实现,如上所述,将依赖于由语音编码方案1编码的语音编码被临时解码成为语音、之后用语音编码方案2重新编码该解码的语音的串联连接。结果产生了问题,即重构的语音质量的发音变差以及延迟增加。换句话说,依据信息内容被编码和压缩的语音(重构语音)与原有语音(原声)相比信息较少。因此该重构语音的声音质量与原声比较非常地差。特别地,利用最近以G.729A和EVRC为代表的低位速率语音编码方案,在进行编码的同时丢弃许多包含在该输入语音中的信息以便实现高压缩率。当使用重复编码和解码的串联连接时,重构语音的质量显著变差。
一种被提出作为解决这个串联连接问题方法的技术不把语音编码复原到语音信号,而是把语音编码分解为诸如LSP编码和基音延迟编码等参数编码,并且把每个参数编码分别转换为别的语音编码方案的编码。图24是示出了这个提案的原理的图,其在下面被称为“现有技术2”。
包括在终端71中的编码方案1的编码器71a把由用户A产生的语音信号编码成编码方案1的语音编码,并且发送这个语音编码到传输路径71b。语音编码转换单元74把从传输路径71b输入的、编码方案1的语音编码转换为编码方案2的语音编码,并且发送这个语音编码到传输路径72b。终端72中的解码器72a根据经由传输路径72b输入的编码方案2的语音编码解码重构的语音,从而用户B能够听到重构的语音。
编码方案1用下列编码编码语音信号:①通过量化LSP参数获得的第一LSP编码,该LSP编码是根据通过逐帧线性预测分析所获得的线性预测系数(LPC)求出的;②第一基音延迟编码,其指定用于输出周期性声源信号的自适应码本的输出信号;③第一代数编码(噪音编码),其指定用于输出噪音性声源信号的代数码本的输出信号(或者噪音码本);以及④通过量化表示该自适应码本的输出信号振幅的基音增益和表示该代数码本的输出信号振幅的代数码本增益而获得的第一增益编码。该编码方案2用①第二LPC编码、②第二基音延迟编码,③第二代数编码(噪音编码)以及④第二增益编码来编码语音信号,其中,这些编码是通过依据不同于语音编码方案1的量化方法进行量化而获得的。
语音编码转换单元74具有编码分离器74a、LSP编码转换器74b、基音延迟编码转换器74c、代数编码转换器74d、增益编码转换器74e以及编码多路复用器74f。编码分离器74a把经由传输路径71b从终端71的编码器71a输入的语音编码方案1的语音编码分离为重构语音信号所必需的多个编码分量,即①LSP编码、②基音延迟编码、③代数编码以及④增益编码。这些编码分别输入到编码转换器74b、74c、74d、和74e。后者把输入的语音编码方案1的LSP编码、基音延迟编码、代数编码和增益编码转换为语音编码方案2的LSP编码、基音延迟编码、代数编码和增益编码,编码多路复用器74f多路复用语音编码方案2的这些编码,并且发送该多路复用信号到传输路径72b。
图25是示出了编码转换器74b到74e的结构的语音编码转换单元74的结构。在图25中,与图24相同的组件用相同的标记字符标示。编码分离器74a从经由输入端子#1从传输路径输入的编码方案1的语音信号中,分离出LSP1、基音延迟编码1、代数编码1以及增益编码1,并且分别把这些编码输入到编码转换器74b、74c、74d和74e。
LSP编码转换器74b具有:LSP逆量化器74b1,用于逆量化编码方案1的LSP编码并且输出LSP逆量化值;以及LSP量化器74b2,用于使用编码方案2的代数编码量化表量化该LSP逆量化值,并且输出LSP编码2。基音延迟编码转换器74c具有:基音延迟逆量化器74c1,用于逆量化编码方案1的基音延迟编码1并且输出基音延迟逆量化值;以及基音延迟量化器74c2,用于通过编码方案2量化该基音延迟逆量化值并且输出基音延迟编码2。代数编码转换器74d具有:代数逆量化器74d1,用于逆量化编码方案1的代数编码1并且输出代数逆量化值;以及代数量化器74d2,用于使用编码方案2中的代数编码量化表,量化该代数逆量化值并且输出代数编码2。增益编码转换器74e具有:增益逆量化器74e1,用于逆量化编码方案1的增益编码1并且输出增益逆量化值;以及增益量化器74e2,用于使用编码方案2中的增益量化表,量化该增益逆量化值并且输出增益编码2。
编码多路复用器74f多路复用分别从量化器74b2、74c2、74d2和74e2输出的LSP编码2、基音延迟编码2、代数编码2和增益编码2,由此创建基于编码方案2的语音编码,并且从输出端子#2把这个编码发送到传输路径。
在图23中的串联连接方案(现有技术1)中,接收把通过编码方案1编码的语音编码一次解码为语音所获得的再现语音作为输入,对其再次进行编码和解码。因此,从再现的语音中抽出语音参数,而在再现的语音中,由于重新进行编码(即语音信息的压缩),其中的信息量比原声的信息量要少得多。因此,这样获得的语音编码不一定是最佳的。而依据图24中所示的现有技术2的语音编码装置,编码方案1的语音编码经由逆量化和量化处理被转换为编码方案2的语音编码。这使与现有技术1中的串联连接相比,能够进行质量降低少的语音编码转换。此外,因为不必为了语音编码转换而进行解码,所以另一个优点是减小了串联连接中存在的延迟问题。
在VoIP网络中,用G.729A作为语音编码方案。而在被认为是下一代移动电话系统的cdma 2000网络中,采用了EVRC。在下面的表6中示出了通过比较G.729A和EVRC的主要规格所获得的结果。
表6比较G.729A和EVRC的主要规格
G.729A | EVRC | |
采样频率 | 8kHz | 8kHz |
帧长度 | 10ms | 20ms |
子帧长度 | 5ms | 6.625/6.625/6.75ms |
子帧数量 | 2 | 3 |
依据G.729A的帧长度和子帧长度分别是10毫秒和5毫秒,而EVRC的帧长度为20毫秒并且被分割成三个子帧。即EVRC的子帧长度是6.625毫秒(只有最后的子帧长度为6.75毫秒),而且帧长度和子帧长度都不同于G.729A。在下面的表7中示出了通过比较G.729A和EVRC的位分配所获得的结果。
表7G.729A和EVRC位分配
参数 | G.729A | EVRC(全速率) |
子帧/帧 | 子帧/帧 | |
LSP编码 | --/18 | --/29 |
基音延迟编码 | 8,5/13 | --/12 |
基音增益编码 | ---- | 3,3,3/9 |
代数编码 | 17,17/34 | 35,35,35/105 |
代数编码增益编码 | ---- | 5,5,5/15 |
增益编码 | 7,7/14 | ----- |
未分配 | ---- | --/1 |
总计 | 80位/10毫秒 | 171位/20毫秒 |
在VoIP网络与cdma 2000的网络之间进行话音通信的情况下,需要一种用于把一种语音编码转换为另一种语音编码的语音编码转换技术。上述现有技术1和现有技术2的示例是用于这样情况的技术。
利用现有技术1,依据语音编码方案1根据语音编码临时重构语音,并且该重构的语音被作为输入被再次依据语音编码方案2编码。这使得转换编码不受这两个编码方案之间的差别的影响成为可能。然而,当依据这种方法进行重新编码时,产生了某些问题:即由于LPC分析和基音分析而产生的信号的预先读取(即,延迟),以及声音质量大幅降低。
由于依据现有技术2的语音编码转换是在编码方案1的子帧长度和编码方案2的子帧长度是相等的假定之下进行的,因此在两个编码方案的子帧长度不同的情况下,编码转换产生问题。也就是说,因为代数码本依据子帧的长度确定候选脉冲位置,而子帧长度不同的方案(G.729A和EVRC)的脉冲位置完全不同,所以很难使脉冲位置一一对应。
发明内容
因此,本发明的目的是:在子帧长度不同的语音编码方案之间也可以进行语音编码转换。
本发明的另一个目的是:减小声音质量的降低并且缩短延迟时间。
依据本发明的第一方面,提供一种语音编码转换方法,用于把第一语音编码转换为基于第二语音编码方案的第二语音编码,其中该第一语音编码是依据基于第一语音编码方案的LSP编码、基音延迟编码、代数编码、和增益编码对语音信号进行编码而获得的,第一语音编码方案是G.729编码方案,第二语音编码方案是EVRC编码方案,该语音编码转换方法包括以下步骤:
逆量化第一语音编码的LSP编码、基音延迟编码、代数编码、和增益编码以获得逆量化值,并且根据第二语音编码方案量化LSP编码、基音延迟编码、和增益编码的这些逆量化值以求出第二语音编码的LSP编码、基音延迟编码、和基音增益编码;
通过把与第二语音编码方案的基音延迟编码的逆量化值对应的自适应码本输出信号与第二语音编码方案的基音增益编码的逆量化值相乘,然后将得到的信号输入到基于第二语音编码方案的LSP编码的逆量化值的LPC合成滤波器中来生成基音周期性合成信号;
使用基于第一语音编码方案的LSP编码、基音延迟编码、增益编码和代数编码的逆量化值来再现语音信号;
生成该再现语音信号和基音周期性合成信号之间的差信号作为目标信号;
使用第二语音编码方案中的任何代数编码以及构成第二语音编码的LSP编码的逆量化值,生成代数合成信号;
通过计算代数合成信号和目标信号之间的互相关值Rcx、以及该代数合成信号的自相关值Rcc,并搜索使通过用Rcc标准化Rcx的平方所获得的标准化互相关值最大的代数编码,求出使该目标信号和代数合成信号之间的差最小的、第二语音编码方案中的代数编码;
把与所求出的第二语音编码方案的代数编码对应的代数码本输出信号输入到基于第二语音编码方案的LSP编码的逆量化值的LPC合成滤波器中;
根据该LPC合成滤波器的输出信号和目标信号,求出代数码本增益;
量化该代数码本增益,以求出基于第二语音编码方案的代数码本增益;以及
输出第二语音编码方案中的LSP编码、基音延迟编码、代数编码、基音增益编码和代数码本增益编码。
根据本发明另一个方面,提供一种语音编码转换方法,用于把基于第一语音编码方案的第一语音编码转换为第二语音编码,其中第二语音编码是依据基于第二语音编码方案的LSP编码、基音延迟编码、代数编码、和增益编码对语音信号进行编码获得的,第一语音编码方案是EVRC编码方案,第二语音编码方案是G.729编码方案,该语音编码转换方法包括下列步骤:
逆量化第一语音编码的LSP编码、基音延迟编码、代数编码、基音增益编码和代数码本增益编码以获得逆量化值,根据第二语音编码方案量化这些逆量化值中的LSP编码和基音延迟编码的逆量化值,求出第二语音编码的LSP编码和基音延迟编码;
通过使用第一语音编码的基音增益编码的逆量化基音增益进行插值处理,求出第二语音编码的增益编码的逆量化基音增益;
通过把与第二语音编码方案的基音延迟编码的逆量化值对应的自适应码本输出信号与第二语音编码方案的增益编码的逆量化基音增益相乘,然后将得到的信号输入到基于第二语音编码方案的LSP编码的逆量化值的LPC合成滤波器中来生成基音周期性合成信号;
使用基于第一语音编码方案的LSP编码、基音延迟编码、代数编码、基音增益编码和代数码本增益编码的逆量化值来再现语音信号;
生成该再现语音信号和基音周期性合成信号之间的差信号作为目标信号;
使用第二语音编码方案的任何代数编码以及第二语音编码的LSP编码的逆量化值,生成代数合成信号;
通过计算代数合成信号和目标信号之间的互相关值Rcx、以及该代数合成信号的自相关值Rcc,并搜索使通过用Rcc标准化Rcx的平方所获得的标准化互相关值最大的代数编码,求出使该目标信号和代数合成信号之间的差最小的、第二语音编码方案的代数编码;
通过使用第二语音编码的LSP编码和基音延迟编码的逆量化值、求出的代数编码以及目标信号,依据第二语音编码方案,求出作为基音增益和代数码本增益的组合的、第二语音编码的增益编码;以及
输出所求出的第二语音编码方案的LSP编码、基音延迟编码、代数编码和增益编码。
根据本发明另一个方面,提供一种语音编码转换装置,用于把第一语音编码转换为基于第二语音编码方案的第二语音编码,其中该第一语音编码是依据基于第一语音编码方案的LSP编码、基音延迟编码、代数编码、和增益编码对语音信号进行编码而获得的,第一语音编码方案是G.729编码方案,第二语音编码方案是EVRC编码方案,语音编码转换装置包括:
转换器,用于逆量化第一语音编码的LSP编码、基音延迟编码、代数编码、和增益编码以获得逆量化值,并且根据第二语音编码方案量化LSP编码、基音延迟编码、和增益编码的这些逆量化值,以求出第二语音编码的LSP编码、基音延迟编码、和基音增益编码;
基音周期性合成信号生成单元,用于通过把与第二语音编码方案的基音延迟编码的逆量化值对应的自适应码本输出信号与第二语音编码方案的基音增益编码的逆量化值相乘,然后将得到的信号输入到基于第二语音编码方案的LSP编码的逆量化值的LPC合成滤波器中来生成基音周期性合成信号;
语音再现单元,用于使用基于第一语音编码方案的LSP编码、基音延迟编码、增益编码和代数编码的逆量化值来再现语音信号;
目标信号生成单元,用于生成该再现的语音信号和该基音周期性合成信号之间的差信号作为目标信号;
代数合成信号生成单元,用于使用第二语音编码方案中的任何代数编码以及构成第二语音编码的LSP编码的逆量化值,生成代数合成信号;
代数编码获得单元,用于通过计算代数合成信号和目标信号之间的互相关值Rcx、以及该代数合成信号的自相关值Rcc,并搜索使通过用Rcc标准化Rcx的平方所获得的标准化互相关值最大的代数编码,求出使目标信号和代数合成信号之间的差最小的、第二语音编码方案的代数编码;
LPC合成滤波器,其是基于第二语音编码方案的LSP编码的逆量化值创建的;
代数码本增益确定单元,用于根据目标信号、把与所求出的代数编码对应的代数码本输出信号输入到所述LPC合成滤波器时从所述LPC合成滤波器获得的输出信号,来确定代数码本增益;
代数码本增益编码生成器,用于量化代数码本增益,以生成基于第二语音编码方案的代数码本增益;以及
编码多路复用器,用于多路复用并输出所求出的第二语音编码方案的LSP编码、基音延迟编码、代数编码、基音增益编码和代数码本增益编码。
根据本发明另一个方面,提供一种语音编码转换装置,用于把基于第一语音编码方案的第一语音编码转换为第二语音编码,其中该第二语音编码是依据基于第二语音编码方案的LSP编码、基音延迟编码、代数编码、和增益编码对语音信号进行编码而获得的,第一语音编码方案是EVRC编码方案,第二语音编码方案是G.729编码方案,该语音编码转换装置包括:
转换器,用于逆量化第一语音编码的LSP编码、基音延迟编码、代数编码、基音增益编码和代数码本增益编码以获得逆量化值,根据第二语音编码方案对这些逆量化值中的LSP编码和基音延迟编码的逆量化值进行量化,以求出第二语音编码中的LSP编码和基音延迟编码;
基音增益插值器,用于使用第一语音编码的基音增益编码的逆量化基音增益,通过插值处理,生成第二语音编码的增益编码的逆量化基音增益;
基音周期性合成信号生成单元,通过把与第二语音编码方案的基音延迟编码的逆量化值对应的自适应码本输出信号与第二语音编码方案的增益编码的逆量化基音增益相乘,然后将得到的信号输入到基于第二语音编码方案的LSP编码的逆量化值的LPC合成滤波器中来生成基音周期性合成信号;
语音信号再现单元,用于使用基于第一语音编码方案的LSP编码、基音延迟编码、代数编码、基音增益编码和代数码本增益编码的逆量化值来再现语音信号;
目标信号生成单元,用于生成该再现语音信号和该基音周期性合成信号之间的差信号作为目标信号;
代数合成信号生成单元,用于使用第二语音编码方案的任何代数编码以及第二语音编码方案中的LSP编码的逆量化值生成代数合成信号;
代数编码获得单元,用于通过计算代数合成信号和目标信号之间的互相关值Rcx、以及该代数合成信号的自相关值Rcc,并搜索使通过用Rcc标准化Rcx的平方所获得的标准化互相关值最大的代数编码,求出使目标信号和代数合成信号之间的差最小的、第二语音编码方案的代数编码;
增益编码获得单元,用于通过使用第二语音编码的LSP编码和基音延迟编码的逆量化值、求出的代数编码以及目标信号,根据第二语音编码方案,获得作为基音增益和代数码本增益的组合的、第二语音编码的增益编码;以及
编码多路复用器,用于多路复用并输出所求出的第二语音编码方案的LSP编码、基音延迟编码、代数编码和增益编码。
如果采用上述的方案,则有可能在子帧长度不同的语音编码方案之间进行语音编码转换。此外能够减小声音质量的降低并且缩短延迟时间。更具体地说,依据EVRC编码方案的语音编码能够被转换为依据G.729A编码方案的语音编码。
通过以下参照附图的说明,可以理解本发明的其它特征和优点。
附图说明
图1是用于说明本发明原理的框图;
图2是本发明第一实施例的语音编码转换装置的结构图;
图3是G.729A和EVRC的帧结构图;
图4是基音增益编码转换说明图;
图5是G.729A和EVRC中子帧的采样数的说明图;
图6是目标生成器的结构框图;
图7是代数编码转换器的结构框图;
图8是代数码本增益转换器的结构框图;
图9是本发明的第二实施例的语音编码转换装置的结构框图;
图10是代数码本增益编码的转换说明图;
图11是本发明的第三实施例的语音编码转换装置的结构框图;
图12是全速率语音编码转换器的结构框图;
图13是1/8速率语音编码转换器结构的框图;
图14是本发明的第四实施例的语音编码转换装置的结构框图;
图15是现有技术的基于ITU-T建议G.729A的编码器的框图;
图16是量化方法说明图;
图17是现有技术的自适应码本的结构说明图;
图18是现有技术中依据G.729A的代数码本说明图;
图19是现有技术的脉冲系统组的采样点的说明图;
图20是现有技术的基于G.729A的解码器的框图;
图21是现有技术的EVRC编码器的结构框图;
图22是现有技术的EVRC帧和LPC分析窗口、基音分析窗口之间的关系说明图;
图23是现有技术的典型语音编码转换方法的原理图;
图24是现有技术1的语音编码装置的框图;以及
图25是现有技术2的语音编码装置的详细框图。
具体实施方式
(A)本发明概述
图1是用于说明本发明的语音编码转换装置的原理的框图。图1示出了在依据编码方案1(G.729A)的语音编码CODE1被转换成依据编码方案2(EVRC)的语音编码CODE2的情况下的语音编码转换装置的原理的实现。
本发明通过类似于现有技术2的方法,在量化参数区域中把来自编码方案1的LSP编码、基音延迟编码和基音增益编码转换为编码方案2的编码,根据再现的语音和基音周期性合成信号创建目标信号,并且获得使目标信号和代数合成信号之间的错误最小的代数编码和代数码本增益。因此本发明的特征在于:从编码方案1到编码方案2进行转换。现在将详细说明该转换过程。
当依据编码方案1(G.729A)的语音编码CODE1被输入到编码分离器101中时,后者把该语音编码CODE1分离为LSP编码Lsp1、基音延迟编码Lag1、基音增益编码Gain1和代数编码Cb1的参数编码,并且分别把这些参数编码输入到LSP编码转换器102、基音延迟转换器103、基音增益转换器104和语音再现单元105。
LSP编码转换器102把LSP编码Lsp1转换为编码方案2的LSP编码Lsp2,基音延迟转换器103把该基音延迟编码Lag1转换为编码方案2的基音延迟编码Lag2,基音增益转换器104根据该基音增益编码Gain1获得基音逆量化值,并且把该基音增益逆量化值转换为编码方案2的基音增益编码Gp2。
语音再现单元105使用作为语音编码CODE1的编码分量的LSP编码Lsp1、基音延迟编码Lag1、基音增益编码Gain1和代数编码Cb1再现语音信号Sp。目标生成单元106根据语音编码方案2的LSP编码Lsp2、基音延迟编码Lag2和基音增益编码Gp2,创建编码方案2的基音周期性合成信号。目标生成单元106然后从语音信号Sp中减去该基音周期性合成信号以创建目标信号Target。
代数编码转换器107使用语音编码方案2的任何代数编码以及语音编码方案2的LSP编码Lsp2的逆量化值生成代数合成信号,并且确定使目标信号Target和该代数合成信号之间的差最小的、语音编码方案2的代数编码Cb2。
代数码本增益转换器108把与语音编码方案2的代数编码Cb2对应的代数码本输出信号输入到由LSP编码Lsp2的逆量化值构成的LPC合成滤波器中,由此创建代数合成信号,根据代数合成信号和目标信号确定代数码本增益,以及使用遵循编码方案2的量化表生成代数码本增益编码Gc2。
编码多路复用器109多路复用上述所获得的编码方案2的LSP编码Lsp2、基音延迟编码Lag2、基音增益编码Gp2、代数编码Cb2和代数码本增益编码Gc2,并且作为编码方案2的语音编码CODE2输出这些编码。
(B)第一实施例
图2是依据本发明第一实施例的语音编码转换装置的方框图。在图2中,与如图1中所示的组件相同的组件用相同的标记字符标示。本实施例示出了以G.729A为语音编码方案1,以EVRC为语音编码方案2的情况。此外,尽管全速率、半速率以及1/8速率方式这三种方式在EVRC中都是可用的,但是在此假定仅使用全速率方式。
由于G.729A中的帧长度为10ms,而EVRC中的帧长度为20ms,所以G.729A的两帧的语音编码被转换为EVRC的一帧的语音编码。下面将说明下述情况:如图3(a)中所示的G.729A的第n帧和第(n+1)帧的语音编码被转换为如图3(b)中所示的EVRC的第m帧的语音编码。
在图2中,把第n帧的语音编码(信道数据)CODE1(n)从遵循G.729A的编码器(未示出)经由传输路径输入到终端#1中。该编码分离器101从该语音编码CODE1(n)中分离出LSP编码Lsp1(n)、基音延迟编码Lag1(n,j)、增益编码Gain1(n,j)和代数编码Cb1(n,j)并且分别把这些编码输入到转换器102、103、104和代数编码逆量化器110。括号内的索引“j”表示子帧编号[参见图3中的(a)]并且值为0或者1。
LSP编码转换器102具有LSP逆量化器102a和LSP量化器102b。如上所述,G.729A的帧长度是10毫秒,G.729A编码器在10毫秒中仅对从第一子帧的输入信号中获得的LSP参数进行一次量化。而EVRC的帧长度是20毫秒,EVRC编码器每20毫秒对从该第二子帧和预读取部分的输入信号中获得的LSP参数进行一次量化。换句话说,如果以相同的20毫秒为单位时间,则G.729A编码器进行两次LSP量化而EVRC编码器仅进行一次量化。从而,不能把G.729A的两个相邻帧的LSP编码转换为EVRC的LSP编码。
因此,在第一实施例中,方案是仅把G.729A的奇数帧[第(n+1)帧]中的LSP编码转换为EVRC的LSP编码;而G.729A的偶数帧(第n帧)中的LSP编码不转换。但是,也可以把G.729A的偶数帧中的LSP编码转换为EVRC的LSP编码,不转换G.729A的奇数帧中的LSP编码。
当LSP编码Lsp1(n)被输入到LSP逆量化器102a中时,后者逆量化这个编码并且输出LSP逆量化值lsp1,其中,lsp1是包含十个系数的矢量。此外,LSP逆量化器102a进行与G.729A的解码器中使用的逆量化器类似的操作。
当奇数帧中的LSP逆量化值Lsp1输入到LSP量化器102b中时,后者依据遵循EVRC的LSP量化方法对其进行量化并且输出LSP编码Lsp2(m)。尽管LSP量化器102b不必和EVRC编码器中使用的量化器完全一样,但是至少它的LSP量化表与EVRC量化表相同。注意到,在LSP编码转换中不使用偶数帧的LSP逆量化值。此外,LSP逆量化值lsp1被用作以下说明的语音再现单元105中的LPC合成滤波器的系数。
接下来,LSP量化器102b根据通过解码由该转换产生的LSP编码Lsp2(m)所获得的LSP逆量化值,以及通过解码前面帧的LSP编码Lsp2(m-1)所获得的LSP逆量化值,使用线性插值获得当前帧的三个子帧中的LSP参数lsp2(k)(k=0、1、2)。这里的lsp2(k)由以下说明的目标生成单元106等使用,而且是10维的矢量。
该基音延迟转换器103具有基音延迟逆量化器103a和基音延迟量化器103b。依据G.729A方案,每5毫秒的子帧对该基音延迟进行一次量化。相反,EVRC在一帧中只对基音延迟进行一次量化。如果以20毫秒为单位时间,则G.729A量化四个基音延迟,而EVRC仅量化一个。因此,在G.729A语音编码被转换为EVRC语音编码的情况下,不能把G.729A的所有基音延迟转换为EVRC的基音延迟。
因此,在第一实施例中,通过由G.729A基音延迟逆量化器103a量化G.729A的第(n+1)帧的最后子帧(第一子帧)中的基音延迟编码Lag1(n+1,1)求出基音延迟Lag1,该基音延迟Lag1由基音延迟量化器103b量化以获得在第m帧的第二子帧中的基音延迟编码Lag2(m)。此外,该基音延迟量化器103b通过类似于EVRC方案的编码器和解码器的方法插值该基音延迟。也就是说,该基音延迟量化器103b通过在通过逆量化Lag2(m)所获得的第二子帧的基音延迟逆量化值和前一帧的第二子帧中的基音延迟逆量化值之间进行线性插值,求出每个子帧的基音延迟的内插值Lag2(k)(k=0、1、2)。这些基音延迟内插值由以下说明的目标生成单元106使用。
该基音增益转换器104具有基音增益逆量化器104a和基音增益量化器104b。依据该G.729A方案,由于每5毫秒子帧对该基音增益进行一次量化。如果以20毫秒为单位时间,则G.729A在一帧中量化四个基音增益,而EVRC在帧中量化三个基音增益。因此,在G.729A语音编码被转换为EVRC语音编码的情况下,不能把G.729A中的所有基音增益转换为EVRC的基音增益。因此,在第一实施例中,通过如图4所示的方法进行增益转换。具体地说,依据以下等式合成基音增益:
gp2(0)=gp1(0)
gp2(1)=[gp1(1)+gp(2)]/2
gp2(2)=gp1(3)
其中gp1(0)、gp1(1)、gp1(2)、gp1(3)表示G.729A的两个相邻帧的基音增益。合成的基音增益gp2(k)(k=0、1、2)被分别使用EVRC基音增益量化表进行标量量化,从而获得基音增益编码Gp2(m,k)。该基音增益gp2(k)(k=0、1、2)由以下说明的目标生成单元106使用。
代数编码逆量化器110对代数编码Cb(n,j)进行逆量化,并且把获得的代数编码逆量化值Cb1(j)输入到语音再现单元105。
语音再现单元105在第n帧中创建遵循G.729A的再现语音Sp(n,h),并且在第(n+1)帧中创建遵循G.729A的再现语音Sp(n+1,h)。创建再现语音的方法与G.729A解码器进行的操作相同,已在背景技术中进行了说明,在此不再给出进一步说明。再现语音Sp(n,h)和Sp(n+1,h)的维数是80个采样(h=1到80),与G.729A的帧长度相同,而且总共有160个采样。这与依据EVRC的每个帧的采样数相同。如图5所示,语音再现单元105把如此创建的再现语音Sp(n,h)和Sp(n+1,h)划分成为三个矢量Sp(0,i)、Sp(1,i)、Sp(2,i),并且输出这些矢量。在此在第0和第1个子帧中i为1到53,而在第2个子帧中i为1到54。
目标生成单元106创建在该代数编码转换器107和代数码本增益转换器108中被用作基准信号的目标信号Target(k,i)。图6是目标生成单元106的框图。自适应码本106a输出对应于由该基音延迟转换器103获得的基音延迟Iag2(k)的N个采样信号acb(k,i)(i=0到N-1)。在此k表示EVRC的子帧编号,N代表EVRC的子帧长度,其在第0和第1个子帧中为53,在第二个子帧中为54。除非另有说明,索引i是53或者54。数字106e表示自适应码本更新器。
增益乘法器106b把自适应码本输出acb(k,i)和基音增益gp2(k)相乘,并且把该乘积输入到LPC合成滤波器106c中。后者由LSP编码的逆量化值lsp2(k)构成并且输出自适应码本合成信号syn(k,i)。通过从被划分为三个部分的语音信号Sp(k,i)中减去该自适应码本合成信号syn(k,i),乘法器106d获得目标信号Target(k,i)。信号Target(k,i)在下述的代数编码转换器107和代数码本增益转换器108中使用。
代数编码转换器107进行与EVRC的代数编码搜索完全相同的处理。图7是代数编码转换器107的框图。代数码本107a输出任何能够由表3所示的脉冲位置和极性组合产生的脉冲性声源信号。具体地说,如果被指示从误差评价单元107b输出与规定的代数编码对应的脉冲性声源信号,则代数码本107a把与该指定的代数编码对应的脉冲性声源信号输入到LPC合成滤波器107c中。当该代数码本输出信号被输入到LPC合成滤波器107c中时,由该LSP编码的逆量化值lsp2(k)构成的LPC合成过滤器107c创建且输出代数合成信号alg(k,i)。误差评价单元107b计算代数合成信号alg(k,i)和目标信号Target(k,i)之间的互相关值Rcx以及该代数合成信号的自相关值Rcc,搜索使通过用Rcc标准化Rcx的平方所获得的标准化互相关值(Rcx*Rcx/Rcc)最大的代数编码Cb2(m,k),并且输出这个代数编码。
代数码本增益转换器108具有图8所示的结构。代数码本108a生成对应于通过代数编码转换器107获得的代数编码Cb2(m,k)的脉冲性声源信号,并且将其输入到LPC合成滤波器108b中。当该代数码本输出信号被输入到LPC合成滤波器108b中时,由该LSP编码的逆量化值lsp2(k)构成的LPC合成过滤器108b创建且输出代数合成信号gan(k,i)。代数码本增益计算单元108c获得代数合成信号gan(k,i)和目标信号Target(k,i)之间的互相关值Rcx以及该代数合成信号的自相关值Rcc,然后用Rcc标准化Rcx来求出代数码本增益gc2(k)(=Rcx/Rcc)。代数码本增益量化器108d使用EVRC代数码本增益量化表108e对该代数码本增益gc2(k)进行标量量化。依据EVRC,作为代数码本增益的量化位每个子帧被分配5位(32个模式)。因此,从这32个表值之中求出最接近gc2(k)的表值,并将这时候获得的索引值作为由该转换产生的代数码本增益编码Gc2(m,k)。
在对EVRC的一个子帧转换基音延迟编码、基音增益编码、代数编码和代数码本增益编码之后,更新自适应码本106a(图6)。在初始状态下,所有具有零振幅的信号被保存在自适应码本106a中。当子帧转换处理结束后,自适应码本106e从该自适应码本中丢弃一个子帧长度的最旧信号、将剩余的信号移动子帧长度,并且把变换后的最新的音源信号储存在自适应码本中。该最新的声源信号是把与转换后的基音延迟编码lag2(k)和基音增益gp2(k)对应的周期性声源信号,和与代数编码Cb2(m,k)和代数码本增益gc2(k)对应的噪音性声源信号合成的声源信号。
因此,如果求出EVRC的LSP编码Lsp2(m)、基音延迟编码Lag2(m)、基音增益编码Gp2(m,k)、代数编码Cb2(m,k)和代数码本增益编码Gc2(m,k),则编码多路复用器109多路复用这些编码,把它们组合为单个编码并且作为编码方案2的语音编码CODE2(m)输出这个编码。
依据第一实施例,在量化参数区域中转换LSP编码、基音延迟编码和基音增益编码。因此,与再现的语音再次经受LPC分析和基音分析的情况相比较,减小了分析错误,而且能够进行声音质量退化较小的参数转换。此外,因为再现的语音不再经受LSP分析和基音分析,解决了现有技术1中由编码转换引起延迟的问题。
另一方面,根据再现的语音创建目标信号,对代数编码和代数码本增益编码进行转换以便最小化相对于目标信号的误差。因此,即使在编码方案1和编码方案2的代数码本结构大为不同的情况下,也能够进行声音质量退化较小的编码转换。这是现有技术2中产生的问题。
(C)第二实施例
图9是本发明第二实施例的语音编码转换装置的框图。图9中,与如图2所示的第一实施例的组件相同的组件用相同的标记字符标示。第二实施例不同于第一实施例之处在于:①删除了第一实施例中的代数码本增益转换器108,而由代数码本增益量化器111代替;②除了LSP编码、基音延迟编码和基音增益编码之外,还在量化参数区域中转换代数码本增益编码。
在第二实施例中,只有转换代数码本增益编码的方法不同于第一实施例。现在将说明依据第二实施例的转换代数码本增益编码的方法。
在G.729A中,每5毫秒子帧对代数码本增益进行一次量化。如果以20毫秒为单位时间,则G.729A在帧中量化四个代数码本增益,而EVRC在帧中仅量化三个。因此,在G.729A语音编码被转换EVRC语音编码的情况下,不能把G.729A的所有代数码本增益转换为EVRC代数码本增益。因此,在第二实施例中,按照如图10所示的方法进行增益转换。具体地说,依据以下等式合成代数码本增益:
gc2(0)=gc1(0)
gc2(1)=[gc1(1)+gc(2)]/2
gc2(2)=gc1(3)
其中gc1(0)、gc1(1)、gc1(2)、gc1(3)表示G.729A中的两个相邻帧的代数码本增益。使用EVRC代数码本增益量化表对合成的代数码本增益gc2(k)(k=0、1、2)进行标量量化,并由此获得代数码本增益编码Gc2(m,k)。
依据第二实施例,在该量化参数区域中转换LSP编码、基音延迟编码,基音增益编码和代数码本增益编码。因此,与再现的语音再次经受LPC分析和基音分析的情况相比较,减小了分析误差而且能够进行声音质量退化较小的参数转换。此外,因为再现的语音不再经受LSP分析和基音分析,所以解决了现有技术1中由编码转换引起延迟的问题。
另一方面,对代数编码,根据再现的语音创建目标信号进行转换使相对于目标信号的误差最小。因此,即使在编码方案1和编码方案2的代数码本结构大为不同的情况下,也能够进行声音质量退化较小的编码转换。这是在现有技术2中产生的问题。
(D)第三实施例
图11是本发明第三实施例的语音编码转换装置的框图。第三实施例示出了把EVRC语音编码转换为G.729A语音编码的情况的示例。在图11中,把语音编码从EVRC编码器输入到速率判别单元201以判别EVRC的速率。由于指示全速率、半速率或者1/8速率的信息被包含在EVRC语音编码中,速率判别单元201使用该信息判别EVRC速率。速率判别单元201通过速率切换开关S1、S2,有选择地把EVRC语音编码分别输入到规定的用于全速率、半速率和1/8速率的语音编码转换器202、203、204,并且把从这些语音编码转换器中输出的G.729A语音编码发送到G.729A解码器。
用于全速率的语音编码转换器
图12是全速率语音编码转换器202的结构框图。由于EVRC的帧长度是20ms而G.729A的帧长度是10ms,所以EVRC的一帧(第m帧)的语音编码被转换为G.729A的两帧[第n和第(n+1)帧]的语音编码。
把第m帧的语音编码(信道数据)CODE1(m)从EVRC的编码器(未示出)经由一条传输路径输入到终端#1。编码分离器301从语音编码CODE1(m)中分离出LSP编码Lsp1(m)、基音延迟编码Lag1(m)、基音增益编码Gp1(m,k)、代数编码Cb1(m,k)和代数码本增益编码Gc1(m,k),并且把这些编码分别输入到逆量化器302、303、304、305和306。在此“k”表示EVRC中的子帧编号,并且为0、1或者2。
LSP逆量化器302获得2号子帧(No.2)中的LSP编码Lsp1(m)的逆量化值lsp1(m,2)。注意到,LSP逆量化器302使用与EVRC解码器的量化表相同的量化表。接下来,LSP逆量化器302使用在前一帧[第(m-1)帧]中类似获得的2号子帧的逆量化值lsp1(m-1,2)以及上述逆量化值lsp1(m,2),通过线性插值获得0、1号子帧的逆量化值lsp1(m,0)和lsp1(m,1),并且把1号子帧的逆量化值lsp1(m,1)输入到LSP量化器307。使用编码方案2(G.729A)的量化表,LSP量化器307对逆量化值lsp1(m,1)进行量化以获得编码方案2的LSP编码Lsp2(n),并且获得它的LSP逆量化值lsp2(n,1)。类似地,当LSP逆量化器302把2号子帧的逆量化值lsp1(m,2)输入到LSP量化器307时,后者获得编码方案2的LSP编码Lsp2(n+1),并且求出它的LSP逆量化值lsp2(n+1,1)。在此假定LSP逆量化器302具有与G.729A中相同的量化表。
接下来,LSP量化器307通过在前一帧[第(n-1)帧]中获得的逆量化值lsp2(n-1,1)和当前帧的逆量化值lsp2(n,1)之间进行线性插值,求出0号子帧的逆量化值lsp2(n,0)。此外,LSP量化器307通过在逆量化值lsp2(n,1)和逆量化值lsp2(n+1,1)之间进行线性插值,求出0号子帧的逆量化值lsp2(n+1,0)。这些逆量化值lsp2(n,j)被用在创建目标信号以及转换代数编码和增益编码中。
基音延迟逆量化器303获得2号子帧的基音延迟编码Lag1(m)的逆量化值Lag1(m,2),然后通过在逆量化值lag1(m,2)以及在第(m-1)帧中获得的2号子帧的逆量化值lag1(m-1,2)之间进行线性插值,获得0、1号子帧的逆量化值lag1(m,0)和lag1(m,1)。接下来,基音延迟逆量化器303把逆量化值lag1(m,1)输入到基音延迟量化器308。使用编码方案2(G.729A)中的量化表,基音延迟量化器308获得对应于逆量化值lag(m,1)的编码方案2的基音延迟编码Lag2(n),并且获得它的逆量化值lag2(n,1)。类似地,基音延迟逆量化器303把逆量化值lag1(m,2)输入到基音延迟量化器308,后者获得基音延迟编码Lag2(n+1),并且求出它的LSP逆量化值lag2(n+1,1)。在此假定基音延迟量化器308具有与G.729A相同的量化表。
接下来,基音延迟量化器308通过在前一帧[第(n-1)帧]中获得的逆量化值lag2(n-1,1)和当前帧的逆量化值lag2(n,1)之间进行线性插值,求出0号子帧0的逆量化值lag2(n,0)。此外,基音延迟量化器308通过在逆量化值lag2(n,1)和逆量化值lag2(n+1,1)之间进行线性插值,求出0号子帧的逆量化值lag2(n+1,0)。这些逆量化值lag2(n,j)被用在创建目标信号以及转换增益编码中。
基音增益逆量化器304获得EVRC的第m帧中的三个基音增益Gp1(m,k)(k=0,1,2)的逆量化值gp1(m,k),并且把这些逆量化值输入到基音增益插值器309。使用逆量化值gp1(m,k),基音增益插值器309通过插值依据下列等式获得编码方案2(G.729A)的基音增益逆量化值gp2(n,j)(j=0,1)、gp2(n+1,j)(j=0,1):
(1)gp2(n,0)=gp1(m,0)
(2)gp2(n,1)=[gp1(m,0)+gp1(m,1)]/2
(3)gp2(n+1,0)=[gp1(m,1)+gp1(m,2)]/2
(4)gp2(n+1,1)=gp1(m,2)
注意到,在转换增益编码时不直接需要基音增益逆量化值gp2(n,j),但是基音增益逆量化值gp2(n,j)被用于生成目标信号。
EVRC编码的每个逆量化值lsp1(m,k)、lag1(m,k)、gp1(m,k)、cb1(m,k)和gc1(m,k)被输入到语音再现单元310,由语音再现单元310创建第m帧中的总共160个采样的EVRC的再现语音SP(k,i),把这些重新生成的信号划分成两个G.729A语音信号Sp(n,h)、Sp(n+1,h),其中每个G.729A语音信号有80个采样,并且输出这些信号。创建再现语音的方法与EVRC解码器中的方法相同,并且是公知的;在此不再给出详细的说明。
目标生成器311的结构类似于第一实施例的目标生成器(参见图6)的结构,其创建由代数编码转换器312和代数码本增益转换器313使用的目标信号Target(n,h)、Target(n+1,h)。具体地说,目标生成器311首先获得对应于由基音延迟量化器308求出的基音延迟lag2(n,j)的自适应码本输出,并且把它与基音增益gp2(n,j)相乘以创建声源信号。接下来,目标生成器311把声源信号输入到由LSP逆量化值lsp2(n,j)构成的LPC合成滤波器,由此创建自适应码本合成信号syn(n,h)。然后,目标生成器311从由语音再现单元310创建的再现语音Sp(n,h)中减去自适应码本合成信号syn(n,h),由此获得目标信号Target(n,h)。类似地,目标生成器311创建第(n+1)帧的目标信号Target(n+1,h)。
具有与第一实施例的代数编码转换器(参见图7)类似结构的代数编码转换器312进行与G.729A的代数码本搜索完全相同的处理。首先,代数编码转换器312把通过组合如图18所示的脉冲位置和极性而生成的代数码本输出信号输入到由LSP逆量化值lsp2(n,j)构成的LPC合成滤波器,由此创建代数合成信号。接下来,代数编码转换器312计算代数合成信号和目标信号之间的互相关值Rcx、以及代数合成信号的自相关值Rcc,并且搜索用Rcc标准化Rcx的二次幂所获得的标准化互相关值Rcx Rcx/Rcc为最大的代数编码Cb2(n,j)。代数编码转换器312以类似的方式获得代数编码Cb2(n+1,j)。
增益转换器313使用目标信号Target(n,h)、基音延迟lag2(n,j)、代数编码Cb2(n,j)和LSP逆量化值lsp2(n,j)来进行增益转换。转换方法与G.729A编码器中进行的增益量化的方法相同。过程如下:
(1)从G.729A增益量化表中抽出一组表值(基音增益和代数码本增益的校正系数γ);
(2)把自适应码本输出乘以基音增益的表值,由此创建信号X;
(3)把代数码本输出乘以校正系数γ和增益预测值g’,由此创建信号Y;
(4)把通过将信号X和信号Y相加获得的信号输入到由LSP逆量化值lsp2(n,j)构成的LPC合成滤波器,由此创建合成信号Z;
(5)计算目标信号和合成信号Z之间的误差功率E;以及
(6)对增益量化表的所有表值应用(1)到(5)中的处理,确定使误差功率E最小的表值,并且把它的索引作为增益编码Gain2(n,j)。类似地,根据目标信号Target(n+1,h)、基音延迟lag2(n+1,j)、代数编码Cb2(n+1,j)和LSP逆量化值lsp2(n+1,j)求出增益编码Gain2(n+1,j)。
此后,编码多路复用器314多路复用LSP编码Lsp2(n)、基音延迟编码Lag2(n)、代数编码Cb2(n,j)和增益编码Gain2(n,j),并且输出第n帧的语音编码CODE2。此外,编码多路复用器314多路复用LSP编码Lsp2(n+1)、基音延迟编码Lag2(n+1)、代数编码Cb2(n+1,j)和增益编码Gain2(n+l,j),并且输出G.729A的第(n+1)帧的语音编码CODE2。
如上所述,根据第三实施例,EVRC(全速率)语音编码能够被转换为G.729A语音编码。
用于半速率的语音编码转换器
全速率编码器/解码器和半速率编码器/解码器的不同之处仅仅在于它们的量化表的大小不同,而在结构上基本相同。因此,也能以类似于上述全速率语音编码转换器202的方式来构造半速率语音编码转换器203,而且半速率语音编码能够以类似的方式被转换为G.729A语音编码。
用于1/8速率的语音编码转换器
图13是1/8速率语音编码转换器204的结构框图。1/8速率在无声区间、诸如无声部分或者背景噪音部分中使用。以1/8速率传输的信息由总共16位,即LSP编码(8位/帧)和增益编码(8位/帧)组成,而且由于声源信号是在编码器和解码器内随机生成的,所以不传输声源信号。
当EVRC(1/8速率)的第m帧的语音编码CODE1(m)被输入到图13中的编码分离器401时,后者分离出LSP编码Lsp1(m)和增益编码Gc1(m)。LSP逆量化器402和LSP量化器403以类似于图12所示的全速率情况的方式,把EVRC的LSP编码Lsp1(m)转换为G.729A的LSP编码Lsp2(n)。LSP逆量化器402获得LSP编码逆量化值Lsp1(m,k),LSP量化器403输出G.729A的LSP编码Lsp2(n),并且求出LSP编码的逆量化值lsp2(n,j)。
增益逆量化器404求出增益编码Gc1(m)的增益量化值gc1(m,k)。注意到:在1/8速率模式中仅使用对噪音性声源信号的增益;不使用对于周期性声源的增益(基音增益)。
在1/8速率的情况下,在编码器和解码器内随机生成声源信号来使用。因此,在用于1/8速率的语音编码转换器中,声源发生器405以类似于EVRC编码器和解码器的方式生成随机信号,调整这个随机信号使其振幅为高斯分布,然后把这个信号作为声源信号Cb1(m,k)输出,生成随机信号的方法和调整以获得高斯分布的方法类似于EVRC中使用的方法。
增益乘法器406把Cb1(m,k)和增益逆量化值gc1(m,k)相乘并且把该乘积输入到LPC合成滤波器407以创建目标信号Target(n,h)、Target(n+1,h)。该LPC合成滤波器407由LSP编码逆量化值lsp1(m,k)构成。
代数编码转换器408以类似于图12中的全速率情况下的方式,进行代数编码转换,并且输出G.729A的代数编码Cb2(n,j)。
由于EVRC的1/8速率在几乎不呈现周期性的、诸如无声或者噪音部分的无声区间中使用,所以不存在基音延迟编码。因此,用于G.729A的基音延迟编码由下列方法生成:1/8速率语音编码转换器204抽出通过全速率的基音延迟量化器308或者半速率语音编码转换器202或者203获得的G.729A基音延迟编码并且在基音延迟缓冲器409中存储该编码。如果在当前帧(第n个帧)中选择1/8速率,则输出基音延迟缓冲器409中的基音延迟编码Lag2(n,j)。而不改变保存在基音延迟缓冲器409中的内容。另一方面,如果在当前帧中没有选择1/8速率,则通过所选择的速率(全速率或者半速率)的语音编码转换器202或者203的基音延迟量化器308获得的G.729A基音延迟编码被保存在缓冲器409中。
增益转换器410以类似于图12中的全速率下的方式进行增益编码转换,并且输出增益编码Gc2(n,j)。
此后,编码多路复用器411多路复用LSP编码Lsp1(n)、基音延迟编码Lag2(n)、代数编码Cb2(n,j)和增益编码Gain2(n,j),并且输出G.729A的第n帧的语音编码CODE2(n+1)。
因此,如上所述,EVRC(1/8速率)语音编码能够被转换为G.729A语音编码。
(E)第四实施例
图14是依据本发明第四实施例的语音编码转换装置的框图。这个实施例能够处理产生信道错误的语音编码。图14中,与如图2所示的第一实施例的组件相同的组件用相同的标记字符标示。本实施例的不同之处在于:①提供了信道错误检测器501,以及②提供了LSP编码校正单元511、基音延迟校正单元512、增益编码校正单元513和代数编码校正单元514来替代LSP逆量化器102a、基音延迟逆量化器103a、增益逆量化器104a和代数增益量化器110。
当输入语音xin被施加到依据编码方案1(G.729A)的编码器500时,编码器500依据编码方案1生成语音编码sp1。语音编码sp1通过诸如无线信道或者有线信道(因特网等)的传输路径输入到语音编码转换装置中。如果在语音编码sp1被输入到语音编码转换装置之前产生了信道错误ERR,则语音编码sp1失真为包含信道错误的语音编码sp1’。信道错误ERR的类型取决于系统,而且错误具有诸如随机位错误和脉冲错误等各种类型。注意到:如果语音编码不包含错误,则sp1’和sp1完全相同。声音编码sp1’被输入到分离为LSP编码Lsp1(n)、基音延迟编码Lag1(n,j)、代数编码Cb1(n,j)和基音增益编码Gain1(n,j)的编码分离器101中。此外,语音编码sp1’被输入到通过公知的方法检测是否存在信道错误的信道错误检测器501中。例如,能够通过在该语音编码sp1中增加CRC编码来检测信道错误。
如果无错误LSP编码Lsp1(n)输入到LSP编码校正单元511,则后者通过进行类似于第一实施例中的LSP逆量化器102a所进行的处理输出LSP逆量化值lsp1。另一方面,如果由于信道错误或者帧丢失不能接收当前帧中的校正Lsp编码,则LSP编码校正单元511使用接收的最后四个Lsp编码帧,输出LSP逆量化值lsp1。
如果没有信道错误或者帧丢失,则基音延迟校正单元512输出接收的当前帧中的基音延迟编码的逆量化值Lag1。如果相反出现了信道错误或者帧丢失,则基音延迟校正单元512输出接收的最后的好帧的基音延迟编码的逆量化值。已经公知基音延迟通常在有声部分中平稳变化。因此,在有声部分中,即使以先前帧的基音延迟代替,声音质量也几乎不会下降。此外,已经公知基音延迟在无声部分中变化极大。然而,因为在无声部分中自适应码本的作用小(基音增益小),所以上述方法几乎不会导致的声音质量下降。
如果没有信道错误或者帧丢失,增益编码校正单元513以类似于第一实施例的方式,从接收的当前帧的增益编码Gain1(n,j)中获得基音增益gp1(j)和代数码本增益gc1(j)。另一方面,在信道错误或者帧丢失的情况下,不能使用当前帧的增益编码。因此,增益编码校正单元513依据下列等式衰减存储的前一个子帧的增益:
gp1(n,0)=α·gp1(n-1,1)
gp1(n,1)=α·gp1(n-1,0)
gc1(n,0)=β·gc1(n-1,1)
gc1(n,1)=β·gc1(n-1,0)
获得基音增益ge1(n,j)和代数码本增益gc1(n,j)并且输出这些增益。在此α,β表示小于1的常数。
如果没有信道错误或者帧丢失,代数编码校正单元514输出接收的当前帧的代数编码的逆量化值cbi(j)。如果有信道错误或者帧丢失,则代数编码校正单元514输出所存储的最后接收的好帧的代数编码的逆量化值。
因此,依据本发明,在量化参数区域中转换LSP编码、基音延迟编码和基音增益编码或者在量化参数区域中转换LSP编码、基音延迟编码、基音增益编码以及代数码本增益编码。因此,与再现的语音再次经受LPC分析和基音分析的情况相比,可以进行分析错误小和声音质量下降少的参数转换。
此外,依据本发明,再现的语音不再经受LPC分析和基音分析。这解决了现有技术1中的由编码转换导致延迟的问题。
依据本发明,根据再现的语音创建目标信号,对代数编码和代数码本增益编码进行转换使目标信号和代数合成信号之间的误差最小。因此,即使在编码方案1的代数码本结构大大不同于编码方案2的代数码本的情况下,也能够进行声音质量稍有下降的编码转换。这是不能在现有技术2中解决的问题。
此外,依据本发明,能够在G.729A编码方案和EVRC编码方案之间转换语音编码。
此外,依据本发明,如果没有出现传输路径错误,则使用分离出的正常编码分量来输出逆量化值。如果在该传输路径中出现了错误,则使用过去的正常编码分量来输出逆量化值。因此,减小了由信道错误引起的声音质量下降,并且能在转换之后提供优良的再现语音。
虽然在不背离本发明的精神和范围内,能够构造许多表面上完全不同的本发明实施例,但是应当理解,除了所附权利要求中定义的之外,本发明不局限于它的具体实施例。
Claims (5)
1.一种语音编码转换方法,用于把第一语音编码转换为基于第二语音编码方案的第二语音编码,其中该第一语音编码是依据基于第一语音编码方案的LSP编码、基音延迟编码、代数编码、和增益编码对语音信号进行编码而获得的,第一语音编码方案是G.729编码方案,第二语音编码方案是EVRC编码方案,该语音编码转换方法包括以下步骤:
逆量化第一语音编码的LSP编码、基音延迟编码、代数编码、和增益编码以获得逆量化值,并且根据第二语音编码方案量化LSP编码、基音延迟编码、和增益编码的这些逆量化值以求出第二语音编码的LSP编码、基音延迟编码、和基音增益编码;
通过把与第二语音编码方案的基音延迟编码的逆量化值对应的自适应码本输出信号与第二语音编码方案的基音增益编码的逆量化值相乘,然后将得到的信号输入到基于第二语音编码方案的LSP编码的逆量化值的LPC合成滤波器中来生成基音周期性合成信号;
使用基于第一语音编码方案的LSP编码、基音延迟编码、增益编码和代数编码的逆量化值来再现语音信号;
生成该再现语音信号和基音周期性合成信号之间的差信号作为目标信号;
使用第二语音编码方案中的任何代数编码以及构成第二语音编码的LSP编码的逆量化值,生成代数合成信号;
通过计算代数合成信号和目标信号之间的互相关值Rcx、以及该代数合成信号的自相关值Rcc,并搜索使通过用Rcc标准化Rcx的平方所获得的标准化互相关值最大的代数编码,求出使该目标信号和代数合成信号之间的差最小的、第二语音编码方案中的代数编码;
把与所求出的第二语音编码方案的代数编码对应的代数码本输出信号输入到基于第二语音编码方案的LSP编码的逆量化值的LPC合成滤波器中;
根据该LPC合成滤波器的输出信号和目标信号,求出代数码本增益;
量化该代数码本增益,以求出基于第二语音编码方案的代数码本增益;以及
输出第二语音编码方案中的LSP编码、基音延迟编码、代数编码、基音增益编码和代数码本增益编码。
2.如权利要求1所述的方法,其特征在于:进一步包括以下步骤:
检测是否出现传输路径错误;以及
如果没有出现传输路径错误,则使用被分离出的编码分量来输出逆量化值,如果出现了传输路径错误,则使用在传输路径错误出现之前最后接收的正常帧的编码分量来输出逆量化值。
3.一种语音编码转换方法,用于把基于第一语音编码方案的第一语音编码转换为第二语音编码,其中第二语音编码是依据基于第二语音编码方案的LSP编码、基音延迟编码、代数编码、和增益编码对语音信号进行编码获得的,第一语音编码方案是EVRC编码方案,第二语音编码方案是G.729编码方案,该语音编码转换方法包括下列步骤:
逆量化第一语音编码的LSP编码、基音延迟编码、代数编码、基音增益编码和代数码本增益编码以获得逆量化值,根据第二语音编码方案量化这些逆量化值中的LSP编码和基音延迟编码的逆量化值,求出第二语音编码的LSP编码和基音延迟编码;
通过使用第一语音编码的基音增益编码的逆量化基音增益进行插值处理,求出第二语音编码的增益编码的逆量化基音增益;
通过把与第二语音编码方案的基音延迟编码的逆量化值对应的自适应码本输出信号与第二语音编码方案的增益编码的逆量化基音增益相乘,然后将得到的信号输入到基于第二语音编码方案的LSP编码的逆量化值的LPC合成滤波器中来生成基音周期性合成信号;
使用基于第一语音编码方案的LSP编码、基音延迟编码、代数编码、基音增益编码和代数码本增益编码的逆量化值来再现语音信号;
生成该再现语音信号和基音周期性合成信号之间的差信号作为目标信号;
使用第二语音编码方案的任何代数编码以及第二语音编码的LSP编码的逆量化值,生成代数合成信号;
通过计算代数合成信号和目标信号之间的互相关值Rcx、以及该代数合成信号的自相关值Rcc,并搜索使通过用Rcc标准化Rcx的平方所获得的标准化互相关值最大的代数编码,求出使该目标信号和代数合成信号之间的差最小的、第二语音编码方案的代数编码;
通过使用第二语音编码的LSP编码和基音延迟编码的逆量化值、求出的代数编码以及目标信号,依据第二语音编码方案,求出作为基音增益和代数码本增益的组合的、第二语音编码的增益编码;以及
输出所求出的第二语音编码方案的LSP编码、基音延迟编码、代数编码和增益编码。
4.一种语音编码转换装置,用于把第一语音编码转换为基于第二语音编码方案的第二语音编码,其中该第一语音编码是依据基于第一语音编码方案的LSP编码、基音延迟编码、代数编码、和增益编码对语音信号进行编码而获得的,第一语音编码方案是G.729编码方案,第二语音编码方案是EVRC编码方案,语音编码转换装置包括:
转换器,用于逆量化第一语音编码的LSP编码、基音延迟编码、代数编码、和增益编码以获得逆量化值,并且根据第二语音编码方案量化LSP编码、基音延迟编码、和增益编码的这些逆量化值,以求出第二语音编码的LSP编码、基音延迟编码、和基音增益编码;
基音周期性合成信号生成单元,用于通过把与第二语音编码方案的基音延迟编码的逆量化值对应的自适应码本输出信号与第二语音编码方案的基音增益编码的逆量化值相乘,然后将得到的信号输入到基于第二语音编码方案的LSP编码的逆量化值的LPC合成滤波器中来生成基音周期性合成信号;
语音再现单元,用于使用基于第一语音编码方案的LSP编码、基音延迟编码、增益编码和代数编码的逆量化值来再现语音信号;
目标信号生成单元,用于生成该再现的语音信号和该基音周期性合成信号之间的差信号作为目标信号;
代数合成信号生成单元,用于使用第二语音编码方案中的任何代数编码以及构成第二语音编码的LSP编码的逆量化值,生成代数合成信号;
代数编码获得单元,用于通过计算代数合成信号和目标信号之间的互相关值Rcx、以及该代数合成信号的自相关值Rcc,并搜索使通过用Rcc标准化Rcx的平方所获得的标准化互相关值最大的代数编码,求出使目标信号和代数合成信号之间的差最小的、第二语音编码方案的代数编码;
LPC合成滤波器,其是基于第二语音编码方案的LSP编码的逆量化值创建的;
代数码本增益确定单元,用于根据目标信号、把与所求出的代数编码对应的代数码本输出信号输入到所述LPC合成滤波器时从所述LPC合成滤波器获得的输出信号,来确定代数码本增益;
代数码本增益编码生成器,用于量化代数码本增益,以生成基于第二语音编码方案的代数码本增益;以及
编码多路复用器,用于多路复用并输出所求出的第二语音编码方案的LSP编码、基音延迟编码、代数编码、基音增益编码和代数码本增益编码。
5.一种语音编码转换装置,用于把基于第一语音编码方案的第一语音编码转换为第二语音编码,其中该第二语音编码是依据基于第二语音编码方案的LSP编码、基音延迟编码、代数编码、和增益编码对语音信号进行编码而获得的,第一语音编码方案是EVRC编码方案,第二语音编码方案是G.729编码方案,该语音编码转换装置包括:
转换器,用于逆量化第一语音编码的LSP编码、基音延迟编码、代数编码、基音增益编码和代数码本增益编码以获得逆量化值,根据第二语音编码方案对这些逆量化值中的LSP编码和基音延迟编码的逆量化值进行量化,以求出第二语音编码中的LSP编码和基音延迟编码;
基音增益插值器,用于使用第一语音编码的基音增益编码的逆量化基音增益,通过插值处理,生成第二语音编码的增益编码的逆量化基音增益;
基音周期性合成信号生成单元,通过把与第二语音编码方案的基音延迟编码的逆量化值对应的自适应码本输出信号与第二语音编码方案的增益编码的逆量化基音增益相乘,然后将得到的信号输入到基于第二语音编码方案的LSP编码的逆量化值的LPC合成滤波器中来生成基音周期性合成信号;
语音信号再现单元,用于使用基于第一语音编码方案的LSP编码、基音延迟编码、代数编码、基音增益编码和代数码本增益编码的逆量化值来再现语音信号;
目标信号生成单元,用于生成该再现语音信号和该基音周期性合成信号之间的差信号作为目标信号;
代数合成信号生成单元,用于使用第二语音编码方案的任何代数编码以及第二语音编码方案中的LSP编码的逆量化值生成代数合成信号;
代数编码获得单元,用于通过计算代数合成信号和目标信号之间的互相关值Rcx、以及该代数合成信号的自相关值Rcc,并搜索使通过用Rcc标准化Rcx的平方所获得的标准化互相关值最大的代数编码,求出使目标信号和代数合成信号之间的差最小的、第二语音编码方案的代数编码;
增益编码获得单元,用于通过使用第二语音编码的LSP编码和基音延迟编码的逆量化值、求出的代数编码以及目标信号,根据第二语音编码方案,获得作为基音增益和代数码本增益的组合的、第二语音编码的增益编码;以及
编码多路复用器,用于多路复用并输出所求出的第二语音编码方案的LSP编码、基音延迟编码、代数编码和增益编码。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002019454A JP4263412B2 (ja) | 2002-01-29 | 2002-01-29 | 音声符号変換方法 |
JP019454/2002 | 2002-01-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1435817A CN1435817A (zh) | 2003-08-13 |
CN1248195C true CN1248195C (zh) | 2006-03-29 |
Family
ID=27606241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB031020232A Expired - Fee Related CN1248195C (zh) | 2002-01-29 | 2003-01-24 | 语音编码转换方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7590532B2 (zh) |
JP (1) | JP4263412B2 (zh) |
CN (1) | CN1248195C (zh) |
Families Citing this family (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002202799A (ja) * | 2000-10-30 | 2002-07-19 | Fujitsu Ltd | 音声符号変換装置 |
US7154848B2 (en) * | 2002-05-29 | 2006-12-26 | General Dynamics Corporation | Methods and apparatus for generating a multiplexed communication signal |
CN100407292C (zh) * | 2003-08-20 | 2008-07-30 | 华为技术有限公司 | 一种相异语音协议间语音编码的转换方法 |
ES2337903T3 (es) * | 2003-10-13 | 2010-04-30 | Koninklijke Philips Electronics N.V. | Codificacion de audio. |
FR2880724A1 (fr) * | 2005-01-11 | 2006-07-14 | France Telecom | Procede et dispositif de codage optimise entre deux modeles de prediction a long terme |
US20070160154A1 (en) * | 2005-03-28 | 2007-07-12 | Sukkar Rafid A | Method and apparatus for injecting comfort noise in a communications signal |
FR2884989A1 (fr) * | 2005-04-26 | 2006-10-27 | France Telecom | Procede d'adaptation pour une interoperabilite entre modeles de correlation a court terme de signaux numeriques. |
US8174989B2 (en) * | 2006-03-28 | 2012-05-08 | International Business Machines Corporation | Method and apparatus for cost-effective design of large-scale sensor networks |
US7805292B2 (en) * | 2006-04-21 | 2010-09-28 | Dilithium Holdings, Inc. | Method and apparatus for audio transcoding |
US8255213B2 (en) | 2006-07-12 | 2012-08-28 | Panasonic Corporation | Speech decoding apparatus, speech encoding apparatus, and lost frame concealment method |
EP1903559A1 (en) | 2006-09-20 | 2008-03-26 | Deutsche Thomson-Brandt Gmbh | Method and device for transcoding audio signals |
DE102006051673A1 (de) * | 2006-11-02 | 2008-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Nachbearbeiten von Spektralwerten und Encodierer und Decodierer für Audiosignale |
EP2159790B1 (en) * | 2007-06-27 | 2019-11-13 | NEC Corporation | Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system |
JP5012897B2 (ja) * | 2007-07-09 | 2012-08-29 | 日本電気株式会社 | 音声パケット受信装置、音声パケット受信方法、およびプログラム |
US20100280833A1 (en) * | 2007-12-27 | 2010-11-04 | Panasonic Corporation | Encoding device, decoding device, and method thereof |
ES2650492T3 (es) | 2008-07-10 | 2018-01-18 | Voiceage Corporation | Dispositivo y método de cuantificación de filtro LPC de múltiples referencias |
CN101959255B (zh) * | 2009-07-16 | 2013-06-05 | 中兴通讯股份有限公司 | 一种调整语音编码器速率的方法、系统及装置 |
GB2489473B (en) * | 2011-03-29 | 2013-09-18 | Toshiba Res Europ Ltd | A voice conversion method and system |
CN104685562B (zh) * | 2012-11-21 | 2017-10-17 | 华为技术有限公司 | 用于从嘈杂输入信号中重构目标信号的方法和设备 |
PL3385948T3 (pl) * | 2014-03-24 | 2020-01-31 | Nippon Telegraph And Telephone Corporation | Sposób kodowania, koder, program i nośnik zapisu |
CN111201565B (zh) * | 2017-05-24 | 2024-08-16 | 调节股份有限公司 | 用于声对声转换的系统和方法 |
WO2021030759A1 (en) | 2019-08-14 | 2021-02-18 | Modulate, Inc. | Generation and detection of watermark for real-time voice conversion |
US11996117B2 (en) | 2020-10-08 | 2024-05-28 | Modulate, Inc. | Multi-stage adaptive system for content moderation |
CN113450809B (zh) * | 2021-08-30 | 2021-11-30 | 北京百瑞互联技术有限公司 | 语音数据处理方法、系统及介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61180299A (ja) * | 1985-02-06 | 1986-08-12 | 日本電気株式会社 | コ−デツク変換装置 |
NZ263588A (en) * | 1993-03-26 | 1997-07-27 | British Telecomm | Video data stream transcoding |
JPH08146997A (ja) * | 1994-11-21 | 1996-06-07 | Hitachi Ltd | 符号変換装置および符号変換システム |
JP3308764B2 (ja) * | 1995-05-31 | 2002-07-29 | 日本電気株式会社 | 音声符号化装置 |
JP3842432B2 (ja) * | 1998-04-20 | 2006-11-08 | 株式会社東芝 | ベクトル量子化方法 |
TW390082B (en) * | 1998-05-26 | 2000-05-11 | Koninkl Philips Electronics Nv | Transmission system with adaptive channel encoder and decoder |
JP3487250B2 (ja) * | 2000-02-28 | 2004-01-13 | 日本電気株式会社 | 符号化音声信号形式変換装置 |
JP2002202799A (ja) * | 2000-10-30 | 2002-07-19 | Fujitsu Ltd | 音声符号変換装置 |
JP4518714B2 (ja) * | 2001-08-31 | 2010-08-04 | 富士通株式会社 | 音声符号変換方法 |
-
2002
- 2002-01-29 JP JP2002019454A patent/JP4263412B2/ja not_active Expired - Fee Related
- 2002-12-02 US US10/307,869 patent/US7590532B2/en not_active Expired - Fee Related
-
2003
- 2003-01-24 CN CNB031020232A patent/CN1248195C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US7590532B2 (en) | 2009-09-15 |
US20030142699A1 (en) | 2003-07-31 |
JP4263412B2 (ja) | 2009-05-13 |
CN1435817A (zh) | 2003-08-13 |
JP2003223189A (ja) | 2003-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1248195C (zh) | 语音编码转换方法和装置 | |
CN1165892C (zh) | 对宽带信号进行解码时的周期性增强的方法和设备 | |
CN100338648C (zh) | 在基于线性预测的语音编码解码器中有效帧删除隐藏的方法和器件 | |
CN1229775C (zh) | 宽带语音和音频信号解码器中的增益平滑 | |
CN1240049C (zh) | 语音编码系统 | |
CN1296888C (zh) | 音频编码装置以及音频编码方法 | |
CN1200403C (zh) | 线性预测编码参数的矢量量化装置 | |
CN1172294C (zh) | 音频编码装置、音频编码方法、音频解码装置及音频解码方法 | |
CN1324558C (zh) | 编码设备,解码设备以及音频数据分配系统 | |
CN1119796C (zh) | 可变速率声码器 | |
CN1252681C (zh) | 一种码激励线性预测语音编码器的增益量化 | |
CN1267891C (zh) | 处理丢失帧的语音通信系统及方法 | |
CN1163870C (zh) | 声音编码装置和方法,声音译码装置,以及声音译码方法 | |
CN1703737A (zh) | 在自适应多速率宽带(amr-wb)和多模式可变比特率宽带(vmr-wb)编解码器之间互操作的方法 | |
CN101048649A (zh) | 可扩展解码装置及可扩展编码装置 | |
CN1185620C (zh) | 声音合成装置和方法以及电话装置 | |
CN1922660A (zh) | 通信装置和信号编码/解码方法 | |
CN1140362A (zh) | 编码器 | |
CN1171396C (zh) | 语音声音通信系统 | |
CN101046963A (zh) | 多声道数字音频编码设备及其方法 | |
CN1977311A (zh) | 语音编码装置、语音解码装置及其方法 | |
CN1890713A (zh) | 用于数字信号压缩编码的多脉冲字典的索引间的编码转换 | |
CN1437169A (zh) | 对于语音代码进行数据嵌入/抽取方法、装置以及系统 | |
CN1135530C (zh) | 声音编码装置和声音译码装置 | |
CN1947173A (zh) | 分层编码装置及分层编码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20060329 Termination date: 20190124 |
|
CF01 | Termination of patent right due to non-payment of annual fee |