CN100380443C

CN100380443C - 音调原型波形借助于时间同步波形内插的语音合成

Info

Publication number: CN100380443C
Application number: CNB99815489XA
Authority: CN
Inventors: A·达斯; E·L·T·乔依
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 1998-11-13
Filing date: 1999-11-12
Publication date: 2008-04-09
Anticipated expiration: 2019-11-12
Also published as: KR100603167B1; HK1043856A1; HK1043856B; JP2003501675A; JP4489959B2; EP1131816B1; KR20010087391A; US20010051873A1; WO2000030073A1; DE69924280D1; DE69924280T2; AU1721100A; EP1131816A1; CN1348582A; US6754630B2

Abstract

一种用音调原型波形借助于时间同步波形内插(TSWI)的语音合成方法，其中从一语音信号当中提取至少一个音调原型。该提取处理执行时使原型在边界处有最小能量。各个原型循环移位以便与原始信号在时间上同步。对各个所提取的原型加上相对于前一次提取的原型的线性相移，以使相继的所提取原型间的跨接相关性最大。通过对每个取样点的原型进行过取样来构建一二维原型展开表面。对该二维原型展开表而重新取样以生成一个一维经过合成的信号帧，所具有的取样点由逐段连续立方相位轮廓函数定义。可用一预选滤波器来判断是否对当前帧放弃TSWI技术而采用另一算法。将获得的选择后性能测定结果与一预定阈值相比较，判断该TSWI算法是否充分执行。

Description

音调原型波形借助于时间同步波形内插的语音合成

发明背景

I.发明领域

本发明总体涉及语音处理领域，具体来说，涉及一种音调原型波形借助于时间同步波形内插(TSWI)的语音合成方法和装置。

II.技术背景

利用数字技术进行的话音传输业已得到推广，尤其在长距离数字无线电话应用中更是如此。这进而在维持所觉察的重建语音质量的同时确定可在一个信道上发送的最低信息量方面产生兴趣。若语音通过简单的取样和数字化发送，便需要64千位/秒(kbps)量级的数据速率来实现现有模拟电话的语音质量。但通过利用语音合成，并接着进行相应的编解码、传输以及接收机处的重新合成，可实现数据速率显著的缩减。

采用提取涉及人类语音生成模型的参数的技术来压缩语音的器件便是所说的语音编解码器。语音编解码器将来向语音信号分成时间块或分析帧。语音编解码器通常包括一编码器和一解码器，或一编码解码器。该编码器分析该来向语音帧以提取某种相关参数，接着将参数量化为二进制表现形式，即一组数字位或一二进制数据分组。该数据分组经通信信道发送给一接收机和一解码器。该解码器处理此数据分组，对它们去量化以生成参数，接着利用去量化的参数重新合成该语音帧。

语音编解码器的功能是通过消除语音中固有的全部自然冗余，将经过数字化的语音信号压缩为一低位速率信号。该数字压缩是通过用一组参数代表所输入语音帧并采用量化而用一组数字位代表该参数来实现的。若所输入语音帧具有的数字位位数为Ni，语音编解码器所生成的数据分组具有的数字位位数为No，该语音编解码器所实现的压缩因数便为Cr＝Ni/No。挑战在于在实现目标压缩因数的同时保持所解码语音的高话音质量。语音编解码器的性能取决于(1)语音模型或者上面所述分析和合成处理的组合表现如何，以及(2)在每帧No位的目标位速率下参数量化处理表现如何。语音模型的目标因而是以每一帧一小组参数来俘获语音信号要素或目标话音质量。

语音编解码器，若其模型为一时间域模型，便称为一时域编解码器。一公知的例子是L.B.Rabiner和R.W.Schafer所编著的“Digital Processing of SpeechSignals”一书396-453(1978)中说明的码激活线性预测(CELP)编解码器，在此全部结合作为参照。一CELP编解码器中，靠找出短期共振峰滤波器系数的线性预测(LP)分析来消除语音信号中的短期相关性或冗余。将短期预测滤波器应用到来向语音帧，生成的是一LP余量信号，它进一步用长期预测滤波器参数和后续随机码簿来使之模型化和量化。这样，CELP编解码器便将时域语音波形的编码任务分成对LP短期滤波器系数进行编码和对LP余量进行编码的诸多分开任务。目标在于生成一种与所输入语音波形非常相像的经过合成的输出语音波形。要正确保存该时域波形，CELP编解码器进一步将该余量帧分成较小块或分帧，并对各个分帧继续分析-合成方法。这需要每一帧大的数字位数目No，因为有许多参数对每一分帧进行量化。每一帧可用的数字位数目No对于8kbps以上编解码位速率来说足够大时，CELP编解码器通常传递的质量便十分出色。

波形内插(WI)是一种显现的语音编解码技术，其中对每一语音帧用可资利用的数字位对M数目的原型波形加以提取和编码。所输出的语音是靠某些现有波形内插技术根据所解码的原型波形经过合成得到的。各种WI技术在W.Bastiaan Kleijn和Jesper Haagen所著的“Speech Coding and Synthesis”一书176-205(1995)中有所说明，在此全部结合作为参照。现有的WI技术还在美国专利U.S.Pat.No.：5,517,595中有所说明，在此全部结合作为参照。但这种现有WI技术中，为了要传递正确结果，需要每一帧提取超过一个原型波形。而且，不存在对所重组波形提供时间同步的机制。由于这种原因，所合成的输出WI波形并不保证与原始的输入波形调准。

目前有一股研究兴趣和强烈的商业需求浪潮来开发一种工作于中、低位速率(即在2.4至4kbps甚至更低范围)的高质量语音编解码器。应用领域包括无线电话、卫星通信、互联网电话、种种多媒体以及话音流应用、话音邮件以及其他话音存储系统。驱动力是对高容量的需求和在分组丢失情形下对稳健性能的需要。近来种种语音编解码标准化努力是推进低速率语音编解码算法研发的另一直接驱动力。低速率语音编解码器对每一允许的应用带宽创造出更多信道或用户，与适当的信道编解码的附加层相耦连的低速率语音编解码器可适应编解码器规范中的全部位预算，并在信道差错状况下给予一稳健性能。

但在低速率(4kbps甚至更低)情况下，诸如CELP编解码器这种时域编解码器由于有限数目的可资利用数字位而未能保留高质量和稳健性能。在低位速率情况下，该有限的码簿空间夹带有已相当成功地配置在较高速率商业应用中的现有时域编解码器的波形比对能力。

在低位速率高效地进行语音编码的一种高效技术是多模式编解码。多模式编解码器将不同模式或编码-解码算法应用于不同类型的输入语音帧。每一模式或编码-解码处理定制为以最高效方式表现某种类型的语音分段(即带有话音、无话音、或背景噪声)。一外部模式判定机制对所输入的语音帧进行检查，并判定哪一模式适用于该语音帧。通常，这种模式判定是这样来完成的，即按开环方式通过从所输入帧当中提取若干参数并对它们进行评估以判定哪一模式适用。这样，完成该模式判定时预先并不知道所输出语音的实际状况，即不知道所输出语音按话音质量或任何其他性能量度来说将会与所输入语音相似到何种程度。一语音编解码器的示范性开环模式判定在转让给本发明受让人、并在此全部结合作为参照的美国专利U.S.Pat.No.：5,414,796中有所说明。

多模式编解码可以是每一帧采用相同位数No的固定速率，或者是对不同模式采用不同位速率的可变速率。可变速率编解码的目标是仅采用将编码解码器参数编码到足以获得目标质量的水平上所需的数字位数量。结果是，采用可变位速率(VBR)技术在一显著较低的平均速率上可获得与固定速率相同的目标话音质量、更高速率的编解码器。一示范性可变速率语音编解码器在转让给本发明受让人、并且先前在此全部结合作为参照的美国专利U.S.Pat.No.：5,414,796中有所说明。

带话音的语音分段视为准周期性，其中这种分段可分解为诸多音调原型，或者是其长度L(n)象音调或周期性基频随时间变化那样随时间变化的小分段，或者是具有强相关度即它们彼此极为相似的音调原型。这尤其对相邻音调原型来说是真实的。这有利于设计在低平均速率提供高话音质量以便用低速率模式来表现准周期性带话音的语音分段的高效多模式VBR编解码器。

希望能提供一种表现语音带有准周期性话音的分段的语音模型或分析-合成方法。还会有利于设计一种提供高质量合成从而生成具有高话音质量的语音的模型。还会希望该模型具有一小组参数以便适应用一小组数字位进行编码。这样，便需求一种需要最小编码位数量来产生高质量语音合成的带话音语音分段的时间同步波形内插方法。

发明概述

本发明涉及一种需要最小编码位数量来产生高质量语音合成的带话音语音分段的时间同步波形内插方法。因而，本发明的一个方面，是一种用音调原型波形借助于时间同步波形内插的语音合成方法，较为有利地包括下列步骤：从一信号当中每一帧提取至少一个音调原型；对所提取的音调原型加上一相对于前一次提取的音调原型的相移；就该帧内每一取样点对音调原型进行过取样(upsample)；构建一个二维原型展开表面；以及对二维表面重新取样以产生一维合成的信号帧，该重新取样点由逐段连续立方相位轮廓函数(cubic phase contour function)定义，该相位轮廓函数是根据音调滞后和加到所提取的音调原型上的调准相移计算得到的。

本发明另一方面，是一种用音调原型波形借助于时间同步波形内插的语音合成装置，较为有利地包括：从一信号当中每一帧提取至少一个音调原型的装置；对所提取的音调原型加上一相对于前一次提取的音调原型的相移的装置；就该帧内每一取样点对音调原型进行过取样的装置；构建一个二维原型展开表面的装置；以及对二维表面重新取样以产生一维合成的信号帧的装置，该重新取样点由逐段连续立方相位轮廓函数定义，该相位轮廓函数是根据音调滞后和加到所提取的音调原型上的调准相移计算得到的。

本发明另一方面，是一种用音调原型波形借助于时间同步波形内插的语音合成装置，较为有利地包括：配置为从一信号当中每一帧提取至少一个音调原型的模块；配置为对所提取的音调原型加上一相对于前一次提取的音调原型的相移的模块；配置为就该帧内每一取样点对音调原型进行过取样的模块；配置为构建一个二维原型展开表面的模块；以及配置为对二维表面重新取样以产生一维合成的信号帧的模块，该重新取样点由逐段连续立方相位轮廓函数定义，该相位轮廓函数是根据音调滞后和加到所提取的音调原型上的调准相移计算得到的。

附图简要说明

图1是语音编解码器在各端形成终端的通信信道的框图。

图2是一编码器的框图。

图3是一解码器的框图。

图4A-4C分别是信号幅度与离散时间指数之间关系的曲线图，所提取的原型幅度与离散时间指数之间关系的曲线图，以及TSWI重建信号幅度与离散时间指数之间关系的曲线图。

图5是示意一音调原型波形借助于时间同步波形内插(TSWI)的语音合成装置的功能框图。

图6A是所遮蔽的立方相位轮廓与离散时间指数之间关系的曲线图，而图6B则是所重建语音信号幅度与图6A中所重叠曲线图之间关系的曲线图。

图7是未遮蔽的二次及立方相位轮廓与离散时间指数之间关系的曲线图。

较佳实施例的详细说明

图1中，第一编码器10接收经数字化的语音取样s(n)，并对取样s(n)编码以便在传输介质12或通信链路12上传输至第一解码器14。解码器14对经过编码的语音取样进行解码，并合成一输出语音信号S_SYNTH(n)。为了在相反方向上传输，第二编码器16对通信信道18上发送的经过数字化的语音取样s(n)进行编码。第二解码器20对经过编码的语音取样进行接收和解码，生成一合成的输出语音信号S_SYNTH(n)。

语音取样s(n)表示那些已按照包括例如脉冲码调制(PCM)、经压扩μ律或A律在内的本领域公知的某些不同方法经过数字化和量化的语音信号。如本领域所知，语音取样s(n)组成为输入数据帧，其中各帧包括一预定数目的数字化语音取样s(n)。一示范性实施例中，采用的是8kHz的取样速率，每一20ms的帧包括160个取样。下面说明的实施例中，数据传输速率可较为有利地以逐帧方式从8kbps(全速率)变化为4kbps(半速率)再变化为2kbps(四分速率)最后变化为1kbps(八分速率)。使数据传输速率变化较为有利，这是因为可对包含相对较少语音信息的各帧有选择地采用较低位速率。如本领域技术人员所理解的那样，可采用其他取样速率、帧大小以及数据传输速率。

第一编码器10和第二解码器20一起包括第一语音编解码器或语音编码解码器。同样，第二编码器16和第一解码器14一起包括第二语音编解码器。本领域技术人员可理解，语音编解码器可由数字信号处理器(DSP)、专用集成电路(ASIC)、分立门逻辑、固件、或任何现有可编程软件模块和微处理器来实施。软件模块可驻留于RAM存储器、快闪存储器、寄存器、或本领域已知的任何其他形式的可写入存储介质。要么对微处理器可用任何现有的处理器、控制器或状态机来替代。转让给本发明受让人并在此全部结合作为参照的美国专利U.S.Pat.No.：5,727,123和转让给本发明受让人并在此全部结合作为参照、于1994年2月16日申请的发明名称为《声码器专用集成电路(ASIC)》的美国专利申请U.S.Ser.No.：08/197,417中说明了专门设计用于语音编解码的示范性ASIC。

图2中可用于语音编解码器的编码器100包括一模式判定模块102、音调估计模块104、LP分析模块106、LP分析滤波器108、LP量化模块110以及余量量化模块112。输入语音帧s(n)提供给模式判定模块102、音调估计模块104、LP分析模块106以及LP分析滤波器108。模式判定模块102根据各个输入语音帧s(n)的周期性生成一模式指数I_M和一模式M。转让给本发明受让人并在此全部结合作为参照、于1997年3月11日申请的发明名称为《执行减速率可变速率声码变换的方法和装置》的美国专利申请U.S.Ser.No.：08/815,354中说明了根据周期性对语音帧分类的种种方法。这些方法还结合进电信业协会业界过渡标准TIA/EIA IS-127和TIA/EIA IS-733。

音调估计模块104根据各个输入语音帧s(n)生成音调指数I_P和滞后值P₀。LP分析模块106对各个输入语音帧s(n)执行线性预测分析来生成一LP参数α。该LP参数α提供给LP量化模块110。该LP量化模块110还接收模式M。LP量化模块110生成一LP指数I_LP和一经过量化的LP参数α。LP分析滤波器108除了所输入的语音帧s(n)以外还接收经过量化的LP参数α。LP分析滤波器108生成一LP余量信号R[n]，它表示所输入的语音帧s(n)和经过量化的线性预测参数α间的误差。LP余量R[n]、模式M以及经过量化的LP参数α提供给余量量化模块112。余量量化模块112根据上述数值生成一余量指数I_R和一经过量化的余量信号R[n]。

图3中，可用于语音编解码器中的解码器200包括一LP参数解码模块202、余量解码模块204、模式解码模块206以及LP合成滤波器208。模式解码模块206对模式指数I_M进行接收和解码，由此生成一模式M。该LP参数解码模块202接收该模式M和一LP指数I_LP。LP参数解码模块202对所接收的数值进行解码以生成一经过量化的LP参数α。余量解码模块204接收余量指数I_R、音调指数I_P以及模式指数I_M。余量解码模块204对所接收的数值进行解码以生成一经过量化的余量信号R[n]。该经过量化的余量信号R[n]和经过量化的LP参数α提供给LP合成滤波器208，由此合成一经过解码的输出语音信号s[n]。

图2中编码器100和图3中解码器的种种模块其工作原理和实施方案在本技术领域中是公知的。一示范性编码器和示范性解码器在前文全部结合作为参照的美国专利U.S.Pat.No.：5,414,796中有所说明。

某一实施例中，通过从当前语音帧Scur当中提取音调原型波形，并借助于时间同步波形内插(TSWI)由音调原型波形合成当前语音帧，来使语音准周期性带话音分段建模。通过对m＝1，2，…，M仅提取和保留数目M个音调原型波形Wm，且各个音调原型波形Wm具有长度Lcur，其中Lcur是当前语音帧Scur当中的当前音调周期，必须编码的信息量便从N个取样减少到M和Lcur乘积个数的取样。可以给定数目M为1的数值，或给定基于音调滞后的任意离散值。对较小的Lcur数值往往需要一较高的M数值，以防止重建的带话音信号过度断续。一示范性实施例中，若音调滞后大于60，M则设定为等于1。否则，M设定为等于2。M个当前原型和距前一帧具有长度L₀的最末音调原型W₀，通过采用下面详细说明的TSWI技术用来重建当前语音帧的模型代表Scur_model。应注意，作为对选择具有相同长度Lcur的当前原型Wm的替代，当前原型Wm可代之于具有长度Lm，其中局部音调周期Lm可通过估计有关的离散时间位置nm处的真实音调周期或通过在当前音调周期Lcur和最末音调周期L₀之间应用任意的现有内插技术来估计。所用的内插技术可以是例如简单的线性内插：

L_m＝(1-n_m/N)*L₀+(n_m/N)*L_cur

其中时间指数n_m是第m分段的中点，m＝1，2，…，M。

图4A-4C曲线图中示出了上述关系。图4A中，示出了信号幅度与离散时间指数(即取样数)之间的关系，帧长度N表示每一帧取样数目。实施例中示出的N为160。还示出数值Lcur(帧中当前音调周期)和L₀(前一帧当中的最末音调周期)。应指出，信号幅度根据需要可以是语音信号幅度或余量信号幅度。图4B中，示出了在M＝1情形下原型幅度与离散时间指数之间的关系，并给出数值Wcur(当前原型)和W₀(前一帧的最末原型)。图4C曲线图示出重建信号Scur_model在TSWI合成后的幅度与离散时间指数之间的关系。

将上述内插公式中的中点nm较为有利地选择为相邻中点间的距离几乎相同。举例来说，M＝3，N＝160，L₀＝40以及Lcur＝42，得出n₀＝-20，n₃＝139，因而n₁＝33和n₂＝86，相邻分段间的距离为[139-(-20)/3]或53。

通过拾取当前帧的最末Lcur取样来提取当前帧W_M的最末原型。通过拾取中点nm周围的(Lm)/2取样来提取其他中间原型Wm。

可通过允许各个原型Wm的动态偏移Dm来进一步改善原型提取，以便可从{nm-0.5*Lm-Dm，nm+0.5*Lm+Dm}范围内拾取任意Lm取样来构成原型。希望在原型边界处避免高能量分段。数值Dm可随m变化，或对每一原型固定。

应指出，非零的动态偏移Dm必然会破坏所提取的原型Wm和原始信号之间的时间同步。该问题的一个简单解决方案是对原型Wm应用一循环偏移，来调整该动态偏移引入的偏置。举例来说，当动态偏移设定为零时，便在时间指数n＝100处开始原型提取。而当适用Dm时，则在n＝98处开始原型提取。为了保持该原型和原始信号之间的时间同步，该原型可在提取该原型后向右循环偏移2个取样(即100-98个取样)。

为了避免帧边界处不匹配，重要的是保持所合成语音的时间同步。因而，希望靠分析-合成处理所合成的语音应与输入语音很好地调准。某一实施例中，通过如下面所述明确控制相轨迹的边界值来实现上述目标。而且时间同步对于其中某一模式可以是CELP而另一模式可以是基于原型的分析-合成这种基于线性预测的多模式语音编解码器尤其关键。对靠CELP来编解码的帧来说，若在未时间调准或时间同步的情况下靠基于原型的方法对在先帧编解码的话，便无法利用CELP的分析-合成波形匹配动力。以往波形中所发生的任何时间同步中断都会不允许CELP依据预测存储器，这是因为存储器由于缺乏时间同步而不会与原始语音调准。

图5中的框图示出按照某一实施例的带有TSWI的语音合成装置。从一N规模的帧开始，在框300中提取长度为L₁，L₂，…，L_M的M个原型W₁，W₂，…，W_M。提取处理中，对每一次提取都用动态偏移来避免原型边界处的高能量。接下来，对各个提取的原型应用一相应的循环偏移，使所提取的原型和原始信号的相应分段间的时间同步为最大。第m个原型Wm具有以k个取样数目为指数的Lm个取样，即k＝1，2，…，Lm。该指数k可归一化，并重新映射至新的相位指数(从0至2变化)。框301中采用音调估计和内插来生成音调滞后。

原型的端点位置分别标注为n₁，n₂，…，n_M，其中n₁＜n₂＜…＜n_M＝N。现可将原型按照其端点位置表示如下：

X(n₁，φ)＝W₁

X(n₂，φ)＝W₂

.

X(n_Λ1，φ)＝W_Λ1

应该理解，X(n₀，_)表示前一帧中最末提取的原型，X(n₀，_)具有长度L₀。还应指出，{n₁，n₂，…，n_M}可在当前帧上等间距或不等间距。

框302中执行调准处理，对每一原型X加上一相位偏移以便连续的原型可最大限度地调准。具体来说，

W(n₁，φ)＝X(n₁，φ+Ψ₁)

W(n₂，φ)＝X(n₂，φ+Ψ₂)

.

W(n_Λ1，φ)＝X(n_Λ1，φ+Ψ_Λ1)

其中W表示X的调准版本，而调准偏移可由下式计算：

Ψ_i＝argmax

ψ_{i} = \begin{matrix} \arg \max \\ 0 < ψ^{'} < 2 π \end{matrix} Z [X (n_{i}, φ + ψ^{'}), W (n_{i - 1}, φ)], i = 1,2, . . ., M .

Z[X，M]表示X和W间的跨接相关性。

M个原型在框303中由任何常规内插技术过取样为N个原型。所用的内插技术可以是例如简单的线性内插：

W (n, φ) = \frac{(n_{i} - n) * W (n_{i - 1}, φ) + (n - n_{i - 1}) * W (n_{i}, φ)}{n_{i} - n_{i - 1}}; n_{i - 1} < n \leq n, i = 1,2, . . ., M

N个原型集合W(n_i，_)，其中i＝1，2，…，N，形成了一种如图6B所示的二维(2-D)原型展开表面。

框304对相轨迹执行计算。在波形内插过程中，相轨迹_[N]用于将2-D原型展开表面变换回1-D信号。以往这种相位轮廓是以逐个取样方式采用内插的频率值计算如下：

Φ [n] = Φ [n - 1] + {&Integral;}_{n - i}^{n} F [n^{'}] * {dn}^{'}

其中，n＝1，2，…，N。频率轮廓F[n]可采用内插的音调轨迹来计算，具体来说，F[n]＝1/L[n]，其中L[n]表示{L₁，L₂，…，L_M}的内插版本。上述相位轮廓函数通常是利用初始相位值_[0]而非最末相位值_[N]来每一帧得到一次。而且，该相位轮廓函数未考虑到调准处理得到的相位偏移_。由于这种原因，重建的波形并不保证与原始信号时间同步。应注意，若假定频率轮廓在时间上线性扩展的话，该形成的相轨迹_[n]是时间指数(n)的二次函数。

图5实施例中，相位轮廓较为有利地按逐项方式构建，初始和最末边界相位值与调准偏移值较接近地匹配。设想时间同步希望在当前帧n_，n_，…，n__P，其中n_＜n_＜…＜n__P，αi∈{1，2，…，M}，i＝1，2，…，p。所生成的_[n]，n＝1，2，…，N由写成如下形式的p个逐项连续相位函数组成：

Φ [n] = \{\begin{matrix} Φ_{α_{1}} [n] = a_{α_{1}} {(n - n_{α_{0}})}^{3} + b_{α_{1}} {(n - n_{α_{0}})}^{2} + c_{α_{1}} (n - n_{α_{0}}) + d_{α_{1}} & n_{0} < n \leq n_{α_{1}} \\ Φ_{α_{2}} [n] = a_{α_{2}} {(n - n_{α_{1}})}^{3} + b_{α_{2}} {(n - n_{α_{1}})}^{2} + c_{α_{2}} (n - n_{α_{1}}) + d_{α_{2}} & n_{α_{1}} < n \leq n_{α_{2}} \\ \cdot & \cdot \\ \cdot & \cdot \\ \cdot & \cdot \\ Φ_{α_{p}} [n] = a_{α_{p}} {(n - n_{α_{p - 1}})}^{3} + b_{α_{p}} {(n - n_{α_{p - 1}})}^{2} + c_{α_{p}} (n - n_{α_{p - 1}}) + d_{α_{p}} & n_{α_{p - 1}} < n \leq n_{α_{p}} \end{matrix}\}

应指出，n__P通常设定为n_M，以便可对全部帧即n＝1，2，…，N计算_[n]。每一逐项相位函数的系数{a，b，c，d}均可由4个边界条件(分别为初始和最末音调滞后的Lα_i-1和Lα_i以及为初始和最末调准偏移的Ψα_i-1和Ψα_i)计算。具体来说，系数可求解为：

[\begin{matrix} a_{α_{i}} \\ b_{α_{i}} \end{matrix}] = {[\begin{matrix} {3 T}_{i}^{2} & {2 T}_{i} \\ T_{i}^{3} & T_{i}^{2} \end{matrix}]}^{- 1} [\begin{matrix} 2 π * (\frac{1}{L_{α_{i}}} - \frac{1}{L_{α_{i - 1}}}) \\ ψ_{α_{i}} - ψ_{α_{i - 1}} - \frac{2 π * T_{i}}{L_{α_{i - 1}}} + 2 π ξ_{α_{i}} \end{matrix}]

c_{α_{i}} = \frac{2 π}{L_{α_{i - 1}}}

d1_αi＝ψ_αi-1

且

T_i≡n_αi-n_αi-1

其中i＝1，2，…，p。因为调准偏移_是模2_求得的，系数ξ用于解开相位偏移，使得所生成的相位函数最为平滑。数值ξ可计算如下：

ξ_{α_{i}} = round [\frac{ψ_{α_{i - 1}} - ψ_{α_{i}}}{2 π} + \frac{T_{i}}{2} * (\frac{1}{L_{α_{i}}} + \frac{1}{L_{α_{i - 1}}})]

其中i＝1，2，…，p，函数round[x]找出与x最近的整数。举例来说round[1.4]为1。

图7中示出M＝p＝1且L₀＝40、L_M＝46的示范性解开的相轨迹。沿着立方相位轮廓(与虚线示出的常规的二次相位轮廓相对照)保证所合成的波形Scur_model与原始语音帧Scur在帧边界处的时间同步。

框305中根据2-D表面形成一个一维(1-D)时域波形。所合成的波形Scur_model[n](其中n＝1，2，…，N)形成为：

S_{cur_mode}l[n]＝W(n，Ф[n])

如图6B所示，上述变换等效于将图6A所示的解开的相轨迹迭加在2D表面上。相交部分(相轨迹满足2-D表面)对与相位轴正交的平面的投影即Scur_model[n]。

某一实施例中，将原型提取方法和基于TSWI的分析-合成应用于语音域。一替代实施例中则将原型提取方法和基于TSWI的分析-合成应用于LP余量域以及这里说明的语音域。

某一实施例中，在判断当前帧是否“具有足够周期性”的预选处理后应用一基于音调原型的分析-合成模型。相邻的所提取原型Wm和Wm+1间的周期性PFm可计算为：

{PF}_{m} = \frac{Σ_{n = 1}^{L \max} W_{m} [n] * W_{m + 1} [n]}{\sqrt{Σ_{n = 1}^{L \max} W_{m} [n] * W_{m} [n]} \sqrt{Σ_{n = 1}^{L \max} W_{m + 1} [n] * W_{m + 1} [n]}}

其中Lmax是[Lm，Lm+1]的最大值，原型Wm和Wm+1其长度的最大值。

M组周期性PFm可与一组阈值比较，来判断当前这些帧原型是否极其相似，或当前这些帧是否是高度周期的。该组周期性PFm的平均值可有利地与一预定阈值相比较，以得出上述判定。若当前帧并不具有足够的周期性，便可代之于采用不同的较高速率算法(即并非基于音调原型的算法)来对当前帧进行编码。

某一实施例中，可将选后滤波器应用于评估执行。这样，靠一基于音调原型的分析-合成模式对当前帧编码后，便对该执行是否足够好进行判定。通过获得例如PSNR这种质量测定结果来进行这种判定，PSNR定义如下：

PSNR = 10 * \log 10 \frac{Σ_{n = 1}^{N} {(x [n] - e [n])}^{2}}{Σ_{n = 1}^{N} e [n] * e [n]}

其中x[n]＝h[n]*R[n]，而e[n]＝h[n]*qR[n]，用“*”表示卷积或滤波运算，h[n]是感觉上加权的LP滤波器，R[n]是原始语音余量，qR[n]是该基于音调原型的分析-合成模式所获得的余量。若将基于音调原型的分析-合成编码应用于LP余量信号，PSNR的上述公式便有效。但另一方面，若将基于音调原型的分析-合成技术应用于原始语音帧而非LP余量，PSNR可定义为：

PSNR = 10 * \log 10 \frac{Σ_{n = 1}^{N} w [n] {* (x [n] - e [n])}^{2}}{Σ_{n = 1}^{N} w [n] * e [n] * e [n]}

其中x[n]是原始语音帧，e[n]是靠基于音调原型的分析-合成技术建模的语音信号，w[n]则为感觉的加权因数。若不论哪一种情形PSNR均低于一预定阈值的话，该帧便不适合分析-合成技术，而代之于利用一不同的可能为较高位速率算法来俘获当前帧。本领域技术人员会理解，任何常规执行测定结果，包括上面所述的示范性PSNR测定结果在内，可代之于用作对算法执行进行的处理后判定。

这样便给出并说明了本发明的较佳实施例。但对本领域技术人员来说，很显然，可在不背离本发明实质或保护范围的情况下对在此揭示的实施例作种种变动。因而本发明只应按照下面的权利要求进行限定。

Claims

1.一种用音调原型波形借助于时间同步波形内插的语音合成方法，其特征在于，包括下列步骤：

从语音信号和余量信号当中每一帧提取至少一个音调原型；

对所提取的音调原型加上一相对于前一次提取的音调原型的相移；

就该帧内每一取样点对音调原型进行过取样；

通过内插技术过取样构建一个二维原型展开表面；以及

对二维表面重新取样以产生一维合成的信号帧，该重新取样点由逐段连续立方相位轮廓函数定义，该相位轮廓函数是根据音调滞后和加到所提取的音调原型上的调准相移计算得到的。

2.如权利要求1所述的方法，其特征在于，最末音调原型波形包括前一帧的滞后取样。

3.如权利要求1所述的方法，其特征在于，还包括运算当前帧的周期性以判断是否执行余下步骤的步骤。

4.如权利要求1所述的方法，其特征在于，还包括获得处理后性能测定结果并将该处理后性能测定结果与一预定阈值比较的步骤。

5.如权利要求1所述的方法，其特征在于，提取步骤包括仅提取一个音调原型。

6.如权利要求1所述的方法，其特征在于，提取步骤包括提取若干数量的音调原型，该数量是音调滞后的一个函数。

7.如权利要求1所述的方法，其特征在于，还包括下列步骤：

对所提取的音调原型加上一相对于该信号的动态偏移。

8.如权利要求7所述的方法，其特征在于，最末音调原型波形包括前一帧的滞后取样。

9.如权利要求7所述的方法，其特征在于，还包括运算当前帧的周期性以判断是否执行余下步骤的步骤。

10.如权利要求7所述的方法，其特征在于，还包括获得处理后性能测定结果并将该处理后性能测定结果与一预定阈值比较的步骤。

11.如权利要求7所述的方法，其特征在于，提取步骤包括仅提取一个音调原型。

12.如权利要求7所述的方法，其特征在于，提取步骤包括提取若干数量的音调原型，该数量是音调滞后的一个函数。

13.一种用音调原型波形借助于时间同步波形内插的语音合成装置，其特征在于，包括：

从语音信号和余量信号当中每一帧提取至少一个音调原型的装置；

对所提取的音调原型加上一相对于前一次提取的音调原型的相移的装置；

就该帧内每一取样点对音调原型进行过取样的装置；

通过内插技术过取样构建一个二维原型展开表面的装置；以及

对二维表面重新取样以产生一维合成的信号帧的装置，该重新取样点由逐段连续立方相位轮廓函数定义，该相位轮廓函数是根据音调滞后和加到所提取的音调原型上的调准相移计算得到的。

14.如权利要求13所述的装置，其特征在于，最末音调原型波形包括前一帧的滞后取样。

15.如权利要求13所述的装置，其特征在于，还包括运算当前帧周期性的装置。

16.如权利要求13所述的装置，其特征在于，还包括获得处理后性能测定结果的装置和将该处理后性能测定结果与一预定阈值比较的装置。

17.如权利要求13所述的装置，其特征在于，提取装置包括仅提取一个音调原型的装置。

18.如权利要求13所述的装置，其特征在于，提取装置包括提取若干数量音调原型的装置，该数量是音调滞后的一个函数。

19.如权利要求13所述的装置，其特征在于，还包括：

对所提取的音调原型加上一相对于该信号的动态偏移的装置。

20.如权利要求19所述的装置，其特征在于，最末音调原型波形包括前一帧的滞后取样。

21.如权利要求19所述的装置，其特征在于，还包括运算当前帧周期性的装置。

22.如权利要求19所述的装置，其特征在于，还包括获得处理后性能测定结果的装置和将该处理后性能测定结果与一预定阈值比较的装置。

23.如权利要求19所述的装置，其特征在于，提取装置包括仅提取一个音调原型的装置。

24.如权利要求19所述的装置，其特征在于，提取装置包括提取若干数量音调原型的装置，该数量是音调滞后的一个函数。

25.一种用音调原型波形借助于时间同步波形内插的语音合成方法，其特征在于，包括下列步骤：

从语音信号和余量信号当中每一帧提取至少一个音调原型；

对所提取的音调原型加上一相对于该信号的动态偏移；

对所提取的音调原型加上一相对于前一次提取的音调原型的相位偏移；

就该帧内每一取样点对音调原型进行过取样；

通过内插技术过取样构建一个二维原型展开表面；以及

26.如权利要求25所述的方法，其特征在于，最末音调原型波形包括前一帧的滞后取样。

27.如权利要求25所述的方法，其特征在于，还包括运算当前帧的周期性以判断是否执行余下步骤的步骤。

28.如权利要求25所述的方法，其特征在于，还包括获得处理后性能测定结果并将该处理后性能测定结果与一预定阈值比较的步骤。

29.如权利要求25所述的方法，其特征在于，提取步骤包括仅提取一个音调原型。

30.如权利要求25所述的方法，其特征在于，提取步骤包括提取若干数量的音调原型，该数量是音调滞后的一个函数。

31.一种用音调原型波形借助于时间同步波形内插的语音合成装置，其特征在于，包括：

对所提取的音调原型加上一相对于该信号的动态偏移的装置；

对所提取的音调原型加上一相对于前一次提取的音调原型的相位偏移的装置；

就该帧内每一取样点对音调原型进行过取样的装置；

32.如权利要求31所述的装置，其特征在于，最末音调原型波形包括前一帧的滞后取样。

33.如权利要求31所述的装置，其特征在于，还包括运算当前帧周期性的装置。

34.如权利要求31所述的装置，其特征在于，还包括获得处理后性能测定结果的装置和将该处理后性能测定结果与一预定阈值比较的装置。

35.如权利要求31所述的装置，其特征在于，提取装置包括仅提取一个音调原型的装置。

36.如权利要求31所述的装置，其特征在于，提取装置包括提取若干数量音调原型的装置，该数量是音调滞后的一个函数。