CN1154976C

CN1154976C - 再现语音信号的方法和装置以及传输该信号的方法

Info

Publication number: CN1154976C
Application number: CNB961110422A
Authority: CN
Inventors: ֮; 西口正之
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1995-06-20
Filing date: 1996-06-19
Publication date: 2004-06-23
Anticipated expiration: 2016-06-19
Also published as: MY116532A; JPH096397A; BR9602835A; CN1145512A; EP0751493A3; TR199600519A2; AU721596B2; CA2179228A1; ATE205011T1; DE69614782D1; MX9602391A; CA2179228C; EP0751493A2; EP0751493B1; KR100472585B1; AU5605496A; KR970003109A; RU2255380C2; JP3747492B2; SG54343A1

Abstract

一编码单元2将在输入端10输入的语音信号分成帧并将根据帧分离的信号进行编码以输出编码参数，如线谱对，(Lsp)参数，音高，语音的(V)/非语音的(UV)或频谱幅值Am。修正编码参数运算单元3对编码参数插值，以计算出与所要求时点相关的修正编码系数。解码单元6根据修正编码参数合成正弦波和噪声并在输出端37输出合成语音信号。速度控制可在较宽范围以任意速率在保持语音和音高不变的情况下容易地实现并具有高质量语音。

Description

再现语音信号的方法和装置以及传输该信号的方法

技术领域

本发明涉及一种再现语音信号的方法及其装置，在该装置中将输入的语音信号分成多帧单元并编码以确定编码参数，根据该参数至少可以合成正弦波以再现该语音信号。本发明还涉及一种用于传递由对编码参数插值获得的修正编码参数的方法。

背景技术

目前已经有了多种压缩信号的编码方法，这些方法是利用声频信号的时域和频域中的统计特性及人听觉系统的心理声学特性来实现的，声频信号包括语音信号及声信号。这些编码方法大致分为时域编码，频域编码及分解/合成编码。

同时，随着在时间轴处理信号的高效语音编码方法的发展，如激励线性预测(CELP)，由于大量信号输出操作由解码器实现，因此在时间轴的速度转换方面遇到了困难。

另外，上述方法不能用于如音高率的转换，因为速度控制是在解码线性范围内实现的。

发明内容

如前所述，本发明的目的是提供一种重现语音信号的方法和装置以及传输该语音信号的方法，其大范围内任意变化率的速度控制可在音素和音高保持不变的情况下高质方便地实现。

一方面，本发明提供了一种再现输入语音信号的方法，该方法基于通过在时间轴上根据预设定的帧分离输入的语音信号获得编码参数，包括如下步骤：对编码参数插值处理以获得与所要求的时点相关联的修正编码参数；在修正编码参数基础上产生一个与输入的语音信号不同速率的修正语音信号。这样在大范围内任意变化率的速度控制就可以在语音和音高保持不变的情况下方便地实现并获得高质的语音信号。

另一方面，本发明提供了一种重现语音信号的装置，该装置中，基于通过在时间轴预设定的帧分离输入的语音信号并对该分离的输入语音信号根据帧进行编码以获得编码参数，而还原输入的语言信号，包括对编码参数插值以确定与所要求时点相关的修正编码参数的插值装置以及用于根据修正编码参数由输入语音信号产生不同速率的修正语音信号的语音信号发生装置。这样可对传输比特速率进行调节。在很宽范围内任意变化率的速度控制就可在保持语音和音高不变的情况下方便地实现并获得高质的语音信号。

此外，本发明提供一种传输语音信号的方法，该方法通过在时轴上根据预定的帧单元分解输入语音信号并对根据从该帧分解的输入语音信号进行编码来获得编码参数。该编码参数再经插值而得到与所要求的时点相关的修正编码参数，这些修正编码参数再经传输，这样传输比特率可调。

通过在时轴上根据预定的帧将输入语音信号分解并对该以帧分解的信号进行编码以确定编码参数，对编码参数插值以确定修正编码参数以及根据修正编码参数至少合成正弦波以重现语音信号，这样，速度控制可在任意速率实现。

本发明的技术方案包括：

(一)一种重现输入语音信号的方法，该重现方法基于通过将输入语音信号在时轴上分成预定长度的帧并以帧为基础对输入语音信号编码来产生第一编码参数，所述第一编码参数以第一时间间隔而被分开，所述方法包括以下步骤：

通过对第一编码参数进行插值来产生第二编码参数，所述第二编码参数以不同于第一时间间隔的第二时间间隔而被分开；以及

通过使用所述第二编码参数来产生在速率上与输入语音信号不同的修正语音信号。

(二)一种重现语音信号的装置，在该装置中，输入语音信号的再生基于通过将输入语音信号在时轴上分成具有预定长度的帧并通过以帧为基础对输入语音信号进行编码来确定第一编码参数，所述第一编码参数以第一时间间隔而被分开，该装置包括，

插值装置，用于对所述第一编码参数插值以产生第二编码参数，所述第二编码参数以不同于第一时间间隔的第二时间间隔而被分开，以及

语音信号发生装置，用于通过使用所述第二编码参数来产生在速率上与输入语音信号不同的修正语音信号。

(三)一种传输语音信号的方法，包括如下步骤：

通过在时轴上将输入语音信号分成具有预定长度的帧并以帧为基础对输入语音信号编码来产生第一编码参数，所述第一编码参数以第一时间间隔而被分开；

对所述第一编码参数插值以产生第二编码参数，所述第二编码参数以不同于所述第一时间间隔的第二时间间隔而被分开；以及

传输所述第二编码参数。

附图说明

图1为本发明第一实施例语音信号重现装置的结构的简要框图。

图2为图1所示语音信号重现装置结构简要框图。

图3为图1所示语音信号重现装置的编码器框图。

图4是作为编码器的谐波/噪声编码电路原理示例的多频带激励(MBE)分析电路的结构框图。

图5表示矢量量化器的结构。

图6是语音、非语音和语音及非语音集合的输入平均值 X的曲线图。

图7为语音、非语音和语音及非语音集合的加权平均值W′/‖ X‖的曲线图。

图8为语音、非语音和语音及非语音集合的矢量量化译码本排列方式的曲线图。

图9为图1所示语音信号重现装置中修正编码参数运算电路的简要操作流程图。

图10为时轴上由修正参数运算电路获得修正编码参数的简要示意图。

图11为图1所示语音信号重现装置中修正参数运算电路详细操作的流程图。

图12A、12B、12C是修正参数运算电路操作原理示意简图。

图13A、13B、13C是修正编码参数运算电路另一种操作原理示意简图。

图14是语音信号重现装置中解码器的工作电路简要框图。

图15是上述解码器中作为谐波/噪声示例的一多频段激励(MBE)分析电路结构的框图。

图16为本发明第二实施例语音信号传输装置简要框图。

图17为上述语音信号传输装置传输过程操作的流程图。

图18A、18B、18C是语音信号传输操作的示意图。

具体实施方式

参照附图对本发明的语音信号重现方法和装置以及语音信号传输方法的最佳实施例进行详细说明。

首先说明语音信号重现装置，其中包括语音信号重现方法和装置。图1所示为一语音信号重现装置的结构，该装置中将输入的语音信号根据在时轴上预定的帧单元进行分解，并根据该帧编码以确定编码参数，根据这些编码参数对正弦波和噪声进行合成，以重现语音信号。

特别地，由上述语音信号装置1对编码参数进行插值，以获得与所要求的时点相关联的编码修正参数，该正弦波和噪声根据修正编码参数进行合成。尽管正弦波和噪声根据修正编码参数合成，但亦有可能至少合成正弦波。

具体地说，声频信号重现装置1包括一编码单元2，用于将进入输入端10的语音信号分离成帧单元，并将基于该帧的语音信号进行编码以输出编码参数，输出编码参数如线谱对(LSP)参数，音高，语音的(V)/非语音的(UV)或频谱幅值Am。声频信号重现装置1还包括运算单元3，用于对编码参数插值以获得与所要求的时点相关的修正编码参数；还包括一解码单元6，用于根据修正编码参数合成正弦波和噪声，以在输出端37输出合成的语音参数。该编码单元2、用于运算修正编码参数的运算单元3以及解码单元6，由控制器进行控制，该控制器在图中未表示。

语音信号重现装置1中用于运算修正编码参数的运算单元3包括一周期修正电路4，用于压缩/延长由每一预定帧获得的编码参数的时轴以修正该编码参数的输出周期；还包括一插值电路5，用于对修正的周期参数插值来重现与基于帧的时点相关的修正编码参数，如图2所示。用于运算修正编码参数的运算单元3随后进行说明。

首先，已经说明了编码单元，该编码单元2和解码单元6根据谐波编码和噪声给出短期预测余项，如线性预测编码(LPC)余项。另一，编码单元3和解码单元6实现多频带激励(MBE)编码或多频带激励(MBE)分析。

采用由线性预测(CELP)编码激励的普通编码时，该LPC余项随时间波形直接进行矢量量化。由于进行谐波编码或MBE分析的编码单元2对余项进行编码，故较平滑的合成波形可通过具有较小比特数的谐波的频谱包络线幅值进行矢量量化获得，而一滤波器的合成LPC波形的输出也具有极好的音质。同时，频谱包络线幅值用维数转换技术或本发明人在日本专利特许公报JP-A-51800中提出的维数转换技术或数据数转换技术进行量化处理，这样频谱包络线幅值就可以按设定的矢量维数进行矢量量化。

图3给出了编码单元2的结构示图。供给输入端10的语音信号由滤波器11滤去不需要的频率范围，然后传送到一线性预测编码(LPC)分析电路12和一后级滤波电路21。

LPC分析电路12以每段256采样点的长度给输入信号波形加上汉宁窗(Hamming Window)为的是通过自相关法得到线性预测常数，即所谓α参数。作为数据输出单元的可知的间隔采用160采样点。如果采样频率fs是8′KHz，由160个采样点帧的间隔为20毫秒(msec)。

由LPC分析电路12得到的α参数传送到一个α-到-LSP的转换电路13，以转换为线谱对(LSP)参数。也就是将作为直接型滤波器系数的α参数转换为10个，即为5对LSP参数。这种转换用如Newto-Raphson之类的方法来完成。将α参数转换成LSP参数的原因在于LSP参数的插值特性优于α参数。

由α到LSP参数的转换电路13输出的LSP参数在LSP矢量量化器14中进行矢量量化，这时，在矢量量化前，帧之间的差别可识别出来。另外，多帧可以集合并由矩阵量化形式量化。在量化过程中，每20msecs运算的LSP参数是由20msecs-帧进行矢量量化。

由LSP矢量量化器14的量化输出表示LSP矢量量化的信号传输至端口15。已进行LSP矢量量化的信号输入LSP插值运算电路16。

LSP插值电路16对每20毫秒矢量化一次的LSP矢量进行插值，得到8倍的压缩比，就是说，形成LSP矢量为2.5毫秒一次。这样做的原因是，如果余项的波形由MBE编码/解码法进行分析/合成处理，合成波形的包络线会非常光滑，因此如果LPC系数每20毫秒剧变一次，就会产生一些特殊的声音，如果LPC系数每2.5毫秒渐变一次，就可以避免产生这些特殊的声音。

因后滤波输入语音信号采用2.5毫秒间隔的LSP矢量，这样经插值后，LSP参数经LSP到α转换电路17转换成α参数，该α参数是直接型滤波器如10级的常数。LSP到α转换电路17的输出信号传至后滤波器电路21，为的是以2.5msecs间隔更新的α参数进行后滤波，以获得一个平稳输出。后滤波器21的输出输入谐波/噪声编码电路22，尤其是多频带激励(MBE)分析电路。

谐波/噪声编码电路(MBE分析电路)22以类似于MBE分析的方法对后滤波器21的输出信号分析。就是说，谐波/噪声编码电路22检测音高并计算每个谐波的波幅Am。谐波/噪声编码电路22还完成语音(V)/非语音(UV)识别，并通过维数转换将随音高改变的谐波波幅数值转换成一常数。对于音高检测，如下文所述，输入LPC余项的自相关应用于音高检测中。

参照图4，详细说明作为谐波/噪声编码电路22示例的多频带激励(MBE)分析电路的示意图。

如图4所示的MBE的分析电路，电路模式的设计基于假设在同一时点的频段中即同一帧或区段中存在语音信号成分和非语音信号成分。

从后滤波电路21给出的LPC余项或线性预测编码余项(LPC)经图4所示的输入端111输入。MBE分析电路完成MBE分析和对输入的LPC余项编码。

进入输入端111的LPC余项传输至音高信号提取单元113及将在后面给予说明的开窗口单元114和子区段幂运算单元126。

由于输入音高信号提取单元113的信号是LPC的余项，音高检测可通过检测该余项的自相关最大值来实现。音高信号提取单元113通过开路搜索完成音高检测。提取的音高数传给精确音高搜索单元116，精确音高搜索由闭路音高搜索完成。

开窗口单元114具有预设窗口的功能，如汉宁窗，对每N样块预设窗口，以L样框间隔沿时轴移动窗口。由开窗口单元114得到的时域数据经正交变换单元115处理，正交变换单元115可进行快速傅氏变换(FFT)。

如果取样窗口的所有频带均为非语音信号(UV)，子区段幂运算单元126就提取取样窗口中作语音信号的时间波形包络线的特性参数。

精确音高搜索单元116接收到由音高提取单元113提取的粗略的整数音高数据和由正交变换单元115通过FFT产生的频域数据。精确音高搜索单元116引起±样本相对于作为中心值的粗测音高数据以0.2至0.5的间隔摆动，从而获得精确的具有最优十进制小数点(浮点)的音高数据。精确搜索技术应用合成法进行分析并选择可提供合成功率谱的音高，该功率谱与原始功率谱最接近。

音高高于和低于粗测音高的音高值以0.25的间隔提供，该粗测音高由音高提取单元113得到并作为摆动中心值。这些音高值彼此存在细微差别，所以会有累加误差∑∈m。在这种情况下，如果音高设定、频带宽设定，则采用频域数据的功率谱和提取信号频谱，就会发现有误差∑∈m。这样就会有整个频带的误差∑∈m。对于每一个音高值都有累积误差∑∈m，故选择累积误差最小的音高作为最优音高。这样，具有0.25间隔的最优精确音高由精确音高搜索单元得到，并且确定了最优音高的波幅|Am|，该波幅值由语音波幅运算单元118V运算得到。

在上述对精确音高搜索的说明中，整个频带假定为语音信号的，但是由于应用于MBE分析/合成系统的模型是一个在同一时点有非语音区域出现在频率轴上的模型，故有必要频带间的语音/非语音进行识别。

从精确音高搜索单元116得到的最优音高和由语音波幅测定单元118V得到的波幅数据|Am|传输到语音/非语音区分单元117中，这里语音/非语音识别是对各频带的识别。该识别中采用信噪比(NSR)。

同时，由于基于基础音高频率来分离的频带数，即谐波数，是在8至63范围内波动，取决于声音的音高，在每一频带的U/V特征值都呈类似的波动。这样，在本发明的实施例中，U/V识别的结果对每个固定频带宽的预定频带是成组的或递减的。特别地，将预定频率范围如0到4000Hz范围内，包括听觉范围，分成N_B频带，如12个频带，每个频带的NSR值的加权平均值由预定的判断各频带U/V值的阈值Th₂来区分。

非语音波幅测定单元118U由正交变换单元115提供频域数据，由音高搜索单元116提供精确的音高数据，由语音波幅测定单元118V提供波幅|Am|数据，以及由语音/非语音识别单元117提供语音/非语音(V/UV)区分数据。同一频带由语音/非语音识别单元117通过重测波幅确定为非语音(UV)频带，一非语音波幅测定单元118U再次确定该波幅。非语音波幅测定单元118U直接输出来自语音波幅测定单元118V的输入值，这是因为已确定频带为语音的(V)。

来自非语音波幅测定单元118U的数据传输给数据数值转换单元119，该转换单元是一种采样连率转换器。考虑到频带数是来自频谱分离；并且数据数值，尤其是波幅数据数值延迟于音高，采用数据数值单元119再现数据常数的值。如果有效的频率范围高达3400Hz，则根据音高将该有效频率范围分离成8至63频带，使得波幅数据的数据数为1n_MX+1，包括UV频带的波幅|Am|UV，在8至63频带范围内变化。这样，数据数值转换单元119将具有变化m_MX+1数据数值的波幅数据转换成一数据常数M，比如44。

数据数值转换单元119相应于频率轴上一有效区段对波幅数据添加样本数据，该样本数据从区段的最末数据到该区段的第一数据进行插值，以将数据数值扩大到N_F。然后，数据数值转换单元119实现具有对采样O_S的带宽限制型的过采样，如O_S为8，以确定波幅数据的O₃倍数。对该波幅数据的O_S倍数((m_MX+1)×O_S)进行线性插值，以较大数据数值N_M，如数据2048，对该数据数值N_M分样以转换为预定的常数M，如数据44。

将由数据数值转换单元119传递的数据(具有预定常数M的波幅数据)传输给矢量量化器23，以提供一具有数据数值M的矢量，或者将该数据合成为一具有预定数据数值的矢量。

由精确音高搜索单元116传递的音高数据经转换开关27的固定端a传输给一输出端28。由日本专利申请No.5-185325(1993)公开的这一技术包括从表示非语音信号时间波形的特性值的信息到音高信息的转换，如果区段中的全部频带都是非语音(UV)的，那么音高信息就没有必要了。

这些数据通过处理N个数的数据，如256个样本而获得，由于区段根据上述L样本帧单元在时轴上先划分好了，故根据帧单元可得到传输数据。则音高数据、U/V区分数据和波幅数据在帧区间进行修正。作为来自V/UV区分单元117的V/UV区分数据，有可能采用已减少或降低到12的频带数据数值，或采用在整个频域里的语音(V)和非语音(UV)区域之间确定划分一个或多个位点(S)的数据。另外，整个频带可以表示为语音的(V)和非语音的(UV)，或者说V/UV区分可在帧单元基础上实现。

如果一区段的整个范围内均已确定为非语音的(UV)，一个有256样本的区段可再分成多个子区段，每个子区段包括32个样本，这些样本传输给子区段功率计算单元126。

子区段功率计算单元126计算一个区段内全部样本如256个样本的平均功率或均方根值(RMS值)对子区段内每一样本的平均功率或均方根值(RMS值)的比率或比值。

也就是说，如果第K个子区段的平均功率或者整个区段的平均功率可确定，则整个区段平均功率对子区段第K个平均功率P(K)的比值的平方根就可计算出来。

这样确定的平方根值可看作是一预定维的矢量，其目的在于在矢量量化器127中进行矢量量化处理，该矢量量化器127接在子区段功率计算单元之后。

矢量量化器127完成8维8比特直线矢量量化(编码簿样本容量为256)。该矢量量化的输出指标UV-E是典型的矢量编码，将其传输给转换开关27的固定端上。转换开关27的固定端 a输入由精确音高搜索单元116输出的音高数据，转换开关27的输出信号传递给输出端28。

转换开关27的开关控制由从语音/非语音识别音117输出的识别信号控制，因此，使得当确定区段内至少有一个频带为语音的(V)以及当确定整个频带为语音的(V)时，转换开关27的可动触片相应与固定端 a和 b接触。

这样基于子区段的标准化RMS值的矢量量化输出经插入一通道中进行传输，该通道本来用于传输音高信息。就是说，如果确定区段内整个频带都是非语音的(UV)，也就无需音高信息。这样，如果经确定从V/UV区分单元117中输出的识别信号表明整个频带为UV(非语音的)，矢量量化指标UV_E就代替音高信息被传输。

参照附图3，对矢量量化器23中频谱包络线(Am)的加权矢量量化过程进行说明。

矢量量化器23为2级L维，如44维形态。

来自矢量量化编码本的输出矢量的总和经增益gi放大(该编码本为44维并且其容量为32)，产生的结果作为44维频谱包络线矢量 X的一个量化值。参照图5 CB0，CB1表示两个形式编码本，其各自输出矢量分别为 S _0i和 S _1j，这里0≤i且j≤31。增益编码本CBg的输出为g1，这是一个标量值，0≤1≤31。最终输出为gi( S _0i和S_1j)。

设由LPC余项的MBE分析得到的并被转换成预定维数的频谱包络Am为 X，如何有效地量化 X很关键。

量化误差能量E定义为：

E＝‖W{H x-Hg₁( s _0i+ s _1j)}‖² ....(1)

＝‖WH{ x-g₁( s _0i+ s _1j)}‖²

这里H和W分别代表LPC合成滤波器的频轴特性和频轴上听觉加权特性的加权矩阵。

量化误差能量由对应来自下式频率特性的L维点进行取样得到。

H (z) = \frac{1}{1 + Σ_{i = 1}^{P} α_{i} z^{- i}}

这里α₁表示由当前帧段的LPC分析获得的α参数，1≤i≤p。

计算过程中，将1，α₁，α₂，…，α_p的值赋给O_S以提供1，α₁，α₂，…α_p，0，0…0共256样点数据，对256个样点进行FFT，相对应于0～π的点计算(r_e ²+I_m ²)^1/2的值。然后，取(r_e ²+I_m ²)^1/2计算值的倒数并分成44点。对角元素对应于上述倒数的矩阵如下：

听觉加权矩阵W如下：

W (z) = \frac{1 + Σ_{i}^{P} α_{i} λ_{b}^{i} z^{- i}}{i + Σ_{i}^{P} α_{i} λ_{a}^{i} z^{- i}} \cdot \cdot \cdot (3)

这里α_i是输入信号LPC分析的结果，λ_a、λ_b为常数，例如λ_a＝0.4，λ_b＝0.9。

矩阵W可由方程(3)的频率特性得到。例如提供1，α₁λb²，α₂λb²，...，α_pb^p，0，0...，0作为256点数据，对这些数据进行FFT以得到(r_e ²[i]+I_m ²[i])^1/2，这里0≤i≤128。然后，再采用1，α₁λa，α₂λa²，...，α_pa^p，0，0，...0并对0～π范围在128点计算256点FFT分母的频率特性，其计算结果是(re’²[i]+Im’²[i]^1/2，0≤i≤128。

上述方程(3)的频率特性如下式：

wo [i] = \frac{\sqrt{{re}^{2} [i] + {Im}^{2} [i]}}{\sqrt{{re}^{' 2} [i]} + {Im}^{' 2} [i]}

这里0≤i≤128。

相应于44维矢量点的频率特性由下述方法得到。尽管需要采用线性插值以获得更精确的结果，但在下面例子中采用最近点的值作为代替。

即，

ω[i]＝ω₀[nint(128i/L)]

这里1≤i≤L，nint(X)是返回最接近X的整数的函数。

由类似方法得到H，h(1)，h(2)，...h(L)。

即：

故

作为改进的实施例，在第一次取得减少FFT操作时间的H(Z)W(Z)后可确定频率特性。

即，

H (z) W (z) = \frac{1}{1 + Σ_{i = 1}^{P} α_{i} z^{- i}} \cdot \frac{1 + Σ_{i = 1}^{P} α_{i} λ_{b}^{i} z^{- i}}{1 + Σ_{i = 1}^{P} α_{i} λ_{a}^{i} z^{- i}} \cdot \cdot \cdot (5)

方程(5)的分母可扩展为：

(1 + Σ_{i = 1}^{P} α_{i} z^{- i}) (1 + Σ_{i = 1}^{P} α_{i} λ_{a}^{i} z^{- i}) = 1 + Σ_{i = 1}^{2 P} β_{i} z^{- i}

通过设定1，β₁，β₂，...，b_2p，0，0，...，0，可以形成256点数据。进行256点FFT可得到波幅的频率特性。如下式，

rms [i] = \sqrt{{re}^{'' 2} [i] + {Im}^{'' 2} [i]}

这里0≤i≤128。

由此得到下列方程：

{wh}_{0} [i] = \frac{\sqrt{{re}^{2} [i] + {Im}^{2} [i]}}{\sqrt{{re}^{'' 2} [i] + {Im}^{'' 2} [i]}}

这里0≤i≤128。

对于每个L维矢量的相应点均可得到该结果。如果FFT的点数较小，应采用线性插值。然后此处采用最接近的值。即，

wh [i] = {wh}_{0} [nint (\frac{128}{L} \cdot i)] - - - 1 \leq i \leq L

这里1≤i≤L。

以最近的值作为对角线项的矩阵W’如下

上述方程(6)与方程(4)的矩阵相同。

应用这矩阵，即加权合成滤波器的频率特性，方程(1)可重写为，

E＝‖W′(x-g₁( s _0i+ s _1j))‖² ...(7)

明确形式编码本和增益编码本的方法说明如下。

首先，对于所有选择有关CBO的编码矢量 S _0c的帧段，预期的失真值减至最小。如果有M个这样的帧段，它足够小，

J = \frac{1}{M} Σ_{k = 1}^{M} {| | W_{k}^{'} ({\underset{&OverBar;}{x}}_{k} - g_{k} ({\underset{&OverBar;}{s}}_{0 c} + {\underset{&OverBar;}{s}}_{1 k})) | |}^{2} \cdot \cdot \cdot (8)

在方程(8)中，W’_K，x_K，g_K和 S _iK分别表示第K个帧段的权重，第K个帧段的一项输入，第K个帧段的增益和第K个帧段的编码本CB1的一项输出。

用于最小化等式(8)，

J = \frac{1}{M} Σ_{k = 1}^{M} {({\underset{&OverBar;}{x}}_{k}^{T} - g_{k} ({\underset{&OverBar;}{s}}_{0 c}^{T} + {\underset{&OverBar;}{s}}_{1 k}^{T})) W_{k}^{' T} W_{k}^{'} ({\underset{&OverBar;}{x}}_{k} - g_{k} ({\underset{&OverBar;}{s}}_{0 c} + {\underset{&OverBar;}{s}}_{1 k}))}

= \frac{1}{M} Σ_{k = 1}^{M} {{\underset{&OverBar;}{x}}_{k}^{T} W_{k}^{' T} W_{k}^{'} {\underset{&OverBar;}{x}}_{k} - {2 g}_{k} ({\underset{&OverBar;}{s}}_{0 c}^{T} + {\underset{&OverBar;}{s}}_{1 k}^{T}) W_{k}^{' T} W_{k}^{'} {\underset{&OverBar;}{x}}_{k}

+ g_{k}^{2} ({\underset{&OverBar;}{s}}_{0 c}^{T} + {\underset{&OverBar;}{s}}_{1 k}^{T}) W_{k}^{' T} W_{k} ({\underset{&OverBar;}{s}}_{0 c} + {\underset{&OverBar;}{s}}_{1 k})}

= \frac{1}{M} Σ_{k = 1}^{M} {{\underset{&OverBar;}{x}}_{k}^{T} W_{k}^{' T} W_{k}^{'} {\underset{&OverBar;}{x}}_{k} - {2 g}_{k} ({\underset{&OverBar;}{s}}_{0 c}^{T} + {\underset{&OverBar;}{s}}_{1 k}^{T}) W_{k}^{' T} W_{k}^{'} {\underset{&OverBar;}{x}}_{k}

+ g_{k}^{2} {\underset{&OverBar;}{s}}_{0 c}^{T} W_{k}^{' T} W_{k} {\underset{&OverBar;}{s}}_{0 c} + {2 g}_{k}^{2} {\underset{&OverBar;}{s}}_{0 c}^{T} W_{k}^{' T} W_{k}^{'} {\underset{&OverBar;}{s}}_{1 k}

+ g_{k}^{2} {\underset{&OverBar;}{s}}_{1 k}^{T} W_{k}^{' T} W_{k}^{'} {\underset{&OverBar;}{s}}_{1 k}} \cdot \cdot \cdot (9)

\frac{&PartialD; J}{&PartialD; {\underset{&OverBar;}{s}}_{0 c}} = \frac{1}{M} Σ_{k = 1}^{M} {- {2 g}_{k} w_{k}^{' T} w_{k}^{'} {\underset{&OverBar;}{x}}_{k} + {2 g}_{k}^{2} w_{k}^{' T} w_{k} {\underset{&OverBar;}{s}}_{0 c}

+ {2 g}_{k}^{2} w_{k}^{' T} w_{k} {\underset{&OverBar;}{s}}_{1 k}} = 0 \cdot \cdot \cdot (10)

故，

Σ_{k = 1}^{M} (g_{k} w_{k}^{' T} w_{k}^{'} {\underset{&OverBar;}{x}}_{k} - g_{k}^{2} w_{k}^{' T} w_{k} {\underset{&OverBar;}{s}}_{1 k}) = Σ_{k = 1}^{M} g_{k}^{2} w_{k}^{' T} w_{k} {\underset{&OverBar;}{s}}_{0 c}

且，

{\underset{&OverBar;}{s}}_{0 c} = {Σ_{k = 1}^{M} g_{k}^{2} w_{k}^{' T} w_{k}}^{- 1} \cdot {Σ_{k = 1}^{M} g_{k} w_{k}^{' T} w_{k} ({\underset{&OverBar;}{x}}_{k} - g_{k} {\underset{&OverBar;}{s}}_{1 k})} \cdot \cdot \cdot (11)

这里{}^-1表示逆矩阵，W_K’^T表示W_K’的转置矩阵。

接着，考虑关于增益的最优化。

对于第K个区段选择增益的代码g_c的预期失真值J_g由解下列方程得到：

J_{g} = \frac{1}{M} Σ_{k = 1}^{M} {| | {W^{'}}_{k} ({\underset{&OverBar;}{x}}_{k} - g_{c} ({\underset{&OverBar;}{s}}_{0 c} + {\underset{&OverBar;}{s}}_{1 k})) | |}^{2}

可以得到，

= \frac{1}{M} Σ_{k = 1}^{M} {{\underset{&OverBar;}{x}}_{k}^{T} w_{k}^{' T} w_{k}^{'} {\underset{&OverBar;}{x}}_{k} - {2 g}_{c} {\underset{&OverBar;}{x}}_{k}^{T} w_{k}^{' T} w_{k}^{'} ({\underset{&OverBar;}{s}}_{0 k} + {\underset{&OverBar;}{s}}_{1 k})

+ g_{c}^{2} ({\underset{&OverBar;}{s}}_{0 k}^{T} + {\underset{&OverBar;}{s}}_{1 k}^{T}) W_{k}^{' T} W_{k}^{'} ({\underset{&OverBar;}{s}}_{0 k} + {\underset{&OverBar;}{s}}_{1 k})}

\frac{{&PartialD; J}_{g}}{{&PartialD; g}_{c}} = \frac{1}{M} Σ_{k = 1}^{M} {{- 2 \underset{&OverBar;}{x}}_{k}^{T} w_{k}^{' T} w_{k}^{'} ({\underset{&OverBar;}{s}}_{0 k} + {\underset{&OverBar;}{s}}_{1 k})

+ {2 g}_{c} ({\underset{&OverBar;}{s}}_{0 k}^{T} + {\underset{&OverBar;}{s}}_{1 k}^{T}) w_{k}^{' T} w_{k}^{'} ({\underset{&OverBar;}{s}}_{0 k} + {\underset{&OverBar;}{s}}_{1 k}) = 0

Σ_{k = 1}^{M} {\underset{&OverBar;}{x}}_{k}^{T} w_{k}^{' T} w_{k}^{'} ({\underset{&OverBar;}{s}}_{0 k} + {\underset{&OverBar;}{s}}_{1 k}) = Σ_{k = 1}^{M} g_{c} ({\underset{&OverBar;}{s}}_{0 k}^{T} + {\underset{&OverBar;}{s}}_{1 k}^{T}) w_{k}^{' T} w_{k}^{'} ({\underset{&OverBar;}{s}}_{0 k} + {\underset{&OverBar;}{s}}_{1 k})

g_{c} = \frac{Σ_{k = 1}^{M} {\underset{&OverBar;}{x}}_{k}^{T} w_{k}^{' T} w_{k}^{'} ({\underset{&OverBar;}{s}}_{0 k} + {\underset{&OverBar;}{s}}_{1 k})}{Σ_{k = 1}^{M} ({\underset{&OverBar;}{s}}_{0 k}^{T} + {\underset{&OverBar;}{s}}_{1 k}^{T}) w_{k}^{' T} w_{k}^{'} ({\underset{&OverBar;}{s}}_{0 k} + {\underset{&OverBar;}{s}}_{1 k})} \cdot \cdot \cdot (12)

上述方程给出了形式量 S _0i， S _1i和增益g_i的最佳矩心条件，这里0≤i≤31，这是最佳解码输出。 S _1i和 S _0i一样，故可类似得到最佳解码输出。

接下来，考虑最佳编码条件(最临近条件)。

为测量失真而最小化方程(7)的形式量 S _0i， S _1i，E＝‖W’(X-g₁( S _0i+ S _1j))‖²，对于每一帧段每给一个输入 X和加权矩阵W’即确定一次。

对于所有g₁(0≤1≤31)， S _0i(0≤i≤31)和 S _ij(0≤j≤31)的组合确定E，在一系列循环组合中有32×32×32种组合方式，目的是为了获得能给出最小E值的一组 g ₁， S _0i， S _ij。但是由于这会导致大量算术运算，故编码单元2要对形态和增益进行连续搜索。一系列的搜索应该是对 S _0i， S _ij的32×32＝1024种组合方式进行的搜索。在下述说明中，S _0i+ S _1i简写为 Sm。

上述方程可简化为E＝‖W’( X-g₁S_m)‖²。为更进一步简化，通过设定 X _W＝W’ X及 S _W＝W’S_m可以得到，

E＝‖ x _w-g_l s _w‖²

...(13)

E = {| | {\underset{&OverBar;}{x}}_{w} | |}^{2} + {| | {\underset{&OverBar;}{s}}_{w} | |}^{2} {(g_{1} - \frac{{\underset{&OverBar;}{x}}_{w}^{T} \cdot {\underset{&OverBar;}{s}}_{w}}{{| | {\underset{&OverBar;}{s}}_{w} | |}^{2}})}^{2} - \frac{{({\underset{&OverBar;}{x}}_{w}^{T} \cdot {\underset{&OverBar;}{s}}_{w})}^{2}}{{| | {\underset{&OverBar;}{s}}_{w} | |}^{2}} \cdot \cdot \cdot (14)

这样，假定g₁保证有足够精度，搜索可由两步完成。

(1)搜索使下述值最大化的 S _W，

\frac{{({\underset{&OverBar;}{x}}^{T}_{w} \cdot {\underset{&OverBar;}{s}}_{w})}^{2}}{{| | {\underset{&OverBar;}{s}}_{w} | |}^{2}}

(2)搜索最接近下述值的g₁，

\frac{{\underset{&OverBar;}{x}}^{T}_{w} \cdot {\underset{&OverBar;}{s}}_{w}}{{| | {\underset{&OverBar;}{s}}_{w} | |}^{2}}

如果上述方程是根据原始表述式进行改写的，搜索可由两步完成，

(1)搜索使下述值最大化的一组 S _0i， S _1j，

\frac{{\underset{&OverBar;}{x}}^{T} W^{' T} W^{'} ({\underset{&OverBar;}{s}}_{0 i} + {\underset{&OverBar;}{s}}_{1 j})}{{| | W^{'} ({\underset{&OverBar;}{s}}_{0 i} + {\underset{&OverBar;}{s}}_{1 j}) | |}^{2}} \cdot \cdot \cdot (15)

(2)搜索最接近下述值的g_i，

\frac{{\underset{&OverBar;}{x}}^{T} W^{' T} W^{'} ({\underset{&OverBar;}{s}}_{0 i} + {\underset{&OverBar;}{s}}_{1 j})}{{| | W^{'} ({\underset{&OverBar;}{s}}_{0 i} + {\underset{&OverBar;}{s}}_{1 j}) | |}^{2}}

方程(5)给出了最优编码条件(最临近条件)。

应用方程(11)和(12)的矩心条件以及方程(15)的条件，编码本CB0，CB1和CBg可同时通过广义劳氏算法(GLA)进行排序。

参照图3，矢量量化器23经转换开关24与语言译码本25V和非语言译码本25U相连接。通过来自谐波噪声编码电路22的V/UV区分信号输出来控制转换开关24的切换，分别应用语音编码本25V和非语言编码本25U对语音和非语音进行矢量量化。

依靠语音(V)/非语音(UV)判断来切换编码本的原因在于，因W’_k和g₁的加权平均处理是根据方程(11)、(12)在计算新的矩心时完成的，故不希望对在数值上差别很大的W’_k和g₁进行平均。

同时，编码单元2采用由输入 X的标准划分的W’。即，在方程(11)，(12)和(15)处理过程中首先用W’/‖ X‖代替W’。

当根据V/UV区分信号在编码本间进行切换时，为布置语音编码本和非语音编码本，排序数据以类似的方式分配。

为减小V/UV的比特数，编码单元2应用单频带激励(SBE)，如果V的比率超过50％或相反，相应认为某一给定的帧段为一语音(V)帧段或一非语音(UV)帧段。

图6和图7表示语音、非语音和语音与非语音信号组合的输入 X的平均值和加权平均值，该组合没有考虑区分语音和非语音。

由图6可以看到，尽管U和UV的增益(‖ X‖的平均值之间差别很大，但U和UV的输入 X在频轴上的能量分配变化不大。但是，从图7明显看到，V和UV的权重形态是不同的，在低频范围内，V的权重分配比特数较UV高，这说明，通过分别对V和UV间隔排序可获得性能较好的编码本表示的可能性。

图8是三个样例的排序方式，即包括语音(V)，非语音(UV)和语音及非语音组合的排序方式。也就是说，图8中曲线 a、 b和 c分别表示V、UV和V及UV组合的排序方式，曲线 a、 b和 c的终值分别为3.72、7.011和6.25。

由图8可以看到，V编码本及UV编码本的排序间隔导致输出失真预期值的减少。尽管UV曲线 b的预期值状态随曲线稍稍变差，但是由于V的范围大于UV的范围，总体上看预期值是改善的。通过V和UV发生频率的一个例子看，对排序数据长度为1的V和UV范围长度的测量值分别是0.538和0.462。这样，由图8所示的曲线 a和 b的终值来看，总体失真的预期值可为，

3.72×0.538+7.011×0.462＝5.24

这表示与V及UV组合的排序的失真预期值6.25相比，失真预期值大约改善了0.76dB。

从排序方式看，预期值的改善大约为0.76dB。但是，已经知道，如果为在没有完成矢量化的情况下确定SN比率(SNR)，而对排序以外的四名男性成员及四名女性成员的语音取样进行处理，将V和UV分隔开会部分改善SNR大约1.3dB，原因大概在于V的比率稍高于UV。

应指出的是，当由矢量量化器23在矢量量化的听觉加权中采用的权重W’是由上述方程(6)定义时，通过考虑以前权重W’来确定当前权重W’，可获得涉及瞬时遮掩的权重W’。

对于上述方程(6)中wh(1)，wh(2)...，wh(L)，在时刻n计算的值，即对第n’的帧段，表示为whn(1)，whn(2)，...，whn(L)。

考虑过去值的在时刻 n的权重定义为An(i)，这里1≤i≤L，则，

An(i)＝λA_n-1(i)+(1-λ)whn(i)(whn(i)≤A_n-1(i))

whn(i) (whn(i)＞A_n-1(i))

这里λ可设定，例如λ＝0.2，An(i)(这里1≤i≤L)即为上述权重可作为矩阵的对角项。

参照图1，说明修正编码参数的运算单元3。语音信号重现装置1对编码参数进行修正，并对该修正编码参数进行解码，其中由修正编码运算单元3将由编码单元2的输出信号进行快速修正编码运算，由以两倍于实时速度重现紧密存储信息的解码单元6对修正的编码参数进行解码。由于尽管重现速度较高，音高和音素保持不变，故即使提高重现速度也能叫到存储信息。

由于高速修正编码参数，修正编码参数运算单元3不进行下述的解码和输出处理，而是用类似算法以不固定的速率进行计算。

参照图9和11中的流程图，详细说明语音信号重现装置1中修正编码参数运算单元3的操作过程。如图2所示，修正编码参数运算单元3由周期修正电路4和插值电路5组成。

首先，在图9中的步骤S1，编码参数如LSP、音高，V/UV或Am，由输入端15、28、29和26输入给周期修正电路4。音高设定为P_cn[n]，V/UV设定为VU_v[n]，Am设为a_m[n][1]，LSP设为LSP[n][i]。由修正编码参数运算单元3运算后的修正编码参数分别设定为mod_Pch[m]、mod_UV_v[m]，mod_a_m[m][1]modlsp[m][i]，这里 1表示谐波数， i表示LSP序数， n和 m依次表示对应于在时间轴转换之前或之后的时间轴指标的帧段数。同时0≤n≤N₁并且0≤m≤N₂作为帧段指标的 n和 m，其帧段间隔为20毫秒(msec)。

如上所述， 1表示谐波数。上述设定可在谐波数恢复到真实的谐波数a_m[n][1]后完成，或者可在a_m[n][1](1＝0-43)状态完成。就是说，数值数据的转换可在解码器解码之前或之后完成。

在步骤S2，周期修正电路4设定相当于初始持续时间长的帧段数为N₁，设定相当于后改变持续时间长的帧段数为N₂的速度。在步骤S3中，周期修正电路4压缩时间轴使N₁的语音压缩为N₂的速度。即，由周期修正电路4得到的时间轴压缩速度的比率spd为N₂/N₁。

在步骤S4中，插值电路5设定 m帧段数为2，该帧段数 m相当于时间轴转换之后的时间轴指标。

在步骤5中，插值电路5得到两个帧f_r0和f_r1，并确定在两路f_r0和f_r1与m/spd间“左段”和“右段”的差值。如果编码参数Pcn、VUv、a_m和lsp表示为*，则mod_*[m]可由下面一般公式表达，

mod__*[m]＝*[m/spd]

这里0≤m≤N₂。但是，由于m/spd不是整数，故由从两个帧f_r0＝LM/spd和f_r1＝f₀+1的插值中得到m/spd修正编码参数。需指出的是，帧f_r0，m/spd和f_r1间的关系如图10所示，可表示如下，

左段＝m/spd-f_r0

右段＝f_r1-m/spd

图10中的m/spd编码参数为修正编码参数，由步骤6所示的插值运算得到。可由简单的线性插取得该修正编码参数，即，

mod__*[m]＝*[f_r0]×right+*[f_r1]*left

然而，如果在f_r0和f_r1间插值，而这两帧在V/UV上不同，即两者之一是V，另一个是UV，则上述一般公式就不适用了。因此，插值电路5要进行关于两帧f_r0和f_r1的语音和非语音特性的编码参数确定方式的修正，由图11的步骤S11表示。

首先判断是否两个帧f_r0和f_r1为语音的(V)或非语音的(UV)。如两个帧f_r0及f_r1都是语音的，程序转到步骤S12，在步骤S12中对所有参数进行线性插值，修正编码参数表示如下：

mod_Pch[m]＝Pch[f_r0]×right+P_ch[f_r1]×left

mod_a_m[m][l]＝a_m[f_r0][l]×right+a_m[f_r1][l]×left

这里0≤1≤L，L表示最大可能的谐波数，并且当没有谐波时a_m[n][1]中填入“0”。如果f_r0和f_r1间的谐波数不同，在进行插值时假设两者之一的谐波值为零。在通过数据数值转换单元前，L的值可确定，如L＝43，0≤1≤L。

此外，修正编码参数还可表示如下：

mod__lsp[m][i]＝lsp[f_r0][i]×right+lsp[f_r1][i]×left

这里0≤i≤I，I表示Lsp序数，通常等于10；以及，

mod_VUv[m]＝1

在V/UV识别中，1和0分别表示语音的(V)和非语音的(UV)。

如果在步骤S11中判断两个帧f_r0和f_r1都不是语音的(V)，在步骤S13中给出类似于上述的判断，即判断是否两个帧f_r0和f_r1为非语音的(UV)。如果判断结果为“是”，即如果两个帧都是非语音的(UV)，则插值电路5将P_ch设定为一固定值，通过线性插值得到a_m及lsp如下：

mod_P_ch[m]＝Maxpitch

以将itch定为一固定值，如一最大值，对于非语音的，Maxpitch＝148；

mod_a_m[m][l]＝a_m[f_r0][l]×right+a_m[f_r1][l]×left

这里0≤1≤Maxpitch；

mod_lsp[m][l]＝lsp[fr₀][i]×right+lsp[f_r1[i]×left

这里0≤i≤I；且

mod_VUv[m]＝0。

如果两个帧f_r0和f_r1都不是非语音的，则程序转到步骤S15，在步骤S15，判断是否f_r0为语音的(V)且f_r1为非语音的(UV)。如果判断结果为“是”，即f_r0为语音的(V)且f_r1为非语音的(UV)，则程序转到步骤S16；如果判断结果为“否”，即f_r0是非语音的(UV)，而f_r1是语音的(V)，则程序转到步骤S17。

步骤S16的处理过程涉及这样的情况：f_r0和f_r1对于V/UV是不同的，即两者之一为语音的，而另一个为非语音的。考虑这样的事实，即f_r0和f_r1的V/UV不同对于在该两者间插值不重要。这样，不用进行插值即采用较接近时间m/spd的一帧的参数值。

如果f_r0是语音的(V)且f_r1是非语音的(UV)，程序转到步骤S16，该步骤对如图10所示的“左段”(＝m/spd-f_r0)和“右段”(＝f_r1-m/spd)之间的大小进行互相比较。这里判断f_r0和f_r1哪一个最接近m/spd。要采用最接近m/spd的帧的参数来计算修正编码参数。

如果步骤S16的判断结果为“是”，则表示“右段”较大，此时帧f_r1离m/spd更远。这样在步骤S18中采用最接近m/spd的f_r0的参数来确定修正编码参数如下：

mod_P_ch[m]＝P_ch[f_r0]

mod_a_m[m][l]＝a_m[f_r0][l](这里0≤l＜L)

mod_lsp[m][i]＝lsp[f_r0][i](这里0≤i＜L)

mod_VUv[m]＝1

如果步骤S16的判断结果为“非”，左段≥右段，此时f_r1离m/spd更近，故程序转到步骤S19，在该步骤中将音高值最大化，采用帧f_r1的参数来确定修正编码参数，则，

mod_P_ch[m]＝Maxpitch

mod_a_m[m][l]＝a_m[f_r1][l](这里0≤l＜Maxpitch/2)

mod_lsp[m][i]＝Lsp[f_r1][i](这里0≤i＜L)

mod_VUv[m]＝0

于是在步骤S17中，相应于步骤S15的判断结果即f_r0是非语音的(UV)且f_r1是语音的(V)，进行类似于步骤S16的判断。在这种情况下，不进行插值而直接采用最接近时间m/spd的帧的参数值。

如果步骤S17的判断结果为“是”，在步骤S20中，将音高值最大化，并采用更近的帧f_r0的参数确定修正编码参数，则，

mod_P_ch[m]＝Maxpitch

mod_a_m[m][l]＝a_m[f_r0][l](这里0≤l＜Maxpitch)

mod_lsp[m][i]＝lsp[f_r0][i](这里0≤i＜I)

mod_VUv[m]＝0

如果步骤S17的判断结果为“非”，左段≥右段，这时帧f_r1最接近m/spd，程序转到步骤S21，采用帧f_r1的参数来确定修正编码参数，则，

mod_P_ch[m]＝P_ch[f_r1]

mod_a_m[m][l]＝a_m[f_r1][l](这里0≤l＜L)

mod_Lsp[m][i]＝lsp[f_r1][i](这里0≤l＜L)

mod_VUv[m]＝1

以这种方式，在图9中的步骤S6，根据帧f_r0和f_r1间的语音(V)和非语音(UV)特性关系，插值电路5进行不同的插值运算操作。在步骤S6完成插值操作后，程序转到步骤S7，在该步骤中，对 m的值进行递增，对步骤S5和S6进行重复操作，直到 m的值等于N₂。

此外，UV部分的短期rms序数通常用于噪声增益控制。但是，这里该参数设为1。

图12为修正编码参数运算单元3运算操作的示意图。图12A表示编码单元2每20ms对编码参数采样一次。如图12B所示，修正编码参数运算单元3的周期修正电路4设定周期为15ms，并设时轴进行压缩，根据如前所述的帧f_r0和f_r1的V/UV状态，如图12C所示，由插值运算操作对修正编码参数进行插值运算。

修正编码参数运算单元3可能会对序数进行反转，由周期修正电路4和插值电路5完成该操作，即如图13B所示，执行由图13A所示的编码参数的插值运算，以及如图13C所示，执行对修正编码参数的压缩运算。

由修正编码参数运算电路3输出的修正编码参数传给图1所示的解码电路6，解码电路6根据修正编码参数合成正弦波和噪声，并将合成音由输出端37输出。

参照图14和15说明解码单元6。为便于说明，假定传给解码单元6的参数为通常的编码参数。

参照图14，LSP的矢量量化输出，即相当于图3所示的端点15的所谓指标的输出，传给端点31。

输入信号输入给逆LSP矢量量化器32，进行逆矢量量化后得到线谱对(LBP)数据，将该数据传给LSP插值电路33进行LSP插值运算。插值数据结果由LSP至α转换电路32转换成线性预测编码(LPS)的α参数。

对应于图3所示的编码器的端点26的输出，向如图14所示的端点41输入频谱包络(Am)的加权矢量量化编码的指标数据。向端点43输入由图3中的端点28传递的音高信息和表示一UV区段内时间波形特性参数的数据，向端点46输入由图3中的点29传递的V/UV识别数据。

由端点41输入的波幅(Am)的矢量量化数据传输给逆矢量量化器42进行逆矢量量化。频谱包络数据结果传递给谐波/噪声电路或多频带激励(MBE)合成电路45。由端点43传递的数据输入给合成电路45，该端点43由转换开关44在音高数据和根据V/UV识别数据表示的UV帧波形特性值数据之间进行切换。由端点46传递的V/UV识别数据也输入合成电路45。

MBE合成电路的安排，即合成电路45的组成图示说明，将参照图15进行解释。

由合成电路45得到与图3中逆滤波电路21的输出相对应的LPC余数，该余数传给合成电路35，在合成电路35中进行LPC合成，以形成时间波形数据，该时间波形数据由后滤波器36进行滤波，最后重现的时域波形信号由端点37输出。

MBE合成电路示例，即合成电路45的示例将参照图15进行说明。

参照图15，由逆矢量量化器42(如图14所示)传递的频谱包络数据，即LPC余项的频谱包络数据传给端点131。传给端点43、46的数据与如图14所示的数据相同。传给端点43的数据由转换开关44进行选择，以使音高数据和表示UV波形的特性参数分别传给语音合成单元137和逆矢量量化器152。

由端点131传递的LPC余项的频谱波幅数据输入给数据数值后转换电路136进行后转换。数据数值后转换电路136进行后转换，即由数据数值转换单元119进行逆转换。逆幅数据结果传给语音合成单元137和非语音合成单元138。由端点43传递的音高数据经由转换开关44的固定端a传给合成单元137、138。由端点46传递的V/UV识别信号也传给合成单元137、138。

语音合成单元137通过合成余弦或正弦波来合成语音时域波形，而非语音合成单元138通过带通滤波器滤去白噪声，以合成非语音时域波形由加法器141将语音波形和非语音波形相加后传给输出端142。

如果V/UV编码是作为V/UV识别数据进行传输的，则全部频带由单个界点分成语音(V)区和非语音(UV)区，基于频带的V/UV识别数据可根据这个界点获得。如果在分析(编码)中频带数减小到一常数如12频带，可给变化的频带数一相应于原始音高的带宽，使减小的频带数得以抵消。

对由非语音合成单元138进行的非语音合成操作给予说明。

由白噪声发生器143产生的时域白噪声信号波形传给开窗口单元144加上有合适窗函数的窗口，如汉宁窗，该窗口预定长度为256样本。加了窗口的信号波形传给短期傅氏变换(STFT)单元145进行STFT以形成白噪声的频率功率谱。由STFT单元145传递的功率再传给频带波幅处理单元146，在单元146中，作为UV的频带用波幅加倍为|Am| UV，而其它作为V的频带宽被设定为0。频带波幅处理单元146接收到波幅数据、音高数据和V/UV识别数据。

频带波幅处理单元146的输出传给ISTFT单元147，在单元147中，来用原始白噪声相位进行逆STFT转换，以获得时域信号，ISTFT单元的输出经功率分布整形单元156及乘法器157传给叠加一和一相加单元148，在单元148中，叠加一和一相加在时轴上以合适的加权进行迭代，从而保证恢复原始连续波形。这样，通过合成获得连续的时域波形。叠加一和一相加单元148的输出传给加法器141。

如果在区域中至少有一个频带是语音的(V)，则上述操作由相应的合成单元137、138完成。如果区段中的全部频带为UV，则将转换开关44的可动触片44与固定端上接触，使时间波形信息代替音高信息传给逆矢量量化单元152。

于是，传给矢量量化单元152的数据是相应于由矢量量化单元127(如图4所示)传递的数据。

ISTFT单元147的输出在传给乘法器157前具有经功率分布整形单元156调整的时域能量分布。乘法器157用由矢量量化单元152获得的经滤波单元153传递的信号对ISTFT单元147的输出进行倍乘。比较粗糙的快速增益变化可由滤波单元153进行抑制。

这样合成的非语音信号由非语音合成单元138传出，并传递给加法器141，由加法器141将该信号与从语音信号合成单元137传递的信号相加，最后作为MBE合成输出的LPC余项信号由输出端142传出。

这些LPC余项信号传递给合成滤波器35(如图14)以形成终点重现语音信号。

语音信号重现装置1中由修正编码参数运算单元3对修正编码参数进行运算，该运算是在控制器(图中未示)的控制下进行的，并且运算单元3还借助修正编码参数对语音进行合成，该语音是已压缩的时轴原始语音信号。

这样，采用由修正编码参数运算单元3传递的mod_lsp[m][i]来代替LSP逆矢量量化电路32的输出。采用修正编码参数mod_lsp[m][i]代替原矢量逆量化值。将修正编码参数mod_lsp[m][i]传给LSP插值电路33进行Lsp插值，然后再传给Lsp-至-α转换单元34，将其转换成线性预测编码(Lpc)的α参数，将α参数传给合成滤波器35。

另一方面，采用修正编码参数a_m[m][l]代替数据编码转换单元136的输出或输入。将mod_P_ch[m]和mod_VUv[m]分别传给端点43、46。

将修正编码参数mod_a_m[m][l]作为频谱包络数据传给谱波/噪声合成电路45。由端点43传递的mod_P_ch[m]及由端点46传递的mod_VUv[m]经根据识别数据进行切换的转换开关44传递给合成电路45。

被压缩的时轴的原始语音信号由图15所示的上述结构通过利用上述修正编码参数进行合成，并在输出端37输出。

语音信号重现装置1对一组代替序号*[n](0≤n≤N₁)的修正编码参数mod_*[m](0≤m≤N₂)进行解码。在解码时，帧的间隔可通常定为20msec。这样，如果N₂＜N₁或N₂＜N₁，则相应有时轴压缩速度提高或时轴扩张速度降低。

如果根据如上所述进行时轴修正，则瞬时频谱和音高保持不变。这样，尽管在0.5≤spd≤2范围进行有效修正，但是几乎没有失真。

由于采用这一系统将最终得到的参数列在原20msec间隔里排列后进行解码，故任意提高或降低速度的控制是容易实现的。另一方面，不转变界点由同一操作可实现速度的升高或降低。

这样，实体存储的信息可在两倍于实时速度的速度下实现。由于尽管重放速度提高了，音高和语音依然保持不变，故，如果在高速下进行重现，可收到实体存储的信息，另一方面，采用CELP编码所需的辅助操作，如解码并输出以后的算术操作可省去。

尽管在上述第一实施例中修正编码参数运算单元3与解码单元6是相互独立的，但是也可在解码单元6中装有运算单元3。

在由语音信号重现装置1中的修正编码参数运算单元3对参数进行运算时，对am的插值运算操作是通过对一矢量量化值或一逆矢量量化值操作完成的。

根据本发明的用于实现语音信号传输方法的语音信号传输装置50将在下面给予说明，参照图16，语音信号传输装置50包括一传输器51，用于将输入语音信号根据时域帧单元进行分离，并在帧的基础上对输入语音信号进行编码以确定编码参数，然后，对编码参数进行插值以确定修正编码参数，并将该修正编码参数传输出去。语音信号传输装置还包括一接收器56，用于接收修正编码参数并合成正弦波和噪声。

传输器51包括一编码器53，用于将输入语音信号根据预定时域帧单元进行分离并根据帧对输入语音信号进行编码以确定编码参数；包括一插值单元54，用于对编码参数进行插值以确定修正编码参数；还包括一传输单元55，用于传输修正编码参数。接收器56包括一接收单元57，一对修正编码参数进行插值的插值单元58和一解码单元59，解码单元59用于根据经插值的参数合成正弦波和噪声以在输出端60输出合成的语音信号。

编码单元53和解码单元59的基本操作与语音信号重现装置1相同，为了简便起见，就不进行详细说明了。

参照图17所示的流程图，对传输器51的操作进行说明，该流程图对编码单元53的解码操作和插值单元54的插值运算操作合并表示。

编码单元53在步骤S31和S33中提取编码参数Lsp、音高P_ch、V/UV和a_m。尤其，Lsp在步骤S31由插值单元54进行插值和重整并在步骤S32进行量化，而音高P_ch、V/UV和a_m在步骤S34进行插值和重整并在步骤S35进行量化。这些经量化的数据经传输器55传输给接收器56。

接收器56中，经接收单元57接收的量化数据传输插值单元58，在步骤S36中由插值单元58对参数进行插值和重整。在步骤S37由解码单元59对数据进行合成。

这样，为了通过时间轴压缩提高速度，语音信号传输装置50在传输时对参数进行插值并修正参数的帧间隔。同时，由于重现是在接收中通过在固定的帧间隔确定参数来完成的。故速度控制算法可直接应用于比特速率转换。

假设，如果参数插值用于速度控制，则参数插值在解码器中进行。但是，如果该操作在解码器中进行对时轴压缩(分样)的数据编码，并由解码器扩大时轴(插值)，那么，传输比特速率可调整在比率spd。

如果传输速率为1.975Kbps，并在设定的两倍速度即spd＝0.5进行编码，由于是在0.5秒的速度编码而不是原来的10秒，故传输速度变为1.975×0.5Kbps。

由编码单元53得到的编码参数(如图18A所示)由插值器54以任意的时间间隔如为30ms进行插值和重整，如图18B所示。在接收器56的插值器58中将编码参数插值和重整到20ms，如图18C所示，然后由解码单元59对参数进行合成。

如果解码器有类似组成，就可将速度恢复为原始值，并可接收到高速或低速的语音，即，可采用变化的比特速率的速度控制。

Claims

1.一种重现输入语音信号的方法，该重现方法基于通过将输入语音信号在时轴上分成预定长度的帧并以帧为基础对输入语音信号编码来产生第一编码参数，所述第一编码参数以第一时间间隔而被分开，所述方法包括以下步骤：

2.如权利要求1所述的重现输入语音信号的方法，其特征在于，所述修正语音信号是通过根据第二编码参数合成正弦波来产生的。

3.如权利要求2所述的重现输入语音信号的方法，其特征在于，所述第一编码参数的周期的改变是通过在插值所述第一编码参数的步骤之前或之后分别压缩或扩展该第一编码参数而实现的。

4.如权利要求1所述的重现输入语音信号的方法，其特征在于，所述第一编码参数的插值步骤是通过对包括在所述第一编码参数中的线谱对参数、音高和余项频谱包络的线性插值而实现的。

5.如权利要求1所述的重现输入语音信号的方法，其特征在于，所采用的第一编码参数是通过把输入语音信号的短期预测余项表示为合成的正弦波和噪声并通过对每一合成的正弦波和噪声的频谱信息编码而确定的。

6.一种重现语音信号的装置，在该装置中，输入语音信号的再生基于通过将输入语音信号在时轴上分成具有预定长度的帧并通过以帧为基础对输入语音信号进行编码来确定第一编码参数，所述第一编码参数以第一时间间隔而被分开，该装置包括，

7.如权利要求6所述的重现语音信号的装置，其特征在于所述语音信号发生装置通过根据所述第二编码参数合成正弦波来产生所述修正语音信号。

8.如权利要求7所述的重现语音信号的装置，其特征在于进一步包括周期变换装置，该周期变换装置装在所述插值装置前端或后端，用于分别压缩和扩展所述第一编码参数以变换所述第一编码参数的周期。

9.如权利要求6所述的重现语音信号的装置，其特征在于，所述插值装置完成对包括在所述第一编码参数中的线谱对参数、音高和余项频谱包络的线性插值。

10.如权利要求6所述的重现语音信号的装置，其特征在于，所采用的所述第一编码参数是通过把输入语音信号的短期预测余项表示为合成的正弦波和噪声并通过对每一合成的正弦波和噪声的频谱信息进行编码来确定的。

11.一种传输语音信号的方法，包括如下步骤：

传输所述第二编码参数。