CN1252680C

CN1252680C - 语音编码装置以及语音编码方法

Info

Publication number: CN1252680C
Application number: CNB018213227A
Authority: CN
Inventors: 山浦正; 田崎裕久
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2000-12-26
Filing date: 2001-04-26
Publication date: 2006-04-19
Anticipated expiration: 2021-04-26
Also published as: US20040049382A1; DE60126334D1; TW509889B; EP1351219A4; EP1351219B1; DE60126334T2; JP2002196799A; JP3404016B2; IL156060A0; WO2002054386A1; US7454328B2; EP1351219A1; CN1483189A

Abstract

计算噪声性的驱动码向量的编码失真，并乘以与噪声性的程度相应的固定的加权值，另一方面，计算非噪声性的驱动码向量的编码失真，并乘以与噪声性的程度相应的固定的加权值，选择与值小的乘积有关的驱动音源码。

Description

语音编码装置以及语音编码方法

技术领域

本发明涉及将数字信号压缩为很少信息量的语音编码装置以及语音编码方法。

背景技术

在已有的多种语音编码装置中，将输入语音分为频谱包络信息和音源信息，并按照规定长区间的帐单位分别对它们进行编码，产生语音码。作为最有代表性的语音编码装置，有使用码激励线性预测编码(Code-Excited Linear Prediction：CELP)方法的装置。

图1是显示已有的CELP系的语音编码装置的结构图。图中，1是线性预测分析单元，用于分析输入语音、提取出作为该输入语音的频谱包络信息的线性预测系数。2是线性预测系数编码单元，用于对由线性预测分析单元1提取出的线性预测系数进行编码，并输出给多路复用单元6，并将该线性预测系数的量化值输出给自适应音源编码单元3、驱动音源编码单元4以及增益编码单元5。

3是自适应音源编码单元，用于使用从线性预测系数编码单元2输出的线性预测系数的量化值来生成临时合成音，选择临时合成音与输入语音的距离最小的自适应音源码，并输出到多路复用单元6，同时，将与该自适应音源码相应的自适应音源信号(周期重复过去的规定长的音源信号的时间序列向量)输出到增益编码单元5。4是驱动音源编码单元，用于使用从线性预测编码单元2输出的线性预测系数的量化值来生成临时合成音，选择临时合成音与编码对象信号(从输入语音中减去了由自适应音源信号而产生的合成音的信号)的距离最小的驱动音源码，并输出到多路复用单元6，同时，将与作为该驱动音源码的时间序列向量的驱动音源信号输出到增益编码单元5。

5是增益编码单元，用于将从自适应音源编码单元3输出的自适应音源信号和从驱动音源编码单元4输出的驱动音源信号乘以增益向量的各要素，将各乘积彼此相加生成音源信号，并使用从线性预测系数编码单元2输出的线性预测系数的量化值，由该音源信号而生成临时合成音，选择临时合成音与输入语音的距离最小的增益码，并输出给多路复用单元6。6是多路复用单元，用于对由线性预测系数编码单元2编码后的线性预测系数码、从自适应音源编码单元3输出的自适应音源码、从驱动音源编码单元4输出的驱动音源码、以及从增益编码单元5输出的增益码进行多路复用，从而输出语音码。

图2是显示驱动音源编码单元4内部的结构图。图中，11是驱动音源代码簿(日文：符号帳)、12是合成滤波器、13是失真计算单元、14是失真估测单元。

接下来，将就操作进行说明。

已有的语音编码装置，是以5～50ms的程度为1幀，以幀为单位执行处理。

首先，就频谱包络信息的编码进行说明。

线性预测分析单元1在输入语音之后，分析该输入语音，并提取出作为语音频谱包括信息的线性预测系数。

在线性预测分析单元1提取出线性预测系数后，线性预测系数编码单元2对该线性预测系数进行编码，并将该码输出给多路复用单元6。将该线性预测系数的量化值输出给自适应音源编码单元3、驱动音源编码单元4以及增益编码单元5。

接下来，就音源信息的编码进行说明。

自适应音源编码单元3内藏存储过去规定长的音源信号的自适应音源代码簿，根据在内部产生的各自适应音源码(自适应音源码用几比特的二进制数表示)，产生周期性重复过去的音源信号的时间序列向量。

接下来，在将各时间序列向量乘以适当的增益之后，通过使各时间序列向量经过使用从线性预测系数编码单元2输出的线性预测系数的量化值的合成滤波器，来产生临时合成音。

之后，自适应音源编码单元3例如是调查临时合成音与输入语音之间的距离，作为编码失真，选出该距离最小的自适应音源码，将其输出给多路复用单元，同时，将对应该选出的自适应音源码的时间序列向量作为自适应音源信号，输出至增益编码单元5。

将从输入语音中减去由自适应音源信号产生的合成音后的信号作为编码对象信号，输出至驱动音源编码单元4。

接下来，就驱动音源编码单元4的操作进行说明。

驱动音源编码单元4的驱动音源代码簿11存储作为噪声性(noise-like)的多个时间序列向量的驱动码向量，并根据从失真估测单元14中输出的各驱动音源信号(驱动音源信号用几比特的二进制数表示)，顺序输出时间序列向量。接着，在将各时间序列向量乘以适当的增益之后，输入到合成滤波器12。

合成滤波器12使用从线性预测系数编码单元2输出的线性预测系数的量化值，产生乘以增益后的各时间序列向量的临时合成音，并将其输出。

失真计算单元13例如是计算临时合成音与从自适应音源编码单元3输出的编码对象信号之间的距离，作为编码失真。

失真估测单元14选择由失真计算单元13计算出的临时合成音与编码对象信号间的距离最小的驱动音源码，并输出至多路复用单元6，同时，将意图使与该选择出的驱动音源码相应的时间序列向量作为驱动音源信号输出至增益编码单元5的指令输出到驱动音源代码簿11。

增益编码单元5内藏存储增益向量的增益代码簿，根据在内部产生的各增益码(增益码由几比特的二进制数表示)，顺序执行从该增益代码簿中读出增益向量。

之后，各增益向量的要素分别乘以从自适应音源编码单元3输出的自适应音源信号、以及从驱动音源编码单元4输出的驱动音源信号，将各乘积彼此相加，产生音源信号。

接下来，通过使该音源信号通过使用从线性预测系数编码单元2输出的线性预测系数的量化值的合成滤波器，从而生成临时合成音。

之后，增益编码单元5例如是调查临时合成音与输入语音之间的距离，作为编码失真，选择该距离最小的增益编码，并将其输出至多路复用单元6。然后，将与该增益码相应的音源信号输出到自适应音源编码单元3。由此，自适应音源编码单元3，利用与由增益编码单元5选出的增益码相应的音源信号，执行内藏的自适应音源代码簿的更新。

多路复用单元6对由线性预测系数编码单元2编码后的线性预测系数的码、从自适应音源编码单元3输出的自适应音源码、从驱动音源编码单元4输出的驱动音源码、以及从增益编码单元5输出的增益码进行多路复用，并输出作为多路复用结果的语音信号。

接下来，就谋求改进上述CELP系的语音编码装置的已有技术进行说明。

在特开平5-108098(文献1)以及江原等人的“使用代数代码的低比特率CELP的品质改进”，电子信息通信学会，1999年综合大学演讲文集，信息与系统，1227页(文献2)中，公开了以即便是以低比特率也能得到高品质语音为主要目的的、具有作为多个驱动音源生成单元的驱动音源代码簿的结构的CELP系的语音编码装置。在这些已有结构中，具有产生噪声性的多个时间序列向量的驱动音源代码簿、以及产生非噪声性(脉冲)的多个时间序列向量的驱动音源代码簿。

这里，非噪声性的时间序列向量，在文献1中是成为音频周期的脉冲串的时间序列向量，在文献2中是保持由少数脉冲构成的代数音源结构的时间序列脉冲。

图3是显示了具有多个驱动音源代码簿的驱动音源编码单元4的内部的结构图。除了驱动音源编码单元4的内部结构之外，其余为与图1的语音编码装置相同的结构。

图3中，21是存储噪声性的多个时间序列向量的第1驱动音源代码簿，22是第1合成滤波器，23是第1失真计算单元，24是存储非噪声性的多个时间序列向量的第2驱动音源代码簿，25是第2合成滤波器，26是第2失真计算单元，27是失真估测单元。

接下来，就其操作进行说明。

第1驱动音源代码簿21存储作为噪声性的多个时间序列向量的驱动码矢量，根据从失真估测单元27输出的各驱动音源码，顺序输出时间序列向量。接着，将各时间序列向量乘以适当的增益后，输入到第1合成滤波器22。

第1合成滤波器22使用从线性预测系数编码单元2输出的线性预测系数的量化值，产生乘以增益后的各时间序列向量的临时合成音，并将其输出。

之后，第1失真计算单元23例如计算临时合成音与从自适应音源编码单元3输出的编码对象信号间的距离，将其作为编码失真输出到失真估测单元27。

另一方面，第2驱动音源代码簿24存储作为非噪声性的多个时间序列向量的驱动码向量，根据从失真估测单元27输出的各驱动音源码，顺序输出时间序列向量。接着，在将各时间序列向量乘以了适当的增益之后，输入到第2合成滤波器25。

第2合成滤波器25使用从线性预测系数编码单元2输出的线性预测系数的量化值，生成乘以增益后的各时间序列向量的临时合成音，并将其输出。

之后，第2失真计算单元26例如计算临时合成音与从自适应音源编码单元3输出的编码对象信号间的距离，将其作为编码失真，输出到失真估测单元27。

失真估测单元27选择所述临时合成音与编码对象信号间的距离为最小的驱动音源码，将其输出到多路复用单元6，同时，将意图将该选出的驱动音源码相应的时间序列向量作为驱动音源信号输出到增益编码单元5的指令输出到第1驱动音源代码簿21或第2驱动音源代码簿24。

特开平5-273999号公报(文献3)中，公开了在具有多个驱动音源代码簿的结构中，进一步以避免频繁切换在元音的稳定部分等中所选择的驱动音源代码簿为目的，基于音响特征对输入语音进行分类，并在驱动音源码选择的失真估测中反映该分类结果的方法。

由于已有的语音编码装置是如上构成的，因此具有所生成的时间序列向量的形态不同的多个驱动音源代码簿，选出由各时间序列向量所生成的临时合成音与编码对象信号间的距离最小的时间序列向量(参见图3)。这里，与噪声性时间序列向量相比，非噪声性(脉冲)时间序列向量具有临时合成音与编码对象信号的距离变小的倾向，被选中的比例大。

但是，由于在多数选择非噪声性(脉冲)时间序列向量的情况中，音质多变为脉冲样的，因此，存在所谓的主观品质不一定最好的缺陷。

编码对象信号和输入语音在噪声性区间，也存在所谓的在大多选择非噪声性(脉冲的)时间序列向量的情况下，音质为脉冲样的、其主观品质恶化变显著的缺陷。

具有多个驱动音源代码簿的情况下，各驱动音源代码簿被选中的比例，也是以各驱动音源代码簿生成的时间序列向量数为基础的，生成的时间序列向量数多的驱动音源代码簿被选中的比例大。

这里，如果改变各驱动音源代码簿生成的时间序列向量的数，调整选中各驱动音源代码簿的比例，就能够使主观品质最佳。

但是，如果各驱动音源代码簿的结构不同，则既便是所生成的时间序列向量数相同，存储所需的存储量和编码处理中所需的处理量也不同。例如，在使用生成音频周期的脉冲串的驱动音源代码簿的情况中，存储量、处理量都小，但在存储并使用通过针对语音的失真最小化学习所获得的时间序列向量的情况下，存储量、处理量都大。由此，由于安装语言编码方法的硬件的规模或性能而使各驱动音源代码簿生成的时间序列向量的数目受到限制，因此，不能将各驱动音源代码簿被选中的比例调整为最佳，存在主观品质不一定最佳的缺陷。

特开平5-273999号公报(文献3)中，尽管避免了频繁切换在元音稳定部分所选的驱动音源代码簿，但是，每帳的编码结果主观上并不良好，相反，由于类脉冲的音源连续，而存在主观品质低下的缺陷。

再有，编码对象信号或输入语音为噪声性时，或是有硬件限制时等等情况下，还存在上述问题没有全部解决的缺陷。

由于本发明是为了解决上述问题而作出的，因此其目的是得到语音编码装置和语音编码方法，用于效率优良地利用多个驱动音源代码簿，从而能够获得主观上品质高的语音码。

发明内容

依据本发明的语音编码装置是这样构成的：在音源信息编码单元选择驱动音源码时，计算噪声性的驱动码向量的编码失真，将其乘以与噪声性的程度相应的固定的加权值，另一方面，计算非噪声性的驱动码向量的编码失真，将其乘以与噪声性的程度相应的固定的加权值，选择与值小一方的乘积有关的驱动音源码。

如此，效率优良地利用多个驱动音源代码簿，从而具有能够得到主观上品质高的语音码的效果。

依据本发明的语音编码装置是这样构成的：音源信息编码单元使用噪声性程度彼此不同的噪声性驱动码向量和非噪声性的驱动码向量。

由此，减轻了所谓音质变为类脉冲的恶化，从而具有能够得到主观上品质高的语音码。

依据本发明的语音编码装置是这样构成的：音源信息编码单元根据编码对象信号的噪声性程度来改变加权值。

由此，减轻所谓变为类脉冲的音质的恶化，从而具有能够得到主观上品质高的语音码的效果。

依据本发明的语音编码装置是这样构成的：音源信息编码单元根据输入语音的噪声性程度来改变加权值。

由此，减轻所谓变为类脉冲的音质的恶化，从而能够得到主观上品质高的语音编码的效果。

依据本发明的语音编码装置是这样构成的：音源信息编码单元根据编码对象信号以及输入语音的噪声性程度来改变加权值。

由此，可以进行更高度的加权值控制，从而具有品质改善效果高的效果。

依据本发明的语音编码装置是这样构成的：音源信息编码单元考虑针对驱动音源代码簿的驱动码向量的存储数，来决定加权值。

由此，不会受到硬件的规模或性能的影响，具有能够得到主观上品质高的语音码的效果。

依据本发明的语音编码方法是这样作的：在选择驱动音源码时，计算噪声性驱动码向量的编码失真，将其乘以与噪声性程度相应的固定的加权值，另一方面，计算非噪声性驱动码的编码失真，将其乘以与噪声性程度相应的固定的加权值，选择与值小一方的乘积相关的驱动音源码。

由此，效率优良地利用多个驱动音源代码簿，从而具有能够得到主观上品质高的语音码的效果。

依据本发明的语音编码方法是这样作的：使用噪声性程度彼此不同的噪声性驱动码向量和非噪声性的驱动码向量。

依据本发明的语音编码方法是这样作的：根据编码对象信号的噪声性程度来改变加权值。

由此，减轻所谓成为类脉冲的音质的恶化，具有能够得到主观上品质高的语音码的效果。

依据本发明的语音编码方法是这样作的：根据输入语音的噪声性程度来改变加权值。

由此，减轻所谓变为类脉冲的音质的恶化，具有能够得到主观上品质高的语音编码的效果。

依据本发明的语音编码方法是这样作的：根据编码对象信号以及输入语音的噪声性程度来改变加权值。

依据本发明的语音编码方法是这样作的：考虑针对驱动音源代码簿的驱动码向量的存储数，来决定加权值。

附图说明

图1是显示已有的CELP系的语音编码装置的结构图。

图2是显示驱动音源编码单元4的内部的结构图。

图3是显示具有多个驱动音源代码簿的驱动音源编码单元4的内部的结构图。

图4是显示根据本发明实施例1的语音编码装置的结构图。

图5是显示驱动音源编码单元34的内部的结构图。

图6是显示驱动音源编码单元34的处理内容的流程图。

图7是显示驱动音源编码单元34的内部的结构图。

图8是显示根据本发明实施例3的语音编码装置的结构图。

图9是显示驱动音源编码单元37的内部的结构图。

图10是显示驱动音源编码单元37的内部的结构图。

图11是显示驱动音源编码单元34的内部的结构图。

具体实施方式

为了对本发明进行更详细的说明，以下将根据附图，对实施本发明的最佳形式进行说明。

实施例1

图4是显示依据本发明实施例1的语音编码装置的结构图。图中，31是线性预测分析单元，用于分析输入语音，并提取出作为该输入语音的频谱包络信息的线性预测系数；32是线性预测系数编码单元，用于对线性预测分析单元31提取出的线性预测系数进行编码，并将其输出到多路复用单元36，另一方面，将该线性预测系数的量化值输出到自适应音源编码单元33、驱动音源编码单元34以及增益编码单元35。

由线性预测分析单元31以及线性预测系数编码单元32而构成了包络信息编码单元。

33是自适应音源编码单元，用于使用从线性预测系数编码单元32输出的线性预测系数的量化值来产生临时合成音，选出临时合成音与输入语音的距离最小的自适应音源码，将其输出到多路复用单元36，同时，将与该自适应音源码相应的自适应音源信号(周期重复过去的规定长的音源信号的时间序列向量)输出到增益编码单元35；34是驱动音源编码单元，使用从线性预测系数编码单元32输出的线性预测系数的量化值来产生临时合成音，选出临时合成音与编码对象信号(从输入语音中减去了自适应音源信号所导致的合成音)的距离最小的驱动音源码，将其输出到多路复用单元36，同时，将作为与该驱动音源码相应的时间序列向量的驱动音源信号输出到增益编码单元35。

35是编码增益单元，将从自适应音源编码单元33输出的自适应音源信号和从驱动音源编码单元34输出的驱动音源信号乘以增益向量的各要素，将各乘积彼此相加产生音源信号，另一方面，使用从线性预测系数编码单元32输出的线性预测系数的量化值，由其音源信号而生成临时合成音，选择临时合成音与输入语音的距离最小的增益码，并将其输出到多路复用单元36。

由自适应音源编码单元33、驱动音源编码单元34以及增益编码单元35构成了音源信息编码单元。

36是多路复用单元，用于对由线性预测系数编码单元32编码的线性预测系数的码、从自适应音源编码单元33输出的自适应音源码、从驱动音源编码单元34输出的驱动音源码、以及从增益编码单元35输出的增益码进行多路复用，并输出语音码。

图5是显示驱动音源编码单元34的内部的结构图。在图中，41是第1驱动音源代码簿，它是存储噪声性的多个时间序列向量(驱动码向量)的驱动音源生成单元；42是第1合成滤波器，它使用从线性预测系数编码单元32输出的线性预测系数的量化值，生成各时间序列向量的临时合成音；43是第1失真计算单元，用于计算临时合成音与从自适应音源编码单元33输出的编码对象信号间的距离；44是第1加权单元，用于将与上述时间序列向量的噪声性程序相应的固定的加权值乘以第1失真计算单元43的计算结果。

45是第2驱动音源代码簿，它是存储非噪声性的多个时间序列向量(驱动码向量)的驱动音源生成单元；46是第2合成滤波器，它使用从线性预测系数编码单元32输出的线性预测系数的量化值，生成各时间序列向量的临时合成音；47是第2失真计算单元，用于计算临时合成音与从自适应音源编码单元33输出的编码对象信号的距离；48是第2加权单元，用于将与上述时间序列向量的噪声性程序相应的固定的加权值乘以第2失真计算单元47的计算结果；49是失真估测单元，用于选择与第1加权单元44的乘积和第2加权单元48的乘积中值小一方的乘积有关的驱动音源码。

图6是显示驱动音源编码单元34的处理内容的流程图。

接下来就其操作进行说明。

语音编码装置以5～50ms的程度为一帧，以帧为单位执行处理。

首先，就频谱包络信息的编码进行说明。

线性预测分析单元31在语音输入后分析该输入语音，提取作为语音频谱包络信息的线性预测系数。

线性预测系数编码单元32在线性预测分析单元31提取出线性预测系数后，对该线性预测系数进行编码，并将该码输出到多路复用单元36。该线性预测系数的量化值还被输出到自适应音源编码单元33、驱动音源编码单元34以及增益编码单元35。

接下来，就音源信息的编码进行说明。

自适应音源编码单元33内藏存储过去的规定长的音源信号的自适应音源代码簿，根据在内部生成的各自适应音源信号(自适应音源代码用几比特的二进制数表示)，生成周期重复过去的音源信号的时间序列向量。

接下来，在各时间序列向量乘以适当的增益之后，通过使各时间序列向量经过使用从线性预测系数编码单元32输出的线性预测系数的量化值的合成滤波器，从而生成临时合成音。

之后，自适应音源编码单元33例如调查临时合成音与输入语音的距离，作为编码矢量，选择该距离最小的自适应音源码，并将其输出到多路复用单元36，同时，将与该选择的自适应音源码相应的时间序列向量作为自适应音源信号输出到增益编码单元35。

将从输入语音中减去了由自适应音源信号而产生的合成音后的信号作为编码对象信号，输出到驱动音源编码单元34。

接下来，就驱动音源编码单元34的操作进行说明。

第1驱动音源代码簿41存储作为噪声性的多个时间序列向量的驱动码向量，根据从失真估测单元49输出的各驱动音源码，顺序输出时间序列向量(步骤ST1)。接下来，在将各时间序列向量乘以适当的增益后，将其输入到第1合成滤波器42。

第1合成滤波器42使用从线性预测系数编码单元32输出的线性预测系数的量化值，产生乘以增益后的各时间序列向量的临时合成音，并将其输出(步骤ST2)。

之后，第1失真计算单元43例如计算临时合成音与从自适应音源编码单元33输出的编码对象信号的距离，作为编码失真(步骤ST3)。

第1加权单元44，根据存储在第1驱动音源代码簿41中的时间序列向量的噪声性的程度，使预先设定的固定的加权值乘以第1失真计算单元43的计算结果(步骤ST4)。

另一方面，第2驱动音源代码簿45存储作为非噪声性的多个时间序列向量的驱动码向量，根据从失真估测单元49输出的各驱动音源码，顺序输出时间序列向量(步骤ST5)。接下来，在将各时间序列向量乘以适当的增益之后，将其输出到第2合成滤波器46。

第2合成滤波器46使用从线性预测系数编码单元32输出的线性预测系数的量化值，产生乘以了增益的各时间序列向量的临时合成音(步骤ST6)。

之后，第2失真计算单元47例如计算临时合成音与从自适应音源编码单元33输出的编码对象信号的距离，作为编码失真(步骤ST7)。

第2加权单元48根据第2驱动音源代码簿45中存储的时间序列向量的噪声性的程度，使预先设定的固定的加权值乘以第2失真计算单元47的计算结果(步骤ST8)。

失真估测单元49选择所述临时合成音与编码对象信号的距离最小的驱动音源码。即，选择与第1加权单元44的乘积与第2加权单元48的乘积中值小一方的乘积有关的驱动音源码，并将其输出到多路复用单元36(步骤ST9)。将意图使与该选出的驱动音源码相应的时间序列向量作为驱动音源信号而输出到增益编码单元35的指令输出到第1驱动音源代码簿41或第2驱动音源代码簿45。

这里，第1加权单元44以及第2加权单元48所分别使用的固定的加权值，是根据它们分别对应的驱动音源代码簿中存储的时间序列向量的噪声性的程度而预先设定的。

以下，说明针对该驱动音源代码簿的加权设定法的一个例子。

首先，求出驱动音源代码簿内的各时间序列向量的噪声性的程度。噪声性的程度例如是使用过零数、振幅值的方差(日文：分散)、能量的时间偏差、非零采样数(采样数)、相位特性等物理参数而决定的。

接下来，计算驱动音源代码簿中存储的所有时间序列向量的噪声性的程度的平均值，在该平均值大的情况下，将加权值设置为小，在平均值小的情况下，将加权值设置为大。

即，在与存储噪声性的时间序列向量的第1驱动音源代码簿41相应的第1加权单元44中，将加权设置为小，在与存储非噪声性的时间序列向量的第2驱动音源代码簿45相应的第2加权单元48中，将加权设定为大。

由此，与已有的不执行加权的情况相比，容易选择第1驱动音源代码簿41内的噪声性时间序列向量。由此，减轻了已有的由于大多选择非噪声性(脉冲的)时间序列向量而引起的所谓成为类脉冲的音质的恶化。

如上所述，驱动音源编码单元34输出驱动音源信号后，增益编码单元35内藏存储增益向量的增益代码簿，根据在内部产生的各增益码(增益码由几比特的二进制数表示)，顺序执行从该增益代码簿中读出增益向量。

之后，各增益向量的要素分别乘以从自适应音源编码单元33输出的自适应音源信号、从驱动音源编码单元34输出的驱动音源信号，并将各乘积彼此相加从而产生音源信号。

接下来，通过使该音源信号经过使用从线性预测系数编码单元32输出的线性预测系数的量化值，从而生成临时合成音。

之后，增益编码单元35例如是调查临时合成音与输入语音之间的距离，作为编码失真，选择该距离最小的增益码，并将其输出到多路复用单元36。并将与该增益码相应的音源信号输出到自适应音源编码单元33。由此，自适应音源编码单元33使用与由增益编码单元35选择的增益码相应的音源信号，对内藏的自适应音源代码簿进行更新。

多路复用单元36，对由线性预测系数编码单元32编码的线性预测系数的码、从自适应音源编码单元33输出的自适应音源码、从驱动音源编码单元34输出的驱动音源码、以及从增益编码单元35输出的增益码进行多路复用，并输出作为其多路复用结果的语音码。

如上所述，由于根据该实施例1是这样构成的：具有多个生成驱动码矢量的驱动音源生成单元，决定每个驱动音源生成单元的固定的加权值，当选择驱动音源码时，在驱动音源生成单元中使用所决定的加权值，对该驱动音源生成单元产生的驱动码向量的编码失真进行加权，并对这种经过加权的编码失真进行比较估测，从而选出驱动音源码，因此，高效利用第1以及第2驱动音源代码簿，从而起到能够得到主观上品质高的语音码的效果。

由于每个驱动音源生成单元的固定的加权值是根据所述驱动音源生成单元产生的驱动码向量的噪声性的程度来确定的，因此，能够抑制大多选择非噪声性(脉冲的)的时间序列向量的情况。由此，减轻所谓音质变为类脉冲这样的恶化，实现得到主观上品质高的语音码的效果。

实施例2

图7是显示驱动音源编码单元34的内部的结构图。图中，由于与图5相同的标记显示了相同或相当的部分，因此省去对它们的说明。

50是根据编码对象信号的噪声性的程度来改变加权值的估测加权决定单元。

接下来，就其操作进行说明。

但是，由于除了添加了驱动音源编码单元34的估测加权决定单元50这一点之外，它与上述实施例1都是相同的，因此，仅对不同点进行说明。

估测加权决定单元50分析编码对象信号，分别决定从第1失真计算单元43以及第2失真计算单元47输出的临时合成音与编码对象信号的距离所乘的加权值，并将这些加权值分别输出到第1加权单元44和第2加权单元48。

这里，临时合成音与编码对象信号的距离所乘的加权值是根据编码对象信号的噪声性的程度而决定的，但是，在编码对象信号的噪声性的程度大的情况下，针对噪声性程度大的第1驱动音源代码簿41的加权值变小，针对噪声性程度小的第2驱动音源代码簿45的加权值变大。

即，在编码对象信号的噪声性程度大的情况下，更容易选择噪声性程度大的(噪声性的)时间序列向量。

由此，减轻像已有情况那样的、由于编码对象信号在噪声性区间多选择了非噪声性(脉冲的)时间序列向量而引起的所谓变为脉冲样的音质的恶化，从而能够实现得到主观品质高的语音码的效果。

实施例3

图8是显示依据本发明实施例3的语音编码装置的结构图。图中，由于与图4相同的标记表示相同或相当的部分，因此省略对其的说明。

37是驱动音源编码单元(音源信息编码单元)，它使用从线性预测系数编码单元32输出的线性预测系数的量化值来生成临时合成音，选择临时合成音与编码对象信号(从输入语音中减去了由自适应音源信号而产生的合成音的信号)的距离最小的驱动音源码，并将其输出到多路复用单元36，同时，将作为与该驱动音源码相应的时间序列向量的驱动音源信号输出到增益编码单元35。

图9是显示驱动音源编码单元37的内部的结构图。图中，由于与图5相同的标记显示了相同或相当的部分，因此省略对其的说明。

51是根据输入语音的噪声性程度来改变加权值的估测加权决定单元。

接下来，就其操作进行说明。

但是，由于除了添加了估测加权决定单元51这一点之外都与上述实施例1相同，因此，仅对不同点进行说明。

估测加权决定单元51分析输入语音，分别决定从第1失真计算单元43以及第2失真计算单元47输出的临时合成音与编码对象信号的距离所乘的加权值，并将这些加权值分别输出到第1加权单元44和第2加权单元48。

这里，临时合成音与编码对象信号的距离所乘的加权值是根据输入语音的噪声性的程度而决定的，但是，在输入语音的噪声性的程度大的情况下，针对噪声性程度大的第1驱动音源代码簿41的加权值变小，针对噪声性程度小的第2驱动音源代码簿45的加权值变大。

即，在输入语音的噪声性程度大的情况下，更容易选择噪声性程度大的(噪声性的)时间序列向量。

由此，减轻像已有情况那样的、由于输入语音在噪声性区间多选择了非噪声性(脉冲的)时间序列向量而引起的所谓变为脉冲样的音质的恶化，从而能够实现得到主观品质高的语音码的效果。

实施例4

图10显示了驱动音源编码单元37的内部的结构图。图中，与图5相同的标记表示相同或相当的部分，引起省略对其的说明。

52是根据编码对象信号以及输入语音的噪声性程度来改变加权值的估测加权决定单元。

接着，就其操作进行说明。

但是，由于除了添加了估测加权决定单元52这一点之外都与上述实施例1相同，因此仅对不同点进行说明。

估测加权决定单元52分析编码对象信号以及输入语音，分别决定从第1失真计算单元43以及第2失真计算单元47输出的临时合成音与编码对象信号的距离所乘的加权值，并将这些加权值分别输出到第1加权单元44和第2加权单元48。

这里，临时合成音与编码对象信号的距离所乘的加权值是根据编码对象信号以及输入语音的噪声性的程度而决定的，但是，在编码对象信号和输入语音中两个的噪声性的程度都大的情况下，针对噪声性程度大的第1驱动音源代码簿41的加权值变小，针对噪声性程度小的第2驱动音源代码簿45的加权值变大。

在编码对象信号或输入信号中只有一方的噪声性程度大的情况下，针对第1驱动音源代码簿41的加权值稍微变小，针对第2驱动音源代码簿45的加权值稍微变大。

即，根据编码对象信号以及输入语音的噪声性程度，来控制噪声性程度大的(噪声性的)时间序列向量的选择容易度。

由此，减轻了像以往那样的、由于编码对象信号或输入语音在噪声性区间多选择非噪声性的(脉冲的)时间序列向量而引起的所谓变为脉冲样的音质的恶化。通过同时使用编码对象信号和输入语音来控制加权值，与仅仅使用其中任何一方的情况相比，处理变复杂了，但是可以进行更高的加权值控制，品质改善效果更高。

实施例5

图11是显示驱动音源编码单34的内部的结构图。图中，由于与图5相同的标记表示相同或相当的部分，因此省略对其的说明。

53是存储多个时间序列向量(驱动码向量)的第1驱动音源代码簿，第1驱动音源代码簿53中存储了少量的时间序列向量。54是第1加权单元，用于使根据第1驱动音源代码簿53中存储的时间序列向量的个数所设定的加权值乘以第1失真计算单元43的计算结果。55是存储多个时间序列向量(驱动码向量)的第2驱动音源代码簿，第2驱动音源代码簿55中存储了多个时间序列向量。56是第2加权单元，用于使根据第2驱动音源代码簿55中存储的时间序列向量的个数所设定的加权值乘以第2失真计算单元47的计算结果。

接下来，将就其操作进行说明。

但是，由于除了驱动音源编码单元34之外，其他都与上述实施例1相同，因此仅仅对不同点进行说明。

第1加权单元54使根据第1驱动音源代码簿53中存储的时间序列向量的个数所设定的加权值乘以第1失真计算单元43的计算结果。

第2加权单元56使根据第2驱动单元代码簿55中存储的时间序列向量的个数所设定的加权值乘以第2失真计算单元47的计算结果。

具体而言，第1加权单元54以及第2加权单元56使用的加权值，是根据它们分别对应的驱动音源代码簿53、55存储的时间序列向量的个数而预先设定的。

例如，在时间序列向量的个数少的情况下，加权值变小，在时间序列向量个数多个情况下，加权值变大。

即，对应于时间序列向量的存储数少的第1驱动音源代码簿53的第1加权单元54中，将加权值设定为小，对应于时间序列向量的存储数多的第2驱动音源代码簿55的第2加权单元56中，将加权值设定为大。

由此，与以往那种不执行加权的情况相比，更容易选择时间序列向量个数少的第1驱动音源代码簿53，能够不受硬件规模或性能的影响来调整选择各驱动音源代码簿的比例。由此，起到能够得到主观上品质高的语音码的效果。

实施例6

尽管在上述实施例1～5中准备了2个驱动音源代码簿，但是也可以准备3个以上的驱动音源代码簿来构成驱动音源编码单元34、37。

在上述实施例1～5中，明确显示了具有多个驱动音源代码簿的情况，但是，也可以将单独一个驱动音源代码簿中存储的时间序列向量根据其形态分割为多个部分集合，将各个部分集合看作是单独的驱动音源代码簿，并为每个部分集合设定不同的加权值。

尽管在上述实施例1～5中表现的是使用预先存储时间序列向量的驱动音源代码簿的情况，但也可以不使用驱动音源代码簿，而使用例如是自适应产生音频周期的脉冲串的脉冲发生器。

尽管在上述实施例1～5中表现的是通过乘以加权值而对编码失真进行加权的，但也可以通过将加权值加到编码失真上来进行加权。再有，不仅通过对编码失真进行线性运算而进行加权，也可以通过非线性运算进行加权。

在上述实施例1～5中，是对存储在多个驱动音源代码簿中的时间序列向量的编码失真进行加权估测，并选择存储了加权后的编码失真最小的时间序列向量的驱动音源代码簿，但是，也可将其扩大使用到由自适应音源编码单元33、驱动音源编码单元34以及增益编码单元35构成的音源信息编码单元中，可以是这样一种结构：具有多个音源信息编码单元，对各音源信息编码单元生成的音源信号的编码失真进行加权估测，选择生成加权后的编码失真为最小的音源信号的音源信号编码单元。

再有，上述多个音源信息编码单元的至少一个仅仅由驱动音源编码单元34和增益编码单元35构成等，音源信息编码单元的内部结构不同的结构也是可能的。

如上所述，根据本发明的语音编码装置以及语音编码方法，适于在将数字语音信号压缩为少信息量的同时，高效率地利用多个驱动音源代码簿而得到主观上品质高的语音码。

Claims

1.一种语音编码装置，具有音源信息编码单元(33、34、35)，用于提取输入语音的频谱包络信息，使用该频谱包络信息来选择生成合成音的驱动音源码，并输出输入语音的语音码，

其特征在于具有：

第1失真计算单元(43)，在上述音源信息编码单元选择驱动音源码时，计算噪声性的驱动码向量的编码失真；

第1加权单元(44)，对于第1失真计算单元的计算结果，乘以与噪声性的程度相应的第1固定加权值；

第2失真计算单元(47)，计算非噪声性的驱动码向量的编码失真；

第2加权单元(48)，对于第2失真计算单元的计算结果，乘以与噪声性的程度相应的第2固定加权值；

失真估测单元(49)，在第1加权单元的乘积与第2加权单元的乘积中，选择有关值小的乘积的驱动音源码。

2.如权利要求1所述的语音编码装置，其特征在于：音源信息编码单元使用噪声性程度不同的噪声性的驱动码向量以及非噪声性的驱动码向量。

3.如权利要求1或2所述的语音编码装置，其特征在于：语音信息编码单元具有估测加权决定单元(50)，用于根据编码对象信号的噪声性的程度来改变加权值。

4.如权利要求1或2所述的语音编码装置，其特征在于：所述音源信息编码单元具有估测加权决定单元(51)，用于根据输入语音的噪声性的程度来改变加权值。

5.如权利要求1或2所述的语音编码装置，其特征在于：音源信息编码单元具有估测加权决定单元(52)，用于根据编码对象信息以及输入语音的噪声性的程度来改变加权值。

6.一种语音编码装置，具有音源信息编码单元(33、34、35)，用于提取输入语音的频谱包络信息，使用该频谱包络信息来选择生成合成音的驱动音源码，并输出输入语音的语音码，

其特征在于具有：

第1失真计算单元(43)，在上述音源信息编码单元选择驱动音源码时，对从第1驱动音源代码簿(53)输出的驱动码向量的编码失真进行计算；

第1加权单元(54)，对于第1失真计算单元的计算结果，乘以根据上述第1驱动音源代码簿中的驱动码向量的存储数而设定的第1加权值；

第2失真计算单元(47)，对从第2驱动音源代码簿(55)输出的驱动码向量的编码失真进行计算；

第2加权单元(56)，对于第2失真计算单元的计算结果，乘以根据上述第2驱动音源代码簿中的驱动码向量的存储数而设定的第2加权值；

失真估测单元(49)，在第1加权单元的乘积和第2加权单元的乘积中，选择有关值小的乘积的驱动音源码。

7.一种语音编码方法，提取输入语音的频谱包络信息，使用该频谱包络信息选择生成合成音的驱动音源码，并输出输入语音的语音码，

其特征在于：

在选择上述驱动音源码时，计算噪声性的驱动码向量的编码失真，并使与噪声性程度相应的第1固定加权值乘以该计算结果；

计算非噪声性驱动码向量的编码失真，并对该结算结果乘以与噪声性程度相应的第2固定加权值；

在2个乘积中，选择有关值小的乘积的驱动音源码。

8.如权利要求7所述的语音编码方法，其特征在于：使用噪声性程度不同的噪声性驱动码向量和非噪声性的驱动码向量。

9.如权利要求7或8所述的语音编码方法，其特征在于：根据编码对象信号的噪声性程度来改变加权值。

10.如权利要求7或8所述的语音编码方法，其特征在于：根据输入语音的噪声性程度来改变加权值。

11.如权利要求7或8所述的语音编码方法，其特征在于：根据编码对象信号和输入语音的噪声性程度来改变加权值。

12.一种语音编码方法，提取输入语音的频谱包络信息，使用该频谱包络信息选择生成合成音的驱动音源码，并输出输入语音的语音码，

其特征在于：

在选择上述驱动音源码时，计算从第1驱动音源代码簿(53)输出的驱动码向量的编码失真，并使根据所述第1驱动音源代码簿中的驱动码向量的存储数而设定的第1加权值乘以该计算结果；

计算从第2驱动音源代码簿(55)输出的驱动码向量的编码失真，将根据上述第2驱动音源代码簿中的驱动码向量的存储数而设定的第2加权值乘以该计算结果；

在2个乘积中，选择有关值小的乘积的驱动音源码。