CN101091208B

CN101091208B - 语音编码装置和语音编码方法

Info

Publication number: CN101091208B
Application number: CN2005800450695A
Authority: CN
Inventors: 吉田幸司; 后藤道代
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: III Holdings 12 LLC
Priority date: 2004-12-27
Filing date: 2005-12-26
Publication date: 2011-07-13
Anticipated expiration: 2025-12-26
Also published as: EP1818911B1; US20080010072A1; BRPI0516376A; CN101091208A; US7945447B2; WO2006070751A1; KR20070092240A; ATE545131T1; EP1818911A1; JPWO2006070751A1; EP1818911A4; JP5046652B2

Abstract

提供一种在具有单声道/立体声可伸缩结构的语音编码中，即使在立体声信号的多个声道信号之间相关小的情况下也能够高效率地对立体声语音进行编码的语音编码装置。在该装置的核心层编码部分(110)中，单声道信号生成部分(111)由第一ch语音信号和第二ch语音信号生成单声道信号，单声道信号编码部分(112)进行对单声道信号的编码，单声道信号解码部分(113)由单声道信号的编码数据生成单声道的解码信号后输出到增强层编码部分(120)。在增强层编码部分(120)中，第一ch预测信号合成部分(122)由单声道解码信号和第一ch预测滤波器量化参数合成第一ch预测信号，第二ch预测信号合成部分(126)由单声道解码信号和第二ch预测滤波器量化参数合成第二ch预测信号。

Description

语音编码装置和语音编码方法

技术领域

本发明涉及语音编码装置和语音编码方法，特别涉及用于立体声语音的语音编码装置和语音编码方法。

背景技术

随着移动通信或IP通信中的传输频带的宽频化、服务的多样化，在语音通信中，对高质量化、高临场感化的需求提高。例如，预计今后电视电话服务中的免提(hands free)方式的通话、电视会议中的语音通信、多个通话者在多个地点同时进行会话的多地点语音通信、以及能够在保持临场感的同时传输周围的声音环境的语音通信等的需要会增加。在该情况下，期望实现比单声道信号有临场感，而且能够识别多个通话者的讲话位置的基于立体声语音的语音通信。为了实现这样的基于立体声语音的语音通信，必须将立体声语音编码。

此外，在IP网络上的语音数据通信中，为了实现网络上的通信量控制和组播通信，期望具有可伸缩(scalable)的结构的语音编码。可伸缩的结构是指在接收端即使由部分的编码数据也能够进行语音数据的解码的结构。

从而，期望具有在将立体声语音编码并传输的情况下也能够在接收端选择立体声信号的解码和使用了编码数据的一部分的单声道信号的解码的、单声道-立体声之间的可伸缩结构(单声道/立体声可伸缩结构)的编码。

作为这样的具有单声道/立体声可伸缩结构的语音编码方法，例如有通过声道相互间的音调(pitch)预测来进行声道(以下酌情简称为“ch”)之间的信号预测(从第一ch信号预测第二ch信号或从第二ch信号预测第一ch信号)，即利用两个声道之间的相关来进行编码的方法(参照非专利文献1)。

非专利文献1：Ramprashad，S.A.，“Stereophonic CELP coding using crosschannel prediction”，Proc.IEEE Workshop on Speech Coding，pp.136-138，Sep.2000.

发明内容

但是，在上述非专利文献1记载的语音编码方法中，在两个声道之间的相关小的情况下，声道之间的预测的性能(预测增益(gain))降低，编码效率恶化。

本发明的目的在于提供一种在具有单声道/立体声可伸缩结构的语音编码中，即使在立体声信号的多个声道信号之间的相关小的情况下也能够高效率地将立体声语音编码的语音编码装置和语音编码方法。

本发明的语音编码装置，包括：第一编码部件，在核心层中进行单声道信号的编码；以及第二编码部件，在增强层中进行立体声信号的编码，所述第一编码部件具有生成部件，用于将包含第一声道信号和第二声道信号的立体声信号作为输入信号，由所述第一声道信号以及所述第二声道信号生成单声道信号，所述第二编码部件具有：合成部件，用于根据从所述单声道信号得到的信号，对所述第一声道信号或所述第二声道信号的预测信号进行合成；以及计算部件，用于由所述第一声道信号或所述第二声道信号计算第一声道线性预测编码残差信号或第二声道线性预测编码残差信号，其中，所述合成部件使用所述第一声道线性预测编码残差信号或所述第二声道线性预测编码残差信号相对于将所述单声道信号进行码激励线性预测(CELP：Code Excited Linear Prediction)编码而得到的单声道驱动音源信号的延迟差和振幅比，合成所述预测信号。

根据本发明，即使在立体声信号的多个声道信号之间的相关小的情况下也能够高效率地将立体声语音编码。

附图说明

图1是表示本发明的实施方式1的语音编码装置的结构的方框图。

图2是表示本发明的实施方式1的第一ch、第二ch预测信号合成部分的结构的方框图。

图3是表示本发明的实施方式1的第一ch、第二ch预测信号合成部分的结构的方框图。

图4是表示本发明的实施方式1的语音解码装置的结构的方框图。

图5是本发明的实施方式1的语音编码装置的动作说明图。

图6是本发明的实施方式1的语音编码装置的动作说明图。

图7是表示本发明的实施方式2的语音编码装置的结构的方框图。

图8是表示本发明的实施方式2的语音解码装置的结构的方框图。

图9是表示本发明的实施方式3的语音编码装置的结构的方框图。

图10是表示本发明的实施方式3的第一ch、第二chCELP编码部分的结构的方框图。

图11是表示本发明的实施方式3的语音解码装置的结构的方框图。

图12是表示本发明的实施方式3的第一ch、第二chCELP解码部分的结构的方框图。

图13是本发明的实施方式3的语音编码装置的动作流程图。

图14是本发明的实施方式3的第一ch、第二chCELP编码部分的动作流程图。

图15是表示本发明的实施方式3的语音编码装置的其它结构的方框图。

图16是表示本发明的实施方式3的第一ch、第二chCELP编码部分的其它结构的方框图。

图17是表示本发明的实施方式4的语音编码装置的结构的方框图。

图18是表示本发明的实施方式4的第一ch、第二chCELP编码部分的结构的方框图。

具体实施方式

以下，参照附图详细说明与具有单声道/立体声可伸缩结构的语音编码有关的本发明的实施方式。

(实施方式1)

图1表示本实施方式的语音编码装置的结构。图1所示的语音编码装置100包括用于单声道信号的核心层编码部分110和用于立体声信号的增强层编码部分120。另外，在以下的说明中，将以帧为单位动作为前提来进行说明。

在核心层编码部分110中，单声道信号生成部分111按照算式(1)，由输入的第一ch语音信号s_ch1(n)、第二ch语音信号s_ch2(n)(其中，n＝0～NF-1；NF为帧长)生成单声道信号s_mono(n)，并输出到单声道信号编码部分112。

s_mono(n)＝(s_ch1(n)+s_ch2(n))/2…(1)

单声道信号编码部分112对单声道信号s_mono(n)进行编码，并将该单声道信号的编码数据输出到单声道信号解码部分113。此外，该单声道信号的编码数据与从增强层编码部分120输出的量化码或编码数据多路复用后，作为编码数据被传输到语音解码装置。

单声道信号解码部分113由单声道信号的编码数据生成单声道的解码信号后输出到增强层编码部分120。

在增强层编码部分120中，第一ch预测滤波器分析部分121由第一ch语音信号s_ch1(n)和单声道解码信号求第一ch预测滤波器参数并对其进行量化，将第一ch预测滤波器量化参数输出到第一ch预测信号合成部分122。另外，作为对第一ch预测滤波器分析部分121的输入，也可以使用单声道信号生成部分111的输出即单声道信号s_mono(n)来代替单声道解码信号。此外，第一ch预测滤波器分析部分121输出将第一ch预测滤波器量化参数编码而得的第一ch预测滤波器量化码。该第一ch预测滤波器量化码与其它的编码数据或量化码多路复用后作为编码数据被传输到语音解码装置。

第一ch预测信号合成部分122由单声道解码信号和第一ch预测滤波器量化参数合成第一ch预测信号，并将该第一ch预测信号输出到减法器123。关于第一ch预测信号合成部分122的细节在后叙述。

减法器123求输入信号即第一ch语音信号和第一ch预测信号的差，即第一ch预测信号相对于第一ch输入语音信号的残差分量的信号(第一ch预测残差信号)，并输出到第一ch预测残差信号编码部分124。

第一ch预测残差信号编码部分124将第一ch预测残差信号编码后输出第一ch预测残差编码数据。该第一ch预测残差编码数据与其它的编码数据或量化码多路复用后作为编码数据被传输到语音解码装置。

另一方面，第二ch预测滤波器分析部分125由第二ch语音信号s_ch2(n)和单声道解码信号求第二ch预测滤波器参数并对其进行量化，将第二ch预测滤波器量化参数输出到第二ch预测信号合成部分126。此外，第二ch预测滤波器分析部分125输出将第二ch预测滤波器量化参数编码而得的第二ch预测滤波器量化码。该第二ch预测滤波器量化码与其它的编码数据或量化码多路复用后作为编码数据被传输到语音解码装置。

第二ch预测信号合成部分126由单声道解码信号和第二ch预测滤波器量化参数合成第二ch预测信号，并将该第二ch预测信号输出到减法器127。关于第二ch预测信号合成部分122的细节在后叙述。

减法器127求输入信号即第二ch语音信号和第二ch预测信号的差，即第二ch预测信号相对于第二ch输入语音信号的残差分量的信号(第二ch预测残差信号)，并输出到第二ch预测残差信号编码部分128。

第二ch预测残差信号编码部分128将第二ch预测残差信号编码后输出第二ch预测残差编码数据。该第二ch预测残差编码数据与其它的编码数据或量化码多路复用后作为编码数据被传输到语音解码装置。

接着，详细说明第一ch预测信号合成部分122和第二ch预测信号合成部分126。第一ch预测信号合成部分122和第二ch预测信号合成部分126的结构如图2<结构例子1>或图3<结构例子2>所示。结构例子1和2都是基于第一ch输入信号和第二ch输入信号的相加信号即单声道信号和各声道信号之间的相关性，使用各声道信号相对于单声道信号的延迟差(D采样)和振幅比(g)作为预测滤波器量化参数，从而由单声道信号合成各声道的预测信号。

<结构例子1>

在结构例子1中，如图2所示，第一ch预测信号合成部分122和第二ch预测信号合成部分126包括延迟器201和乘法器202，通过算式(2)所表示的预测，由单声道解码信号sd_mono(n)合成各声道的预测信号sp_ch(n)。

sp_ch(n)＝g·sd_mono(n-D)…(2)

<结构例子2>

在结构例子2中，如图3所示，在图2所示的结构中还包括延迟器203-1～P、乘法器204-1～P和加法器205。而且，作为预测滤波器量化参数，除了各声道信号相对于单声道信号的延迟差(D采样)和振幅比(g)之外，还使用预测系数串{a(0)，a(1)，a(2)，...a(P)}(P为预测次数，a(0)＝1.0)，通过算式(3)所表示的预测，由单声道解码信号sd_mono(n)合成各声道的预测信号sp_ch(n)。

sp_ch (n) = Σ_{k = 0}^{P} {g \cdot a (k) \cdot sd_mono (n - D - k)} . . . (3)

相对于此，第一ch预测滤波器分析部分121和第二ch预测滤波器分析部分125求使算式(4)所表示的失真，即各声道的输入语音信号s_ch(n)(n＝0～NF-1)和按照上式(2)或(3)预测的各声道的预测信号sp_ch(n)的失真Dist最小的预测滤波器参数，并将该滤波器参数量化后的预测滤波器量化参数输出到采用上述结构的第一ch预测信号合成部分122和第二ch预测信号合成部分126。此外，第一ch预测滤波器分析部分121和第二ch预测滤波器分析部分125输出将预测滤波器量化参数编码而得的预测滤波器量化码。

Dist = Σ_{n = 0}^{NF - 1} {s_ch (n) - sp_ch (n)}^{2} . . . (4)

另外，对于结构例子1，第一ch预测滤波器分析部分121和第二ch预测滤波器分析部分125也可以求使单声道解码信号和各声道的输入语音信号之间的相互相关最大的延迟差D和帧单位的平均振幅的比g来作为预测滤波器参数。

接着，说明本实施方式的语音解码装置。图4表示本实施方式的语音解码装置的结构。图4所示的语音解码装置300包括用于单声道信号的核心层解码部分310和用于立体声信号的增强层解码部分320。

单声道信号解码部分311将输入的单声道信号的编码数据解码，并将单声道解码信号输出到增强层解码部分320，同时作为最终输出来输出。

第一ch预测滤波器解码部分321将输入的第一ch预测滤波器量化码解码后，将第一ch预测滤波器量化参数输出到第一ch预测信号合成部分322。

第一ch预测信号合成部分322采用与语音编码装置100的第一ch预测信号合成部分122相同的结构，由单声道解码信号和第一ch预测滤波器量化参数预测第一ch语音信号，并将该第一ch预测语音信号输出到加法器324。

第一ch预测残差信号解码部分323将输入的第一ch预测残差编码数据解码，并将第一ch预测残差信号输出到加法器324。

加法器324将第一ch预测语音信号和第一ch预测残差信号相加来求第一ch解码信号，并作为最终输出来输出。

另一方面，第二ch预测滤波器解码部分325将输入的第二ch预测滤波器量化码解码后，将第二ch预测滤波器量化参数输出到第二ch预测信号合成部分326。

第二ch预测信号合成部分326采用与语音编码装置100的第二ch预测信号合成部分126相同的结构，由单声道解码信号和第二ch预测滤波器量化参数预测第二ch语音信号，并将该第二ch预测语音信号输出到加法器328。

第二ch预测残差信号解码部分327将输入的第二ch预测残差编码数据解码，并将第二ch预测残差信号输出到加法器328。

加法器328将第二ch预测语音信号和第二ch预测残差信号相加来求第二ch解码信号，并作为最终输出来输出。

在采用这样的结构的语音解码装置300中，在单声道/立体声可伸缩结构中，将输出语音设为单声道的情况下，将仅从单声道信号的编码数据得到的解码信号作为单声道解码信号输出，在将输出语音设为立体声的情况下，使用接收的全部编码数据和量化码将第一ch解码信号和第二ch解码信号解码后输出。

这里，如图5所示，由于本实施方式的单声道信号是通过第一ch语音信号s_ch1和第二ch语音信号s_ch2的相加而得到的信号，因此是包含两个声道的信号分量的中间的信号。从而，预测即使在第一ch语音信号和第二ch语音信号的声道之间相关小的情况下，第一ch语音信号和单声道信号的相关以及第二ch语音信号和单声道信号的相关比声道之间相关大。从而，预测由单声道信号预测第一ch语音信号的情况下的预测增益以及由单声道信号预测第二ch语音信号的情况下的预测增益(图5：预测增益B)，大于由第一ch语音信号预测第二ch语音信号的情况下的预测增益以及由第二ch语音信号预测第一ch语音信号的情况下的预测增益(图5：预测增益A)。

而且，图6总结了该关系。即，在第一ch语音信号和第二ch语音信号的声道之间相关足够大的情况下，预测增益A以及预测增益B差别不大，两个都能得到足够大的值。但是，在第一ch语音信号和第二ch语音信号的声道之间相关小的情况下，预测与声道之间相关足够大的情况相比，预测增益A急剧降低，而预测增益B降低的程度比预测增益A小，成为比预测增益A大的值。

这样，在本实施方式中，由于由作为包含第一ch语音信号和第二ch语音信号两者的信号分量的中间信号的单声道信号预测各声道的信号并合成，因此对于声道之间相关小的多个声道的信号也能够合成预测增益比以往大的信号。其结果，能够以更低比特率的编码得到同等的音质，而且以同等的比特率得到更高音质的语音。从而，根据本实施方式，能够实现编码效率的提高。

(实施方式2)

图7表示本实施方式的语音编码装置400的结构。如图7所示，语音编码装置400采用从图1(实施方式1)所示的结构中除去第二ch预测滤波器分析部分125、第二ch预测信号合成部分126、减法器127和第二ch预测残差信号编码部分128的结构。换言之，语音编码装置400仅对第一ch和第二ch中的第一ch合成预测信号，并仅将单声道信号的编码数据、第一ch预测滤波器量化码和第一ch预测残差编码数据传输到语音解码装置。

另一方面，本实施方式的语音解码装置500的结构如图8所示。如图8所示，语音解码装置500采用从图4(实施方式1)所示的结构中除去了第二ch预测滤波器解码部分325、第二ch预测信号合成部分326、第二ch预测残差信号解码部分327以及加法器328，而加入第二ch解码信号合成部分331来代替其的结构。

第二ch解码信号合成部分331使用单声道解码信号sd_mono(n)和第一ch解码信号sd_ch1(n)，基于算式(1)所示的关系，按照算式(5)合成第二ch解码信号sd_ch2(n)。

sp_ch2(n)＝2·sd_mono(n)-sd_ch1(n)…(5)

另外，在本实施方式中，采用增强层编码部分120仅对第一ch进行处理的结构，也可以采用代替第一ch而仅对第二ch进行处理的结构。

这样，根据本实施方式，能够使装置结构比实施方式1简单。此外，由于仅传输第一ch以及第二ch中的一个声道的编码数据即可，所以进一步提高了编码效率。

(实施方式3)

图9表示本实施方式的语音编码装置600的结构。核心层编码部分110包括单声道信号生成部分111和单声道信号CELP编码部分114，增强层编码部分120包括单声道驱动音源信号保持部分131、第一chCELP编码部分132和第二chCELP编码部分133。

单声道信号CELP编码部分114对由单声道信号生成部分111生成的单声道信号s_mono(n)进行CELP编码，并输出单声道信号编码数据和通过CELP编码而得到的单声道驱动音源信号。该单声道驱动音源信号被保持在单声道驱动音源信号保持部分131中。

第一chCELP编码部分132对第一ch语音信号进行CELP编码后输出第一ch编码数据。此外，第二chCELP编码部分133对第二ch语音信号进行 CELP编码后输出第二ch编码数据。第一chCELP编码部分132和第二chCELP编码部分133使用单声道驱动音源信号保持部分131中保持的单声道驱动音源信号，进行与各声道的输入语音信号对应的驱动音源信号的预测，和对于该预测残差分量的CELP编码。

接着，说明第一chCELP编码部分132和第二chCELP编码部分133的细节。图10表示第一chCELP编码部分132和第二chCELP编码部分133的结构。

在图10中，第Nch(N为1或2)LPC分析部分401对第Nch语音信号进行LPC分析，将得到的LPC参数量化后输出到第NchLPC预测残差信号生成部分402和合成滤波器409，同时输出第NchLPC量化码。在第NchLPC分析部分401中，在LPC参数的量化时，利用对于单声道信号的LPC参数和由第Nch语音信号得到的LPC参数(第NchLPC参数)的相关大的情况，由单声道信号的编码数据将单声道信号量化LPC参数解码，通过对对于该单声道信号量化LPC参数的NchLPC参数的差分分量进行量化，从而进行高效率的量化。

第NchLPC预测残差信号生成部分402使用第Nch量化LPC参数计算对于第Nch语音信号的LPC预测残差信号，然后输出到第Nch预测滤波器分析部分403。

第Nch预测滤波器分析部分403由LPC预测残差信号和单声道驱动音源信号求第Nch预测滤波器参数并对其进行量化，将第Nch预测滤波器量化参数输出到第Nch驱动音源信号合成部分404，同时输出第Nch预测滤波器量化码。

第Nch驱动音源信号合成部分404使用单声道驱动音源信号和第Nch预测滤波器量化参数，将与第Nch语音信号对应的预测驱动音源信号合成后输出到乘法器407-1。

这里，第Nch预测滤波器分析部分403对应于实施方式1(图1)中的第一ch预测滤波器分析部分121和第二ch预测滤波器分析部分125，其结构和动作相同。此外，第Nch驱动音源信号合成部分404对应于实施方式1(图1～3)中的第一ch预测信号合成部分122和第二ch预测信号合成部分126，其结构和动作相同。但是，在本实施方式中，不是进行对单声道解码信号的预测并合成各声道的预测信号，而是进行对于与单声道信号对应的单声道驱动音源信号的预测并合成各声道的预测驱动音源信号，在这点上与实施方式1不同。而且，本实施方式中，通过CELP编码中的音源搜索来将对于该预测驱动音源信号的残差分量(预测不了的误差分量)的音源信号进行编码。

换言之，第一ch和第二chCELP编码部分132、133具有第Nch自适应码本405和第Nch固定码本406，对由自适应音源、固定音源和单声道驱动音源信号预测的预测驱动音源的各音源信号乘以它们各自的增益后相加，对于通过该相加而得到的驱动音源进行基于失真最小化的闭环型音源搜索。而且，将自适应音源索引、固定音源索引、自适应音源、固定音源和对于预测驱动音源信号的增益码作为第Nch音源编码数据输出。更具体地说，如下进行。

合成滤波器409使用从第NchLPC分析部分401输出的量化LPC参数将由第Nch自适应码本405和第Nch固定码本406生成的音源向量，以及由第Nch驱动音源信号合成部分404合成的预测驱动音源信号作为驱动音源，通过LPC合成滤波器进行合成。与该结果得到的合成信号中第Nch的预测驱动音源信号对应的分量在实施方式1(图1～3)中，相当于第一ch预测信号合成部分122或第二ch预测信号合成部分126输出的各声道的预测信号。而且，这样得到的合成信号被输出到减法器410。

减法器410通过从第Nch语音信号中减去从合成滤波器409输出的合成信号从而计算误差信号，并将该误差信号输出到听觉加权部分411。该误差信号相当于编码失真。

听觉加权部分411对从减法器410输出的编码失真进行听觉加权，并输出到失真最小化部分412。

失真最小化部分412对于第Nch自适应码本405和第Nch固定码本406决定使从听觉加权部分411输出的编码失真成为最小的索引，并指示第Nch自适应码本405和第Nch固定码本406使用的索引。此外，失真最小化部分412生成与这些索引对应的增益，具体来说，生成对于来自第Nch自适应码本405的自适应向量和来自第Nch固定码本406的固定向量的各增益(自适应码本增益和固定码本增益)，并分别输出到乘法器407-2、407-4。

此外，失真最小化部分412生成用于调整从第Nch驱动音源信号合成部分404输出的预测驱动音源信号、乘法器407-2中的乘以增益后的自适应向量和乘法器407-4中的乘以增益后的固定向量的三种信号之间的增益的各增益，并分别输出到乘法器407-1、407-3以及407-5。用于调整这三种信号之间的增益的三种增益优选在这些增益值之间相互具有关系性地生成。例如，在第一ch语音信号和第二ch语音信号的声道之间相关大的情况下，使得预测驱动音源信号的有用部分(contribution)对于乘以增益后的自适应向量和乘以增益后的固定向量的有用部分相对地增大，反之在声道之间相关小的情况下，使得预测驱动音源信号的有用部分对于乘以增益后的自适应向量和乘以增益后的固定向量的有用部分相对地减小。

此外，失真最小化部分412将这些索引、与这些索引对应的各增益的码和信号之间调整用增益的码作为第Nch音源编码数据输出。

第Nch自适应码本405将过去生成的输出到合成滤波器409的驱动音源的音源向量存储在内部缓冲器中，基于与失真最小化部分412指示的索引对应的自适应码本滞后(音调滞后(pitch lag)或音调周期)，由该存储的音源向量生成1子帧，并作为自适应码本向量输出到乘法器407-2。

第Nch固定码本406将与失真最小化部分412指示的索引对应的音源向量作为固定码本向量输出到乘法器407-4。

乘法器407-2对从第Nch自适应码本405输出的自适应码本向量乘以自适应码本增益，并输出到乘法器407-3。

乘法器407-4对从第Nch固定码本406输出的固定码本向量乘以固定码本增益，并输出到乘法器407-5。

乘法器407-1对从第Nch驱动音源信号合成部分404输出的预测驱动音源信号乘以增益并输出到加法器408。乘法器407-3对乘法器407-2中的乘以增益后的自适应向量乘以其它的增益并输出到加法器408。乘法器407-5对乘法器407-4中的乘以增益后的固定向量乘以其它的增益并输出到加法器408。

加法器408将从乘法器407-1输出的预测驱动音源信号和从乘法器407-3输出的自适应码本向量以及从乘法器407-5输出的固定码本向量相加，将相加后的音源向量作为驱动音源输出到合成滤波器409。

合成滤波器409将从加法器408输出的音源向量作为驱动音源，通过LPC合成滤波器进行合成。

这样，使用第Nch自适应码本405和第Nch固定码本406生成的音源向量求编码失真的一系列的处理构成闭环，失真最小化部分412决定并输出该编码失真成为最小的第Nch自适应码本405以及第Nch固定码本406的索引。

第一ch和第二chCELP编码部分132、133将这样得到的编码数据(LPC量化码、预测滤波器量化码以及音源编码数据)作为第Nch编码数据输出。

接着，说明本实施方式的语音解码装置。图11表示本实施方式的语音解码装置700的结构。图11所示的语音解码装置700包括用于单声道信号的核心层解码部分310、用于立体声信号的增强层解码部分320。

单声道CELP解码部分312将输入的单声道信号的编码数据进行CELP解码，并输出单声道解码信号和通过CELP解码得到的单声道驱动音源信号。该单声道驱动音源信号被保持在单声道驱动音源信号保持部分341中。

第一chCELP解码部分342对第一ch编码数据进行CELP解码后输出第一ch解码信号。此外，第二chCELP解码部分343对第二ch编码数据进行CELP解码后输出第二ch解码信号。第一chCELP解码部分342和第二chCELP解码部分343使用单声道驱动音源信号保持部分341中保持的单声道驱动音源信号，进行与各声道的编码数据对应的驱动音源信号的预测，和对于该预测残差分量的CELP解码。

在采用这样的结构的语音解码装置700中，在单声道/立体声可伸缩结构中，在将输出语音设为单声道的情况下，将仅从单声道信号的编码数据得到的解码信号作为单声道解码信号输出，在将输出语音设为立体声的情况下，使用接收的全部编码数据将第一ch解码信号和第二ch解码信号解码后输出。

接着，详细说明第一chCELP解码部分342和第二chCELP解码部分343。图12表示第一chCELP解码部分342和第二chCELP解码部分343。第一ch和第二chCELP解码部分342和343由从语音编码装置600(图9)传输的单声道信号编码数据和第Nch编码数据(N为1或2)进行包含第NchLPC量化参数的解码和第Nch驱动音源信号的预测信号的CELP音源信号的解码，并输出第Nch解码信号。更具体地说，如下进行。

第NchLPC参数解码部分501利用单声道信号量化LPC参数和第NchLPC量化码进行第NchLPC量化参数的解码，并将得到的量化LPC参数输出到合成滤波器508，该单声道信号量化LPC参数使用单声道信号编码数据解码而得。

第Nch预测滤波器解码部分502将第Nch预测滤波器量化码解码，并将得到的第Nch预测滤波器量化参数输出到第Nch驱动音源信号合成部分503。

第Nch驱动音源信号合成部分503使用单声道驱动音源信号和第Nch预测滤波器量化参数，将与第Nch语音信号对应的预测驱动音源信号合成后输出到乘法器506-1。

合成滤波器508使用从第NchLPC参数解码部分501输出的量化LPC参数将由第Nch自适应码本504和第Nch固定码本505生成的音源向量，以及由第Nch驱动音源信号合成部分503合成的预测驱动音源信号作为驱动音源，通过LPC合成滤波器进行合成。得到的合成信号被作为第Nch解码信号输出。

第Nch自适应码本504将过去生成的输出到合成滤波器508的驱动音源的音源向量存储在内部缓冲器中，基于与第Nch音源编码数据中包含的索引对应的自适应码本滞后(音调滞后或音调周期)，由该存储的音源向量生成1子帧，并作为自适应码本向量输出到乘法器506-2。

第Nch固定码本505将与第Nch音源编码数据中包含的索引对应的音源向量作为固定码本向量输出到乘法器506-4。

乘法器506-2对从第Nch自适应码本504输出的自适应码本向量乘以第Nch音源编码数据中包含的自适应码本增益，并输出到乘法器506-3。

乘法器506-4对从第Nch固定码本505输出的固定码本向量乘以第Nch音源编码数据中包含的固定码本增益，并输出到乘法器506-5。

乘法器506-1对从第Nch驱动音源信号合成部分503输出的预测驱动音源信号乘以第Nch音源编码数据中包含的对于预测驱动音源信号的调整用增益并将结果输出到加法器507。

乘法器506-3对乘法器506-2中的乘以增益后的自适应向量乘以第Nch音源编码数据中包含的对于自适应向量的调整用增益并将结果输出到加法器507。

乘法器506-5对乘法器506-4中的乘以增益后的固定向量乘以第Nch音源编码数据中包含的对于固定向量的调整用增益并将结果输出到加法器507。

加法器507将从乘法器506-1输出的预测驱动音源信号和从乘法器506-3输出的自适应码本向量以及从乘法器506-5输出的固定码本向量相加，将相加后的音源向量作为驱动音源输出到合成滤波器508。

合成滤波器508将从加法器507输出的音源向量作为驱动音源，通过LPC合成滤波器进行合成。

如果将以上的语音编码装置600的动作流程进行总结则如图13所示。即，由第一ch语音信号和第二ch语音信号生成单声道信号(ST1301)，对单声道信号进行核心层的CELP编码(ST1302)，接着，进行第一ch的CELP编码和第二ch的CELP编码(ST1303、1304)。

此外，如果对第一ch和第二chCELP编码部分132和133的动作流程进行总结则如图14所示。即，首先进行第Nch的LPC分析和LPC参数的量化(ST1401)，接着，生成第Nch的LPC预测残差信号(ST1402)。接着，进行第Nch的预测滤波器的分析(ST1403)，并预测第Nch的驱动音源信号(ST1404)。然后，最后进行第Nch的驱动音源的搜索和增益的搜索(ST1405)。

另外，在第一ch和第二chCELP编码部分132和133中，在CELP编码中的通过音源搜索进行音源编码之前，由第Nch预测滤波器分析部分403求出预测滤波器参数，但也可以另外设置对于预测滤波器参数的码本，在CELP音源搜索中，与自适应音源搜索等搜索同时，通过基于失真最小化的闭环型的搜索，基于该码本，求最佳的预测滤波器参数。此外，也可以预先在第Nch预测滤波器分析部分403中求出多个预测滤波器参数的候选，通过CELP音源搜索中的基于失真最小化的闭环型的搜索，从这些多个候选中选择最佳的预测滤波器参数。通过采用这样的结构，能够计算最合适的滤波器参数，并且能够实现预测性能的提高(即，解码语音质量的提高)。

此外，在第一ch和第二chCELP编码部分132和133中的CELP编码中的通过音源搜索的音源编码中，将用于调整与第Nch语音信号对应的预测驱动音源信号、乘以增益后的自适应向量和乘以增益后的固定向量的三种信号之间的增益的各增益与各个信号相乘，但也可以不使用这样的调整用增益，或者作为调整用的增益，仅对与第Nch语音信号对应的预测驱动音源信号乘以增益。

此外，在CELP音源搜索时，也可以利用通过单声道信号的CELP编码而得到的单声道信号编码数据，将对于该单声道信号编码数据的差分分量(校正分量)进行编码。例如，在自适应音源滞后或各个音源的增益的编码时，将通过单声道信号的CELP编码得到的自适应音源滞后的差分值、以及对于自适应音源增益/固定音源增益的相对比等，作为编码对象进行编码。由此，能够提高对于各声道的CELP音源的编码的效率。

此外，也可以与实施方式2(图7)同样，语音编码装置600(图9)的增强层编码部分120的结构仅采用与第一ch有关的结构。即，在增强层编码部分120中，仅对第一ch语音信号进行使用单声道驱动音源信号的驱动音源信号的预测和对于预测残差分量的CELP编码。在该情况下，在语音解码装置700(图11)的增强层解码部分320中，与实施方式2(图8)同样，为了进行第二ch信号的解码，使用单声道解码信号sd_mono(n)和第一ch解码信号sd_ch1(n)，基于算式(1)所示的关系，按照算式(5)合成第二ch解码信号sd_ch2(n)。

此外，第一ch和第二chCELP编码部分132和133以及第一ch和第二chCELP解码部分342和343中，作为音源搜索中的音源结构，也可以是仅使用自适应音源和固定音源中的其中一个的结构。

此外，在第Nch预测滤波器分析部分403中，也可以使用第Nch语音信号代替LPC预测残差信号，并使用由单声道信号生成部分111生成的单声道信号s_mono(n)代替单声道驱动音源信号，从而求第Nch预测滤波器参数。图15表示该情况下的语音编码装置750的结构，图16表示第一chCELP编码部分141以及第二chCELP编码部分142的结构。如图15所示，由单声道信号生成部分111生成的单声道信号s_mono(n)被输入到第一chCELP编码部分141和第二chCELP编码部分142。而且，在图16所示的第一chCELP编码部分141和第二chCELP编码部分142的第Nch预测滤波器分析部分403中，使用第Nch语音信号和单声道信号s_mono(n)，求第Nch预测滤波器参数。通过采用这样的结构，从而不需要使用第Nch量化LPC参数由第Nch语音信号计算LPC预测残差信号的处理。此外，通过使用单声道信号s_mono(n)代替单声道驱动音源信号，从而与使用单声道驱动音源信号的情况相比，能够使用在时间上在后(未来)的信号求第Nch预测滤波器参数。另外，在第Nch预测滤波器分析部分403中，也可以使用通过单声道信号CELP编码部分114的编码得到的单声道解码信号来代替由单声道信号生成部分111生成的单声道信号s_mono(n)。

此外，在第Nch自适应码本405的内部缓冲器中也可以存储仅将乘法器407-3中的乘以增益后的自适应向量和乘法器407-5中的乘以增益后的固定向量相加而得的信号向量来代替输出到合成滤波器409的驱动音源的音源向量。在该情况下，在解码端的第Nch自适应码本中也需要采用同样的结构。

此外，在第一ch和第二chCELP编码部分132和133进行的对于各声道的预测驱动音源信号的残差分量的音源信号的编码中，也可以将残差分量的音源信号变换到频域，进行频域中的残差分量的音源信号的编码，来代替通过CELP编码进行时域中的音源搜索。

这样，根据本实施方式，由于使用适于语音编码的CELP编码，因此能够进行更高效率的编码。

(实施方式4)

图17表示本实施方式的语音编码装置800的结构。语音编码装置800包括核心层编码部分110和增强层编码部分120。另外，核心层编码部分110的结构与实施方式1(图1)相同，因此省略说明。

增强层编码部分120包括单声道信号LPC分析部分134、单声道LPC残差信号生成部分135、第一chCELP编码部分136和第二chCELP编码部分137。

单声道信号LPC分析部分134计算对于单声道解码信号的LPC参数，将该单声道信号LPC参数输出到单声道LPC残差信号生成部分135、第一chCELP编码部分136和第二chCELP编码部分137。

单声道LPC残差信号生成部分135使用LPC参数生成对于单声道解码信号的LPC残差信号(单声道LPC残差信号)，并输出到第一chCELP编码部分136和第二chCELP编码部分137。

第一chCELP编码部分136和第二chCELP编码部分137使用对于单声道解码信号的LPC参数和LPC残差信号进行对各声道的语音信号的CELP编码，并输出各声道的编码数据。

接着，详细说明第一chCELP编码部分136和第二chCELP编码部分137。图18表示第一chCELP编码部分136和第二chCELP编码部分137的结构。另外，在图18中对于与实施方式3(图10)相同的结构赋予相同标号并省略说明。

第NchLPC分析部分413进行对于第Nch语音信号的LPC分析，将得到的LPC参数量化后输出到第NchLPC预测残差信号生成部分402和合成滤波器409，同时输出第NchLPC量化码。在第NchLPC分析部分413中，在进行LPC参数的量化时，利用对于单声道信号的LPC参数和从第Nch语音信号得到的LPC参数(第NchLPC参数)的相关大的情况，对对于单声道信号LPC参数的NchLPC参数的差分分量进行量化，从而进行高效率的量化。

第Nch预测滤波器分析部分414由从第NchLPC预测残差信号生成部分 402输出的LPC预测残差信号和从单声道LPC残差信号生成部分135输出的单声道LPC残差信号，求第Nch预测滤波器参数并对其进行量化，将第Nch预测滤波器量化参数输出到第Nch驱动音源信号合成部分415，同时输出第Nch预测滤波器量化码。

第Nch驱动音源信号合成部分415使用单声道LPC残差信号和第Nch预测滤波器量化参数，将与第Nch语音信号对应的预测驱动音源信号合成后输出到乘法器407-1。

另外，在对于语音编码装置800的语音解码装置中，与语音编码装置800同样，计算对于单声道解码信号的LPC参数和LPC残差信号，用于各声道的CELP解码单元中的各声道的驱动音源信号的合成。

此外，在第Nch预测滤波器分析部分414中，也可以使用第Nch语音信号和由单声道信号生成部分111生成的单声道信号s_mono(n)，来代替从第NchLPC预测残差信号生成部分402输出的LPC预测残差信号和从单声道LPC残差信号生成部分135输出的单声道LPC残差信号，以求第Nch预测滤波器参数。而且，也可以使用单声道解码信号，来代替由单声道信号生成部分111生成的单声道信号s_mono(n)。

这样，根据本实施方式，由于包括单声道信号LPC分析部分134和单声道LPC残差信号生成部分135，因此即使在核心层中单声道信号以任意的编码方式被编码的情况下，在增强层中也能够使用CELP编码。

另外，也可以将上述各实施方式的语音编码装置、语音解码装置安装在移动通信系统中使用的无线通信移动站装置和无线通信基站装置等无线通信装置中。

此外，在上述各实施方式中，以由硬件构成本发明的情况为例进行了说明，但本发明也可以由软件实现。

另外，在上述各实施方式的说明中使用的各功能块典型地通过集成电路的LSI来实现。它们既可以单独地实行单芯片化，也可以包含其中一部分或全部而实行单芯片化。

这里，虽称做LSI，但根据集成度的不同，有时也称作IC、系统LSI、超LSI、极大LSI(ultra LSI)。

此外，集成电路化的方法不限定于LSI，可以通过专用电路或通用处理器实现。也可以在LSI制造后利用可编程的FPGA(Field Programable Gate Array，现场可编程门阵列)，或将LSI内部的电路单元连接或设定重新配置的可重配置处理器。

进而，如果由半导体技术的进步或派生的其他技术置换为LSI的集成电路化的技术出现，当然使用该技术进行功能块的集成化也可以。也有使用生物技术等的可能性。

本说明书基于2004年12月27日申请的(日本)特愿2004-377965和2005年8月18日申请的特愿2005-237716。其内容全部包含于此。

产业上的可利用性

本发明可以应用于移动通信系统或使用因特网协议的分组通信系统等中的通信装置的用途。

Claims

1.一种语音编码装置，包括：

第一编码部件，在核心层中进行单声道信号的编码；以及

第二编码部件，在增强层中进行立体声信号的编码，

所述第一编码部件具有生成部件，用于将包含第一声道信号和第二声道信号的立体声信号作为输入信号，由所述第一声道信号以及所述第二声道信号生成单声道信号，

所述第二编码部件具有：

合成部件，用于根据从所述单声道信号得到的信号，对所述第一声道信号或所述第二声道信号的预测信号进行合成；以及

计算部件，用于由所述第一声道信号或所述第二声道信号计算第一声道线性预测编码残差信号或第二声道线性预测编码残差信号，其中，

所述合成部件使用所述第一声道线性预测编码残差信号或所述第二声道线性预测编码残差信号相对于将所述单声道信号进行码激励线性预测编码而得到的单声道驱动音源信号的延迟差和振幅比，合成所述预测信号。

2.一种无线通信移动站装置，具有权利要求1所述的语音编码装置。

3.一种无线通信基站装置，具有权利要求1所述的语音编码装置。

4.一种语音编码方法，在核心层中进行单声道信号的编码，在增强层中进行立体声信号的编码，其中，

具有生成步骤，用于在所述核心层中，将包含第一声道信号和第二声道信号的立体声信号作为输入信号，由所述第一声道信号以及所述第二声道信号生成单声道信号，

具有合成步骤，用于在所述增强层中，根据从所述单声道信号得到的信号，对所述第一声道信号或所述第二声道信号的预测信号进行合成，

并且具有计算步骤，用于在所述增强层中，由所述第一声道信号或所述第二声道信号计算第一声道线性预测编码残差信号或第二声道线性预测编码残差信号，

在所述合成步骤中，使用所述第一声道线性预测编码残差信号或所述第二声道线性预测编码残差信号相对于将所述单声道信号进行码激励线性预测编码而得到的单声道驱动音源信号的延迟差和振幅比，合成所述预测信号。