CN101147191A

CN101147191A - 语音编码装置和语音编码方法

Info

Publication number: CN101147191A
Application number: CNA2006800096953A
Authority: CN
Inventors: 吉田幸司
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: III Holdings 12 LLC
Priority date: 2005-03-25
Filing date: 2006-03-23
Publication date: 2008-03-19
Anticipated expiration: 2026-03-23
Also published as: CN101147191B; EP1858006A4; ES2623551T3; WO2006104017A1; US20090055172A1; JP4887288B2; EP1858006B1; US8768691B2; JPWO2006104017A1; EP1858006A1

Abstract

一种能够对立体声语音高效率地进行编码的语音编码装置。在该装置中，预测参数分析单元(21)基于第一声道解码信号和第二声道语音信号，求第二声道语音信号相对于第一声道语音信号的延迟差D和振幅比g作为声道间预测参数，预测参数量化单元(22)对预测参数进行量化，信号预测单元(23)使用第一声道解码信号和量化预测参数而预测第二声道信号。此时，预测参数量化单元(22)利用起因于从信号的声源到接收地点的空间特性(距离等)的延迟差D和振幅比g之间的关联性(相关性)，对预测参数(延迟差D和振幅比g)进行编码和量化。

Description

语音编码装置和语音编码方法

技术领域

本发明涉及语音编码装置和语音编码方法，特别涉及用于立体声语音的语音编码装置和语音编码方法。

背景技术

随着移动通信和IP通信中的传输频带的宽带化以及服务的多样化，在语音通信中，对高音质化和高临场感的需求日益增强。

例如，今后可以预料以下的需求增多，即，在电视电话服务中的免提形式的通话、在视讯会议中的语音通信、如在多个地点由多个说话者同时进行通话的多地点语音通信、如在保持临场感的同时，能够传输周围的声音环境的语音通信等的需求。此时，期望实现例如比单声道信号更有临场感且能够认识多个说话者的说话位置的、使用立体声语音的语音通信。为了实现这样的使用立体声语音的语音通信，必须进行立体声语音的编码。

另外，在lP网络上的语音数据通信中，为了实现网络上的业务控制和组播通信，期望具有可扩展结构的语音编码。所谓可扩展结构是指，在接收端，即使从编码数据的一部分也能够进行语音数据的解码的结构。

在立体声语音的编码中，也期望能够在接收端对立体声信号的解码或使用编码数据的一部分的单声道信号的解码进行选择的编码，即，具有单声道/立体声之间的可扩展结构(单声道/立体声可扩展结构)的编码。

具有单声道/立体声可扩展结构的语音编码方法之一，有基于声道相互间的基音(pitch)预测而对声道(以下，适当地略称“ch”)间的信号进行预测(基于第一ch信号预测第二ch信号，或者基于第二ch信号预测第一ch信号)的编码方法，即，利用两个声道间的相关的编码方法(参照非专利文献1)。

[非专利文献1]Ramprashad，S.A.,“Stereophonic CELP coding using crosschannel prediction”，Proc.IEEE Workshop on Speech Coding，pp.136-138，Sep.2000.

发明内容

发明需要解决的问题

然而，在上述的非专利文献1记载的语音编码方法中，声道间的预测参数(声道间的基音预测的延迟和增益)，各自被单独地进行编码，所以编码效率不高。

本发明的目的为提供能够对立体声语音高效率地进行编码的语音编码装置和语音编码方法。

解决该问题的方案

本发明的语音编码装置所采用的结构包括：预测参数分析单元，求第一信号和第二信号之间的延迟差与振幅比作为预测参数；以及量化单元，基于所述延迟差和所述振幅比之间的相关性，使用所述预测参数获得量化预测参数。

发明的有益效果

根据本发明，能够对立体声语音高效率地进行编码。

附图说明

图1是表示实施方式1的语音编码装置的结构的方框图。

图2是表示实施方式1的第二ch预测单元的结构的方框图。

图3是表示实施方式1的预测参数量化单元的结构的方框图(结构例1)。

图4是表示实施方式1的预测参数代码本的一个例子的特性图。

图5是表示实施方式1的预测参数量化单元的结构的方框图(结构例2)。

图6是表示实施方式1的振幅比估计单元中所使用的函数的一个例子的特性图。

图7是表示实施方式2的预测参数量化单元的结构的方框图(结构例3)。

图8是表示实施方式2的失真计算单元中所使用的函数的一个例子的特性图。

图9是表示实施方式2的预测参数量化单元的结构的方框图(结构例4)。

图10是表示实施方式2的振幅比校正单元和振幅比估计单元中所使用的函数的一个例子的特性图。

图11是表示实施方式2的预测参数量化单元的结构的方框图(结构例5)。

具体实施方式

以下，参照附图详细说明本发明的实施方式。

(实施方式1)

图1表示本实施方式的语音编码装置的结构。

图1所示的语音编码装置10包括第一ch编码单元11、第一ch解码单元12、第二ch预测单元13、减法器14以及第二ch预测残差编码单元15。

另外，在以下的说明中，以帧单位的动作为前提来进行说明。

第一ch编码单元11对从输入立体声信号中的第一ch语音信号s_ch1(n)(n＝0～NF-l；NF是帧长度)进行编码，并将第一ch语音信号的编码数据(第一ch编码数据)输出到第一ch解码单元12。另外，将该第一ch编码数据与第二ch预测参数编码数据和第二ch编码数据复用而传输到语音解码装置(未图示)。

第一ch解码单元12由第一ch编码数据生成第一ch解码信号，并将它输出到第二ch预测单元13。

第二ch预测单元13基于第一ch解码信号与输入立体声信号中的第二ch语音信号s_ch2(n)(n=0～NF-1；NF是帧长度)，求第二ch预测参数，并输出对该第二ch预测参数进行编码而得到的第二ch预测参数编码数据。将该第二ch预测参数编码数据与其他的编码数据复用而传输到语音解码装置(未图示)。另外，第二ch预测单元13由第一ch解码信号与第二ch语音信号而合成第二ch预测信号sp_ch2(n)，并将该第二ch预测信号输出到减法器14。第二ch预测单元13的详细内容将后述。

减法器14求第二ch语音信号s_ch2(n)和第二ch预测信号sp_ch2(n)之间的差，即，求第二ch预测信号相对于第二ch语音信号的残差分量的信号(第二ch预测残差信号)，并将其输出到第二ch预测残差编码单元15。

第二ch预测残差编码单元15对第二ch预测残差信号进行编码而输出第二ch编码数据。将该第二ch编码数据与其他的编码数据复用而传输到语音解码装置。

接着，详细说明第二ch预测单元13。图2表示第二ch预测单元13的结构。如该图所示，第二ch预测单元13包括预测参数分析单元21、预测参数量化单元22以及信号预测单元23。

在第二ch预测单元13，基于立体声信号的各个声道信号之间的相关性，使用以第二ch语音信号相对于第一ch语音信号的延迟差D以及振幅比g为基本的参数，从第一ch语音信号预测第二ch语音信号。

预测参数分析单元21从第一ch解码信号和第二ch语音信号求第二ch语音信号相对于第一ch语音信号的延迟差D以及振幅比g作为声道间预测参数，并将它输出到预测参数量化单元22。

预测参数量化单元22对所输入的预测参数(延迟差D、振幅比g)进行量化，并输出量化预测参数和第二ch预测参数编码数据。量化预测参数被输入到信号预测单元23。预测参数量化单元22的详细内容将后述。

信号预测单元23使用第一ch解码信号和量化预测参数进行第二ch信号的预测，输出其预测信号。由信号预测单元23预测的第二ch预测信号sp_ch2(n)(n＝0～NF-1；NF为帧长度)使用第一ch解码信号sd_ch1(n)而由式(1)表示。

sp _ch2(n)=g.sd_ch1(n-D) …式(1)

另外，在预测参数分析单元21求预测参数(延迟差D、振幅比g)，以使由式(2)表示的失真Dist为最小，即，以使第二ch语音信号s_ch2(n)和第二ch预测信号sp_ch2(n)之间的失真Dist为最小。另外，预测参数分析单元21也可求延迟差D和/或帧单位的平均振幅的比g作为预测参数，该延迟差D使第二ch语音信号与第一ch解码信号之间的互相关为最大。

Dist = Σ_{n = 0}^{NF - 1} {s_ch 2 (n) - sp_ch 2 (n)}^{2}

…式(2)

接着，详细说明预测参数量化单元22。

在由预测参数分析单元21获得的延迟差D和振幅比g之间，存在起因于从信号的声源至接收地点的空间特性(距离等)的关联性(相关性)。也就是说，存在以下的关联性，即，延迟差D(>0)越大(在正方向(延迟方向)越大)，振幅比g(<1.0)越小，相反地，延迟差D(<0)越小(在负方向(前进方向)越大)，振幅比g(>1.0)越大。因此，在预测参数量化单元22，利用该关联性而对声道间预测参数(延迟差D、振幅比g)高效率地进行编码，从而以更少的量化比特数实现同等的量化失真。

本实施方式的预测参数量化单元22的结构是如图3<结构例1>或图5<结构例2>所示的结构。

<结构例1>

在结构例1(图3)中，将延迟差D和振幅比g作为二维矢量来表示，并对该二维矢量进行矢量量化。图4是以点(○)来表示该二维矢量的代码矢量的特性图。

在图3中，失真计算单元31计算失真，该失真为在以由延迟差D和振幅比g构成的二维矢量(D，g)来表示的预测参数与预测参数代码本33的各个代码矢量之间的失真。

最小失真搜索单元32从所有代码矢量中，搜索失真最小的代码矢量，并将其搜索结果发送到预测参数代码本33，同时将与该代码矢量对应的索引作为第二ch预测参数编码数据而输出。

预测参数代码本33基于搜索结果，将失真最小的代码矢量作为量化预测参数而输出。

在此，若将预测参数代码本33的第k个代码矢量设为(Dc(k)，gc(k))(k＝0～Ncb-1，Ncb：代码本大小)，则由失真计算单元31计算出的对于第k个代码矢量的失真Dst(k)通过式(3)表示。在式(3)中，wd和wg为对在计算失真时的对于延迟差的量化失真与对于振幅比的量化失真之间的加权进行调整的加权常数。

Dst(k)=wd·(D-Dc(k))²+wg·(g-gc(k))² …式(3)

预测参数代码本33通过基于延迟差D和振幅比g之间的对应关系的学习而被预先准备。另外，从学习用的立体声语音信号，预先获得表示延迟差D和振幅比g之间的对应关系的多个数据(学习数据)。由于在作为预测参数的延迟差和振幅比之间，存在上述的关联性，所以基于该关联性而获得学习数据。因此，如图4所示，在通过学习获得的预测参数代码本33中，被认为以延迟差D和振幅比g为(D，g)＝(0，1.0)的点为中心，具有负的比例关系的代码矢量的集合密度偏高，而除此之外的密度偏低。通过使用具有如图4所示的特性的预测参数代码本，在表示延迟差和振幅比之间的对应关系的预测参数中，能够使发生频度高的参数的量化误差较小。

其结果，能够提高量化效率。

<结构例2>

在结构例2(图5)中，预先决定基于延迟差D估计振幅比g的函数，并对延迟差D进行量化后，对基于其量化值并使用该函数估计出的振幅比的预测残差进行量化。

在图5中，延迟差量化单元51对从预测参数中的延迟差D进行量化，将该量化延迟差Dq输出到振幅比估计单元52并作为量化预测参数而输出。另外，延迟差量化单元51将通过延迟差D的量化而获得的量化延迟差索引作为第二ch预测参数编码数据而输出。

振幅比估计单元52基于量化延迟差Dq求振幅比的估计值(估计振幅比)gp，并将它输出到振幅比估计残差量化单元53。在振幅比的估计上，使用预先准备的、用于基于量化延迟差估计振幅比的函数。通过基于在量化延迟差Dq和估计振幅比gp之间的对应关系的学习，预先准备该函数。另外，预先从学习用的立体声语音信号，求表示量化延迟差Dq和估计振幅比gp之间的对应关系的多个数据。

振幅比估计残差量化单元53基于式(4)求振幅比g相对于估计振幅比gp的估计残差δg。

δg＝g-gp …式(4)

然后，振幅比估计残差量化单元53对由式(4)获得的估计残差δ g进行量化，并将量化估计残差作为量化预测参数而输出。另外，振幅比估计残差量化单元53将通过估计残差δ g的量化而获得的量化估计残差索引作为第二ch预测参数编码数据而输出。

图6表示在振幅比估计单元52中所使用的函数的一个例子。所输入的预测参数(D，g)作为二维矢量而以图6的坐标平面上的点来表示。如图6所示，用于基于延迟差估计振幅比的函数61为具有如经过(D，g)＝(0，1.0)或者其附近的负的比例关系的函数。然后，在振幅比估计单元52中，基于量化延迟差Dq使用该函数求估计振幅比gp。另外，在振幅比估计残差量化单元53中，求输入预测参数的振幅比g相对于估计振幅比gp的估计残差δg，并对该估计残差δg进行量化。通过这样地对估计残差进行量化，与直接对振幅比进行量化时相比，更能够使量化误差小，其结果，能够提高量化效率。

另外，在上述的说明中，说明了使用用于基于量化延迟差估计振幅比的函数，基于量化延迟差Dq求估计振幅比gp，并对相对于该估计振幅比gp的输入振幅比g的估计残差δg进行量化的结构。但是，也可以采用以下的结构，即，对输入振幅比g进行量化，使用用于从量化振幅比估计延迟差的函数，从量化振幅比gq求估计延迟差Dp，并对相对于该估计延迟差Dp的输入延迟差D的估计残差δD进行量化的结构。

(实施方式2)

在本实施方式的语音编码装置中，预测参数量化单元22(图2、图3和图5)的结构与实施方式1不同。在本实施方式中进行的预测参数的量化方式为对延迟差和振幅比进行量化，以使延迟差和振幅比双方的参数的量化误差在听觉上相互抵消。也就是说，在延迟差的量化误差在正的方向产生时，以使振幅比的量化误差变成更大的方式进行量化。相反地，在延迟差的量化误差在负的方向产生时，以使振幅比的量化误差变成更小的方式进行量化。

在此，人类的听觉特性能够将延迟差和振幅比相互调整，以获得相同的立体声语音的定位感。也就是说，在延迟差变成大于实际的延迟差时，只要使振幅比增大，即可获得同等的定位感。因此，在本实施方式中，基于这种听觉特性，将延迟差的量化误差与振幅比的量化误差相互调整而对延迟差和振幅比进行量化，以使立体声的定位感在听觉上不改变。由此，能够对预测参数更高效率地进行编码。也就是说，能够以较低的编码比特率实现同等的音质，或者能够以相同的编码比特率实现更高音质。

本实施方式的预测参数量化单元22的结构是如图7<结构例3>或图9<结构例4>所示的结构。

<结构例3>

在结构例3(图7)中，失真的计算方式与结构例1(图3)不同。另外，在图7中，对与图3相同的结构部分赋予相同的标号，并省略说明。

在图7中，失真计算单元71计算失真，该失真为以由延迟差D和振幅比g构成的二维矢量(D，g)来表示的预测参数与预测参数代码本33的各个代码矢量之间的失真。

将预测参数代码本33的第k个代码矢量设为(Dc(k)，gc(k))(k＝0～Ncb，Ncb：代码本大小)。失真计算单元71使所输入的预测参数的二维矢量(D，g)移动到最接近于各个代码矢量(Dc(k)，gc(k))且在听觉上等效的点(Dc’(k)，gc'(k))后，基于式(5)计算失真Dst(k)。另外，在式(5)中，wd和wg为对在计算失真时的对于延迟差的量化失真与对于振幅比的量化失真之间的加权进行调整的加权常数。

Dst(k)＝wd·((Dc'(k)-Dc(k))²+wg·(gc’(k)-gc(k))² …式(5)

在此，如图8所示，最接近于各个代码矢量(Dc(k)，gc(k))且在听觉上等效的点是，相当于从各个代码矢量对立体声定位感在听觉上与输入预测参数矢量(D，g)等效的函数81划下垂线的点。该函数81为延迟差D和振幅比g在正的方向成比例的函数。也就是说，该函数81是基于听觉特性的函数，该听觉特性为通过使延迟差越大振幅比越大，相反地，通过使延迟差越小振幅比越小，而可获得在听觉上等效的定位感的特性。

另外，在函数81上，在使输入预测参数矢量(D，g)移动到最接近于各个代码矢量(Dc(k)，gc(k))且在听觉上等效的点(Dc’(k)，gc’(k))(即，在垂线上的点)时，增大向规定距离以上的点的移动的失真而设置障碍(penalty)。

使用通过这样方式求出的失真进行矢量量化后，例如在图8中，立体声定位感在听觉上更接近于输入预测参数矢量的代码矢量C(量化失真C)成为量化值，而不是与输入预测参数矢量的距离较近的代码矢量A(量化失真A)和代码矢量B(量化失真B)成为量化值。

因此，能够进行听觉上的失真更小的量化。

<结构例4>

结构例4(图9)是在以下一点与结构例2(图5)不同，即，对考虑到延迟差的量化误差而校正为听觉上等效的值的振幅比(校正振幅比)的估计残差进行量化。另外，在图9中，对与图5相同的结构部分赋予相同的标号，并省略说明。

在图9中，延迟差量化单元51也将量化延迟差Dq输出到振幅比校正单元91。

振幅比校正单元91根据延迟差的量化误差，将振幅比g校正到在听觉上等效的值，并获得校正振幅比g’。该校正振幅比g’被输入到振幅比估计残差量化单元92。

振幅比估计残差量化单元92基于式(6)求校正振幅比g’相对于估计振幅比gp的估计残差δg。

δg＝g，-gp …式(6)

然后，振幅比估计残差量化单元92对由式(6)获得的估计残差δ g进行量化，并将量化估计残差作为量化预测参数而输出。另外，振幅比估计残差量化单元92将通过进行估计残差δ g的量化而获得的量化估计残差索引作为第二ch预测参数编码数据而输出。

图10表示在振幅比校正单元91和振幅比估计单元52中所使用的函数的一个例子。在振幅比校正单元91中使用的函数81是与在结构例3中使用的函数81相同的函数，而在振幅比估计单元52中使用的函数61是与在结构例2中使用的函数61相同的函数。

如上所述，函数81为延迟差D和振幅比g在正的方向成比例的函数。在振幅比校正单元91，使用该函数81，基于量化延迟差Dq获得校正振幅比g’，该校正振幅比g’是考虑到延迟差的量化误差且在听觉上与振幅比g等效。另外，如上所述，函数61为如经过(D，g)＝(0，1.0)或者其附近的具有负的比例关系的函数。在振幅比估计单元52，使用该函数61，从量化延迟差Dq来求估计振幅比gp。然后，在振幅比估计残差量化单元92，求校正振幅比g’相对于估计振幅比gp的估计残差δg，并对该估计残差δg进行量化。

如此，从根据延迟差的量化误差而校正为在听觉上等效的值的振幅比(校正振幅比)来求估计残差，并通过对该估计残差进行量化，就能够进行在听觉上失真小且量化误差小的量化。

<结构例5>

即使在分别对延迟差D和振幅比g独立地进行量化时，如本实施方式那样，也可利用关于延迟差和振幅比的听觉特性。在此情况，预测参数量化单元22的结构如图11所示。另外，在图11中，对与结构例4(图9)相同的结构部分赋予相同的标号。

在图11中，与结构例4相同，振幅比校正单元91根据延迟差的量化误差，将振幅比g校正为在听觉上等效的值，并获得校正振幅比g’。该校正振幅比g’被输入到振幅比量化单元1101。

振幅比量化单元1101对校正振幅比g’进行量化，并将量化振幅比作为量化预测参数而输出。另外，振幅比量化单元1101将通过进行校正振幅比g’的量化而获得的量化振幅比索引作为第二ch预测参数编码数据而输出。

另外，在上述各个实施方式中，说明了预测参数(延迟差D和振幅比g)作为标量值(一维的值)。然而，也可将在多个时间单位(帧)上所获得的多个预测参数表示为二维以上的矢量而进行与上述同样的量化。

另外，能够将上述各个实施方式适用于具有单声道/立体声可扩展结构的语音编码装置。此时，在单声道的核心层中，由输入立体声信号(第一ch和第二ch语音信号)生成单声道信号而进行编码。另外，在立体声增强层中，通过声道间预测，从单声道解码信号预测第一ch(或第二ch)语音信号，并对该预测信号和第一ch(或第二ch)语音信号之间的预测残差信号进行编码。再者，也可使用CELP编码对单声道核心层和立体声增强层进行编码。此时，在立体声增强层中，进行由单声道核心层获得的对于单声道驱动声源信号的声道间预测，并以CELP声源编码对预测残差进行编码。另外，在可扩展结构的情况，声道间预测参数为用于来自单声道信号的第一ch(或第二ch)语音信号的预测的参数。

另外，在将上述各个实施方式适用于具有单声道/立体声可扩展结构的语音编码装置时，对单声道信号的第一ch和第二ch语音信号的延迟差Dm1，Dm2与振幅比gm1，gm2，即对这两个声道信号共同地以与实施方式2相同的方式进行量化。此时，在各个声道的延迟差之间(Dm1和Dm2之间)和振幅比之间(gm1和gm2之间)也有相关性，所以通过利用这种相关性，在单声道/立体声可扩展结构中，能够提高预测参数的编码效率。

另外，也能够将上述各个实施方式的语音编码装置装载于移动通信系统中所使用的无线通信移动台装置和无线通信基站装置等的无线通信装置。

另外，在上述实施方式中，举例说明了以硬件构成本发明的情况，但本发明也可通过软件来实现。

另外，用于上述各个实施方式的说明中的各功能块，通常被作为集成电路的LSI来实现。这些块既可以被单独地集成为一个芯片，也可以一部分或全部被集成为一个芯片。

虽然此处称为LSI，但根据集成程度，可以被称为IC、系统LSI、超大LSI(Super LSI)或特大LSI(Ultra LSI)。

另外，实现集成电路化的方法不仅限于LSI，也可使用专用电路或通用处理器来实现。也可以使用在LSI制造后可编程的FPGA(Field ProgrammableGate Array)，或者可重构LSI内部的电路单元的连接和设定的可重构处理器。

再者，随着半导体的技术进步或随之派生的其他技术的出现，如果能够出现替代LSI集成电路化的新技术，当然可利用新技术进行功能块的集成化。还存在着适用生物技术等的可能性。

本说明书基于在2005年3月25日申请的日本专利申请第2005-088808号。其内容全部包含于此。

工业实用性

本发明能够适用于移动通信系统和采用因特网协议的分组通信系统等中的通信装置。

Claims

1.一种语音编码装置，包括：

预测参数分析单元，求第一信号与第二信号之间的延迟差和振幅比作为预测参数；以及

量化单元，基于所述延迟差与所述振幅比之间的相关性，从所述预测参数获得量化预测参数。

2.如权利要求1所述的语音编码装置，其中，

所述量化单元对所述振幅比相对于从所述延迟差估计的振幅比的残差进行量化，从而获得所述量化预测参数。

3.如权利要求1所述的语音编码装置，其中，

所述量化单元对所述延迟差相对于从所述振幅比估计的延迟差的残差进行量化，从而获得所述量化预测参数。

4.如权利要求1所述的语音编码装置，其中，

所述量化单元进行量化而获得所述量化预测参数，该量化是在所述延迟差的量化误差与所述振幅比的量化误差听觉上相互抵消的方向上产生的量化。

5.如权利要求1所述的语音编码装置，其中，

所述量化单元使用由所述延迟差和所述振幅比构成的二维矢量来获得所述量化预测参数。

6.一种无线通信移动台装置，包括权利要求1所述的语音编码装置。

7.一种无线通信基站装置，包括权利要求1所述的语音编码装置。

8.一种语音编码方法，

求在第一信号和第二信号之间的延迟差与振幅比作为预测参数，

并基于所述延迟差和所述振幅比之间的相关性，从所述预测参数获得量化预测参数。