CN105336333B

CN105336333B - 多声道声音信号编码方法、解码方法及装置

Info

Publication number: CN105336333B
Application number: CN201410395806.5A
Authority: CN
Inventors: 潘兴德
Original assignee: BEIJING TIANLAI CHUANYIN DIGITAL TECHNOLOGY Co Ltd
Current assignee: BEIJING TIANLAI CHUANYIN DIGITAL TECHNOLOGY Co Ltd
Priority date: 2014-08-12
Filing date: 2014-08-12
Publication date: 2019-07-05
Anticipated expiration: 2034-08-12
Also published as: WO2016023323A1; CN105336333A

Abstract

本发明涉及一种多声道声音信号编码方法、解码方法及装置，该编码方法包括：采用时频变换，将第一多声道声音信号映射为第一频域信号，或者采用子带滤波，将第一多声道声音信号映射为第一子带信号；将第一频域信号或第一子带信号划分为不同时频子带；在每个时频子带内，计算第一多声道声音信号的第一统计特性；根据第一统计特性，估计优化子空间映射模型；采用优化子空间映射模型，将第一多声道声音信号映射为第二多声道声音信号；根据时间、频率和声道，对第二多声道声音信号中的至少一组和优化子空间映射模型进行感知编码，获得编码多声道码流。由上可见，本发明实施例在编码中自适应选择映射模型，可以实现更高的编码效率和编码质量。

Description

多声道声音信号编码方法、解码方法及装置

技术领域

本发明涉及音频处理技术领域，尤其涉及多声道声音信号编码方法、解码方法及装置。

背景技术

随着科技的发展，出现了多种对声音信号的编码技术，上述声音通常指的是语音、音乐、自然声音和人工合成声音等人耳可感知的信号在内的数字声音。目前，很多声音编码技术已经成为工业标准被大量应用，融入人们的日常生活中，常用的声音编码技术有杜比实验室的AC-3、数字影院系统公司的DTS、移动图象专家组(MPEG)组织的MP3和AAC、微软公司的WMA，以及索尼公司的ATRAC。

为了重现立体声的声音效果，现在多采用多个声道将多声道声音信号播放给用户，多声道声音信号的编码方法也从以AC-3和MP3为代表的和差立体声(M/S Stereo)和强度立体声(Intensity Stereo)等波形编码技术，演进到以MP3 Pro、ITU EAAC+、MPEGSurround、Dolby DD+为代表的参数立体声(Parametric Stereo)和参数环绕声(Parametric Surround)技术。PS(包括Parametric Stereo和Parametric Surround)从双耳心理声学的角度出发，充分利用双耳时间/相位差(ITD/IPD)、双耳强度差(IID)、双耳相关性(IC)等心理声学空间特性，实现多声道声音信号的参数编码。

PS技术在编码端一般将多声道声音信号下混合(downmix)，生成1个和声道信号，和声道信号采用波形编码(或者波形和参数混合编码，如EAAC+)，并将各声道对应和声道信号的ITD/IPD、IID和IC参数进行参数编码。在解码端，根据这些参数，从和声道信号中恢复多声道信号。也可以在编码时，将多声道信号分组，并在不同的声道组采用如上的PS编解码方法。也可以采用级联的方式，将多声道进行多级的PS编码。

实践证明，单纯的波形编码(和声道)和PS编码技术，虽然可以在较低的码率下实现较高的编码质量；但在较高的码率下，PS技术却不能进一步提升信号质量，不适合高保真的应用场合。其原因在于，PS技术在编码端只编码和声道信号，而丢掉了残差声道信号，导致解码时不能完全恢复原始信号。为此，MPEG Surround采用残差信息编码的方法，来弥补PS技术的不足。

但是，无论是传统的PS技术还是MPEG Surround技术，都过分依赖了双耳的心理声学特性，而忽略了多声道声音信号本身的统计特性。例如，传统的PS技术和MPEG Surround技术都没有利用声道对之间的统计冗余信息。而且，MPEG Surround采用残差信息编码时，和声道信号和残差声道信号间仍然存在统计冗余，从而无法兼顾编码效率和编码信号的质量。

发明内容

本发明提供了一种多声道声音信号编码方法、解码方法及装置，目的是为了解决现有技术的多声道声音信号编码方法中，存在统计冗余，无法兼顾编码效率和编码信号的质量的问题。

为实现上述目的，第一方面，本发明提供了一种多声道声音信号编码方法，该方法包括：A)采用时频变换，将第一多声道声音信号映射为第一频域信号，或者采用子带滤波，将第一多声道声音信号映射为第一子带信号；B)将所述第一频域信号或所述第一子带信号划分为不同时频子带；C)在所述不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性；D)根据所述第一统计特性，估计优化子空间映射模型；E)采用所述优化子空间映射模型，将所述第一多声道声音信号映射为第二多声道声音信号；F)根据时间、频率和声道的不同，对所述第二多声道声音信号中的至少一组和所述优化子空间映射模型进行感知编码，并复用成编码多声道码流。

第二方面，本发明提供了一种多声道声音信号编码装置，该装置包括：时频映射单元，用于采用时频变换，将第一多声道声音信号映射为第一频域信号，或者采用子带滤波，将第一多声道声音信号映射为第一子带信号；将所述第一频域信号或所述第一子带信号划分为不同时频子带；自适应子空间映射单元，用于在所述时频映射单元划分的不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性；根据所述第一统计特性，估计优化子空间映射模型；采用所述优化子空间映射模型，将所述第一多声道声音信号映射为第二多声道声音信号；感知编码单元，用于根据时间、频率和声道的不同，对所述自适应子空间映射单元映射的第二多声道声音信号中的至少一组和所述优化子空间映射模型进行感知编码，并复用成编码多声道码流。

第三方面，本发明提供了一种多声道声音信号解码方法，该方法包括：A)对编码多声道码流进行解码，获得第二多声道声音信号中的至少一组和优化子空间映射模型；B)采用所述优化子空间映射模型，将所述第二多声道声音信号映射回第一多声道声音信号；C)采用逆的时频变换，将所述第一多声道声音信号从频域映射为时域，或者采用逆的子带滤波，将所述第一多声道声音信号从子带域映射为时域。

第四方面，本发明提供了一种多声道声音信号解码装置，该装置包括：感知解码单元，用于对编码多声道码流进行解码，获得第二多声道声音信号中的至少一组和优化子空间映射模型；子空间逆映射单元，用于采用所述感知解码单元获得的优化子空间映射模型，将所述感知解码单元获得的第二多声道声音信号映射回第一多声道声音信号；频时映射单元，用于采用逆的时频变换，将所述子空间逆映射单元得到的第一多声道声音信号从频域映射为时域，或者采用逆的子带滤波，将所述第一多声道声音信号从子带域映射为时域。

本发明实施例的多声道声音信号编码方法中，采用了自适应子空间映射，先通过计算多声道声音信号的统计特性，从而估计优化子空间映射模型，然后采用上述优化子空间映射模型，对多声道声音信号进行映射，再进行感知编码。由上可见，本发明实施例在编码中自适应选择映射模型，可以更好的估计和利用声道间信号的统计特性，并最大限度的降低声道间的统计冗余，实现更高的编码效率的同时，保证编码信号的质量。

附图说明

图1为本发明一个实施例中的多声道声音信号编码方法流程图；

图2为本发明另一个实施例中的多声道声音信号编码方法流程图；

图3为本发明另一个实施例中的多声道声音信号编码方法流程图；

图4为本发明一个实施例中的子空间映射关系示意图；

图5为本发明一个实施例中的PCA模型与ICA模型特点对比示意图；

图6为本发明一个实施例中的时频子带划分示意图；

图7为本发明一个实施例中的多声道声音信号解码方法流程图；

图8为本发明一个实施例中的多声道声音信号编码装置结构示意图；

图9为本发明一个实施例中的多声道声音信号解码装置结构示意图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明实施例中的多声道声音信号编码方法，不同于现有技术中的其他方法，充分利用了多声道声音信号的统计特性和心理声学特性，在获得极高的编码效率的同时，保证编码信号的质量，通过采用自适应子空间映射的方法，最大程度的消除多声道信号间的统计冗余，创造性的使用多种子空间映射模型，并在编码中自适应选择映射模型，可以更好的估计和利用声道间信号的统计特性，并最大限度的降低声道间的统计冗余，实现更高的编码效率。

图1为本发明一个实施例中的多声道声音信号编码方法流程图，该方法包括：

步骤101，采用时频变换，将第一多声道声音信号映射为第一频域信号，或者采用子带滤波，将第一多声道声音信号映射为第一子带信号。

其中，第一多声道声音信号的最初表现形式为时域信号u(m,t)，通过上述映射处理，可以得到多声道频域信号或子带信号x(m,k)。其中，m为声道序号，t为帧(或子帧)序号，k为频率或子带序号。

本发明实施例中，时频变换可以采用普遍使用的修正余弦变换(MDCT)、余弦变换(DCT)、傅里叶变换(FFT)等时频变换技术；子带滤波可以采用较普遍使用的正交镜像滤波器组(QMF\PQMF\CQMF)、余弦调制滤波器组(CMF/MLT)技术；时频变换也可以采用小波变换(wavelet)等多分辨率分析技术；本发明实施例的时频映射可以采用以上三种映射方法中的一种(如AC-3、AAC)或组合形式(如MP3、Bell Lab PAC)。

步骤102，将第一频域信号或第一子带信号划分为不同时频子带。

其中，在步骤101之前，编码的声音信号可以先被分成待编码的帧，再进行时频变换或子带滤波。如果采用较大的帧长，可能会将一帧数据再分解为多个子帧，再进行时频变换或子带滤波。获得频域或子带信号后，可以按频率顺序组成多个频率子带；也可以将多个时频变换或子带滤波获得的频域信号，组成二维时间-频率平面，在此平面进行时频区域划分；进一步，将该时频区域在各声道时频平面投影，可以获得待编码的时频子带x_i(t,k)，i是该时频子带的序号，t为帧(或子帧)序号。假设每个时频子带是矩形区域，则时频子带x_i(t,k)内的信号范围为：t_i-1≤t＜t_i,k_i-1≤k＜k_i,t_i-1和t_i为该子带的起始和终止帧(或子帧)序号，k_i-1和k_i为该子带的起始和终止频率或子带序号。若时频子带总个数为N，则i≤N。方便起见，某时频子带的区域可用(t,k)表示。需要注意的是，每个时频子带均包含各声道在该时频区域投影的信号，当需要特指某声道在该时频区域的投影时，可用x_i(t,k,m)表示。

步骤103，在不同时频子带中的每个时频子带内，计算第一多声道声音信号的第一统计特性。

步骤104，根据第一统计特性，估计优化子空间映射模型。

具体地，可以选定一个优化子空间映射模型，根据第一统计特性自适应调整优化子空间映射模型的映射系数；或者，根据第一统计特性，在预先选定的多个不同映射模型间自适应切换到其中一个映射模型，将该映射模型作为优化子空间映射模型。

本发明实施例中的第一统计特性，在评估不同的模型时，可以选择相同的统计量，例如一阶统计量(均值)、二阶统计量(方差和相关系数)及高阶统计量(高阶矩)及其变换形式，通常较多的选择二阶统计量。更优的，针对不同的映射模型，可以选择不同的统计量，以获得更优的结果。例如，在评估ICA模型时，采用负熵；在评估PCA模型时，采用协方差矩阵,即采用二阶统计量作为第一统计特性。

步骤105，采用优化子空间映射模型，将第一多声道声音信号映射为第二多声道声音信号。

具体地，可以在不同时频子带内，计算多声道声音信号x_i(t,k)的统计特性，并估计优化子空间映射模型W_i(t,k)，采用估计的映射模型，将多声道信号映射到新的子空间，获得新的一组多声道信号z_i(t,k)。

步骤106，根据时间、频率和声道的不同，对第二多声道声音信号中的至少一组和优化子空间映射模型进行感知编码，并复用成编码多声道码流。

具体地，可以将至少一组新的多声道信号z_i(t,k)和对应的映射模型W_i(t,k)进行感知编码，并复用成编码多声道码流。

其中，上述感知编码具体可以为分级感知编码。

由上述处理过程可知，本发明实施例的多声道声音信号编码方法中，采用了自适应子空间映射，先通过计算多声道声音信号的统计特性，从而估计优化子空间映射模型，然后采用上述优化子空间映射模型，对多声道声音信号进行映射，再进行感知编码。由上可见，本发明实施例在编码中自适应选择映射模型，可以更好的估计和利用声道间信号的统计特性，并最大限度的降低声道间的统计冗余，实现更高的编码效率的同时，保证编码信号的质量。

考虑到在多声道声音信号中，有些声道的声音成分和其他声道的声音成分显著不同。此时，可以将这些声道单独分组，采用上述方法，其优化映射模型提取更加精确。因此，针对此类的多声道声音信号进行编码时，也可以增加一个声道分组处理的步骤，来提高编码效率。

图2为本发明另一个实施例中的多声道声音信号编码方法流程图，该实施例中在对多声道声音信号进行时频映射之后，增加了一个声道分组处理的步骤，该方法包括：

步骤201，采用时频变换，将第一多声道声音信号映射为第一频域信号，或者采用子带滤波，将第一多声道声音信号映射为第一子带信号。

步骤202，将第一频域信号或第一子带信号划分为不同时频子带。

其中，编码的声音信号可以先被分成待编码的帧，再进行时频变换或子带滤波。如果采用较大的帧长，可能会将一帧数据再分解为多个子帧，再进行时频变换或子带滤波。获得频域或子带信号后，可以按频率顺序组成多个频率子带；也可以将多个时频变换或子带滤波获得的频域信号，组成二维时间-频率平面，在此平面进行时频区域划分，可以获得待编码的时频子带。

步骤203，在不同时频子带中的每个时频子带内，计算第一多声道声音信号的第二统计特性，根据第二统计特性，将第一多声道声音信号划分为多个分组声音信号。

本发明实施例中，可以在不同时频子带内，计算多声道声音信号x(m,k)的统计特性，然后根据各声道声音成分的统计特性，将多声道信号分为一组或多组声道，且每组包含至少一个声道信号，对于一个声道的分组，直接进行感知编码，对于多于一个声道的分组，执行后续的处理。

本发明的第二统计特性，可以采用一阶统计量(均值)、二阶统计量(方差和相关系数)及高阶统计量(高阶矩)及其变换形式，通常较多的选择二阶统计量，特别是相关系数。为节省计算量，也可以利用第一统计特性作为分组的评判基准，此时，第二统计特性和第一统计特性取值可以相同。

针对步骤203划分的每个分组声音信号，将每个分组声音信号作为第一多声道声音信号执行步骤204至207。

步骤204，在不同时频子带中的每个时频子带内，计算第一多声道声音信号的第一统计特性。

步骤205，根据第一统计特性，估计优化子空间映射模型。

步骤206，采用优化子空间映射模型，将第一多声道声音信号映射为第二多声道声音信号。

本发明实施例中，可以根据各声道声音成分的统计特性，估计优化子空间映射模型W_i(t,k)；采用估计的映射模型，将多声道信号映射到新的子空间，获得新的一组多声道信号z_i(t,k)。

步骤207，根据时间、频率和声道的不同，对第二多声道声音信号中的至少一组和优化子空间映射模型进行感知编码，并复用成编码多声道码流。

其中，可以将至少一组新的多声道信号z_i(t,k)和对应的映射模型W_i(t,k)进行感知编码，将所有感知编码信息复用，获得编码多声道码流。

另外，作为一个可替换的方案，特别是在较低的码率下，也可以选择在步骤101时频映射后、步骤102划分不同子带前，进行分组；这会带来一个显而易见的好处，即传输更少的分组信息，在较低的码率下，减少分组信息所占的比特更具实用性。此时，可以在执行步骤101之后，先计算第一多声道声音信号的第二统计特性，然后根据第二统计特性，将第一多声道声音信号划分为多个分组声音信号，针对每个分组声音信号，将每个分组声音信号作为第一多声道声音信号执行步骤102至106。

图3为本发明另一个实施例中的多声道声音信号编码方法流程图，该实施例中，先对多声道声音信号进行分组处理，然后针对每个分组声音信号进行时频映射等处理，该方法包括：

步骤301，计算第一多声道声音信号的第三统计特性，根据第三统计特性，将第一多声道声音信号划分为多个分组声音信号。

其中，可以计算多声道声音信号u(m,t)的统计特性，并根据统计特性，将多声道信号分为一组或多组声道，且每组包含至少一个声道信号。

本发明的第三统计特性，可以采用一阶统计量(均值)、二阶统计量(方差和相关系数)及高阶统计量(高阶矩)及其变换形式，通常较多的选择二阶统计量，特别是相关系数。

针对每个分组声音信号，将每个分组声音信号作为第一多声道声音信号执行步骤302至307。

步骤302，采用时频变换，将第一多声道声音信号映射为第一频域信号，或者采用子带滤波，将第一多声道声音信号映射为第一子带信号。

步骤303，将第一频域信号或第一子带信号划分为不同时频子带。

其中，可以采用时频变换或子带滤波，将分组后的多声道时域信号u(m,t)映射为多声道频域信号或子带信号x(m,k)，并将时频映射后的信号划分为不同时频子带。

步骤304，在不同时频子带中的每个时频子带内，计算第一多声道声音信号的第一统计特性。

步骤305，根据第一统计特性，估计优化子空间映射模型。

本发明实施例中采用了自适应子空间映射来估计优化子空间映射模型，上述自适应子空间映射不同于已有的多声道声音编码方法，创新的采用了子空间映射(SubspaceMapping)方法，即根据信号的统计特性，估计多声道的优化子空间映射模型，该模型是一个自适应的线性变换矩阵，子空间映射方法，可以采用近些年发展起来的多维空间统计学分析方法，如独立成分分析(Independent Components Analysis,ICA)、主成分分析(Principal Components Analysis、PCA)、典型关联分析(Canonical CorrelationAnalysis，CCA)和投影寻踪(Projetion Pursuit)等方法。

现有技术中，基于PCA的多声道编码技术，方便用于降低多声道编码的维数，但在降低声道间统计冗余方面，却不是最优方法。因此，本发明提出了一种更有效兼顾声道声音信号的统计特性和心理声学特性的编码方法，实践证明，本发明方法比已有方法获得了更高的编码效率和质量。

步骤306，采用优化子空间映射模型，将第一多声道声音信号映射为第二多声道声音信号。

其中，可以在不同时频子带内，计算多声道声音信号x_i(t,k)的统计特性，并估计优化子空间映射模型W_i(t,k)；采用估计的映射模型，将多声道信号映射到新的子空间，获得新的一组多声道信号z_i(t,k)。

步骤307，根据时间、频率和声道的不同，对第二多声道声音信号中的至少一组和优化子空间映射模型进行感知编码，并复用成编码多声道码流。

其中，可以将至少一组新的多声道信号z_i(t,k)和对应的映射模型W_i(t,k)进行感知编码；将所有感知编码信息复用，获得编码多声道码流。

本发明实施例中的感知编码，可以采用如下任何一种声音编码方法：

波形编码：如MP3、AAC中采用的感知量化和哈夫曼熵编码，AC-3中采用的指数-尾数编码、OggVorbis和TwinVQ中采用的感知矢量量化编码等；

参数编码：如MPEG HILN中采用的谐波、独立弦成分和噪声编码、MPEG HVXC中采用的谐波矢量激励编码、AMR WB+中采用码激励和变换码激励(TCX)编码等；

波形-参数混合编码：如MP3Pro、AAC+、AMR WB+等方法中低频采用波形编码，高频采用频带扩展参数编码。

本发明实施例中的自适应子空间映射，不同于任何已有的方法，其自适应即可以体现在选定一个映射模型，根据声道间统计特性自适应调整该模型的映射系数；亦体现在根据声道间统计特性在不同映射模型间的自适应切换，如在ICA映射方法和PCA映射方法间的切换。

本发明的自适应子空间映射策略，对于实现本发明的目的，即在编码多声道信号获得极高的编码效率的同时保证编码信号的质量，有着显著的意义。

子空间映射模型可以描述如下：

1.原子空间映射关系：

设M-维声源矢量为s，s＝{s₁,s₂,…，s_M}，

x，x＝{x₁,x₂,…，x_M}为现子空间的观测矢量，且

x＝As (1)

其中A为现子空间映射矩阵。

2.新子空间映射关系：

z，z＝{z₁,z₂,…，z_M}为新子空间的观测矢量，且

z＝Wx (2)

参照图4所示的子空间映射关系示意图，其中，W为新子空间映射矩阵。且s，x，z均为去均值标量随机变量组成的矢量。

本发明的自适应子空间映射，即找到一个优化的映射矩阵W，使映射得到的新子空间观测矢量z最优，即能获得最优的编码效率。根据最优的选择条件不同，可以有不同的优化映射矩阵。这一特点，非常符合多声道编码的实际应用场合：第一，多声道信号的统计特性是时变的，不同信号成分分布可能是拉普拉斯分布，也可能是高斯分布或其他形式；第二，不同的编码速率和编码模式下，对映射矩阵的性能(如正交性、相关性等)要求不同。

不失一般性，下面以独立成分分析模型(ICA)和主成分分析模型(PCA)为例，说明本发明的自适应子空间映射方法。

当假设声源矢量s中各随机变量相互之间统计独立，且其中最多只有一个为高斯分布，并且映射后的观测矢量z的最优解为源矢量s(或与源矢量s仅相差一个比例系数)时，子空间映射模型就等价于独立成分分析模型(ICA)。此时

z＝Wx＝WAs

W^-1＝A (3)

可以通过使非高斯分布的测度(如Kurtosis指数、Negentropy指数等)最大，获得映射矩阵W。典型的，可以使用FastICA算法实现快速的ICA模型映射，具体介绍如下：

由信息论理论可知：在所有等方差的随机变量中，高斯变量的熵最大，因此可以用熵来度量非高斯性，Negentropy指数(负熵)就是熵的一种修正形式。负熵定义为：

Ng(y)＝H(y_gauss)-H(y) (4)

其中，ygauss是一个与y具有相同方差的高斯随机变量，H(y)为随机变量的微分熵：

H(y)＝-∫p_y(ξ)lg p_y(ξ)dξ (5)

y的非高斯性越强，其微分熵越小，负熵Ng(y)越大。在实际应用中，负熵的计算采用如下公式：

Ng(y)＝{E[g(y)]-E[g(y_gauss)]}2 (6)

E[·]为均值运算，g(·)为非线性函数。不失一般性，可取g₁(y)＝tanh(a₁y)(1≤a₁≤2)，或g₂(y)＝y·exp(-y²/2)或g₃(y)＝y³等非线性函数。

FastICA算法，又称定点(fixed-point)算法，是由芬兰赫尔辛基大学Hyvarinen等人提出的，即要找到一个方向，使式(2)z＝Wx具有最大的非高斯性(负熵最大)。基本计算步骤如下：

1.对观测矢量x中心化，使其均值为0；

2.对数据进行白化，即使x→z；

3.选择需要估计的分量的个数m，设迭代次数p←1；

4.选择初始的权向量(随机的)W_p；

5.令W_p＝E{zg(W_p ^Tz)}-E{g'(W_p ^Tz)}W_p，g为非线性函数；

6.

7.令W_p＝W_p/||W_p||；

8.如果W_p不收敛，返回第5步；

9.令p＝p+1，如果p≤m，返回第4步。

最后获得映射矢量z和映射矩阵W。

当假设声源矢量s中各随机变量相互之间统计无关，且均符合高斯分布，并且z的最优条件是使子空间声道信息集中在最少的声道上时，空间映射模型就等价于主成分分析模型(PCA)。此时，不要求从观测信号分离出源矢量，可以通过计算观测矢量x的协方差矩阵的特征值和特征矢量，获得映射矩阵W。PCA模型本质上就是常用的Karhunen-Loeve变换，可以用奇异值分解(SVD)方法求解。

PCA模型的基本计算步骤如下：

步骤一，计算观测矢量x的协方差矩阵C；

步骤二，计算协方差矩阵的特征向量e₁、e₂、…、e_M和特征值λ₁、λ₂、…、λ_M，特征值按由大到小的顺序排序；

步骤三，将观测矢量x映射到特征矢量张成的空间之中，获得映射矢量z。

ICA模型非常适合用于信号成分的盲分离和分类，有利于将多声道信号分解为多个统计独立的声道进行编码，最大程度的去除声道间的统计冗余。而PCA模型中的映射矩阵矢量间是正交的，可以将多声道信号成分集中在尽可能少的声道上，有利于在较低的码率下降低编码信号的维度。

图5为PCA模型与ICA模型特点对比示意图，从映射效率的角度看，对于大多数场合来说，多声道信号成分并不满足正交分布的特点，此时，PCA模型不能获得最高的映射效率。而ICA模型并不要求信号的正交性，并且，绝大多数声音信号(包括子带声音信号)符合拉普拉斯分布的特点，因此，ICA模型经常能获得很高的映射效率。

从上述分析可以见，ICA模型和CPA模型特点不同，但存在很大的互补性。在具体实施时，可以根据编码器的参数配置，做如下选择：

第一种，ICA编码模式：全部采用ICA编码

第二种，PCA编码模式：全部采用PCA编码

第三种，ICA和PCA混合编码模式：采用开环或闭环搜索策略，动态选择ICA或PCA编码模式。

其中，在ICA和PCA混合编码模式中，可以根据在特定的码率下，ICA和PCA两种编码模式的信噪比(SNR)或掩蔽噪声比(MNR)来判断采用何种方式。SNR和MNR的计算可以采用通用的方法。

本发明的感知编码，将至少一组新的多声道信号和对应的映射模型进行感知编码。可以根据当前编码的目标码率，以及新的多声道信号的感知重要度，选择编码的信号成分和对应的映射模型参数。

此时，待编码的多声道信号，沿着时间、频率和声道三个维度，被划分成多个子带。采用已知的心理声学模型(如Johnston模型、MPEG Model1和Model2)，分别计算每个子带的感知重要度(权重),确定待编码的子带个数和量化精度。在映射模型编码时，可以编码对应的映射矩阵/矢量，也可以编码该模型的其他变换形式，亦可以直接编码借以计算映射矩阵的统计特征参数。

本发明将声道间子空间映射模型的选择、映射矩阵的参数计算和编码、子带的感知编码(即时间-频率-声道)统一到一个率失真(Rate Distortion Theory)编码框架中；并根据编码速率、心理声学掩蔽效应、双耳听觉效应等约束条件，实现多声道信号的高效率编码。

图6为时频子带划分示意图，根据前述的方法，在当前的编码帧中，时间-频率-声道被划分为多个时频子带，假设在时频子带(t,k)内，子空间映射模型为T(t,k)，可以在K个模型T₁、T₂、…、T_K中选择，如包括ICA模型和PCA模型；映射矩阵为W(t,k)，可以通过声道间的统计参数估计(如ICA和PCA方法)；感知编码的子带信号为x(t,k,m)，即声道m中的子带信号x(t,k)；该子带信号的信号掩蔽比SMR(t,k,m)，可通过心理声学模型计算得到；目标比特数为B比特；采用MNR(t,k,m)为失真评价标准，则可以采用如下的编码策略：

给定子带信号z(t,k,m)、SMR(t,k,m)和目标比特数B，在K个映射模型中，选择一个使MNR(t,k,m)最大的模型，并编码模型序号T(t,k)、映射矩阵W(t,k)和新的子带信号z(t,k,m)。

本发明的自适应子空间映射和感知编码相配合，可以实现在不同的编码目标条件下的自适应编码。例如，对于信噪比较小的多声道信号，独立成分分析的映射方法不仅可以对声音信号高质量编码，甚至可以实现噪声的消除；而当编码码率较低时，主成分分析的映射方法可能更适合用于编码复杂的声音信号。

本发明的自适应子空间映射和感知编码方法，也可以提供可分级的编码，即多声道声音信号只编码一次，获得一个声音码流，即可提供多码率和质量的传输及解码，从而支持多种类型用户的不同应用需求。在支持可分级编码时，感知编码模块可进一步分解为如下步骤：

步骤一，选择最重要的至少一组信号和对应的映射模型，进行感知编码，并且该部分码流的码率不高于基础层码率约束；

步骤二，选择第二重要的至少一组信号和对应的映射模型，进行感知编码，并且该部分码流的码率不高于第一增强层码率约束；

步骤三，选择第三重要的至少一组信号和对应的映射模型，进行感知编码，并且该部分码流的码率不高于第二增强层码率约束；

步骤四，以此类推，直至实现无损编码，获得N层码流。

步骤五，所有N层码流复用成一个压缩流。

在可分级编码的应用场合，根据服务请求从可分级码流重新复合的压缩流，应至少包括基础层码流，在较高的码率下，可以按重要度顺序复用增强层码流。

图7为本发明一个实施例中的多声道声音信号解码方法流程图，该方法包括：

步骤701，对编码多声道码流进行解码，获得第二多声道声音信号中的至少一组和优化子空间映射模型。

步骤702，采用优化子空间映射模型，将第二多声道声音信号映射回第一多声道声音信号。

步骤703，采用逆的时频变换，将第一多声道声音信号从频域映射为时域，或者采用逆的子带滤波，将第一多声道声音信号从子带域映射为时域。

其中，当第一多声道声音信号为多个分组声音信号时，在步骤703之前，还可以包括：将多个分组声音信号进行分组复原，获得第三多声道声音信号，将第三多声道声音信号作为第一多声道声音信号执行步骤703。

本发明实施例中，当第一多声道声音信号在时域为多个分组声音信号时，在步骤703之后，还可以包括：将所述多个分组声音信号进行分组复原，获得第四多声道声音信号。

此外，步骤701之前，还可以包括：对编码多声道码流进行解复用处理，获得多个分层码流；将每个分层码流作为编码多声道码流执行步骤701；当对全部分层码流都执行步骤701后，再统一执行步骤702和步骤703。图8为本发明一个实施例中的多声道声音信号编码装置结构示意图，该装置包括：

时频映射单元801，用于采用时频变换，将第一多声道声音信号映射为第一频域信号，或者采用子带滤波，将第一多声道声音信号映射为第一子带信号；将所述第一频域信号或所述第一子带信号划分为不同时频子带；

自适应子空间映射单元802，用于在所述时频映射单元801划分的不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性；根据所述第一统计特性，估计优化子空间映射模型；采用所述优化子空间映射模型，将所述第一多声道声音信号映射为第二多声道声音信号；

感知编码单元803，用于根据时间、频率和声道的不同，对所述自适应子空间映射单元802映射的第二多声道声音信号中的至少一组和所述优化子空间映射模型进行感知编码，并复用成编码多声道码流。

较佳地，还包括：

第一声道分组单元，用于在所述自适应子空间映射单元802在不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性之前，在所述时频映射单元划分的不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第二统计特性；根据所述第二统计特性，将所述第一多声道声音信号划分为多个分组声音信号；

所述自适应子空间映射单元802和所述感知编码单元803具体用于，针对所述第一声道分组单元划分的每个分组声音信号，将所述每个分组声音信号作为所述第一多声道声音信号进行处理。

较佳地，还包括：

第二声道分组单元，用于在所述时频映射单元801采用时频变换，将第一多声道声音信号映射为第一频域信号，或者采用子带滤波，将第一多声道声音信号映射为第一子带信号之前，计算所述第一多声道声音信号的第三统计特性；根据所述第三统计特性，将所述第一多声道声音信号划分为多个分组声音信号；

所述时频映射单元801、所述自适应子空间映射单元802和所述感知编码单元803具体用于，针对所述第二声道分组单元划分的每个分组声音信号，将所述每个分组声音信号作为所述第一多声道声音信号进行处理。

较佳地，所述自适应子空间映射单元802具体用于：在所述时频映射单元801划分的不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性；选定一个优化子空间映射模型，根据所述第一统计特性自适应调整所述优化子空间映射模型的映射系数；采用所述优化子空间映射模型，将所述第一多声道声音信号映射为第二多声道声音信号。

较佳地，所述自适应子空间映射单元802具体用于：在所述时频映射单元801划分的不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性；根据所述第一统计特性，在预先选定的多个不同映射模型间自适应切换到其中一个映射模型，将该映射模型作为优化子空间映射模型；采用所述优化子空间映射模型，将所述第一多声道声音信号映射为第二多声道声音信号。

较佳地，所述感知编码单元803中的感知编码具体为分级感知编码。

图9为本发明一个实施例中的多声道声音信号解码装置结构示意图，该装置包括：

感知解码单元901，用于对编码多声道码流进行解码，获得第二多声道声音信号中的至少一组和优化子空间映射模型；

子空间逆映射单元902，用于采用所述感知解码单元901获得的优化子空间映射模型，将所述感知解码单元901获得的第二多声道声音信号映射回第一多声道声音信号；

频时映射单元903，用于采用逆的时频变换，将所述子空间逆映射单元902得到的第一多声道声音信号从频域映射为时域，或者采用逆的子带滤波，将所述第一多声道声音信号从子带域映射为时域。

较佳地，所述子空间逆映射单元902得到的第一多声道声音信号为多个分组声音信号，所述装置还包括：

第一分组复原单元，用于在所述频时映射单元903采用逆的时频变换，将所述子空间逆映射单元902得到的第一多声道声音信号从频域映射为时域，或者采用逆的子带滤波，将所述第一多声道声音信号从子带域映射为时域之前，将所述多个分组声音信号进行分组复原，获得第三多声道声音信号；

所述频时映射单元903具体用于，将所述第一分组复原单元获得的第三多声道声音信号作为所述第一多声道声音信号进行处理。

较佳地，所述频时映射单元903进行映射处理后的第一多声道声音信号在时域为多个分组声音信号，所述装置还包括：

第二分组复原单元，用于在所述频时映射单元903采用逆的时频变换，将所述子空间逆映射单元902得到的第一多声道声音信号从频域映射为时域，或者采用逆的子带滤波，将所述第一多声道声音信号从子带域映射为时域之后，将所述多个分组声音信号进行分组复原，获得第四多声道声音信号。

较佳地，所述装置还包括：

解复用单元，用于所述感知解码单元901对编码多声道码流进行解码，获得第二多声道声音信号中的至少一组和优化子空间映射模型之前，对编码多声道码流进行解复用处理，获得多个分层码流；

所述感知解码单元901、所述子空间逆映射单元902和所述频时映射单元903具体用于，将所述解复用单元获得的每个分层码流作为编码多声道码流进行处理。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多声道声音信号编码方法，其特征在于，所述方法包括：

A)采用时频变换，将第一多声道声音信号映射为第一频域信号，或者采用子带滤波，将第一多声道声音信号映射为第一子带信号；

B)将所述第一频域信号或所述第一子带信号划分为不同时频子带；

C)在所述不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性；

D)根据所述第一统计特性，在多个不同映射模型间自适应切换到其中一个映射模型，将该映射模型作为优化子空间映射模型；根据所述第一统计特性自适应调整所述优化子空间映射模型的映射系数；

E)采用所述优化子空间映射模型，将所述第一多声道声音信号映射为第二多声道声音信号；

F)根据时间、频率和声道的不同，对所述第二多声道声音信号中的至少一组和所述优化子空间映射模型进行感知编码，并复用成编码多声道码流。

2.如权利要求1所述的方法，其特征在于，在所述不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性之前，还包括：

在所述不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第二统计特性；根据所述第二统计特性，将所述第一多声道声音信号划分为多个分组声音信号；

针对每个分组声音信号，将所述每个分组声音信号作为所述第一多声道声音信号执行步骤C)至F)。

3.如权利要求1所述的方法，其特征在于，在所述将所述第一频域信号或所述第一子带信号划分为不同时频子带之前，还包括：

计算所述第一多声道声音信号的第二统计特性；根据所述第二统计特性，将所述第一多声道声音信号划分为多个分组声音信号；

针对每个分组声音信号，将所述每个分组声音信号作为所述第一多声道声音信号执行步骤B)至F)。

4.如权利要求1所述的方法，其特征在于，所述采用时频变换，将第一多声道声音信号映射为第一频域信号，或者采用子带滤波，将第一多声道声音信号映射为第一子带信号之前，还包括：

计算所述第一多声道声音信号的第三统计特性；根据所述第三统计特性，将所述第一多声道声音信号划分为多个分组声音信号；

针对每个分组声音信号，将所述每个分组声音信号作为所述第一多声道声音信号执行步骤A)至F)。

5.如权利要求1所述的方法，其特征在于，所述感知编码具体为分级感知编码。

6.一种多声道声音信号编码装置，其特征在于，所述装置包括：

时频映射单元，用于采用时频变换，将第一多声道声音信号映射为第一频域信号，或者采用子带滤波，将第一多声道声音信号映射为第一子带信号；将所述第一频域信号或所述第一子带信号划分为不同时频子带；

自适应子空间映射单元，用于在所述时频映射单元划分的不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性；

根据所述第一统计特性，在多个不同映射模型间自适应切换到其中一个映射模型，将该映射模型作为优化子空间映射模型；根据所述第一统计特性自适应调整所述优化子空间映射模型的映射系数；

采用所述优化子空间映射模型，将所述第一多声道声音信号映射为第二多声道声音信号；

感知编码单元，用于根据时间、频率和声道的不同，对所述自适应子空间映射单元映射的第二多声道声音信号中的至少一组和所述优化子空间映射模型进行感知编码，并复用成编码多声道码流。

7.如权利要求6所述的装置，其特征在于，还包括：

第一声道分组单元，用于在所述自适应子空间映射单元在不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性之前，在所述时频映射单元划分的不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第二统计特性；根据所述第二统计特性，将所述第一多声道声音信号划分为多个分组声音信号；

所述自适应子空间映射单元和所述感知编码单元具体用于，针对所述第一声道分组单元划分的每个分组声音信号，将所述每个分组声音信号作为所述第一多声道声音信号进行处理。

8.如权利要求6所述的装置，其特征在于，还包括：

第二声道分组单元，用于在所述时频映射单元采用时频变换，将第一多声道声音信号映射为第一频域信号，或者采用子带滤波，将第一多声道声音信号映射为第一子带信号之前，计算所述第一多声道声音信号的第三统计特性；根据所述第三统计特性，将所述第一多声道声音信号划分为多个分组声音信号；

所述时频映射单元、所述自适应子空间映射单元和所述感知编码单元具体用于，针对所述第二声道分组单元划分的每个分组声音信号，将所述每个分组声音信号作为所述第一多声道声音信号进行处理。

9.如权利要求6所述的装置，其特征在于，所述感知编码单元中的感知编码具体为分级感知编码。

10.一种多声道声音信号解码方法，其特征在于，所述方法包括：

A)对编码多声道码流进行解码，获得第二多声道声音信号中的至少一组和优化子空间映射模型；

B)采用所述优化子空间映射模型，将所述第二多声道声音信号映射回第一多声道声音信号；

C)采用逆的时频变换，将所述第一多声道声音信号从频域映射为时域，或者采用逆的子带滤波，将所述第一多声道声音信号从子带域映射为时域；

其中，所述优化子空间映射模型，是根据第一统计特性，在多个不同映射模型间自适应切换到其中一个映射模型，将该映射模型作为优化子空间映射模型；根据所述第一统计特性自适应调整所述优化子空间映射模型的映射系数；

所述第一统计特性，是采用时频变换，将第一多声道声音信号映射为第一频域信号，或者采用子带滤波，将第一多声道声音信号映射为第一子带信号；

将所述第一频域信号或所述第一子带信号划分为不同时频子带；

在所述不同时频子带中的每个时频子带内，计算所述第一多声道声音信号的第一统计特性。

11.如权利要求10所述的方法，其特征在于，所述第一多声道声音信号为多个分组声音信号；在所述采用逆的时频变换，将所述第一多声道声音信号从频域映射为时域，或者采用逆的子带滤波，将所述第一多声道声音信号从子带域映射为时域之前，还包括：

将所述多个分组声音信号进行分组复原，获得第三多声道声音信号；

将所述第三多声道声音信号作为所述第一多声道声音信号执行步骤C)。

12.如权利要求10所述的方法，其特征在于，所述第一多声道声音信号在时域为多个分组声音信号；在所述采用逆的时频变换，将所述第一多声道声音信号从频域映射为时域，或者采用逆的子带滤波，将所述第一多声道声音信号从子带域映射为时域之后，还包括：

将所述多个分组声音信号进行分组复原，获得第四多声道声音信号。

13.如权利要求10所述的方法，其特征在于，所述对编码多声道码流进行解码，获得第二多声道声音信号中的至少一组和优化子空间映射模型之前，还包括：

对编码多声道码流进行解复用处理，获得多个分层码流；

将每个分层码流作为编码多声道码流，执行步骤A)；

当对全部分层码流都执行步骤A)后，再统一执行步骤B)和步骤C)。

14.一种多声道声音信号解码装置，其特征在于，所述装置包括：

感知解码单元，用于对编码多声道码流进行解码，获得第二多声道声音信号中的至少一组和优化子空间映射模型；

子空间逆映射单元，用于采用所述感知解码单元获得的优化子空间映射模型，将所述感知解码单元获得的第二多声道声音信号映射回第一多声道声音信号；

频时映射单元，用于采用逆的时频变换，将所述子空间逆映射单元得到的第一多声道声音信号从频域映射为时域，或者采用逆的子带滤波，将所述第一多声道声音信号从子带域映射为时域；

15.如权利要求14所述的装置，其特征在于，所述子空间逆映射单元得到的第一多声道声音信号为多个分组声音信号，所述装置还包括：

第一分组复原单元，用于在所述频时映射单元采用逆的时频变换，将所述子空间逆映射单元得到的第一多声道声音信号从频域映射为时域，或者采用逆的子带滤波，将所述第一多声道声音信号从子带域映射为时域之前，将所述多个分组声音信号进行分组复原，获得第三多声道声音信号；

所述频时映射单元具体用于，将所述第一分组复原单元获得的第三多声道声音信号作为所述第一多声道声音信号进行处理。

16.如权利要求14所述的装置，其特征在于，所述频时映射单元进行映射处理后的第一多声道声音信号在时域为多个分组声音信号，所述装置还包括：

第二分组复原单元，用于在所述频时映射单元采用逆的时频变换，将所述子空间逆映射单元得到的第一多声道声音信号从频域映射为时域，或者采用逆的子带滤波，将所述第一多声道声音信号从子带域映射为时域之后，将所述多个分组声音信号进行分组复原，获得第四多声道声音信号。

17.如权利要求14所述的装置，其特征在于，所述装置还包括：

解复用单元，用于所述感知解码单元对编码多声道码流进行解码，获得第二多声道声音信号中的至少一组和优化子空间映射模型之前，对编码多声道码流进行解复用处理，获得多个分层码流；

所述感知解码单元、所述子空间逆映射单元和所述频时映射单元具体用于，将所述解复用单元获得的每个分层码流作为编码多声道码流进行处理。