CN101297353B

CN101297353B - 编码和解码多声道音频信号的方法及其装置

Info

Publication number: CN101297353B
Application number: CN2006800398351A
Authority: CN
Inventors: 郑亮源; 房熙锡; 吴贤午; 金东秀; 林宰显
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2005-10-26
Filing date: 2006-10-20
Publication date: 2013-03-13
Anticipated expiration: 2026-10-20
Also published as: EP1946310A1; TWI451401B; KR20080094710A; KR20080065293A; US20080262854A1; EP1946310A4; KR100891688B1; CN101297353A; TW200939205A; WO2007049881A1; US8238561B2; JP2009514008A; TWI323878B; TW200746045A

Abstract

本发明提供了编码和解码多声道音频信号的方法和装置。在编码方法中，对基于多声道音频信号和声道缩减混音信号计算出的空间信息进行编码，基于从经编码的空间信息中选出的信息生成附加配置信息。编码声道缩减混音信号，然后通过组合经编码的声道缩减混音信号和经编码的空间信息生成比特流。之后将附加配置信息插入比特流。因此，可根据情况通过重发头部中包括的信息的全部或部分来配置优化比特流。

Description

编码和解码多声道音频信号的方法及其装置

技术领域

本发明涉及编码方法和装置以及解码方法和装置，尤其涉及一种在其中对多声道音频信号进行编码或解码以使包括在头部中的信息的全部或部分可被重发(retransmitted)的编码方法和装置以及解码方法和装置。

背景技术

在编码多声道音频信号的典型方法中，是将多声道音频信号进行声道缩减混音处理成单声道或立体声信号并编码该单声道或立体声信号，而不是编码多声道音频信号的每一个声道。在这种方法中，多声道音频信号与指示空间提示(spatial cue)的空间信息一起被编码。

图1是用于说明利用编码多声道音频信号的典型方法所生成的多声道音频信号的比特流的图示。参考图1，多声道音频信号的比特流被分割成一个或多个帧(即，帧1至帧3)，因而是以帧为单位发送或解码的。头部被置于帧1之前。头部包括空间音频译码(SAC)配置信息，而帧1至帧3各自包括相对应的帧的空间信息。SAC配置信息包括可普遍适用于帧1至帧3的信息，即采样频率信息、帧长度信息、及指定多声道信号的声道缩减组合的树状配置信息。

通常，SAC配置信息仅包括在比特流的头部。因此，当多声道音频信号的比特流的头部没有像在流服务中那样被接收到时，就不能获得解码比特流所需的信息。

此外，因为树状配置信息仅包括在SAC配置信息中，所以必需在整个多声道音频信号中使用相同的声道缩减混音组合。因此，不可能在执行解码时使得声道缩减混音组合在通过解码所获得的多声道音频信号的一个帧与另一个帧之间有所改变。同样，不可能在执行编码/解码使得多声道音频信号的每一个帧都能以最优效率编码/解码。

发明内容

技术问题

本发明提供一种在其中选自头部的信息可作为附加配置信息重发的编码方法和装置。

本发明还提供一种在其中包括选自头部的附加配置信息的比特流可被解码的解码方法和装置。

技术解决方案

根据本发明的一个方面，提供一种编码方法。该编码方法包括：对基于多声道音频信号和声道缩减混音信号计算出的空间信息进行编码；基于选自经编码的空间信息的信息生成附加配置信息；编码声道缩减混音信号，通过组合经编码的声道缩减混音信号和经编码的空间信息生成比特流，并将附加配置信息插入比特流。

根据本发明的另一个方面，提供一种编码装置。该编码装置包括：基于多声道音频信号生成声道缩减混音信号的声道缩减混音单元；编码声道缩减混音信号的核心编码器；计算多声道音频信号的空间信息的空间信息生成单元；编码空间信息的参数编码器；以及通过组合经编码的空间信息和经编码的声道缩减混音信号生成比特流并将选自经编码的空间信息的附加配置信息插入比特流的比特流生成单元。

根据本发明的另一个方面，提供一种解码方法。该解码方法包括：从输入比特流的当前帧多路分解出经编码的声道缩减混音信号和附加信息；基于附加信息确定附加配置信息是否已被重发；以及如果确定附加配置信息已经被重发，则基于附加配置信息生成对应于当前帧的多声道音频信号。

根据本发明的另一个方面，提供一种解码装置。所述解码装置包括：从输入比特流的当前帧多路分解出经编码的声道缩减混音信号和附加信息的多路分解器；通过解码经编码的声道缩减混音信号生成声道缩减混音信号的核心解码器；基于附加信息确定附加配置信息是否已被重发、并在确定附加配置信息已经被重发时通过编码附加配置信息生成空间信息的参数解码器；以及基于空间信息和声道缩减混音信号生成多声道音频信号的多声道合成单元。

根据本发明的另一个方面，提供一种有用于执行编码方法的程序记录于其上的计算机可读记录介质，所述编码方法包括：对基于多声道音频信号和声道缩减混音信号计算出的空间信息进行编码；基于选自经编码的空间信息的信息生成附加配置信息；以及编码声道缩减混音信号，通过组合经编码的声道缩减混音信号和经编码的空间信息生成比特流，并将附加配置信息插入比特流。

根据本发明的另一个方面，提供一种有用于执行解码方法的程序记录于其上的计算机可读记录介质，所述解码方法包括：从输入比特流的当前帧多路分解出经编码的声道缩减混音信号和附加信息；基于附加信息确定附加配置信息是否已被重发；以及如果确定附加配置信息已经被重发，则基于附加配置信息生成对应于当前帧的多声道音频信号。

有益效果

在编码方法中，对基于多声道音频信号和声道缩减混音信号计算出的空间信息进行编码，基于选自经编码的空间信息的信息生成附加配置信息。编码声道缩减混音信号，然后通过组合经编码的声道缩减混音信号和经编码的空间信息生成比特流。之后将附加配置信息插入比特流。因此，可根据情况通过重发包括在头部中的信息的全部或部分来配置最佳比特流。

附图简述

本发明的以上及其它特征和优点通过参考附图详细描述其示例性实施例将变得更加显而易见，附图中：

图1是用于示出典型的多声道音频信号的比特流的图示；

图2是一个在其上应用根据本发明的一个实施例的编码和解码方法的编码/解码多声道音频信号的系统的框图；

图3和4呈现出本发明中使用的空间信息的句法；

图5和6是示出根据本发明的一个实施例的解码方法的流程图；以及

图7是示出根据本发明的另一个实施例的解码方法的流程图。

具体实施方式

现在将参考示出本发明的示例性实施例的附图更全面地描述本发明。

根据本发明的编码和解码多声道音频信号的方法和装置可应用于多声道音频信号的处理。然而，本发明不限于此。换言之，本发明还可应用于除多声道音频信号以外的信号的处理。

图2是一个在其上应用了根据本发明的一个实施例的编码和解码方法的编码/解码多声道音频信号的系统的框图。参考图2，编码装置100包括声道缩减混音单元110、空间信息生成单元120、核心编码器130、参数编码器135以及比特流生成单元140。解码装置200包括多路分解器210、核心解码器220、参数解码器230以及多声道合成单元240。

声道缩减混音单元110通过将包括n个声道的多声道音频信号进行声道缩减混音处理成单声道或立体声信号来生成声道缩减混音信号。编码装置100可利用一个在外部处理的艺术性声道缩减混音信号，而不是生成一个声道缩减混音信息。空间信息生成单元120计算关于多声道音频信号的空间信息。核心编码器130编码由声道缩减混音单元110生成的声道缩减混音信号。参数编码器135编码由空间信息生成单元120获得的空间信息。

比特流生成单元140通过组合经编码的声道缩减混音信号和经编码的空间信息来生成比特流。如果必要，比特流生成单元140将附加配置信息插入比特流。附加配置信息对应于包括在比特流的头部中的空间信息或其它信息的全部或部分。简言之，可将空间信息和附加配置信息包括在通过比特流生成单元140生成的比特流中。

多路分解器210接收输入至解码装置200的比特流，并从所接收的比特流多路分解出经编码的声道缩减混音信号和经编码的附加信息。核心解码器220通过对经编码的信号进行解码处理来生成声道缩减混音信号。参数解码器230通过对经编码的附加信息进行解码处理来生成空间信息。如果经编码的附加信息包含附加配置信息，则参数解码器230可基于附加配置信息生成空间信息。多声道合成单元240基于由多声道合成单元240生成的空间信息和由核心解码器220生成的声道缩减混音信号生成多声道音频信号。

图3和4呈现出本发明中使用的空间信息的句法。参考图3，SpatialSpecificConfig()指示包括在头部中的空间信息。参考图4，SpatialFrame()指示作为对应于每一个帧的信息的帧信息。

SpatialSpecificConfig()对应于SAC配置信息，具体的是可普遍适用于众多个帧的空间信息。SpatialSpecificConfig()包括指示采样频率的bsSamplingFrequency、指示帧长度的bsFrameLength、以及指示指定多声道信号的声道缩减混音组合的信息的bsTreeConfic。SpatialFrame()包括每一个帧的空间信息，诸如指示与参数集的数目有关的时隙信息的Framinginfo()。

根据本发明，在对多声道音频信号进行编码时，使得对应于SAC配置信息的全部或部分的SpatialSpecficConfig()可作为附加配置信息插入到比特流的某一帧或每一个帧中。换言之，SAC配置信息不仅可插入到比特流的头部还可插入到比特流的某一帧或每一个帧中。

为了解码附加配置信息插入其某一帧中的比特流，可按以下方式编码多声道音频信号。首先，为了将对应于SpatialSpecificConfig()的附加配置信息重发到某一帧，可在SpatialFrame()中设置一个指示附加配置信息是否已被重发的重发标志(例如，bsResendSptialSpecificConficFrame)。例如，如果在SpatialFrame()中重发标志bsResendSptialSpecificConficFrame被置位，则可在比特流的解码期间确定：对应于SpatialSpecifigConfig()的附加配置信息被插入到了比特流中。

同样，可在包括在比特流的头部中的SpatialSpecifigConfig()中设置重发标志bsResendSpatialSpecificConfigHeader。如果重发标志bsResendSpatialSpecificConfigHeader被置位，则可再次确定SpatialFrame()中重发标志bsResendSpatialSpecificConficFrame是否被置位，且可根据确定的结果再次接收附加配置信息。如果重发标志bsResendSpatialSpecificConfigHeader未被置位，则它意味着比特流不包括任何附加配置信息，因而可方便地解码比特流而不需要重新检查重发标志bsResendSpatialSpecificConficFrame。

附加的配置信息可由SpatialSpecificConfig()构成，或可由从SpatialSpecificConfig()中选出的参数集SpatialSpecificConfigParam构成。在这种情形中，可将重发标志bsResendSpatialSpecificConficParamFrame插入SpatialFrame()。如果重发标志bsResendSpatialSpecificConficParamFrame被置位，则可确定参数集SpatialSpecificConfigParam已被重发。此外，重发标志bsResendSpatialSpecificConfigParamHeader可包括在SpatialSpecifigConfig()中。如果重发标志bsResendSpatialSpecificConfigParamHeader被置位，则重发标志bsResendSpatialSpecificConficParamFrame可被重新检查，且根据检查结果再次接收附加配置信息。另一方面，如果重发标志bsResendSpatialSpecificConfigParamHeader被置位，则可确定比特流不包括附加配置信息。

这样，可以在执行编码时使得包括在比特流的头部中的空间信息的全部或部分可周期性地重发、或者可在必要时通过携带在从多个比特流中选出的帧上重发。

对应于部分的包括在比特流的头部中的空间信息的参数集SpatialSpecificConfigParam可包括SpatialSpecficConfig()中所包括的多条信息中的至少一条。

SpatialSpecConfig()中的上述变量的定义示于表1。

表1

变量	定义
		bsSamplingFrequency	定义采样频率
bsFrameLength	定义空间帧中的时隙的数目
		bsFreqRes	定义参数频带的数目
bsTreeConfig	定义树状配置
		bsQuantMode	定义量子化和CLD能量相关量子化(EdQ)
bsOneIcc	指示是否仅单个ICC参数子集共用地转送到所有OTT框
		bsArbitraryDowmix	指示任意声道缩减混音增益的存在
bsFixedGainsSur	定义用于环绕声道的增益
		bsFixedGainsLFE	定义用于LFE声道的增益
bsFixedGainsDMX	定义用于声道缩减混音的增益
		bsMatrixMode	指示矩阵兼容立体声声道缩减混音是否已经在编码器中生成
bsTempShapeConfig	指示解码器中的时间整型(TES和/或TP)的操作模式
		bsDecorrConfig	指示解码器中的解相关器的操作模式
bs3DaudioMode	指示对立体声声道缩减混音进行3D音频编码，并应用逆HRTF处理
		bsEnvQuantMode	定义包络整型数据的量子化模式
bs3DaudioHRTFset	指示HRTF参数集

例如，bsTreeConfig指示多声道音频信号的树状配置，为了指示是否已经重发bsTreeConfig，可将重发标志bsResendTreeConfigFrame插入SpatialFrame()。例如，如果重发标志bsResendTreeConfigFrame被置位，则可确定bsTreeConfig已经被重发。如上所述，可将重发标志bsResendTreeConfigHeader插入SpatialSpecifigConfigHeader。如果重发标志bsResendTreeConfigHeader被置位，则可重新检查重发标志bsResendTreeConfigFrame。

这样，即可周期性地或在任何必要的时候重发bsTreeConfig。此外，可通过针对每一帧有差别地置位bsTreeConfig来有效率地存储并重发信号。例如，假设有五个声道的多声道音频信号包括两个部分：一个是即使在多声道音频信号被声道缩减混音成单声道后仍维持其品质的部分、一个是必须压缩成立体声的部分。在这种情形中，根据现有技术，多声道音频信号必须被编码成立体声，以便维持多声道音频信号的质量。另一方面，根据本发明，只有那些需要压缩成立体声的多声道音频信号的部分可选择性地编码成立体声。此外，根据本发明，在信号编码为单声道信号期间，可根据信号的类型改变编码的模式，因此获得在给定的比特率的条件下比现有技术的质量更好的信号。

根据本发明的实施例，bsTreeConfig可分成三个比特，即，bsTreeExt、bsTreeCh、和bsTreeCfg，所以可使用bsTreeExt、bsTreeCh、和bsTreeCfg，而不是重发bsTreeConfig。在这种情形中，如果bsTreeExt＝1且bsTreeConfig＝15，则可通过扩展信令来接收TreeDescription。如果bsTreeExt＝0且bsTreeCh＝0，则可使用515格式。如果bsTreeExt＝0且bsTesCh＝1，则可使用525格式。如果bsTreeExt＝0、bsTreeCh＝0、且bsTreeCfg＝0，则可使用5151格式。如果bsTreeExt＝0、bsTreeCh＝0、且bsTreeCfg＝1，则可使用5152格式。由此，可仅用两比特表示bsTreeConfig，因此减小所使用的比特数。

图5和6是示出根据本发明的一个实施例的解码方法的流程图。参考图5，在操作S400中，接收输入比特流的头部。在操作S405中，确定头部中的重发标志(bsResendSpatialSpecificConfigHeader)是否被置位。如果在操作S405中头部中的重发标志(bsResendSpatialSpecificConfigHeader)未被置位，则表示头部不包括任何附加的配置信息，因此在图6所示的操作S440至S450中利用包括在头部中的配置信息作为空间信息生成多声道音频信号。

另一方面，如果在操作S405中确定头部中的重发标志(bsResendSpatialSpecificConfigHeader)被置位，则表示附加信息已被重发。然后，在操作S410中，接收输入比特流的帧(在下文中称为当前帧)。在操作S415中，确定当前帧中的重发标志是否已被置位。在操作S420中，如果在操作S415中确定当前帧中的重发标志(bsResendSpatialSpecificConficFrame)被置位，则提取附加配置信息。附加配置信息可包括在当前帧或前一帧中。

在操作S420中，一旦提取了附加配置信息，就根据该附加配置信息基于声道缩减混音信号生成多声道音频信号。详细地，从当前帧多路分解出经编码的声道缩减混音信号和帧信息，基于附加配置信息和帧信息生成空间信息，并基于空间信息和经编码的声道缩减混音信号生成多声道音频信号。如果附加配置信息是头部中所包括的空间信息的一部分，则生成空间信息所需的其它信息可从提取自头部的空间信息获得。然后，在操作435中，如果在操作S415中确定当前帧中的重发标志(bsResendSpatialSpecificConficFrame)未被置位，则基于头部所包括的配置信息生成多声道音频信号。反复地执行操作S400至S425、S435、和S400至S450，直到遇到输入比特流的末端。

图7是示出根据本发明的另一个实施例的解码方法的流程图。参考图7中示出的解码方法，重发标志不是包括在头部而是包括在帧中。参考图7，在操作S500中，接收输入比特流的帧。在操作S505中，确定重发标志是否被置位。在操作S510中，如果在操作S505中确定帧中的重发标志被置位，则(从帧中？)提取附加配置信息。在操作S515中，基于附加配置信息生成多声道音频信号。详细地，基于附加配置信息和帧信息生成空间信息，然后，基于空间信息和声道缩减混音信号生成多声道音频信号。

另一方面，在操作S525中，如果在操作S505中确定帧中的重发标志未被置位，则基于帧信息和从输入比特流的头部提取的配置信息生成空间信息，并基于空间信息和声道缩减混音信号生成多声道音频信号。

根据本发明，将附加配置信息插入比特流的某一帧，从而即使在比特流的头部没有像在流服务中那样被接收时也能实现多声道音频信号的生成。

可将本发明实现为写入计算机可读记录介质的计算机可读代码。计算机可读记录介质可以是数据以计算机可读形式存储于其中的任何类型的记录装置。计算机可读记录介质的例子包括ROM、RAM、CD-ROM、磁带、软盘、光学数据存储器、以及载波(例如通过因特网的数据传输)。计算机可读记录介质可分布在连接到网络上的多个计算机系统中，使得以分散的方式向其中写入并从其执行计算机可读代码。实现本发明的功能程序、代码和代码段可由本领域的技术人员容易地解释。

根据本发明，编码多声道音频信号，使得包括在头部中的信息的全部或部分也可包括在预定的帧中。因此，本发明可应用于流服务。此外，根据本发明，在编码或解码多声道音频信号时，使得配置可在帧与帧之间有所变化。因此，可根据情况生成最优比特流。

此外，根据本发明，可将空间信息仅选择性地发送到几个帧。因此，可在维持信号质量的同时有效地降低要发送的数据量。

本发明可被应用于多声道音频信号的编码/解码，并可实现包括在头部中的信息的全部或部分的重发。

尽管参考本发明的示例性实施例具体示出并描述了本发明，但本领域的技术人员将理解可在不背离由以下权利要求书限定的本发明的精神和范围的情况下对其进行形式和细节上的各种变化。

工业适用性

本发明用于其中编码或解码多声道音频信号使得包括在头部中的信息的全部或部分可被重发的编码方法和装置以及解码方法和装置。

Claims

1.一种解码音频信号的方法，包括：

从比特流获得头部和帧，所述比特流还包括声道缩减混音信号，所述帧包括空间信息；

获得所述帧中包括的所述空间信息的配置信息，所述配置信息包括树状配置信息、指示用于声道缩减混音信号的增益的声道缩减混音增益信息和指示将应用于多声道音频信号的声道的增益的声道增益信息；

基于指示能用于将所述声道缩减混音信号混音成多声道音频信号的树状配置的所述树状配置信息确定所述树状配置；以及

通过分别使用所述声道缩减混音增益信息和所述声道增益信息修改所述声道缩减混音信号以及多声道音频信号的声道的增益来生成所述多声道音频信号，

其中在标志指示所述配置信息包括在所述帧中的情况下获得所述配置信息，

其中所述配置信息包括：3D音频模式信息，指示对所述声道缩减混音信号进行3D音频编码并应用逆HRTF处理；HRTF参数信息，指示HRTF参数集；以及包络整型数据的量子化模式信息，指示包络整型数据的量子化模式。

2.如权利要求1所述的方法，其特征在于，所述配置信息包括指示是否已在编码器中生成矩阵兼容立体声声道缩减混音信号的矩阵模式信息。

3.如权利要求1所述的方法，其特征在于，所述标志指示所述配置信息被重发。

4.如权利要求1所述的方法，其特征在于，所述配置信息包括参数频带数目信息、采样频率信息、帧长度信息、和解相关模式信息。

5.如权利要求1所述的方法，其特征在于，所述声道增益信息包括指示将应用于所述多声道音频信号的LFE声道的增益的LFE声道增益信息或指示将应用于所述多声道音频信号的环绕声道的增益的环绕声道增益信息。

6.一种编码音频信号的方法，包括：

从多声道音频信号生成声道缩减混音信号和空间信息；

基于所述声道缩减混音信号和所述多声道音频信号生成配置信息，所述配置信息包括树状配置信息、声道缩减混音增益信息、声道增益信息、3D音频模式信息、HRTF参数信息和包络整型数据的量子化模式信息，所述树状配置信息指示所述声道缩减混音信号到所述多声道音频信号的树状配置，所述声道缩减混音增益信息指示将应用于所述声道缩减混音信号的增益，所述声道增益信息指示将应用于所述多声道音频信号的声道的增益，所述3D音频模式信息指示对所述声道缩减混音信号进行3D音频编码并应用逆HRTF处理，所述HRTF参数信息指示HRTF参数集，以及所述包络整型数据的量子化模式信息指示包络整型数据的量子化模式；

将所述空间信息的所述配置信息插入比特流的帧，所述比特流还包括所述声道缩减混音信号，所述比特流包括头部和所述帧，

其中所述比特流还包括指示所述配置信息是否包括在所述帧中的标志。

7.如权利要求6所述的方法，其特征在于，所述配置信息包括指示是否已在编码器中生成矩阵兼容立体声声道缩减混音信号的矩阵模式信息。

8.如权利要求6所述的方法，其特征在于，所述标志指示所述配置信息被重发。

9.如权利要求6所述的方法，其特征在于，所述配置信息还包括参数频带数目信息、采样频率信息、帧长度信息、和解相关模式信息。

10.一种编码音频信号的装置，包括：

声道缩减混音单元，用于从多声道音频信号生成声道缩减混音信号；

空间信息生成单元，用于生成所述多声道音频信号的空间信息，所述空间信息包括配置信息，所述配置信息包括树状配置信息、声道缩减混音增益信息、声道增益信息、3D音频模式信息、HRTF参数信息和包络整型数据的量子化模式信息；以及

比特流生成单元，用于通过将所述空间信息的所述配置信息插入比特流的帧来生成比特流，所述比特流还包括所述声道缩减混音信号，所述比特流包括头部和所述帧，

其中所述树状配置信息指示所述声道缩减混音信号到所述多声道音频信号的树状配置，所述声道缩减混音增益信息指示将应用于所述声道缩减混音信号的增益，所述声道增益信息指示将应用于所述多声道音频信号的声道的增益，所述3D音频模式信息指示对所述声道缩减混音信号进行3D音频编码并应用逆HRTF处理，所述HRTF参数信息指示HRTF参数集，以及所述包络整型数据的量子化模式信息指示包络整型数据的量子化模式，

其中所述比特流生成单元生成指示所述配置信息是否包括在所述帧中的标志。

11.如权利要求10所述的装置，其特征在于，所述配置信息包括指示是否已在编码器中生成矩阵兼容立体声声道缩减混音信号的矩阵模式信息。

12.如权利要求10所述的装置，其特征在于，所述标志指示所述配置信息被重发。

13.如权利要求10所述的装置，其特征在于，所述配置信息包括参数频带数目信息、采样频率信息、帧长度信息、和解相关模式信息。

14.一种解码音频信号的装置，包括：

参数解码器，用于从比特流获得头部和帧，所述帧包括空间信息，并获得所述帧中包括的所述空间信息的配置信息，所述比特流还包括声道缩减混音信号，所述配置信息包括树状配置信息、指示用于声道缩减混音信号的增益的声道缩减混音增益信息和指示将应用于多声道音频信号的声道的增益的声道增益信息；以及

多声道合成单元，用于基于能用于将所述声道缩减混音信号混音成多声道音频信号的所述树状配置信息确定树状配置，并通过分别使用所述声道缩减混音增益信息和所述声道增益信息修改所述声道缩减混音信号以及多声道音频信号的声道的增益来生成所述多声道音频信号，

15.如权利要求14所述的装置，其特征在于，所述声道增益信息包括指示将应用于所述多声道音频信号的LFE声道的增益的LFE声道增益信息或指示将应用于所述多声道音频信号的环绕声道的增益的环绕声道增益信息。