CN102547549A

CN102547549A - 编码解码2或3维声场环绕声表示的连续帧的方法和装置

Info

Publication number: CN102547549A
Application number: CN2011104317981A
Authority: CN
Inventors: P.贾克斯; J-M.巴特克; J.贝姆; S.柯登
Original assignee: Thomson Licensing SAS
Current assignee: Dolby International AB
Priority date: 2010-12-21
Filing date: 2011-12-21
Publication date: 2012-07-04
Anticipated expiration: 2031-12-21
Also published as: EP2469742A3; EP3468074A1; JP6982113B2; US9397771B2; JP2020079961A; KR102131748B1; KR20180115652A; JP2018116310A; EP2469742A2; EP4007188B1; EP2469741A1; EP4007188A1; CN102547549B; JP2012133366A; KR20190096318A; KR102010914B1; JP2016224472A; JP2023158038A; KR101909573B1; EP4343759A2

Abstract

提供了一种编码解码2或3维声场环绕声表示的连续帧的方法和装置。使用更高阶高保真度立体声响复制(HOA)技术表示空间音频场景通常每个时刻都需要大量系数。这个数据速率对于需要实时传输音频信号的大多数实际应用来说太高了。按照本发明，在空间域中而不是在HOA域中进行压缩。将(N+1)2个输入HOA系数变换成空间域中的(N+1)2个等效信号，并且将所得的(N+1)²个时域信号输入一排并行感知编解码器中。在解码器方，解码各个空间域信号，并将空间域系数变换回到HOA域，以便恢复原始HOA表示。

Description

编码解码2或3维声场环绕声表示的连续帧的方法和装置

技术领域

本发明涉及编码和解码2维或3维声场的更高阶高保真度立体声响复制或环绕声(Ambisonics)表示的连续帧的方法和装置。

背景技术

高保真度立体声响复制技术将基于球谐波的特定系数用于提供一般独立于任何特定扬声器或扩音器装置的声场描述。这导致了在合成场景的声场记录或生成期间不需要有关扬声器位置的信息的描述。高保真度立体声响复制系统中的再现精度可以通过它的阶数N来修改。通过那种阶数可以为3D系统确定描述声场的所需音频信息声道的数量，因为这取决于球谐波基的数量。系数或声道的数量O是O＝(N+1)²。

使用更高阶高保真度立体声响复制(HOA)技术(即，2或更高的阶数)表示复杂空间音频场景通常每个时刻都需要大量系数。每个系数应该具有相当高的分辨率，通常24比特/系数或以上。于是，以原始HOA格式传输音频场景所需的数据速率高。举一个例子来说，利用，例如，EigenMike记录系统记录的3阶HOA信号需要(3+1)²个系数*44100Hz*24比特/系数＝16.15Mb/s的带宽。截至今天，这个数据速率对于需要实时传输音频信号的大多数实际应用来说太高了。因此，压缩技术是实际有关的HOA相关音频处理系统所需的。

更高阶高保真度立体声响复制是允许捕获、操纵和存储音频场景的数学范式。在空间中的基准点上和附近通过傅里叶-贝塞尔级数(Fourier-Bessel series)近似表示声场。因为HOA系数具有这种特定数学基础，所以必须应用特定压缩技术，以便达到最佳编码效率。冗余和心理声学这两个方面要予以考虑，并且可以预期，对于复杂空间音频场景和对于传统单声道或多声道信号起不同作用。与已建立音频格式的特别差异是HOA表示中的所有“声道”是在空间中利用相同基准地点计算的。因此，至少对于具有不多但占主导作用的声音对象的音频场景而言，可以预期HOA系数之间存在相当大的相干性。

对于HOA信号的有损压缩，只存在不多已公布技术。其中大多数不能归到感知编码的类别，因为通常都没有将心理声学模型用于控制压缩。相反，几种现有方案将音频场景分解成基础模型的参数。

1阶到3阶高保真度立体声响复制传输的早期方法

高保真度立体声响复制的理论自1960年代以来已经用在音频制作和消费中，尽管直到现在其应用大多局限于1阶或2阶内容。大量分发格式已在使用之中，尤其：

-B-格式：这种格式是用于在研究人员、制作者和爱好者之间交换内容的标准专业、原始信号格式。通常，它涉及系数被特别归一化的1阶高保真度立体声响复制，但也存在直到3阶的规范。

-在B-格式的最近更高阶变型中，像SN3D那样的修正归一化方案、和特殊加权规则，例如，Furse-Malham又称FuMa或FMH集合，通常导致部分高保真度立体声响复制系数数据的幅度成比例缩小。在接收器方解码之前通过查表进行相反成比例放大操作。

-UHJ-格式(又称C-格式)：这是可应用于经由现有单声道或双声道立体声路径将1阶高保真度立体声响复制内容输送给消费者的分层编码信号格式。对于左右两个声道，音频场景的完全水平环绕表示是可行的，虽然不具有完全空间分辨率。可选第3声道提高水平面上的空间分辨率，而可选第4声道增加高度维度。

-G-格式：这种格式是为了使以高保真度立体声响复制格式制作的内容无需在家里使用特定高保真度立体声响复制解码器地适用于任何人而创建的。在制作方已经进行了达到标准5声道环绕设置的解码。因为该解码操作不是标准化的，所以可靠重构原始B-格式高保真度立体声响复制内容是不可能的。

-D-格式：这种格式指的是如任意高保真度立体声响复制解码器产生的解码扬声器信号的集合。解码信号取决于特定扬声器几何形状和解码器设计的细节。G-格式是D-格式定义的子集，因为它指的是特定5声道环绕装置。

上述方法没有一种是已考虑到压缩而设计的。一些格式已经经过剪裁，以便利用现有低容量传输路径(例如，立体声链路)，并因此隐性地降低了数据速率以进行传输。但是，下混频信号缺乏原始输入信号信息的重要部分。因此，丧失了高保真度立体声响复制方法的灵活性和普遍性。

定向音频编码

2005年左右DirAC(定向音频编码)技术已经发展起来，它基于目标是将场景分解成每个时间和频率一个占主导作用声音对象加上环境声音的场景分析。该场景分析基于声场的瞬时强度矢量的评估。场景的两个部分将与直接声音所来自的地点信息一起传输。在接收器上，使用基于矢量的振幅摇摄(VBAP)来重放每个时频窗格的单个占主导作用声源。另外，按照作为辅助信息传输的比例产生去相关环境声音。在图1中描绘了DirAC处理，其中输入信号具有B-格式。可以将DirAC解释成利用单源加环境信号模型的参数编码的特定方式。传输质量很大程度上取决于对于特定压缩(compressed)音频场景而言模型假设是否真实。而且，在声音分析阶段直接声音和/或环境声音的任何错误检测都可能影响解码音频场景的重放质量。迄今为止，只为1阶高保真度立体声响复制内容描述了DirAC。

HOA系数的直接压缩

在2000年代后期，人们已经提出了HOA信号的感知以及无损压缩。

-对于无损编码，如E.Hellerud，A.Solvang，U.P.Svensson，″Spatial Redundancy in Higher Order Ambisonics and Its Use for Low Delay Lossless Compression″，Proc.of IEEE Intl.Conf.on Acoustics，Speech，and Signal Processing(ICASSP)，April 2009，Taipei，Taiwan和E.Hellerud，U.P.Svensson，″Lossless Compression of Spherical Microphone Array Recordings″，Proc.of 126th AES Convention，Paper 7668，May 2009，Munich，Germany所描述，将不同高保真度立体声响复制系数之间的互相关用于降低HOA信号的冗余。利用后向自适应预测从直到要编码的系数的阶数的以前系数的加权组合中预测特定阶数的当前系数。已经通过评估真实世界内容的特征找到了预期呈现强互相关的系数组。

这种压缩以分层方式进行。针对系数的潜在互相关分析的相邻关系包含在相同时刻以及在以前时间实例上仅仅达到到相同阶数的系数，从而在比特流级上使压缩是可伸缩的。

-在T.Hirvonen，J.Ahonen，V.Pulkki，″Perceptual Compression Methods for Metadata in Directional Audio Coding Applied to Audiovisual Teleconference″，Proc.of 126^th AES Convention，Paper 7706，May 2009，Munich，Germany和上述″Spatial Redundancy in Higher Order Ambisonics and Its Use for Low Delay Lossless Compression″文章中描述了感知编码。现有MPEG AAC压缩技术用于编码HOA B-格式表示的各个声道(即，系数)。通过调整取决于声道阶数的比特分配，已经获得了非均匀空间噪声分布。尤其，通过将更多的比特分配给低阶声道而将更少的比特分配给高阶声道，可以在基准点附近达到更高的精度。反过来，离原点的距离增大使有效量化噪声上升。

图2示出了B-格式音频信号的这样直接编码和解码的原理，其中上部路径示出上述Hellerud等人的压缩，而下部路径示出了到传统D-格式信号的压缩。在这两种情况下，解码接收器输出信号都具有D-格式。

在HOA域中直接探寻冗余性和不相关性带来的问题是任何空间信息在一般情况下都在几个HOA系数上被“污染”(smear)。换句话说，在空间域中良好定位和集中的信息向周围扩散。从而，使进行可靠地坚持心理声学掩蔽约束的一致噪声分配变得极具挑战性。而且，在HOA域中以差分方式捕获重要信息，大规模系数的细微差别在空间域中具有强大影响力。因此，可能需要高数据速率来保护这样的差分细节。

空间挤压

最近，B.Cheng，Ch.Ritz，I.Burnett已经开发了“空间挤压”技术：

B.Cheng，Ch.Ritz，I.Burnett，″Spatial Audio Coding by Squeezing：Analysis and Application to Compressing Multiple Soundfields″，Proc.of European Signal Processing Conf.(EUSIPCO)，2009；

B.Cheng，Ch.Ritz，I.Burnett，″A Spatial Squeezing Approach to Ambisonic Audio Compression″，Proc.of IEEE Intl.Conf.on Acoustics，Speech，and Signal Processing(ICASSP)，April 2008；以及

B.Cheng，Ch.Ritz，I.Burnett，″Principles and Analysis of the Squeezing Approach to Low Bit Rate Spatial Audio Coding″，Proc.of IEEE Intl.Conf.on Acoustics，Speech，and Signal Processing(ICAS SP)，April 2007。

进行将声场分解成为每个时间/频率窗格选择占最主导作用声音对象的音频场景分析。然后，创建在左右声道的位置之间的新位置上包含这些占主导作用声音对象的2声道立体声下混频。因为可以对立体声信号进行相同分析，所以通过将在2声道立体声下混频中检测的对象重新映射到360°的整个声场，可以进行局部反向操作。

图3描绘了空间挤压的原理。图4示出了相关编码处理。

该构思与DirAC密切相关，因为它取决于相同类型的音频场景分析。但是，与DirAC相反，下混频总是创建两个声道，并且不必传输有关占主导作用声音对象的地点的辅助信息。

尽管未明确利用心理声学原理，但该方案利用了对于时频方格只传输最显著的声音对象就已经可以达到像样质量的假设。关于这方面，与DirAC的假设存在更强烈的可比性。与DirAC类似，音频场景参数化的任何错误都将导致解码音频场景的人为产物。而且，2声道立体声下混频信号的任何感知编码对解码音频场景的质量的影响难以预测。由于这种空间挤压的类属架构，它不能应用于3维音频信号(即，具有高度维度的信号)，显然，它适合超过一阶的高保真度立体声响复制阶数。

高保真度立体声响复制格式和混合阶数表示

在F.Zotter，H.Pomberger，M.Noisternig，″Ambisonic Decoding with and without Mode-Matching：A Case Study Using the Hemisphere″，Proc.of 2nd Ambisonics Symposium，May 2010，Paris，France中已经提出了将空间声音信息约束在整个球体的一个子空间上，例如，只覆盖上半球或甚至球体的更小部分。最终，完整的场景可以由球体上旋转用于组装目标音频场景的特定地点的几个这样约束“扇区”组成。这创建了复杂音频场景的一种混合阶数成分。未提及感知编码。

参数编码

描述和传输打算在波场合成(WFS)系统中重放的内容的“经典”途径是经由音频场景的各个声音对象的参数编码。每个声音对象由音频流(单声道、立体声或别的东西)加上有关整个音频场景内的声音对象的作用的元信息，即，最重要的对象的地点组成。这种面向对象的范式在欧洲“CARROUSO”的研究课题中得到细化，有关内容请参阅：S.Brix，Th.Sporer，J.Plogsties， ″CARROUSO-An European Approach to 3D-Audio″，Proc.of 110th AES Convention，Paper 5314，May 2001，Amsterdam，The Netherlands。

压缩相互独立的每个声音对象的一个例子是如Ch.Faller，″Parametric Joint-Coding of Audio Sources″，Proc.of 120th AES Convention，Paper 6752，May 2006，Paris，France中所描述的，在下混频情形下多个对象的联合编码，其中使用简单心理声学线索，以便创建借助于辅助信息，在接收器方可以解码多对象场景的有意义下混频信号。将音频场景内的对象再现到本地扬声器装置也发生在接收器方。

在面向对象格式中，记录特别复杂。理论上，需要各个声音对象的完全“干”记录，即，专门捕获一个声音对象发出的直接声音的记录。这种方法的挑战性是双重的：首先，干捕获在自然“实况”记录中是难以做到的，因为在扩音器信号之间存在相当大的串扰；其次，从干记录中组装的音频场景缺乏自然性和进行记录的房间的“氛围”。

参数编码加上高保真度立体声响复制

一些研究人员提出了将高保真度立体声响复制信号与许多离散声音对象组合。基本原理是捕获环境声音和经由高保真度立体声响复制表示不能适当定域的声音对象，并经由参数方法加入许多离散、适当放置的声音对象。对于场景的面向对象部分，将类似的编码机制用于纯参数表示(见前面的部分)。也就是说，那些各自的声音对象通常伴随着单声道声轨和有关地点和潜在移动的信息，有关内容请参阅：将高保真度立体声响复制重放引入MPEG-4 AudioBIFS标准中的介绍。在那种标准下，如何将原始高保真度立体声响复制和对象流传输到(AudioBIFS)再现引擎是有待音频场景的制作者解决的。这意味着在MPEG-4中定义的任何音频编解码可以用于直接编码高保真度立体声响复制系数。

波场编码

取代使用面向对象方法，波场编码传输WFS(波场合成)系统的已经再现的扬声器信号。编码器进行到一组特定扬声器的所有再现。对扬声器的曲线的加窗、准线性分段进行多维空时到频率变换。频率系数(对于时频和空频两者)利用某种心理声学模型来编码。除了通常的时频掩蔽之外，也可以应用空频掩蔽，即，假设掩蔽现象是空间频率的函数。在解码器方，解压并重放编码扬声器声道。

图5示出了上部是一组扩音器和下部是一组扬声器的波场编码的原理。图6示出了按照F.Pinto，M.Vetterli，″Wave Field Coding in the Spacetime Frequency Domain″，Proc.of IEEE Intl.Conf.on Acoustics，Speech and Signal Processing(ICASSP)，April 2008，Las Vegas，NV，USA的编码处理。有关感知波场编码的已公布实验表明，空时到频率变换与双源信号模型的再现扬声器声道的分立感知压缩相比节省了约15％的数据速率。不过，这种处理没有达到面向对象范式达到的压缩效率，很有可能是由于无法捕捉到扬声器声道之间的复杂互相关特性，这是因为声波将在不同时间到达每个扬声器。另一缺点是与目标系统的特定扬声器布局的紧密耦合。

通用空间线索

人们从经典多声道压缩出发，也考虑了能够解决不同扬声器情形的通用音频编解码的概念。与，例如，存在固定声道指定和相关的mp3环绕或MPEG环绕相反，将空间线索的表示设计成独立于特定输入扬声器配置，有关内容请参阅：M.M.Goodwin，J.-M.Jot，″A Frequency-Domain Framework for Spatial Audio Coding Based on Universal Spatial Cues″，Proc.of 120th AES Convention，Paper 6751，May 2006，Paris，France；M.M.Goodwin，J.-M.Jot，″Analysis and Synthesis for Universal Spatial Audio Coding″，Proc.of 121st AES Convention，Paper 6874，October 2006，San Francisco，CA，USA；以及M.M.Goodwin，J.-M.Jot，″Primary-Ambient Signal Decomposition and Vector-Based Localisation for Spatial Audio Coding and Enhancement″，Proc.of IEEE Intl.Conf.on Acoustics，Speech and Signal Processing(ICASSP)，April 2007，Honolulu，HI，USA。

在离散输入声道信号的频域变换之后，对每个时频方格(tile)进行主要成分分析，以便将基本声音与环境成分区分开。其结果是通过将Gerzon矢量用于场景分析，得出方向矢量对圆心在听众所处的单位半径的圆上的地点的导数。图5描绘了下混频和传输空间线索的空间音频编码的相应系统。(立体声)下混频信号由分立信号成分组成，与关于对象地点的元信息一起传输。解码器从下混频信号和辅助信息中恢复原始声音和某些环境成分，从而向本地扬声器配置摇摄(pan)原始声音。可以将此解释为上述DirAC处理的多声道变型，因为传输的信息非常相似。

发明内容

本发明要解决的问题是提供音频场景的HOA表示的改进有损压缩，从而将像感知掩蔽那样的心理声学现象考虑进来。这个问题是通过公开在权利要求1和5中的方法解决的。利用这些方法的装置公开在权利要求2和6中。

按照本发明，在空间域中而不是在HOA域中进行压缩(而在上述的波场编码中，假设掩蔽现象是空间频率的函数，本发明使用掩蔽现象作为空间地点的函数)。例如，通过平面波分解，将(N+1)²个输入HOA系数变换成空间域中的(N+1)²个等效信号。这些等效信号的每一个代表空间中来自相关方向的一组平面波。以简化方式，可以将所得信号解释为形成扩音器信号的虚拟波束，这些扩音器信号从输入音频场景表示中捕获落在相关波束的区域中的任何平面波。

所得的该组(N+1)²个信号是可以输入一排并行感知编解码器中的传统时域信号。可以应用任何现有感知压缩技术。在解码器方，解码各个空间域信号，并将空间域系数变换回到HOA域，以便恢复原始HOA表示。

这种类型的处理具有显著优点：

-心理声学掩蔽：如果将每个空间域信号与其它空间域信号分开处理，则编码错误将具有与掩蔽者信号相同的空间分布。因此，在将解码空间域系数转换回到HOA域之后，将按照原始信号的功率密度的空间分布定位编码错误的瞬时功率密度的空间分布。有利的是，从而可以保证编码错误永远被掩蔽。即使在复杂重放环境下，编码错误也总是恰好与相应掩蔽者信号一起传播。

但是，应该注意到，对于原来坐落在两个(2D情况)或三个(3D情况)基准地点之间的声音对象，仍然可以发生与“立体声揭露”类似的某种东西(参阅：M.Kahrs，K.H.Brandenburg，″Applications of Digital Signal Processing to Audio and Acoustics″，Kluwer Academic Publishers，1998)。但是，如果HOA输入材料的阶数升高，则这种潜在陷阱的概率和严重性将降低，因为空间域中不同基准位置之间的角距离减小了。通过按照占主导作用声音对象的地点采用HOA到空间变换(参见下面的特定实施例)，可以缓解这种潜在问题。

-空间去相关：音频场景在空间域中通常是稀疏的，通常假设它们是基础环境声场顶部的几个离散声音对象的混合物。通过将这样的音频场景变换到HOA域-基本上是到空间频率的变换，将空间稀疏，即，去相关的场景表示变换成一组高度相关系数。有关离散声音对象的任何信息都或多或少在所有频率系数上被“污染”。一般说来，压缩方法的目的是通过在理想情况下按照Karhunen-Loève变换选择去相关坐标系来降低冗余度。对于时域音频信号，通常频域提供更去相关的信号表示。但是，对于空间音频，情况就不是这样，因为空间域比HOA域更接近KLT坐标系。

-时间相关信号的集中度：将HOA系数变换到空间域的另一个重要方面是有很可能呈现强时间相关性-因为它们从相同物理声源发出-的信号成分集中在单个或几个系数中。这意味着与压缩空间分布时域信号有关的任何随后处理步骤可以利用最大的时域相关性。

-可理解性：对于时域信号来说，音频内容的编码和感知压缩是众所周知。相反，像更高阶高保真度立体声响复制(即，2或更高的阶数)那样的复杂变换域中的冗余和心理声学远没有被人们理解，需要许多数学和调查。因此，当使用工作在空间域中而不是HOA域中的压缩技术时，可以容易得多地应用和适应现有见解和技术。有利的是，将现有压缩编解码器用于部分系统可以迅速地获得合理结果。

换句话说，本发明包括如下优点：

-使心理声学掩蔽效应得到更好利用；

-更好的可理解性和易于实现；

-更好地适用于空间音频场景的典型成分；以及

-比现有手段更好的去相关性质。

原则上，本发明的编码方法适用于编码用HOA系数表示的2维或3维声场的高保真度立体声响复制表示的连续帧，所述方法包括如下步骤：

-将一个帧的O＝(N+1)²个输入HOA系数变换成代表球体上的基准点的正则分布的O个空间域信号，其中N是所述HOA系数的阶数，并且所述空间域信号的每一个代表空间中来自相关方向的一组平面波；

-使用感知编码步骤或级编码所述空间域信号的每一个，从而使用选择成使编码错误听不见的编码参数；以及

-将一个帧的所得比特流多路复用成联合比特流。

原则上，本发明的解码方法适用于解码按照权利要求1编码的2维或3 维声场的编码更高阶高保真度立体声响复制表示的连续帧，所述解码方法包括如下步骤：

-将接收的联合比特流多路分解成O＝(N+1)²个编码空间域信号；

-使用与所选编码类型相对应的感知解码步骤或级和使用与编码参数匹配的解码参数将所述编码空间域信号的每一个解码成相应解码空间域信号，其中所述解码空间域信号代表球体上的基准点的正则分布；以及

-将所述解码空间域信号变换成一个帧的输出HOA系数，其中N是所述HOA系数的阶数。

原则上，本发明的编码装置适用于编码用HOA系数表示的2维或3维声场的更高阶高保真度立体声响复制表示的连续帧，所述装置包括：

-适用于将一个帧的O＝(N+1)²个输入HOA系数变换成代表球体上的基准点的正则分布的O个空间域信号的变换部件，其中N是所述HOA系数的阶数，并且所述空间域信号的每一个代表空间中来自相关方向的一组平面波；

-适用于使用感知编码步骤或级编码所述空间域信号的每一个的部件，从而使用选择成使编码错误听不见的编码参数；以及

-适用于将一个帧的所得比特流多路复用成联合比特流的部件。

原则上，本发明的解码装置适用于解码按照权利要求1编码的2维或3维声场的编码更高阶高保真度立体声响复制表示的连续帧，所述装置包括：

-适用于将接收的联合比特流多路分解成O＝(N+1)²个编码空间域信号的部件；

-适用于使用与所选编码类型相对应的感知解码步骤或级并使用与编码参数匹配的解码参数将所述编码空间域信号的每一个解码成相应解码空间域信号的部件，其中所述解码空间域信号代表球体上的基准点的正则分布；

-适用于将所述解码空间域信号变换成一个帧的输出HOA系数的部件，其中N是所述HOA系数的阶数。

本发明的其它有利实施例公开在各自从属权利要求中。

附图说明

本发明的示范性实施例将参考附图来描述，在附图中：

图1示出了B-格式输入的定向音频编码；

图2示出了B-格式信号的直接编码；

图3示出了空间挤压的原理；

图4示出了空间挤压编码处理；

图5示出了波场编码的原理；

图6示出了波场编码处理；

图7示出了下混频和传输空间线索的空间音频编码；

图8示出了本发明编码器和解码器的示范性实施例；

图9示出了作为信号的耳间相差或时差的函数的不同信号的双耳(或立体)掩蔽级差；

图10示出了并入了BMLD建模的联合心理声学模型；

图11示出了示范性最大预期重放情形：有7×5个座位的电影院(为了示例起见任意选择的)；

图12示出了对于图11的情形最大相对延迟和衰减的推导；

图13示出了声场HOA成分加上两个声音对象A和B的压缩；以及

图14示出了声场HOA成分加上两个声音对象A和B的联合心理声学模型。

具体实施方式

图8示出了本发明编码器和解码器的方块图。在本发明的这个基本实施例中，在变换步骤或级81中将输入HOA表示或信号IHOA的连续帧变换成基于3维球或2维圆上的基准点的正则分布的空间域信号。

关于从HOA域到空间域的变换，在高保真度立体声响复制理论中，通过截断傅里叶-贝塞尔级数描述空间中特定点上和附近的声场。一般说来，假设基准点在所选坐标系的原点上。对于使用球坐标的3维应用，所有指数定义为n＝0，1，...N和m＝-n，...，n的具有系数的傅里叶级数描述在方位角φ、倾角θ和距原点的距离r上的声场的压强

p (r, θ, φ) = Σ_{n = 0}^{N} Σ_{m = - n}^{n} C_{n}^{m} j_{n} (kr) Y_{n}^{m} (θ, φ),

其中k是波数，并且

是通过θ和φ定义的方向的与球面谐波函数密切相关的傅里叶-贝塞尔级数的核函数。为了方便起见，HOA系数

通过定义

来使用。对于特定阶数N，傅里叶-贝塞尔级数中的系数的数量是O＝(N+1)²。

对于使用圆坐标的2维应用，核函数只取决于方位角φ。m≠n的所有系数具有零值并且可以省略。因此，HOA系数的数量减小到O＝2N+1。此外，倾角θ＝π/2是固定的。对于2D情况和对于圆上的声音对象的完全均匀分布，即，对于

Ψ内的模矢量与众所周知的离散傅里叶变换(DFT)的核函数相同。

通过HOA到空间域变换，导出必须应用以便精确重放如输入HOA系数所描述的所希望声场的虚拟扬声器(在无限距离上发出平面波)的驱动信号。

所有模系数可以在模矩阵Ψ中组合，其中第i列按照第i虚拟扬声器的方向包含模矢量

n＝0...N，m＝-n...n。空间域中所希望信号的数量等于HOA系数的数量。因此，存在通过模矩阵Ψ的逆矩阵Ψ^-1定义的变换/解码问题的唯一解：s＝Ψ^-1A。

这种变换使用了虚拟扬声器发出平面波的假设。真实世界扬声器具有应该小心重放的解码规则的不同重放特性。

基准点的一个例子是按照J.Fliege，U.Maier，″The Distribution of Points on the Sphere and Corresponding Cubature Formulae″，IMA Journal of Numerical Analysis，vol.19，no.2，pp.317-334，1999的取样点。将通过这种变换获得的空间域信号输入，例如，按照MPEG-1音频层III(又称mp3)标准的独立的、“O”个并行已知感知编码器步骤或级821，822，...，82O中，其中“O”对应于并行声道的数量O。将这些编码器的每一个参数化，使编码错误听不见。在多路复用器步骤或级83中将所得并行比特流多路复用成联合比特流BS，并传输给解码器方。取代mp3，可以使用像AAC或Dolby AC-3那样的任何其它合适音频编解码器类型。在解码器方，多路分解器步骤或级86多路分解接收的联合比特流，以便导出并行感知编解码器的各个比特流，在已知解码器步骤或级871，872，...，87O中解码各个比特流(与所选编码类型相对应并使用与编码参数匹配，即选成使解码错误听不见的解码参数)，以便恢复未压缩空间域信号。对于每个时刻，在逆变换步骤或级88中将所得信号矢量变换到HOA域，从而恢复以连续帧输出的解码HOA表示或信号OHOA。

借助于这样的处理或系统，可以使数据速率显著降低。例如，来自EigenMike的3阶记录的输入HOA表示具有(3+1)²个系数*44100Hz*24比特/系数＝16.9344Mb/s的数据速率。变换到空间域得出取样速率为44100Hz的(3+1)²个信号。使用mp3编解码器将代表44100*24＝1.0584Mb/s数据速率的这些(单声道)信号的每一个独立压缩成64kbit/s的各自数据速率(这意味着对单声道信号实际上是透明的)。然后，联合比特流的总数据速率是(3+1)²个信号*每个信号64kbit/s≈1Mbit/s。

这种评估是保守的，因为假设了围绕听众的整个球体均匀地充满声音，并且因为完全忽略了不同空间地点上的声音对象之间的任何交叉掩蔽效应：具有，比如说，80dB的掩蔽者信号将掩蔽角度只分开几度的弱音(比如说，在40dB上)。通过如下所述考虑这样的空间掩蔽效应，可以达到更高的压缩因数。再者，上述评估忽略了该组空间域信号中的相邻位置之间的任何相关性。并且，如果更好的压缩处理利用了这样的相关性，则可以达到更高的压缩比。最后一点也很重要，如果可接受时变速率，则预期可以达到还要高的压缩效率，因为声音场景中对象的数量变化很大，特别是电影声音。可以利用任何声音对象的稀疏性进一步降低所得比特率。

变型：心理声学

在图8的实施例中，假设尽量少的比特率控制：预期所有各个感知编解码器以相同的数据速率运行。如上所述，通过取而代之地使用将整个空间音频场景都考虑进来的更复杂比特率控制，可以得到相当大的改善。更具体地说，时频掩蔽和空间掩蔽特性的组合起着关键的作用。对于这种情况的空间维度，掩蔽现象是与听众有关的声音事件的绝对角位置的函数，而不是空间频率的函数(注意，这种认识不同于在波场编码部分中提及的Pinto等人的认识)。针对空间表示观察的掩蔽阈值与掩蔽者和被掩蔽者的单调表示相比的差异称为双耳(或立体)掩蔽级差(BMLD)，有关内容请参阅：J.Blauert，″Spatial Hearing：The Psychophysics of Human Sound Localisation″，The MIT Press，1996中的3.2.2节。一般说来，BMLD取决于像信号成分、空间地点、频率范围那样的几个参数。空间表示中的掩蔽阈值可以比单调表示低多达～20dB。因此，掩蔽阈值跨空间域的使用将把这一点考虑进来。

A)本发明的一个实施例使用取决于音频场景的维度产生多维掩蔽阈值曲线的心理声学掩蔽模型，该多维掩蔽阈值曲线分别取决于(时间-)频率，以及，取决于整个圆或球上的声音入射的角度。这个掩蔽阈值可以通过经由操纵为(N+1)²个基准地点获得的各条(时间-)频率掩蔽曲线与把BMLD考虑进来的空间“扩展函数”相结合获得。从而，可以利用掩蔽者对位于附近，即，处在与掩蔽者相距小角距离的位置上的信号的影响。

图9示出了如上述文章″Spatial Hearing：The Psychophysics of Human Sound Localisation″所公开的，作为信号的耳间相差或时差(即，相角和时延)的函数的不同信号(宽带噪声掩蔽者加上作为所希望信号的正弦波或100μs脉冲序列)的BMLD。

可以将最坏情况特性(即具有最高BMLD值)的倒数用作确定沿着一个方面的掩蔽者对沿着另一个方面的被掩蔽者的影响的保守“污染”函数。如果已知特定情况的BMLD，可以减弱这种最坏情况要求。最感兴趣情况是掩蔽者是在空间上窄但在(时间-)频率上宽的噪声的那些情况。

图10示出了如何可以将BMLD的模型并入联合心理声学建模中，以便导出联合掩蔽阈值MT。每个空间方向的各自MT在心理声学模型步骤或级1011，1012，...，101O中计算，并输入到相应空间扩展函数SSF步骤或级1021，1022，...，102O中，该空间扩展函数是，例如，显示在图9中的BMLD之一的倒数。因此，为来自每个方向的所有信号贡献计算覆盖整个球/圆(3D/2D情况)的MT。在步骤/级103中计算所有各自MT的最大值，并且为整个音频场景提供联合MT。

B)这个实施例的进一步延伸需要在目标收听环境下，例如，在电影院或有大量观众的其它场馆中声音传播的模型，因为声音感知取决于相对于扬声器的收听位置。图11示出了有7×5＝35个座位的示例电影院情形。当在电影院中重放空间音频信号时，音频感知和声级取决于观众席的大小和各个听众的地点。“完美”的再现只发生在甜蜜点上，即，通常在观众席的中心或基准地点110上。如果考虑处在，例如，观众的左周界上的座位位置，则很有可能从右侧到达的声音相对于从左侧到达的声音既衰减又延迟，因为到右侧扬声器的直接视线长于到左侧扬声器的直接视线。在最坏情况考虑中应该把这种非最佳收听位置的因声音传播引起的潜在方向相关衰减和延迟考虑进来，以防止从空间不同方向中断屏蔽编码错误，即，空间中断屏蔽效应。为了防止这样的效应，在感知编解码器的心理声学模型中把时间延迟和声级变化考虑进来。

为了推导修改BMLD值建模的数学表达式，针对掩蔽者和被掩蔽者方向的任何组合建模最大预期相对时间延迟和信号衰减。在下文中，对2维示例设置进行这种操作。图11电影院例子的可能简化在图12中示出。预期观众处在半径r_A的圆内，可以参照描绘在图11中的相应圆圈。考虑两个信号方向：掩蔽者S被显示成作为平面波来自左侧(电影院中的前方)，而被掩蔽者N是从与电影院中的左后方相对应的图12的右下方到达的平面波。

两个平面波的同时到达时间线用平分虚线描绘。周界上与这条平分线距离最大的两点是观众席内出现最大时间/声级差的地点。在到达图中的带标记右下点120之前，声波在到达收听区的周界之后传播附加距离d_S，和d_N：

d_{S} = r_{A} + r_{A} \cos (\frac{π - φ}{2}),

d_{N} = r_{A} - r_{A} \cos (\frac{π - φ}{2}),

然后，在那点上掩蔽者S与被掩蔽者N之间的相对时差是：

Δ_{t} = \frac{d_{S} - d_{N}}{c} = 2 \frac{r_{A}}{c} \cos (\frac{π - φ}{2}),

其中c表示声音的速度。

为了确定传播损耗的差异，后面采用每加倍距离损耗K＝3...6 dB(精确数取决于扬声器技术)的简单模型。而且，假设实际声源相对于收听区的外围周界具有d_LS的距离。然后，最大传播损耗量为：

Δ_{L} = K \log_{2} (\frac{d_{LS} + d_{S}}{d_{LS} + d_{N}}) = K \log_{2} (\frac{1 + \frac{r_{A}}{r_{A} + d_{LS}} \cos (\frac{π - φ}{2})}{1 - \frac{r_{A}}{r_{A} + d_{LS}} \cos (\frac{π - φ}{2})}) .

这种重放情形模型包含两个参数Δ_t(φ)和Δ_L(φ)。通过加入各自BMLD项，即，通过如下替代可以将这些参数积分成联合心理声学模型：

SSF_new(φ)＝SSF_old(φ)-BMLD_t(Δ_t(φ))-|Δ_L(φ)|。

从而保证了即使在大房间中，也可以通过其它空间信号成分掩蔽任何量化错误噪声。

C)可以将与前面部分所介绍相同的考虑应用于将一个或多个离散声音对象与一个或多个HOA成分组合的空间音频格式。对整个音频场景进行心理声学掩蔽阈值的估计，包括如上所述对目标环境的特性的可选考虑。然后，离散声音对象的各自压缩以及HOA成分的压缩把联合心理声学掩蔽阈值考虑进来，以便进行比特分配。

包含HOA部分和一些不同各自声音对象两者的更复杂音频场景的压缩可以与上述联合心理声学模型类似地进行。相关压缩处理在图13中描绘。与上面的考虑并行，联合心理声学模型应该把所有声音对象都考虑进来。可以应用与上面所介绍相同的基本原理和结构。相应心理声学模型的高级方块图在图14中示出。

Claims

1.一种编码用HOA系数表示的2维或3维声场的更高阶高保真度立体声响复制表示的连续帧的方法，所述方法包括如下步骤：

-将一个帧的O＝(N+1)²个输入HOA系数变换(81)成代表球体上的基准点的正则分布的O个空间域信号，其中N是所述HOA系数的阶数，并且所述空间域信号的每一个代表空间中来自相关方向的一组平面波；

-使用感知编码步骤或级(821，822，...，82O)编码所述空间域信号的每一个，从而使用选择成使编码错误听不见的编码参数；以及

-将一个帧的所得比特流多路复用(83)成联合比特流(BS)。

2.按照权利要求1所述的方法，其中用在所述编码中的掩蔽是时频掩蔽和空间掩蔽的组合。

3.按照权利要求1或2所述的方法，其中所述变换(81)是平面波分解。

4.按照权利要求1所述的方法，其中所述感知编码(821，822，...，82O)对应于MPEG-1音频层III或AAC或Dolby AC-3标准。

5.按照权利要求1所述的方法，其中为了防止从空间不同方向揭露编码错误，把非最佳收听位置因声音传播引起的方向相关衰减和延迟考虑进来，以便计算(1011，1012，...，101O)应用在所述编码中的掩蔽阈值。

6.按照权利要求1所述的方法，其中在所述编码步骤或级(821，822，...，82O)中使用的各个掩蔽阈值(1011，1012，...，101O)通过将它们的每一个与把双耳(或立体)掩蔽级差BMLD考虑进来的空间扩展函数(1021，1022，...，102O)相结合来改变，以及其中形成(103)这些各个掩蔽阈值的最大值，以便获得所有声音方向的联合掩蔽阈值。

7.按照权利要求1所述的方法，其中单独编码离散声音对象。

8.一种编码用HOA系数表示的2维或3维声场的更高阶高保真度立体声响复制表示的连续帧的装置，所述装置包括：

-适用于将一个帧的O＝(N+1)²个输入HOA系数(IHOA)变换成代表球体上的基准点的正则分布的O个空间域信号的变换部件(81)，其中N是所述HOA系数的阶数，并且所述空间域信号的每一个代表空间中来自相关方向的一组平面波；

-适用于使用感知编码步骤或级编码所述空间域信号的每一个的部件(821，822，...，82O)，从而使用选择成使编码错误听不见的编码参数；以及

-适用于将一个帧的所得比特流多路复用成联合比特流(BT)的部件(83)。

9.按照权利要求8所述的装置，其中用在所述编码中的掩蔽是时频掩蔽和空间掩蔽的组合。

10.按照权利要求8或9所述的装置，其中所述变换(81)是平面波分解。

11.按照权利要求8所述的装置，其中所述感知编码(821，822，...，82O)对应于MPEG-1音频层III或AAC或Dolby AC-3标准。

12.按照权利要求8所述的装置，其中为了防止从空间不同方向揭露编码错误，把非最佳收听位置因声音传播引起的方向相关衰减和延迟考虑进来，以便计算(1011，1012，...，101O)应用在所述编码中的掩蔽阈值。

13.按照权利要求8所述的装置，其中在所述编码步骤或级(821，822，...，82O)中使用的各个掩蔽阈值(1011，1012，...，101O)通过将它们的每一个与把双耳(或立体)掩蔽级差(BMLD)考虑进来的空间扩展函数(1021，1022，...，102O)相结合来改变，以及其中形成(103)这些各个掩蔽阈值的最大值，以便获得所有声音方向的联合掩蔽阈值。

14.按照权利要求8所述的装置，其中单独编码离散声音对象。

15.一种解码按照权利要求1编码的2维或3维声场的编码更高阶高保真度立体声响复制表示的连续帧的方法，所述解码方法包括如下步骤：

-将接收的联合比特流(BS)多路分解(86)成O＝(N+1)²个编码空间域信号；

-使用与所选编码类型相对应的感知解码步骤或级(871，872，...，87O)并使用与编码参数匹配的解码参数将所述编码空间域信号的每一个解码成相应解码空间域信号，其中所述解码空间域信号代表球体上的基准点的正则分布；以及

-将所述解码空间域信号变换(88)成一个帧的O个输出HOA系数(OHOA)，其中N是所述HOA系数的阶数。

16.按照权利要求15所述的方法，其中所述感知解码(871，872，...，87O)对应于MPEG-1音频层III或AAC或Dolby AC-3标准。

17.按照权利要求15所述的方法，其中为了防止从空间不同方向揭露编码错误，把非最佳收听位置因声音传播引起的方向相关衰减和延迟考虑进来，以便计算(1011，1012，...，101O)应用在所述解码中的掩蔽阈值。

18.按照权利要求15所述的方法，其中在所述解码步骤或级(871，872，...，87O)中使用的各个掩蔽阈值(1011，1012，...，101O)通过将它们的每一个与把双耳(或立体)掩蔽级差(BMLD)考虑进来的空间扩展函数(1021，1022，...，102O)相结合来改变，以及其中形成(103)这些各个掩蔽阈值的最大值，以便获得所有声音方向的联合掩蔽阈值。

19.按照权利要求15所述的方法，其中单独解码离散声音对象。

20.一种解码按照权利要求1编码的2维或3维声场的编码更高阶高保真度立体声响复制表示的连续帧的装置，所述装置包括：

-适用于将接收的联合比特流(BS)多路分解成O＝(N+1)²个编码空间域信号的部件(86)；

-适用于使用与所选编码类型相对应的感知解码步骤或级并使用与编码参数匹配的解码参数将所述编码空间域信号的每一个解码成相应解码空间域信号的部件(871，872，...，87O)，其中所述解码空间域信号代表球体上的基准点的正则分布；以及

-适用于将所述解码空间域信号变换成一个帧的O个输出HOA系数(OHOA)的变换部件(88)，其中N是所述HOA系数的阶数。

21.按照权利要求20所述的装置，其中所述感知解码(871，872，...，87O)对应于MPEG-1音频层III或AAC或Dolby AC-3标准。

22.按照权利要求20所述的装置，其中为了防止从空间不同方向揭露编码错误，把非最佳收听位置因声音传播引起的方向相关衰减和延迟考虑进来，以便计算(1011，1012，...，101O)应用在所述解码中的掩蔽阈值。

23.按照权利要求20所述的装置，其中在所述解码步骤或级(871，872，...，87O)中使用的各个掩蔽阈值(1011，1012，...，101O)通过将它们的每一个与把双耳(或立体)掩蔽级差(BMLD)考虑进来的空间扩展函数(1021，1022，...，102O)相结合来改变，以及其中形成(103)这些各个掩蔽阈值的最大值，以便获得所有声音方向的联合掩蔽阈值。

24.按照权利要求20所述的装置，其中单独解码离散声音对象。