CN105657633A

CN105657633A - 生成针对音频对象的元数据

Info

Publication number: CN105657633A
Application number: CN201410459713.4A
Authority: CN
Inventors: 胡明清; 芦烈
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2014-09-04
Filing date: 2014-09-04
Publication date: 2016-06-08
Also published as: US10362427B2; WO2016036637A2; EP3195621A2; US20170238117A1; WO2016036637A3

Abstract

本发明的实施例涉及音频对象处理。公开了一种用于处理音频内容的方法，该音频内容包括至少一个多声道格式的音频对象。该方法包括生成与音频对象相关联的元数据，该元数据包括音频对象的估计轨迹和音频对象的估计感知大小中的至少一个，该感知大小是由至少两个换能器产生的音频对象的幻象的所感知到的区域。还公开了相应的系统和计算机程序产品。

Description

生成针对音频对象的元数据

技术领域

本发明的实施例通常涉及音频内容处理，更具体地，涉及用于处理多声道格式的音频内容的方法和系统。

背景技术

传统上，音频内容是以基于声道的格式进行创建及存储的。如在本文中所使用的，术语“音频声道”或“声道”指的是通常具有预定义物理位置的音频内容。例如，双声道、环绕5.1、环绕7.1等等均为针对音频内容的基于声道的格式。近来，随着多媒体工业中的技术发展，三维(3D)电影和电视内容在影院和家庭中变得越来越受欢迎。为了创建更身临其境的声场且精确地控制而无关于特定的播放扬声器配置的单独音频元素，许多常规的多声道系统都已被扩展以支持包括声道和音频对象两者的新格式。

如在本文中使用的，术语“音频对象”指的是在声场中存在预定义时间段的独立音频元素。音频对象可以是动态或静态的。例如，音频对象可以是对话、枪声、雷电等等。作为重要的元素，音频对象通常被混音师使用以创建其理想的声音效果。

传统上，基于多声道格式的音频内容或音频信号包括针对至少两个声道的分离的信号。例如，在环绕5.1扬声器系统中可以包括五个不同的信号。每个分离的音频信号被用于驱动位于由每个物理扬声器限定的场中与其对应的扬声器。因为对于单个音频对象分配给每个声道的能量是不同的，扬声器或换能器可被不同地驱动并且以不同的响度再现相同的音频对象，这导致由在场中的收听者所感知到的特定位置。此外，根据多声道格式的音频信号自身可以包括声道间相关系数(ICC)，其例如可以体现为在声道间的相位和幅度差异的形式。关于能量分配和特定音频对象的ICC的信息可以允许多个扬声器表现音频对象，使音频对象的位置和大小能够被收听者所感知。

目前，适合于一定的多声道环绕系统的多声道格式的特定音频信号需要由专业人士在录音室中使用平移工具来渲染，并且诸如不同的音频对象的位置和大小之类的属性仅能在工作室被定制为特定格式(即，对应固定的播放设定的固定数量的声道)，这意味着一旦被创建就不能再操纵这样的属性。因此，如果想在7.1扬声器系统或普通的双声道系统上播放良好渲染的5.1格式的音频内容，由这种系统的给出的演绎并没有得到优化。另外，诸如音频对象的位置和大小之类的属性可能无法通过扬声器被精确地播放。换言之，当音频内容是创建为多声道格式的时，由收听者所感知的收听体验是由混音师针对特定播放设置优化的。当音频内容通过不同的播放设置被播放时，由于播放设置之间并不匹配，性能可能会降低，诸如音频对象的位置会发生变化。

鉴于上述情况，本领域需要用于生成包含音频对象的属性的元数据的解决方案。

发明内容

为了解决上述和其他潜在的问题，本发明提出了一种用于生成与音频对象相关联的元数据的方法和系统。

在一个方面，本发明的实施例提供了用于处理音频内容的方法，音频内容包括多声道格式的至少一个音频对象。该方法包括：生成与该音频对象相关联的元数据，该元数据包括以下数项中的至少一个：音频对象的估计轨迹；以及音频对象的估计感知大小，该感知大小是由至少两个换能器所产生的音频对象的幻象(phantom)的所感知到的区域。在这方面的实施例还包括相应的计算机程序产品。

在另一个方面，本发明的实施例提供用于处理音频内容的系统，该音频内容包括多声道格式的至少一个音频对象。该系统包括：元数据生成单元，被配置成生成与该音频对象相关联的元数据，该元数据生成单元包括以下数项中的至少一个：轨迹元数据生成单元，被配置成生成该音频对象的估计轨迹；以及大小元数据生成单元，被配置成生成该音频对象的估计感知大小，该感知大小是由至少两个换能器所产生的音频对象的幻象的所感知到的区域。

通过下面的描述将可以理解，根据本发明的实施例，音频对象可以被处理从而被分配包括轨迹和感知大小信息的元数据。音频内容中经转换的新的音频对象是有利的，因为这样的音频内容可以在任何播放系统中都能够被精确地播放，而不论维度数目以及换能器的数目是多少。此外，元数据易于在后续处理阶段被操纵及改善，其结果是，在几乎每一个声学系统(即使耳机)中音频内容的表现均能够被适配为准确且因而是身临其境的。通过本发明的实施例所实现的其他优点将通过下面的描述变得显而易见。

附图说明

通过参照附图的以下详细描述，本发明的实施例的上述和其他目的、特征和优点将变得更容易理解。在附图中，本发明的数个实施例将以示例以及非限制性的方式进行说明，其中：

图1图示了根据本发明示例实施例的针对具有不同的ICC值提取的音频对象的感知幻象；

图2图示了根据本发明的示例实施例的用于处理音频对象以便于估计其位置的方法的流程图；

图3图示了根据本发明另一示例实施例的用于处理基于对应关系方法的位置估计的方法的流程图；

图4图示了根据本发明的另一示例实施例的用于处理基于混合方法的位置估计的方法的流程图；

图5图示了根据本发明的示例实施例的寻求从音频对象第一帧到最后一帧的路径的示例；

图6图示了根据本发明的示例实施例的用于处理音频对象以便于估计其感知大小的方法的流程图；

图7图示了根据本发明的示例实施例的对输入的音频对象执行去相关处理以用于获得感知大小与ICC值之间的对应关系的示例；

图8图示了根据本发明的示例实施例的以ICC值为函数的感知大小的值的变化；

图9图示了根据本发明的示例实施例的将从三个扬声器的每对中生成的感知大小进行聚集的示例；

图10图示了根据本发明的示例实施例的用于获得更加精确的感知大小的校准实验；

图11图示了根据本发明的示例实施例的将由扬声器L、R、Ls和Rs构建的空间分割成多个子空间的可能策略；

图12图示了根据本发明的示例实施例的用于音频对象处理的系统的框图；以及

图13图示了适合于实施本发明的实施例的示例计算机系统的框图。

在全部附图中，相同或相应的附图标记指代相同或相应的部分。

具体实施方式

现在将参照附图中所示的各种示例实施例对本发明的原理进行说明。应当理解，这些实施例的描述仅仅是使本领域的技术人员能够更好地理解并进一步实现本发明，而不意在以任何方式限制本发明的范围。

本发明假设输入的音频内容是在多声道格式，例如5.1、7.1或7.1.4，其中数字4表示四个顶置扬声器。若干音频对象通过重复如本发明所要求保护的方法易于被处理。应当指出的是，在本发明中，将不会提及音频对象的提取，并且满足下面所列出的要求等的所有的音频对象均可被视为可用的音频对象：

·来自现成内容或从音频内容通过使用各种音频提取技术自动提取的音频对象，在现成内容中干净的对象是已经可用的，在音频内容中希望提取的音频对象通常与其它对象混合在一起；

·以全频带或子频带表示的音频对象，其中全频带表示关于音频对象的所有频谱信息以及频谱方向均被包括在内，而子频带表示音频对象的频谱信息的仅仅一部分是可用的；以及

·随时间不完整的音频对象，其可能例如是由自动音频对象提取过程中的不完美的时间分割造成的。

如上面所提到的，在本发明中，与音频对象相关联的元数据主要集中在音频对象的轨迹和感知大小两方面。本文的感知大小是指由音场中的至少两个物理换能器或扬声器产生的音频对象的(与点幻象相比)增大的幻象的区域。

音频对象的位置可以或者是在二维(2D)平面上或在三维(3D)空间中的。例如，对于5.1或7.1声道配置，位置通常是在二维平面(x，y)上的，而对于7.1.4配置，位置是在三维空间(x，y，z)中的。在某些情况下，诸如音频上混(up-mixing)，从2D(x，y)到3D(x，y，z)的位置的转换是期望的，因为3D空间提供了新层次的身临其境的体验。

音频对象的感知大小由收听者感知到的所产生的音频回放的区域所定义。例如，当前左扬声器和前右扬声器两者均在播放具有相似能量水平的相同音频对象时，它们将在这两个物理扬声器之间呈现幻象对象，并且如图1中的左图所示，收听者会将来自于正面中心的对象感知为点幻象。

在图1中，对于每个用户，有两个扬声器100播放相同的音频对象，这意味着声道间相关系数(ICC)恰好是1。如由两个扬声器100之间圈出的区域所示，音频对象的感知大小取决于ICC值，而ICC值是由大量的听音实验验证的。通过使ICC值从1减小到0，感知大小将相应地从0增加到1。例如，如果单声道格式的音频对象被复制到两个扬声器100，并以不存在相位差的方式同时播放，正在播放的音频对象可以被视为如上面所描述的ICC值等于1的点幻象。如果施加某些操作(例如去相关)，从而使得ICC值小于1，收听者将感知到播放的音频对象不再形成单一的点而是增大的幻象，如图1的右图所示。音频对象的感知大小被混音师出于艺术加工目的而有意地操纵。其结果是，一些音频对象实际上不再被感知为点幻象。

为了产生包括诸如轨迹和感知大小的属性的元数据，本发明的实施例提出了一种用于处理音频内容的方法和系统。音频内容包括多声道格式的至少一个音频对象。用于估计音频对象的轨迹和感知大小的实施例将在下文中分别进行说明。

轨迹估计

首先参照图2，其示出了根据本发明的示例实施例的用于处理音频对象以便于估计其位置的方法200的流程图。

所输入的音频内容是基于多声道的格式。例如，输入的音频内容可以符合环绕5.1、环绕7.1、甚至7.1.4等等。所输入的音频内容通常包含至少一个具有多个帧的音频对象。在步骤S201，应用位置估计处理，其用多声道格式的音频对象作为输入。在步骤S201之后，生成候选位置组，其针对音频对象的多个帧中的每个帧包含至少一个候选位置。在步骤S202，从针对音频对象的多个帧中的每个帧所生成的候选位置组中选择一个估计位置。然后，在步骤S203，通过使用跨越音频对象的多个帧的估计位置生成估计轨迹。步骤S204是可选的，其中当需要时2D到3D的转换和3D到2D的转换都能够进行。换言之，针对音频对象的多个帧中的每个帧所输出的估计轨迹的格式为(x，y)或(x，y，z)。

通过示例的方式，可以有三种方法用于在步骤S201生成候选位置组，其包括：

·能量加权法，其对位置进行简单而直接的计算，该方法能够对位置进行鲁棒的估计但在另一方面对估计的准确性做出妥协；

·对应关系法，其假设已获得由混音师使用以用于生成音频对象的多声道表现的(多个)平移工具的先备知识，该方法可以实现准确的估计但在一些情况下对鲁棒性做出妥协；以及

·混合法，其结合了能量加权法与对应关系法以用于获得估计的鲁棒性和准确性两者。

在本发明的一个实施例中，使用能量加权法，通过利用针对多个声道的每个声道的平移系数以及针对特定环绕系统的固定位置值来估计位置。例如，固定位置值是相对的位置，其可以通过针对多个声道的每个声道的物理位置而获得或估计。针对多个帧的每个帧的特定声道的能量可以被表示为并且多个声道的每个声道的固定位置值可被表示为其中c和f分别表示声道和帧的指数。对于特定的声道，对于例如某些环绕5.1或7.1系统是固定的值。位置估计处理包括首先计算针对每个声道的能量值然后，对于多个声道的每个声道所生成的平移系数可以通过下面的公式(1)算出：

e_{c}^{f} = \frac{E_{c}^{f}}{Σ_{c = 1}^{N} E_{c}^{f}} - - - (1)

其中N表示声道的数目(例如，对于环绕5.1输入信号而言，N被设定为5)，以及是例如从0到1范围内的正规化值。

在已经针对特定帧计算出针对所有声道的平移系数之后，可以通过下面的公式(2)计算估计位置：

p^{f} = Σ_{c = 1}^{N} e_{c}^{f} \times P_{c}^{f} - - - (2)

其中p^f表示针对特定帧的估计位置。

在一个实施例中，估计位置可以在二维平面上，即，p^f＝[x^f，y^f]。可替代地，在另一实施例中，估计位置可以在三维空间中，即，p^f＝[x^f，y^f，z^f]，这取决于输入信号的格式。可以观察到，由于的固定值，能量加权法逐一帧地输出位置值的粗略估计。这种方法针对每帧输出单个值，其可以被用作针对对应关系法以及混合法的参考值，这将在下文中进行描述。

在本发明的另一个实施例中，对应关系法被使用，其将平移工具考虑在内，以产生位置的更准确的估计。平移工具用于生成多个平移向量与多个位置之间预定义的对应关系。通过将单声道格式的音频对象和该音频对象随一系列帧的位置作为输入，平移工具可以按照其自己的平移法则生成音频对象的多声道格式的环绕表示。针对第f帧的单声道对象的能量可以表示为E^f并且其位置可以被表示为p^f。

类似于能量加权法的计算，针对每个声道的能力可以由下面的公式(3)计算：

E_{c}^{f} = β_{c}^{f} \times E^{f}, Σ_{c = 1}^{N} β_{c}^{f} = 1 - - - (3)

其中E^f表示分配给N个声道的总能量，表示平移向量，其仅由位置p^f通过平移工具对于特定播放配置确定。

平移系数具有与平移系数类似的物理意义，但前者对于混音师而言是已知的，而后者待确定以用于从多声道格式的音频对象生成的元数据。对于每个位置p^f，平移工具生成N维平移向量β^f，其项目为c＝1，...，N，项目总和等于1。

在实践中，该平移工具通常乘以增益因子来直接处理音频对象，增益因子的值可以由以下公式获得：

α_{c}^{f} = \sqrt{β_{c}^{f}} - - - (4)

其中增益向量α^f由构成，c＝1，...，N。

增益向量α^f是平移向量β^f的可替换表达。

可参考图3，其示出了用于基于对应关系法的候选位置组生成处理的方法200的流程图。

为了估计音频对象的位置，对应关系法需要预先定义位置对应关系。在一个实施例中，该位置对应关系可以是查找表的形式。例如，查找表可以存储多个平移向量β(或增益向量α)与多个位置p的映射关系。可替代地，在另一实施例中，该位置对应关系可以是由曲线拟合技术得到的函数的形式。在位置对应关系中，β(α)和p是不再与特定帧相关联。假定由混音师所使用的平移工具的知识是可用的，通过以网格的方式列举所有的感兴趣的位置p并收集对应的平移向量β(或增益向量α)而形成位置对应关系是直接的。位置对应关系针对特定的平移工具通常是固定的，并且可以适用于从0到1的范围内的平移向量的每个项目，其对应于2D或3D格式的位置值。在上下文中，平移系数是指能针对在多个声道中的一个特定声道的能量百分比，而平移向量指的是针对多个声道的一组平移系数。有鉴于此，在步骤S301，定义了在多个平移向量(或增益向量)与多个位置之间的位置对应关系。

在该位置对应关系被定义之后，平移向量可以通过使用在步骤S302的公式(1)而计算。然后，在步骤S303，在步骤S301被包括在位置对应关系中的多个平移向量被保留，这些保留的平移向量与在步骤S302计算出的平移向量之间的差异在预定义值以内(即超出预定义值的不被保留)。

然后，在步骤S304，在多个声道的平移向量被保存之后，生成从保留的平移向量映射的针对多个帧的每个帧的候选位置组，其被表示为C^f。可以观察到，通过使用对应关系法总有多个候选位置被输出。例如，上述实施例说明了在步骤S303之后可以生成6个候选位置。候选位置构成候选位置组。这种方法是由混音师使用的平移工具的逆向处理，并因而实现了比能力加权法更准确的估计。

在对应关系法中，候选位置组可以包含多个位置，因为所生成的平移向量不可能与在位置对应关系中确切位置的一个值完全相等。在这方面，需要如上所述的预定义误差以用于生成多个候选位置。

在本发明的又一个实施方式中，使用了混合法，其作为一种复杂的方法结合了鲁棒性和准确性的优点。混合法假设可以使用内部(in-house)的平移工具，并因而不要求由混音师使用的平移工具的知识。虽然内部的平移工具与实际被混音师所使用的平移工具不同，不同的平移工具的属性是类似的。另外，当候选位置组为空/空集时，所生成的候选位置组将被补充额外的值，从而提高了鲁棒性。

可参考图4，其示出了用于基于混合法的位置估计处理的方法400的流程图。

类似与对应关系法，混合法也需要使用位置对应关系。因而，如上面在步骤S401针对对应关系法已经描述的，在多个平移向量(或增益向量)与多个位置之间的位置对应关系被定义。因为该位置对应关系可以通过与步骤S301中相同的方式进行定义，详细的描述将不再重复。

在位置对应关系被定义之后，平移向量可以通过使用在步骤S402的公式(1)被计算。此后，在步骤S403，在步骤S401包括在位置对应关系中的多个平移向量被保留，保留的平移向量与在步骤S402计算出的平移向量之间的差异在预定义值以内。然后，在步骤S404，在针对多个声道的向量值被保留之后，生成从保留的平移向量映射的针对多个帧的每个帧的候选位置组，其被表示为C^f。步骤S402至S404类似于步骤S302到S304，因此，这里将不再重复。

在步骤S405，针对多个帧的每个帧的音频对象的参考位置可以基于平移向量和针对多个声道的每个声道的预定义位置来计算。参考位置可以是通过公式(2)计算的针对多个帧的每个帧的单个估计位置，并因此将不再重复。

现在，已经通过如在能量加权法中描述的步骤获得了单个参考位置，以及通过如在对应关系法中描述的步骤获得了包含多个估计位置的候选位置组。在步骤S406，候选位置组中的每个候选位置与参考位置相比较，以及可响应于候选位置与参考位置之间的距离大于预定义阈值而从候选位置组中移除候选位置。换言之，如果估计位置离参考位置足够远，这非常可能是异常估计，其应当从候选位置组中移除。虽然由能量加权法生成的参考位置是粗略估计，针对该特定帧的特定音频对象的实际位置应当几何上围绕该参考位置。因此，步骤S406可以被用于从候选位置组中移除那些异常的候选位置。

如果所有的候选位置均为异常并在步骤S306已被移除，即现在的候选位置组为空，可以在步骤S407进行特殊处理，其可采取若干行动以用于直接输出位置而无需使用候选位置组或补充候选位置组。在一个实施例中，针对该帧的多个预定义位置可以被输出作为位置。换言之，针对多个物理声道中的每个声道的预定义位置可以被用作目标位置。在另一个实施例中，离参考位置的距离小于预定义阈值的一个或多个位置可被添加到候选位置组中。换言之，可以在围着在步骤S405所获得的参考位置而定义具有预定义阈值的邻域(neighborhood)，并且在该邻域内的有限数量的点可以被取样为候选位置。

在一个实施例中，能够采取一个或多个如上所列出的动作作为用于生成数个可用来补充候选位置组的候选位置的处理。

在一个实施例中，为了提高候选位置的覆盖范围，候选位置组C^f可以被多个位置进一步扩充，该多个位置基于参考位置和候选位置组中现有的候选位置所生成。在一个实施例中，候选组C^f可由下面的公式(5)计算：

C^f＝{α×x^f+(1-α)×y^f|y^f∈C^f，0≤α≤1}(5)

其中x^f表示参考位置，组C^f在步骤S404生成，并且α表示0到1之间的一组有限数量的采样点，例如，α＝[0，0.1，0.2，...，1.0]。

因此，该可选的步骤可以将在参考位置与候选位置组中的现有候选位置的每一个之间的多个位置添加到候选位置组C^f中。其结果是，大量的候选位置被包括在候选位置组中，这对此后的处理是有利的。然而，该可选的步骤仅对非空候选位置组可用。例如，如果在步骤S406之后该候选位置组为空，则该步骤将不会被执行。

在一个实施例中，可以使用位置校准处理以用于获得更为准确的估计。在实践中，由收听者感知的音频对象的感知位置将可能从如前所述的计算的位置略微偏离。例如，意在出现在收听者头部后面的音频对象倾向于引起较大的偏差，因为后面的声道的能量可能比前面的声道的能量衰减得更多。为了使得估计位置尽可能接近感知到的位置，可以对多声道格式的音频对象或者直接对估计位置进行校准处理。在一个实施例中，可以将增益施加到音频对象的输入声道的每个声道以增加或减少音频对象的能量水平。换言之，可以在计算针对多个帧的每个帧的多个声道的每个声道的能量值之前衰减一个或多个声道的能量。在另一个实施例中，可以对估计位置的每个位置或者候选位置组应用移位操作。仅通过示例的方式，当应用到估计位置的每个位置时，在获得估计位置之后可以进行该校准处理，并且可以针对多个帧的每个帧进行调节。可替代地，当应用到候选位置组时，在生成候选位置组时可以进行该校准处理，其允许跨越多个帧对校准进行调节。

增益的值取决于针对多个声道的预定义的物理位置。例如，在一个实施例中，分别应用到5.1格式的输入音频内容的左后声道和右后声道的值0.5将衰减-3dB的能量水平，而应用到其余声道的为值1.0(没有衰减)。这个处理模拟了能量从后面到达耳朵比从前面到达耳朵衰减更大的现象。

移位的量取决于音频对象的位置。例如，对于来自空间的前面的音频对象不需要移位操作；而对于来自后面的音频对象，移位操作是合意的，其将音频对象略微移动从而感知经校准的位置。

在一个实施例中，从在步骤S202所生成的针对音频对象的多个帧的每个帧的候选位置组中选择一个估计位置可以通过基于在针对多个帧中每相邻的两个帧的所有候选位置之间的距离的最小总和选择估计位置而实现。

具体地，可以使用全局成本(cost)函数以用于选择跨越音频对象的第一帧到最后一帧的最佳位置。全局成本函数考虑了针对一个帧的候选位置中的每个位置以及针对下一帧的候选位置中的每个位置之间的距离，并旨在通过考虑在每对相邻的帧之间的距离的总和而确定音频对象从第一帧到最后一帧的多个估计位置。作为结果，最佳路径由该多帧跟踪处理构成作为估计轨迹。该处理可以被称为多帧跟踪处理，其适用于对应关系法和混合法以用于获得平滑的轨迹。另一方面，可以应用对全部帧的估计位置的简单平滑化到能量加权法。

针对第f帧的候选位置组可以被表示为C^f，f＝1，...，F，其由M(F)个候选位置构成。在一个实施例中，C^f可由下面的公式计算：

C^{f} = {p_{i}^{f} | i = 1, . . ., M (f)} - - - (6)

候选位置组的大小可以随帧改变。如图5所示，多帧跟踪处理的目的是寻求从第一帧到最后一帧的轨迹。在每一帧，从候选位置中选出仅仅一个候选位置。在针对多个帧的估计位置被确定后，可以基于所选择的估计位置自动生成轨迹。总而言之，多帧跟踪处理针对多个帧中的每个帧选择最佳位置，并且针对多个帧中的每个帧的估计位置的选择相对于多个帧中其余的帧被全局地优化。

为了寻求最佳的轨迹，在一个实施例中，可以通过最小化目标函数来优化，如以下：

\min f (p_{i}^{1}, p_{j}^{2}, . . ., p_{m}^{F}) - - - (7)

其中i表示候选位置在第一帧的指数，即i＝1，2，...，M(f)；f＝1，2，...，F；j表示候选位置在第二帧的指数，即，j＝1，2，...，M(f)；f＝1，2，...，F；m表示候选位置在最后一帧的指数，即，m＝1，2，...，M(f)；f＝1，2，...，F；而其中表示预定义的成本函数，测量轨迹产生的成本量。

以上优化试图从M(1)×M(2)×...×M(F)个的可能的组合中用最小的成本值寻求最佳轨迹。成本函数的定义取决于具体的要求。例如，在一个实施例中，成本函数可被定义为：

f (p_{i}^{1}, p_{j}^{2}, . . ., p_{m}^{F}) = Σ_{f = 1}^{F - 1} | | p_{i}^{f} - p_{j}^{f + 1} | | - - - (8)

其中表示在位置与之间的距离。

通过计算所有可能的距离，可以生成平滑的轨迹。在一个实施例中，如果存在对于多个帧中的一个帧希望经过特定的候选位置的预定义偏好，一组成本可以被分配到这些候选位置，并且在一个实施例中，公式(8)将变为：

f (p_{i}^{1}, p_{j}^{2}, . . ., p_{m}^{F}) = Σ_{f = 1}^{F - 1} (| | p_{i}^{f} - p_{j}^{f + 1} | | + c_{i}^{f}) - - - (9)

例如，在一个实施例中，成本的定义可以是：

c_{i}^{f} = δ \times h (d_{i}^{f}) - - (10)

其中表示在第f帧在第i个候选平移向量(或增益向量)与所计算的平移向量(或增益向量)之间的距离，函数h是一类函数，其值随着的值的增加而减小，例如，在一个实施例中，并且δ表示在h与公式(9)的之间的平衡因子。

可替代地，在另一个实施例中，如果存在选择特定轨迹的偏好，一组权重可以被添加到公式(8)中以用于使轨迹倾向于通过特定的候选位置，并且在一个实施例中，成本函数可以被改写为：

f (p_{i}^{1}, p_{j}^{2}, . . ., p_{m}^{F}) = Σ_{f = 1}^{F - 1} ω_{ij}^{f} \times | | p_{i}^{f} - p_{j}^{f + 1} | | - - - (11)

其中表示针对第f帧从位置i跳到位置j的偏好。

值越低，选择路径i→j的可能性越高。在极端的情况下，的值可以被设置为无穷大，这意味着从位置i跳到位置j是最不希望的。因为公式(10)中的部分地表示经过候选位置的置信度得分，在一个实施例中，可以通过下面的公式导出：

ω_{ij}^{f} = h (d_{i}^{f}) \times h (d_{j}^{f + 1}) - - - (12)

通将代入公式(9)或将代入公式(11)，能够依据由针对音频对象的多个帧的所有候选位置所形成的所有可能的轨迹的优选轨迹确定估计位置。优选轨迹通过使得针对多个帧中的至少一个帧的候选位置中的至少一个位置倾向于被选择为估计位置而获得。

因为总共有M(1)×M(2)×...×M(F)个的候选组合，它需要大量的计算来列举每个可能的轨迹以获得在针对多个帧中每相邻的两个帧的候选位置之间的距离的最小总和。可以应用多种动态编程技术以最小化生成最佳轨迹的计算。在一个实施例中，一种这样的技术可以是：

·初始化i＝1，...，M(1)，其中存储高至第f帧的第i个候选位置的最小累计成本值，以及存储第(f-1)帧的位置的指数，从中的值是最小的。

·对于f＝2至F

1.计算在第f帧从第i个位置跳到第j个位置的成本，即

d_{i, j}^{f} = f (p_{i}^{f - 1}, p_{j}^{f}) .

2.通过计算高至第f帧的第j个位置的最小累计成本，并通过存储第(f-1)帧的位置的指数。

·结束

·利用发现在最后帧的最小成本位置最小成本路径的位置的指数可以由下面的反向公式组成：

I_{*}^{f - 1} = H_{I_{*}^{f}}^{f},

f＝2，...F

·因而最佳路径可表示为

在一个实施例中，在步骤S204的维度转换处理可以基于音频对象的内容类型以及针对多个帧的每个帧的估计位置中的至少一个被用来将针对多个帧中的每个帧的估计位置从二维格式转换为三维格式，或通过从估计位置中移除一个维度的信息将针对多个帧的每个帧的估计位置从3D格式转换为2D格式。

随着音频处理技术的进步，通过添加若干顶置扬声器，由多声道格式的音频内容创建的音频场景从2D平面逐渐演变为3D空间。因为利用若干顶置声道的3D音频场景提供了更逼真的听觉体验，估计针对音频对象的3D轨迹是理想的。大多数的音频内容不包含高度信息，因为大多数市场上的多声道格式的内容是基于环绕5.1或环绕7.1的。其结果是，估计轨迹只能在2D平面(x^f，y^f)上生成。为了将这些音频内容从2D格式扩展至3D格式，期望增加的高度维度z^f。

高度的增加可手动地完成或通过应用一些经验法则自动地完成。这些法则或者是从混音师的共同行为所启发，或者是在当前的渲染技术的限制下得到。例如，在一个实施例中，如果音频对象的估计位置位于靠近空间的中心，可以通过将高度设定为预定义值而不管其内容类型而将该音频对象放置到顶置扬声器。这可以从混音师的共同行为中得到，因为如果混音师理解某音频对象为要被顶置扬声器所播放，他通常会有意地将该音频对象布置在空间的中心。

在另一个实施例中，若音频对象的估计位置接近空间的边或壁，则针对该音频对象的高度可以被设置为零。在由多个扬声器限定的边附近的估计位置可能是不具有高度信息的音频对象，因为混音师不能简单地仅通过使用在一侧上的扬声器来生成被感知为从天空中传出的音频对象。高度可以被共同地表示为具有特定空间(诸如半球)的函数g(x，y)。在半球中，高度的值在该空间的中心处达到1(即最大值)，并在从中心向壁移动时逐渐减小到零。

在另一个实施例中，如果音频对象的内容类型属于预定义类型(这通常不在平面中，例如鸟叫、雷声、雨声等)，该音频对象可以通过将高度设置为预定义值而被放置到顶置扬声器。高度可表示为函数f(c)，其中c是内容类型。

如果音频对象的内容类型指示它是顶置对象，高度通过函数f(c)被设定为预定义值；否则，函数g(x，y)被用来基于音频对象的估计位置获得高度的值。可替代地，在一个实施例中，总体函数可以是h(x，y，z)，其中h(x，y，c)＝g(x，y)×f(c)。

关于内容类型的信息可以被手动注释或通过人工智能技术自动获得。应当注意的是，音频对象的源或完整性并非必要。音频对象可以来自其中音频对象不彼此混合的现成的纯对象内容，或者来自一些音频对象提取算法的输出。对于现成的音频对象，应用经验法则以便添加高度的值是安全的。

然而，对于从多声道格式的音频内容自动提取的音频对象，应当考虑到相同的音频对象的一些能量可能仍存留在平面(地面扬声器)中的事实。例如，对于7.1输入，通过函数g(x，y)或f(c)计算出的高度维度，音频对象被放置到顶置扬声器。由于不完美的音频对象提取，不是所有的音频对象的能量/频谱被放置到顶置扬声器，仍有部分存留在平面中。存在一定的风险使播放的声音不被感知为集中的对象。为了减轻风险，在一个实施例中，通过引入介于0与1之间的比例因子s提出了自适应的高度估计，如：

z＝s×z^*(13)

其中z^*表示从g(X，y)和/或f(c)所估计的高度。

值s可以通过考虑平面中的剩余能量被设定。例如，当没有剩余能量在平面中时它可以被设置为1，或如果音频对象的几乎所有能量都在平面中时被设置为0。在平面中的剩余能量与音频对象的总能量的比率可被表示为r。在一个实施例中，s可以由s＝1-r进行估计，使其值随r线性变化。在另一个实施方案中，s可以由进行估计，其中参数λ控制函数的斜率，其值随r非线性变化。可以利用真实数据对λ的值进行调整。

在一个实施例中，也可以包括3D至2D转换。这对于没有顶置扬声器的播放系统是有用的。这种转换需要将轨迹从3D格式转换成2D格式。实现该转换的简单方法是丢弃记录在3D格式中的高度维度并仅使用在一个平面中的位置来表示音频内容。

感知大小估计

现在参考图6，其示出了根据本发明的示例实施例的用于处理音频对象以便于估计其感知大小的方法600的流程图。

当多声道格式的音频对象由多声道系统播放时，例如会在输入信号之间存在相差。其结果是，当信号被各种换能器播放时，收听者可以感知音频对象为具有一定面积或大小而不是集中的点的幻象。当然，像关于音频对象的轨迹或位置的信息，也期望能够估计音频对象的感知大小。

如先前所述，如果两个相同的信号由两个扬声器100同时播放，收听者将可能感知音频对象为点幻象，如图1的左图所示，其中ICC值等于1。在实际中，混音师一般不会将音频对象渲染为具有点幻象，而是将ICC值分配在0与1之间。在一个实施例中，感知大小也是0与1之间的值，其中感性大小为0意味着点幻象，并且感知大小为1意味着从一个扬声器延伸到另一个扬声器的大小。因此，感知大小独立于两个扬声器之间的物理距离，并仅由声道间相关性即ICC确定。在下文中将呈现方法600的步骤。

在步骤S601，如图7所示的多个声道的每对700的声道间相关系数(ICC)在时域或频域中被计算出来。由于感知大小是基于个人感知的参数，很难用解析方法来得到关于其ICC值的相关性。经常使用的方法是诉诸听音实验以收集实验数据，然后用统计方法来找到最佳的对应关系或很好地拟合该经验数据的函数。例如，在一个实施例中，图8图示了曲线拟合后的函数。

如图示图8中的曲线示出了感知大小与ICC值之间的关系。可以观察到，感知大小关于ICC值非线性地变化。

为了从输入音频信号生成ICC值，需要进行几个步骤。作为实验设置的示例，如图7所示，两个扬声器700被放置在收听者710的前方。图7仅图示了放置在收听者710前方的一对扬声器700的示例，而多对扬声器还可以被布置在其它地方。音频信号被去相关以生成两个路径的信号，这些信号分别进入左和右扬声器700。这两个信号的ICC由去相关的部件控制，并且在一个实施例中，可以在时域中计算ICC值：

ICC = \max_{| d | < = D} | \frac{\underset{t}{Σ} x_{1} (t + d) x_{2} (t)}{\sqrt{\underset{t}{Σ} {x_{1} (t + d)}^{2}} \sqrt{\underset{t}{Σ} x_{2} {(t)}^{2}}} | - - - (14)

其中x₁(t)和x₂(t)表示时域样本，t表示时间，d表示两个样本之间的时间差，以及D表示窗口大小。

当d为非零时，x₁和x₂均仅使用它们彼此重叠的单独的样本。在另一个实施例中，也可以在频域计算ICC的值，例如，对于第b个子频带：

ICC (b) = | \frac{Re (\underset{t}{Σ} X_{1} (b, t) {\times X}_{2} {(b, t)}^{*})}{\sqrt{\underset{t}{Σ} {| | X_{1} (b, t) | |}^{2}} \sqrt{\underset{t}{Σ} {| | X}_{2} {(b, t) | |}^{2}}} | - - - (15)

其中X₂(b，t)^*表示X₂(b，t)的共轭，||X₁(b，t)||表示的复数的模，以及Re()的操作表示实数部分。

在一个实施例中，可以通过下面的公式计算全频带的ICC：

ICC = \frac{1}{N} Σ_{b = 1}^{N} ICC (b) - - - (16)

对于每个ICC值，收听者被要求录制音频对象的感知大小。多收听者的平均值被输出作为最终值。要注意的是，每一对扬声器可以导致自身的ICC值并且每对扬声器分别定义感知大小与ICC值之间的对应关系。

有鉴于此，对应关系由一对扬声器的位置预定义。对于每对扬声器，在一个实施例中，多个ICC值与多个感知大小之间的对应关系可以表现为查找表的形式以用于即时高效地实施。可替代地，在另一实施例中，对应关系可以表现为连续函数f(ICC)的形式，如图8所示。该函数可以通过对实验数据使用曲线拟合技术而得出。因此，在步骤S602，可以基于查找表或者通过曲线拟合技术得到的函数f(ICC)从在步骤S601所计算的ICC值生成估计感知大小。

在步骤S602生成估计感知大小之后，多个估计感知大小可以在步骤S603被聚集以便于获得音频对象的总体感知大小。

在图9中，三个扬声器910、930和940被开启以渲染音频对象。这三个开启的扬声器910、930和940产生由虚线圆圈所示的总体幻象960。由于扬声器的数量多于两个，且对应关系仅提供单对扬声器之间的映射，所以不能直接应用对应关系。

为了通过多于两个扬声器来估计感知大小，假设总体幻象为一系列由多个声道中的一对声道所产生的幻象的聚集。如图9的右图所示的示例，总体幻象960被视为分别由(910，940)、(930，940)和(910，930)所产生的子幻象970、980和990的聚集。聚集的大小s表示每个子幻象s_p的各个尺寸的函数。在一个实施例中，可以通过查找合适的查找表或如图8所示的函数使用经公式(14)或(16)所计算的ICC值来估计s_p。合适的查找表的选择可以取决于不同扬声器的定位。鉴于扬声器对(910，940)、(930，940)和(910，930)之间的三个相关性关系是基于针对如图9所示的包括五个扬声器910、920、930、940和950(分别对应于左/右侧、前侧和左/右后侧)的系统的听音实验所预定义的，其它扬声器对之间的对应关系也可以由这三个预定义的对应关系来近似。用于从那些子幻象获得大小估计的方法可以使用线性函数(17)或最大值(max)函数(18)，以及比例因子ω_p：

s = \underset{p}{Σ} s_{p} \times d_{p} \times ω_{p} - - - (17)

s = \max_{p} (s_{p} \times d_{p} \times ω_{p}) - - - (18)

其中d_p表示第p个扬声器对的相对距离，以及ω_p表示比例因子。

在一个实施例中，d_p的值可以被设定为多个声道的第p对之间的距离与房间大小的比率。例如，假定该房间是边长为1.0的正方形，针对(910，940)、(930，940)和(910，930)的距离d_p分别被计算为1.0、1.12和0.5。

在一个实施例中，ω_p可以通过对多个声道中的一对声道以内的声道的一些测量结果而确定并且与收听者的感知密切相关。例如，它可以通过以下任一因素来确定。

如果多个声道的所有对被同等处理，例如，ω_p可以设置为对于公式(17)为或对于公式(18)为ω_p＝1。对于公式(17)的设置为将幻象的大小估计输出作为其子幻象970、980和990的平均；而对于公式(18)的设置将最大的子幻象输出作为总体幻像或总体估计感知大小而不管其他子幻象。当多个声道中的所有对的能量相同或相似时，最大值设置奏效，但当多个声道中的一些对具有更高的ICC值但更低的能量时准确度会受到影响。

在一个实施例中，可以通过使用下面的公式计算ω_p：

ω_{p} = \frac{E_{p}}{\underset{p}{Σ} E_{p}} - - - (19)

其中E_p表示对于公式(17)和(18)的多个声道中的第p对的能量。

公式(19)基于以下理解，多个声道中具有较高能量的对可以比具有较低能量的对为聚集大小s贡献更多。然而，能量可以不直接反映收听者对播放的感知，因为能量属于物理客观测量，而感知大小属于主观测量。因此，在另一个实施例中，响度可以用来衡量多个声道的每对声道的贡献以用于估计感知大小。因此，在一个实施例中，由响度测量引导的比例因子ω_p可以通过下面的公式计算：

ω_{p} = \frac{L_{p}}{\underset{p}{Σ} L_{p}} - - - (20)

有鉴于此，总体估计感知大小可以在一个实施例中通过公式(17)平均化多个所生成的估计感知大小作为总体估计感知大小而被聚集，或在另一个实施例中通过公式(18)从多个所生成的估计感知大小中选择最大的一个作为总体估计感知大小而被聚集。

在一个实施例中，可以进行步骤S604以用于校准估计感知大小，例如通过将多声道格式的音频对象在播放中所感知到的大小与被转换为单声道格式的具有估计感知大小的音频对象在播放中所感知到的大小相比较而校准估计感知大小。

考虑公式(17)和(18)被用于近似感知大小，这意味着总体估计感知大小与实际感知大小之间可能存在差异。因此，为了获得更准确的大小估计，在一个实施例中，对估计感知大小进行校准以尽可能接近由人所感知到的真实值。校准可以依赖于音频对象的空间位置。

用于校准的实验的一个示例于图10中示出。在该示例中，在图10的左图中的位置(x，y，z)处播放以多声道格式呈现的音频对象，并且要求在实验中的收听者1060记录该未经处理的音频对象的感知大小P(x，y，z)。在图10的中间，通过诸如S601到S603的步骤或任何其他现成的方法将感知大小估计出来，并且该音频对象被重新渲染具有总体估计大小和/或估计位置。然后要求收听者记录针对该经处理的音频对象的感知大小Q(x，y，z)。在一个实施例中，可以通过下面的公式计算校准因子β(x，y，z)：

β (x, y, z) = \frac{P (x, y, z)}{Q (x, y, z)} - - - (21)

在一个实施例中，如图11所示，整个空间1100可以被分割成多个子空间1160、1170、1180和1190以节省耗费在校准上的努力而不影响校准效果。空间1100由扬声器1110、1120、1140和1150界定成多个子空间。具体地，如图11所示，不论高度的子空间有三种不同的值，而子空间1170和1180是相同的。在单一子空间内的所有位置享有校准因子，其值通过实验被收集以用于校准，例如于图10所示。为了进一步减少得到β(x，y，z)的努力，在一个实施例中，仅选择子空间内有限数量的感兴趣的位置(而不是所有感兴趣的位置)并且这些位置被计算及平均化作为子空间的校准因子。

可替代地，在一个实施例中，整个空间可以被沿着高度维度分割为水平空间和顶置空间。水平空间进一步跟随如上所述的分割步骤，其被分为1060、1070、1080和1090；而顶置空间被视为一个整体享有相同的校准因子。

在一个实施例中，提供了特殊的应用，其中在2D平面(x，y)中的一些音频对象被转换为3D空间(x，y，z)以便于通过增加新的高度维度z来创建具有更逼真的听觉体验的三维音频场景。校准因子β(x，y，z)可以被表示为被新添加的维度z明确定义的以下函数：

β (x, y, z) = 2 \times \frac{β_{\max}}{1 + e^{α (1 - z)}} - - - (22)

其中，α表示大于零的常数。

高度的值越大意味着更大的大小从而带来更逼真的体验。当在公式(21)中的z是1时，校准因子达到最大值β_max；随着z从1减小到0，校准因子从β_max减小至通过基于听音实验调整β_max以及α的值，可以获得校准因子的最佳设置。

图12示出了如图所示的根据本发明的一个实施例的用于音频内容处理的系统1200的框图。如图所示，系统1200包括被配置为生成与音频对象相关联的元数据的元数据生成单元1201。元数据生成单元1201包括轨迹元数据生成单元1202和大小元数据生成单元1203中的至少一个，轨迹元数据生成单元1202被配置为生成音频对象的估计轨迹，大小元数据生成单元1203被配置为生成音频对象的估计感知大小，该感知大小是由至少两个换能器产生的音频对象的幻象的所感知到的区域。

在一些实施例中，轨迹元数据生成单元1202可以包括被配置为生成候选位置组的候选位置生成单元，该候选位置组包括针对音频对象的多个帧中的每个帧的至少一个候选位置；位置选择单元，其被配置为基于针对多个帧的全局成本函数从针对多个帧中的每个帧所生成的候选位置组中选择估计位置；以及轨迹生成单元，其被配置为生成具有跨越多个帧所选择的估计位置的轨迹作为估计轨迹。

在这些实施例中，候选位置生成单元可以包括对应关系定义单元，其被配置为定义在多个平移向量与多个位置之间的位置对应关系；能量计算单元，其被配置为计算针对多个声道中的每个声道的能量值并且计算针对音频对象的多个帧中的每个帧的平移向量，该平移向量为一组比率，该比率中的每个比率等于多个声道中的一个声道的能量值除以多个声道的能量值的总和；平移向量保留单元，其被配置为保留与所计算的平移向量之间的差异在预定义值以内的多个平移向量；以及组生成单元，被配置为根据所保留的平移向量，基于位置对应关系生成针对多个帧中的每个帧的候选位置组。优选地，候选位置生成单元还可以包括：参考位置计算单元，其被配置为基于所计算的平移向量和针对多个声道中的每个声道的预定义位置，计算针对多个帧中的每个帧的音频对象的参考位置；以及位置移除单元，其被配置为响应于候选位置与参考位置之间的距离大于预定义阈值，从候选位置组中移除候选位置。因此，组生成单元可以包括被配置为检测候选位置组是否为空的组测试单元；以及组补充单元，其被配置为将针对所述帧的所述预定义位置补充到所述候选位置组中，或者将与参考位置之间的距离小于预定义阈值位置补充到候选位置组中。

在一些实施例中，位置选择单元可以包括估计位置选择单元，其被配置为基于在针对多个帧中每相邻的两个帧的候选位置之间的距离的最小总和选择估计位置。

此外，在一些实施例中，轨迹元数据生成单元1203还可以包括维度转换单元，其被配置为基于音频对象的内容类型以及针对多个帧中的每个帧的估计位置中的至少一个，将针对多个帧中的每个帧的估计位置从二维(2D)格式转换为三维(3D)格式，或者通过从估计位置移除一个维度的信息，将针对多个帧中的每个帧的估计位置从3D格式转换为2D格式。

在一些实施例中，大小元数据生成单元1203可以包括ICC计算单元，其被配置为在时域或频域中计算多个声道中的每对声道的声道间相关系数(ICC)；大小生成单元，其被配置为从多个声道的对的ICC中生成多个估计感知大小；以及大小聚集单元，其被配置为聚集多个估计感知大小以便于获得音频对象的总体估计感知大小。在这些实施例中，大小生成单元可以包括ICC转换单元，其被配置为基于在ICC与多个感知大小之间预定义的对应关系确定估计感知大小。

在一些实施例中，大小聚集单元可以包括总体大小估计单元，其被配置为平均化多个生成的估计感知大小作为总体估计感知大小，或者选择多个生成的估计感知大小中最大的一个作为总体估计感知大小。

此外，在一些实施例中，大小元数据生成单元1203可以进一步包括大小校准单元，其被配置为通过将多声道格式的音频对象在播放中所感知到的大小与带有所生成的具有估计感知大小的元数据的音频对象在播放中所感知到的大小相比较而校准估计感知大小。优选地，大小校准单元可以包括空间分割单元，其被配置为将由多个换能器构建的空间分割为多个子空间以用于校准。

为清楚起见，系统1200的一些可选部件在图12中并未示出。然而，应当理解的是，如上述参照图1-11所描述的特征均适用于系统1200。此外，系统1200的部件可以是硬件模块或软件单元模块。例如，在一些实施例中，系统1200可以部分地或完全地以软件和/或固件实现，例如实现为收录在计算机可读介质中的计算机程序产品。可替代地或附加地，系统1200可以部分地或完全地基于硬件实现，例如作为集成电路(IC)、应用专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等等。本发明的范围并不局限于该方面。

图13示出了适用于实施本发明实施例的示例计算机系统1300的框图。如图所示，计算机系统1300包括中央处理单元(CPU)1301，其能够根据存储在只读存储器(ROM)1302中的程序或从存储区1308加载到随机存取存储器(RAM)1303的程序而执行各种处理。在RAM1303中，还存储有设备1300操作所需的各种程序和数据。CPU1301、ROM1302和RAM1303通过总线1304彼此相连。输入/输出(I/O)接口1305也连接到总线1304。

以下部件连接至I/O接口1305：包括键盘、鼠标等的输入部分1306；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1307；包括硬盘等的存储部分1308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1309。通信部分1309经由诸如因特网的网络执行通信处理。驱动器1310也根据需要连接至I/O接口1305。可拆卸介质1311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1310上，以便于从其上读出的计算机程序根据需要被安装入存储部分1308。

特别地，根据本发明的实施例，上文参考图1-图6描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行方法200、300、400和/或600的程序代码。在这样的实施例中，该计算机程序可以通过通信部分1309从网络上被下载和安装，和/或从可拆卸介质1311被安装。

一般而言，本发明的各种示例实施例可以在硬件或专用电路、软件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

而且，流程图中的各框可以被看作是方法步骤，和/或计算机程序代码的操作生成的操作，和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如，本发明的实施例包括计算机程序产品，该计算机程序产品包括有形地实现在机器可读介质上的计算机程序，该计算机程序包含被配置为实现上文描述方法的程序代码。

在公开的上下文内，机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备，或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备，或其任意合适的组合。

用于实现本发明的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器，使得程序代码在被计算机或其他可编程的数据处理装置执行的时候，引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。

另外，尽管操作以特定顺序被描绘，但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成，或者执行所有图示的操作以获取期望结果。在某些情况下，多任务或并行处理会是有益的。同样地，尽管上述讨论包含了某些特定的实施细节，但这并不应解释为限制任何发明或权利要求的范围，而应解释为对可以针对特定发明的特定实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。

针对前述本发明的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本发明的示例实施例范围。此外，前述说明书和附图存在启发的益处，涉及本发明的这些实施例的技术领域的技术人员将会想到此处阐明的本发明的其他实施例。

由此，本发明可以通过在此描述的任何形式来实现。例如，以下的枚举示例实施例(EEE)描述了本发明的某些方面的某些结构、特征和功能。

EEE1.一种用于估计来自音频内容的对象的位置的方法，该音频内容为基于多声道的格式，该方法包括：

·基于声道和/或平移工具之间的能量分布，在对象的每个单独的帧上应用位置估计以生成针对该帧的候选位置集合；

·通过使用动态编程技术最小化预定义成本函数，从候选集合中选择最佳路径作为对象的轨迹；

·可选地，对轨迹进行转换操作。

EEE2.如EEE1中记载的对象可以是在全频带或子频带，和/或随时间完整或不完整的。

EEE3.根据EEE1的对单独的帧的位置估计的方法是使用/不使用参考位置结合查找表法的混合法。

EEE4.根据EEE3的查找表法涉及建立表，其存储(位置，平移(或增益)向量)的对之间的映射，还涉及从该表中寻找候选位置集合，其中

·平移向量是所有声道上的能量分布，由声道能量的总和正规化，如由(1)所定义。

·增益向量由平移向量的项目的平方根构成，如由(4)所定义。

EEE5.根据EEE4的寻找候选位置集合的步骤，涉及从该表中寻找平移(增益)向量集合，其到计算出的位置的距离小于预定义的阈值。

EEE6.如EEE3中记载的参考位置被用来删减由查找表法找到的候选位置集合，并且该删减由引入阈值来实施，使得在候选集合中的到参考位置大于阈值的位置被移除。

EEE7.在删减之后候选位置集合为空时，特殊处理可以是以下之一：

·输出每个物理声道位置作为估计位置。这意味着针对相同的对象输出多个估计位置。或者换言之，其输出具有相同的音频但不同位置的多个对象。

·通知上层应用，该对象不适合仅被重新渲染有位置元数据。

·定义在参考位置的预定义半径范围内的邻域(由能量加权法获得)，并将在邻域内的有限数量的点采样为候选位置。

EEE8.根据EEE5的候选位置集合可以通过(5)来增大。

EEE9.在EEE3中估计的位置可以利用以下操作之一来校准：

·可以在对象的至少一个输入声道信号上应用增益，以提高或降低其能量(或相对重要性)；

·可以在每个估计位置上应用移位操作。移位的量取决于对象的位置。

EEE10.根据EEE1的跨越多个帧的轨迹构成的方法由优化问题(7)所公式化，并且成本函数可以给予(8)或(9)或(11)来定义，其中

·的值可以或者根据先验知识或者通过(10)来设置。

·的值可以或者根据先验知识或者通过(12)来设置。

EEE11.根据EEE10的解决问题(7)的步骤的一个示例是使用动态编程技术的步骤以用于计算

EEE12.根据EEE1的转换操作，涉及将二维位置转换成三维位置，或反之亦然。

EEE13.根据EEE12的用于二维的位置的高度的确定是例如为函数h(x，y，c)＝g(x，y)×f(c)，其中(x，y)是位置且c是内容的分类信息。

EEE14.根据EEE13的高度值，进一步利用公式(13)，通过乘以“自适应”的比例因子以将平面上的扬声器的剩余能量纳入考量，从而进行自适应调节。

EEE15.根据EEE14的比例因子可以通过任一以下确定：

·公式s＝1一r，意味着它的值随r线性地变化；

·方程其中参数λ控制该函数的斜率，这意味着它的值非线性地变化。

其中，r是在平面上的剩余能量与该对象的总能量的比率。

EEE16.一种用于估计来自音频内容的对象的大小的方法，该音频内容为基于多声道的格式，该方法包括：

·在<感知大小，ICC值>的对之间建立对应关系；

·基于相关性的大小估计；

·自适应位置引导校准。

EEE17.如EEE16中记载的对象可以是在全频带或子频带，和/或随时间完整或不完整的。

EEE18.如EEE16中记载的对应关系可以表示为函数或查找表。每个对应关系是通过在听音实验中放置的扬声器对的位置确定的。

EEE19.如EEE18中记载的扬声器对的位置可以被选择为有限数量的代表位置，例如前、左/右、和后侧。对于每个扬声器对，建立分别的函数/对应关系。其它位置的对应关系可以通过代表位置来近似。

EEE20.如EEE16中记载的ICC值可以通过公式(14)或(16)计算出来。

EEE21.如EEE16中记载的基于相关性的大小估计将由两个以上的扬声器创建的对象的幻象分解为作为一系列子幻象，其中每一个子幻象由一对扬声器创建。对象的大小通过公式(17)或(18)获得。

EEE22.如EEE21中记载的在(17)或(18)中的比例因子的值可以被设置为(19)或(20)。

EEE23.如EEE16中记载的自适应位置引导校准的方法可以由基于相关性的方法或任何其他现成的方法对估计大小进行处理。

EEE24.如EEE23中记载的自适应位置引导校准的方法涉及根据(21)的校准因子的计算。

EEE25.如EEE24中记载的校准因子是位置相关的，并且校准因子集合的大小可以通过将整个空间分割成有限数量的代表子空间来减小，例如：

·如图11所示，整个空间(不管高度)被分成三个子空间，它们分别是1160、1170、1180(与1170对称)和1190。子空间内的所有位置共享校准因子。

·可替代地，整个空间可沿高度维度被分割为水平空间和顶置空间。水平空间进一步遵循先前的分割策略被分割为1160、1170、1180和1190；而顶置空间被视为一个整体，并享有相同的校准因子。

EEE26.如EEE24中记载的校准因子可以在通过添加新的高度维度将二维平面中的对象放置到三维空间中的情形中被可替代地设置为(22)。

应当理解的是本发明的实施例并不限于所公开的具体实施方式，并且修改和其他实施例旨在被包括在所附的权利要求书的范围内。尽管使用了特定术语在本文中使用时，它们被用在通用的和描述性的意义，而不是为了限制的目的。

Claims

1.一种用于处理音频内容的方法，所述音频内容包括至少一个基于多个声道的多声道格式的音频对象，所述方法包括：

生成与所述音频对象关联的元数据，所述元数据包括以下中的至少一个：

所述音频对象的估计轨迹，以及

所述音频对象的估计感知大小，所述感知大小是由至少两个

换能器产生的、所述音频对象的幻象的所感知到的区域。

2.根据权利要求1所述的方法，其中生成所述元数据包括通过以下确定所述估计轨迹：

生成候选位置组，所述候选位置组包括针对所述音频对象的多个帧中的每个帧的至少一个候选位置；

基于针对所述多个帧的全局成本函数，从针对所述多个帧中的每个帧所生成的候选位置组中选择估计位置；以及

生成具有跨越所述多个帧所选择的估计位置的轨迹作为所述估计轨迹。

3.根据权利要求2所述的方法，其中生成所述候选位置组包括：

定义在多个平移向量与多个位置之间的位置对应关系；

计算针对所述多个声道中的每个声道的能量值；

计算针对所述音频对象的所述多个帧中的每个帧的所述平移向量，所述平移向量为一组比率，所述比率中的每个比率等于所述多个声道中的一个声道的所述能量值除以所述多个声道的所述能量值的总和；

保留多个平移向量，所保留的平移向量与所计算的平移向量之间的差异在预定义值以内；以及

根据所保留的平移向量，利用所述位置对应关系生成针对所述多个帧中的每个帧的所述候选位置组。

4.根据权利要求3所述的方法，其中生成所述候选位置组进一步包括：

基于所计算的平移向量和针对所述多个声道中的每个声道的预定义位置，计算针对所述多个帧中的每个帧的所述音频对象的参考位置；以及

响应于候选位置与所述参考位置之间的距离大于预定义阈值，从所述候选位置组中移除所述候选位置。

5.根据权利要求4所述的方法，其中生成所述候选位置组进一步包括：

响应于针对所述多个帧中的一个帧的所述候选位置组为空，

将针对所述帧的所述预定义位置添加到所述候选位置组中；或

将位置添加到所述候选位置组中，所添加的位置与所述参考位置之间的距离小于预定义阈值。

6.根据权利要求2至5中任一项所述的方法，其中从针对所述多个帧中的每个帧所生成的候选位置组中选择所述估计位置包括：

基于在针对所述多个帧中每相邻的两个帧的所述候选位置之间的距离的最小总和，选择所述估计位置。

7.根据权利要求2至5中任一项所述的方法，进一步包括：

基于所述音频对象的内容类型以及针对所述多个帧中的每个帧的所述估计位置中的至少一个，将针对所述多个帧中的每个帧的所述估计位置从二维(2D)格式转换为三维(3D)格式；或

通过从所述估计位置移除一个维度的信息，将针对所述多个帧中的每个帧的所述估计位置从3D格式转换为2D格式。

8.根据权利要求1所述的方法，其中生成所述元数据包括通过以下确定所述估计感知大小：

在时域或频域中计算所述多个声道中的每对声道的声道间相关系数(ICC)；

从所述多个声道的多对声道的所述ICC中生成多个估计感知大小；

聚集所述多个估计感知大小以便于获得所述音频对象的总体估计感知大小。

9.根据权利要求8所述的方法，其中从所述ICC生成所述多个估计感知大小包括：

基于所述ICC与多个感知大小之间预定义的对应关系，确定所述多个估计感知大小。

10.根据权利要求8或9所述的方法，其中聚集所述多个估计感知大小包括：

平均化所述多个估计感知大小作为所述总体估计感知大小；或

选择所述多个估计感知大小中最大的一个估计感知大小作为所述总体估计感知大小。

11.根据权利要求8至10中任一项所述的方法，进一步包括：

通过将所述多声道格式的所述音频对象在播放中的感知大小与带有所生成的具有估计感知大小的元数据的所述音频对象在播放中的感知大小相比较，来校准所述估计感知大小。

12.根据权利要求11所述的方法，进一步包括：

将由多个换能器构建的空间分割为多个子空间以用于校准。

13.一种用于处理音频内容的系统，所述音频内容包括至少一个基于多个声道的多声道格式的音频对象，所述系统包括：

元数据生成单元，被配置为生成与所述音频对象关联的元数据，所述元数据生成单元包括以下中的至少一个：

轨迹元数据生成单元，被配置为生成所述音频对象的估计轨迹；以及

大小元数据生成单元，被配置为生成所述音频对象的估计感知大小，所述感知大小是由至少两个换能器产生的所述音频对象的幻象的所感知到的区域。

14.根据权利要求13所述的系统，其中所述轨迹元数据生成单元包括：

候选位置生成单元，被配置为生成候选位置组，所述候选位置组包括针对所述音频对象的多个帧中的每个帧的至少一个候选位置；

位置选择单元，被配置为基于针对所述多个帧的全局成本函数而从针对所述多个帧中的每个帧所生成的候选位置组中选择估计位置；以及

轨迹生成单元，被配置为生成具有跨越所述多个帧所选择的估计位置的轨迹作为所述估计轨迹。

15.根据权利要求14所述的系统，其中所述候选位置生成单元包括：

对应关系定义单元，被配置为定义在多个平移向量与多个位置之间的位置对应关系；

能量计算单元，被配置为计算针对所述多个声道中的每个声道的能量值、并且计算针对所述音频对象的所述多个帧中的每个帧的所述平移向量，所述平移向量为一组比率，所述比率中的每个比率等于所述多个声道中的一个声道的所述能量值除以所述多个声道的所述能量值的总和；

平移向量保留单元，被配置为保留多个平移向量，所保留的平移向量与所计算的平移向量之间的差异在预定义值以内；以及

组生成单元，被配置为根据所保留的平移向量，利用所述位置对应关系生成针对所述多个帧中的每个帧的所述候选位置组。

16.根据权利要求15所述的系统，其中所述候选位置生成单元进一步包括：

参考位置计算单元，被配置为基于所计算的平移向量和针对所述多个声道中的每个声道的预定义位置，计算针对所述多个帧中的每个帧的所述音频对象的参考位置；以及

位置移除单元，被配置为响应于候选位置与所述参考位置之间的距离大于预定义阈值，从所述候选位置组中移除所述候选位置。

17.根据权利要求16所述的系统，其中所述组生成单元包括：

组测试单元，被配置为检测所述候选位置组是否为空；以及

组补充单元，被配置为将针对所述帧的所述预定义位置补充到所述候选位置组中，或者将位置补充到所述候选位置组中，所补充的位置与所述参考位置之间的距离小于预定义阈值。

18.根据权利要求14至17中任一项所述的系统，其中所述位置选择单元包括：

估计位置选择单元，被配置为基于在针对所述多个帧中每相邻的两个帧的所述候选位置之间的距离的最小总和来选择所述估计位置。

19.根据权利要求14至18中任一项所述的系统，其中所述轨迹元数据生成单元进一步包括：

维度转换单元，被配置为基于所述音频对象的内容类型以及针对所述多个帧中的每个帧的所述估计位置中的至少一个，将针对所述多个帧中的每个帧的所述估计位置从二维(2D)格式转换为三维(3D)格式，或者通过从所述估计位置移除一个维度的信息，将针对所述多个帧中的每个帧的所述估计位置从3D格式转换为2D格式。

20.根据权利要求13所述的系统，其中所述大小元数据生成单元包括：

ICC计算单元，被配置为在时域或频域中计算所述多个声道中的每对声道的声道间相关系数(ICC)；

大小生成单元，被配置为从所述多个声道的多对声道的所述ICC中生成多个估计感知大小；以及

大小聚集单元，被配置为聚集所述多个估计感知大小以便于获得所述音频对象的总体估计感知大小。

21.根据权利要求20所述的系统，其中所述大小生成单元包括：

ICC转换单元，被配置为基于所述ICC与多个感知大小之间预定义的对应关系确定所述多个估计感知大小。

22.根据权利要求20或21所述的系统，其中所述大小聚集单元包括：

总体大小估计单元，被配置为平均化所述多个估计感知大小作为所述总体估计感知大小，或者选择所述多个估计感知大小中最大的一个估计感知大小作为所述总体估计感知大小。

23.根据权利要求20至22中任一项所述的系统，其中所述大小元数据生成单元进一步包括：

大小校准单元，被配置为通过将所述多声道格式的所述音频对象在播放中的感知大小与带有所生成的具有估计感知大小的元数据的所述音频对象在播放中的感知大小相比较而校准所述估计感知大小。

24.根据权利要求23所述的系统，其中所述大小校准单元包括：

空间分割单元，被配置为将由多个换能器构建的空间分割为多个子空间以用于校准。

25.一种用于处理在音频内容中的音频对象的计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令，所述计算机可执行指令在被执行时使得机器执行根据权利要求1至12中任一项所述的方法的步骤。