CN111937413A

CN111937413A - 信息处理设备、方法和程序

Info

Publication number: CN111937413A
Application number: CN201980023668.9A
Authority: CN
Inventors: 本间弘幸; 知念徹; 及川芳明
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-04-09
Filing date: 2019-03-26
Publication date: 2020-11-13
Anticipated expiration: 2039-03-26
Also published as: US11337022B2; US20210152968A1; CN111937413B; JP7597176B2; WO2019198486A1; EP3780659A4; JPWO2019198486A1; JP7347412B2; EP4258260A2; EP4258260A3; SG11202009081PA; BR112020020279A2; KR102643841B1; KR20200139149A; EP3780659A1; JP2025027069A; KR102643841B9; JP2023164970A; EP3780659B1; RU2020132590A

Abstract

本技术涉及一种信息处理设备、一种方法以及一种程序，其使得能够以小的计算量获得高真实感。该信息处理设备设置有增益确定单元，所述增益确定单元基于预定对象和另一对象之间的位置关系来确定衰减量，并且基于衰减量来确定预定对象的信号增益。本技术适用于一种信号处理设备。

Description

信息处理设备、方法和程序

技术领域

本技术涉及一种信息处理设备、方法和程序，尤其涉及一种能够以少量计算产生强烈真实感的信息处理设备、方法和程序。

背景技术

到目前为止，对象音频技术已经应用于电影、游戏等，并且已经开发了允许处理对象音频的编码方案。具体地，例如，作为国际标准的MPEG(运动图像专家组)-H部分3:3D音频标准是已知的(例如，参考非专利文献1)。

这种编码方案利用传统的双声道立体声方案或多声道立体声方案(例如，5.1声道)将运动声源等视为独立的音频对象，允许将对象位置信息作为元数据与音频对象信号数据一起编码。

这允许在具有不同数量和不同布局的扬声器的各种观看环境中再现。此外，例如，通过调整音量和向特定声源的声音添加效果，容易定制特定声源的声音，而传统的编码方案在再现期间难以定制特定声源的声音。

例如，在非专利文献1中描述的标准将称为三维VBAP(向量基幅度平移)(以下简称为VBAP)的方案用于渲染处理。

这是一种通常称为平移的渲染技术，其通过将存在于以用户位置为原点的球面上的扬声器的增益分配给最接近同样存在于球面上的音频对象的三个扬声器来执行渲染。

例如，除了VBAP之外，还有一种已知的渲染处理，通过称为扬声器锚定坐标平移器的平移技术来执行该处理，该平移技术将增益分别分配给x轴、y轴和z轴(例如，参见非专利文献2)。

[引用列表]

[非专利文献]

[非专利文献1]

INTERNATIONAL STANDARD ISO/IEC 23008-3第一版2015-10-15信息技术—异构环境中的高效编码和媒体传输—部分3：3D音频(High efficiency coding and mediadelivery in heterogeneous environments–Part 3:3D audio)

[非专利文献2]

ETSI TS 103 448 v1.1.1(2016-09)

发明内容

[技术问题]

顺便提及，上述渲染方案为每个音频对象渲染多个音频对象的对象信号，而不考虑可归因于音频对象之间的相对位置关系的声学变化。因此，在声音再现过程中不能获得很强的真实感。

例如，假设从观看者的位置看，声音是从某个第一音频对象后面的第二音频对象产生的。在这种情况下，对于第二音频对象的声音，完全忽略由于第一音频对象产生的声音的反射、衍射和吸收而出现的衰减效果。

应当注意，在上述渲染方案中，用户位置是固定的。因此，例如，基于用户位置和多个音频对象的位置之间的关系，可以预先调整对象信号水平。

这种水平调整允许表示可归因于音频对象之间相对位置关系的声学变化。因此，例如，通过基于物理定律计算声音对象中的声音反射、衍射和吸收所产生的衰减效果，并基于计算结果预先调整声音对象的对象信号的水平，可以产生很强的真实感。

然而，在有许多音频对象的情况下，根据物理定律计算由这种声音反射、衍射和吸收产生的衰减效果涉及大量计算，使得这种选择不现实。

此外，尽管具有固定用户位置的固定视点允许通过预先调整水平来生成考虑了声音反射、衍射和其他因素的对象信号，但是这种先前的水平调整在具有可移动用户位置的自由视点中是完全没有意义的。

根据前述内容而设计本技术，并且本技术的一个目的是用少量的计算来创建很强的真实感。

[问题的解决方案]

本技术的一个方面的信息处理设备包括增益确定部，该增益确定部基于给定对象和另一对象之间的位置关系来确定衰减水平，并且基于衰减水平来确定给定对象的信号的增益。

本技术的一个方面的信息处理方法或程序包括基于给定对象和另一对象之间的位置关系确定衰减水平，并且基于衰减水平确定给定对象的信号增益的步骤。

在本技术的一个方面，基于给定对象和另一对象之间的位置关系来确定衰减水平，并且基于衰减水平来确定给定对象的信号增益。

[发明的有利效果]

根据本技术的方面，可以用少量的计算获得很强的真实感。

应当注意，本文描述的效果不一定是限制性的，并且可以是本公开中描述的任何一种效果。

附图说明

[图1]是描述VBAP的示图；

[图2]是示出信号处理设备的配置示例的示图；

[图3]是描述坐标变换的示图；

[图4]是描述坐标变换的示图；

[图5]是描述坐标系的示图；

[图6]是描述衰减距离和半径比的示图；

[图7]是描述元数据的示图；

[图8]是描述衰减表的示图；

[图9]是描述校正表的示图；

[图10]是描述音频输出处理的流程图；

[图11]是示出计算机的配置示例的示图。

具体实施方式

下面将参考附图对应用本技术的实施方式进行描述。

<第一实施方式>

<本技术>

通过基于空间中多个音频对象之间的位置关系来确定音频对象增益信息，本技术在音频对象渲染的情况下，用少量计算创建了足够大的真实感。

应当注意，本技术不仅适用于音频对象的渲染，还适用于对于空间中存在的多个对象，根据对象之间的位置关系来调整与对象相关的参数的情况。本技术也适用于例如根据对象之间的位置关系来确定与对象图像信号相关的诸如亮度(光量)的参数的调整量的情况。

下面将通过将渲染音频对象的情况作为具体示例来继续描述。顺便说一下，音频对象在下面也将简称为对象。

例如，执行给定类型的渲染处理，例如，上述VBAP。VBAP向最接近同样存在于球面上的音频对象的三个扬声器分布存在于以用户位置作为其在空间中的原点的球面上的扬声器的增益。

例如，作为听众的用户U11存在于三维空间中，并且在用户U11的前面设置三个扬声器SP1至SP3，如图1所示。

此外，假设用户U11的头部位置是原点O，并且扬声器SP1到SP3位于以原点O为中心的球体表面上。

假设在球面上被扬声器SP1至SP3包围的区域TR11内存在对象，并且声像位于对象的位置VSP1。

在这种情况下，VBAP将增益分配给对象的位置VSP1周围的扬声器SP1到SP3。

具体地，假设在以基准(原点)为原点O的三维坐标系中，位置VSP1由三维向量P表示，该向量P的起点在原点O，且终点在位置VSP1。

此外，将以起点为原点O并且终点在扬声器SP1到SP3的相应位置的三维向量表示为向量L₁到L₃，向量P可以由向量L₁到L₃的线性和表示，如下面的公式(1)所示。

[数学公式1]

P＝g₁L₁+g₂L₂+g₃L₃ (1)

在此处，通过计算系数g₁至g₃(在公式(1)中向量L₁至L₃乘以该系数g₁至g₃)并将系数g₁至g₃视为从相应扬声器SP1至SP3输出的声音的增益，可以将声像定位在位置VSP1。

例如，将具有系数g₁至g₃作为其元素的向量表示为g₁₂₃＝[g₁,g₂,g₃]，将具有向量L₁到L₃作为其元素的向量表示为L₁₂₃＝[L₁,L₂,L₃]]，通过修改上述公式(1)，可以获得以下公式(2)。

[数学公式2]

通过使用利用公式(2)计算的系数g₁至g₃作为增益并将对象信号(即，对象的声音的信号)输出到相应扬声器SP1至SP3，可以将声像定位在位置VSP1。

应当注意，在固定位置设置了相应扬声器SP1到SP3，并且表示扬声器位置的信息是已知的。因此，可以预先获得作为逆矩阵的L₁₂₃-¹。由于这样的原因，VBAP可以用相对简单的计算进行渲染，即，用少量的计算。

然而，在如上所述通过VBAP等进行渲染期间在空间中存在多个对象的情况下，完全不考虑归因于对象之间的相对位置关系的声学变化。因此，在声音再现过程中不能获得很强的真实感。

此外，尽管预先调整对象信号水平是一种可能的选择，但是基于物理定律计算这种水平调整的衰减效果需要大量的计算，使得这种选择不现实。此外，用户位置在自由视点中改变。因此，这种预先的水平调整是完全没有意义的。

由于这样的原因，本技术通过使用关于对象衰减的信息来调整声音生成侧的对象信号水平，从而用少量的计算创建了很好的真实感。

具体地，本技术基于音频对象之间的相对位置关系来确定用于调整对象信号水平的增益信息，从而甚至用少量计算来传递由声音的反射、衍射和吸收所产生的衰减效果，即声学上的变化。这使得可以创造一种强烈的真实感。

<信号处理设备的配置示例>

接下来将给出应用本技术的信号处理设备的配置示例的描述。

图2是示出应用了本技术的信号处理设备的实施方式的配置示例的示图。

图2所示的信号处理设备11包括解码处理部21、坐标变换处理部22、对象衰减处理部23和渲染处理部24。

解码处理部21接收发送的输入比特流，解码该流，并输出作为解码结果获得的关于对象和对象信号的元数据。

在此处，对象信号是用于再现对象声音的音频信号。此外，对于每个对象，元数据包括对象位置信息、对象外径信息、对象衰减信息、对象衰减禁止信息和对象增益信息。

对象位置信息是指示在对象存在的空间(以下也称为收听空间)中对象的绝对位置的信息。

例如，对象位置信息是指示对象位置的坐标信息，该对象位置由以给定位置作为其原点的三维笛卡尔坐标系的坐标表示，即，xyz坐标系的x、y和z坐标。

对象外径信息是指示对象外径的信息。例如，此处假设对象是球形的，并且球体的半径是表示对象外径的对象外径信息。

应当注意，尽管下面的描述将假设对象是球形的，但是对象可以具有任何形状。例如，对象可以是在沿着x、y和z轴的每个方向上具有直径的形状，并且指示对象在沿着相应轴的每个方向上的半径的信息可以用作对象外径信息。

此外，用于扩散的外径信息可以用作对象外径信息。例如，在MPEG-H部分3：3D音频标准中，采用称为扩展的技术，作为扩展声源尺寸的技术，提供允许记录每个对象的外径信息的格式，以便扩展声源尺寸。由于这样的原因，这种用于扩散的外径信息可以用作对象外径信息。

当由于一个对象，来自另一对象的声音衰减时，对象衰减信息是关于声音衰减水平的信息。对象衰减信息的使用根据对象之间的位置关系提供了给定对象处另一对象的对象信号的衰减水平。

对象衰减禁止信息是指示是否对对象的声音(即，对象信号)执行衰减处理的信息，即，是否衰减对象信号。

例如，在对象衰减禁止信息的值为1的情况下，禁止对对象信号的衰减处理。即，在对象衰减禁止信息的值为1的情况下，对象信号不受衰减处理的影响。

在声源创建器的意图是例如某个对象是必要的并且由于与另一对象的位置关系而不希望对该对象的声音产生任何衰减效果的情况下，对象衰减禁止信息的值被设置为1。应当注意，对象衰减禁止信息的值为1的对象在下文中也将称为衰减禁止对象。

相反，在对象衰减禁止信息的值为0的情况下，根据对象和另一对象之间的位置关系，对对象信号进行衰减处理。对象衰减禁止信息的值为0并且因此可能经历衰减处理的对象在下文中也将称为衰减处理对象。

对象增益信息是指示在声源创建器侧预先确定的增益的信息，用于调整对象信号水平。表示增益的分贝值是对象增益信息的一个示例。

当通过解码处理部21执行的解码而获取对象信号和每个对象的元数据时，解码处理部21将获取的对象信号提供给渲染处理部24。

此外，解码处理部21将包括在通过解码而获得的元数据中的对象位置信息提供给坐标变换处理部22。此外，解码处理部21将包括在通过解码而获取的元数据中的对象外径信息、对象衰减信息、对象衰减禁止信息和对象增益信息提供给对象衰减处理部23。

坐标变换处理部22基于从解码处理部21提供的对象位置信息和从外部设备提供的用户位置信息生成对象球面坐标位置信息，将对象球面坐标位置信息提供给对象衰减处理部23。换言之，坐标变换处理部22将对象位置信息变换成对象球面坐标位置信息。

在此处，用户位置信息是指示作为收听者的用户在对象存在的收听空间中的绝对位置的信息，即，用户期望的收听点的绝对位置，并且用作由xyz坐标系的x、y和z坐标表示的坐标信息。

用户位置信息不是包括在输入比特流中的信息，而是从例如连接到信号处理设备11的外部用户接口或从其他来源提供的信息。

此外，对象球面坐标位置信息是指示从用户在收听空间中看到的对象的相对位置的信息，并且由球面坐标系的坐标(即球面坐标)来表示。

对象衰减处理部23基于从坐标变换处理部22提供的对象球面坐标位置信息和从解码处理部21提供的对象外径信息、对象衰减信息、对象衰减禁止信息和对象增益信息，通过适当地校正对象增益信息来获得校正的对象增益信息。

换言之，对象衰减处理部23用作增益确定部，其基于对象球面坐标位置信息、对象外径信息、对象衰减信息、对象衰减禁止信息和对象增益信息来确定校正的对象增益信息。

在此处，考虑到对象之间的位置关系，通过适当地校正由对象增益信息指示的增益值，来获取由校正的对象增益信息指示的增益值。

这种校正的对象增益信息用于实现对象信号水平的调整，这些对象信号水平考虑了由于对象之间的位置关系(即声学变化)而在对象中发生的声音反射、衍射和吸收所引起的衰减。

渲染处理部24在渲染期间基于校正的对象增益信息来调整对象信号水平，作为衰减处理。这种衰减处理可以说是根据声音反射、衍射和吸收来衰减对象信号水平的处理。

对象衰减处理部23将对象球面坐标位置信息和校正的对象增益信息提供给渲染处理部24。

在信号处理设备11中，坐标变换处理部22和对象衰减处理部23用作信息处理设备，其为每个对象确定用于根据与另一对象的位置关系来调整对象信号水平的校正对象增益信息。

再现处理部24基于从解码处理部21提供的对象信号和从对象衰减处理部23提供的对象球面坐标位置信息和校正的对象增益信息，生成输出音频信号，在后续阶段将输出音频信号提供给扬声器、耳机、记录部等。

具体地，渲染处理部24执行诸如VBAP的平移处理，作为渲染处理，从而生成输出音频信号。

例如，在执行VBAP作为平移处理的情况下，基于每个扬声器的对象球面坐标位置信息和布局信息，进行类似于上述公式(2)的计算，从而允许获得每个扬声器的增益信息。然后，再现处理部24基于获得的增益信息和校正的对象增益信息来调整对应于每个扬声器的声道的对象信号的水平，从而生成包括多个声道的信号的输出音频信号。在存在多个对象的情况下，通过为每个对象添加相同声道的信号来生成最终输出音频信号。

应当注意，由渲染处理部24执行的渲染处理可以是任何种类的处理(例如，在MPEG-H部分3：3D音频标准中采用的VBAP)以及基于称为扬声器锚定坐标平移器的平移技术的处理。

此外，虽然基于VBAP的渲染处理使用对象球面坐标位置信息，即球面坐标系的位置信息，但是通过使用笛卡尔坐标系的位置信息，在基于扬声器锚定的坐标平移器的渲染处理中直接执行渲染。因此，在使用笛卡尔坐标系进行渲染的情况下，坐标变换处理部22仅需要通过坐标变换获得笛卡尔坐标系的位置信息，该位置信息指示从用户位置看到的每个对象的位置。

<坐标转换和校正的对象增益信息的确定>

接下来，将给出由坐标变换处理部22执行的坐标变换和由对象衰减处理部23执行的处理的更详细描述。

坐标变换处理部22接收对象位置信息和用户位置信息作为输入，执行坐标变换并输出对象球面坐标位置信息。

在此处，用作坐标变换的输入的对象位置信息和用户位置信息例如表示为使用x、y和z轴的三维笛卡尔坐标系的坐标，即xyz坐标系的坐标，如图3所示。

在图3中，表示从xyz坐标系的原点O看到的用户LP11的位置的坐标用作用户位置信息。此外，表示从xyz坐标系的原点O看到的对象OBJ1的位置的坐标用作对象OBJ1的对象位置信息，并且表示从xyz坐标系的原点O看到的对象OBJ2的位置的坐标用作对象OBJ2的对象位置信息。

在坐标变换期间，坐标变换处理部22在收听空间中并行移动所有对象，使得用户LP11的位置位于原点O，例如，如图4所示，并且然后将xyz坐标系中所有对象的坐标变换成球面坐标系中的坐标。应当注意，在图4中，与图3中的部件对应的部件由相同的附图标记表示，并且将适当省略其描述。

具体地，坐标变换处理部22基于用户位置信息获得使用户LP11的位置移动到xyz坐标系的原点O的运动向量MV11。运动向量MV11的起点在由用户位置信息指示的用户LP11的位置，其终点在原点O的位置。

此外，坐标变换处理部22表示作为运动向量MV12的向量，该向量与运动向量MV11具有相同幅度(长度)并且在相同方向上传播，并且该向量的起点位于对象OBJ1的位置。然后，坐标变换处理部22基于对象OBJ1的对象位置信息，将对象OBJ1的位置移动由运动向量MV12指示的距离。

类似地，坐标变换处理部22表示作为运动向量MV13的向量，该向量与运动向量MV11具有相同的幅度并且在相同的方向上传播，并且该向量的起点在对象OBJ2的位置处，基于对象OBJ2的对象位置信息将对象OBJ2的位置移动由运动向量MV13指示的距离。

此外，坐标变换处理部22获得表示从原点O看到的对象OBJ1的运动后位置的球面坐标系中的坐标，将获得的坐标视为对象OBJ1的对象球面坐标位置信息。类似地，坐标变换处理部22获得球面坐标系中的坐标，该坐标表示从原点O看到的对象OBJ2的运动后位置，将获得的坐标视为对象OBJ2的对象球面坐标位置信息。

在此处，球面坐标系和xyz坐标系之间的关系如图5所示。应当注意，在图5中，与图4中的部件对应的部件由相同的附图标记表示，并且将适当省略其描述。

在图5中，xyz坐标系具有穿过原点O并且彼此垂直的x、y和z轴。例如，在xyz坐标系中，通过使用X1作为x坐标，Y1作为y坐标，Z1作为z坐标，运动向量MV12移动之后的对象OBJ1的位置表示为(X1，Y1，Z1)。

相反，在球面坐标系中，通过使用方位角position_azimuth、仰角position_elevation和半径position_radius来表示对象OBJ1的位置。

现在假设将连接原点O和对象OBJ1的位置的直线表示为直线r，并且将通过将直线r投影到xy平面上而获得的直线表示为直线L。

此时，在x轴和直线L之间形成的角度θ是指示对象OBJ1的位置的方位角position_azimuth。此外，在直线r和xy平面之间形成的角度φ是指示对象OBJ1的位置的仰角position_elevation，并且直线r的长度是指示对象OBJ1的位置的半径position_radius。

因此，用户位置(即包括对象相对于原点O的方位角、仰角和半径的球面坐标信息)是对象的对象球面坐标位置信息。应当注意，更详细地，通过假设例如x轴的正方向是用户的前进方向来获得对象球面坐标位置信息。

接下来将给出由对象衰减处理部23执行的处理的描述。

应当注意，为了更简单的描述，此处假设只有对象OBJ1和OBJ2存在于收听空间中的情况下给出描述。

具体地，例如，假设例如对象OBJ1和OBJ2存在于如图6所示的收听空间中，确定对象OBJ1的校正的对象增益信息。应当注意，在图6中，与图4中的部件对应的部件由相同的附图标记表示，并且将适当省略其描述。

在图6所示的示例中，假设对象OBJ1不是衰减禁止对象，而是对象衰减禁止信息的值为0的衰减处理对象。

为了确定对象OBJ1的校正对象增益信息，首先获得指示对象OBJ1的位置的向量OP1。

向量OP1是由对象OBJ1的对象球面坐标位置信息指示的其起点在原点O并且其终点在位置O11的向量。原点O处的用户收听从位置O11处的对象OBJ1朝向原点O发出的声音。应当注意，更详细地，位置O11指示对象OBJ1的中心。

接下来，选择距离原点O的距离比对象OBJ1短的对象(即，比对象OBJ1更靠近作为用户位置的原点O的一侧的对象)，作为经受衰减的对象。经受衰减的对象是由于其位于衰减处理对象和原点O之间而导致衰减处理对象产生的声音衰减的对象。

在图6所示的示例中，对象OBJ2位于由对象球面坐标位置信息指示的位置O12，并且位置O12比对象OBJ1的位置O11更靠近原点O的一侧。即，其起点在原点O并且其终点在位置O12的向量OP2在幅度上小于向量OP1。

在图6所示的示例中，由于这样的原因，选择比对象OBJ1更靠近原点O侧的对象OBJ2，作为经受衰减的对象。应当注意，更详细地，位置O12指示对象OBJ2的中心。

对象OBJ2呈球形，其中心在位置O12，半径OR2由对象外径信息指示，并且对象OBJ2不是点声源，并且具有给定的尺寸。

接下来，对于作为经受衰减的对象的对象OBJ2，可以获得从对象OBJ2(即，位置O12)到向量OP1的法向量N2_1。

将穿过位置O12并且与向量OP1正交的直线和向量OP1之间的交点的位置表示为位置P2_1，其起点在位置O12并且其终点在位置P2_1的向量是法向量N2_1。换言之，向量OP1和法向量N2_1之间的交点是位置P2_1。

此外，法向量N2_1与由对象OBJ2的对象外径信息指示的半径OR2进行比较，从而确定法向量N2_1的大小是否等于或小于半径OR2，该半径OR2是对象OBJ2的外径的一半，该对象OBJ2是经受衰减的对象。

确定处理是确定作为衰减对象的对象OBJ2是否存在于从对象OBJ1发出并向原点O传播的声音的路径中的处理。

换言之，确定处理可以说是确定作为对象OBJ2的中心的位置O12是否位于从连接作为用户位置的原点O和作为对象OBJ1的中心的位置O11的直线的给定距离的范围内的处理。

应当注意，术语“在给定距离的范围内”在此处是指由对象OBJ2的尺寸确定的范围，并且具体地，术语“给定距离”是指在连接原点O和位置O11的直线侧上从对象OBJ2的位置O12到结束位置的距离，即半径OR2。

在图6所示的示例中，例如，法向量N2_1的大小等于或小于半径OR2。即，向量OP1与对象OBJ2相交。因此，从对象OBJ1向原点O发射的声音由于对象OBJ2的反射、衍射或吸收而衰减，向原点O传播。

为此，对象衰减处理部23根据对象OBJ1和对象OBJ2之间的相对位置关系，确定用于衰减对象OBJ1的对象信号水平的校正的对象增益信息。换言之，校正对象增益信息，以用作校正的对象增益信息。

具体地，基于衰减距离和半径比来确定校正的对象增益信息，衰减距离和半径比是指示对象OBJ1和对象OBJ2之间的相对位置关系的多条信息。

应当注意，衰减距离是指对象OBJ1和对象OBJ2之间的距离。

在这种情况下，使其起点在原点O并且其终点在位置P2_1的向量被表示为向量OP2_1，向量OP1和向量OP2_1之间的幅度差(即从位置P2_1到位置O11的距离)是对象OBJ1相对于对象OBJ2的衰减距离。换言之，|OP1|-|OP2_1|是衰减距离。

此外，这种情况下的半径比是从作为对象OBJ2的中心的位置O12到连接原点O和位置O11的直线的距离与直线侧的从位置O12到对象OBJ2的末端的距离的比率。

在此处，对象OBJ2是球形的。因此，对象OBJ2的半径比是法向量N2_1的大小与半径OR2的比率，即，|N2_1|/OR2。

半径比是指示作为对象OBJ2的中心的位置O12相对于向量OP1的偏离量的信息，即，位置O12相对于连接原点O和位置O11的直线的偏离量。这种半径比可以说是根据对象OBJ2的尺寸指示与对象OBJ1的位置关系的信息。

应当注意，尽管此处将给出半径比用作指示根据对象尺寸的位置关系的信息的示例的描述，但是可以使用指示从连接原点O和位置O11的直线到直线侧的对象OBJ2的结束位置的距离的信息或其他信息。

对象衰减处理部23例如基于作为包括在元数据中的对象衰减信息的衰减表索引和校正表索引以及衰减距离和半径比，获得对象OBJ1的对象增益信息的校正值。然后，对象衰减处理部23用校正值校正对象OBJ1的对象增益信息，从而获得校正的对象增益信息。

在此处将给出由衰减表索引指示的衰减表和由校正表索引指示的校正表的描述。

例如，在图7中示出包括在输入比特流中的给定时间帧的元数据。

在图7所示的示例中，字符“对象1位置信息”表示对象OBJ1的对象位置信息，字符“对象1增益信息”表示对象OBJ1的对象增益信息，并且字符“对象1衰减禁止信息”表示对象对象OBJ1的对象衰减禁止信息。

此外，字符“对象2位置信息”表示对象OBJ2的对象位置信息，“对象2增益信息”表示对象OBJ2的对象增益信息，并且字符“对象2衰减禁止信息”表示对象对象OBJ2的对象衰减禁止信息。

此外，字符“对象2外径信息”表示对象OBJ2的对象外径信息，字符“对象2衰减表索引”表示对象OBJ2的衰减表索引，并且字符“对象2校正表索引”表示对象OBJ2的校正表索引。

在此处，衰减表索引和校正表索引是几条对象衰减信息。

衰减表索引是用于识别衰减表的指数，该衰减表指示适合于上述衰减距离的对象信号的衰减水平。

由受到衰减的对象引起的声音衰减水平根据衰减处理对象和受到衰减的对象之间的距离而变化。为了通过少量计算容易地获得适合于衰减距离的合适的衰减水平，使用将衰减距离与衰减水平相关联的衰减表。

例如，声音吸收率以及衍射和反射效果例如根据对象材料而变化。因此，根据对象材料和形状、对象信号的频带等，预先可以获得多个衰减表。衰减表索引是指示多个衰减表中的任何一个的索引，并且声源创建器侧根据对象材料等为每个对象指定合适的衰减表索引。

此外，校正表索引是用于识别校正表的索引，该校正表指示适合于上述半径比的对象信号的衰减水平的校正率。

半径比表示代表从衰减处理对象发出的声音的路径的直线偏离经受衰减的对象的中心的程度。

即使衰减距离相同，实际的衰减水平也根据受到衰减的对象相对于从衰减处理对象发出的声音的路径的偏离量(即半径比)而变化。

例如，通常，在连接原点O和衰减处理对象的直线穿过远离其中心的衰减对象的外部的情况下，由于衍射效应，衰减水平小于直线穿过衰减对象的中心的情况。为此，使用将半径比与校正率相关联的校正表来根据半径比校正对象信号的衰减水平。

在衰减表的情况下，适合于半径比的合适校正率根据对象材料等而变化。因此，根据对象材料和形状、对象信号的频带等，预先获得多个校正表。校正表索引是指示多个校正表中的任何一个的索引，并且声源创建器侧根据对象材料等为每个对象指定合适的校正表索引。

在图7所示的示例中，对象OBJ1是作为没有对象外径信息来处理的点声源的对象。因此，只给出对象位置信息、对象增益信息和对象衰减禁止信息，作为对象OBJ1的元数据。

相反，对象OBJ2是具有对象外径信息并衰减从另一对象发出的声音的对象。为此，除了对象位置信息、对象增益信息和对象衰减禁止信息之外，给出对象外径信息和对象衰减信息，作为对象OBJ2的元数据。

特别地，在此处给出衰减表索引和校正表索引，作为对象衰减信息，并且衰减表索引和校正表索引用于计算对象增益信息的校正值。

例如，由特定衰减表索引指示的衰减表是指示图8所示的衰减距离和衰减水平之间的关系的信息。

在图8中，纵轴表示以分贝值表示的衰减水平，且横轴表示对象之间的距离，即衰减距离。在图6所示的示例中，例如，从位置P2_1到位置O11的距离是衰减距离。

在图8所示的示例中，衰减距离越小，衰减水平越大，并且衰减距离越小，衰减水平的变化相对于衰减距离的变化越大。由此，很明显，经受衰减的对象离衰减处理对象越近，衰减处理对象的声音衰减的程度就越大。

此外，例如，由某个校正表索引指示的校正表是指示图9所示的半径比和校正率之间的关系的信息。

在图9中，纵轴表示衰减水平的校正率，且横轴表示半径比。在图6所示的示例中，例如，法向量N2_1的大小与半径OR2的比率是半径比。

例如，在半径比是0的情况下，从衰减处理对象向原点O(即，向用户)传播的声音穿过衰减对象的中心，而在半径比是1的情况下，从衰减处理对象向原点O传播的声音穿过衰减对象的边界部分。

在这样的示例中，半径比越大，校正率越小，并且半径比越大，校正率的变化相对于半径比的变化越大。例如，在校正率为1.0的情况下，原样使用从衰减表获得的衰减水平，而在校正率为0的情况下，从衰减表获得的衰减水平被设置为0。因此，衰减效果为0。应当注意，在半径比大于1的情况下，从衰减处理对象向原点O传播的声音不会穿过对象的任何经受衰减的区域。因此，不执行衰减处理。

当基于衰减距离和半径比获得适合于衰减距离和半径比的衰减水平和校正率时，基于衰减距离和半径比获得校正值，从而校正对象增益信息。

具体地，通过将衰减水平乘以校正率而获得的值(即校正率和衰减水平的乘积)用作校正值。校正值是通过用校正率校正衰减水平而获得的最终衰减水平。当获得校正值时，校正值添加到对象增益信息，从而校正对象增益信息。然后，以这种方式获得的校正对象增益信息(即校正值和对象增益信息之和)用作校正对象增益信息。

校正值是校正率和衰减水平的乘积，可以说表示对象信号的衰减水平，该对象信号用于实现与另一对象中某个对象的声音经历的衰减相对应的水平调整，并且基于对象之间的位置关系确定该对象信号。

应当注意，此处已经描述了一个示例，其中，预先可用的衰减表索引和校正表索引包括在元数据中，作为对象衰减信息。然而，只要能够获得衰减水平和校正率，例如，通过使用对应于图8和图9中所示的衰减表和校正表的线中的变化点作为对象衰减信息，可以使用任何种类的对象衰减信息。

除了上述之外，例如，多个衰减函数(即，具有衰减距离作为输入并且给出衰减水平作为输出的连续函数)以及多个校正率函数(即，具有半径比作为输入并且给出校正率作为输出的连续函数)可以变得可用，使得指示多个衰减函数中的任何一个的索引和指示多个校正率函数中的任何一个的索引用作对象衰减信息。此外，具有衰减水平和半径比作为输入并且给出校正值作为输出的多个连续函数可以预先可用，使得指示任何函数的索引用作对象衰减信息。

<音频输出处理的描述>

接下来将给出信号处理设备11的具体操作的描述。即，下面将参考图10所示的流程图描述信号处理设备11执行的音频输出处理。

在步骤S11中，解码处理部21解码接收的输入比特流，从而获取元数据和对象信号。

解码处理部21将获取的元数据的对象位置信息提供给坐标变换处理部22，并将获取的元数据的对象外径信息、对象衰减信息、对象衰减禁止信息和对象增益信息提供给对象衰减处理部23。此外，解码处理部21将获取的对象信号提供给渲染处理部24。

在步骤S12中，坐标变换处理部22基于从解码处理部21提供的对象位置信息和从外部设备提供的用户位置信息来变换每个对象的坐标，从而生成对象球面坐标位置信息并将生成的信息提供给对象衰减处理部23。

在步骤S13中，对象衰减处理部23不仅基于从解码处理部21提供的对象衰减禁止信息和从坐标变换处理部22提供的对象球面坐标位置信息来选择目标衰减处理对象，而且获得衰减处理对象的位置向量。

例如，对象衰减处理部23选择对象衰减禁止信息的值为0的对象用作衰减处理对象。然后，对象衰减处理部23基于衰减处理对象的对象球面坐标位置信息，计算具有原点O(即，用户位置)作为其起点并且衰减处理对象的位置作为其终点的向量，作为位置向量。

例如，因此，在图6所示的示例中选择对象OBJ1作为衰减处理对象的情况下，获得向量OP1作为位置向量。

在步骤S14中，对象衰减处理部23基于目标衰减处理对象的对象球面坐标位置信息和其他对象的对象球面坐标位置信息，选择距原点O的距离小于(短于)目标衰减处理对象的对象，作为相对于目标衰减处理对象受到衰减的对象。

例如，在图6所示的示例中，在选择对象OBJ1作为衰减处理对象的情况下，选择比对象OBJ1更靠近原点O的对象OBJ2，作为经受衰减的对象。

在步骤S15中，对象衰减处理部23基于在步骤S13中获取的衰减处理对象的位置向量和衰减处理对象的对象球面坐标位置信息，获得从衰减处理对象的中心相对于衰减处理对象的位置向量的法向量。

例如，在图6所示的示例中，在选择对象OBJ1作为衰减处理对象并且选择对象OBJ2作为经受衰减的对象的情况下，获得法向量N2_1。

在步骤S16中，对象衰减处理部23基于在步骤S15中获得的法向量和衰减对象的对象外径信息，确定法向量的大小是否等于或小于受到衰减的对象的半径。

例如，在图6所示的示例中，在选择对象OBJ1作为衰减处理对象并且选择对象OBJ2作为受到衰减的对象的情况下，确定法向量N2_1的大小是否等于或小于半径OR2，该半径OR2是对象OBJ2的外径的一半。

在步骤S16中确定法向量的大小不等于或小于经受衰减的对象的半径的情况下，经受衰减的对象不在从衰减处理对象发出并向原点O(用户)传播的声音的路径中。因此，不执行步骤S17和S18中的处理，并且处理进行到步骤S19。

相反，在步骤S16中确定法向量的大小等于或小于经受衰减的对象的半径的情况下，经受衰减的对象处于从衰减处理对象发出并向原点O(用户)传播的声音的路径中。因此，处理进行到步骤S17。在这种情况下，从用户的角度看，衰减处理对象和经受衰减的对象大致位于相同的方向。

在步骤S17中，对象衰减处理部23基于在步骤S13中获取的衰减处理对象的位置向量和在步骤S15中获取的经受衰减的对象的法线向量来获得衰减距离。此外，对象衰减处理部23基于对象外径信息和经受衰减的对象的法向量获得半径比。

例如，在图6所示的示例中，在选择对象OBJ1作为衰减处理对象并且选择对象OBJ2作为经受衰减的对象的情况下，获得从位置P2_1到位置O11的距离，即|OP1|-|OP2_1|，作为衰减距离。此外，在这种情况下，获得法向量N2_1的大小与半径OR2的比率，即|N2_1|/OR2，作为半径比。

在步骤S18中，对象衰减处理部23基于衰减处理对象的对象增益信息、衰减对象的对象衰减信息以及在步骤S17中获取的衰减距离和半径比，获得衰减处理对象的校正的对象增益信息。

例如，在上述衰减表索引和校正表索引包括在元数据中，作为对象衰减信息的情况下，对象衰减处理部23预先保存多个衰减表和多个校正表。

在这种情况下，对象衰减处理部23从衰减表中读出相对于衰减距离确定的衰减水平，该衰减表由衰减表索引指示，作为衰减对象的对象衰减信息。

此外，对象衰减处理部23从由校正表索引指示的校正表中读出相对于半径比确定的校正率，作为衰减对象的对象衰减信息。

然后，对象衰减处理部23通过将已经读出的衰减水平乘以校正率来获得校正值，然后通过将校正值加到衰减处理对象的对象增益信息来获得校正的对象增益信息。

以这种方式获得校正的对象增益信息的处理可以说是基于衰减距离和半径比(即对象之间的位置关系)确定指示对象信号衰减水平的校正值并且进一步确定校正的对象增益信息(即基于校正值调整对象信号水平的增益)的处理。

当获得校正的对象增益信息时，处理此后进行到步骤S19。

当执行步骤S18中的处理时，或者当在步骤S16中确定法向量的大小不等于或小于半径时，对象衰减处理部23在步骤S19中针对目标衰减处理对象确定是否存在有待处理的任何经受衰减的对象。

在步骤S19中确定仍然存在有待处理的衰减对象的情况下，处理返回到步骤S14，并且重复上述处理。

在这种情况下，在步骤S18的处理中，为经受衰减的新对象获得的校正值添加到已经获得的校正的对象增益信息，从而更新校正的对象增益信息。因此，在存在多个经受衰减的对象的情况下，这些对象的法向量的大小等于或小于相对于衰减处理对象的半径，获取分别为多个经受衰减的对象获得的对象增益信息和校正值的总和，作为最终校正的对象增益信息。

此外，在步骤S19中确定不再存在有待处理的衰减对象的情况下，即，确定已经被处理所有衰减对象，处理进行到步骤S20。

在步骤S20中，对象衰减处理部23确定是否已经处理了所有的衰减处理对象。

在步骤S20中确定所有衰减处理对象有待处理的情况下，处理返回到步骤S13，并且重复上述处理。

相反，在步骤S20中确定已经处理了所有衰减处理对象的情况下，处理进行到步骤S21。

在这种情况下，对象衰减处理部23使用没有经历步骤S17或S18中的处理(即，衰减处理)的那些对象的对象增益信息，作为校正的对象增益信息。

此外，对象衰减处理部23将从坐标变换处理部22提供的所有对象的对象球面坐标位置信息和校正对象增益信息提供给渲染处理部24。

在步骤S21中，渲染处理部24基于从解码处理部21提供的对象信号和从对象衰减处理部23提供的对象球面坐标位置信息和校正对象增益信息来执行渲染处理，从而生成输出音频信号。

当以这种方式获取输出音频信号时，渲染处理部24将获取的输出音频信号输出到后续阶段，从而终止音频输出处理。

信号处理设备11根据对象之间的位置关系如上所述校正对象增益信息，从而获得校正的对象增益信息。这使得用少量的计算就能创造出很强的真实感。

即，在收听空间中存在从用户看大致在相同方向上的多个对象的情况下，由于对象的声音的吸收、衍射、反射等而出现的衰减效果不是基于物理定律来计算的。相反，通过使用表格获得适合于衰减距离和半径比的校正值。这种简单的计算提供了与基于物理定律的计算基本相同的效果。因此，即使在用户在收听空间中自由移动的情况下，也可以用少量的计算向用户传递具有很强的真实感的三维声学效果。

应当注意，尽管此处已经描述了用户可以移动到收听空间中的任何位置的自由视点的情况，但是在用户位置固定在收听空间中的固定视点的情况下，如在自由视点的情况下一样，也可以用少量的计算来创建很强的真实感。

在这种情况下，由用户位置信息指示的用户位置总是原点O的位置。这消除了对坐标变换处理部22的坐标变换处理的需要，并且对象位置信息是由球面坐标表示的位置信息。特别地，在这种情况下，对象位置信息是表示从原点O看到的对象位置的信息。此外，由对象衰减处理部23执行的处理可以在接收内容递送的客户端侧或者在递送内容的服务器侧执行。

<修改示例>

另外，尽管上面已经描述了对象衰减禁止信息是0或1的情况，但是对象衰减禁止信息可以被设置为多个三个或更多个值中的任何一个。在这种情况下，例如，对象衰减禁止信息的值不仅指示对象是否是衰减禁止对象，还指示衰减水平的校正水平。因此，例如，根据用作最终校正值的对象衰减禁止信息的值，进一步校正从校正率和衰减水平获得的校正值。

此外，尽管上面已经描述了针对每个对象确定指示是否禁止衰减处理的对象衰减禁止信息的情况，但是可以针对收听空间内的区域确定是否禁止衰减处理。

例如，如果声源创建器的意图是不期望由收听空间内的特定空间区域中的对象引起的衰减效果，则例如仅需要在输入比特流中存储对象衰减禁止区域信息，该信息指示没有衰减效果的空间区域，来代替对象衰减禁止信息。

在这种情况下，如果由对象位置信息指示的位置落在由对象衰减禁止区域信息指示的空间区域内，则对象衰减处理部23将对象视为衰减禁止对象。这使得能够实现反映声源创建器意图的音频再现。

此外，还可以考虑用户和对象之间的位置关系，例如，通过将从用户看大致位于前方的对象视为衰减禁止对象，而将用户后面的对象视为衰减处理对象。即，可以基于用户和对象之间的位置关系来确定是否将对象视为禁止衰减的对象。

除了上述之外，尽管上面已经描述了根据对象之间的相对位置关系衰减对象信号的示例，但是例如可以根据对象之间的相对位置关系将混响效果应用于对象信号。

众所周知，混响效果是由树林中的树木产生的，而Kuttruff通过将树木视为球体并求解扩散方程来模拟树林的混响。

为此，例如，在包括用户位置和产生声音的对象的位置的给定空间中存在与预定数量一样多或多于预定数量的对象的情况下，一种可能的选择是对空间中每个对象的对象信号应用特定的混响效果。

在这种情况下，可以通过包括参数混响系数来应用混响效果，该参数混响系数用于在输入比特流中应用混响效果，并且根据用户位置和产生声音的对象的位置之间的相对位置关系，来改变直接声音和混响声音之间的混合比。

<计算机的配置示例>

顺便说一下，上述一系列处理可以通过硬件或软件来执行。在由软件执行一系列处理的情况下，包括在软件中的程序安装到计算机。在此处，计算机包括包含在专用硬件中的计算机、能够在安装各种程序时执行各种功能的通用个人计算机等。

图11是示出通过执行程序来执行上述一系列处理的计算机的硬件配置示例的框图。

在计算机中，CPU(中央处理器)501、ROM(只读存储器)502和RAM(随机存取存储器)503通过总线504相互连接。

输入/输出接口505进一步连接到总线504。输入部506、输出部507、记录部508、通信部509和驱动器510连接到输入/输出接口505。

输入部506包括键盘、鼠标、麦克风、成像元件等。输出部507包括显示器、扬声器等。记录部508包括硬盘、非易失性存储器等。通信部509包括网络接口等。驱动器510驱动可移动记录介质511，例如，磁盘、光盘、磁光盘或半导体存储器。

在如上所述配置的计算机中，例如，CPU 501经由输入/输出接口505和总线504将记录在记录部508中的程序加载到RAM 503中，以供执行，从而允许执行上述一系列处理。

可以以记录在作为封装介质的可移动记录介质511中的方式，提供由计算机(CPU501)执行的程序。此外，可以经由有线或无线传输介质，例如，局域网、互联网和数字卫星广播，来提供程序。

在计算机中，通过将可移动记录介质511插入驱动器510，程序可以经由输入/输出接口505安装到记录部508。此外，程序可以由通信部509经由有线或无线传输介质接收，并安装到记录部508。除上述之外，程序可以预先安装到ROM 502或记录部508。

应当注意，由计算机执行的程序不仅可以根据本说明书中描述的顺序按时间顺序执行这些处理，还可以并行地或在调用时的必要时刻执行这些处理。

此外，本技术的实施方式不限于上述实施方式，并且可以在不脱离本技术的主旨的情况下，以各种方式进行修改。

例如，本技术可以具有云计算配置，其中，通过网络以共享和协作的方式在多个设备之间处理单个功能。

此外，在上述流程图中描述的每个步骤不仅可以由单个设备执行，还可以由多个设备以共享方式执行。

此外，在一个步骤包括多个处理的情况下，该步骤中包括的多个处理不仅由单个设备执行，而且由多个设备以共享方式执行。

此外，本技术可以具有以下配置。

(1)一种信息处理设备，包括：

增益确定部，适于基于给定对象和另一对象之间的位置关系来确定衰减水平，并且基于衰减水平来确定给定对象的信号的增益。

(2)根据特征(1)所述的信息处理设备，其中，

另一对象比给定对象更靠近用户位置的一侧。

(3)根据特征(1)或(2)所述的信息处理设备，其中，

另一对象位于距离连接用户位置和给定对象的直线一给定距离的范围内。

(4)根据特征(3)所述的信息处理设备，其中，

范围由另一对象的大小确定。

(5)根据特征(3)或(4)所述的信息处理设备，其中，

给定距离包括在直线的一侧上从另一对象的中心到另一对象的末端的距离。

(6)根据特征(3)至(5)中任一项所述的信息处理设备，其中，

位置关系取决于另一对象的大小。

(7)根据特征(6)所述的信息处理设备，其中，

位置关系包括另一对象的中心偏离直线的量。

(8)根据特征(6)所述的信息处理设备，其中，

位置关系包括在直线的一侧上从另一对象的中心到直线的距离与从另一对象的中心到另一对象的末端的距离的比率。

(9)根据特征(1)至(8)中任一项所述的信息处理设备，其中，

增益确定部基于位置关系和另一对象的衰减信息来确定衰减水平。

(10)根据特征(9)所述的信息处理设备，其中，

衰减信息包括用于获取另一对象中的适合于位置关系的信号的衰减水平的信息。

(11)根据特征(1)至(10)中任一项所述的信息处理设备，其中，

位置关系包括另一对象和给定对象之间的距离。

(12)根据特征(1)至(11)中任一项所述的信息处理设备，其中，

增益确定部基于指示是否衰减给定对象的信号的衰减禁止信息和位置关系来确定衰减水平。

(13)根据特征(1)至(11)中任一项所述的信息处理设备，其中，

给定对象的信号包括音频信号。

(14)一种由信息处理设备执行的信息处理方法，包括：

基于给定对象和另一对象之间的位置关系确定衰减水平，并且基于衰减水平确定给定对象的信号的增益。

(15)一种程序，使计算机执行包括以下步骤的过程：

[附图标记列表]

11信号处理设备，21解码处理部，22坐标变换处理部，23对象衰减处理部，24渲染处理部。

Claims

1.一种信息处理设备，包括：

增益确定部，适于基于给定对象和另一对象之间的位置关系来确定衰减水平，并且基于所述衰减水平来确定所述给定对象的信号的增益。

2.根据权利要求1所述的信息处理设备，其中，

所述另一对象比所述给定对象更靠近用户位置的一侧。

3.根据权利要求1所述的信息处理设备，其中，

所述另一对象位于距离连接所述用户位置和所述给定对象的直线一给定距离的范围内。

4.根据权利要求3所述的信息处理设备，其中，

所述范围由所述另一对象的大小确定。

5.根据权利要求3所述的信息处理设备，其中，

所述给定距离包括在所述直线的一侧上从所述另一对象的中心到所述另一对象的末端的距离。

6.根据权利要求3所述的信息处理设备，其中，

所述位置关系取决于所述另一对象的大小。

7.根据权利要求6所述的信息处理设备，其中，

所述位置关系包括所述另一对象的中心偏离所述直线的量。

8.根据权利要求6所述的信息处理设备，其中，

所述位置关系包括在所述直线的一侧上从所述另一对象的中心到直线的距离与从所述另一对象的中心到所述另一对象的末端的距离的比率。

9.根据权利要求1所述的信息处理设备，其中，

所述增益确定部基于位置关系和所述另一对象的衰减信息来确定所述衰减水平。

10.根据权利要求9所述的信息处理设备，其中，

所述衰减信息包括用于获取所述另一对象中的适合于所述位置关系的信号的衰减水平的信息。

11.根据权利要求1所述的信息处理设备，其中，

所述位置关系包括所述另一对象和所述给定对象之间的距离。

12.根据权利要求1所述的信息处理设备，其中，

所述增益确定部基于指示是否衰减所述给定对象的信号的衰减禁止信息和所述位置关系来确定所述衰减水平。

13.根据权利要求1所述的信息处理设备，其中，

所述给定对象的信号包括音频信号。

14.一种由信息处理设备执行的信息处理方法，包括：

基于给定对象和另一对象之间的位置关系确定衰减水平，并且基于所述衰减水平确定所述给定对象的信号的增益。

15.一种程序，使计算机执行包括以下步骤的过程：