CN102630385B

CN102630385B - 音频场景内的音频缩放处理的方法、装置及系统

Info

Publication number: CN102630385B
Application number: CN200980162656.0A
Authority: CN
Inventors: J·奥扬佩雷
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2009-11-30
Filing date: 2009-11-30
Publication date: 2015-05-27
Anticipated expiration: 2029-11-30
Also published as: CN102630385A; WO2011064438A1; US8989401B2; US20120230512A1; EP2508011A4; EP2508011A1; EP2508011B1

Abstract

一种方法包括：获得源自多个音频源的多个音频信号以创建音频场景；分析所述音频场景以确定所述音频场景内可缩放的音频点；以及将关于所述可缩放的音频点的信息提供给客户端设备以用于选择。

Description

音频场景内的音频缩放处理的方法、装置及系统

技术领域

本发明涉及音频场景，更特别地，涉及音频场景内的音频缩放处理。

背景技术

音频场景包括多维环境，其中在各种不同的时间和位置出现不同的声音。音频场景的示例可以是声音在不同的位置和时间出现的拥挤的房间、餐厅、森林场景、繁华的街道或者任何室内或室外环境。

音频场景可以使用定向的麦克风阵列或者其它类似的装置而被记录为音频数据。图1提供了音频场景的记录布置的示例，其中音频空间由任意地置于该音频空间内以记录音频场景的N个设备组成。接着所捕获的信号被传送（或者可选地被存储以用于稍后使用）到渲染（rendering）侧，在该处终端用户可以基于他/她的偏好从重建的音频空间中选择收听点。接着渲染部分根据与所选的收听点对应的多个记录来提供下混合信号。在图1中，示出了这些设备的麦克风具有定向波束，但是该概念不限制于此，本发明的实施例可以使用具有任何形式的合适波束的麦克风。此外，麦克风不必采用类似的波束，而是可以使用具有不同波束的麦克风。下混合信号可以是单声道、立体声、双声道信号或者其可以由多个信道组成。

音频缩放指代这样一种概念，其中终端用户有可能选择音频场景内的收听位置并且收听与所选位置相关的音频而不是收听整个音频场景。然而，在典型的音频场景中，来自多个音频源的音频信号或多或少彼此混合在一起，可能导致像噪声的音响效果，而另一方面，在音频场景中通常仅有几个收听位置，在其中可以实现具有独特音频源的有意义的收听体验。遗憾的是，迄今为止还没有识别这些收听位置的技术方案，因此终端用户必须在反复试验的基础上找到提供有意义的收听体验的收听位置，从而可能给出折衷的用户体验。

发明内容

现在发明了一种改进的方法以及实施该方法的技术装备，通过该方法可以确定特定的收听位置并为终端用户更精确地表明该特定的收听位置以达到改善的收听体验。本发明的各个方面包括由在独立权利要求中陈述的特征描述的方法、装置和计算机程序。从属权利要求中公开了本发明的各种不同的实施例。

根据第一方面，根据本发明的一种方法是基于以下想法的：获得源自多个音频源的多个音频信号以创建音频场景；分析该音频场景以确定该音频场景内可缩放的音频点；以及将关于可缩放的音频点的信息提供给客户端设备以用作选择。

根据实施例，该方法进一步包括：响应于从客户端设备接收关于所选择的可缩放的音频点的信息，向客户端设备提供与所选择的可缩放的音频点对应的音频信号。

根据实施例，分析音频场景的步骤进一步包括：判定音频场景的大小；将音频场景划分成多个单元；为包括至少一个音频源的单元确定音频源的至少一个方向矢量用于输入帧的频带；在每个单元内将具有小于预定限值的偏移角的多个频带的方向矢量组合成一个或多个组合方向矢量；并且将音频场景的组合方向矢量的交叉点确定为可缩放的音频点。

根据第二方面，提供了一种方法，包括：在客户端设备中从服务器接收关于音频场景内可缩放的音频点的信息；将可缩放的音频点表示在显示器上以使得能够对优选的可缩放的音频点进行选择；以及响应于获得关于所选择的可缩放的音频点的输入，向服务器提供关于所选择的可缩放的音频点的信息。

根据本发明的方案由于交互的音频缩放能力提供了增强的用户体验。换句话说，本发明通过使能针对指定收听位置的音频缩放功能性而为收听体验提供了附加元素。音频缩放使用户能够基于可缩放的音频点而移动收听位置以更注重于音频场景中的相关声源而不是原本音频场景本身。此外，当收听者有机会交互地改变/缩放他/她在音频场景中的收听点时可以产生沉浸感。

本发明的更多方面包括实施上述方法的装置和计算机程序产品。

鉴于下面实施例的详细公开，本发明的这些和其它方面以及与之相关的实施例将变得显而易见。

附图说明

下面，将参考附图对本发明的各种实施例进行更详细的描述，其中：

图1示出了具有N个记录设备的音频场景的示例；

图2示出了端对端系统的框图的示例；

图3示出了在端对端情境中提供用于本发明实施例的架构的系统的高级别（high level）框图的示例；

图4示出了根据本发明的实施例的可缩放的音频分析的框图；

图5a-5c图示了根据本发明的实施例获得可缩放的音频点的处理步骤；

图6图示了记录角的确定的示例；

图7示出了根据本发明的实施例的客户端设备操作的框图；

图8图示了可缩放的音频点的终端用户表示的示例；以及

图9示出了能够在根据本发明的系统中操作为服务器或者客户端设备的装置的简化框图。

具体实施方式

图2图示了在图1中的多麦克风音频场景的基础上实现的端对端系统的示例，其为目前实施例的实施提供了合适的架构。基本架构操作如下。每个记录设备捕获与音频场景关联的音频信号，并且经由传输通路200以实时或者非实时的方式将捕获的（即，记录的）音频内容传输（例如，上传或者上流（upstream））到音频场景服务器202。除了捕获的音频信号，在提供给音频场景服务器202的信息中优选地还包括这样的信息，该信息使得能够确定关于所捕获的音频信号的位置的信息。使得能够确定各个音频信号的位置的信息可以使用任何合适的定位方法（例如，使用卫星导航系统，诸如提供GPS坐标的全球定位系统（GPS））而获得。

优选地，多个记录设备位于不同的位置但是依然彼此靠的很近。音频场景服务器202从记录设备接收音频内容，并且跟踪记录位置。最初，音频场景服务器可以向终端用户提供高级别的坐标，其与音频内容可收听的位置对应。这些高级别的坐标可以作为例如地图提供给终端用户以对收听位置进行选择。终端用户负责确定所需的收听位置并且将该信息提供给音频场景服务器。最后，音频场景服务器202将与指定的位置对应的信号204（例如，确定为多个音频信号的下混合）传送给终端用户。

图3示出了可在其中提供本发明实施例的系统的高级别框图的示例。除其它组件外，音频场景服务器300包括可缩放的事件分析单元302、下混合单元304以及存储器306，其用于提供可由客户端设备经由通信接口访问的关于可缩放的音频点的信息。除其它组件外，客户端设备310包括缩放控制单元312、显示器314和音频再现装置316，诸如扬声器和/或耳机。网络320提供通信接口，即，音频场景服务器与客户端设备之间必需的传输通道。可缩放的事件分析单元302负责确定音频场景中可缩放的音频点并将识别这些点的信息提供给渲染侧。该信息至少临时存储在存储器306中，音频场景服务器可将信息从存储器306传送到客户端设备，或者客户端设备可以从音频场景服务器获取该信息。

接着，客户端设备的缩放控制单元312优选在显示器314上将这些点映射为方便用户的表示。于是客户端设备的用户从所提供的可缩放的音频点中选择收听位置，并且所选择的收听位置的信息被提供（例如，被传送）给音频场景服务器300，从而发起可缩放事件分析。在音频场景服务器300中，所选择的收听位置的信息被提供给下混合单元304（其生成与音频场景中的指定位置对应的下混合信号），还被提供给可缩放的事件分析单元302（其确定音频场景中提供可缩放事件的音频点）。

参考图示了获得可缩放的音频点的处理步骤的图5a-5d，根据实施例的可缩放的事件分析单元302的更详细的操作在图4中示出。首先，确定整个音频场景的大小（402）。对整个音频场景的大小的确定可以包括可缩放的事件分析单元302选择整个音频场景的大小或者可缩放的事件分析单元302可以接收关于整个音频场景的大小的信息。整个音频场景的大小确定了可缩放的音频点相对于收听位置可以距离多远进行设置。通常，取决于以所选择的收听位置为中心的记录的数目，音频场景的大小可以延展至至少几十米。接下来，音频场景被划分成多个单元，例如，划分成如图5a的网格中示出的同样大小的矩形单元。接着根据单元的数目确定合适用于分析的单元（404）。自然，网格可被确定为包括任何形状和大小的单元。换句话说，网格被用作将音频场景划分成多个分区，并且术语单元在此处用于指代音频场景的分区。

根据实施例，确定分析网格及其中的单元，以使音频场景的每个单元包括至少两个声源。这图示在图5a-5d的示例中，其中每个单元保持在不同位置的至少两个记录（在图5a中标记为圆）。根据另一实施例，可以这样的方式确定网格：单元中声源的数目不超过预定限值。根据再一实施例，使用（固定的）预定网格，其中不考虑音频场景内的声源的数目和位置。因此，在这样的实施例中，单元可以包括任何数目的声源，包括没有声源。

接下来，为每个单元计算声源方向，其中为多个单元，例如为网格内的每个单元，重复处理步骤406-410。相对于单元的中心（在图5a中标记为+）计算声源方向。首先，对单元边界内记录的信号应用时间-频率（T/F）转换。可以使用离散傅里叶变换（DFT）、改进的离散余弦/正弦变换（MDCT/MDST）、正交镜像滤波（QMF）、复值QMF或者提供频域输出的任何其它的变换获得频域表示。然后，为每个时间-频率叠块（tile）计算方向矢量（408）。由极坐标描述的方向矢量表明声音事件的径向位置和相对于前向轴线的方向角。

为确保在计算上高效执行，光谱仓（bin）被分成频带。由于人类听觉系统运行在伪对数尺度上，优选地使用这种非均匀的频带以更严密地反映人类听力的听觉灵敏度。根据实施例，非均匀频带遵照等效矩形带宽（ERB）频带的边界。在其它实施例中，可以使用不同的频带结构，例如一个包括具有相同的频率宽度的频带的频带结构。例如，可以通过下列等式计算在频带m处在整个时间窗T上用于记录n的输入信号能量

其中是在瞬时t处n^th记录信号的频域表示。等式（1）在逐帧基础上计算，其中帧表示例如20ms的信号。此外，矢量sbOffset描述频带边界，即，对于每个频带其表明作为各个带的下边界的频率仓。在0≤m<M和0≤n<N时等式（1）重复，其中M是对帧进行限定的频带的数目，N是音频场景的单元中现有的记录的数目。此外，由描述采用的时间窗，即在分组中组合了多少连续输入帧。可以对连续输入帧进行分组以避免方向矢量的过多改变，因为感知到的声音事件在现实生活中通常不会很快改变。例如可以使用100ms的时间窗从而在方向矢量的稳定性和方向模型化的精确性之间引入适当的平衡。在另一方面，在此处的实施例中可以采用认为适合给定的音频场景的任何长度的时间窗。

然后，为每个频带m确定时间窗T内源的感知方向。定位被限定为

alfa_r_{m} = \frac{Σ_{n = 0}^{N - 1} e_{n, m} . \cos (φ_{n})}{Σ_{n = 0}^{N - 1} e_{n, m}},

alfa_i_{m} = \frac{Σ_{n = 0}^{N - 1} e_{n, m} . \sin (φ_{n})}{Σ_{n = 0}^{N - 1} e_{n, m}} - - - (2)

其中φ_n描述了记录n相对于单元内的前向轴线的记录角。

作为示例，图6图示了图5a中底部最右边的单元的记录角，其中该单元的三个声源被分配有它们各自相对于前向轴线的记录角φ₁，φ₂，φ₃。

然后该单元的频带m中声音事件的方向角被确定为

θ_m=∠(alfa_r_m,alfa_i_m) （3）

对于0≤m<M，即对于所有频带，重复等式（2）和（3）。

接下来，在方向分析（410）中，每个单元内与频带交叉的方向矢量被分组以定位出时间窗T内最有希望的声源。分组的目的是将具有近似相同方向的频带分配到同一组。假定具有近似相同方向的频带来自同一个源。分组的目标是仅会聚于将突出音频场景中存有的主要源的少数频带组，如果有的话。

本发明的实施例可以使用合适的标准或过程来识别这样的频带组。在本发明的一个实施例中，可以例如根据下面例示的伪代码来执行分组过程（410）。

在上述描述的分组过程的实施示例中，第0-6行初始化分组。分组以如下设置开始：所有的频带被认为是独立的没有任何合并，即，如变量nDirBands的初始值表明的，最初M频带的每个形成单独的分组，nDirBands表明第1行中设置的频带或者频带组的当前数目。此外，矢量变量nTargetDir_m，和在第2-6行被相应的初始化。注意在第4行中，N_g描述了针对单元g的记录的数目。

实际的分组过程在第7-26行描述。第8行根据跨越频带的当前分组来更新能量等级，第9行根据当前分组通过为频带的每个分组计算平均方向角来更新各个方向角。因此，第8-9行的处理对频带的每个分组重复（伪代码中没有示出重复）。第10行将能量矢量eVec的元素整理成按重要性的降序，在此示例中为能量等级的降序，并对方向矢量dVec中的元素进行相应地整理。

第11-26行描述了在当前迭代循环中频带是如何合并的，以及如何将对频带进行分组的条件应用到另一频带或者（已合并的）频带组的。如果关于当前参考带/组（idx）的平均方向角和将用于合并测试的带（idx2）的平均方向角的条件满足预定标准，例如，如此示例中所使用的，如果各个平均方向角之间的绝对差小于或者等于dirDev值（第16行），则执行合并，其中dirDev值表明用来表示此迭代循环中的同一个声源的方向角之间最大允许的差值。基于频带（组）的能量确定其中频带（或者频带组）被作为参考带的顺序，即，首先处理具有最高能量的频带或者频带组，其次处理具有第二高能量的频带，等等。如果合并被执行，在预定标准的基础上，通过改变矢量变量idxRemoved_idx2的各个元素的值以对此进行指示，在第17行中将有待合并到当前参考带/组中的带排除在进一步处理之外。

在第18-19行中，该合并将频带值添加到参考带/组中，对于0≤t＜nTargetDir_idx2重复第18-19行的处理以将当前与idx2关联的所有频带合并到由idx指示的当前参考带/组中（伪代码中没有示出重复）。在第20行中更新与当前参考带/组关联的频带的数目。在第21行中减少现有带的总数目，以考虑到刚与当前参考带/组合并的带。

重复第5-25行直到剩下的带/组的数目小于nSources并且迭代的数目没有超过上限（maxRounds）。此条件在第33行被证实。在此示例中，迭代循环数目的上限用于限定仍被认为表示同一个声源的频带之间的方向角差值的最大数量（即，仍允许频带被合并到同一频带分组中）。这可以是一个有益的限制，因为假定如果两个频带间的方向角偏移相对很大它们仍将表示同一声源是不合理的。在例示的实现中，可以设置下列值：angInc=2.5°，nSources=5，以及maxRounds=8，但是在各种实施例中可以使用不同的值。根据下列等式最终计算单元的合并的方向矢量：

dVec [m] = \frac{1}{{nT \arg etDir}_{m}} \cdot Σ_{k = 0}^{{nT \arg etDir}_{m} - 1} {t \arg etDirVec}_{k} [m] - - - (4)

对于0≤m<nDirBands，重复等式（4）。图5b图示了网格单元的合并的方向矢量。

下面的示例图示了分组过程。让我们假设起初有方向角值为180°、175°、185°、190°、60°、55°、65°和58°的8个频带。dirDev值，即参考带/组的平均方向角与将被测试以用于合并的带/组之间的绝对差被设置为2.5°。

在第一轮迭代循环中，以重要性的降序整理声源的能量矢量，导致顺序为175°、180°、60°、65°、185°、190°、55°和58°。此外，注意到具有60°的方向角的频带和具有58°的方向角的频带之间的差值保留在dirDev值内。因此，具有58°的方向角的频带与具有60°的方向角的频带合并，并且同时被排除在进一步分组之外，得到具有方向角175°、180°、[60°，58°]、65°、185°、190°和55°的频带，其中括弧用于表明形成频带组的频带。

在第二轮迭代循环中，dirDev值增加2.5°，结果是5.0°。现在，应注意到具有175°的方向角的频带和具有180°的方向角的频带之间、具有60°和58°的方向角的频带组和具有55°的方向角的频带之间、以及具有185°的方向角的频带和具有190°的方向角的频带之间的差值都保留在dirDev值内。因此，具有180°的方向角的频带、具有55°的方向角的频带和具有190°的方向角的频带与它们的对应部分合并并且被排除在进一步分组之外，得到具有方向角为[175°，180°]、[60°，58°，55°]、65°和[185°，190°]的频带。

在第三轮迭代循环中，dirDev值再次增加2.5°，现在值为7.5°。现在应注意的是，具有方向角为60°、58°和55°的频带组和具有方向角为65°的频带之间的差值保留在新dirDev值内。因此，具有65°方向角的频带与具有60°、58°和55°方向角的频带组合并，同时被排除在进一步分组之外，得到具有方向角为[175°，180°]、[60°，58°，55°，65°]和[185°，190°]的频带。

在第四轮迭代循环中，dirDev值再次增加2.5°，现在值为10.0°。此时应注意的是，具有方向角为175°和180°的频带组和具有方向角为185°和190°的频带组之间的差值保留在新dirDev值内。因此，这两个频带组被合并。

因此，在该分组过程中找到了两组四个方向角；第一组：[175°，180°，185°和190°]，第二组：[60°，58°，55°和65°]。可预测的是，每组内具有近似相同方向的方向角源自同一个源。平均值dVec在第一组中为182.5°，在第二组中为59.5°。相应地，在此示例中，通过其中要被合并的带/组之间的最大方向角偏移为10.0°的分组找到了两个主要的声源。

技术人员意识到也可能从音频场景中找不到声源，因为没有声源或者音频场景中的声源非常分散以致不能对声源进行明确的区分。

重新回到图4，对多个单元，例如网格中的所有单元重复同样的处理（412），在处理完所讨论的所有单元后，获得网格中单元的合并的方向矢量，如图5b中所示。然后合并的方向矢量被映射（414）到可缩放的音频点，使得方向矢量的交叉点被界定为可缩放的音频点，如图5c中图示的。图5d将给定方向矢量的可缩放的音频点示为星形图。然后，表明音频场景内可缩放的音频点的位置的信息被提供（416）给重建侧，如结合图3所描述的。

图7中示出了在渲染侧（即，在客户端设备中）处缩放控制过程的更详细的框图。客户端设备获得（700）由服务器或者经由服务器提供的音频场景内可缩放的音频点的位置的信息。接下来，可缩放的音频点被转换（702）成方便用户的表示，随后音频场景内关于收听位置的可能的缩放点的视图被显示给用户。因此可缩放的音频点向用户提供音频场景的概要以及基于音频点切换到另一收听位置的可能性。客户端设备进一步包括：用于给出关于所选择的音频点的输入的装置，例如通过定点设备或者通过菜单命令，和用于向服务器提供关于所选择的音频点的信息的传送装置。通过音频点，用户可以轻松地倾听系统已经识别的最重要的和有特色的声源。

根据实施例，终端用户表示将可缩放的音频点显示为视图，其中音频点以高亮的形式示出，诸如以鲜明的颜色或者以某些其它明显可见的形式。根据另一实施例，音频点被叠加在视频信号中，使得音频点清晰可见但又不妨碍视频的观看。可缩放的音频点还可以基于用户的方位被显示。例如，如果用户朝北，则仅存在于向北方向中的音频点可被显示给用户，等等。在音频点表示的另一变形中，可缩放的音频点可以设置在球面上，其中在任何给定的方向音频点都是对用户可见的。

图8图示了对终端用户的可缩放的音频点表示的示例。图像包含两个按钮形状和三个箭头形状，按钮形状描述了落入图像边界内的可缩放的音频点，箭头形状描述了在当前视图外的可缩放的音频点以及它们的方向。用户可以选择沿着这些点来进一步探究音频场景。

技术人员应意识到上面描述的任一实施例可以实现为一个或者多个其它实施例的结合，除非已明确地或者隐含地声明某些实施例仅彼此替代。

图9图示了能够操作为根据本发明的系统中的服务器或者客户端设备的装置（TE）的简化结构。装置（TE）可以是，例如移动终端、MP3播放器、PDA设备、个人电脑（PC）或者任何其它数据处理设备。装置（TE）包括I/O装置（I/O）、中央处理单元（CPU）和存储器（MEM）。存储器（MEM）包括只读存储器ROM部分和可改写部分，诸如随机存取存储器RAM和FLASH存储器。用于与不同的外部组件（例如，CD-ROM、其它设备和用户）通信的信息通过I/O装置（I/O）向/从中央处理单元（CPU）传送。如果装置实现为移动台，则其通常包括收发机Tx/Rx，收发机Tx/Rx与无线网络通信，通常是通过天线与基站收发台（BTS）通信。用户界面（UI）装备通常包括显示器、键区、麦克风和耳机连接装置。该装置可进一步包括连接装置MMC，诸如用于各种硬件模块或者集成电路IC的标准化插槽，其可以提供在装置中运行的各种应用。

相应地，根据本发明的音频场景分析过程可在装置的中央处理单元CPU或者专用数字信号处理器DSP（参数代码处理器）中执行，其中该装置接收源自多个音频源的多个音频信号。可以经由天线或者收发机Tx/Rx从麦克风或者存储器装置（例如，CD-ROM）或者无线网络直接接收该多个音频信号。然后CPU或者DSP执行分析音频场景的步骤以确定音频场景内可缩放的音频点，并且关于可缩放的音频点的信息经由收发机Tx/Rx和天线被提供给客户端设备。

实施例的功能性可以在装置中实现，诸如移动台以及计算机程序，当在中央处理单元CPU或者专用数字信号处理器DSP中执行时，该计算机程序影响终端设备去实现本发明的程序。计算机程序SW的功能可以分发给彼此通信的几个分离的程序部件。计算机软件可以存储到任何存储器装置中，诸如PC的硬盘或者CD-ROM磁盘，计算机软件可以从该存储器装置加载到移动终端的存储器中。计算机软件也可以通过网络加载，例如使用TCP/IP协议栈。

也可以使用硬件方案或者硬件与软件方案的结合来实现本发明的装置。相应地，上述计算机程序产品可以至少部分地实现为硬件方案，例如包括用于将模块连接到电子设备的连接装置的硬件模块中的ASIC或者FPGA电路，或者一个或多个集成电路IC，硬件模块或者IC进一步包括用于执行所述程序代码任务的各种装置，所述装置被实现为硬件和/或软件。

显而易见的是本发明不唯一地局限于上述介绍的实施例，而是可在所附权利要求书的范围内作出修改。

Claims

1.一种音频处理方法，包括：

获得源自多个音频源的多个音频信号以创建音频场景；

分析所述音频场景以确定所述音频场景内可缩放的音频点；以及将关于所述可缩放的音频点的信息提供给客户端设备以用于选择；其中分析所述音频场景的步骤进一步包括：

确定所述音频场景的大小；

将所述音频场景划分成多个单元；

对于包括至少一个音频源的单元，确定用于输入帧的频带的音频源的至少一个方向矢量；

在每个单元内将具有小于预定限值的偏移角的多个频带的方向矢量组合成一个或者多个组合方向矢量；以及

将所述音频场景的组合方向矢量的交叉点确定为所述可缩放的音频点。

2.根据权利要求1所述的方法，所述方法进一步包括：

响应于从所述客户端设备接收关于所选择的可缩放的音频点的信息，

向所述客户端设备提供与所选择的可缩放的音频点对应的音频信号。

3.根据权利要求1或2所述的方法，其中

所述音频场景被划分成多个单元以使每个单元包括至少两个音频源。

4.根据权利要求1或2所述的方法，其中

所述音频场景被划分成多个单元，以使每个单元中音频源的数目在预定限值内。

5.根据权利要求1或2所述的方法，其中

通过使用预定的网格单元，所述音频场景被划分成多个单元。

6.根据权利要求1或2中任一项所述的方法，其中确定至少一个方向矢量的步骤进一步包括

确定每个音频信号在所述输入帧的频带和所选择的时间窗上的输入能量；以及

基于所述音频信号的输入能量，确定音频源相对于所述音频源所在单元的预定前向轴线的方向角。

7.根据权利要求1或2中任一项所述的方法，其中在确定所述至少一个方向矢量之前所述方法还包括

将所述多个音频信号转换到频域；以及

遵从等效矩形带宽(ERB)比例在频域中将所述多个音频信号划分成频带。

8.根据权利要求1或2所述的方法，所述方法进一步包括：

在创建所述音频场景之前获得所述多个音频源的位置信息。

9.如权利要求1或2所述的音频处理方法，包括：

在所述客户端设备中从服务器获得关于所述音频场景内所述可缩放的音频点的所述信息；

将所述可缩放的音频点表示在显示器上，以使得能够对优选的可缩放的音频点进行选择；以及

响应于获得关于所选择的可缩放的音频点的输入，

向所述服务器提供关于所选择的可缩放的音频点的信息。

10.根据权利要求9所述的方法，所述方法进一步包括：

从所述服务器接收与所选择的可缩放的音频点对应的音频信号。

11.根据权利要求9所述的方法，所述方法进一步包括：

通过将所述可缩放的音频点叠加在图像或者视频信号上来将所述可缩放的音频点表示在所述显示器上。

12.根据权利要求10所述的方法，所述方法进一步包括：

13.根据权利要求9所述的方法，所述方法进一步包括：

基于所述客户端设备的用户的方位将所述可缩放的音频点表示在显示器上，以使所述用户所朝向的方向中的可缩放的音频点被显示。

14.根据权利要求10所述的方法，所述方法进一步包括：

15.一种用于处理音频信号的装置，包括：

音频信号接收单元，用于获得源自多个音频源的多个音频信号以创建音频场景；

处理单元，用于分析所述音频场景以确定所述音频场景内可缩放的音频点；以及

存储器，用于提供可由客户端设备经由通信接口访问的关于所述可缩

放的音频点的信息；其中所述处理单元被配置成：

确定所述音频场景的大小；

将所述音频场景划分成多个单元；

16.根据权利要求15所述的装置，其中

所述装置被配置成向所述客户端设备提供与所选择的可缩放的音频点对应的音频信号。

17.根据权利要求16所述的装置，其进一步包括

下混合单元，用于生成与所选择的可缩放的音频点对应的下混合的音频信号。

18.根据权利要求15所述的装置，其中

所述处理单元被配置成将所述音频场景划分成多个单元，以便每个单元包括至少两个音频源。

19.根据权利要求15或16所述的装置，其中

所述处理单元被配置成将所述音频场景划分成多个单元，以使每个单元中音频源的数目在预定限值内。

20.根据权利要求15或16所述的装置，其中

所述处理单元被配置成使用预定的网格单元将所述音频场景划分成多个单元。

21.根据权利要求15或16中任一项所述的装置，其中在确定至少一个方向矢量时所述处理单元被配置成

22.根据权利要求15或16中任一项所述的装置，其中所述处理单元被配置成，在确定所述至少一个方向矢量之前

将所述多个音频信号转换到频域；以及

23.根据权利要求15或16中任一项所述的装置，所述装置被进一步配置成

在创建所述音频场景之前获得所述多个音频源的位置信息。

24.一种包括权利要求16到21中的任一项装置以及所述客户端设备的系统，所述客户端设备包括：

接收单元，用于获得关于音频场景内可缩放的音频点的信息；

显示器；

控制单元，用于将关于所述可缩放的音频点的信息转换成可表示在所述显示器上的形式，以使得能够对优选的可缩放的音频点进行选择；

输入装置，用于获得关于所选择的可缩放的音频点的输入，以及

存储器，用于提供可由所述装置经由通信接口访问的关于所选择的可缩放的音频点的信息，所述装置为服务器。

25.根据权利要求24所述的系统，其中所述系统被配置成

26.根据权利要求24或25所述的系统，其中

所述控制单元被配置成，通过将所述可缩放的音频点叠加在图像或者视频信号上来转换有待表示在所述显示上的关于所述可缩放的音频点的信息。

27.根据权利要求24或25中任一项所述的系统，其中

所述控制单元被配置成基于客户端设备的用户的方位来转换有待表示在所述显示上的关于所述可缩放的音频点的信息，以使所述用户所朝向的方向中的可缩放的音频点被显示。

28.根据权利要求24或25中任一项所述的系统，其进一步包括：

用于再现所述音频信号的音频再现装置。