CN113767649B

CN113767649B - 生成音频输出信号

Info

Publication number: CN113767649B
Application number: CN202080030921.6A
Authority: CN
Inventors: J·A·利帕南; A·J·埃罗南; A·J·勒蒂涅米; M·T·维勒莫
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2019-04-23
Filing date: 2020-04-20
Publication date: 2025-02-11
Anticipated expiration: 2040-04-20
Also published as: EP3731541A1; CN113767649A; US11979732B2; US20220150655A1; EP3731541B1; WO2020216709A1

Abstract

描述了一种装置、方法和计算机程序，包括：在图像捕获过程期间捕获空间音频数据；在所述空间音频数据捕获期间确定图像捕获设备的定向；从所述捕获的空间音频数据生成音频聚焦信号(其中所述音频聚焦信号被聚焦在所述图像捕获设备的图像捕获方向上)；生成经修改的空间音频数据(例如通过修改捕获的空间音频数据以补偿定向空间音频数据捕获期间的变化)；以及从音频聚焦信号和经修改的空间音频数据的组合生成音频输出信号。

Description

生成音频输出信号

技术领域

本说明书涉及与空间音频相关联的音频输出信号。

背景技术

用于捕获空间音频的布置是已知的。然而，该领域仍然需要进一步的发展。

发明内容

在第一方面中，本说明书提供了一种装置(例如成像设备，诸如包括摄像头的手机)，包括：用于在图像捕获过程期间捕获空间音频数据的部件；用于在空间音频数据捕获期间确定装置的定向的部件；用于从所述捕获的空间音频数据生成音频聚焦信号(例如单声道音频信号)的部件，其中所述音频聚焦信号被聚焦在所述装置的图像捕获方向上；用于生成经修改的空间音频数据部件，其中生成经修改的空间音频数据包括：修改捕获的空间音频数据以用于补偿装置的定向在空间音频数据捕获期间的一个或多个改变；以及用于从音频聚焦信号和经修改的空间音频数据的组合生成音频输出信号的部件。一些示例包括：用于捕获对象或者场景的视觉图像(例如静止图像或者移动图像)的部件。

在一些示例中，空间音频数据是从起始时间(例如在照片应用被启动时开始)到结束时间被捕获的，该起始时间在图像捕获过程起始时或者之前，该结束时间在图像捕获过程结束时或者之后。

在一些示例中，用于生成经修改的空间音频数据的部件可以被配置为：通过旋转所述捕获的空间音频数据来补偿装置的定向的所述一个或多个改变，以抵消在装置的定向上的所确定的改变。

在一些示例中，空间音频数据可以是参数化音频数据。用于生成经修改的空间音频数据的部件可以被配置为：通过修改所述参数化音频数据的参数来生成所述经修改的空间音频数据。

在一些示例中，用于生成所述音频聚焦信号的部件可以包括一个或多个波束成形布置。

在一些示例中，用于生成所述音频聚焦信号的部件可以被配置为：在装置的图像捕获方向上强调音频(例如捕获的空间音频数据)。

在一些示例中，用于生成所述音频聚焦信号的部件可以被配置为：在装置的图像捕获方向以外的方向上衰减音频(例如捕获的空间音频数据)。

在一些示例中，用于生成所述音频输出信号的部件可以被配置为：基于音频聚焦信号和经修改的空间音频数据的加权和来生成所述音频输出信号。

在一些示例中，用于确定装置的定向的部件包括一个或多个传感器(例如一个或多个加速度计和/或一个或多个陀螺仪)。

部件可以包括：至少一个处理器；以及至少一个存储器，包括计算机程序代码，该至少一个存储器和计算机程序代码被配置为：与该至少一个处理器一起引起装置的执行。

在第二方面中，本说明书描述了一种方法，包括：在图像捕获过程期间捕获空间音频数据；在空间音频数据捕获期间确定图像捕获设备的定向；从所述捕获的空间音频数据生成音频聚焦信号(例如单声道音频信号)，其中所述音频聚焦信号被聚焦在所述图像捕获设备的图像捕获方向上；生成经修改的空间音频数据，其中生成经修改的空间音频数据包括：修改捕获的空间音频数据以用于补偿图像捕获设备的定向在空间音频数据捕获期间的一个或多个改变；以及从音频聚焦信号和经修改的空间音频数据的组合生成音频输出信号。

在一些示例中，该方法还可以包括：捕获对象或者场景的视觉图像。

在一些示例中，经修改的空间音频数据可以通过补偿在图像捕获设备的定向上的所述一个或多个改变而生成。补偿在图像捕获设备的定向上的所述变化可以包括：旋转所述捕获的空间音频数据以抵消在装置的定向上的所确定的变化。

在一些示例中，空间音频数据可以是参数化音频数据。经修改的空间音频数据可以通过修改所述参数化音频数据的参数而被生成。

在一些示例中，所述音频聚焦信号可以使用一个或多个波束成形布置而被生成。

在一些示例中，生成所述音频聚焦信号可以包括：在图像捕获设备的图像捕获方向上强调音频(例如捕获的空间音频数据)。

在一些示例中，生成所述音频聚焦信号可以包括：在图像捕获设备的图像捕获方向以外的方向上衰减音频(例如捕获的空间音频数据)。

在一些示例中，所述音频输出信号可以基于音频聚焦信号和经修改的空间音频数据的加权和而被生成。

在一些示例中，图像捕获设备的定向使用一个或多个传感器(例如一个或多个加速度计和/或一个或多个陀螺仪)而被确定。

在第三方面中，本说明书描述了一种装置，被配置为：执行如参照第二方面所描述的任何方法。

在第四方面中，本说明书描述了计算机可读指令，这些计算机可读指令在由计算装置执行时所计算装置执行如参照第二方面所描述的任何方法。

在第五方面中，本说明书描述了一种计算机程序，包括用于使装置至少执行以下操作的指令：在图像捕获过程期间捕获空间音频数据；在空间音频数据捕获期间确定图像捕获设备的定向；从所述捕获的空间音频数据生成音频聚焦信号(例如单声道音频信号)，其中所述音频聚焦信号被聚焦在所述图像捕获设备的图像捕获方向上；生成经修改的空间音频数据，其中生成经修改的空间音频数据包括：修改捕获的空间音频数据以用于补偿图像捕获设备的定向在空间音频数据捕获期间的一个或多个改变；以及从音频聚焦信号和经修改的空间音频数据的组合生成音频输出信号。

在第六方面中，本说明书描述了一种计算机可读介质(诸如非暂时性计算机可读介质)，包括被存储在其上的程序指令以便至少执行以下操作：在图像捕获过程期间捕获空间音频数据；在空间音频数据捕获期间确定图像捕获设备的定向；从所述捕获的空间音频数据生成音频聚焦信号(例如单声道音频信号)，其中所述音频聚焦信号被聚焦在所述图像捕获设备的图像捕获方向上；生成经修改的空间音频数据，其中生成经修改的空间音频数据包括：修改捕获的空间音频数据以用于补偿图像捕获设备的定向的在空间音频数据捕获期间一个或多个改变；以及从音频聚焦信号和经修改的空间音频数据的组合生成音频输出信号。

在第七方面中，本说明书描述了一种装置，包括：至少一个处理器；以及至少一个存储器，包括计算机程序代码，该计算机程序代码在由该至少一个处理器执行时使装置：在图像捕获过程期间捕获空间音频数据；在空间音频数据捕获期间确定图像捕获设备的定向；从所述捕获的空间音频数据生成音频聚焦信号(例如单声道音频信号)，其中所述音频聚焦信号被聚焦在所述图像捕获设备的图像捕获方向上；生成经修改的空间音频数据，其中生成经修改的空间音频数据包括：修改捕获的空间音频数据以用于补偿图像捕获设备的定向在空间音频数据捕获期间的一个或多个改变；以及从音频聚焦信号和经修改的空间音频数据的组合生成音频输出信号。

在第八方面中，本说明书描述了一种装置，包括：第一音频模块，被配置为：在图像捕获过程期间捕获空间音频数据；第一控制模块，被配置为：在空间音频数据捕获期间确定图像捕获设备的定向；第二控制模块，被配置为：从所述捕获的空间音频数据生成音频聚焦信号(例如单声道音频信号)，其中所述音频聚焦信号被聚焦在所述图像捕获设备的图像捕获方向上；第二音频模块，被配置为：生成经修改的空间音频数据，其中生成经修改的空间音频数据包括：修改捕获的空间音频数据以用于补偿图像捕获设备的定向在空间音频数据捕获期间的一个或多个改变；以及音频输出模块，被配置为：从音频聚焦信号和经修改的空间音频数据的组合生成音频输出信号。

附图说明

现在将通过非限制性示例的方式参照以下示意图来描述示例实施例，其中：

图1至图4是根据示例实施例的系统的框图；

图5A、图5B和图5C是根据示例实施例的系统的框图；

图6是示出了根据示例实施例的算法的流程图；

图7、图8、图9A、图9B、图9C和图10至图12是根据示例实施例的系统的框图；以及

图13A和图13B示出了存储计算机可读代码的有形介质，分别是可移动存储器单元和光盘(CD)，该计算机可读代码在由计算机运行时执行根据实施例的操作。

具体实施方式

在本说明书和附图中，相同的附图标记在通篇中指代相同的元素。

图1是根据示例实施例的系统的框图，该系统一般地由附图标记10指示。系统10包括聚焦对象12、图像捕获设备14和背景对象16。聚焦对象12可以例如在如由虚线箭头所示出的左方向上移动。聚焦对象12可以是在图像捕获设备14的图像捕获方向上的任何一个或多个对象，使得图像捕获设备14可以被用于捕获聚焦对象12的一个或多个图像和/或视频。背景对象16可以表示可能存在于图像捕获设备14和/或聚焦对象12周围的任何一个或多个背景对象。

要了解：在左方向上移动的聚焦对象12只是在任何时间实例的示例，使得聚焦对象12可以在任何方向上移动，或者也可以是不动的。此外，图像捕获设备14的“图像捕获方向”可以是图像捕获设备14可见的任何方向(而不仅是在该设备的前方，如在图1中所示出的)。

在示例实施例中，当图像捕获设备14正在被用于捕获图像时，图像捕获设备14还捕获空间音频数据。空间音频数据可以包括来自聚焦对象12的聚焦音频以及来自背景对象16的背景音频。如果聚焦对象12正在移动，则可以改变图像捕获设备14的定向(例如图像捕获方向)以将聚焦对象12作为图像捕获的聚焦(例如在图像捕获场景的中心)。随着定向发生改变，捕获的空间音频数据也会根据聚焦对象12和/或背景对象16相对于图像捕获设备14的距离或者方向的变化发生改变。

在示例实施例中，聚焦对象12是移动的汽车，例如在竞赛中的汽车，并且图像捕获设备14是用于捕获汽车的图像和/或视频的摄像头或者移动设备。图像捕获设备14可以例如由观看者握持或者可以被附接到墙壁或者三脚架。背景对象16可以表示观看竞赛的人群。因此，空间音频数据可以包括来自汽车以及人群的声音。然而，在捕获汽车的图像和/或视频时，来自人群的声音会被认为是背景音频，而来自汽车的声音会被认为是聚焦音频。

要了解，聚焦对象12和背景对象16是示例表示，并且不限于单个对象，使得它们可以是任何一个或多个对象或者场景。聚焦对象12可以是在图像捕获方向上的任何对象和/或场景。背景对象16可以是在任何方向上的任何对象和/或场景。

图2至图4是示例系统的框图，分别一般地由附图标记20、30和40指示。系统20、30和40包括上面所描述的聚焦对象12、图像捕获设备14和背景对象16。

系统20(图2)包括在由虚线箭头22所示出的左方向上移动的聚焦对象12、图像捕获设备14和背景对象16。图像捕获设备14在第一时间实例(例如在起始时间)相对于背景对象16的定向可以由角度21示出。图像捕获方向可以由方向26示出，并且不同于图像捕获方向的任何(多个)方向(为了修改空间音频)可以由方向27示出(通过示例的方式)。当聚焦对象12在虚线箭头22的方向上移动时，可以在虚线箭头23的方向上改变图像捕获设备14的定向(例如通过旋转)，使得聚焦对象12保持图像捕获场景的聚焦。

系统30(图3)包括仍然在左方向(如由虚线箭头32所示)上移动的聚焦对象12、图像捕获设备14和背景对象16。图像捕获设备14在第二时间实例相对于背景对象16的定向可以由角度34示出。图像捕获方向可以由方向36示出(通过示例的方式)，并且不同于图像捕获方向的任何(多个)方向可以由方向37示出。当聚焦对象12在虚线箭头32的方向上移动时，可以在虚线箭头33的方向上改变图像捕获设备14的定向(例如通过旋转)，使得聚焦对象12保持是图像捕获场景的聚焦。

系统40(图4)包括聚焦对象12、图像捕获设备14和背景对象16。图像捕获设备14在第三时间实例(例如结束时间)相对于背景对象16的定向可以由角度44示出。图像捕获方向可以由方向46示出，并且不同于图像捕获方向的任何(多个)方向可以由方向47示出(通过示例的方式)。

图5A、图5B和图5C是根据示例实施例的系统的框图，分别总体由附图标记50A、50B和50C指示。系统50A、50B和50C图示了在改变图像捕获设备14的定向以便聚焦在聚焦对象12上时背景音频的表观方向(apparent direction)可以发生改变的方式。背景音频的表观方向发生改变可能给收听者留下背景对象16正在移动的印象，这可能不是所期望的(例如如果背景对象16是不动的，而聚焦对象12正在移动)。

在通过系统50A所示出的第一时间实例(例如在起始时间)，聚焦对象、图像捕获设备和背景对象的位置由聚焦对象12a、图像捕获设备14a和背景对象16a图示。这是上面所描述的系统20(图2)的布置。

当聚焦对象在左方向上移动时，图像捕获设备的定向可以发生改变(例如向左方向旋转)。在通过系统50B所示出的第二时间实例，聚焦对象、图像捕获设备和背景对象的位置由聚焦对象12b、图像捕获设备14b和背景对象16b图示。这是上面所描述的系统30(图3)的布置。可以看出，背景对象16b相对于图像捕获设备14b的方向在第一时间实例和第二时间实例是不同的。

在通过系统50C所示出的第三时间实例(聚焦对象继续在左方向上移动)，聚焦对象、图像捕获设备和背景对象的位置由聚焦对象12c、图像捕获设备14c和背景对象16c图示。这是上面所描述的系统40(图4)的布置。可以看出，背景对象16c相对于图像捕获设备14c的方向在第一时间实例、第二时间实例和第三时间实例是不同的。

图6是根据示例实施例的算法的流程图，总体由附图标记60指示。结合图2至图4以及图5A至图5C来描述图6。

在操作61，在图像捕获过程期间捕获空间音频数据，例如使用图像捕获设备14。可以从聚焦对象12和背景对象16捕获空间音频数据。

在操作62，在空间音频数据捕获期间确定装置(诸如图像捕获设备14)的定向。可以使用一个或多个传感器(诸如(多个)加速度计或者(多个)陀螺仪)来确定定向。例如，在系统20、30和40中，图像捕获设备14的定向被示出为在逆时针方向上发生改变(从方向26(角度21)改变到方向36(角度34)，并且然后改变到方向46(角度44))。

在操作63，生成音频聚焦信号。从捕获的空间音频数据生成音频聚焦信号，并且将其聚焦在图像捕获方向上。例如，在第一时间实例将音频聚焦信号聚焦在方向26上，在第二实例将其聚焦在方向36上，以及在第三实例将其聚焦在方向46上。如下面所进一步描述的，操作63可以使用波束形成布置而被实现。

在操作64，生成经修改的空间音频数据。通过修改空间音频数据来生成经修改的空间音频数据以用于补偿定向在空间音频数据捕获期间的改变。

在操作65，从音频聚焦信号和经修改的空间音频数据的组合生成音频输出信号。

在一个示例实施例中，在图像捕获过程期间，除了捕获空间音频数据之外，还可以捕获对象或者场景的视觉图像。

在示例实施例中，在操作65中，音频输出信号基于音频聚焦信号(在操作63中生成)和经修改的空间音频数据(在操作64中生成)的加权和而被生成。

在示例实施例中，可以通过在聚焦对象的方向上使音频聚焦信号平移来将音频聚焦信号聚焦在图像捕获方向上，聚焦对象的方向与以下方向相同：在空间音频数据中从该方向听到聚焦对象。同样，在音频输出信号中，来自移动聚焦对象的音频被感知为来自移动对象并且基于聚焦对象的实际移动方向而发生改变。在音频输出信号中，来自背景对象的任何音频都被感知为来自不动的对象，并且被配置为：在整个图像捕获过程中被感知为保持不变。

在示例实施例中，在操作61中从起始时间(例如在第一时间实例)到结束时间捕获空间音频数据，该起始时间在图像捕获过程起始时或者之前，该结束时间在图像捕获过程结束时或者之后。例如，在带有摄像头的移动电话中，图像捕获过程和空间音频数据捕获可以在摄像头应用处于活动状态时开始。图像捕获过程可以在用户拍摄照片时结束。可以例如直到在拍摄照片之后的设定时间之后、直到摄像头应用被关闭或者直到手机屏幕被关闭才捕获空间音频数据。在另一示例中，图像捕获过程和空间音频数据捕获可以在摄像头应用上启动视频捕获时开始，并且图像捕获过程和空间音频数据捕获可以在结束视频捕获时结束。

在示例实施例中，在操作64，修改空间音频数据以通过旋转捕获的空间音频数据来补偿在定向上的变化，以抵消在定向上的所确定的改变。例如，在系统20中，与背景对象16对应的空间音频数据(即，不包括音频聚焦信号的任何空间音频数据)的方向(相对于图像捕获设备14)可以由方向27示出。图7至图9更详细地描述了可以旋转捕获的空间音频数据以抵消在定向上的所确定的改变的方式。

图7是根据示例实施例的系统的框图，该系统总体由附图标记70指示。系统70与上面所描述的系统30类似。在系统70中，与背景对象16对应的空间音频数据(即，不包括音频聚焦信号的任何空间音频数据)的方向(相对于图像捕获设备14)可以由方向77示出。然而，与系统20相比的定向的变化通过将方向从方向77旋转到方向78而被补偿(由角度74所示)，以抵消在定向上的所确定的变化。这可以允许收听者感知到经修改的空间音频数据来自方向78，并且感知到背景对象16的位置在背景对象表示75处。可以旋转捕获的空间音频数据，使得图像捕获设备14与背景对象表示75之间的角度71与上面所描述的系统20的角度21基本相同。因此，收听者将感知到背景对象是不动的，因为角度71与角度21相同。

图8是根据示例实施例的系统的框图，该系统总体由附图标记80指示。系统80与上面所描述的系统40类似。在系统80中，与背景对象16对应的空间音频数据(即，不包括音频聚焦信号的任何空间音频数据)的方向(相对于图像捕获设备14)可以由方向87示出。然而，定向改变(由角度84所示)通过将方向从方向87旋转到方向88而被补偿，以抵消在定向上的所确定的变化。这可以允许收听者感知到经修改的空间音频数据来自方向88，并且感知到背景对象的位置在背景对象表示85处。可以旋转捕获的空间音频数据，使得图像捕获设备14与背景对象表示85之间的角度81与上面所描述的角度21基本相同。因此，收听者将感知到背景对象是不动的，因为角度81与角度21相同。

图9A、图9B和图9C是根据示例实施例的系统的框图，总体由附图标记90A、90B和90C指示。系统90A、90B和90C分别从各个视角示出了在第一时间实例、第二时间实例和第三时间实例中的经修改的空间音频数据和音频聚焦信号，使得聚焦对象在图像捕获场景的中心。与系统50A、50B和50C类似，聚焦对象、图像捕获设备和背景图像的位置由在第一时间实例、第二时间实例和第三时间实例中的聚焦对象12a至12c、图像捕获设备14a至14c和背景对象16a至16c图示。在通过系统90A所示出的第一时间实例(例如在起始时间)，聚焦对象、图像捕获设备和背景对象的位置由聚焦对象12a、图像捕获设备14a和背景对象16a图示。这是上面所描述的系统20(图2)和系统50A(图5A)的布置。在通过系统90B所示出的第二时间实例中，旋转空间音频数据的方向，使得背景对象被(收听者)感知为在位置91(与位置16a相同的位置)。在通过系统90C所示出的第三时间实例中，旋转空间音频数据的方向，使得背景对象被(收听者)感知为在位置92(再次，与位置16a相同的位置)。音频聚焦信号被聚焦在由箭头93a、93b和93c所示出的图像捕获方向(例如聚焦对象12与图像捕获设备14的示例方向)上。

图10是根据示例实施例的系统的框图，该系统一般地由附图标记100指示。系统100包括图像捕获模块101、空间音频捕获模块102、控制器103、音频修改模块104和存储器模块105。

图像捕获模块101被用于捕获图像(例如摄影图像和/或视频图像)。在图像捕获过程期间，空间音频捕获模块102捕获空间音频数据。捕获的图像数据和捕获的音频数据被提供给控制器103。

控制器103在空间音频数据捕获期间确定装置的定向，并且使用音频修改模块104来基于定向数据修改捕获的音频(如上面所详细描述的)以通过修改捕获的空间音频来生成经修改的空间音频数据以用于补偿定向在空间音频数据捕获期间的变化。类似地，音频修改模块104在控制器103的控制下从捕获的空间音频数据生成音频聚焦信号，其中所述音频聚焦信号被聚焦在所述图像捕获模块101的图像捕获方向上。

可以使用存储器105来存储捕获的空间音频数据、经修改的空间音频数据和音频聚焦信号中的一个或多个。

最后，控制器103被用于从音频聚焦信号和经修改的空间音频数据的组合生成音频输出信号(例如通过从存储器105检索所述数据)。

在示例实施例中，在算法60的操作61中所捕获的空间音频数据是参数化音频数据。例如，参数化音频数据可以是DirAC或者诺基亚的OZO Audio。当捕获参数化音频数据时，可以针对捕获的多麦克风信号的每个时频块对(表示捕获的音频的多个属性的)多个空间参数进行分析。一个或多个参数可以包括例如到达方向(DOA)参数和/或比率参数(诸如针对每个时频块的扩散)。可以用空间元数据和传输音频信号来表示空间音频数据。传输音频信号和空间元数据可以被用于合成声场。该声场可以产生听觉感知，使得收听者会感知到他的/她的头部/耳朵位于图像捕获设备的某个位置。

在示例实施例中，可以在操作64中通过修改参数化音频数据中的一个或多个参数来生成经修改的空间音频数据以便旋转所述捕获的空间音频数据，以抵消在装置的定向上的所确定的变化。例如，可以通过旋转空间音频数据的声场来修改一个或多个参数。可以通过相应地旋转一个或多个DOA参数来旋转声场。

在示例实施例中，在算法60的操作61中所捕获的空间音频数据是Ambisonics音频，诸如一阶Ambisonics(FOA)或者高阶Ambisonics(HOA)。可以用传输音频信号来表示空间音频数据。传输音频信号可以被用于合成声场。该声场可以产生听觉感知，使得收听者会感知到他的/她的头部/耳朵位于图像捕获设备的某个位置。

在示例实施例中，可以在操作64中通过使用旋转矩阵修改Ambisonics音频数据来生成经修改的空间音频数据。可以使用旋转矩阵来修改Ambisonics音频，使得从经修改的音频数据合成的声场使收听者感知到声源已经围绕收听者在旋转。

在示例实施例中，可以在操作63中使用一个或多个波束成形布置来生成音频聚焦信号。例如，可以针对一个或多个波束成形布置使用波束成形器(诸如延迟和波束成形器)。备选或另外地，可以使用参数化空间音频处理来通过从完整的空间音频数据强调(或者提取)来自聚焦对象的音频来生成音频聚焦信号(经过波束成形的输出)。

在示例实施例中，生成所述音频聚焦信号可以被配置为：在装置的图像捕获方向上强调音频(例如捕获的空间音频数据)。音频聚焦信号还可以被配置为：在图像捕获方向以外的方向上衰减音频(例如捕获的空间音频数据)。例如，在系统90A、90B和90C中，音频聚焦信号可以被配置为：在图像捕获方向(诸如方向93a、93b和/或93c)上强调音频。可以衰减从不同于图像捕获方向的方向(例如从背景对象)接收到的任何音频。

通过示例的方式，图11是根据示例实施例的系统的框图，该系统总体由附图标记110指示。系统110包括上面所描述的聚焦对象12和图像捕获设备14。系统110还示出了波束成形布置112，该波束成形布置112示出了图像捕获设备14的音频聚焦方向。

为了完整起见，图12是先前所描述的示例实施例中的一个或多个示例实施例的组件的示意图，这些组件在下文中被统称为处理系统300。该处理系统300可以是例如在下面的权利要求书中所提到的装置。

处理系统300可以具有处理器302、与处理器紧密耦合并且由RAM 314和ROM 312组成的存储器304，并且可选地具有用户输入310和显示器318。处理系统300可以包括一个或多个网络/装置接口308以便连接到网络/装置，例如调制解调器，该调制解调器可以是有线的或者无线的。接口308还可以操作为与其他装置(诸如不是网络侧装置的设备/装置)的连接。因此，设备/装置之间没有网络参与的直接连接是可能的。

处理器302被连接到其他组件中的每个组件以控制其操作。

存储器304可以包括非易失性存储器，诸如硬盘驱动器(HDD)或者固态驱动器(SSD)。除了别的之外，存储器304的ROM 312还存储操作系统315，并且可以存储软件应用316。存储器304的RAM314由处理器302用于暂时存储数据。操作系统315可以包含代码，该代码在由处理器执行时实施上面所描述的算法60的各个方面。注意，在小型设备/装置的情况下，存储器会最适合小尺寸用法，即，不总是使用硬盘驱动器(HDD)或者固态驱动器(SSD)。

处理器302可以采取任何合适的形式。例如，它可以是微控制器、多个微控制器、处理器或者多个处理器。

处理系统300可以是独立的计算机、服务器、控制台或者其网络。处理系统300和所需的结构零件可以完全在设备/装置内，诸如IoT设备/装置，即，被嵌入到非常小的尺寸。

在一些示例实施例中，处理系统300还可以与外部软件应用相关联。这些外部软件应用可以是被存储在远程服务器设备/装置上的应用，并且可以部分地或者专门地在远程服务器设备/装置上运行。这些应用可以被称为云托管应用。处理系统300可以与远程服务器设备/装置通信以利用被存储在远程服务器设备/装置的软件应用。

图13A和图13B示出了存储计算机可读代码的有形介质，分别是可移动存储器单元365和光盘(CD)368，该计算机可读代码在由计算机运行时可以执行根据上面所描述的示例实施例的方法。可移动存储器单元365可以是具有存储计算机可读代码的内部存储器366的记忆棒，例如USB记忆棒。内部存储器366可以由计算机系统经由连接器367访问。CD 368可以是CD-ROM或者DVD或者类似物。可以使用其他形式的有形存储介质。有形介质可以是能够存储以下数据/信息的任何设备/装置：可以在设备/装置/网络之间交换这些数据/信息。

可以在软件、硬件、应用逻辑或者软件、硬件和应用逻辑的组合中实施本发明的实施例。软件、应用逻辑和/或硬件可以驻留在存储器或者任何计算机介质上。在示例实施例中，在各种常规计算机可读介质中的任何一种介质上维护应用逻辑、软件或者指令。在本文的上下文中，“存储器”或者“计算机可读介质”可以是以下任何非暂时性介质或者部件：这些非暂时性介质或者部件可以包含、存储、传送、传播或者传输指令以供指令执行系统、装置或者设备(诸如计算机)使用或者与指令执行系统、装置或者设备有关。

在相关的情况下，对“计算机可读介质”、“计算机程序产品”、“有形体现的计算机程序”等或者“处理器”或者“处理电路系统”等的引用应该被理解为不仅囊括具有不同架构(诸如单处理器/多处理器架构和定序器/并行架构)的计算机，而且还囊括专门的电路，诸如现场可编程门阵列FPGA、专用电路ASIC、信号处理设备/装置以及其他设备/装置。对计算机程序、指令、代码等的引用应该被理解为表达用于可编程处理器固件的软件，诸如硬件设备/装置的可编程内容，该可编程内容作为用于处理器的指令或者用于固定功能设备/装置、门阵列、可编程逻辑设备/装置等的已配置设定或者配置设定。

若需要，在本文中所讨论的不同功能可以按照不同的顺序和/或彼此同时被执行。此外，若需要，上述功能中的一个或多个功能可以是可选的或者可以被组合。类似地，还要了解：图6的流程图仅是示例，并且其中所描绘的各种操作可以被省略、被重新排序和/或被组合。

要了解：上述示例实施例仅仅是说明性的，并且不限制本发明的范围。在阅读本说明书之后，其他变化和修改对于本领域的技术人员而言将显而易见。

此外，本申请的公开内容应该被理解为包括在本文中所明确地或者隐含地公开的任何新颖特征或者任何新颖的特征组合或者其任何概括，并且在提出本申请或者从本申请衍生的任何申请期间，可以将新的权利要求书阐述为涵盖任何这种特征和/或这种特征的组合。

虽然在独立权利要求中陈述了本发明的各个方面，但是本发明的其他方面包括来自所描述的示例实施例和/或从属权利要求的特征与独立权利要求中的特征的其他组合，而不仅仅是在权利要求中所明确陈述的组合。

在本文中还应该注意：虽然上面描述了各种示例，但是不应该将这些描述视为限制性的。相反，在不脱离本发明的如在所附权利要求书中所定义的范围的情况下，可以进行若干变化和修改。

Claims

1.一种装置，包括：

用于在图像捕获过程期间捕获空间音频数据的部件；

用于在所述空间音频数据捕获期间确定所述装置的定向的部件；

用于从捕获的所述空间音频数据生成音频聚焦信号的部件，其中所述音频聚焦信号被聚焦在所述装置的图像捕获方向上的一个或多个对象上；

用于生成经修改的空间音频数据的部件，其中生成经修改的空间音频数据包括：从捕获的所述空间音频数据中排除所述音频聚焦信号以获得与一个或多个背景对象相对应的空间音频数据，以及修改与所述的一个或多个背景对象相对应的所述空间音频数据来补偿所述装置的定向在所述空间音频数据捕获期间的一个或多个改变，其中用于生成经修改的空间音频数据的所述部件被配置为：通过旋转与所述一个或多个背景对象相对应的捕获的所述空间音频数据来抵消所述装置的定向的确定改变，以补偿所述装置的定向的一个或多个改变；以及

用于从所述音频聚焦信号和所述经修改的空间音频数据的组合生成音频输出信号的部件。

2.根据权利要求1所述的装置，其中所述空间音频数据是从起始时间到结束时间被捕获的，所述起始时间在所述图像捕获过程起始时或之前，所述结束时间在所述图像捕获过程结束时或之后。

3.根据权利要求1至2中任一项所述的装置，其中所述空间音频数据是参数化音频数据。

4.根据权利要求3所述的装置，其中用于生成经修改的空间音频数据的所述部件被配置为：通过修改所述参数化音频数据的参数来生成所述经修改的空间音频数据。

5.根据前述权利要求中任一项所述的装置，其中用于生成所述音频聚焦信号的所述部件包括一个或多个波束成形布置。

6.根据前述权利要求中任一项所述的装置，其中用于生成所述音频聚焦信号的所述部件被配置为：在所述装置的所述图像捕获方向上强调音频。

7.根据前述权利要求中任一项所述的装置，其中用于生成所述音频聚焦信号的所述部件被配置为：在所述装置的所述图像捕获方向以外的方向上衰减捕获的所述空间音频数据。

8.根据前述权利要求中任一项所述的装置，其中用于生成所述音频输出信号的部件被配置为：基于所述音频聚焦信号和所述经修改的空间音频数据的加权和来生成所述音频输出信号。

9.根据前述权利要求中任一项所述的装置，还包括：用于捕获对象或者场景的视觉图像的部件。

10.根据前述权利要求中任一项所述的装置，其中用于确定所述装置的所述定向的所述部件包括一个或多个传感器。

11.根据前述权利要求中任一项所述的装置，其中所述部件包括：

至少一个处理器；以及

至少一个存储器，包括计算机程序代码，所述至少一个存储器和所述计算机程序被配置为与所述至少一个处理器一起引起所述装置的执行。

12.一种方法，包括：

在图像捕获过程期间捕获空间音频数据；

在所述空间音频数据捕获期间确定图像捕获设备的定向；

从捕获的所述空间音频数据生成音频聚焦信号，其中所述音频聚焦信号被聚焦在所述图像捕获设备的图像捕获方向上的一个或多个对象上；

生成经修改的空间音频数据，其中生成经修改的空间音频数据包括：从捕获的所述空间音频数据中排除所述音频聚焦信号以获得与一个或多个背景对象相对应的空间音频数据，以及修改与所述的一个或多个背景对象相对应的所述空间音频数据来补偿所述图像捕获设备的定向在所述空间音频数据捕获期间的一个或多个改变其中生成经修改的空间音频数据包括：通过旋转与所述一个或多个背景对象相对应的捕获的所述空间音频数据来抵消所述图像捕获设备的定向的确定改变，以补偿所述图像捕获设备的定向的所述一个或多个改变；以及

从所述音频聚焦信号和所述经修改的空间音频数据的组合生成音频输出信号。

13.根据权利要求12所述的方法，其中生成所述音频聚焦信号包括：在所述图像捕获设备的所述图像捕获方向上强调音频。