CN113014797B

CN113014797B - 用于空间音频信号捕获和处理的装置和方法

Info

Publication number: CN113014797B
Application number: CN202011516372.1A
Authority: CN
Inventors: M·T·维勒尔莫; A·托萨瓦伊宁; A·J·科斯基; M·S·哈玛莱南
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2019-12-20
Filing date: 2020-12-21
Publication date: 2023-01-24
Anticipated expiration: 2040-12-21
Also published as: US20230007147A1; US20210195068A1; EP3840403A1; CN113014797A; GB201919060D0; US11483454B2; GB2590504A

Abstract

本发明涉及用于旋转照相机和麦克风配置的装置和方法。一种装置，包括：第一部分，该第一部分具有被配置为捕获图像的至少一个照相机；第二部分，该第二部分具有被配置为捕获至少一个音频信号的至少一个麦克风，其中，第一部分或第二部分中的一个部分能够相对于另一个部分移动；该装置包括被配置为执行以下操作的部件：确定与移动相关联的参数；以及基于与移动相关联的参数和至少一个音频信号来生成至少一个输出音频信号。

Description

用于空间音频信号捕获和处理的装置和方法

技术领域

本申请涉及用于在空间音频捕获装置内旋转照相机和麦克风配置但不专用于旋转照相机和麦克风配置的装置和方法。

背景技术

空间音频捕获是一个快速发展的研究领域。常规地，捕获设备具有相对于照相机固定的麦克风配置。在这样的配置中，一个或多个照相机与麦克风之间的空间关系是固定的，并且对齐空间音频信号和视频图像是简单的操作。

例如，可以使用包括3个麦克风的设备来捕获具有确定平面中的音频方向的能力的空间音频，以及可以使用包括4个麦克风的设备来捕获具有在所有方向上确定音频方向的能力的空间音频。

通常可以基于麦克风信号的水平和相位/时间差来分析音频方向。物理配置对来自不同方向的音频信号的影响不同，并且不同的麦克风位置导致来自不同方向的声音在不同的时间到达麦克风。不同的到达时间TDOA(到达时间差)可以被用于使用已知方法来确定方向。借助麦克风相对于照相机的固定距离和位置，这些方向可以以简单的方式与照相机方向对齐。

在某些情况下，可以存在捕获设备，该捕获设备具有相对于麦克风移动或旋转照相机的能力。在这样的捕获设备中，需要能够更有效地处理所生成的音频信号以例如保持“正确的”对齐，否则，视频图像中的对象与音频方向之间的差异可能分散重放装置的用户的注意力。

发明内容

根据第一方面，提供了一种装置，包括：第一部分，所述第一部分具有被配置为捕获图像的至少一个照相机；以及第二部分，所述第二部分具有被配置为捕获至少一个音频信号的至少一个麦克风，其中，所述第一部分或所述第二部分中的一个部分能够相对于另一个部分移动，并且所述装置包括被配置为执行以下操作的部件：确定与所述移动相关联的参数；以及基于与所述移动相关联的所述参数和所述至少一个音频信号来生成至少一个输出音频信号。

所述第一部分或所述第二部分能够相对于公共参考点移动。

所述移动可以是以下中的至少一个：围绕所述第一部分与所述第二部分之间共同的轴的旋转；所述第一部分与所述第二部分之间的俯仰和/或偏航和/或翻滚；所述第一部分相对于所述第二部分的移动；以及所述第二部分相对于所述第一部分的移动。

所述部件可以还被配置为：复用所述至少一个输出音频信号和由所述照相机捕获的所述图像；以及输出复用后的至少一个输出音频信号和由所述照相机捕获的所述图像。

所述第一部分还可以具有被配置为捕获至少一个其他音频信号的至少一个其他麦克风，其中，被配置为基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号的所述部件可以被配置为：还基于所述至少一个其他音频信号来生成所述至少一个输出音频信号。

被配置为还基于所述至少一个其他音频信号来生成所述至少一个输出音频信号的所述部件可以被配置为：基于与所述移动相关联的所述参数来对齐所述至少一个输出音频信号和所述至少一个其他音频信号。

所述至少一个麦克风可以包括相对于所述第二部分布置的至少三个麦克风，并且被配置为基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号的所述部件可以被配置为：获得限定所述至少三个麦克风的所述布置的参数；获得限定所述装置的取向的参数；以及还基于限定所述至少三个麦克风的所述布置的所述参数和限定所述装置的取向的所述参数来生成所述至少一个输出音频信号。

被配置为还基于限定所述至少三个麦克风的所述布置的所述参数和限定所述装置的取向的所述参数来生成所述至少一个输出音频信号的所述部件可以被配置为：基于限定所述至少三个麦克风的所述布置的所述参数和限定所述装置的所述取向的所述参数来针对至少一个频带生成所述至少一个输出音频信号。

被配置为基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号的所述部件可以被配置为：基于与所述移动相关联的所述参数来对齐所述至少一个输出音频信号，以使得所述至少一个输出音频信号与所述照相机对齐。

所述至少一个麦克风可以被配置为经由至少一个声音端口接收在所述装置外部的声波，其中，所述至少一个声音端口包括至少一个尺寸，所述至少一个尺寸可以至少基于相对于所述第二部分的所述第一部分而被修改。

所述第一部分相对于所述第二部分可以是所述第一部分相对于所述第二部分的角度。

所述至少一个麦克风的有效位置可以由所述至少一个尺寸来限定，所述至少一个尺寸可以至少基于所述第一部分相对于所述第二部分的角度而被修改。

所述至少一个输出音频信号可以包括以下中的至少一个：至少一个空间音频信号；至少一个非空间音频信号；单声道(mono)音频信号；波束成形的音频信号；以及弹枪(shotgun)音频信号。

被配置为基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号的所述部件可以还被配置为：基于所述参数和与所述至少一个音频信号相关联的频带来分析所述至少一个音频信号。

被配置为基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号的所述部件可以还被配置为：基于所述参数和与所述至少一个音频信号相关联的频带来分析所述至少一个其他音频信号。

所述参数可以包括所述第一部分相对于所述第二部分的旋转。

被配置为基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号的所述部件可以还被配置为：基于所述第一部分相对于所述第二部分的旋转和/或是第一配置的所述装置的取向来生成单声道音频信号；以及基于所述第一部分相对于所述第二部分的旋转和/或是第二配置的所述装置的取向来生成空间音频信号。

被配置为基于与所述移动相关联的所述参数、所述至少一个音频信号、以及所述至少一个其他音频信号来生成所述至少一个输出音频信号的所述部件可以被还配置为：基于所述至少一个其他音频信号来生成单声道音频信号；基于所述至少一个音频信号来生成空间音频信号；以及基于所述参数，将基于所述至少一个其他音频信号的所述单声道音频信号与基于所述至少一个音频信号的所述空间音频信号相合并。

能够相对于所述另一个部分移动的所述第一部分或所述第二部分中的所述一个部分被配置为露出所述至少一个麦克风，以使得由所述至少一个麦克风捕获的所述至少一个音频信号是空间音频信号。

根据第二方面，提供了一种方法，包括：提供一种装置，所述装置包括：第一部分，所述第一部分具有被配置为捕获图像的至少一个照相机；第二部分，所述第二部分具有被配置为捕获至少一个音频信号的至少一个麦克风，其中，所述第一部分或所述第二部分中的一个部分能够相对于另一个部分移动；

确定与所述移动相关联的参数；以及

基于与所述移动相关联的所述参数和所述至少一个音频信号来生成至少一个输出音频信号。

所述第一部分或所述第二部分能够相对于公共参考点移动。

所述第一部分还可以具有被配置为捕获至少一个其他音频信号的至少一个其他麦克风，其中，基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号可以包括：还基于所述至少一个其他音频信号来生成所述至少一个输出音频信号。

还基于所述至少一个其他音频信号来生成所述至少一个输出音频信号可以包括：基于与所述移动相关联的所述参数来对齐所述至少一个输出音频信号和所述至少一个其他音频信号。

所述至少一个麦克风包括相对于所述第二部分布置的至少三个麦克风，并且基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号可以包括：获得限定所述至少三个麦克风的所述布置的参数；获得限定所述装置的取向的参数；以及还基于限定所述至少三个麦克风的所述布置的所述参数和限定所述装置的取向的所述参数来生成所述至少一个输出音频信号。

还基于限定所述至少三个麦克风的所述布置的所述参数和限定所述装置的取向的所述参数来生成所述至少一个输出音频信号可以包括：基于限定所述至少三个麦克风的所述布置的所述参数和限定所述装置的所述取向的所述参数来针对至少一个频带生成所述至少一个输出音频信号。

基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号可以包括：基于与所述移动相关联的所述参数来对齐所述至少一个输出音频信号，以使得所述至少一个输出音频信号与所述照相机对齐。

所述方法可以包括：通过所述至少一个麦克风经由至少一个声音端口接收在所述装置外部的声波。

所述方法可以包括：至少基于相对于所述第二部分的所述第一部分，修改所述至少一个声音端口的至少一个尺寸。

相对于所述第二部分的所述第一部分可以是所述第一部分相对于所述第二部分的角度。

至少基于相对于所述第二部分的所述第一部分来修改所述至少一个声音端口的至少一个尺寸可以修改所述至少一个麦克风的有效位置。

所述至少一个输出音频信号可以包括以下中的至少一个：至少一个空间音频信号；至少一个非空间音频信号；单声道音频信号；波束成形的音频信号；以及弹枪音频信号。

基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号可以还包括：基于所述参数和与所述至少一个音频信号相关联的频带来分析所述至少一个音频信号。

基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号可以还包括：基于所述参数和与所述至少一个音频信号相关联的频带来分析所述至少一个其他音频信号。

基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号可以还包括：基于所述第一部分相对于所述第二部分的旋转和/或是第一配置的所述装置的取向来生成单声道音频信号；以及基于所述第一部分相对于所述第二部分的旋转和/或是第二配置的所述装置的取向来生成空间音频信号。

基于与所述移动相关联的所述参数、所述至少一个音频信号、以及所述至少一个其他音频信号来生成所述至少一个输出音频信号可以还包括：基于所述至少一个其他音频信号来生成单声道音频信号；基于所述至少一个音频信号来生成空间音频信号；以及基于所述参数，将基于所述至少一个其他音频信号的所述单声道音频信号与基于所述至少一个音频信号的所述空间音频信号相合并。

根据第三方面，提供了一种装置，包括：第一部分，所述第一部分具有被配置为捕获图像的至少一个照相机；第二部分，所述第二部分具有被配置为捕获至少一个音频信号的至少一个麦克风，其中，所述第一部分或所述第二部分中的一个部分能够相对于另一个部分移动；至少一个处理器和包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使得所述装置至少：确定与所述移动相关联的参数；以及基于与所述移动相关联的所述参数和所述至少一个音频信号来生成至少一个输出音频信号。

所述第一部分或所述第二部分能够相对于公共参考点移动。

还可以使得所述装置：复用所述至少一个输出音频信号和由所述照相机捕获的所述图像；以及输出复用后的至少一个输出音频信号和由所述照相机捕获的所述图像。

所述第一部分还可以具有被配置为捕获至少一个其他音频信号的至少一个其他麦克风，其中，被配置为基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号的所述装置还可以被配置为：还基于所述至少一个其他音频信号来生成所述至少一个输出音频信号。

被使得基于所述至少一个其他音频信号来生成所述至少一个输出音频信号的所述装置可被使得：基于与所述移动相关联的所述参数来对齐所述至少一个输出音频信号和所述至少一个其他音频信号。

所述至少一个麦克风可以包括相对于所述第二部分布置的至少三个麦克风，并且被使得基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号的所述装置可被使得：获得限定所述至少三个麦克风的所述布置的参数；获得限定所述装置的取向的参数；以及还基于限定所述至少三个麦克风的所述布置的所述参数和限定所述装置的取向的所述参数来生成所述至少一个输出音频信号。

被使得还基于限定所述至少三个麦克风的所述布置的所述参数和限定所述装置的取向的所述参数来生成所述至少一个输出音频信号的所述装置可被使得：基于限定所述至少三个麦克风的所述布置的所述参数和限定所述装置的所述取向的所述参数来针对至少一个频带生成所述至少一个输出音频信号。

被使得基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号的所述装置可被使得：基于与所述移动相关联的所述参数来对齐所述至少一个输出音频信号，以使得所述至少一个输出音频信号与所述照相机对齐。

可以使得所述装置：通过所述至少一个麦克风经由至少一个声音端口接收在所述装置外部的声波。

可以使得所述装置：至少基于相对于所述第二部分的所述第一部分来修改所述至少一个声音端口的至少一个尺寸。

被使得至少基于相对于所述第二部分的所述第一部分来修改所述至少一个声音端口的至少一个尺寸的所述装置可被使得：修改所述至少一个麦克风的有效位置。

被使得基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号的所述装置还可以被使得：基于所述参数和与所述至少一个音频信号相关联的频带来分析所述至少一个音频信号。

被使得基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号的所述装置还可以被使得：基于所述参数和与所述至少一个音频信号相关联的频带来分析所述至少一个其他音频信号。

被使得基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号的所述装置还可以被使得：基于所述第一部分相对于所述第二部分的旋转和/或是第一配置的所述装置的取向来生成单声道音频信号；以及基于所述第一部分相对于所述第二部分的旋转和/或是第二配置的所述装置的取向来生成空间音频信号。

被使得基于与所述移动相关联的所述参数、所述至少一个音频信号、以及所述至少一个其他音频信号来生成所述至少一个输出音频信号的所述装置还可以被使得：基于所述至少一个其他音频信号来生成单声道音频信号；基于所述至少一个音频信号来生成空间音频信号；以及基于所述参数，将基于所述至少一个其他音频信号的所述单声道音频信号与基于所述至少一个音频信号的所述空间音频信号相合并。

根据第四方面，提供了一种装置，包括：第一部分，所述第一部分具有被配置为捕获图像的至少一个照相机；第二部分，所述第二部分具有被配置为捕获至少一个音频信号的至少一个麦克风，其中，所述第一部分或所述第二部分中的一个部分能够相对于另一个部分移动；用于确定与所述移动相关联的参数的部件；以及用于基于与所述移动相关联的所述参数和所述至少一个音频信号来生成至少一个输出音频信号的部件。

根据第五方面，提供了一种包括指令的计算机程序或包括程序指令的计算机可读介质，所述指令用于使装置至少执行以下操作，所述装置包括：第一部分，所述第一部分具有被配置为捕获图像的至少一个照相机；第二部分，所述第二部分具有被配置为捕获至少一个音频信号的至少一个麦克风，其中，所述第一部分或所述第二部分中的一个部分能够相对于另一个部分移动，所述操作包括：确定与所述移动相关联的参数；以及基于与所述移动相关联的所述参数和所述至少一个音频信号来生成至少一个输出音频信号。

根据第六方面，提供了一种包括程序指令的非暂时性计算机可读介质，所述程序指令用于使装置至少执行以下操作，所述装置包括：第一部分，所述第一部分具有被配置为捕获图像的至少一个照相机；第二部分，所述第二部分具有被配置为捕获至少一个音频信号的至少一个麦克风，其中，所述第一部分或所述第二部分中的一个部分能够相对于另一个部分移动，所述操作包括：确定与所述移动相关联的参数；以及基于与所述移动相关联的所述参数和所述至少一个音频信号来生成至少一个输出音频信号。

根据第七方面，提供了一种装置，包括：第一部分，所述第一部分具有被配置为捕获图像的至少一个照相机；第二部分，所述第二部分具有被配置为捕获至少一个音频信号的至少一个麦克风，其中，所述第一部分或所述第二部分中的一个部分能够相对于另一个部分移动，所述装置包括：被配置为确定与所述移动相关联的参数的电路；以及被配置为基于与所述移动相关联的所述参数和所述至少一个音频信号来生成至少一个输出音频信号的电路。

根据第八方面，提供了一种包括程序指令的计算机可读介质，所述程序指令用于使装置至少执行以下操作，所述装置包括：第一部分，所述第一部分具有被配置为捕获图像的至少一个照相机；第二部分，所述第二部分具有被配置为捕获至少一个音频信号的至少一个麦克风，其中，所述第一部分或所述第二部分中的一个部分能够相对于另一个部分移动，所述操作包括：确定与所述移动相关联的参数；以及基于与所述移动相关联的所述参数和所述至少一个音频信号来生成至少一个输出音频信号。

一种装置，包括用于执行如上所述的方法的动作的部件。

一种装置，被配置为执行如上所述的方法的动作。

一种计算机程序，包括用于使计算机执行如上所述的方法的程序指令。

一种存储在介质上的计算机程序产品可以使装置执行本文所述的方法。

一种电子设备可以包括如本文所述的装置。

一种芯片组可以包括如本文所述的装置。

本申请的实施例旨在解决与现有技术相关联的问题。

附图说明

为了更好地理解本申请，现在将通过示例的方式参考附图，在附图中：

图1示意性地示出了能够使用固定照相机捕获音频信号和图像的多麦克风捕获装置的示例；

图2示意性地示出了根据一些实施例的能够在两个位置中使用可旋转照相机部分捕获音频信号和图像的多麦克风捕获装置的其他示例；

图3示意性地示出了根据一些实施例的空间音频系统；

图4示出了根据一些实施例的图3所示的空间音频系统的操作的流程图；

图5和图6示意性地示出了根据一些实施例的能够使用可旋转照相机部分捕获音频信号和图像的多麦克风捕获装置的其他示例；

图7示意性地示出了能够使用可旋转照相机捕获音频信号和图像的多麦克风捕获装置的示例，其中麦克风中的至少一个麦克风与照相机同轴地安装；

图8示出了例如能够使用能够改变有效位置的可旋转照相机来捕获音频信号和图像的多麦克风捕获装置的示例麦克风有效位置；

图9示出了能够使用能够改变有效位置的可旋转照相机部分来捕获音频信号和图像的另一个示例多麦克风捕获装置的示例麦克风有效位置；

图10示出了能够使用能够改变有效位置的可旋转照相机部分来捕获音频信号和图像的附加示例多麦克风捕获装置的示例麦克风有效位置；

图11示意性地示出了根据一些实施例的其他空间音频系统；

图12示出了根据一些实施例的图11所示的空间音频系统的操作的流程图；以及

图13示意性地示出了适于实现先前附图中所示的装置的示例设备。

具体实施方式

下面进一步详细描述用于使用捕获装置进行空间音频信号捕获和处理的合适的装置和可能的机制。

如上所述，具有可相对于设备的其余部分旋转的照相机(以及位于该设备上的任何麦克风)的设备是相对于空间音频捕获而言当前未被良好配置的设备。

如所讨论的，可以使用3个麦克风捕获平面中具有正确方向的空间音频，以及可以使用4个麦克风捕获所有方向。存在许多不同的捕获和方向分析算法。

如果空间音频信号被准确地捕获，则该空间音频信号能够被旋转。

旋转照相机实现许多不同的用例。对于某些用例，某些麦克风位置更优，而对于其他用例，则需要不同的麦克风位置。用例示例包括：

其中捕获设备位于桌上并且照相机可被配置为转向活动发言者的电话会议；

其中用户手持捕获设备的视频记录；以及

其中照相机可被配置为朝向用户的自拍记录。

另外，存在进一步的复杂性，因为捕获设备可能以纵向取向或横向取向来工作。

如上所述，空间音频方向通常是基于对麦克风音频信号的水平和相位/时间差的分析来确定的。物理设备的配置限定了影响所捕获的音频信号的麦克风的方向和距离。因此，这有时可以帮助在麦克风之间存在较大物理距离的情况下允许较大的麦克风音频信号差，但这也可能是一种阻碍。在一些配置中，麦克风位置使得被转换成音频信号的声波可以使用几条路径在设备周围行进，这些路径非常相似，但水平和相位/时间差略有不同。这在任何水平和相位/时间差估计中产生误差，并干扰了方向检测。

图1示出了所设计的麦克风配置的示例。图1的左侧的示例捕获设备101示出了被安装在设备101的一个面的左上方的照相机115的固定配置。该捕获设备还包括3个麦克风，即，位于与照相机115同一面的顶部中间的第一麦克风114，位于与照相机115同一面的底部中间的第二麦克风112，以及位于与照相机115相反的一面的顶部中间的第三麦克风116。当设备以横向取向工作时，该配置尝试优化空间捕获，因为它在大约水平平面(当设备处于横向取向时)具有3个麦克风，这些麦克风优化了对空间音频很重要的水平平面中的方向捕获。

该配置还被设计为使得麦克风远离在以横向取向工作时用户通常握持设备101的角落。

在图1的右侧的示例捕获设备103示出了被安装在设备103的一个面的相同左上方的照相机125的固定配置。然而，在该设计中，捕获设备包括3个麦克风，即，位于与照相机115同一面的顶部中右方的第一麦克风124，位于与照相机115同一面的顶部中左方的第二麦克风112，以及位于与照相机115相反的一面的中上方的第三麦克风116。该配置尝试优化纵向取向中的空间音频捕获，因为它在大约水平平面中有3个麦克风(当设备以纵向取向工作时)，这些麦克风优化了对空间音频很重要的水平平面中的方向捕获。出于与上述相同的原因，麦克风远离用户在以纵向取向使用设备时通常握持设备的设备底部。

如前所述，音频方向检测通常是基于分析麦克风信号之间的差。捕获设备本身可能干扰此分析，因为麦克风不再处于自由场条件下。通常，用于方向检测的麦克风的最佳位置是在边缘附近，在边缘附近，它们比在小平面(facet)的中间更接近自由场条件。特别地，如果成对的麦克风比它们彼此的距离更远离边缘，则在执行方向分析时可能存在问题。

几家制造商已经引入了旋转照相机产品概念，这减少了移动设备中所需的照相机的数量。例如，自拍照相机的需求以及大视野照相机在某种程度上将变得多余。

当捕获设备捕获(空间)音频信号以及视频或图像数据时，它们需要被对齐或匹配。如果音频信号中的声源方向与图像或视频数据中的对应视觉对象方向不匹配，则视频和音频信号的最终回放将是错误的，并且可能产生从第一方向看主体说话但是从第二不同方向听其声音的效果，从而造成感知错误，这可能使用户迷失方向(disorientated)或晕眩。在照相机可以旋转的设备中，所捕获的音频信号需要被修改以保持音频与视频对象方向之间的对齐或匹配。另外，移动设备可能以许多取向(横向、纵向、在桌上等)被使用，并且因此音频对齐必须考虑许多不同的输入。

例如，如果设备仅具有3个不随照相机旋转的麦克风，则问题在于，不管麦克风位置如何，并非所有用例都能最佳地被满足。

此外，如果设备具有4个麦克风，则可能存在用于麦克风的良好位置配置，以便可以满足所有用例，但麦克风可能被放置为使得用户可能容易地用手遮盖麦克风，或者麦克风可能位于难以检测某些方向的位置。

在具有5个麦克风的配置中，则可以存在这样的配置或设计：其中，麦克风位置不容易被用户的手遮盖，并且大多数方向(即使不是全部方向)能够以适当的精度来检测。

如本文所述的实施例中更详细地探讨的一项提议是将所有麦克风放置在旋转照相机部分上。但是，旋转照相机部分通常很小，并且将所有麦克风放置在该部分上尽管将实现麦克风音频信号之间的对齐，并且因此空间音频信号和由照相机捕获的图像将解决上述音频旋转问题。然而，使照相机和麦克风位于旋转部分上的设计导致麦克风通常过于接近，并且因此来自麦克风的音频信号是高度相关的。高度相关的音频信号由于若干原因特别是在低频下进行波束成形或在低频下用于方向分析时会产生较差的结果。

关于以下实施例描述的概念包括：

具有旋转照相机的设备的特定麦克风位置；

在不同的照相机旋转中不同地分析音频方向；

独立于照相机旋转而针对低频类似地分析音频方向，以及取决于照相机旋转而针对高频不同地分析方向；以及

取决于照相机旋转和设备取向来创建空间音频和非空间音频。

另外，具有位于其上的一些麦克风的旋转照相机部分在麦克风相对彼此移动时会使方向分析变得困难。

另外，麦克风具有声音端口以允许声波传递到麦克风，并且在设备盖上还需要孔或洞，以防止声波被盖显著衰减。盖上的这些孔是有问题的，因为制造边缘到边缘显示器的当前趋势几乎没有为孔留出空间。此外，用户的手可能会遮盖这些孔，或者在手移过这些孔时造成处理噪音问题。此外，在某些情况下，孔在美学上被认为是有问题的，并且导致设计者将孔定位在它们不那么明显但通常在声学上有问题的位置，例如在可能具有嘈杂的移动部件的照相机旁边。

如在实施例中在此讨论的概念是具有麦克风和旋转照相机的捕获设备，该捕获设备能够被配置为以向观看和收听的用户提供高质量音频信号(该高质量音频信号在感知上与任何视频图像对齐)的方式来实现空间音频捕获和与照相机图像的对齐，并且另外能够适当地放置孔或端口。

在图2中示出了第一示例捕获设备。该示例中的捕获设备是移动设备，该移动设备具有位于设备本体主部分内的4个麦克风和位于能够从该主部分轴向旋转的旋转照相机部分中的照相机。因此，图2所示的具有位于主部分中的麦克风的设备配置被配置为不随照相机旋转。移动设备被配置为使用麦克风从基本上所有方向接收声波以生成音频信号，并从这些麦克风音频信号中创建旋转后的空间音频信号，在旋转后的空间音频信号中，声音对象方向与对应的视频对象方向(来自照相机)匹配或对齐，而与设备取向和照相机部分取向无关。在一些实施例中，音频方向检测是基于照相机部分的方向或取向来实现的，因为照相机部分旋转影响麦克风信号延迟和水平。

聚集(focusing)可以使用波束成形或空间滤波来完成，其中分析音频方向，并基于所分析的方向对音频进行放大/衰减。这三个麦克风使分析平面中的音频方向成为可能，但是由于该设备能够以纵向取向和横向取向两者来使用，因此还需要在与该平面垂直的方向中的方向分析。因此，总共需要4个麦克风。

因此，图2示出了这种配置的示例。一种移动设备200，其包括组件能够被安装或放置在其上的本体。本体能够被划分成主部分210和照相机部分220。主部分210和照相机部分220能够绕轴(如虚线240所示)旋转。在图的左手侧示出的移动设备200示出了照相机部分220从与主部分210的对齐旋转了90度时，而在图的右手侧示出了与主部分210对齐的照相机部分220，这样，当对齐时，照相机部分和主部分基本上呈现为单个对象。

在图2所示的示例中，麦克风位于主部分210上。这使制造设备更容易，因为麦克风与设备处理器和母板在同一部分中，并且因此布线或其他连接更短且不那么复杂(并且不必协商旋转轴)。

在图2中示出了第一麦克风(麦克风1)218，其位于移动设备的本体的第一面上的主部分210的顶部中心。在本文所示的示例中，与移动设备的本体的边缘之一(其是具有窄尺寸(例如厚度或更小面积)的侧面)相比，移动设备的(本体的)面是具有大尺寸(例如高度和宽度或较大面积)的侧面。

第二麦克风(麦克风2)212位于移动设备的本体的第一面上的主部分210的底部中心。换句话说，第一麦克风和第二麦克风间隔了移动设备的主部分的长度(最长尺寸)。

第三麦克风(麦克风3)214位于移动设备的本体的第二面上的主部分210的顶部中心，其中第二面是与第一面的相反侧面。第一麦克风和第三麦克风间隔了移动设备的厚度。

第四麦克风(麦克风4)216位于移动设备的本体的第一面上的主部分210的左上方。第一麦克风和第四麦克风间隔了移动设备的主部分的宽度的一半(剩余尺寸)。

另外，示出了旋转照相机部分220，其包括位于旋转照相机部分的面上的照相机205，以使得当旋转照相机部分220与主部分210对齐时，照相机205以及第一、第二和第四麦克风在同一“面”上。然而，在一些实施例中，照相机205可以位于移动设备的边缘上，或者位于旋转照相机部分上的任何其他合适位置。

放置第一麦克风218、第二麦克风212以及第三麦克风214，以使得当空间音频水平方向足够时，这些麦克风能够设备在横向模式下工作时用于捕获空间音频，以及如果需要仰角方向性，则使用第一麦克风218、第二麦克风212、第三麦克风214以及第四麦克风216。

当在纵向模式下使用设备时，可以采用第一麦克风218、第三麦克风214以及第四麦克风216来捕获空间音频。

由于旋转照相机部分靠近第一麦克风218，第四麦克风216以及第三麦克风214以及改变的设备形状可能影响音频方向检测和波束成形，所以设备可以考虑照相机部分取向或方向并不同地分析方向以及取决于照相机部分取向而使用不同的波束。

例如，如在图2的配置中，与第一麦克风218、第四麦克风216以及第三麦克风214相比，第二麦克风212距照相机部分的位置更远，仅使用第二麦克风212或使用与另一个麦克风成对的第二麦克风212的任何分析可以以对所有照相机方向相同的方式实现分析(换句话说，不被照相机部分的取向所影响或修改)。另外，由于低频受诸如照相机的小旋转部分的干扰较小，因此可以在不对低频中的所有照相机部分取向进行修改的情况下实现任何分析，即使高频基于照相机部分取向对处理进行了修改也是如此。

方向分析通常通过找到使麦克风之间具有最大相关性的延迟来完成。该延迟是到达时间差(TDOA)，并且已知方法(例如，多边定位(multilateration)、以及如WO2018/060549、US20130044884中所讨论的方法)被用于获得方向。由于麦克风不在自由场环境中，并且设备阻碍了声音(并因此造成音频遮蔽(shadow))，因此可能需要基于该设备阻碍来修改所确定的方向。该修改通常是一个(查找)表，其中输入是所确定或所计算的方向，而输出是最终输出方向。该表通常是通过对设备进行测试来创建的，方式为：播放来自不同方向的声音，计算所估计的方向，然后比较两个实际和估计的方向并将比较结果放入表中。对于低频处的方向可能只有单个表，但对于高频处的方向可能有不同的表，每个表表示不同的照相机旋转。此外，表的数量可以取决于在方向确定中使用的麦克风。因此，例如当麦克风彼此远离或远离旋转照相机部分时，与彼此靠近和/或靠近旋转部分的麦克风相比，可以存在更少的表。

例如，关于图3，示出了根据一些实施例的合适的空间音频信号生成系统。

该系统示出输入麦克风音频信号300被传递到音频方向分析器301。

该系统可以包括音频方向分析器301，音频方向分析器301被配置为接收输入麦克风音频信号300并且基于任何合适的方向确定来确定音频方向。然后，方向302可以被传递到音频方向修改器303。

该系统可以包括音频方向修改器303。音频方向修改器303可被配置为从音频方向分析器301接收方向，以及还接收照相机旋转输入304，照相机旋转输入304提供照相机部分相对于设备的本体的主部分的旋转参数。如上所述的音频方向修改器303可以使用一系列查找表或任何其他合适的方法来基于旋转参数而修改方向(针对各种频带)。可以以任何合适的方式来实现音频方向的修改。例如，使用参数音频系统(诸如WO2018/060549、US20130044884、DirAC(定向音频编码)中所讨论的方法)，可以简单地旋转音频方向。借助立体声混响(ambisonics)，可以使用立体声混响旋转矩阵来旋转立体声混响信号。

然后，修改后的方向值306可以被传递到空间音频生成器305。

该系统可以包括空间音频生成器305。空间音频生成器305被配置为接收修改后的方向306，以及还接收所输入的麦克风音频信号300。空间音频生成器305被配置为生成合适的(传输)音频信号以及包括修改后的方向306的元数据，以及将音频流308传递给复用器307。

该系统可以包括复用器307。复用器307被配置为从照相机接收视频输入310以及音频流308，并将它们进行复用以形成输出流312。

图4进一步示出了示出图3所示的系统的操作的流程图。

因此，该系统执行的操作是从麦克风阵列获得音频信号，如图4通过步骤401所示。

另一个操作是获得照相机部分旋转参数的操作，如图4通过步骤403所示。

另外，另一个操作是从照相机获得视频信号，如图4通过步骤400所示。

已经接收到音频信号后，另一个操作是分析音频信号以确定方向，如图4通过步骤405所示。

已经确定了方向并获得了照相机部分取向后，可以基于照相机部分取向参数来修改方向，如图4通过步骤407所示。

然后，可以基于修改后的方向和来自麦克风的音频信号来生成空间音频信号，如图4通过步骤409所示。

已经生成空间音频信号后，空间音频信号可以被与视频信号进行复用，如图4通过步骤411所示。

然后，复用后的信号可以被输出、存储和/或发送，如图4通过步骤413所示。

在一些实施例中，移动设备可以配备有3个麦克风和旋转照相机部分。如上述实施例中那样，麦克风不随照相机部分一起旋转。

因此，如果减少了期望的音频用例的数量，则该设备可具有少于4个的麦克风。

在图5中，示出了两个其他配置。因此，例如在左手侧示出了移动设备501，其中照相机505位于照相机部分515中。

此外，示例装置501包括第一麦克风(麦克风1)516，其位于移动设备的本体的第一面上的主部分512的左上方。第二麦克风(麦克风)518位于移动设备的本体的第一面上的主部分512的右上方。换句话说，第一麦克风和第二麦克风间隔了移动设备的主部分的宽度。

第三麦克风(麦克风3)514位于移动设备的本体的第二面上的主部分512的顶部中心，其中第二面是第一面的相反侧面。

可以针对纵向模式下的设备操作来优化该配置。该配置可以聚集于所有照相机方向并以纵向取向创建空间音频，但是由于在横向中的麦克风之间没有左右分离，所以即使使用波束成形等来聚集音频，设备501也只能针对横向视频生成非空间音频。

在图5的右手侧，示出了第二移动设备503，其中照相机505位于照相机部分515中，而麦克风位于主部分512中。

该设备具体包括第一麦克风(麦克风1)528，其位于移动设备的本体的第一面上的主部分512的顶部中心。第二麦克风(麦克风2)522位于移动设备的本体的第一面上的主部分512的底部中心。换句话说，第一麦克风和第二麦克风间隔了移动设备的主部分512的长度。

第三麦克风(麦克风3)524位于移动设备的本体的第二面上的主部分512的顶部中心，其中第二面是第一面的相反侧面。因此，第一麦克风和第三麦克风间隔了该设备的厚度。

因此，该配置中示出的设备可以对横向操作有效。该设备503可以在横向中产生空间音频，但是在纵向上只能在某些照相机方向上创建空间音频信号。设备503可以聚集于水平面(横向)上的任何方向，但这几乎无用，因为照相机在垂直平面上旋转。因此，设备503只能对于两个照相机旋转方向来创建被聚集于照相机方向的音频。

这些设备501和503可以被用于许多用途。对于设备501，如果设备主要用途是电话会议，则非空间音频(通常是单声道音频)对于横向视频可以是足够的，而对于设备503，当两个照相机方向是典型手机主照相机和自拍照相机的方向时，能够仅聚集于这两个方向便以足够。

可以使用已知方法创建空间音频。例如，使用WO2018/060549中的方法，可以使用3个麦克风来创建空间音频(双耳、立体声、5.1等)。可以通过修改方向参数alpha来旋转这种类型的参数化空间音频。同样，可以使用已知方法来创建立体声混响音频。可以通过将多声道(一阶立体声混响通常为4声道)信号乘以旋转矩阵来旋转立体声混响音频。

第一设备501取向(纵向或横向)设备麦克风捕获被旋转以匹配照相机视图方向的空间音频，并且旋转后的空间音频和照相机图像可被合并以创建视频，而第二设备503取向(横向或纵向)麦克风捕获非空间音频，并且非空间音频和照相机图像被合并以创建视频。在一些实施例中，在不同的照相机方向上不同地进行音频方向检测，因为照相机部分旋转影响麦克风信号延迟和水平。

在一些实施例中，移动设备可以配备有3个以上的麦克风和旋转照相机部分。如上述实施例中那样，麦克风不随照相机部分旋转。例如，图6示出了具有5个麦克风的示例设备。该移动设备601包括5个麦克风和旋转照相机。移动设备601被配置为使用麦克风信号从基本上所有方向检测音频方向，并创建旋转后的空间音频信号，在旋转后的空间音频信号中，音频中的声音对象方向与视频中的对应视频对象方向相匹配，而与设备取向和照相机方向无关。

麦克风位置使得在用户通常不触摸的区域中至少有4个麦克风，并且在横向和纵向取向上麦克风不远离设备边缘。因此，例如该设备具体包括第一麦克风(麦克风1)624，其位于移动设备的本体的第一面上的主部分612的右上方。第二麦克风(麦克风)618位于移动设备的本体的第一面上的主部分612的底部中心。第三麦克风(麦克风3)626位于移动设备的本体的第二面上的主部分612的右上方，其中第二面是第一面的相反侧面。因此，第一麦克风和第三麦克风间隔了该设备的厚度。第四麦克风(麦克风4)614位于移动设备的本体的第二面上的主部分612的底部中心。因此，第二麦克风和第四麦克风间隔了该设备的厚度。第五麦克风(麦克风5)616位于移动设备的本体的第一面上的主部分612的顶部中心。因此，第一麦克风和第五麦克风间隔了该设备的宽度的一半。

在一些实施例中，在不同的照相机方向上不同地实现了音频方向检测，因为照相机部分旋转影响了麦克风信号延迟和水平。

在图6所示的示例设备中，麦克风1、3和5与照相机旋转大致在同一平面上，并且因此有利于将音频聚集到照相机能够被旋转的任何方向。当设备处于横向取向时，麦克风2、4和5大致位于水平平面上，并且因此有利于在横向取向中捕获空间音频。在这种配置中，当照相机处于默认位置时，只有麦克风5不在设备边缘附近，但这没有什么问题，因为当以横向取向使用该设备时，麦克风5对于捕获空间音频最为重要，并且用于捕获空间音频的其他麦克风(麦克风2、4)相对远离麦克风5，并且因此，麦克风信号的成对比较产生良好的方向灵敏度。此外，该配置使得当设备处于除麦克风2、4和5之外还使用麦克风1的横向取向时能够确定仰角方向。尽管麦克风5的位置不在设备边缘附近，并且因此仰角灵敏度(当被与麦克风1成对比较时)不像麦克风位于边缘(并且具有更大间隔)的配置一样好，但是这不显著，因为人类对仰角方向的精度不太敏感。

在一些实施例中，这些麦克风中的至少两个麦克风位于可旋转照相机部分上。例如，在一些实施例中，移动设备具有至少3个麦克风，这些麦克风被布置为使得它们相对于照相机而言显著位于一个平面内，而与照相机部分旋转无关。因此，移动设备能够在一个取向中使用来自两个部分的麦克风捕获或记录空间音频，而在另一取向中使用照相机部分中的麦克风捕获或记录聚集后的音频。

例如，如图7所示，在一些实施例中，三个(或更多个)麦克风被放置在带有旋转照相机的设备中，以使麦克风与照相机形成一个平面。在这样的实施例中，这些麦克风中的两个麦克风与照相机一起旋转，使得该平面始终保持与照相机方向对齐。然后，使用适当的方法将这三个麦克风信号用于创建空间音频。

例如，如图7所示的设备包括第一麦克风(麦克风1)716，其位于移动设备的本体的旋转照相机部分715的端部。第二麦克风(麦克风2)718位于移动设备的本体的旋转照相机部分715的相对端。第三麦克风(麦克风3)714位于移动设备的本体的第一面上的主部分712的底部中心。因此，第一麦克风和第二麦克风间隔了该设备的宽度。第一麦克风和第三麦克风以及第二麦克风和第三麦克风在一个维度中大致间隔了该设备的长度，而在垂直维度中大致间隔了该设备的宽度的一半。

例如，可以基于如US20130044884中描述的方法来执行从音频信号中生成空间音频信号。在US20130044884中描述的方向分析可以在所有照相机旋转中保持固定，因为麦克风的平面随照相机旋转。

在一些实施例中，音频可以被聚集到取决于照相机方向的方向。通常，如果照相机被变焦，则音频将被朝向照相机视图方向聚集。可以使用适当的波束成形操作来完成聚集。在这种操作中，来自照相机部分的麦克风仅被用于波束成形，因为波束成形方向取决于麦克风配置，而位于旋转照相机部分中的麦克风相对于照相机保持相同的配置。

在其中照相机位于或容纳在移动设备的旋转照相机部分中的一些实施例中，照相机部分显著小于该设备的其余部分。移动设备包括至少3个麦克风，至少两个麦克风位于照相机部分中并且至少一个照相机位于主部分中。在这些实施例中，移动设备能够被配置为使用来自照相机部分的至少一个麦克风和来自其余部分的至少一个麦克风来针对低频分析音频方向，以及使用来自照相机部分的至少两个麦克风来针对高频分析音频方向。然后，所分析的方向和麦克风信号能够被用于创建空间音频信号。在一些实施例中，移动设备可以使用旋转照相机部分麦克风以便将音频聚集到至少一个方向，其中该方向取决于照相机部分旋转。

在一些实施例中，可存在除图7所示之外的配置，但是在照相机部分中始终有至少2个麦克风，而在主部分中有至少1个麦克风。在基于麦克风信号之间的相位或水平差来分析音频方向时，当使用麦克风之间较大的距离(例如，当主部分麦克风位于移动设备的底部时，一个照相机部分麦克风与一个主部分麦克风之间的距离)时，对于低频性能更好，因为这时水平和相位差更大。同时，照相机部分在低频下比在高频下相对更小(与音频的波长相比)，此外，即使在照相机部分被旋转时，该旋转对分析的影响也比高频分析小。

在一些实施例中，分析可以是与旋转无关的。在一些实施例中，对于某些照相机旋转，分析可能不同，但是仅需要少量或很少的不同分析以获得旋转补偿所需的值。

对于高频，当使用照相机部分麦克风和主部分麦克风两者时，旋转照相机部分在以不同的旋转进行分析时很可能干扰分析，因为音频的波长更接近照相机部分的尺寸。因此，对于高频，应仅使用照相机部分麦克风音频信号来实现方向分析。在这样的实施例中，可能存在附加的好处，因为由于照相机部分旋转了照相机和麦克风两者，因此当关注相对于照相机的音频方向时(通常是这种情况)，对于所有照相机旋转，分析能够是相同的。

如在US20130044884中那样，所分析的方向和麦克风信号然后能够被用于创建空间音频信号。

在一些实施例中，移动设备被配置为使用来自两个部分的麦克风来分析一些照相机旋转的音频方向，以及使用仅来自照相机部分的麦克风来分析其他照相机旋转的音频方向。这些所分析的方向与麦克风信号一起被用于创建空间音频。

由于旋转照相机部分改变了照相机部分被旋转时声音围绕设备传播的路径，因此将预期的是，音频方向分析取决于照相机旋转。如所指示的，这可能需要针对许多方向的大量不同的分析。因此，在一些实施例中，仅针对多个固定照相机旋转(例如最常用于例如自拍、横向视频等的0、90、180和270度)不同地执行分析。来自旋转照相机部分和主部分两者的麦克风被用于分析这些固定照相机旋转中的音频方向，以在所有频率下获得最佳精度。可以围绕这些固定方向使用相同的分析，从而例如用于0度的分析也用于围绕0度的旋转，即从-20到20度旋转。在固定旋转及其相邻旋转之外，设备切换到仅使用旋转照相机部分麦克风进行方向分析。这是因为这些麦克风随照相机一起旋转，并且单个分析能够被用于所有照相机方向。

在一些实施例中，照相机部分中的两个或更多个麦克风被用于音频聚集(通常是波束成形)，以及使用主部分麦克风和旋转部分麦克风两者或者仅使用主部分麦克风来创建空间音频。空间音频和所聚集的音频被合并以创建空间的但强调所聚集的方向的音频信号。

在一些实施例中，可以使用任何合适的方法将音频聚集到一个方向。例如，在一些实施例中，通过波束成形来实现聚集。波束成形(以及大多数(如果不是所有)其他已知的聚集方法)要求麦克风位置是已知的并且要求相对于照相机的位置是已知的(如果希望聚集方向是相对于照相机方向)。因此，在一些实施例中，由于照相机部分麦克风随照相机一起旋转并且它们的位置因此相对于照相机是固定的并且相对于彼此是固定的，所以可以仅使用照相机部分麦克风来实现波束成形。

空间音频通常要求在麦克风之间的一些间隔，以使麦克风信号包含完成记录所在的声学空间的自然去相关。对于使用全向麦克风的移动设备尤其如此。(使用全向麦克风是因为它们比定向麦克风更便宜并且对风噪的抵抗能力更强。)

在一些实施例中，包括旋转照相机部分和主部分的移动设备可以被配置为使得有效的麦克风位置随着照相机旋转而改变，因为麦克风的声音端口被暴露在旋转照相机部分下方。这使得同一麦克风能够在不同的用例中被使用，以在用例需要不同麦克风位置的情况下创建空间音频。

由于麦克风通常位于移动设备内部，因此存在声音端口，该声音端口被配置为将麦克风连接到设备外部，以便来自设备外部的声音能够到达麦克风。对于空间音频捕获，麦克风的重要特性是麦克风如何对来自不同方向的声音不同地进行反应。设备的盖中的声音端口和声音端口孔(声音端口与移动设备的外部之间的接口)很重要，因为在端口外部，来自不同方向的声音以不同的路径传播，但是在声音端口内部，所有声音以相同的路径传播。因此，声音端口位置限定了用于空间音频捕获的麦克风有效位置。

这种情况的示例可以在图8中示出。图8例如示出了具有旋转照相机部分807和主部分803的示例移动设备801。旋转照相机部分807包括位于旋转照相机部分807的末端的照相机805。另外，还示出了位于主部分内的两个麦克风。第一麦克风(麦克风2)815位于主部分中，其中声音端口807在一个面上离开移动设备主部分。这表示普通麦克风，其中声音端口对于所有照相机部分旋转具有相同的有效位置。因此，麦克风的有效位置是恒定的，并且与旋转照相机部分807的旋转无关。

此外，还示出了另一个麦克风(麦克风1)817。该另一个麦克风被与示为端口827的声音端口相耦接，端口827具有当旋转照相机部分关闭时在本体的面上的第一位置821处的第一出口，以及具有在主部分803的顶表面上的麦克风上方的第二位置819。当旋转照相机部分相对于主部分处于关闭位置(或成对齐角度)(换句话说，当两个部分彼此对齐时)时，此第二位置819被阻挡，而当旋转照相机部分处于打开角度或未对齐角度时(当一个部分未与另一个部分对齐时)，此第二位置819打开。这导致麦克风的有效位置随着第二位置819被暴露而改变。

因此，例如，当旋转照相机部分被关闭时，麦克风1和2的有效位置821和807分别位于照相机轴的左侧和右侧，并且麦克风能够被用于捕获立体声音频。旋转照相机部分可以在两个可能的照相机方向上被关闭。如果照相机指向“右”(图中的右上)，则麦克风1 817位于轴的右侧，麦克风2 815位于左侧，并且它们能够被用于捕获左音频信号和右音频信号。当照相机指向“左”(图中的左下)时，麦克风1 817位于照相机轴的左侧，麦克风2 815位于照相机轴的右侧，并且它们能够被用于捕获左音频信号和右音频信号。

如图8所示，当照相机部分打开时，麦克风1 817的有效位置819被改变，现在麦克风1 817是左麦克风，而麦克风2 815是右麦克风。两个麦克风都在照相机轴的右侧，但是，这种微小的横向移位(sideways shift)对于立体声音频捕获而言并不重要，只要在麦克风之间相对于照相机轴存在左/右间隔即可。再次地，如果照相机以180度指向与图8相比的相反方向，则麦克风2 815变为左麦克风，而麦克风1 817变为右麦克风。

当存在至少三个麦克风时，可以使用诸如在WO2018/060549、US20130044884中提出的已知方法来创建空间音频。通过根据当前的有效麦克风位置来改变方向计算，改变的有效麦克风位置被加以考虑。

在一些实施例中，当照相机旋转时，有效麦克风位置改变，因为麦克风的声音端口在旋转照相机部分下方露出。有效位置随着照相机部分移动而逐渐改变。这使得同一麦克风能够被用在不同的用例中，以在用例需要不同的麦克风位置的情况下创建空间音频。

这些实施例类似于上述实施例，但是在这些实施例中，麦克风有效位置逐渐改变，并且可被配置为针对照相机旋转范围而被限定。

例如，图9示出了具有旋转照相机部分907和主部分903的移动设备901。旋转照相机部分907包括位于旋转照相机部分807的端部的照相机905。另外，示出了位于主部分内的麦克风，即，具有声音端口921的麦克风1 917，声音端口921被形成为主部分内的开口槽或凹槽。开口槽或凹槽的一端在麦克风917处，另一端在主部分的一个面处。该开口槽或凹槽使得在旋转照相机部分从相对于主部分的关闭或对齐角度(当两个部分彼此对齐时)旋转到打开或非对齐角度时(当一个部分未对齐另一个部分时)，麦克风的有效位置随着凹槽的不同部分的暴露而改变。因此，麦克风的有效位置是在旋转照相机部分关闭时在本体的面上的第一位置，以及在旋转照相机部分打开时在麦克风上方并在开口槽的相对端的第二位置。槽可以是任何合适的形状，例如弯曲的或笔直的。

如图9所示的示例示出了单个麦克风及其凹槽，但是通常设备将具有至少两个麦克风及其凹槽。

例如，如图10所示，示出了示例移动设备的平面图，其中，由虚线轮廓示出的旋转照相机部分1005相对于由实线轮廓示出的主部分1003处于各种角度。在该示例中，在旋转照相机部分1005上示出了照相机1999。另外，第一麦克风1006位于主部分1003中，第一麦克风1006具有延伸至移动设备的第一面的第一凹槽1008。此外，示出了第二麦克风1002，第二麦克风1002具有延伸到移动设备的第二面的第二凹槽1009。

如图10的左上方1001所示，当移动设备旋转照相机部分1005关闭时，照相机具有第一取向，第一麦克风1006具有在移动设备的第一面处的有效位置1007，以及第二麦克风1002具有在移动设备的第二面处的有效位置1003，因为凹槽被完全覆盖。因此，在此配置中，麦克风能够使用第二麦克风1002捕获左音频，并使用第一麦克风1006捕获右音频。

如图10的顶部中间1011所示，打开旋转照相机部分1005，照相机具有第二取向，第一麦克风1006具有有效位置1017，第二麦克风1002具有有效位置1013，因为凹槽被部分暴露。因此，在此配置中，麦克风能够使用第二麦克风1002有效位置1013捕获左音频，并使用第一麦克风1006有效位置1017捕获右音频。

如图10的右上方1021所示，进一步旋转该旋转照相机部分1005，照相机具有第三取向，第一麦克风1006具有有效位置1027，第二麦克风1002具有有效位置1023，因为凹槽被进一步暴露。因此，在此配置中，麦克风能够使用第二麦克风1002有效位置1023捕获左音频，并使用第一麦克风1006有效位置1027捕获右音频。

在进一步旋转时，如图10的左下方1031所示，旋转照相机部分1005具有第四取向，第一麦克风1006具有有效位置1037，该有效位置1037示出凹槽的长度几乎被暴露，以及第二麦克风1002具有有效位置1033，该有效位置1033几乎是其所暴露的凹槽的长度。因此，在此配置中，麦克风能够使用第二麦克风1002有效位置1033捕获左音频，并使用第一麦克风1006有效位置1037捕获右音频。

最后，在图10中示出了旋转照相机部分被旋转为与主部分垂直，如右下方1041所示。照相机具有第五取向，第一麦克风1006具有在1027处的有效位置，该有效位置是麦克风的位置，而第二麦克风1002具有有效位置1043，该有效位置1043是当凹槽被完全暴露回麦克风的位置时的麦克风的位置。因此，在此配置中，麦克风能够使用第二麦克风1002有效位置1023捕获左音频，并使用第一麦克风1006有效位置1027捕获右音频。

换句话说，如图10所示，由于麦克风有效位置始终位于照相机轴的左侧和右侧，因此麦克风始终能够被用于捕获适合照相机视图的立体声音频。

此外，在一些实施例中，代替改变麦克风的有效位置，旋转照相机部分可以露出(当被打开时)隐藏在照相机部分下方的麦克风。这些麦克风然后可以在旋转照相机部分被打开的用例中使用。

当照相机部分旋转时，可以使用两个以上的麦克风，以及可以改变一个以上的麦克风有效位置。不同的有效位置可以使不同的音频捕获成为可能。例如，如WO2018/060549中所述，可以使用3个麦克风来捕获空间音频。

在一些实施例中，切换位置和凹槽位置实施例可以被组合，使得当照相机旋转时一些麦克风被露出，而其他麦克风有效位置被改变。因此，某些麦克风可具有新的有效位置，并且所露出的麦克风可被一起使用以创建空间音频或使用波束成形将音频聚集到一个方向。

在一些实施例中，基于上述声音端口示例，移动设备还能够基于照相机旋转来控制对音频信号的处理。

因此，例如，可以包括麦克风信号输入1100和照相机旋转输入1104，照相机旋转输入1104由照相机旋转效果(在麦克风上)确定器1101接收。照相机旋转效果确定器1101可被配置为确定哪些麦克风可用并且未被照相机覆盖，并将这些音频信号1102传递给音频算法修改器(用于当前有效位置和麦克风)1103。

接收到处理后的音频信号1102的音频算法修改器1103然后可以修改算法以计算方向，以使这些方向与照相机方向相匹配，并将处理后的音频信号输出到空间音频生成器1105。

然后，空间音频生成器1105被配置为基于来自麦克风的音频信号并基于这些方向来生成空间音频信号1108，并将空间音频信号1108传递到复用器1107。在一些实施例中，空间音频生成器1105被配置为选择麦克风信号(取决于照相机方向)以与这些方向一起使用。

复用器1107可被配置为接收空间音频信号1108和视频输入1110，并且对两者进行复用以生成输出数据流1112。

图12中的流程图示出了图11中所示的系统的操作。

因此，该系统执行的一个操作是从麦克风阵列获得音频信号，如图12通过步骤1201所示。

另一个操作是获得照相机部分旋转参数的操作，如图12通过步骤1203所示。

另外，另一个操作是从照相机获得视频信号，如图12通过步骤1200所示。

接收到音频信号之后，另一个操作是针对当前的照相机旋转参数确定哪些麦克风被暴露和/或受影响(换句话说，被覆盖或被部分覆盖)的操作，如图12中通过步骤1205所示。

在确定哪些麦克风被暴露和/或被覆盖之后，针对当前的有效位置和麦克风修改音频算法，如图12通过步骤1207所示。

然后，可以基于修改后的算法和来自麦克风的音频信号来生成空间音频信号，如图12通过步骤1209所示。

已生成空间音频信号后，空间音频信号可以被与视频信号复用，如图12通过步骤1211所示。

然后，复用后的信号可以被输出、存储和/或发送，如图12通过步骤1213所示。

在上面的示例中，包括第一部分(具有照相机的部分)和第二部分(具有至少一个麦克风的部分)的装置被配置为相对于公共轴而旋转或移动(该装置例如可以被配置为在这些部分之间传递信号)。在一些实施例中，第一部分相对于第二部分或第二部分相对于第一部分的运动不是围绕公共轴。例如，该运动可以是任何平移和/或旋转。例如，照相机部分可以从本体部分升起潜望镜，然后还能够相对于本体部分旋转或进一步移动。该运动可被认为是两个部分中的至少一个部分相对于参考点的运动和/或旋转。

关于图13，示例电子设备可以用作如上所述的系统的任何装置部分。该设备可以是任何合适的电子设备或装置。例如，在一些实施例中，设备1700是移动设备、用户设备、平板电脑、计算机、音频回放装置等。该设备可以例如被配置为实现如图1所示的编码器/分析器部分101或解码器/合成器部分105或如上所述的任何功能块。

在一些实施例中，设备1700包括至少一个处理器或中央处理单元1707。处理器1707可被配置为执行各种程序代码，诸如本文所述的方法。

在一些实施例中，设备1700包括存储器1711。在一些实施例中，至少一个处理器1707被耦接到存储器1711。存储器1711可以是任何合适的存储部件。在一些实施例中，存储器1711包括用于存储可在处理器1707上实现的程序代码的程序代码部分。此外，在一些实施例中，存储器1711还可包括用于存储数据的已存储数据部分，例如根据本文所述的实施例已处理或将要处理的数据。只要需要，可以由处理器1707经由存储器-处理器耦接来取得被存储在程序代码部分内的已实现程序代码和被存储在已存储数据部分内的数据。

在一些实施例中，设备1700包括用户接口1705。在一些实施例中，用户接口1705可以被耦接至处理器1707。在一些实施例中，处理器1707可以控制用户接口1705的操作并从用户接口1705接收输入。在一些实施例中，用户接口1705可以使用户能够例如经由小键盘向设备1700输入命令。在一些实施例中，用户接口1705可以使用户能够从设备1700获得信息。例如，用户接口1705可以包括被配置为从设备1700向用户显示信息的显示器。在一些实施例中，用户接口1705可以包括能够使信息能够被输入到设备1700以及还向设备1700的用户显示信息的触摸屏或触摸接口。在一些实施例中，用户接口1705可以是用于通信的用户接口。

在一些实施例中，设备1700包括输入/输出端口1709。在一些实施例中，输入/输出端口1709包括收发机。在这样的实施例中，收发机可以被耦接到处理器1707，并且被配置为使得能够例如经由无线通信网络与其他装置或电子设备通信。在一些实施例中，该收发机或任何合适的收发机或发射机和/或接收机部件可被配置为经由导线或有线耦接与其他电子设备或装置通信。

收发机可以通过任何适当的已知通信协议与其他装置进行通信。例如，在一些实施例中，收发机可以使用合适的通用移动电信系统(UMTS)协议、诸如IEEE 802.X的无线局域网(WLAN)协议、诸如蓝牙的合适的短程射频通信协议、或红外线数据通信路径(IRDA)。

收发机输入/输出端口1709可被配置为接收信号。

在一些实施例中，设备1700可以被用作合成设备的至少一部分。输入/输出端口1709可被耦接到耳机(其可以是头戴式或非头戴式耳机)或类似物。

通常，本发明的各种实施例可以用硬件或专用电路、软件、逻辑或它们的任何组合来实现。例如，一些方面可以用硬件实现，而其他方面可以用可以由控制器、微处理器或其他计算设备执行的固件或软件来实现，但是本发明不限于此。虽然本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示，但是应该理解，本文描述的这些框、装置、系统、技术或方法可以作为非限制性示例以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或它们的某种组合来实现。

本发明的实施例可以通过可由移动设备的数据处理器(例如在处理器实体中)执行的计算机软件来实现，或通过硬件、或通过软件和硬件的组合来实现。此外，在此方面，应当注意，图中的逻辑流程的任何块可以表示程序步骤、或互连逻辑电路、块和功能、或程序步骤和逻辑电路、块和功能的组合。软件可以被存储在诸如存储器芯片的物理介质或在处理器内实现的存储器块、诸如硬盘或软盘之类的磁介质、以及诸如DVD及其数据变体CD之类的光学介质上。

存储器可以是适合于本地技术环境的任何类型，并且可以使用任何合适的数据存储技术(例如基于半导体的存储设备、磁存储设备和系统、光存储设备和系统、固定存储器和可移动存储器)来实现。数据处理器可以是适合于本地技术环境的任何类型，并且(作为非限制性示例)可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)，门级电路和基于多核处理器架构的处理器中的一个或多个。

可以在诸如集成电路模块的各种组件中实践本发明的实施例。集成电路的设计基本上是高度自动化的过程。复杂且功能强大的软件工具可用于将逻辑级设计转换成准备在半导体衬底上蚀刻和形成的半导体电路设计。

程序(例如加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design公司提供的程序)使用完善的设计规则以及预先存储的设计模块库来自动路由导体并在半导体芯片上定位组件。一旦完成半导体电路的设计，就可以将标准化电子格式(例如Opus、GDSII等)的所得设计传输到半导体制造设施或“工厂”以进行制造。

前面的描述通过示例性和非限制性示例提供了对本发明的示例性实施例的完整且信息丰富的描述。然而，当结合附图和所附权利要求阅读时，鉴于前面的描述，各种修改和改变对于相关领域的技术人员而言可以变得显而易见。然而，对本发明的教导的所有这些和类似的修改仍将落入如所附权利要求限定的本发明的范围内。

Claims

1.一种用于空间音频信号捕获和处理的装置，包括：

第一部分，所述第一部分具有被配置为捕获图像的至少一个照相机；

第二部分，所述第二部分具有被配置为捕获至少一个音频信号的至少一个麦克风，其中，所述第一部分或所述第二部分中的一个部分能够相对于另一个部分移动；

至少一个处理器和包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使得所述装置至少：

确定与所述移动相关联的参数；以及

基于与所述移动相关联的所述参数和所述至少一个音频信号来生成至少一个输出音频信号，包括：

基于所述至少一个音频信号，确定一个或多个音频方向；

基于所述参数，修改所述一个或多个音频方向；以及

基于修改后的一个或多个音频方向，生成所述至少一个输出音频信号。

2.根据权利要求1所述的装置，其中，所述第一部分或所述第二部分能够相对于公共参考点移动。

3.根据权利要求1所述的装置，其中，所述移动是以下中的至少一个：

围绕所述第一部分与所述第二部分之间共同的轴的旋转；

所述第一部分与所述第二部分之间的俯仰和/或偏航和/或翻滚；

所述第一部分相对于所述第二部分的移动；以及

所述第二部分相对于所述第一部分的移动。

4.根据权利要求1所述的装置，其中，还使得所述装置：

复用所述至少一个输出音频信号和由所述照相机捕获的所述图像；以及

输出复用后的至少一个输出音频信号和由所述至少一个照相机捕获的所述图像。

5.根据权利要求1所述的装置，其中，所述第一部分还具有被配置为捕获至少一个其他音频信号的至少一个其他麦克风，其中，被配置为基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号的所述装置被配置为：还基于所述至少一个其他音频信号来生成所述至少一个输出音频信号。

6.根据权利要求5所述的装置，其中，被使得还基于所述至少一个其他音频信号来生成所述至少一个输出音频信号的所述装置被配置为：基于与所述移动相关联的所述参数来对齐所述至少一个输出音频信号和所述至少一个其他音频信号。

7.根据权利要求1所述的装置，其中，所述至少一个麦克风包括相对于所述第二部分布置的至少三个麦克风，并且被使得基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号的所述装置被配置为：

获得限定所述至少三个麦克风的布置的参数；

获得限定所述装置的取向的参数；以及

还基于限定所述至少三个麦克风的所述布置的所述参数和限定所述装置的所述取向的所述参数来生成所述至少一个输出音频信号。

8.根据权利要求7所述的装置，其中，被使得还基于限定所述至少三个麦克风的所述布置的所述参数和限定所述装置的所述取向的所述参数来生成所述至少一个输出音频信号的所述装置被配置为：基于限定所述至少三个麦克风的所述布置的所述参数和限定所述装置的所述取向的所述参数来针对至少一个频带生成所述至少一个输出音频信号。

9.根据权利要求1所述的装置，其中，被使得基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号的所述装置被配置为：基于与所述移动相关联的所述参数来对齐所述至少一个输出音频信号，以使得所述至少一个输出音频信号与所述至少一个照相机对齐。

10.根据权利要求1所述的装置，其中，被使得基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号的所述装置还被配置为：基于所述参数和与所述至少一个音频信号相关联的频带来分析所述至少一个音频信号。

11.根据权利要求1所述的装置，其中，被使得基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号的所述装置还被配置为：基于所述参数和与所述至少一个音频信号相关联的频带来分析至少一个其他音频信号。

12.根据权利要求1所述的装置，其中，所述参数包括所述第一部分相对于所述第二部分的旋转。

13.根据任一前述权利要求所述的装置，其中，所述至少一个输出音频信号包括以下中的至少一个：

至少一个空间音频信号；

至少一个非空间音频信号；

单声道音频信号；

波束成形的音频信号；以及

弹枪音频信号。

14.一种用于空间音频信号捕获和处理的方法，包括：

提供一种装置，所述装置包括：第一部分，所述第一部分具有被配置为捕获图像的至少一个照相机；第二部分，所述第二部分具有被配置为捕获至少一个音频信号的至少一个麦克风，其中，所述第一部分或所述第二部分中的一个部分能够相对于另一个部分移动；

确定与所述移动相关联的参数；以及

基于所述至少一个音频信号，确定一个或多个音频方向；

基于所述参数，修改所述一个或多个音频方向；以及

15.根据权利要求14所述的方法，其中，所述第一部分还具有被配置为捕获至少一个其他音频信号的至少一个其他麦克风，其中，基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号包括：还基于所述至少一个其他音频信号来生成所述至少一个输出音频信号。

16.根据权利要求15所述的方法，其中，还基于所述至少一个其他音频信号来生成所述至少一个输出音频信号包括：基于与所述移动相关联的所述参数来对齐所述至少一个输出音频信号和所述至少一个其他音频信号。

17.根据权利要求14所述的方法，其中，所述至少一个麦克风包括相对于所述第二部分布置的至少三个麦克风，并且基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号包括：

获得限定所述至少三个麦克风的布置的参数；

获得限定所述装置的取向的参数；以及

18.根据权利要求17所述的方法，其中，还基于限定所述至少三个麦克风的所述布置的所述参数和限定所述装置的所述取向的所述参数来生成所述至少一个输出音频信号包括：基于限定所述至少三个麦克风的所述布置的所述参数和限定所述装置的所述取向的所述参数来针对至少一个频带生成所述至少一个输出音频信号。

19.根据权利要求14所述的方法，其中，基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号包括：基于与所述移动相关联的所述参数来对齐所述至少一个输出音频信号，以使得所述至少一个输出音频信号被与所述至少一个照相机对齐。

20.根据权利要求14所述的方法，其中，基于与所述移动相关联的所述参数和所述至少一个音频信号来生成所述至少一个输出音频信号还包括：基于所述参数和与所述至少一个音频信号相关联的频带来分析所述至少一个音频信号。