CN113196737B

CN113196737B - 使用基于图像的对象跟踪进行定向声音捕获

Info

Publication number: CN113196737B
Application number: CN201980082414.4A
Authority: CN
Inventors: 钱昊
Original assignee: Hangzhou Taro Positioning Technology Co Ltd
Current assignee: Hangzhou Taro Positioning Technology Co Ltd
Priority date: 2019-01-09
Filing date: 2019-01-09
Publication date: 2022-10-11
Anticipated expiration: 2039-01-09
Also published as: US20220116700A1; WO2020142952A1; US11902737B2; CN113196737A

Abstract

一种定向声音捕获的方法。该方法包括：使用相机设备捕获包括附接到声源对象的光源的场景图像序列；通过基于图像序列上的局部光变化模式的硬件处理器检测所述场景中的光源；通过至少确定所述光源在图像序列中至少一幅图像中的位置，确定所述声源对象的方向；向耦合到麦克风的方向控制设备传输控制信号，将所述麦克风的灵敏度方向指向所述声源对象；以及使用所述麦克风并响应将麦克风的灵敏度方向指向所述声源对象来捕获从声源对象发出的声音。

Description

使用基于图像的对象跟踪进行定向声音捕获

背景技术

视场(FOV)是由相机成像的场景的范围。FOV内部的声源对象将出现在相机捕获和/或输出的图像中。例如，FOV可对应于相机镜头将输入到相机的光学传感器的光透射到其中的立体角。

声场是麦克风基于将声波的气压变化转换为电信号的换能器捕获的声波范围。麦克风的灵敏度是电信号幅度与声波幅度之比。常用的换能器包括在磁场中悬挂的电线线圈、作为电容器板的振动膜、压电晶体等。由于换能器的机械结构，麦克风在不同方向上可能具有不同的灵敏度。较高的灵敏度表示在特定方向(称为灵敏度方向)上接收的声波高于其他方向，从而在灵敏度方向上导致较高的信噪比。指向性(polarpattern)是麦克风在360度范围内灵敏度的变化类型，麦克风位于中央，0度代表麦克风的正面。麦克风的灵敏度方向是麦克风的指向性中灵敏度最高的方向。麦克风的常见指向性包括全向型、单向型和心型。全向型对从各个角度到达的声音同样敏感。单向型对直接来自前方的声音最敏感，而对其他方向的声音则较不敏感。心型的心形图案具有很宽的轴上拾取区域，并且在轴外180度处具有最大抑制。

发明内容

总体上，在一个方面，本发明涉及一种用于定向声音捕获的方法。该方法包括：使用相机设备捕获包括附接到声源对象的光源的场景图像序列(sequence ofimages)；通过基于图像序列上的局部光变化模式的硬件处理器检测所述场景中的光源；通过至少确定所述光源在图像序列中至少一幅图像中的位置，确定所述声源对象的方向；向耦合到麦克风的方向控制设备传输控制信号，将所述麦克风的灵敏度方向指向所述声源对象；以及使用所述麦克风并响应将麦克风的灵敏度方向指向所述声源对象来捕获从声源对象发出的声音。

总体上，在一个方面，本发明涉及一种定向声音捕获控制器。所述定向声音捕获控制器包括计算机处理器，和存储器，其耦合到计算机处理器并存储指令，在被执行时，导致计算机处理器执行以下操作：使用相机设备捕获包括附接到声源对象的光源的场景图像序列；基于图像序列上的局部光变化模式，检测所述场景中的光源；通过至少确定所述光源在所述图像序列的至少一幅图像中的位置来确定所述声源对象的方向；基于所述声源对象的方向，生成用于将麦克风的灵敏度方向指向所述声源对象的控制信号；以及使用所述麦克风并响应所述控制信号捕获从所述声源对象发出的声音。

总体上，在一个方面，本发明涉及一种用于定向声音捕获的系统。该系统包括光源，其被附接到在场景中的声源对象上；相机设备，其被配置为捕获所述场景图像序列；麦克风，其用于定向声音捕获；方向控制设备，其被耦合到所述相机设备和麦克风；以及定向声音捕获控制器，其被配置为：

基于图像序列上的局部光变化模式，检测所述场景中的光源；通过至少确定所述光源在所述图像序列的至少一幅图像中的位置来确定所述声源对象的方向；基于所述声源对象的方向，生成用于将麦克风的灵敏度方向指向所述声源对象的控制信号；以及使用所述麦克风并响应所述控制信号捕获从所述声源对象发出的声音。

总体上，一方面，本发明涉及一种非暂时性计算机可读介质，其存储用于分析场景中的声源对象的指令，所述指令在由计算机处理器执行时包括以下功能：使用相机设备捕获包括附接到声源对象的光源的场景图像序列；通过基于图像序列上的局部光变化模式的硬件处理器检测所述场景中的光源；通过至少确定所述光源在所述图像序列的至少一幅图像中的位置来确定所述声源对象的方向；向耦合到麦克风的方向控制设备传输控制信号，以将所述麦克风的灵敏度方向指向所述声源对象；以及使用所述麦克风捕获并响应将所述麦克风的灵敏度方向指向所述声源对象，捕获从所述声源对象发出的声音。通过以下描述和所附权利要求书，本发明的其他方面将变得显而易见。

附图说明

图1.1和1.2示出了根据本发明的一个或多个实施方案的系统的示意性框图。

图2示出了根据本发明的一个或多个实施方案的方法流程图。

图3.1、3.2、3.3、3.4、4、5和6示出了根据本发明的一个或多个实施方案的各种示例。

图7.1和7.2示出了根据本发明的一个或多个实施方案的计算系统。

具体实施方式

现在将参考附图详细描述本发明的特定实施方案。为了一致性，各个附图中的相同元件可以由相同的附图标记表示。

在下面对本发明的实施方案的详细描述中，阐述了许多具体细节以便提供对本发明的更透彻的理解。然而，对于本领域的普通技术人员将显而易见的是，本发明可以在没有这些具体细节的情况下被实施。在其他情况下，没有详细描述众所周知的特征，以避免不必要地使描述变得复杂。

在以下描述中，在本发明的各种实施方案中，附图描述的任何组件可以等同于任何其他附图描述的一个或多个相同名称的组件。为了简洁起见，基于各种图例隐式地标识了这些组件的至少一部分。此外，将不再重复每个附图中关于这些组件的描述。因此，每个附图的组件的每个和每一个实施方案通过引用的方式并入，并假定为可选地存在于具有一个或多个相同名称的组件的每个其他附图中。另外，根据本发明的各种实施方案，对附图的组件的任何描述都将被解释为可选的实施方案，该可选的实施方案可以附加地、结合于或代替与其他任何附图中对应的类似名称的组件相关的实施方案而实现。在附图中，黑色实线共线点表示可以可选地存在与实线共线点之前和/或之后的组件相似的附加组件。此外，连接附图的各组件的实线或虚线表示所连接的组件之间的关系。虚线表示该关系可能不包括任何物理连接或物理元件或不与之相关联。

在申请通篇中，序数(例如，第一、第二、第三等)可以用作元素(即，申请中的任何名词)的形容词。除非明确公开，例如通过使用术语“之前”，“之后”，“单个”和其他此类术语，否则序数的使用并不暗示或创建元素的任何特定顺序，也不意味着将任何元素限制为单个元素。相反，使用序数是为了区分元素。举例来说，第一元素不同于第二元素，并且第一元素可以包含一个以上的元素，并且可以按照元素的顺序在第二元素之后(或之前)。

本发明的实施方案提供了一种通过将麦克风对准声源对象来改善声音捕获的方法。在本发明的一个或多个实施方案中，在使用耦合到麦克风的相机设备捕获图像序列的同时，将光源附接到声源对象。在一个或多个实施方案中，光源在图像序列上生成局部光变化模式。基于局部光变化模式，在图像序列中检测光源。因此，通过至少确定光源在图像序列中的位置来确定声源对象的方向。然后生成控制信号，以将麦克风的灵敏度方向指向声源对象。响应于控制信号，使用麦克风捕获从声源对象发出的声音。

图1.1示出了根据一个或多个实施方案的系统100。在一个或多个实施方案中，图1.1中所示的一个或多个模块和元件可以被省略、重复和/或替换。因此，本发明的实施方案不应被认为限于图1.1所示的模块的特定布置。

如图1.1所示，系统100包括带有相机镜头111的相机设备110、耦合到所述相机设备110的麦克风112、定向声音捕获控制器120、方向控制设备 130、场景140、相机镜头111的视场(FOV)141、出现在FOV 141内的声源对象(例如，声源对象A 142a、声源对象B 142b)、远程光发射器114和附接到所述声源对象的光源(例如，光源A 143a、光源B 143b)。在本发明的一个或多个实施方案中，麦克风112和相机设备110彼此刚性耦合，使得麦克风112 的灵敏度方向113和相机镜头111的光轴基本上彼此对准。在本发明的一个或多个实施方案中，麦克风112的灵敏度方向113可以被电子调整以与相机镜头 111的光轴基本对准。在一个或多个实施方案中，麦克风112的基本对准的灵敏度方向113和相机镜头111的光轴彼此平行，并且彼此之间具有足够小的距离 (例如5英寸或更小)。在一个或多个实施方案中，麦克风112的基本对准的灵敏度方向113和相机镜头111的光轴彼此同轴。此外，将光源附接到声源对象意味着光源物理上位于距声源对象或声源对象的发声点预定的范围内。预定范围足够小(例如5英寸或更小)，使得光源的位置表示声源对象或声源对象的发声点的位置在足够小的公差(例如5英寸或更小)内。

光源是其中光源被相机设备110捕获的光源。例如，光源A 143a被示为附接到声源对象A 142a的反射光源，而远程光发射器114发出频闪光A 115照在反射光源A 143a上生成对象反射光116。另外，光源B 143b是附接到声源对象 B 142b上并发出频闪光B 117的本地光发射器。因此，由相机设备110通过相机镜头111捕获对象反射光116和频闪光B 117，有助于生成一张或多张图像。另外，环境光(未示出)也是对由相机设备110捕获的图像做出贡献的光源。术语“光源”还可以指由光源在捕获的图像中产生的对应点。在本发明通篇中，远程光发射器和本地光发射器被称为光发射器，并且频闪光可以由远程光发射器或本地光发射器发射。此外，相机设备110、麦克风112、定向声音捕获控制器120和方向控制设备130彼此通信耦合。在本发明的一个或多个实施方案中，远程光发射器114、相机设备110、麦克风112、定向声音捕获控制器120 和方向控制设备130中的两个或更多个被集成到单个设备中。例如，相机设备 110和麦克风112可以组合为单个设备。此外，定向声音捕获控制器120的至少一部分可以被包括在相机设备110中。在另一示例中，定向声音捕获控制器 120的至少一部分可以被包括在方向控制设备130中。在又一示例中，定向声音捕获控制器120的一部分被包括在相机设备110中，而定向声音捕获控制器120的另一部分被包括在方向控制设备130中。类似地，远程光发射器114可以与相机设备110、定向声音捕获控制器120或方向控制设备130集成在一起。

在本发明的一个或多个实施方案中，光发射器(例如，光源B 143b)的远程光发射器114或本地光发射器)是任何发光的设备。例如，光发射器可以以大角度(例如，超过45度的平面角、1平方弧度的立体角等)发光，作为泛光发射器。在另一个示例中，光可以发射准直光束作为准直光发射器。远程光发射器114可以与声源对象A 142a分开例如一定距离，例如1米或更大。在一个或多个实施方案中，光发射器包括发光二极管(LED)。在一个或多个实施方案中，频闪光(例如频闪光A 115、频闪光B 115)不时改变强度和/或波长。例如，频闪灯可以根据特定的占空比(即，当光模式具有亮水平时的时间百分比)和重复率(即在一个单位时间内强度改变的时间)产生自由运行的光变化模式。如本文所使用的，光变化模式是光的强度和/或波长变化的模式。在一个或多个实施方案中，与相机设备110的帧率相比，光发生器以低重复率(例如10赫兹、 20赫兹等)产生光变化模式。帧率是在单位时间内由相机设备110捕获的图像的数量(例如，连拍静止图像或录像)。在一个或多个实施方案中，光发生器产生与相机设备110的帧率同步的光变化模式。在一个或多个实施方案中，光发射器发射红外光。换句话说，频闪光具有例如在700纳米(nm)和1毫米(mm) 之间的红外波长。在本发明通篇中，术语“红外波长”是指700nm至1mm之间的波长。在一个或多个实施方案中，由频闪光产生的光变化模式表示编码的数字数据。例如，由红外频闪光产生的编码的数字数据可以类似于红外远程控制代码。

在本发明的一个或多个实施方案中，反射光源A 143a是声源对象A 142a的反射区域，其反射频闪光A 115以产生对象反射光116。在这种情况下，反射光源A 143a被称为发射对象反射光116。在一个或多个实施方案中，反射区域对红外波长的反射率高于对可见波长的反射率。例如，较高的反射率可以基于对红外波长的反射率比对可见波长的反射率高的反射材料。当频闪光A 115和环境光(未示出)都照在反射区域上时，对象反射光116的来自频闪光A 115的红外反射率(content)可能比来自环境可见光的可见光的反射率高。在一个或多个实施方案中，声源对象A 142a是人、动物、机器人或任何其他发出声音的物体，并且反射光源A 143a包括附着到声源对象A 142a的反射材料。类似地，声源对象B 142b也可以是人类、动物、机器人或任何其他发出声音的物体。虽然未明确示出，但是光源B 143b也可以是反射光源，并且包括附接到声源对象B 142b的反射材料。例如，反射材料可以是人、动物、机器人或任何其他运动物体穿戴或以其他方式附接的腕带、臂带、皮带、指环、吊坠、项链、帽子、手套、衣服等的一部分。在一个或多个实施方案中，反射材料可包括金属、介电材料或金属与介电材料的组合。在一个或多个实施方案中，反射材料可以是上述腕带、臂带、皮带、指环、吊坠、项链、帽子、手套、衣服等的表面上的涂层或涂膜。例如，涂层或涂膜可包括红外反射颜料，例如二氧化钛。特别地，二氧化钛对于红外波长可以具有超过75％的反射率。

在一个或多个实施方案中，反射材料包括几何图案，该几何图案对于红外波长具有几何变化的反射率，以产生几何光变化图案。特别地，反射材料的几何图案产生由相机镜头捕获的对象反射光的空间变化，作为与环境光的额外区别。换句话说，几何图案提高了反射光源的检测精度。如本文所使用的，几何光变化图案是根据几何图案的光强度变化的模式。例如，可以通过使用前述红外反射颜料例如二氧化钛的表面涂覆/喷涂来产生几何图案。在一个或多个实施方案中，来自反射光源A 143a的对象反射光116包括基于上述源自远程光发射器114的光变化模式的时间调制和/或基于反射光源A 143a的几何光变化图案的空间调制。

在本发明的一个或多个实施方案中，麦克风112是将声音转换成电信号的换能器。在一个或多个实施方案中，麦克风112对来自一个或多个方向的声音敏感，该方向指的是麦克风112的灵敏度方向113。结果，麦克风112对沿着麦克风112的灵敏度方向113定位的声源对象以更高的效率转换声音。在一个或多个实施方案中，麦克风112是麦克风阵列，其包括以阵列模式布置的多个麦克风，以增加麦克风112的方向性。换句话说，阵列模式沿着灵敏度方向113 增加了麦克风112的灵敏度，并且沿远离灵敏度方向113降低了麦克风112的灵敏度。波束成形是传感器阵列中用于定向信号传输或接收的信号处理技术。波束形成是通过将传感器阵列中的元素进行组合来实现的，以使特定角度的信号遭受相长干涉，而其他角度遭受相消干涉。波束形成技术可以在麦克风或麦克风阵列中用于定向声音输入和输出。由麦克风阵列中的多个麦克风捕获的信号以观察到预期的定向信号接收的方式进行组合。通过使用例如MVDR的波束形成算法，麦克风或麦克风阵列可以在单个方向上增加其灵敏度，同时在所有其他方向上减小灵敏度，从而创建具有比其他方向更高的灵敏度的波束形成方向。在一个或多个实施方案中，麦克风阵列具有由电子控制信号控制的可变波束形成方向。例如，电子信号可以调整如何使用波束形成算法来组合麦克风阵列中的多个麦克风捕获的不同信号。因此，通过电子控制信号来调整麦克风112 的灵敏度方向113。

在本发明的一个或多个实施方案中，相机设备110是具有用于拍摄照片和/ 或录像的相机镜头(例如，相机镜头111)和相关组件的设备。例如，相关组件可以包括互补金属氧化物半导体(CMOS)或电荷耦合器件(CCD)传感元件，其被配置为基于沿着相机镜头111的光轴投射到CMOS或CCD传感元件上的光来生成基于像素的图像。光轴是沿着其相机镜头111具有旋转对称性的线。在一个或多个实施方案中，相机镜头111与用于产生IR图像的CMOS或CCD 传感器以及用于产生可见光图像的CMOS或CCD传感器相关联。例如，IR图像传感元件和可见光传感元件可以彼此分离。在另一个示例中，IR图像传感元件和可见光传感元件可以集成在一起。换句话说，单个传感元件可以用于生成 IR图像和可见光图像两者。具有通信能力的专用相机是相机设备110的实例。在一个或多个实施方案中，相机设备110是移动设备，例如具有内置相机和内置麦克风的移动手机，称为智能手机。智能手机可以具有带有图形用户界面的显示器，该显示器占据正面的很大一部分(例如70％或更大)。相机镜头111可以在智能手机的正面或背面。

在一个或多个实施方案中，场景140是发生由相机设备110成像的动作或事件的地方。特别地，动作或事件可以与声源对象(例如，声源对象A 142a、声源对象B 142b)相关联。此外，一个或多个声源对象可以是静止的、不时运动的或在场景140内不断运动的。视场(FOV)141是由相机设备110使用相机镜头111成像的场景140的范围。换句话说，FOV 141内部的声源对象(例如，声源对象142)将出现在由相机设备110捕获和/或输出的图像中。例如， FOV 141可以对应于立体角，在该立体角内，相机镜头111透射输入到相机设备110的相关联的光学传感器(未示出)的光。在一个或多个实施方案中，FOV 141根据相机镜头111如何朝向场景140定向、相对于场景140变焦或相对于场景140定位而对应于场景140的不同部分。在一个或多个实施方案中，声源对象142可以在动作或事件期间在场景140内运动。

在一个或多个实施方案中，对象跟踪是使相机镜头111相对于场景140定向、相对于场景140缩放或相对于场景140定位的动作，以使在图像捕获期间，声源对象持续位于场景内，或与FOV 141中的目标位置对准。在本发明通篇中，术语“对象跟踪”和“跟踪”可以互换地使用。在一个或多个实施方案中，相机设备110包括硬件组件、软件组件或它们的组合。在一个或多个实施方案中，相机设备110可包括或使用参考下面的图7.1和7.2描述的计算系统700和网络720的至少一部分来实现。

在本发明的一个或多个实施方案中，方向控制设备130被配置为机械地保持相机设备110和麦克风112，并响应于来自定向声音捕获控制器120的控制信号来调整相机镜头111的方向和灵敏度方向113。例如，方向控制设备130 可以包括用于调整与麦克风112的灵敏度方向113对准的相机镜头111方向的电动倾斜和旋转设备。在另一个示例中，方向控制设备130可以包括用于调整相机镜头111相对于场景140的位置的电动水平和垂直滑动设备。滑动设备可以包括用于保持和移动相机设备110和麦克风112的机械平台。

在本发明的一个或多个实施方案中，方向控制设备130通过机械倾斜和/或旋转机构来调整相机设备110的方向，并通过波束形成信号处理操作来调整麦克风112的灵敏度方向113。例如，机械倾斜和/或旋转机构以及波束形成信号处理操作由来自定向声音捕获控制器120的控制信号控制。方向控制设备130 参照下面的图3.1、3.2、3.3和3.4进行描述。

在一个或多个实施方案中，定向声音捕获控制器120包括硬件组件、软件组件或其组合，其被配置为确定声源对象(例如，声源对象A 142a、声源对象B 142b)相对于麦克风112的方向。在一个或多个实施方案中，定向声音捕获控制器120还被配置为通过将麦克风112持续地指向声源对象(例如，声源对象 A 142a、声源对象B 142b)来生成控制信号并将其传输到方向控制设备130，以执行对象跟踪。在一个或多个实施方案中，定向声音捕获控制器120包括参考下面图1.2描述的组件。

尽管图1.1中所示的光源既包括本地光发射器又包括反射光源，在仅使用本地光发射器器或仅使用反射光源的情况下，其他配置也是可能的。例如，光源A 143a和光源B143b都可以是本地光发射器。在另一示例中，光源A 143a和光源B 143b都可以是由单个远程光发射器114发出的反射光源。

尽管图1.1所示的系统100仅包含一个相机设备和麦克风，包含多个相机设备和多个麦克风也是可能的。例如，多个相机设备和麦克风可以被配置为同时跟踪具有不同编码光源的不同声源对象而不产生冲突。

图1.2示出了根据一个或多个实施方案的定向声音捕获控制器120的细节。图1.2的下列描述是指以上图1.1中描述的各种组件。在一个或多个实施方案中，

图1.2中所示的一个或多个模块和元件中可以被省略、重复和/或替换。因此，本发明的实施方案不应被认为限于图1.2所示的模块的特定布置。

如图1.2所示，定向声音捕获控制器120包括硬件处理器121、存储器122 和存储库123。在本发明的一个或多个实施方案中，硬件处理器121对应于以下图7.1所示的计算机处理器702。类似地，存储器122和存储库123对应于以下图7.1中所描绘的非持久性存储器704和/或持久性存储器706。例如，存储器122可以存储软件指令，该软件指令在被执行时使硬件处理器121执行以上图1.1中描绘的定向声音捕获控制器120的功能。在一个或多个实施方案中，定向声音捕获控制器120根据参考下面的图2描述的方法流程图来确定声源对象的方向并执行对象跟踪功能。在一个或多个实施方案中，存储器122存储指令以执行参考下面的图2描述的方法流程图的一个或多个部分。在一个或多个实施方案中，定向声音捕获控制器120和相机设备110被集成到单个设备中。在这样的实施方案中，执行参考图2描述的方法流程图的一个或多个部分的指令是移动应用程序或移动app的一部分，移动应用程序是一种用户可安装的软件应用程序，设计为在智能手机或其他移动设备上运行。

进一步如图1.2所示，储存库123包括图像序列126、光变化模式124、位移125、运动参数128、目标位置127和控制信号129。例如，图像A 126a 对应于场景140的在特定时间点被FOV 141覆盖的部分。光变化模式124是光强度和/或波长在图像序列126上的不同强度水平和/或波长之间交替的模式。

在一个或多个实施方案中，光变化模式124对应于图像序列126的每幅图像中的斑点。例如，可以通过每幅图像中的像素位置或连接的像素位置的集合来定义斑点。在此上下文中，将光变化模式124称为由相机设备110捕获的局部光变化模式。在一个或多个实施方案中，光变化模式124由频闪光(例如，频闪光A 115、频闪光B 117)产生，并指示光源143(例如，光源A 143a、光源B 143b)在每幅图像内的位置。换句话说，可以基于在图像序列126上找到光变化模式124的位置来确定每幅图像内的光源(例如，光源A 143a、光源B 143b)的位置。例如，光变化模式124指示光源在图像A 126a中的位置A 127a 处。类似地，图像序列126中的每个其他图像与光源的位置相关联。目标位置 127是定向声音捕获控制器120被配置为用于跟踪声源对象(例如，声源对象A 142a、声源对象B 142b)的预定位置。例如，目标位置127可以被定义为FOV 141的中心，其对应于图像序列126中的每幅图像的中心。换句话说，定向声音捕获控制器120被配置为调整FOV 141，使得被跟踪的声源对象出现在调整之后的图像的中心(即，目标位置127)。在其他示例中，目标位置127可以被定义为FOV 141中的另一个相关位置(与中心位置不同)。位移125是目标位置127和图像中的光源的位置(例如，位置A 127a)。在一个或多个实施方案中，位移125包括水平方向距离和垂直距离。位移125可由基于多个像素或任何其他合适的距离比例表示。在一个或多个实施方案中，声源对象可以是使得光源的位置(例如，位置A 127a)可以在图像序列126中从一幅图像到另一幅图像变化的声源对象。在这样的实施方案中，运动参数128是光源的位置(例如，位置A127a)随时间的变化率。例如，运动参数128可以包括光源的位置 (例如，位置A 127a)从图像序列126中的一幅图像到下一图像的变化。取决于跟踪的声源对象的运动方向，运动参数128可以包括水平部分和垂直部分。在数学上，运动参数128对应于位移125随时间的导数。

在一个或多个实施方案中，光变化模式124包括光强度变化和/或光波长变化。特别地，光强度变化和/或光波长变化与变化的重复率相关。在一个或多个实施方案中，光强度变化和/或光波长变化以及相关的重复率定义了数字代码。例如，数字代码可以包括头部和随后的数字模式，其中头部和随后的数字模式可以在光变化模式124内重新出现。该数字代码对于场景140中的每个光源可以是不同的，并且可以用于识别与光源附接的声源对象。在这种情况下，将由光强度变化和/或光波长变化与光变化模式124的相关重复率定义的数字代码称为对象识别码124a。在一个或多个实施方案中，光强度变化和/或光波长变化是由光发生器产生的时间变化。在一个或多个实施方案中，光强度变化和/或光波长变化还包括由反射光源的前述几何图案产生的空间变化。

在一个或多个实施方案中，控制信号129是软件应用程序使用的指定相机方向/缩放信息和/或波束形成信息的数字数据消息，以执行对象跟踪和/或波束形成算法。例如，数字数据消息可以作为控制信号129无线地传输。在一个或多个实施方案中，控制信号129是模拟电信号，其触发硬件以执行相机定向和/或缩放功能以用于对象跟踪。例如，模拟电信号可以是无线信号。

在一个或多个实施方案中，定向声音捕获控制器120基于图像序列126、光变化模式124、位移125、运动参数128和目标位置127来确定声源对象的方向并执行对象跟踪功能，以生成如上所述的控制信号129。图像序列126、光变化模式124、对象识别码124a、位移125、运动参数128的示例参照下面的图4-6所述。

图2示出了根据一个或多个实施方案的流程图。图2所示的过程可由例如由以上讨论的参照图1.1和1.2的一个或多个组件来执行。图2中所示的一个或多个步骤在本发明的不同实施方案之间，可以以不同的顺序被省略、重复和/或执行。因此，本发明的实施方案不应被认为限于图2中所示的步骤的特定数目和布置。

图2中描绘的流程图描述了一种确定声源对象的方向并执行声源对象的对象跟踪功能的方法。声源对象可以是静止的、不时运动的或在场景内不断运动的。

最初，在步骤201中，激活场景内的光源。在本发明的一个或多个实施方案中，光源是附接到场景中声源对象的反射区域。在这些实施方案中，通过使用远程光发射器将频闪光发射并投射到反射区域上来激活反射光源。例如，当远程光发射器打开时，频闪光以自由运行的光模式(pattern)发射。结果，频闪光被反射区域反射，以产生具有相同自由运行的光模式的对象反射光。在本发明的一个或多个实施方案中，光源是附接到场景中声源对象的本地光发射器。在这些实施方案中，通过激活本地光发射器发射频闪光来激活光源。例如，当打开本地光发射器时，频闪光以自由运行的光模式发射。

在一个或多个实施方案中，与相机设备的帧率相比，频闪光和对象反射光具有低重复率(例如10赫兹，20赫兹等)的频闪光。在一个或多个实施方案中，频闪光和对象反射光与相机设备的帧率同步。例如，可以基于从跟踪控制器和/ 或相机设备发送的触发信号来启动和/或同步频闪光。在一个或多个实施方案中，频闪光和/或对象反射光的强度和/或波长随着相关的重复率而改变，以限定对象识别码。

在步骤202中，由相机设备捕获场景图像序列。尤其是，声源对象在相机镜头的视场(FOV)内，并出现在图像序列中。例如，图像序列可以包括连拍静止图像或作为其一部分。在另一个示例中，图像序列可以包括录像或可以是录像的一部分。在一个或多个实施方案中，在光源发射对象反射光或频闪光的同时捕获场景图像序列。在一个或多个实施方案中，基于光源的占空比和/或重复率来选择图像序列的帧率，以使得连续图像(或序列中具有特定间隔的一对图像)包括光发射器的交替亮水平和暗水平，和/或交替波长。例如，远程或本地光发射器可以是自由运行的，并且基于自由运行光源的占空比和/或重复率来选择帧率。在一个或多个实施方案中，基于图像序列的帧率来选择光发射器的占空比和/或重复率，使得连续图像(或在序列中具有特定间隔的一对图像)包括光发射器的交替亮水平和暗水平，和/或交替波长。例如，帧率可以是预定的，并且光发射器例如基于来自相机设备的触发信号而与帧率同步。

在步骤203中，基于图像序列上的局部光变化模式，检测场景中的光源。具体地，来自光源的对象反射光或频闪光引起由相机设备的光学传感器接收的光强度和/或波长的改变，从而导致图像序列上的局部光变化模式。在一个或多个实施方案中，调整光源强度以控制在每幅图像中发现局部光变化模式的位置的大小。例如，位置大小可以被限制为FOV的水平和垂直尺寸的百分比(例如， 1％，3％等)。在一个或多个实施方案中，定义位置和大小，在该位置和大小中，相机设备的光学传感器识别出的连续图像中交替亮水平和暗水平和/或交替波长之差超过预定阈值。在一个或多个实施方案中，该位置被称为光源在图像中的位置。

在一个或多个实施方案中，通过减去对应像素的强度和/或波长值来比较图像序列中的一对图像。具体地，强度和/或波长值由光学传感器产生。例如，强度值可以对应于单色CMOS(互补金属氧化物半导体)传感器的像素输出值。在另一示例中，可以分析RGB CMOS传感器的输出值以确定每个像素的波长值。特别地，从另一图像中的相应像素的强度和/或波长值中减去一幅图像中的像素的强度和/或波长值以生成减法结果。选择在减法结果中发现交替的亮水平和暗水平，和/或交替波长的差异的像素作为光源在图像中的位置的一部分。根据光源的占空比/重复率与图像序列的帧率的关系，这对图像可以是连续图像，也可以是被特定数量的图像分开的两幅图像，例如每三幅图像等。

在一个或多个实施方案中，从局部光变化模式提取对象识别码以从场景内的多个光源识别光源。在一个或多个实施方案中，分析局部光变化模式以检测预定的头部模式。一旦检测到，则遵循预定的头部模式的模式被提取作为识别特定光源或对应声源对象的独特代码。在一个或多个实施方案中，独特代码具有用于对对象识别码进行定界(de-limit)的数字比特的预定长度或数量。在其他实施方案中，可以基于其他准则来对对象识别码进行定界。

在一个或多个实施方案中，在场景内的多个声源对象被同时跟踪，其中每个声源对象与具有独特的对象识别码的单个光源附接。换句话说，在图像序列上的多个位置处发现多个光变化模式，其中每个光变化模式包括与其他光变化模式的任何对象识别码不同的独特的对象识别码。因此，基于各自的光变化模式，将每个光源识别为与其他光源不同。因为每个光源都与它所附接的声源对象唯一关联，所以每个声源对象会根据相应的对象识别码在图像序列上进行单独跟踪。

在一个或多个实施方案中，通过迭代步骤202至204来检测和识别多个光源。例如，每个迭代可以基于由用户输入指定的特定对象识别码。在一个或多个实施方案中，来自图像序列的图像被呈现给用户界面窗口，其中用户可以通过点击或以其他方式选择多个检测到的光源之一来选择声源对象。一旦被选择，则被选择的光源的对象识别码被用于确定与被选择的声源对象相对应的被选择的光源的位置。因此，在步骤205至步骤209中，跟踪所选择的声源对象以继续进行图像捕获。用户可以不时使用用户界面来选择不同的声源对象，一旦将所跟踪的声源对象切换为不同的声源对象，使用新选择的光源的不同的对象识别码来确定与新选择的声源对象相对应的新选择的光源的位置。因此，在步骤 205至步骤209中，跟踪新选择的声源对象以继续进行图像捕获。

在步骤204中，分析图像序列以确定检测和识别的光源在至少一幅图像中的位置以及光源在图像序列上的运动。在一个或多个实施方案中，基于相机设备的光学传感器识别出的图像序列中的交替的亮水平和暗水平和/或交替波长之差超过预定阈值的位置来确定光源的位置。在一个或多个实施方案中，基于图像序列上的位置的变化率来确定光源的运动。

在步骤205中，响应于检测和识别光源，将光源的位置和至少一幅图像内的目标位置进行比较以产生结果。在一个或多个实施方案中，结果包括该位置和目标位置之间的位移。在一个或多个实施方案中，位移可以在图像序列中从一幅图像到另一幅图像变化，指示该声源对象是运动对象。在这样的实施方案中，例如，从一幅图像到下一图像的位移随时间的变化率被计算为运动参数。

在步骤206中，基于用于定向相机设备的结果和/或控制麦克风的灵敏度方向生成控制信号。在一个或多个实施方案中，控制信号被配置为在与位移相反的方向上调整相机镜头的方向。在一个或多个实施方案中，控制信号被配置为在与位移相反的方向上调整相机相对于场景的相对位置。在一个或多个实施方案中，在微调由控制信号引起的调整量时，应考虑运动参数。在一个或多个实施方案中，控制信号用于定向相机设备和/或控制麦克风的灵敏度方向，使得相机镜头的光轴和麦克风的灵敏度方向在跟踪声源对象的同时基本对准。

在步骤207中，将控制信号传输到安装有相机设备和麦克风的方向控制设备(例如相机手持手柄、倾斜和旋转设备等)。例如，在将相机设备和麦克风一起安装到方向控制设备之前，相机设备和麦克风可以彼此刚性耦合。在另一示例中，相机设备和麦克风可以被单独安装到方向控制设备并且通过方向控制设备彼此耦合。在一个或多个实施方案中，将麦克风和相机设备耦合使得麦克风的灵敏度方向和相机镜头的光轴基本上彼此对准。由于耦合了麦克风和相机设备并且响应于控制信号，将相机镜头/麦克风的方向或相机设备/麦克风的相对位置在与位移相反的方向上进行调整。在一个或多个实施方案中，通过在与位移相反的方向上进行调整，麦克风的灵敏度方向逐渐朝向声源对象指向或定向。在一个或多个实施方案中，麦克风是麦克风阵列，并且麦克风的灵敏度方向通过调整麦克风阵列的波束形成方向而逐渐指向或定向朝向声源对象。

在步骤208中，在相机设备的FOV内检测目标位置和光源之间的基本对准。特别地，基本对准是在与位移相反的方向上调整相机镜头/麦克风的方向或相机设备/麦克风的相对位置的结果。

在步骤209中，响应于检测基本对准，使用麦克风捕获从声源对象发出的声音。因为基本对准对应于使麦克风的灵敏度方向与声源对象的方向对准，所以基于麦克风沿灵敏度方向的较高灵敏度来捕获声音。

在一个或多个实施方案中，监视捕获的声音以检测超过预定阈值的音量的任何变化。例如，音量的变化超过预定阈值可指示麦克风的灵敏度方向和声源对象的方向未对准。因此，可以发起纠正动作，例如返回到上面的步骤202。

在一个或多个实施方案中，分析所捕获的声音以生成所跟踪的声源对象的声音签名(signature)。例如，声音签名可以表示作为声源对象的人、动物或机器人的语音特性。因此，声音签名可以用于所捕获的声音或其他声音记录的进一步信号处理(例如，滤波)。

在一个或多个实施方案中，分析捕获的声音以生成与作为声源对象的人、动物或机器人的嘴形(或其他面部表情)的相关性。例如，可以通过将嘴形识别算法应用于上面的步骤202中捕获的一个或多幅图像来生成嘴形。因此，可以使用相关性来改善捕获的声音的语音识别。

在一个或多个实施方案中，在调整麦克风的灵敏度方向的同时，分析所捕获的声音以确定信噪比S/N。S/N比可以形成以峰值声音方向为中心的峰值分布 (例如，高斯分布)。因此，峰值声音方向可用于微调控制信号，以使相机镜头的光轴和/或麦克风的灵敏度方向与峰值声音方向基本对准。

在步骤210中，确定是否继续声音捕获。如果确定为肯定，即，将继续声音捕获，则该方法进行至步骤211。如果确定为否定，即，将不继续声音捕获，则该方法结束。

在步骤211中，通过跟踪相同的声源对象或通过跟踪不同的声源对象来确定是否继续声音捕获。如上所述，步骤211中的确定可以基于在导致步骤211 的步骤202至209的迭代期间接收到的用户输入。如果确定指示通过跟踪相同的声源对象来继续声音捕获，则该方法返回步骤202。如果确定指示通过跟踪不同的声源对象来继续声音捕获，则该方法返回到步骤203。在一个或多个实施方案中，可以通过自动识别在上面的步骤202中捕获的一个或多幅图像中的预定的声音反射对象(例如，墙壁，桌子，椅子等)来检测不同的声源对象。例如，因此，可以基于从场景中的声源对象的集合捕获声音来执行环境声场分析和/或合成。特别地，声源对象的集合可以包括一个或多个附接相应光源的声源对象，以及从捕获的图像中自动检测到的声音反射对象。

图3.1、3.2、3.3、3.4、4、5和6示出了根据本发明的一个或多个实施方案的各种示例。图3.1、3.2、3.3、4、5和6所示的示例可以是例如基于以上图1.1 和1.2中描绘的一个或多个组件和以上图2中描述的方法流程图。在一个或多个实施方案中，图3.1、3.2、3.3、3.4、4、5和6中所示的模块和元件中的一个或多个可以被省略、重复和/或替换。因此，本发明的实施方案不应被认为限于图 3.1、3.2、3.3、3.4、4、5和6所示的模块的特定布置。

图3.1示出了单个设备310作为以上图1.1中描绘的相机设备110、麦克风 112和定向声音捕获控制器120的集成示例。如图3.1所示，单个设备310沿着旋转轴线315旋转地耦合到方向控制设备130。在一个示例中，单个设备310 和方向控制设备130是可分离的并且彼此旋转地耦合。在另一示例中，方向控制设备130是与单个设备310集成的旋转基座。

在示例场景中，单个设备310、相机镜头311和麦克风312对应于以上图 1.1中描绘的相机设备110、相机镜头111和麦克风112。相机镜头311和麦克风312经由单个设备310的刚性外壳彼此耦合。因此，相机镜头311的光轴314 和麦克风312的灵敏度方向313基本上彼此对准。在一个或多个实施方案中，麦克风312包括布置为麦克风阵列的三个麦克风，以沿着灵敏度方向313集中声音捕获灵敏度。在下面的描述中，麦克风和麦克风阵列可以互换使用，并且麦克风可以是麦克风阵列的一部分或可以不是麦克风阵列的一部分。通过将光源A143a的位置与由相机镜头311捕获的图像的中心位置对准，使灵敏度方向 313朝向声源对象A 142a定向以实现最佳的声音捕获。用户可以将对象跟踪从声源对象A 142a改变为声源对象B 142b。响应于这种改变，光源B 143b的位置与由相机镜头311捕获的图像的中心位置对准，使得灵敏度方向313朝向声源对象B 142b定向以获得最佳声音捕获。

在替代配置中，麦克风312可以被禁用或以其他方式从单个设备310中省略。在这样的替代配置中，外部麦克风(未示出)可以经由刚性耦合槽316安装到单个设备310，并且经由连接器317连接到单个设备310。

在另一替代配置中，相机镜头311可以被禁用或以其他方式从单个设备 310中省略。在这样的替代配置中，相机移动设备201可以经由刚性耦合槽316 安装到单个设备310并且无线地(例如，经由蓝牙、NFC、USB、WiFi或其他无线/有线通信接口)连接到单个设备310。相机移动设备201(例如，具有通信能力的智能手机或专用相机)对应于以上图1.1所示的相机设备110。单个设备310对应于以上图1.11示的麦克风112和定向声音捕获控制器120的组合。

在又一替代配置中，相机镜头311和麦克风312可以被禁用或以其他方式从单个设备310中省略。在这样的替代配置中，相机移动设备201可以经由刚性耦合槽316安装到单个设备310并且无线地(例如，经由蓝牙、NFC、USB、 WiFi或其他无线/有线通信接口)连接到单个设备310。相机移动设备201(例如，具有通信能力的智能手机或专用相机)对应于以上图1.1所示的相机设备 110和麦克风112的组合。单个设备310对应于以上图1.1中描绘的定向声音捕获控制器120。

在又一替代配置中，可以全部启用相机镜头311、麦克风312和相机移动设备201。相机镜头311可以专用于跟踪声源对象，而相机移动设备201可以专用于捕获和输出声源对象的图像。在这样的配置中，相机镜头311和相机移动设备201一起对应于以上图1.1所示的相机设备110。

图3.2示出了电动相机移动设备支架(stand)210，作为以上图1.1中所示的方向控制设备130的示例。另外，由电动相机移动设备支架210机械地保持的相机移动设备201(例如，具有相机镜头311和麦克风312的智能手机)是以上图1.1所示的相机设备110和麦克风112的示例。定向声音捕获控制器120 可以被嵌入在电动相机移动设备支架210和/或相机移动设备201内。在本发明的一个或多个实施方案中，电动相机移动设备支架210是机电组件，其包括固定器(holder)221、倾斜轴203、U-托架(bracket)204、旋转轴209和支架(stand)222。固定器221被构造成机械地保持相机移动设备201并且机械地联接至倾斜轴203。支架222被配置为在放置在固体表面上时保持电动相机移动设备支架210的机械稳定性。尽管未明确示出，但是U-托架204容纳耦合至倾斜轴203的倾斜电机、耦合至旋转轴209的旋转电机、以及被配置为与图1.1 中描述的相机设备110通信的通信接口。例如，通信接口可以基于蓝牙、NFC、 USB、WiFi、或其他无线/有线通信接口。在一个或多个实施方案中，响应于经由通信接口从定向声音捕获控制器120接收到的控制信号，旋转轴209可通过旋转电机绕旋转轴209-1旋转。类似地，响应于经由通信接口从定向声音捕获控制器120接收到的控制信号，倾斜轴203可通过倾斜电机绕倾斜轴203-1旋转。响应于使固定器221围绕倾斜轴203-1倾斜和/或使固定器221与倾斜轴 203和托架204一起围绕旋转轴209-1旋转，可以调整相机镜头311和麦克风 312的方向。

图3.3示出了作为以上图1.1所示的方向控制设备130的示例的相机移动设备手持式手柄800。另外，由相机移动设备手持式手柄800机械地保持的相机移动设备201(例如，具有相机镜头311和麦克风312的智能手机)是以上图 1.1中描绘的相机设备110和麦克风112的示例。定向声音捕获控制器120可以被嵌入在电动相机移动设备支架210和/或相机移动设备201内。在本发明的一个或多个实施方案中，相机移动设备手持式手柄800是一种机电组件，包括固定器221、倾斜轴203、倾斜电机213、旋转轴209、旋转电机219和手持式手柄222。固定器221被构造成机械地保持相机移动设备201并机械地联接至倾斜轴203。手持式手柄222被配置为在被观看者手持时保持相机移动设备手持式手柄800的机械稳定性。尽管未明确示出，但是手持式手柄222包括通信接口，该通信接口被配置为与以上图1.1所示的相机设备110通信。例如，通信接口可以基于蓝牙、NFC、USB、WiFi、或其他无线/有线通信接口。在一个或多个实施方案中，旋转轴209响应于经由通信接口从定向声音捕获控制器 120接收到的控制信号，由旋转电机219绕旋转轴209-1旋转。类似地，倾斜轴203响应于经由通信接口从定向声音捕获控制器120接收到的控制信号而由倾斜电机213绕倾斜轴203-1是可旋转的。响应于使固定器221围绕倾斜轴 203-1倾斜和/或使固定器221与倾斜轴203和倾斜电机213一起围绕旋转轴 209-1，可以调整相机镜头311和麦克风312的方向。尽管在图3.3中示出的示例是基于与两个机械轴相关联的两个电机，其他示例可以是基于与三个机械轴相关联的三个电机，而不脱离本发明的范围，其中第三电机可以是附加的旋转电机，例如带有图3.4所示的附加旋转轴209-2的附加的旋转电机331。具体地，图3.4示出了具有三个电机的相机移动设备手持式手柄800，作为如以上图1.1 中所示的方向控制设备130的示例。

图4示出了以上图1.1和1.2所示的光源，例如，光源A 143a、光源B 143b 的光变化模式124的示例。如图4所示，水平轴对应于时间，垂直轴对应于光强度。特别是，光变化模式124是随着时间在亮水平(bright level)400a和暗水平(dark level)400b之间交替的光强度的模式。例如，光强度的亮水平400a 在时间段A410上维持，并且可以一定的重复率随时间重复出现。当光强度随时间在亮水平400a和暗水平400b之间交替时，相机设备会定期捕获图像序列。例如，可以在彼此分开时间段B 420、时间段C 430，等的时间点A401a、时间点B401b、时间点C 401c等处捕获序列中的连续图像。具体而言，时间段A410 包含至少一幅图像捕获时间点，例如时间点B 401b。在时间点A401a捕获的暗水平400b，在时间点B 401b捕获的亮水平400a，在时间点C 401c捕获的暗水平400b等的交替序列形成了相机设备捕获的上述局部光变化模式。尽管在图4 中描绘的光变化模式124是光强度变化的模式，但是在其他示例中，光变化模式124也可以包括波长变化。换句话说，亮水平400a和暗水平400b可以用不同的波长代替或补充以表示波长变化。

图4所示的光变化模式124可以沿着时间轴在时间点序列和图像序列上扩展以定义对象识别码。例如，对象识别码A402a和对象识别码B 402b在以下图 4使用不同的时标的光变化模式124中示出。在一个或多个实施方案中，每幅图像中的光强度水平和/或波长值定义了数字数据位。在其他实施方案中，光强度水平和/或波长值在多个重复出现的图像集中的每幅图像集中都是恒定的，其中每幅图像集对应于一个数字数据位。换句话说，数字数据位可以对应于单幅图像或图像集。在对象识别码A402a和对象识别码B 402b的每一个中，不同的数字数据位模式(pattern)由头401和尾403界定。例如，头401和尾403可各自包含8个连续的“零”数字数据位。插入在头401和尾403之间的对象识别码A402a包括数字数据位模式“1010101010101010”，而对象识别码B 402b 包括数字数据位模式“1010010101011010”。因此，数字数据位模式“1010101010101010”和数字数据位模式“1010010101011010”用于识别或选择附接到以上图1.1和1.2中描绘的场景140内的两个不同声源对象的两个不同光源。

图5示出了以上图1.1和1.2中描绘的场景140的图像序列126的示例。如图5所示。图像序列126包括在以上图4描述的时间点A401a、时间点B 401b、时间点C 401c等捕获的图像A 126a、图像B 126b、图像C 126c等。根据参考以上图4描述的光变化模式124的示例，光源，例如，光源A 143a、光源B 143b 在图像A 126a、图像B 126b、图像C 126c等中标记为“a1”或“a2”的位置处显示为交替的暗点和亮点。相反，光强度在图像A 126a、图像B 126b、图像C 126c 等中标记为“b”的另一个位置基本保持恒定。例如，可以通过减去图像A 126a和图像B 126b中的对应像素的强度值来确定标记为“a1”的位置以生成减法结果126d。类似地，可以通过减去图像B 126b和图像C 126c中的对应像素的强度值以生成减法结果126d来进一步确定标记为“a1”的位置。在减法结果126d 中，黑色表示无差异，而白色表示非零差异或超过上述预定阈值的差。因此，光源(例如，光源A 143a)的位置对应于减法结果126d中的白点。在另一示例中，可以类似方式确定标记为“a2”的位置，以检测图像内不同光源(例如，光源B 143b)的位置。

进一步如图5所示，将每幅图像的中心定义为目标位置127。因此，从标记为“a1”的位置到目标位置127的距离对应于位移125。图5所示的标记为“a1”的位置、目标位置127和位移125分别是以上图1.2所描述的位置A 127a、目标位置127和位移125的示例。在一个或多个实施方案中，标记为“a1”的位置在图像A 126a、图像B 126b、图像C 126c等之间变化。标记为“a1”的位置在图像A 126a、图像B 126b、图像C 126c等上的变化率对应于以上图1.2所示的运动参数128。尽管未明确示出，但是在不同示例中，位移125和/或运动参数128也可以对应于标记为“a2”的位置。

图6示出了参考以上图1.2和4描述的图像序列126和光变化模式124的示例。在示例场景中，目标位置是图像的中心。如图6所示，当以上图4中所示的对象识别码A402a被用于对象跟踪时，在图像序列126中的图像(例如，图像A 126a)的左侧部分的位置处识别光源A 143a。特别地，光源A 143a是包含在男性(即，声源对象A 142a)佩戴的指环或腕带部分中的反光材料。例如，基于以上图5所示的图像A 126a、图像B 126b、图像C 126c等中的交替的暗点和亮点“a1”来识别光源A 143a的位置。特别的，图像A 126a、图像B 126b、图像C 126c等中的交替的暗点和亮点“a1”展示出定义与光源A 143a关联的对象识别码A402a的时间和/或空间变化。因为目标位置(即，图像中心)在光源位置的右侧，所以声源对象定向声音捕获控制器120被配置为将相机设备 110朝向左侧定向，使得男性(即，持有/穿戴光源A143a的声源对象A 142a) 出现在图像的中心。因此，使用对象识别码A402a，基于所识别的光源A 143a 的位置“a1”来调整相机设备110的方向，使得声源对象A 142a出现在图像X126x的中心，其为图像A 126a、图像B 126b、图像C 126c之后的图像126序列之一。因为相机设备110和麦克风112彼此耦合，所以麦克风112的灵敏度方向指向或定向为朝向声源对象A142a。通过使麦克风112的灵敏度方向朝着声源对象A 142a指向/定向，由声源对象A 142a发出的声音(例如，男性发出的声音)被用更高灵敏度的麦克风112沿灵敏度方向捕获。

进一步如图6所示，当图4中描绘的对象识别码B 402b被用于对象跟踪时，在图像序列126中的图像(例如，图像A 126a)的左侧部分的位置处识别光源 B 143b。特别地，光源B 143b是女性(即，声源对象B 142b)佩戴的指环或腕带的一部分。例如，基于图像A 126a、图像B 126b、图像C 126c等中的交替的暗点和亮点“a2”来识别光源B 143b的位置，如以上图5所示。特别地，图像 A 126a、图像B 126b、图像C 126c等中的交替的暗点和亮点“a2”表现出定义与光源B 143b相关联的对象识别码B 402b的时间和/或空间变化。因为目标位置(即，图像中心)在光源位置的右侧，所以定向声音捕获控制器120被配置为将相机设备110朝向左侧定向，使得持有/穿戴光源B 143b的女性(即，声源对象B 142b)出现在图像的中心。因此，使用对象识别码B 402b，基于光源B 143b 的识别出的位置“a2”来调整相机设备110的朝向，以使声源对象B 142b出现在图像X 126x的中央。因为相机设备110和麦克风112彼此耦合，所以将麦克风112的灵敏度方向指向或定向为朝向声源对象A 142a。通过将麦克风112的灵敏度方向指向或定向为朝向声源对象B 142b，由声源对象B 142b发出的声音(例如，由女性发出的声音)被更高灵敏度的麦克风112沿灵敏度方向捕获。

通过将具有不同的对象识别码的不同光源附接到场景中的多个声源对象，可以方便地在场景中的不同声源对象之间切换对象跟踪。例如，如上所述，在将跟踪的声源对象从男性切换到女性的同时，可以继续录音而不会中断。

为了改善对象跟踪的精度，除了基于图像A 126a、图像B 126b、图像C 126c 中的交替的暗点和亮点检测反射光源143的位置以外，如以上图5中所示，交替的暗点和亮点的几何形状基于匹配于男性(即，声源对象142)所戴的指环或腕带的一部分中包含的反射材料的几何形状来限定。换句话说，在识别反射光源143时，图像A 126a、图像B 126b、图像C126c等中与反射图案的几何形状不匹配的任何交替的暗点和亮点被排除在外。

本发明的实施方案可以在计算系统上实现。可以使用移动设备、台式机、服务器、路由器、交换机、嵌入式设备或其他类型的硬件的任何组合。例如，如图7.1所示，计算系统700可以包括一个或多个计算机处理器702、非持久性存储器704(例如，易失性存储器，诸如随机存取存储器(RAM)、高速缓存存储器)、持久性存储器706(例如，硬盘，诸如光盘(CD)驱动器或数字多功能盘(DVD)驱动器之类的光盘驱动器、闪存等)、通信接口712(例如，蓝牙接口、红外接口、网络接口、光接口等)以及许多其他元件和功能。

计算机处理器702可以是用于处理指令的集成电路。例如，一个或多个计算机处理器可以是处理器的一个或多个核心或微核心。计算系统700还可以包括一个或多个输入设备710，例如触摸屏键盘鼠标麦克风触摸板电子笔或任何其他类型的输入设备。

通信接口712可以包括用于将计算系统700连接到网络(未示出)(例如，局域网(LAN)，例如互联网、移动网络或任何其他类型的网络)和/或连接到另一个设备，例如另一个计算设备。

此外，计算系统700可以包括一个或多个输出设备708，例如屏幕(例如，液晶显示器(LCD)、等离子显示器、触摸屏、阴极射线管(CRT)监视器)、投影仪或其他显示设备)、打印机、外部存储设备或其他任何输出设备。一个或多个输出设备可以与输入设备相同或不同。输入和输出设备可以本地或远程地连接到计算机处理器702、非持久性存储器704和持久性存储器706。存在许多不同类型的计算系统，并且前述输入和输出设备可以采取其他形式。

用于执行本发明的实施方案的计算机可读程序代码形式的软件指令可以全部或部分地临时或永久地存储在非暂时性计算机可读介质上，例如CD、DVD、存储设备、软盘、磁带、闪存、物理内存或任何其他计算机可读存储介质。具体地，软件指令可以对应于计算机可读程序代码，其在被处理器执行时被配置为执行本发明的一个或多个实施方案。

图7.1中的计算系统700可以连接到网络或成为网络的一部分。例如，如图7.2所示，网络720可以包括多个节点(例如，节点X 722、节点Y 724)。每个节点可以对应于计算系统，使得图7.1中所示的计算系统或者组合的一组节点可以对应于图7.1中所示的计算系统。举例来说，本发明的实施方案可以在连接到其他节点的分布式系统的节点上实现。作为另一示例，本发明的实施方案可以在具有多个节点的分布式计算系统上实现，其中本发明的每个部分可以位于分布式计算系统内的不同节点上。此外，前述计算系统700的一个或多个元件可以位于远程位置并通过网络连接到其他元件。

尽管未在图7.2中示出，该节点可以对应于服务器机箱中的刀片，该刀片服务器通过底板连接到其他节点。作为另一示例，该节点可以对应于数据中心中的服务器。作为另一示例，该节点可以对应于具有共享存储器和/或资源的计算机处理器或计算机处理器的微核。

网络720中的节点(例如，节点X 722、节点Y 724)可以被配置为为客户端设备726提供服务。例如，节点可以是云计算系统的一部分。所述节点可以包括以下功能：从客户端设备726接收请求并且将响应发送到客户端设备726。客户端设备726可以是计算系统，例如图7.1中所示的计算系统。此外，客户端设备726可以包括和/或执行本发明的一个或多个实施方案的全部或一部分。

在图7.1和7.2中描述的计算系统或一组计算系统可以包括执行本文公开的各种操作的功能。例如，一个或多个计算系统可以在相同或不同系统上的进程之间执行通信。采用某种形式的主动或被动通信的各种机制可以促进同一设备上进程之间的数据交换。代表这些进程间通信的示例包括但不限于文件、信号、套接字、消息队列、管道、信号灯、共享内存，消息传递和内存映射文件的实现。

图7.1中的计算系统可以实现和/或连接到数据存储库。例如，一种类型的数据存储库是数据库。数据库是为简化数据检索、修改、重组和删除而配置的信息的集合。数据库管理系统(DBMS)是一个软件应用程序，它为用户提供了定义、创建、查询、更新或管理数据库的界面。

用户或软件应用程序可以向DBMS提交语句或查询。然后，DBMS解释该语句。该语句可以是用于请求信息的选择语句、更新语句、创建语句、删除语句等。此外，该语句可以包括指定数据或数据容器(数据库、表、记录、列、视图等)的参数、标识符、条件(比较运算符)、函数(例如，联接、完全联接、计数、平均等)、排序(例如，升序、降序)或其他。DBMS可以执行该语句。例如，DBMS可以访问存储缓冲区，引用或索引文件以进行读取、写入、删除或其任何组合，以响应该语句。DBMS可以从持久性或非持久性存储中加载数据，并执行计算以响应查询。DBMS可以将结果返回给用户或软件应用程序。

以上对功能的描述仅呈现了由图7.1的计算系统和图7.1和图7.2中的节点和/或客户端设备执行的功能的一些示例。可以使用本发明的一个或多个实施方案来执行其他功能。

本发明的一个或多个实施方案在许多场景下可能是有用的。例如，在与孩子一起进行家庭录音的情况下，可以利用相机设备跟踪孩子，并且可以使用麦克风在高灵敏度的方向同时记录孩子的声音。即使当孩子四处走动时，也可以基于确定声源对象在哪里来实现改进的语音记录。

虽然已经用有限数量的实施方案描述了本发明，但是受益于本发明的本领域技术人员将理解，可以设计出不脱离所公开的本发明的范围的其他实施方案。因此，本发明的范围应仅由所附权利要求书限制。

Claims

1.一种定向声音捕获的方法，包括：

使用相机设备定期捕获包括附接到声源对象的具有对象识别码的光源的场景图像序列，所述对象识别码表现为光变化模式，所述图像序列的帧率与光源的占空比和/或重复率相配合，所述图像序列包含连续图像或序列中具有特定间隔的一对图像，且图像序列中包含设定的特定局部光变化，所述设定的特定局部光变化中包含对象识别码，使得连续图像或具有特定间隔的一对图像包括改变的亮水平和暗水平，和/或改变的波长；

通过硬件处理器基于图像序列上的设定的特定局部光变化模式，检测所述场景中具有对象识别码的光源；所述具有对象识别码的光源的检测方式为对图像序列中包含的连续图像或具有特定间隔的一对图像进行比较，将改变亮水平和暗水平，和/或改变波长的差异的像素作为光源在图像中的位置的一部分；

通过至少确定被选择的具有对象识别码的光源在所述图像序列的至少一幅图像中的位置，确定所述声源对象的方向；

向耦合到麦克风的方向控制设备传输控制信号，将所述麦克风的灵敏度方向指向所述声源对象；以及

使用所述麦克风并响应将所述麦克风的灵敏度方向指向所述声源对象，捕获从所述声源对象发出的声音。

2.根据权利要求1所述的方法，还包括：

通过响应检测所述光源的硬件处理器，将所述光源在所述图像序列的至少一幅图像中的位置与所述至少一幅图像内的目标位置进行比较以产生结果，其中所述目标位置对应所述麦克风的方向；以及

通过所述硬件处理器基于结果生成控制信号，以使所述麦克风的灵敏度方向与所述声源对象的方向对准。

3.根据权利要求2所述的方法，

其中，所述控制信号调整从选自由所述方向控制设备的运动和用于将所述麦克风的灵敏度方向指向所述声源对象的方向控制设备的波束形成算法组成的组中的至少一个。

4.根据权利要求3所述的方法，

其中，所述控制信号基于改变相机设备的视场的结果，以使所述光源与所述视场内的目标位置基本对准，

其中，所述麦克风耦合到所述相机设备，以使所述光源与所述目标位置基本对准，从而使所述麦克风的方向与所述声源对象的方向对准；以及

其中所述方向控制设备的运动使所述光源与所述目标位置基本对准，以使所述麦克风指向所述声源对象。

5.根据权利要求1所述的方法，

其中，所述光源是选自由附接到所述声源对象的本地光发射器和响应与所述声源对象分离的远程光发射器而发出声源对象反射光的声源对象的反射区域组成的组中的至少一个，

其中，所述图像序列上的局部光变化模式是通过选自由本地光发射器、远程光发射器和所述反射区域的几何反射图案组成的组中的至少一个产生的，以及

其中，所述局部光变化模式包括选自由光强度变化、光波长变化、光强度变化的重复率和光波长变化的重复率组成的组中的至少一个。

6.根据权利要求1所述的方法，其中，所述光源被配置为生成对象识别码，所述方法还包括：

从所述局部光变化模式中提取对象识别码；以及

基于所述提取的对象识别码，从与所述场景中的多个声源对象相关联的多个光源中识别检测到的光源，以从所述多个声源对象中选择声源对象。

7.根据权利要求1所述的方法，还包括：

分析所述图像序列以确定光源在至少一幅图像中的位置以及光源在图像序列上的运动，

其中产生所述控制信号还基于所述运动。

8.一种定向声音捕获控制器，包括：

计算机处理器；和

存储器，其耦合到计算机处理器并存储指令，在被执行时，使计算机处理器执行以下操作：

基于图像序列上的设定的特定局部光变化模式，检测所述场景中具有对象识别码的光源；所述具有对象识别码的光源的检测方式为对图像序列中包含的连续图像或具有特定间隔的一对图像进行比较，将改变亮水平和暗水平，和/或改变波长的差异的像素作为光源在图像中的位置的一部分；

通过至少确定被选择的具有对象识别码的光源在所述图像序列的至少一幅图像中的位置来确定所述声源对象的方向；

基于所述声源对象的方向，生成用于将麦克风的灵敏度方向指向所述声源对象的控制信号；以及

使用所述麦克风并响应所述控制信号捕获从所述声源对象发出的声音。

9.根据权利要求8所述的定向声音捕获控制器，所述指令在被执行时还使所述计算机处理器执行以下操作：

响应检测所述光源，将所述光源在所述图像序列的至少一幅图像中的位置与所述至少一幅图像内的目标位置进行比较以产生结果，

其中所述目标位置对应所述麦克风的方向，以及

其中，基于结果生成控制信号，以使所述麦克风的灵敏度方向与所述声源对象的方向对准。

10.根据权利要求9所述的定向声音捕获控制器，所述指令在被执行时，还使所述计算机处理器执行以下操作：

将所述控制信号传输到安装了麦克风的方向控制设备，

11.根据权利要求10所述的定向声音捕获控制器，

其中，基于用于改变所述相机设备的视场的结果生成所述控制信号，以使所述光源与所述视场内的目标位置基本对准，

其中，所述麦克风刚性耦合到所述相机设备，以使所述光源与所述目标位置基本对准使所述麦克风的方向与所述声源对象的方向对准；以及

12.根据权利要求8所述的定向声音捕获控制器，

13.根据权利要求8所述的定向声音捕获控制器，其中，所述光源被配置为生成对象识别码，所述指令在被执行时，还使所述计算机处理器执行以下操作：

从所述局部光变化模式中提取对象识别码；以及

14.根据权利要求8所述的定向声音捕获控制器，所述指令在被执行时，还使所述计算机处理器执行以下操作：

其中产生所述控制信号还基于所述运动。

15.一种用于定向声音捕获的系统，包括：

具有对象识别码的光源，所述对象识别码表现为光变化模式，其被附接到在场景中的声源对象上；

相机设备，其被配置为定期捕获场景图像序列，所述图像序列的帧率与光源的占空比和/或重复率相配合，所述图像序列包含连续图像或序列中具有特定间隔的一对图像，且图像序列中包含设定的特定局部光变化，所述设定的特定局部光变化中包含对象识别码，使得连续图像或具有特定间隔的一对图像包括改变的亮水平和暗水平，和/或改变的波长；

麦克风，其用于定向声音捕获；

方向控制设备，其被耦合到所述相机设备和麦克风；以及

定向声音捕获控制器，其被配置为：

基于图像序列上的设定的特定局部光变化模式，检测所述场景中具有对象识别码的光源，所述具有对象识别码的光源的检测方式为对图像序列中包含的连续图像或具有特定间隔的一对图像进行比较，将改变亮水平和暗水平，和/或改变波长的差异的像素作为光源在图像中的位置的一部分；

16.根据权利要求15所述的系统，所述定向声音捕获控制器还被配置为：

其中所述目标位置对应所述麦克风的方向，以及

17.根据权利要求16所述的系统，所述定向声音捕获控制器还被配置为：

将所述控制信号传输到安装了麦克风的方向控制设备，

18.根据权利要求17所述的系统，其特征在于，

19.根据权利要求15所述的系统，其特征在于，

20.根据权利要求15所述的系统，其中，所述光源被配置为生成对象识别码，所述定向声音捕获控制器还被配置为：

从所述局部光变化模式中提取对象识别码；以及

21.根据权利要求15所述的系统，所述定向声音捕获控制器还被配置为：

其中产生所述控制信号还基于所述运动。

22.一种非暂时性计算机可读介质，其存储用于分析场景中的声源对象的指令，所述指令在由计算机处理器执行时包括以下功能：

向耦合到麦克风的方向控制设备传输控制信号，以将所述麦克风的灵敏度方向指向所述声源对象；以及