CN116416585A

CN116416585A - 使用来自二维图像的信息改进三维数据关联的系统和方法

Info

Publication number: CN116416585A
Application number: CN202211250942.6A
Authority: CN
Inventors: G·费伊; K·P·V·斯里尼瓦桑
Original assignee: Rivian Automotive LLC
Current assignee: Rivian Automotive LLC
Priority date: 2021-12-31
Filing date: 2022-10-12
Publication date: 2023-07-11
Also published as: DE102022130559A1; US20230230257A1

Abstract

本发明公开了用于针对诸如自主导航的应用程序，基于从二维图像中的对象收集的信息，将三维边界框与被跟踪对象相关联的系统和方法。该系统和方法跟踪三维空间中的对象并从车辆传感器接收二维图像。该系统：为该二维图像中的对象生成三维边界框；确定该对象的二维图像特性；以及基于该对象的该三维界定框和该对象的该二维图像特性将该三维边界框与该被跟踪对象相关联。

Description

使用来自二维图像的信息改进三维数据关联的系统和方法

技术领域

本发明涉及针对诸如自主导航的应用，使用来自二维图像的信息生成三维边界框的改进的关联的系统和方法。

背景技术

在自主车辆和半自主车辆中，在穿越密集交通场景时，车辆可根据车辆周围环境的二维图像为车辆周围的对象生成三维边界框。在一种方法中，神经网络机器学习模型可用于检测车辆周围的对象并生成三维边界框。三维边界框可与车辆周围被跟踪的对象相关联并用于更新这些对象的状态。然而，需要改进三维边界框与被跟踪对象的关联，以减少或防止三维边界框与被跟踪对象的不正确关联。

发明内容

因此，本文公开了针对诸如自主导航的应用，使用来自二维图像的信息生成三维边界框的改进的关联的系统和方法。在一些实施方案中，本公开的系统和方法跟踪三维空间中的对象(即，被跟踪对象)。在一些实施方案中，该系统从与该车辆相关联的传感器接收二维图像。在一些实施方案中，该系统为该二维图像中的对象生成三维边界框。在一些实施方案中，该系统确定该对象的二维图像特性。在一些实施方案中，该系统基于该对象的该三维边界框和该对象的该二维图像特性将该三维边界框与该跟踪对象相关联。在一些实施方案中，该系统使用该对象的该二维图像特性，从该二维边界框的投影中生成改进的三维边界框。在一些实施方案中，该三维边界框与该被跟踪对象的该关联基于该对象的该三维边界框和该对象的该二维图像特性来改进。在一些实施方案中，该系统可为机器学习模型形成训练数据集，该机器学习模型可经训练以对输入图像部分进行分类，以避免近距离对象之间的错误关联，从而协助诸如自主导航的应用。

在一些实施方案中，所公开的系统和方法的处理电路被配置为跟踪三维空间中的多个对象，该多个对象包括被跟踪对象。在一些实施方案中，该跟踪包括存储该多个对象的二维图像特性。

在一些实施方案中，该处理电路通过将该确定的二维图像特性与该对象的该存储的二维图像特性进行比较来将该三维边界框与该被跟踪对象相关联。

在一些实施方案中，该对象的该二维图像特性选自以下中的一者或多者：a)定位在该对象的该二维图像上的锚定点；b)该对象的该二维图像上的原始像素信息；或c)从神经网络识别的该二维图像的特征。

在一些实施方案中，所公开的系统和方法的该处理电路被配置为确定该二维图像中的该对象的角取向，其中该为该对象生成该三维边界框至少部分地基于该对象的该角取向。例如，该处理电路可确定该对象是静止的，并朝向道路延伸以处于垂直、平行或两者之间的任何角度。通过识别该对象的该角取向，该处理电路可在该图像中的该对象上放置基准点或锚定点。在一些实施方案中，该处理电路被进一步配置为：通过识别该二维图像中的该对象来生成该三维边界框；确定与该对象相关联的维度，并基于与该对象相关联的该维度生成该三维边界框。

在一些实施方案中，该处理电路被进一步配置为通过将该对象的该接收的二维图像输入神经网络中并输出该三维边界框来为该二维图像中的该对象生成该三维边界框。

在一些实施方案中，该处理电路被进一步配置为确定该对象的第一三维边界框中的误差。该处理电路响应于确定为该对象生成的该第一三维边界框中的该误差，基于该对象的该三维边界框和该二维边界框上该对象的该二维图像特性来为该对象生成第二三维边界框。在一些实施方案中，该处理电路被配置为通过首先为该二维图像中的该对象生成二维边界框来生成该三维边界框。

在一些实施方案中，该处理电路被进一步配置为通过对该二维图像的像素执行神经网络分析以识别该对象的该二维图像特性来确定该对象的该二维图像特性。在一些实施方案中，该处理电路被配置为比较该二维图像的该像素上的颜色变化以识别该对象的该二维图像特性。

在一些实施方案中，使用车辆上的传感器生成该三维边界框。该传感器被配置为捕获该车辆周围的环境。在一些实施方案中，该对象是在该车辆的预定距离内的第二车辆。

在一些实施方案中，本文公开了一种非暂态计算机可读介质，该非暂态计算机可读介质具有编码在其上的非暂态计算机可读指令，该非暂态计算机可读指令在由处理器执行时使该处理器：跟踪三维空间中的被跟踪对象；从与车辆相关联的传感器接收二维图像；为该二维图像中的对象生成三维边界框；确定该对象的二维图像特性；以及基于该对象的该三维边界框和该对象的二维图像特性，将该三维边界框与该被跟踪对象相关联。

可通过捕获道路和车辆周围的对象的多个图像并确定至少部分地围绕该对象的三维边界框来组装本文使用的此类机器学习模型的训练数据集。可从对应的二维边界框生成该三维边界框，包括与该二维边界框中的该对象相关联的特性。因此，经标记图像和附带语义信息可形成训练数据集以用于训练机器学习模型以生成具有有限重叠的三维边界框。

附图说明

参考以下附图详细描述了根据一个或多个各种实施方案的本公开。附图仅出于举例说明的目的而提供，并且仅示出典型的或示例性实施方案。提供这些附图以有利于理解本文所公开的概念，并且这些附图不应被认为是对这些概念的广度、范围或适用性的限制。应当指出的是，为了清楚起见和便于说明，这些附图未必按比例绘制。

图1示出了根据本公开的一些实施方案的被配置为基于对象的三维边界框和二维图像特性将三维边界框与对象相关联的系统的部件的框图；

图2示出了根据本公开的一些实施方案的用于基于二维图像生成三维边界框的例示性机器学习模型；

图3示出了根据本公开的一些实施方案的被配置为基于对象的三维边界框和对象的二维图像特性将三维边界框与被跟踪对象相关联的系统的部件的框图；

图4示出了根据本公开的一些实施方案的用于基于对象的二维图像特性将三维边界框与被跟踪对象相关联的例示性过程的流程图；

图5示出了根据本公开的一些实施方案的将三维边界框与被跟踪对象相关联的例示性过程的流程图；并且

图6示出了根据本公开的一些实施方案的基于对象的二维图像特性将三维边界框与被跟踪对象相关联的例示性过程的流程图。

具体实施方式

图1示出了根据本公开的一些实施方案的被配置为基于对象的三维边界框和二维图像特性将三维边界框与对象相关联的系统100的部件的框图。系统100可包括车辆101，该车辆可经由一个或多个网络105与服务器136和用户设备138通信。车辆101可以是汽车(例如，双门小轿车、轿车、卡车、SUV、公共汽车)、摩托车、飞行器(例如，无人机)、船舶(例如，船)或任何其他类型的车辆。在一些实施方案中，车辆101可被配置为自主地或半自主地操作。

车辆101可包括处理电路102。该处理电路可包括处理器104和存储器106。处理器104可包括硬件处理器、软件处理器(例如，使用虚拟机模拟的处理器)或它们的任何组合。在一些实施方案中，处理器104和存储器106的组合可被称为车辆101的处理电路102。在一些实施方案中，单独的处理器104可被称为车辆101的处理电路102。存储器106可包括用于非暂态存储命令或指令的硬件元件，该命令或指令在由处理器104执行时使处理器104根据上文和下文所讨论的实施方案操作车辆101。处理电路102可经由一个或多个电线或经由无线连接来通信地连接到车辆101的部件。

处理电路102可经由输入电路108通信地连接到输入接口116(例如，方向盘、触摸屏显示器、按钮、旋钮、麦克风或其他音频捕获设备等)。在一些实施方案中，可允许车辆101的驾驶员结合车辆101的操作选择特定设置(例如，以指示车辆101是否应自主地操作)。在一些实施方案中，处理电路102(和/或一个或多个服务器136的处理电路)可被配置为训练和/或利用机器学习模型来检测当前二维图像(例如，由传感器124、126、128、130中的一个或多个传感器捕获)中车辆101周围的被跟踪对象，确定对象的二维图像特性，为对象生成三维边界框，并基于对象的三维界定框和对象的二维图像特性将三维边界框与被跟踪对象相关联。

在一些实施方案中，处理电路102可通信地连接到车辆101的GPS系统134或其他定位设备，其中驾驶员可经由输入接口116与GPS系统进行交互。GPS系统134可与远离车辆101的多个卫星和/或服务器136通信以确定驾驶员的位置并向处理电路102提供导航方向。作为另一示例，定位设备可对于地面信号(诸如蜂窝电话信号、Wi-Fi信号或超宽带信号)进行操作以确定电动车辆101的位置。所确定的位置可以任何合适的形式，诸如地理坐标、街道地址、附近界标诸如最近的充电站的识别、或与车辆相关联的标记位置(例如，存储在存储器106中的用户家庭的位置)。在一些实施方案中，处理电路102可使用所确定的位置来识别车辆101是否在标记位置的阈值范围内。

处理电路102可通过输出电路110通信地连接到显示器112和扬声器114。显示器112可位于车辆101的仪表板和/或车辆101的挡风玻璃处的平视显示器处。例如，可生成GPS系统134的界面或信息娱乐系统的界面以用于显示，并且显示器112可包括LCD显示器、OLED显示器、LED显示器或任何其他类型的显示器。扬声器114可位于车辆101的舱室内的任何位置处，例如，在车辆101的仪表板处，在车门的内部部分上等。

处理电路102可以可通信地连接(例如，通过传感器接口113)到传感器(例如，前传感器124、后传感器126、左侧传感器128、右侧传感器130、取向传感器118、速度传感器120)。取向传感器118可以是倾斜计、加速度计、倾斜仪、任何其他俯仰传感器或它们的任何组合，并且可被配置为向处理电路102提供车辆取向值(例如，车辆的俯仰和/或车辆的倾侧)。速度传感器120可以是速度计、GPS传感器等中的一者或它们的任何组合，并且可被配置为向处理电路102提供车辆的当前速度的读数。前传感器124、后传感器126、左侧传感器128和/或右侧传感器130可定位在车辆101的各种位置处，并且可以是各种类型中的一种或多种类型，例如，图像传感器、超声传感器、雷达传感器、LED传感器、LIDAR传感器等，被配置为配置为捕获车辆周围环境中对象的特性(例如，通过输出光或无线电波信号，并且测量要检测的返回信号的时间和/或返回信号的强度，和/或对由图像传感器捕获的车辆101的周围环境的图像执行图像处理)。在一些实施方案中，控制电路102可对所接收的二维图像执行图像处理，以识别图像中对象的二维特性。例如，控制电路102可识别二维图像中对象的颜色、二维图像中对象中的锚定点或它们的组合。在一些实施方案中，车辆传感器/相机系统可捕获车辆周围环境的图像，并对图像进行像素变化和颜色变化处理，以识别对象和对象的特性。例如，当捕获图像时，处理电路使用视觉识别软件扫描图像以识别对象。在一些实施方案中，用于识别二维图像中对象的算是根据其伙伴收集的数据进行预训练的。在一些实施方案中，用于识别二维图像中对象的算法是用户在自定义数据集上训练的。在一些实施方案中，处理电路102可在确定车辆101与对象之间的预测距离时，例如基于由速度传感器120和/或取向传感器118生成的传感器数据，考虑车辆101的速度和/或加速度。

处理电路102可通信地连接到电池系统132，该电池系统可被配置为在操作期间向车辆101的部件中的一个或多个部件提供电力。在一些实施方案中，车辆101可以是电动车辆或混合动力电动车辆。

在一些实施方案中，通信电路135(例如，包括网络收发器)和/或用户设备138(例如，移动设备)可与一个或多个服务器136通信(例如，通过诸如例如互联网的通信网络105)，该一个或多个服务器可被配置为执行上文和下文描述的处理的任何合适部分。服务器136可包括多个服务器，该多个服务器被配置为向系统100的其他部件(例如，用户设备138和/或车辆101)远程提供云计算资源(例如，存储、处理、软件应用程序等)。在一些实施方案中，服务器136可与车辆101的制造商相关联。系统100的元件可被配置为通过任何合适的无线(或有线)通信路径进行通信。例如，用户设备138可被配置为使用近程无线电通信技术(诸如例如蓝牙低功耗(BLE)或近场通信(NFC))与车辆101通信，并且用户设备138和车辆101可通过网络105(例如，互联网、局域网、广域网、卫星网络、蜂窝网络等)与服务器136通信。在一些实施方案中，服务器136可包括一个或多个处理器，该一个或多个处理器被配置为执行处理密集型任务以帮助车辆101进行自主或半自主导航。

应当理解，图1仅示出了车辆101的一些部件，并且应当理解，车辆101还包括车辆(例如，电动车辆)中常见的其他元件，例如，马达、制动器、车轮、车轮控件、转动信号、窗户、门等。

图2示出了根据本公开的一些实施方案的用于基于二维图像生成三维边界框的例示性机器学习模型。机器学习模型208可为例如卷积神经网络(CNN)或任何其他合适的机器学习模型，其经训练以接受车辆101的周围环境的输入图像212(例如，二维)，并输出图像212中所描绘的对象的位置、特性、锚定点和/或类型或类别分类的确定结果214。训练数据202可包括车辆周围环境的图像并且已被分配标签。例如，每个训练图像可与任何合适维数的向量相关联，该向量编码信息指定训练图像中是否存在一个或多个对象，如果存在，则指定对象的类别或类型(例如，汽车、行人、摩托车、动物、火车、自行车、道路标志、地形、背景等)，指定对象的特性(例如，颜色、形状、尺寸、移动状态(例如，静止或移动)等)，并指定围绕对象周长的二维边界框的参数(例如，x坐标、y坐标、中点、高度、宽度)，和/或指示从车辆101到对象注释的距离。训练框架204可以使用本文所述的处理资源训练未经训练的机器学习模型206，以生成经训练的机器学习模型208。在一些实施方案中，可以随机地或通过使用深度信念网络进行预训练来选择初始权重。训练可以监督、部分监督或无监督方式执行。在一些实施方案中，训练框架204可通过确定对象的特性来训练在哪个边界框与哪个对象相关联的未经训练的机器学习模型206。

机器学习模型208可经训练以输出输入图像212是否包含对象的概率以及对二维图像中围绕对象的边界框的参数(例如，位置、特性和坐标)的预测。在一些实施方案中，可丢弃与低于某个阈值(例如，0.4)的概率相关联的对象预测。在一些实施方案中，输入图像212可根据网格划分为单元或区域(例如，形成区域阵列，这些区域总体上构成图像)，并且可对图像的每个区域执行分析，以输出对是否存在对象的预测以及在特定区域内预测的边界框坐标。例如，任何合适大小(例如，3×3像素)的滤波器或内核可覆盖在图像的每个区域上，以执行卷积，例如，将每个重叠像素相乘，并将每个乘积相加，并在输出预测时输入机器学习模型。

在一些实施方案中(例如，如果使用回归分类器)，可使用监督学习来训练未经训练的机器学习模型206，其中训练数据集202包括与期望输出配对的输入，或者其中训练数据集202包括具有已知输出的输入，并且手动分级神经网络的输出。在一些实施方案中，可以监督方式训练未经训练的机器学习模型206。训练框架204可处理来自训练数据集202的输入，并将所得输出与一组预期或期望输出进行比较。例如，当两个对象彼此接近时，训练框架204可处理包括在先前模型和先前图像中识别的二维特性的两个对象，以改进三维边界框。在一些实施方案中，然后，可通过未经训练的机器学习模型206将错误(在对象之间随时间跳跃的边界框)传播回来。训练框架204可调整控制未经训练的机器学习模型206的权重。训练框架204可包括用于监视未经训练的机器学习模型206朝向模型会聚的效果如何的工具，该模型诸如经训练的机器学习模型208，适合于基于已知的输入数据(诸如新数据212)诸如在结果214中生成正确答案。在一些实施方案中，训练框架204重复训练未经训练的神经网络206，同时调整权重以使用损失函数和调整过程诸如随机梯度下降来精化未经训练的神经网络206的输出。在一些实施方案中，训练框架204训练未经训练的机器学习模型206，直到未经训练的神经网络206达到期望的准确度。然后，可部署经训练的机器学习模型208以实现任何数量的机器学习操作。在一些实施方案中，机器学习模型可经训练以将输入图像的像素分类为识别图像的对象，并生成改进的三维边界框，该三维边界框生成具有可驾驶空间和不可驾驶空间的车辆，用于诸如自主导航的应用。

在一些实施方案中，可使用无监督学习来训练未经训练的机器学习模型206，其中未经训练的机器学习模型206尝试使用未标记数据来训练自身。在一些实施方案中，无监督学习训练数据集202可包括无任何相关联输出数据或“基准真值”数据的输入数据。未经训练的机器学习模型206可学习训练数据集202内的分组，并且可确定各个输入如何与未经训练的数据集202相关。在一些实施方案中，可使用无监督训练来生成自组织地图，该自组织地图是能够执行可用于减少新数据212的维数的操作的经训练的机器学习模型208的类型。无监督训练也可用于执行异常检测，这允许识别新数据集212中偏离新数据集212的正常或现有模式的数据点。在一些实施方案中，可使用半监督学习，其为训练数据集202包括标记数据和未标记数据的混合的技术。因此，训练框架204可用于诸如通过迁移学习技术来执行增量学习。此类增量学习可使得经训练的机器学习模型208能够在不忘记在初始训练期间灌输在网络内的知识的情况下适应新数据212。

图3示出了根据本公开的一些实施方案的被配置为基于对象的三维边界框和对象的二维图像特性将三维边界框与被跟踪对象相关联的系统300的部件的框图。在302处，可通过例如对象301(其可对应于车辆)的图像传感器(每个图像传感器可对应于图1的传感器124、126、128、130中的一个传感器)捕获车辆(例如，图1的车辆101)周围环境的一个或多个图像。此类图像传感器可安装或定位在车辆101的任何合适部分处，以便于在车辆101静止或运动时捕获车辆101周围的整个区域或环境的图像。例如，一个或多个传感器可设置在车辆101的外部和/或内部的各种位置中的一个或多个位置处，例如，传感器可设置在车辆101的挡风玻璃处、车辆101的前保险杠处、车辆101的车顶处，并且其他传感器可位于车辆101的后保险杠处、车辆101的车顶处、车辆101的挡风玻璃处、车辆101的相应侧视镜处，或它们的任何组合。可通过图像传感器捕获一系列图像和图像数据，包括任何合适数量的图像。在一些实施方案中，可在车辆运动时例如以预定频率重复捕获图像，以随时间捕获车辆301的周围环境。

在304处，车辆101的处理电路102(和/或服务器136的处理电路)可被配置为执行预处理，例如以识别对象并从捕获的图像302中提取关于该对象的合适特征，和/或将捕获的图像302的识别特征转换为矩阵表示，和/或将捕获的图像的格式化与训练数据202的格式化、归一化、调整大小、最小化等匹配。在一些实施方案中，预处理可包括使图像或其部分变亮，使图像或其部分变暗，使图像变色(例如，在配色方案中，从颜色到灰度，或另一映射)，裁剪图像，缩放图像，调整图像的纵横比，调整图像的对比度，执行任何其他合适的处理以制备图像，或它们的任何组合。在一些实施方案中，预处理可在任何所识别的对象周围生成边界框。

在306处，车辆101的处理电路102(和/或服务器136的处理电路)可使捕获的图像302(和/或其在预处理304期间提取的特征)被输入到机器学习模型306(其可对应于经训练的机器学习模型208)。机器学习模型306可基于所接收的输入图像输出二维图像中被跟踪对象周围的三维边界框(在308处)。在图3所示的示例中，对于时间t+1，在图像中间识别对象A，在图像右侧识别对象B，在图像最左侧识别对象C，并且在图像左侧识别对象D，并且每个对象均可按类型、颜色、车辆侧面的标签以及二维边界框和三维边界框的参数进行分类。例如，对象A以二维边界框315和三维边界框318为特征，对象B以二维边界框317和三维边界框320为特征，对象C以二维边界框(未示出)和三维边界框322为特征，并且对象D以二维边界框(未示出)和三维边界框324为特征。车辆101可在道路上行驶，例如在公路上行驶，也可静止不动，例如在停车场静止不动。应当理解，系统300可在任何类型的地形上与任何类型的车辆一起使用。在一些实施方案中，可向用户提供与输出308相关联的通知(例如，生成通知以便在车辆101中显示，以描绘实时的二维边界框和/或三维边界框)。在一些实施方案中，跟踪器310可生成二维图像中被跟踪对象(例如，对象A、B、C、D)的表，并且可将三维边界框(例如，三维边界框318、320、322、324)与相应对象相关联。例如，三维边界框320与对象B相关联。在一些实施方案中，可向用户提供输出308(例如，生成输出以便显示，以描绘对象301的实时的二维边界框和三维边界框)。在一些实施方案中，可基于在时间313(即，时间t+1)机器学习模型306的输出308来建议或自动执行某些动作(例如，提供与对象301位置相关的某些警告指示或建议导航路线，基于对象301的位置执行自主驾驶等)。

机器学习模型306的输出可被配置为围绕定位在车辆101前方、后方或侧面的候选对象(例如，车辆、人、动物或其他障碍物)生成二维边界形状和三维边界形状(例如，边界框、边界多边形、边界三角形、边界椭圆形、边界圆等)。在一些实施方案中，由车辆101的周围环境的传感器捕获的多个图像可以例如先进先出的方式输入到机器学习模型306。在一些实施方案中，机器学习模型306可为神经网络(例如，CNN)和/或可实施为分类算法(例如，朴素贝叶斯算法、支持向量机、逻辑回归、线性回归、随机森林、最近邻算法和/或任何其他合适的分类器)。结合2021年4月8日提交的共同拥有的美国申请号17/225,518对分类器进行了更详细的讨论，其据此全文以引用方式并入本文。

边界框或其他边界机制的计算可以任何方式执行，诸如通过用于识别对象并将框拟合到其外边缘的已知的基于计算机视觉的方法和过程来执行。例如，可使用任何方法诸如边缘检测方法、特征搜索方法、概率对象模型、图形匹配、馈送到分类器(诸如支持向量机、Haar Cascade分类器等)的梯度方向直方图(HOG)来在图像内识别和定位对象及其外边界。考虑任何合适的方法。在一些实施方案中，可以任何方式，诸如通过绘制矩形框来将边界框关联并因此拟合到所识别对象，该矩形框的边缘都平行于相机坐标系的轴线取向，并且各自与所识别对象的外边缘相切。在一些实施方案中，可通过绘制矩形框来将边界框拟合到所识别对象，该矩形框的竖直边缘平行于车辆301的轴线取向，该矩形框的取向由车辆301的取向传感器确定。在2021年7月23日提交的共同拥有的申请号17/384,510中对神经网络和边界框进行了更详细的讨论，其据此全文以引用方式并入本文。

在一些实施方案中，系统从二维图像中捕获关于对象的信息，并在将三维边界框与被跟踪对象相关联时采用该信息。例如，系统可识别对象的类型(例如，人、树、汽车、卡车、自行车、摩托车等)、对象的颜色(例如，黄色、红色、蓝色等)、对象上的锚定点(例如，对象上用于生成边界框的起始点)、任何可区分特征(例如，字母、字符等)。在一些实施方案中，从二维图像中捕获的关于对象的信息可用于将三维边界框与被跟踪对象相关联。

机器学习模型306可接收附加图像(例如，在预定义时间段例如几秒内)，并将提取的信息传输到跟踪器310。跟踪器310可在时间t跟踪所识别的对象，如被跟踪对象的表312中所示。所示示例中来自机器学习模型306的输出包括与对象A、B、C和D相关联的二维边界框(例如，315和317)和三维边界框(例如，318、320、322和324)。

在一些实施方案中，可通过车辆101的处理电路102(和/或服务器136的处理电路)实现的跟踪器310可用于将来自机器学习模型306的输出合成或缝合在一起，以使用从二维图像捕获的图像特性随时间跟踪车辆101周围环境中的对象。在一些实施方案中，跟踪器310使用三维边界框来跟踪被跟踪对象的三维位置。在一些实施方案中，当接收到对应于新对象的三维边界框时，跟踪器为新对象创建新轨迹，并且该新轨迹包括对应于新对象的二维图像特性。在一些实施方案中，为了使用从二维图像捕获的特性随时间跟踪车辆101周围环境中的对象，跟踪器将所识别的具有捕获的特性的对象与边界框相关联。在一些实施方案中，跟踪器310可用于检查其是否执行了三维边界框与被跟踪对象的不正确关联(例如，与红色车辆相关联的边界框与蓝色车辆相关联)。例如，跟踪器310可在时间313确定或以其他方式接收指示检测到的对象301与检测到的对象303之间的第一距离的信息(例如，其可基于输出308和/或其他图像处理技术来确定，诸如例如车辆301和与对象301相关联的边界框315之间的像素数)。跟踪器310可确定或以其他方式接收指示车辆301速度的信息(例如，来自速度传感器120)。跟踪器310可确定或以其他方式接收指示三维边界框的信息(例如，来自相机传感器)，该信息可包括在时间313(例如，时间t+1)车辆301的对应对象特性。

在一些实施方案中，处理电路102可利用定位在每个相应对象的二维图像上的锚定点。例如，处理电路102可将图像中对象上的点识别为焦点，并使用该信息将对应的三维边界框与被跟踪对象相关联。处理电路102可存储二维图像信息，该二维图像信息包括针对特定二维图像的所识别的对象的二维图像特性，以及后续接收的具有相同对象的图像，以进一步改进三维边界框的关联。随后，处理电路可在后续图像上搜索相同的点。锚定点可为边缘、中间或对象上任何位置上的点。锚定点也可放置在诸如指示灯、车辆标签或车辆牌照的焦点上。随着车辆101的移动和附加图像的处理，处理电路102可例如相对车辆上的锚定点或基准点识别对象的二维特性，作为改进三维边界框关联的指导。例如，当基准点在第一时间被识别为第一图像中的指示灯时，后续图像预计在二维边界框或三维边界框内的类似位置处包括相同的基准点。

在一些实施方案中，处理电路102可利用每个相应对象的二维图像上的原始像素信息。例如，处理电路102可监视图像中的像素变化以确定对象的各种特性。可基于颜色差异(例如，蓝色像素旁边的红色像素)或基于相同颜色的不同阴影来识别像素变化。随着车辆101的移动并且每次处理附加图像时，处理电路102可在时间313(例如，时间t+1)恢复到第一图像，特别是恢复到车辆上图像中的像素变化，作为用于将后续三维边界框与对象相关联的指导。例如，当在第一时间在第一图像中的指示灯上识别出像素变化时，后续图像预计包括相同的像素变化。

跟踪器310可基于车辆301的所确定的速度、从二维图像所识别的对象的二维图像特性以及车辆101与对象301之间的所确定的距离，将三维边界框与对象301相关联。在一些实施方案中，在确定车辆301的速度、车辆101和对象301之间的第一距离和/或对象301的速度时，可分析在时间313之前捕获的多个图像(例如，通过比较在当前时间之前的预定义时间段内描绘对象301的多个帧)。例如，对象301与车辆101之间的距离被确定为5米，并且如果车辆101和对象301中的每一者被确定以大致相同的速度行驶，则跟踪器310可确定机器学习模型306应已指示在特定位置处车辆101附近存在对象301。跟踪器310可一次跟踪一个对象或多个对象，如表312中所示。在表312中，跟踪器310正在跟踪所接收的二维图像中的对象A、B、C、D。跟踪器310可跟踪进入车辆传感器视野的任何对象。跟踪器310被配置为接收边界框信息并跟踪对象。如果跟踪器310仅使用三维边界框，如表314所示，则当使用三维边界框322检测到被跟踪对象C时，该三维边界框在时间t+1与被跟踪对象D错误地相关联。类似地，三维边界框324在时间t+1与被跟踪对象C错误地相关联。对象C和D距离较远，并且C和D的相对位置可能会因为车道变更或速度变更而切换。在先前所接收的二维图像中，对象D在对象C左侧，但由于对象C的车道变更，现在C在D左侧。仅通过边界框信息可能无法识别此位置变更。如在314所示，此类不正确的关联可能导致不正确的跟踪器信息，其中箭头所示的三维关联对于对象C和D是不正确的。这是有问题的。例如，不正确的关联可能导致对被跟踪对象的速度估计不准确。然而，通过利用二维图像特性，跟踪器310在305处能够将三维边界框318、320、322和324与被跟踪对象A、B、C和D正确地相关联。这在表16中示出。如图所示，所示箭头将三维边界框318、320、322和324与被跟踪对象A、B、C和D正确地相关联。例如，对象C和D可以是不同的颜色，并且二维图像特性可以是对象的颜色。通过使用来自二维图像的对象颜色，即使对象C与D之间的相对位置变更，跟踪器310也能够将三维边界框与被跟踪对象正确地相关联。因此，二维图像特性的使用改进了跟踪器310中的数据关联。

在一些实施方案中，跟踪器310可在时间313使用从二维图像所收集的附加信息来关联三维边界框。三维边界框的关联可将信息从前一帧拉入下一帧。在一些实施方案中，三维边界框的关联可包括执行一种或多种传统计算机视觉技术来搜索边界框318与对象301的关联。例如，可采用计算机视觉卷积技术，例如，在执行边缘检测(例如，识别颜色、类型、定位点)时，可将内核或滤波器或掩码(例如，任何适当数量的像素，例如3×3，并与二维图像的一部分卷积)传递到图像的部分上，以检测对象301的位置。在一些实施方案中，可将图像转换为灰度以对其执行图像处理。

在一些实施方案中，为了关联三维边界框，可提取边界框内的二维图像内的对象的特性(或可由跟踪器310基于预处理304获取此类特征)，和/或可识别边界框内的边界(例如，通过识别相邻像素之间像素强度或梯度的变化高于预定义阈值)以识别对象的位置。在一些实施方案中，可将在例如边界框315或318内提取的特性与存储在数据库中(例如，本地存储在车辆101处或存储在远程服务器136处)的与对应对象类别(例如，汽车、摩托车、卡车、树、行人)相关联的特征进行比较，以检测对象301在边界框318内或在图像的另一部分处的位置。例如，可执行提取的特性和存储在服务器136处的特征之间的模式匹配。在一些实施方案中，可基于颜色阈值来识别边界框与对象301的关联。在一些实施方案中，可采用包括传统计算机视觉技术以及深度学习和机器学习技术的混合方法。

在一些实施方案中，三维边界框的关联可包括从图像到机器学习模型306的关于这种图像的边界框318的反馈。在一些实施方案中，处理电路102可确定由于对象的遮挡，可能合适的是恢复到二维图像以识别对象的特性以改进被遮挡对象的三维边界框的关联。例如，跟踪器310可确定对象已与另一对象错误地相关联，并因此这些对象中的一个对象预计在捕获的图像中被遮挡。

在一些实施方案中，三维边界框与对象的关联可使用二维图像中每个相应对象的特性，如表316所示。例如，跟踪器310在时间t+1跟踪对象以及该对象在先前二维图像308中的二维特性。跟踪器310接收新的二维图像或新的二维图像特性。跟踪器310基于被跟踪对象的特性从新的二维图像关联对象的三维边界框。

在一些实施方案中，三维边界框的生成可使用二维图像中对象的特性。基于边界框与所识别对象的先前关联，机器学习模型306生成新二维图像中对象的二维边界框。然后，机器学习模型306从二维边界框和对象的二维图像特性(例如，颜色)生成三维边界框。然后，跟踪器310基于对象的特性将三维边界框与被跟踪对象相关联。

在一些实施方案中，三维边界框的生成可将二维图像中对象的特性与三维边界框相关联例如，机器学习模型306接收新的二维图像。机器学习模型306基于分类算法(例如，朴素贝叶斯算法、支持向量机、逻辑回归、线性回归、随机森林、最近邻算法和/或任何其他合适的分类器)和被跟踪对象的特性在新的二维图像中识别对象的二维边界框。然后，机器学习模型306从二维边界框生成三维边界框并且包括对应特性。

图4示出了根据本公开的一些实施方案的用于基于对象的二维图像特性将三维边界框与被跟踪对象相关联的例示性过程400的流程图。过程400可至少部分地由车辆101的处理电路102和/或服务器136的处理电路执行，这些处理电路可实现机器学习模型402和跟踪器部分412(其可分别对应于图3的机器学习模型306和跟踪器310)。

在404处，处理电路102可从相机接收车辆101的周围区域的二维图像(例如，来自车道变更相机的来自车辆侧面的图像)。在一些实施方案中，处理电路102识别对象或车辆420的位置。处理电路102可经由跟踪器部分412，使用车辆101和车辆420中的一者或多者的运动(例如，由速度传感器120指示的速度读数)(以及它们之间的距离)来预测车辆101和车辆420在后续帧中，诸如在后续时间所捕获的第二图像处的相应位置。

在406处，处理电路102可使用如上文所讨论的任何形式的处理(例如，神经网络)来处理二维图像。例如，处理电路102可在二维图像中搜索对象的二维特性，并且还可识别二维特性以帮助跟踪此类对象。例如，处理电路102可监视车辆周围区域中图像的像素以识别对象。此类对象可通过像素着色、亮度、颜色、对象的已知模板(例如，车辆、行人、树等)的任何变化来识别。

在408处，处理电路102可确定图像中对象周围的二维边界框。例如，处理电路102使用车辆420周围的预测位置绘制二维边界框409或其他感兴趣区域(ROI)。例如，基于车辆420的像素数据以及车辆101与车辆420之间的距离，处理电路102可确定车辆420的二维边界框409应位于对应于车辆420的位置处。

在410处，处理电路102可在车辆420周围生成三维边界框411。三维边界框411遵循车辆420的周边并且具有示出对象的取向和深度的取向和尺寸。例如，基于车辆420的像素数据以及车辆101与车辆420之间的距离，处理电路102可确定车辆420的三维边界框411应位于对应于车辆420的位置处。

在414处，处理电路102可经由跟踪器部分412，将来自当前图像(例如，在时间t+1)的新三维边界框与被跟踪对象的现有信息相关联。在一些实施方案中，处理电路102可经由跟踪器部分412，接收对应于三维边界框的二维图像特性并基于该二维特性将三维边界框与被跟踪对象相关联。如所讨论的，二维图像来源于附加特征(例如，对象的二维图像特性)，附加特征然后用于将三维边界框与被跟踪对象相关联。例如，机器学习模型可经由跟踪器部分412，将二维图像中检测到的对象(例如，车辆420)与三维边界框411或其他ROI相关联，以基于对应于三维边界框的二维图像特性向前传递到跟踪器部分412。例如，跟踪器部分412可指示机器学习模型将三维边界框411与被跟踪对象(例如，车辆420)相关联，以实现三维边界框411与被跟踪对象的更准确关联。在一些实施方案中，处理电路102可附加地或替代地执行传统计算机视觉卷积技术以识别二维图像中的车辆420。基于将三维边界框411与被跟踪对象相关联的此类一个或多个步骤，例如通过在自主导航期间考虑车辆420的二维特性，可识别车辆420，并且可相应地执行处理。

在416处，处理电路102经由跟踪器部分412，可采用卡尔曼滤波器算法(线性二次估计)来为对象创建跟踪，并且还可跟踪对象周围的三维边界框。在一些实施方案中，可将三维边界框与由卡尔曼滤波器生成的预测进行比较，以便改进三维边界框与被跟踪对象的关联。可基于对象的二维特性来连续更新此过程，以更新任何模型和轨迹，并将边界框与相应对象更好地相关联。

在418处，处理电路102可向车辆传输车辆的可能车道偏移以及从二维图像中为三维边界框收集的任何附加信息。在一些实施方案中，处理电路102可将所识别的三维边界框信息和所识别对象的二维特性传输到一个或多个车辆模块以便改进自主驾驶。例如，处理电路102可将三维边界框传输到自主驾驶模块或盲点监视模块，以指示对象是否阻碍车道变更。

应当理解，过程400仅是例示性的，并且可在本公开的范围内进行各种修改并且对象的位置可改变。例如，在一些实施方案中，可省略步骤408。此外，当在车辆周围的任何地方(例如，在车辆前面或后面)存在对象时，可执行该过程。还应当指出的是，过程400至600可顺序地组合，来自过程400至600中的每个过程的具体步骤可组合以建立单独过程，并且还有其他可能性。

图5示出了根据本公开的一些实施方案的将三维边界框与被跟踪对象相关联的例示性过程的流程图。过程500可至少部分地由车辆101的处理电路102和/或服务器136的处理电路执行。

在502处，车辆101的处理电路102可跟踪三维空间中的被跟踪对象。例如，处理电路102识别图像中的对象并开始跟踪对象的移动。为了改进跟踪对象的准确性，处理电路102可使用边界框或其他形式的对象轮廓。

在504处，车辆101的处理电路102可从传感器(例如，车辆的传感器中的一个传感器，诸如前传感器124)接收二维图像。与在图3中一样，图像可以是包括例如附近车辆301的图像的二维图像。

在506处，车辆101的处理电路102可为二维图像中的对象生成三维边界框。例如，车辆101的处理电路102可相对于二维图像中的对象确定二维边界框，并且可基于该二维边界框生成三维边界框。在一些实施方案中，车辆101的处理电路102将图像传输到神经网络以分析和确定二维边界框的放置。在一些实施方案中，车辆101的处理电路102将图像传输到神经网络以分析和确定三维边界框的放置。

在508处，车辆101的处理电路102可确定对象的二维图像特性。例如，车辆101的处理电路102可利用计算机视觉卷积技术来识别图像中对应于二维边界框315或三维边界框318的对象301的特性，以用于在例如执行自主导航中执行后续处理。在一些实施方案中，车辆101的处理电路102将对应于对象的二维图像特性传输到跟踪器，以协助将三维边界框与被跟踪对象相关联。二维图像特性可包括例如对象的颜色、对象上的颜色变化、绘制的字符或任何其他可区分标识符(例如，前灯的形状、形状指示灯、灯的放置)。

在510处，车辆101的处理电路102可基于对象的三维边界框和对象的二维图像特性将三维边界框与被跟踪对象相关联(例如，在三维空间中)。例如，车辆101的处理电路102可基于对象(例如，车辆)的三维边界框和特性将三维边界框与图像中的被跟踪对象相关联。在一些实施方案中，跟踪器310可基于对象的颜色、对象上的颜色变化、绘制的字符或任何其他可区分标识符，关联对象301的三维边界框318，该三维边界框对应于预测对象301所在的位置

图6示出了根据本公开的一些实施方案的基于与对象的二维图像特性的不一致性为被跟踪对象生成修改的三维边界框的例示性过程的流程图。过程600可至少部分地由车辆101的处理电路102和/或服务器136的处理电路执行。

在602处，车辆101的处理电路102可接收包括各种对象的二维图像，其中一些对象可被截断并且仅部分捕获。可识别这些对象以及如上针对这些对象计算的二维边界框。在一些实施方案中，预处理可使图像或其部分变亮，使图像或其部分变暗，使图像变色(例如，在配色方案中，从颜色到灰度，或另一映射)，裁剪图像，缩放图像，调整图像的纵横比，调整图像的对比度，执行任何其他合适的处理以制备图像，或它们的任何组合。在一些实施方案中，预处理可在任何所识别的对象周围生成边界框。

在604处，车辆101的处理电路102可确定从二维图像识别的对象的二维特性。例如，车辆101的处理电路102可识别对象的类型(例如，人、树、汽车、卡车、自行车、摩托车等)、对象的颜色(例如，黄色、红色、蓝色等)、对象上的锚定点(例如，对象上用于生成二维边界框的起始点)、任何可区分特征(例如，字母、字符等)。

在606处，车辆101的处理电路102可为所识别的对象中的每个对象生成三维边界框。可执行三维边界框的生成，以便通过将信息(例如，对象的二维图像特性)从对象的前一帧拉入到下一帧来改善边界框与邻近对象的潜在错误关联。可以观察到，如最初针对相邻对象所计算的三维边界框可能包围并组合成实际出现在输入图像中的一个三维边界框。例如，车辆101的处理电路102可从先前二维图像中提取对象的特性(例如，颜色、对象类型、唯一标识符、锚定点、运动等)。在一些实施方案中，处理电路102可识别二维图像中对象上的基准点，并且可使用后续二维图像中对象上的该基准点来关联该对象，以更准确地生成三维边界框。在一些实施方案中，处理电路102可识别二维图像中第一对象的颜色，并且可基于第一对象的颜色将边界框与该对象相关联。处理电路102可搜索后续二维图像中对象上的类似颜色，以在对象周围生成三维边界框。在一些实施方案中，三维边界框的生成可包括执行一种或多种传统计算机视觉技术，以基于对象的二维图像特性搜索相关联对象301。

在608处，车辆101的处理电路102可检查以确定任何三维边界框是否与对象的二维特性一致。更具体地，在本公开的一些实施方案中，处理电路102基于每个对象的二维特性连续检查三维框是否准确。这有效地指示了三维边界框是准确地包围了整个对象还是组合了对象。

在608处，车辆101的处理电路102可确定任何三维边界框是否与对象的二维特性一致，并且所计算的三维边界框被视为基本上涵盖对象301的二维特性。在608处，车辆101的处理电路102可确定三维边界框与对象的二维特性不一致，然后在610处，车辆101的处理电路102可至少部分地基于对象的二维图像和二维特性来生成修改的三维边界框。例如，处理电路102可基于三维边界框的一部分的不同颜色来修改三维边界框。例如，处理电路102可进一步基于二维图像中所识别的对象来减小或扩大三维边界框的大小。在一些实施方案中，此流程图可用于不准确的三维边界框和/或对三维边界框的修改。处理电路102可被配置为从第一三维边界框对三维边界框和二维边界框进行修改。

前述内容只是举例说明本公开的原理，并且在不脱离本公开的范围的情况下，本领域的技术人员可作出各种修改。上述实施方案是出于举例说明而非限制的目的而呈现的。本公开还可采用除本文明确描述的那些形式之外的许多形式。因此，应当强调的是，本公开不限于明确公开的方法、系统和仪器，而是旨在包括其变型和修改，这些变型和修改在以下权利要求书的实质内。

Claims

1.一种方法，所述方法包括：

由与车辆相关联的处理电路跟踪三维空间中的被跟踪对象；

由所述处理电路从与所述车辆相关联的传感器接收二维图像；

由所述处理电路为所述二维图像中的对象生成三维边界框；

由所述处理电路确定所述对象的二维图像特性；以及

由所述处理电路基于所述对象的所述三维边界框和所述对象的所述二维图像特性，将所述三维边界框与所述被跟踪对象相关联。

2.根据权利要求1所述的方法，其中所述跟踪三维空间中的所述被跟踪对象包括：

跟踪三维空间中的多个对象，其中所述多个对象包括所述被跟踪对象；以及

存储所述多个对象的二维图像特性。

3.根据权利要求2所述的方法，其中所述将所述三维边界框与所述被跟踪对象相关联包括将所述确定的二维图像特性与所述对象的所述存储的二维图像特性进行比较。

4.根据权利要求1所述的方法，其中所述对象的所述二维图像特性选自以下中的一者或多者：

a)定位在所述对象的所述二维图像上的锚定点；

b)所述对象的所述二维图像上的原始像素信息；或者

c)从神经网络识别的所述二维图像的特征。

5.根据权利要求1所述的方法，所述方法还包括确定所述二维图像中所述对象的角取向，其中所述为所述对象生成所述三维边界框至少部分地基于所述对象的所述角取向。

6.根据权利要求1所述的方法，其中所述为所述二维图像中的所述对象生成所述三维边界框包括：

识别所述二维图像中的所述对象；

为所述二维图像中的所述对象生成二维边界框；

确定与所述对象相关联的维度；以及

基于所述对象的所述二维边界框和与所述对象相关联的所述维度生成所述三维边界框。

7.根据权利要求1所述的方法，其中所述为所述二维图像中的所述对象生成所述三维边界框包括将所述对象的所述接收的二维图像输入神经网络中并输出所述三维边界框。

8.根据权利要求1所述的方法，其中所述确定所述对象的所述二维图像特性包括对所述二维图像的像素执行神经网络分析以识别所述对象的所述二维图像特性，或比较所述二维图像的所述像素上的颜色变化以识别所述对象的所述二维图像特性。

9.一种系统，所述系统包括：

传感器，所述传感器与车辆相关联；和

处理电路，所述处理电路与所述车辆相关联，所述处理电路被配置为：

跟踪三维空间中的被跟踪对象；

从所述传感器接收二维图像；

为所述二维图像中的对象生成三维边界框；

确定所述对象的二维图像特性；以及

基于所述对象的所述三维边界框和所述对象的所述二维图像特性，将所述三维边界框与所述被跟踪对象相关联。

10.根据权利要求9所述的系统，其中所述处理电路被进一步配置为：

跟踪三维空间中的多个对象，其中所述多个对象包括所述被跟踪对象，以及

通过存储所述多个对象的二维图像特性来跟踪所述三维空间中的所述被跟踪对象。

11.根据权利要求10所述的系统，其中所述处理电路被进一步配置为通过将所述确定的二维图像特性与所述对象的所述存储的二维图像特性进行比较来将所述三维边界框与所述被跟踪对象相关联。

12.根据权利要求9所述的系统，其中所述对象的所述二维图像特性选自以下中的一者或多者：

a)定位在所述对象的所述二维图像上的锚定点；

b)所述对象的所述二维图像上的原始像素信息；或者

c)从神经网络识别的所述二维图像的特征。

13.根据权利要求9所述的系统，其中所述处理电路被进一步配置为确定所述二维图像中所述对象的角取向，其中所述处理电路至少部分地基于所述对象的所述角取向，为所述对象生成所述三维边界框。

14.根据权利要求9所述的系统，其中所述处理电路被进一步配置为通过以下方式为所述二维图像中的所述对象生成所述三维边界框：

识别所述二维图像中的所述对象；

为所述二维图像中的所述对象生成二维边界框；

确定与所述对象相关联的维度；以及

15.根据权利要求9所述的系统，其中所述处理电路被进一步配置为通过将所述对象的所述接收的二维图像输入神经网络中并输出所述三维边界框来为所述二维图像中的所述对象生成所述三维边界框。

16.根据权利要求9所述的系统，其中所述处理电路被进一步配置为通过对所述二维图像的像素执行神经网络分析以识别所述对象的所述二维图像特性或比较所述二维图像的所述像素中的颜色变化以识别所述对象的所述二维图像特性来确定所述对象的所述二维图像特性。

17.一种非暂态计算机可读介质，所述非暂态计算机可读介质具有编码在其上的非暂态计算机可读指令，所述非暂态计算机可读指令在由处理电路执行时致使所述处理电路：

跟踪三维空间中的被跟踪对象；

从与车辆相关联的传感器接收二维图像；

为所述二维图像中的对象生成三维边界框；

确定所述对象的二维图像特性；以及

18.根据权利要求17所述的非暂态计算机可读介质，其中编码在其上的所述指令在由处理电路执行时进一步致使所述处理电路：

通过存储所述多个对象的二维图像特性来跟踪三维空间中的所述被跟踪对象。

19.根据权利要求18所述的非暂态计算机可读介质，其中编码在其上的所述指令在由处理电路执行时致使所述处理电路通过将所述确定的二维图像特性与所述对象的所述存储的二维图像特性进行比较来将所述三维边界框与所述被跟踪对象相关联。

20.根据权利要求17所述的非暂态计算机可读介质，其中所述对象的所述二维图像特性选自以下中的一者或多者：

a)定位在所述对象的所述二维图像上的锚定点；

b)所述对象的所述二维图像上的原始像素信息；或者

c)从神经网络识别的所述二维图像的特征。