CN110622213B

CN110622213B - 利用3d语义地图进行深度定位和分段的系统和方法

Info

Publication number: CN110622213B
Application number: CN201880031348.3A
Authority: CN
Inventors: 王鹏; 杨睿刚; 曹彬彬; 徐伟
Original assignee: Baidu com Times Technology Beijing Co Ltd; Baidu USA LLC
Current assignee: Baidu com Times Technology Beijing Co Ltd; Baidu USA LLC
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2022-11-15
Anticipated expiration: 2038-02-09
Also published as: CN110622213A; WO2019153245A1; US11030525B2; US20200364554A1

Abstract

本发明提出了基于深度学习的系统和方法，用于融合诸如相机图像、运动传感器(GPS/IMU)和3D语义地图的传感器数据，以实现对诸如机器人导航和增强现实的应用有用的相机定位和场景解析的鲁棒性、实时性能和精度。在实施例中，统一的框架通过在训练和测试中联合使用相机姿态和场景语义来实现这一点。为了评估所呈现的方法和系统，实施例使用新颖的数据集，该数据集是从真实场景创建的，并且包括密集的3D语义标记点云、从高精度运动传感器获得的参考相机姿态以及视频相机图像的像素级语义标签。实验结果表明，所提出的系统和方法对相机姿态和场景语义都是互利的。

Description

利用3D语义地图进行深度定位和分段的系统和方法

技术领域

本申请总体上涉及用于基于图像的自定位和场景解析的系统、设备和方法，其可用于各种应用，例如基于视觉的导航。

背景技术

在诸如机器人导航或增强现实的应用中，基于视觉的6自由度(DOF)相机姿态估计以及实时将视频的每一帧解析成语义上有意义的部分是计算机视觉中备受关注的关键组成部分。

目前，大多数最先进的算法都试图仅基于视觉信号来解决这两个任务。例如，基于几何的方法依赖于视觉特征匹配，例如，当提供3D地图和图像时的透视n点(PnP)系统，或者当提供视频时的同时定位和绘图(SLAM)系统。这些系统依赖于局部外观，在面对低纹理环境时可能会失败。

最近，开发了基于深度学习的方法(例如，用于图像或视频)用于实时定位，其展现出精度和速度之间的良好平衡。然而，尽管这些方法在具有丰富可区分特征(例如剑桥地标数据集中的那些)的环境中工作良好，但是对于具有非常相似的外观甚至重复结构的普通街景，它们可能会失败。

对于场景解析，基于深度全卷积网络(FCN)和ResNet的方法是用于单个图像输入的性能更好的算法。当输入是视频时，研究人员可以整合连续帧之间的光流，这不仅加快了解析，还改善了时间一致性。此外，对于静态背景，可以使用运动结构(structure-from-motion，SFM)技术来联合解析和重建。然而，这些方法在实践中仍然不可靠。

因此，需要克服现有方法缺点的系统和方法。

发明内容

本申请的实施例提供了一种使用网络来执行联合场景解析和相机姿态估计的方法、一种用于联合场景解析和相机姿态估计的系统、以及一种用于训练网络来执行联合场景解析和相机姿态估计的方法。

在本申请的一个方面，使用网络来执行联合场景解析和相机姿态估计的方法包括：接收语义地图数据、与相机相关联的图像数据以及包括粗略相机姿态的传感器数据；通过使用粗略相机姿态和相机固有参数创建第一语义标签地图；将图像数据和第一语义标签地图提供给第一姿态网络，以获得校正的相机姿态；以及将图像数据输入至分段网络中以生成与输入的图像数据相关联的二维解析。

在本申请的另一方面，用于联合场景解析和相机姿态估计的系统包括：相机，具有固有参数并生成图像数据；传感器，生成包括粗略相机姿态的传感器数据；处理器，包括指令，所述指令在被执行时基于语义地图数据、图像数据和传感器数据创建第一语义标签地图；第一姿态网络，响应于接收到图像数据和第一语义标签地图，生成校正的相机姿态；以及分段网络，基于图像数据生成与输入的图像数据相关联的二维解析。

在本申请的另一方面，用于训练网络以执行联合场景解析和相机姿态估计的方法包括：接收语义地图数据、与相机相关联的图像数据以及包括粗略相机姿态的传感器数据；通过使用粗略相机姿态和相机固有参数创建语义标签地图；将图像数据和语义标签地图提供给第一姿态网络，以获得校正的相机姿态；将图像数据输入至分段网络中以生成与输入的图像数据相关联的二维解析；以及使用包括取决于语义类的权重因子的损失。

附图说明

将参考本申请的实施例，其示例可以在附图中示出。这些附图是说明性的，而不是限制性的。尽管在这些实施例的上下文中总体描述了本申请，但是应当理解，这并不旨在将本申请的范围限制于这些特定实施例。图中的项目可能没有按比例绘制。

图1描绘了根据本公开实施例的框架。

图2描绘了根据本公开实施例的收集的街景数据集的示例。

图3示出了根据本公开实施例的用于建模相机姿态序列的门控递归单元递归神经网络(gated recurrent unit-recurrent neural network，GRU-RNN)网络架构。

图4示出了根据本公开实施例的分段卷积神经网络(CNN)的示例性架构。

图5示出了由图1所示系统的实施例的中间阶段产生的示例性结果。

图6是根据本公开实施例的用于训练和/或使用模型来执行联合场景解析和相机姿态估计的示例性过程的流程图。

图7描绘了根据本公开实施例的计算设备/信息处理系统的简化框图。

具体实施方式

在以下描述中，出于解释的目的，阐述了具体细节以提供对本申请的理解。然而，对于本领域技术人员显而易见的是，没有这些细节也可以实施本申请。此外，本领域技术人员将认识到，下面描述的本申请的实施例可以以多种方式实现，例如过程、装置、系统、设备或在有形计算机可读介质上的方法。

图中示出的组件或模块是本申请的示例性实施例的说明，并且意在避免模糊本申请。还应当理解，在整个论述中，组件可以被描述为单独的功能单元，其可以包括子单元，但是本领域技术人员将认识到，各种组件或其部分可以被分成单独的组件或者可以集成在一起，包括集成在单个系统或组件中。应当注意，这里论述的功能或操作可以实现为组件。组件可以用软件、硬件或其组合来实现。

此外，附图中组件或系统之间的连接并不局限于直接连接。相反，这些组件之间的数据可以通过中间组件修改、重新格式化或以其他方式改变。此外，可以使用另外的或更少的连接。还应注意，术语“联接”、“连接”或“通信联接”应理解为包括直接连接、通过一个或多个中间设备的间接连接以及无线连接。

说明书中对“一个实施例”、“优选实施例”、“实施例”或“多个实施例”的引用意味着结合该实施例描述的特定特征、结构、特性或功能被包括在本申请的至少一个实施例中，并且可以在不止一个实施例中。此外，说明书中不同地方出现的上述短语不一定都指相同的一个或多个实施例。

在说明书的不同地方使用某些术语是为了说明，不应被解释为限制。服务、功能或资源不限于单一的服务、功能或资源；这些术语的使用可以指相关服务、功能或资源的分组，这些服务、功能或资源可以是分布式的或聚合的。

术语“包含”、“包含有”、“包括”和“包括有”应理解为开放式术语，且以下任何列表都是示例，并不意味着限于所列项目。本文中使用的任何标题仅用于组织目的，不用于限制说明书或权利要求的范围。本专利文件中提到的每个参考文献以其整体通过引入并入本文。

此外，本领域技术人员应该认识到：(1)可以选择性地执行某些步骤；(2)步骤可以不限于本文所述的特定顺序；(3)某些步骤可以以不同的顺序执行；以及(4)某些步骤可以同时进行。

在本文中，术语“先验”指的是先验知识，包括人类知识。相比于对未来事件的依赖，“在线”指的是对过去和当前事件的依赖。

A.概述

本文呈现的实施例旨在从更实用的角度解决相机定位和场景解析问题。某些实施例假设存在(a)全球定位系统(GPS)/惯性测量单元(IMU)信号，以提供粗略的位置估计；以及(b)静态环境的三维(3D)语义地图。即使有噪声，GPS/IMU信号也可以用作基于深度学习的姿态估计系统的姿态先验知识。3D语义地图(其可以渲染至用于给定姿态的语义标签地图)可以为场景解析提供强先验知识，并且也有助于保持时间一致性。

事实上，某些实施例将使用2D标签地图的二维(2D)位置估计任务转换成使用3D语义地图的3D相机姿态任务。由于自动驾驶的加速发展，正在收集和构建城市规模的3D语义地图，例如多伦多市数据集。某些实施例使用的数据集包括高质量3D语义地图，并且通过使用高精度移动光检测和测距(LIDAR)设备构建。

注意，在所呈现的深度学习框架实施例中，相机姿态和场景语义是互利的。相机姿态可以帮助建立3D语义地图和2D语义标签地图之间的对应关系。相反，场景语义可以帮助细化相机姿态。与单独执行两项任务相比，统一的框架在精度和速度方面都能对两相任务产生更好的结果。在使用单核Titan Z图形处理单元(GPU)(例如，加州圣克拉拉的NVIDIA公司的Nvidia Titan Z显卡)的实验中，所公开的网络和系统能够以小于1度的误差率在10毫秒内估计姿态，并且在没有模型压缩的情况下以大约96％的像素精度在90毫秒内分段512×608图像，这证明了所呈现的系统和方法的实施例的效率和有效性。

1.框架

图1示出了本文呈现的方法和系统的框架实施例。图1中的系统100示出了地图102、GPS/IMU输入104、图像110、粗略语义标签地图108、姿态网络112和114、分段网络116和细化语义标签地图140。在实施例中，地图102表示预先构建或预先记录的3D语义地图。地图102中不同的灰色阴影表示不同的语义区域，例如建筑物、车道和植物。箭头150、152表示训练和推理中的渲染(投影)操作；其他箭头表示测试/使用过程。圆形符号154指示3D地图102内的相机位置。在实施例中，网络112、116中的卷积(例如130)、解卷积(例如132)和完全连接层(例如134)用于计算标签地图108、140和图像110之间的相对差异。在实施例中，系统100的输入包括图像110的序列和相应的GPS/IMU信号104，并且输出可以是语义分段的图像118，每个图像与细化姿态相关联。在实施例中，这些语义标记的2D图像118改善了与图像110的对齐，并提高了帧之间的分段精度。

在实施例中，给定3D点云内的相机姿态，3D点可以被投影到2D地图中。在实施例中，在测试期间，图像110(例如来自一组视频帧的在线图像流)、以及可以从消费级GPS/IMU104获得的相应粗略相机姿态106以及一个或多个参数(例如固有相机参数)可以被输入到系统100中。在实施例中，基于粗略相机姿态106，对于每个帧110，可以使用3D语义地图102渲染粗略语义标签地图108，例如初始标签地图。在实施例中，语义标签地图108可以与相应的图像110一起被馈送到姿态网络112，例如CNN。姿态网络112可以计算相对旋转和平移，以产生校正的相机姿态113。在实施例中，为了建立时间相关性，校正的姿态113可以被馈送到RNN，例如多层姿态RNN 114，这进一步改善了所述流中的姿态精度并提供了更高阶的时间信息。在实施例中，给定修正或校正的相机姿态113，可以生成细化的经渲染的标签地图140。细化标签地图140和图像110可以一起被输入到分段网络，例如分段CNN 116，这有助于分段用于图像流110的空间上更精确和时间上更一致的结果，以例如输出逐像素的语义标签。在实施例中，在系统100中，数据包含用于姿态CNN 112、姿态RNN 114和/或分段CNN 116的参考答案(ground truth)，使得系统100可以在输出113、115和/或110处以强监督进行训练。

B.相关工作

从视频或单个图像中估计相机姿态和解析图像一直是计算机视觉和机器人学的中心问题。注意，虽然本文中的定位和解析应用是在自动驾驶和导航(其集中于具有街道级输入的室外情况)的语境中论述，但是这并不旨在限制本公开的范围，因为本文中描述的方法和系统同样有益于其他应用和环境，例如区域导航。

相机姿态估计。传统上，通过基数最大化来匹配2D的特征点和3D的特征，在3D点云内给定一组3D点来定位图像被公式化为透视n点(PnP)问题。通常，在大环境中，为了获得良好的估计，需要姿态先验知识。一些作者提出了一种利用先验知识的全局最优解算器。对于地理标记的图像可用的情况，其他人提出了使用图像检索的方法。当给定视频时，相对姿态可以用同步定位和绘图(SLAM)等方法进一步建模，这提高了定位精度和速度。

虽然这些方法在具有显著特征点的场景中是有效的，但是它们对于具有数十亿个点的城市规模环境仍然不实用，并且它们也可能在具有低纹理、重复结构和遮挡的区域中失败。因此，最近，使用CNN的深度学习特征被提出来结合低水平和高水平特征进行定位。PoseNet以低分辨率图像作为输入，它可以在10毫秒内相对于由显著地标组成的特征丰富的环境估计姿态。长短期记忆(LSTM)-PoseNet在CNN特征后进一步捕捉全局上下文。给定视频的情况下，其他方法包括双向LSTM或卡尔曼滤波器LSTM，以用时间信息获得更好的结果。然而，在街景场景中，考虑到路边有树，在大多数情况下，不会出现明显的地标，这可能会使视觉模型失效。因此，尽管有噪声，但是来自GPS/IMU的信号在这些情况下可以帮助定位，而问题变成估计噪声姿态和真实姿态的相机视图之间的相对姿态。为了处理在同一场景拍摄的两幅图像的相对姿态，最近，一些研究人员提出将两幅图像串联起来作为网络输入。相比之下，在实施例中，记录的输入图像与来自噪声姿态的在线渲染的标签地图串联起来，这在实验中提供了优异的结果。

场景解析。为了解析街景(例如，来自CityScapes的街景)的单个图像，大多数最先进的算法是基于FCN和具有扩展卷积、池化、条件随机场(CRF)或空间RNN的多尺度上下文模块设计的。然而，这些都依赖于具有数百层的ResNet，这对需要实时性能的应用来说计算成本太高。一些研究人员应用小模型或模型压缩来加速，但代价是精度降低。当输入是视频并且建立时空图时，一些方法使用3D密集CRF来获得时间上一致的结果。最近，计算了连续帧之间的光流，以将标签或特征从前一帧转移到当前帧。已经取得了显著的进步，但是一致性是通过流而不是3D信息和相机姿态来建立的，而3D信息和相机姿态对于静态背景来说更加紧凑。相反，本公开的实施例使用来自3D语义地图的投影作为减轻仅基于图像线索的场景解析中所涉及的困难的先验知识。在实施例中，采用来自深度和运动网络(DeMoN)的轻量级网络，以允许快速推断。

联合2D-3D视频解析。其他方法包括通过2D-3D一致性监督训练进行联合重建、姿态估计和解析。传统上，这些方法依赖于特征或光度匹配的运动结构(SFM)。具体而言，这种方法重建3D地图，并对2D和3D联合执行语义解析，以在多个帧之间产生一致的分段。最近，CNN-SLAM用来自单个图像的一个深度网络和用于图像解析的一个分段网络取代了传统的3D重建框架。但是，所有这些方法都是离线处理的，并且只针对静态背景，这与在线应用不兼容。此外，重建的3D模型的质量不能与3D扫描仪收集的数据的质量相比。

C.数据集准备

动机。如概述A.1部分所述，实施例被设计成利用可用的运动传感器和3D语义地图工作。但是，现有的室外数据集，如KITTI和CityScapes，不包含此类信息，特别是3D地图数据；并且多伦多市的数据集还没有公开。表1总结了实验中使用的几个关键属性，在E部分中有更详细的论述。请注意，现有的公共数据集都不满足这些属性。

表1

数据集	真实数据	相机姿态	3D语义地图	视频逐像素标签
					CamVid	√	-	-	-
KITTI	√	√	稀疏点	-
					CityScapes	√	-	-	所选帧
Toronto	√	√	3D建筑和道路	所选像素
					Synthia	-	√	-	√
P.F.B.	-	√	-	√
					本方案	√	√	密集点云	√

表1是各种实施例中使用的数据集和其他室外街景数据集之间的比较。术语“真实数据”指的是数据是否是在物理世界中收集的。“3D语义地图”指示数据是否包括包含语义标签的场景的3D地图。“视频逐像素标签”指示数据是否包括逐像素语义标签。

数据收集。实施例使用移动LIDAR扫描仪，例如由佛罗里达州奥兰多的Riegl USA,Inc.公司制造的商业扫描仪，以高粒度收集静态3D地图的点云。图2描绘了根据本公开实施例的收集的街景数据集的示例。图2(a)是收集的图像。

如图2(a)所示，捕捉的点云密度相对高于用于KITTI数据集的由Velodyne激光扫描仪捕捉的点云密度。与稀疏Velodyne LIDAR不同，实施例使用移动LIDAR扫描仪，该扫描仪利用两个激光束扫描垂直圆。随着采集车的移动，它使用推扫式相机扫描周围环境。但是，移动的对象，例如车辆和行人，可能会被压缩、扩展或完全从捕捉的点云中丢失。

图2(b)示出了具有3D点云投影的经渲染的标签地图。图2(b)中的椭圆表示移动的对象(骑手)。为了消除与移动对象相关联的不精确性，本公开的实施例：1)重复扫描同一路段；2)对齐并融合点云；和/或3)移除时间一致性低的点。形式上，将x点保持在轮次(round)j的条件是，

其中，在实验中，δ＝0.7，∈_d＝0.025，且

是指示函数。在实施例中，细化的点云可以保持为静态背景

用于进一步标记。

在实施例中，为了进行视频捕捉，可以使用两个正面相机，例如具有2048×2432的分辨率。当然，包括LIDAR扫描仪和相机的整个系统应该得到很好的校准。

2D和3D标记。为了对每个视频帧进行语义标记，在实施例中，静态背景、静态对象(例如，可以在点云中容易识别的停放车辆)和移动对象可以分别处理。例如，对于静态背景

可以直接在3D点云上进行标记，然后可以将3D点云投影到图像上以产生帧的经标记的背景。在实施例中，点云可以例如基于空间距离和法线方向被过度分段成点簇，并且每个点簇可以被手动标记。在实施例中，对于静态对象，例如，在每一轮次中，静态背景的点可以被剪除，并且对象的剩余点可以被标记。在实施例中，在3D-2D投影之后，只有移动对象保持未标记。这些实施例采用主动标记策略，首先使用已知算法训练对象分段模型，然后手动细化移动对象的掩模。

图2(c)示出了在时间一致性低的点被移除之后，具有3D点云投影的经渲染的标签地图。如图2(c)所示，通过使用上述步骤获得的标签可能仍然不完美。例如，可能存在一些未标记的像素，这些像素可能是由丢失的点或反射效应引起的。因此，某些实施例可以使用将3D点云中的点扩展成小2D正方形的拼接技术，这将在D.1部分中参照图2(e)更详细地论述，图2(e)示出了背景的经渲染的深度图和在3D点云中依赖于类的拼接之后的经渲染的标签地图。

在实施例中，结果被进一步细化以生成最终标签。图2(f)示出了具有内部涂色(即，手动填充)的缺失区域的经合并的标签地图，例如移动对象、天空和没有从3D语义地图投影的标签的其他区域。使用这样的策略，标记效率和精度可以大大提高。例如，标记纹理丰富的区域(例如那些有树和电线杆的区域)可能非常费力，尤其是在有遮挡的情况下。

D.定位相机和场景解析

如前面在A.1部分中所论述的，本文提出的用于深度定位和分段的各种方法和系统基于3D语义地图和深度网络。以下段落描述了如何从3D语义地图渲染语义标签地图，论述了各种网络架构的细节，并论述了用于训练整个系统的损失函数。

1.从相机姿态渲染标签地图

形式上，给定6-DOF相机姿态p＝[q,t]∈SE(3)，其中q∈S O(3)是旋转的四元表示，

是平移，可以从3D语义地图渲染标签地图，例如，其中应用z缓冲器来寻找每个像素处的最近点。

在实施例中，3D地图可以是基于点云的环境。尽管点云的密度可能相对较高(例如，道路区域内每25毫米一个点)，但是当3D点相对远离相机时，投影点可能是稀疏的，例如，图2(c)所示的建筑物区域。因此，在实施例中，对于环境中的每个点，可以通过将3D点扩展为正方形来采用计算机图形中使用的拼接技术，使得正方形的尺寸由其语义类来确定。形式上，对于属于类c的3D点x，其正方形尺寸s_c被设置成与该类到相机的平均距离成比例。形式上，

其中P_C是属于类c的3D点的集合，

是参考相机姿态的集合。然后，给定不同类之间的相对正方形尺寸，为了获得用于渲染的绝对尺寸，可以定义绝对范围。这是具有重大意义的，因为过大的尺寸可能导致边缘扩张，而过小的尺寸可能产生许多孔。在实验中，该范围已被设置为[0.025，0.05]，这提供了相对较高的视觉质量。

如图2(e)所示，那些投影点之间的无效值内部被涂色，同时分隔不同语义类的边界也被保留。如下文进一步论述的，在实施例中，经渲染的标签地图被输入到姿态CNN，以帮助网络定位相机。

2.使用运动先验知识的相机定位

使用道路先验知识的平移纠正。导航前的一种常见定位是使用2D道路地图，并将GPS信号约束到与识别道路的区域相对应的区域。应注意，一旦GPS信号落在道路区域之外，所渲染的标签地图可能与相机的街景完全不同，从而网络可能找不到对应关系。因此，在实施例中，通过使用道路点(即已知指示汽车车道、行人车道、自行车车道等的点)从3D语义地图渲染具有0.05米光栅化网格的2D道路地图图像，来实现约束。然后，对于2D地图中的像素

可以预先计算偏移值f(x,y)，其指示其相对于属于道路的最近像素的2D偏移。在实施例中，可以非常高效地计算f()，例如，使用广度优先搜索(breadth-first-search)算法。

在线测试期间，给定噪声平移t＝[t_x,t_y,t_z]，可以使用

从预先计算的偏移函数中找到最近的道路点w.r.t.t。现在参考图1，在实施例中，基于纠正(即，校正)的相机姿态113，可以渲染语义标签地图108，然后可以将其反馈给姿态CNN 112。

CNN-GRU姿态网络架构。如图1所示，姿态网络架构可以包括姿态CNN 112和具有循环连接117的姿态GRU-RNN 114。在实施例中，姿态网络的CNN 112接收图像I110和基于相应粗略相机姿态106

的经渲染的标签地图L作为输入。在实施例中，姿态CNN 112输出表示图像110和经渲染的标签地图108之间的相对姿态的7维向量

113，使得可以通过使用

获得相对于3D语义地图102的姿态。为了让姿态CNN 112的网络架构使用大卷积核来获得更大的上下文，同时保持参数的数量和运行时的可管理性，可以遵循DeMoN的设计。在实施例中，网络112的卷积核可以包括编码器和在y和x方向上的一对1D滤波器，编码器例如以2的步幅逐渐降低空间分辨率，同时增加信道数量。

在实施例中，由于输入是图像流，为了建模时间依赖性，在姿态CNN 112之后，可以附加具有剩余连接的多层GRU 114。图3示出了根据本公开实施例的用于建模相机姿态序列的GRU-RNN网络架构。在实施例中，GRU-RNN 300包括两层GRU 310，该两层GRU 310可以具有例如32个隐藏状态，并且可以便于邻近帧之外的高阶交互，从而提高姿态估计性能。与用于估计2D姿态的传统导航应用不同(传统导航应用通常通过假设恒定速度或恒定加速度来应用卡尔曼滤波)，在实施例中，相机姿态的转变可以从训练序列中学习，因为车辆的速度可能是未知的。实验证明，使用RNN预测的运动比使用假设恒定速度的卡尔曼滤波器预测的运动更精确。有利地，相对于由图1中的姿态CNN 112获得的估计姿态，RNN 300产生进一步的改善。应注意，校正的相机姿态113用与图1中相同的数字标记。

姿态损失。在实施例中，几何匹配损失可用于训练，以避免旋转和平移之间的平衡因子。形式上，给定3D点云中的一组点P＝{x}，每个图像的损失可以写成：

其中p和p^*分别是估计的姿态和参考姿态；π()是将3D点x映射到2D图像坐标的投影函数；l_x是x的语义标签；并且

是依赖于语义的权重因子。在实施例中，为属于特定类(例如交通灯)的点云设置更大的权重，以帮助姿态CNN获得更好的性能。在一些现有的方法中，相机可见的3D点被这种损失使用以避免非常大的数量并确保训练的稳定性。然而，在线搜索数百万个数据点中的可见3D点是相当不切实际的。因此，某些实施例基于每个训练图像的参考姿态，例如以256×304的分辨率，预渲染每个训练图像的深度图，并且使用从深度图投影回的3D点进行训练。

3.使用姿态指导的视频解析

现在回到图1，在具有纠正的姿态113的情况下，可以直接将语义3D世界渲染至相机的视图，产生当前图像的语义解析。然而，估计的姿态113通常不是完美的，因为更细化的区域(例如，包括光极的区域)可能至少部分未对齐。其他问题可能包括许多3D点(例如表示玻璃的区域)可能丢失(例如，由于反射)，并且点在更远的距离处可能稀疏。此外，输入中的动态对象可能不会由投影的标签地图表示，从而导致不正确的标签。因此，在实施例中，分段CNN 116可用于解决这些问题，同时接收渲染的标签地图140作为分段先验知识。图1中的数字111表示来自投影的标签地图的卷积。

分段网络架构。如部分B所论述的，高度参数化的网络(如ResNet)对于在线应用来说不够高效。图4示出了根据本公开实施例的分段CNN的示例性架构。在实施例中，分段CNN400使用渲染的标签地图410作为分段先验知识。在每个卷积块的底部，指示了滤波器尺寸，在顶部，相对于输入图像尺寸指示了每个块的下采样率。标有“softmax”(例如，450)的文本框指示可以计算损失的位置。

如图4所示，分段CNN 400是包括编码器-解码器网络402和细化网络404的轻量级网络。这两个网络的架构可与DeMoN中使用的相似，包括1D滤波器和镜像连接。然而，由于分段CNN 400包括例如来自3D语义地图的分段先验知识410，所以在实施例中，残余流412可以被添加到CNN 400。这鼓励网络400学习先验地图和参考答案之间的差异。

在一些现有设计中，使用全分辨率流来保持空间细节。相反，在分段CNN 400中，渲染的标签地图410也有助于保持语义空间布局。DeMoN中编码器-解码器网络之间的另一个显著差异是，对于图4中的网络输入410、430，标签地图410可以首先例如通过独热(one-hot)操作被转换成分数地图420，并且每个像素的分数可以被嵌入到32维特征向量434中，而不是直接将标签地图410与输入图像430串联。在实施例中，特征向量434可以与图像430的第一层输出串联，其中图像430和标签地图410之间的输入通道不平衡被减轻用于以分段。

在实施例中，对于细化网络404，可以使用相同的策略来处理两个输入410、430。最后，分段网络400可以产生分数地图440，从而得到由相机记录的给定图像的语义解析。

在实施例中，首先用RGB图像训练分段网络400，然后例如通过添加渲染的标签地图410来微调分段网络400。这是因为当从零开始训练网络400时，可能需要相对大量的数据来有效地从图像中学习特征。然而，来自估计姿态的渲染的标签地图可以平均具有例如70％的像素精度，使得只有30％的像素可用于生成有效梯度。该少量的交易数据可能会导致网络过度拟合标签地图，同时减慢从图像中学习特征的过程。最后，对于分段损失，如图4所示，可以使用标准softmax损失，并且可以在编码器406和解码器408的输出之后添加中间监督。

在实施例中，可以使用来自先前部分的特征(例如，416和418)的副本。然而，应当注意，这是可选的实施方式，在其他实施例中不需要采用。

E.实验

应当注意，这些实验和结果是以例示的方式提供的，并且是在特定条件下使用一个或多个特定实施例进行的；因此，这些实验及其结果都不应用于限制本专利文献的公开范围。

各种实施例可以使用实验数据集来实现，并且例如通过评估用于姿态估计和分段的几个系统设置来验证。对于有限的训练数据，例如包括对相同路段的几次扫描的GPS和IMU信号，可以模拟有噪声的GPS和IMU数据，例如通过使用均匀分布添加相对于参考姿态的随机扰动∈。在实施例中，平移和旋转噪声可以分别设置为∈_t～U(0,7.5m)和∈_r～U(0°,15°)。应注意，当设置模拟用的噪声范围时，可以使用真实数据。

在一个实施例中，采集车辆可以在一天的不同时间扫描科技园数个轮次。可以生成具有特定道路长度(例如3500米)的3D地图，其中连续帧之间的距离约为5米至10米。四个轮次的用于训练的相机图像和两个轮次的用于测试的相机图像可用于产生2242个训练图像和756个测试图像。在实施例中，语义类(在图2中示出)包括{天空、汽车车道、人行道、自行车道、路边、交通锥、交通栈、交通栅栏、灯杆、交通灯、电杆、交通标志、广告牌、建筑物、安全支架、植物、物体}。应注意，可以构建任何尺寸的数据集和语义。

实施细节。在实施例中，为了从3D语义地图快速渲染，可以采用OpenGL来利用z缓冲器处理来高效地渲染语义标签地图。512×608图像可以用单个GPU(例如，加州圣克拉拉的NVIDIA公司的Nvidia Titan Z显卡)在70毫秒内生成，这也可以是姿态CNN和分段CNN的输入尺寸。根据本公开的各种实施例，对于姿态CNN，层的过滤器尺寸可以是{32、32、64、128、256、1024、128、7}，并且每帧的前进速度可以是9毫秒。在实施例中，对于姿态RNN，长度为100的序列可以针对每帧以0.9毫秒的平均速度从训练数据中采样。对于分段CNN，尺寸可以保持与输入相同，前进时间可以是90毫秒。在实施例中，可以使用学习率为10^-3的“Nadam”优化器来学习两个网络。例如，由于GPU存储器的限制，这三个模型可以被顺序地训练。在一个实施例中，对于姿态CNN和分段CNN，当没有性能增益时，可以在150个周期(epoch)处设置停止，并且对于姿态RNN，可以在200个周期处设置停止。在实施例中，为了增加数据，可以使用imgaug库添加照明、模糊和翻转变化。在一个实施例中，可以保留训练图像的子集，用于验证来自每个周期的训练模型，并且可以选择最佳性能模型进行评估。

在实施例中，为了进行测试，由于输入GPS/IMU变化，即

可以使用相机姿态和图像分段的预测置信范围来验证单个组件的改善。在实施例中，使用10次模拟的标准变化获得置信范围。在实施例中，网络可以通过采用MXNet平台来实现。

对于姿态评估，可以使用中间平移偏移和中间相对角度。为了评估分段，可以采用常用的像素精度(Pix.Acc.)、平均类精度(mAcc.)，并且可以采用平均联合交叉(mIOU)。

姿态评估。表2示出了不同网络模型的估计平移t和旋转r的性能。具体而言，表2比较了姿态估计的不同设置的精度。“有噪声姿态”是指有噪声的GPS/IMU输入信号，“KF”表示使用卡尔曼滤波器。“±”后面的数字表示10次模拟的标准变化。符号“↓”和“↓”分别表示“较低”和“较高”值的改善结果。如表2所示，使用本公开的各种实施例可以实现统计上的显著改善。

表2

在实验中，用PoseNet的公布的代码和几何损失(方程式(3))训练模型。由于街景的场景外观相似性，没有获得合理的模型，即结果不比使用有噪声的GPS/IMU信号好。表2中的第二行示出了根据本公开的各种实施例的模拟GPS和IMU数据的中值误差。第三行显示，通过使用根据本公开实施例的姿态CNN，模型可以学习相机和GPS/IMU之间的相对姿态，这显著减小了误差(t的为60％，r的为85％)。通过在方程式(3)中添加语义线索，即道路先验知识和语义权重，姿态误差可以进一步减小，特别是对于旋转的误差(从0.982到0.727，如第4行所示)。事实上，最大的改善来自语义加权，而道路先验知识在这个实验中略有帮助。应注意，较大的噪声数据和增加的数据变化可以改善不同线索的验证。

例如，通过建立直接在GPS/IMU信号上执行RNN的基线来评估视频输入。如表2中第5行所示(表示为“不使用CNN的姿态RNN”)，估计的t比姿态CNN产生更好的结果，而r相对更差。这个结果是预料之中的，因为相机的速度比它的旋转更容易在时间上捕捉。可以采用的另一基线是在姿态CNN的输出处执行卡尔曼滤波，例如，通过假设恒定速度，该恒定速度可以被设置为来自训练序列的平均速度。如表2第6行所示(表示为“使用KF的姿态CNN”)，平移的结果略有改善，但旋转的结果恶化，这意味着滤波器对序列的平滑过度。最后，当组合姿态CNN和RNN时，实现了t和r的最佳姿态估计。

表3

分段评估。表3示出了根据本公开的实施例，通过定量比较各种分段网络配置的精度的场景解析结果。表3中的符号“t”表示“交通”，而“±”表示10次模拟的置信区域。如下面参考图5进一步论述的，结果展示了详细结构和场景布局的优异解析。

在实施例中，已知的解析网络可用于CityScapes数据集，即ResNet38，并利用新数据集进行训练。该网络可以利用来自CityScapes数据集的预先训练的参数，并以预定分辨率以每帧1.03秒的速度运行。如表3中的第一行所示，与根据不使用姿态先验知识的实施例的分段CNN(第二行)相比，网络实现了合理的精度。然而，本实施例中的网络速度大约快10倍，运行时间为90毫秒。在第三行，参考姿态渲染标签地图被用作分段CNN先验知识以获得分段性能的上限。在该实施例中，渲染的标签地图与图像完全对齐，因此，产生了明显更好的结果，而没有对大多数静态背景进行错误分类。第4行和第5行分别显示了用来自姿态CNN和姿态CNN-RNN的经渲染的标签地图训练的结果。与分段CNN相比，姿态CNN的结果略有改善。这是因为对于一些更细化的结构，偏移可能仍然很大。应注意，为了公平比较，在分段CNN收敛后，为了避免长时间训练的影响，训练网络可能会再持续100个时期。然而，当使用RNN之后的姿态时，可以实现更好的对齐，并且分段精度可以显著提高；特别是对于更细化的结构区域，例如图5中可见的灯杆，这证明了各种实施例的有效性。

图5示出了由图1所示系统的实施例的中间阶段产生的示例性结果。用于图5中图像(a)的标签地图包括有噪声姿态(b)；姿态CNN(c)；姿态RNN(d)；分段CNN(e)；分段CNN和姿态(f)；和参考答案(g)。图5中的某些改善区域由方框506表示，并以放大视图508示出。

如图5所示，对于给定相机视图，有噪声姿态(b)通过姿态CNN(c)和姿态RNN(d)逐步校正。此外，在(e)和(f)处，分别在没有相机姿态和有相机姿态的情况下比较分段结果。如方框区域所示，姿态渲染标签地图的分段结果在捕捉边界区域细节、帮助发现稀有类和保持正确的场景布局方面提供了增强的精度。所有这些属性对于导航例如识别交通标志和电杆来说可能都很重要，否则交通标志和电杆在视觉上很难检测到。

F.系统实施例

在实施例中，本专利文件的各方面可针对、可包括或可实现于一个或多个信息处理系统/计算系统上。计算系统可以包括可操作为运算、计算、确定、分类、处理、发送、接收、检索、发起、路由、切换、存储、显示、通信、展示、检测、记录、再现、应对或利用任何形式的信息、智能或数据的任何工具或工具的集合。例如，计算系统可以是或可以包括个人计算机(例如笔记本计算机)、平板计算机、平板电脑、个人数字助理(PDA)、智能手机、智能手表、智能包裹、服务器(例如刀片服务器或机架式服务器)、网络存储设备、相机或任何其他合适的设备，并且可以在尺寸、形状、性能、功能和价格上变化。这种计算系统可以被放置在车辆中，并且联接到GPS和相机输入。计算系统可以包括随机存取存储器(RAM)、一个或多个处理资源(例如，中央处理单元(CPU)或者硬件或软件控制逻辑)、ROM和/或其他类型的存储器。计算系统的附加组件可以包括一个或多个磁盘驱动器、用于与外部设备以及诸如键盘、鼠标、触摸屏和/或视频显示器的各种输入和输出(I/O)设备通信的一个或多个网络端口。计算系统还可以包括可操作为在各种硬件组件之间传输通信的一条或多条总线。

图6是根据本公开实施例的用于训练和/或使用模型来执行联合场景解析和相机姿态估计的说明性过程的流程图。当接收到语义地图数据(例如，预先构建或预先记录的3D语义地图)、可具有相机固有参数的与相机相关联的图像数据以及生成粗略相机姿态的传感器数据时(602)，过程600开始。在实施例中，传感器数据可以从诸如GPS或IMU的运动传感器接收。使用粗略相机姿态和相机固有参数，可以创建第一语义标签地图(604)。在实施例中，可以将图像数据和第一语义标签地图提供给姿态网络(例如姿态CNN)以获得校正的相机姿态(606)。在实施例中，将图像数据输入到分段网络中以生成与输入图像相关联并且可以包括逐像素语义标签的2D解析(612)。

在实施例中，可以在第二姿态网络(例如姿态RNN)中使用校正的相机姿态以生成细化的相机姿态来增加姿态精度(608)。在实施例中，姿态网络可以计算相对旋转和平移。在实施例中，校正的相机姿态可用于生成时间相关性。在实施例中，基于细化的相机姿态，第二语义标签地图可以被渲染并输入到分段网络。在实施例中，第二语义标签地图可以例如通过独热操作转换成分数地图。

在实施例中，在训练阶段，可以使用可包括权重因子(例如取决于语义类的权重因子)的损失。

图7描绘了根据本公开实施例的计算设备/信息处理系统(或计算系统)的简化框图。应当理解，系统700所示的功能可以操作来支持计算系统的各种实施例——尽管应当理解，计算系统可以被不同地配置并包括不同的组件，包括具有如图7所示的更少或更多的组件。

如图7所示，计算系统700包括提供计算资源并控制计算机的一个或多个中央处理单元(CPU)701。CPU 701可以用微处理器等实现，并且还可以包括用于数学计算的一个或多个GPU 719和/或浮点协处理器。系统700还可以包括系统存储器702，其可以是随机存取存储器(RAM)、只读存储器(ROM)或两者的形式。

如图7所示，还可以提供多个控制器和外围设备。输入控制器703表示连接至各种输入设备704(例如，键盘、鼠标、触摸屏和/或触笔)的接口。计算系统700还可以包括用于与一个或多个存储设备708接口连接的存储设备控制器707，每个存储设备708包括诸如磁带或磁盘的存储介质或光学介质，其可以用于记录操作系统、实用工具和应用的指令程序，其可以包括实现本申请的各个方面的程序的实施例。存储设备708也可用于存储已处理的数据或根据应用要处理的数据。系统700还可以包括显示器控制器709，显示器控制器709用于提供连接至显示设备711的接口，显示设备711可以是阴极射线管(CRT)、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或其他类型的显示器。计算系统700还可以包括用于一个或多个外围设备706的一个或多个外围设备控制器或接口705。外围设备的例子可以包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。通信控制器714可以与一个或多个通信设备715对接，这使得系统700能够通过包括互联网、云资源(例如以太网云、以太网光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网(SAN)在内的各种网络中的任何一种或通过任何合适的电磁载波信号(包括红外信号)连接到远程设备。

在图示的系统中，所有主要系统组件可以连接到总线716，总线716可以表示不止一条物理总线。然而，各种系统组件可能在物理上彼此接近，也可能在物理上不接近。例如，输入数据和/或输出数据可以从一个物理位置远程发送到另一个物理位置。此外，可以通过网络从远程位置(例如，服务器)访问实现应用的各个方面的程序。这种数据和/或程序可以通过各种机器可读介质中的任何一种来传送，包括但不限于：诸如硬盘、软盘和磁带的磁介质、诸如CD-ROM和全息设备的光学媒体、磁光媒体、以及专门配置为存储或存储和执行程序代码的硬件设备(例如专用集成电路(ASIC)、可编程逻辑设备(PLD)、闪存设备以及ROM和RAM设备)。

本申请的各方面可以用用于使一个或多个处理器或处理单元执行步骤的指令编码在一个或多个非暂时性计算机可读介质上。应当注意，一个或多个非暂时性计算机可读介质应当包括易失性和非易失性存储器。应当注意，替代实现方案是可能的，包括硬件实现方案或软件/硬件实现方案。硬件实现方案的功能可以使用ASIC、可编程阵列、数字信号处理电路等来实现。因此，任何权利要求中的术语“装置”旨在涵盖软件和硬件实现方案。类似地，本文使用的术语“计算机可读介质”包括其上包含指令程序的软件和/或硬件，或者它们的组合。考虑到这些替代实现方案，应当理解，附图和所附描述提供了本领域技术人员编写程序代码(即软件)和/或制造电路(即硬件)以执行所需处理所需的功能信息。

应当注意，本申请的实施例还可以涉及具有非暂时性有形计算机可读介质的计算机产品，该计算机可读介质上具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为了本申请的目的而专门设计和构造的那些，或者它们可以是相关领域技术人员已知或可用的类型。有形计算机可读介质的例子包括但不限于：诸如硬盘、软盘和磁带的磁媒体、诸如CD-ROM和全息设备的光学媒体、磁光媒体、以及专门配置为存储或存储和执行程序代码的硬件设备(例如专用集成电路(ASIC)、可编程逻辑设备(PLD)、闪存设备以及ROM和RAM设备)。计算机代码的例子包括机器代码(例如由编译器产生的代码)，以及包含由计算机使用解释器执行的高级代码的文件。本申请的实施例可以全部或部分实现为机器可执行指令，其可以在由处理设备执行的程序模块中。程序模块的例子包括库、程序、例程、对象、组件和数据结构。在分布式计算环境中，程序模块可以物理地位于本地、远程或两者兼有的环境中。

本领域技术人员将认识到，没有计算系统或编程语言对本申请的实践是至关重要的。本领域技术人员还将认识到，上述许多元件可以在物理上和/或功能上分成子模块或组合在一起。

本领域技术人员将理解，前面的示例和实施例是示例性的，并不限制本公开的范围。本领域技术人员在阅读说明书和研究附图后显而易见的所有置换、增强、等同物、组合和改善都包含在本公开的真实精神和范围内。还应当注意，任何权利要求的元素可以不同地排列，包括具有多种从属性、配置和组合。

Claims

1.一种使用网络执行联合场景解析和相机姿态估计的方法，所述方法包括：

接收语义地图数据、与所述相机相关联的图像数据以及包括粗略相机姿态的传感器数据；

通过使用所述语义地图数据、所述粗略相机姿态和相机固有参数创建第一语义标签地图；

将所述图像数据和所述第一语义标签地图提供给第一姿态网络，以获得校正的相机姿态；以及

将所述图像数据输入至分段网络中，以生成与所输入的图像数据相关联的二维解析。

2.根据权利要求1所述的方法，其中，所述传感器数据由运动传感器提供。

3.根据权利要求1所述的方法，还包括在第二姿态网络中使用所述校正的相机姿态来生成细化的相机姿态，以增加姿态精度。

4.根据权利要求3所述的方法，其中所述第一姿态网络和所述分段网络是卷积神经网络，所述第二姿态网络是递归神经网络。

5.根据权利要求3所述的方法，还包括：基于所述细化的相机姿态，渲染输入到所述分段网络的第二语义标签地图。

6.根据权利要求5所述的方法，其中，所述第二语义标签地图作为分段上下文被嵌入到所述分段网络中。

7.根据权利要求5所述的方法，还包括通过独热操作将所述第二语义标签地图转换成分数地图。

8.根据权利要求1所述的方法，其中，所述二维解析包括逐像素语义标签。

9.根据权利要求1所述的方法，其中，所述第一姿态网络计算相对旋转和平移，并且其中，所述校正的相机姿态用于生成时间相关性。

10.一种用于联合场景解析和相机姿态估计的系统，所述系统包括：

相机，具有固有参数并生成图像数据；

传感器，生成包括粗略相机姿态的传感器数据；

处理器，包括指令，所述指令在被执行时基于语义地图数据、所述图像数据和所述传感器数据创建第一语义标签地图；

第一姿态网络，响应于接收到所述图像数据和所述第一语义标签地图，生成校正的相机姿态；以及

分段网络，基于所述图像数据生成与所输入的图像数据相关联的二维解析。

11.根据权利要求10所述的系统，其中，所述传感器数据由运动传感器提供。

12.根据权利要求10所述的系统，其中，所述传感器数据包括位置估计。

13.根据权利要求10所述的系统，还包括第二姿态网络，所述第二姿态网络基于所述校正的相机姿态，通过渲染输入到所述分段网络的第二语义标签地图生成细化的相机姿态以增加姿态精度。

14.根据权利要求13所述的系统，其中，所述第二语义标签地图是二维的，并且作为分段上下文嵌入到所述分段网络中。

15.根据权利要求10所述的系统，其中，所述语义地图数据包括三维点云的点，所述点被放大为二维正方形，所述二维正方形的尺寸由与所述点云相关联的语义类确定。

16.一种用于训练网络以执行联合场景解析和相机姿态估计的方法，所述方法包括：

接收语义地图数据、与相机相关联的图像数据以及包括粗略相机姿态的传感器数据；

通过使用所述语义地图数据、所述粗略相机姿态和相机固有参数创建语义标签地图；

将所述图像数据和所述语义标签地图提供给第一姿态网络，以获得校正的相机姿态；

将所述图像数据输入至分段网络中，以生成与所输入的图像数据相关联的二维解析；以及

使用包括取决于语义类的权重因子的损失。

17.根据权利要求16所述的方法，其中，所述第一姿态网络和所述分段网络是卷积神经网络。

18.根据权利要求16所述的方法，其中，所述语义地图数据包括三维点云的点，所述点被放大为二维正方形，所述二维正方形的尺寸由与所述点云相关联的语义类确定。

19.根据权利要求18所述的方法，其中，所述二维正方形的尺寸与所述相机和所述语义类之间的平均距离成比例。

20.根据权利要求16所述的方法，还包括通过重复扫描路段、对齐和融合所述语义地图数据中的点云、以及从所述语义地图数据中的点云中移除具有相对较低时间一致性的点中的至少一种，从所述语义地图数据中移除与移动对象相关联的数据。