CN116071721A

CN116071721A - 一种基于Transformer的高精地图实时预测方法和系统

Info

Publication number: CN116071721A
Application number: CN202310166744.XA
Authority: CN
Inventors: 张力; 徐升华; 聂铭; 蔡信岳; 徐航
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-05-05

Abstract

本发明公开了一种基于Transformer的高精地图实时预测方法，包括：从多个视角相机中获取多个包含道路类别的图像数据、以及每个图像数据所对应的相机内外参数以及自车的标定参数，利用矩阵乘法获取每个图像数据对应的投影矩阵，并对所有图像数据进行预处理，以得到预处理后的多个图像数据；将预处理后的所有图像数据、以及每个图像数据所对应的投影矩阵输入预先训练好的高精地图实时预测模型中，以得到每个道路类别对应的预测结果；使用点非极大值抑制方法对每个道路类别对应的分割图进行处理，以得到所有道路类别对应的关键点集合，对每个道路类别对应的关键点集合、以及该道路类别对应的偏移图和距离图进行解码处理，以得到解码后的检测结果。

Description

一种基于Transformer的高精地图实时预测方法和系统

技术领域

本发明属于深度学习和视觉感知技术领域，更具体地，涉及一种基于Transformer的高精地图实时预测方法和系统。

背景技术

高精地图实时预测在自动驾驶研究领域里起着至关重要的作用，对于道路的准确感知往往是路线规划、车辆转向以及车道保持等下游任务的第一步。因此高精地图实时预测研究是目前深度学习的重要组成部分，体现出巨大的研究潜力和应用价值。此外，高精地图通常包含车道线，人行道和路沿等多种道路类别信息。

目前高精地图实时预测算法主要划分为三种方法。第一种方法是对于2D图像特征不进行投影，直接在鸟瞰图(Bird’s Eye View，简称为BEV)空间中将高精地图相关的道路结构信息检测出来，然后利用相机的内外参数和位姿信息，将检测结果直接转换到鸟瞰图空间。第二种方法是通过逆透视变换(Inverse Perspective Mapping，简称为IPM)，根据相机的内外参数和位姿信息将2D图像特征信息映射到鸟瞰图空间下，得到鸟瞰图特征图，然后通过鸟瞰图特征图检测出高精地图的道路结构信息。第三种方法是基于深度估计的方法，其通过加入像素级的深度信息，将每个像素的位置信息提升到三维，然后借助相机内参投影到相机坐标系，投影到鸟瞰图空间，以此获得鸟瞰图特征图，最后通过鸟瞰图特征图检测出高精地图的道路结构信息。

然而，上述几种现有的高精地图预测方法均存在一些不可忽略的技术问题，第一，将图像坐标系中的检测结果直接转换到鸟瞰图空间没有很好地利用图像特征的高层语义信息，使得模型缺乏鲁棒性，并且对于多个相机对应的检测结果进行简单地拼接，使得多个相机对应的图像特征之间没有进行高效的信息融合。第二，逆透视变换作为一种简化相机模型的操作，在转换过程中会引入位置误差，并且在面临复杂的场景和不准确的相机参数时，会出现检测不佳的情况；第三，由于目前的深度估计模型仍然存在预测不准确的技术问题，而微小的深度估计偏差可能会引入较大的空间转换位置误差，这都会进一步影响高精地图检测的准确度。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种基于Transformer的高精地图实时预测方法和系统，其目的在于，解决现有直接将图像空间中的道路检测结果转换到鸟瞰图空间中，容易导致模型缺乏鲁棒性，使得多个相机视角之间的特征信息交互不足，最终降低高精地图预测精度的技术问题，以及基于逆透视变化的方法简化相机模型，无法处理复杂驾驶场景的技术问题，以及基于深度估计的方法过于依赖深度信息的准确性，容易导致深度估计不准确，降低图像特征向鸟瞰图空间转换的准确度的技术问题。

为实现上述目的，按照本发明的一个方面，提供了一种基于Transformer的高精地图实时预测方法，包括以下步骤：

(1)从多个视角相机中获取多个包含道路类别的图像数据、以及每个图像数据所对应的相机内外参数以及自车的标定参数，根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数，并利用矩阵乘法获取每个图像数据对应的投影矩阵，并对所有图像数据进行预处理，以得到预处理后的多个图像数据。

(2)将步骤(1)预处理后的所有图像数据、以及每个图像数据所对应的投影矩阵输入预先训练好的高精地图实时预测模型中，以得到每个道路类别对应的预测结果，该预测结果包括分割图、偏移图和距离图。

(3)使用点非极大值抑制方法对步骤(2)得到的每个道路类别对应的分割图进行处理，以得到所有道路类别对应的关键点集合，对每个道路类别对应的关键点集合、以及步骤(2)得到的该道路类别对应的偏移图和距离图进行解码处理，以得到解码后的检测结果，将所有道路类别对应的检测结果进行拼接，以得到最终的高精地图预测结果。

优选地，相机内外参数包括相机坐标系向图像坐标系投影所需的相机内参和相机坐标系向自车坐标系所需的外参，自车标定数据主要包括但不局限于自车位置以及朝向。

道路类别包括三种，即车道线、人行道、以及路沿。

优选地，步骤(1)中根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数，并利用矩阵乘法计算每个图像数据对应的投影矩阵这一过程具体为，首先将相机内参和相机外参相乘，得到图像坐标系向自车坐标系转换的投影矩阵，然后根据预先建立的鸟瞰图空间坐标系，将自车标定参数转换成相机坐标系向鸟瞰图空间坐标系转换的投影矩阵，最后将得到的两个投影矩阵相乘，得到图像坐标系向鸟瞰图空间坐标系转换的投影矩阵；

步骤(1)中对输入的多个图像数据进行预处理操作，包括缩放和归一化操作，缩放操作是利用双线性插值法将图像数据从原尺寸缩放到448×800×3，归一化操作是将图像数据中的平均亮度值进行移除。

优选地，高精地图实时检测模型包含依次连接的特征提取主干网络、鸟瞰图地面构建网络，和预测头网络三个部分；

特征提取主干网络包括一个标准的ResNet网络和一个轴向特征金字塔模块，其具体结构为：

ResNet网络，其输入为所有视角的多个图像数据，对其进行标准的特征提取操作，输出为维度为

以及

大小的特征张量，其中W表示每个图像数据的宽度，其取值为800，H表示每个图像数据的高度，其取值为448，每个图像数据的通道数为3；

轴向特征金字塔模块，其输入为ResNet网络输出的

以及

大小的特征张量，将其按照尺寸从大到小依次排列，得到层特征张量。将每一层特征张量进行轴向自注意力计算，再和上一层更新后的特征张量进行轴向交叉注意力计算，最终输出为

以及

大小的特征张量；

鸟瞰图地面构建网络由N个解码层串联组成，其中N的取值范围是1到3，每个解码层的输入是100×50×256大小的查询特征和特征金字塔模块输出得到的

大小的特征张量，首先，对所有查询特征进行轴向自注意力计算，以得到更新后的100×50×256大小的查询特征，然后，遍历更新后的100×50×256大小的特征张量的每一个查询特征，根据查询特征投影到相机视角是否可见的结果，将其划分为可见查询特征或者为不可见查询特征，随后，对可见查询特征和特征金字塔模块输出得到的

以及

大小的特征张量进行多视角采样注意力计算，得到更新后的可见查询特征，大小为N₁×256，然后，对不可见查询特征和特征金字塔模块输出得到的

大小的特征张量进行全局交叉注意力计算，以得到更新后的不可见查询特征，大小为N₂×256，其中N₁+N₂＝5000，最后，将所有查询特征输入全连接层网络，以得到100×50×256大小的特征张量，作为下一个解码层的输入，由此，鸟瞰图地面构建网络最终输出为100×50×256大小的特征张量；

预测头网络包括并行的车道线预测头、人行道预测头和路沿预测头三部分，所有预测头的结构完全相同，每个预测头由三个相同的并行的网络分支构成，每个网络分支由M个卷积层顺序连接而成，将100×50×256大小的特征张量输入三个预测头中，并进行上采样操作，以得到三个预测结果，每个预测结果包括400×200×2大小的分割图、400×200×4大小的偏移图、以及400×200×2大小的距离图，其中M的取值范围是2到4。

优选地，高精地图实时预测模型是通过以下步骤训练得到的：

(2-1)获取高精地图自动驾驶数据集、每个图像数据所对应的相机内外参数以及自车的标定参数，对该高精地图自动驾驶数据集进行预处理，以得到预处理后的高精地图自动驾驶数据集，并将其按比例划分为训练集和验证集，根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数，并利用矩阵乘法获取每个图像数据对应的投影矩阵。

(2-2)将步骤(2-1)获取的训练集输入预训练好的ResNet模型中，以得到每个视角v对应的第l个尺度的图像特征

对每个视角v对应的多尺度图像特征进行轴向注意力计算，以得到该视角对应的多尺度图像特征

并对该视角对应的多尺度图像特征进行跨尺度融合，以得到更新后的多尺度图像特征

其中v∈{1,...,V}，V表示相机视角的数量，l∈{1,...,L}，L表示图像特征的尺度数量；

(2-3)初始化一组栅格化、且可学习的查询特征Q，尺寸为H_B×W_B×C，其中H_B代表鸟瞰图平面的长，W_B代表鸟瞰图平面的宽，C代表每个查询特征Q_i的通道数，i代表查询特征索引，并且i∈{1,...,H_BW_B}，即Q_i的尺寸为1×C，对每个查询特征对应的3D坐标

和步骤(2-1)得到的每个图像对应的投影矩阵进行计算，以得到每个查询特征投影之后在图像坐标系的2D坐标，根据得到的所有查询特征对应的2D投影坐标和图像数据的尺寸之间的关系，将所有的查询特征划分成可见查询特征和不可见查询特征，对每个可见查询特征以及对应的2D坐标和步骤(2-2)得到的多视角多尺度图像特征进行多视角采样注意力计算MSA，以得到更新后的可见查询特征；

(2-4)对步骤(2-2)更新后的多个相机视角对应的多尺度图像特征进行位置嵌入层计算，以得到3D图像特征，将每个不可见查询特征和3D图像特征进行空洞查询补全DQC计算，以得到更新后的不可见查询特征，将步骤(2-3)得到的可见查询特征和更新后的不可见查询特征按照预定义对应的3D位置坐标进行拼接，以得到鸟瞰图特征图。

(2-5)将步骤(2-4)得到的鸟瞰图特征图输入预测头网络中，以分别得到各个道路类别对应的预测结果，每个预测结果都包含分割图、偏移图和距离图。

(2-6)根据步骤(2-5)得到的所有道路类别的分割预测结果，偏移预测结果和距离预测结果计算损失函数，并利用该损失函数对高精地图实时检测模型进行迭代训练，直到该高精地图实时检测模型收敛为止，从而得到训练好的高精地图实时检测模型。

优选地，步骤(2-2)中在每个尺度的图像特征上进行轴向注意力操作CA，并且每个查询特征只和同一行或者同一列的键进行注意力计算；

步骤(2-2)中跨尺度特征融合操作也是进行轴向注意力计算，将第v个视角对应的第l个尺度的图像特征

当成查询特征，将更新后的第v个视角对应的第l+1个尺度的图像特征

当成键和值，利用双线性插值对

进行上采样操作，并且尺寸和

相同，具体操作如下公式所示：

其中CA表示轴向注意力操作，UP表示上采样操作。

优选地，在步骤(2-3)中，每个查询特征Q_i表示鸟瞰图空间坐标平面中中坐落于p_i＝(x_i,y_i)的网格单元的特征信息。并且在整个坐标系转换的信息处理过程中，每个Q_i对应的位置参考点都是固定不变的，因此对于每一个Q_i，其对应的3D位置坐标

为(x_i*s,y_i*s,h)，其中s为鸟瞰图空间的分辨率，h为鸟瞰图空间中的地面高度；

步骤(2-3)中将每个查询特征Q_i对应的3D坐标

和步骤(2-1)得到的每个图像对应的投影矩阵进行计算，以得到每个查询特征投影之后在图像坐标系的2D坐标这一过程具体为，将步骤(2-1)得到的第v个视角相机对应的投影矩阵和

进行计算，以得到第v个相机对应图像平面的投影点

具体操作如以下公式所示，

其中p_v代表第v个相机从3D空间转换到图像平面所需的投影矩阵；

步骤(2-3)中将所有的查询特征划分成可见查询特征和不可见查询特征这一过程具体为，根据所有投影点I_i,v在对应视角内是否可见，将Q_i分类成可见查询特征或者不可见查询特征，可见查询特征是至少在一个相机视角内是可见的，而不可见查询特征是在所有相机视角内不可见的。令

用于表示Q_i在哪些相机视角是可见的，则可见查询特征为Q_x＝{Q_i||U_i|>0}，不可见查询特征为Q_y＝{Q_i||U_i|＝0}，Q＝Q_x+Q_y。

步骤(2-3)中将可见查询特征和步骤(2-2)得到的多视角多尺度图像特征进行多视角采样注意力计算这一过程具体为，

其中，Q_i∈Q_x，

代表I_i,v的归一化坐标，F_v代表第v个视角的多尺度图像特征，l代表图像特征尺度的索引值，k代表采样点的索引值。L代表特征尺度的个数，K代表采样点的个数。

和

分别代表第k个采样点在

特征图上的注意力权重和采样点偏移量，W代表可学习的网络参数，

代表将归一化坐标

映射到

特征图上。

优选地，步骤(2-4)中将步骤(2-2)得到的多视角多尺度图像特征进行对应的位置嵌入层计算，以得到3D图像特征这一过程具体为：首先，将所有视角的第L层尺寸为H_L×W_L×C的图像特征

拼接成一个理想的圆柱体，以圆柱体中心点O为原点建立3D空间坐标系中，以得到所有图像像素点p对应的3D位置坐标

然后，令

分别是p在正视视角和俯视视角的投影点。α是p^B和点O在俯视视角下的投影点之间的夹角，而β是p^R和点O在正视视角下的投影点的夹角。通过计算sinα,cosα,tanβ来近似

并且

和

则p^O＝(sinα,cosα,tanβ)，具体公式如下所示，

随后，将得到的所有像素点对应的3D位置坐标p^O送入全连接层，以得到环式位置嵌入层

尺寸为H_L×W_L×C，其中C为通道数，和图像特征通道数保持一致；

最后，将得到的环式位置嵌入层

和图像特征

相加，以得到对视角敏感的3D特征图

具体公式如下所示，

步骤(2-4)中将不可见查询特征和对视角敏感的3D特征图进行空洞查询补全计算这一过程具体如以下公式所示:

其中Q_i∈Q_y，k代表图像数据像素点的索引值，W、A_v和A_k都是可学习的网络参数，DQC表示空洞查询补全操作。

优选地，步骤(2-5)中，将步骤(2-4)得到的鸟瞰图特征图分别送入三个预测头网络中，以得到三组预测结果，每组预测结果都包含尺寸为400×200×2的分割图S，尺寸为400×200×4的偏移图T，和尺寸为400×200×2距离图D，其中，分割图用来记录车道线前景点的区域，偏移图用来记录每个前景点和相邻结点之间的偏移矢量，而距离图则保存每个前景点与所在车道线端点的距离标量；

总损失函数Loss为：

Loss＝Loss_ped+Loss_lane+Loss_boundary

其中车道线损失函数Loss_lane为：

Loss_lane＝Loss_seg+Loss_reg

其中，

为由车道线真值标注生成的分割图监督信号，尺寸为400×200×2，

为由车道线真值标注生成的距离图监督信号，尺寸为400×200×2，

为为由车道线真值标注生成的距离图监督信号，尺寸为400×200×4。分割图使用OHEM损失函数，正负样本比例为15:1，而偏移图和距离图使用SMOOTH-L1损失函数；

人行道损失函数Loss_ped和路沿损失函数Loss_boundary和车道线损失函数Loss_lane相同。

按照本发明的另一方面，提供了一种基于Transformer的高精地图实时预测系统，包括：

第一模块，用于从多个视角相机中获取多个包含道路类别的图像数据、以及每个图像数据所对应的相机内外参数以及自车的标定参数，根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数，并利用矩阵乘法获取每个图像数据对应的投影矩阵，并对所有图像数据进行预处理，以得到预处理后的多个图像数据。

第二模块，用于将第一模块预处理后的所有图像数据、以及每个图像数据所对应的投影矩阵输入预先训练好的高精地图实时预测模型中，以得到每个道路类别对应的预测结果，该预测结果包括分割图、偏移图和距离图。

第三模块，用于使用点非极大值抑制方法对第二模块得到的每个道路类别对应的分割图进行处理，以得到所有道路类别对应的关键点集合，对每个道路类别对应的关键点集合、以及第二模块得到的该道路类别对应的偏移图和距离图进行解码处理，以得到解码后的检测结果，将所有道路类别对应的检测结果进行拼接，以得到最终的高精地图预测结果。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

(1)本发明由于在高精地图实时预测模型训练过程中采用了步骤(2-3)，其通过预定义栅格化的查询特征实现了一种新的鸟瞰图投影方法，获得更准确的鸟瞰图特征，因此能够解决现有的直接将图像空间中的道路检测结果转换到鸟瞰图空间的方法导致模型缺乏鲁棒性，以及多个视角相机间无法进行信息交互的技术问题。

(2)本发明由于在高精地图实时预测模型训练过程中采用了步骤(2-3)，其通过查询特征实现了鸟瞰图空间向图像空间逆投影的方式，更好地利用预定义的三维空间信息，从而获取鸟瞰图空间特征信息，解决了现有的基于逆透视变换的方法简化相机模型，假设目标投影平面是光滑平坦的，导致无法处理复杂驾驶场景的技术问题。

(3)本发明由于在高精地图实时预测模型训练过程中采用了步骤(2-3)，其通过多视角采样注意力操作，利用网络模型动态地预测采样点的位置偏移量，从而适应鸟瞰图空间地面高度的变化所带来的深度信息的变化，因此解决了现有基于深度估计的方法受深度信息的影响，导致深度估计不准确，降低图像特征向鸟瞰图空间转换的准确度的技术问题。

(4)本发明由于在高精地图实时预测模型训练过程中采用了步骤(2-4)，其将查询特征划分为可见查询特征和不可见查询特征，进而对不可见查询特征进行空洞查询补全计算，其在鸟瞰图空间利用全局交叉注意力计算获取驾驶场景的道路结构信息，因此能够增强模型对于以自车为中心的不可见区域的泛化能力，从而提高道路检测的准确性。

(5)本发明由于在高精地图实时预测模型训练过程中采用了步骤(2-2)，其对多个相机视角对应的多尺度图像特征进行轴向注意力计算，并且在进行跨尺度特征融合时，利用轴向特注意力计算取代传统的特征相加操作，因此能够使得获得的图像特征具有全局信息，以此契合道路细长的拓扑结构特点，并且避免了传统相加操作中由于上采样引入的特征位置不对齐的技术问题。

附图说明

图1是本发明基于Transformer的高精地图实时预测方法的流程图；

图2是本发明高精地图实时检测模型的结构示意图。

图3是本发明高精地图实时检测模型中轴向特征金字塔的结构示意图。

图4是本发明高精地图实时检测模型中空洞查询补全的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

针对高精地图实时预测领域中存在的鸟瞰图(Bird’s eye view，简称BEV)特征投影不准确的技术问题，本发明提出了一种基于Transformer的高精地图实时预测方法。通过提出的多视角采样注意力机制，对预定义的网格化可学习查询特征(Query)和图像特征进行高效交互，生成空间位置信息更加准确的鸟瞰图特征图，并且进一步提高模型对于鸟瞰图空间中以自车为中心的不可见区域的泛化能力，进而提高网络对于鸟瞰图空间中多个道路类别信息的学习能力和的检测性能，以此将检测出的多个道路类别信息组合成最终所需的高精地图。

如图1所示，本发明提供了一种基于Transformer的高精地图实时预测方法，包括以下步骤：

(1)从多个视角相机中获取多个包含道路类别的图像数据、以及每个图像数据所对应的相机内外参数以及自车的标定参数，根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数，并利用矩阵乘法获取每个图像数据对应的投影矩阵(其用于实现图像坐标系与鸟瞰图空间坐标系之间的转换)，并对所有图像数据进行预处理，以得到预处理后的多个图像数据。

具体而言，相机内外参数包括相机坐标系向图像坐标系投影所需的相机内参和相机坐标系向自车坐标系所需的外参，自车标定数据主要包括但不局限于自车位置以及朝向。道路类别包括三种，即车道线、人行道、以及路沿。

本步骤中根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数，并利用矩阵乘法计算每个图像数据对应的投影矩阵这一过程具体为，首先将相机内参和相机外参相乘，得到图像坐标系向自车坐标系转换的投影矩阵，然后根据预先建立的鸟瞰图空间坐标系，将自车标定参数转换成相机坐标系向鸟瞰图空间坐标系转换的投影矩阵，最后将得到的两个投影矩阵相乘，得到图像坐标系向鸟瞰图空间坐标系转换的投影矩阵。

本步骤中对输入的多个图像数据进行预处理操作，包括缩放和归一化操作，缩放操作是利用双线性插值法将图像数据从原尺寸缩放到448×800×3，该操作能减少网络模型的计算量，而归一化操作的目的是将图像数据中的平均亮度值进行移除，所有样本除去共有的部分后，能更加凸显样本间的个体差异性。

如图2所示，本发明的高精地图实时检测模型包含依次连接的特征提取主干网络、鸟瞰图地面构建网络，和预测头网络三个部分。

ResNet网络，其输入为所有视角的多个图像数据(其为RGB图像)，对其进行标准的特征提取操作，输出为维度为

以及

大小的特征张量，其中W表示每个图像数据的宽度，其取值为800，H表示每个图像数据的高度，其取值为448，每个图像数据的通道数为3。

轴向特征金字塔模块，如图3所示，其输入为ResNet网络输出的

以及

以及

大小的特征张量。

鸟瞰图地面构建网络由N个(其中N的取值范围是1到3，优选为2)解码层串联组成。每个解码层的输入是100×50×256大小的查询(Query)特征和特征金字塔模块输出得到的

大小的特征张量，首先，对所有查询特征进行轴向自注意力计算，以得到更新后的100×50×256大小的查询特征，然后，遍历更新后的100×50×256大小的特征张量的每一个查询特征，根据查询特征投影到相机视角是否可见的结果，将其划分为可见查询(visible query)特征或者为不可见查询(dilated query)特征，随后，对可见查询特征和特征金字塔模块输出得到的

以及

大小的特征张量进行全局交叉注意力计算，以得到更新后的不可见查询特征，大小为N₂×256，其中N₁+N₂＝5000，最后，将所有查询特征输入全连接层网络，以得到100×50×256大小的特征张量，作为下一个解码层的输入，由此，鸟瞰图地面构建网络最终输出为100×50×256大小的特征张量。

预测头网络包括并行的车道线预测头、人行道预测头和路沿预测头三部分，所有预测头的结构完全相同，每个预测头由三个相同的并行的网络分支构成，每个网络分支由M个(其中M的取值范围是2到4，优选为3)卷积层顺序连接而成，将100×50×256大小的特征张量输入三个预测头中，并进行上采样操作，以得到三个预测结果，每个预测结果包括400×200×2大小的分割图、400×200×4大小的偏移图、以及400×200×2大小的距离图。

具体而言，本发明的高精地图实时预测模型是通过以下步骤训练得到的：

具体而言，本步骤中采用的高精地图自动驾驶数据集是nuScenes数据集，该nuScenes数据集是在波士顿海港地区、新加坡的皇后镇、一北和荷兰村地区总共四个地区进行采集，一共包含1000个自动驾驶场景，包括雨天、黑夜和起雾等等，训练和测试时，采用的是来自官方数据集的划分方式，按照4.7:1的比例划分为训练集和测试集，即训练集共有28130个时间戳样本，验证集共有6019个时间戳样本，每一个时间戳包括6个相机的图像数据，对相机内外参数和预定义的鸟瞰图空间坐标系计算，以得到每个图像数据对应的投影矩阵。此外，本步骤只关注车道线、人行道和路沿三种道路信息。

注意，本步骤所使用的图像预处理方法、投影矩阵计算方法和上述步骤(1)完全相同，因此不再赘述。

具体而言，本步骤中在每个尺度的图像特征上进行轴向注意力操作(ColumnarAttention，简称CA)，即进行自注意计算，并且每个查询特征(Query)只和同一行或者同一列的键(Key)进行注意力计算。

本步骤中跨尺度特征融合操作，也是进行同样的轴向注意力计算，区别在于该操作进行交叉注意力计算，将第v个视角对应的第l个尺度的图像特征

当成键和值(Value)，利用双线性插值对

进行上采样操作(Upsampling，简称UP)，并且尺寸和

相同，以此避免传统的上采样操作引入的位置不对齐的技术问题，具体操作如下公式所示：

其中CA表示轴向注意力操作，UP表示上采样操作。

和步骤(2-1)得到的每个图像对应的投影矩阵进行计算，以得到每个查询特征投影之后在图像坐标系的2D坐标，根据得到的所有查询特征对应的2D投影坐标和图像数据的尺寸之间的关系，将所有的查询特征划分成可见查询特征和不可见查询特征(其中可见查询特征是至少在一个相机视角内是可见的，而不可见查询特征是在所有相机视角内不可见的)，对每个可见查询特征以及对应的2D坐标和步骤(2-2)得到的多视角多尺度图像特征进行多视角采样注意力计算(Multi-view Sampling Attention，简称MSA)，以得到更新后的可见查询特征；

具体而言，每个查询特征Q_i表示鸟瞰图空间坐标平面中中坐落于p_i＝(x_i,y_i)的网格单元的特征信息。并且在整个坐标系转换的信息处理过程中，每个Q_i对应的位置参考点都是固定不变的，因此对于每一个Q_i，其对应的3D位置坐标

为(x_i*s,y_i*s,h)，其中s为鸟瞰图空间的分辨率，h为鸟瞰图空间中的地面高度。

本步骤(2-3)中将每个查询特征Q_i对应的3D坐标

进行计算，以得到第v个相机对应图像平面的投影点

具体操作如以下公式所示，

其中p_v代表第v个相机从3D空间转换到图像平面所需的投影矩阵。

本步骤(2-3)中将所有的查询特征划分成可见查询特征和不可见查询特征这一过程具体为，根据所有投影点I_i,v在对应视角内是否可见，将Q_i分类成可见查询特征或者不可见查询特征，可见查询特征是至少在一个相机视角内是可见的，而不可见查询特征是在所有相机视角内不可见的。令

本步骤(2-3)中将可见查询特征和步骤(2-2)得到的多视角多尺度图像特征进行多视角采样注意力计算这一过程具体为，

其中，Q_i∈Q_x，

和

分别代表第k个采样点在

代表将归一化坐标

映射到

特征图上，MSA代表多视角采样注意力计算。

本子步骤的优点在于，重新审视了查询特征的投影过程，并且将所有查询特征按照投影结果划分成两大类。这是因为本子步骤发现由于多相机的固定安装方式，以自车为中心的一小块区域在所有图像中是不可见的，位于该区域的查询特征也无法通过相机内外参数投影到图像上。注意，该区域在大多数情况下不存在车辆，因此对于3D目标检测任务影响很小。但是该区域的特征学习能力对于车道线检测任务有很大影响，因为自车周围存在着大量的车道线结构化信息，对于最终的检测性能十分关键。

(2-4)对步骤(2-2)更新后的多个相机视角对应的多尺度图像特征进行位置嵌入层(Position Embedding)计算，以得到3D图像特征(其为对视角敏感的3D图像特征)，将每个不可见查询特征和3D图像特征进行空洞查询补全(Dilate Query Completion，简称DQC)计算，以得到更新后的不可见查询特征，将步骤(2-3)得到的可见查询特征和更新后的不可见查询特征按照预定义对应的3D位置坐标进行拼接，以得到鸟瞰图特征图，具体流程如图4所示。

本步骤(2-4)中将步骤(2-2)得到的多视角多尺度图像特征进行对应的位置嵌入层计算，以得到3D图像特征这一过程具体为，首先，将所有视角的第L层尺寸为H_L×W_L×C的图像特征

然后，令

并且

和

则p^O＝(sinα,cosα,tanβ)，具体公式如下所示，

尺寸为H_L×W_l×C，其中C为通道数，和图像特征通道数保持一致。最后，将得到的环式位置嵌入层

和图像特征

相加，以得到对视角敏感的3D特征图

具体公式如下所示，

本步骤(2-4)中将不可见查询特征和对视角敏感的3D特征图进行空洞查询补全计算这一过程具体如以下公式所示:

(2-5)将步骤(2-4)得到的鸟瞰图特征图输入预测头网络(即车道线预测头、人行道预测头和路沿预测头)中，以分别得到各个道路类别对应的预测结果，每个预测结果都包含分割图、偏移图和距离图。

具体而言，针对车道线，人行道和路沿三种道路类别，本步骤分别设计了三个完全相同的预测头，分别关注不同类别的道路信息。参考RCLane算法框架，本步骤将步骤(2-4)得到的鸟瞰图特征图分别送入三个预测头网络中，以得到三组预测结果，每组预测结果都包含尺寸为400×200×2的分割图S，尺寸为400×200×4的偏移图T，和尺寸为400×200×2距离图D，其中，分割图用来记录车道线前景点的区域，偏移图用来记录每个前景点和相邻结点之间的偏移矢量，而距离图则保存每个前景点与所在车道线端点的距离标量。

其中，车道线损失函数Loss_lane为：

Loss_lane＝Loss_seg+Loss_reg

其中，

为为由车道线真值标注生成的距离图监督信号，尺寸为400×200×4。分割图使用OHEM损失函数，正负样本比例为15:1，而偏移图和距离图使用SMOOTH-L1损失函数。人行道损失函数Loss_ped和路沿损失函数Loss_boundary和车道线损失函数Loss_lane相同，因此，总损失函数Loss为：

Loss＝Loss_ped+Loss_lane+Loss_boundary

(3)使用点非极大值抑制(Point Non Maximum Suppression，简称Point NMS)方法对步骤(2)得到的每个道路类别对应的分割图进行处理，以得到所有道路类别对应的关键点集合，对每个道路类别对应的关键点集合、以及步骤(2)得到的该道路类别对应的偏移图和距离图进行解码处理，以得到解码后的检测结果，将所有道路类别(即车道线、人行道和路沿)对应的检测结果进行拼接，以得到最终的高精地图预测结果。

具体而言，本步骤中使用的解码算法是Xu等人于2022年发表在《RCLane：RelayChain Prediction for Lane Detection》一文中提出的解码算法，其出处具体为Xu S,CaiX,Zhao B,et al.RCLane:Relay Chain Prediction for Lane Detection[C]//ComputerVision–ECCV 2022:17th European Conference,,Proceedings,Part XXXVIII.Cham:Springer Nature Switzerland,2022:461-477。

测试结果

为了说明本发明方法的有效性以及对于高精地图检测准确度的提升，在nuScenes自动驾驶数据集上与几个主流的网络模型展开了对比实验。本方法在测试过程中涉及到的评测指标包括：(1)平均交并比(mean Intersection over Union)：该值评估的是在最终高精地图生成的结果中，每一个类别的道路结构在语义信息层面和真值的重合度，所有道路类别预测出的区域和真值区域越重合则该值越大，方法效果越好；(2)平均精度均值(meanaverage precision，简称mAP)：该值衡量的是模型在所有类别上的实例检测的好坏，它评估的是与目标真值道路相匹配的预测道路两者之间的重合程度，所有预测出的道路实例信息和真值越重合则该值越大，方法效果越好。

下表1和表2示出在nuScenes数据集上本发明与其他方法的比较：

表1

表2

通过上表1和表2可以看出，经过鸟瞰图空间向图像坐标系转换的全新鸟瞰图特征生成方式之后，本方法在mIoU和mAP值分别达到了42.0％和27.8％。这说明相较于其他模型的方法，本方法从鸟瞰图特征投影的角度出发，通过查询特征的预定义方式充分利用了鸟瞰图空间的三维位置先验知识，实现了一种准确度更高的投影方法，并且通过多视角采样注意力动态关注多个视角相机间的重合区域，高效地进行多个相机对应的图像特征之间的信息融合，将不可见查询特征和图像特征之间进行全局交叉注意力计算，提升了模型对驾驶场景中以自车为中心不可见区域的泛化能力，进而提升了高精地图实时预测别的准确率。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Transformer的高精地图实时预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于Transformer的高精地图实时预测方法，其特征在于，

相机内外参数包括相机坐标系向图像坐标系投影所需的相机内参和相机坐标系向自车坐标系所需的外参，自车标定数据主要包括但不局限于自车位置以及朝向。

道路类别包括三种，即车道线、人行道、以及路沿。

3.根据权利要求1或2所述的基于Transformer的高精地图实时预测方法，其特征在于，

步骤(1)中根据预先建立的鸟瞰图空间坐标系、每个图像数据对应的相机内外参数和自车的标定参数，并利用矩阵乘法计算每个图像数据对应的投影矩阵这一过程具体为，首先将相机内参和相机外参相乘，得到图像坐标系向自车坐标系转换的投影矩阵，然后根据预先建立的鸟瞰图空间坐标系，将自车标定参数转换成相机坐标系向鸟瞰图空间坐标系转换的投影矩阵，最后将得到的两个投影矩阵相乘，得到图像坐标系向鸟瞰图空间坐标系转换的投影矩阵；

4.根据权利要求1至3中任意一项所述的基于Transformer的高精地图实时预测方法，其特征在于，

高精地图实时检测模型包含依次连接的特征提取主干网络、鸟瞰图地面构建网络，和预测头网络三个部分；

以及

轴向特征金字塔模块，其输入为ResNet网络输出的

以及

以及

大小的特征张量；

以及

5.根据权利要求4所述的基于Transformer的高精地图实时预测方法，其特征在于，高精地图实时预测模型是通过以下步骤训练得到的：

(2-3)初始化一组栅格化、且可学习的查询特征Q，尺寸为H_B×W_B×C，其中H_B代表鸟瞰图平面的长，W_B代表鸟瞰图平面的宽，C代表每个查询特征Q_i的通道数，i代表查询特征的索引值，并且i∈{1,...,H_BW_B}，即Q_i的尺寸为1×C，对每个查询特征对应的3D坐标

6.根据权利要求5所述的基于Transformer的高精地图实时预测方法，其特征在于，

步骤(2-2)中在每个尺度的图像特征上进行轴向注意力操作CA，并且每个查询特征只和同一行或者同一列的键进行注意力计算；

当成键和值，利用双线性插值对

进行上采样操作，并且尺寸和

相同，具体操作如下公式所示：

其中CA表示轴向注意力操作，UP表示上采样操作。

7.根据权利要求6所述的基于Transformer的高精地图实时预测方法，其特征在于，

在步骤(2-3)中，每个查询特征Q_i表示鸟瞰图空间坐标平面中中坐落于p_i＝(x_i,y_i)的网格单元的特征信息。并且在整个坐标系转换的信息处理过程中，每个Q_i对应的位置参考点都是固定不变的，因此对于每一个Q_i，其对应的3D位置坐标

步骤(2-3)中将每个查询特征Q_i对应的3D坐标

进行计算，以得到第v个相机对应图像平面的投影点

具体操作如以下公式所示，

步骤(2-3)中将所有的查询特征划分成可见查询特征和不可见查询特征这一过程具体为，根据所有投影点I_i，v在对应视角内是否可见，将Q_i分类成可见查询特征或者不可见查询特征，可见查询特征是至少在一个相机视角内是可见的，而不可见查询特征是在所有相机视角内不可见的。令

用于表示Qi在哪些相机视角是可见的，则可见查询特征为Q_x＝{Q_i||U_i|＞0}，不可见查询特征为Q_y＝{Q_i||U_i|＝0}，Q＝Q_x+Q_y。

其中，Q_i∈Q_x，

代表I_i，v的归一化坐标，F_v代表第v个视角的多尺度图像特征，l代表图像特征尺度的索引值，k代表采样点的索引值。L代表特征尺度的个数，K代表采样点的个数。

和

分别代表第k个采样点在

代表将归一化坐标

映射到

特征图上。

8.根据权利要求7所述的基于Transformer的高精地图实时预测方法，其特征在于，

步骤(2-4)中将步骤(2-2)得到的多视角多尺度图像特征进行对应的位置嵌入层计算，以得到3D图像特征这一过程具体为：首先，将所有视角的第L层尺寸为H_L×W_L×C的图像特征

然后，令

分别是p在正视视角和俯视视角的投影点。α是p^B和点O在俯视视角下的投影点之间的夹角，而β是p^R和点O在正视视角下的投影点的夹角。通过计算sinα，cosα，tanβ来近倒

并且

和

则p^O＝(sinα，cosα，tanβ)，具体公式如下所示，

最后，将得到的环式位置嵌入层

和图像特征

相加，以得到对视角敏感的3D特征图

具体公式如下所示，

步骤(2-4)中将不可见查询特征和对视角敏感的3D特征图进行空洞查询补全计算这一过程具体如以下公式所示：

9.根据权利要求8所述的基于Transformer的高精地图实时预测方法，其特征在于，

步骤(2-5)中，将步骤(2-4)得到的鸟瞰图特征图分别送入三个预测头网络中，以得到三组预测结果，每组预测结果都包含尺寸为400×200×2的分割图S，尺寸为400×200×4的偏移图T，和尺寸为400×200×2距离图D，其中，分割图用来记录车道线前景点的区域，偏移图用来记录每个前景点和相邻结点之间的偏移矢量，而距离图则保存每个前景点与所在车道线端点的距离标量；

总损失函数Loss为：

Loss＝Loss_ped+Loss_lane+Loss_boundary

其中车道线损失函数Loss_lane为：

Loss_lane＝Loss_seg+Loss_reg

其中，

为为由车道线真值标注生成的距离图监督信号，尺寸为400×200×4。分割图使用OHEM损失函数，正负样本比例为15∶1，而偏移图和距离图使用SMOOTH-L1损失函数；

10.一种基于Transformer的高精地图实时预测系统，其特征在于，包括：