CN118627018B - 一种基于改进的多头注意力机制的新能源汽车自动驾驶融合感知方法 - Google Patents
一种基于改进的多头注意力机制的新能源汽车自动驾驶融合感知方法 Download PDFInfo
- Publication number
- CN118627018B CN118627018B CN202411103623.1A CN202411103623A CN118627018B CN 118627018 B CN118627018 B CN 118627018B CN 202411103623 A CN202411103623 A CN 202411103623A CN 118627018 B CN118627018 B CN 118627018B
- Authority
- CN
- China
- Prior art keywords
- fusion
- automatic driving
- feature
- attention mechanism
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000004927 fusion Effects 0.000 title claims abstract description 94
- 230000007246 mechanism Effects 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 56
- 230000008447 perception Effects 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 24
- 230000007613 environmental effect Effects 0.000 claims abstract description 17
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 23
- 238000011176 pooling Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000005457 optimization Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 2
- 230000000306 recurrent effect Effects 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000012935 Averaging Methods 0.000 description 6
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 6
- 238000012360 testing method Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000007500 overflow downdraw method Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000012633 leachable Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W50/00—Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
- B60W50/0097—Predicting future conditions
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B60—VEHICLES IN GENERAL
- B60W—CONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
- B60W60/00—Drive control systems specially adapted for autonomous road vehicles
- B60W60/001—Planning or execution of driving tasks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Human Computer Interaction (AREA)
- Transportation (AREA)
- Mechanical Engineering (AREA)
- Automation & Control Theory (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及车辆智能感知技术领域,特别是涉及一种基于改进的多头注意力机制的新能源汽车自动驾驶融合感知方法,包括:将车辆行驶环境中的RGB图像和激光雷达扫描数据输入自动驾驶融合感知模型,获取预测轨迹结果;自动驾驶融合感知模型利用训练集训练获得;其中,自动驾驶融合感知模型包括:基于多头注意力机制的自动驾驶融合感编码器以及轨迹预测网络子模型;利用自动驾驶融合感编码器的ResNet单元结合自动驾驶融合感编码器的多头注意力机制单元感知特征数据中各层注意力进行特征提取,并进行特征融合,获取环境上下文编码向量,将环境上下文编码向量输入轨迹预测网络子模型进行轨迹预测,获取预测轨迹结果,从而控制车辆进行自动驾驶。
Description
技术领域
本发明涉及车辆智能感知技术领域,特别是涉及一种基于改进的多头注意力机制的新能源汽车自动驾驶融合感知方法。
背景技术
随着新能源汽车智能驾驶技术的快速发展,集成多个传感器并在端到端算法中解决各种任务是自动驾驶的一个具有挑战性但又至关重要的课题。自动驾驶融合感知将多个传感器数据进行联合学习表示将不确定性降至最低,从而实现更鲁棒和更准确的预测。然而,对于实际驾驶任务来说,3D场景的全局背景是关键,例如,交通灯状态的变化会影响距离该交通灯几何距离的车辆的行为。因此,单靠几何距离特征可能不足以有效地融合驾驶模型中的表示。
因此,设计一种准确、稳定和高计算效率的新能源汽车自动驾驶融合感知方法,实现有效的轨迹预测,具有重要的理论意义和实际应用价值。使自动驾驶系统能够更好地理解和适应复杂的交通环境,推动车辆智能感知系统的发展,促进智能驾驶相关技术的落地应用。
申请号为CN202110880427.5的中国发明专利提出一个自动驾驶多传感器融合感知模型的鲁棒性测试方法及系统,包括以下步骤:同时采集多个车载传感器的数据,并进行相应的预处理;利用预处理后的多个车载传感器的数据,训练得到多传感器融合感知模型;从多个车载传感器中选取一个待攻击传感器;在选择的待攻击传感器采集的数据上生成添加对抗扰动噪声的掩码,由此生成欺诈数据;将欺诈数据与其他传感器正常采集到的数据输入训练好的多传感器融合感知模型,计算欺诈数据生成的损失函数,并进行反向传播;结合损失函数梯度对欺诈数据进行迭代更新,得到最终的欺诈数据;将最终的欺诈数据与其他传感器正常采集到的数据输入到多传感器融合感知模型中,得到多传感器融合感知模型的输出精度,根据输出精度获取多传感器融合感知模型的鲁棒性测试结果;所述将欺诈数据与其他传感器正常采集到的数据输入训练好的多传感器融合感知模型,计算欺诈数据生成的损失函数,并进行反向传播;结合损失函数梯度对欺诈数据进行迭代更新,得到最终的欺诈数据。
申请号为CN202311080809.5的中国发明专利提出一种自动驾驶汽车车路云融合感知方法,包括以下步骤:车辆通过相机和激光雷达获取车辆前方的图像和点云信息,所述车辆所在路段的路端设备通过相机和激光雷达获取路端图像和点云信息;并分别完成对应的基于图像的目标检测和基于点云的目标检测;基于多传感器融合分别实现车辆前方和路端各自的图像目标和点云目标的融合,得到车端融合特征和路端融合特征;将路端融合特征发送到车辆,车辆将车端融合特征和路端融合特征进行时间和空间上的对齐,实现同步;对于车端和路端都能感知到的物体,融合车路两端的感知结果;对于车端视野盲区,以路端检测结果作为补充;云端提供全局交通信息、高精地图及天气信息,与车路融合特征进行后融合。
申请号为CN202310153288.5的中国发明专利提出了一种基于迁移学习的车路协同信息融合方法及系统,能够充分体现车路协同的基本概念,依据环境观测信息与路基设备迁移学习的有效结合实现在复杂路况下对行驶环境状况的多维多角度识别与观测,可以有效的提高学习模型利用率,显著提升车路协同融合精度与鲁棒性。
但是,现有技术存在以下缺陷:
1.现有方法缺乏扩展到多个模态或对特征对之间的相互作用,缺乏多个模态特征的统一表示方法。并缺乏对关键信息的关注,从而导致感知的准确性和稳定性不高。
2.现有传感器融合方法在高密度动态代理和复杂场景中缺乏对上下文信息的推理,引入额外计算,增加了计算和存储的需求,极大影响预测网络的效率和性能。
3.现有的新能源汽车自动驾驶融合感知系统无法动态地改变对不同感知模态的关注程度,从而无法很好地适应不同的驾驶场景。
4.现有方法没有考虑对历史轨迹中的长期依赖关系进行建模,无法很好地捕捉路径的全局信息。
发明内容
本发明的目的是提供一种基于改进的多头注意力机制的新能源汽车自动驾驶融合感知方法,以解决上述现有技术存在的问题,可以提高自动驾驶系统的决策和规划能力,使其能够更准确地预测车辆的行驶路径,提高行驶的安全性和效率。
为实现上述目的,本发明提供了如下方案:
一种基于改进的多头注意力机制的新能源汽车自动驾驶融合感知方法,包括:
获取车辆行驶环境中的RGB图像和激光雷达扫描数据;
将所述车辆行驶环境中的RGB图像和激光雷达扫描数据输入自动驾驶融合感知模型,获取预测轨迹结果;所述自动驾驶融合感知模型利用训练集训练获得;其中,所述自动驾驶融合感知模型包括:基于多头注意力机制的自动驾驶融合感编码器以及轨迹预测网络子模型;
利用所述自动驾驶融合感编码器的ResNet单元结合所述自动驾驶融合感编码器的多头注意力机制单元感知特征数据中各层注意力进行特征提取,并进行特征融合,获取环境上下文编码向量,将所述环境上下文编码向量输入所述轨迹预测网络子模型进行轨迹预测,获取所述预测轨迹结果;
根据所述预测轨迹结果,获取车辆的转向、油门和制动值,从而控制车辆进行自动驾驶。
可选地,利用所述自动驾驶融合感编码器的ResNet单元结合所述自动驾驶融合感编码器的多头注意力机制单元感知特征数据中各层注意力进行特征提取包括:
对所述车辆行驶环境中的RGB图像和激光雷达扫描数据进行处理,产生双通道伪图像;
在每个所述ResNet单元中的卷积层前方设置所述多头注意力机制单元,根据所述多头注意力机制单元使用线性投影来计算一组查询、键和值,基于所述查询与键之间的缩放点积来计算注意力权重,并汇总每个查询的值,将汇总后的查询、键和值分别分头计算次注意力,并将所有注意力进行拼接,获得每层的注意力;
将所述双通道伪图像输入所述ResNet单元结合对应层的注意力进行特征提取,获取特征图。
可选地,根据所述多头注意力机制单元使用线性投影来计算一组查询、键和值的方法为:
其中,是查询矩阵,输入矩阵与查询权重矩阵相乘得到;是键矩阵,由输入矩阵与键权重矩阵相乘得到;是值矩阵,由输入矩阵与值权重矩阵相乘得到;
基于所述查询与键之间的缩放点积来计算注意力权重,并汇总每个查询的值的方法为:
其中,,,是线性投影的权重矩阵,,和分别是每个注意力头的查询,键和值的维度。可选地,获得每层的注意力包括:
获得第一层注意力的方法为:
其中,为一个线性变换,表示第一个多头注意力机制的输出,表示将查询矩阵、键矩阵和数值矩阵输入多头注意力机制中进行处理,表示将多个注意力头的输出连接在一起。
可选地,获取所述环境上下文编码向量包括:
在所述自动驾驶融合感编码器中的可学习位置嵌入可训练参数,利用线性层将当前车辆速度作为标量值投影至C维向量,获取特征映射,并与特征提取单元提取特征映射得到的现有特征映射的元素求和,将求和结果反馈至多头注意力机制单元中的模态分支中;
从每个模态分支中提取第一目标维度的特征图,通过平均池化对所述第一目标维度的特征图降维,并进行平面化,获取特征向量,即RGB图像的特征向量和激光雷达扫描的特征向量;
将所述RGB图像的特征向量和所述激光雷达扫描的特征向量进行组合,获取所述环境上下文编码向量。
可选地,获取所述求和结果包括:
使用平均池化将所述自动驾驶融合感编码器中的高分辨率特征映射下采样设置成固定分辨率,将所述固定分辨率传递至注意力机制单元,并使用双线性插值输出上采样的原始分辨率,利用所述原始分辨率将所述特征映射与所述现有特征映射的元素求和,获取所述求和结果。
可选地,获取所述预测轨迹结果包括:
将所述环境上下文编码向量输入轨迹预测网络子模型中的多层感知机单元进行降维,利用降维后的环境上下文编码向量初始化轨迹预测网络子模型中的门控循环单元的隐藏状态,基于门控循环单元的更新门控制在隐藏状态下编码,输出下一个时间步长的信息流,并结合车辆的当前位置和目标位置,获取所述预测轨迹结果。
可选地,获取所述预测轨迹结果的方法为:
其中,代表当前时刻输入信息,代表上一时刻的隐藏状态,隐藏状态充当了神经网络记忆,包含之前节点所见过的数据的信息,代表传递到下一时刻的隐藏状态,代表候选隐藏状态,代表重置门,代表更新门,代表sigmoid函数,代表tanh函数。
可选地,获得所述自动驾驶融合感知模型包括:
将感知模态输入到所述ResNet单元,获取各个感知模态特征,将各个感知模态特征输入至多头注意力机制单元进行自适应融合,计算各个感知模态特征的注意力权重;
根据反向传播算法计算损失函数对模型参数的梯度,并根据Adam优化算法利用损失函数对模型参数进行梯度更新:
其中,表示待更新的参数,是学习率,表示损失函数对参数的梯度;
当连续若干次迭代后无法降低损失时,终止训练过程,获得所述自动驾驶融合感知模型。
本发明的有益效果为:
传统的感知融合方法通常基于权重平均或特征拼接的方式,缺乏对不同感知模态的自适应性。为了解决这个问题,引入多头注意力机制,使得感知数据的融合可以自适应地关注不同模态的重要性。在多头注意力机制中,引入了注意力头的概念,每个注意力头可以独立地关注感知数据的不同部分。每个注意力头通过学习权重值来确定对应模态的重要性,从而实现感知数据的自适应融合。注意力头的数量和权重可以通过训练来确定,以最大程度地提高融合效果。
为了将融合后的感知特征进行更紧凑的表示,本方法提出一种特征整合策略,将特征图降维为一个环境上下文编码向量。使用降维操作将融合后的特征图转化为一个紧凑的向量表示。环境上下文编码向量包含了全局上下文信息,例如道路结构、交通信号灯等,为自动驾驶系统提供了更有效的环境表示形式。紧凑的编码向量具有较低的维度,从而减少了计算和存储开销,并且可以更快地传递和处理。
考虑到不同场景对感知模态的需求和重要性有所不同,本方法引入自适应的感知权重调整机制。通过学习参数化的函数来计算感知权重。根据输入的场景信息和重要性指标,自动调整感知权重。自适应调整感知权重可以根据当前驾驶场景的特征,灵活地适应不同场景下的感知需求,从而提高自动驾驶系统的性能和适应性。
为了更好地预测车辆的未来行驶路径,提出基于GRU的轨迹预测网络。通过GRU对历史轨迹中的长期依赖关系进行建模,可以更好地捕捉路径的全局信息。GRU的门控机制,可以有效地处理新能源车辆历史序列数据,并且可以自动学习序列中的长期依赖关系。将车辆的历史轨迹作为输入序列,通过GRU网络进行建模,从而能够准确预测未来的轨迹。GRU网络可以捕捉历史轨迹中的运动模式和规律,进而提供更准确的路径预测,为自动驾驶系统的决策和规划提供更可靠的基础。
通过多头注意力机制计算每个感知模态的权重,根据当前环境的重要性和可靠性,将不同模态的特征进行加权融合。这种注意力机制能够提高感知数据的利用效率,增强对关键信息的关注,从而提高感知的准确性和稳定性。
通过将特征图的每个通道上的值取平均,将特征图降维为一个向量。这种方法可以保留感知特征图中的重要信息,并减少向量的维度。在降维后的编码向量中引入其他环境相关的特征,例如车辆的速度、方向、道路类型等。整合全局上下文信息可以更好地反映车辆所处的驾驶场景,提供更丰富和准确的环境表示。这种紧凑的表示能够减少计算和存储的需求,并提高轨迹预测网络的效率和性能。
使用自适应的感知权重调整方法,实现在不同的环境和任务要求下,新能源汽车自动驾驶系统可以动态地改变对不同感知模态的关注程度,从而更好地适应不同的驾驶场景。
基于GRU的轨迹预测网络能够利用历史轨迹数据,捕捉轨迹的时序模式,并预测未来的路径。这种时序建模和预测能力可以提高轨迹预测的准确性和鲁棒性。结合全局上下文信息,生成车辆行驶的预测路径和轨迹。这种综合的预测方法可以提高自动驾驶系统的决策和规划能力,使其能够更准确地预测车辆的行驶路径,提高行驶的安全性和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的一种基于改进的多头注意力机制的新能源汽车自动驾驶融合感知方法流程图;
图2为本发明实施例的基于多头注意力机制的自动驾驶融合感知方法的总体架构图;
图3为本发明实施例的多头注意力机制详细结构图;
图4为本发明实施例的GRU详细结构。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本实施例公开了一种基于改进的多头注意力机制的新能源汽车自动驾驶融合感知方法,包括:获取车辆行驶环境中的RGB图像和激光雷达扫描数据;将车辆行驶环境中的RGB图像和激光雷达扫描数据输入自动驾驶融合感知模型,获取预测轨迹结果;自动驾驶融合感知模型利用训练集训练获得;其中,自动驾驶融合感知模型包括:基于多头注意力机制的自动驾驶融合感编码器以及轨迹预测网络子模型;利用自动驾驶融合感编码器的ResNet单元结合自动驾驶融合感编码器的多头注意力机制单元感知特征数据中各层注意力进行特征提取,并进行特征融合,获取环境上下文编码向量,将环境上下文编码向量输入轨迹预测网络子模型进行轨迹预测,获取预测轨迹结果;根据预测轨迹结果,获取车辆的转向、油门和制动值,从而控制车辆进行自动驾驶。
利用自动驾驶融合感编码器的ResNet单元结合自动驾驶融合感编码器的多头注意力机制单元感知特征数据中各层注意力进行特征提取包括:对车辆行驶环境中的RGB图像和激光雷达扫描数据进行处理,产生双通道伪图像;在每个ResNet单元中的卷积层前方设置多头注意力机制单元,根据多头注意力机制单元使用线性投影来计算一组查询、键和值,基于查询与键之间的缩放点积来计算注意力权重,并汇总每个查询的值,将汇总后的查询、键和值分别分头计算次注意力,并将所有注意力进行拼接,获得每层的注意力;将双通道伪图像输入ResNet单元结合对应层的注意力进行特征提取,获取特征图,具体为:
S1、数据采集与预处理
S101、原始数据采集与预处理:在真实的车辆行驶环境中装备传感器和采集原始驾驶数据(车辆前方相机拍摄的RGB图像,激光雷达扫描数据,雷达扫描数据和物体边界框),以保证后续建模过程的有效性和可靠性。采集到的数据集包括:1.4M的RGB相机图像,390k激光雷达扫描,1.4M雷达扫描和1.4M物体边界框。为了提取简洁而有信息量的特征表示,降低维度并抑制噪声,适用于新能源汽车自动驾驶任务,在数据集输入网络前需要进行数据预处理,具体包括:
将激光雷达点云转换为固定分辨率的二维鸟瞰图(BEV)网格上的直方图。考虑了新能源汽车前方32米内的点和两侧16米内的点,从而包含了一个32m×32m的BE网格。将网格划分为0.125m×0.125m的块,得到256×256像素的分辨率。对于直方图,将高度维度离散成2个箱子,分别代表地平面上/下和地平面上的点。产生大小为256×256像素的双通道伪图像。
对于RGB图像输入,考虑100°视场的前置摄像头。以400×300像素的分辨率提取正面图像,将其裁剪为256×256以消除边缘的径向畸变。
通过这种方式,有助于进一步分析和处理点云数据,获取更广阔的视野范围、提高计算效率,并消除径向畸变带来的图像失真,将处理后的激光雷达数据记为,处理后的RGB图像记为。从而为后续的图像处理和计算机视觉任务提供更准确和可靠的输入。
通过自动驾驶融合感编码器的多头注意力机制单元感知特征数据中各个模态的权重包括:在每个ResNet单元中的卷积层前方设置多头注意力机制单元,根据多头注意力机制单元使用线性投影来计算一组查询、键和值的方法。
通过自动驾驶融合感编码器的多头注意力机制单元感知特征数据中各个模态的权重后包括:将查询、键和值分别分头计算次注意力,并将所有注意力进行拼接,获得第1层注意力,具体为:
S2、基于多头注意力机制的自动驾驶融合感知编码器设计
考虑到基于现有传感器融合方法的模仿学习策略在高密度动态代理和复杂场景中表现不佳,这些场景需要全局上下文推理。为此,基于多头注意力机制,结合卷积神经网络(CNN),本发明提出了新型的多模态融合感知方法,利用多头注意力来整合RGB图像和激光雷达表示。
具体基于多头注意力机制的自动驾驶融合感编码器设计流程如下:
S201、将单视图RGB图像和激光雷达鸟瞰图产生的双通道伪图像作为网络的输入端。
S202、选用残差神经网络(ResNet)进行特征提取,ResNet由多个残差块组成,每个残差块由若干个卷积层和恒等映射构成。具体地,ResNet包含3个阶段,每个阶段包含多个残差块。
第一个阶段:包含一个残差块序列,每个残差块包含两个3×3的卷积层,通道数逐渐增加。
第二个阶段:和第一个阶段类似,但在每个残差块的第一个卷积层使用步长为2的卷积操作,以减小特征图的尺寸。
第三个阶段:和前两个阶段类似,但残差块的通道数更多。
S203、利用多头注意力机制整合图像和激光雷达表示,具体如下:
Transformer结构采用由离散令牌组成的序列作为输入,每个令牌由一个特征向量表示。该特征向量由位置编码补充,以结合位置归纳偏差。形式上,将输入序列表示为,其中N是序列中标记的数量,每个标记由维度为的特征向量表示。Transformer中的多头注意力机制使用线性投影来计算一组查询、键和值(Q、K和V):
(1)
其中,,,是线性投影的权重矩阵,,和分别是每个注意力头的查询,键和值的维度。它使用Q和K之间的缩放点积来计算注意力权重,然后汇总每个查询的值,
(2)
最后,使用非线性变换来计算输出特征,它与输入特征具有相同的形状。
(3)
对于多头注意力,将Q、K、V分别分头计算次注意力,最后将所有头的注意力输出拼接获得第1层注意力表示:
(4)
(5)
其中,是一个线性变换,用于将多头注意力的输出投影回模型维度。
将每个模态的中间特征映射视为一个集合而不是一个空间网格,并将集合的每个元素视为一个标记。图像和激光雷达BEV输入的卷积特征提取器在不同层对场景的不同方面进行编码。因此,整个编码器中在多个尺度上融合这些特征(图2),具体为:
多头注意力模块用来整合图像和激光雷达的特征表示;
多个尺度:随着卷积层数不同,即尺度不同,在不同层数的卷积上使用多头注意力机制,也就是在多个尺度上进行特征融合。
获取环境上下文编码向量包括:在自动驾驶融合感编码器中的可学习位置嵌入可训练参数,利用线性层将当前车辆速度作为标量值投影至C维向量,获取特征映射,并与特征提取单元提取特征映射得到的现有特征映射的元素求和,将求和结果反馈至多头注意力机制单元中的模态分支中;从每个模态分支中提取第一目标维度的特征图,通过平均池化对第一目标维度的特征图降维,并进行平面化,获取特征向量,即RGB图像的特征向量和激光雷达扫描的特征向量;将RGB图像的特征向量和激光雷达扫描的特征向量进行组合,获取环境上下文编码向量。
获取求和结果包括:使用平均池化将自动驾驶融合感编码器中的高分辨率特征映射下采样设置成固定分辨率,将固定分辨率传递至注意力机制单元,并使用双线性插值输出上采样的原始分辨率,利用原始分辨率将特征映射与现有特征映射的元素求和,获取求和结果,具体为:
添加一个可学习的位置嵌入,它是一个维数的可训练参数,因此网络可以在训练时推断不同标记之间的空间依赖关系。通过使用线性层将标量值投影到C维向量中来提供当前车辆速度作为输入。输入序列、位置嵌入和速度嵌入使用元素求和组合形成维数的张量。
然后将输出重塑为S个维度为H×W×C的特征映射,并使用与现有特征映射的元素求和,将其反馈到每个单独的模态分支中。上述机制构成了单一尺度上的特征融合。在不同分辨率的图像和激光雷达BEV分支的ResNet特征提取器中多次应用这种融合。
然而,在高空间分辨率下处理特征映射在计算上是昂贵的。因此,使用平均池化将早期编码器中的高分辨率特征映射下采样到固定分辨率H=W=8,然后将其作为输入传递给注意力机制,并在与现有特征映射进行元素求和之前使用双线性插值将输出上采样的原始分辨率。
S204、得到对应的特征图后需要将不同维度的特征图整合,获得环境上下文编码统一表示,具体如下:
对于分辨率为256×256像素的输入,从每个模态的特征提取器中获得8×8×512维的特征图。通过平均池化将这些特征映射降为1×1×512维,并平面化为512维特征向量。然后通过元素求和将来自图像和激光雷达BEV流的512维特征向量组合起来。这个512维的特征向量构成了一个紧凑的环境表示,它编码了3D场景的全局上下文。然后将其馈送到轨迹预测网络。
获取预测轨迹结果包括:将环境上下文编码向量输入轨迹预测网络子模型中的多层感知机单元进行降维,利用降维后的环境上下文编码向量初始化轨迹预测网络子模型中的门控循环单元的隐藏状态,基于门控循环单元的更新门控制在隐藏状态下编码,输出下一个时间步长的信息流,并结合车辆的当前位置和目标位置,获取预测轨迹结果,具体为:
S3、轨迹预测网络设计
S301、将整合后的特征统一表示送入多层感知机和门控循环单元(GRU)进行轨迹预测
为了提高计算效率,将512维特征向量通过包含256和128个单元的2个隐藏层的多层感知机将其降维至64维,然后将其传递给使用GRU实现的自回归轨迹网络。使用64维特征向量初始化GRU的隐藏状态。它还将当前位置和目标位置作为输入,这使得网络能够专注于隐藏状态下的相关上下文,以预测下一个轨迹。
(6)
(7)
(8)
(9)
其中,代表当前时刻输入信息。代表上一时刻的隐藏状态,隐藏状态充当了神经网络记忆,它包含之前节点所见过的数据的信息。代表传递到下一时刻的隐藏状态。代表候选隐藏状态。代表重置门。代表更新门。代表sigmoid函数,通过这个函数可以将数据变为0-1范围的数值。代表tanh函数,通过这个函数可以将数据变为范围的数值。
使用预测轨迹和地面真实轨迹之间的损失来训练网络,并注册到当前坐标帧。设为时间步长t的真实轨迹,则损失函数为:
(10)
S302、通过轨迹预测得到的结果进行自动驾驶控制
使用两个比例-积分-微分(PID)控制器进行横向和纵向控制,从预测的轨迹获得转向、油门和制动值。纵向控制器取连续时间步的路径点之间向量的加权平均值的大小,而横向控制器取它们的方向。
获得自动驾驶融合感知模型包括:将感知模态输入到ResNet单元,获取各个感知模态特征,将各个感知模态特征输入至多头注意力机制单元进行自适应融合,计算各个感知模态特征的注意力权重;根据反向传播算法计算损失函数对模型参数的梯度,并根据Adam优化算法利用损失函数对模型参数进行梯度更新;当连续若干次迭代后无法降低损失时,终止训练过程,获得自动驾驶融合感知模型,具体为:
S4、模型训练
基于S2编码器的设计和S3轨迹预测网络的设计,得到整个训练模型后,确定模型最佳架构和参数集。整个网络采用端到端的训练方式,不断更新网络权值,直到模型收敛。通过端到端的训练,使模型能够从训练数据中自主学习轨迹预测的能力。
使用准备好的数据集对感知模型进行训练。训练过程涉及以下步骤和公式:
S401.前向传播
将感知模态输入到模型中,经过特征提取模块获取各个感知模态的特征表示。然后,通过多头注意力机制将不同模态的特征进行自适应融合,计算各个感知模态的注意力权重。
S402.反向传播:使用反向传播算法计算损失函数对模型参数的梯度,并根据Adam优化算法,根据损失函数对编码器/解码器参数进行梯度更新:
(11)
其中,表示待更新的参数,为编码器和解码器中的权重矩阵和偏置向量。是学习率,控制每次参数更新的步长。表示损失函数对参数的梯度,表示损失函数对参数的变化率。通过乘以学习率,根据梯度的方向和大小来更新参数,使得损失函数逐步减小,模型能够更好地适应训练数据。更新后的参数将被用于下一次迭代的训练过程。
S403、训练终止条件:根据验证集的损失函数值,当连续10次迭代无法降低损失时,终止训练过程,保存最佳模型参数,得到的模型作为最终部署模型。
S5、模型部署
将训练好的感知模型部署到实际的新能源汽车自动驾驶系统中,以实现实时的智能感知和决策。
S501.选择适合自动驾驶系统的硬件平台,包括处理器、存储设备、传感器和通信模块等。确保硬件满足模型的计算需求,具备足够的性能和存储容量。验证硬件与自动驾驶系统的兼容性。
S502.训练好的感知模型集成到自动驾驶系统的软件架构中。确定模型的输入和输出接口,与其他模块进行对接。实现数据交互和通信机制,确保模型能够与其他模块无缝协同工作。
S503.针对实时性能要求,对模型进行优化和压缩,减小模型的体积和计算量。保持模型在性能和精度之间的平衡,确保模型在新能源汽车上能够高效运行。
S504.对整个自动驾驶系统进行验证和测试,确保模型在实际场景中的性能和安全性。进行模拟器测试、闭环测试和实地测试等,涵盖各种驾驶场景和情况。检查模型的输出和行为是否符合预期,评估模型在各种测试用例下的准确性和鲁棒性。
S505.部署后,持续监测模型的性能和输出结果,确保模型在实际环境中的稳定性和可靠性。收集反馈数据,并将其用于模型的改进和优化。定期更新模型,以适应新的驾驶场景和需求,提高感知性能和准确性。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (3)
1.一种基于改进的多头注意力机制的新能源汽车自动驾驶融合感知方法,其特征在于,包括:
获取车辆行驶环境中的RGB图像和激光雷达扫描数据;
将所述车辆行驶环境中的RGB图像和激光雷达扫描数据输入自动驾驶融合感知模型,获取预测轨迹结果;所述自动驾驶融合感知模型利用训练集训练获得;其中,所述自动驾驶融合感知模型包括:基于多头注意力机制的自动驾驶融合感编码器以及轨迹预测网络子模型;
利用所述自动驾驶融合感编码器的ResNet单元结合所述自动驾驶融合感编码器的多头注意力机制单元感知特征数据中各层注意力进行特征提取,并进行特征融合,获取环境上下文编码向量,将所述环境上下文编码向量输入所述轨迹预测网络子模型进行轨迹预测,获取所述预测轨迹结果;
利用所述自动驾驶融合感编码器的ResNet单元结合所述自动驾驶融合感编码器的多头注意力机制单元感知特征数据中各层注意力进行特征提取包括:
对所述车辆行驶环境中的RGB图像和激光雷达扫描数据进行处理,产生双通道伪图像;
在每个所述ResNet单元中的卷积层前方设置所述多头注意力机制单元,根据所述多头注意力机制单元使用线性投影来计算一组查询、键和值,基于所述查询与键之间的缩放点积来计算注意力权重,并汇总每个查询的值,将汇总后的查询、键和值分别分头计算次注意力,并将所有注意力进行拼接,获得每层的注意力;
将所述双通道伪图像输入所述ResNet单元结合对应层的注意力进行特征提取,获取特征图;
根据所述多头注意力机制单元使用线性投影来计算一组查询、键和值的方法为:
其中,是查询矩阵,输入矩阵与查询权重矩阵相乘得到;是键矩阵,由输入矩阵与键权重矩阵相乘得到;是值矩阵,由输入矩阵与值权重矩阵相乘得到;
基于所述查询与键之间的缩放点积来计算注意力权重,并汇总每个查询的值的方法为:
其中,,,是线性投影的权重矩阵,,和分别是每个注意力头的查询、键和值的维度;
获取所述预测轨迹结果包括:
将所述环境上下文编码向量输入轨迹预测网络子模型中的多层感知机单元进行降维,利用降维后的环境上下文编码向量初始化轨迹预测网络子模型中的门控循环单元的隐藏状态,基于门控循环单元的更新门控制在隐藏状态下编码,输出下一个时间步长的信息流,并结合车辆的当前位置和目标位置,获取所述预测轨迹结果;
获取所述预测轨迹结果的方法为:
其中,代表当前时刻输入信息,代表上一时刻的隐藏状态,隐藏状态充当了神经网络记忆,包含之前节点所见过的数据的信息,代表传递到下一时刻的隐藏状态,代表候选隐藏状态,代表重置门,代表更新门,代表sigmoid函数,代表tanh函数;
获得所述自动驾驶融合感知模型包括:
将感知模态输入到所述ResNet单元,获取各个感知模态特征,将各个感知模态特征输入至多头注意力机制单元进行自适应融合,计算各个感知模态特征的注意力权重;
根据反向传播算法计算损失函数对模型参数的梯度,并根据Adam优化算法利用损失函数对模型参数进行梯度更新:
其中,表示待更新的参数,是学习率,表示损失函数对参数的梯度;
当连续若干次迭代后无法降低损失时,终止训练过程,获得所述自动驾驶融合感知模型;
根据所述预测轨迹结果,获取车辆的转向、油门和制动值,从而控制车辆进行自动驾驶。
2.根据权利要求1所述的基于改进的多头注意力机制的新能源汽车自动驾驶融合感知方法,其特征在于,获取所述环境上下文编码向量包括:
在所述自动驾驶融合感编码器中的可学习位置嵌入可训练参数,利用线性层将当前车辆速度作为标量值投影至C维向量,获取特征映射,并与特征提取单元提取特征映射得到的现有特征映射的元素求和,将求和结果反馈至多头注意力机制单元中的模态分支中;
从每个模态分支中提取第一目标维度的特征图,通过平均池化对所述第一目标维度的特征图降维,并进行平面化,获取特征向量,即RGB图像的特征向量和激光雷达扫描的特征向量;
将所述RGB图像的特征向量和所述激光雷达扫描的特征向量进行组合,获取所述环境上下文编码向量。
3.根据权利要求2所述的基于改进的多头注意力机制的新能源汽车自动驾驶融合感知方法,其特征在于,获取所述求和结果包括:
使用平均池化将所述自动驾驶融合感编码器中的高分辨率特征映射下采样设置成固定分辨率,将所述固定分辨率传递至注意力机制单元,并使用双线性插值输出上采样的原始分辨率,利用所述原始分辨率将所述特征映射与所述现有特征映射的元素求和,获取所述求和结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411103623.1A CN118627018B (zh) | 2024-08-13 | 2024-08-13 | 一种基于改进的多头注意力机制的新能源汽车自动驾驶融合感知方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202411103623.1A CN118627018B (zh) | 2024-08-13 | 2024-08-13 | 一种基于改进的多头注意力机制的新能源汽车自动驾驶融合感知方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118627018A CN118627018A (zh) | 2024-09-10 |
CN118627018B true CN118627018B (zh) | 2024-11-19 |
Family
ID=92600356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202411103623.1A Active CN118627018B (zh) | 2024-08-13 | 2024-08-13 | 一种基于改进的多头注意力机制的新能源汽车自动驾驶融合感知方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118627018B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN119180646B (zh) * | 2024-11-22 | 2025-03-28 | 交通运输部公路科学研究所 | 一种基于相关性感知与融合的汽车全局维保需求预测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110084299A (zh) * | 2019-04-24 | 2019-08-02 | 中国人民解放军国防科技大学 | 基于多头融合注意力的目标检测方法和装置 |
CN115512323A (zh) * | 2022-10-08 | 2022-12-23 | 南开大学 | 一种基于深度学习的自动驾驶视野外车辆轨迹预测方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11887248B2 (en) * | 2021-06-24 | 2024-01-30 | Toyota Research Institute, Inc. | Systems and methods for reconstructing a scene in three dimensions from a two-dimensional image |
CN117711183A (zh) * | 2023-12-25 | 2024-03-15 | 华东理工大学 | 一种基于全局和局部时空特征提取的自动驾驶轨迹预测方法 |
-
2024
- 2024-08-13 CN CN202411103623.1A patent/CN118627018B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110084299A (zh) * | 2019-04-24 | 2019-08-02 | 中国人民解放军国防科技大学 | 基于多头融合注意力的目标检测方法和装置 |
CN115512323A (zh) * | 2022-10-08 | 2022-12-23 | 南开大学 | 一种基于深度学习的自动驾驶视野外车辆轨迹预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN118627018A (zh) | 2024-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114723955B (zh) | 图像处理方法、装置、设备和计算机可读存储介质 | |
CN111860155B (zh) | 一种车道线的检测方法及相关设备 | |
CN114384920A (zh) | 一种基于局部栅格地图实时构建的动态避障方法 | |
CN112734808B (zh) | 一种车辆行驶环境下易受伤害道路使用者的轨迹预测方法 | |
US12205319B2 (en) | Framework for 3D object detection and depth prediction from 2D images | |
CN118314180A (zh) | 基于无导数优化的点云匹配方法及系统 | |
Pan et al. | Deep learning based data fusion for sensor fault diagnosis and tolerance in autonomous vehicles | |
CN118627018B (zh) | 一种基于改进的多头注意力机制的新能源汽车自动驾驶融合感知方法 | |
CN115049130B (zh) | 一种基于时空金字塔的自动驾驶轨迹预测方法 | |
CN118823139B (zh) | 一种基于大模型自标注的轻量化占用栅格预测方法及系统 | |
CN114418030A (zh) | 图像分类方法、图像分类模型的训练方法及装置 | |
CN118625342A (zh) | 一种基于占据网络的多传感器融合智能汽车环境感知方法及模型 | |
WO2024193334A1 (zh) | 一种基于图时空金字塔的自动轨迹预测方法 | |
CN116654022A (zh) | 基于多重交互的行人轨迹预测方法、系统、设备和介质 | |
CN116625383A (zh) | 一种基于多传感器融合的道路车辆感知方法 | |
Zhao et al. | Improving autonomous vehicle visual perception by fusing human gaze and machine vision | |
US12079970B2 (en) | Methods and systems for semantic scene completion for sparse 3D data | |
Sharma et al. | BEVSeg2TP: Surround View Camera Bird's-Eye-View Based Joint Vehicle Segmentation and Ego Vehicle Trajectory Prediction | |
Yi et al. | End-to-end neural network for autonomous steering using lidar point cloud data | |
CN118953402A (zh) | 一种基于多模态信息融合和大模型推演的自动驾驶车辆风险态势预测方法、系统及存储介质 | |
CN114620059A (zh) | 一种自动驾驶方法及其系统、计算机可读存储介质 | |
CN114842313B (zh) | 基于伪点云的目标检测方法、装置、电子设备和存储介质 | |
CN115937801A (zh) | 基于图卷积的车辆轨迹预测方法及装置 | |
Fennessy | Autonomous vehicle end-to-end reinforcement learning model and the effects of image segmentation on model quality | |
CN118691677B (zh) | 一种基于叉车图像数据采集的辅助定位处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |