CN109709956A

CN109709956A - 一种自动驾驶车辆速度控制多目标优化的跟驰算法

Info

Publication number: CN109709956A
Application number: CN201811600366.7A
Authority: CN
Inventors: 王雪松; 朱美新; 孙平
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2019-05-03
Anticipated expiration: 2038-12-26
Also published as: CN109709956B

Abstract

本发明开发了一种自动驾驶车辆速度控制多目标优化的跟驰算法。该算法基于深度强化学习提出了一种用于汽车跟驰速度控制的模型，该模型不仅模仿人类驾驶，而是直接优化驾驶安全性、效率和舒适性。结合碰撞时间、车头时距经验分布、加加速度，构建了反映驾驶安全性，效率和舒适性的奖励函数，使用下一代仿真(Next Generation Simulation,NGSIM)项目中实际驾驶数据训练模型，并将模型模拟的跟驰行为与NGSIM经验数据中观察到的行为进行比较，强化学习智能体通过仿真环境中的试验和试错，以最大化累积奖励的方式学习安全、舒适、高效地控制车辆速度。结果表明，与现实世界中的人类驾驶员相比，提出的跟驰速度控制算法显示出更好的安全、高效和舒适驾驶能力。

Description

一种自动驾驶车辆速度控制多目标优化的跟驰算法

技术领域

本发明涉及自动驾驶跟驰控制领域，特别涉及一种自动驾驶车辆速度控制多目标优化的跟驰算法。

背景技术

跟驰控制是自动驾驶智能决策的重要组成部分，包括自由驾驶下的速度选择、车辆跟随时车距的保持以及紧急状况下的制动。在自动驾驶与人类驾驶共存的情况下，自动驾驶车辆作出类似于人类驾驶员(简称拟人化)的跟驰控制决策将提高乘客的舒适度与信任度，同时也方便其他交通参与者更好地理解和预测自动驾驶车辆的行为，以实现自动驾驶与人类驾驶之间的安全交互。然而传统跟驰模型在应用于自动跟驰控制时存在诸多局限性，如限制模型的灵活性和准确性，难以推广到标定数据以外的驾驶场景和驾驶员，应用于自动驾驶时不能反应车辆实际驾驶员的驾驶风格及驾驶场景等。

深度强化学习(Deep Reinforcement Learning,DRL)以被广泛应用于工业制造、仿真模拟、机器人控制、优化与调度和游戏博弈等领域，其基本思想是通过最大化智能体从环境中获得的累计奖赏值，以学习到完成目标的最优策略。DRL方法更加侧重于学习解决问题的策略，而非对数据进行拟合，因此其泛化能力更强，为自动驾驶车辆跟驰控制提供参考。

发明内容

本发明的目的是：一种自动驾驶车辆速度控制多目标优化的跟驰算法。该算法提出了一种用于汽车跟驰速度控制的模型，该模型直接优化驾驶安全性、效率和舒适性。结合碰撞时间TTC、车头时距经验分布、加加速度(Jerk)，构建了反映驾驶安全性，效率和舒适性的奖励函数，使用下一代仿真(NGSIM)项目中实际驾驶数据训练模型，并将模型模拟的跟驰行为与NGSIM经验数据中观察到的行为进行比较，强化学习智能体通过仿真环境中的试验和试错，以最大化累积奖励的方式学习安全、舒适、高效地控制车辆速度。结果表明，与现实世界中的人类驾驶员相比，提出的跟驰速度控制算法显示出更好的安全、高效和舒适驾驶能力。

本发明所采用的技术方案是：

一种自动驾驶车辆速度控制多目标优化的跟驰算法，步骤如下：

步骤1：获取数据。使用NGSIM项目中的数据，基于前车和后车停留在同一车道上及车辆跟随事件的长度>15秒等准则提取跟驰事件，基于提取的跟驰事件，将一部分作为训练数据，另一部分作为测试数据。

步骤2：构建奖励函数。提出反映汽车跟随控制相关目标(安全、舒适、效率)的特征量。

步骤2.1：采用碰撞时间(TTC)反映安全性。TTC表示两辆车相撞之前剩余的时间量，其公式为其中是Sn-1,n(t)车间距离，△Vn-1,n(t)是相对速度。根据NGSIM经验数据确定安全阈值为7秒，并进行TTC特征构建：若TTC小于7秒，则TTC特征指标为负值，随着TTC逼近零，TTC特征将接近负无穷，对于接近碰撞的情况表现最严厉的惩罚。

步骤2.2：采用车头时距(headway)衡量驾驶效率。由分析，对数正态分布适应于获取的训练数据的分布，其概率密度函数为x>0。根据所提取的数据可估计，分布变量x的平均值μ和对数标准差σ分别为0.4226和0.4365。将车头时距特征构建为估计的车头时距对数正态分布的概率密度值：Fheadway＝flognormal(headway|μ＝0.4226,σ＝0.4365)。根据该车头时间特征，大约1.3秒的车头时距对应高特征值，车头时距过长或过短均对应低特征值，故该特征值估计高流量车距保持行为，同时惩罚不安全或过远的车距保持行为。

步骤2.3：采用加速度的变化率Jerk衡量驾驶舒适性，其特征构建为：

步骤2.4：建立综合奖励函数。根据以上步骤建立r＝w1FTTC+w2Fheadway+w3Fjerk.，其中w1、w2、w3是特征的系数，全部设为1。

步骤3：训练模型。每次训练时，顺序仿真数据中的跟驰事件，训练重复多次，选择在测试数据上取得最大平均奖励的模型作为最终模型。

步骤4：评价模型。利用TTC,headway及jerk等指标比较评价NGSIM数据和DDPG模型模拟得到的跟驰行为。

本发明的优点是：

1.所开发的自动驾驶车辆跟驰控制逻辑可应用于自动驾驶车辆开发；

2.该算法模型不模仿人类驾驶，而是直接优化驾驶安全性、效率和舒适性。

附图说明

图1为本发明的流程图。

图2NGSIM数据与DDPG模型驾驶安全性比较。

图3NGSIM数据与DDPG模型之间驾驶舒适性的比较。

具体实施方式

该算法基于深度强化学习提出了一种用于汽车跟驰速度控制的模型，该模型不模仿人类驾驶，而是直接优化驾驶安全性、效率和舒适性。结合碰撞时间TTC、车头时距经验分布、加加速度(Jerk)，构建了反映驾驶安全性，效率和舒适性的奖励函数，使用下一代仿真(NGSIM)项目中实际驾驶数据训练模型，并将模型模拟的跟驰行为与NGSIM经验数据中观察到的行为进行比较，强化学习智能体通过仿真环境中的试验和试错，以最大化累积奖励的方式学习安全、舒适、高效地控制车辆速度。结果表明，与现实世界中的人类驾驶员相比，提出的跟驰速度控制算法显示出更好的安全、高效和舒适驾驶能力。结果表明，与现实世界中的人类驾驶员相比，提出的跟驰速度控制算法显示出更好的安全、高效和舒适驾驶能力。

下面结合附图和具体实施例对本发明进行详细说明,步骤如下：

步骤1：获取数据。使用下一代仿真(NGSIM)项目中的数据，基于前车和后车停留在同一车道上及车辆跟随事件的长度>15秒等准则提取跟驰事件，基于提取的跟驰事件，将一部分作为训练数据，另一部分作为测试数据。

步骤2.4：建立综合奖励函数。根据以上步骤2.1、步骤2.2、步骤2.3建立r＝w1FTTC+w2Fheadway+w3Fjerk.，其中w1、w2、w3是特征的系数，全部设为1。

实施例

通过比较经验NGSIM数据和DDPG模型模拟得到的跟驰行为，测试该模型能够安全、高效、舒适的跟随前车。

获取数据。使用NGSIM项目中的数据，基于前车和后车停留在同一车道上及车辆跟随事件的长度>15秒等准则提取跟驰事件。

驾驶安全性方面，从NGSIM数据集中随机选择了一个跟驰事件。图2显示了观察到的速度、间距和加速度，以及由DDPG模型生成的相应指标值。NGSIM数据中的驾驶员在10秒后以非常小的车间距驾驶，而DDPG模型始终保持约10米的跟随间隙。

驾驶舒适性方面，在NGSIM数据集中随机选择了一个跟驰事件。图3显示了观察到的速度、间距、加速度和Jerk值，以及由DDPG模型生成的对应指标值。NGSIM数据中的驾驶员驾驶过程中产生了频繁的加速度变化和大的Jerk值，而DDPG模型可以保持接近恒定的加速度并产生低Jerk值。

基于以上，与NGSIM中人类驾驶员相比，所提出的跟驰速度控制算法显示出更好的安全、高效和舒适驾驶能力。

Claims

1.一种自动驾驶车辆速度控制多目标优化的跟驰算法，其特征在于，步骤如下：

步骤1：获取数据；使用NGSIM项目中的数据，基于前车和后车停留在同一车道上及车辆跟随事件的长度>15秒等准则提取跟驰事件，基于提取的跟驰事件，将一部分作为训练数据，另一部分作为测试数据；

步骤2：构建奖励函数；提出反映汽车跟随控制相关目标(安全、舒适、效率)的特征量；

步骤2.1：采用碰撞时间(TTC)反映安全性；TTC表示两辆车相撞之前剩余的时间量，其公式为其中是Sn-1,n(t)车间距离，△Vn-1,n(t)是相对速度；根据NGSIM经验数据确定安全阈值为7秒，并进行TTC特征构建：若TTC小于7秒，则TTC特征指标为负值，随着TTC逼近零，TTC特征将接近负无穷，对于接近碰撞的情况表现最严厉的惩罚；

步骤2.2：采用车头时距(headway)衡量驾驶效率；由分析，对数正态分布适应于获取的训练数据的分布，其概率密度函数为x>0；根据所提取的数据可估计，分布变量x的平均值μ和对数标准差σ分别为0.4226和0.4365；将车头时距特征构建为估计的车头时距对数正态分布的概率密度值：Fheadway＝flognormal(headway|μ＝0.4226,σ＝0.4365)；根据该车头时间特征，大约1.3秒的车头时距对应高特征值，车头时距过长或过短均对应低特征值，故该特征值估计高流量车距保持行为，同时惩罚不安全或过远的车距保持行为；

步骤2.4：建立综合奖励函数；根据以上步骤建立r＝w1FTTC+w2Fheadway+w3Fjerk.，其中w1、w2、w3是特征的系数，全部设为1；

步骤3：训练模型；每次训练时，顺序仿真数据中的跟驰事件，训练重复多次，选择在测试数据上取得最大平均奖励的模型作为最终模型；

步骤4：评价模型；利用TTC,headway及jerk等指标比较评价NGSIM数据和DDPG模型模拟得到的跟驰行为；

利用TTC,headway及jerk等指标比较评价NGSIM数据和DDPG模型模拟得到的跟驰行为。