CN109709956B - 一种自动驾驶车辆速度控制多目标优化的跟驰算法 - Google Patents
一种自动驾驶车辆速度控制多目标优化的跟驰算法 Download PDFInfo
- Publication number
- CN109709956B CN109709956B CN201811600366.7A CN201811600366A CN109709956B CN 109709956 B CN109709956 B CN 109709956B CN 201811600366 A CN201811600366 A CN 201811600366A CN 109709956 B CN109709956 B CN 109709956B
- Authority
- CN
- China
- Prior art keywords
- data
- headway
- car
- following
- ttc
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Traffic Control Systems (AREA)
- Control Of Driving Devices And Active Controlling Of Vehicle (AREA)
- Feedback Control In General (AREA)
Abstract
本发明开发了一种自动驾驶车辆速度控制多目标优化的跟驰算法。该算法基于深度强化学习提出了一种用于汽车跟驰速度控制的模型,该模型不仅模仿人类驾驶,而是直接优化驾驶安全性、效率和舒适性。结合碰撞时间、车头时距经验分布、加加速度,构建了反映驾驶安全性,效率和舒适性的奖励函数,使用下一代仿真(Next Generation Simulation,NGSIM)项目中实际驾驶数据训练模型,并将模型模拟的跟驰行为与NGSIM经验数据中观察到的行为进行比较,强化学习智能体通过仿真环境中的试验和试错,以最大化累积奖励的方式学习安全、舒适、高效地控制车辆速度。结果表明,与现实世界中的人类驾驶员相比,提出的跟驰速度控制算法显示出更好的安全、高效和舒适驾驶能力。
Description
技术领域
本发明涉及自动驾驶跟驰控制领域,特别涉及一种自动驾驶车辆速度控制多目标优化的跟驰算法。
背景技术
跟驰控制是自动驾驶智能决策的重要组成部分,包括自由驾驶下的速度选择、车辆跟随时车距的保持以及紧急状况下的制动。在自动驾驶与人类驾驶共存的情况下,自动驾驶车辆作出类似于人类驾驶员(简称拟人化)的跟驰控制决策将提高乘客的舒适度与信任度,同时也方便其他交通参与者更好地理解和预测自动驾驶车辆的行为,以实现自动驾驶与人类驾驶之间的安全交互。然而传统跟驰模型在应用于自动跟驰控制时存在诸多局限性,如限制模型的灵活性和准确性,难以推广到标定数据以外的驾驶场景和驾驶员,应用于自动驾驶时不能反应车辆实际驾驶员的驾驶风格及驾驶场景等。
深度强化学习(Deep Reinforcement Learning,DRL)以被广泛应用于工业制造、仿真模拟、机器人控制、优化与调度和游戏博弈等领域,其基本思想是通过最大化智能体从环境中获得的累计奖赏值,以学习到完成目标的最优策略。DRL方法更加侧重于学习解决问题的策略,而非对数据进行拟合,因此其泛化能力更强,为自动驾驶车辆跟驰控制提供参考。
发明内容
本发明的目的是:一种自动驾驶车辆速度控制多目标优化的跟驰算法。该算法提出了一种用于汽车跟驰速度控制的模型,该模型直接优化驾驶安全性、效率和舒适性。结合碰撞时间TTC、车头时距经验分布、加加速度(Jerk),构建了反映驾驶安全性,效率和舒适性的奖励函数,使用下一代仿真(NGSIM)项目中实际驾驶数据训练模型,并将模型模拟的跟驰行为与NGSIM经验数据中观察到的行为进行比较,强化学习智能体通过仿真环境中的试验和试错,以最大化累积奖励的方式学习安全、舒适、高效地控制车辆速度。结果表明,与现实世界中的人类驾驶员相比,提出的跟驰速度控制算法显示出更好的安全、高效和舒适驾驶能力。
本发明所采用的技术方案是:
一种自动驾驶车辆速度控制多目标优化的跟驰算法,步骤如下:
步骤1:获取数据。使用NGSIM项目中的数据,基于前车和后车停留在同一车道上及车辆跟随事件的长度>15秒等准则提取跟驰事件,基于提取的跟驰事件,将一部分作为训练数据,另一部分作为测试数据。
步骤2:构建奖励函数。提出反映汽车跟随控制相关目标(安全、舒适、效率)的特征量。
步骤2.1:采用碰撞时间(TTC)反映安全性。TTC表示两辆车相撞之前剩余的时间量,其公式为其中是Sn-1,n(t)车间距离,△Vn-1,n(t)是相对速度。根据NGSIM经验数据确定安全阈值为7秒,并进行TTC特征构建:若TTC小于7秒,则TTC特征指标为负值,随着TTC逼近零,TTC特征将接近负无穷,对于接近碰撞的情况表现最严厉的惩罚。
步骤2.2:采用车头时距(headway)衡量驾驶效率。由分析,对数正态分布适应于获取的训练数据的分布,其概率密度函数为x>0。根据所提取的数据可估计,分布变量x的平均值μ和对数标准差σ分别为0.4226和0.4365。将车头时距特征构建为估计的车头时距对数正态分布的概率密度值:Fheadway=flognormal(headway|μ=0.4226,σ=0.4365)。根据该车头时间特征,大约1.3秒的车头时距对应高特征值,车头时距过长或过短均对应低特征值,故该特征值估计高流量车距保持行为,同时惩罚不安全或过远的车距保持行为。
步骤2.4:建立综合奖励函数。根据以上步骤建立r=w1FTTC+w2Fheadway+w3Fjerk.,其中w1、w2、w3是特征的系数,全部设为1。
步骤3:训练模型。每次训练时,顺序仿真数据中的跟驰事件,训练重复多次,选择在测试数据上取得最大平均奖励的模型作为最终模型。
步骤4:评价模型。利用TTC,headway及jerk等指标比较评价NGSIM数据和DDPG模型模拟得到的跟驰行为。
本发明的优点是:
1.所开发的自动驾驶车辆跟驰控制逻辑可应用于自动驾驶车辆开发;
2.该算法模型不模仿人类驾驶,而是直接优化驾驶安全性、效率和舒适性。
附图说明
图1为本发明的流程图。
图2NGSIM数据与DDPG模型驾驶安全性比较。
图3NGSIM数据与DDPG模型之间驾驶舒适性的比较。
具体实施方式
该算法基于深度强化学习提出了一种用于汽车跟驰速度控制的模型,该模型不模仿人类驾驶,而是直接优化驾驶安全性、效率和舒适性。结合碰撞时间TTC、车头时距经验分布、加加速度(Jerk),构建了反映驾驶安全性,效率和舒适性的奖励函数,使用下一代仿真(NGSIM)项目中实际驾驶数据训练模型,并将模型模拟的跟驰行为与NGSIM经验数据中观察到的行为进行比较,强化学习智能体通过仿真环境中的试验和试错,以最大化累积奖励的方式学习安全、舒适、高效地控制车辆速度。结果表明,与现实世界中的人类驾驶员相比,提出的跟驰速度控制算法显示出更好的安全、高效和舒适驾驶能力。结果表明,与现实世界中的人类驾驶员相比,提出的跟驰速度控制算法显示出更好的安全、高效和舒适驾驶能力。
下面结合附图和具体实施例对本发明进行详细说明,步骤如下:
步骤1:获取数据。使用下一代仿真(NGSIM)项目中的数据,基于前车和后车停留在同一车道上及车辆跟随事件的长度>15秒等准则提取跟驰事件,基于提取的跟驰事件,将一部分作为训练数据,另一部分作为测试数据。
步骤2:构建奖励函数。提出反映汽车跟随控制相关目标(安全、舒适、效率)的特征量。
步骤2.1:采用碰撞时间(TTC)反映安全性。TTC表示两辆车相撞之前剩余的时间量,其公式为其中是Sn-1,n(t)车间距离,△Vn-1,n(t)是相对速度。根据NGSIM经验数据确定安全阈值为7秒,并进行TTC特征构建:若TTC小于7秒,则TTC特征指标为负值,随着TTC逼近零,TTC特征将接近负无穷,对于接近碰撞的情况表现最严厉的惩罚。
步骤2.2:采用车头时距(headway)衡量驾驶效率。由分析,对数正态分布适应于获取的训练数据的分布,其概率密度函数为x>0。根据所提取的数据可估计,分布变量x的平均值μ和对数标准差σ分别为0.4226和0.4365。将车头时距特征构建为估计的车头时距对数正态分布的概率密度值:Fheadway=flognormal(headway|μ=0.4226,σ=0.4365)。根据该车头时间特征,大约1.3秒的车头时距对应高特征值,车头时距过长或过短均对应低特征值,故该特征值估计高流量车距保持行为,同时惩罚不安全或过远的车距保持行为。
步骤2.4:建立综合奖励函数。根据以上步骤2.1、步骤2.2、步骤2.3建立r=w1FTTC+w2Fheadway+w3Fjerk.,其中w1、w2、w3是特征的系数,全部设为1。
步骤3:训练模型。每次训练时,顺序仿真数据中的跟驰事件,训练重复多次,选择在测试数据上取得最大平均奖励的模型作为最终模型。
步骤4:评价模型。利用TTC,headway及jerk等指标比较评价NGSIM数据和DDPG模型模拟得到的跟驰行为。
实施例
通过比较经验NGSIM数据和DDPG模型模拟得到的跟驰行为,测试该模型能够安全、高效、舒适的跟随前车。
获取数据。使用NGSIM项目中的数据,基于前车和后车停留在同一车道上及车辆跟随事件的长度>15秒等准则提取跟驰事件。
驾驶安全性方面,从NGSIM数据集中随机选择了一个跟驰事件。图2显示了观察到的速度、间距和加速度,以及由DDPG模型生成的相应指标值。NGSIM数据中的驾驶员在10秒后以非常小的车间距驾驶,而DDPG模型始终保持约10米的跟随间隙。
驾驶舒适性方面,在NGSIM数据集中随机选择了一个跟驰事件。图3显示了观察到的速度、间距、加速度和Jerk值,以及由DDPG模型生成的对应指标值。NGSIM数据中的驾驶员驾驶过程中产生了频繁的加速度变化和大的Jerk值,而DDPG模型可以保持接近恒定的加速度并产生低Jerk值。
基于以上,与NGSIM中人类驾驶员相比,所提出的跟驰速度控制算法显示出更好的安全、高效和舒适驾驶能力。
Claims (1)
1.一种自动驾驶车辆速度控制多目标优化的跟驰算法,其特征在于,步骤如下:
步骤1:获取数据;
使用NGSIM项目中的数据,基于前车和后车停留在同一车道上及车辆跟随事件的长度>15秒准则提取跟驰事件,基于提取的跟驰事件,将一部分作为训练数据,另一部分作为测试数据;
步骤2:构建奖励函数;
提出反映汽车跟随控制相关目标的特征量,具体包括安全、舒适、效率;
步骤2.1:采用TTC反映安全性;
TTC为碰撞时间,表示两辆车相撞之前剩余的时间量,其公式为其中是Sn-1,n(t)车间距离,△Vn-1,n(t)是相对速度;根据NGSIM经验数据确定安全阈值为7秒,并进行TTC特征构建:若TTC小于7秒,则TTC特征指标为负值,随着TTC逼近零,TTC特征将接近负无穷,对于接近碰撞的情况表现最严厉的惩罚;
步骤2.2:采用headway()衡量驾驶效率;
Headway为车头时距;由分析,对数正态分布适应于获取的训练数据的分布,其概率密度函数为x>0;根据所提取的数据可估计,分布变量x的平均值μ和对数标准差σ分别为0.4226和0.4365;将车头时距特征构建为估计的车头时距对数正态分布的概率密度值:Fheadway=flognormal(headway|μ=0.4226,σ=0.4365);根据该车头时间特征,大约1.3秒的车头时距对应高特征值,车头时距过长或过短均对应低特征值,故该特征值估计高流量车距保持行为,同时惩罚不安全或过远的车距保持行为;
步骤2.4:建立综合奖励函数;
根据以上步骤建立r=w1FTTC+w2Fheadway+w3Fjerk.,其中w1、w2、w3是特征的系数,全部设为1;
步骤3:训练模型;
每次训练时,顺序仿真数据中的跟驰事件,训练重复多次,选择在测试数据上取得最大平均奖励的模型作为最终模型;
步骤4:评价模型;
利用TTC,headway及jerk指标比较评价NGSIM数据和DDPG模型模拟得到的跟驰行为。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811600366.7A CN109709956B (zh) | 2018-12-26 | 2018-12-26 | 一种自动驾驶车辆速度控制多目标优化的跟驰算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811600366.7A CN109709956B (zh) | 2018-12-26 | 2018-12-26 | 一种自动驾驶车辆速度控制多目标优化的跟驰算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109709956A CN109709956A (zh) | 2019-05-03 |
CN109709956B true CN109709956B (zh) | 2021-06-08 |
Family
ID=66258357
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811600366.7A Active CN109709956B (zh) | 2018-12-26 | 2018-12-26 | 一种自动驾驶车辆速度控制多目标优化的跟驰算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109709956B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110321605A (zh) * | 2019-06-19 | 2019-10-11 | 中汽研(天津)汽车工程研究院有限公司 | 一种基于多重模型预测控制的人机交互协调控制策略 |
CN110347043B (zh) * | 2019-07-15 | 2023-03-10 | 武汉天喻信息产业股份有限公司 | 一种智能驾驶控制方法及装置 |
CN110488802B (zh) * | 2019-08-21 | 2020-05-12 | 清华大学 | 一种网联环境下的自动驾驶车辆动态行为决策方法 |
CN110716562A (zh) * | 2019-09-25 | 2020-01-21 | 南京航空航天大学 | 基于强化学习的无人驾驶汽车多车道行驶的决策方法 |
CN110992676B (zh) * | 2019-10-15 | 2021-06-04 | 同济大学 | 一种道路通行能力与网联自动驾驶车当量系数估计方法 |
JP6970156B2 (ja) * | 2019-10-18 | 2021-11-24 | トヨタ自動車株式会社 | 車両の制御に用いるデータの生成方法、車両用制御装置、車両用制御システム、車載装置および車両用学習装置 |
JP6744598B1 (ja) * | 2019-10-18 | 2020-08-19 | トヨタ自動車株式会社 | 車両用制御システム、車両用制御装置、および車両用学習装置 |
CN112698578B (zh) * | 2019-10-22 | 2023-11-14 | 北京车和家信息技术有限公司 | 一种自动驾驶模型的训练方法及相关设备 |
CN110843746B (zh) * | 2019-11-28 | 2022-06-14 | 的卢技术有限公司 | 一种基于强化学习的防抱死刹车控制方法及系统 |
DE102020201931A1 (de) * | 2020-02-17 | 2021-08-19 | Psa Automobiles Sa | Verfahren zum Trainieren wenigstens eines Algorithmus für ein Steuergerät eines Kraftfahrzeugs, Verfahren zur Optimierung eines Verkehrsflusses in einer Region, Computerprogrammprodukt sowie Kraftfahrzeug |
CN112201069B (zh) * | 2020-09-25 | 2021-10-29 | 厦门大学 | 基于深度强化学习的驾驶员纵向跟车行为模型构建方法 |
CN112614344B (zh) * | 2020-12-14 | 2022-03-29 | 中汽研汽车试验场股份有限公司 | 一种自动驾驶汽车参与的混合交通系统效能评估方法 |
CN113353102B (zh) * | 2021-07-08 | 2022-11-25 | 重庆大学 | 一种基于深度强化学习的无保护左转弯驾驶控制方法 |
CN113954865B (zh) * | 2021-09-22 | 2023-11-10 | 吉林大学 | 一种自动驾驶车辆冰雪环境下跟驰控制方法 |
CN113901718A (zh) * | 2021-10-11 | 2022-01-07 | 长安大学 | 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法 |
CN113954874B (zh) * | 2021-11-03 | 2023-04-28 | 同济大学 | 一种基于改进智能驾驶员模型的自动驾驶控制方法 |
CN114056332B (zh) * | 2022-01-14 | 2022-04-12 | 清华大学 | 基于认知风险平衡的智能汽车跟车决策和控制方法 |
CN115123159A (zh) * | 2022-06-27 | 2022-09-30 | 重庆邮电大学 | 一种基于ddpg深度强化学习的aeb控制方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101606794A (zh) * | 2009-07-17 | 2009-12-23 | 梁秀芬 | 一种动感影院座椅设备 |
CN102955884A (zh) * | 2012-11-23 | 2013-03-06 | 同济大学 | 一种高速列车跟驰运行全速域安全车距标定方法 |
CN103101559A (zh) * | 2013-02-16 | 2013-05-15 | 同济大学 | 一种基于跟驰行为质量评估的全速域列车间隔实时控制方法 |
CN103248545A (zh) * | 2013-05-28 | 2013-08-14 | 北京和利时电机技术有限公司 | 用于动感影院特效播映系统的以太网通讯方法及系统 |
CN105654779A (zh) * | 2016-02-03 | 2016-06-08 | 北京工业大学 | 基于车路、车车通信的高速公路施工区交通协调控制方法 |
CN106926844A (zh) * | 2017-03-27 | 2017-07-07 | 西南交通大学 | 一种基于实时环境信息的动态自动驾驶换道轨迹规划方法 |
CN108313054A (zh) * | 2018-01-05 | 2018-07-24 | 北京智行者科技有限公司 | 自动驾驶自主换道决策方法和装置及自动驾驶车辆 |
CN108387242A (zh) * | 2018-02-07 | 2018-08-10 | 西南交通大学 | 自动驾驶换道准备和执行一体化轨迹规划方法 |
CN108492398A (zh) * | 2018-02-08 | 2018-09-04 | 同济大学 | 基于加速度计的自适应驾驶行为主动采集的预警方法 |
CN108932840A (zh) * | 2018-07-17 | 2018-12-04 | 北京理工大学 | 基于强化学习的无人驾驶车辆城市交叉口通行方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100185369A1 (en) * | 2009-01-19 | 2010-07-22 | Jung-Woong Choi | Automatic transmission |
-
2018
- 2018-12-26 CN CN201811600366.7A patent/CN109709956B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101606794A (zh) * | 2009-07-17 | 2009-12-23 | 梁秀芬 | 一种动感影院座椅设备 |
CN102955884A (zh) * | 2012-11-23 | 2013-03-06 | 同济大学 | 一种高速列车跟驰运行全速域安全车距标定方法 |
CN103101559A (zh) * | 2013-02-16 | 2013-05-15 | 同济大学 | 一种基于跟驰行为质量评估的全速域列车间隔实时控制方法 |
CN103248545A (zh) * | 2013-05-28 | 2013-08-14 | 北京和利时电机技术有限公司 | 用于动感影院特效播映系统的以太网通讯方法及系统 |
CN105654779A (zh) * | 2016-02-03 | 2016-06-08 | 北京工业大学 | 基于车路、车车通信的高速公路施工区交通协调控制方法 |
CN106926844A (zh) * | 2017-03-27 | 2017-07-07 | 西南交通大学 | 一种基于实时环境信息的动态自动驾驶换道轨迹规划方法 |
CN108313054A (zh) * | 2018-01-05 | 2018-07-24 | 北京智行者科技有限公司 | 自动驾驶自主换道决策方法和装置及自动驾驶车辆 |
CN108387242A (zh) * | 2018-02-07 | 2018-08-10 | 西南交通大学 | 自动驾驶换道准备和执行一体化轨迹规划方法 |
CN108492398A (zh) * | 2018-02-08 | 2018-09-04 | 同济大学 | 基于加速度计的自适应驾驶行为主动采集的预警方法 |
CN108932840A (zh) * | 2018-07-17 | 2018-12-04 | 北京理工大学 | 基于强化学习的无人驾驶车辆城市交叉口通行方法 |
Non-Patent Citations (5)
Title |
---|
Drivers’ rear end collision avoidance behaviors under different levels of situational urgency;Xuesong Wang,等;《Transportation Research Part C》;20161223;第71卷;第419-433页 * |
Modeling car-following behavior on urban expressways in Shanghai: A naturalistic driving study;Meixin Zhu,等;《Transportation Research Part C》;20180831;第93卷;第425-445页 * |
中美两国道路交通事故信息采集技术比较研究;王雪松,等;《中国安全科学学报》;20121031;第22卷(第10期);第79-87页 * |
基于自然驾驶数据的避撞预警对跟车行为影响;王雪松,朱美新,邢祎伦;《同济大学学报(自然科学版)》;20160731;第44卷(第7期);第1045-1051页 * |
驾驶员前向避撞行为特征的降维及多元方差分析;王雪松,朱美新,陈铭;《同济大学学报(自然科学版)》;20161231;第44卷(第12期);第1858-1866页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109709956A (zh) | 2019-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109709956B (zh) | 一种自动驾驶车辆速度控制多目标优化的跟驰算法 | |
CN109733415B (zh) | 一种基于深度强化学习的拟人化自动驾驶跟驰模型 | |
CN108919795B (zh) | 一种自动驾驶汽车换道决策方法及装置 | |
RU2681984C1 (ru) | Система и способ определения траектории для транспортного средства | |
CN112784485B (zh) | 一种基于强化学习的自动驾驶关键场景生成方法 | |
CN110686906B (zh) | 车辆自动驾驶测试方法及装置 | |
Bolduc et al. | Multimodel approach to personalized autonomous adaptive cruise control | |
CN113901718A (zh) | 一种跟驰状态下基于深度强化学习的驾驶避撞优化方法 | |
Ji et al. | Estimating the social gap with a game theory model of lane changing | |
CN113044064A (zh) | 基于元强化学习的车辆自适应的自动驾驶决策方法及系统 | |
CN111824169B (zh) | 用于降低具有内燃机的车辆的驱动系统的废气排放的方法 | |
CN114492157B (zh) | 一种基于个性化驾驶员模型的自动驾驶测试场景生成方法 | |
CN114148349A (zh) | 一种基于生成对抗模仿学习的车辆个性化跟驰控制方法 | |
CN117242438A (zh) | 用于测试车辆的驾驶员辅助系统的方法 | |
CN116853273A (zh) | 知识和数据融合驱动的云控式网联车辆协同巡航控制方法 | |
CN115257789A (zh) | 城市低速环境下的营运车辆侧向防撞驾驶决策方法 | |
CN119005015A (zh) | 一种用于自动驾驶测试的车辆危险切入策略构建方法 | |
CN117668413A (zh) | 考虑多类行驶要素的自动驾驶综合决策评估方法及装置 | |
CN118228612B (zh) | 一种基于强化学习的自然性自动驾驶场景生成方法及装置 | |
CN116629114A (zh) | 多智能体的模型训练方法、系统、计算机设备和存储介质 | |
Su et al. | A traffic simulation model with interactive drivers and high-fidelity car dynamics | |
CN115056776A (zh) | 综合考虑感知过程与驾驶员行为的自适应驾驶人跟驰方法 | |
CN113642114B (zh) | 可犯错的拟人化随机跟车驾驶行为建模方法 | |
CN114492043A (zh) | 考虑感知受限特性的个性化驾驶员跟车建模方法 | |
CN118657190A (zh) | 基于强化学习的自动驾驶车辆交互控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |