[go: up one dir, main page]

CN114013443B - 一种基于分层强化学习的自动驾驶车辆换道决策控制方法 - Google Patents

一种基于分层强化学习的自动驾驶车辆换道决策控制方法 Download PDF

Info

Publication number
CN114013443B
CN114013443B CN202111339265.0A CN202111339265A CN114013443B CN 114013443 B CN114013443 B CN 114013443B CN 202111339265 A CN202111339265 A CN 202111339265A CN 114013443 B CN114013443 B CN 114013443B
Authority
CN
China
Prior art keywords
lane
vehicle
target
changing
speed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN202111339265.0A
Other languages
English (en)
Other versions
CN114013443A (zh
Inventor
崔建勋
慈玉生
要甲
姜慧夫
曲明成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology Shenzhen
Original Assignee
Harbin Institute of Technology Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology Shenzhen filed Critical Harbin Institute of Technology Shenzhen
Priority to CN202111339265.0A priority Critical patent/CN114013443B/zh
Publication of CN114013443A publication Critical patent/CN114013443A/zh
Application granted granted Critical
Publication of CN114013443B publication Critical patent/CN114013443B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W30/00Purposes of road vehicle drive control systems not related to the control of a particular sub-unit, e.g. of systems using conjoint control of vehicle sub-units
    • B60W30/18Propelling the vehicle
    • B60W30/18009Propelling the vehicle related to particular drive situations
    • B60W30/18163Lane change; Overtaking manoeuvres
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/10Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to vehicle motion
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W60/00Drive control systems specially adapted for autonomous road vehicles
    • B60W60/001Planning or execution of driving tasks
    • B60W60/0015Planning or execution of driving tasks specially adapted for safety

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

一种基于分层强化学习的自动驾驶车辆换道决策控制方法,属于自动驾驶控制技术领域。解决了现有自动驾驶过程中存在安全性差/效率低的问题。本发明利用自动驾驶车辆实际驾驶场景中的速度及与周边环境内车辆的相对位置、相对速度信息建立带有3个隐含层的决策神经网络,并利用换道安全奖励函数对所述决策神经网络进行训练拟合Q估值函数,获取Q估值最大的动作;利用自动驾驶车辆的实际驾驶场景中的速度和周边环境车辆的相对位置信息与跟驰或换道动作对应的奖励函数,建立深度Q学习的加速度决策模型,获得换道或跟驰加速度信息,当换道时,采用5次多项式曲线生成一条参考换道轨迹。本发明适用于自动驾驶换道决策及控制。

Description

一种基于分层强化学习的自动驾驶车辆换道决策控制方法
技术领域
本发明属于自动驾驶控制技术领域。
背景技术
一般情况下,自动驾驶的驾驶策略都是模块化的组成。大致分为4个层次:(1)战略规划层:一般负责从起点到终点的全局路径层面的规划。这一部分涉及到最短路径、加权最短路径、GIS等一些相关知识,目前的研究和实现方法均已经比较成熟;(2)战术层决策:一般负责在实际驾驶过程中,局部范围内的行为决策,例如跟驶、换道、超车、加速、减速等;(3)局部规划层:依据战术决策层的动作意图,该层负责生成一条安全、且符合交通法规的轨迹(trajectory);(4)车辆控制层:这一层主要是根据生成的轨迹,一般采用最优控制的方法,通过对车辆油门、刹车、方向盘的控制,实现对生成轨迹的最小偏差跟踪。
换道决策和换道轨迹生成分别是自动驾驶战术决策层和局部规划层中的关键内容,是很多驾驶场景下的基本决策行为,其性能水平的高低很大程度上决定了自动驾驶决策、规划与控制的安全、效率与好坏。传统的做法主要包括:(1)换道决策采用基于规则(例如有限状态机)的方式来实现,换道轨迹生成采用最优控制理论来生成;(2)换道决策与执行绑定在一起,采用端到端(end-to-end)的方式进行学习,直接从状态输入,输出换道车辆控制动作。第(1)种方式,由于本质上是基于规则的做法,因此很难泛化到未定义驾驶场景下,而且定义复杂场景下的规则集十分困难,甚至无法实现;第(2)种方式尽管在决策上非常高效,同时也能够很好泛化到未定义场景下,但是这种纯粹基于学习的方式,无法完全保证换道的安全性。此外,自动驾驶策略本质上是“分层的”,也就是先产生驾驶意图,然后根据意图生成轨迹和控制车辆,如果直接将决策与控制绑定在一起,很难建立高效的决策与控制方法。
发明内容
本发明目的是为了解决现有自动驾驶过程中存在安全性差/效率低的问题,提供了一种基于分层强化学习的自动驾驶车辆换道决策控制方法。
本发明所述的一种基于分层强化学习的自动驾驶车辆换道决策控制方法,该方法包括:
步骤一、利用自动驾驶车辆实际驾驶场景中的速度及与周边环境内车辆的相对位置、相对速度信息建立带有3个隐含层的决策神经网络,并利用换道安全奖励函数对所述决策神经网络进行训练拟合Q估值函数,获取Q估值最大的动作;
步骤二、当Q估值最大的动作为换道动作时,执行步骤三,当Q估值最大的动作为继续跟驰时,利用自动驾驶车辆的实际驾驶场景中的速度和周边环境车辆的相对位置信息与跟驰动作对应的奖励函数,建立深度Q学习的加速度决策模型,获得跟驰加速度,完成一次自动驾驶决策及控制;
步骤三、利用自动驾驶车辆的实际驾驶场景中的速度和周边环境车辆的相对位置信息与换道动作对应的奖励函数,建立深度Q学习的加速度决策模型;获得换道动作的加速度信息;
步骤四、利用换道动作的加速度信息,采用5次多项式曲线生成一条参考换道轨迹;
步骤五、采用纯跟踪控制方法,控制自动驾驶车辆执行换道动作,完成一次自动驾驶换道决策及控制。
进一步地,本发明中,步骤一、步骤二和步骤三中所述的自动驾驶车辆实际驾驶场景中的速度及与周边环境内车辆的相对位置和相对速度信息为:
目标自动驾驶车辆与当前车道前车相对位置:Δxleader=|xego-xleader|;其中,xego为目标自动驾驶车辆沿车道方向的位置坐标,xleader为当前车道目标自动驾驶车辆前车沿车道方向的位置坐标;
目标自动驾驶车辆与目标车道前车相对位置:Δxtarget=|xego-xtarget|;其中,xtarget为目标车道前车沿车道方向的位置坐标;
目标自动驾驶车辆与目标车道后车相对位置:Δxfollow=|xego-xfollow|;其中,xfollow为目标车道后车沿车道方向的位置坐标;
目标自动驾驶车辆与目标车道前车相对速度:Δvego=|vego-vleader|;其中,vego为目标自动驾驶车辆的速度,vleader为当前车道目标自动驾驶车辆前车的速度;
目标自动驾驶车辆与目标车道前车相对速度:Δvtarget=|vego-vtarget|;其中,vtarget为目标车道前车沿车道方向的速度;
目标自动驾驶车辆速度:vego
目标自动驾驶车辆加速度:aego
进一步地,本发明中,步骤一中,换道安全奖励函数为:
Figure BDA0003351846860000031
其中,w1,w2,w3,w4分别为目标自动驾驶车辆与当前车道前车相对位置的权重系数、目标自动驾驶车辆与目标车道前车相对速度的权重系数,目标自动驾驶车辆与目标车道前车相对位置和目标自动驾驶车辆与目标车道前车相对速度的权重系数。
进一步地,本发明中,步骤一中,带有3个隐含层的决策神经网络中,每个隐含层包括100个神经元。
进一步地,本发明中,步骤二中,建立深度Q学习的加速度决策模型的具体方法为:
以环境状态作为输入,分别通过3个子全连接神经网络A、B、C,获取加速度决策模型的最终Q估值:
环境状态:s=(Δxleader,Δxtarget,Δxfollow,Δvego,Δvtarget,vego,aego)
其中,a代表需要决策的纵向加速度;
跟驰奖励函数:
Rdis=-wdis.|xleader-xego| 公式二
Rv=wv.|vleader-vego| 公式三
Rc=Rdis+Rv 公式四
其中,Rdis,Rv分别代表跟驰状态与距离相关的奖励函数和速度相关的奖励函数;wdis和wv分别为跟驰状态距离奖励和速度奖励对应的权重;Rc代表跟驰状态与距离和速度相关的综合奖励;
加速度决策模型最终的Q估值:
Q(s,a)=A(s).(B(s)-Rc|a)2+C(s) 公式五
其中,Rc|a表示在加速度取a的条件下,跟驰状态获得的综合奖励;A(s),B(s),C(s)分别为当前状态s下,3个子全连接神经网络的输出。
进一步地,本发明中,步骤三中,利用自动驾驶车辆的实际驾驶场景信息、速度和周边环境车辆的相对位置信息与换道动作对应的奖励函数,建立深度Q学习的加速度决策模型的具体方法:
以环境状态作为输入,分别通过3个子全连接神经网络A、B、C,获取加速度决策模型的最终Q估值:
环境状态:s=(Δxleader,Δxtarget,ΔxfollwΔvego,Δvtarget,vego,aego)
其中,a代表需要决策的纵向加速度;
换道奖励函数:
rdis=-wdis.|min(Δxleader,Δxtarget)-Δxfollow| 公式六
rv=-wv.|min(vleader,vtarget)-vego| 公式七
RA=rdis+rv 公式八
其中,rdis,rv分别代表换道状态时与距离和速度相关的奖励;wdis和wv分别为换道状态时距离奖励和速度奖励对应的权重;RA代表换道状态时与距离和速度相关的综合奖励;
加速度决策模型最终的Q值:
Q(s,a)=A(s).(B(s)-RA|a)2+C(s) 公式九
其中,RA|a表示在加速度取a的条件下,换道状态所获得的即时奖励,A(s),B(s),C(s)分别为当前状态s下,3个子全连接神经网络的输出。
进一步地,本发明中,步骤四中,利用换道动作的加速度信息,采用5次多项式曲线生成一条参考换道轨迹为:
x(t)=a5t5+a4t4+a3t3+a2t2+a1t+a0 公式十
y(t)=b5t5+b4t4+b3t3+b2t2+b1t+b0 公式十一
其中,x(t)为t时刻的轨迹点沿道路横向的位置坐标,y(t)为t时刻的轨迹点沿道路纵向的位置坐标,t为时间,参数a1,...,a5,b1,...,b5通过期望函数:
Figure BDA0003351846860000051
确定,通过改变a1,...,a5,b1,...,b5的值优化期望函数,使期望函数在轨迹规划边界约束和交通限速约束条件下在t时刻的加速度a对应参考轨迹的距离和风险最小化,舒适性最大化,其中,T为参考换道轨迹规划的时间窗,
Figure BDA0003351846860000052
表示参考换道轨迹的出行距离项,wdP(dangerous|a,t)表示参考换道轨迹的安全风险项,wcP(comfort|a,t)表示参考换道轨迹的舒适项,wd,wc分别为参考轨迹的风险项的权重和舒适性的权重,wc<0,P(dangerous|a,t)为目标函数中安全风险概率,P(comfort|a,t)为目标函数中的舒适性程度。
进一步地,本发明中,轨迹规划边界约束条件具体为:使参考轨迹在车道线以内:
Figure BDA0003351846860000053
其中,xmin、ymin、xmax和ymax分别表示当前车辆对应的车道线边界坐标。
进一步地,本发明中,交通限速约束条件具体为:使参考轨迹的任意一个点上的地点速度不超过交通限速值:
Figure BDA0003351846860000054
其中,υx,minυx,max,υy,min,υy,max分别表示自动驾驶车辆沿着x,y两个方向的速度允许值范围。
进一步地,本发明中,步骤五中,采用纯跟踪控制方法,控制自动驾驶车辆执行换道动作的具体方法:
根据生成的参考换道轨迹,采用纯跟踪控制算法,控制自动驾驶车辆的换道动作过程中方向盘转角:
Figure BDA0003351846860000055
Figure BDA0003351846860000056
其中,δ(t)为纯跟踪控制算法在t时刻计算得到的方向盘转角;α(t)为实际的方向盘转角;ld是向前观看的距离,L为车辆的轴距。
本发明所述方法非常好的结合了基于学习方式的可泛化以及最优控制的安全性两方面优势,同时由于将换道决策和加速度决策行为采用两个模型进行了分层处理,本发明采用换道决策模型和加速度决策模型利用Q估值神经网络,使处理更加高效,准确性更高,本质上更贴近“换道意图产生→换道轨迹生成→换道动作执行”的人类驾驶换道行为,因此能够产生更加安全、鲁棒、高效的决策及控制输出。
附图说明
图1是本发明所述基于自动驾驶换道决策及控制方法的原理图;
图2是换道场景参数示意图;图中,ego为目标自动驾驶车辆,leader为目标自动驾驶车辆当前车道前车,target为目标自动驾驶车辆目标车道的前车,follow为目标自动驾驶车辆目标车道的后车;
图3是加速度决策模型的网络架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
具体实施方式一:下面结合图1说明本实施方式,本实施方式所述一种基于分层强化学习的自动驾驶车辆换道决策控制方法,该方法包括:
步骤一、利用自动驾驶车辆实际驾驶场景中的速度及与周边环境内车辆的相对位置、相对速度信息,建立带有3个隐含层的决策神经网络,并利用换道安全奖励函数对所述决策神经网络进行训练拟合Q估值函数,获取Q估值最大的动作;
步骤二、当Q估值最大的动作为换道动作时,执行步骤三,当Q估值最大的动作为继续跟驰时,利用自动驾驶车辆的实际驾驶场景中的速度和周边环境车辆的相对位置信息与跟驰动作对应的奖励函数,建立深度Q学习的加速度决策模型,获得跟驰加速度,完成一次自动驾驶决策及控制;
步骤三、利用自动驾驶车辆的实际驾驶场景中的速度和周边环境车辆的相对位置信息与换道动作对应的奖励函数,建立深度Q学习的加速度决策模型;获得换道动作的加速度信息;
步骤四、利用换道动作的加速度信息,采用5次多项式曲线生成一条参考换道轨迹;
步骤五、采用纯跟踪控制方法,控制自动驾驶车辆执行换道动作,完成一次自动驾驶换道决策及控制。
本实施方式中,输入是变换车道的需求/指令以及环境状态信息。变换车道的需求可能来自更高级别的行为决策,例如在超车情境下,由于自动驾驶目标车辆所在车道的前方车辆行驶速度过慢,而自动驾驶车辆为了获取更高的驾驶效率收益,因此尝试做出超车行为,而超车行为必然触发换道需求或指令。同时,目标自动驾驶车辆周边的环境信息(主要为周边环境车辆的相对位置、速度等信息)也必须同步输入,它们是自动驾驶车辆换车道决策的基础。
本发明所述方法采用了两个决策模型的架构,包括了换道决策模型和加速度决策模型。换道决策模型收到变道需求和环境状态信息后,决定是否变换车道,调整自动驾驶车辆纵向的加速度(决策),进一步执行跟驶和换道行为。
进一步地,结合图2说明本实施方式,本实施方式中,步骤一、步骤二和步骤三中所述的自动驾驶车辆实际驾驶场景中的速度及与周边环境内车辆的相对位置和相对速度信息为:
目标自动驾驶车辆与当前车道前车相对位置:Δxleader=|xego-xleader|;其中,xego为目标自动驾驶车辆沿车道方向的位置坐标,xleader为当前车道目标自动驾驶车辆前车沿车道方向的位置坐标;
目标自动驾驶车辆与目标车道前车相对位置:Δxtarget=|xego-xtarget|;其中,xtarget为目标车道前车沿车道方向的位置坐标;
目标自动驾驶车辆与目标车道后车相对位置:Δxfollow=|xego-xfollow|;其中,xfollow为目标车道后车沿车道方向的位置坐标;
目标自动驾驶车辆与目标车道前车相对速度:Δvego=|vego-vleader|;其中,vego为目标自动驾驶车辆的速度,vleader为当前车道目标自动驾驶车辆前车的速度;
目标自动驾驶车辆与目标车道前车相对速度:Δvtarget=|vego-vtarget|;其中,vtarget为目标车道前车沿车道方向的速度;
目标自动驾驶车辆速度:vego
目标自动驾驶车辆加速度:aego
本实施方式中,换道环境状态定义示意图如图2所示,Ego为自动驾驶车辆,其余车辆为背景车辆。每一辆车都具有自身的状态,包括了位置横坐标、位置纵坐标、速度和加速度4个信息。环境状态s=(Δxleader,Δxtarget,Δxfollow,Δvego,Δvtarget,vego,aego)。
进一步地,本实施方式中,步骤一中,换道安全奖励函数为:
Figure BDA0003351846860000081
其中,w1,w2,w3,w4分别为目标自动驾驶车辆与当前车道前车相对位置的权重系数、目标自动驾驶车辆与目标车道前车相对速度的权重系数,目标自动驾驶车辆与目标车道前车相对位置和目标自动驾驶车辆与目标车道前车相对速度的权重系数;
本实施方式中,w1=0.4,w2=0.6,w3=0.4,w4=0.6。
进一步地,结合图2进行说明,本实施方式中,步骤一中,带有3个隐含层的决策神经网络中,每个隐含层包括100个神经元。
进一步地,本实施方式中,步骤二中,建立深度Q学习的加速度决策模型的具体方法为:
以环境状态作为输入,分别通过3个子全连接神经网络A、B、C,获取加速度决策模型的最终Q估值:
环境状态:s=(Δxleader,Δxtarget,Δxfollow,Δvego,Δvtarget,vego,aego)
其中,a代表需要决策的纵向加速度;
跟驰奖励函数:
Rdis=-wdis.|xleader-xego| 公式二
Rv=-wv.|vleader-vego| 公式三
Rc=Rdis+Rv 公式四
其中,Rdis,Rv分别代表跟驰状态与距离相关的奖励函数和速度相关的奖励函数;wdis和wv分别为跟驰状态距离奖励和速度奖励对应的权重;Rc代表跟驰状态与距离和速度相关的综合奖励;
加速度决策模型最终的Q估值:
Q(s,a)=A(s).(B(s)-Rc|a)2+C(s) 公式五
其中,Rc|a表示在加速度取a的条件下,跟驰状态获得的综合奖励;A(s),B(s),C(s)分别为当前状态s下,3个子全连接神经网络的输出。
进一步地,本实施方式中,步骤三中,利用自动驾驶车辆的实际驾驶场景信息、速度和周边环境车辆的相对位置信息与换道动作对应的奖励函数,建立深度Q学习的加速度决策模型的具体方法:
以环境状态作为输入,分别通过3个子全连接神经网络A、B、C,获取加速度决策模型的最终Q估值:
环境状态:s=(Δxleader,Δxtarget,Δxfollow,Δvego,Δvtarget,vego,aego)
其中,a代表需要决策的纵向加速度;
换道奖励函数:
rdis=-wdis.|min(Δxleader,Δxtarget)-Δxfollow| 公式六
rv=-wv.|min(vleader,vtarget)-vego| 公式七
RA=rdis+rv 公式八
其中,rdis,rv分别代表换道状态时与距离和速度相关的奖励;wdis和wv分别为换道状态时距离奖励和速度奖励对应的权重;RA代表换道状态时与距离和速度相关的综合奖励。
加速度决策模型最终的Q值:
Q(s,a)=A(s).(B(s)-RA|a)2+C(s) 公式九
其中,RA|a表示在加速度取a的条件下,换道状态所获得的即时奖励,A(s),B(s),C(s)分别为当前状态s下,3个子全连接神经网络的输出。
本实施方式中,加速度决策模型接收来自换道决策模型的决策输出,即是否换道。如果不换道,则触发跟驶行为,如果换道,则触发换道行为。如图1所示,加速度决策模型负责决策出一个纵向的加速度(沿道路方向的连续值),加速度决策模型负责生成一条安全的轨迹,然后控制车辆跟踪这条生成的轨迹。本实施方式中,自动驾驶车辆的实际驾驶场景信息、速度和周边环境车辆的相对位置信息为环境状态,三个子全连接神经网络包括三个子全连接神经网络,每个子全连接神经网络都包括200个神经元。
进一步地,本实施方式中,步骤四中,利用换道动作的加速度信息,采用5次多项式曲线生成一条参考换道轨迹为:
x(t)=a5t5+a4t4+a3t3+a2t2+a1t+a0 公式十
y(t)=b5t5+b4t4+b3t3+b2t2+b1t+b0 公式十一
其中,x(t)为t时刻的轨迹点沿道路纵向的位置坐标,y(t)为t时刻的轨迹点沿道路横向的位置坐标,t为时间,参数a1,...,a5,b1,...,b5通过期望函数:
Figure BDA0003351846860000101
确定,通过改变a1,...,a5,b1,...,b5的值优化期望函数,使期望函数在轨迹规划边界约束和交通限速约束条件下在t时刻的加速度a对应参考轨迹的距离和风险最小化,舒适性最大化,其中,T为参考换道轨迹规划的时间窗,
Figure BDA0003351846860000102
表示参考换道轨迹的出行距离项,wdP(dangerous|a,t)表示参考换道轨迹的安全风险项,wcP(comfort|a,t)表示参考换道轨迹的舒适项,wd,wc分别为参考轨迹的风险项的权重和舒适性的权重,wc<0,P(dangerous|a,t)为目标函数中安全风险概率,P(comfort|a,t)为目标函数中的舒适性程度。
本实施方式中,根据加速度决策模型输出的加速度a,接下来规划自动驾驶车辆跟驶或换道的轨迹。轨迹的规划依据两项指标,分别是:安全性和舒适性。首先,采用5次多项式曲线生成一条参考换道轨迹,所述安全性通过参考轨迹的距离和风险体现。
进一步地,本实施方式中,轨迹规划边界约束条件具体为:使参考轨迹在车道线以内:
Figure BDA0003351846860000111
其中,xmin、ymin、xmax和ymax分别表示当前车辆对应的车道线边界坐标。
进一步地,本实施方式中,交通限速约束条件具体为:使参考轨迹的任意一个点上的地点速度不超过交通限速值:
Figure BDA0003351846860000112
其中,vx,min、vx,max、vy,min和vy,max分别表示自动驾驶车辆沿着道路横向y和纵向x两个方向的速度允许值范围。
进一步地,本实施方式中,步骤五中,采用纯跟踪控制方法,控制自动驾驶车辆执行换道动作的具体方法:
根据生成的参考换道轨迹,采用纯跟踪控制算法,控制自动驾驶车辆的换道动作过程中方向盘转角:
Figure BDA0003351846860000113
Figure BDA0003351846860000114
其中,δ(t)为纯跟踪控制算法在t时刻计算得到的方向盘转角;α(t)为实际的方向盘转角;ld是向前观看的距离,L为车辆的轴距。
虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其他所述实施例中。

Claims (9)

1.一种基于分层强化学习的自动驾驶车辆换道决策控制方法,其特征在于,该方法包括:
步骤一、利用自动驾驶车辆实际驾驶场景中的速度及与周边环境内车辆的相对位置、相对速度信息建立带有3个隐含层的决策神经网络,并利用换道安全奖励函数对所述决策神经网络进行训练拟合Q估值函数,获取Q估值最大的动作;
换道安全奖励函数为:
Figure FDA0003793650220000011
其中,w1,w2,w3,w4分别为目标自动驾驶车辆与当前车道前车相对位置的权重系数、目标自动驾驶车辆与当前车道前车相对速度的权重系数,目标自动驾驶车辆与当前车道前车相对位置和目标自动驾驶车辆与当前车道前车相对速度的权重系数;
步骤二、当Q估值最大的动作为换道动作时,执行步骤三,当Q估值最大的动作为继续跟驰时,利用自动驾驶车辆的实际驾驶场景中的速度和周边环境车辆的相对位置信息与跟驰动作对应的奖励函数,建立深度Q学习的加速度决策模型,获得跟驰加速度,完成一次自动驾驶决策及控制;
步骤三、利用自动驾驶车辆的实际驾驶场景中的速度和周边环境车辆的相对位置信息与换道动作对应的奖励函数,建立深度Q学习的加速度决策模型;获得换道动作的加速度信息;
步骤四、利用换道动作的加速度信息,采用5次多项式曲线生成一条参考换道轨迹;
步骤五、采用纯跟踪控制方法,控制自动驾驶车辆执行换道动作,完成一次自动驾驶换道决策及控制。
2.根据权利要求1所述的一种基于分层强化学习的自动驾驶车辆换道决策控制方法,其特征在于,步骤一、步骤二和步骤三中所述的自动驾驶车辆实际驾驶场景中的速度及与周边环境内车辆的相对位置和相对速度信息为:
目标自动驾驶车辆与当前车道前车相对位置:Δxleader=|xego-xleader|;其中,xego为目标自动驾驶车辆沿车道方向的位置坐标,xleader为当前车道目标自动驾驶车辆前车沿车道方向的位置坐标;
目标自动驾驶车辆与目标车道前车相对位置:Δxtarget=|xego-xtarget|;其中,xtarget为目标车道前车沿车道方向的位置坐标;
目标自动驾驶车辆与目标车道后车相对位置:Δxfollow=|xego-xfollow|;其中,xfollow为目标车道后车沿车道方向的位置坐标;
目标自动驾驶车辆与当前车道前车相对速度:Δvego=|vego-vleader|;其中,vego为目标自动驾驶车辆的速度,vleader为当前车道目标自动驾驶车辆前车的速度;
目标自动驾驶车辆与目标车道前车相对速度:Δvtarget=|vego-vtarget|;其中,vtarget为目标车道前车沿车道方向的速度;
目标自动驾驶车辆速度:vego
目标自动驾驶车辆加速度:aego
3.根据权利要求1或2所述的一种基于分层强化学习的自动驾驶车辆换道决策控制方法,其特征在于,步骤一中,带有3个隐含层的决策神经网络中,每个隐含层包括100个神经元。
4.根据权利要求1或2所述的一种基于分层强化学习的自动驾驶车辆换道决策控制方法,其特征在于,步骤二中,建立深度Q学习的加速度决策模型的具体方法为:
以环境状态作为输入,分别通过3个子全连接神经网络A、B、C,获取加速度决策模型的最终Q估值:
环境状态:s=(Δxleader,Δxtarget,Δxfollow,Δvego,Δvtarget,vego,aego)
其中,a代表需要决策的纵向加速度;
跟驰奖励函数:
Rdis=-wdis.|xleader-xego| 公式二
Rv=-wv.|vleader-vego| 公式三
Rc=Rdis+Rv 公式四
其中,Rdis,Rv分别代表跟驰状态与距离相关的奖励函数和速度相关的奖励函数;wdis和wv分别为跟驰状态距离奖励和速度奖励对应的权重;Rc代表跟驰状态与距离和速度相关的综合奖励;
加速度决策模型最终的Q估值:
Q(s,a)=A(s).(B(s)-Rc|a)2+C(s) 公式五
其中,Rc|a表示在加速度取a的条件下,跟驰状态获得的综合奖励;A(s),B(s),C(s)分别为当前状态s下,3个子全连接神经网络的输出。
5.根据权利要求1或2所述的一种基于分层强化学习的自动驾驶车辆换道决策控制方法,其特征在于,步骤三中,利用自动驾驶车辆的实际驾驶场景信息、速度和周边环境车辆的相对位置信息与换道动作对应的奖励函数,建立深度Q学习的加速度决策模型的具体方法:
以环境状态作为输入,分别通过3个子全连接神经网络A、B、C,获取加速度决策模型的最终Q估值:
环境状态:s=(Δxleader,Δxtarget,Δxfollow,Δvego,Δvtarget,vego,aego)
其中,a代表需要决策的纵向加速度;
换道奖励函数:
rdis=-wdis.|min(Δxleader,Δxtarget)-Δxfollow| 公式六
rv=-wv.|min(vleader,vtarget)-vego| 公式七
RA=rdis+rv 公式八
其中,rdis,rv分别代表换道状态时与距离和速度相关的奖励;wdis和wv分别为换道状态时距离奖励和速度奖励对应的权重;RA代表换道状态时与距离和速度相关的综合奖励;
加速度决策模型最终的Q值:
Q(s,a)=A(s).(B(s)-RA|a)2+C(s) 公式九
其中,RA|a表示在加速度取a的条件下,换道状态所获得的即时奖励,A(s),B(s),C(s)分别为当前状态s下,3个子全连接神经网络的输出。
6.根据权利要求5所述的一种基于分层强化学习的自动驾驶车辆换道决策控制方法,其特征在于,步骤四中,利用换道动作的加速度信息,采用5次多项式曲线生成一条参考换道轨迹为:
x(t)=a5t5+a4t4+a3t3+a2t2+a1t+a0 公式十
y(t)=b5t5+b4t4+b3t3+b2t2+b1t+b0 公式十一
其中,x(t)为t时刻的轨迹点沿道路横向的位置坐标,y(t)为t时刻的轨迹点沿道路纵向的位置坐标,t为时间,参数a1,...,a5,b1,...,b5通过期望函数:
Figure FDA0003793650220000041
确定,通过改变a1,...,a5,b1,...,b5的值优化期望函数,使期望函数在轨迹规划边界约束和交通限速约束条件下在t时刻的加速度a对应参考轨迹的距离和风险最小化,舒适性最大化,其中,T为参考换道轨迹规划的时间窗,
Figure FDA0003793650220000042
表示参考换道轨迹的出行距离项,wdP(dangerous|a,t)表示参考换道轨迹的安全风险项,wcP(comfort|a,t)表示参考换道轨迹的舒适项,wd,wc分别为参考轨迹的风险项的权重和舒适性的权重,wc<0,P(dangerous|a,t)为目标函数中安全风险概率,P(comfort|a,t)为目标函数中的舒适性程度。
7.根据权利要求5所述的一种基于分层强化学习的自动驾驶车辆换道决策控制方法,其特征在于,轨迹规划边界约束条件具体为:使参考轨迹在车道线以内:
Figure FDA0003793650220000043
其中,xmin、ymin、xmax和ymax分别表示当前车辆对应的车道线边界坐标。
8.根据权利要求5所述的一种基于分层强化学习的自动驾驶车辆换道决策控制方法,其特征在于,交通限速约束条件具体为:使参考轨迹的任意一个点上的地点速度不超过交通限速值:
Figure FDA0003793650220000044
其中,vx,min、vx,max、vy,min和vy,max分别表示自动驾驶车辆沿着道路横向y和纵向x两个方向的速度允许值范围。
9.根据权利要求2所述的一种基于分层强化学习的自动驾驶车辆换道决策控制方法,其特征在于,步骤五中,采用纯跟踪控制方法,控制自动驾驶车辆执行换道动作的具体方法:
根据参考换道轨迹,采用纯跟踪控制算法,控制自动驾驶车辆的换道动作过程中方向盘转角:
Figure FDA0003793650220000051
Figure FDA0003793650220000052
其中,δ(t)为纯跟踪控制算法在t时刻计算得到的方向盘转角;α(t)为t时刻自动驾驶车辆实际的方向盘转角;ld是向前观看的距离,L为车辆的轴距。
CN202111339265.0A 2021-11-12 2021-11-12 一种基于分层强化学习的自动驾驶车辆换道决策控制方法 Expired - Fee Related CN114013443B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111339265.0A CN114013443B (zh) 2021-11-12 2021-11-12 一种基于分层强化学习的自动驾驶车辆换道决策控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111339265.0A CN114013443B (zh) 2021-11-12 2021-11-12 一种基于分层强化学习的自动驾驶车辆换道决策控制方法

Publications (2)

Publication Number Publication Date
CN114013443A CN114013443A (zh) 2022-02-08
CN114013443B true CN114013443B (zh) 2022-09-23

Family

ID=80063836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111339265.0A Expired - Fee Related CN114013443B (zh) 2021-11-12 2021-11-12 一种基于分层强化学习的自动驾驶车辆换道决策控制方法

Country Status (1)

Country Link
CN (1) CN114013443B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118524954A (zh) * 2022-01-28 2024-08-20 华为技术有限公司 一种智能驾驶方法、装置及车辆
CN114880938B (zh) * 2022-05-16 2023-04-18 重庆大学 一种实现自动驾驶汽车行为决策的方法
CN114802307B (zh) * 2022-05-23 2023-05-05 哈尔滨工业大学 自动与人工混合驾驶场景下的智能车辆横向控制方法
CN115116249B (zh) * 2022-06-06 2023-08-01 苏州科技大学 一种自动驾驶车辆不同渗透率与道路通行能力的估计方法
CN114852105B (zh) * 2022-06-21 2024-12-06 长安大学 一种自动驾驶车辆换道轨迹规划方法及系统
CN115082900B (zh) * 2022-07-19 2023-06-16 湖南大学无锡智能控制研究院 一种停车场场景下智能车辆行驶决策系统及方法
CN115257746B (zh) * 2022-07-21 2024-11-26 同济大学 一种考虑不确定性的自动驾驶汽车换道决策控制方法
CN115480507B (zh) * 2022-09-02 2025-01-03 东南大学 基于道路纵断面的智能车辆安全势场跟驰模型建立方法
CN115320640B (zh) * 2022-09-05 2024-12-03 东南大学 一种基于深度强化学习的自动驾驶行为一体化决策方法
CN117275240B (zh) * 2023-11-21 2024-02-20 之江实验室 考虑多类型驾驶风格的交通信号强化学习控制方法和装置
CN118762544B (zh) * 2024-09-02 2024-12-13 武汉理工大学 一种异质交通流状态下的分流换道决策模型
CN119149978B (zh) * 2024-11-14 2025-02-11 易显智能科技有限责任公司 基于模仿学习的驾驶培训教学方法及系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10703370B2 (en) * 2018-08-24 2020-07-07 Ford Global Technologies, Llc Vehicle action control
JP7048456B2 (ja) * 2018-08-30 2022-04-05 本田技研工業株式会社 学習装置、学習方法、およびプログラム
CN111413957B (zh) * 2018-12-18 2021-11-02 北京航迹科技有限公司 用于确定自动驾驶中的驾驶动作的系统和方法
CN109901574B (zh) * 2019-01-28 2021-08-13 华为技术有限公司 自动驾驶方法及装置
US11790613B2 (en) * 2019-01-31 2023-10-17 Lg Electronics Inc. Image output device
CN110532846B (zh) * 2019-05-21 2022-09-16 华为技术有限公司 自动换道方法、装置及存储介质
CN110716562A (zh) * 2019-09-25 2020-01-21 南京航空航天大学 基于强化学习的无人驾驶汽车多车道行驶的决策方法
CN110673602B (zh) * 2019-10-24 2022-11-25 驭势科技(北京)有限公司 一种强化学习模型、车辆自动驾驶决策的方法和车载设备
CN111273668B (zh) * 2020-02-18 2021-09-03 福州大学 针对结构化道路的无人驾驶汽车运动轨迹规划系统及方法
CN112498354B (zh) * 2020-12-25 2021-11-12 郑州轻工业大学 考虑个性化驾驶体验的多时间尺度自学习变道方法

Also Published As

Publication number Publication date
CN114013443A (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN114013443B (zh) 一种基于分层强化学习的自动驾驶车辆换道决策控制方法
CN110758382B (zh) 一种基于驾驶意图的周围车辆运动状态预测系统及方法
CN112099496B (zh) 一种自动驾驶训练方法、装置、设备及介质
CN112389436B (zh) 基于改进lstm神经网络的安全性自动驾驶换道轨迹规划方法
Yan et al. A multi-vehicle game-theoretic framework for decision making and planning of autonomous vehicles in mixed traffic
Desjardins et al. Cooperative adaptive cruise control: A reinforcement learning approach
CN114644017B (zh) 一种实现自动驾驶车辆安全决策控制的方法
CN110969848A (zh) 一种对向双车道下基于强化学习的自动驾驶超车决策方法
WO2018176593A1 (zh) 一种面向无人自行车的局部避障路径规划方法
CN109501799A (zh) 一种车联网条件下的动态路径规划方法
CN114564016A (zh) 一种结合路径规划和强化学习的导航避障控制方法、系统及模型
CN111679660B (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
CN112965476A (zh) 一种基于多窗口抽样的高速无人车轨迹规划系统及方法
Qiao et al. Behavior planning at urban intersections through hierarchical reinforcement learning
CN113386790B (zh) 一种面向跨海大桥路况的自动驾驶决策方法
CN115257746A (zh) 一种考虑不确定性的自动驾驶汽车换道决策控制方法
CN116476825B (zh) 一种基于安全可信强化学习的自动驾驶车道保持控制方法
CN112578672A (zh) 基于底盘非线性的无人驾驶汽车轨迹控制系统及其轨迹控制方法
Siboo et al. An empirical study of ddpg and ppo-based reinforcement learning algorithms for autonomous driving
Chen et al. Automatic overtaking on two-way roads with vehicle interactions based on proximal policy optimization
Zhang et al. Structured road-oriented motion planning and tracking framework for active collision avoidance of autonomous vehicles
CN114987538A (zh) 一种网联自动驾驶环境下考虑多目标优化的协同换道方法
Liu et al. Impact of sharing driving attitude information: A quantitative study on lane changing
CN116009530A (zh) 一种自适应切向避障的路径规划方法和系统
CN117007066A (zh) 多规划算法集成的无人驾驶轨迹规划方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220923