[go: up one dir, main page]

CN118212808B - 一种无信号交叉口车辆通行决策规划方法、系统与设备 - Google Patents

一种无信号交叉口车辆通行决策规划方法、系统与设备 Download PDF

Info

Publication number
CN118212808B
CN118212808B CN202410150462.5A CN202410150462A CN118212808B CN 118212808 B CN118212808 B CN 118212808B CN 202410150462 A CN202410150462 A CN 202410150462A CN 118212808 B CN118212808 B CN 118212808B
Authority
CN
China
Prior art keywords
vehicle
decision
risk
driving
traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410150462.5A
Other languages
English (en)
Other versions
CN118212808A (zh
Inventor
李立
赵峥程
杨文臣
刘晓锋
王润民
路庆昌
许文鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changan University
Original Assignee
Changan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changan University filed Critical Changan University
Priority to CN202410150462.5A priority Critical patent/CN118212808B/zh
Publication of CN118212808A publication Critical patent/CN118212808A/zh
Application granted granted Critical
Publication of CN118212808B publication Critical patent/CN118212808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • G08G1/0129Traffic data processing for creating historical data or processing based on historical data
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0137Measuring and analyzing of parameters relative to traffic conditions for specific applications
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0967Systems involving transmission of highway information, e.g. weather, speed limits
    • G08G1/096708Systems involving transmission of highway information, e.g. weather, speed limits where the received information might be used to generate an automatic action on the vehicle control
    • G08G1/096725Systems involving transmission of highway information, e.g. weather, speed limits where the received information might be used to generate an automatic action on the vehicle control where the received information generates an automatic action on the vehicle control
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0967Systems involving transmission of highway information, e.g. weather, speed limits
    • G08G1/096766Systems involving transmission of highway information, e.g. weather, speed limits where the system is characterised by the origin of the information transmission
    • G08G1/096775Systems involving transmission of highway information, e.g. weather, speed limits where the system is characterised by the origin of the information transmission where the origin of the information is a central station
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/164Centralised systems, e.g. external to vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Atmospheric Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种无信号交叉口车辆通行决策规划方法、系统与设备,涉及智能交通技术领域,包括步骤:构建网联无信号交叉口建模场景,获得多车交互工况下的转向车辆决策‑运动规划框架;进行行车风险感知,根据事故严重程度定义风险等级,以及获得风险感知系数;根据交互车辆相对状态计算通行间隙,通过通行间隙获得通行策略,并采用粒子群算法获取期望车速;获得车辆动作相对于当前环境与车辆状态关系,使用RA‑SAC算法对风险等级进行奖惩策略训练,并对驾驶连续动作进行决策;最终获得车辆决策运动规划模型。本发明能够对无信号交叉口的智能网联车辆进行有效评估,具有较强的可操作性。

Description

一种无信号交叉口车辆通行决策规划方法、系统与设备
技术领域
本发明涉及智能交通技术领域,特别涉及一种无信号交叉口车辆通行决策规划方法、系统与设备。
背景技术
近些年来,随着智能网联车辆技术的快速发展,其逐渐在减少交通冲突、提高交通运行效率与经济效益方面表现出良好的潜力,基于全时空交通信息的协同感知、融合和交互,实现车辆群体协同决策与智能控制,并推进基于车路协同的自动驾驶中国发展路线,已成为我国智能交通的战略发展内容。智能网联车辆通过V2I(Vehicle to Infrastructure)设备发送并收集环境信息,实现了道路全息感知,使道路、车辆形成一个互联互通的整体,尤其是对无信号交叉口等不规则平面交叉道路场景而言,网联技术能够降低因为信息收集不完善对驾驶安全带来的负面影响,为避免交通冲突、改善通行效率和驾乘人员体验提供了条件。
然而,从目前的有人驾驶车辆占绝大多数到自动驾驶车辆普及会经历一个漫长的过渡阶段。在此过程中,有人驾驶与自动驾驶车辆会在道路场景中共存,异构交通群体会加剧无信号交叉口行车环境的复杂程度,对自动驾驶车辆的感知、决策和控制等各方面技术造成重大考验,如何量化有人驾驶车辆运动特征并将其纳入自动驾驶车辆运动规划因素是推进智能化的重要工作之一。另外,区别于信号交叉口,无信号场景下不仅需要考虑车辆在停止线前的速度和加速度以保证通行效率,还需要规划车辆在交叉口内部冲突区域的运动以避免碰撞,对左转此类同时需要规划车速和转向角的驾驶行为造成了不小的挑战。因此,如何从驾驶安全角度出发,将行车风险和异构环境中其他有人车辆的驾驶风格考虑在内,构建面向多车交互工况的左转运动规划模型,是智能网联车辆在无信号交叉口场景中亟待解决的问题。
目前,应用强化学习方法开展无信号交叉口场景中自动驾驶决策的研究,以安全、效率和舒适度为目标,对于安全目标仅仅将是否发生碰撞考虑在内,例如对于车辆碰撞情况制定回报函数,较少研究将潜在碰撞风险考虑在内,存在以低频的事故数据作为评估标准相同的弊端,如样本量小,风险变化过程难以反映等。假设车辆在未发生碰撞的情况下已经处于事故临界状态,仅依据碰撞事件则难以反映其动态驾驶安全。常见分层强化学习方法需要分开不同层级训练,增加了训练成本,网络复杂程度较高,同时增加了运行成本,使其难以应用于复杂多变的驾驶任务场景。
发明内容
本发明的目的在于针对上述现有技术的不足,提供一种无信号交叉口车辆通行决策规划方法、系统与设备,以解决现有技术中常见分层强化学习方法需要分开不同层级训练,增加了训练成本,网络复杂程度较高,同时增加了运行成本,使其难以应用于复杂多变的驾驶任务场景的问题。
本发明具体提供如下技术方案:一种无信号交叉口车辆通行决策规划方法,包括如下步骤:
构建网联无信号交叉口建模场景,并基于所述网联无信号交叉口建模场景构建多车交互工况下的转向车辆决策-运动规划框架;
通过所述转向车辆决策-运动规划框架进行行车风险感知,根据感知到的事故严重程度定义风险等级,以及获取不同风险等级下的风险感知系数;
根据交互车辆相对状态计算通行间隙,通过所述通行间隙获得通行策略,并采用粒子群算法获取通行策略中每个车辆的期望车速;
基于每个车辆位置和全局路径选取目标路径点,并使用纯跟踪算法匹配期望车速与目标路径点,获得驾驶连续动作的驾驶决策;
使用RA-SAC算法对所述风险感知系数进行奖惩策略训练,通过训练后的风险感知系数改变所述驾驶决策的梯度更新幅度,获得车辆决策运动规划模型;
使用所述车辆决策运动规划模型对每个车辆的通行进行决策。
优选的,所述转向车辆决策-运动规划框架包括:网联无信号交叉口环境、感知与决策模块、车辆运动规划模块。
优选的,所述感知到的事故严重程度定义风险等级,以及获取不同风险等级下的风险感知系数,包括如下步骤:
根据避撞加速度阈值对交通冲突事件进行风险等级划分,计算不同风险等级下的条件概率;
采用贝叶斯理论得出每个给定状态下的风险感知系数。
优选的,所述根据避撞加速度阈值对交通冲突事件进行风险等级划分,计算不同风险等级下的条件概率,具体表达式为:
其中,Ds、Dr和Dd分别为安全、存在风险和危险事件的rDRAC阈值,σ代表随机变量;τ为风险水平,用数值0、1、2表示,分别对应安全、存在风险和危险等级,具体表达式为:τ={0,1,2}。
优选的,所述采用贝叶斯理论得出每个给定状态下的风险感知系数,具体表达式为:
其中,ε为风险感知系数,P(τ|D)为处于某一风险水平τ的后验概率,P(τ)为风险水平的先验概率,P(D|τ)为不同风险水平下的条件概率。
优选的,所述基于每个车辆位置和全局路径选取目标路径点,并使用纯跟踪算法匹配期望车速与目标路径点,包括如下步骤:
基于纯跟踪算法与PID控制器设计车辆的转向跟踪功能模块,并基于当前车辆位置和全局路径选取目标路径点,采用纯跟踪算法和PID控制器结合调整车辆转向角;
根据当前车辆状态对纯跟踪算法中的基础前视距离参数进行决策,匹配期望车速和目标路径点,进行目标路径点的跟踪。
优选的,所述获得驾驶连续动作的驾驶决策,包括如下步骤:
将车辆在无信号交叉口通行过程定义为马尔可夫决策过程;
通过基于马尔可夫决策过程的深度强化学习方法,对运动控制的基础前视距离与节气门/制动踏板两个参数进行决策;
通过每个所述决策下采取的动作获得奖励,通过所述奖励获得驾驶连续动作对于当前环境与车辆状态关系;
通过所述驾驶连续动作对于当前环境与车辆状态关系获得驾驶连续动作的驾驶决策。
优选的,所述使用RA-SAC算法对所述风险感知系数进行奖惩策略训练,通过训练后的风险感知系数改变所述驾驶决策的梯度更新幅度,包括如下步骤:
通过风险感知系数改变奖惩力度,在训练过程中识别潜在碰撞风险;
将当前车辆驾驶的决策放入对应环境中评估,获得更符合因车辆动作给实际环境造成影响的奖惩结果;
通过当前车辆驾驶的潜在碰撞风险大小改变梯度更新幅度,根据所述幅度收获不同程度的反馈;
通过所述反馈和奖惩结果获得最优的驾驶连续动作,通过最优的驾驶连续动作更新驾驶决策。
优选的,本发明还提供一种无信号交叉口车辆通行决策规划系统,包括:
框架构建模块,用于构建网联无信号交叉口建模场景,并基于所述网联无信号交叉口建模场景构建多车交互工况下的转向车辆决策-运动规划框架;
风险获取模块,用于通过所述转向车辆决策-运动规划框架进行行车风险感知,根据感知到的事故严重程度定义风险等级,以及获取不同风险等级下的风险感知系数;
车速获取模块,用于根据交互车辆相对状态计算通行间隙,通过所述通行间隙获得通行策略,并采用粒子群算法获取通行策略中每个车辆的期望车速;
状态获取模块,用于基于每个车辆位置和全局路径选取目标路径点,并使用纯跟踪算法匹配期望车速与目标路径点,获得驾驶连续动作的驾驶决策;
决策模型构建模块,用于使用RA-SAC算法对所述风险感知系数进行奖惩策略训练,通过训练后的风险感知系数改变所述驾驶决策的梯度更新幅度,获得车辆决策运动规划模型;
车辆决策模块,用于使用所述车辆决策运动规划模型对每个车辆的通行进行决策。
优选的,本发明还提供一种计算机设备,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行一种无信号交叉口车辆通行决策规划方法的步骤。
与现有技术相比,本发明具有如下显著优点:
本发明提出了面向无信号交叉口的车辆决策-运动规划框架,通过结合风险感知方法与深度强化学习算法,获取风险等级和风险感知系数、通行间隙、期望车速,以及车辆位置和目标路径点,构建驾驶连续动作的工作,执行改变车辆在环境中的状态,通过环境信息传输完成反馈,实现车辆运动规划闭环控制;同时设计了基于风险水平调整奖励策略的机制RA-SAC算法,通过该机制将车辆当前驾驶决策放入对应环境中评估,使得奖惩结果更贴合因车辆动作给实际环境造成的影响,不需要不同层级进行训练,让车辆运动规划更加精准且成本更低,能够对无信号交叉口的智能网联车辆进行有效评估,具有较强的可操作性。
附图说明
图1是智能网联车辆运动规划框架图;
图2是网联环境下的无信号交叉口示意图;
图3是通行顺序决策流程图;
图4是轨迹变化过程示意图;
图5是粒子群算法流程图;
图6是车辆运动规划框架图;
图7是纯跟踪算法几何关系示意图;
图8是基于纯跟踪算法的转向控制器;
图9是RA-SAC算法网络结构图;
图10是仿真实验流程图;
图11中(a)是RA-SAC训练过程奖励曲线图,(b)是SAC训练过程奖励曲线图;
图12中(a)是TD3训练过程奖励曲线图,(b)是DDPG训练过程奖励曲线图。
具体实施方式
下面结合本发明中的附图,对本发明实施例的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
参考图1,本申请的实施例提供一种无信号交叉口车辆通行决策规划方法,包括如下步骤:
步骤S1:构建网联无信号交叉口建模场景,并基于网联无信号交叉口建模场景构建多车交互工况下的转向车辆决策-运动规划框架。
构建网联无信号交叉口建模场景,对场景的特征与基本假设作详细说明,接着提出无信号交叉口多车交互工况下的转向车辆决策-运动规划框架,如图1。
(1)本发明以T型交叉口为原型建立场景,道路几何特征如图2所示,T型交叉口道路线形不规则,所处区域路段位于市郊,具备交通密度小,车速快,行车风险高的特点,符合本发明的研究场景设定。多车交互工况参与者包括1辆智能网联车辆(ConnectedAutomated Vehicle,CAV)、2辆网联人工驾驶车辆(Connected Human-driving Vehicle,CHV)。
由于现实无信号交叉口道路环境复杂,为减少建模过程中其他不稳定因素的干扰,本发明对研究场景作以下假设:
1)在车辆进入观测区直至驶离交叉口的过程中,所有智能车载单元与路侧单元之间无通信时延。
2)每辆车均为该方向车道中的头车,上游过渡区行车过程中无跟驰行为。
3)无行人穿过马路的情况出现,道路周围停泊车辆无起步现象等干扰车辆行进状态的情况发生。
(2)车辆决策-运动规划框架
智能网联车辆控制可分为环境感知、行为决策、轨迹规划和路径跟踪四个阶段。在不同自动化程度车辆混行的网联无信号交叉口中,CAV需要进行风险感知、做出合理通行决策进而规划车辆运动。本发明整体框架包括:网联无信号交叉口环境、感知与决策模块、车辆运动规划模块三部分。
1)在网联无信号交叉口混合交通场景中,智能网联车辆与人工驾驶网联车辆混行,路侧需布设感知终端,实时接收交叉口范围内车辆发送的本车位置、速度等基本信息,并向通信范围内的车辆发送其他交通单位的状态信息,实现车路信息互联互通。场景中的信息是驾驶决策与运动规划的基础,同时提供控制效果反馈,特征如图1(a)所示。
2)智能网联车辆依据对交通环境的正确理解完成合理驾驶决策是进行运动轨迹规划的一个重要前提。在框架设定场景中,车辆需要在感知交互对象车辆运动状态、相对加速度和距离等信息的前提下,评估本车所处的驾驶环境风险水平从而调整驾驶策略。本发明设计了风险感知子模块,如图1(b)所示,通过计算本车和环境车辆的rDRAC(relativeDeceleration Rate to Avoid the Crash)值,估计不同风险水平概率用于计算风险感知系数,反映车辆当前驾驶风险水平。车速决策模块如图1(c)所示,该模块对车辆在交叉口上游至到达交叉口的车速进行决策。主车在交叉口的通行过程被视为一个多目标规划问题,首先将不同来向的车辆映射至虚拟队列,依据临界间隙判断是否接受当前通行间隙,从而决定本车的通行顺序。车辆在确定通行顺序后,采用粒子群算法求解期望车速,作为子目标传递至底层控制器。
3)车辆控制模块如图1(d)所示,采用纵向与转向控制解耦并行,通过强化学习智能体对两个控制器的关键参数进行决策。其中,训练过程的奖惩力度基于当前模块(b)得到的风险水平。纵向控制模块根据模块(c)的期望车速进行节气门/制动踏板压力信号的调整,调整过程决定了驾乘人员的安全、舒适性。转向控制模块由纯跟踪算法和PID控制器组成,车辆依据当前位置和全局路径选取目标点,调整前轮转向角,实现路径跟踪控制。
步骤S2:通过转向车辆决策-运动规划框架进行行车风险感知,根据感知到的事故严重程度定义风险等级,以及获取不同风险等级下的风险感知系数。
具体为:为了针对不同道路状况做出正确的运动规划指导策略,本发明在图1(b)所示的风险感知模块中,根据避撞加速度阈值对交通冲突事件进行风险等级划分,计算不同风险等级下的条件概率,采用贝叶斯理论得出每个给定状态下的风险感知系数。即行车风险感知。
1)风险等级划分
根据车辆碰撞的严重程度,划分为轻微(不会造成人员伤亡和财产损失)、中等(仅造成财产损失)、严重(危及驾乘人员安全)。三种不同程度依次对应三个等级:安全(safe)、存在风险(risky)、危险(dangerous),定义为等级集合Ω为:
Ω={safe,risky,dangerous}={s,r,d} (1)
风险水平τ用数值0、1、2表示,分别对应安全、存在风险和危险等级,如式(2)所示:
τ∈Ω={0,1,2} (2)
主车和交互环境车辆之间的rDRAC,用符号D表示,对于任意rDRAC值,不同风险水平下条件概率分别为:
式中,Ds、Dr和Dd分别为安全、存在风险和危险事件的rDRAC阈值,根据inD数据集的分布情况得到,σ代表随机变量。当D越大说明风险水平高的概率越大,风险水平低的概率越小,反之亦然。
2)行车风险估计
行车风险估计基于贝叶斯理论,使用关于参数值的先验信息以及手头的当前数据(或可能性)来获得参数值的后验估计,即根据不同风险水平的先验概率和当前条件概率,得出处于某一风险水平的后验概率。
对于给定的状态,处于某一风险水平τ的后验概率为:
式中,P(τ)为风险水平的先验概率,通过统计inD数据集,得到不同风险水平的先验概率如表1所示。P(D|τ)为不同风险水平下的条件概率。
表1不同风险水平先验概率
风险水平 0 1 2
概率 0.748 0.239 0.013
结合所有风险水平,将风险评估结果转化为一个可量化的连续值,定义为风险感知系数ε,计算如式(5)所示:
风险感知系数ε是风险感知模块的输出结果,作为车辆运动规划中深度强化学习算法的策略参数,智能体根据系数ε调整模型奖励策略,从而影响网络参数的更新,改进智能体的训练方式。
步骤S3:根据交互车辆相对状态计算通行间隙,通过通行间隙获得通行策略,并采用粒子群算法获取通行策略中每个车辆的期望车速。
具体为:车速决策模块首先依据前方交互车辆相对状态计算预计时间间隔,依据可接受通行间隙判断本车通行顺序;接着,以安全、效率为导向,采用粒子群算法求解本车的期望车速;最后,发送至底层作为控制子目标完成节气门/压力踏板调整。相较于智能体根据环境信息直接进行加速度控制,期望车速可起到引导作用从而简化强化学习智能体的车速调整任务。
1)交叉口通行模型
根据我国道路交通法规,通过无交通信号无限速标志的十字路口上游车道,最高行驶速度不得超过50km/h。当车辆时速小于12.4km/h时,车辆燃油经济性会大大降低,故将vlower设置为12.4km/h。在到达交叉口之前的终端时刻tf,车速应满足以下边界约束:
加速度的边界值满足inD数据集中的正负向最大加速度:
在一次独立冲突事件中,两辆车通过冲突区域时间的差值一般用安全替代指标GT(Gap Time)表示。GT越小,表明前车通过冲突区域后,后车通过冲突区域的时间间隙越小,潜在碰撞风险越高,因此采用GT值的大小作为安全指标依据。假设场景中有m辆车,本车通行顺序为n,建立子目标函数f1,如式(8)所示:
式中,GT(m-1,m)(t)为本车顺序是m时,与邻车m-1在t时刻下的GT值。若本车通行顺序为m-1,在两车(m-2与m)之间通行,则f1为本车与前后相邻两车GT值之和。
交互过程中两车的相对车速反映了此时的相对运动状态。当两车处于上游阶段,速度差过大时意味着某一方可能处于怠速状态,影响车内人员的驾乘体验,对交叉口内部交通很可能产生消极影响。当两车处于交叉口附近时,速度差过大意味着某一方车速过快,安全反应时间小,潜在碰撞风险会随着任一方的速度变化而进一步增大。因此,车辆通行过程与相邻车辆的速度差应尽可能小,假设相邻两车编号分别为m和m-1,子目标函数f2如式(9)所示:
在保证驾驶员安全的情况下,让车辆尽快地通过交叉口,可以减少行程延误,同时加快处理单个冲突事件的时间,对道路交通效率与经济燃油性产生积极影响。效率子目标函数f3如式(10)所示:
式中,Vm(t)为车辆m在t时刻的车速,vlower、vupper分别为交叉口最低和最高限速。
综合考虑速度决策在多方面的性能指标,结合车辆的运动状态约束,将上述不同的目标函数整合为一个总体目标函数f,如式(11)所示:
f=f1+f2+f3 (11)
2)通行顺序决策
虚拟车道是一种将二维交叉口场景转化为一维队列的概念,虚拟车道的队列顺序代表车辆的无冲突路权分配方案,队列中车辆的车头时距可转化为交叉口区域通行间隙。将不同方向车道的车辆旋转投影至虚拟车道,针对虚拟队列建立模型,是一种常见的无信号交叉口协同控制方法。通过虚拟队列的集中式控制,可以避免车辆在同一时间到达交叉口的情况发生,消除交通拥堵、多车道交叉口不协调组队等负面影响,提高交通运行效率。
基于临界间隙的接受情况,本发明设计了通行决策方案,流程如图3所示。
3)期望车速决策
在得到车辆的通行顺序后,主车需要根据其他车辆到达交叉口的预计时间规划车速,避免存在与环境车辆轨迹重叠或到达时间相距过近的情况。值得说明的是,通行策略不额外输出,期望车速体现了让行/通行策略和车速规划结果。
针对期望车速规划问题,本发明采用粒子群算法对前文提出的目标函数进行求解。粒子群算法源于对鸟群捕食的行为研究,每次迭代记录粒子所在位置的适应度作为经验,依靠自身的经验与记忆来调整自身移动的方向,通过不断移动寻找最优适应度,完成粒子迭代寻优。
粒子的位置用解向量表示,若目标函数的一个解由D个自变量组成,则一个粒子所在的位置为D维空间,第i个粒子的位置表示为:
粒子所在的位置代入目标函数所得的值即为适应度,通过历史适应度来记录一次迭代中的每个粒子所在位置的适应度,根据适应度的大小判断该位置的优劣。该粒子的适应度记为:
一般情况下,认为适应度值越小越好。假设第i个粒子一共迭代d次,第n次迭代中,粒子移动后所到达的位置适应度优于历史适应度时,将该位置替换之前的历史最佳位置,该位置的适应度记为个体历史最佳适应度。到第d次迭代为止,个体历史最佳适应度记为:
每个粒子适应度的总和即为粒子群的适应度,记为:
到第d次迭代为止,群体历史最佳适应度记为:
粒子每次变换位置都会根据一定的速度移动,第i个粒子的移动速度记为:
该粒子第d步的速度为上一步自身的速度惯性、自我认知与社会认知三部分之和,表示为:
式中,C1为粒子的个体学习因子,该因子越大,粒子越倾向于往自己的历史最优位置移动,一般取值为2;C2为粒子的社会学习因子,该因子越大,粒子越倾向于往其他粒子的历史最优位置移动,一般取值为2;r1,r2为随机函数,取值范围为[0,1],用于增加搜索随机性;w为惯性权重,非负数,用于调节对解空间的搜索范围。
为了避免车辆距离前车或后车太近的情况,定义了非安全时间tunsafe,表示车辆在该时间范围到达交叉口时与邻车时距过近;安全时间tsafe表示在该时间范围内到达交叉口,能够与邻车错开一定时间从而保证车辆安全,车辆交叉口通行示意图如图4所示。
在初始化粒子位置后,计算每个可行解与前后车的预期到达时间,筛选掉预计到达时间位于tunsafe的解,令算法在安全范围内tsafe的可行解进行寻优,避免了某些极端粒子代表的期望车速使车辆忽略安全而盲目追求效率的情况发生。结合粒子群算法与上述讨论,最终得出期望车速决策算法,流程图如图5。
综合以上,HV(Human-driving Vehicle)依据环境车辆的预计到达事件制定通行策略,并能够合理决策期望车速,安全地通过交叉口。
基于纯跟踪算法与PID(Proportional-Integral-Derivative Control)控制器设计本车的转向跟踪功能模块。
步骤S4:基于每个车辆位置和全局路径选取目标路径点,并使用纯跟踪算法匹配期望车速与目标路径点,获得驾驶连续动作的驾驶决策。构建完整的车辆决策-运动规划框架,将车辆在无信号交叉口通行过程定义为马尔可夫决策过程,获得车辆动作相对于当前环境与车辆状态关系,并采用深度强化学习方法对驾驶连续动作进行决策。
具体为:
通过基于马尔可夫决策过程的深度强化学习方法,对运动控制的基础前视距离与节气门/制动踏板两个参数进行决策,引入风险度量方法设计了智能体奖惩力度随风险程度改变的训练机制,提出RA-SAC(Risk Awareness-Soft Actor-Critic)算法。
1)车辆运动规划框架包括基于强化学习智能体的决策器和底层跟踪器两部分,其中底层跟踪器包括车速控制模块和转向控制模块,结构示意图如图6所示。车速控制模块负责控制车辆的纵向加速度,强化学习智能体对车辆的节气门/制动踏板压力信号进行决策,由车速控制模块转化并接入车辆动力学模型,完成车速控制。转向控制模块基于当前车辆位置和全局路径选取目标路径点,采用纯跟踪算法和PID控制器结合调整车辆转向角。其中,智能体根据当前车辆状态对纯跟踪算法中的基础前视距离参数进行决策,以适应当前车速和目标路径点,实现目标路径点的跟踪。
车辆运动规划部分的完整工作流程为:HV在从环境中获取其他车辆信息,包括X/Y坐标、速度等;接收来自决策层的风险感知和期望车速结果。车辆感知环境信息后,由强化学习智能体进行运动规划决策,决策内容包括节气门/制动踏板压力信号与前轮转向角,其结果作为车辆动力学模型的输入控制车辆完成指定的运动。动作执行改变车辆在环境中的状态,通过环境信息传输完成反馈,实现车辆运动规划闭环控制。
2)转向跟踪控制模块
主车行驶过程中,除了调整速度外,还需输出合理的转向角以跟踪全局路径,主要是转向控制模型和跟踪器设计,转向模型包括几何学模型、汽车动力学跟踪模型等。本发明所使用的转向几何学模型为纯跟踪算法(Pure Pursuit Algorithm)。
1.纯跟踪算法
纯跟踪算法是一种基于几何学模型的路径跟踪控制策略,其基本原理是通过控制车辆的转向半径R,使后轴中心控制点沿圆弧到达前视距离为ld的参考路径点,基于阿克曼模型计算得到控制所需的前轮转向角δ,几何关系示意图如图7所示。
根据图7中的变量,由正弦定理得到半径R与ld的对应关系,如式(19)所示:
路径的曲率κ为:
考虑横向误差e,得到:
由车辆模型的后轴运动学,可确定转向角度为:
式中,Lw为车辆轴距,ld为前视距离,其取值与前视系数k,车速V、前视距离基本值lc有关,表达式如式(23)所示:
ld=k·V+lc(23)
结合式(21)、(22)和(23),得到转向角度计算式为:
纯跟踪算法结构简单,对道路曲率扰动具有良好的鲁棒性,适用于较低车速和小侧向加速度下的路径跟踪控制。
2.转向控制设计
基于几何学模型,采用纯跟踪算法作为转向跟踪的基本方法,由于直接通过输出的角度进行控制会引起较大的跟踪误差、航向偏离回复速度慢等问题,结合PID控制器对纯跟踪算法进行优化,使得车辆的控制角度在前后控制周期内不断改变,减缓跟踪过程中的航向误差。设计转向跟踪控制器,如图8所示。
PID控制器是一项应用广泛的控制器,具备结构简单、稳定性好、工作可靠和调整方便等优点。PID调节是比例、积分、微分调节规律的线性组合,它吸收了比例调节反应快速、积分调节能够消除静差以及微分调节预见性的优点,改善了控制的反应、精确度和动态性能,其控制律如式25所示:
式中,e(k)为第k步的系统误差,kp、ki和kd分别为比例、积分和微分控制的参数。
3)基于强化学习的运动规划
自动驾驶系统的分层决策规划结构中,较高级别的行为决策(如换道、超车、入队、离队等)表现为相互转换的离散状态,而较低级别的执行动作(如加速、减速等)表现为连续的动作序列。行为决策层决定了变道、超车、左/右转弯等离散驾驶行为状态及其转化规律,做出行为决策后,运动规划层负责提供一个安全、舒适、可行的连续动作序列,以实现决策系统所选择的驾驶行为。强化学习智能体能够在不断地试错中逐渐适应环境,减少初始建模成本。此外,强化学习能够在合理奖励的引导下在拟人化驾驶层面展现出更大的优势。
1.马尔可夫决策过程
强化学习智能体(Agent)可以与所处的环境(Environment)进行交互,以获取最大累计奖励(Reward)为目标,得出下一步动作(Action),做出的动作只与当前状态(State)有关,与历史状态无关,因此通常以马尔可夫决策过程(Markov Decision Processes,MDPs)为基础进行建模。
马尔可夫决策过程用元组(S,A,P,R,γ)描述,其中S表示动态环境中的有限可能状态集,A表示在特定状态下智能体的可用动作集,P表示状态转换概率矩阵,提供系统在每对状态之间转换的概率,R表示通过采取某种行动在特定状态下获得的奖励,表示智能体做出动作后环境反馈的好坏程度。γ取值为[0,1)区间,表示折扣因子,反映未来奖励对当前奖励的重要性,保证整体回报收敛。
智能体在环境内服从策略π(a|s)进行决策,该策略是指在环境内的某一状态s,智能体采取各动作的概率分布,计算方式为:
π(a|s)=p[At=a|St=s] (26)
智能体在每一步动作获得的奖励进行累计,奖励累计总额称为回报,计算方式如下:
当k取无穷大值时,任务可以看作持续性任务,其中Rt+1为状态St转移至St+1时获得的奖励。智能体需要不断调整动作或动作选取策略,使回报最大。策略π下状态s的价值函数记为vπ(s),智能体在策略π下进行决策获得的回报概率期望如式(28)所示:
策略π下采取特定动作a获得的奖励如式(29)所示,每个特定动作下的获得的奖励反映了该动作对于当前环境与状态关系的优劣。
在无信号交叉口行驶过程中,车辆当前时刻下所需完成的驾驶行为只与当前的道路交通状况有关,与过去的所有状态都无关,行驶过程服从马尔可夫性质。本发明基于马尔可夫决策过程的深度强化学习方法设计主车控制模型。
步骤S5:使用RA-SAC算法对风险感知系数进行奖惩策略训练,通过训练后的风险感知系数改变驾驶决策的梯度更新幅度,获得车辆决策运动规划模型。
设计将基于风险感知结果调整奖惩策略的方法与基础SAC算法进行结合,命名为RA-SAC算法。柔性动作评价算法(Soft Actor-Critic,SAC)是将离线策略、Actor-Critic结构和最大熵(Maximum Entropy)结合的深度强化学习算法。较于仅仅找到一个能够使累计回报最大化的最优策略,SAC要求选取的策略每一次输出动作的熵最大,保证任务成果的同时提高了策略随机性。SAC主体网络结构包括一个Actor网络和四个Critic网络,主体网络结构如图9所示。SAC的策略优化目标函数为:
式中,h(π(·|st))为熵,计算方式如式(31)所示,α为温度系数,决定熵对于奖励的重要性,可以调整该参数控制策略智能体偏向于奖励或熵值,从而控制智能体探索的随机程度。
h(π(·|st))=-logπ(at|st) (31)
Actor网络输出动作概率分布参数,依据概率采样得到智能体动作。VCritic网络输出为v(st),代表状态价值的估计,QCritic网络输出为q(a,s),代表动作-价值的估计。其中VCritic网络和QCritic网络都分别由各自的价值估计Critic网络和目标策略Critic网络组成。从经验池中采样的数据(si,ai,ri,si+1)用于QCritic网络参数ω的更新,基于最优Bellman方程得到作为st状态的真实价值估计,估计方法为:
式中,Eπ为当前状态的累计回报期望。
QCritic网络采样批量数据B,通过梯度下降的方式进行更新,更新方式为:
VCritic网络从经验池中采样的数据(si,ai,ri,si+1)进行网络参数θ的更新,输出的真实值为:
式中,A(si)为策略π下的所有可能动作集合,a′i为某一预测动作,logπθ(a′i|si)为该预测动作下的熵。VCritic网络的更新方式为:
SAC按照超参数ρ更新两个目标策略Critic网络,更新方法为:
φtj←ρφtj+(1-ρ)φj,j={1,2} (36)
Actor网络参数更新的本质是最小化KL散度,即最小化相对熵。Actor网络的更新方式如下:
式中,表示取两个目标网络估计的输出最小值,能够有效防止过高估计,logπθ(ai|si)为选取动作下的熵。
本发明采用风险度量方法得到的系数ε改变智能体在不同风险程度下的反馈,根据风险感知系数ε和基础奖励r,得到基于风险估计的奖励R,计算方法如式(38),在高风险情况下,采取安全驾驶行为可以得到更大的奖励,反之若采取激进驾驶行为,会受到更大的惩罚。
R(s,a)=(1+ε)·r(s,a)(38)
奖励的改变会影响网络参数更新,此时QCritic网络估计值为:
本发明将基于风险感知(Risk Awareness)结果调整奖惩策略的方法与基础SAC算法进行结合,命名为RA-SAC算法。通过风险感知系数改变奖惩力度,目的是让智能体能够在训练过程中识别潜在碰撞风险,将车辆当前驾驶决策放入对应环境中评估,使得奖惩结果更贴合因车辆动作给实际环境造成的影响。通过当前驾驶风险大小改变梯度更新幅度,使智能体能够根据风险程度收获不同程度的反馈,RA-SAC算法伪代码如表2所示。
表2RA-SAC算法伪代码
状态空间,动作空间,奖励函数的设计:
1)状态空间
状态是智能体对所处环境空间的观测,同时也是做出决策的依据,状态空间的设计贯穿智能体训练全过程,针对本发明研究的无信号交叉口场景,设计准确贴合智能体自身属性与收益变化的状态空间,关系到模型训练是否能够收敛、收敛速度和最终性能,因此合理选取状态对智能体的训练工作十分关键。
状态空间一般由内部属性和外部属性构成,对于在无信号交叉口行驶的智能网联车辆,内部属性即本车的位置坐标、运动状态、期望车速和横向路径误差,外部属性即环境车辆的相关信息,状态空间集合表达如式(40)所示:
式中,sHV为主车的状态,表示状态空间的内部属性,定义为sHV=(x,y,v,a,vgoal,e),为环境车辆i的状态集合,定义为每个状态集合的含义如表3所示。
表3无信号交叉口车辆状态空间
由于状态空间的数据量纲不同,容易对特征提取造成干扰,引起智能体在选取动作中一直靠近边界值等问题,本发明采用z-score标准化方法对状态空间数据进行归一化处理。对于一组数据X={x1,x2,…,xn},归一化方法为:
式中,x′i为归一化之后的第i项数据,Xmean为该组数据的平均值,Xstd为该组数据的标准差。
2)动作空间
智能体对纵向车速和转向跟踪控制的参数进行决策。纵向控制的目标为根据当前的道路环境和期望车速调整加速度,动作设计为节气门开度和制动踏板压力信号的输出值。转向控制的目标为根据当前车速调整基础前视距离,从而得出合理的前轮转角,动作设计为纯跟踪算法的基础前视距离。动作空间定义如式(42)所示:
a=(u,lc) (42)
式中,u为节气门/制动踏板的输出值,lc为纯跟踪算法的基础前视距离参数,动作空间变量具体信息见表4。
表4主车动作空间
为了避免车辆在调整车速的过程中出现对节气门踏板和制动踏板同时输出的不合理现象,本发明对动作u的值进行判断后进行转化后再输出,转化方法如式(43)所示:
式中,throttle为节气门踏板输出压力,brake为制动踏板输出压力。输出值u在仿真环境中需转化为车辆动力学模型的输入参数,即乘以对应的基本单位量使动作经线性变化至输入参数具体范围。其中,throttle的基本单位量为100(%),brake的基本单位量为150(Bar)。
3)奖励函数
奖励函数设计目的之一是引导智能体逐步完成设计者所期望的任务,奖励函数设计的不合理,会导致不同目标之间的干扰,令智能体陷入“顾此失彼”的状态。例如,为了避免车速调整过程中加速度变化太大引起的惩罚,满足于仅接受怠速惩罚,车辆宁愿选择一直停在原地;或者满足于接受超速惩罚,始终以大幅加速状态冲向终点,避免正常车速下的长时间累计惩罚。对于本发明所研究的智能网联车辆而言,在无信号交叉口场景中的主线任务是在对全局路径进行跟踪的同时,保证车辆的驾驶安全。车速控制范围、驾乘舒适度和效率,都是在主线任务基础上的额外目标,需要根据目标的重要性调整其奖惩权重,避免对智能体产生误导的情况。结合先验知识和实验调试情况,奖励函数分为车辆行驶状态奖励和交互安全奖励两部分。
3.1)行驶状态奖励
行驶状态奖励主要依据车辆在行驶过程中自身状态合理性,体现在车辆是否符合驾驶规范、是否完成对驾驶决策的跟踪控制以及车速变化是否平顺等方面,本文从以下四点出发设计行驶状态奖励函数。
3.1.1)车速限制
车辆在行驶过程中的车速需符合道路规范,参考实际道路中的限速要求,在场景的上游阶段中,车道的最高限速为vupper,取值为50km/h,约13.89m/s;最低限速为vlower,取值为3.44m/s。车辆在过渡区和离开区的车速奖励为rvel1,计算方法如式(44)所示:
式中,V为当前车速,由于超速会对车辆驾驶安全造成负面影响,因此本文对不同情况赋予不同的奖惩力度,对超速的惩罚更大。对于车辆在交叉口内部,可出现停车怠速行为,需对超速行为给予惩罚,车辆在交叉口冲突区域的车速奖励为rvel2,计算方法如式(45)所示:
式中,vlimit为交叉口限速,取值为30km/h,约为8.33m/s。
结合以上讨论,车速奖励由处于进口车道和离开车道时的奖励rvel1和处于交叉口内部时的奖励rvel2组成,如式(46)所示:
rvel=rvel1+rvel2 (46)
3.1.2)车速跟踪
在决策层得出在过渡区的期望通行车速后,底层控制器需要根据该车速作为目标,完成车速调整。为了引导车辆跟踪该目标车速,设置奖励函数rtrack_vel如式(47)所示:
rtrack_vel=-|V-vgoal| (47)
式中,V为当前车速,vgoal为目标期望车速。
3.1.3)路径跟踪
车辆需按照预设的全局路径完成跟踪驾驶,为了反映训练过程中的路径跟踪情况,设置奖励函数rtrack_path如式(48)所示:
rtrack_path=-e (48)
式中,e为路径跟踪横向误差。
3.1.4)舒适度
加速度变化率jerk代表加速度在单位时间内的变化,对驾乘舒适度有直接的影响。Jerk越大表明车速变化越剧烈,驾乘体验越差,反之则越平缓,常被用于作为驾驶舒适度的衡量指标。假设J代表jerk,本文对于舒适度奖励rjerk的定义如式(49)所示:
rjerk=-J2 (49)
结合以上①~④项奖励,车辆行驶状态奖励rdrive表示为:
rdrive=ω1rvel2rtrack_vel3rtrack_path4rjerk (50)
式中,ω1、ω2、ω3、ω4分别为每项奖励的加权因子。
3.2)行驶安全奖励
行驶安全奖励的主要依据是车辆在行驶过程中与环境车辆的交互过程是否安全。本发明除了以是否发生碰撞为依据外,还从潜在碰撞风险指标Gap Time出发,设计交互安全奖励函数。当主车与环境车辆发生碰撞时,碰撞奖励为rcollision,取值如式(51)所示:
rcollision=-100 (51)
当主车与环境车辆的Gap Time小于一定阈值时,此时与该环境车辆的冲突区域预计到达时间过近,潜在碰撞风险较大,设置奖励rgap如式(52)所示:
结合rcollision与rgap,得到交互安全奖励rsafe,如式(53)所示:
rsafe=rcollision+rgap (53)
为了将奖励数值区间定义在合理范围内,对rdrive采用线性变化至合理区间。将行驶状态奖励rdrive与安全奖励rsafe结合,得到智能体训练奖励函数r,计算方法如式(54)所示:
r=λ1rdrive2rsafe (54)
式中,λ1、λ2分别为行驶状态奖励、行驶安全奖励系数。
步骤S6:使用所述车辆决策运动规划模型对每个车辆的通行进行决策。
本发明基于上述方法和论述,提供一种无信号交叉口车辆通行决策规划系统,包括框架构建模块、风险获取模块、车辆车速获取模块、车辆状态获取模块、决策模型构建模块和网联车辆决策模块。
其中,框架构建模块用于构建网联无信号交叉口建模场景,并基于网联无信号交叉口建模场景构建多车交互工况下的转向车辆决策-运动规划框架;风险获取模块用于通过转向车辆决策-运动规划框架进行行车风险感知,根据感知到的事故严重程度定义风险等级,以及获取不同风险等级下的风险感知系数;车辆车速获取模块用于根据交互车辆相对状态计算通行间隙,通过通行间隙获得通行策略,并采用粒子群算法获取通行策略中每个车辆的期望车速;车辆状态获取模块用于基于每个车辆位置和全局路径选取目标路径点,并使用纯跟踪算法匹配期望车速与目标路径点,获得驾驶连续动作的驾驶决策;决策模型构建模块用于使用RA-SAC算法对所述风险感知系数进行奖惩策略训练,通过训练后的风险感知系数改变驾驶决策的梯度更新幅度,获得车辆决策运动规划模型;网联车辆决策模块,用于使用车辆决策运动规划模型对每个车辆进行决策。
本发明还提供一种计算机设备,包括存储器及处理器,存储器中储存有计算机程序,计算机程序被处理器执行时,使得处理器执行无信号交叉口车辆决策规划方法的步骤。
实例仿真结果与分析:联合仿真平台的搭建,在平台中构建以inD数据集中无信号交叉口为原型的网联仿真场景,包括道路建模、环境车辆的轨迹标定、碰撞检测设置等;完善本车的基本运动控制模块,搭建车辆强化学习基本框架,结合前文感知与决策内容嵌入主车运动规划决策层,进行强化学习训练。最后在场景中验证车辆控制效果,并与其他适用于连续动作任务的强化学习算法进行比对,评估本发明方法的性能。
1.在联合仿真平台的基础上,搭建本发明的无信号交叉口多车工况场景,嵌入车辆控制模块和设计强化学习模型,实验流程如图10所示,步骤如下:
仿真场景构建:依据无信号交叉口道路线形进行道路参数设置,其中交叉口上游路段和下游路段均为200米;为主车和环境车辆选取车辆模型,在Simulink中生成车辆的基本控制接口,标定环境车辆的行驶路径、初始车速和期望车速变化,完成仿真道路环境搭建。
车辆决策与控制模块设计:设计功能函数对车辆基本状态信息进行处理,完成风险感知系数、期望车速等决策层的定义;基于纯跟踪算法和PID控制器设计转向控制模块,设定纵向、转向控制接口;在场景中加入碰撞检测模块、交互阶段判断模块等,作为强化学习环境条件判断辅助训练。
强化学习模型设计:在Simulink环境中基于RL Agent组建强化学习智能体,定义状态、动作、奖励函数和训练终止条件。定义智能体状态、动作的取值,搭建网络结构,设置智能体参数和训练参数。
模型评价:完成智能体强化学习训练,将本发明与其他算法进行性能对比。
2.算法训练结果及分析,RA-SAC算法的Critic和Actor网络设置分别如表5、表6所示。Critic网络由1个输入层、3个全连接层和1个输出层构成,输入层的输入尺寸取决于状态和动作的数量。中间层采用全连接网络,其输入输出尺寸为神经元的数量,神经元数量过多会造成训练过程梯度消失的现象,因此本文主要采用64和32神经元作为全连接层的输入尺寸。
Actor网络由1个输入层、2个全连接层和2个输出层构成,输入层的输入尺寸取决于状态的数量。全连接层采用Relu作为激活函数,输出层1、2分别输出两个动作u和lc,采用Relu作为激活函数。
表5 Critic网络设置
名称 输入尺寸 激活函数 输出尺寸
输入层 14 / 14
全连接层 14 Relu 64
全连接层 64 Relu 32
全连接层 32 Relu 16
输出层 16 / 1
表6 Actor网络设置
名称 输入尺寸 激活函数 输出尺寸
输入层 12 / 12
全连接层 12 Relu 64
全连接层 64 Relu 32
输出层1(u) 32 Relu 1
输出层2(lc) 32 Relu 1
在设计RA-SAC网络结构后,对智能体参数及训练参数进行设定,模型超参数信息如表7所示,在搭建的仿真环境中完成强化学习训练。
表7 RA-SAC算法训练超参数
TD3和DDPG为确定性策略类算法,通过加入噪声随机化调整动作,对动作空间进行探索,可通过调整噪声方差调整其探索度,本发明采用SAC、TD3和DDPG算法作为对比方法,训练平均奖励和步数等结果如表8所示。值得说明的是,其他三项对比算法并未设置感知决策层,无风险感知系数与期望车速决策结果。各算法的训练奖励变化曲线如图11~12所示。
从表4.8中的训练结果可以发现,RA-SAC的平均奖励相对于原始SAC算法提高了10.39%,车辆在训练环境中的平均步数降低了31.06%,说明在设计了车速引导和风险感知的情况下,模型的训练性能得到了明显的改善。相比于TD3和DDPG,本文方法平均奖励相较于TD3低13.32%,平均步数多16.20%;相较于DDPG,平均奖励高48.67%,平均步数少65.17%。
表8不同算法训练结果
算法 RA-SAC SAC TD3 DDPG
平均奖励 -190.36 -212.42 -167.99 -370.82
平均步数 495 718 426 1421
RA-SAC算法与SAC算法的收敛速度显著高于TD3与DDPG算法,说明了随机性策略梯度在实际模型应用中具有一定优势,可以较快适应复杂的训练环境。本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件或软件系统进行完成,前述的程序可以存储在计算机可读存储介质中,该程序在执行时,执行包括上述方法实施例的步骤:而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种存储程序代码的介质。
以上内容是结合具体优选实施方式对本发明做进一步详细说明,对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种无信号交叉口车辆通行决策规划方法,其特征在于,包括如下步骤:
构建网联无信号交叉口建模场景,并基于所述网联无信号交叉口建模场景构建多车交互工况下的转向车辆决策-运动规划框架;
通过所述转向车辆决策-运动规划框架进行行车风险感知,根据感知到的事故严重程度定义风险等级,以及获取不同风险等级下的风险感知系数;
根据交互车辆相对状态计算通行间隙,通过所述通行间隙获得通行策略,并采用粒子群算法获取通行策略中每个车辆的期望车速;
基于每个车辆位置和全局路径选取目标路径点,并使用纯跟踪算法匹配期望车速与目标路径点,获得驾驶连续动作的驾驶决策;
使用RA-SAC算法对所述风险感知系数进行奖惩策略训练,通过训练后的风险感知系数改变所述驾驶决策的梯度更新幅度,获得车辆决策运动规划模型;
使用所述车辆决策运动规划模型对每个车辆的通行进行决策;
所述根据感知到的事故严重程度定义风险等级,以及获取不同风险等级下的风险感知系数,包括如下步骤:
根据避撞加速度阈值对交通冲突事件进行风险等级划分,计算不同风险等级下的条件概率;具体表达式为:
其中,Ds、Dr和Dd分别为安全、存在风险和危险事件的rDRAC阈值,D为主车和交互环境车辆之间的rDRAC,σ代表随机变量;τ为风险水平,用数值0、1、2表示,分别对应安全、存在风险和危险等级,具体表达式为:τ={0,1,2};
采用贝叶斯理论得出每个给定状态下的风险感知系数。
2.如权利要求1所述的一种无信号交叉口车辆通行决策规划方法,其特征在于,所述转向车辆决策-运动规划框架包括:网联无信号交叉口环境、感知与决策模块、车辆运动规划模块。
3.如权利要求1所述的一种无信号交叉口车辆通行决策规划方法,其特征在于,所述采用贝叶斯理论得出每个给定状态下的风险感知系数,具体表达式为:
其中,ε为风险感知系数,P(τ|D)为处于某一风险水平τ的后验概率,P(τ)为风险水平的先验概率,P(D|τ)为不同风险水平下的条件概率。
4.如权利要求1所述的一种无信号交叉口车辆通行决策规划方法,其特征在于,所述基于每个车辆位置和全局路径选取目标路径点,并使用纯跟踪算法匹配期望车速与目标路径点,包括如下步骤:
基于纯跟踪算法与PID控制器设计车辆的转向跟踪功能模块,并基于当前车辆位置和全局路径选取目标路径点,采用纯跟踪算法和PID控制器结合调整车辆转向角;
根据当前车辆状态对纯跟踪算法中的基础前视距离参数进行决策,匹配期望车速和目标路径点,进行目标路径点的跟踪。
5.如权利要求1所述的一种无信号交叉口车辆通行决策规划方法,其特征在于,所述获得驾驶连续动作的驾驶决策,包括如下步骤:
将车辆在无信号交叉口通行过程定义为马尔可夫决策过程;
通过基于马尔可夫决策过程的深度强化学习方法,对运动控制的基础前视距离与节气门/制动踏板两个参数进行决策;
通过每个所述决策下采取的动作获得奖励,通过所述奖励获得驾驶连续动作对于当前环境与车辆状态关系;
通过所述驾驶连续动作对于当前环境与车辆状态关系获得驾驶连续动作的驾驶决策。
6.如权利要求1所述的一种无信号交叉口车辆通行决策规划方法,其特征在于,所述使用RA-SAC算法对所述风险感知系数进行奖惩策略训练,通过训练后的风险感知系数改变所述驾驶决策的梯度更新幅度,包括如下步骤:
通过风险感知系数改变奖惩力度,在训练过程中识别潜在碰撞风险;
将当前车辆驾驶的决策放入对应环境中评估,获得符合因车辆动作给实际环境造成影响的奖惩结果;
通过当前车辆驾驶的潜在碰撞风险大小改变梯度更新幅度,根据所述幅度收获不同程度的反馈;
通过所述反馈和奖惩结果获得最优的驾驶连续动作,通过最优的驾驶连续动作更新驾驶决策。
7.一种无信号交叉口车辆通行决策规划系统,其特征在于,包括:
框架构建模块,用于构建网联无信号交叉口建模场景,并基于所述网联无信号交叉口建模场景构建多车交互工况下的转向车辆决策-运动规划框架;
风险获取模块,用于通过所述转向车辆决策-运动规划框架进行行车风险感知,根据感知到的事故严重程度定义风险等级,以及获取不同风险等级下的风险感知系数;
车速获取模块,用于根据交互车辆相对状态计算通行间隙,通过所述通行间隙获得通行策略,并采用粒子群算法获取通行策略中每个车辆的期望车速;
状态获取模块,用于基于每个车辆位置和全局路径选取目标路径点,并使用纯跟踪算法匹配期望车速与目标路径点,获得驾驶连续动作的驾驶决策;
决策模型构建模块,用于使用RA-SAC算法对所述风险感知系数进行奖惩策略训练,通过训练后的风险感知系数改变所述驾驶决策的梯度更新幅度,获得车辆决策运动规划模型;
车辆决策模块,用于使用所述车辆决策运动规划模型对每个车辆的通行进行决策;
所述根据感知到的事故严重程度定义风险等级,以及获取不同风险等级下的风险感知系数,包括如下步骤:
根据避撞加速度阈值对交通冲突事件进行风险等级划分,计算不同风险等级下的条件概率;具体表达式为:
其中,Ds、Dr和Dd分别为安全、存在风险和危险事件的rDRAC阈值,D为主车和交互环境车辆之间的rDRAC,σ代表随机变量;τ为风险水平,用数值0、1、2表示,分别对应安全、存在风险和危险等级,具体表达式为:τ={0,1,2};
采用贝叶斯理论得出每个给定状态下的风险感知系数。
8.一种计算机设备,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述的一种无信号交叉口车辆通行决策规划方法的步骤。
CN202410150462.5A 2024-02-02 2024-02-02 一种无信号交叉口车辆通行决策规划方法、系统与设备 Active CN118212808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410150462.5A CN118212808B (zh) 2024-02-02 2024-02-02 一种无信号交叉口车辆通行决策规划方法、系统与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410150462.5A CN118212808B (zh) 2024-02-02 2024-02-02 一种无信号交叉口车辆通行决策规划方法、系统与设备

Publications (2)

Publication Number Publication Date
CN118212808A CN118212808A (zh) 2024-06-18
CN118212808B true CN118212808B (zh) 2024-10-22

Family

ID=91445231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410150462.5A Active CN118212808B (zh) 2024-02-02 2024-02-02 一种无信号交叉口车辆通行决策规划方法、系统与设备

Country Status (1)

Country Link
CN (1) CN118212808B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119541271B (zh) * 2025-01-23 2025-05-13 四川国蓝中天环境科技集团有限公司 一种基于风险感知的人车交互博弈的风险评估方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909778A (zh) * 2022-11-02 2023-04-04 吉林大学 一种无信号交叉口自动驾驶汽车通行协同决策控制方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139677B (zh) * 2015-07-28 2017-08-25 苏州大学 基于车路协同的无控交叉口车辆通行引导系统及其引导方法
CN111599179B (zh) * 2020-05-21 2021-09-03 北京航空航天大学 一种基于风险动态平衡的无信号交叉口车辆运动规划方法
CN112015842B (zh) * 2020-09-02 2024-02-27 中国科学技术大学 自行车轨迹预测的自动驾驶车辆风险评估方法及系统
US11840256B2 (en) * 2021-07-30 2023-12-12 Mitsubishi Electric Research Laboratories, Inc. Global multi-vehicle decision making system for connected and automated vehicles in dynamic environment
CN113561974B (zh) * 2021-08-25 2023-11-24 清华大学 基于车辆行为交互与道路结构耦合的碰撞风险预测方法
CN117651848A (zh) * 2021-11-17 2024-03-05 浙江吉利控股集团有限公司 车路协同多车路径规划和路权决策方法、系统和路基单元
CN114707359B (zh) * 2022-05-06 2025-03-21 重庆大学 基于值分布强化学习的自动驾驶汽车决策规划方法
CN116027788A (zh) * 2023-01-09 2023-04-28 江苏大学 融合复杂网络理论和部分可观察马尔可夫决策过程的智能驾驶行为决策方法及设备
CN117119028A (zh) * 2023-08-21 2023-11-24 长安大学 无信号交叉口智能驾驶协作控制方法及电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909778A (zh) * 2022-11-02 2023-04-04 吉林大学 一种无信号交叉口自动驾驶汽车通行协同决策控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
车路协同环境下无信号交叉口风险评价与避险决策研究;孙雄风;万方学位论文;20231101;第8-32页 *

Also Published As

Publication number Publication date
CN118212808A (zh) 2024-06-18

Similar Documents

Publication Publication Date Title
Huang et al. Personalized trajectory planning and control of lane-change maneuvers for autonomous driving
CN114312830B (zh) 一种考虑危险驾驶工况的智能车耦合决策模型及方法
CN110750877B (zh) 一种Apollo平台下的车辆跟驰行为预测方法
Lin et al. Anti-jerk on-ramp merging using deep reinforcement learning
CN115056798B (zh) 一种基于贝叶斯博弈的自动驾驶车辆换道行为车路协同决策算法
CN110362910B (zh) 基于博弈论的自动驾驶车辆换道冲突协调模型建立方法
WO2022052406A1 (zh) 一种自动驾驶训练方法、装置、设备及介质
CN110992695B (zh) 基于冲突消解的车辆城市交叉口通行决策多目标优化方法
CN113276884B (zh) 一种可变博弈模式的智能车交互决策通行方法及系统
Gu et al. Safe-state enhancement method for autonomous driving via direct hierarchical reinforcement learning
CN114919578B (zh) 智能车行为决策方法、规划方法、系统及存储介质
CN111081065A (zh) 路段混行条件下的智能车辆协同换道决策模型
CN115257745A (zh) 一种基于规则融合强化学习的自动驾驶换道决策控制方法
CN112233413B (zh) 一种面向智能网联车辆的多车道时空轨迹优化方法
Wei et al. Game theoretic merging behavior control for autonomous vehicle at highway on-ramp
EP4585484A1 (en) Intelligent driving decision-making method, decision-making apparatus and vehicle
CN115257746A (zh) 一种考虑不确定性的自动驾驶汽车换道决策控制方法
Muzahid et al. Deep reinforcement learning-based driving strategy for avoidance of chain collisions and its safety efficiency analysis in autonomous vehicles
Sun et al. DDPG-based decision-making strategy of adaptive cruising for heavy vehicles considering stability
CN115257819A (zh) 城市低速环境下的大型营运车辆安全驾驶决策方法
CN117227755A (zh) 基于强化学习的复杂交通场景下自动驾驶决策方法及系统
Yan et al. A hierarchical motion planning system for driving in changing environments: Framework, algorithms, and verifications
CN118212808B (zh) 一种无信号交叉口车辆通行决策规划方法、系统与设备
Liu et al. Impact of sharing driving attitude information: A quantitative study on lane changing
CN117429431A (zh) 基于预测信息的换道决策与时延补偿控制方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant