[go: up one dir, main page]

CN114880938B - 一种实现自动驾驶汽车行为决策的方法 - Google Patents

一种实现自动驾驶汽车行为决策的方法 Download PDF

Info

Publication number
CN114880938B
CN114880938B CN202210528980.7A CN202210528980A CN114880938B CN 114880938 B CN114880938 B CN 114880938B CN 202210528980 A CN202210528980 A CN 202210528980A CN 114880938 B CN114880938 B CN 114880938B
Authority
CN
China
Prior art keywords
vehicle
quantile
surrounding
implicit
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210528980.7A
Other languages
English (en)
Other versions
CN114880938A (zh
Inventor
唐小林
杨凯
李深
汪锋
沈子超
邓忠伟
胡晓松
李佳承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN202210528980.7A priority Critical patent/CN114880938B/zh
Publication of CN114880938A publication Critical patent/CN114880938A/zh
Application granted granted Critical
Publication of CN114880938B publication Critical patent/CN114880938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/10Geometric CAD
    • G06F30/15Vehicle, aircraft or watercraft design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Human Resources & Organizations (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Educational Administration (AREA)
  • Computational Linguistics (AREA)
  • Operations Research (AREA)
  • Primary Health Care (AREA)
  • Mathematical Optimization (AREA)
  • Game Theory and Decision Science (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Development Economics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

本发明涉及一种实现自动驾驶汽车行为决策的方法,属于自动驾驶汽车技术领域。该方法包括:S1:构建包含环境不确定性因素的信号灯十字路口仿真训练场景;S2:构建隐式分位数网络模型,包括构建状态空间、动作空间和奖励函数;S3:使用神经网络优化步骤S2构建的隐式分位数网络模型;S4:根据步骤S3优化后隐式分位数网络模型输出的奖励分布信息,结合Wang函数生成具有风险感知能力的行为决策。本发明能够感知环境中的不确定性因素带来的风险,提升了自动驾驶汽车在通行有信号灯十字路口的安全性。

Description

一种实现自动驾驶汽车行为决策的方法
技术领域
本发明属于自动驾驶汽车技术领域,涉及一种实现自动驾驶汽车行为决策的方法。
背景技术
自动驾驶汽车在实际环境中运行时,其决策系统需要考虑环境的各种因素,包括周围车辆与行人等。然而,在面临复杂行驶工况时,如何确保自动驾驶汽车的行驶安全性仍未解决。特别在有信号灯十字路口,如何在行为决策系统中考虑周围车辆与行人的违规行为,如闯红灯等危险行为对于提升自动驾驶车辆的安全性十分重要。
现阶段,面向自动驾驶汽车十字路口的决策方法主要包括:基于规则的决策方法、基于部分可观测马尔科夫的决策方法,以及基于深度强化学习的决策方法。目前,为提升自动驾驶决策系统对于复杂交通场景的适应性,基于深度强化学习的方法被广泛采用。此类方法相较于基于规则的决策方法的优势在于:其可以避免基于规则算法所带来的繁杂设计步骤以及调参工作。此外,它能解决可观测马尔科夫方法难以适应大规模决策的问题。一般地,基于深度强化学习的决策方法通过汽车与环境不断交互产生驾驶数据,自主学习出适应复杂环境的决策策略,代表性决策方法有深度Q学习网络(DQN),软性演员-评论家(SAC)等。然而,这些方法几乎没有在有信号灯十字路口考虑交通参与者的违规行为,难以保障车辆在通行十字路口时的行驶安全性。
因此,亟需一种能够考虑交通参与者违规行为的安全决策方法,以保障自动驾驶车辆的安全。
发明内容
有鉴于此,本发明的目的在于提供一种实现自动驾驶汽车行为决策的方法,能够感知环境中的不确定性因素带来的风险,还能够提升自动驾驶汽车在通行有信号灯十字路口的安全性。
为达到上述目的,本发明提供如下技术方案:
一种实现自动驾驶汽车行为决策的方法,包括以下步骤:
S1:构建包含环境不确定性因素的信号灯十字路口仿真训练场景;
S2:构建隐式分位数网络(IQN)模型,包括构建状态空间、动作空间和奖励函数;
S3:使用神经网络优化步骤S2构建的隐式分位数网络(IQN)模型;
S4:根据步骤S3优化后隐式分位数网络(IQN)模型输出的奖励分布信息,结合Wang函数生成具有风险感知能力的行为决策。
进一步,步骤S1具体包括以下步骤:
S11:设定行人模型:采用如下运动学模型描述仿真训练场景中的行人运动轨迹;
Figure GDA0004093379860000021
Figure GDA0004093379860000022
Figure GDA0004093379860000023
其中,vp为行人前行速度,ωp为角速度,xp、yp、θp分别为行人重心的横坐标、纵坐标以及航向角;
Figure GDA0004093379860000024
分别为x、y、θ、v的导数;
S12:设定周围车辆模型,规定仿真训练场景中,自车及周围车辆的运动皆由如下方程描述:
Figure GDA0004093379860000025
Figure GDA0004093379860000026
Figure GDA0004093379860000027
Figure GDA0004093379860000028
Figure GDA0004093379860000029
其中,x、y分别为车辆质心的横坐标和纵坐标,v表示车辆质心速度,θ为车辆横摆角,β为车辆质心处侧偏角,lf、lr分别为车辆质心至车辆前轴、后轴的距离,δf为车辆前轮转向角,ac为车辆加速度;
Figure GDA00040933798600000210
分别为x、y、θ、v的导数;
为使得仿真训练场景中的周围车辆能够与自车进行交互,规定周围机动车辆由速度差模型(Velocity Difference Model)进行控制:
ac=k[V-v+λΔv]
V=V1+V2tanh[C1(xfront+Llength,front-x)+C2]
其中,k为敏感系数,Δv为自车与周围车辆的相对速度,λ为速度差反应系数,V1、V2、C1、C2为自定义参数,一般可通过实验获取;xfront为周围车辆质心的横向坐标,Llength,front为周围车辆的车身长度,x为车辆质心的横向坐标;
S13:设定周围机动车辆、行人行为类型;
为了模拟真实交通场景,将周围机动车辆、行人行为类型设定为:常规车辆、常规行人、违规车辆、违规行人四类。具体地,常规车辆将遵守红绿灯规则,违规车辆不会遵守红绿灯规则,即会发生红灯闯行的行为;常规行人将遵守红绿灯规则,违规行人不会遵守红绿灯规则,即会发生红灯闯行的行为。在仿真环境运行时,在每个仿真时刻,随机抽取常规车辆、常规行人、违规车辆、违规行人四类的一种加入仿真环境。
S14:初始化环境:随机初始化信号灯初始状态、周围机动车辆的初始速度、位置与目标速度;仿真环境在每个仿真时刻t输出环境信息E,定义为:
E={Ee,Es1,Es2,…,Esi,…,Ep1,Ep2,...,Epi,...,traffic_light}si=1,2,…,ns,pi=1,2,…,np
Ee={xe,ye,vee}
Esi={xsi,ysi,vsisi}
Epi={xpi,ypi,vpipi}
其中,下标e表示自车;下标si表示第si个周围车辆,即s1表示第一个周围车辆,ns表示周围交通参与车辆数量;下标pi表示第pi个行人,即p1为第一个行人,np表示行人数量;xe,ye,vee分别为自车质心的横向坐标、纵向坐标、质心速度、横摆角;xsi,ysi,vsisi分别为周围车辆质心的横向坐标、纵向坐标、质心速度、横摆角;xpi,ypi,vpipi分别为行人质心的横向坐标、纵向坐标、质心速度、横摆角;traffic_light表示交通信号灯状态。
进一步,步骤S2中,
1)构建的状态空间S包括:自车的位置(xe,ye)、速度ve、横摆角θe,周围车辆相对于自车的相对位置(Δxsi,Δysi)、相对速度Δvsi及其相对横摆角Δθsi,周围行人相对于自车的相对位置(Δxpi,Δypi)、相对速度Δvpi及其相对横摆角Δθpi,即状态空间S表示为:
S={se,ss1,ss2,…,ssi,…,sp1,sp2,...,spi,...,traffic_light}si=1,2,…,ns,pi=1,2,…,np
se={xe,ye,vee}
ssi={Δxsi,Δysi,Δvsi,Δθsi}
spi={Δxpi,Δypi,Δvpi,Δθpi}
2)构建的动作空间A包括:车辆加速度ac与前轮转向角δf,以此控制目标车辆的移动,即A(S)={acf};
3)构建的奖励函数R包括:碰撞安全性rcol、目标奖励rgoal和交通信号灯奖励rlight,即:
R=χ1rcol2rgoal3rlight
其中,χ1、χ2、τ3为奖励函数中各项的权重系数;
碰撞安全性rcol要求自车避免与其他交通参与车辆、行人发生碰撞;
Figure GDA0004093379860000031
其中,当自车与周围车辆、行人发生碰撞时,则Cind=1,否则,Cind=0;
目标奖励rgoal要求自车行驶速度尽可能在规定时间内安全达到目的地;
Figure GDA0004093379860000041
其中,当自车在规定时间内能够安全到达目的地,则Gind=1,否则,Gind=0;
交通信号灯奖励rlight要求自车遵守交通信号灯规则;
Figure GDA0004093379860000042
其中,当自车通过十字路口时遵守了交通规则,则Lind=1,否则Lind=0。
进一步,步骤S3具体包括以下步骤:
S31:使用神经网络构建隐式分位数网络Zτ(S,A),其输入为状态空间S,分位数τ,参数表示为θτ;使用神经网络构建目标隐式分位数网络Zτ′(S,A),其输入为状态空间S,分位数τ′,参数表示为θτ′;此外,设定超参数K、N、N′,其中K为隐式分位数网络Zτ输出最优动作时的采样次数,N为隐式分位数网络Zτ计算损失函数时的采样次数,N′为目标隐式分位数网络Zτ′计算损失函数时的采样次数;
S32:随机初始化基于深度强化学习的决策模型,包括模型的超参数和网络结构参数;
S33:基于隐式分位数网络Zτ(S,A),输入当前t时刻状态St,基于下式计算出动作At
Figure GDA0004093379860000043
同时,根据奖励函数计算出当前t时刻获得的奖励Rt,基于仿真环境输出E计算出t+1时刻状态St+1;建立经验池,将数据{St,At,Rt,St+1}放入经验池中,当训练数据量超出经验池容量时,遵循先进先出原则,用新的训练数据替换旧训练数据;
S34:从经验池中随机抽取B个样本,对隐式分位数网络Zτ(S,A)与目标隐式分位数网络Zτ′(S,A)进行更新。具体包括:首先,对于任意两个分位数τi,τ′j求差,表示为:
Figure GDA0004093379860000044
Figure GDA0004093379860000045
其中,
Figure GDA0004093379860000046
为t+1时刻的最优动作,γ为折扣因子,1≤k≤K,1≤i≤N,1≤j≤N′,τkij~U(0,1),U为均匀分布;
其次,损失函数的梯度可表示为:
Figure GDA0004093379860000047
Figure GDA0004093379860000048
Figure GDA0004093379860000051
其中,
Figure GDA0004093379860000052
为损失函数的梯度,
Figure GDA0004093379860000053
为阈值,
Figure GDA0004093379860000054
为Huber函数;
Figure GDA0004093379860000055
为指示函数,即满足条件为1,否则为0,m为设定阈值。
进一步,步骤S4具体包括以下步骤:
步骤S41:基于步骤S3得到的回报分布信息Zτ,利用Wang函数ρWang对原分布信息进行变化,计算公式如下:
Figure GDA0004093379860000056
其中,Φ为标准正态分布概率密度函数,Φ-1为标准正态分布概率密度函数的反函数,
Figure GDA0004093379860000057
表示求均值,α为自定义风险参数值;
步骤S42:选择最优动作:最大化ρWang(Zτ)值,即可计算出具有风险敏感性的行为决策指令:
Figure GDA0004093379860000058
其中,
Figure GDA0004093379860000059
为t时刻所选择的最优动作。
本发明的有益效果在于:
1)本发明构建了包含环境不确定性因素的有信号灯十字路口仿真训练场景,该训练场景可以模拟周围车辆、行人闯红灯等违规行为,更加符合真实交通场景。
2)本发明构建了基于隐式分位数网络(IQN)模型,该模型可以计算奖励的分布信息。
3)本发明基于隐式分位数网络(IQN)模型输出的奖励分布信息,结合Wang函数可生成具有风险感知能力的行为决策,能够提升自动驾驶车辆决策的安全性。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明方法整体的实现逻辑框架图;
图2为本发明方法的工作流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图2,本发明设计了一种实现自动驾驶汽车行为决策的方法。考虑到真实交通场景中存在着周围车辆、行人闯红灯等违规行为,设计了一种包含环境不确定性因素的有信号灯十字路口仿真训练场景,该训练场景可以模拟周围车辆、行人闯红灯等违规行为,更加符合真实交通场景。为提升自动驾驶车辆安全性,该方法具体包括以下步骤:
S1:构建包含环境不确定性因素的有信号灯十字路口仿真训练场景;具体包括以下步骤:
S101:设定行人模型:采用如下运动学模型描述仿真训练场景中的行人运动轨迹:
Figure GDA0004093379860000061
Figure GDA0004093379860000062
Figure GDA0004093379860000063
其中,vp为行人前行速度,ωp为角速度,xp,yp,θp分别为行人重心的横坐标、纵坐标以及航向角,
Figure GDA0004093379860000064
分别为x、y、θ、v的导数。
S102:设定周围车辆模型,规定仿真环境中,自车及周围车辆的运动皆由如下方程描述:
Figure GDA0004093379860000065
Figure GDA0004093379860000066
Figure GDA0004093379860000067
Figure GDA0004093379860000068
Figure GDA0004093379860000069
其中,x,y分别为车辆质心的横坐标和纵坐标,v表示车辆质心速度,θ为车辆横摆角,β为车辆质心处侧偏角,lf,lr分别为车辆质心至车辆前轴、后轴的距离,δf为车辆前轮转向角,ac为车辆加速度,
Figure GDA00040933798600000610
分别为x、y、θ、v的导数。
为使得仿真环境中的周围机动车辆能够与自车进行交互,规定周围机动车辆由速度差模型(Velocity Difference Model)进行控制:
ac=k[V-v+λΔv]
V=V1+V2tanh[C1(xfront+Llength,front-x)+C2]
其中,ac为车辆加速度,k为敏感系数,v为车辆速度,Δv为自车与周围车辆的相对速度,λ为速度差反应系数,V1,V2,C1,C2为自定义参数,一般可通过实验获取,xfront为周围车辆质心的横向坐标,Llength,front为周围车辆的车身长度,x为车辆质心的横向坐标。
S103:设定周围机动车辆、行人行为类型:为了模拟真实交通场景,将周围机动车辆、行人行为类型设定为:常规车辆、常规行人、违规车辆、违规行人四类。具体地,常规车辆将遵守红绿灯规则,违规车辆不会遵守红绿灯规则,即会发生红灯闯行的行为;常规行人将遵守红绿灯规则,违规行人不会遵守红绿灯规则,即会发生红灯闯行的行为。在仿真环境运行时,在每个仿真时刻,随机抽取常规车辆、常规行人、违规车辆、违规行人四类的一种加入仿真环境。
S104:初始化环境:随机初始化信号灯初始状态、周围机动车辆的初始速度、位置与目标速度。仿真环境在每个仿真时刻t输出环境信息E。E具体定义为:
E={Ee,Es1,Es2,…,Esi,…,Ep1,Ep2,...,Epi,...,traffic_light}si=1,2,…,ns,pi=1,2,…,np
Ee={xe,ye,vee}
Esi={xsi,ysi,vsisi}
Epi={xpi,ypi,vpipi}
其中,下标e表示自车,下标si表示第si个周围车辆,即s1表示第一个周围车辆,ns表示周围交通参与车辆数量,下标pi表示第pi个行人,即p1为第一个行人,np表示行人数量;xe,ye,vee分别为自车质心的横向坐标、纵向坐标,质心速度、横摆角;xsi,ysi,vsisi分别为周围车辆质心的横向坐标、纵向坐标,质心速度,横摆角;xpi,ypi,vpipi分别为行人质心的横向坐标、纵向坐标,质心速度,横摆角。
S2:构建并优化基于隐式分位数网络(IQN)模型;具体包括以下步骤:
S201:构建状态空间S,构建的状态空间S包括自车的位置(xe,ye)、速度ve、横摆角θe,周围车辆相对于自车的相对位置(Δxsi,Δysi)、相对速度Δvsi及其相对横摆角Δθsi,周围行人相对于自车的相对位置(Δxpi,Δypi)、相对速度Δvpi及其相对横摆角Δθpi,交通信号灯状态traffic_light,即S表示为:
S={se,ss1,ss2,…,ssi,…,sp1,sp2,...,spi,...,traffic_light}si=1,2,…,ns,pi=1,2,…,np
se={xe,ye,vee}
ssi={Δxsi,Δysi,Δvsi,Δθsi}
spi={Δxpi,Δypi,Δvpi,Δθpi}
其中,下标e表示自车,下标si表示第si个周围车辆,即s1表示第一个周围车辆,ns表示周围交通参与车辆数量,下标pi表示第pi个行人,即p1为第一个行人,np表示行人数量。
S202:构建动作空间A,构建的动作空间A包括车辆加速度与前轮转向角组成,以此控制目标车辆的移动,即
A(S)={acf}
其中,ac为车辆加速度,δf为前轮转向角。
S203:构建奖励函数R,构建的奖励函数R包括碰撞安全性rcol、目标奖励rgoal,交通信号灯奖励rlight,即:
R=χ1rcol2rgoal3rlight
其中,χ1,χ2,χ3为奖励函数中各项的权重系数;
碰撞安全性rcol要求自车避免与其他交通参与车辆、行人发生碰撞。
Figure GDA0004093379860000081
其中,当自车与周围车辆、行人发生碰撞时,则Cind=1,否则,Cind=0。
目标奖励rgoal要求自车行驶速度尽可能在规定时间内安全达到目的地。
Figure GDA0004093379860000082
其中,当自车在规定时间内能够安全到达目的地,则Gind=1,否则,Gind=0。
交通信号灯奖励rlight要求自车遵守交通信号灯规则。
Figure GDA0004093379860000083
其中,当自车通过十字路口时遵守了交通规则,则Lind=1,否则Lind=0。
S204:使用神经网络构建隐式分位数网络Zτ(S,A),其输入为状态空间S,分位数τ,参数表示为θτ;使用神经网络构建目标隐式分位数网络Zτ′(S,A),其输入为状态空间S和分位数τ′,参数表示为θτ′。此外,设定超参数K、N、N′,其中K为隐式分位数网络Zτ输出最优动作时的采样次数,N为隐式分位数网络Zτ计算损失函数时的采样次数,N′为目标隐式分位数网络Zτ′计算损失函数时的采样次数。
S205:随机初始化基于深度强化学习的决策模型,包括模型的超参数和网络结构参数;
S206:基于隐式分位数网络Zτ(S,A),输入当前t时刻状态St,基于下式计算出动作At
Figure GDA0004093379860000084
同时,奖励函数计算出当前t时刻获得的奖励Rt,基于仿真环境输出E计算出t+1时刻状态St+1;建立经验池,将数据{St,At,Rt,St+1}放入经验池中,当训练数据量超出经验池容量时,遵循先进先出原则,用新的训练数据替换旧训练数据;
S207:从经验池中随机抽取B个样本,对隐式分位数网络Zτ(S,A)与目标隐式分位数网络Zτ′(S,A)进行更新。首先,对于任意两个分位数τij 之差可表示为:
Figure GDA0004093379860000091
Figure GDA0004093379860000092
其中,
Figure GDA0004093379860000093
为t+1时刻的最优动作,γ为折扣因子,Rt为t时刻的即时奖励,A为动作空间,1≤k≤K,1≤i≤N,1≤j≤N,τkij~U(0,1),U为均匀分布。
其次,损失函数的梯度可表示为:
Figure GDA0004093379860000094
Figure GDA0004093379860000095
Figure GDA0004093379860000096
其中,
Figure GDA0004093379860000097
为损失函数的梯度,
Figure GDA0004093379860000098
为阈值,
Figure GDA0004093379860000099
为Huber函数,
Figure GDA00040933798600000910
为指示函数,即满足条件为1,否则为0,m为设定阈值。
S3:基于隐式分位数网络(IQN)模型输出的奖励分布信息,结合Wang函数生成具有风险感知能力的行为决策;具体包括以下:
步骤S301:基于步骤S2所得到的回报分布信息Zτ,利用Wang函数ρWang对原分布信息进行变化,具体公式如下:
Figure GDA00040933798600000911
其中,Φ为标准正态分布概率密度函数,Φ-1为标准正态分布概率密度函数的反函数,
Figure GDA00040933798600000912
表示求均值,α为自定义风险参数值。
步骤S302:选择最优动作:最大化ρWang(Zτ)值,即可计算出具有风险敏感性的行为决策指令:
Figure GDA00040933798600000913
其中,
Figure GDA00040933798600000914
为t时刻所选择的最优动作。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种实现自动驾驶汽车行为决策的方法,其特征在于,该方法包括以下步骤:
S1:构建包含环境不确定性因素的信号灯十字路口仿真训练场景,具体包括以下步骤:
S11:设定行人模型:采用运动学模型描述仿真训练场景中的行人运动轨迹;
Figure QLYQS_1
Figure QLYQS_2
Figure QLYQS_3
其中,vp为行人前行速度,ωp为角速度,xp、yp、θp分别为行人重心的横坐标、纵坐标以及航向角;
Figure QLYQS_4
分别为xp、yp、θp的导数;
S12:设定周围车辆模型,规定仿真训练场景中,自车及周围车辆的运动皆由如下方程描述:
Figure QLYQS_5
Figure QLYQS_6
Figure QLYQS_7
Figure QLYQS_8
Figure QLYQS_9
其中,x、y分别为车辆质心的横坐标和纵坐标,v表示车辆质心速度,θ为车辆横摆角,β为车辆质心处侧偏角,lf、lr分别为车辆质心至车辆前轴、后轴的距离,δf为车辆前轮转向角,ac为车辆加速度;
Figure QLYQS_10
分别为x、y、θ、v的导数;
为使得仿真训练场景中的周围车辆能够与自车进行交互,规定周围机动车辆由速度差模型进行控制:
ac=k[V-v+λΔv]
V=V1+V2tanh[C1(xfront+Llength,front-x)+C2]
其中,k为敏感系数,Δv为自车与周围车辆的相对速度,λ为速度差反应系数,V1、V2、C1、C2为自定义参数,xfront为周围车辆质心的横向坐标,Llength,front为周围车辆的车身长度,x为车辆质心的横向坐标;
S13:设定周围机动车辆、行人行为类型,包括:常规车辆、常规行人、违规车辆、违规行人四类;
S14:初始化环境:随机初始化信号灯初始状态、周围机动车辆的初始速度、位置与目标速度;仿真环境在每个仿真时刻t输出环境信息E,定义为:
E={Ee,Es1,Es2,…,Esi,…,Ep1,Ep2,...,Epi,...,traffic_light}si=1,2,…,ns,pi=1,2,…,np
Ee={xe,ye,ve,θe}
Esi={xsi,ysi,vsi,θsi}
Epi={xpi,ypi,vpi,θpi}
其中,下标e表示自车;下标si表示第si个周围车辆,即s1表示第一个周围车辆,ns表示周围交通参与车辆数量;下标pi表示第pi个行人,即p1为第一个行人,np表示行人数量;xe,ye,ve,θe分别为自车质心的横向坐标、纵向坐标、质心速度、横摆角;xsi,ysi,vsi,θsi分别为周围车辆质心的横向坐标、纵向坐标、质心速度、横摆角;xpi,ypi,vpi,θpi分别为行人质心的横向坐标、纵向坐标、质心速度、横摆角;traffic_light表示交通信号灯状态;
S2:构建隐式分位数网络模型,包括构建状态空间、动作空间和奖励函数;
1)构建的状态空间S包括:自车的位置(xe,ye)、速度ve、横摆角θe,周围车辆相对于自车的相对位置(Δxsi,Δysi)、相对速度Δvsi及其相对横摆角Δθsi,周围行人相对于自车的相对位置(Δxpi,Δypi)、相对速度Δvpi及其相对横摆角Δθpi,即状态空间S表示为:
S={se,ss1,ss2,...,ssi,...,sp1,sp2,...,spi,...,traffic_light}si=1,2,...,ns,pi=1,2,...,np
se={xe,ye,ve,θe}
ssi={Δxsi,Δysi,Δvsi,Δθsi}
spi={Δxpi,Δypi,Δvpi,Δθpi}
2)构建的动作空间A包括:车辆加速度ac与前轮转向角δf,即A(S)={ac,δf};
3)构建的奖励函数R包括:碰撞安全性rcol、目标奖励rgoal和交通信号灯奖励rlight,即:
R=χ1rcol2rgoal3rlight
其中,χ1、χ2、χ3为奖励函数中各项的权重系数;
碰撞安全性rcol要求自车避免与其他交通参与车辆、行人发生碰撞;
Figure QLYQS_11
其中,当自车与周围车辆、行人发生碰撞时,则Cind=1,否则,Cind=0;
目标奖励rgoal要求自车行驶速度在规定时间内安全达到目的地;
Figure QLYQS_12
其中,当自车在规定时间内能够安全到达目的地,则Gind=1,否则,Gind=0;
交通信号灯奖励rlight要求自车遵守交通信号灯规则;
Figure QLYQS_13
其中,当自车通过十字路口时遵守了交通规则,则Lind=1,否则Lind=0;
S3:使用神经网络优化步骤S2构建的隐式分位数网络模型,具体包括以下步骤:
S31:使用神经网络构建隐式分位数网络Zτ(S,A),其输入为状态空间S,分位数τ,参数表示为θτ;使用神经网络构建目标隐式分位数网络Zτ′(S,A),其输入为状态空间S,分位数τ′,参数表示为θτ′;此外,设定超参数K、N、N′,其中K为隐式分位数网络Zτ输出最优动作时的采样次数,N为隐式分位数网络Zτ计算损失函数时的采样次数,N′为目标隐式分位数网络Zτ′计算损失函数时的采样次数;
S32:随机初始化基于深度强化学习的决策模型,包括模型的超参数和网络结构参数;
S33:基于隐式分位数网络Zτ(S,A),输入当前t时刻状态St,基于下式计算出动作At
Figure QLYQS_14
同时,根据奖励函数计算出当前t时刻获得的奖励Rt,基于仿真环境输出E计算出t+1时刻状态St+1;建立经验池,将数据{St,At,Rt,St+1}放入经验池中,当训练数据量超出经验池容量时,遵循先进先出原则,用新的训练数据替换旧训练数据;
S34:从经验池中随机抽取B个样本,对隐式分位数网络Zτ(S,A)与目标隐式分位数网络Zτ′(S,A)进行更新;具体包括:首先,对于任意两个分位数τi,τ′j求差,表示为:
Figure QLYQS_15
Figure QLYQS_16
其中,
Figure QLYQS_17
为t+1时刻的最优动作,γ为折扣因子,1≤k≤K,1≤i≤N,1≤j≤N′,τk,τi,τj~U(0,1),U为均匀分布;
其次,损失函数的梯度表示为:
Figure QLYQS_18
Figure QLYQS_19
Figure QLYQS_20
其中,
Figure QLYQS_21
为损失函数的梯度,
Figure QLYQS_22
为阈值,
Figure QLYQS_23
为Huber函数;
Figure QLYQS_24
为指示函数,即满足条件为1,否则为0,m为设定阈值;
S4:根据步骤S3优化后隐式分位数网络模型输出的奖励分布信息,结合Wang函数生成具有风险感知能力的行为决策;具体包括以下步骤:
步骤S41:基于步骤S3得到的回报分布信息Zτ,利用Wang函数ρWang对原分布信息进行变化,计算公式如下:
Figure QLYQS_25
其中,Φ为标准正态分布概率密度函数,Φ-1为标准正态分布概率密度函数的反函数,
Figure QLYQS_26
表示求均值,α为自定义风险参数值;
步骤S42:选择最优动作:最大化ρWang(Zτ)值,即计算出具有风险敏感性的行为决策指令:
Figure QLYQS_27
其中,
Figure QLYQS_28
为t时刻所选择的最优动作。
CN202210528980.7A 2022-05-16 2022-05-16 一种实现自动驾驶汽车行为决策的方法 Active CN114880938B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210528980.7A CN114880938B (zh) 2022-05-16 2022-05-16 一种实现自动驾驶汽车行为决策的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210528980.7A CN114880938B (zh) 2022-05-16 2022-05-16 一种实现自动驾驶汽车行为决策的方法

Publications (2)

Publication Number Publication Date
CN114880938A CN114880938A (zh) 2022-08-09
CN114880938B true CN114880938B (zh) 2023-04-18

Family

ID=82675965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210528980.7A Active CN114880938B (zh) 2022-05-16 2022-05-16 一种实现自动驾驶汽车行为决策的方法

Country Status (1)

Country Link
CN (1) CN114880938B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118153212B (zh) * 2024-05-11 2024-07-05 长春设备工艺研究所 一种基于多尺度融合的数字异构模型生成系统及方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114312830A (zh) * 2021-12-14 2022-04-12 江苏大学 一种考虑危险驾驶工况的智能车耦合决策模型及方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169567B (zh) * 2017-03-30 2020-04-07 深圳先进技术研究院 一种用于车辆自动驾驶的决策网络模型的生成方法及装置
CN114013443B (zh) * 2021-11-12 2022-09-23 哈尔滨工业大学 一种基于分层强化学习的自动驾驶车辆换道决策控制方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114312830A (zh) * 2021-12-14 2022-04-12 江苏大学 一种考虑危险驾驶工况的智能车耦合决策模型及方法

Also Published As

Publication number Publication date
CN114880938A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
US11465650B2 (en) Model-free reinforcement learning
EP3678911B1 (en) Pedestrian behavior predictions for autonomous vehicles
Do et al. Human drivers based active-passive model for automated lane change
Song et al. Intention‐Aware Autonomous Driving Decision‐Making in an Uncontrolled Intersection
CN114644017B (zh) 一种实现自动驾驶车辆安全决策控制的方法
CN108106623B (zh) 一种基于流场的无人车路径规划方法
CN114391088B (zh) 轨线规划器
CN115056798A (zh) 一种基于贝叶斯博弈的自动驾驶车辆换道行为车路协同决策算法
US20200189597A1 (en) Reinforcement learning based approach for sae level-4 automated lane change
CN113954837B (zh) 一种基于深度学习的大型营运车辆车道变换决策方法
US20230020503A1 (en) Machine control
CN111679660B (zh) 一种融合类人驾驶行为的无人驾驶深度强化学习方法
Qiao et al. Behavior planning at urban intersections through hierarchical reinforcement learning
Wang et al. Vehicle Trajectory Prediction by Knowledge‐Driven LSTM Network in Urban Environments
CN114117829A (zh) 极限工况下人-车-路闭环系统动力学建模方法及系统
US11699062B2 (en) System and method for implementing reward based strategies for promoting exploration
CN115123217B (zh) 矿区障碍车辆行使轨迹生成方法、装置及计算机设备
CN112578672A (zh) 基于底盘非线性的无人驾驶汽车轨迹控制系统及其轨迹控制方法
CN113110359B (zh) 约束型智能汽车自主决策系统在线训练方法及装置
CN114880938B (zh) 一种实现自动驾驶汽车行为决策的方法
Althoff et al. Stochastic reachable sets of interacting traffic participants
CN114987538A (zh) 一种网联自动驾驶环境下考虑多目标优化的协同换道方法
CN115107806A (zh) 一种自动驾驶系统中面向突发事件场景的车辆轨迹预测方法
CN113033902A (zh) 一种基于改进深度学习的自动驾驶换道轨迹规划方法
CN114925461A (zh) 一种自动驾驶商用车紧急转向控制策略网络模型、训练方法、建模方法及仿真方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant