CN114880938B - 一种实现自动驾驶汽车行为决策的方法 - Google Patents
一种实现自动驾驶汽车行为决策的方法 Download PDFInfo
- Publication number
- CN114880938B CN114880938B CN202210528980.7A CN202210528980A CN114880938B CN 114880938 B CN114880938 B CN 114880938B CN 202210528980 A CN202210528980 A CN 202210528980A CN 114880938 B CN114880938 B CN 114880938B
- Authority
- CN
- China
- Prior art keywords
- vehicle
- quantile
- surrounding
- implicit
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000006870 function Effects 0.000 claims abstract description 48
- 238000004088 simulation Methods 0.000 claims abstract description 29
- 238000009826 distribution Methods 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 230000007613 environmental effect Effects 0.000 claims abstract description 9
- 238000005457 optimization Methods 0.000 claims abstract description 4
- 230000008447 perception Effects 0.000 claims abstract description 4
- 230000006399 behavior Effects 0.000 claims description 17
- 230000033001 locomotion Effects 0.000 claims description 10
- 230000001133 acceleration Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 8
- 230000003542 behavioural effect Effects 0.000 claims description 6
- 230000002787 reinforcement Effects 0.000 claims description 6
- 230000005484 gravity Effects 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 229910052731 fluorine Inorganic materials 0.000 claims 1
- 125000001153 fluoro group Chemical group F* 0.000 claims 1
- 238000002474 experimental method Methods 0.000 description 2
- 238000009827 uniform distribution Methods 0.000 description 2
- 101001121408 Homo sapiens L-amino-acid oxidase Proteins 0.000 description 1
- 102100026388 L-amino-acid oxidase Human genes 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/10—Geometric CAD
- G06F30/15—Vehicle, aircraft or watercraft design
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Human Resources & Organizations (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Entrepreneurship & Innovation (AREA)
- Computing Systems (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Educational Administration (AREA)
- Computational Linguistics (AREA)
- Operations Research (AREA)
- Primary Health Care (AREA)
- Mathematical Optimization (AREA)
- Game Theory and Decision Science (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Aviation & Aerospace Engineering (AREA)
- Development Economics (AREA)
- Pure & Applied Mathematics (AREA)
- Automation & Control Theory (AREA)
- Computer Vision & Pattern Recognition (AREA)
Abstract
本发明涉及一种实现自动驾驶汽车行为决策的方法,属于自动驾驶汽车技术领域。该方法包括:S1:构建包含环境不确定性因素的信号灯十字路口仿真训练场景;S2:构建隐式分位数网络模型,包括构建状态空间、动作空间和奖励函数;S3:使用神经网络优化步骤S2构建的隐式分位数网络模型;S4:根据步骤S3优化后隐式分位数网络模型输出的奖励分布信息,结合Wang函数生成具有风险感知能力的行为决策。本发明能够感知环境中的不确定性因素带来的风险,提升了自动驾驶汽车在通行有信号灯十字路口的安全性。
Description
技术领域
本发明属于自动驾驶汽车技术领域,涉及一种实现自动驾驶汽车行为决策的方法。
背景技术
自动驾驶汽车在实际环境中运行时,其决策系统需要考虑环境的各种因素,包括周围车辆与行人等。然而,在面临复杂行驶工况时,如何确保自动驾驶汽车的行驶安全性仍未解决。特别在有信号灯十字路口,如何在行为决策系统中考虑周围车辆与行人的违规行为,如闯红灯等危险行为对于提升自动驾驶车辆的安全性十分重要。
现阶段,面向自动驾驶汽车十字路口的决策方法主要包括:基于规则的决策方法、基于部分可观测马尔科夫的决策方法,以及基于深度强化学习的决策方法。目前,为提升自动驾驶决策系统对于复杂交通场景的适应性,基于深度强化学习的方法被广泛采用。此类方法相较于基于规则的决策方法的优势在于:其可以避免基于规则算法所带来的繁杂设计步骤以及调参工作。此外,它能解决可观测马尔科夫方法难以适应大规模决策的问题。一般地,基于深度强化学习的决策方法通过汽车与环境不断交互产生驾驶数据,自主学习出适应复杂环境的决策策略,代表性决策方法有深度Q学习网络(DQN),软性演员-评论家(SAC)等。然而,这些方法几乎没有在有信号灯十字路口考虑交通参与者的违规行为,难以保障车辆在通行十字路口时的行驶安全性。
因此,亟需一种能够考虑交通参与者违规行为的安全决策方法,以保障自动驾驶车辆的安全。
发明内容
有鉴于此,本发明的目的在于提供一种实现自动驾驶汽车行为决策的方法,能够感知环境中的不确定性因素带来的风险,还能够提升自动驾驶汽车在通行有信号灯十字路口的安全性。
为达到上述目的,本发明提供如下技术方案:
一种实现自动驾驶汽车行为决策的方法,包括以下步骤:
S1:构建包含环境不确定性因素的信号灯十字路口仿真训练场景;
S2:构建隐式分位数网络(IQN)模型,包括构建状态空间、动作空间和奖励函数;
S3:使用神经网络优化步骤S2构建的隐式分位数网络(IQN)模型;
S4:根据步骤S3优化后隐式分位数网络(IQN)模型输出的奖励分布信息,结合Wang函数生成具有风险感知能力的行为决策。
进一步,步骤S1具体包括以下步骤:
S11:设定行人模型:采用如下运动学模型描述仿真训练场景中的行人运动轨迹;
S12:设定周围车辆模型,规定仿真训练场景中,自车及周围车辆的运动皆由如下方程描述:
其中,x、y分别为车辆质心的横坐标和纵坐标,v表示车辆质心速度,θ为车辆横摆角,β为车辆质心处侧偏角,lf、lr分别为车辆质心至车辆前轴、后轴的距离,δf为车辆前轮转向角,ac为车辆加速度;分别为x、y、θ、v的导数;
为使得仿真训练场景中的周围车辆能够与自车进行交互,规定周围机动车辆由速度差模型(Velocity Difference Model)进行控制:
ac=k[V-v+λΔv]
V=V1+V2tanh[C1(xfront+Llength,front-x)+C2]
其中,k为敏感系数,Δv为自车与周围车辆的相对速度,λ为速度差反应系数,V1、V2、C1、C2为自定义参数,一般可通过实验获取;xfront为周围车辆质心的横向坐标,Llength,front为周围车辆的车身长度,x为车辆质心的横向坐标;
S13:设定周围机动车辆、行人行为类型;
为了模拟真实交通场景,将周围机动车辆、行人行为类型设定为:常规车辆、常规行人、违规车辆、违规行人四类。具体地,常规车辆将遵守红绿灯规则,违规车辆不会遵守红绿灯规则,即会发生红灯闯行的行为;常规行人将遵守红绿灯规则,违规行人不会遵守红绿灯规则,即会发生红灯闯行的行为。在仿真环境运行时,在每个仿真时刻,随机抽取常规车辆、常规行人、违规车辆、违规行人四类的一种加入仿真环境。
S14:初始化环境:随机初始化信号灯初始状态、周围机动车辆的初始速度、位置与目标速度;仿真环境在每个仿真时刻t输出环境信息E,定义为:
E={Ee,Es1,Es2,…,Esi,…,Ep1,Ep2,...,Epi,...,traffic_light}si=1,2,…,ns,pi=1,2,…,np
Ee={xe,ye,ve,θe}
Esi={xsi,ysi,vsi,θsi}
Epi={xpi,ypi,vpi,θpi}
其中,下标e表示自车;下标si表示第si个周围车辆,即s1表示第一个周围车辆,ns表示周围交通参与车辆数量;下标pi表示第pi个行人,即p1为第一个行人,np表示行人数量;xe,ye,ve,θe分别为自车质心的横向坐标、纵向坐标、质心速度、横摆角;xsi,ysi,vsi,θsi分别为周围车辆质心的横向坐标、纵向坐标、质心速度、横摆角;xpi,ypi,vpi,θpi分别为行人质心的横向坐标、纵向坐标、质心速度、横摆角;traffic_light表示交通信号灯状态。
进一步,步骤S2中,
1)构建的状态空间S包括:自车的位置(xe,ye)、速度ve、横摆角θe,周围车辆相对于自车的相对位置(Δxsi,Δysi)、相对速度Δvsi及其相对横摆角Δθsi,周围行人相对于自车的相对位置(Δxpi,Δypi)、相对速度Δvpi及其相对横摆角Δθpi,即状态空间S表示为:
S={se,ss1,ss2,…,ssi,…,sp1,sp2,...,spi,...,traffic_light}si=1,2,…,ns,pi=1,2,…,np
se={xe,ye,ve,θe}
ssi={Δxsi,Δysi,Δvsi,Δθsi}
spi={Δxpi,Δypi,Δvpi,Δθpi}
2)构建的动作空间A包括:车辆加速度ac与前轮转向角δf,以此控制目标车辆的移动,即A(S)={ac,δf};
3)构建的奖励函数R包括:碰撞安全性rcol、目标奖励rgoal和交通信号灯奖励rlight,即:
R=χ1rcol+χ2rgoal+χ3rlight
其中,χ1、χ2、τ3为奖励函数中各项的权重系数;
碰撞安全性rcol要求自车避免与其他交通参与车辆、行人发生碰撞;
其中,当自车与周围车辆、行人发生碰撞时,则Cind=1,否则,Cind=0;
目标奖励rgoal要求自车行驶速度尽可能在规定时间内安全达到目的地;
其中,当自车在规定时间内能够安全到达目的地,则Gind=1,否则,Gind=0;
交通信号灯奖励rlight要求自车遵守交通信号灯规则;
其中,当自车通过十字路口时遵守了交通规则,则Lind=1,否则Lind=0。
进一步,步骤S3具体包括以下步骤:
S31:使用神经网络构建隐式分位数网络Zτ(S,A),其输入为状态空间S,分位数τ,参数表示为θτ;使用神经网络构建目标隐式分位数网络Zτ′(S,A),其输入为状态空间S,分位数τ′,参数表示为θτ′;此外,设定超参数K、N、N′,其中K为隐式分位数网络Zτ输出最优动作时的采样次数,N为隐式分位数网络Zτ计算损失函数时的采样次数,N′为目标隐式分位数网络Zτ′计算损失函数时的采样次数;
S32:随机初始化基于深度强化学习的决策模型,包括模型的超参数和网络结构参数;
S33:基于隐式分位数网络Zτ(S,A),输入当前t时刻状态St,基于下式计算出动作At;
同时,根据奖励函数计算出当前t时刻获得的奖励Rt,基于仿真环境输出E计算出t+1时刻状态St+1;建立经验池,将数据{St,At,Rt,St+1}放入经验池中,当训练数据量超出经验池容量时,遵循先进先出原则,用新的训练数据替换旧训练数据;
S34:从经验池中随机抽取B个样本,对隐式分位数网络Zτ(S,A)与目标隐式分位数网络Zτ′(S,A)进行更新。具体包括:首先,对于任意两个分位数τi,τ′j求差,表示为:
其次,损失函数的梯度可表示为:
进一步,步骤S4具体包括以下步骤:
步骤S41:基于步骤S3得到的回报分布信息Zτ,利用Wang函数ρWang对原分布信息进行变化,计算公式如下:
步骤S42:选择最优动作:最大化ρWang(Zτ)值,即可计算出具有风险敏感性的行为决策指令:
本发明的有益效果在于:
1)本发明构建了包含环境不确定性因素的有信号灯十字路口仿真训练场景,该训练场景可以模拟周围车辆、行人闯红灯等违规行为,更加符合真实交通场景。
2)本发明构建了基于隐式分位数网络(IQN)模型,该模型可以计算奖励的分布信息。
3)本发明基于隐式分位数网络(IQN)模型输出的奖励分布信息,结合Wang函数可生成具有风险感知能力的行为决策,能够提升自动驾驶车辆决策的安全性。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明方法整体的实现逻辑框架图;
图2为本发明方法的工作流程图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参阅图1~图2,本发明设计了一种实现自动驾驶汽车行为决策的方法。考虑到真实交通场景中存在着周围车辆、行人闯红灯等违规行为,设计了一种包含环境不确定性因素的有信号灯十字路口仿真训练场景,该训练场景可以模拟周围车辆、行人闯红灯等违规行为,更加符合真实交通场景。为提升自动驾驶车辆安全性,该方法具体包括以下步骤:
S1:构建包含环境不确定性因素的有信号灯十字路口仿真训练场景;具体包括以下步骤:
S101:设定行人模型:采用如下运动学模型描述仿真训练场景中的行人运动轨迹:
S102:设定周围车辆模型,规定仿真环境中,自车及周围车辆的运动皆由如下方程描述:
其中,x,y分别为车辆质心的横坐标和纵坐标,v表示车辆质心速度,θ为车辆横摆角,β为车辆质心处侧偏角,lf,lr分别为车辆质心至车辆前轴、后轴的距离,δf为车辆前轮转向角,ac为车辆加速度,分别为x、y、θ、v的导数。
为使得仿真环境中的周围机动车辆能够与自车进行交互,规定周围机动车辆由速度差模型(Velocity Difference Model)进行控制:
ac=k[V-v+λΔv]
V=V1+V2tanh[C1(xfront+Llength,front-x)+C2]
其中,ac为车辆加速度,k为敏感系数,v为车辆速度,Δv为自车与周围车辆的相对速度,λ为速度差反应系数,V1,V2,C1,C2为自定义参数,一般可通过实验获取,xfront为周围车辆质心的横向坐标,Llength,front为周围车辆的车身长度,x为车辆质心的横向坐标。
S103:设定周围机动车辆、行人行为类型:为了模拟真实交通场景,将周围机动车辆、行人行为类型设定为:常规车辆、常规行人、违规车辆、违规行人四类。具体地,常规车辆将遵守红绿灯规则,违规车辆不会遵守红绿灯规则,即会发生红灯闯行的行为;常规行人将遵守红绿灯规则,违规行人不会遵守红绿灯规则,即会发生红灯闯行的行为。在仿真环境运行时,在每个仿真时刻,随机抽取常规车辆、常规行人、违规车辆、违规行人四类的一种加入仿真环境。
S104:初始化环境:随机初始化信号灯初始状态、周围机动车辆的初始速度、位置与目标速度。仿真环境在每个仿真时刻t输出环境信息E。E具体定义为:
E={Ee,Es1,Es2,…,Esi,…,Ep1,Ep2,...,Epi,...,traffic_light}si=1,2,…,ns,pi=1,2,…,np
Ee={xe,ye,ve,θe}
Esi={xsi,ysi,vsi,θsi}
Epi={xpi,ypi,vpi,θpi}
其中,下标e表示自车,下标si表示第si个周围车辆,即s1表示第一个周围车辆,ns表示周围交通参与车辆数量,下标pi表示第pi个行人,即p1为第一个行人,np表示行人数量;xe,ye,ve,θe分别为自车质心的横向坐标、纵向坐标,质心速度、横摆角;xsi,ysi,vsi,θsi分别为周围车辆质心的横向坐标、纵向坐标,质心速度,横摆角;xpi,ypi,vpi,θpi分别为行人质心的横向坐标、纵向坐标,质心速度,横摆角。
S2:构建并优化基于隐式分位数网络(IQN)模型;具体包括以下步骤:
S201:构建状态空间S,构建的状态空间S包括自车的位置(xe,ye)、速度ve、横摆角θe,周围车辆相对于自车的相对位置(Δxsi,Δysi)、相对速度Δvsi及其相对横摆角Δθsi,周围行人相对于自车的相对位置(Δxpi,Δypi)、相对速度Δvpi及其相对横摆角Δθpi,交通信号灯状态traffic_light,即S表示为:
S={se,ss1,ss2,…,ssi,…,sp1,sp2,...,spi,...,traffic_light}si=1,2,…,ns,pi=1,2,…,np
se={xe,ye,ve,θe}
ssi={Δxsi,Δysi,Δvsi,Δθsi}
spi={Δxpi,Δypi,Δvpi,Δθpi}
其中,下标e表示自车,下标si表示第si个周围车辆,即s1表示第一个周围车辆,ns表示周围交通参与车辆数量,下标pi表示第pi个行人,即p1为第一个行人,np表示行人数量。
S202:构建动作空间A,构建的动作空间A包括车辆加速度与前轮转向角组成,以此控制目标车辆的移动,即
A(S)={ac,δf}
其中,ac为车辆加速度,δf为前轮转向角。
S203:构建奖励函数R,构建的奖励函数R包括碰撞安全性rcol、目标奖励rgoal,交通信号灯奖励rlight,即:
R=χ1rcol+χ2rgoal+χ3rlight
其中,χ1,χ2,χ3为奖励函数中各项的权重系数;
碰撞安全性rcol要求自车避免与其他交通参与车辆、行人发生碰撞。
其中,当自车与周围车辆、行人发生碰撞时,则Cind=1,否则,Cind=0。
目标奖励rgoal要求自车行驶速度尽可能在规定时间内安全达到目的地。
其中,当自车在规定时间内能够安全到达目的地,则Gind=1,否则,Gind=0。
交通信号灯奖励rlight要求自车遵守交通信号灯规则。
其中,当自车通过十字路口时遵守了交通规则,则Lind=1,否则Lind=0。
S204:使用神经网络构建隐式分位数网络Zτ(S,A),其输入为状态空间S,分位数τ,参数表示为θτ;使用神经网络构建目标隐式分位数网络Zτ′(S,A),其输入为状态空间S和分位数τ′,参数表示为θτ′。此外,设定超参数K、N、N′,其中K为隐式分位数网络Zτ输出最优动作时的采样次数,N为隐式分位数网络Zτ计算损失函数时的采样次数,N′为目标隐式分位数网络Zτ′计算损失函数时的采样次数。
S205:随机初始化基于深度强化学习的决策模型,包括模型的超参数和网络结构参数;
S206:基于隐式分位数网络Zτ(S,A),输入当前t时刻状态St,基于下式计算出动作At,
同时,奖励函数计算出当前t时刻获得的奖励Rt,基于仿真环境输出E计算出t+1时刻状态St+1;建立经验池,将数据{St,At,Rt,St+1}放入经验池中,当训练数据量超出经验池容量时,遵循先进先出原则,用新的训练数据替换旧训练数据;
S207:从经验池中随机抽取B个样本,对隐式分位数网络Zτ(S,A)与目标隐式分位数网络Zτ′(S,A)进行更新。首先,对于任意两个分位数τi,τj ′之差可表示为:
其次,损失函数的梯度可表示为:
S3:基于隐式分位数网络(IQN)模型输出的奖励分布信息,结合Wang函数生成具有风险感知能力的行为决策;具体包括以下:
步骤S301:基于步骤S2所得到的回报分布信息Zτ,利用Wang函数ρWang对原分布信息进行变化,具体公式如下:
步骤S302:选择最优动作:最大化ρWang(Zτ)值,即可计算出具有风险敏感性的行为决策指令:
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (1)
1.一种实现自动驾驶汽车行为决策的方法,其特征在于,该方法包括以下步骤:
S1:构建包含环境不确定性因素的信号灯十字路口仿真训练场景,具体包括以下步骤:
S11:设定行人模型:采用运动学模型描述仿真训练场景中的行人运动轨迹;
S12:设定周围车辆模型,规定仿真训练场景中,自车及周围车辆的运动皆由如下方程描述:
其中,x、y分别为车辆质心的横坐标和纵坐标,v表示车辆质心速度,θ为车辆横摆角,β为车辆质心处侧偏角,lf、lr分别为车辆质心至车辆前轴、后轴的距离,δf为车辆前轮转向角,ac为车辆加速度;分别为x、y、θ、v的导数;
为使得仿真训练场景中的周围车辆能够与自车进行交互,规定周围机动车辆由速度差模型进行控制:
ac=k[V-v+λΔv]
V=V1+V2tanh[C1(xfront+Llength,front-x)+C2]
其中,k为敏感系数,Δv为自车与周围车辆的相对速度,λ为速度差反应系数,V1、V2、C1、C2为自定义参数,xfront为周围车辆质心的横向坐标,Llength,front为周围车辆的车身长度,x为车辆质心的横向坐标;
S13:设定周围机动车辆、行人行为类型,包括:常规车辆、常规行人、违规车辆、违规行人四类;
S14:初始化环境:随机初始化信号灯初始状态、周围机动车辆的初始速度、位置与目标速度;仿真环境在每个仿真时刻t输出环境信息E,定义为:
E={Ee,Es1,Es2,…,Esi,…,Ep1,Ep2,...,Epi,...,traffic_light}si=1,2,…,ns,pi=1,2,…,np
Ee={xe,ye,ve,θe}
Esi={xsi,ysi,vsi,θsi}
Epi={xpi,ypi,vpi,θpi}
其中,下标e表示自车;下标si表示第si个周围车辆,即s1表示第一个周围车辆,ns表示周围交通参与车辆数量;下标pi表示第pi个行人,即p1为第一个行人,np表示行人数量;xe,ye,ve,θe分别为自车质心的横向坐标、纵向坐标、质心速度、横摆角;xsi,ysi,vsi,θsi分别为周围车辆质心的横向坐标、纵向坐标、质心速度、横摆角;xpi,ypi,vpi,θpi分别为行人质心的横向坐标、纵向坐标、质心速度、横摆角;traffic_light表示交通信号灯状态;
S2:构建隐式分位数网络模型,包括构建状态空间、动作空间和奖励函数;
1)构建的状态空间S包括:自车的位置(xe,ye)、速度ve、横摆角θe,周围车辆相对于自车的相对位置(Δxsi,Δysi)、相对速度Δvsi及其相对横摆角Δθsi,周围行人相对于自车的相对位置(Δxpi,Δypi)、相对速度Δvpi及其相对横摆角Δθpi,即状态空间S表示为:
S={se,ss1,ss2,...,ssi,...,sp1,sp2,...,spi,...,traffic_light}si=1,2,...,ns,pi=1,2,...,np
se={xe,ye,ve,θe}
ssi={Δxsi,Δysi,Δvsi,Δθsi}
spi={Δxpi,Δypi,Δvpi,Δθpi}
2)构建的动作空间A包括:车辆加速度ac与前轮转向角δf,即A(S)={ac,δf};
3)构建的奖励函数R包括:碰撞安全性rcol、目标奖励rgoal和交通信号灯奖励rlight,即:
R=χ1rcol+χ2rgoal+χ3rlight
其中,χ1、χ2、χ3为奖励函数中各项的权重系数;
碰撞安全性rcol要求自车避免与其他交通参与车辆、行人发生碰撞;
其中,当自车与周围车辆、行人发生碰撞时,则Cind=1,否则,Cind=0;
目标奖励rgoal要求自车行驶速度在规定时间内安全达到目的地;
其中,当自车在规定时间内能够安全到达目的地,则Gind=1,否则,Gind=0;
交通信号灯奖励rlight要求自车遵守交通信号灯规则;
其中,当自车通过十字路口时遵守了交通规则,则Lind=1,否则Lind=0;
S3:使用神经网络优化步骤S2构建的隐式分位数网络模型,具体包括以下步骤:
S31:使用神经网络构建隐式分位数网络Zτ(S,A),其输入为状态空间S,分位数τ,参数表示为θτ;使用神经网络构建目标隐式分位数网络Zτ′(S,A),其输入为状态空间S,分位数τ′,参数表示为θτ′;此外,设定超参数K、N、N′,其中K为隐式分位数网络Zτ输出最优动作时的采样次数,N为隐式分位数网络Zτ计算损失函数时的采样次数,N′为目标隐式分位数网络Zτ′计算损失函数时的采样次数;
S32:随机初始化基于深度强化学习的决策模型,包括模型的超参数和网络结构参数;
S33:基于隐式分位数网络Zτ(S,A),输入当前t时刻状态St,基于下式计算出动作At;
同时,根据奖励函数计算出当前t时刻获得的奖励Rt,基于仿真环境输出E计算出t+1时刻状态St+1;建立经验池,将数据{St,At,Rt,St+1}放入经验池中,当训练数据量超出经验池容量时,遵循先进先出原则,用新的训练数据替换旧训练数据;
S34:从经验池中随机抽取B个样本,对隐式分位数网络Zτ(S,A)与目标隐式分位数网络Zτ′(S,A)进行更新;具体包括:首先,对于任意两个分位数τi,τ′j求差,表示为:
其次,损失函数的梯度表示为:
S4:根据步骤S3优化后隐式分位数网络模型输出的奖励分布信息,结合Wang函数生成具有风险感知能力的行为决策;具体包括以下步骤:
步骤S41:基于步骤S3得到的回报分布信息Zτ,利用Wang函数ρWang对原分布信息进行变化,计算公式如下:
步骤S42:选择最优动作:最大化ρWang(Zτ)值,即计算出具有风险敏感性的行为决策指令:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210528980.7A CN114880938B (zh) | 2022-05-16 | 2022-05-16 | 一种实现自动驾驶汽车行为决策的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210528980.7A CN114880938B (zh) | 2022-05-16 | 2022-05-16 | 一种实现自动驾驶汽车行为决策的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114880938A CN114880938A (zh) | 2022-08-09 |
CN114880938B true CN114880938B (zh) | 2023-04-18 |
Family
ID=82675965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210528980.7A Active CN114880938B (zh) | 2022-05-16 | 2022-05-16 | 一种实现自动驾驶汽车行为决策的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114880938B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118153212B (zh) * | 2024-05-11 | 2024-07-05 | 长春设备工艺研究所 | 一种基于多尺度融合的数字异构模型生成系统及方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114312830A (zh) * | 2021-12-14 | 2022-04-12 | 江苏大学 | 一种考虑危险驾驶工况的智能车耦合决策模型及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169567B (zh) * | 2017-03-30 | 2020-04-07 | 深圳先进技术研究院 | 一种用于车辆自动驾驶的决策网络模型的生成方法及装置 |
CN114013443B (zh) * | 2021-11-12 | 2022-09-23 | 哈尔滨工业大学 | 一种基于分层强化学习的自动驾驶车辆换道决策控制方法 |
-
2022
- 2022-05-16 CN CN202210528980.7A patent/CN114880938B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114312830A (zh) * | 2021-12-14 | 2022-04-12 | 江苏大学 | 一种考虑危险驾驶工况的智能车耦合决策模型及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114880938A (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11465650B2 (en) | Model-free reinforcement learning | |
EP3678911B1 (en) | Pedestrian behavior predictions for autonomous vehicles | |
Do et al. | Human drivers based active-passive model for automated lane change | |
Song et al. | Intention‐Aware Autonomous Driving Decision‐Making in an Uncontrolled Intersection | |
CN114644017B (zh) | 一种实现自动驾驶车辆安全决策控制的方法 | |
CN108106623B (zh) | 一种基于流场的无人车路径规划方法 | |
CN114391088B (zh) | 轨线规划器 | |
CN115056798A (zh) | 一种基于贝叶斯博弈的自动驾驶车辆换道行为车路协同决策算法 | |
US20200189597A1 (en) | Reinforcement learning based approach for sae level-4 automated lane change | |
CN113954837B (zh) | 一种基于深度学习的大型营运车辆车道变换决策方法 | |
US20230020503A1 (en) | Machine control | |
CN111679660B (zh) | 一种融合类人驾驶行为的无人驾驶深度强化学习方法 | |
Qiao et al. | Behavior planning at urban intersections through hierarchical reinforcement learning | |
Wang et al. | Vehicle Trajectory Prediction by Knowledge‐Driven LSTM Network in Urban Environments | |
CN114117829A (zh) | 极限工况下人-车-路闭环系统动力学建模方法及系统 | |
US11699062B2 (en) | System and method for implementing reward based strategies for promoting exploration | |
CN115123217B (zh) | 矿区障碍车辆行使轨迹生成方法、装置及计算机设备 | |
CN112578672A (zh) | 基于底盘非线性的无人驾驶汽车轨迹控制系统及其轨迹控制方法 | |
CN113110359B (zh) | 约束型智能汽车自主决策系统在线训练方法及装置 | |
CN114880938B (zh) | 一种实现自动驾驶汽车行为决策的方法 | |
Althoff et al. | Stochastic reachable sets of interacting traffic participants | |
CN114987538A (zh) | 一种网联自动驾驶环境下考虑多目标优化的协同换道方法 | |
CN115107806A (zh) | 一种自动驾驶系统中面向突发事件场景的车辆轨迹预测方法 | |
CN113033902A (zh) | 一种基于改进深度学习的自动驾驶换道轨迹规划方法 | |
CN114925461A (zh) | 一种自动驾驶商用车紧急转向控制策略网络模型、训练方法、建模方法及仿真方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |