CN114880938B

CN114880938B - 一种实现自动驾驶汽车行为决策的方法

Info

Publication number: CN114880938B
Application number: CN202210528980.7A
Authority: CN
Inventors: 唐小林; 杨凯; 李深; 汪锋; 沈子超; 邓忠伟; 胡晓松; 李佳承
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2023-04-18
Anticipated expiration: 2042-05-16
Also published as: CN114880938A

Abstract

本发明涉及一种实现自动驾驶汽车行为决策的方法，属于自动驾驶汽车技术领域。该方法包括：S1：构建包含环境不确定性因素的信号灯十字路口仿真训练场景；S2：构建隐式分位数网络模型，包括构建状态空间、动作空间和奖励函数；S3：使用神经网络优化步骤S2构建的隐式分位数网络模型；S4：根据步骤S3优化后隐式分位数网络模型输出的奖励分布信息，结合Wang函数生成具有风险感知能力的行为决策。本发明能够感知环境中的不确定性因素带来的风险，提升了自动驾驶汽车在通行有信号灯十字路口的安全性。

Description

一种实现自动驾驶汽车行为决策的方法

技术领域

本发明属于自动驾驶汽车技术领域，涉及一种实现自动驾驶汽车行为决策的方法。

背景技术

自动驾驶汽车在实际环境中运行时，其决策系统需要考虑环境的各种因素，包括周围车辆与行人等。然而，在面临复杂行驶工况时，如何确保自动驾驶汽车的行驶安全性仍未解决。特别在有信号灯十字路口，如何在行为决策系统中考虑周围车辆与行人的违规行为，如闯红灯等危险行为对于提升自动驾驶车辆的安全性十分重要。

现阶段，面向自动驾驶汽车十字路口的决策方法主要包括：基于规则的决策方法、基于部分可观测马尔科夫的决策方法，以及基于深度强化学习的决策方法。目前，为提升自动驾驶决策系统对于复杂交通场景的适应性，基于深度强化学习的方法被广泛采用。此类方法相较于基于规则的决策方法的优势在于：其可以避免基于规则算法所带来的繁杂设计步骤以及调参工作。此外，它能解决可观测马尔科夫方法难以适应大规模决策的问题。一般地，基于深度强化学习的决策方法通过汽车与环境不断交互产生驾驶数据，自主学习出适应复杂环境的决策策略，代表性决策方法有深度Q学习网络(DQN)，软性演员-评论家(SAC)等。然而，这些方法几乎没有在有信号灯十字路口考虑交通参与者的违规行为，难以保障车辆在通行十字路口时的行驶安全性。

因此，亟需一种能够考虑交通参与者违规行为的安全决策方法，以保障自动驾驶车辆的安全。

发明内容

有鉴于此，本发明的目的在于提供一种实现自动驾驶汽车行为决策的方法，能够感知环境中的不确定性因素带来的风险，还能够提升自动驾驶汽车在通行有信号灯十字路口的安全性。

为达到上述目的，本发明提供如下技术方案：

一种实现自动驾驶汽车行为决策的方法，包括以下步骤：

S1：构建包含环境不确定性因素的信号灯十字路口仿真训练场景；

S2：构建隐式分位数网络(IQN)模型，包括构建状态空间、动作空间和奖励函数；

S3：使用神经网络优化步骤S2构建的隐式分位数网络(IQN)模型；

S4：根据步骤S3优化后隐式分位数网络(IQN)模型输出的奖励分布信息，结合Wang函数生成具有风险感知能力的行为决策。

进一步，步骤S1具体包括以下步骤：

S11：设定行人模型：采用如下运动学模型描述仿真训练场景中的行人运动轨迹；

其中，v_p为行人前行速度，ω_p为角速度，x_p、y_p、θ_p分别为行人重心的横坐标、纵坐标以及航向角；

分别为x、y、θ、v的导数；

S12：设定周围车辆模型，规定仿真训练场景中，自车及周围车辆的运动皆由如下方程描述：

其中，x、y分别为车辆质心的横坐标和纵坐标，v表示车辆质心速度，θ为车辆横摆角，β为车辆质心处侧偏角，l_f、l_r分别为车辆质心至车辆前轴、后轴的距离，δ_f为车辆前轮转向角，a_c为车辆加速度；

分别为x、y、θ、v的导数；

为使得仿真训练场景中的周围车辆能够与自车进行交互，规定周围机动车辆由速度差模型(Velocity Difference Model)进行控制：

a_c＝k[V-v+λΔv]

V＝V₁+V₂tanh[C₁(x_front+L_length,front-x)+C₂]

其中，k为敏感系数，Δv为自车与周围车辆的相对速度，λ为速度差反应系数，V₁、V₂、C₁、C₂为自定义参数，一般可通过实验获取；x_front为周围车辆质心的横向坐标，L_length,front为周围车辆的车身长度，x为车辆质心的横向坐标；

S13：设定周围机动车辆、行人行为类型；

为了模拟真实交通场景，将周围机动车辆、行人行为类型设定为：常规车辆、常规行人、违规车辆、违规行人四类。具体地，常规车辆将遵守红绿灯规则，违规车辆不会遵守红绿灯规则，即会发生红灯闯行的行为；常规行人将遵守红绿灯规则，违规行人不会遵守红绿灯规则，即会发生红灯闯行的行为。在仿真环境运行时，在每个仿真时刻，随机抽取常规车辆、常规行人、违规车辆、违规行人四类的一种加入仿真环境。

S14：初始化环境：随机初始化信号灯初始状态、周围机动车辆的初始速度、位置与目标速度；仿真环境在每个仿真时刻t输出环境信息E，定义为：

E＝{E_e,E_s1,E_s2,…,E_si,…,E_p1,E_p2,...,E_pi,...,traffic_light}_{si＝1,2,…,ns,pi＝1,2,…,np}

E_e＝{x_e,y_e,v_e,θ_e}

E_si＝{x_si,y_si,v_si,θ_si}

E_pi＝{x_pi,y_pi,v_pi,θ_pi}

其中，下标e表示自车；下标si表示第si个周围车辆，即s1表示第一个周围车辆，ns表示周围交通参与车辆数量；下标pi表示第pi个行人，即p1为第一个行人，np表示行人数量；x_e,y_e,v_e,θ_e分别为自车质心的横向坐标、纵向坐标、质心速度、横摆角；x_si,y_si,v_si,θ_si分别为周围车辆质心的横向坐标、纵向坐标、质心速度、横摆角；x_pi,y_pi,v_pi,θ_pi分别为行人质心的横向坐标、纵向坐标、质心速度、横摆角；traffic_light表示交通信号灯状态。

进一步，步骤S2中，

1)构建的状态空间S包括：自车的位置(x_e,y_e)、速度v_e、横摆角θ_e，周围车辆相对于自车的相对位置(Δx_si,Δy_si)、相对速度Δv_si及其相对横摆角Δθ_si，周围行人相对于自车的相对位置(Δx_pi,Δy_pi)、相对速度Δv_pi及其相对横摆角Δθ_pi，即状态空间S表示为：

S＝{s_e,s_s1,s_s2,…,s_si,…,s_p1,s_p2,...,s_pi,...,traffic_light}_{si＝1,2,…,ns,pi＝1,2,…,np}

s_e＝{x_e,y_e,v_e,θ_e}

s_si＝{Δx_si,Δy_si,Δv_si,Δθ_si}

s_pi＝{Δx_pi,Δy_pi,Δv_pi,Δθ_pi}

2)构建的动作空间A包括：车辆加速度a_c与前轮转向角δ_f，以此控制目标车辆的移动，即A(S)＝{a_c,δ_f}；

3)构建的奖励函数R包括：碰撞安全性r_col、目标奖励r_goal和交通信号灯奖励r_light，即：

R＝χ₁r_col+χ₂r_goal+χ₃r_light

其中，χ₁、χ₂、τ₃为奖励函数中各项的权重系数；

碰撞安全性r_col要求自车避免与其他交通参与车辆、行人发生碰撞；

其中，当自车与周围车辆、行人发生碰撞时，则Cind＝1，否则，Cind＝0；

目标奖励r_goal要求自车行驶速度尽可能在规定时间内安全达到目的地；

其中，当自车在规定时间内能够安全到达目的地，则Gind＝1，否则，Gind＝0；

交通信号灯奖励r_light要求自车遵守交通信号灯规则；

其中，当自车通过十字路口时遵守了交通规则，则Lind＝1，否则Lind＝0。

进一步，步骤S3具体包括以下步骤：

S31：使用神经网络构建隐式分位数网络Z_τ(S,A)，其输入为状态空间S，分位数τ，参数表示为θ^τ；使用神经网络构建目标隐式分位数网络Z_τ′(S,A)，其输入为状态空间S，分位数τ′，参数表示为θ^τ′；此外，设定超参数K、N、N′，其中K为隐式分位数网络Z_τ输出最优动作时的采样次数，N为隐式分位数网络Z_τ计算损失函数时的采样次数，N′为目标隐式分位数网络Z_τ′计算损失函数时的采样次数；

S32：随机初始化基于深度强化学习的决策模型，包括模型的超参数和网络结构参数；

S33：基于隐式分位数网络Z_τ(S,A)，输入当前t时刻状态S_t，基于下式计算出动作A_t；

同时，根据奖励函数计算出当前t时刻获得的奖励R_t，基于仿真环境输出E计算出t+1时刻状态S_t+1；建立经验池，将数据{S_t,A_t,R_t,S_t+1}放入经验池中，当训练数据量超出经验池容量时，遵循先进先出原则，用新的训练数据替换旧训练数据；

S34：从经验池中随机抽取B个样本，对隐式分位数网络Z_τ(S,A)与目标隐式分位数网络Z_τ′(S,A)进行更新。具体包括：首先，对于任意两个分位数τ_i,τ′_j求差，表示为：

其中，

为t+1时刻的最优动作，γ为折扣因子，1≤k≤K，1≤i≤N,1≤j≤N′，τ_k,τ_i,τ_j～U(0,1)，U为均匀分布；

其次，损失函数的梯度可表示为：

其中，

为损失函数的梯度，

为阈值，

为Huber函数；

为指示函数，即满足条件为1，否则为0，m为设定阈值。

进一步，步骤S4具体包括以下步骤：

步骤S41：基于步骤S3得到的回报分布信息Z_τ，利用Wang函数ρ_Wang对原分布信息进行变化，计算公式如下：

其中，Φ为标准正态分布概率密度函数，Φ^-1为标准正态分布概率密度函数的反函数，

表示求均值，α为自定义风险参数值；

步骤S42：选择最优动作：最大化ρ_Wang(Z_τ)值，即可计算出具有风险敏感性的行为决策指令：

其中，

为t时刻所选择的最优动作。

本发明的有益效果在于：

1)本发明构建了包含环境不确定性因素的有信号灯十字路口仿真训练场景，该训练场景可以模拟周围车辆、行人闯红灯等违规行为，更加符合真实交通场景。

2)本发明构建了基于隐式分位数网络(IQN)模型，该模型可以计算奖励的分布信息。

3)本发明基于隐式分位数网络(IQN)模型输出的奖励分布信息，结合Wang函数可生成具有风险感知能力的行为决策，能够提升自动驾驶车辆决策的安全性。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明方法整体的实现逻辑框架图；

图2为本发明方法的工作流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

请参阅图1～图2，本发明设计了一种实现自动驾驶汽车行为决策的方法。考虑到真实交通场景中存在着周围车辆、行人闯红灯等违规行为，设计了一种包含环境不确定性因素的有信号灯十字路口仿真训练场景，该训练场景可以模拟周围车辆、行人闯红灯等违规行为，更加符合真实交通场景。为提升自动驾驶车辆安全性，该方法具体包括以下步骤：

S1：构建包含环境不确定性因素的有信号灯十字路口仿真训练场景；具体包括以下步骤：

S101：设定行人模型：采用如下运动学模型描述仿真训练场景中的行人运动轨迹：

其中，v_p为行人前行速度，ω_p为角速度，x_p，y_p，θ_p分别为行人重心的横坐标、纵坐标以及航向角，

分别为x、y、θ、v的导数。

S102：设定周围车辆模型，规定仿真环境中，自车及周围车辆的运动皆由如下方程描述：

其中，x，y分别为车辆质心的横坐标和纵坐标，v表示车辆质心速度，θ为车辆横摆角，β为车辆质心处侧偏角，l_f，l_r分别为车辆质心至车辆前轴、后轴的距离，δ_f为车辆前轮转向角，a_c为车辆加速度，

分别为x、y、θ、v的导数。

为使得仿真环境中的周围机动车辆能够与自车进行交互，规定周围机动车辆由速度差模型(Velocity Difference Model)进行控制：

a_c＝k[V-v+λΔv]

V＝V₁+V₂tanh[C₁(x_front+L_length,front-x)+C₂]

其中，a_c为车辆加速度，k为敏感系数，v为车辆速度，Δv为自车与周围车辆的相对速度，λ为速度差反应系数，V₁，V₂，C₁，C₂为自定义参数，一般可通过实验获取，x_front为周围车辆质心的横向坐标，L_length,front为周围车辆的车身长度，x为车辆质心的横向坐标。

S103：设定周围机动车辆、行人行为类型：为了模拟真实交通场景，将周围机动车辆、行人行为类型设定为：常规车辆、常规行人、违规车辆、违规行人四类。具体地，常规车辆将遵守红绿灯规则，违规车辆不会遵守红绿灯规则，即会发生红灯闯行的行为；常规行人将遵守红绿灯规则，违规行人不会遵守红绿灯规则，即会发生红灯闯行的行为。在仿真环境运行时，在每个仿真时刻，随机抽取常规车辆、常规行人、违规车辆、违规行人四类的一种加入仿真环境。

S104：初始化环境：随机初始化信号灯初始状态、周围机动车辆的初始速度、位置与目标速度。仿真环境在每个仿真时刻t输出环境信息E。E具体定义为：

E_e＝{x_e,y_e,v_e,θ_e}

E_si＝{x_si,y_si,v_si,θ_si}

E_pi＝{x_pi,y_pi,v_pi,θ_pi}

其中，下标e表示自车，下标si表示第si个周围车辆，即s1表示第一个周围车辆，ns表示周围交通参与车辆数量，下标pi表示第pi个行人，即p1为第一个行人，np表示行人数量；x_e,y_e,v_e,θ_e分别为自车质心的横向坐标、纵向坐标，质心速度、横摆角；x_si,y_si,v_si,θ_si分别为周围车辆质心的横向坐标、纵向坐标，质心速度，横摆角；x_pi,y_pi,v_pi,θ_pi分别为行人质心的横向坐标、纵向坐标，质心速度，横摆角。

S2：构建并优化基于隐式分位数网络(IQN)模型；具体包括以下步骤：

S201：构建状态空间S，构建的状态空间S包括自车的位置(x_e,y_e)、速度v_e、横摆角θ_e，周围车辆相对于自车的相对位置(Δx_si,Δy_si)、相对速度Δv_si及其相对横摆角Δθ_si，周围行人相对于自车的相对位置(Δx_pi,Δy_pi)、相对速度Δv_pi及其相对横摆角Δθ_pi，交通信号灯状态traffic_light，即S表示为：

s_e＝{x_e,y_e,v_e,θ_e}

s_si＝{Δx_si,Δy_si,Δv_si,Δθ_si}

s_pi＝{Δx_pi,Δy_pi,Δv_pi,Δθ_pi}

其中，下标e表示自车，下标si表示第si个周围车辆，即s1表示第一个周围车辆，ns表示周围交通参与车辆数量,下标pi表示第pi个行人，即p1为第一个行人，np表示行人数量。

S202：构建动作空间A，构建的动作空间A包括车辆加速度与前轮转向角组成，以此控制目标车辆的移动，即

A(S)＝{a_c,δ_f}

其中，a_c为车辆加速度，δ_f为前轮转向角。

S203：构建奖励函数R，构建的奖励函数R包括碰撞安全性r_col、目标奖励r_goal，交通信号灯奖励r_light，即：

R＝χ₁r_col+χ₂r_goal+χ₃r_light

其中，χ₁，χ₂，χ₃为奖励函数中各项的权重系数；

碰撞安全性r_col要求自车避免与其他交通参与车辆、行人发生碰撞。

其中，当自车与周围车辆、行人发生碰撞时，则Cind＝1，否则，Cind＝0。

目标奖励r_goal要求自车行驶速度尽可能在规定时间内安全达到目的地。

其中，当自车在规定时间内能够安全到达目的地，则Gind＝1，否则，Gind＝0。

交通信号灯奖励r_light要求自车遵守交通信号灯规则。

S204：使用神经网络构建隐式分位数网络Z_τ(S,A)，其输入为状态空间S，分位数τ，参数表示为θ^τ；使用神经网络构建目标隐式分位数网络Z_τ′(S,A)，其输入为状态空间S和分位数τ′，参数表示为θ^τ′。此外，设定超参数K、N、N′，其中K为隐式分位数网络Z_τ输出最优动作时的采样次数，N为隐式分位数网络Z_τ计算损失函数时的采样次数，N′为目标隐式分位数网络Z_τ′计算损失函数时的采样次数。

S205：随机初始化基于深度强化学习的决策模型，包括模型的超参数和网络结构参数；

S206：基于隐式分位数网络Z_τ(S,A)，输入当前t时刻状态S_t，基于下式计算出动作A_t，

同时，奖励函数计算出当前t时刻获得的奖励R_t，基于仿真环境输出E计算出t+1时刻状态S_t+1；建立经验池，将数据{S_t,A_t,R_t,S_t+1}放入经验池中，当训练数据量超出经验池容量时，遵循先进先出原则，用新的训练数据替换旧训练数据；

S207：从经验池中随机抽取B个样本，对隐式分位数网络Z_τ(S,A)与目标隐式分位数网络Z_τ′(S,A)进行更新。首先，对于任意两个分位数τ_i,τ_j ^′之差可表示为：

其中，

为t+1时刻的最优动作，γ为折扣因子，R_t为t时刻的即时奖励，A为动作空间，1≤k≤K，1≤i≤N,1≤j≤N^′，τ_k,τ_i,τ_j～U(0,1)，U为均匀分布。

其次，损失函数的梯度可表示为：

其中，

为损失函数的梯度，

为阈值，

为Huber函数，

为指示函数，即满足条件为1，否则为0，m为设定阈值。

S3：基于隐式分位数网络(IQN)模型输出的奖励分布信息，结合Wang函数生成具有风险感知能力的行为决策；具体包括以下：

步骤S301：基于步骤S2所得到的回报分布信息Z_τ，利用Wang函数ρ_Wang对原分布信息进行变化，具体公式如下：

表示求均值，α为自定义风险参数值。

步骤S302：选择最优动作：最大化ρ_Wang(Z_τ)值，即可计算出具有风险敏感性的行为决策指令：

其中，

为t时刻所选择的最优动作。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种实现自动驾驶汽车行为决策的方法，其特征在于，该方法包括以下步骤：

S1：构建包含环境不确定性因素的信号灯十字路口仿真训练场景，具体包括以下步骤：

S11：设定行人模型：采用运动学模型描述仿真训练场景中的行人运动轨迹；

分别为x_p、y_p、θ_p的导数；

分别为x、y、θ、v的导数；

为使得仿真训练场景中的周围车辆能够与自车进行交互，规定周围机动车辆由速度差模型进行控制：

a_c＝k[V-v+λΔv]

V＝V₁+V₂tanh[C₁(x_front+L_length,front-x)+C₂]

其中，k为敏感系数，Δv为自车与周围车辆的相对速度，λ为速度差反应系数，V₁、V₂、C₁、C₂为自定义参数，x_front为周围车辆质心的横向坐标，L_length,front为周围车辆的车身长度，x为车辆质心的横向坐标；

S13：设定周围机动车辆、行人行为类型，包括：常规车辆、常规行人、违规车辆、违规行人四类；

E_e＝{x_e，y_e，v_e，θ_e}

E_si＝{x_si，y_si，v_si，θ_si}

E_pi＝{x_pi，y_pi，v_pi，θ_pi}

其中，下标e表示自车；下标si表示第si个周围车辆，即s1表示第一个周围车辆，ns表示周围交通参与车辆数量；下标pi表示第pi个行人，即p1为第一个行人，np表示行人数量；x_e，y_e，v_e，θ_e分别为自车质心的横向坐标、纵向坐标、质心速度、横摆角；x_si，y_si，v_si，θ_si分别为周围车辆质心的横向坐标、纵向坐标、质心速度、横摆角；x_pi，y_pi，v_pi，θ_pi分别为行人质心的横向坐标、纵向坐标、质心速度、横摆角；traffic_light表示交通信号灯状态；

S2：构建隐式分位数网络模型，包括构建状态空间、动作空间和奖励函数；

1)构建的状态空间S包括：自车的位置(x_e，y_e)、速度v_e、横摆角θ_e，周围车辆相对于自车的相对位置(Δx_si，Δy_si)、相对速度Δv_si及其相对横摆角Δθ_si，周围行人相对于自车的相对位置(Δx_pi，Δy_pi)、相对速度Δv_pi及其相对横摆角Δθ_pi，即状态空间S表示为：

S＝{s_e，s_s1，s_s2，...，s_si，...，s_p1，s_p2，...，s_pi，...，traffic_light}_{si＝1，2，...，ns，pi＝1，2，...，np}

s_e＝{x_e，y_e，v_e，θ_e}

s_si＝{Δx_si，Δy_si，Δv_si，Δθ_si}

s_pi＝{Δx_pi，Δy_pi，Δv_pi，Δθ_pi}

2)构建的动作空间A包括：车辆加速度a_c与前轮转向角δ_f，即A(S)＝{a_c，δ_f}；

R＝χ₁r_col+χ₂r_goal+χ₃r_light

其中，χ₁、χ₂、χ₃为奖励函数中各项的权重系数；

目标奖励r_goal要求自车行驶速度在规定时间内安全达到目的地；

交通信号灯奖励r_light要求自车遵守交通信号灯规则；

其中，当自车通过十字路口时遵守了交通规则，则Lind＝1，否则Lind＝0；

S3：使用神经网络优化步骤S2构建的隐式分位数网络模型，具体包括以下步骤：

S31：使用神经网络构建隐式分位数网络Z_τ(S，A)，其输入为状态空间S，分位数τ，参数表示为θ^τ；使用神经网络构建目标隐式分位数网络Z_τ′(S，A)，其输入为状态空间S，分位数τ′，参数表示为θ^τ′；此外，设定超参数K、N、N′，其中K为隐式分位数网络Z_τ输出最优动作时的采样次数，N为隐式分位数网络Z_τ计算损失函数时的采样次数，N′为目标隐式分位数网络Z_τ′计算损失函数时的采样次数；

S33：基于隐式分位数网络Z_τ(S，A)，输入当前t时刻状态S_t，基于下式计算出动作A_t；