CN118657190A

CN118657190A - 基于强化学习的自动驾驶车辆交互控制方法

Info

Publication number: CN118657190A
Application number: CN202410671137.3A
Authority: CN
Inventors: 马楠; 张进; 梁晔; 郭聪; 何非凡
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2024-05-28
Filing date: 2024-05-28
Publication date: 2024-09-17

Abstract

本发明提供基于强化学习的自动驾驶车辆交互控制方法，包括获取用于模型训练的数据，还包括以下步骤：进行决策网络的预训练；制定强化学习的奖励函数；强化学习模型训练；进行学习模型测试。本发明提出了基于强化学习的自动驾驶车辆交互控制方法，将监督学习和深度强化学习相结合并在学习样本中加入了人类驾驶经验，学习过程中利用了人类驾驶经验使无人驾驶车辆学习最优策略，同时采用自适应平衡采样方法，使自动驾驶车辆在不同学习阶段自动调整自我探索经验和人类驾驶经验的采样占比，并针对不同评判指标设计了奖励函数，进一步引导自动驾驶车辆更好地学习交互控制策略。

Description

基于强化学习的自动驾驶车辆交互控制方法

技术领域

本发明涉及计算机视觉的技术领域，特别是基于强化学习的自动驾驶车辆交互控制方法。

背景技术

当今快速发展的自动驾驶技术领域，无人驾驶汽车的交互控制已成为实现安全、高效交通系统的关键技术挑战之一，研究人员和工程师们正在探索如何通过高效的算法解决无人驾驶车辆的交互控制问题。由于环境的复杂性和交通参与者的多样性，在复杂多变的交通场景下实现车辆的交互控制具有很大的挑战性。传统方法通常依赖于事先定义的规则，这些规则难以适应各种不同的驾驶场景，因此，基于规则的方法在实际应用中受到了限制。随着人工智能(Artificial Intelligence,AI)技术的进步，尤其是机器学习和深度学习的发展，基于深度强化学习的方法为解决自动驾驶车辆的交互控制问题提供了新的思路。

深度强化学习是一种结合了深度学习和强化学习(的技术。它利用深度神经网络的学习能力来理解复杂的、高维度的输入数据(如图像、视频等)，并通过强化学习的方法来指导如何根据这些输入做出决策以达到某个目标。常见的深度强化学习算法有深度Q网络、演员-评论家、深度确定性策略梯度等。

然而，当深度强化学习的状态空间连续或足够大时，其存在的一个问题是探索效率低，通常情况下，强化学习需要大量的试错和交互来学习最佳策略，导致其学习速度慢，且很难学习到表现性能良好的策略。

申请公开号为CN116394968A的中国发明专利申请公开了一种基于多智能体强化学习的自动驾驶车辆控制方法，首先考虑乘客的个性化需求，为AVs制定不同的驾驶风格，用于后续决策建模过程中。利用联盟博弈和V2V通信，以每个网联自动驾驶车辆CAV为中心划分多智能体系统，从而构建合作决策区域。然后，基于模型预测控制中的滚动时域，构建了一个深度强化学习决策框架，以实现CAV在合作区域里的运动决策。该方法的缺点是需要事先采集人类的驾驶数据，并且在训练过程中需要人类驾驶员实时参与，这可能需要耗费一定的人力资源。

发明内容

为了解决上述的技术问题，本发明提出了基于强化学习的自动驾驶车辆交互控制方法，将监督学习和深度强化学习相结合并在学习样本中加入了人类驾驶经验，学习过程中利用了人类驾驶经验使无人驾驶车辆学习最优策略，同时采用自适应平衡采样方法，使自动驾驶车辆在不同学习阶段自动调整自我探索经验和人类驾驶经验的采样占比，并针对不同评判指标设计了奖励函数，进一步引导自动驾驶车辆更好地学习交互控制策略。

本发明提供基于强化学习的自动驾驶车辆交互控制方法，包括获取用于模型训练的数据，还包括以下步骤：

步骤1：进行决策网络的预训练；

步骤2：制定强化学习的奖励函数；

步骤3：强化学习模型训练；

步骤4：进行学习模型测试，验证训练效果；

步骤5：将测试完成的模型应用于自动驾驶车辆的交互控制系统中。

优选的是，所述用于模型训练的数据包括自动驾驶车辆的自我探索经验和人类驾驶经验。

在上述任一方案中优选的是，所述自动驾驶车辆的自我探索经验表示为其中，s_t为当前外界环境状态，为最终被自动驾驶车辆执行的驾驶动作，r_t为当前奖励，s_t+1为下一时刻外界环境状态。

在上述任一方案中优选的是，所述人类驾驶经验表示为(s_t,a_t,r_t,s_t+1)，其中，a_t为当前执行的动作。

在上述任一方案中优选的是，所述人类驾驶经验的获取方法为人类驾驶员通过观察外界环境状态s_t，然后执行相应的动作a_t，环境过渡到下一状态s_t+1，并反馈在状态s_t下执行动作a_t后对应的奖励r_t，然后又从状态s_t+1出发并不断重复上述步骤，收集超过数量阈值的人类驾驶经验，其中，a_t包括方向盘转角大小和油门/刹车值。

在上述任一方案中优选的是，所述决策网络使用人类驾驶经验(s_t,a_t,r_t,s_t+1)中的状态s_t作为训练数据，a_t为对应状态s_t的标签对决策网络进行预训练。

在上述任一方案中优选的是，所述当前执行的动作a_t由二元组表示，每个值的取值范围都是-1到1；

表示车辆方向盘转角，小于0表示左转，大于0表示右转，等于0表示处于回正状态，方向盘既不右偏也不左偏；

表示油门和刹车，小于0表示刹车，大于0表示油门，等于0代表油门和刹车都是空载状态，即既不踩油门也不踩刹车。

在上述任一方案中优选的是，在所述预训练的过程中神经网络更新的损失函数为

其中，i＝1或2，θ为决策网络的参数，表示由决策网络输出的动作的第i个分量，则表示人类驾驶经验中动作的第i分量，N表示驾驶动作的分量数量。

在上述任一方案中优选的是，所述预训练完成后保存损失函数最小的一组参数。

在上述任一方案中优选的是，所述步骤2包括基于自动驾驶车辆的驾驶安全性、行驶效率和舒适性，制定奖励函数r_t，公式为

r_t＝r_speed+r_collision+r_mindis+r_acc+r_closse

其中，r_speed表示行驶效率，r_collision表示车辆是否发生碰撞的参数，r_mindis表示与周围车辆的最小距离，r_acc为舒适性衡量参数，r_closse为判断自动驾驶车辆是否在向目的地靠近的衡量参数。

在上述任一方案中优选的是，所述行驶效率r_speed的计算公式为

其中，v_car为车辆行驶速度，

当车辆行驶速度低于5m/s时，所述行驶效率r_speed为负值；

当车辆行驶速度大于5m/s且小于等于10m/s时，所述行驶效率r_speed为正值；

当车辆行驶速度大于10m/s时，所述行驶效率r_speed为负值。

在上述任一方案中优选的是，所述车辆是否发生碰撞的参数r_collision的计算公式为

当车辆在行驶过程中发生碰撞时，r_collision值为-1000，未发生碰撞时的r_collision为1。

在上述任一方案中优选的是，所述与周围车辆的最小距离r_mindis的计算公式为

r_mindis＝d_min-5

其中，d_min表示自动驾驶车辆中心距离与周围其他车辆的最小距离，当最小距离d_min小于5米时，所述与周围车辆的最小距离r_mindis为负值；

当最小距离d_min等于5米时，所述与周围车辆的最小距离r_mindis为0；

当最小距离d_min大于5米时，所述与周围车辆的最小距离r_mindis为正值。在上述任一方案中优选的是，所述舒适性衡量参数r_acc的计算公式为

r_acc＝min(0,2-|acc|)

其中，acc用于表示自动驾驶车辆的加速度，

当自动驾驶车辆的加速度acc的绝对值大于2时，所述舒适性衡量参数r_acc为负值；

当自动驾驶车辆的加速度acc的绝对值小于等于2时，所述舒适性衡量参数r_acc为0。

在上述任一方案中优选的是，所述判断自动驾驶车辆是否在向目的地靠近的衡量参数r_closse的计算公式为

r_closse＝distance_t-distance_t-1

其中，distance_t表示当前时刻自动驾驶车辆距离目标位置的距离，distance_t-1表示上一时刻自动驾驶车辆距离目标位置的距离；

当自动驾驶车辆向目标位置靠近时，所述判断自动驾驶车辆是否在向目的地靠近的衡量参数r_closse为正值，

当自动驾驶车辆在远离目标位置时，所述判断自动驾驶车辆是否在向目的地靠近的衡量参数r_closse为负值。

在上述任一方案中优选的是，评判网络包括target网络和value网络，两个网络的架构完全一致，所述value网络的参数每学习一次就进行一次参数更新，所述target网络的参数是每当所述value网络进行固定次数学习后的复制版。

在上述任一方案中优选的是，所述步骤3包括以下子步骤：

步骤31：加载之前保存的已经完成预训练的决策网络，所述target网络和所述value网络的参数则使用默认方式初始化；

步骤32：自动驾驶车辆观察当前的环境状态s_t，通过特征提取和融合作为所述决策网络输入；

步骤33：所述决策网络根据输入的特征向量输出相应的动作在训练过程中引入实时人类指导对学习过程进行监督，即在输出动作的同时，人类驾驶员也同时根据所观察到的状态输出对应的动作所述最终被自动驾驶车辆执行的驾驶动作是动作和动作的加权求和；

步骤34：自动驾驶车辆执行所述最终被自动驾驶车辆执行的驾驶动作环境根据这个动作过渡到新的状态s_t+1，并通过奖励函数给出相应的奖励r_t；

步骤35：自动驾驶车辆完成一次与环境交互后，便能获得一条自我探索经验并将其存储在经验池中，当收集到足够多的自我探索经验时，便能进行决策网络和评判网络的学习和参数更新。

在上述任一方案中优选的是，所述最终被自动驾驶车辆执行的驾驶动作的计算公式为

其中，为人类驾驶经验的平均奖励值，r_t-1为上一时刻的奖励，为动作的权重。

在上述任一方案中优选的是，所述步骤35包括当收集到超过数量阈值的自我探索经验时，进行决策网络和评判网络的学习和参数更新。

在上述任一方案中优选的是，所述决策网络的学习数据即为所述用于模型训练的数据，其采样学习的公式为

B＝(p～D^H)∪(1-p～D^E)

其中，B表示一个批次的学习样本，p表示在本批次学习样本中人类驾驶经验D^H所占的比例，D^E则表示自动驾驶车辆的探索经验。

在上述任一方案中优选的是，所述比例p的计算公式为

其中，r_t表示自动驾驶车辆探索时的当前奖励，为人类驾驶经验的平均奖励值，p的最小值为0，最大值为1。

在上述任一方案中优选的是，当自动驾驶车辆的平均奖励超过提升阈值时，学习样本中的自我探索经验占比则进行相应的提升，损失函数的计算公式为

其中,表示数学期望，表示用于value网络学习的数据样本，γ为衰减因子，和分别是value网络和target网络的参数，μ(s_t+1；θ′)是决策网络确定的下一状态s_t+1下的动作，是target网络对下一状态和下一动作的价值估计，是value网络对当前状态和动作的价值估计。

在上述任一方案中优选的是，当value网络完成一定次数的学习后，将value网络的参数完全赋值给target网络，此时决策网络的损失函数是target网络评估的当前策略产生的动作价值的负值，即：

其中，μ(s_t；θ)μ是决策网络确定状态s_t下的动作a_t，是给定状态和动作下的动作价值。

本发明提出了基于强化学习的自动驾驶车辆交互控制方法，通过一个创新性的交互控制策略，结合监督学习以及深度强化学习中的演员-评论家模型并在学习样本中引入人类驾驶经验，提升了无人驾驶汽车的决策能力、安全性及适应性。

附图说明

图1为按照本发明的基于强化学习的自动驾驶车辆交互控制方法的一优选实施例的流程图。

图2为按照本发明的基于强化学习的自动驾驶车辆交互控制方法的一优选实施例的Actor网络输入输出示意图。

图3为按照本发明的基于强化学习的自动驾驶车辆交互控制方法的一优选实施例的强化学习框架示意图。

图4为按照本发明的基于强化学习的自动驾驶车辆交互控制方法的一优选实施例的仿真环境示意图。

图5为按照本发明的基于强化学习的自动驾驶车辆交互控制方法的一优选实施例的新测试场景示意图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

实施例一

如图1所示，执行步骤100，获取用于模型训练的数据，所述用于模型训练的数据包括自动驾驶车辆的自我探索经验和人类驾驶经验。

所述自动驾驶车辆的自我探索经验表示为所述人类驾驶经验表示为(s_t,a_t,r_t,s_t+1)，其中，s_t为当前外界环境状态，为……，a_t为当前执行的动作，r_t为当前奖励，s_t+1为下一时刻外界环境状态。

所述人类驾驶经验的获取方法为人类驾驶员通过观察外界环境状态s_t，然后执行相应的动作a_t，环境过渡到下一状态s_t+1，并反馈在状态s_t下执行动作a_t后对应的奖励r_t，然后又从状态s_t+1出发并不断重复上述步骤，收集超过数量阈值的人类驾驶经验，其中，a_t包括方向盘转角大小和油门/刹车值，本实施例中的数量阈值为10000。

执行步骤110，进行决策网络的预训练，所述决策网络使用人类驾驶经验(s_t,a_t,r_t,s_t+1)中的状态s_t作为训练数据，a_t为对应状态s_t的标签对决策网络进行预训练。所述当前执行的动作a_t由二元组表示，每个值的取值范围都是-1到1；表示车辆方向盘转角，小于0表示左转，大于0表示右转，等于0表示处于回正状态，方向盘既不右偏也不左偏；表示油门和刹车，小于0表示刹车，大于0表示油门，等于0代表油门和刹车都是空载状态，即既不踩油门也不踩刹车。

在所述预训练的过程中神经网络更新的损失函数为

其中，i＝1或2，θ为决策网络的参数，表示由决策网络输出的动作的第i个分量，则表示人类驾驶经验中动作的第i分量，N表示驾驶动作的分量数量，在本实施中，N＝2，表示动作a_t有两个分量和

所述预训练完成后保存损失函数最小的一组参数。

执行步骤120，制定强化学习的奖励函数，包括基于自动驾驶车辆的驾驶安全性、行驶效率和舒适性，制定奖励函数r_t，公式为

r_t＝r_speed+r_collision+r_mindis+r_acc+r_closse

所述行驶效率r_speed的计算公式为

其中，v_car为车辆行驶速度，

当车辆行驶速度低于5m/s时，奖励为负值；

当车辆行驶速度大于5m/s且小于等于10m/s时，奖励为正值；

当车辆行驶速度大于10m/s时，奖励为负值；

在本实施例中，在强化学习中，奖励与所述行驶效率r_speed是一样的。

所述车辆是否发生碰撞的参数r_collision的计算公式为

所述与周围车辆的最小距离r_mindis的计算公式为

r_mindis＝d_min-5

当最小距离d_min大于5米时，所述与周围车辆的最小距离r_mindis为正值。所述舒适性衡量参数r_acc的计算公式为

r_acc＝min(0,2-|acc|)

其中，acc用于表示自动驾驶车辆的加速度，

所述判断自动驾驶车辆是否在向目的地靠近的衡量参数r_closse的计算公式为

r_closse＝distance_t-distance_t-1

执行步骤130，强化学习模型训练。其中，评判网络包括target网络和value网络，两个网络的架构完全一致，所述value网络的参数每学习一次就进行一次参数更新，所述target网络的参数是每当所述value网络进行固定次数学习后的复制版。

训练方法包括以下子步骤：

执行步骤131，加载之前保存的已经完成预训练的决策网络作为Actor网络，所述target网络和所述value网络的参数则使用默认方式初始化。

执行步骤132，自动驾驶车辆观察当前的环境状态s_t，通过特征提取和融合作为所述决策网络输入。

执行步骤133，所述决策网络根据输入的特征向量输出相应的动作在训练过程中引入实时人类指导对学习过程进行监督，即在输出动作的同时，人类驾驶员也同时根据所观察到的状态输出对应的动作最终要被执行的驾驶动作是动作和动作的加权求和，计算公式为

执行步骤134，自动驾驶车辆执行选择的动作环境根据这个动作过渡到新的状态s_t+1，并通过奖励函数给出相应的奖励r_t。

执行步骤135，自动驾驶车辆完成一次与环境交互后，便能获得一条自我探索经验并将其存储在经验池中，当收集到超过数量阈值(数量阈值为10000)的自我探索经验时，进行决策网络和评判网络的学习和参数更新。

所述决策网络的学习数据即为所述用于模型训练的数据，其采样学习的公式为

B＝(p～D^H)∪(1-p～D^E)

所述比例p的计算公式为

当自动驾驶车辆的平均奖励超过提升阈值时，学习样本中的自我探索经验占比则进行相应的提升，损失函数的计算公式为

当value网络完成一定次数的学习后，将value网络的参数完全赋值给target网络，此时决策网络的损失函数是target网络评估的当前策略产生的动作价值的负值，即：

执行步骤140，进行学习模型测试，验证训练效果。

执行步骤150，将测试完成的模型应用于自动驾驶车辆的交互控制系统中。

实施例二

本发明提出了一种基于人类驾驶行为和自适应平衡采样监督的无人驾驶车辆强化学习控制方法，与传统的强化学习不同，将监督学习和深度强化学习相结合并在学习样本中加入了人类驾驶经验，学习过程中利用了人类驾驶经验使无人驾驶车辆学习最优策略。此外，还设计了一种自适应平衡采样方法，使自动驾驶车辆在不同学习阶段自动调整自我探索经验和人类驾驶经验的采样占比，并针对不同评判指标设计了奖励函数，进一步引导自动驾驶车辆更好地学习交互控制策略。

本发明致力于解决无人驾驶汽车在复杂多变交通环境中面临的主要挑战，通过一个创新性的交互控制策略，结合监督学习以及深度强化学习中的演员-评论家模型并在学习样本中引入人类驾驶经验，旨在提升无人驾驶汽车的决策能力、安全性及适应性。本发明的目标包括但不限于以下几点：

1)学习人类驾驶经验，增强紧急应对能力：通过深入分析和模仿人类驾驶员在复杂交通环境中的决策过程和行为模式，本发明意图构建一个能够在未知或紧急情况下做出类似人类决策的智能系统。这不仅有助于提升无人驾驶车辆在面对突发事件时的反应速度和决策质量，也能够使其行为更加符合人类驾驶习惯，从而提高与人类驾驶员共享道路时的安全性和和谐性。

2)应用监督学习，提高探索效率：利用大量已标注的驾驶数据，通过监督学习方法先对决策模型预训练，提高模型在强化学习阶段的探索效率，减少其无效探索。这一过程将使得无人驾驶汽车能够更准确地理解其周围环境，提高在常规道路条件下的行驶安全性和效率。

3)利用深度强化学习，提升自主学习和决策能力：本发明通过深度强化学习提高无人驾驶汽车在未经训练的复杂环境中的自主学习能力，使车辆与环境持续交互，不断优化其行为策略，以适应新的或变化的道路条件，增强其在未知环境下的适应性和灵活性。

4)实现多环境下的高效交互，优化交通流动：本发明通过高级的协同控制策略，使无人驾驶汽车能够在多种环境中高效地工作，包括城市街道、高速公路以及复杂的自然环境中。这有助于提升无人驾驶车辆的通用性和可靠性，优化整体交通流，减少拥堵，提高道路使用效率。

本发明提出了一种全新的无人驾驶车辆交互控制策略，旨在全面提升无人驾驶汽车在复杂交通环境中的表现，确保其在未来道路交通系统中能够安全、高效、智能地运行，具体的技术方案如下：

1.模型训练的数据获取

在本发明中，用于模型训练的数据包括两部分，分别是自动驾驶车辆的自我探索经验和人类驾驶经验。人类驾驶经验需要先采集完成。

人类驾驶经验通过人类驾驶员控制车辆在交通环境中行驶而得到。人类驾驶经验由当前状态、当前动作、当前奖励以及下一时刻状态(s_t,a_t,r_t,s_t+1)表示，即人类驾驶员通过观察外界环境状态s_t，然后执行相应的动作a_t，a_t则表示方向盘转角大小和油门/刹车值，环境过渡到下一状态s_t+1，并反馈在状态s_t下执行动作a_t后对应的奖励r_t，然后又从状态s_t+1出发并不断重复上述步骤，收集足够多的人类驾驶经验。车辆自我探索经验的驾驶动作由算法模型得出，车辆的自我探索经验表示为

2.决策网络的预训练

本发明的强化学习的基础模型由决策网络和评判网络组成。决策网络根据当前的环境状态选择动作，即输入为状态、输出为动作，它负责决策。评判网络通过估计当前策略下的状态价值函数评估决策网络选择动作的好坏，即它负责评价。

在对整个模型进行训练之前，需要使用人类驾驶经验对决策网络进行了预训练，使无人驾驶车在一定程度上学会一些基本驾驶技巧。。本发明的决策网络命名为Actor。Actor使用已经采集的人类驾驶经验(s_t,a_t,r_t,s_t+1)中的状态s_t作为训练数据，a_t为对应状态s_t的标签对决策网络进行预训练。a_t由二元组表示，每个值的取值范围都是-1到1，表示车辆方向盘转角，小于0表示左转，大于0表示右转，表示油门和刹车，小于0表示刹车，大于0表示油门。预训练过程中神经网络更新的损失函数为

i＝1，2，θ为网络Actor的参数，表示由Actor网络输出的动作的第i个分量，则表示人类驾驶经验中动作的第i个分量，即分别代表了方向盘转角和油门/刹车值。损失函数最小时与训练完成。训练完成之后保存损失函数最小的一组参数供后续使用。

3.强化学习的奖励函数制定

自动驾驶车辆每次在状态s_t下执行动作后，环境过渡到下一状态s_t+1并返回对应的奖励r_t，当车辆执行了好的动作时，奖励是正向的；当r_t为负向的惩罚时，说明车辆执行的动作是不可取的。基于自动驾驶车辆的驾驶安全性、行驶效率以及舒适性考虑，设计了如下奖励函数：

r_t＝r_speed+r_collision+r_mindis+r_acc+r_closse(2)

r_speed代表行驶效率，

v_car代表车辆的行驶速度，单位是m/s,即当车辆行驶速度低于5m/s时，奖励是负值；当车辆速度大于5m/s时，得到正向的奖励；为了安全性，当车速大于10m/s时，奖励也是负值。r_collision和r_mindis代表了车辆的是否发生碰撞和与周围车辆的最小距离，

r_mindis＝d_min-5(5)

，当车辆在行驶过程中发生碰撞时，r_collision值为-1000，并结束本次训练；未发生碰撞时的r_collision值为1。r_mindis表示自动驾驶车辆中心与周围其他车辆距离的奖励，d_min代表了自动驾驶车辆中心距离与周围其他车辆的最小距离，当最小距离小于5米时，给与相应的惩罚。r_acc用于衡量舒适性的：

r_acc＝min(0,2-|acc|)(6)

acc用于表示自动驾驶车辆的加速度，当自动驾驶车辆的加速度绝对值大于2m/s²时，将会收到惩罚，否则该项为0。r_closse用于衡量自动驾驶车辆是否在向目的地靠近，

r_closse＝distance_t-distance_t-1(7)

distance_t和distance_t-1分别代表当前时刻和上一时刻自动驾驶车辆距离目标位置的距离，单位为米(m)，即当自动驾驶车辆向目标位置靠近时，该项奖励为正值，当车辆在远离目标位置时，该项为负值

4.强化学习模型训练

决策网络Actor进行预训练之后，使用强化学习方法对整个模型进行训练。。评判网络包括两个网络分别称为target和value，两个网络的架构完全一致，但value网络参数每学习一次就进行一次参数更新，target的网络参数是每当value网络进行固定次数学习后的复制版，以此保证学习的稳定性。步骤如下：

a.初始化。Actor加载之前决策网络预训练完成网络参数，target和value网络参数则使用默认方式初始化。

b.观察环境状态：自动驾驶车辆观察当前的环境状态s_t，通过特征提取和融合作为Actor网络输入。

c.选择动作。Actor网络根据输入的特征向量输出相应的动作在训练过程中引入实时人类指导对学习过程进行监督，即在Actor输出动作的同时，人类驾驶员也同时根据所观察到的状态输出对应的动作而最终要被执行的驾驶动作则是二者的加权求和，

为人类驾驶经验的平均奖励值，即之前采集所有人类驾驶经验(s_t,a_t,r_t,s_t+1)中r_t的均值，最小值为0，最大值为1，即如果自动驾驶车在上一时刻表现较好，认为自动驾驶车的Actor决策能带来较好收益，下一时刻其决策结果的权重会相应增加；当其上一时刻表现较差时，需要降低自动驾驶车决策的权重而增加人类驾驶员决策的权重。

d.执行动作，环境反馈。自动驾驶车辆执行选择的动作环境根据这个动作过渡到新的状态s_t+1，并通过奖励函数给出相应的奖励r_t。

e.学习和策略更新。自动驾驶车辆完成一次与环境交互后，便能获得一条自我探索经验并将其存储在经验池中(同时经验池中还存储了之前采集完成的人类驾驶经验)。当收集到足够多的自我探索经验时，便能进行决策网络和评判网络的学习和参数更新。value网络学习的数据由人类驾驶经验(s_t,a_t,r_t,s_t+1)和车辆自我探索经验共同构成，通过以下公式进行采样学习：

B＝(p～D^H)∪(1-p～D^E)(9)

B表示一个批次的学习样本，p表示在本批次学习样本中人类驾驶经验D^H所占的比例，D^E则表示自动驾驶车辆的探索经验，其中：

r_t表示自动驾驶车辆探索时的当前奖励，表示人类驾驶员的平均奖励，p的最小值为0，最大值为1。当自动驾驶车辆的平均奖励较低时，会增大人类驾驶经验的采样比例，当自动驾驶车辆的平均奖励有了一定的提升之后，学习样本中的自我探索经验占比则会相应的提升。损失函数如下所示：

表示用于value网络学习的数据样本，由人类驾驶经验(s_t,a_t,r_t,s_t+1)和自我车辆探索经验共同组成，γ为衰减因子取值在0到1之间，和分别是value网络和target网络的参数，r_t是当前的奖励，μ(s_t+1；θ′)是Actor网络确定的下一状态s_t+1下的动作，是target网络对下一状态和下一动作的价值估计，是value网络对当前状态和动作的价值估计。当value网络完成一定次数的学习后，将value网络的参数完全赋值给target网络。Actor网络的损失函数可以是target网络评估的当前策略产生的动作价值的负值，即：

μ(s_t；θ)是Actor网络确定状态s_t下的动作a_t，是给定状态和动作下的动作价值。

f.重复步骤b-e，直到满足最大步数要求，训练结束，保存平均奖励值最高的一组网络参数。

5.模型测试

训练完成后，在新环境中评估学习到的策略性能。

实施例三

本实施例公开了决策网络Actor的预训练过程，如图2所示的是Actor网络的输入和输出。

对于本发明所提出的自动驾驶车辆控制方法，在虚拟仿真的环境下进行实验验证，仿真软件为用于自动驾驶研究和开发的CARLA模拟器，版本号为0.9.13。

在整个深度强化学习模型训练之前，需要对决策网络Actor先进行预训练，目的是使其先学会一些协同控制技巧，避免在深度强化学习刚开始时就发生碰撞的现象。预训练阶段只涉及到决策网络Actor的输入和输出，如图1所示。该阶段使用监督学习方式进行训练，即输入s_t为图像、雷达和自身及其他车辆信息，输出a_t表示车辆自身的方向盘转角和油门/刹车值，预训练使用的数据s_t和a_t来源于人类驾驶经验(s_t,a_t,r_t,s_t+1)，a_t是相应状态s_t的动作标签。人类驾驶经验(s_t,a_t,r_t,s_t+1)由人类驾驶员操控车辆在虚拟仿真环境中行驶而得。以CARLA中的城镇场景为仿真环境，通过人类驾驶员控制车辆在城镇中行驶，收集并筛选得到32673条数据，再随机挑选26138条作为数据集，剩下的作为验证集对决策网络完成预训练，预训练阶段通过公式(1)计算其损失函数并进行网络参数梯度下降更新。

i＝1,2，θ为网络Actor的参数，表示由Actor网络输出的动作的第i个分量，则表示人类驾驶经验中动作的第i个分量，即分别代表了方向盘转角和油门/刹车值。损失函数最小时与训练完成。训练完成之后保存损失函数最小的一组参数供后续使用。

实施例四

本实施例公开了决策网络Actor的预训练过程，如图3所示的是无人驾驶车交互控制方法的理论框架图。其基本流程为：自动驾驶车辆在t时刻观测到环境状态为s_t，状态s_t由车辆的前置摄像头所采集到的RGB图像、16线激光雷达点云数据和自身及其他车辆状态信息三部分所表示，对于RGB图像，使用了Unet对原始图像进行了语义分割，目的是使图像中的关键特征(如周围车辆的相对位置)能更好地被提取到，再对语义分割图像进行特征提取，点云数据使用PointNet网络进行特征提取，自身及其他车辆信息包括方向盘转角、油门/刹车值、车速、加速度、转向角速度、转向角加速度、距离目的地的距离以及车辆自身位置八项，用一维向量表示后再进行特征编码，这样，车辆之间便能进行信息共享，更好地完成自身与其他车辆的交互控制。然后将图像、点云以及车辆信息三项特征进行融合，将融合和的特征作为决策网络Actor的输入，根据策略输出动作同时，RGB图像、点云和车辆自身状态也可以由人类驾驶员观察得到，人类驾驶员实时根据这些信息输出车辆的控制动作对和进行加权求和得到就是自动驾驶车辆最终要输出的方向盘转角、油门/刹车值。执行动作后，环境返回对应的奖励r_t并过渡到下一个状态s_t+1。完成一次探索后，收集到一条车辆自我探索经验并将其进行存储于，同时还存储了之前采集的人类驾驶经验(s_t,a_t,r_t,s_t+1)。当收集到足够多的自我探索经验后，每完成一次探索，value网络便根据公式(9)进行采样学习和公式(11)计算损失函数进行神经网络参数的梯度下降更新，每当value网络完成一定次数的学习后，便将其参数完全赋值给target网络。Actor网络则根据公式(12)计算损失函数进行参数梯度上升更新。通过不断探索模型算法不断得到更新和优化。

B＝(p～D^H)∪(1-p～D^E) (9)

表示用于value网络学习的数据样本，由人类驾驶经验(s_t,a_t,r_t,s_t+1)和自我车辆探索经验共同组成，γ为衰减因子取值在0到1之间，和分别是value网络和target网络的参数，r_t是当前的奖励，μ(s_t+1；θ′)是Actor网络确定的下一状态s_t+1下的动作，是target网络对下一状态和下一动作的价值估计，是value网络对当前状态和动作的价值估计。

如图4所示为仿真环境示意图，场景为CARLA中的城镇场景。在场景中随机初始化了40位交通参与者，包括车辆、行人等，场景如图3(a)所示，在场景中，随机选择两个点作为自动驾驶车辆的起始地点和目的地(每次初始化时，起始地点和目的地之间的距离一致)，并把自动驾驶车辆初始化在起始地点，自动驾驶车辆辆需要根据本发明所提出的控制方法完成决策，控制自身从起始地点驶向目的地，图3(b)中的红色车辆是受本发明方法所控制的其中一辆自动驾驶车，在场景中，同时设置了3辆受本发明方法所控制的车辆，本发明方法在模型输入中有车辆自身以及其他车辆的相关信息，基于此完成了车辆之间的信息共享和车辆通信。3辆车需要在本发明所提出的交互控制方法下，完成从起点到目的地的自动驾驶任务，并尽可能保证其安全性、交通高效性。

实施例五

本实施例公开了新的测试场景过程，当训练完成后，选择了CARLA中的其他两个场景，城市场景和城镇场景，作为新的验证场景如图5所示。验证方式同样是生成3辆由算法控制的车辆和40位交通参与者(包括车辆、行人等)，在场景中分别给这3辆车随机选择起始地点和目的地，通过算法输出车辆的方向盘转角和油门/刹车值，控制车辆安全高效地驶向目的地。通过在陌生环境中对训练好的模型进行验证，以证明本发明在面对更加复杂的交通环境时的鲁棒性。

为了更好地理解本发明，以上结合本发明的具体实施例做了详细描述，但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.基于强化学习的自动驾驶车辆交互控制方法，包括获取用于模型训练的数据，其特征在于，还包括以下步骤：

步骤1：进行决策网络的预训练；

步骤2：制定强化学习的奖励函数；

步骤3：强化学习模型训练；

步骤4：进行学习模型测试，验证训练效果；

2.如权利要求1所述的基于强化学习的自动驾驶车辆交互控制方法，其特征在于，所述用于模型训练的数据包括自动驾驶车辆的自我探索经验和人类驾驶经验，所述自动驾驶车辆的自我探索经验表示为所述人类驾驶经验表示为(s_t,a_t,r_t,s_t+1)，其中，s_t为当前外界环境状态，为最终被自动驾驶车辆执行的驾驶动作，a_t为当前执行的动作，r_t为当前奖励，s_t+1为下一时刻外界环境状态。

3.如权利要求2所述的基于强化学习的自动驾驶车辆交互控制方法，其特征在于，所述人类驾驶经验的获取方法为人类驾驶员通过观察外界环境状态s_t，然后执行相应的动作a_t，环境过渡到下一状态s_t+1，并反馈在状态s_t下执行动作a_t后对应的奖励r_t，然后又从状态s_t+1出发并不断重复上述步骤，收集超过数量阈值的人类驾驶经验，其中，a_t包括方向盘转角大小和油门/刹车值。

4.如权利要求3所述的基于强化学习的自动驾驶车辆交互控制方法，其特征在于，所述决策网络使用人类驾驶经验(s_t,a_t,r_t,s_t+1)中的状态s_t作为训练数据，a_t为对应状态s_t的标签对决策网络进行预训练，所述当前执行的动作a_t由二元组表示，每个值的取值范围都是-1到1；

5.如权利要求4所述的基于强化学习的自动驾驶车辆交互控制方法，其特征在于，在所述预训练的过程中神经网络更新的损失函数为

6.如权利要求5所述的基于强化学习的自动驾驶车辆交互控制方法，其特征在于，所述步骤2包括基于自动驾驶车辆的驾驶安全性、行驶效率和舒适性，制定奖励函数r_t，公式为

r_t＝r_speed+r_collision+r_mindis+r_acc+r_closse

其中，r_speed表示行驶效率，r_collision表示车辆是否发生碰撞的参数，r_mindis表示与周围车辆的最小距离，r_acc为舒适性衡量参数，r_closse为判断自动驾驶车辆是否在向目的地靠近的衡量参数；

所述行驶效率r_speed的计算公式为

其中，v_car为车辆的行驶速度，

当车辆行驶速度低于5m/s时，所述行驶效率r_speed为负值；

当车辆行驶速度大于10m/s时，所述行驶效率r_speed为负值；

所述车辆是否发生碰撞的参数r_collision的计算公式为

当车辆在行驶过程中发生碰撞时，r_collision值为-1000，未发生碰撞时的r_collision为1；

所述与周围车辆的最小距离r_mindis的计算公式为

r_mindis＝d_min-5

当最小距离d_min等于5米时，所述与周围车辆的最小距离r_mindis为0；当最小距离d_min大于5米时，所述与周围车辆的最小距离r_mindis为正值；

所述舒适性衡量参数r_acc的计算公式为

r_acc＝min(0,2-|acc|)

其中，acc用于表示自动驾驶车辆的加速度，

当自动驾驶车辆的加速度acc的绝对值小于等于2时，所述舒适性衡量参数r_acc为0；

r_closse＝distance_t-distance_t-1

当自动驾驶车辆向目标位置靠近时，所述判断自动驾驶车辆是否在向目的地靠近的衡量参数r_closse为正值；

7.如权利要求6所述的基于强化学习的自动驾驶车辆交互控制方法，其特征在于，评判网络包括target网络和value网络，两个网络的架构完全一致，所述value网络的参数每学习一次就进行一次参数更新，所述target网络的参数是每当所述value网络进行固定次数学习后的复制版。

8.如权利要求7所述的基于强化学习的自动驾驶车辆交互控制方法，其特征在于，所述步骤3包括以下子步骤：

步骤33：所述决策网络根据输入的特征向量输出相应的动作在训练过程中引入实时人类指导对学习过程进行监督，即在输出动作的同时，人类驾驶员也同时根据所观察到的状态输出对应的动作所述最终被自动驾驶车辆执行的驾驶动作是动作和动作的加权求和，计算公式为

其中，为人类驾驶经验的平均奖励值，r_t-1为上一时刻的奖励，为动作的权重；

步骤35：自动驾驶车辆完成一次与环境交互后，便能获得一条自我探索经验并将其存储在经验池中，当收集到超过数量阈值的自我探索经验时，进行决策网络和评判网络的学习和参数更新。

9.如权利要求8所述的基于强化学习的自动驾驶车辆交互控制方法，其特征在于，所述决策网络的学习数据即为所述用于模型训练的数据，其采样学习的公式为

B＝(p～D^H)∪(1-p～D^E)

其中，B表示一个批次的学习样本，p表示在本批次学习样本中人类驾驶经验D^H所占的比例，D^E则表示自动驾驶车辆的探索经验；

所述比例p的计算公式为

其中，r_t表示自动驾驶车辆探索时的当前奖励。

10.如权利要求9所述的基于强化学习的自动驾驶车辆交互控制方法，其特征在于，当自动驾驶车辆的平均奖励超过提升阈值时，学习样本中的自我探索经验占比则进行相应的提升，损失函数的计算公式为