CN113044064A

CN113044064A - 基于元强化学习的车辆自适应的自动驾驶决策方法及系统

Info

Publication number: CN113044064A
Application number: CN202110356309.4A
Authority: CN
Inventors: 章宗长; 俞扬; 周志华; 胡亚飞; 徐峰
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-06-29
Anticipated expiration: 2041-04-01
Also published as: CN113044064B

Abstract

本发明公开一种基于元强化学习的车辆自适应的自动驾驶决策方法及系统，引入了一个任务编码模块，从车辆行车轨迹中识别当前车况信息，并编码为向量表示，使系统意识到当前车况，并且在车况发生改变时及时调整自身行车策略，使系统更加鲁棒、安全。为了达到较好的乘坐体验，使用强化学习来解决自动驾驶领域中的决策问题。系统包括虚拟环境模块、记忆模块、感知模块、编码模块、决策模块和控制模块。通过向虚拟环境数据库添加极可能丰富的任务模型以加强系统的可靠性；通过改变SAC强化学习算法，使其能够基于任务编码模块做出决策；通过最大化任务编码与采样轨迹之间的互信息的方式，使任务编码模块能够学习到一个包含丰富信息的任务编码。

Description

基于元强化学习的车辆自适应的自动驾驶决策方法及系统

技术领域

本发明涉及一种基于元强化学习的车辆自适应的自动驾驶决策方法及系统，适用各种不同规格不同型号的车辆使用，而无需对于每一款汽车都重新学习新的自动驾驶系统，属于汽车自动驾驶技术领域。

背景技术

自动驾驶主要需要解决三个核心问题：状态感知、路径规划以及驾驶行为的选择。目前，如何确定汽车所处的状态也就是“我在哪”的问题可以通过使用多种传感器来解决；如何确定到达目的地的整体路径即“怎么去”的问题可以使用当前主流的Dijkstra、A*、动态规划等算法来解决。然而，如何根据汽车当前所处的状态来选择最合适的驾驶行为，如在通过路口时如何根据红路灯以及路口的车辆行人状况的信息决定是匀速通过或刹车等待等行为，确保行车安全，此类问题是当前汽车自动驾驶领域最重要的研究问题。

基于强化学习的思想，我们把汽车的行驶过程看作是一个马尔可夫决策过程(Markov Decision Process,MDP)。汽车下一时刻所处的状态只与当前时刻的状态和基于当前状态采取的动作有关。

除了这种状态转移的性质外，奖励函数是使用强化学习解决序列决策问题的关键。在强化学习中，智能体在环境中进行探索，通过环境对自身的反馈，通常是一个奖励值，并以此来更新自己在环境中执行的策略。也就是说，智能体采取了一个动作后，环境通过奖励来告诉智能体它采取的动作是好是坏，以及好坏的程度。因此，设计者在设计任务时，需要根据任务执行的目的来定义奖励函数，这要求设计者具备一定的先验知识。例如，在自动驾驶任务中，奖励函数的设计需要综合安全性、舒适性、高效性等各方面因素。

其次，由于实车训练效率低下且成本高昂，所以当前自动驾驶系统一般都是现在设计好的模拟器中进行训练，然后再迁移到实车上。但模拟器中的驾驶环境与真实的驾驶环境总是存在各种各样的差异，可能导致训练好的自动驾驶系统在模拟器中的表现优异，但在真实环境中的效果却差强人意。

最后，也是非常现实的一点，那就是强化学习需要消耗大量的计算资源，如果针对不同规格的车辆都要求重新学习自动驾驶系统的话，这无疑是非常低效且消耗资源的。

以上这些都导致我们很难使用单纯的强化学习方法来从零开始学得健壮的、可靠的、安全的行车策略。

元学习中模型的目标是“学习如何学习”，以此使智能体能够快速适应不同的任务。在实际场景中由于动力学系统上的不同，仅仅使用强化学习得到的最优策略的泛化性能有限。以自动驾驶为例，在一辆小轿车上可以完美运行的自动驾驶系统，将其移植到一辆面包车上可能会由于车辆长宽及高度等变化而导致系统做出不安全的决策。此外，车辆的刹车距离等属性可能会随着时间的推移而发生变化，使用元强化学习可以使汽车及时适应这种变化。 PEARL(Probabilistic Embeddings for Actor-critic ReinforcementLearning)是目前为止效果最好的元强化学习算法，可以简单的将PEARL看成两部分，一部分是任务编码部分，可以将与任务交互产生的数据编码，表示相应的任务，然后基于此编码在对应任务下使用常规强化学习算法解决任务，在测试时，智能体可以根据编码器的结果意识到当前任务时哪一个，并采取相应的策略。然而，PEARL也存在不足，本发明便对其编码部分做了创新性的改进，并使用改进后的算法解决自动驾驶领域的问题。

发明内容

发明目的：针对现有车辆自动驾驶系统中存在的问题与不足，本发明提供一种基于元强化学习的车辆自适应的自动驾驶决策方法及系统，在车辆属性发生变化的情况下实现了车辆行驶策略的自动调整，以此保证行驶的安全性和可靠性。本发明是基于元学习、强化学习和表示学习理论实现的，而非以基于规则的方式。元强化学习可以使自动驾驶系统能够快速响应车辆属性的变化，这使得此处提出的基于元强化学习的自动驾驶系统与其它现有系统相比，更加高效、安全。然而，元强化学习的训练比起普通的强化学习算法需要消耗更多的资源以及与环境交互的样本。本发明中使用了离线的方法，具体来说，就是创建了一个本地的记忆模块，用来存储与环境交互产生的数据，如此实现训练数据的多次使用，使得数据被充分利用。此外，如何使车载系统意识到车辆属性的变化，并学会快速调整自身驾驶策略是该系统设计的难点。对于一般的强化学习方法，如果某一驾驶方案能够使车辆在当前路况下安全、快速地行驶，则会给该方案一个高的评分(奖励)；反之，如果发生车祸，则会给一个低的评分。我们期望在整个行驶过程中得到的累计评分最大。为了使系统从车辆运动轨迹中意识到自身车辆属性的变化，本发明中设置了一个编码模块，其输入为一条运动轨迹，输出是一个向量，若不同属性的车辆可以看成不同的驾驶任务，则编码木块产生的向量可看作任务的表示，其中蕴含了足够多与任务相关的信息。普通强化学习的策略仅仅基于当前状态，本发明中的策略除了基于当前状态，还基于编码模块产生的任务编码。即使系统意识到当前处于何种任务中，如此系统可以针对不同的任务采取不同的策略。总的来说，本发明中首先需要学习一个好的任务编码模块，然后基于任务编码使用强化学习来寻找当前编码任务下的最优策略。

在本发明中，自动驾驶模型由虚拟环境模块、记忆模块、感知模块、编码模块、决策模块和控制模块六部分构成。本发明的亮点在于，本发明提出的基于元强化学习的自动驾驶系统则是一个会学习和调整的系统，它可以及时发现自车属性的变化，并据此调整自身的驾驶策略。且与现有的元强化学习算法PEARL不同，本发明对PEARL做了两点创新性的改进，注重如何学习到一个能够复用到新任务上的任务编码器，以尝试解决任务编码器在遇到新的任务时候无法得到一个对于决策模块有意义的编码的问题，并使用改进后的算法训练产生车辆自适应的自动驾驶系统。本发明提出的自动驾驶方法通过使用记忆模块在降低计算资源消耗的同时，提升了行车决策模型的学习效率，改进了环境信息的利用率，并且引入任务编码模块使得系统可以及时察觉车况变化，并作出调整，弥补了现有自动驾驶方法灵活性上的不足，使得自动驾驶系统更加鲁棒，行车过程更加安全稳定，提升了用户体验。

技术方案：一种基于元强化学习的车辆自适应的自动驾驶决策方法，通过引入任务编码模块，并将任务编码模块的结果作为决策依据之一，解决了现有自动驾驶方案中出现的无法及时响应车况变化以及反复重新训练等问题。该方法具有灵活性高、鲁棒性强等优点，在自动驾驶领域具有广泛的应用前景。

具体包括如下步骤：

S1、初始化系统，主要是与决策相关的记忆模块、感知模块、编码模块、决策模块和控制模块，虚拟环境模块由人为预设。

S2、基于虚拟环境数据库提供的各种任务模型，系统与之交互采集数据，根据强化学习的设定，交互数据以transition的格式表示，即(s_j，a_j，s′_j，r_j)，其中下标j表示某一时刻j，s_j为 j时刻汽车所处的状态，a_j表示在当前状态下汽车采取的动作，s′_j为汽车采取动作后导致的下一状态，r_j为任务设定的奖励。对于不同的任务模型，都在记忆模块初始化一个新的分区βⁱ，保存相应的数据。

S3、对于记忆模块中的某个分区βⁱ，从中采样一批样本，用集合c_i表示，将c_i输入任务编码模块，并从获得的编码的分布中采样获得一个任务的编码表示z_i。任务编码模块和决策模块均由深度神经网络表示，使用φ表示任务编码模块的网络参数，θ_π表示决策模块中策略网络的参数，θ_Q表示决策模块中评价网络的参数。

S4、在决策模块中，使用SAC强化学习算法，解决当前编码z_i下的任务。Actor-Critic算法广泛的用于强化学习的算法框架中，其中Actor为汽车的策略，而Critic为对于汽车动作的评价函数。本发明采用的Soft Actor-Critic是从软策略迭代(Soft PolicyIteration)变化而来的，主要是输入加入了任务编码z_i使得所有策略等都是基于任务的。简单来说，接下来需要计算策略模块两个网络的优化目标，然后使用梯度更新这两个网络的参数θ_π和θ_Q。对于评价函数，其优化目标如下：

其中：

这里字母D指的是系统与环境交互产生的transition数据对应的分布，P指的是在t时刻的状态s下系统采取动作a后，t+1时刻状态服从的分布；Q_θ(s_t，a_t|z)指的是评价网络输出的，在任务编码z下，在t时刻的状态s采取动作a后未来累计回报的估计；r(s_t，a_t|z)表示在状态s采取动作a后环境给出的即时奖赏；γ是强化学习设定中的折扣因子，用来平衡即时奖赏与未来的重要性，如γ＝0，则智能体只关注即时奖赏，而不管未来可能的回报；V(s_t+1|z)是强化学习中的值函数，表示在某一时刻状态为s时，依据当前的策略可以获得的回报的期望。具体的，使用了一个目标评价网络，可以简单理解为由于其利用了下一步的真实回报，所以它比待训练网络准确。优化目标就是使待训练网络接近目标网络的值，据此计算并用Lⁱ _critic表示此优化项。对于策略网络，其优化目标形式如下：

上式中N是一个高斯分布，f_φ是参数为φ的表示策略的函数，∈_t是从高斯分布采样得到的噪声因子，π_φ指的是未加噪声的策略函数。通俗来说上式表示的优化目标是使得评价函数对当前决策的评分越高越好，使用Lⁱ _actor来表示此项，即J_π(φ)。本发明设计的异策略强化学习基于SAC算法，将从回放缓存中编码采样得到的任务编码加入了SAC算法中的Q和V 值函数，以使得该算法能够利用任务变量完成不同的任务，并且能够适应新的任务。

S5、本发明中任务编码模块是实现车辆自适应的重要支撑，接下来从两方面去计算其优化目标，以供任务编码网络的更新。第一点，对于从轨迹中得到的任务编码z，最大化任务编码z和轨迹c之间的互信息。第二点，对于从不同任务的回放缓存区中采样得到的轨迹的任务编码，训练一个判别器，使得判别器能够区分任务编码是否属于该轨迹，从而辅助任务编码器的更新。基于此思想，计算并使用Lⁱ _represent来表示相应的损失，即第一项为任务编码 z和轨迹c之间的互信息，第二项为图2表示的判别器的总得分。

S6、在任务编码模块中，还创新的提出将任务相似度纳入优化目标。这是为了使任务编码后的分布更加合理，即相似的任务编码后距离应该相近。为了衡量任务间的相似性，本发明基于假设：对于同一个任务，一个任务编码在该任务上获得的预期回报越高，那么这个任务编码与该任务表示的最优解越相近。因此，提出了一种基于任务编码不同导致策略不同的任务相似度的估计并将其命名为‘策略进步’方法。所谓策略进步，即使用正确的任务编码时可以获得的回报与使用另一个任务的编码时的差值。计算如下：

其中，i、j为不同任务的编号，T为从任务缓冲区中采样的状态对数量，q_φ表示编码模块相应的函数。据此，计算并使用Lⁱ _similarity表示此项优化目标。

S7、对记忆模块的每个单元执行S3到S6的操作。

S8、在任务编码模块中，使用梯度下降算法更新网络参数φ：

上式中倒三角表示的是对其右下角的参数求梯度，另外本式的α₁以及后文中的α₂和α₃都是超参数，控制参数更新的速度，可在训练时人为调节。

S9、在决策模块中，使用梯度下降算法更新网络参数θ_π：

S10、在决策模块中，使用梯度下降算法更新网络参数θ_Q：

S11、重复S3——S10，直至系统收敛，达到最佳性能。

基于元强化学习的车辆自适应的自动驾驶系统，包括虚拟环境模块、记忆模块、感知模块、编码模块、决策模块和控制模块。

虚拟环境模块：从虚拟环境数据库中读取不同的虚拟模型，用来训练自动驾驶系统。为了便于说明，本说明中主要关注车辆的属性变化，而忽略环境的变化。需要注意的是，在实际应用中，环境也可以是多样性的。在本模块中，系统与虚拟模型交互产生大量数据，用来训练任务编码模块以及使用强化学习算法学得相应驾驶任务下的驾驶策略。

记忆模块：为了提高样本的利用率，在记忆模块中将与虚拟环境交互产生的样本按照不同的驾驶任务分类存储下来。也就是说，记忆模块中又分成一个个记忆单元，每个记忆单元中都储存着不同任务中产生的数据，这些数据供本发明中的元强化学习算法使用，以训练车辆自适应的自动驾驶系统。

感知模块：感知当前环境并对环境数据进行处理，输出当前的状态。感知模块的感知单元包括汽车的摄像头、全球定位系统、惯性传感器、毫米波雷达、激光雷达等一系列传感器，所做的工作包括障碍物识别、定位、测距等，收集的数据包括路况图像、经纬度和雷达的点云数据等。感知模块将这些数据整合并按照预先设计好的格式传递给自动驾驶系统的其他模块使用。

编码模块：将与环境交互产生的一系列轨迹数据输入本模块，输出一个向量的分布表示输入数据对应的任务。本模块所作的工作可以看成是将输入的轨迹数据做了一个概括或总结，提取出了足够的任务信息，并使用一个向量来表示。虽然人无法理解这个任务向量的内涵，但是使用以此训练产生的系统是可以理解其表示的任务的。可以看出，编码器的训练对于实现车辆自适应是至关重要的。首先编码模块产生的向量的分布必须包含“足够多”的任务信息。这里，如果把任务数据和编码产生的向量看成两个随机变量，“足够多”是指这两个随机变量的相关性大到足以使得我们的系统可以区分不同任务产生的编码。受到深度互信息最大化(Deep InfoMax,DIM)方法的启发，本发明中引入信息论中的互信息作为优化目标之一，使输入和输出的互信息尽可能的大，也就是保证了编码模块产生的结果尽可能保留输入中的信息。此外，编码模块应该服务于决策模块，使决策模块所作序列决策能够得到尽可能大的回报，因此，这也使训练编码模块的一个优化目标。最后，我们希望编码模块产生的结果具有一定的几何意义，那就是对于相似的任务，其编码结果的距离较近，不同的任务的结果距离较远。这是本模块训练的第三个优化目标。

决策模块：基于感知模块传递过来的状态信息以及任务编码模块给出的任务信息来生成动作。动作是对车辆行为变化的描述，相当于人为驾驶时做出的操作，只不过此处由机器给出。以普通轿跑为例，本模块将基于任务编码模块给出的任务信息以及当前的环境状态信息，生成包含“减速10％、向右变道”等行车信息的动作。此外在训练时本模块引入了评价函数，但在系统运行该引入不发挥作用。

控制模块：将决策模块输出的动作转换为汽车的控制信号，操控汽车。例如，若动作中包含“打开右转向灯、减速10％、向右变道”的信息，控制单元将会发出相应的数字控制信号，让无人车拨动右转向灯按钮、减少输油量、顺时针转动方向盘。控制单元通过调用CAN接口来实现对车辆的控制。

有益效果：与现有技术相比，本发明具有如下优点：

传统的自动驾驶都是基于规则的自动驾驶策略，只能解决预设场景下的行车决策问题。若环境发生改变或是在一个完全陌生的环境下驾驶，已有行车方案的表现将会变得很糟糕。普通的使用强化学习得到的自动驾驶系统存在无法及时响应车况变化以及反复重新训练等问题。而本发明提出的基于元强化学习的自动驾驶系统则是一个会学习和调整的系统，它可以及时发现自车属性的变化，并据此调整自身的驾驶策略。

与现有的元强化学习算法PEARL不同，本发明对PEARL做了两点创新性的改进，注重如何学习到一个能够复用到新任务上的任务编码器，以尝试解决任务编码器在遇到新的任务时候无法得到一个对于决策模块有意义的编码的问题，并使用改进后的算法训练产生车辆自适应的自动驾驶系统。

首先，本发明使用表示学习的思想学习任务编码，提出并设计了基于互信息的任务编码模型。该模型基于噪声对比估计量，对采样轨迹与任务编码之间的互信息进行了计算，并对此估计量进行了最大化，以获得一个有效的任务编码。此外，该模型还将任务编码与先验高斯分布进行匹配，使得任务编码在新任务上的适应性得到提升。

其次，本发明提出了一个对于任务相似性的估计方法，解决相似任务之间的任务编码距离过大的问题。通过状态动作对与任务编码的值函数对策略的相似度进行估计，从而估计任务的相似度，并对相似任务的任务编码的概率分布进行约束，以辅助任务编码器的更新。

本发明将元学习和强化学习相结合，通过使用记忆模块在降低计算资源消耗的同时，提升了行车决策模型的学习效率，改进了环境信息的利用率，并且引入任务编码模块使得系统可以及时察觉车况变化，并作出调整，弥补了现有自动驾驶方法灵活性上的不足，使得自动驾驶系统更加鲁棒，行车过程更加安全稳定，提升了用户体验。

附图说明

图1为本发明系统的实施例框架图；

图2为本发明系统的任务编码模块优化互信息的示意图；

图3为本发明策略进步的计算示意图；

图4为本发明任务编码模块计算示意图。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

在本发明中，驾驶行为的选择基于任务编码模块给出的任务信息和感知模块给出的状态信息，待完成的任务是在某一车况下从地图上一点快速、安全地到达另一点。显然，如果某一驾驶方案在当前路况下能够可靠地行驶，则该方案会被给予一个正的奖励值；否则，给予一个负的奖励值。若要使累计奖励最大，我们需要找到从环境状态和任务编码到驾驶行为的最优映射。值得注意的是，本发明系统中首先基于虚拟环境库、虚拟环境模块和记忆模块来模拟真实环境并进行系统的训练，此部分在图1中由虚线表示。

自动驾驶模型的理论基础是元学习和强化学习。强化学习非常适合处理如自动驾驶这样的序列决策问题，可以学到比较自然可靠的驾驶策略。但是仅仅使用强化学习得到的系统在不同的车况下都必须重新训练，在车况随时间变化后无法及时发现变化，甚至产生安全隐患，若频繁的重新训练又会遇到训练耗时耗算力的情况。而元学习可以使系统学会如何在任务发生变化时及时调整自身的驾驶策略。这使得系统可以及时察觉自身车辆属性的变化，并作出适应性的改变，使自动驾驶系统更加鲁棒和可靠。

如图2所示，本发明通过训练一个分类器对互信息进行估计。首先从记忆模块采样得到两条循环无关的轨迹c_i和c_j，然后分别通过任务编码器得到任务编码z_i和z_j,再将(c,z)作为判别器的输入，得到正例和反例的得分，以作为判别器更新的依据。这里可以简单的理解为编码结果的信息是否足够判别器做出正确的判断，只要不断优化判别器，就可以不断优化编码模块。

如图3所示，本发明提出的策略进步的计算过程如图。通过从回放缓存区采样一个来自不同任务的轨迹并得到任务编码，并计算在当前任务轨迹上的Q值，通过Q值差得到策略进步值。

如图4所示，任务编码器以一条顺序无关的采样轨迹也就是transition的集合为输入，经过任务编码网络得到后验分布，对每一个transition输出一个编码的分布，将所有分布综合起来即得到任务编码模块的输出。transition的集合在训练时是从记忆模块某一分区采样得到的，在真实使用时是与环境交互得到的。

如图1所示，自动驾驶系统包括虚拟环境模块、记忆模块、感知模块、编码模块、决策模块和控制模块。

虚拟环境模块：从虚拟环境数据库中读取不同的虚拟模型，用来训练自动驾驶系统。为了便于说明，本说明中主要关注车辆的属性变化，而忽略环境的变化。需要注意的是，在实际应用中，环境也可以使多样性的。在本模块中，系统与虚拟模型交互产生大量数据，用来训练任务编码模块以及使用强化学习算法学得相应驾驶任务下的驾驶策略。

记忆模块：为了提高样本的利用率，在记忆模块中将与虚拟环境交互产生的样本按照不同的任务分类存储下来。也就是说，记忆模块中又分成一个个记忆单元，每个记忆单元中都储存着不同任务中产生的数据，这些数据供本发明中的元强化学习算法使用，以训练车辆自适应的自动驾驶系统。

感知模块：感知当前环境并对环境数据进行处理，输出当前的状态。感知单元包括摄像头、全球定位系统、惯性传感器、毫米波雷达、激光雷达等一系列传感器，所做的工作包括障碍物识别、定位、测距等，收集的数据包括路况图像、经纬度和雷达的点云数据等。感知模块将这些数据整合并按照预先设计好的格式传递给自动驾驶系统的其他模块使用。

编码模块：将于环境交互产生的一系列轨迹数据输入本模块，输出一个向量的分布表示输入数据对应的任务。本模块所作的工作可以看成是将输入的轨迹数据做了一个概括或总结，提取出了足够的任务信息，并使用一个向量来表示。虽然人无法理解这个任务向量的内涵，但是使用以此训练产生的系统是可以理解其表示的任务的。可以看出，编码器的训练对于实现车辆自适应是至关重要的。首先编码模块产生的向量的分布必须包含足够多的任务信息。受到深度互信息最大化(Deep InfoMax,DIM)方法的启发，本发明中引入信息论中的互信息作为优化目标之一，使输入和输出的互信息尽可能的大，也就是保证了编码模块产生的结果尽可能保留输入中的信息。此外，编码模块应该服务于决策模块，使决策模块所作序列决策能够得到尽可能大的回报，因此，这也使训练编码模块的一个优化目标。最后，我们希望编码模块产生的结果具有一定的几何意义，那就是对于相似的任务，其编码结果的距离较近，不同的任务的结果距离较远。这是本模块训练的第三个优化目标。

基于元强化学习的车辆自适应的自动驾驶决策方法，通过学习一个更好地任务编码模块，然后利用强化学习在相应任务编码下学习最优的驾驶策略。基于元强化学习的车辆自适应的自动驾驶系统的执行过程为：

S2、基于虚拟环境数据库提供的各种任务模型，与之交互采集数据，根据强化学习的设定，交互数据以transition的格式表示，即(s_j，a_j，s′_j，r_j)，其中下标j表示某一时刻j，s为j时刻汽车所处的状态，a_j表示在当前状态下采取的动作，s′_j为采取动作后导致的下一状态，r_j为任务设定的奖励。对于不同的任务模型，都在记忆模块初始化一个新的分区βⁱ，保存相应的数据。

S3、对于记忆模块中的某个分区βⁱ，从中采样一批样本，用集合c_i表示，将c_i输入任务编码模块，并从获得的编码的分布中采样获得一个任务的编码表示z_i。值得注意的是，在本发明中，任务编码模块和决策模块均由深度神经网络表示，使用φ表示任务编码模块的网络参数，θ_π表示决策模块中策略网络的参数，θ_Q表示决策模块中评价网络的参数。

S4、在决策模块中，使用SAC强化学习算法，解决当前编码z_i下的任务。Actor-Critic算法广泛的用于强化学习的算法框架中，其中Actor为智能体的策略，而Critic为对于智能体动作的评价函数。本发明采用的Soft Actor-Critic是从软策略迭代(SoftPolicy Iteration)变化而来的，主要是输入加入了任务编码z_i使得所有策略等都是基于任务的。简单来说，接下来需要计算策略模块两个网络的优化目标，然后使用梯度更新这两个网络的参数θ_π和θ_Q。对于评价函数，其优化目标如下：

其中：

这里字母D指的是与环境交互产生的transition数据对应的分布，P指的是在t时刻的状态s下采取动作a后，t+1时刻状态服从的分布。具体的，使用了一个目标评价网络，可以简单理解为由于其利用了下一步的真实回报，所以它比待训练网络准确。优化目标就是使待训练网络接近目标网络的值，据此计算并用Lⁱ _critic表示此优化项。对于策略网络，其优化目标形式如下：

上式中N是一个高斯分布，f_φ是参数为φ的表示策略的函数。通俗来说上式表示的优化目标是使得评价函数对当前决策的评分越高越好，使用Lⁱ _actor来表示此项。本发明设计的异策略强化学习基于SAC算法，将从回放缓存中编码采样得到的任务编码加入了SAC算法中的Q和V值函数，以使得该算法能够利用任务变量完成不同的任务，并且能够适应新的任务。

S5、本发明中任务编码模块是实现车辆自适应的重要支撑，接下来从两方面去计算其优化目标，以供任务编码网络的更新。第一点，对于从轨迹中得到的任务编码z，最大化任务编码z和轨迹c之间的互信息。第二点，对于从不同任务的回放缓存区中采样得到的轨迹的任务编码，训练一个判别器，使得判别器能够区分任务编码是否属于该轨迹，从而辅助任务编码器的更新。基于此思想，计算并使用Lⁱ _represent来表示相应的损失。

S6、在任务编码模块中，还创新的提出将任务相似度纳入优化目标。这是为了使任务编码后的分布更加合理，即相似的任务编码后距离应该相近。为了衡量任务间的相似性，本发明基于假设：对于同一个任务，一个任务编码在该任务上获得的预期回报越高，那么这个任务编码与该任务表示的最优解越相近。因此，本文提出了一种基于任务编码不同导致策略不同的任务相似度的估计并将其命名为‘策略进步’方法。所谓策略进步，即使用正确的任务编码时可以获得的回报与使用另一个任务的编码时的差值。计算如下：

据此，计算并使用Lⁱ _similarity表示此项优化目标。

S7、对记忆模块的每个单元执行S3到S6的操作。

S8、在任务编码模块中，使用梯度下降算法更新网络参数φ：

S9、在决策模块中，使用梯度下降算法更新网络参数θ_π：

S10、在决策模块中，使用梯度下降算法更新网络参数θ_Q：

S11、重复S3——S10，直至系统收敛，达到最佳性能。

Claims

1.一种基于元强化学习的车辆自适应的自动驾驶决策方法，其特征在于，包括如下步骤：

S1、初始化系统，初始化自动驾驶系统的记忆模块、感知模块、编码模块、决策模块和控制模块，系统的虚拟环境模块由人为预设；

S2、基于虚拟环境数据库提供的各种任务模型，与之交互采集数据，交互数据以transition的格式表示；对于不同的任务模型，都在记忆模块初始化一个新的分区βⁱ，保存与任务相应的数据；

S3、对于记忆模块中的某个分区βⁱ，从中采样一批样本，用集合c_i表示，将c_i输入任务编码模块，并从获得的编码的分布中采样获得一个任务的编码表示z_i；

S4、在决策模块中，使用SAC强化学习算法，解决当前编码z_i下的任务；

S5、在任务编码模块中，从两方面去计算其优化目标，以供任务编码网络的更新；

S6、在任务编码模块中，将任务相似度纳入优化目标，计算并使用Lⁱ _similarity表示优化目标；

S7、对记忆模块的每个单元执行S3到S6的操作。

S8、在任务编码模块中，使用梯度下降算法更新网络参数φ；

S9、在决策模块中，使用梯度下降算法更新网络参数θ_π；

S10、在决策模块中，使用梯度下降算法更新网络参数θ_Q；

S11、重复S3——S10，直至系统收敛，达到最佳性能。

2.根据权利要求1所述的基于元强化学习的车辆自适应的自动驾驶决策方法，其特征在于，所述S5在任务编码模块中，从两方面去计算其优化目标，以供任务编码网络的更新；第一点，对于从轨迹中得到的任务编码z，最大化任务编码z和轨迹c之间的互信息；第二点，对于从不同任务的回放缓存区中采样得到的轨迹的任务编码，训练一个判别器，使得判别器能够区分任务编码是否属于该轨迹，从而辅助任务编码器的更新；计算并使用Lⁱ _represent来表示相应的损失。

3.根据权利要求1所述的基于元强化学习的车辆自适应的自动驾驶决策方法，其特征在于，所述S4中，在软策略迭代的基础上，将输入加入了任务编码z_i使得所有策略都是基于任务的；接下来需要计算策略模块两个网络的优化目标，然后使用梯度更新这两个网络的参数θ_π和θ_Q；对于评价函数，其优化目标如下：

其中：

D指的是与环境交互产生的transition数据对应的分布，P指的是在t时刻的状态s下采取动作a后，t+1时刻状态服从的分布；优化目标就是使待训练网络接近目标网络的值，据此计算并用Lⁱ _critic表示此优化项；对于策略网络，其优化目标形式如下：

上式中N是一个高斯分布，f_φ是参数为φ的表示策略的函数；上式表示的优化目标是使得评价函数对当前决策的评分越高越好，使用Lⁱ _actor来表示此项。

4.根据权利要求1所述的基于元强化学习的车辆自适应的自动驾驶决策方法，其特征在于，所述S6在任务编码模块中，设：对于同一个任务，一个任务编码在该任务上获得的预期回报越高，那么这个任务编码与该任务表示的最优解越相近；使用正确的任务编码时可以获得的回报与使用另一个任务的编码时的差值；计算如下：

据此，计算并使用Lⁱ _similarity表示此项优化目标。

5.根据权利要求1所述的基于元强化学习的车辆自适应的自动驾驶决策方法，其特征在于，所述S8在任务编码模块中，使用梯度下降算法更新网络参数φ：

上式中倒三角表示的是对其右下角的参数求梯度，α₁是超参数，控制参数更新的速度，在训练时人为调节。

6.根据权利要求1所述的基于元强化学习的车辆自适应的自动驾驶决策方法，其特征在于，所述S9在决策模块中，使用梯度下降算法更新网络参数θ_π：

α₂是超参数，控制参数更新的速度，在训练时人为调节。

7.根据权利要求1所述的基于元强化学习的车辆自适应的自动驾驶决策方法，其特征在于，所述S10在决策模块中，使用梯度下降算法更新网络参数θ_Q：

α₃是超参数，控制参数更新的速度，在训练时人为调节。

8.一种基于元强化学习的车辆自适应的自动驾驶系统，其特征在于，包括虚拟环境模块、记忆模块、感知模块、编码模块、决策模块和控制模块；

虚拟环境模块：从虚拟环境数据库中读取虚拟环境模型；

记忆模块：存储与不同的虚拟环境交互产生的交互数据；

感知模块：感知当前环境并对环境数据进行处理，输出当前状态；

编码模块：输入任务轨迹数据，输出相应任务的编码；

决策模块：基于感知单元输出的当前状态和编码模块输出的当前任务编码来决定采用哪种驾驶行为；

控制模块：将动作规划单元输出的动作转换为控制信号，改变行车状态。

9.根据权利要求8所述的基于元强化学习的车辆自适应的自动驾驶系统，其特征在于，在记忆模块中将与虚拟环境交互产生的样本按照不同的任务分类存储下来。所述记忆模块中又分成一个个记忆单元，每个记忆单元中都储存着不同任务中产生的数据，这些数据供本发明中的元强化学习算法使用，以训练车辆自适应的自动驾驶系统；

所述感知模块的感知单元包括汽车的摄像头、全球定位系统、惯性传感器、毫米波雷达和激光雷达，用于障碍物识别、定位、测距；收集的数据包括路况图像、经纬度和雷达的点云数据，感知模块将这些数据整合并按照预先设计好的格式传递给自动驾驶系统的其他模块使用；

所述决策模块基于感知模块传递过来的状态信息以及任务编码模块给出的任务信息来生成动作。