CN111123963B

CN111123963B - 基于强化学习的未知环境自主导航系统及方法

Info

Publication number: CN111123963B
Application number: CN201911313540.4A
Authority: CN
Inventors: 顾晶晶; 黄海涛
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2021-06-08
Anticipated expiration: 2039-12-19
Also published as: CN111123963A

Abstract

本发明公开了一种基于强化学习的未知环境自主导航系统及方法，系统包括：训练模块，用于构建飞行决策模型，并基于深度强化学习在模拟环境中对该模型进行训练；交互模块，用于实现无人机机载传感器与环境的交互；规划模块，用于进行路径规划；应用模块，用于与规划模块进行交互，实现无人机在实际未知环境中的导航。方法包括：建立并训练飞行决策模型；获取真实环境信息数据；获取无人机状态图；将无人机状态图作为模型的输入，输出无人机对应采取的动作，之后转第二步，并将该动作作用于真实环境中，改变无人机的状态，直至无人机到达终点。本发明能实现无人机在无先验知识的前提下，进行未知环境的自主导航，具有结构简单、泛化能力强等特点。

Description

基于强化学习的未知环境自主导航系统及方法

技术领域

本发明属于导航领域，具体涉及无人机导航领域，特别涉及一种基于强化学习的未知环境自主导航系统及方法。

背景技术

无人机作为物联网的一个新兴组成部分，在航运领域、地理测绘、环境监测、灾害管理、精准农业等领域引起了越来越多的关注。在这些应用环境中，尤其是人工无法控制的应用环境中，基于无人机的自主导航系统路径规划发挥着更为重要的作用。

传统的路径规划方法，例如A*算法、动态规划和人工势场法都具有在多个约束条件下(如时间、距离和能量)的一些优化问题的特征，这些方法严重依赖于已知的环境的先验知识，包括成损耗图和势场图。然而，即使有先验知识，对于具有强噪声的不完全数据，一些生成模型仍然具有较低的精度。此外，在路径规划中，起点和终点的变化会导致模型的修改和再训练，这会产生巨大的开销。虽然基于计算智能(Computational Intelligence，CI)的方法可以部分提高系统的鲁棒性，但它们仅限于将原有模型泛化到那些变化不大的环境中。更重要的是，由于训练环境和应用环境的巨大差异，在一个完全未知的环境中，如何利用现有信息建立飞行决策模型，并且将其推广到新的场景中是一个需要研究的重要问题。即时定位与地图构(Simultaneous Localization and Mapping，SLAM)是一种替代方法，但它耗时且效率较低。

总之，无人机的自动导航系统仍面临以下问题。首先，在建模过程中，模型过度依赖于特定的环境，这使得无人机不能自主适应不同的飞行环境。其次，无人机可能被派遣到一个未知的环境中，这对处理未知情况的能力提出了很高要求。

发明内容

本发明的目的在于提供一种能高效且准确地引导无人机到达目的地，为未知环境中飞行的无人机提供路径规划的支持，从而提高无人机对不同飞行环境的适应能力的自主导航方法。

实现本发明目的的技术解决方案为：一种基于强化学习的未知环境自主导航系统，包括交互模块、训练模块、规划模块和应用模块；所述交互模块、规划模块和应用模块三者相连，进行连续的路径规划操作；

所述训练模块，用于将路径规划模型转化为飞行决策模型，并基于深度强化学习在模拟环境中对该模型进行训练；

所述交互模块，用于实现无人机机载的多种传感器与实际环境进行交互，并将交互信息数据传输至规划模块；

所述规划模块，和训练模块共享飞行决策模型，用于根据所述飞行决策模型和交互信息数据，进行无人机路径规划；

所述应用模块，用于与规划模块进行交互，实现无人机在实际未知环境中的导航。

进一步地，所述规划模块包括：

无人机状态获取单元，用于利用定位算法以及视觉感知算法分析交互模块获得的交互信息数据，获得无人机状态图；

无人机动作获取单元，用于将所述无人机状态图输入至训练后的飞行决策模型，输出无人机应采取的动作。

一种基于强化学习的未知环境自主导航方法，包括以下步骤：

步骤1，建立飞行决策模型，并在虚拟环境中基于深度强化学习对飞行决策模型进行训练，获得模型

步骤2，将无人机置于真实飞行环境中，无人机通过自身携载的多种传感器获取环境信息数据；

步骤3，对所述环境信息数据进行分析获得无人机状态图；

步骤4，将所述无人机状态图作为模型

的输入，输出无人机对应采取的动作，之后转到步骤2，并将该动作作用于真实飞行环境中，改变无人机的状态，直至无人机到达终点，由此完成无人机在未知环境中的路径规划任务。

进一步地，步骤1中所述建立飞行决策模型，具体包括：

将路径规划模型构建于马尔科夫决策模型框架中，获得马尔科夫决策过程的五元组：

＜S,A,P,R,γ＞

其中，S为一个有限的状态集合，s_t∈S代表无人机在每一个时间t的状态；A为一个有限的动作集合，a_t∈A代表无人机在每一个时间t所做的动作；P为一个状态转换概率：

P[s,a,s′]＝P[S_t+1＝s′|S_t＝s,A_t＝a]；

R表示奖赏，包括即时奖赏和累积奖赏；其中，即时奖赏应用于无人机的飞行过程中，表示无人机在状态s_t时刻执行飞行动作a_t后转移到状态s_t+1，获得即时奖赏值r_t＝R(s_t,a_t,s_t+1)，该奖赏值与以下几个因素有关：

(1)移动方向：以无人机的第一视角作为X轴正方向建立一个二维坐标系，计算目标相对于无人机的方向角θ：

式中，P^T＝(t_x,t_y,t_z)为无人机要到达的目标位置，P^UAV＝(p_x,p_y,p_z)为无人机当前的位置；在每一个时间节点后，若无人机前进方向与目标相对于无人机的方向一致时，无人机将会得到一个激励值λ∈(0,1)；

(2)目标距离：在每一个时间节点后，随着无人机靠近目标，无人机将根据两者之间减少的距离D_r获得一个指数级别的激励值，其中D_r为：

式中，

表示无人机在t时刻所处位置，

表示无人机在t-1时刻所处位置；

(3)障碍感知：无人机在靠近障碍物目标P^obs时，会获得与无人机和障碍物之间距离相关的惩罚值；

(4)时间：随着时间的推移，给无人机一个固定的惩罚值μ，以使无人机能尽快到达目标终点；

则即时奖赏可表示为：

式中，T代表飞行时间；

其中，累积奖赏定义为无人机在飞行路径中执行一系列动作之后的即时奖赏的累计值：

式中，无人机的飞行路径为τ，τ＝(s₀,a₀,s₁,a₁,...)，r_k代表在飞行状态s_k采取动作a_k转变到飞行状态s_k+1得到的即时奖励值；γ∈(0,1)表示折扣因子。

进一步地，步骤1中所述在虚拟环境中基于深度强化学习对飞行决策模型进行训练，具体包括：

设置迭代轮数T、状态特征维度n、动作集A、步长α、衰减因子γ、探索率∈、

网络结构、批量梯度下降的样本数m以及初始化经验回放集合E；

步骤1-1，随机初始化

网络的所有参数，构成参数向量ω，基于ω初始化所有飞行状态和飞行动作对应的价值Q；

步骤1-2，初始化s_t为飞行状态序列的当前飞行状态，并获取其特征向量φ(s_t)；

步骤1-3，将当前飞行状态对应的特征向量作为

网络的输入，获得该飞行状态对应的所有飞行动作对应的Q值；

步骤1-4，利用∈-greedy策略从步骤1-3获得的所有Q值中选取某一Q值对应的飞行动作a_t；

步骤1-5，在飞行状态s_t执行飞行动作a_t获得新的飞行状态s_t+1，获取即时奖赏r_t以及判断飞行状态s_t+1是否为终止飞行状态的结果is_end，并获取飞行状态s_t+1对应的特征向量φ(s_t+1)；

步骤1-6，将e＝{φ(s_t),a_t,r_t,φ(s_t+1),is_end}五元组作为一个样本，存入经验回放集合E；

步骤1-7，将当前飞行状态转变为s_t+1；

步骤1-8，判断经验回放集合E中的样本数是否大于等于m，若是执行步骤1-9，反之返回执行步骤1-3；

步骤1-9，从经验回放集合E中采样m个样本e₁,e₂,e₃,...,e_m，每个样本

计算当前目标Q值y_j：

式中，

代表当前参数为ω的

网络，

为飞行状态的特征向量，

为动作值，

为即时奖励值，

为

对应的飞行状态转变后的飞行状态的特征向量，is_end_j为判断

是否为终止飞行状态的结果；

步骤1-10，利用均方差损失函数：

通过神经网络的梯度反向传播更新

网络的所有参数，形成新的参数向量ω；

步骤1-11，判断s_t+1是否为终止飞行状态，若否则返回步骤1-3，若是，则继续判断迭代轮数是否达到T，若是，则结束迭代，完成飞行决策模型的训练，反之返回步骤1-2。

进一步地，步骤3中对所述环境信息数据进行分析获得无人机状态图，具体过程包括：

步骤3-1，根据环境信息数据，利用视觉感知算法进行障碍物探测，获得障碍物信息；

步骤3-2，根据环境信息数据，利用定位算法计算无人机与目标距离；

步骤3-3，利用多传感器融合算法融合步骤3-1和步骤3-2获得的数据，获得传感器数据图像即无人机状态图。

本发明与现有技术相比，其显著优点为：1)基于强化学习技术，将无人机飞行过程构建于马尔科夫决策过程的框架中，从而将传统的基于环境模型的路径规划方法转化为基于飞行决策模型的路径规划方法，克服了飞行模型对特定环境的依赖；2)采用深度强化学习技术，基于大量的虚拟环境飞行数据，提取飞行状态的特征信息，从而能够在应对未见过的飞行状态时，执行正确的飞行策略，最终实现无人机无需重复训练飞行模型，即可应对不同飞行环境中不同的飞行任务；3)采用多传感器数据融合方法，以更准确地表示无人机所处状态，从而能辅助无人机更好地进行飞行导航。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明基于强化学习的未知环境自主导航系统结构图。

图2为本发明基于深度强化学习对飞行决策模型进行训练的流程图。

图3为本发明实施例中虚拟环境测试结果图，其中图(a)为虚拟环境下训练过程中的累积奖励值曲线示意图，图(b)为虚拟环境下每次测试评估的累积奖励值示意图。

图4为本发明实施例中真实环境示意图。

图5为本发明实施例中真实环境测试结果图，其中图(a)为现实环境下每次测试评估的累积奖励值示意图，图(b)为现实环境下本发明和蚁群算法所规划的路径结果对比图。

具体实施方式

结合图1，本发明提出了一种基于强化学习的未知环境自主导航系统，包括交互模块、训练模块、规划模块和应用模块；交互模块、规划模块和应用模块三者相连，进行连续的路径规划操作。

训练模块，用于将路径规划模型转化为飞行决策模型，并基于深度强化学习在模拟环境中对该模型进行训练。

交互模块，用于实现无人机机载的多种传感器与实际环境进行交互，并将交互信息数据传输至规划模块；其中多种传感器包括定位传感器、超声波传感器、图像传感器以及姿态传感器等。

规划模块，和训练模块共享飞行决策模型，用于根据飞行决策模型和交互信息数据，进行无人机路径规划；该模块包括：

无人机动作获取单元，用于将无人机状态图输入至训练后的飞行决策模型，输出无人机应采取的动作。

应用模块，用于与规划模块进行交互，实现无人机在实际未知环境中的导航。

本发明提出了一种基于强化学习的未知环境自主导航方法，包括以下步骤：

该步骤中建立飞行决策模型，具体包括：

＜S,A,P,R,γ＞

P[s,a,s′]＝P[S_t+1＝s′|S_t＝s,A_t＝a]；

式中，

表示无人机在t时刻所处位置，

表示无人机在t-1时刻所处位置；

则即时奖赏可表示为：

式中，T代表飞行时间；

结合图2，该步骤中在虚拟环境中基于深度强化学习对飞行决策模型进行训练，具体包括：

步骤1-1，随机初始化

步骤1-3，将当前飞行状态对应的特征向量作为

步骤1-7，将当前飞行状态转变为s_t+1；

计算当前目标Q值y_j：

式中，

代表当前参数为ω的

网络，

为飞行状态的特征向量，

为动作值，

为即时奖励值，e_js'为

是否为终止飞行状态的结果；

步骤1-10，利用均方差损失函数：

通过神经网络的梯度反向传播更新

网络的所有参数，形成新的参数向量ω；

步骤3，对环境信息数据进行分析获得无人机状态图，该步具体包括：

步骤4，将无人机状态图作为模型

下面结合实施例对本发明作进一步详细的描述。

实施例

本实施例中对本发明和现有技术(蚁群优化算法)的路径规划进行实验评估，包括两部分实验：

(1)虚拟环境实验

虚拟环境实验主要用于验证，验证在虚拟环境中训练出的模型，能否在任务变化的情况下，依旧能够完成路径规划任务。训练过程中获得的累积奖励值如图3所示，由图3(a)可以看出，本发明方法训练中的累积奖赏曲线的变化趋势是不断增长的，在经历450次迭代后，整体趋势趋于平缓。图中上方的虚线代表运用蚁群优化算法所得到的累积奖赏值，可以看到屈指可数的几个过程的累积奖赏值便超过了它。

在训练后，进行了100次实验，来检验学习到的飞行策略是否有效。在虚拟环境实验中，无人机仍旧飞行在原来的训练环境中，但是通过随机设定无人机的起点和终点来模拟不同的飞行场景。为了更好地比较飞行过程的累积奖赏值，起点和终点之间的距离是固定的。因为障碍物的位置是随机的，所以实验结果能够评价本发明方法的泛化性。虚拟环境测试结果如图3(b)所示，可以看出大约70％的过程是成功的，上方的虚线代表平均累积奖赏值，很明显，本发明方法获得的平均累积奖赏值要比蚁群优化算法获得的平均累积奖赏值更高一些，主要原因是，无人机遇到了越来越多的未知情况，在这些未知情况中，发现了更好的路径能够到达终点。

(2)真实环境实验

实验场景位于某一办公区域，飞行任务是以0.5m/s的速度从起点出发，在走廊中进行导航，最终到达终点，如图4所示。实验的目的在于检验训练出的模型是否能够应对不同的飞行场景，以及能否应用于现实复杂环境中，现实环境包括了拐角、不断变化的亮度以及玻璃墙等。

进行了100次实验，来检验学习到的飞行策略是否在真实环境中有效。训练过程中获得的累积奖励值如图5(a)所示，可以看出，累积奖赏值在140左右的过程是成功的，而低于-50的过程是失败的，大约70％的过程是成功的。图5(b)为本发明方法和蚁群算法所规划的路径对比图，由图可以很明显看出本发明得出的路径更加平滑，引起该现象的原因是，蚁群算法依赖于环境的网格图，只有网格越精细，才能得到更平滑的飞行路径，但是随之带来的计算复杂度也在上升。而本发明依赖于无人机的飞行决策模型，它能够摆脱对环境地图的限制，这更加符合真实的飞行场景。

综上，本发明提出的基于强化学习的未知环境自主导航系统及方法，基于强化学习的思想，将传统的基于环境模型的无人机路径规划问题构建于马尔科夫决策过程的框架中，并综合了避碰、路径规划和数据融合功能，使无人机能够获得高效且准确的飞行策略，实现无人机在无先验知识的前提下，进行未知环境的自主导航，具有结构简单、泛化能力强、环境适应性强等特点。