CN111123963B - 基于强化学习的未知环境自主导航系统及方法 - Google Patents
基于强化学习的未知环境自主导航系统及方法 Download PDFInfo
- Publication number
- CN111123963B CN111123963B CN201911313540.4A CN201911313540A CN111123963B CN 111123963 B CN111123963 B CN 111123963B CN 201911313540 A CN201911313540 A CN 201911313540A CN 111123963 B CN111123963 B CN 111123963B
- Authority
- CN
- China
- Prior art keywords
- flight
- aerial vehicle
- unmanned aerial
- state
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/08—Control of attitude, i.e. control of roll, pitch, or yaw
- G05D1/0808—Control of attitude, i.e. control of roll, pitch, or yaw specially adapted for aircraft
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/10—Simultaneous control of position or course in three dimensions
- G05D1/101—Simultaneous control of position or course in three dimensions specially adapted for aircraft
Landscapes
- Engineering & Computer Science (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Traffic Control Systems (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明公开了一种基于强化学习的未知环境自主导航系统及方法,系统包括:训练模块,用于构建飞行决策模型,并基于深度强化学习在模拟环境中对该模型进行训练;交互模块,用于实现无人机机载传感器与环境的交互;规划模块,用于进行路径规划;应用模块,用于与规划模块进行交互,实现无人机在实际未知环境中的导航。方法包括:建立并训练飞行决策模型;获取真实环境信息数据;获取无人机状态图;将无人机状态图作为模型的输入,输出无人机对应采取的动作,之后转第二步,并将该动作作用于真实环境中,改变无人机的状态,直至无人机到达终点。本发明能实现无人机在无先验知识的前提下,进行未知环境的自主导航,具有结构简单、泛化能力强等特点。
Description
技术领域
本发明属于导航领域,具体涉及无人机导航领域,特别涉及一种基于强化学习的未知环境自主导航系统及方法。
背景技术
无人机作为物联网的一个新兴组成部分,在航运领域、地理测绘、环境监测、灾害管理、精准农业等领域引起了越来越多的关注。在这些应用环境中,尤其是人工无法控制的应用环境中,基于无人机的自主导航系统路径规划发挥着更为重要的作用。
传统的路径规划方法,例如A*算法、动态规划和人工势场法都具有在多个约束条件下(如时间、距离和能量)的一些优化问题的特征,这些方法严重依赖于已知的环境的先验知识,包括成损耗图和势场图。然而,即使有先验知识,对于具有强噪声的不完全数据,一些生成模型仍然具有较低的精度。此外,在路径规划中,起点和终点的变化会导致模型的修改和再训练,这会产生巨大的开销。虽然基于计算智能(Computational Intelligence,CI)的方法可以部分提高系统的鲁棒性,但它们仅限于将原有模型泛化到那些变化不大的环境中。更重要的是,由于训练环境和应用环境的巨大差异,在一个完全未知的环境中,如何利用现有信息建立飞行决策模型,并且将其推广到新的场景中是一个需要研究的重要问题。即时定位与地图构(Simultaneous Localization and Mapping,SLAM)是一种替代方法,但它耗时且效率较低。
总之,无人机的自动导航系统仍面临以下问题。首先,在建模过程中,模型过度依赖于特定的环境,这使得无人机不能自主适应不同的飞行环境。其次,无人机可能被派遣到一个未知的环境中,这对处理未知情况的能力提出了很高要求。
发明内容
本发明的目的在于提供一种能高效且准确地引导无人机到达目的地,为未知环境中飞行的无人机提供路径规划的支持,从而提高无人机对不同飞行环境的适应能力的自主导航方法。
实现本发明目的的技术解决方案为:一种基于强化学习的未知环境自主导航系统,包括交互模块、训练模块、规划模块和应用模块;所述交互模块、规划模块和应用模块三者相连,进行连续的路径规划操作;
所述训练模块,用于将路径规划模型转化为飞行决策模型,并基于深度强化学习在模拟环境中对该模型进行训练;
所述交互模块,用于实现无人机机载的多种传感器与实际环境进行交互,并将交互信息数据传输至规划模块;
所述规划模块,和训练模块共享飞行决策模型,用于根据所述飞行决策模型和交互信息数据,进行无人机路径规划;
所述应用模块,用于与规划模块进行交互,实现无人机在实际未知环境中的导航。
进一步地,所述规划模块包括:
无人机状态获取单元,用于利用定位算法以及视觉感知算法分析交互模块获得的交互信息数据,获得无人机状态图;
无人机动作获取单元,用于将所述无人机状态图输入至训练后的飞行决策模型,输出无人机应采取的动作。
一种基于强化学习的未知环境自主导航方法,包括以下步骤:
步骤2,将无人机置于真实飞行环境中,无人机通过自身携载的多种传感器获取环境信息数据;
步骤3,对所述环境信息数据进行分析获得无人机状态图;
进一步地,步骤1中所述建立飞行决策模型,具体包括:
将路径规划模型构建于马尔科夫决策模型框架中,获得马尔科夫决策过程的五元组:
<S,A,P,R,γ>
其中,S为一个有限的状态集合,st∈S代表无人机在每一个时间t的状态;A为一个有限的动作集合,at∈A代表无人机在每一个时间t所做的动作;P为一个状态转换概率:
P[s,a,s′]=P[St+1=s′|St=s,At=a];
R表示奖赏,包括即时奖赏和累积奖赏;其中,即时奖赏应用于无人机的飞行过程中,表示无人机在状态st时刻执行飞行动作at后转移到状态st+1,获得即时奖赏值rt=R(st,at,st+1),该奖赏值与以下几个因素有关:
(1)移动方向:以无人机的第一视角作为X轴正方向建立一个二维坐标系,计算目标相对于无人机的方向角θ:
式中,PT=(tx,ty,tz)为无人机要到达的目标位置,PUAV=(px,py,pz)为无人机当前的位置;在每一个时间节点后,若无人机前进方向与目标相对于无人机的方向一致时,无人机将会得到一个激励值λ∈(0,1);
(2)目标距离:在每一个时间节点后,随着无人机靠近目标,无人机将根据两者之间减少的距离Dr获得一个指数级别的激励值,其中Dr为:
(3)障碍感知:无人机在靠近障碍物目标Pobs时,会获得与无人机和障碍物之间距离相关的惩罚值;
(4)时间:随着时间的推移,给无人机一个固定的惩罚值μ,以使无人机能尽快到达目标终点;
则即时奖赏可表示为:
式中,T代表飞行时间;
其中,累积奖赏定义为无人机在飞行路径中执行一系列动作之后的即时奖赏的累计值:
式中,无人机的飞行路径为τ,τ=(s0,a0,s1,a1,...),rk代表在飞行状态sk采取动作ak转变到飞行状态sk+1得到的即时奖励值;γ∈(0,1)表示折扣因子。
进一步地,步骤1中所述在虚拟环境中基于深度强化学习对飞行决策模型进行训练,具体包括:
步骤1-2,初始化st为飞行状态序列的当前飞行状态,并获取其特征向量φ(st);
步骤1-4,利用∈-greedy策略从步骤1-3获得的所有Q值中选取某一Q值对应的飞行动作at;
步骤1-5,在飞行状态st执行飞行动作at获得新的飞行状态st+1,获取即时奖赏rt以及判断飞行状态st+1是否为终止飞行状态的结果is_end,并获取飞行状态st+1对应的特征向量φ(st+1);
步骤1-6,将e={φ(st),at,rt,φ(st+1),is_end}五元组作为一个样本,存入经验回放集合E;
步骤1-7,将当前飞行状态转变为st+1;
步骤1-8,判断经验回放集合E中的样本数是否大于等于m,若是执行步骤1-9,反之返回执行步骤1-3;
步骤1-10,利用均方差损失函数:
步骤1-11,判断st+1是否为终止飞行状态,若否则返回步骤1-3,若是,则继续判断迭代轮数是否达到T,若是,则结束迭代,完成飞行决策模型的训练,反之返回步骤1-2。
进一步地,步骤3中对所述环境信息数据进行分析获得无人机状态图,具体过程包括:
步骤3-1,根据环境信息数据,利用视觉感知算法进行障碍物探测,获得障碍物信息;
步骤3-2,根据环境信息数据,利用定位算法计算无人机与目标距离;
步骤3-3,利用多传感器融合算法融合步骤3-1和步骤3-2获得的数据,获得传感器数据图像即无人机状态图。
本发明与现有技术相比,其显著优点为:1)基于强化学习技术,将无人机飞行过程构建于马尔科夫决策过程的框架中,从而将传统的基于环境模型的路径规划方法转化为基于飞行决策模型的路径规划方法,克服了飞行模型对特定环境的依赖;2)采用深度强化学习技术,基于大量的虚拟环境飞行数据,提取飞行状态的特征信息,从而能够在应对未见过的飞行状态时,执行正确的飞行策略,最终实现无人机无需重复训练飞行模型,即可应对不同飞行环境中不同的飞行任务;3)采用多传感器数据融合方法,以更准确地表示无人机所处状态,从而能辅助无人机更好地进行飞行导航。
下面结合附图对本发明作进一步详细描述。
附图说明
图1为本发明基于强化学习的未知环境自主导航系统结构图。
图2为本发明基于深度强化学习对飞行决策模型进行训练的流程图。
图3为本发明实施例中虚拟环境测试结果图,其中图(a)为虚拟环境下训练过程中的累积奖励值曲线示意图,图(b)为虚拟环境下每次测试评估的累积奖励值示意图。
图4为本发明实施例中真实环境示意图。
图5为本发明实施例中真实环境测试结果图,其中图(a)为现实环境下每次测试评估的累积奖励值示意图,图(b)为现实环境下本发明和蚁群算法所规划的路径结果对比图。
具体实施方式
结合图1,本发明提出了一种基于强化学习的未知环境自主导航系统,包括交互模块、训练模块、规划模块和应用模块;交互模块、规划模块和应用模块三者相连,进行连续的路径规划操作。
训练模块,用于将路径规划模型转化为飞行决策模型,并基于深度强化学习在模拟环境中对该模型进行训练。
交互模块,用于实现无人机机载的多种传感器与实际环境进行交互,并将交互信息数据传输至规划模块;其中多种传感器包括定位传感器、超声波传感器、图像传感器以及姿态传感器等。
规划模块,和训练模块共享飞行决策模型,用于根据飞行决策模型和交互信息数据,进行无人机路径规划;该模块包括:
无人机状态获取单元,用于利用定位算法以及视觉感知算法分析交互模块获得的交互信息数据,获得无人机状态图;
无人机动作获取单元,用于将无人机状态图输入至训练后的飞行决策模型,输出无人机应采取的动作。
应用模块,用于与规划模块进行交互,实现无人机在实际未知环境中的导航。
本发明提出了一种基于强化学习的未知环境自主导航方法,包括以下步骤:
将路径规划模型构建于马尔科夫决策模型框架中,获得马尔科夫决策过程的五元组:
<S,A,P,R,γ>
其中,S为一个有限的状态集合,st∈S代表无人机在每一个时间t的状态;A为一个有限的动作集合,at∈A代表无人机在每一个时间t所做的动作;P为一个状态转换概率:
P[s,a,s′]=P[St+1=s′|St=s,At=a];
R表示奖赏,包括即时奖赏和累积奖赏;其中,即时奖赏应用于无人机的飞行过程中,表示无人机在状态st时刻执行飞行动作at后转移到状态st+1,获得即时奖赏值rt=R(st,at,st+1),该奖赏值与以下几个因素有关:
(1)移动方向:以无人机的第一视角作为X轴正方向建立一个二维坐标系,计算目标相对于无人机的方向角θ:
式中,PT=(tx,ty,tz)为无人机要到达的目标位置,PUAV=(px,py,pz)为无人机当前的位置;在每一个时间节点后,若无人机前进方向与目标相对于无人机的方向一致时,无人机将会得到一个激励值λ∈(0,1);
(2)目标距离:在每一个时间节点后,随着无人机靠近目标,无人机将根据两者之间减少的距离Dr获得一个指数级别的激励值,其中Dr为:
(3)障碍感知:无人机在靠近障碍物目标Pobs时,会获得与无人机和障碍物之间距离相关的惩罚值;
(4)时间:随着时间的推移,给无人机一个固定的惩罚值μ,以使无人机能尽快到达目标终点;
则即时奖赏可表示为:
式中,T代表飞行时间;
其中,累积奖赏定义为无人机在飞行路径中执行一系列动作之后的即时奖赏的累计值:
式中,无人机的飞行路径为τ,τ=(s0,a0,s1,a1,...),rk代表在飞行状态sk采取动作ak转变到飞行状态sk+1得到的即时奖励值;γ∈(0,1)表示折扣因子。
结合图2,该步骤中在虚拟环境中基于深度强化学习对飞行决策模型进行训练,具体包括:
步骤1-2,初始化st为飞行状态序列的当前飞行状态,并获取其特征向量φ(st);
步骤1-4,利用∈-greedy策略从步骤1-3获得的所有Q值中选取某一Q值对应的飞行动作at;
步骤1-5,在飞行状态st执行飞行动作at获得新的飞行状态st+1,获取即时奖赏rt以及判断飞行状态st+1是否为终止飞行状态的结果is_end,并获取飞行状态st+1对应的特征向量φ(st+1);
步骤1-6,将e={φ(st),at,rt,φ(st+1),is_end}五元组作为一个样本,存入经验回放集合E;
步骤1-7,将当前飞行状态转变为st+1;
步骤1-8,判断经验回放集合E中的样本数是否大于等于m,若是执行步骤1-9,反之返回执行步骤1-3;
步骤1-10,利用均方差损失函数:
步骤1-11,判断st+1是否为终止飞行状态,若否则返回步骤1-3,若是,则继续判断迭代轮数是否达到T,若是,则结束迭代,完成飞行决策模型的训练,反之返回步骤1-2。
步骤2,将无人机置于真实飞行环境中,无人机通过自身携载的多种传感器获取环境信息数据;
步骤3,对环境信息数据进行分析获得无人机状态图,该步具体包括:
步骤3-1,根据环境信息数据,利用视觉感知算法进行障碍物探测,获得障碍物信息;
步骤3-2,根据环境信息数据,利用定位算法计算无人机与目标距离;
步骤3-3,利用多传感器融合算法融合步骤3-1和步骤3-2获得的数据,获得传感器数据图像即无人机状态图。
下面结合实施例对本发明作进一步详细的描述。
实施例
本实施例中对本发明和现有技术(蚁群优化算法)的路径规划进行实验评估,包括两部分实验:
(1)虚拟环境实验
虚拟环境实验主要用于验证,验证在虚拟环境中训练出的模型,能否在任务变化的情况下,依旧能够完成路径规划任务。训练过程中获得的累积奖励值如图3所示,由图3(a)可以看出,本发明方法训练中的累积奖赏曲线的变化趋势是不断增长的,在经历450次迭代后,整体趋势趋于平缓。图中上方的虚线代表运用蚁群优化算法所得到的累积奖赏值,可以看到屈指可数的几个过程的累积奖赏值便超过了它。
在训练后,进行了100次实验,来检验学习到的飞行策略是否有效。在虚拟环境实验中,无人机仍旧飞行在原来的训练环境中,但是通过随机设定无人机的起点和终点来模拟不同的飞行场景。为了更好地比较飞行过程的累积奖赏值,起点和终点之间的距离是固定的。因为障碍物的位置是随机的,所以实验结果能够评价本发明方法的泛化性。虚拟环境测试结果如图3(b)所示,可以看出大约70%的过程是成功的,上方的虚线代表平均累积奖赏值,很明显,本发明方法获得的平均累积奖赏值要比蚁群优化算法获得的平均累积奖赏值更高一些,主要原因是,无人机遇到了越来越多的未知情况,在这些未知情况中,发现了更好的路径能够到达终点。
(2)真实环境实验
实验场景位于某一办公区域,飞行任务是以0.5m/s的速度从起点出发,在走廊中进行导航,最终到达终点,如图4所示。实验的目的在于检验训练出的模型是否能够应对不同的飞行场景,以及能否应用于现实复杂环境中,现实环境包括了拐角、不断变化的亮度以及玻璃墙等。
进行了100次实验,来检验学习到的飞行策略是否在真实环境中有效。训练过程中获得的累积奖励值如图5(a)所示,可以看出,累积奖赏值在140左右的过程是成功的,而低于-50的过程是失败的,大约70%的过程是成功的。图5(b)为本发明方法和蚁群算法所规划的路径对比图,由图可以很明显看出本发明得出的路径更加平滑,引起该现象的原因是,蚁群算法依赖于环境的网格图,只有网格越精细,才能得到更平滑的飞行路径,但是随之带来的计算复杂度也在上升。而本发明依赖于无人机的飞行决策模型,它能够摆脱对环境地图的限制,这更加符合真实的飞行场景。
综上,本发明提出的基于强化学习的未知环境自主导航系统及方法,基于强化学习的思想,将传统的基于环境模型的无人机路径规划问题构建于马尔科夫决策过程的框架中,并综合了避碰、路径规划和数据融合功能,使无人机能够获得高效且准确的飞行策略,实现无人机在无先验知识的前提下,进行未知环境的自主导航,具有结构简单、泛化能力强、环境适应性强等特点。
Claims (5)
1.一种基于强化学习的未知环境自主导航方法,其特征在于,该方法针对基于强化学习的未知环境自主导航系统,该系统包括交互模块、训练模块、规划模块和应用模块;所述交互模块、规划模块和应用模块三者相连,进行连续的路径规划操作;
所述训练模块,用于将路径规划模型转化为飞行决策模型,并基于深度强化学习在模拟环境中对飞行决策模型进行训练;
所述交互模块,用于实现无人机机载的多种传感器与实际环境进行交互,并将交互信息数据传输至规划模块;
所述规划模块,和训练模块共享飞行决策模型,用于根据所述飞行决策模型和交互信息数据,进行无人机路径规划;
所述应用模块,用于与规划模块进行交互,实现无人机在实际未知环境中的导航;
包括以下步骤:
将路径规划模型构建于马尔科夫决策模型框架中,获得马尔科夫决策过程的五元组:
<S,A,P,R,γ>
其中,S为一个有限的状态集合,st∈S代表无人机在每一个时间t的状态;A为一个有限的动作集合,at∈A代表无人机在每一个时间t所做的动作;P为一个状态转换概率:
P[s,a,s′]=P[St+1=s′|St=s,At=a];
R表示奖赏,包括即时奖赏和累积奖赏;其中,即时奖赏应用于无人机的飞行过程中,表示无人机在状态st时刻执行飞行动作at后转移到状态st+1,获得即时奖赏值rt=R(st,at,st+1),该即时奖赏值与以下几个因素有关:
(1)移动方向:以无人机的第一视角作为X轴正方向建立一个二维坐标系,计算目标相对于无人机的方向角θ:
式中,PT=(tx,ty,tz)为无人机要到达的目标位置,PUAV=(px,py,pz)为无人机当前的位置;在每一个时间节点后,若无人机前进方向与目标相对于无人机的方向一致时,无人机将会得到一个激励值λ∈(0,1);
(2)目标距离:在每一个时间节点后,随着无人机靠近目标,无人机将根据两者之间减少的距离Dr获得一个指数级别的激励值,其中Dr为:
(3)障碍感知:无人机在靠近障碍物目标Pobs时,会获得与无人机和障碍物之间距离相关的惩罚值;
(4)时间:随着时间的推移,给无人机一个固定的惩罚值μ,以使无人机能尽快到达目标终点;
则即时奖赏可表示为:
式中,T代表飞行时间;
其中,累积奖赏定义为无人机在飞行路径中执行一系列动作之后的即时奖赏的累计值:
式中,无人机的飞行路径为τ,τ=(s0,a0,s1,a1,...),rk代表在飞行状态sk采取动作ak转变到飞行状态sk+1得到的即时奖励值;γ∈(0,1)表示折扣因子;
步骤2,将无人机置于真实飞行环境中,无人机通过自身携载的多种传感器获取环境信息数据;
步骤3,对所述环境信息数据进行分析获得无人机状态图;
2.根据权利要求1所述的基于强化学习的未知环境自主导航方法,其特征在于,所述多种传感器包括定位传感器、超声波传感器、图像传感器以及姿态传感器。
3.根据权利要求1所述的基于强化学习的未知环境自主导航方法,其特征在于,所述规划模块包括:
无人机状态获取单元,用于利用定位算法以及视觉感知算法分析交互模块获得的交互信息数据,获得无人机状态图;
无人机动作获取单元,用于将所述无人机状态图输入至训练后的飞行决策模型,输出无人机应采取的动作。
4.根据权利要求1所述的基于强化学习的未知环境自主导航方法,其特征在于,步骤1中所述在虚拟环境中基于深度强化学习对飞行决策模型进行训练,具体包括:
步骤1-2,初始化st为飞行状态序列的当前飞行状态,并获取其特征向量φ(st);
步骤1-4,利用∈-greedy策略从步骤1-3获得的所有Q值中选取某一Q值对应的飞行动作at;
步骤1-5,在飞行状态st执行飞行动作at获得新的飞行状态st+1,获取即时奖赏rt以及判断飞行状态st+1是否为终止飞行状态的结果is_end,并获取飞行状态st+1对应的特征向量φ(st+1);
步骤1-6,将e={φ(st),at,rt,φ(st+1),is_end}五元组作为一个样本,存入经验回放集合E;
步骤1-7,将当前飞行状态转变为st+1;
步骤1-8,判断经验回放集合E中的样本数是否大于等于m,若是执行步骤1-9,反之返回执行步骤1-3;
步骤1-10,利用均方差损失函数:
步骤1-11,判断st+1是否为终止飞行状态,若否,则返回步骤1-3,若是,则继续判断迭代轮数是否达到T,若是,则结束迭代,完成飞行决策模型的训练,反之返回步骤1-2。
5.根据权利要求1所述的基于强化学习的未知环境自主导航方法,其特征在于,步骤3中对所述环境信息数据进行分析获得无人机状态图,具体过程包括:
步骤3-1,根据环境信息数据,利用视觉感知算法进行障碍物探测,获得障碍物信息;
步骤3-2,根据环境信息数据,利用定位算法计算无人机与目标距离;
步骤3-3,利用多传感器融合算法融合步骤3-1和步骤3-2获得的数据,获得传感器数据图像即无人机状态图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911313540.4A CN111123963B (zh) | 2019-12-19 | 2019-12-19 | 基于强化学习的未知环境自主导航系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911313540.4A CN111123963B (zh) | 2019-12-19 | 2019-12-19 | 基于强化学习的未知环境自主导航系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111123963A CN111123963A (zh) | 2020-05-08 |
CN111123963B true CN111123963B (zh) | 2021-06-08 |
Family
ID=70498339
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911313540.4A Expired - Fee Related CN111123963B (zh) | 2019-12-19 | 2019-12-19 | 基于强化学习的未知环境自主导航系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111123963B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657016B (zh) * | 2020-05-12 | 2024-07-05 | 哈尔滨工程大学 | 基于深度强化学习的优先级无人机编队动态信道分配方法及其系统 |
CN111694973B (zh) * | 2020-06-09 | 2023-10-13 | 阿波罗智能技术(北京)有限公司 | 自动驾驶场景的模型训练方法、装置、电子设备 |
CN111857184B (zh) * | 2020-07-31 | 2023-06-23 | 中国人民解放军国防科技大学 | 基于深度强化学习的固定翼无人机群避碰方法及装置 |
CN112034887A (zh) * | 2020-09-10 | 2020-12-04 | 南京大学 | 无人机躲避柱状障碍物到达目标点的最优路径训练方法 |
CN112114592B (zh) * | 2020-09-10 | 2021-12-17 | 南京大学 | 一种实现无人机自主穿越可移动框形障碍物的方法 |
CN112131661B (zh) * | 2020-09-10 | 2024-07-23 | 南京大学 | 一种无人机自主跟拍运动目标的方法 |
CN111880549B (zh) * | 2020-09-14 | 2024-06-04 | 大连海事大学 | 面向无人船路径规划的深度强化学习奖励函数优化方法 |
CN112051863A (zh) * | 2020-09-25 | 2020-12-08 | 南京大学 | 一种无人机自主反侦察及躲避敌方攻击的方法 |
CN112241176B (zh) * | 2020-10-16 | 2022-10-28 | 哈尔滨工程大学 | 一种水下自主航行器在大尺度连续性障碍物环境中路径规划避障控制方法 |
CN112286203B (zh) * | 2020-11-11 | 2021-10-15 | 大连理工大学 | 一种基于蚁群算法的多智能体强化学习路径规划方法 |
CN112867023B (zh) * | 2020-12-30 | 2021-11-19 | 北京理工大学 | 一种通过动态调度无人终端最小化感知数据获取时延方法 |
CN112947554B (zh) * | 2021-02-03 | 2022-05-20 | 南京航空航天大学 | 基于强化学习的多设备自适应监测方法 |
CN112947562B (zh) * | 2021-02-10 | 2021-11-30 | 西北工业大学 | 一种基于人工势场法和maddpg的多无人机运动规划方法 |
CN113110546B (zh) * | 2021-04-20 | 2022-09-23 | 南京大学 | 一种基于离线强化学习的无人机自主飞行控制方法 |
CN113423060B (zh) * | 2021-06-22 | 2022-05-10 | 广东工业大学 | 一种无人空中通信平台飞行路线的在线优化方法 |
CN113741533B (zh) * | 2021-09-16 | 2025-01-24 | 中国电子科技集团公司第五十四研究所 | 一种基于模仿学习与强化学习的无人机智能决策系统 |
CN114200950B (zh) * | 2021-10-26 | 2023-06-02 | 北京航天自动控制研究所 | 一种飞行姿态控制方法 |
CN114115350B (zh) * | 2021-12-02 | 2024-05-10 | 清华大学 | 飞行器的控制方法、装置及设备 |
CN114910072A (zh) * | 2022-04-21 | 2022-08-16 | 海南大学 | 基于深度强化学习的无人机导航方法、装置、设备及介质 |
CN115164890B (zh) * | 2022-06-09 | 2025-04-01 | 复旦大学 | 一种基于模仿学习的群体无人机自主运动规划方法 |
CN115265547B (zh) * | 2022-08-23 | 2025-03-21 | 安徽大学 | 一种未知环境下基于强化学习的机器人主动导航方法 |
CN116449874B (zh) * | 2023-06-13 | 2023-08-18 | 北京瀚科智翔科技发展有限公司 | 有人驾驶飞机的模块化无人控制改装套件及构建方法 |
CN118707988B (zh) * | 2024-06-03 | 2025-02-11 | 江苏新杰智科技有限责任公司 | 一种输电线路无人机辅助巡检方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106595671A (zh) * | 2017-02-22 | 2017-04-26 | 南方科技大学 | 一种基于强化学习的无人机路径规划方法和装置 |
CN109059931A (zh) * | 2018-09-05 | 2018-12-21 | 北京航空航天大学 | 一种基于多智能体强化学习的路径规划方法 |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2487529A (en) * | 2011-01-19 | 2012-08-01 | Automotive Robotic Industry Ltd | Security system for controlling a plurality of unmanned ground vehicles |
CN102799179B (zh) * | 2012-07-06 | 2014-12-31 | 山东大学 | 基于单链序贯回溯q学习的移动机器人路径规划算法 |
CN102929284B (zh) * | 2012-10-26 | 2016-03-09 | 哈尔滨工程大学 | 一种飞行器孤岛降落复飞决策方法 |
CN105094124A (zh) * | 2014-05-21 | 2015-11-25 | 防灾科技学院 | 基于操作条件反射进行自主路径探索的方法及模型 |
US10690772B2 (en) * | 2016-03-11 | 2020-06-23 | Raytheon Bbn Technologies Corp. | LIDAR site model to aid counter drone system |
CN106650800B (zh) * | 2016-12-08 | 2020-06-30 | 南京航空航天大学 | 基于Storm的马尔可夫等价类模型分布式学习方法 |
CN107239728B (zh) * | 2017-01-04 | 2021-02-02 | 赛灵思电子科技(北京)有限公司 | 基于深度学习姿态估计的无人机交互装置与方法 |
CN106970615B (zh) * | 2017-03-21 | 2019-10-22 | 西北工业大学 | 一种深度强化学习的实时在线路径规划方法 |
CN106931975B (zh) * | 2017-04-14 | 2019-10-22 | 北京航空航天大学 | 一种基于语义地图的移动机器人多策略路径规划方法 |
ES2943122T3 (es) * | 2017-06-29 | 2023-06-09 | Boeing Co | Método y sistema para operar de forma autónoma una aeronave |
CN107450593B (zh) * | 2017-08-30 | 2020-06-12 | 清华大学 | 一种无人机自主导航方法和系统 |
US10387727B2 (en) * | 2017-09-13 | 2019-08-20 | Wing Aviation Llc | Backup navigation system for unmanned aerial vehicles |
AU2019203933B2 (en) * | 2018-06-05 | 2021-03-25 | Tata Consultancy Services Limited | Systems and methods for data acquisition and asset inspection in presence of magnetic interference |
CN109726866A (zh) * | 2018-12-27 | 2019-05-07 | 浙江农林大学 | 基于q学习神经网络的无人船路径规划方法 |
CN109655066B (zh) * | 2019-01-25 | 2022-05-17 | 南京邮电大学 | 一种基于Q(λ)算法的无人机路径规划方法 |
CN109934131A (zh) * | 2019-02-28 | 2019-06-25 | 南京航空航天大学 | 一种基于无人机的小目标检测方法 |
CN109947098A (zh) * | 2019-03-06 | 2019-06-28 | 天津理工大学 | 一种基于机器学习策略的距离优先最佳路径选择方法 |
CN109948054A (zh) * | 2019-03-11 | 2019-06-28 | 北京航空航天大学 | 一种基于强化学习的自适应学习路径规划系统 |
CN109933086B (zh) * | 2019-03-14 | 2022-08-30 | 天津大学 | 基于深度q学习的无人机环境感知与自主避障方法 |
CN110134140B (zh) * | 2019-05-23 | 2022-01-11 | 南京航空航天大学 | 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 |
CN110488859B (zh) * | 2019-07-15 | 2020-08-21 | 北京航空航天大学 | 一种基于改进Q-learning算法的无人机航路规划方法 |
CN110488861B (zh) * | 2019-07-30 | 2020-08-28 | 北京邮电大学 | 基于深度强化学习的无人机轨迹优化方法、装置和无人机 |
CN110428115A (zh) * | 2019-08-13 | 2019-11-08 | 南京理工大学 | 基于深度强化学习的动态环境下的最大化系统效益方法 |
CN110470301B (zh) * | 2019-08-13 | 2020-12-11 | 上海交通大学 | 多动态任务目标点下的无人机路径规划方法 |
CN110471444B (zh) * | 2019-08-19 | 2022-07-12 | 西安微电子技术研究所 | 基于自主学习的无人机智能避障方法 |
CN110488872B (zh) * | 2019-09-04 | 2023-03-07 | 中国人民解放军国防科技大学 | 一种基于深度强化学习的无人机实时路径规划方法 |
-
2019
- 2019-12-19 CN CN201911313540.4A patent/CN111123963B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106595671A (zh) * | 2017-02-22 | 2017-04-26 | 南方科技大学 | 一种基于强化学习的无人机路径规划方法和装置 |
CN109059931A (zh) * | 2018-09-05 | 2018-12-21 | 北京航空航天大学 | 一种基于多智能体强化学习的路径规划方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111123963A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111123963B (zh) | 基于强化学习的未知环境自主导航系统及方法 | |
CN111667513B (zh) | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 | |
EP3405845B1 (en) | Object-focused active three-dimensional reconstruction | |
CN107450593B (zh) | 一种无人机自主导航方法和系统 | |
CN110000785B (zh) | 农业场景无标定机器人运动视觉协同伺服控制方法与设备 | |
Tai et al. | Towards cognitive exploration through deep reinforcement learning for mobile robots | |
Ross et al. | Learning monocular reactive uav control in cluttered natural environments | |
CN112034887A (zh) | 无人机躲避柱状障碍物到达目标点的最优路径训练方法 | |
CN116263335A (zh) | 一种基于视觉与雷达信息融合与强化学习的室内导航方法 | |
CN110134140A (zh) | 一种环境信息未知连续状态下基于势函数奖赏dqn的无人机路径规划方法 | |
Tu et al. | Path planning and obstacle avoidance based on reinforcement learning for UAV application | |
CN113741533A (zh) | 一种基于模仿学习与强化学习的无人机智能决策系统 | |
CN117873116A (zh) | 一种基于深度强化学习的多移动机器人自主避障方法 | |
CN113848984B (zh) | 一种无人机集群控制方法及系统 | |
CN112114592A (zh) | 一种实现无人机自主穿越可移动框形障碍物的方法 | |
CN116242364A (zh) | 一种基于深度强化学习的多无人机智能导航方法 | |
CN115373415B (zh) | 一种基于深度强化学习的无人机智能导航方法 | |
KR102455003B1 (ko) | 무인 체계의 강화 학습을 위한 시뮬레이션 방법 및 장치 | |
CN116679711A (zh) | 一种基于有模型与无模型强化学习的机器人避障方法 | |
Burugadda et al. | Exploring the potential of deep reinforcement learning for autonomous navigation in complex environments | |
CN117804457A (zh) | 一种基于深度强化学习的无人机自主探索导航方法 | |
Sandström et al. | Fighter pilot behavior cloning | |
CN115951701A (zh) | 一种多无人机局部动态避障方法、装置和存储介质 | |
Huang et al. | An autonomous UAV navigation system for unknown flight environment | |
Pokhrel | Drone obstacle avoidance and navigation using artificial intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210608 |