CN110969287B

CN110969287B - 一种舰载机导引路径规划方法

Info

Publication number: CN110969287B
Application number: CN201911083216.8A
Authority: CN
Inventors: 薛均晓; 孔祥燕; 徐明亮; 李亚飞; 吕培; 姜晓恒; 郭毅博
Original assignee: Zhengzhou University
Current assignee: Zhengzhou University
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2022-11-01
Anticipated expiration: 2039-11-07
Also published as: CN110969287A

Abstract

本发明公开了一种舰载机导引路径规划方法。该方法包括步骤有预测碍障物，获取舰载机和周围相邻的障碍物的历史轨迹，利用LSTM编码预测障碍物的运动轨迹；更新导向，根据舰载机位置与目标点位置之间的关系更新舰载机导向目标点的定向关系；碰撞检测，对舰载机和障碍物进行建模，检测舰载机运动过程中与相邻障碍物是否发生碰撞。通过该方法，可以在路径规划的同时有效的实现动态障碍物的碰撞避免，还加入了多种控制选择动作的限制，实现动态避障以及DQN的快速收敛，该方法使训练的时间大大缩短，提高了效率。

Description

一种舰载机导引路径规划方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种舰载机导引路径规划方法。

背景技术

舰载机在甲板上的有限空间内移动，需要对导引路径进行规划，以此实现有效避障、高效移动，确保舰载机的安全和各种设施、人员安全。现有技术中缺乏针对舰载机路径导引的计算机仿真规划方法，难以实现动态避障、自动导引、模型简化的计算机仿真。

发明内容

本发明主要解决的技术问题是提供一种舰载机导引路径规划方法，解决现有技术中缺乏有效实现动态避障、自动导引和复杂度低的计算机仿真的舰载机导引路径规划方法。

为解决上述技术问题，本发明采用的一个技术方案是提供一种舰载机导引路径规划方法，包括以下步骤：预测碍障物，获取舰载机和周围相邻的障碍物的历史轨迹，利用LSTM编码预测障碍物的运动轨迹；更新导向，根据舰载机位置与目标点位置之间的关系更新舰载机导向目标点的定向关系；碰撞检测，对舰载机和障碍物进行建模，检测舰载机运动过程中与相邻障碍物是否发生碰撞。

在本发明舰载机导引路径规划方法另一实施例中，在预测碍障物步骤中，利用LSTM编码预测障碍物的运动轨迹包括：

第一步，被预测的障碍物i从T1至Tobs的历史轨迹为

被预测的障碍物的周围障碍物的历史轨迹包括

第二步，经过LSTM框架的遗忘门输入t-1时刻的状态值h_t-1、x_t,输出为

其中σ₁代表遗忘门sigmod函数，表达式为

表示遗忘门的神经元的权值，

表示遗忘门的神经元的偏置值；

第三步，进一步经过LSTM框架的更新门，先通过输入门sigmod函数σ₂，输出为

表示输入门的神经元的权值，

表示输入门的神经元的偏置值，然后通过tanh层，创建一个新的候选值向量，表达式为

表示计算候选值向量的神经元的权值，

表示计算候选值向量的神经元的偏置值；

第四步，将第二步和第三步确定好的更新内容添加到记忆当中，得到新的记忆C_t＝f_t*C_t-1+i_t*C_t；

第五步，计算当前隐藏层的状态h_t＝o_t*tanh(C_t)，表示输出已确定的输出部分，O_t＝σ(W_o[h_t-1,x_t]+b_o)为输出部分，W_o表示输出部分的神经元的权值，b_o表示输出部分的神经元的偏置值；

第六步，按照以上方法将被预测障碍物以及被预测障碍物周围障碍物编码成为：

在本发明舰载机导引路径规划方法另一实施例中，在预测碍障物步骤中进一步包括：

用soft attention计算被预测障碍物的向量

其中权值α_tj为

其中a表示前馈神经网络；

用hard attention计算被预测障碍物周围邻居障碍物的向量

其中

dis(n,j)表示在j时间点，第n个邻居障碍到被预测障碍物的距离；

将上述计算出来的两个向量结合，得到合并向量

权值W_c通过反向传播学习得到；

利用LSTM框架计算预测位置，

其中s_t-1表示解码器在t-1时刻的隐藏状态，y_t-1表示解码器在t-1时刻的输出值。

在本发明舰载机导引路径规划方法另一实施例中，在更新导向步骤中包括：首先初始化i＝0，然后判断i％T是否为0,如果为0，表示重新定向，否则直接按照原来的定向选择动作；如果重新定向，表示按照当前位置P和目的位置S设置向量

根据

的大小确定变量值：

选择完舰载机位置后，执行i＝i+1；判断是否到达终点，若未到达终点，则返回到判断i％T是否为0处重复执行，一直到达终点结束。

在本发明舰载机导引路径规划方法另一实施例中，在所述碰撞检测步骤中，获得障碍物的预测位置坐标(x₁,y₁)，对舰载机在展翼状态下建模为五边形：中心坐标为o＝(x₁,y₁)；前方坐标为p₁＝(x₁+cosθ×L,y₁+sinθ×L)，其中θ为

和x轴之间的夹角，L为

的模；左前方坐标为p₂＝(x₁+cos(θ+ψ)×h，y₁+sin(θ+ψ)×h)，其中ψ为

和

之间的夹角，h为

的模；右前方坐标为p₃＝(x₁+cos(θ-ψ)×h，y₁+sin(θ-ψ)×h)；左后方坐标为p₄＝(x₁+cos(θ+β)×d，y₁+sin(θ+β)×d)，其中β为

和

之间的夹角，d为

的模；右后方坐标为p₅＝(x₁+cos(θ-β)×d，y₁+sin(θ-β)×d)。

在本发明舰载机导引路径规划方法另一实施例中，对舰载机在合翼状态下建模为：中心坐标为o＝(x₁,y₁)；前方坐标为p₁＝(x₁+cosθ×L,y₁+sinθ×L)，其中θ为

和x轴之间的夹角，L为

的模；左前方坐标为p'₂＝(x₁+cos(θ+ψ)×h'，y₁+sin(θ+ψ)×h')，其中ψ为

和

之间的夹角；h'为

的模；右前方坐标为p'₃＝(x₁+cos(θ-ψ)×h'，y₁+sin(θ-ψ)×h')；左后方坐标为p₄＝(x₁+cos(θ+β)×d，y₁+sin(θ+β)×d)，其中β为

和

之间的夹角，d为

的模；右后方坐标为p₅＝(x₁+cos(θ-β)×d，y₁+sin(θ-β)×d)。

在本发明舰载机导引路径规划方法另一实施例中，对加油车建模为：中心坐标为o＝(x₁,y₁)；左前方坐标：q₁＝(x₁+cos(θ+ω)×m,y₁+sin(θ+ω)×m)，其中θ为加油车运动方向和x轴之间的夹角，ω为加油车运动方向和

之间的夹角；m是

的模；右前方坐标：q₂＝(x₁+cos(θ-ω)×m,y₁+sin(θ-ω)×m)；左后方坐标：q₃＝(x₁-sin(θ-ω)×m,y₁+cos(θ-ω)×m)；右后方坐标：q₄＝(x₁-sin(ω-θ)×m,y₁-cos(ω-θ)×m)。

在本发明舰载机导引路径规划方法另一实施例中，对人建模为：半径为r，圆心坐标为o＝(x₁,y₁)的圆。

在本发明舰载机导引路径规划方法另一实施例中，舰载机在展翼状态下五条边分别列方程为：

线段p₁p₂:

线段p₁p₃:

线段p₂p₄:

线段p₃p₅:

线段p₄p₅：

人的函数表达式：(x-x₁)²+(y-y₁)²＝r²；

通过上述五个表达式建立方程组，若方程组有解，则表明有交点，若方程组无解，则表明没有交点。

在本发明舰载机导引路径规划方法另一实施例中，进一步给出了基于DQN算法的自主学习导引路径规划方法，环境将四元组(s,a,r,s,)传回给回放记忆单元，回放记忆单元将其传递给当前值网络和目标值网络，两个网络各自计算得到Q值，进行误差函数计算，将计算得到的loss函数更新当前值网络，而目标值网络则是根据一定的时间间隔将当前值网络的参数复制给目标值网络，其中包括步骤：

第一步，环境将当前状态传递给当前的值网络，该网络经过计算分别得到四个动作的值函数Q₁＝(s,a₁；θ)，Q₂＝(s,a₂；θ)，Q₃＝(s,a₃；θ)，Q₄＝(s,a₄；θ)。其中s表示当前状态；a表示下一步所采取的动作，有a₁至a₄四个方向的动作，θ表示参数；

第二步，根据周围障碍物预测位置，对当前Q网络进行修正：

F(Q_i)＝Q_i×β,

其中

第三步，根据指导向量将上述F(Q_i)做进一步修正：

第四步，将max(G(F(Q_i)))作为选出的动作返回给环境。

本发明的有益效果是：本发明公开了一种舰载机导引路径规划方法。该方法包括步骤有预测碍障物，获取舰载机和周围相邻的障碍物的历史轨迹，利用LSTM编码预测障碍物的运动轨迹；更新导向，根据舰载机位置与目标点位置之间的关系更新舰载机导向目标点的定向关系；碰撞检测，对舰载机和障碍物进行建模，检测舰载机运动过程中与相邻障碍物是否发生碰撞。通过该方法，可以在路径规划的同时有效的实现动态障碍物的碰撞避免，还加入了多种控制选择动作的限制，实现动态避障以及DQN的快速收敛，该方法使训练的时间大大缩短，提高了效率。

附图说明

图1是根据本发明舰载机导引路径规划方法一实施例的流程图；

图2是根据本发明舰载机导引路径规划方法另一实施例中的障碍物位置预测方法流程图；

图3-图6是根据本发明舰载机导引路径规划方法另一实施例中的LSTM框架中各阶段流程图；

图7是根据本发明舰载机导引路径规划方法另一实施例中更新导向流程图；

图8是根据本发明舰载机导引路径规划方法另一实施例中碰撞检测流程图；

图9是根据本发明舰载机导引路径规划方法另一实施例中舰载机的展翼状态下建模示意图；

图10是根据本发明舰载机导引路径规划方法另一实施例中舰载机的合翼状态下建模示意图；

图11是根据本发明舰载机导引路径规划方法另一实施例中加油车建模示意图；

图12是根据本发明舰载机导引路径规划方法另一实施例中人建模示意图；

图13是根据本发明舰载机导引路径规划方法另一实施例中基于DQN算法的舰载机导引路径规划流程图。

具体实施方式

为了便于理解本发明，下面结合附图和具体实施例，对本发明进行更详细的说明。附图中给出了本发明的较佳的实施例。但是，本发明可以以许多不同的形式来实现，并不限于本说明书所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。

需要说明的是，除非另有定义，本说明书所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是用于限制本发明。本说明书所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

图1显示了本发明舰载机导引路径规划方法一实施例的流程图。

在图1中，包括以下步骤：

步骤S101：预测障碍物，获取舰载机和周围相邻的障碍物的历史轨迹，利用LSTM编码预测障碍物的运动轨迹；

步骤S102：更新导向，根据舰载机位置与目标点位置之间的关系更新舰载机导向目标点的定向关系；

步骤S103：碰撞检测，对舰载机和障碍物进行建模，检测舰载机运动过程中与相邻障碍物是否发生碰撞。

对于步骤S101，优选的，根据障碍物的历史轨迹，利用LSTM框架将它们的历史轨迹编码成一系列序列值，结合图2至图6所示，编码过程如下所示：

在预测碍障物步骤中，利用LSTM编码预测障碍物的运动轨迹包括：

第一步，被预测的障碍物i从T1至Tobs的历史轨迹为

被预测的障碍物的周围障碍物的历史轨迹包括

第二步，如图3的左侧区域所示，经过LSTM框架的遗忘门输入t-1时刻的状态值h_t-1、x_t,输出为

其中σ₁代表遗忘门sigmod函数，表达式为

表示遗忘门的神经元的权值，

表示遗忘门的神经元的偏置值；

第三步，如图4的中间区域，进一步经过LSTM框架的更新门，先通过输入门sigmod函数σ₂，输出为

表示输入门的神经元的权值，

表示计算候选值向量的神经元的权值，

表示计算候选值向量的神经元的偏置值；

第四步，将第二步和第三步确定好的更新内容添加到记忆当中，得到新的记忆C_t＝f_t*C_t-1+i_t*C_t，如图5的上部区域所示；

第五步，计算当前隐藏层的状态h_t＝o_t*tanh(C_t)，表示输出已确定的输出部分，O_t＝σ(W_o[h_t-1,x_t]+b_o)为输出部分，W_o表示输出部分的神经元的权值，b_o表示输出部分的神经元的偏置值，如图6的右侧区域所示；

进一步的，包括用soft attention计算被预测障碍物的向量

其中权值α_tj为

其中a表示前馈神经网络；

进一步的，包括用hard attention计算被预测障碍物周围邻居障碍物的向量

其中

进一步的，将上述计算出来的两个向量结合，得到合并向量

权值W_c通过反向传播学习得到。

进一步的，利用LSTM框架计算预测位置，

其中s_t-1表示解码器在t-1时刻的隐藏状态，y_t-1表示解码器在t-1时刻的输出值，

表示合并向量。

优选的，在步骤S102中，如图7所示，首先初始化i＝0，然后判断i％T是否为0,T表示间隔决策次数，如果为0，表示重新定向，否则直接按照原来的定向选择动作；如果重新定向，包括四个方向，表示按照当前位置P和目的位置S设置向量

根据

的大小确定变量值：

该变量值的作用是根据距离来动态改变奖励值，选择完舰载机位置后，执行i＝i+1；判断是否到达终点，未到达则返回到判断i％T是否为0处重新执行，一直到到达终点结束。

优选的，甲板上有舰载机、加油车、工作人员。首先将它们分别建模，舰载机建模成为五边形、加油车建模成为矩形、工作人员建模成为圆形。

如图8所示，首先，初始化i＝1，获得执行a_i后舰载机的坐标位置，a_i表示舰载机可选的四个动作之一；

然后，计算舰载机各边的函数关系，优选的，展翼状态的舰载机是一个五边形，其五条边的分别方程为：

线段p₁p₂:

线段p₁p₃:

线段p₂p₄:

线段p₃p₅:

线段p₄p₅：

人的函数表达式：(x-x₁)²+(y-y₁)²＝r²；

进一步检查p₁p₂、p₁p₃、p₂p₄、p₃p₅、p₄p₅和人是否有交点，即方程组是否有解。还可以进一步判断舰载机各边和障碍物各边之间是否有交点。

在图8中，如果有交点，β_i＝0，否则无交点，β_i＝1，执行i＝i+1，将所有动作所对应的β_i都计算出来，如果i大于4则结束，这是由于是4个方向所决定的，如果i小于或等于4则返回到获得执行a_i后舰载机的坐标位置，重新进行其他动作的执行。

优选的，获得障碍物的预测位置坐标(x₁,y₁)，根据障碍物的类型不同，他们的模型的各个顶点坐标个各条边的函数关系如下所示：

(1)舰载机的展翼状态下建模为：

如图9所示，中心坐标为o＝(x₁,y₁)；前方坐标为p₁＝(x₁+cosθL，y₁+sinθ×L)，其中θ为

和x轴之间的夹角，L为

和

之间的夹角，h为

和

之间的夹角，d为

的模；右后方坐标为p₅＝(x₁+cos(θ-β)×d，y₁+sin(θ-β)×d)。

(2)舰载机在合翼状态建模为：

如图10所示，左前方坐标为p'₂＝(x₁+cos(θ+ψ)×h'，y₁+sin(θ+ψ)×h')，其中ψ为

和

之间的夹角；h'为

的模；右前方坐标为p′₃＝(x₁+cos(θ-ψ)×h′，y₁+sin(θ-ψ)×h′)，而p₁、p₄、p₅计算方法与图9中所示的计算方法相同，p₁＝(x₁+cosθ×L,y₁+sinθ×L)，p₄＝(x₁+cos(θ+β)×d，y₁+sin(θ+β)×d)，p₅＝(x₁+cos(θ-β)×d，y₁+sin(θ-β)×d)

其中θ为

和x轴之间的夹角，β为

和

之间的夹角，d为

的模，L为

的模。

(3)加油车建模为：

如图10所示，中心坐标为o＝(x₁,y₁)，左前方坐标：

q₁＝(x₁+cos(θ+ω)×m，y₁+sin(θ+ω)×m)，其中θ为加油车运动方向和x轴之间的夹角，ω为加油车运动方向和

之间的夹角；m是

(4)人建模为：

半径为r，圆心坐标为o＝(x₁,y₁)的圆。按照圆和直线的公式分别计算出各模型中各边的函数关系式。

优选的，结合图13，进一步给出了基于DQN算法的自主学习导引路径规划方法，在图13所示网络中，环境将四元组(s,a,r,s,)传回给回放记忆单元，回放记忆单元将其传递给当前值网络和目标值网络，两个网络各自计算得到Q值，进行误差函数计算，将计算得到的loss函数更新当前值网络，而目标值网络则是根据一定的时间间隔将当前值网络的参数复制给目标值网络。其中包括步骤：

第二步，根据周围障碍物预测位置，对当前Q网络进行一定的修正：

F(Q_i)＝Q_i×β,

其中

第三步，根据指导向量将上述F(Q_i)做进一步修正：

第四步，将max(G(F(Q_i)))作为选出的动作返回给环境。

由此可见，本发明公开了一种舰载机导引路径规划方法。该方法包括步骤有预测碍障物，获取舰载机和周围相邻的障碍物的历史轨迹，利用LSTM编码预测障碍物的运动轨迹；更新导向，根据舰载机位置与目标点位置之间的关系更新舰载机导向目标点的定向关系；碰撞检测，对舰载机和障碍物进行建模，检测舰载机运动过程中与相邻障碍物是否发生碰撞。通过该方法，可以在路径规划的同时有效的实现动态障碍物的碰撞避免，还加入了多种控制选择动作的限制，实现动态避障以及DQN的快速收敛，该方法使训练的时间大大缩短，提高了效率。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。