CN111546349A

CN111546349A - 一种仿人机器人步态规划的深度强化学习新方法

Info

Publication number: CN111546349A
Application number: CN202010594439.7A
Authority: CN
Inventors: 冯春; 赵彻; 李晓贞; 张祎伟; 姜文彪; 武之炜
Original assignee: Changzhou Institute of Technology
Current assignee: Changzhou Institute of Technology
Priority date: 2020-06-28
Filing date: 2020-06-28
Publication date: 2020-08-18

Abstract

本发明涉及一种机器人技术的改进，具体为一种仿人机器人步态规划的深度强化学习新方法，利用改进的DQN算法解决双足机器人的步行控制问题，在无需建立复杂的双足机器人动力学模型的基础上，将强化深度学习方法用于双足机器人实现在快步行走条件下的长距离稳定步态控制，包括建立仿人双足机器人模型、预训练控制参数和双足机器人步行运动；其中，仿人双足机器人模型采用简化的6自由度连杆模型，足部采用平面足底结构；预训练控制参数采用改进的DQN网络结构的深度强化学习进行控制器的训练；双足机器人步行运动是指通过训练的控制器实现稳定性。

Description

一种仿人机器人步态规划的深度强化学习新方法

技术领域

本发明涉及一种机器人技术的改进，具体为一种仿人机器人步态规划的深度强化学习新方法。

背景技术

仿人双足机器人具有类人型的结构能够适应诸如楼梯、街道、非平整地面等复杂地形环境，具有运动形式灵活的特点。因此，该类型运动形式的机器人可以用于医疗、救援、服务、探索等诸多行业领域。人类运动看起来很简单，却是一个涉及多个自由度的非常复杂的动作。它可以看作是通过下半身的伸肌和屈肌群把这些自由度相互关联而产生的复杂非线性动力学，这也成为正确理解运动研究中涉及的生理学并将其复制到双足机器人的动机。双足步行机器人具有便捷性、灵活性，可穿越大范围的地形，因此其运动稳定性至关重要。然而，由于非线性和不稳定因素使得其运动姿态的控制系统设计困难。面对双足步行系统的稳定性问题，近些年许多学者使用传统的控制体系结构做了大量相关工作。这些传统的控制理论方法依赖于复杂数学工程模型以及确定性问题。最近，相关学者的研究表明机器学习比传统的控制方法在双足行走稳定性上更具优势。

仿人双足步行控制可以看作是解决未经处理的高维感官输入中的复杂任务。近年来，深度学习在解决高维复杂问题上已有很多成果。其中DQN算法能够解决高维观测空间的问题，但它只能处理离散和低维的动作空间。一般来说，使用大型非线性函数逼近器来学习价值函数既困难又不稳定。结合DQN算法的优点，使用重播缓冲区中的样本对网络进行非策略训练，以最大程度地减少样本之间的相关性，再利用目标网络训练以在时间差备份期间给出一致的目标，给出一种使用深度函数逼近器的无模型、偏离策略的操作、评论算法DDPG(Deep Deterministic Policy Gradient)。该算法作为学习高维、连续动作空间中的策略的无模型方法可以使用相同的低维观测值(例如笛卡尔坐标或关节角)来学习所有任务的竞争策略超参数和网络结构。在许多情况下，它还可以直接从像素中学习良好的策略，从而再次保持超参数和网络结构不变。操作-评论的算法会根据近似评论的价值估算来更新策略。由于DDPG算法使用确定性策略梯度作为更新策略，而该更新会导致价值估计中的过高估计。尽管每次更新时这种高估可能都是最小的，但是估计误差的出现会引起误差叠加以及策略更新不佳。故本文提出一种双Q学习修正函数取代评论函数得到一种改进的DQN算法，以此解决该问题。

发明内容

本发明要解决的技术问题克服现有的缺陷，提供一种仿人机器人步态规划的深度强化学习新方法，利用改进的DQN算法解决双足机器人的步行控制问题，在无需建立复杂的双足机器人动力学模型的基础上，将强化深度学习方法用于双足机器人实现在快步行走条件下的长距离稳定步态控制。

为了解决上述技术问题，本发明提供了如下的技术方案：一种仿人机器人步态规划的深度强化学习新方法，包括建立仿人双足机器人模型、预训练控制参数和双足机器人步行运动；

其中，仿人双足机器人模型采用简化的6自由度连杆模型，足部采用平面足底结构；

预训练控制参数采用改进的DQN网络结构的深度强化学习进行控制器的训练；

双足机器人步行运动是指通过训练的控制器实现稳定性。

作为优选，所述预训练控制参数具体是指：首先，利用三维建模建立双足机器人模型并导入到仿真平台预训练基于改进DQN的深度强化学习网络。

在此过程中采用经验回放机制和目标Q值网络，来确保基于改进DQN的深度强化学习网络在训练过程中收敛；采用策略梯度算法，实现在连续的动作空间根据所学习到的策略随机筛选动作；再针对策略梯度算法不让其随机选择，只输出一个动作值。

作为优选，对于策略随机筛选，Σπ(a|s)＝1策略输出的是动作的概率，使用正态分布对动作进行采样选择，即每个动作都有概率可能选到。

作为优选，只输出一个动作值，具体是指确定性策略，π(s)S→A策略输出即是动作。

作为优选，DDPG算法使用确定性策略梯度作为更新策略，并在减少高估偏差提本新的修正算法，在操作-评论算法中优化评论部分，结合针对DDPG网络结构改进后的总体网络结构。

作为优选，基于改进的DQN算法的深度强化学习仿人机器人步态规划的新方法具体步骤如下：预训练控制参数采用改进的DQN网络结构的深度强化学习具体包括如下步骤：

步骤1：利用三维建模软件绘制，训练前将该模型导入到Matlab内，包括腰部，大腿、小腿及双足，连杆的尺寸的单位为m；腰部、大腿、小腿选用泡沫塑料,密度为0.5g/cm³，足部选用工程塑料,密度为1.0g/cm³,并保证整个双足机器人的重心保持在腰部的中心，并建立6个关节，即髋关节、膝关节和踝关节作为旋转关节，各种关节变量的作用范围分别为[-pi/4,pi/4],[0.1,pi],[-pi/4,pi/4]；在模型建立后，确定接触刚度、阻尼、静摩擦和动摩擦作为仿真参数；

步骤2：使用改进的DQN算法进行智能体训练，具体包含以下关键步骤：

步骤2.1：操作与评论函数；估计策略和价值函数，智能体维护4个函数近似器：

操作μ(s)：操作进行观察s并输出相应的动作，以最大化长期奖励；

目标操作μ′(s)：智能体会根据最新的操作参数值定期更新目标操作；

双Q值评论Q(s,a)：评论将观察值s和操作a分别作为输入和对长期奖励相应期望的输出；

双目标评论Q′(s,a)：智能体会根据最新的评论参数值定时更新目标评论；

Q(s,a)和Q′(s,a)二者具有相同的结构和参数化，并且μ(s)和μ′(s)二者具有相同的结构和参数化，训练完成后，将训练好的最佳策略存储在操作μ(s)中；

步骤2.2：智能体创建：创建智能体具体操作步骤包括：

a)创建一个操作表示对象；

b)创建评论表示对象；

c)指定智能体选项；

d)函数创建智能体；

步骤3：创建智能体后，可进行智能体训练；该智能体使用以下训练算法，在每个时间步长更新操作和评论模型；

用随机参数值θ_Q初始化评论Q(s,a)，并使用相同的随机参数值θ_Q′＝θ_Q初始化目标评论；

用随机参数值θ_μ初始化操作μ(s)，并用相同的参数值θ_μ′＝θ_μ初始化目标操作；

对于每个训练时间步长：

1.对于当前观测值s，选择操作a＝μ(s)+n，其中n是来自噪声模型的随机噪声；

2.执行动作a，观察奖励r和下一个观察s′；

3.将经验(s,a,r,s′)存储在经验缓冲区中；

4.从经验缓冲区中随机抽取M个小批量的经验(s_i,a_i,r_i,s′_i)；

5.如果s′_i是终端状态，则将价值函数目标y_i设置为r，否则将其设置为：

其中，γ为折扣系数，价值函数目标是经验奖励r_i和评论网络对应未来奖励折扣的最小值二者之和，智能体首先通过将下一个观察结果s′_i从采样的经验传递到目标操作来计算下一个动作；然后，智能体添加噪声ε到已经计算的动作，并且将动作以噪声的上下限进行分割；智能体通过将下一个动作传递给目标评论来找到累积奖励；

6.通过最小化所有采样经验中的损失L更新评论参数；

7.使用以下样本策略梯度更新操作参数，以最大化预期权值奖励；

其中

其中a＝μ(s_i|θ_μ)，G_ai为最小评论输出对应由操作网络计算动作的梯度，而G_μi是操作输出对应操作参数的梯度，两个梯度均由观测值s_i估计；

9.根据目标更新方法更新目标操作和评论；智能体使用目标平滑化，并在每个时间步长更新目标操作和评论；

步骤4：根据控制参数确定机器人的控制策略进行步态的控制，利用Matlab进行仿真；仿真结果在10s内连续向前行走到终点，选取其中的一次稳定控制仿真实验，具体是指双足机器人在整个步行任务中并未出现跌倒的情况发生且保持姿态稳定，各关节的力矩在(-3,3)N·m范围内周期变化。

作为优选，智能体使用目标平滑化，并在每个时间步长更新目标操作和评论具体是指：在每一个时间步长均会利用平滑因子t更新目标，对应的评论和操作参数分别为

θ_μ′＝tθ_μ+(1-t)θ_μ′。

本发明有益效果：本发明的将深度强化学习引入仿人双足机器人步态控制，利用改进的DQN方法进行训练，能够尽可能地确保训练的网络快速收敛，同时可以增强仿人双足机器人控制器的稳定性和鲁棒性。对于机器人所处环境的变化，只需要重新进行学习即可适应巨大差异化的环境变化。

附图说明

图1为仿人双足机器人步态控制结构框图；

图2为双足机器人连杆模型；

图3为改进DQN算法的网络结构框图；

图4为双足机器人步态控制的运动关键帧；

图5双足机器人关节力矩曲线。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，本发明的一种仿人机器人步态规划的深度强化学习新方法，包括建立仿人双足机器人模型、预训练控制参数和双足机器人步行运动。

其中，仿人双足机器人模型是采用一种简化的6自由度连杆模型，足部采用平面足底结构形式；预训练控制参数是利用一种改进的DQN(Deep-Q-Network)网络结构的深度强化学习进行控制器的训练；双足机器人步行运动的稳定性主要是通过训练的控制器来保证。首先，需要利用solidworks2018建立双足机器人模型并导入到matlab2019b仿真平台预训练基于基于改进DQN的深度强化学习网络，在此过程中通常采用经验回放机制和目标Q值网络这两种方法来确保基于改进DQN的深度强化学习网络在训练过程中能更好地收敛；然后是采用策略梯度算法，保证能够在连续的动作空间根据所学习到的策略(动作分布)随机筛选动作；最后是针对策略梯度算法不让其随机选择，只输出一个动作值。对于随机性策略，Σπ(a|s)＝1策略输出的是动作的概率，使用正态分布对动作进行采样选择，即每个动作都有概率可能选到。该策略优点是将探索和改进集成到一个策略中，而其缺点是需要大量训练数据。确定性策略，π(s)S→A策略输出即是动作。该策略的优点是需要采样的数据少，算法效率高，而其缺点是无法探索环境。然而，因为引用了DQN算法的结构利用离线策略采样，从而解决了无法探索环境的问题。

操作-评论的算法会根据近似评论的价值估算来更新策略。DDPG算法使用确定性策略梯度作为更新策略，而该更新会导致价值估计中的过高估计。尽管每次更新时这种高估可能都是最小的，但是估计误差的出现引起了两个问题。首先，如果不加以控制，高估可能会在许多更新上形成更大的偏差。其次，不正确的价值估算可能会导致策略更新不佳。由于一个反馈循环的出现，次优操作可能会高度评价本身，使得在下一次策略更新中进一步恶化次优操作而不能达到最优化。在减少高估偏差方面已经提出了几种方法，但它们在行为评论环境中无效。本发明在双Q学习方法基础上给出一种新的修正算法，该方法可以在操作-评论算法中优化评论部分，结合针对DDPG网络结构改进后的总体网络结构如图3所示。进一步，本发明提出的基于改进的DQN算法的深度强化学习仿人机器人步态规划的新方法具体步骤如下：

步骤1：

鉴于研究步态控制问题，故本发明采用一种简化的双足机器人连杆模型如图2所示进行说明。它是利用三维建模软件SolidWorks2018绘制，训练前将该CAD模型导入到Matlab2019a内。由图可知，双足机器人整体结构可以简化为如下几个部分：包括腰部，大腿、小腿及双足(足步采用类似于平足的方式)，连杆的尺寸的单位为m。选择的材料分为两种，腰部、大腿、小腿选用泡沫塑料(密度为0.5g/cm³)，足部选用工程塑料(密度为1.0g/cm³)。双足步行机器人建模需要保证整个双足机器人的重心保持在腰部的中心，这种保持平衡的方式在拟人学上与人类行走方式相似。双足机器人模型的运动主要包括6个关节，即髋关节、膝关节和踝关节，它们均可以看作为旋转关节，各种关节变量的作用范围分别为[-pi/4,pi/4],[0.1,pi],[-pi/4,pi/4]。在模型建立后，确定合适的接触刚度、阻尼、静摩擦、动摩擦等仿真参数。

步骤2：

为了实现双足机器人稳定步态控制，需要使用改进的DQN算法进行智能体训练。该改进算法是一种无模型的、在线的、非策略性强化学习方法。对应的智能体是一种深度确定性策略梯度的智能体，它也是一种行为-评论强化学习智能体，可计算最大化长期奖励的最佳策略。该算法关键参数如表1所示。

表1改进DQN算法关键参数

具体包含以下关键步骤：

步骤2.1：

操作与评论函数

为了估计策略和价值函数，智能体维护4个函数近似器：

操作μ(s)：操作进行观察s并输出相应的动作，以最大化长期奖励。

目标操作μ′(s)：为提高优化的稳定性，智能体会根据最新的操作参数值定期更新目标操作。

双Q值评论Q(s,a)：评论将观察值s和操作a分别作为输入和对长期奖励相应期望的输出。

双目标评论Q′(s,a)：为了提高优化的稳定性，智能体会根据最新的评论参数值定时更新目标评论。

Q(s,a)和Q′(s,a)二者具有相同的结构和参数化，并且μ(s)和μ′(s)二者具有相同的结构和参数化。训练完成后，将训练好的最佳策略存储在操作μ(s)中。

步骤2.2：

智能体创建

创建智能体具体操作步骤包括：

a)创建一个操作表示对象。

b)创建评论表示对象。

c)指定智能体选项。

d)函数创建智能体。

步骤3：

创建智能体后，可进行智能体训练。该智能体使用以下训练算法，它们在每个时间步长更新操作和评论模型。

用随机参数值θ_Q初始化评论Q(s,a)，并使用相同的随机参数值θ_Q′＝θ_Q初始化目标评论。

用随机参数值θ_μ初始化操作μ(s)，并用相同的参数值θ_μ′＝θ_μ初始化目标操作。

对于每个训练时间步长：

1.对于当前观测值s，选择操作a＝μ(s)+n，其中n是来自噪声模型的随机噪声。

2.执行动作a。观察奖励r和下一个观察s′。

3.将经验(s,a,r,s′)存储在经验缓冲区中。

4.从经验缓冲区中随机抽取M个小批量的经验(s_i,a_i,r_i,s′_i)。

5.如果s′_i是终端状态，则将价值函数目标y_i设置为r。否则将其设置为：

其中，γ为折扣系数。价值函数目标是经验奖励r_i和评论网络对应未来奖励折扣的最小值二者之和。为了计算累积奖励，智能体首先通过将下一个观察结果s′_i从采样的经验传递到目标操作来计算下一个动作。然后，智能体添加噪声ε到已经计算的动作，并且将动作以噪声的上下限进行分割。智能体通过将下一个动作传递给目标评论来找到累积奖励。

6.通过最小化所有采样经验中的损失L更新评论参数。

7.使用以下样本策略梯度更新操作参数，以最大化预期权值奖励。

其中

其中a＝μ(s_i|θ_μ)，G_ai为最小评论输出对应由操作网络计算动作的梯度，而G_μi是操作输出对应操作参数的梯度。两个梯度均由观测值s_i估计。

8.根据目标更新方法(平滑或定期)更新目标操作和评论。智能体使用目标平滑化，并在每个时间步长更新目标操作和评论。为简单起见，此算法中的操作和评论的更新使用基本随机梯度下降的更新方式。在每一个时间步长均会利用平滑因子t更新目标，对应的评论和操作参数分别为

θ_μ′＝tθ_μ+(1-t)θ_μ′

步骤4：

根据控制参数确定机器人的控制策略进行步态的控制，利用Matlab2019进行仿真。仿真结果表明在10s内连续向前行走到终点(约5米)整个过程均非常稳定基本未出现跌倒情况。选取其中的一次稳定控制仿真实验，其运动关键帧如图4所示。由图可知，双足机器人在整个步行任务中并未出现跌倒的情况发生且保持姿态稳定，该稳定性也可从后续的力矩图像的曲线得到验证。由关节力矩的图像如图5所示，由曲线可知各关节的力矩在(-3,3)N·m范围内周期变化，稳定的力矩输出能够保证双足机器人在步行中的稳定性。

以上为本发明较佳的实施方式，本发明所属领域的技术人员还能够对上述实施方式进行变更和修改，因此，本发明并不局限于上述的具体实施方式，凡是本领域技术人员在本发明的基础上所作的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims

1.一种仿人机器人步态规划的深度强化学习新方法，其特征在于：包括建立仿人双足机器人模型、预训练控制参数和双足机器人步行运动；

双足机器人步行运动是指通过训练的控制器实现稳定性。

2.根据权利要求1所述的仿人机器人步态规划的深度强化学习新方法，其特征在于：所述预训练控制参数具体是指：首先，利用三维建模建立双足机器人模型并导入到仿真平台预训练基于改进DQN的深度强化学习网络，

3.根据权利要求2所述的仿人机器人步态规划的深度强化学习新方法，其特征在于：对于策略随机筛选，∑π(a|s)＝1策略输出的是动作的概率，使用正态分布对动作进行采样选择，即每个动作都有概率可能选到。

4.根据权利要求2所述的仿人机器人步态规划的深度强化学习新方法，其特征在于：只输出一个动作值，具体是指确定性策略，π(s)S→A策略输出即是动作。

5.根据权利要求2所述的仿人机器人步态规划的深度强化学习新方法，其特征在于：DDPG算法使用确定性策略梯度作为更新策略，并在减少高估偏差提本新的修正算法，在操作-评论算法中优化评论部分，结合针对DDPG网络结构改进后的总体网络结构。

6.根据权利要求5所述的仿人机器人步态规划的深度强化学习新方法，其特征在于：基于改进的DQN算法的深度强化学习仿人机器人步态规划的新方法具体步骤如下：预训练控制参数采用改进的DQN网络结构的深度强化学习具体包括如下步骤：

步骤2.2：智能体创建：创建智能体具体操作步骤包括：

a)创建一个操作表示对象；

b)创建评论表示对象；

c)指定智能体选项；

d)函数创建智能体；

对于每个训练时间步长：

2.执行动作a，观察奖励r和下一个观察s′；

3.将经验(s,a,r,s′)存储在经验缓冲区中；

6.通过最小化所有采样经验中的损失L更新评论参数；

其中

8.根据目标更新方法更新目标操作和评论；智能体使用目标平滑化，并在每个时间步长更新目标操作和评论；

7.根据权利要求6所述的仿人机器人步态规划的深度强化学习新方法，其特征在于：智能体使用目标平滑化，并在每个时间步长更新目标操作和评论具体是指：在每一个时间步长均会利用平滑因子t更新目标，对应的评论和操作参数分别为

θ_μ′＝tθ_μ+(1-t)θ_μ′。