[go: up one dir, main page]

CN109581868B - 基于评判辨识结构的可重构机器人分散神经最优控制方法 - Google Patents

基于评判辨识结构的可重构机器人分散神经最优控制方法 Download PDF

Info

Publication number
CN109581868B
CN109581868B CN201811105107.7A CN201811105107A CN109581868B CN 109581868 B CN109581868 B CN 109581868B CN 201811105107 A CN201811105107 A CN 201811105107A CN 109581868 B CN109581868 B CN 109581868B
Authority
CN
China
Prior art keywords
neural network
error
joint
representing
optimal control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811105107.7A
Other languages
English (en)
Other versions
CN109581868A (zh
Inventor
董博
安天骄
秦一
靳伟宁
周帆
王树祥
刘克平
李元春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Technology
Original Assignee
Changchun University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Technology filed Critical Changchun University of Technology
Priority to CN201811105107.7A priority Critical patent/CN109581868B/zh
Publication of CN109581868A publication Critical patent/CN109581868A/zh
Application granted granted Critical
Publication of CN109581868B publication Critical patent/CN109581868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

基于评判辨识结构的可重构机器人分散神经最优控制方法,属于机器人控制算法领域,为了解决现有技术中存在分散最优控制精度低的问题,该方法首先建立可重构机器人系统动力学模型,其次构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解,然后通过对可重构机器人关节子系统间的耦合力矩交联项的辨识,接下来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性;本发明解决了现有技术中存在分散最优控制精度低的问题,为可重构机器人提供稳定性和精确性,并且可以满足各种任务的需求。

Description

基于评判辨识结构的可重构机器人分散神经最优控制方法
技术领域
本发明涉及一种可重构机器人系统的分散神经最优控制方法,属于机器人控制算法领域。
背景技术
可重构机器人由电源装置、减速设备、执行器、传感器和计算系统组成。这些模块可以被组装成具有标准机械接口的预定参数,以满足各种任务的需求。从这一优势出发,可重构机器人经常被用于复杂而危险的工作环境,如救灾、空间探索、高温/低温作业等。因此,可重构机器人需要适当的控制系统来保证机器人系统的稳定性,同时考虑到控制性能和功耗组合的优化实现。
可重构机器人的重要特性是机器人模块可以添加、删除和替换,而不需要调整其他模块的控制参数。换句话说,对于可重构机器人系统,在子系统和本地控制器之间存在着物理上的信息交换限制,对于这些子系统和本地控制器来说,它们拥有集中控制器的能力是不可靠的。
对于复杂的相互关联的非线性系统,尤其是可重构机器人系统,交联项的性质和规模与内部动力学有很大的不同。分散神经最优控制策略是在非线性系统的动态信息是完全未知的前提下进行研究的,因此这些方法的应用局限于求解机器人系统特定类的最优控制问题,而没有实现最优的动态补偿。事实上,在设计机器人分散最优控制器时,尤其是在可重构机器人系统中,需要充分利用现有的动态模型信息。
赵博等人在International Journal of Control,Automation and Systems上发表的”Model-free Adaptive Dynamic Programming Based Near-optimal DecentralizedTracking Control of Reconfigurable Manipulators”,该文中分散最优控制没有考虑复杂的互联非线性系统,特别是对于可重构机器人系统,交联项的性质和大小与内部动力学完全不同,所以该方法存在控制精度低的问题。
发明内容
本发明为了解决现有技术中存在分散最优控制精度低的问题,提出了一种基于评判辨识结构的可重构机器人分散神经最优控制方法。
本发明解决技术问题的方案是:
基于评判辨识结构的可重构机器人分散神经最优控制方法,其特征是,该方法首先建立可重构机器人系统动力学模型,其次构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解,然后通过对可重构机器人关节子系统间的耦合力矩交联项的辨识,接下来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性。
基于评判辨识结构的可重构机器人分散神经最优控制方法,包括如下步骤:
步骤一,建立可重构机器人系统动力学模型如下:
Figure GDA0001972584030000021
上式中,i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,qi
Figure GDA0001972584030000022
Figure GDA0001972584030000023
分别是关节位置,速度和加速度,
Figure GDA0001972584030000024
是关节摩擦项,
Figure GDA0001972584030000025
是关节子系统间的耦合力矩交联项,τsi是耦合力矩在力矩传感器的位置,di(qi)是干扰力矩,τi是电机输出转矩;
定义系统的状态向量
Figure GDA0001972584030000026
控制输入ui=τi
则子系统的状态空间的形式可以表示为:
Figure GDA0001972584030000027
其中,
Figure GDA0001972584030000028
表示动力学模型中已建模的部分,
Figure GDA0001972584030000029
表示耦合力矩交联项,
Figure GDA00019725840300000217
是模型不确定项,包括摩擦模型误差和外界扰动;
步骤二,构建代价函数如下:
Figure GDA00019725840300000210
其中,si(ei)定义为
Figure GDA00019725840300000211
且ei=xi1-xid
Figure GDA00019725840300000212
分别代表第i个关节的位置和速度跟踪误差,其中αei>0为确定常数;xid
Figure GDA00019725840300000213
分别是第i个关节期望的位置、速度和加速度,
Figure GDA00019725840300000214
为效用函数,
Figure GDA00019725840300000215
Figure GDA00019725840300000216
是确定的正常数矩阵;
构建哈密顿方程如下:
Figure GDA0001972584030000031
其中,
Figure GDA0001972584030000032
是第i个关节的期望加速度,
Figure GDA0001972584030000033
为代价函数Ji(si)的梯度;接下来,定义如下最优代价函数:
Figure GDA0001972584030000034
根据式(15)、(16),基于非线性系统最优控制设计理论,易知
Figure GDA0001972584030000035
满足如下HJB方程:
Figure GDA0001972584030000036
最优控制律
Figure GDA0001972584030000037
定义为如下形式:
Figure GDA0001972584030000038
其中,ui1为基于局部动力学信息的模型补偿控制律,ui2为辨识策略的神经网络控制律,
Figure GDA0001972584030000039
为基于自适应动态规划的神经最优控制律;
将式(17)的HJB方程改写成:
Figure GDA00019725840300000310
接下来,定义ui1
Figure GDA00019725840300000311
ui1是根据第i个关节模块的局部动态信息来设计的;
步骤三,交联项动力学的辨识;
交联项hi可以用一个单层神经网络来进行逼近:
Figure GDA00019725840300000312
σih(xih,xD)表示神经网络激活函数,wih表示未知理想权重,xih表示确定的神经网络状态,xD=[x1d,x2d,…,xmd]T,m<i代表已知有界参考状态向量,εih(xih)表示神经网络逼近误差;在(23)的基础上,考虑如下有界控制输入uih非线性动力学系统:
Figure GDA00019725840300000313
用神经网络辨识逼近(24),得到:
Figure GDA0001972584030000041
其中,
Figure GDA0001972584030000042
为辨识系统状态xih,hi的逼近为
Figure GDA0001972584030000043
为权重的估计值,rih为鲁棒积分符号误差的反馈项,定义为:
rih=kiheih+vih (27)
其中,
Figure GDA0001972584030000044
是辨识误差,vih由如下广义解给出:
Figure GDA0001972584030000045
其中,kih,αih,γih,δi1代表正控制常参数,sgn(·)表示符号函数,结合(24),(25),辨识动态误差为:
Figure GDA0001972584030000046
其中,
Figure GDA0001972584030000047
在此基础上,定义辨识误差函数:
Figure GDA0001972584030000048
根据式(28)、(29)对时间t的导数,有如下定义:
Figure GDA0001972584030000049
神经网络权重更新设计如下:
Figure GDA00019725840300000410
其中,proj表示光滑投影运算,Γih表示正常数增益矩阵;
结合式(21),(25),(26),(27),得到交联项辨识策略的神经网络控制律ui2为:
Figure GDA00019725840300000411
权值
Figure GDA00019725840300000412
由(31)更新;
步骤四,通过神经网络来近似代价函数Ji(si),定义如下:
Figure GDA00019725840300000413
其中,wci是理想的权值向量,σci(si)是激活函数,εci是神经网络的逼近误差,Ji(si)的梯度通过神经网络近似为:
Figure GDA00019725840300000414
其中:
Figure GDA0001972584030000051
Figure GDA0001972584030000052
分别代表激活函数的梯度和逼近误差;结合(21),(37)
Figure GDA0001972584030000053
由于理想权值wci是未知的,所以用近似权值wci建立一个评价神经网络来估计代价函数:
Figure GDA0001972584030000054
根据哈密顿方程(15)和代价函数(36)以及它的梯度(37),哈密顿方程可以进一步改写为:
Figure GDA0001972584030000055
其中,ecHi是由评判网络逼近误差而得到的残差,它可以定义为:
Figure GDA0001972584030000056
以同样的方式近似哈密顿方程,可得:
Figure GDA0001972584030000057
定义误差方程为
Figure GDA0001972584030000058
权值估计误差为
Figure GDA0001972584030000059
结合式(40)与式(42),可以得到一个用
Figure GDA00019725840300000510
表示eci的方程:
Figure GDA00019725840300000511
训练和调整评价网络的权值信息,采用目标函数
Figure GDA00019725840300000512
它可以被
Figure GDA00019725840300000513
训练来取到最小值,且神经网络的权值可以通过下式进行更新:
Figure GDA00019725840300000514
其中,αci>0表示评价神经网络的学习速率;推导出神经网络权值的动态误差,引入下式:
Figure GDA00019725840300000515
通过式(43),(44)和(45),得到评价神经网络的动态误差如下所示:
Figure GDA00019725840300000516
结合(18)和(36),理想基于自适应动态规划的神经最优控制律为:
Figure GDA00019725840300000517
在实现在线策略迭代算法来完成策略改进时,得到了近似最优控制律
Figure GDA00019725840300000518
如下所示:
Figure GDA0001972584030000061
结合式(22),(35)与(48),可得到基于评判辨识结构的可重构机器人分散神经最优控制律
Figure GDA0001972584030000062
为:
Figure GDA0001972584030000063
本发明的有益效果如下:
在位置跟踪方面,本发明改善了系统的跟踪性能,并且降低了评判神经网络对未知非线性项的计算负担,关节位置的稳态误差减小。
在控制力矩方面,本发明的控制力矩更加连续和平滑,不仅可以保持系统渐进稳定,而且可以降低每个关节的能量损耗。
在训练神经网络方面,本发明通过在线策略迭代的方法可以更快的训练神经网络。
因此,本发明解决了现有技术中存在分散最优控制精度低的问题,为可重构机器人提供稳定性和精确性,并且可以满足各种任务的需求。
附图说明
图1为本发明基于评判辨识结构的可重构机器人分散神经最优控制原理图。
图2为本发明基于评判辨识结构的可重构机器人分散神经最优控制方法流程图。
图3为本发明仿真验证中的可重构机器人构型A关节1(图3-(a))和关节2(图3-(b))的提出方法的关节位置跟踪曲线。
图4为本发明仿真验证中的可重构机器人构形A的提出方法的关节位置跟踪误差曲线。
图5为本发明仿真验证中的可重构机器人构型A关节1(图5-(a))和关节2(图5-(b))的提出方法的关节位置跟踪曲线。
图6为本发明仿真验证中的可重构机器人构形A关节1的提出方法的评判神经网络权重调节曲线。
图7为本发明仿真验证中的可重构机器人构形A关节2的提出方法的评判神经网络权重调节曲线。
图8为本发明仿真验证中的可重构机器人构型B关节1(图8-(a))和关节2(图8-(b))的提出方法的关节位置跟踪曲线。
图9为本发明仿真验证中的可重构机器人构形B的提出方法的关节位置跟踪误差曲线。
图10为本发明仿真验证中的可重构机器人构型B关节1(图10-(a))和关节2(图10-(b))的提出方法的控制力矩曲线。
图11为本发明仿真验证中的可重构机器人构形B关节1的提出方法的评判神经网络权重调节曲线。
图12为本发明仿真验证中的可重构机器人构形B关节2的提出方法的评判神经网络权重调节曲线。
具体实施方式
下面结合附图对本发明做进一步详细说明。
如图1所示,根据控制器参数与期望动力学信息,与期望位置变量、关节输出转矩与摩擦参数估计值相结合得到基于局部动力学信息的模型补偿控制律ui1。确定神经网络初值,得到神经网络权值更新率,得到辨识误差函数,获得辨识策略的神经网络控制律ui2。通过近似代价函数,通过评判网络,得到基于自适应动态规划的神经最优控制律
Figure GDA0001972584030000071
把ui1、ui2
Figure GDA0001972584030000072
相加,得到分散神经最优控制律,运用到动力学模型,获得关节位置变量。与期望位置变量作差得到位置误差,再进而作用到神经网络权值更新率。
如图2所示,基于评判辨识结构的可重构机器人分散神经最优控制方法,该方法首先建立可重构机器人系统动力学模型,其次构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解,然后通过对可重构机器人关节子系统间的耦合力矩交联项的辨识,接下来采用神经网络对代价函数进行近似,最后通过仿真验证所提出控制方法的有效性。
1、动力学模型的建立
建立可重构机器人系统的动力学模型如下:
Figure GDA0001972584030000073
上式中,i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,qi
Figure GDA0001972584030000074
Figure GDA0001972584030000075
分别是关节位置,速度和加速度,
Figure GDA0001972584030000076
是关节摩擦项,
Figure GDA0001972584030000077
是关节子系统间地耦合力矩交联项,τsi是耦合力矩在力矩传感器的位置,di(qi)是干扰力矩,τi是电机输出转矩。
(1)式中,关节摩擦项
Figure GDA0001972584030000081
表示为关于关节位置和速度的函数:
Figure GDA0001972584030000082
其中,bfi是粘性摩擦系数,fci是库伦摩擦相关系数,fsi是静态相关系数,fτi是关于Stribeck效应的位置参数,
Figure GDA0001972584030000083
是位置误差和其他摩擦模型误差。假设fsi和fτi的标称值和它们的实际值是相接近的,可以通过标称参数值
Figure GDA0001972584030000084
Figure GDA0001972584030000085
来线性化
Figure GDA0001972584030000086
忽略高阶项后可以得到:
Figure GDA0001972584030000087
结合式(2)和式(3),关节摩擦项
Figure GDA0001972584030000088
可以近似等于:
Figure GDA0001972584030000089
其中,
Figure GDA00019725840300000810
表示摩擦参数不确定项,
Figure GDA00019725840300000811
分别为给定的摩擦参数的估计值,且
Figure GDA00019725840300000812
表示为:
Figure GDA00019725840300000813
此外,(1)式子中的关节子系统间的耦合力矩交联项
Figure GDA00019725840300000814
可以表示为:
Figure GDA00019725840300000815
其中,zmi是第i个转子旋转轴上的单位矢量,zlj是第j个关节旋转轴上的单位矢量,zlk是第k个关节旋转轴上的单位矢量。
便于分析关节子系统间的耦合力矩交联项,将
Figure GDA00019725840300000816
Figure GDA00019725840300000817
表示为:
Figure GDA0001972584030000091
Figure GDA0001972584030000092
其中,
Figure GDA00019725840300000917
i,j,k分别代表第i,j,k个关节。
Figure GDA0001972584030000095
Figure GDA0001972584030000096
Figure GDA00019725840300000916
是单位向量zmi与zlj的点积,
Figure GDA0001972584030000097
是校正误差;
Figure GDA0001972584030000098
是单位向量zmi与zlk×zlj的点积,
Figure GDA0001972584030000099
是校正误差。
(1)中di(qi)项定义为:
di(qi)=dih(qi)+dis(qi) (9)
其中,dih(qi)表示力矩传输波纹,dis(qi)表示力矩传感干扰。
重新改写式(1)中第i个子系统的动力学模型可以得到:
Figure GDA00019725840300000910
其中,
Figure GDA00019725840300000911
定义系统的状态向量
Figure GDA00019725840300000912
控制输入ui=τi
第i个子系统的状态空间的形式可以表示为:
Figure GDA00019725840300000913
其中
Figure GDA00019725840300000914
表示动力学模型中已建模部分,
Figure GDA00019725840300000915
表示耦合力矩交联项,
Figure GDA00019725840300000918
是模型不确定项,包括摩擦模型误差和外界扰动。
性质1:根据摩擦力模型(4),如果参数bfi,fci,fsi和fτi都是有界的,可以得出
Figure GDA0001972584030000101
是有界的,且
Figure GDA0001972584030000102
ρFil=[ρFi1Fi2Fi3Fi4]T是一个已知的常数向量,ρFi1Fi2Fi3Fi4为已知的正常数上界。因此,摩擦力模型的上界可以定义为
Figure GDA0001972584030000103
性质2:摩擦力项
Figure GDA0001972584030000104
有界,且
Figure GDA0001972584030000105
ρfpi对于任意的位置qi与速度
Figure GDA0001972584030000106
是一个已知的有界常数。
性质3:zmi,zlk与zlj是沿着相应关节旋转方向的单位矢量,
Figure GDA0001972584030000107
Figure GDA0001972584030000108
得到的向量乘积是有界的。此外,当关节稳定时,它的加速度与速度一定是有界的,因此,根据在(7)与(8)中交联项的形式,可以得出这样的结论:如果关节j和关节k是稳定的(j,k<i),那么
Figure GDA0001972584030000109
Figure GDA00019725840300001010
是有界的,且满足
Figure GDA00019725840300001011
Figure GDA00019725840300001012
ρUi与ρVi是已知正常数上界。由此可知,性质3说明了如果关节j和关节k是稳定的(j,k<i),那么
Figure GDA00019725840300001013
Figure GDA00019725840300001014
是有界的,这意味着当设计第i个关节的控制器时,低阶关节i-1也已经是稳定的。
性质4:dih(qi)主要受到波形发生器和谐波传动器中柔轮最大变形量影响,因此dih(qi)≤ρdhi
性质5:dis(qi)的上界|dis(qi)|≤ρdsi是由力矩传感偏离决定的。
2、代价函数与哈密顿函数的构建
首先,构建代价函数为:
Figure GDA00019725840300001015
其中,si(ei)定义为
Figure GDA00019725840300001016
且ei=xi1-xid
Figure GDA00019725840300001017
分别代表第i个关节的位置和速度跟踪误差,其中αei>0为确定常数。xid
Figure GDA00019725840300001018
分别是第i个关节期望的位置、速度和加速度,
Figure GDA00019725840300001019
为效用函数,
Figure GDA00019725840300001020
Figure GDA00019725840300001021
是确定的正常数矩阵。根据性质1,2,3,4,5,可得:
Figure GDA00019725840300001022
耦合力矩交联项hi和模型不确定项
Figure GDA0001972584030000111
它们上界函数Hi,Wi满足下列关系:
Figure GDA0001972584030000112
定义哈密顿方程如下:
Figure GDA0001972584030000113
其中,
Figure GDA0001972584030000114
是第i个关节的期望加速度,
Figure GDA0001972584030000115
为代价函数Ji(si)的梯度。接下来,定义如下最优代价函数:
Figure GDA0001972584030000116
基于非线性系统最优控制设计理论下,易知
Figure GDA0001972584030000117
满足如下HJB方程:
Figure GDA0001972584030000118
Figure GDA0001972584030000119
存在并且连续可微分机器人系统(11)的最优控制律为:
Figure GDA00019725840300001110
HJB方程可以改写成:
Figure GDA00019725840300001111
接下来,把最优控制
Figure GDA00019725840300001112
分解成:
Figure GDA00019725840300001113
分别解决项φi,hi,
Figure GDA00019725840300001114
可以修正HJB方程为:
Figure GDA00019725840300001115
定义控制律ui1为:
Figure GDA00019725840300001116
由于ui1是根据第i个关节模块的局部动态信息来设计的。
接下来,通过基于策略迭代的学习算法,来求HJB方程的解。选择一个很小的正常数εip,让
Figure GDA00019725840300001117
开始的允许控制策略
Figure GDA00019725840300001118
基于控制策略
Figure GDA00019725840300001119
根据
Figure GDA00019725840300001122
Figure GDA00019725840300001120
求解
Figure GDA00019725840300001121
而后采用
Figure GDA0001972584030000121
对控制策略进行更新,如果δp>0且
Figure GDA0001972584030000122
则停止运算,得到近似最优控制,否则δp=δp+1然后继续求解
Figure GDA0001972584030000123
3、交联项动力学的辨识
要辨识交联项动力学,首先要给出以下假设:
假设1:神经网络逼近误差是有上界的,上界是一个未知常数。
假设2:激活函数σ(·)和它的导数σ′(·)是有界的。
利用假设1和2,交联项hi可以用一个单层神经网络来进行逼近:
Figure GDA0001972584030000124
σih(xih,xD)表示神经网络激活函数,wih表示未知理想权重,xih表示确定的神经网络状态,xD=[x1d,x2d,…,xmd]T,m<i代表已知有界参考状态向量,εih(xih)表示神经网络逼近误差。在(23)的基础上,考虑如下有界控制输入uih非线性动力学系统:
Figure GDA0001972584030000125
用神经网络辨识逼近(24),得到:
Figure GDA0001972584030000126
其中,
Figure GDA0001972584030000127
为辨识系统状态xih,hi的逼近为
Figure GDA0001972584030000128
为权重的估计值,rih为鲁棒积分符号误差的反馈项,定义为:
rih=kiheih+vih (26)
其中,
Figure GDA0001972584030000129
是辨识误差,vih由如下广义解给出:
Figure GDA00019725840300001210
其中,kih,αih,γih,δi1代表正控制常参数,sgn(·)表示符号函数,结合(24),(25),辨识动态误差为:
Figure GDA00019725840300001211
其中,
Figure GDA00019725840300001212
在此基础上,定义辨识误差函数:
Figure GDA00019725840300001213
根据(28),(29)对时间t的导数,有如下定义:
Figure GDA0001972584030000131
神经网络权重更新设计如下:
Figure GDA0001972584030000132
其中,proj表示光滑投影运算,Γih表示正常数增益矩阵,(30)可以重新改写为:
Figure GDA0001972584030000133
其中,
Figure GDA0001972584030000134
定义为:
Figure GDA0001972584030000135
其中
Figure GDA0001972584030000136
定义一个辅助项
Figure GDA0001972584030000137
Figure GDA0001972584030000138
代替
Figure GDA0001972584030000139
Figure GDA00019725840300001310
Pih=Pih2+Pih3。根据假设1和2,使用公式(29),(31),(33)可以获得以下边界:
Figure GDA00019725840300001311
其中
Figure GDA00019725840300001312
μi1(·),μi2(·)为正非增全局可逆函数,ξim,m=1,…,6为可计算正常数。
结合式(21),(25),(26),(27),得到交联项辨识策略的神经网络控制律ui2为:
Figure GDA00019725840300001313
权重
Figure GDA00019725840300001314
由(32)更新。
4、基于评判神经网络的代价函数近似实现
利用单层神经网络来近似代价函数Ji(si),定义如下:
Figure GDA00019725840300001315
其中,wci是理想的权值向量,σci(si)是激活函数,εci是神经网络的逼近误差,Ji(si)的梯度通过神经网络近似为:
Figure GDA00019725840300001316
其中:
Figure GDA0001972584030000141
Figure GDA0001972584030000142
分别代表激活函数的梯度和逼近误差。结合(21),(37)
Figure GDA0001972584030000143
由于理想权值wci是未知的,所以用近似权值wci建立一个评价神经网络来估计代价函数:
Figure GDA0001972584030000144
根据哈密顿方程(15)和代价函数(36)以及它的梯度(37),哈密顿方程可以进一步改写为:
Figure GDA0001972584030000145
其中,ecHi是由评判网络逼近误差而得到的残差,它可以定义为:
Figure GDA0001972584030000146
以同样的方式近似哈密顿方程,可得:
Figure GDA0001972584030000147
定义误差方程为
Figure GDA0001972584030000148
权值估计误差为
Figure GDA0001972584030000149
结合式(40)与式(42),可以得到一个用
Figure GDA00019725840300001410
表示eci的方程:
Figure GDA00019725840300001411
训练和调整评价网络的权值信息,采用目标函数
Figure GDA00019725840300001412
它可以被
Figure GDA00019725840300001413
训练来取到最小值,且神经网络的权值可以通过下式进行更新:
Figure GDA00019725840300001414
其中,αci>0表示评价神经网络的学习速率。推导出神经网络权值的动态误差,引入下式:
Figure GDA00019725840300001415
通过式(43),(44)和(45),得到评价神经网络的动态误差如下所示:
Figure GDA00019725840300001416
结合(18)和(36),得到基于自适应动态规划的神经最优控制律为:
Figure GDA00019725840300001417
在实现在线策略迭代算法来完成策略改进时,得到了基于自适应动态规划的近似神经最优控制律
Figure GDA0001972584030000151
如下所示:
Figure GDA0001972584030000152
结合式(22),(35)与(48),可得到基于评判-辨识结构的可重构机器人分散神经最优控制律
Figure GDA0001972584030000153
为:
Figure GDA0001972584030000154
5、仿真验证
验证所提出的分散神经最优控制方法的有效性,对二自由度可重构机器人模型的两种不同构形进行仿真验证,其中,控制器参数由表1给出:
表1控制器参数
Figure GDA00019725840300001512
两种构形的理想轨迹如下所示:
构形A:
x1d=0.4sin(0.3t)-0.1cos(0.5t)
x2d=0.3cos(0.6t)+0.6sin(0.2t)
构形B:
x1d=0.2cos(0.5t)+0.2sin(0.4t)
x2d=0.3cos(0.2t)-0.4sin(0.6t)
选取权值向量
Figure GDA0001972584030000155
为:
Figure GDA0001972584030000156
构形A初始值为
Figure GDA0001972584030000157
构形B初始值为
Figure GDA0001972584030000158
Figure GDA0001972584030000159
激活函数σci(si)(i=1,2)选取为:
Figure GDA00019725840300001510
Figure GDA00019725840300001511
辨识的激活函数选择为有5个隐含层的对称S型函数,辨识参数选择为kih=800,αih=350,γih=5,δi1=0.5,Γih=0.1I,其中I是单位矩阵。其余的设计参数、控制参数和不确定性界限由表1给出。摩擦模型参数选取为:
fci=0.35+0.7sin(10θi)n·m
fsi=0.5+sin(10θi)n·m
fτi=0.1+0.2sin(10θi)s2/rad2
bfi=0.5+0.3sin(10θi)n·m·s/rad
图3给出了系统的关节位置跟踪曲线。跟踪性能的提高在于基于模型的动态补偿的实现和交联项的识别,这可降低系统中未知非线性动力学的规模和评判神经网络的计算负担。
图4是构型A的提出方法的位置跟踪误差曲线。图中关节位置的稳态误差减小,由于动态补偿是通过模型补偿控制器和基于交联项辨识的学习控制器来实现的,并且在基于自适应动态规划的神经最优控制律下也对模型的不确定性进行了补偿。
图5是构型A的控制力矩曲线,在曲线中,控制力矩是连续、平滑的电机输出力矩,可以在实际的可重构机器人系统上实施的。提出的神经最优控制不仅可以保证系统闭环渐进稳定,而且优化保持在适当范围内的功率消耗,以匹配每个连接模块中电机的输出功率。
图6和图7是构型A的各独立关节子系统的神经网络权值调整曲线。实施在线策略迭代和评判神经网络的训练,可以看到权值在10秒以前可以收敛,评判神经网络收敛到Wc1=[21.5714,43.4167,39.2565],Wc2=[26.4409,30.5433,26.4850]。
图8-12给出了构型B的关节位置跟踪曲线、位置跟踪误差曲线、控制力矩曲线和关节1、关节2权值收敛结果曲线。它与构型A相比较,有相似的结果。这意味着所提出的分散最优控制律不需要对控制参数进行调整,适用于可重构机器人的不同控制。可以看到,构型B关节1的位置跟踪误差明显小于构型A。因为构型B关节1不受重力的影响,减小了关节动力学和不确定性的大小。构型B中评判神经网络收敛到Wc1=[22.8395,33.1094,37.5858],Wc2=[32.2989,7.0446,16.0892]
仿真结果表明,所提出的分散最优控制方法能为可重构机器人提供稳定性和精确性,以满足各种任务的要求。

Claims (1)

1.基于评判辨识结构的可重构机器人分散神经最优控制方法,该方法首先建立可重构机器人系统动力学模型;其次构建代价函数与HJB方程,通过基于策略迭代的学习算法,来求HJB方程的解;然后通过对可重构机器人关节子系统间的耦合力矩交联项的辨识;接下来采用神经网络对代价函数进行近似;最后通过仿真验证所提出控制方法的有效性;
其特征在于,该方法包括如下步骤:
步骤一,建立可重构机器人系统动力学模型如下:
Figure FDA0003258527820000011
上式中,i代表第i个模块,Imi是转动轴的转动惯量,γi是齿轮传动比,qi
Figure FDA0003258527820000012
Figure FDA0003258527820000013
分别是关节位置,速度和加速度,
Figure FDA0003258527820000014
是关节摩擦项,
Figure FDA0003258527820000015
是关节子系统间的耦合力矩交联项,τsi是耦合力矩在力矩传感器的位置,di(qi)是干扰力矩,τi是电机输出转矩;
定义系统的状态向量
Figure FDA0003258527820000016
控制输入ui=τi
则子系统的状态空间的形式可以表示为:
Figure FDA0003258527820000017
其中,Bi=(Imiγi)-1∈R+,xi1,xi2表示机器人的位置和速度,
Figure FDA0003258527820000018
表示滑动摩擦观测系数,
Figure FDA0003258527820000019
表示静摩擦观测系数,
Figure FDA00032585278200000110
表示指数静摩擦观测系数,
Figure FDA00032585278200000111
表示库伦摩擦系数,
Figure FDA00032585278200000112
表示动力学模型中已建模的部分,
Figure FDA00032585278200000113
表示位置耦合算子,
Figure FDA00032585278200000114
表示速度耦合算子,
Figure FDA00032585278200000115
表示耦合力矩交联项,fpi(xi1,xi2)为位置依赖型摩擦,Y(xi2)表示摩擦算子,Fi表示摩擦逼近误差,di(xi1)是扰动力矩,θi(xi)=Bi(-fpi(xi1,xi2)-Y(xi2)Fi-di(xi1))是模型不确定项,包括摩擦模型误差和外界扰动;
步骤二,构建代价函数如下:
Figure FDA0003258527820000021
其中,si(ei)定义为
Figure FDA0003258527820000022
且ei=xi1-xid
Figure FDA0003258527820000023
分别代表第i个关节的位置和速度跟踪误差,其中αei>0为确定常数;xid
Figure FDA0003258527820000024
分别是第i个关节期望的位置、速度和加速度,
Figure FDA0003258527820000025
为效用函数,
Figure FDA0003258527820000026
Figure FDA0003258527820000027
是确定的正常数矩阵;Hi,Wi分别为函数hi(x),θi(xi)的上界;
构建哈密顿方程如下:
Figure FDA0003258527820000028
其中,
Figure FDA0003258527820000029
是第i个关节的期望加速度,Ji(0)=0,
Figure FDA00032585278200000210
为代价函数Ji(si)的梯度;接下来,定义如下最优代价函数:
Figure FDA00032585278200000211
根据式(15)、(16),基于非线性系统最优控制设计理论,易知
Figure FDA00032585278200000212
满足如下HJB方程:
Figure FDA00032585278200000213
最优控制律
Figure FDA00032585278200000214
定义为如下形式:
Figure FDA00032585278200000215
其中,ui1为基于局部动力学信息的模型补偿控制律,ui2为辨识策略的神经网络控制律,
Figure FDA00032585278200000216
为基于自适应动态规划的神经最优控制律;
将式(17)的HJB方程改写成:
Figure FDA00032585278200000217
接下来,定义ui1
Figure FDA00032585278200000218
ui1是根据第i个关节模块的局部动态信息来设计的;
步骤三,交联项动力学的辨识;
交联项hi可以用一个单层神经网络来进行逼近:
Figure FDA0003258527820000031
σih(xih,xD)表示神经网络激活函数,wih表示未知理想权重,xih表示确定的神经网络状态,xD=[x1d,x2d,…,xmd]T,m<i代表已知有界参考状态向量,εih(xih)表示神经网络逼近误差;在(23)的基础上,考虑如下有界控制输入uih非线性动力学系统:
Figure DEST_PATH_FDA0001972584020000031
用神经网络辨识逼近(24),得到:
Figure DEST_PATH_FDA0001972584020000032
其中,
Figure FDA0003258527820000034
为辨识系统状态xih,hi的逼近为
Figure FDA0003258527820000035
Figure FDA0003258527820000036
为权重的估计值,rih为鲁棒积分符号误差的反馈项,定义为:
rih=kiheih+vih (27)
其中,
Figure FDA0003258527820000038
是辨识误差,vih由如下广义解给出:
Figure DEST_PATH_FDA0001972584020000037
其中,kih,αih,γih,δi1代表正控制常参数,sgn(·)表示符号函数,结合(24),(25),辨识动态误差为:
Figure DEST_PATH_FDA0001972584020000038
其中,
Figure FDA00032585278200000311
在此基础上,定义辨识误差函数:
Figure DEST_PATH_FDA00019725840200000310
根据式(28)、(29)对时间t的导数,有如下定义:
Figure DEST_PATH_FDA00019725840200000311
神经网络权重更新设计如下:
Figure DEST_PATH_FDA00019725840200000312
其中,proj表示光滑投影运算,Γih表示正常数增益矩阵;
结合式(21),(25),(26),(27),得到交联项辨识策略的神经网络控制律ui2为:
Figure FDA0003258527820000041
权值
Figure FDA0003258527820000042
由(31)更新;
步骤四,通过神经网络来近似代价函数Ji(si),定义如下:
Figure FDA0003258527820000043
其中,wci是理想的权值向量,σci(si)是激活函数,εci是神经网络的逼近误差,Ji(si)的梯度通过神经网络近似为:
Figure FDA0003258527820000044
其中:
Figure FDA0003258527820000045
Figure FDA0003258527820000046
分别代表激活函数的梯度和逼近误差;结合(21),(37)
Figure FDA0003258527820000047
由于理想权值wci是未知的,所以用近似权值wci建立一个评价神经网络来估计代价函数:
Figure FDA0003258527820000048
根据哈密顿方程(15)和代价函数(36)以及它的梯度(37),哈密顿方程可以进一步改写为:
Figure FDA0003258527820000049
其中,ecHi是由评判网络逼近误差而得到的残差,它可以定义为:
Figure FDA00032585278200000410
以同样的方式近似哈密顿方程,可得:
Figure FDA00032585278200000411
定义误差方程为
Figure FDA00032585278200000412
权值估计误差为
Figure FDA00032585278200000413
结合式(40)与式(42),可以得到一个用
Figure FDA00032585278200000414
表示eci的方程:
Figure FDA00032585278200000415
训练和调整评价网络的权值信息,采用目标函数
Figure FDA00032585278200000416
它可以被
Figure FDA00032585278200000417
训练来取到最小值,且神经网络的权值可以通过下式进行更新:
Figure FDA0003258527820000051
其中,αci>0表示评价神经网络的学习速率;推导出神经网络权值的动态误差,引入下式:
Figure FDA0003258527820000052
通过式(43),(44)和(45),得到评价神经网络的动态误差如下所示:
Figure FDA0003258527820000053
结合(18)和(36),理想基于自适应动态规划的神经最优控制律为:
Figure FDA0003258527820000054
在实现在线策略迭代算法来完成策略改进时,得到了近似最优控制律
Figure FDA0003258527820000055
如下所示:
Figure FDA0003258527820000056
结合式(22),(35)与(48),可得到基于评判辨识结构的可重构机器人分散神经最优控制律
Figure FDA0003258527820000057
为:
Figure FDA0003258527820000058
CN201811105107.7A 2018-09-21 2018-09-21 基于评判辨识结构的可重构机器人分散神经最优控制方法 Active CN109581868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811105107.7A CN109581868B (zh) 2018-09-21 2018-09-21 基于评判辨识结构的可重构机器人分散神经最优控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811105107.7A CN109581868B (zh) 2018-09-21 2018-09-21 基于评判辨识结构的可重构机器人分散神经最优控制方法

Publications (2)

Publication Number Publication Date
CN109581868A CN109581868A (zh) 2019-04-05
CN109581868B true CN109581868B (zh) 2021-11-30

Family

ID=65919841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811105107.7A Active CN109581868B (zh) 2018-09-21 2018-09-21 基于评判辨识结构的可重构机器人分散神经最优控制方法

Country Status (1)

Country Link
CN (1) CN109581868B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110018687B (zh) * 2019-04-09 2022-03-04 大连海事大学 基于强化学习方法的无人水面船最优轨迹跟踪控制方法
CN109946975B (zh) * 2019-04-12 2020-04-24 北京理工大学 一种未知伺服系统的强化学习最优跟踪控制方法
CN110554604B (zh) * 2019-08-08 2021-07-09 中国地质大学(武汉) 一种多智能体同步控制方法、设备及存储设备
CN111880412B (zh) * 2020-08-12 2021-07-16 长春工业大学 基于单评判网络的可重构机器人零和神经最优控制方法
CN114488783B (zh) * 2020-10-23 2023-12-22 太原理工大学 一种基于Scara机械臂的神经网络优化控制方法
CN112965487B (zh) * 2021-02-05 2022-06-17 浙江工业大学 基于策略迭代的移动机器人轨迹跟踪控制方法
CN113093538A (zh) * 2021-03-18 2021-07-09 长春工业大学 一种模块化机器人系统的非零和博弈神经-最优控制方法
CN113103237B (zh) * 2021-04-25 2022-10-04 长春工业大学 一种面向未知环境约束的可重构机械臂控制方法及系统
CN113733117B (zh) * 2021-09-09 2023-09-08 长春工业大学 一种可重构机器人人类意图辨识控制方法及装置
CN119225189B (zh) * 2024-12-05 2025-03-07 北京科技大学 基于无模型回归强化学习的机器人系统控制方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933212A (zh) * 2017-04-21 2017-07-07 华南理工大学 一种分布式制造环境下的可重构工业机器人编程控制方法
CN107045557A (zh) * 2016-11-01 2017-08-15 长春工业大学 面向约束的可重构机械臂非奇异终端滑模力位置控制方法
CN107471206A (zh) * 2017-08-16 2017-12-15 大连交通大学 一种模块化工业机器人重构系统及其控制方法
CN107544261A (zh) * 2017-10-26 2018-01-05 长春工业大学 不确定环境接触下的可重构机器人分散学习最优控制方法
CN108092560A (zh) * 2018-01-16 2018-05-29 北京理工大学 一种双电机伺服系统的保性能鲁棒分散控制方法
CN108312146A (zh) * 2018-01-31 2018-07-24 南京工程学院 模块化机器人分散控制方法及系统
EP3372354A1 (en) * 2017-03-09 2018-09-12 SUPSI (Scuola Universitaria Della Svizzera Italiana) Modular robotic joint and reconfigurable robot made using the same

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6477444B1 (en) * 2000-07-07 2002-11-05 Fuji Xerox Co., Ltd. Method for the automated design of decentralized controllers for modular self-reconfigurable robots
US7400108B2 (en) * 2004-04-15 2008-07-15 University Of Utah Research Foundation System and method for controlling modular robots
US7798264B2 (en) * 2006-11-02 2010-09-21 Hutcheson Timothy L Reconfigurable balancing robot and method for dynamically transitioning between statically stable mode and dynamically balanced mode
US8805579B2 (en) * 2011-02-19 2014-08-12 Richard Arthur Skrinde Submersible robotically operable vehicle system for infrastructure maintenance and inspection
CN103399493B (zh) * 2013-08-07 2015-12-02 长春工业大学 可重构机械臂传感器故障实时诊断和容错系统及其方法
CN104991448B (zh) * 2015-05-25 2017-10-31 哈尔滨工程大学 一种基于构型平面的水下机械臂运动学的求解方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107045557A (zh) * 2016-11-01 2017-08-15 长春工业大学 面向约束的可重构机械臂非奇异终端滑模力位置控制方法
EP3372354A1 (en) * 2017-03-09 2018-09-12 SUPSI (Scuola Universitaria Della Svizzera Italiana) Modular robotic joint and reconfigurable robot made using the same
CN106933212A (zh) * 2017-04-21 2017-07-07 华南理工大学 一种分布式制造环境下的可重构工业机器人编程控制方法
CN107471206A (zh) * 2017-08-16 2017-12-15 大连交通大学 一种模块化工业机器人重构系统及其控制方法
CN107544261A (zh) * 2017-10-26 2018-01-05 长春工业大学 不确定环境接触下的可重构机器人分散学习最优控制方法
CN108092560A (zh) * 2018-01-16 2018-05-29 北京理工大学 一种双电机伺服系统的保性能鲁棒分散控制方法
CN108312146A (zh) * 2018-01-31 2018-07-24 南京工程学院 模块化机器人分散控制方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Decentralized Guaranteed Cost Control of Modular and Reconfigurable Robots Based on Adaptive Dynamic Programming;Yi An;《The 30th Chinese Control and Decision Conference (2018 CCDC)》;20180611;1237-1242 *
动态约束下可重构模块机器人分散强化学习最优控制;董博等;《吉林大学学报(工学版)》;20140930;第44卷(第5期);1735-1733 *
面向动态约束的可重构模块机器人力矩估计与分散控制方法研究;董博;《中国博士学位论文全文数据库-信息科技辑》;20150815(第8期);I140-15 *

Also Published As

Publication number Publication date
CN109581868A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
CN109581868B (zh) 基于评判辨识结构的可重构机器人分散神经最优控制方法
Ling et al. Adaptive fuzzy dynamic surface control of flexible-joint robot systems with input saturation
CN107544261B (zh) 不确定环境接触下的可重构机器人分散学习最优控制方法
CN108789417B (zh) 基于自适应动态规划的可重构机械臂保代价分散控制方法
Chaoui et al. ANN-based adaptive control of robotic manipulators with friction and joint elasticity
Zhu et al. Fixed-time fuzzy control of uncertain robots with guaranteed transient performance
Guo et al. Terminal sliding mode control of mems gyroscopes with finite-time learning
Korayem et al. Optimal sliding mode control design based on the state-dependent Riccati equation for cooperative manipulators to increase dynamic load carrying capacity
CN108227497B (zh) 一种考虑系统性能受限下网络化遥操作系统的控制方法
Chwa et al. Nonlinear robust control of unknown robot manipulator systems with actuators and disturbances using system identification and integral sliding mode disturbance observer
CN113093538A (zh) 一种模块化机器人系统的非零和博弈神经-最优控制方法
Zaare et al. Adaptive sliding mode control of n flexible-joint robot manipulators in the presence of structured and unstructured uncertainties
CN112904726B (zh) 一种基于误差重构权重更新的神经网络反步控制方法
Feng et al. Full‐order sliding‐mode control of rigid robotic manipulators
CN114839880A (zh) 一种基于柔性关节机械臂的自适应控制方法
Hu et al. High accuracy adaptive motion control for a robotic manipulator with model uncertainties based on multilayer neural network
CN110829933B (zh) 基于发射平台的神经网络输出反馈自适应鲁棒控制方法
Jiang et al. Output feedback based adaptive optimal output regulation for continuous-time strict-feedback nonlinear systems
Xu et al. performance control of robot manipulators with kinematics, dynamics and actuator uncertainties
Wang et al. Research of manipulator trajectory tracking based on adaptive robust iterative learning control
Yang et al. Fuzzy neural network control for mechanical arm based on adaptive friction compensation
Al Mhdawi et al. Adaptive pi-fuzzy like control of a stack pneumatic actuators testbed for multi-configuration small scale soft robotics
Zhu et al. Fixed-time parameter estimation and control design for unknown robot manipulators with asymmetric motion constraints
Li et al. Critic-observer-based decentralized force/position approximate optimal control for modular and reconfigurable manipulators with uncertain environmental constraints
Ye et al. State constrained fault-tolerant control of hypersonic vehicle with unknown centroid shift based on zero-sum game

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant