[go: up one dir, main page]

CN113510709B - 基于深度强化学习的工业机器人位姿精度在线补偿方法 - Google Patents

基于深度强化学习的工业机器人位姿精度在线补偿方法 Download PDF

Info

Publication number
CN113510709B
CN113510709B CN202110856844.6A CN202110856844A CN113510709B CN 113510709 B CN113510709 B CN 113510709B CN 202110856844 A CN202110856844 A CN 202110856844A CN 113510709 B CN113510709 B CN 113510709B
Authority
CN
China
Prior art keywords
robot
pose
reinforcement learning
deep reinforcement
coordinate system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110856844.6A
Other languages
English (en)
Other versions
CN113510709A (zh
Inventor
肖文磊
孙子惠
姚开然
吴少宇
张鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110856844.6A priority Critical patent/CN113510709B/zh
Publication of CN113510709A publication Critical patent/CN113510709A/zh
Application granted granted Critical
Publication of CN113510709B publication Critical patent/CN113510709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种基于深度强化学习的工业机器人位姿精度在线补偿方法,包括以下步骤:在不同运行状态下操作机器人,获取机器人的实际位姿,将所述实际位姿与理论位姿做误差运算,作为训练集;构建深度强化学习网络模型,确定所述学习网络的输入输出层;完成所述深度强化学习网络模型的预训练,训练得到网络模型参数;利用训练好的所述深度强化学习网络模型,在线预测机器人的位姿偏差,实现闭环的实时误差补偿返回,对非系统误差进行在线补偿。该方法通过使用两个功能不同的网络共同实现机器人模型与当前环境的交互学习,动态地调整控制参数,解决了工业机器人的非系统误差位姿补偿问题。

Description

基于深度强化学习的工业机器人位姿精度在线补偿方法
技术领域
本发明涉及工业机器人位姿精度在线补偿技术领域,特别涉及一种基于深度强化学习的工业机器人位姿精度在线补偿方法。
背景技术
随着国内高精尖制造业向着自动化及智能化的方向发展,工业机器人因其所具有的高效率、高质量和环境适应性好等特点,在喷涂、焊接、搬运和装配等自动化生产中的应用越来越广泛,工业机器人的需求量也日益增加,实现高精密制造业的技术革新,大幅提升加工质量与生产效率,突破工业机器人的高精度定位问题是一个必须解决的难题。机器人操作精度直接影响到机器人的作业效果,尤其是在作业过程中对某些性能指标有较高要求时,同样也给提高机器人操作精度也提出了更高的要求。
现今机器人精度补偿的方法主要有两种:误差预测补偿和误差标定补偿。误差预测补偿方法生产成本较高,且机器人长时间运动会导致机械结构发生磨损,产生的误差无法避免,故在实际中应用较少。误差标定补偿主要采用对系统进行误差建模的思路,得到非系统误差的数学模型,从而实现动态误差反馈。但对于工业机器人这样的串联结构,其本身的动力学解算就十分复杂,同时再引入温度、不同姿态下载荷变化的影响,这样的误差模型必然十分庞大复杂,求解是十分困难的。同时,由于这类非系统误差在一般的工业应用环境中的影响远小于系统误差,因此目前工业环境下也并未形成比较统一的,针对非系统误差进行在线补偿的模型。此外,现有的位姿精度补偿方法无法实现在线实时机器人目标位姿的姿态补偿;离线位姿补偿虽可以同时提高机器人的绝对位置精度和姿态精度,但无法进行在线补偿。例如,专利CN107351089A公开了一种机器人运动学参数标定位姿优化选取方法,但该方法的算法收敛时间受迭代次数、需辨识参数个数及位姿点数的影响,不易收敛。专利CN108608425A公开了一种六轴工业机器人铣削加工离线编程方法,该方法需要构建复杂的一维机器人位姿优化模型,难以保证数学模型与实际机器人切削过程的相近程度,降低了实际的补偿效果上限。专利CN112450820A公开了一种位姿优化方法、移动机器人及存储介质,无法实现机器人姿态误差的预测与补偿。专利CN112536797A公开了一种工业机器人的位置与姿态误差综合补偿方法,该方法无需建立复杂的运动误差模型,同时提升工业机器人的绝对位置精度和姿态精度,但是误差预测过程的可解释性较弱,另外无法实现在不同工作应用环境下在线对非系统误差进行预测与补偿。
发明内容
为了解决上述问题,本发明提出了一种基于深度强化学习的工业机器人位姿精度在线补偿方法,不依赖于工业机器人的数学模型,而是通过使用两个功能不同的网络共同实现机器人模型与当前环境的交互学习,动态地调整控制参数,解决工业机器人的非系统误差位姿补偿问题。本发明采用以下技术方案:
一种基于深度强化学习的工业机器人位姿精度在线补偿方法,包括以下步骤:
步骤1,在不同运行状态下操作机器人,获取机器人的实际位姿,将所述实际位姿与理论位姿做误差运算,作为训练集;
步骤2,构建深度强化学习网络模型,确定所述深度强化学习网络的输入输出层;
步骤3,完成所述深度强化学习网络模型的预训练,得到网络模型参数;
步骤4,利用训练好的所述深度强化学习网络模型,在线预测机器人的位姿偏差,实现闭环的实时误差补偿返回,对非系统误差进行在线补偿。
进一步的,所述步骤1中,所述机器人的实际位姿利用激光跟踪仪测量,所述激光跟踪仪测量坐标系与机器人基坐标系采用坐标系转换矩阵
Figure BDA0003184444230000021
进行转换:
Figure BDA0003184444230000022
其中,R为旋转矩阵:
R=(nC3,nC1×nC3,nC1)
式中,nC1为C1轨迹圆的法线方向,nC3为C3轨迹圆的法线方向;
Q为位移矢量,采用下述方式获得:
轨迹圆C1与轨迹圆C6相交于PT点,即机器人零位状态时的靶球位置,轨迹圆C1的半径为R1;根据机器人自身读数,可得默认工具中心点在机器人基坐标系下的坐标P0=[X0,Y0,Z0]T,定义PT点相对于P0点的偏移矢量Δ=(ΔX,ΔY,ΔZ),则矢量O6OB在基坐标系下可表示为下式:
Figure BDA0003184444230000031
其中,ΔY0=O6P0·nC3,轨迹圆C6的圆心O6在激光跟踪仪测量坐标系下的坐标矢量为
Figure BDA0003184444230000032
进一步可得位移矢量Q′:
Figure BDA0003184444230000033
为了保证位移矢量的误差尽可能小,在机器人空间中随机采样十个点PiBPi为靶球在基坐标系下的坐标矢量,CPi为靶球在机器人默认工具坐标系下的坐标矢量,基于最小二乘拟合方法计算得位移矢量Q″。
Figure BDA0003184444230000034
通过公式分别计算位移矢量Q′、Q″位移矢量误差ΔE,选取其中误差小的位移矢量为坐标系转换矩阵
Figure BDA0003184444230000035
中的位移矢量Q:
Figure BDA0003184444230000036
Q=min{ΔE(Qi),Qi∈{Q′,Q″}}
进一步的,所述深度强化学习网络模型为Actor-Critic网络模型,Actor神经网络根据当前环境状态S计算生成策略,产生具体的关节运动动作作为机器人运动的输入,与环境进行交互;Critic神经网络用于评估Actor网络在状态S下产生的策略关节动作输出,确定此时情况是好是坏,通过一个值来衡量,并将这一衡量值返回Actor神经网络学习,进行参数优化,使代价函数收敛到全局最优。
进一步的,将机器人的末端执行位置TCP位姿、刚度k、温变T、负载η、时间信号t以及时间信号函数sin(t)与ln(t),作为所述深度强化学习网络的输入,所述末端执行位置TCP位姿由坐标position(x,y,z)和欧拉角orientation(α,β,γ)构成;将机器人各关节角度值Δjoint_angle(a1,a2,a3,a4,a5,a6)作为所述深度强化学习网络的输出。
进一步的,所述步骤3,具体包括以下步骤:
(1)将步骤1采集的工业机器人的状态特征及其对应的位姿误差参数海量数据集作为训练样本,输入机器人仿真交互软件中,每一局训练开始,实际位置为机器人样本数据集实际位姿,目标位置为机器人样本数据集理论位姿;
(2)Actor-Critic网络从机器人仿真交互环境中得到当前机器人TCP、刚度k、温变T、负载η状态值和时间信号以及时间函数,Actor-Critic网络进行计算得到当前各关节的角度修正值,并将此值发回机器人仿真交互软件;
(3)机器人仿真交互软件接收到关节角度修正值后,对机器人进行各关节限位计算,判断是否都处于限位内,若是则执行各关节运动修正,同时若某一机器人关节没有在限位内,结束当前对局,并将消息传至Actor-Critic网络;
(4)获取当前机器人位姿与目标位置进行奖励值计算得奖励函数R,如果R值过低,则也需结束当前对局;R值正常,则继续当前对局,将R返回给Actor-Critic网络继续学习;
重复上述步骤,训练得出Actor-Critic网络模型结构参数。
进一步的,所述奖励函数R由机器人理论位姿和实际位姿计算得到:
Figure BDA0003184444230000041
R=η*DM(P,P0)
其中,P为当前位姿,P0为目标位姿,∑为P与P0的协方差矩阵,η<0:
Figure BDA0003184444230000042
相对于现有技术,本发明有益效果如下:
(1)本发明不依赖于工业机器人的数学模型,而是利用强化学习算法,通过不断的探索和试错学习来发现最优控制策略,实现温变、刚度等非系统误差的在线补偿,解决机械臂运动中由温度、动力学载荷变化等因素形成的非系统误差问题。
(2)本发明使用两个功能不同的网络共同实现机器人模型与当前环境的交互学习,即Actor神经网络与Critic神经网络。Actor神经网络根据当前环境状态S(包含TCP位姿P、刚度k、温变T、负载η)计算生成机器人运动策略,产生具体的关节运动动作作为机器人运动的输出,与环境进行交互。Critic神经网络用于评估Actor网络在状态S下产生的策略关节动作输出,确定此时情况是好是坏,通过一个值来衡量,并将这一衡量值返回Actor神经网络学习,从而进行参数优化,使代价函数收敛到全局最优。
附图说明
图1为基于深度强化学习的工业机器人位姿精度在线补偿方法的流程图;
图2为获取工业机器人末端位姿位置信息及在线位姿精度补偿实验平台示意图;
图3为机器人本体及坐标系示意图;
图4为Actor-Critic网络逻辑结构图;
图5为与机器人仿真场景机器人交互进行深度强化学习网络训练的算法流程图。
具体实施方式
下面结合附图和实施例,对本发明作进一步详细说明,但本发明的实施方式不限于此。
在现场工作环境中,机器人定位受到复杂多变的载荷、动力学及温变等外部因素影响,系统误差作用形式会产生变化,同时会引入非系统误差,故此本发明提出了一种基于深度强化学习的工业机器人位姿精度在线补偿方法,如图1所示,包括以下步骤:
步骤1:在不同运行状态(负载、温度)下操作机器人,测量实际位姿并和理论位姿做误差运算,收集全部数据作为训练集。具体如下:
本发明实现机械臂末端位姿位置信息获取及精度补偿的实验平台,如图2所示,包括工业机器人及其控制柜、位姿位置测量系统装置(激光跟踪仪和位姿测量靶)、移动式工作站,其中工业机器人为六自由度开链结构,机器人末端安装有末端执行器,绝对定位精度在2-3mm。通过激光跟踪仪实时监控机器人位置,并基于EtherCAT总线实时传输到TwinCAT主站,从而实现全闭环环路;实时获取来自于激光跟踪仪的机器人末端执行器六自由度位姿信息和来自于工业机器人的运动控制信息,并可以对机器人-激光跟踪仪系统状态机进行实时分析与控制。
为了后续误差计算,需要统一坐标系,进行激光跟踪仪测量坐标系与工业机器人基坐标系之间的转换,将工业机器人坐标系的位姿数据转换至激光跟踪仪坐标系下,采用轴线测量与多点拟合相结合的方法,计算基坐标系的坐标原点,从而得到转换矩阵。用多点拟合法计算位移矢量Q,保证位移矢量Q计算精度;采用轴线矢量测量法计算旋转矩阵R,
Figure BDA0003184444230000051
为业机器人基坐标系B至激光跟踪仪测量坐标系L的转换矩阵:
Figure BDA0003184444230000061
具体的,如图3所示,将机器人运动至HOME位姿,将激光跟踪仪的靶球放在末端执行器的靶座上,分别单独旋转机器人A1轴、A3轴及A6轴拟合得到轨迹圆C1、C3和C6,圆心对应为O1、O3和O6,并得到C1和C3轨迹圆的法线方向nC1和nC3,分别为基坐标系的Z,Y方向,计算得旋转矩阵R:
R=(nC3,nC1×nC3,nC1)
轨迹圆C1与轨迹圆C6相交于PT点,即机器人零位状态时的靶球位置,轨迹圆C1的半径为R1。根据机器人自身读数,可得默认工具中心点(定义在机器人第六轴法兰盘的中心处)在机器人基坐标系下的坐标P0=[X0,Y0,Z0]T,定义PT点相对于P0点的偏移矢量Δ=(ΔX,ΔY,ΔZ),则矢量O6OB在基坐标系下可表示为下式:
Figure BDA0003184444230000062
其中,ΔY0=O6P0·nC3,轨迹圆C6的圆心O6在激光跟踪仪测量坐标系下的坐标矢量为
Figure BDA0003184444230000063
进一步可得位移矢量Q′:
Figure BDA0003184444230000064
为了保证位移矢量的误差尽可能小,在机器人空间中随机采样十个点PiBPi为靶球在基坐标系下的坐标矢量,CPi为靶球在机器人默认工具坐标系下的坐标矢量,基于最小二乘拟合方法计算得位移矢量Q″。
Figure BDA0003184444230000065
通过公式分别计算位移矢量Q′、Q″位移矢量误差ΔE,选取其中误差小的位移矢量为坐标系转换矩阵
Figure BDA0003184444230000066
中的位移矢量Q:
Figure BDA0003184444230000071
Q=min{ΔE(Qi),Qi∈{Q′,Q″}}
对于非系统误差,其在机器人使用过程中产生,且会随着工作温度、运行时间和运动姿态等因素不断变化。操作工业机器人在不同运行状态(刚度、负载、温度)下运动,使用激光跟踪仪测量其实际位置,进一步通过坐标系转换矩阵运算,对激光跟踪仪测量到的实际数据进行转换,将其从激光跟踪仪坐标系转换到机器人坐标系上,对机器人实际位姿和理论位姿做误差运算,得到机器人位姿误差。
按照<位姿误差,机器人运行状态(刚度、负载、温度)>的格式存储为数据样本,通过实验采集,构建大样本的机器人运动误差数据集。
步骤2:构建深度强化学习网络模型,确定学习网络输入输出层。
图4是Actor-Critic网络逻辑结构图,Actor-Critic网络提供了一种深度强化学习网络设计框架,使用两个功能不同的网络共同实现机器人模型与当前环境的交互学习,分别为Actor神经网络和Critic神经网络。Actor神经网络本质上是一个DPG网络,根据当前环境状态S(包含TCP位姿P、刚度k、温变T、负载η)计算生成策略,产生具体的关节运动动作作为机器人运动的输入,与环境进行交互。Critic神经网络用于评估Actor网络在状态S下产生的策略关节动作输出,确定此时情况是好是坏,通过一个值来衡量,并将这一衡量值返回Actor神经网络学习,从而进行参数优化,使代价函数收敛到全局最优。
以机器人的末端执行位置TCP位姿以及刚度k、温变T、负载η状态值作为网络的输入层,末端执行位置TCP位姿由坐标position(x,y,z)和欧拉角orientation(α,β,γ)构成,但由于机器人的运动偏差一般都极小,如果以该理论位置对应的误差值为输出层,会使得网络的输出与输入极其相似,导致学习难度提高,以致无法正确得到学习结果。因此,为了使网络的输入和输出尽可能远离,将输入和输出建立非线性关系,以机器人各关节角度值作为网络的输出,用Δjoint_angle(a1,a2,a3,a4,a5,a6)表示,最后机器人的TCP位姿也可通过对关节角度进行正运动学计算得到。
机器人刚度、温变、负载等非系统误差在短周期变化微小,且是时间的函数。若直接将影响因素数据作为网络输入,由于始终缺乏变化,在经历基于梯度的网络参数多次更新中,与其相连接的神经元参数,会被认为学习价值低,数值会压得很小,而且会被快速固定,这样相当于忽略了非系统误差因素。因此,将时间信号t以及时间信号函数sin(t)与ln(t)作为网络的输入,由于时变信号的影响因素存在周期性,或是存在指对数关系,使得强化学习网络使用的神经元变少,而且可以更快更多地学习特征信息。最后网络的输入输出如表1所示。
表1机器人深度强化学习网络输入输出表
Figure BDA0003184444230000081
步骤3:完成强化学习网络模型的预训练,训练得到网络模型参数。
在机器人仿真交互软件里搭建强化学习网络模型虚拟训练虚拟场景,通过UDP协议与Python进行通信,实现深度强化学习训练网络与机器人仿真交互场景进行交互训练网络,如图5所示,训练深度强化学习网络流程如下所述:
(1)将步骤1采集的工业机器人的状态特征维度S(包含TCP位姿P、刚度k、温变T、负载η),及其对应的位姿误差参数海量数据集作为训练样本,输入机器人仿真交互软件中,每一局训练开始,实际位置为机器人样本数据集实际位姿,目标位置为机器人样本数据集理论位姿。
(2)Actor-Critic网络从机器人仿真交互环境中得到当前机器人TCP、刚度k、温变T、负载η状态值和时间信号以及时间函数,初始化系统状态
Figure BDA0003184444230000082
在Actor网络使用
Figure BDA0003184444230000083
作为输入,进行计算输出当前各关节的运动角度修正值A={Δjoint_angle(a1,a2,a3,a4,a5,a6)},并将此值发回机器人仿真交互软件。
(3)机器人仿真交互软件接收到关节角度修正值后,对机器人进行各关节限位计算,判断是否都处于限位内,若是则执行各关节运动修正,得到新的状态S′。若某一机器人关节没有在限位内,结束当前对局,并将消息传至强化学习网络。
(4)在Critic网络中分别使用
Figure BDA0003184444230000084
作为输入,得到Q值输出V(S),V(S′),计算TD误差,步长为α,衰减因子γ,探索率ε:
δ=R+γV(S′)-V(S)
使用均方差损失函数Σ(R+γV(S′)-V(S,ω))2作Critic网络参数ω的梯度更新,并更新Actor网络策略参数θ为:
Figure BDA0003184444230000091
对于Actor的分值函数
Figure BDA0003184444230000092
可以选择softmax或者高斯分值函数。
(4)获取当前机器人位姿与目标位置进行计算得奖励函数R,使用马氏距离负数计算得:
Figure BDA0003184444230000093
R=η*DM(P,P0)
其中P为当前位姿,P0为目标位姿,∑为P与P0的协方差矩阵,η<0:
Figure BDA0003184444230000094
如果R值过低,则也需结束当前对局,因为R值低说明网络输出修正值不正常,是无用的,结束对局是为了防止网络记忆错误操作数据进行学习。R值正常,则继续当前对局,将R返回给强化学习网络继续学习。
重复上述步骤,从而训练得出Actor-Critic网络模型结构参数。
步骤4:通过训练好的Actor-Critic网络模型在线针对当前机器人状态计算当前位姿偏差,得到实时位姿误差补偿值,实现闭环的实时误差补偿返回,对非系统误差进行在线补偿,从而实现机器人位姿定位精度在线补偿。
本发明提出的位姿定位精度在线补偿方案针对在线输入轨迹中的非系统误差,通过在线误差强化学习方法实现刚度、温变、负载等非系统误差的在线补偿,可以提高工业机器人的绝对定位精度,实现稳健的机器人运动位姿实时补偿与控制。因为此补偿方法无需建立机器人运动学模型、计算速度快,而且具有通用性,为后续机器人实时在线校准、提高在线校准的精度和速度提供了保障。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于深度强化学习的工业机器人位姿精度在线补偿方法,其特征在于,包括以下步骤:
步骤1,在不同运行状态下操作机器人,获取机器人的实际位姿,将所述实际位姿与理论位姿做误差运算,作为训练集;
步骤2,构建深度强化学习网络模型,确定所述深度强化学习网络的输入输出层;
步骤3,完成所述深度强化学习网络模型的预训练,得到网络模型参数;
步骤4,利用训练好的所述深度强化学习网络模型,在线预测机器人的位姿偏差,实现闭环的实时误差补偿返回,对非系统误差进行在线补偿;
所述机器人为六自由度开链结构,所述机器人的实际位姿利用激光跟踪仪测量,所述激光跟踪仪测量坐标系与机器人基坐标系采用坐标系转换矩阵
Figure FDA0003723073680000011
进行转换:
Figure FDA0003723073680000012
其中,R为旋转矩阵:
R=(nC3,nC1×nC3,nC1)
式中,分别单独旋转机器人A1轴、A3轴及A6轴拟合得到轨迹圆C1、C3和C6,圆心对应为O1、O3和O6,nC1为C1轨迹圆的法线方向,nC3为C3轨迹圆的法线方向;
Q为位移矢量,采用下述方式获得:
轨迹圆C1与轨迹圆C6相交于PT点,即机器人零位状态时的靶球位置,轨迹圆C1的半径为R1;根据机器人自身读数,可得默认工具中心点在机器人基坐标系下的坐标P0=[X0,Y0,Z0]T,定义PT点相对于P0点的偏移矢量Δ=(ΔX,ΔY,ΔZ),则矢量O6OB在基坐标系下可表示为下式:
Figure FDA0003723073680000013
其中,OB为机器人基坐标系的原点,ΔY0=O6P0·nC3,轨迹圆C6的圆心O6在激光跟踪仪测量坐标系下的坐标矢量为
Figure FDA0003723073680000021
进一步可得位移矢量Q′:
Figure FDA0003723073680000022
为了保证位移矢量的误差尽可能小,在机器人空间中随机采样十个点PiBPi为靶球在基坐标系下的坐标矢量,CPi为靶球在机器人默认工具坐标系下的坐标矢量,基于最小二乘拟合方法计算得位移矢量Q″:
Figure FDA0003723073680000023
通过公式分别计算位移矢量Q′、Q″位移矢量误差ΔE,选取其中误差小的位移矢量为坐标系转换矩阵
Figure FDA0003723073680000024
中的位移矢量Q:
Figure FDA0003723073680000025
2.根据权利要求1所述的方法,其特征在于,所述深度强化学习网络模型为Actor-Critic网络模型,Actor神经网络根据当前环境状态S计算生成策略,产生具体的关节运动动作作为机器人运动的输入,与环境进行交互;Critic神经网络用于评估Actor网络在状态S下产生的策略关节动作输出,确定此时情况是好是坏,通过一个值来衡量,并将这一衡量值返回Actor神经网络学习,进行参数优化,使代价函数收敛到全局最优。
3.根据权利要求2所述的方法,其特征在于,将机器人的末端执行位置TCP位姿、刚度k、温变T、负载η、时间信号t以及时间信号函数sin(t)与ln(t),作为所述深度强化学习网络的输入,所述末端执行位置TCP位姿由坐标position(x,y,z)和欧拉角orientation(α,β,γ)构成;将机器人各关节角度值Δjoint_angle(a1,a2,a3,a4,a5,a6)作为所述深度强化学习网络的输出。
4.根据权利要求2或3所述的方法,其特征在于,所述步骤3,具体包括以下步骤:
(1)将步骤1采集的工业机器人的状态特征及其对应的位姿误差参数海量数据集作为训练样本,输入机器人仿真交互软件中,每一局训练开始,实际位置为机器人样本数据集实际位姿,目标位置为机器人样本数据集理论位姿;
(2)Actor-Critic网络从机器人仿真交互环境中得到当前机器人TCP、刚度k、温变T、负载η状态值和时间信号以及时间函数,Actor-Critic网络进行计算得到当前各关节的角度修正值,并将此值发回机器人仿真交互软件;
(3)机器人仿真交互软件接收到关节角度修正值后,对机器人进行各关节限位计算,判断是否都处于限位内,若是则执行各关节运动修正,同时若某一机器人关节没有在限位内,结束当前对局,并将消息传至Actor-Critic网络;
(4)获取当前机器人位姿与目标位置进行奖励值计算得奖励函数R,如果R值过低,则也需结束当前对局;R值正常,则继续当前对局,将R返回给Actor-Critic网络继续学习;
重复上述步骤,训练得出Actor-Critic网络模型结构参数。
5.根据权利要求4所述的方法,其特征在于,所述奖励函数R由机器人理论位姿和实际位姿计算得到:
Figure FDA0003723073680000031
R=η*DM(P,P0)
其中,P为当前位姿,P0为目标位姿,∑为P与P0的协方差矩阵,η<0:
Figure FDA0003723073680000032
CN202110856844.6A 2021-07-28 2021-07-28 基于深度强化学习的工业机器人位姿精度在线补偿方法 Active CN113510709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110856844.6A CN113510709B (zh) 2021-07-28 2021-07-28 基于深度强化学习的工业机器人位姿精度在线补偿方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110856844.6A CN113510709B (zh) 2021-07-28 2021-07-28 基于深度强化学习的工业机器人位姿精度在线补偿方法

Publications (2)

Publication Number Publication Date
CN113510709A CN113510709A (zh) 2021-10-19
CN113510709B true CN113510709B (zh) 2022-08-19

Family

ID=78068761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110856844.6A Active CN113510709B (zh) 2021-07-28 2021-07-28 基于深度强化学习的工业机器人位姿精度在线补偿方法

Country Status (1)

Country Link
CN (1) CN113510709B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113977429A (zh) * 2021-11-17 2022-01-28 长春理工大学 一种基于深度学习的机器人恒力打磨系统及打磨控制方法
CN114310873B (zh) * 2021-12-17 2024-05-24 上海术航机器人有限公司 位姿转换模型的生成方法、控制方法、系统、设备和介质
CN114952849B (zh) * 2022-06-01 2023-05-16 浙江大学 一种基于强化学习与动力学前馈融合的机器人轨迹跟踪控制器设计方法
CN115091455B (zh) * 2022-06-27 2024-09-03 河北工业大学 一种工业机器人定位误差补偿方法
CN115265431B (zh) * 2022-07-08 2025-07-25 广州高新兴机器人有限公司 一种轮式位移计误差实时标定方法、装置、机器人及介质
CN115556110B (zh) * 2022-10-25 2024-07-26 华中科技大学 基于主动半监督迁移学习的机器人位姿误差感知方法
CN115700414A (zh) * 2022-11-07 2023-02-07 中建三局第一建设安装有限公司 一种机器人运动误差补偿方法
CN115847411B (zh) * 2022-12-03 2025-03-11 河南省机械设计研究院有限公司 一种基于集成学习的工业机器人回位方法
CN115673596B (zh) * 2022-12-28 2023-03-17 苏芯物联技术(南京)有限公司 一种基于Actor-Critic强化学习模型的焊接异常实时诊断方法
CN116460843A (zh) * 2023-04-04 2023-07-21 广东省科学院智能制造研究所 一种基于元启发式算法的多机器人协作抓取方法及系统
CN117150425B (zh) * 2023-07-10 2024-04-26 郑州轻工业大学 基于机理数据融合的管片拼装机运动状态预测方法
CN116663204B (zh) * 2023-07-31 2023-10-17 南京航空航天大学 一种机器人铣削加工的离线编程方法、系统及设备
CN117649542B (zh) * 2023-11-30 2024-07-16 中科海拓(无锡)科技有限公司 一种基于主动视觉的动车运维机器人自动示教方法
CN117331342B (zh) * 2023-12-01 2024-02-02 北京航空航天大学 一种基于ffrls算法的机床进给轴参数辨识方法
CN119146999B (zh) * 2024-11-19 2025-02-25 普达迪泰(成都)智造研究院有限公司 一种基于深度强化学习的自动导向车定位方法、系统及装置
CN119582068B (zh) * 2025-02-06 2025-04-22 国网上海市电力公司 一种输电线路隐患修复方法
CN119714998B (zh) * 2025-02-24 2025-06-06 山东盛瑞达环境科技有限公司 一种用于工业原料的车辆自动取样系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06114768A (ja) * 1992-09-29 1994-04-26 Toyoda Mach Works Ltd ロボット制御装置
US5566275A (en) * 1991-08-14 1996-10-15 Kabushiki Kaisha Toshiba Control method and apparatus using two neural networks
CN107421442A (zh) * 2017-05-22 2017-12-01 天津大学 一种外部测量辅助的机器人定位误差在线补偿方法
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN110967042A (zh) * 2019-12-23 2020-04-07 襄阳华中科技大学先进制造工程研究院 一种工业机器人定位精度标定方法、装置及系统
CN112497216A (zh) * 2020-12-01 2021-03-16 南京航空航天大学 一种基于深度学习的工业机器人位姿精度补偿方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5566275A (en) * 1991-08-14 1996-10-15 Kabushiki Kaisha Toshiba Control method and apparatus using two neural networks
JPH06114768A (ja) * 1992-09-29 1994-04-26 Toyoda Mach Works Ltd ロボット制御装置
CN107421442A (zh) * 2017-05-22 2017-12-01 天津大学 一种外部测量辅助的机器人定位误差在线补偿方法
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN110967042A (zh) * 2019-12-23 2020-04-07 襄阳华中科技大学先进制造工程研究院 一种工业机器人定位精度标定方法、装置及系统
CN112497216A (zh) * 2020-12-01 2021-03-16 南京航空航天大学 一种基于深度学习的工业机器人位姿精度补偿方法

Also Published As

Publication number Publication date
CN113510709A (zh) 2021-10-19

Similar Documents

Publication Publication Date Title
CN113510709B (zh) 基于深度强化学习的工业机器人位姿精度在线补偿方法
CN110666793B (zh) 基于深度强化学习实现机器人方形零件装配的方法
CN111923039B (zh) 一种基于强化学习的冗余机械臂路径规划方法
CN113510704A (zh) 一种基于强化学习算法的工业机械臂运动规划方法
CN115781685B (zh) 一种基于强化学习的高精度机械臂控制方法及系统
Hu et al. Robot positioning error compensation method based on deep neural network
CN107685343B (zh) 一种机械臂运动学参数标定构型优化方法
CN112192614A (zh) 一种基于人机合作的核运维机器人轴孔装配方法
CN113910218B (zh) 一种基于运动学与深度神经网络融合的机器人标定方法和装置
CN115157238A (zh) 一种多自由度机器人动力学建模和轨迹跟踪方法
CN113160334A (zh) 一种基于手眼相机的双机器人系统标定方法
CN115446867B (zh) 一种基于数字孪生技术的工业机械臂控制方法及系统
CN116872221A (zh) 一种多机协同转体大型工件的数据驱动二分一致控制方法
CN115107022A (zh) 一种基于gbdt算法的工业机器人位置误差补偿方法和系统
CN114012733A (zh) 一种用于pc构件模具划线的机械臂控制方法
CN111814269B (zh) 一种基于res-sca算法的逆运动学实时解析解优化方法
CN113601499A (zh) 一种单关节锁定失效下的空间机械臂逆运动学方法
CN118544363A (zh) 一种基于自适应阻抗的多移动机器人协同搬运控制方法
CN116079730B (zh) 一种提升机器人手臂操作精度的控制方法及系统
CN117067209A (zh) 一种协作机器人多轴孔装配方法、系统、电子设备及介质
CN107894709A (zh) 基于自适应评价网络冗余机器人视觉伺服控制
CN117656059A (zh) 自适应变阻抗控制方法和装置、电子设备及存储介质
Djelal et al. LSTM-Based Visual Control for Complex Robot Interactions.
CN113359626B (zh) 一种多机器人系统的有限时间分层控制的方法
Cao et al. Multi-agent deep reinforcement learning-based robotic arm assembly research

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant