Moving Object Grasping Method of Mechanical Arm Based on Deep Deterministic Policy Gradient and Hindsight Experience Replay

Jian Peng; Yi Yuan

doi:10.20965/jaciii.2022.p0051

单jc.php

«上一页

下一个»

JACIII第26卷第1期第51-57页

doi:10.20965/jaciii.2022.p0051

(2022)

纸张：

过去60天的浏览量： 736

基于深度确定性策略梯度和后视经验回放的机械臂运动目标抓取方法

简鹏^,,,†和Yi Yuan^,,

^*中国地质大学自动化学院
中国湖北省武汉市洪山区鲁磨路388号430074

^**复杂系统先进控制与智能自动化湖北省重点实验室
中国湖北省武汉市洪山区鲁磨路388号，邮编：430074

^***教育部地勘智能技术工程研究中心
中国湖北省武汉市洪山区鲁磨路388号，邮编：430074

^†通讯作者

收到：

2021年7月29日

认可的：

2021年11月2日

出版：

2022年1月20日

关键词：

机械臂，移动物体抓取，DDPG-HER

摘要

机械臂是许多类型机器人的重要部件；然而，在某些生产线中，由于振动、噪声和光污染等多种干扰因素，传统的抓取策略无法满足现代生产的要求。本文提出了一种新的冲压自动化生产线机械手抓取方法。考虑到生产环境中影响抓取的因素，本研究选择深度确定性策略梯度（DDPG）方法作为基本的强化学习算法，并将该算法用于冲压自动生产线中的运动物体抓取。由于传统DDPG算法的成功率较低，采用事后经验重演（HER）来提高agent的样本利用率，学习更有效的跟踪策略。仿真结果表明，优化后的DDPG-HER算法平均成功率为82%，比传统的DDPG算法提高了31%。该方法为冲压自动化生产线分拣系统的研究和设计提供了思路。

选择两个不同机械臂的初始位置P1和P2

引用本文为：

彭建华、袁毅，“基于深度确定性政策梯度和后视经验重演的机械臂运动物体抓取方法”高级计算杂志。智力。智力。通知。第26卷第1期，第51-57页，2022年。

数据文件：

工具书类

[1] L.Li、Y.Zhang、M.Ripperger、J.Nicho、M.Veeraraghavan和A.Fumagalli，“工业机器人应用的自治对象挑选和排序程序”，《国际语义计算杂志》。，第13卷，第2期，第161-183页，2019年。
[2] J.Hu，Y.Sun，G.Li，G.Jiang，B.Tao，“面向医疗机器人领域的抓取规划概率分析”，《测量》，第141卷，第227-234页，2019年。
[3] T.W.Utomo、A.I.Cahyadi和I.Ardiyanto，“使用基于深度学习的负担图在杂乱环境中对机器人机械手进行基于吸力的抓取点估计”，国际汽车杂志。计算。，第18卷，第2期，第277-287页，2021年。
[4] F.Husain、A.Colomé、B.Dellen、G.Alenyá和Carme Torras，“从测距视频实时跟踪和抓取运动物体”，2014年IEEE机器人与自动化国际会议（ICRA），第2617-2622页，2014年。
[5] B.Luo，H.Chen，F.Quan，S.Zhang，Y.Liu，“利用空中机械手抓取目标的基于自然特征的视觉伺服”，《仿生工程杂志》，第17卷第2期，第215-228页，2020年。
[6] P.Ramon-Soria、B.C.Arrue和A.Ollero，“室外空中双机械手的抓取规划和视觉伺服”，《工程》，第6卷，第1期，第77-882020页。
[7] T.Li、S.Zheng、X.Shu、C.Wang和C.Liu，“基于视觉的冗余机械手系统的自我识别抓取操作”，《应用科学》，第9卷，第5172条，2019年。
[8] V.Mnih、K.Kavukcuoglu、D.Silver、A.A.Rusu、J.Veness、M.G.Bellemare、A.Graves、M.Riedmiller、A.K.Fidjeland、G.Ostrovski、S.Petersen、C.Beattie、A.Sadik、I.Antonoglou、H.King、D.Kumaran、D.Wierstra、S.Legg和D.Hassabis，“通过深度强化学习进行人类水平控制”，《自然》，第518卷，第529-533页，2015年。
[9] T.-H.Pham、G.De Magistris和R.Tachibana，“OptLayer-现实世界中深层强化学习的实用约束优化”，2018年IEEE机器人与自动化国际会议（ICRA），第6236-6243页，2018年。
[10] Z.Chang，L.Hao，Q.Yan和T.Ye，“基于RBF神经网络的机械手跟踪控制算法研究”，物理学杂志：会议系列，第1802卷，第七届国际计算机辅助设计、制造、建模与仿真会议（CDMMS 2020），2021。
[11] C.-H.Lin、T.-Y.Sie、W.-L.Chu、H.-T.Yau和C.-H.Ding，“基于滑模控制的气动人工肌肉激活机器人手臂的跟踪控制”，《执行器》，第10卷，第66条，2021年。
[12] Y.Liu、H.Handroos、O.Alkkiomaki、V.Kyrki和H.Kalviainen，“基于液压机械手视觉的力/速度控制组合跟踪运动目标”，2007年机电一体化与自动化国际会议，第3226-32312007页。
[13] 徐华凤、李春丽、梁斌、刘毅、强维扬，“空间机器人捕捉运动目标的协调规划与控制方法：空间机器人捕捉移动目标的协调计划与控制方法”，《自动化学报》，第35卷，第1216-1225页，2009年（中英文摘要）。
[14] B.Siciliano和O.Khatib（编辑），“Springer机器人手册”，Springer，2016年。
[15] X.Ye和S.Liu，“基于速度分解的抓取运动对象规划算法”，2018年IEEE第七届数据驱动控制和学习系统会议（DDCLS），第644-649页，2018年。
[16] K.Hashimoto，“机器人操纵器基于视觉的控制综述”，《高级机器人学》，第17卷，第10期，第969-9912003页。
[17] D.C.Crowder、J.Abreu和R.F.Kirsch，“后视经验回放改进了控制人体手臂MIMO肌肉骨骼模型的强化学习”，IEEE Trans。神经系统与康复工程，第29卷，第1016-1025页，2021年。
[18] E.Prianto、M.Kim、J.-H.Park、J.-H.Bae和J.-S.Kim，“使用深度强化学习的多臂机械手路径规划：软演员-后视经验回放的批评家”，《传感器》，第20卷第20期，第5911条，2020年。
[19] D.Lee、H.Kim、S.Kim，C.W.Park和J.H.Park，“利用机器人模拟器的以往经验学习控制政策”，2020年信息和通信技术融合国际会议，第863-865页，2020年。
[20] M.Kim、D.-K.Han、J.-H.Park和J.-S.Kim，“利用双延迟深度确定性政策梯度和后视经验回放实现机器人机械手平滑路径的运动规划”，《应用科学》，第10卷第2期，第575条，2020年。

本文发表于知识共享署名NoDerivatives 4.0国际许可。

[1] [1] L.Li、Y.Zhang、M.Ripperger、J.Nicho、M.Veeraraghavan和A.Fumagalli，“工业机器人应用的自治对象挑选和排序程序”，《国际语义计算杂志》。，第13卷，第2期，第161-183页，2019年。

[2] [2] J.Hu，Y.Sun，G.Li，G.Jiang，B.Tao，“面向医疗机器人领域的抓取规划概率分析”，《测量》，第141卷，第227-234页，2019年。

[3] [3] T.W.Utomo、A.I.Cahyadi和I.Ardiyanto，“使用基于深度学习的负担图在杂乱环境中对机器人机械手进行基于吸力的抓取点估计”，国际汽车杂志。计算。，第18卷，第2期，第277-287页，2021年。

[4] [4] F.Husain、A.Colomé、B.Dellen、G.Alenyá和Carme Torras，“从测距视频实时跟踪和抓取运动物体”，2014年IEEE机器人与自动化国际会议（ICRA），第2617-2622页，2014年。

[5] [5] B.Luo，H.Chen，F.Quan，S.Zhang，Y.Liu，“利用空中机械手抓取目标的基于自然特征的视觉伺服”，《仿生工程杂志》，第17卷第2期，第215-228页，2020年。

[6] [6] P.Ramon-Soria、B.C.Arrue和A.Ollero，“室外空中双机械手的抓取规划和视觉伺服”，《工程》，第6卷，第1期，第77-882020页。

[7] [7] T.Li、S.Zheng、X.Shu、C.Wang和C.Liu，“基于视觉的冗余机械手系统的自我识别抓取操作”，《应用科学》，第9卷，第5172条，2019年。

[8] [8] V.Mnih、K.Kavukcuoglu、D.Silver、A.A.Rusu、J.Veness、M.G.Bellemare、A.Graves、M.Riedmiller、A.K.Fidjeland、G.Ostrovski、S.Petersen、C.Beattie、A.Sadik、I.Antonoglou、H.King、D.Kumaran、D.Wierstra、S.Legg和D.Hassabis，“通过深度强化学习进行人类水平控制”，《自然》，第518卷，第529-533页，2015年。

[9] [9] T.-H.Pham、G.De Magistris和R.Tachibana，“OptLayer-现实世界中深层强化学习的实用约束优化”，2018年IEEE机器人与自动化国际会议（ICRA），第6236-6243页，2018年。

[10] [10] Z.Chang，L.Hao，Q.Yan和T.Ye，“基于RBF神经网络的机械手跟踪控制算法研究”，物理学杂志：会议系列，第1802卷，第七届国际计算机辅助设计、制造、建模与仿真会议（CDMMS 2020），2021。

[11] [11] C.-H.Lin、T.-Y.Sie、W.-L.Chu、H.-T.Yau和C.-H.Ding，“基于滑模控制的气动人工肌肉激活机器人手臂的跟踪控制”，《执行器》，第10卷，第66条，2021年。

[12] [12] Y.Liu、H.Handroos、O.Alkkiomaki、V.Kyrki和H.Kalviainen，“基于液压机械手视觉的力/速度控制组合跟踪运动目标”，2007年机电一体化与自动化国际会议，第3226-32312007页。

[13] [13] 徐华凤、李春丽、梁斌、刘毅、强维扬，“空间机器人捕捉运动目标的协调规划与控制方法：空间机器人捕捉移动目标的协调计划与控制方法”，《自动化学报》，第35卷，第1216-1225页，2009年（中英文摘要）。

[14] [14] B.Siciliano和O.Khatib（编辑），“Springer机器人手册”，Springer，2016年。

[15] [15] X.Ye和S.Liu，“基于速度分解的抓取运动对象规划算法”，2018年IEEE第七届数据驱动控制和学习系统会议（DDCLS），第644-649页，2018年。

[16] [16] K.Hashimoto，“机器人操纵器基于视觉的控制综述”，《高级机器人学》，第17卷，第10期，第969-9912003页。

[17] [17] D.C.Crowder、J.Abreu和R.F.Kirsch，“后视经验回放改进了控制人体手臂MIMO肌肉骨骼模型的强化学习”，IEEE Trans。神经系统与康复工程，第29卷，第1016-1025页，2021年。

[18] [18] E.Prianto、M.Kim、J.-H.Park、J.-H.Bae和J.-S.Kim，“使用深度强化学习的多臂机械手路径规划：软演员-后视经验回放的批评家”，《传感器》，第20卷第20期，第5911条，2020年。

[19] [19] D.Lee、H.Kim、S.Kim，C.W.Park和J.H.Park，“利用机器人模拟器的以往经验学习控制政策”，2020年信息和通信技术融合国际会议，第863-865页，2020年。

[20] [20] M.Kim、D.-K.Han、J.-H.Park和J.-S.Kim，“利用双延迟深度确定性政策梯度和后视经验回放实现机器人机械手平滑路径的运动规划”，《应用科学》，第10卷第2期，第575条，2020年。

基于深度确定性策略梯度和后视经验回放的机械臂运动目标抓取方法

简鹏*,**,***,†和Yi Yuan*,**,***

简鹏^,,,†和Yi Yuan^,,