×

基于自学习的无人机姿态和速度约束最优跟踪控制。 (英语) Zbl 1527.93320号

小结:在本文中,针对窄水域内的位姿和速度约束,采用actor-critic reinforcement learning(RL)机制和backstepping技术,创新性地提出了一种基于自学习的无人水面车辆最优跟踪控制(SLOTC)方案。具体来说,设计了势垒李亚普诺夫函数(BLF),将状态统一限制在与平滑可行参考轨迹相关的预定义区域内。利用约束Hamilton-Jacobi-Bellman(HJB)函数,采用自适应神经网络标识符,同时递归更新行动者和批评者,建立了反推的行动者-关键控制结构。最后,理论分析证明,整个SLOTC方案可以使所有状态保持在预定的紧集内,而跟踪误差收敛到原点的任意小邻域。在原型USV上的仿真结果表明了其显著的有效性和优越性。
{©2022 John Wiley&Sons有限公司}

MSC公司:

93C85号 控制理论中的自动化系统(机器人等)
93天30分 李亚普诺夫函数和存储函数
68T05年 人工智能中的学习和自适应系统
49升12 最优控制和微分对策中的Hamilton-Jacobi方程
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] WangN、KarimiHR、LiH、SuS。扰动地面车辆的精确轨迹跟踪:一种有限时间控制方法。IEEE/ASME Trans Mechatron公司。2019年;24(3):1064‐1074.
[2] 王恩(WangN)、安切克(AhnCK)。海-空-地异质系统的协调轨迹跟踪控制。IEEE/ASME Trans Mechatron公司。2021.doi:10.1010/TMECH221.3055450
[3] 王恩,高毅,孙姿,郑姿。具有完全未知动力学和复杂输入非线性的无人机基于Nussbaum的自适应模糊跟踪控制。国际模糊系统杂志。2018;20(1):259‐268。
[4] WangN,SuS。非对称欠驱动表面飞行器基于有限时间未知观测器的交互式轨迹跟踪控制。IEEE输电控制系统技术。2021;29(2):794‐803.
[5] WangN、GaoY、YangC、ZhangXF。具有输入约束的未知无人水面车辆基于强化学习的有限时间跟踪控制。神经计算。2021.文件编号:10.1016/j.neucom.2021.04.133
[6] Michaela D、Reinhard M、MirkoT。计算机辅助在限制水域操纵船舶。IFAC Proc Vol.2006年;39(12):176‐180.
[7] 周毅。基于自学习的船舶窄水域操纵智能控制。南安普顿大学;2004
[8] 张瑞、陈毅、孙姿、孙芙、徐赫。使用滑模控制水面舰艇在受限水域中的航迹。IEEE传输控制系统技术。2000;8(4):722‐732.
[9] TanG、ZouJ、ZangJ、WanL、SunH、SunZ。基于快速行进平方法的受限水域无人水面车辆群智能导航。应用海洋研究2020;95:102018.
[10] KiumarsiB、LewisFL、LevineDS。使用新的神经网络近似结构对非线性离散时变系统进行最优控制。神经计算。2015;156:157‐165.
[11] 刘特、邹伊、刘德。混合动力电动履带车辆具有过渡概率的自适应能量管理强化学习。IEEE Trans Ind Electron公司。2015;62(12):7837‐7846.
[12] LiX、ChengZ、WangB。基于自适应动态规划的再入飞行器辅助结构姿态控制。复杂性。2020年;4:1‐19. ·Zbl 1445.93016号
[13] 姜浩、张浩、谢旭。网络物理系统安全控制的关键自适应动态编程算法应用。ISA事务。2020;104:138‐144.
[14] WenG、GeSS、ChenCLP、TuF、WangS。采用优化反推技术的水面舰船自适应跟踪控制。IEEE Trans Cybern公司。2018;49(9):3420‐3431.
[15] BaiY、CaoY、LiT。基于具有输入饱和的actor‐critical结构的船舶航向跟随控制的优化反推设计。IEEE接入。2019年;7:73516‐73528.
[16] Werbos PJ公司。超越回归:行为科学中预测和分析的新工具。博士论文。马萨诸塞州剑桥:哈佛大学;1974
[17] Werbos PJ公司。全球危机预警的先进预测方法和智能模型。通用系统年鉴。1997;22:25‐38.
[18] Werbos PJ公司。用于实时控制和神经建模的近似动态编程。收录:WhiteDA(编辑)、SofgeDA(编辑,编辑)、《智能控制手册》。Van Nostrand Reinhold;1992
[19] VamvoudakisK、VrabieD、LewisFL。带积分强化学习的在线自适应最优控制算法。国际J鲁棒非线性控制。2014;24(17):2686‐2710. ·Zbl 1304.49059号
[20] 路易斯安那州VamvoudakisK。在线actor‐critic算法,用于解决连续时间无限时域最优控制问题。自动化。2010;46(5):878‐888. ·Zbl 1191.49038号
[21] VamvoudakisK、VrabieD、LewisFL。基于在线策略迭代的算法求解连续时间无限时域最优控制问题。IEEE研讨会ADPRL会议记录;2009
[22] 刘德、张华。一种用于故障避免问题学习控制的神经动态规划方法。Int J集成控制系统。2005;10(1):21‐32.
[23] BhasinS、KamalapurkarR、JohnsonM、VamvoudakisK、LewisFL、DixonWE。一种用于不确定非线性系统近似最优控制的新型actor‐critical‐identifier结构。自动化。2013年;49(1):82‐92·兹比尔1257.93055
[24] SongR、LewisFL、WeiQ、ZhangH。具有干扰的未知系统最优控制的非策略行动者-批评者结构。IEEE Trans Cybern公司。2016;46(5):1041‐1050.
[25] WangN、GaoY、ZhaoH、AhnCK。基于强化学习的未知无人水面飞行器最优跟踪控制。IEEE Trans Neural Netw学习系统。2021;32(7):3034‐3045.
[26] 王恩、高毅、张欣。无人水面车辆的数据驱动性能规定强化学习控制。IEEE Trans Neural Netw学习系统。2021.doi:10.1109/TNNLS.2021.3056444
[27] 赵德、刘杰。使用屏障李亚普诺夫函数控制具有位置状态约束的垂直起降飞机。亚洲J控制。2020;22(3):1221‐1229.
[28] LiDJ、LiuL、LiuYJ、TongS、ChenCLP。未知时滞非线性状态约束随机系统的无可行条件自适应神经网络控制。IEEE Trans Cybern公司。2019年;49(12):4485‐4494.
[29] LiDJ、LiuL、LiuYJ、TongS、ChenCLP。时变时滞非线性不确定状态约束系统的基于模糊逼近的自适应控制。IEEE Trans Fuzzy系统。2020;28(8):1620‐1630.
[30] MinX、LiYJ、TongS。一类具有全状态约束的主动悬架系统的自适应模糊最优控制。IET智能交通系统。2020;14(5):371‐381.
[31] WuW、TongS、LiYM。具有全时变状态约束的切换非线性系统的模糊自适应跟踪控制。神经计算。2019年;352:1‐11.
[32] 刘YJ,Tong S。全状态约束非线性系统Nussbaum增益自适应控制的Barrier Lyapunov函数。自动化。2017;76:143‐152. ·Zbl 1352.93062号
[33] GeSS TeeKP公司。使用势垒李亚普诺夫函数控制具有部分状态约束的非线性系统。国际J控制。2011;84(12):2008‐2023. ·Zbl 1236.93099号
[34] KimBS,YooSJ。具有输出约束的非线性纯反馈系统的自适应控制:积分屏障李亚普诺夫函数方法。国际J控制自动化系统。2015;13(1):249‐256.
[35] 刘YJ、童S、陈丽萍、李DJ。不确定非线性块三角约束系统的积分势垒Lyapunov泛函自适应神经网络控制。IEEE Trans Cybern公司。2017;47(1):3747‐3757.
[36] Wang L、Chen CLP、LiH。具有时变部分状态约束的饱和非线性系统的事件触发自适应控制。IEEE Trans Cybern公司。2020;50(4):1485‐1497.
[37] 刘玉杰、梅莉、刘莉、汤斯、陈丽萍。一类具有时变状态约束的非线性系统的自适应神经网络学习控制器设计。IEEE Trans Neural Netw学习系统。2020年;31(1):66‐75.
[38] GaoY、TongS、LiY。控制方向未知的MIMO非线性系统基于观测器的自适应模糊输出约束控制。模糊集系统。2016;290(1):79‐99. ·Zbl 1374.93211号
[39] KhalilHK公司。非线性系统。第三版普伦蒂斯·霍尔;2002. ·Zbl 1003.34002号
[40] SkjetneR、FossenTI、KokotovicPV。船控实验室模型船的自适应操纵实验。自动化。2005;41(2):289‐298. ·Zbl 1096.93026号
[41] GeSS、WangC。一类非线性系统的直接自适应神经网络控制。IEEE跨神经网络。2002年;13(1):214‐221.
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。