×

基于自适应积分强化学习Q函数的具有未知扰动的多输入系统鲁棒最优控制。 (英语) Zbl 1533.93368号

摘要:考虑到未知干扰引起的超调和颤振,本文采用基于近似动态规划(ADP)的Q函数方案研究了连续时间(CT)多输入系统的自适应鲁棒最优控制。为了研究Q函数的最优解,提出了一种自适应积分强化学习(IRL)方案。首先,给出了多输入值函数,并分析了纳什均衡。利用多输入系统和基于零对策的价值函数构造了一个复Hamilton-Jacobi-Isaacs(HJI)方程。求解非线性系统的HJI方程是一项具有挑战性的任务。因此,HJI方程的变换被构造为Q函数。应用神经网络(NN)学习基于自适应IRL方案的Q函数变换的解。此外,针对放松持续激励(PE)条件的初始激励不足的问题,在Q函数中添加了错误信息。同时,引入临界网络的IRL信号来研究鞍点难解,从而放松了HJI方程中的系统漂移和NN导数。证明了权重参数的收敛性,并分析了采用该IRL Q函数方案的多系统的闭环稳定性。最后,以一个双引擎驱动的F-16飞机装置和一个非线性系统为例,验证了所提出的自适应IRL Q函数方案的有效性。
©2024 John Wiley&Sons有限公司。

MSC公司:

93C40 自适应控制/观测系统
93B35型 灵敏度(稳健性)
49升12 最优控制和微分对策中的Hamilton-Jacobi方程
91A10号 非合作游戏
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 佛罗里达州刘易斯,刘D。反馈控制的强化学习和近似动态规划。约翰·威利父子公司;2013
[2] 张赫,岳德,窦C,赵伟,谢X。具有输入延迟的未知多智能体系统的数据驱动分布式最优一致性控制。IEEE Trans Cybernet。2018;49(6):2095‐2105。
[3] LiY‐m、MinX、TongS。不确定严格反馈非线性系统的自适应模糊逆最优控制。IEEE Trans Fuzzy系统。2019年;28(10):2363‐2374.
[4] LvY,ZhaoJ。通过数据驱动的策略学习,对动态不确定系统进行输出反馈鲁棒控制。国际J鲁棒非线性控制。2022;32(18):9791‐9807.
[5] ZhaoD、ZhangQ、WangD、ZhuY。具有未知动力学的非零和博弈系统最优控制的经验重演。IEEE Trans Cybernet。2016;46(3):854‐865.
[6] 薛S、罗B、刘德、高毅。用于部分未知约束不确定系统跟踪控制的事件触发ADP。IEEE Trans Cybernet。2021;52(9):9001‐9012.
[7] MuC、ZhangY、SunC。具有执行器故障的不确定非线性系统的基于数据的反馈再学习控制。IEEE Trans Cybernet。2022;53(7):4361‐4374.
[8] 张毅、赵波、刘德、张斯。动态未知的多人非零和游戏的基于事件触发的自适应动态规划鲁棒控制。IEEE Trans Cybernet。2023;53(8):5151‐5164.
[9] LvY、RenX、TianJ、ZhaoX。利用神经网络对未知MIMO非线性系统进行基于逆模型的迭代学习控制。神经计算。2023;519:187‐193.
[10] LiY、FanY、LiK、LiuW、TongS。状态约束随机非线性系统基于自适应优化反推控制的RL算法及其应用。IEEE Trans Cybernet。2021;52(10):10542‐10555.
[11] NaJ、WangB、LiG、ZhanS、HeW。基于自适应动态规划的波能转换器非线性约束优化控制。IEEE Trans Ind Electron公司。2018;66(10):7904‐7915.
[12] 赵B、刘D。通过自适应动态规划实现模块化可重构机器人的事件触发分散跟踪控制。IEEE Trans Ind Electron公司。2019年;67(4):3054‐3064.
[13] 纳什J。非合作游戏。Ann Math。1951;54:286‐295. ·Zbl 0045.08202号
[14] ZhaoQ、SunJ、WangG、ChenJ。未知非线性系统非零和博弈的事件触发ADP。IEEE Trans Neural Netw学习系统。2021;33(5):1905‐1913.
[15] VamvoudakisKG,路易斯安那州。多玩家非零和游戏:耦合哈密尔顿-雅可比方程的在线自适应学习解。自动化。2011;47(8):1556‐1569. ·Zbl 1237.91015号
[16] SongR、LewisFL、WeiQ。解非线性连续多人非零和博弈的非策略积分强化学习方法。IEEE Trans Neural Netw学习系统。2017;28(3):704‐713.
[17] 刘德、李赫、王德。动态未知的多人非零和博弈的在线同步近似最优学习算法。IEEE Trans-Syst Man Cybernet系统。2014;44(8):1015‐1027.
[18] CuiX、ZhangH、LuoY、ZuP。具有部分未知动力学和约束输入的非零和博弈的在线有限时域最优学习算法。神经计算。2016;185:37‐44.
[19] 孙杰、张赫、颜毅、徐斯、芬克斯。免疫系统非零和博弈的自适应动态规划最优调节策略。IEEE Trans Cybernet。2023;53(3):1475‐1484.
[20] NaJ、ZhaoJ、GaoG、LiZ。通过在线数据驱动学习对不确定系统进行输出反馈鲁棒控制。IEEE Trans Neural Netw学习系统。2020;32(6):2650‐2662.
[21] 王德、胡莉、赵明、乔杰。针对离散时间零和游戏,通过自适应批评器实现双事件触发约束控制。IEEE Trans-Syst Man Cybernet系统。2022;53(3):1584‐1595.
[22] Al-TamimiA、LewisFL、Abu‐KhalafM。线性离散时间零和博弈的无模型Q学习设计,应用于H∞控制。自动化。2007;43(3):473‐481. ·Zbl 1137.93321号
[23] 张伟。使用ADP网络、传感和控制解决一类连续时间非线性二次零和博弈的新方法,2008年。ICNSC 2008。IEEE国际IEEE会议,507-512。2008
[24] 崔,张赫,张X,罗Y。使用输出反馈的离散时间零和游戏的基于数据的自适应批评家设计。2011年IEEE自适应动态规划和强化学习研讨会(ADPRL)。IEEE,190-195年。2011
[25] 刘易斯·弗拉比德。零和微分对策在线求解的自适应动态规划。J控制理论应用。2011;9(3):353‐360. ·Zbl 1249.90308号
[26] VamvoudakisKG,路易斯安那州。使用同步策略迭代在线解决非线性两人零和游戏。国际J鲁棒非线性控制。2012;22(13):1460‐1483. ·Zbl 1292.91011号
[27] 刘德、李赫、王德。离散时间非线性系统基于神经网络的零和博弈,采用迭代自适应动态规划算法。神经计算。2013;110:92‐100.
[28] 罗伊、朱伟、曹洁、鲁特科夫斯基。非线性不确定多智能体系统的事件触发有限时间保成本H∞一致性。IEEE Trans-Netw Sci Eng.2022;9(3):1527‐1539.
[29] 乔杰、李明、王德。非线性多人零和博弈的带临界学习的非对称约束最优跟踪控制。IEEE Trans Neural Netw学习系统。2022:1‐13. doi:10.1109/TNNLS.2022.3208611
[30] YangY、DingD‐W、Xiong H、YinY、WunschDC。具有全状态约束和输入饱和的H∞控制的在线屏障-行动者-批评性学习。《富兰克林研究所杂志》2020;357(6):3316‐3344. ·Zbl 1437.93027号
[31] 张赫,刘杰,徐斯。通过事件触发方案实现网络化电力系统的H∞负载频率控制。IEEE Trans Ind Electron公司。2019年;67(8):7104‐7113。
[32] DongB、AnT、ZhuX、LiY、LiuK。基于零和博弈的神经最优控制模块化机器人机械手,使用仅限关键策略迭代的不确定干扰。神经计算。2021;450:183‐196。
[33] SongR、YangG、LewisFL。基于非策略积分强化学习的混合零和博弈的近似最优控制。IEEE Trans Neural Netw学习系统。2022;1-12.doi:10.1109/TNNLS.2022.3191847
[34] LvY、ChangH、ZhaoJ。非线性多输入系统的在线自适应积分强化学习。IEEE Trans Circuits Syst II:快速简报。2023;70(11):4176‐4180.
[35] 罗布·WuH‐N。学习线性连续时间H∞状态反馈控制解的同步策略更新算法。通知科学。2013;222:472‐485. ·Zbl 1293.93275号
[36] OlsderGJ,BasarT。动态非合作博弈论。暹罗;1999. ·Zbl 0946.91001号
[37] 伯恩哈德·巴什阿尔特。H‐无穷最优控制及相关的Minimax设计问题:一种动态博弈方法。施普林格科技与商业媒体;2008
[38] ZhaoB、ZhangY、LiuD。模块化可重构机械手基于自适应动态规划的协同运动/力控制:一种联合任务分配方法。IEEE Trans Neural Netw学习系统。2022;34:10944‐10954.
[39] 姜浩,周波。未知连续时间线性系统基于偏差策略迭代的自适应动态规划。自动化。2022;136:110058. ·Zbl 1487.49034号
[40] VamvoudakisKG、VrabieD、LewisFL。带积分强化学习的在线自适应最优控制算法。国际J鲁棒非线性控制。2014;24(17):2686‐2710. ·Zbl 1304.49059号
[41] LvY、NaJ、ZhaoX、HuangY、RenX。具有强化学习的未知输入干扰非线性系统的多H∞控制。IEEE Trans Neural Netw学习系统。2021;34(9):5601‐5613.
[42] LvY、WuZ、ZhaoX。基于数据的能源交易最优微电网管理,采用集成Q学习方案。IEEE互联网事物杂志2023;10(18):16183‐16193。
[43] VamvoudakisKG公司。连续时间线性系统的Q学习:一种无模型的无限时域最优控制方法。系统控制许可。2017;100:14‐20. ·Zbl 1356.93044号
[44] LeeJY、ParkJB、ChoiYH。具有同时不变探索的连续时间输入仿射非线性系统的积分强化学习。IEEE Trans Neural Netw学习系统。2014;26(5):916‐932.
[45] AslHJ,UchibeE。非线性动态系统的在线强化学习控制:基于状态作用值函数的解决方案。神经计算。2023;544:126291.
[46] NaJ、MahyuddinMN、HerrmannG、RenX、BarberP。机器人系统的鲁棒自适应有限时间参数估计和控制。国际J鲁棒非线性控制。2015;25(16):3045‐3071. ·Zbl 1327.93285号
[47] 张赫,崔L,张X,罗Y。采用自适应动态规划方法对未知一般非线性系统进行数据驱动鲁棒近似最优跟踪控制。IEEE Trans神经网络。2011;22(12):2226‐2236.
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。