×

基于Q学习的离散模态驻留时间切换系统的最优跟踪控制。 (英语) Zbl 1531.93249号

基于Q学习,本文研究了线性离散时间模态持续驻留时间切换系统的跟踪问题。引入模态驻留时间切换规则来协调各切换子系统的切换条件。此外,给出了两种实现切换系统优化的算法。然后,证明了该算法的稳定性和收敛性。最后,通过一个数值仿真实例和一个电液系统的实例验证了该方法的有效性。
©2023 John Wiley&Sons有限公司。

MSC公司:

93C55美元 离散时间控制/观测系统
93立方 由微分方程以外的函数关系控制的控制/观测系统(例如混合系统和开关系统)
93立方厘米05 控制理论中的线性系统
49甲10 线性二次型最优控制问题
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 张丽、朱莉、施佩尔、卢克。时间相关切换离散时间线性系统:控制与滤波;2016. ·Zbl 1356.93003号
[2] 陈杰、梁姿、白银、李鹏、任姿、郑毅。具有不连续执行器的切换系统的制导和控制律设计。最佳方案。控制应用程序。方法。2017;38(5):829‐846. ·Zbl 1373.93075号
[3] HanX、HaoM、LiP、ZhaoX、XuN。未知离散时间非线性系统的量化最优输出反馈控制和最优触发信号协同设计。最佳方案。控制应用程序。方法。2022;43(3):962‐978. ·Zbl 1531.93124号
[4] 刘菲、李鹏、雷兹、宋毅。具有未知切换模式和随机扰动的线性系统的线性二次最优采样数据控制。最佳方案。控制应用程序。方法。2016;37(5):1085‐1100. ·Zbl 1348.93186号
[5] 赫斯潘哈普。切换线性系统的一致稳定性:拉萨尔不变性原理的推广。IEEE传输。自动化。合同。2004;49(4):470‐482. ·Zbl 1365.93348号
[6] 侯毅、朱芙、赵X、郭S。一类广义切换系统的观测器设计与未知输入重构。IEEE Trans-Syst Man-Cybern系统。2018;48(8):1411‐1419.
[7] HanTT、GeSS、LeeTH。持续驻留时间切换非线性系统:变化范式和规范设计。IEEE传输。自动化。合同。2010;55(2):321‐337. ·Zbl 1368.93626号
[8] 张德、施普、张华、YuL。传感器网络中的节能分布式滤波:一种统一的交换系统方法。IEEE传输。Cybern.2017;47(7):1618‐1629.
[9] ShenH、HuX、WangJ、CaoJ、QianW。非易碎
[( {高}_{\infty}\]\)双层切换调节下马尔可夫跳奇摄动耦合神经网络的同步。IEEE Trans Neural Netw学习系统。2023;34(5):2682‐2692.
[10] Branicky理学硕士。切换和混合系统的多个Lyapunov函数和其他分析工具。IEEE传输。自动化。合同。1998;43(4):475‐482. ·Zbl 0904.93036号
[11] DaafouzJ,RiedingerP,IungC。切换系统的稳定性分析和控制综合:切换Lyapunov函数方法。IEEE传输。自动化。合同。2002;47(11):1883‐1887. ·Zbl 1364.93559号
[12] 张磊,ShiP。稳定性,
[( {l} 2个增益和异步
[( {高}_具有平均驻留时间的离散时间切换系统的控制。IEEE Trans Automat控制。2009;54(9):2192‐2199. ·Zbl 1367.93191号
[13] ZhongGX、YangGH。具有驻留时间约束的连续时间切换系统的鲁棒控制和故障检测。国际J鲁棒非线性控制。2015;25(18):3799‐3817. ·Zbl 1336.93053号
[14] ZhaiG、HuB、YasudaK、MichelAN。具有稳定和不稳定子系统的切换系统的稳定性分析:平均驻留时间方法。国际系统科学杂志。2001;32(8):1055‐1061. ·Zbl 1022.93043号
[15] 张丽,崔,刘明,赵毅。具有平均驻留时间的离散时间切换线性系统的异步滤波。IEEE Trans Circuits Syst I.2011;58(5):1109‐1118. ·Zbl 1468.93072号
[16] 王赫、王杰、陈X、施克、申赫。具有匹配/非匹配不确定性的持续停留时间切换非线性系统的自适应滑模控制及其应用。J Franklin Inst.2022;359(2):967‐980. ·Zbl 1481.93064号
[17] 布兰奇尼夫(BlanchiniF)、卡萨格兰德(CasagrandeD)、迈阿密(MianiS)。开关系统中的模态和过渡驻留时间计算:集合论方法。自动化。2010;46(9):1477‐1482. ·Zbl 1201.93064号
[18] ZhaoX、Zhang L、ShiP、Liu M。具有模式相关平均驻留时间的切换线性系统的稳定性和镇定。IEEE传输。自动化。合同。2012;57(7):1809‐1815. ·Zbl 1369.93290号
[19] 张磊、朱莉、宁姿、殷姿。具有可变通信能力的网络系统的弹性估计。IEEE传输。自动化。合同。2016;61(12):4150‐4156. ·Zbl 1359.93474号
[20] WangJ、WuJ、ShenH、CaoJ、RutkowskiL。模糊的
[( {高}_离散时间非线性马尔可夫跳跃系统的混合强化控制
[(Q\]\)-学习方法。IEEE Trans Cybern公司。2022.doi:10.1109/TCYB.2022.3220537
[21] WongWC,LeeJH。线性随机系统直接自适应最优控制的一种基于强化学习的方案。Optim Control应用方法。2010;31(4):365‐374. ·Zbl 1204.93134号
[22] 莫达雷什·莫加达姆。使用强化学习的分布式多智能体系统的弹性自适应最优控制。IET控制理论应用。2018;16:2165‐2174.
[23] WangS、TaoL、ChenQ、NaJ、RenX。基于USDE的滑模控制,用于具有未知系统动力学的伺服机构。IEEE/ASME Trans Mechatron公司。2020;25(2):1056‐1066.
[24] 曹玉伟、杨国伟、李晓杰。具有未知系统动力学的复杂动态网络的最优同步控制器设计。2019年富兰克林研究所J Franklin Inst;356(12):6071‐6086. ·兹伯利1416.93016
[25] YangX、WeiQ。约束输入不确定非线性系统鲁棒镇定的非策略迭代算法。国际J.鲁棒非线性控制。2018;28(18):5747‐5765. ·Zbl 1405.93202号
[26] WeiQ、LiuD、LinH。离散时间非线性系统最优控制的值迭代自适应动态规划。IEEE Trans Cybern公司。2016;46(3):840‐853.
[27] BaldiS、TaoT、KosmatopoulosEB。信息有限的不确定Kuramoto网络中的自适应混合同步。IET控制理论应用2019;13(9):1229‐1238. ·Zbl 1432.93286号
[28] 刘德伟(音)。离散时间非线性系统的数值自适应学习控制方案。IET控制理论应用2013;7(11):1472‐1486.
[29] TaoT、RoyS、BaldiS。切换线性系统基于泄漏的模型参考自适应控制中的瞬态问题。非线性模拟混合系统。2020;36:100885. ·Zbl 1441.93152号
[30] 江毅、江泽平。具有完全未知动力学的连续时间线性系统的计算自适应最优控制。自动化。2012;48(10):2699‐2704. ·兹比尔1271.93088
[31] 朱莉、赵德、李克斯。使用强化学习技术解决无系统动力学的连续时间非线性最优跟踪问题。IET控制理论应用2016;10(12):1339‐1347.
[32] 秦奇、张赫、罗毅。利用自适应动态规划对动态未知的连续时间线性系统进行在线最优跟踪控制。国际J控制。2014;87(5):1000‐1009. ·Zbl 1292.49029号
[33] DierksT、ThumatiBT、JagannathanS。使用离线训练的神经网络对未知仿射非线性离散时间系统进行最优控制,并证明其收敛性。神经网络。2009;22(5‐6):851‐860. ·Zbl 1338.49074号
[34] KiumarsiB、LewisFL、Naghibi‐SistaniMB、KarimpourA。使用输入输出测量数据对未知离散时间线性系统进行最优跟踪控制。IEEE传输。Cybern.2015;45(12):2770‐2779.
[35] WeiQ、LiuD、ShiG。一种新颖的双重迭代Q‐learning方法,用于智能住宅环境中的最优电池管理。IEEE Trans Ind Electron公司。2015;62(4):2509‐2518.
[36] FengT、ZhangJ、TongY、Zhang H。求解离散时间多智能体系统一致性问题的Q学习算法。自动化。2021;128:109576. ·Zbl 1461.93466号
[37] 刘S、谢莉、张赫。单输入通道中多时滞离散系统的线性二次跟踪问题。国际J.鲁棒非线性控制。2010;20(12):1379‐1394. ·Zbl 1206.93070号
[38] 路易斯安那州莫达雷什。使用强化学习的部分未知连续时间系统的线性二次跟踪控制。IEEE传输。自动化。合同。2014;59(11):3051‐3056. ·Zbl 1360.93726号
[39] 纳杰菲·比尔加尼(Najafi BirganiS)、莫阿韦尼(MoaveniB)、卡其布(Khaki‐SedighA)。无限时域线性二次跟踪问题:一种折扣成本函数方法。最佳方案。控制应用程序。方法。2018;39(4):1549‐1572. ·Zbl 1398.49026号
[40] D'JorgeA、SantoroBF、AndersonA、GonzálezAH、FerramoscaA。跟踪线性系统的随机模型预测控制。最佳方案。控制应用程序。方法。2020;41(1):65‐83. ·Zbl 1451.93098号
[41] KiumarsiB、LewisFL、ModaresH、KarinpurA、Naghibi‐SistaniMB。具有未知动力学的线性离散时间系统最优跟踪控制的强化Q学习。自动化。2014;50(4):1167‐1175. ·Zbl 1417.93134号
[42] 孙杰、张赫、王毅、傅。基于强化学习的并网混合发电中开关系统的最优跟踪控制。神经补偿应用。2021;33(15):9363‐9374.
[43] HewerG公司。用于计算离散最优调节器稳态增益的迭代技术。IEEE传输。自动化。合同。1971;16(4):382‐384.
[44] YazdiMB、Jahed‐MotlaghM、AttiaS、RaischJ。一类二阶切换非线性系统的模态精确线性化。非线性分析现实世界应用。2010;11(4):2243‐2252. ·Zbl 1214.93032号
[45] 袁S、德舒特B、巴尔迪S。不确定时间驱动切换线性系统的自适应渐近跟踪控制。IEEE传输。自动化。合同。2017;62(11):5802‐5807. ·Zbl 1390.93467号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。