×

\(\mathcal{高}_\离散时间马尔可夫跳跃系统的跟踪学习控制:一种并行的非策略强化学习。 (英语) Zbl 1530.93100号

摘要:本文讨论了{高}_\一类线性离散马尔可夫跳跃系统的跟踪控制问题,其中不需要系统动力学知识。首先,结合强化学习,提出了一种新的Bellman方程和增广耦合博弈代数Riccati方程,以导出增广离散时间Markov跳跃系统的最优控制策略。此外,基于增广系统,给出了一个新构造的系统来采集输入输出数据,解决了离散马尔可夫跳变系统中耦合项难以求解的问题。随后,设计了一种新的无模型算法,该算法不需要原始系统的动态信息。最后,通过数值算例验证了该方法的有效性。

理学硕士:

93B36型 \(H^\infty)-控制
93C55美元 离散时间控制/观测系统
93E03型 控制理论中的随机系统(一般)
93二氧化碳 控制理论中的线性系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 冯,X。;Loparo,K.A。;纪毅。;Chizeck,H.J.,跳跃线性系统的随机稳定性。IEEE传输。自动。控制,138-53(1992)·Zbl 0747.93079号
[2] 甘地,V。;Joo,Y.-H.,T-S模糊采样控制在执行器故障非线性系统中的应用及其在风能系统中的研究。IEEE传输。模糊系统。,2, 462-474 (2022)
[3] Cheng,P。;Wang,H。;斯托亚诺维奇,V。;刘,F。;He,S。;Shi,K.,基于耗散性的隐马尔可夫模型风力发电机组有限时间异步输出反馈控制。国际期刊系统。科学。,15, 3177-3189 (2022) ·Zbl 1518.93119号
[4] 沙尔马,R。;Gopal,M.,机器人操纵器的马尔可夫自适应模糊控制器。IEEE传输。模糊系统。,1, 171-186 (2008)
[5] Cheng,J。;Park,J.H。;Karimi,H.R。;Shen,H.,具有时变延迟信号的马尔可夫神经网络的采样数据指数同步的灵活终端方法。IEEE传输。赛博。,8, 2232-2244 (2018)
[6] Dong,S。;吴振国。;Shi,P。;Karimi,H.R。;Su,H.,马尔可夫跳变非线性系统的网络故障检测。IEEE传输。模糊系统。,6, 3368-3378 (2018)
[7] Wang,Y。;夏,Y。;沈,H。;Zhou,P.,非线性马尔可夫跳变广义系统鲁棒镇定的SMC设计。IEEE传输。自动。控制,1219-224(2018)·Zbl 1390.93695号
[8] 瓦尔加斯,A.N。;Acho,L.,马尔可夫跳跃系统建模变速风力涡轮机的最优控制。富兰克林研究所,10,4661-4677(2022)·兹比尔1491.93126
[9] 张,L。;Liang,H。;孙,Y。;Ahn,C.K.,输出量化半马尔可夫跳跃系统的自适应事件触发故障检测方案。IEEE传输。系统。天啊,赛博。系统。,4, 2370-2381 (2021)
[10] 张,X。;He,S。;斯托亚诺维奇,V。;栾,X。;Liu,F.,锥型非线性马尔可夫跳跃系统的有限时间异步耗散滤波。科学。中国信息科学。,5, 152206 (2021)
[11] Dong,X。;He,S。;Stojanovic,V.,一类带有跳跃故障信号的离散时间圆锥型非线性Markov跳跃系统的鲁棒故障检测滤波器设计。IET控制理论应用。,14, 1912-1919 (2020)
[12] 张,H。;陈,Z。;Zhao,N。;Xing,B。;Kalidass,M.,针对传感器和执行器攻击的马尔科夫跳跃式网络物理系统的自适应神经耗散控制。J.Franklin Inst.,第12页,第7676-7698页(2023年)·Zbl 1520.93276号
[13] 拉维,R。;Gunasekaran,S。;卡利达斯,M。;Zhang,H.,带levy噪声的随机半线性系统的指数稳定性结果。国际J.创新。计算。信息控制。,6, 19291940 (2022)
[14] 沈,H。;胡,X。;Wang,J。;曹,J。;Qian,W.,具有双层切换规则的马尔可夫跳奇摄动耦合神经网络的非脆弱(H_)同步。IEEE传输。神经网络。学习。系统。,5, 2682-2692 (2023)
[15] Wang,J。;陈,M。;沈,H。;Park,J.H。;Wu,Z.-G.,网络系统可靠事件触发延迟动态输出反馈控制的马尔可夫跳跃模型方法。非线性分析。混合系统。,137-150 (2017) ·Zbl 1373.93218号
[16] 沈,M。;Ye,D.,具有不完全转移描述的非线性Markovian跳跃系统的改进模糊控制设计。模糊集系统。,80-95 (2013) ·兹比尔1285.93058
[17] Geromel,J.C。;Gonçalves,A.P.C。;Fioravanti,A.R.,通过线性矩阵不等式实现离散时间马尔可夫跳跃线性系统的动态输出反馈控制。SIAM J.控制优化。,2, 573-593 (2009) ·Zbl 1194.93070号
[18] 徐,S。;Chen,T。;Lam,J.,一类非线性离散马尔可夫跳跃系统的鲁棒(H_\infty)滤波。J.优化。理论应用。,3, 651-668 (2004) ·Zbl 1082.93056号
[19] 穆萨维,A。;Markazi,A.H.D。;Khanmirza,E.,近最优强化学习框架中非线性欠驱动智能体的自适应模糊滑模共识控制,J.Franklin Inst.,104804-4841(2022)·兹比尔1491.93111
[20] 陈,H。;Tu,Y。;Wang,H。;Shi,K。;He,S.,基于强化学习的容错跟踪控制,应用于线控转向系统。J.Franklin Inst.,3,1152-1171(2022)·Zbl 1483.93095号
[21] 巴贾里亚,P。;Yerudkar,A。;Glielmo,L。;Del Vecchio,C。;Wu,Y.,概率布尔控制网络的自触发控制:强化学习方法。J.Franklin Inst.,第12页,第6173-6195页(2022年)·Zbl 07566311号
[22] Wang,J。;吴,J。;沈,H。;曹,J。;Rutkowski,L.,通过一种新的混合强化Q学习方法对离散时间非线性马尔可夫跳跃系统进行模糊(H_)控制。IEEE传输。赛博。,1-12 (2022)
[23] Akpakwu,G.A。;Hancke,G.P。;Abu-Mahfouz,A.M.,《受限应用协议的基于优化的拥塞控制》。国际期刊网。管理。,1,e2178(2022)
[24] 赞菲拉赫,I.A。;Precup,R.-E.公司。;罗马共和国。;Petriu,E.M.,使用灰狼优化器算法的基于策略迭代强化学习的控制。信息科学。,162-175 (2022)
[25] Precup,R.-E.公司。;Preitl,S。;Tar,J.K。;托梅斯库,M.L。;Takács,M。;科隆迪,P。;Baranyi,P.,通过迭代学习控制提高模糊控制系统性能。IEEE传输。Ind.Electron公司。,9, 3461-3475 (2008)
[26] 刘易斯,F.L。;弗拉比,D。;Vamvoudakis,K.G.,强化学习和反馈控制:使用自然决策方法设计最优自适应控制器。IEEE控制系统。Mag.,6,76-105(2012)·Zbl 1395.93584号
[27] 李,H。;Yu,J。;希尔顿,C。;Liu,H.,使用T-S模糊方法的非线性主动悬架车辆系统的自适应滑模控制。IEEE传输。Ind.Electron公司。,8, 3328-3338 (2013)
[28] He,S。;张,M。;方,H。;刘,F。;栾,X。;Ding,Z.,一类动态信息完全未知的马尔可夫跳跃系统的强化学习和自适应优化。神经补偿。申请。,18, 14311-14320 (2020)
[29] 张凯。;张,H.-g。;蔡,Y。;Su,R.,基于积分RL方法的耦合马尔可夫跳跃系统模型相关控制的并行最优跟踪控制方案。IEEE传输。自动。科学。工程师,3,1332-1342(2020)
[30] 布拉沃,M。;Faure,M.,动作集限制的强化学习。SIAM J.控制优化。,1, 287-312 (2015) ·Zbl 1382.91018号
[31] Kotsalis,G。;兰·G。;Li,T.,随机变分不等式的简单优化方法,II:强化学习中的马尔可夫噪声和策略评估。SIAM J.控制优化。,2, 1120-1155 (2022) ·Zbl 1493.90205号
[32] Kiumarsi,B。;Lewis,F.L.,部分未知非线性离散时间系统基于Actor-critic的最优跟踪。IEEE传输。神经网络。学习。系统。,1, 140-151 (2015)
[33] 钟,X。;He,H。;张,H。;Wang,Z.,使用自适应动态规划对未知离散时间非线性Markov跳跃系统进行最优控制。IEEE传输。神经网络。学习。系统。,12, 2141-2155 (2014)
[34] 方,H。;Tu,Y。;Wang,H。;He,S。;刘,F。;丁,Z。;Cheng,S.S.,具有非策略强化学习的未知离散时间非线性马尔可夫跳跃系统的基于模糊的自适应优化。IEEE传输。模糊系统。,12, 5276-5290 (2022)
[35] 姜浩。;张,H。;罗,Y。;Wang,J.,使用基于数据的强化学习方法对完全未知非线性离散时间Markov跳跃系统的最优跟踪控制。神经计算,176-182(2016)
[36] Yang,Y。;Wan,Y。;朱,J。;Lewis,F.L.,线性离散时间系统的(H_\infty)跟踪控制:无模型Q学习设计。IEEE控制系统。莱特。,1, 175-180 (2021)
[37] Kiumarsi,B。;刘易斯,F.L。;Jiang,Z.-P.,线性离散时间系统的(H_\infty)控制:非策略强化学习。自动化,144-152(2017)·Zbl 1357.93034号
[38] Rizvi,S.A.A。;Lin,Z.,离散时间线性零和对策的输出反馈Q学习及其在H∞控制中的应用。自动化,213-221(2018)·Zbl 1402.93126号
[39] 莫达雷斯,H。;Lewis,F.L.,使用强化学习的部分未知连续时间系统的线性二次跟踪控制。IEEE传输。自动。控制,113051-3056(2014)·Zbl 1360.93726号
[40] 秦,C。;张,H。;Luo,Y.,利用自适应动态规划对具有未知动态的连续线性系统进行在线最优跟踪控制。国际控制杂志,51000-1009(2014)·Zbl 1292.49029号
[41] 弗拉比,D。;Lewis,F.,部分未知非线性系统连续时间直接自适应最优控制的神经网络方法。神经网络。,3, 237-246 (2009) ·Zbl 1335.93068号
[42] 莫达雷斯,H。;刘易斯,F.L。;Jiang,Z.-P.,通过非策略强化学习实现完全未知连续时间系统的(H_\infty)跟踪控制。IEEE传输。神经网络。学习。系统。,10, 2550-2562 (2015)
[43] Kiumarsi,B。;刘易斯,F.L。;莫达雷斯,H。;卡林普尔,A。;Naghibi-Sistani,M.-B.,《具有未知动力学的线性离散时间系统最优跟踪控制的强化Q学习》。自动化,41167-1175(2014)·Zbl 1417.93134号
[44] Precup,R.-E.公司。;罗马共和国。;Safaei,A.,数据驱动无模型控制器(2022),CRC出版社:佛罗里达州博卡拉顿CRC出版社·Zbl 1495.93002号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。