黄亚玲;李文倩;王云;沈浩 连续马尔可夫跳跃奇异摄动系统的最优控制:一种混合强化学习方案。 (英语) Zbl 07852049号 J.富兰克林研究所。 361,第7号,文章ID 106771,14页(2024). 摘要:本文讨论了具有未知系统动力学的连续马尔可夫跳奇摄动系统的自适应最优控制问题。首先,引入子系统变换技术重构具有随机跳跃特性的系统,得到一组并行子系统。接下来,在强化学习的框架下,开发了一种基于离线模型的混合迭代算法来近似求解全阶耦合代数Riccati方程。然后,为了摆脱系统模型的约束,引入了一种在线无模型混合迭代算法,并给出了相应的收敛性证明。与传统的值迭代和策略迭代算法相比,混合迭代算法具有理想的收敛速度,消除了初始稳定控制策略的要求。最后,通过一个运算放大器电路模型作为仿真实例,验证了在线算法的有效性。 MSC公司: 93E20型 最优随机控制 93C40型 自适应控制/观测系统 93C70号 控制/观测系统中的时间尺度分析和奇异摄动 关键词:马尔可夫跳跃系统;奇异摄动系统;混合迭代算法;强化学习。缴款书 PDF格式BibTeX公司 XML格式引用 \textit{Y.Huang}等人,J.Franklin Inst.361,No.7,文章ID 106771,14 p.(2024;Zbl 07852049) 全文: DOI程序 参考文献: [1] 刘,S。;Cheng,J。;张,D。;曹,J。;张,H。;Alsaedi,A.,具有事件触发协议的切换模糊奇异摄动系统的动态量化控制,J.Franklin Inst.,360,9,5996-6020,2023·Zbl 1516.93150号 [2] 沈,H。;彭,C。;Yan,H。;Xu,S.,快速采样奇异摄动系统的数据驱动近优化,IEEE Trans。自动化。控制,2024,印刷 [3] 赵,J。;杨,C。;Dai,W。;Gao,W.,基于强化学习的多单元设备工业系统复合优化操作控制,IEEE Trans。Ind.通知。,18, 2, 1091-1101, 2022 [4] Wang,Y。;Shi,P。;Yan,H.,模糊奇异摄动系统的可靠控制及其在电子电路中的应用,IEEE Trans。电路系统。注册会计师。,65, 10, 3519-3528, 2018 ·Zbl 1468.93119号 [5] Wang,Y。;陈,F。;庄,G。;Yang,G.,马尔可夫跳奇异摄动系统基于动态事件的混合(H_)和耗散异步控制,应用。数学。计算。,386,第125443条pp.,2020年·Zbl 1497.93234号 [6] 穆克吉,S。;Bai,H。;Chakrabortty,A.,使用奇异摄动近似的降维强化学习控制,Automatica,126,第109451页,2021年·Zbl 1461.93330号 [7] 杨,C。;钟,S。;刘,X。;Dai,W。;周,L.,具有未知慢动态的线性奇异摄动系统的自适应复合次优控制,国际。J.鲁棒非线性控制,30,72625-26432020·Zbl 1465.93113号 [8] 刘,X。;杨,C。;Luo,B。;Dai,W.,使用强化学习和Takagi-Sugeno模糊方法的非线性慢-快耦合系统的次优控制,国际。J.改编。控制信号处理。,35, 6, 1017-1038, 2021 [9] 周,L。;赵,J。;马,L。;Yang,C.,一类具有未知慢动态的两时间尺度互联网络的分散复合次优控制,神经计算,38271-792020 [10] 米,X。;夏,J。;苏·L。;陈,X。;Shen,H.,模糊奇异摄动互联系统的分散优化:一种混合强化学习方法,国际模糊系统杂志。,1-13, 2023 [11] 赵,J。;杨,C。;Gao,W.,基于强化学习的线性奇异摄动系统最优控制,IEEE Trans。电路系统。II实验简报,69,3,1362-1366,2022 [12] 王,G。;Xu,L.,随机切换马尔可夫跳跃系统的几乎必然稳定性和镇定,IEEE Trans。自动化。控制,67,1529-15362022·Zbl 07560663号 [13] 王,G。;Sun,Y.,通过随机调度控制器实现连续时间跳跃线性系统的几乎必然镇定,IEEE Trans。赛博。,52, 5, 2712-2724, 2022 [14] 王,J。;王,D。;Yan,H。;Shen,H.,多传感器抗重放攻击隐马尔可夫跳跃系统的复合抗干扰控制,IEEE Trans。自动化。控制,69,1760-17662024 [15] 王,J。;吴杰。;沈,H。;曹,J。;Rutkowski,L.,通过一种新的混合强化Q学习方法IEEE Trans对离散时间非线性Markov跳跃系统的模糊(H_)控制。赛博。,53, 11, 7380-7391, 2023 [16] 李,F。;吴,Z。;杨,C。;Shi,Y。;黄,T。;Gui,W.,离散时间半马尔可夫跳跃系统基于学习的新型异步滑模控制,Automatica,143,文章110428 pp.,2022·兹比尔1498.93078 [17] 李,X。;卢·D。;张,W。;Zhu,F.,基于降阶观测器的一类具有部分未知转移率的Takagi-Sugeno-Markovian跳跃系统的传感器故障估计和容错控制,J.Syst。科学。复杂。,31, 1405-1422, 2018 ·Zbl 1405.93054号 [18] Wang,Y。;Ahn,C.K。;Yan,H。;谢,S.,非线性奇摄动马尔可夫跳跃系统的模糊控制与滤波,IEEE Trans。赛博。,51, 1, 297-308, 2021 [19] Wang,Y。;Pu,H。;Shi,P。;Ahn,C.K。;Luo,J.,非线性摄动奇异摄动Markov跳跃广义系统的滑模控制,Automatica,127,文章109515 pp.,2021·Zbl 1461.93081号 [20] 王,J。;Liang,K。;黄,X。;王,Z。;Shen,H.,基于慢状态反馈的马尔可夫跳变参数非线性奇异摄动系统的耗散容错控制,应用。数学。计算。,328, 247-262, 2018 ·兹比尔1427.93197 [21] 李,F。;徐,S。;Zhang,B.,基于隐马尔可夫模型的离散马尔可夫跳变奇摄动系统的弹性异步(H_)控制,IEEE Trans。系统。人类网络。系统。,50, 8, 2860-2869, 2020 [22] 王,J。;杨,C。;沈,H。;曹,J。;Rutkowski,L.,慢采样奇异摄动系统在马尔可夫跳变参数下的滑模控制,IEEE Trans。系统。人类网络。系统。,51, 12, 7579-7586, 2021 [23] 刘,X。;夏,J。;王,J。;Shen,H.,非线性奇异摄动PDT切换系统的区间2型模糊无源滤波及其应用,J.Syst。科学。复杂。,34, 6, 2195-2218, 2021 ·Zbl 1485.93591号 [24] 周,X。;Tang,Y。;Cheng,J。;曹,J。;薛,C。;Yan,D.,离散时间Markov跳跃奇异摄动系统抗欺骗攻击的非平稳量化控制,J.Franklin Inst.,358,6,2915-2932021·Zbl 1464.93045号 [25] 沈,H。;邢,M。;Yan,H。;Cao,J.,具有改进加权TOD协议的奇摄动半马尔可夫跳跃系统的基于观测器的控制,Sci。中国信息科学。,65, 9, 1-2, 2022 [26] 胡,X。;Peng,C.,奇摄动跳变时滞系统的(H_\infty)控制及其在隧道二极管电路模型中的应用,J.Franklin Inst.,360,8,5319-53322023·Zbl 1516.93045号 [27] 沈,H。;Wang,Y。;王,J。;Park,J.H.,基于模糊模型的非线性马尔可夫跳跃奇异摄动系统最优控制方法:一种新的积分强化学习方案,IEEE Trans。模糊系统。,31, 10, 3734-3740, 2023 [28] Sutton,R.S。;Barto,A.G.,《强化学习:导论》,2018,麻省理工学院出版社:麻省理工学院出版社,美国马萨诸塞州剑桥·Zbl 1407.68009号 [29] Kleinman,D.,《关于Riccati方程计算的迭代技术》,IEEE Trans。自动化。控制,13,1114-1151968 [30] 弗拉比,D。;帕斯特拉瓦努,O。;AbuKhalaf,M。;Lewis,F.L.,基于策略迭代的连续线性系统自适应最优控制,Automatica,45,2477-4842009·Zbl 1158.93354号 [31] He,S。;宋,J。;丁,Z。;Liu,F.,使用新型策略迭代算法对连续时间Markov跳跃线性系统进行在线自适应最优控制,IET控制理论应用。,9, 10, 1536-1543, 2015 [32] 王,J。;彭,C。;Park,J.H。;沈,H。;Shi,K.,基于强化学习的连续马尔可夫跳奇摄动系统近优化,IEEE Trans。电路系统。II实验简报,70,62026-20302023 [33] 姜瑜。;江志平,动力学完全未知连续线性系统的计算自适应最优控制,Automatica,48,10,2699-27042012·兹比尔1271.93088 [34] He,S。;张,M。;方,H。;刘,F。;栾,X。;丁,Z.,一类动态信息完全未知的马尔可夫跳跃系统的强化学习和自适应优化,神经计算。申请。,32, 14311-14320, 2020 [35] 赵,J。;杨,C。;高,W。;Park,J.H.,基于ADP的不确定动态线性奇异摄动系统的最优控制:两阶段值迭代法,IEEE Trans。电路系统。二、2023年实验简报 [36] 苏,H。;张,H。;张,K。;Gao,W.,通过值迭代对一类部分未知连续非线性系统进行在线强化学习,Optim。控制应用程序。方法,39,2,1011-1028,2018·Zbl 1391.93133号 [37] 卞,T。;姜振平,连续非线性系统的强化学习和自适应最优控制:数值迭代方法,IEEE Trans。神经网络。学习。系统。,33, 7, 2781-2790, 2022 [38] 姜瑜。;高,W。;Na,J。;张,D。;Hämäläinen,T.T。;斯托亚诺维奇,V。;Lewis,F.L.,有保证收敛速度的值迭代和自适应最优输出调节,控制工程实践。,121,第105042条,第2022页 [39] 姜瑜。;高,W。;吴杰。;Chai,T。;Lewis,F.L.,线性连续时间多智能体系统的强化学习与合作输出调节,Automatica,148,Article 110768 pp.,2023·Zbl 1507.93063号 [40] 刘易斯,F.L。;Vrabie博士。;Vamvoudakis,K.G.,《强化学习和反馈控制:使用自然决策方法设计最优自适应控制器》,IEEE控制系统。Mag.,32,6,76-1052012年·Zbl 1395.93584号 [41] Borno,I.,耦合代数Lyapunov方程解的并行计算,Automatica,31,9,1345-13471995·Zbl 0825.93992号 [42] 卞,T。;姜振平,数据驱动自适应最优控制设计的值迭代和自适应动态规划,自动化,71348-360,2016·Zbl 1343.93095号 [43] 宋,J。;牛,Y。;香港拉姆。;Zou,Y.,《奇摄动半马尔可夫跳跃系统的异步滑模控制:在运算放大器电路中的应用》,Automatica,118,第109026页,2020年·Zbl 1447.93047号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。