×

求解非零和对策的马尔可夫跳跃系统的无模型最优跟踪策略。 (英语) Zbl 1521.93213号

摘要:本文通过求解非零和对策(NZSG),提出了马尔可夫跳跃系统的无模型最优跟踪策略。首先,建立耦合作用和模式相关值函数(CAMDVF),用于求解双层NZSG并获得Nash均衡解。其次,我们提出了一种值迭代(VI)算法,通过在每个迭代窗口内收集不同操作模式的数据,并行更新每个模式下的策略。此外,通过在相邻两次迭代之间引入辅助函数,证明了CAMDVF的迭代递增收敛性。值得指出的是,引入了影响函数来去除异常数据,有效地提高了VI算法的学习能力。最后,通过数值算例和广义经济模型验证了跟踪策略的有效性、自适应性和应用潜力。

MSC公司:

93E20型 最优随机控制
93E35型 随机学习与自适应控制
91A05型 2人游戏
91A80型 博弈论的应用
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 科斯塔,O.L.V。;弗拉戈索医学博士。;Marques,R.P.,离散时间马尔可夫跳跃线性系统(2006),Springer科学与商业媒体·Zbl 1081.93001号
[2] 科斯塔,O.L.V。;弗拉戈索医学博士。;Todorov,M.G.,连续时间马尔可夫跳跃线性系统(2012),施普林格科学与商业媒体
[3] Boukas,E.-K.,《随机交换系统:分析与设计》(2007),Springer Science&Business Media
[4] Hou,Z。;罗,J。;施,P。;Nguang,S.K.,具有半马尔可夫跳跃参数的伊藤微分方程的随机稳定性,IEEE Trans。自动。控制,51,1383-1387(2006)·Zbl 1366.60082号
[5] 陶,J。;肖,Z。;陈,J。;林,M。;鲁·R。;施,P。;Wang,X.,具有失配模式和严格耗散性的马尔可夫跳跃系统的事件触发控制,IEEE Trans。赛博。(2021)
[6] 李,F。;Wu,L。;Shi,P.,具有模式相关时滞的半马尔可夫跳跃系统的随机稳定性,国际鲁棒非线性控制,24,3317-3330(2014)·Zbl 1302.93229号
[7] Wen,J。;施,P。;李,R。;Luan,X.,具有混合逗留时间分布的半马尔可夫型传感器网络的分布式滤波——一种非单调方法,IEEE Trans。赛博。(2022年)
[8] 龚,C。;朱,G。;施,P。;Agarwal,R.K.,具有隐藏马尔科夫交换和双通道随机攻击的传感器网络中的异步分布式有限时间(H_)滤波,IEEE Trans。赛博。,52, 1502-1514 (2020)
[9] 徐,Y。;陈欣,基于强化学习的JLQ模型直接自适应最优控制,控制决策。,23, 1359-1362 (2008) ·Zbl 1199.93188号
[10] He,S。;宋,J。;丁,Z。;Liu,F.,使用新型策略迭代算法对连续时间Markov跳跃线性系统进行在线自适应最优控制,IET控制理论应用。,9, 1536-1543 (2015)
[11] 宋,J。;He,S。;刘,F。;牛,Y。;丁,Z.,具有马尔可夫跳的连续时间随机系统最优控制的数据驱动策略迭代算法,IET控制理论应用。,1431-1439年10月(2016年)
[12] 宋,J。;He,S。;丁,Z。;Liu,F.,基于在线实现的求解连续马尔可夫跳跃线性系统(H_infty)控制问题的新迭代算法,国际鲁棒非线性控制,26,3737-3754(2016)·Zbl 1351.93055号
[13] He,S。;张,M。;方,H。;刘,F。;栾,X。;丁,Z.,一类动态信息完全未知的马尔可夫跳跃系统的强化学习和自适应优化,神经计算。应用。,32, 14311-14320 (2020)
[14] 方,H。;朱,G。;斯托亚诺维奇,V。;聂,R。;He,S。;栾,X。;刘凤,部分未知动态非线性马尔可夫跳跃系统的自适应优化算法,国际鲁棒非线性控制,312126-2140(2021)·兹比尔1526.93276
[15] 贝里戈,R.L。;托多罗夫,M.G。;Barreto,A.d.M.S.,离散时间Markov跳跃线性系统的在线TD(A),(2018 IEEE决策与控制会议(CDC)(2018)),2229-2234
[16] 陈,Y。;Wen,J。;栾,X。;Liu,F.,通过无TP-free时间差分(λ)学习实现半马尔可夫跳变线性系统的最优控制,国际鲁棒非线性控制,316905-6916(2021)
[17] 姜浩。;张,H。;罗,Y。;Wang,J.,使用基于数据的强化学习方法实现完全未知非线性离散时间Markov跳跃系统的最优跟踪控制,神经计算,194176-182(2016)
[18] 张凯。;张,H.-g。;蔡,Y。;Su,R.,通过积分RL方法实现耦合马尔可夫跳跃系统的模式相关控制的并行最优跟踪控制方案,IEEE Trans。自动。科学。工程,17,1332-1342(2019)
[19] 张,D。;Ni,Y.-H.,多输入通道离散马尔可夫跳跃线性系统的最优控制,(2022年第13届亚洲控制会议(ASCC)(2022)),1615-1620
[20] Vamvoudakis,K.G。;Lewis,F.L.,《多玩家非零和游戏:耦合Hamilton-Jacobi方程的在线自适应学习解》,Automatica,471556-1569(2011)·Zbl 1237.91015号
[21] 奥德库勒,A。;高,W。;达瓦里,M。;姜振平,多层线性不确定系统的强化学习和非零和博弈输出调节,Automatica,112,第108672页,(2020)·Zbl 1430.93119号
[22] 宋,R。;魏强。;张,H。;刘易斯,F.L.,动力学完全未知的离散时间非零和博弈,IEEE Trans。赛博。,51, 2929-2943 (2021)
[23] 罗,B。;Yang,Y。;Liu,D.,线性离散时间系统基于数据的两层零和博弈的策略迭代Q-学习,IEEE Trans。赛博。,51, 3630-3640 (2021)
[24] Fu,B。;孙,B。;郭,H。;Yang,T。;Fu,W.,解具有部分未知动力学的非线性连续时间系统零和博弈的在线迭代自适应动态规划方法,(2022年自主无人系统国际会议论文集(ICAUS 2022)(2023),Springer Nature:Springer Nature Singapore),2833-2842
[25] 周,P。;Wen,J。;Swain,A.K。;Luan,X.,马尔可夫跳跃系统的无模型自适应最优控制策略:值迭代算法,Proc。仪器机械。工程,第一部分,J.系统。控制工程,2361819-1829(2022)
[26] Vamvoudakis,K.G。;Safaei,F.R.P.,不确定非线性Markov跳跃系统的随机零和Nash对策,(2017 IEEE第56届决策与控制年会(CDC)(2017)),5582-5589
[27] 辛,X。;Tu,Y。;斯托亚诺维奇,V。;Wang,H。;Shi,K。;He,S。;Pan,T.,连续时间马尔可夫跳跃线性系统的在线强化学习多层非零和对策,应用。数学。计算。,412,第126537条pp.(2022)·Zbl 1510.91006号
[28] 张,C。;Li,F.,转移概率部分未知的随机马尔可夫跳跃系统的非零和微分对策,J.Franklin Inst.,358,7528-7558(2021)·Zbl 1472.93203号
[29] T.Bašar,G.J.Olsder,动态非合作博弈论,1998年·Zbl 0828.90142号
[30] Kiumarsi,B。;刘易斯,F.L。;莫达雷斯,H。;卡林普尔,A。;Naghibi-Sistani,M.-B.,具有未知动力学的线性离散时间系统最优跟踪控制的强化Q学习,Automatica,50,1167-1175(2014)·Zbl 1417.93134号
[31] 古德温,G.C。;Sin,K.S.,自适应滤波预测和控制(2014),Courier Corporation
[32] Koh,P.W。;Liang,P.,通过影响函数理解黑盒预测,(机器学习国际会议,PMLR(2017)),1885-1894
[33] Nakura,G.,线性离散时间Markovian跳跃系统的随机最优跟踪及其预览,(ISCIE随机系统理论及其应用国际研讨会论文集2009(2009)),53-60
[34] Tian,G.,离散时间马尔可夫跳跃系统的跟踪控制,国际期刊系统。科学。,51, 3070-3080 (2020) ·Zbl 1483.93694号
[35] Nakura,G.,关于线性离散时间Markov跳跃系统的非因果(H_)跟踪控制,(2010 IEEE控制应用国际会议(2010)),1981-1986
[36] 张,L。;Yang,T。;施,P。;Zhu,Y.,《具有复杂转移概率的马尔可夫跳跃系统的分析与设计》,第54卷(2016),Springer·Zbl 1343.93003号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。