×

非策略强化学习用于动态完全未知的离散马尔可夫跳跃线性系统的跟踪控制。 (英语) Zbl 1507.93140号

摘要:针对离散时间马尔可夫跳跃线性系统(MJLSs)的最优跟踪控制(OTC)问题,提出了一种无模型的非策略强化学习(RL)算法。首先将跟踪参考信号扩充为离散时间MJLS,从而将原跟踪控制问题转化为扩充系统的最优控制问题。然后导出了相应的增广耦合博弈代数Riccati方程(ACGARE)。在此基础上,利用策略迭代(PI)技术,开发了一种在线RL算法来解决OTC问题。然后,提出了一种新的无模型方法,消除了对系统动力学和转移概率的要求。最后,通过仿真实例验证了算法的收敛性和有效性。

MSC公司:

93C55美元 离散时间控制/观测系统
93E03型 控制理论中的随机系统(一般)
93二氧化碳 控制理论中的线性系统
49N90型 最优控制和微分对策的应用
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] B.Jiang,H.R.Karimi,Y.Kao,等,基于Takagi-sugeno模型的半马尔可夫切换网络控制系统的事件触发模糊滑模控制,2019年,IEEE Trans。模糊系统。,28, 4, 673-683
[2] 赵,C。;姜杰。;Guan,Y.,基于EMR的医学知识表示和推理(通过马尔可夫随机场和分布式表示学习),Artif。智力。医学,87,49-59(2018)
[3] 齐,W。;宗,G。;Zheng,W.X.,具有半马尔可夫过程的随机开关系统的自适应事件触发SMC及其在升压变换器电路模型中的应用,IEEE Trans。电路系统。一: 雷古尔。爸爸。,68, 2, 786-796 (2020)
[4] 科斯塔,O.L.V。;弗拉戈索医学博士。;马奎斯,R.P。;系统,D.-t.M.j.l.,Springer科学与商业媒体(2006)
[5] 张,M。;沈,C。;Wu,Z.G.,马尔可夫跳跃系统指数镇定的基于异步观测器的控制,IEEE Trans。电路系统。二: 快讯,67,10,2039-243(2019)
[6] 李,F。;Song,S。;赵,J.,基于HMM观测和部分已知检测概率的马尔可夫跳跃神经网络同步控制,应用。数学。计算。,360, 1-13 (2019) ·兹比尔1428.93010
[7] Ran,G。;刘杰。;Li,C.,转移概率部分未知的马尔可夫跳跃系统基于模糊模型的异步故障检测:自适应事件触发方法,IEEE Trans。模糊系统。(2022)
[8] Zhang,Y。;林,C.C。;Liu,F.,转移概率部分不确定的马尔可夫跳跃系统的鲁棒混合(h2/h)模型预测控制,J.Franklin Inst.,355,8,3423-3437(2018)·Zbl 1390.93855号
[9] 宗,G。;Yang,D。;Hou,L.,具有部分已知转移概率的马尔可夫跳跃系统的鲁棒有限时间控制,J.Franklin Inst.,350,6,1562-1578(2013)·Zbl 1293.93773号
[10] 马,Y。;贾,X。;Liu,D.,具有执行器饱和和部分未知转移率的奇异离散马尔可夫跳跃系统的有限时间耗散控制,应用。数学。型号。,53, 49-70 (2018) ·Zbl 1480.93186号
[11] 李,R。;Cao,J.,具有部分未知转移概率的马尔可夫跳跃记忆神经网络的有限时间稳定性分析,IEEE Trans。神经网络。学习。系统。,28, 12, 2924-2935 (2016)
[12] 夏,J。;Park,J.H。;Zhang,B.,具有区间时变时滞的不确定马尔可夫跳跃系统的鲁棒跟踪控制,复杂性,21,2,355-366(2015)
[13] 庄,G。;夏,J。;赵,J.,具有网络诱导时滞和数据包丢失的不确定奇异马尔可夫跳变时滞系统的非脆弱输出跟踪控制,复杂性,21,6,396-411(2016)
[14] 张,H。;张凯。;Cai,Y.,通过积分强化学习方法对部分未知系统执行器故障的自适应模糊容错跟踪控制,IEEE Trans。模糊系统。,27, 10, 1986-1998 (2019)
[15] Shojaei,K.,欠驱动自主水下航行器对运动目标的三维神经网络跟踪控制,神经计算。申请。,31, 2, 509-521 (2019)
[16] 镍,锌。;He,H。;Wen,J.,基于双临界网络设计的跟踪控制自适应学习,IEEE Trans。神经网络。学习。系统。,24, 6, 913-928 (2013)
[17] 秦,C。;张,H。;Luo,Y.,一类非线性离散时间切换系统的自适应动态规划最优跟踪控制,神经计算。申请。,24, 3, 531-538 (2014)
[18] 魏强。;Liu,D.,未知非线性系统最优跟踪控制的自适应动态规划及其在煤气化中的应用,IEEE Trans。自动。科学。工程,11,4,1020-1036(2013)
[19] 黄,Y。;Liu,D.,使用迭代ADP算法的一类未知离散非线性系统的基于神经网络的最优跟踪控制方案,神经计算,125,46-56(2014)
[20] 张,M。;吴,Z。;Yan,J.,通过强化学习引导的智能电网树搜索攻击弹性最优PMU布局,IEEE Trans。Inf.法医安全。,17, 1919-1929 (2022)
[21] 莫达雷斯,H。;Lewis,F.L.,使用积分强化学习的非线性部分未知约束输入系统的最优跟踪控制,Automatica,50,7,1780-1792(2014)·Zbl 1296.93073号
[22] 张,H。;魏强。;Luo,Y.,通过贪婪HDP迭代算法,一类离散时间非线性系统的新的无限时间最优跟踪控制方案,IEEE Trans。系统。人类网络。B部分(Cybern.),38、4、937-942(2008)
[23] Park,Y.M。Choi,M.S。;Lee,K.Y.,非线性动态系统的最优跟踪神经控制器,IEEE Trans。神经网络。,7, 5, 1099-1110 (1996)
[24] 秦,C。;张,H。;Luo,Y.,利用自适应动态规划实现动态未知连续线性系统的在线最优跟踪控制,国际控制杂志,87,5,1000-1009(2014)·Zbl 1292.49029号
[25] 刘,Y。;张,H。;Yu,R.,使用自适应动态规划的离散时滞系统的数据驱动最优跟踪控制,J.Franklin Inst.,355,13,5649-5666(2018)·Zbl 1451.93196号
[26] 刘,D。;Wei,Q.,离散非线性系统的策略迭代自适应动态规划算法,IEEE Trans。神经网络。学习。系统。,25, 3, 621-634 (2013)
[27] 弗拉比,D。;帕斯特拉瓦努,O。;Abu-Khalaf,M.,基于策略迭代的连续线性系统自适应最优控制,Automatica,45,2,477-484(2009)·Zbl 1158.93354号
[28] He,S。;方,H。;Zhang,M.,一类非线性系统的自适应最优控制:在线策略迭代方法,IEEE Trans。神经网络。学习。系统。,31, 2, 549-558 (2019)
[29] Kiumarsi,B。;Lewis,F.L.,部分未知非线性离散时间系统基于Actor-critic的最优跟踪,IEEE Trans。神经网络。学习。系统。,26, 1, 140-151 (2014)
[30] 张,H。;崔,L。;Zhang,X.,使用自适应动态规划方法的未知一般非线性系统的数据驱动鲁棒近似最优跟踪控制,IEEE Trans。神经网络。,22, 12, 2226-2236 (2011)
[31] 张凯。;张,H。Cai,Y.,通过积分RL方法实现耦合马尔可夫跳跃系统的模式相关控制的并行最优跟踪控制方案,IEEE Trans。自动。科学。工程师,171332-1342(2019)
[32] 姜浩。;张,H。;Luo,Y.,使用基于数据的强化学习方法实现完全未知非线性离散时间马尔可夫跳跃系统的最优跟踪控制,神经计算,194176-182(2016)
[33] Kiumarsi,B。;刘易斯,F.L。;Jiang,Z.P.,《线性离散时间系统的控制:非策略强化学习》,Automatica,78,144-152(2017)·Zbl 1357.93034号
[34] 姜瑜。;江志平,动力学完全未知连续线性系统的计算自适应最优控制,Automatica,48,10,2699-2704(2012)·Zbl 1271.93088号
[35] 温,Y。;张,H。;Su,H.,通过非策略强化学习实现线性离散时间系统非零和对策的最优跟踪控制,Optim。控制应用程序。方法,41,4,1233-1250(2020)·Zbl 1469.91008号
[36] 刘易斯,F.L。;弗拉比,D。;Vamvoudakis,K.G.,《强化学习和反馈控制:使用自然决策方法设计最优自适应控制器》,IEEE控制系统。Mag.,32,6,76-105(2012)·Zbl 1395.93584号
[37] Kantorovich,L.V。;Akilov,G.P.,《排序空间中的函数分析》(1964),Mamillan:Mamillan纽约
[38] Cheng,J。;谢林。;Park,J.H.,半马尔可夫跳跃系统基于协议的输出反馈控制,IEEE Trans。自动垫。控制。,67, 8, 4346-4353 (2022) ·Zbl 07599433号
[39] Cheng,J。;Park,J.H。;Yan,H.,非齐次马尔可夫交换系统动态输出反馈控制的事件触发往返协议,Automatica,145(2022)·Zbl 1498.93450号
[40] Cheng,J。;Park,J.H。;Wu,Z.G.,奇异扰动下周期系统的基于隐马尔可夫模型的控制,系统。控制信函。,157, 105059 (2021) ·Zbl 1480.93404号
[41] 张,M。;沈,C。;Wu,Z.G.,马尔可夫跳跃系统指数镇定的基于异步观测器的控制,IEEE Trans。电路系统。二: 快讯,67,10,2039-243(2019)
[42] 张,M。;Shi,P。;马,L.,模糊马尔可夫跳跃系统的量化反馈控制,IEEE Trans。赛博。,49, 9, 3375-3384 (2018)
[43] 张,M。;Shi,P。;沈,C.,带执行器故障的切换非线性系统的静态输出反馈控制,IEEE Trans。模糊系统。,28, 8, 1600-1609 (2019)
[44] 邹伟(Zou,W.)。;Ahn,C.K。;Xiang,Z.非线性系统神经网络控制中紧集的存在性分析,Automatica,120109155(2020)·Zbl 1448.93126号
[45] 毛,J。;Karimi,H.R。;Xiang,Z.,一类非线性多智能体系统基于观测器的自适应一致性,IEEE Trans。系统。人类网络。,49, 9, 1893-1900 (2017)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。