×

离散时间线性系统的无模型有限时域最优跟踪控制。 (英语) Zbl 1510.49032号

摘要:传统上,有限时域线性二次跟踪(FHLQT)问题依赖于求解时变Riccati方程和时变非因果差分方程,即系统动力学。本文在考虑未知系统动力学的情况下,提出了一种基于Q函数的无模型方法来求解FHLQT问题。首先,建立了由受控系统和期望轨迹系统组成的增广系统,并将FHLQT问题转化为具有增广系统的有限域线性二次调节器(FHLQR)问题。然后,定义了一个明确依赖于控制输入的时变Q函数。利用定义的时变Q函数,发展了一种无模型有限时域控制方法,以逼近变换FHLQR问题的时变Riccati方程的解。最后,进行了仿真研究,验证了所提出方法的有效性。

MSC公司:

49甲10 线性二次型最优控制问题
49公里21 非微分方程关系问题的最优性条件
93C55 离散时间控制/观测系统
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 刘易斯,F.L。;弗拉比,D。;Syrmos,V.L.,《最优控制》(2012),John Wiley&Sons·Zbl 1284.49001号
[2] 齐,Q。;Bu,X.,高超声速飞行器神经控制的自适应动态编程设计,J.Frankl。仪器(2021)·Zbl 1472.93091号
[3] Lian,C。;Xu,X。;陈,H。;He,H.,通过滚动时域双重启发式编程实现移动机器人的近最优跟踪控制,IEEE Trans。赛博。,46, 11, 2484-2496 (2015)
[4] Yoo,S.J。;Park,B.S.,用于跟踪具有不确定非线性动力学的非完整移动机器人性能保证的量化反馈控制策略,应用。数学。计算。,407, 126349 (2021) ·Zbl 1510.93221号
[5] Mannava,A。;Balakrishnan,S.N。;唐,L。;Landers,R.G.,运动系统的最优跟踪控制,IEEE Trans。控制系统。技术。,1548-1558年6月20日(2011年)
[6] 杨,Y。;徐,C。;范,X。;岳,D。;张,T。;Hou,X.,一类MIMO非仿射非线性系统基于事件触发器的自适应输出反馈近似最优跟踪控制,J.Frankl。研究所,357,3,1734-1763(2020)·Zbl 1430.93136号
[7] J.J.穆雷。;考克斯·C·J。;伦达里斯,G.G。;Saeks,R.,自适应动态编程,IEEE Trans。系统。,天啊,赛博。C、 申请。修订版,32、2、140-153(2002)
[8] Wang,F.-Y。;张,H。;Liu,D.,自适应动态编程:导论,IEEE Comput。智力。Mag.,4,2,39-47(2009)
[9] Powell,W.B.,《近似动态规划:解决维度的诅咒》(2007),John Wiley&Sons·Zbl 1156.90021号
[10] Bertsekas博士。;Tsitsiklis,J.N.,《神经动力学编程》(1996),雅典娜科学出版社·Zbl 0924.68163号
[11] Sutton,R.S。;Barto,A.G.,《强化学习:导论》(2018),麻省理工学院出版社·Zbl 1407.68009号
[12] 奥斯特罗姆,K.J。;Wittenmark,B.,自适应控制(2013),Courier Corporation·Zbl 0217.57903号
[13] 张,H。;魏强。;Luo,Y.,基于贪婪HDP迭代算法的一类离散非线性系统的新型无限时间最优跟踪控制方案,IEEE Trans。系统。,天啊,赛博。B、 赛博。,38, 4, 937-942 (2008)
[14] 张,H。;崔,L。;张,X。;Luo,Y.,使用自适应动态规划方法的未知一般非线性系统的数据驱动鲁棒近似最优跟踪控制,IEEE Trans。神经网络。,22, 12, 2226-2236 (2011)
[15] 崔,L。;谢,X。;王,X。;罗,Y。;Liu,J.,连续非线性系统约束最优跟踪控制的事件触发单网络ADP方法,应用。数学。计算。,352, 220-234 (2019) ·Zbl 1428.49038号
[16] 魏强。;Liu,D.,具有近似误差的离散非线性系统基于神经网络的自适应最优跟踪控制方案,神经计算,149106-115(2015)
[17] 魏强。;刘,D。;Xu,Y.,一类离散非线性系统的广义值迭代自适应动态规划神经最优跟踪控制,软计算。,20, 2, 697-706 (2016) ·兹比尔1369.93318
[18] 林,Q。;魏强。;Liu,D.,一类离散非线性系统的新型最优跟踪控制方案,使用广义策略迭代自适应动态规划算法,Int.J.Syst。科学。,48, 3, 525-534 (2017) ·Zbl 1358.93076号
[19] 黄,Y。;Liu,D.,使用迭代ADP算法的一类未知离散非线性系统的基于神经网络的最优跟踪控制方案,神经计算,125,46-56(2014)
[20] Wang,N。;高,Y。;赵,H。;Ahn,C.K.,基于强化学习的未知无人水面飞行器最优跟踪控制,IEEE Trans。神经网络。学习。系统。,32,3034-3045(2021)
[21] 魏强。;Liu,D.,未知非线性系统最优跟踪控制的自适应动态规划及其在煤气化中的应用,IEEE Trans。自动。科学。工程,11,4,1020-1036(2014)
[22] El-Sousy,F。;阿明,M。;Al Durra,A.,永磁同步电机驱动系统基于行动者-评论家-标识符的自适应动态规划的自适应最优跟踪控制,IEEE Trans。Ind.申请。,57, 6, 6577-6591 (2021)
[23] Na,J.等人。;Lv,Y。;张凯。;赵,J.,非线性系统的自适应辨识器-临界最优跟踪控制及其实验验证,IEEE Trans。系统。,人,赛博。,系统。,52, 1, 459-472 (2022)
[24] Mu,C。;赵,Q。;Sun,C。;Gao,Z.,基于ADDHP的Q学习算法,用于具有未知动力学的线性离散时间系统的最优跟踪控制,应用。柔软。计算。,82, 105593 (2019)
[25] 沃特金斯,C.J。;大研,P.,Q-learning,马赫。学习。,8, 3-4, 279-292 (1992) ·Zbl 0773.68062号
[26] Mu,C。;赵,Q。;高,Z。;Sun,C.,使用强化学习的离散时间多智能体系统最优一致性控制的Q学习解决方案,J.Frankl。研究所,356、13、6946-6967(2019)·Zbl 1418.93250号
[27] 刘,X。;黄,P。;Ge,S.S.,通过多玩家Q学习实现人-多机器人协同操作的优化控制,J.Frankl。研究所,358,11,5639-5658(2021)·Zbl 1467.93224号
[28] Kiumarsi-Khomartash,B。;刘易斯,F.L。;Naghibi-Sistani,M.-B。;Karinpur,A.,使用强化学习的线性离散时间系统的最优跟踪控制,第52届IEEE决策与控制会议,3845-3850(2013),IEEE
[29] Kiumarsi,B。;刘易斯,F.L。;莫达雷斯,H。;卡林普尔,A。;Naghibi-Sistani,M.-B.,具有未知动力学的线性离散时间系统最优跟踪控制的强化Q学习,Automatica,50,4,1167-1175(2014)·Zbl 1417.93134号
[30] Vamvoudakis,K.G.,采用Q学习算法的最优轨迹输出跟踪控制,2016年美国控制会议(ACC),5752-5757(2016),IEEE
[31] 罗,B。;刘,D。;黄,T。;Wang,D.,通过关键Q学习实现无模型最优跟踪控制,IEEE Trans。神经网络。学习。系统。,27, 10, 2134-2144 (2016)
[32] 林,M。;赵,B。;Liu,D.,带经验回放的无模型最优跟踪控制的策略梯度自适应批评性设计,IEEE Trans。系统。,人,赛博。,系统。,52, 6, 3692-3703 (2022)
[33] Liu,Y.-Y。;Wang,Z.-S。;Shi,Z.,通过强化学习实现线性离散时间系统的(H_\infty)跟踪控制,国际鲁棒非线性控制,30,1,282-301(2020)·Zbl 1451.93084号
[34] Rizvi,S.A.A。;Pertzborn,A.J。;Lin,Z.,基于强化学习的不可测量扰动下的最优跟踪控制及其在暖通空调系统中的应用,IEEE Trans。神经网络。学习。系统。(2021)
[35] 彭,Y。;陈,Q。;Sun,W.,未知离散时间线性系统(H_)跟踪控制的强化Q学习算法,IEEE Trans。系统。,人,赛博。,系统。,50, 11, 4109-4122 (2020)
[36] 杨,Y。;Wan,Y。;朱,J。;Lewis,F.L.,线性离散时间系统的(H_\infty)跟踪控制:无模型Q学习设计,IEEE控制系统。莱特。,5, 1, 175-180 (2021)
[37] 李,J。;肖,Z。;李,P。;Cao,J.,通过非策略Q学习方法实现多人系统的鲁棒最优跟踪控制,Int.J.鲁棒非线性控制,31,187-106(2021)·Zbl 1525.93053号
[38] 姜瑜。;范,J。;Chai,T。;刘易斯,F.L。;Li,J.,具有未知动力学和丢包的线性离散时间网络控制系统的跟踪控制,IEEE Trans。神经网络。学习。系统。,29, 10, 4607-4620 (2018)
[39] Kiumarsi,B。;刘易斯,F.L。;Naghibi-Sistani,M.-B。;Karinpour,A.,使用输入-输出测量数据的未知离散时间线性系统的最优跟踪控制,IEEE Trans。赛博。,45, 12, 2770-2779 (2015)
[40] 刘,Y。;张,H。;罗,Y。;Han,J.,一类多时滞线性离散时间系统基于ADP的最优跟踪控制,J.Frankl。研究所,353,9,2117-2136(2016)·Zbl 1347.93127号
[41] 刘,Y。;张,H。;Yu,R。;Qu,Q.,使用自适应动态规划的离散时滞系统的数据驱动最优跟踪控制,J.Frankl。研究所,355,13,5649-5666(2018)·Zbl 1451.93196号
[42] 姜浩。;张,H。;罗,Y。;Wang,J.,使用基于数据的强化学习方法实现完全未知非线性离散时间Markov跳跃系统的最优跟踪控制,神经计算,194176-182(2016)
[43] 乔伊门,T。;Banks,S.P.,《非线性最优跟踪控制及其在自动驾驶仪设计中的应用》,Automatica,40,11,1845-1863(2004)·Zbl 1059.93505号
[44] 王,D。;刘,D。;Wei,Q.,使用自适应动态规划方法的一类离散时间非线性系统的有限时域神经最优跟踪控制,神经计算,78,1,14-22(2012)
[45] Wan,S。;Chang,X。;李强。;Yan,J.,Finite-horizon,基于近似动态规划的飞机最优跟踪制导,数学。问题。工程(2019)·Zbl 1435.93061号
[46] 丁·L。;李,S。;高,H。;刘义杰。;黄,L。;邓,Z.,基于自适应神经网络的带死区非线性系统有限时间在线最优跟踪控制,IEEE Trans。赛博。,51,1382-392(2021)
[47] 海达里,A。;Balakrishnan,S.N.,输入仿射非线性系统的固定时间最优跟踪控制,神经计算,129,528-539(2014)
[48] 王,D。;刘,C。;丁·D。;高,S。;Chu,M.,使用增广误差系统方法的有限时间最优跟踪控制,应用。数学。计算。,424127013(2022)·Zbl 1510.93278号
[49] 李,C。;刘,D。;Li,H.,使用策略迭代的部分未知线性连续时间系统的有限时域最优跟踪控制,IET控制。理论应用。,9, 12, 1791-1801 (2015)
[50] Tan,F。;罗,B。;Guan,X.,Finite-horizon(\varepsilon)-使用迭代近似动态规划的离散时间线性系统的最优跟踪控制,亚洲J.control,17,1,176-189(2015)·Zbl 1332.93246号
[51] 宋,R。;谢毅。;Zhang,Z.,完全未知离散非线性系统的数据驱动有限时域最优跟踪控制方案,神经计算,356206-216(2019)
[52] 吕伟。;Wang,F。;Li,Y.,使用神经网络对具有未建模动态的非线性系统进行自适应有限时间跟踪控制,Adv.Differ。Equ.、。,2018, 1, 1-17 (2018) ·Zbl 1446.93040号
[53] Kim,J.W。;Park,B.J。;Yoo,H。;Lee,J.H。;Lee,J.M.,基于深度强化学习的非线性系统有限时域最优跟踪控制,IFAC-PapersOnLine,51,25,257-262(2018)
[54] Calafiore,G.C。;Possieri,C.,线性二次离散时间有限时域控制问题的输出反馈Q学习,IEEE Trans。神经网络。学习。系统。,32, 7, 3274-3281 (2021)
[55] 张,Z。;徐,J。;Fu,M.,有限时域非零和差分对策反馈nash策略的Q学习,IEEE Trans。赛博。(2021)
[56] 波西耶里,C。;Incremona,G.P。;Calafiore,G.C。;Ferrara,A.,解决非线性离散时间跟踪问题的迭代数据驱动线性二次方法,IEEE Trans。自动。控制,66,11,5514-5521(2021)·Zbl 07480565号
[57] 张,H。;崔,X。;罗,Y。;Jiang,H.,具有饱和执行器的未知非线性系统的有限时域(H_infty\)跟踪控制,IEEE Trans。神经网络。学习。系统。,29, 4, 1200-1212 (2018)
[58] Liang,J.,《小型航天器的最优磁姿态控制》(2005),犹他州立大学
[59] B.D.O.安德森。;Moore,J.B.,《最优控制:线性二次型方法》(2007),Courier Corporation
[60] Simon,D.,最优状态估计:卡尔曼、H无穷大和非线性方法(2006),John Wiley&Sons
[61] 鲁希,M。;张,C。;Chen,Y.,不同分数阶神经网络的自适应无模型同步及其在密码学中的应用,非线性动力学。,100, 4, 3979-4001 (2020) ·Zbl 1516.93137号
[62] 陈,Y。;唐,C。;Roohi,M.,《设计无模型自适应滑模控制以同步具有输入饱和的分数阶混沌系统:在安全通信中的应用》,J.Frankl。研究所,358,16,8109-8137(2021)·Zbl 1472.93020号
[63] 鲁希,M。;Khooban,M.-H。;伊斯法哈尼,Z。;Aghababa,M.P。;Dragicevic,T.,用于分数阶复杂系统混沌抑制的切换滑模控制技术,Trans。仪器测量。控制,41,10,2932-2946(2019)
[64] 塔赫里,M。;张,C。;Berardehi,Z.R。;陈,Y。;Roohi,M.,用于混沌分数阶系统同步的无模式滑模控制及其在图像加密中的应用,多媒体工具应用。(2022)
[65] 伊斯法哈尼,Z。;鲁希,M。;Gheisarnejad,M.,独立现代电网频率调节的最优非积分滑模控制,应用。科学。,9, 16, 3411 (2019)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。