×

未知线性连续时间系统基于同伦策略迭代的学习设计。 (英语) Zbl 1485.93168号

摘要:最近的研究结果表明,在设计具有未知系统动力学的连续时间系统的稳定控制策略时,策略迭代是一种强大的强化学习工具。策略迭代涉及基于模型的初始化阶段,即寻求初始稳定控制策略,但该策略依赖于包括漂移动力学和系统输入矩阵在内的全系统动力学。为了消除此类模型要求,本文使用基于同伦的初始化策略进行策略迭代,其中,连续时间系统的稳定控制策略是通过将稳定系统逐步移动到原始系统来获得的。我们提出了两种基于同伦策略迭代的稳定控制方案,即基于模型的设计和使用系统数据的无模型设计,并证明了这两种方案将不稳定极点置于稳定区域。通过一个示例验证了所提设计的有效性。

MSC公司:

93B47码 迭代学习控制
93C40型 自适应控制/观测系统
93二氧化碳 控制理论中的线性系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abbasi-Yadkori,Y.和Szepesvári,C.(2011)。线性二次系统自适应控制的回归界。第24届学习理论年会论文集、JMLR研讨会和会议记录(第1-26页)。
[2] Ariyur,K.B。;Krstić,M.,通过极值搜索控制进行实时优化(2003),威利在线图书馆·Zbl 1031.93002号
[3] 斯特罗姆,K.J。;Wittenmark,B.,自适应控制(2013),Courier Corporation
[4] Bertsekas,D.P.,《动态规划和最优控制》,第1卷(1995年),雅典娜科学贝尔蒙特:雅典娜科技贝尔蒙特马萨诸塞州·Zbl 0904.90170号
[5] 卞,T。;姜振平,数据驱动自适应最优控制设计的值迭代和自适应动态规划,自动化,71348-360(2016)·Zbl 1343.93095号
[6] 卞,T。;姜振平,连续非线性系统的强化学习和自适应最优控制:值迭代方法,IEEE神经网络和学习系统汇刊,1-10(2021)
[7] Bradtke,S.J。;Ydstie,B.E。;Barto,A.G.,使用策略迭代的自适应线性二次控制,(1994年美国控制会议论文集-ACC'94,第3卷(1994),IEEE),3475-3479
[8] Broussard,J。;Halyo,N.,使用离散最优约束动态补偿器的主动颤振控制,(1983年美国控制会议,第102卷(1983年),IEEE),6-1034
[9] 陈,C。;刘易斯,F.L。;谢凯。;谢S。;Liu,Y.,异构多智能体系统自适应最优输出同步的非策略学习,Automatica,119,文章109081 pp.(2020)·Zbl 1451.93012号
[10] 陈,C。;莫达雷斯,H。;谢凯。;刘易斯,F.L。;Wan,Y。;Xie,S.,基于强化学习的未知动态线性系统自适应最优指数跟踪控制,IEEE自动控制汇刊,64,11,4423-4438(2019)·Zbl 1482.93302号
[11] 陈,C。;谢,L。;江,Y。;谢凯。;Xie,S.,未知线性离散时间系统自适应最优输出跟踪的非策略强化学习(2021),arXiv预印本arXiv:2101.08706
[12] 陈,C。;谢林。;谢凯。;刘易斯,F.L。;Xie,S.,通过基于输出反馈的强化学习实现连续时间系统的自适应最优输出跟踪(2019),正在审查中
[13] Doya,K.,连续时间和空间中的强化学习,神经计算,12,1,219-245(2000)
[14] 冯·H。;Lavaei,J.,稳定静态分散控制器集的连通性性质,SIAM控制与优化杂志,58,572790-2820(2020)·Zbl 1452.49013号
[15] 冯·H。;Lavaei,J.,通过阻尼逃避局部最优分散控制策略,(2020年美国控制会议(2020),IEEE),50-57
[16] 弗里曼,R。;Kokotović,P.V.,鲁棒非线性控制设计:状态空间和lyapunov技术(2008),施普林格科学与商业媒体·Zbl 1130.93005号
[17] 古德温,G.C。;Sin,K.S.,自适应滤波预测和控制(2014),Courier Corporation
[18] 易卜拉希米,M。;爪哇马德,A。;Roy,B.V.,《高维线性二次系统的有效强化学习》,《神经信息处理系统的进展》,2636-2644(2012)
[19] Ioannou,P。;Fidan,B.,自适应控制教程(2006),SIAM·Zbl 1116.93001号
[20] Ioannou,P.A。;Sun,J.,鲁棒自适应控制(2012),Courier Corporation
[21] 江,Y。;Fan,J.L。;Gao,W.N。;Chai,T.Y。;Lewis,F.L.,离散时间非线性多智能体系统的合作自适应最优输出调节,Automatica,121,第109149页,(2020)·Zbl 1448.93159号
[22] 江,Y。;江志平,动力学完全未知连续线性系统的计算自适应最优控制,Automatica,48,10,2699-2704(2012)·Zbl 1271.93088号
[23] 江,Y。;Kiumarsi,B。;Fan,J.L。;Chai,T.Y。;Lewis,F.L.,使用强化学习实现动态未知的线性离散时间系统的最优输出调节,IEEE控制论汇刊,50,7,3147-3156(2020)
[24] Kleinman,D.,关于Riccati方程计算的迭代技术,IEEE自动控制汇刊,13,1,114-115(1968)
[25] Kleinman,D.,一种稳定线性常数系统的简单方法,IEEE自动控制汇刊,15,6692(1970)
[26] Krstić,M。;科科托维奇。P.V.公司。;Kanellakopoulos,I.,非线性和自适应控制设计(1995),John Wiley&Sons·Zbl 0763.93043号
[27] Krstić,M。;Tsiotras,P.,刚性航天器的逆最优稳定,IEEE自动控制汇刊,44,5,1042-1049(1999)·Zbl 1136.93424号
[28] Lamperski,A.,通过策略迭代计算稳定线性控制器,(第59届IEEE决策与控制会议(2020)),1902-1907
[29] 刘易斯,F.L。;Vrabie,D.,反馈控制的强化学习和自适应动态规划,IEEE电路与系统杂志,9,3(2009)
[30] 刘易斯,F.L。;弗拉比,D。;Syrmos,V.L.,最优控制(2012),John Wiley&Sons·Zbl 1284.49001号
[31] 刘易斯,F.L。;弗拉比,D。;Vamvoudakis,K.G.,《强化学习和反馈控制:使用自然决策方法设计最优自适应控制器》,IEEE control Systems Magazine,32,6,76-105(2012)·Zbl 1395.93584号
[32] 刘,D。;魏强。;王,D。;杨,X。;Li,H.,未知连续非仿射非线性系统的最优控制,(自适应动态规划在最优控制中的应用(2017),Springer),309-344·Zbl 1390.93003号
[33] Mobahi,H。;Fisher,III.J.,《高斯延拓优化的理论分析》,《AAAI人工智能会议论文集》,29(2015)
[34] J.穆雷。;考克斯,C。;塞克斯,R。;Lendaris,G.,应用于自动着陆器的全局收敛近似动态规划,(2001年美国控制会议论文集(2001),IEEE),2901-2906
[35] Powell,W.B.,《近似动态编程:解决维度的诅咒》,第703卷(2007),John Wiley&Sons·Zbl 1156.90021号
[36] Sastry,S。;Bodson,M.,《自适应控制:稳定性、收敛性和鲁棒性》(2011),Courier Corporation
[37] Scheinker,A。;Krstić,M.,通过极值搜索实现无模型稳定(2017),Springer·Zbl 1380.37004号
[38] 史蒂文斯,B.L。;刘易斯,F.L。;Johnson,E.N.,《飞机控制与仿真:动力学、控制设计和自主系统》(2015),John Wiley&Sons
[39] Sutton,R.S。;Barto,A.G.,《强化学习导论》(1998),麻省理工学院剑桥出版社
[40] 弗拉比,D。;Lewis,F.,部分未知非线性系统连续时间直接自适应最优控制的神经网络方法,神经网络,22,3,237-246(2009)·Zbl 1335.93068号
[41] 弗拉比,D。;刘易斯,F。;Abu Khalaf,M.,连续时间近似动态规划的生物启发方案,测量与控制研究所学报,30,3-4,207-223(2008)
[42] 弗拉比,D。;帕斯特拉瓦努,O。;阿布·哈拉夫,M。;Lewis,F.L.,基于策略迭代的连续线性系统自适应最优控制,Automatica,45,2,477-484(2009)·兹比尔1158.93354
[43] 弗拉比,D。;Vamvoudakis,K.G。;Lewis,F.L.,《基于强化学习原理的最优自适应控制和微分对策》(2013),工程技术学院·Zbl 1316.49007号
[44] 张,H。;刘,D。;罗,Y。;Wang,D.,《控制的自适应动态编程:算法和稳定性》(2012),Springer Science&Business Media
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。