蒋忠平;姜瑜 线性和非线性系统的鲁棒自适应动态规划:综述。 (英语) Zbl 1293.49053号 欧洲药典控制 19,第5期,417-425(2013). 摘要:在过去几年中,自适应动态规划在控制工程中的各种应用领域取得了快速进展。提出了一种称为“鲁棒自适应动态规划”(简称RADP)的新理论,用于设计具有参数和动态不确定性的线性和非线性系统的鲁棒最优控制器。本文的中心目标是简要概述我们对RADP理论发展的最新贡献,并概述其在工程和生物学中的潜在应用。 引用于25文件 MSC公司: 49公里40 灵敏、稳定、良好 93立方厘米 控制理论中的非线性系统 49升20 最优控制与微分对策中的动态规划 90立方厘米 动态编程 关键词:鲁棒自适应动态规划;鲁棒最优控制;非线性系统;动态不确定性 软件:近似值 PDF格式BibTeX公司 XML格式引用 \textit{Z.-P.Jiang}和\textit{Y.Jiang},《欧洲期刊控制》19,第5期,417--425(2013;Zbl 1293.49053) 全文: 内政部 参考文献: [1] 阿特克森,C.G。;Hollebach,J.M.,无约束垂直手臂运动的运动学特征,神经科学杂志,52318-2330(1985) [3] Bellman,R.E.,《动态编程》(1957),普林斯顿大学出版社:普林斯顿大学出版,新泽西州普林斯顿·Zbl 0077.13605号 [4] Bertsekas,D.P.,《近似政策迭代调查和一些新方法》,《控制理论与应用杂志》,9,310-335(2011)·Zbl 1249.90179号 [5] Bertsekas,D.P。;Tsisiklis,J.N.,神经动力学编程(1996),雅典娜科学:雅典娜科技贝尔蒙特,马萨诸塞州·Zbl 0924.68163号 [6] 巴辛,S。;北卡罗来纳州夏尔马。;帕特雷,P。;Dixon,W.E.,基于强化学习的自适应临界控制器的渐近跟踪,控制理论与应用杂志,9,400-409(2011) [7] Borkar,V.S.,《随机逼近动力学系统观点》(2008),剑桥大学出版社·Zbl 1181.62119号 [9] Busoniu,L。;巴布斯卡,R。;德舒特,B。;Ernst,D.,《使用函数逼近器的强化学习和动态规划》(2010),CRC出版社:纽约CRC出版社 [10] Chai,T。;Zhang,Y。;Wang,H。;Su,C.-Y。;Sun,J.,基于数据的虚拟未建模动态驱动多变量非线性自适应切换控制,IEEE神经网络汇刊,22,2154-2172(2011) [11] Dierks,T。;Jagannathan,S.,使用近似动态规划对非线性离散时间系统进行在线最优控制,控制理论与应用杂志,9,361-369(2011) [12] Doya,K.,连续时间和空间中的强化学习,神经计算,12,219-245(2000) [14] 弗里曼,R。;Kokotovic,P.V.,鲁棒非线性控制设计(1996),Birkhauser:马萨诸塞州Boston·Zbl 0863.93075号 [15] Guo,L.,自校正调节器的收敛性和对数定律,Automatica,31435-450(1995)·Zbl 0825.93337号 [16] Hanselmann,T。;诺克斯,L。;Zaknich,A.,连续时间自适应评论家,IEEE神经网络汇刊,18631-647(2007) [17] Howard,R.,《动态规划和马尔可夫过程》(1960年),麻省理工学院出版社:麻省理学院出版社剑桥·Zbl 0091.16001号 [18] Ioannou,P.A。;Sun,J.,鲁棒自适应控制(1996),Prentice-Hall:新泽西州Prentice-Hall·Zbl 0839.93002号 [19] Isidori,A.,《非线性控制系统》,第二卷(1999),Springer-Verlag·Zbl 0924.93038号 [21] 姜瑜。;江志平,动力学完全未知连续线性系统的计算自适应最优控制,Automatica,482699-2704(2012)·兹比尔1271.93088 [23] 姜瑜。;Jiang,Z.P.,大型系统鲁棒自适应动态规划及其在多机电力系统中的应用,IEEE电路与系统II汇刊,59,693-697(2012) [25] 姜瑜。;姜振平,鲁棒自适应动态规划,(刘易斯,F.;刘德华,反馈控制的强化学习和近似动态规划(2012),约翰威利父子公司),281-302 [28] 姜振平。;Mareels,I.,动态不确定性非线性级联系统的小增益控制方法,IEEE自动控制汇刊,42,292-308(1997)·Zbl 0869.93004号 [29] 姜振平。;Praly,L.,具有动态不确定性的非线性系统的鲁棒自适应控制器的设计,Automatica,34825-840(1998)·Zbl 0951.93042号 [30] 姜振平。;特尔,A.R。;Praly,L.,ISS系统和应用的Small-gain定理,控制、信号和系统数学,795-120(1994)·Zbl 0836.93054号 [31] 卡拉弗利斯,I。;姜振平,非线性系统的稳定性与镇定(2011),施普林格出版社:施普林格伦敦·Zbl 1243.93004号 [33] Kleinman,D.,《关于Riccati方程计算的迭代技术》,《IEEE自动控制汇刊》,第13期,第114-115页(1968年) [34] Krstic,M。;Kanellakopoulos,I。;Kokotovic,P.V.,非线性和自适应控制设计(1995),约翰威利:约翰威利纽约·Zbl 0763.93043号 [35] Kundur等人。;新泽西州巴鲁。;Lauby,M.G.,《电力系统稳定性和控制》(1994年),McGraw-Hill:McGraw-Hill NY [36] (Lewis,F.L.;Liu,D.,《反馈控制的强化学习和近似动态规划》(2012),Wiley:Wiley NJ) [37] 刘易斯,F.L。;Syrmos,V.,最优控制(1995),威利:威利纽约 [38] 刘易斯,F.L。;Vrabie,D.,反馈控制的强化学习和自适应动态规划,IEEE电路系统杂志,9,32-50(2009) [39] 刘,D。;Wang,D.,使用迭代全球化双重启发式规划算法对未知非线性离散时间系统进行最优控制,(Lewis,F.;Liu,D.,反馈控制的强化学习和近似动态规划(2012),John Wiley&Sons),52-77 [40] 刘,T。;希尔,D。;蒋志平,李亚普诺夫,ISS循环小收益在连续时间动态网络中的表述,Automatica,472088-2093(2011)·Zbl 1229.93141号 [41] 莫伊兰,P.J。;Anderson,B.D.O.,非线性调节器理论和逆最优控制问题,IEEE自动控制汇刊,18460-465(1973)·Zbl 0283.49007号 [42] J.J.穆雷。;考克斯·C·J。;Lendaris,G.G。;Saeks,R.,自适应动态规划,IEEE系统、人与控制论汇刊,第C部分应用与评论,32,140-153(2002) [43] Powell,W.,《近似动态编程解决维度的诅咒》(2011),John Wiley&Sons·Zbl 1242.90002号 [44] 普罗霍罗夫,D。;Wunsch,D.,自适应批评家设计,IEEE神经网络汇刊,8997-1007(1997) [45] Puterman,M.L.,Markov决策过程——离散随机动态规划(1994),John Wiley&Sons,Inc.:John Willey&Sons公司,纽约·Zbl 0829.90134号 [46] 萨贝里,A。;科科托维奇,P.V。;Sussmann,H.J.,部分线性复合系统的全局稳定性,SIAM控制与优化杂志,21491-1503(1990)·Zbl 0719.93071号 [47] Saridis,G.N。;Lee,C.S.G.,可训练机械手最优控制的近似理论,IEEE系统、人与控制论汇刊,9,152-159(1979)·Zbl 0398.49001号 [48] 沙德迈尔(Shadmehr),R。;Mussa-Ivaldi,S.,《生物学习和控制大脑如何构建表征、预测事件和做出决策》(2012),麻省理工学院出版社 [49] (Si,J.;Barto,A.;Powell,W.;Wunsch,D.,《学习和近似动态规划手册》(2004年),IEEE出版社:IEEE出版社,纽约) [50] Šiljak,D.D.,《复杂系统的分散控制》(1991),学术出版社·Zbl 0728.93004号 [51] Sontag,E.D.,输入到状态稳定性的基本概念和结果,(Nistri,P.;Stefani,G.,非线性和最优控制理论(2007),Springer-Verlag:Springer-Verlag Berlin),163-220·Zbl 1175.93001号 [52] Sutton,R.S.,《通过时间差异方法学习预测》,机器学习,3,9-44(1988) [53] Sutton,R.S。;Barto,A.G.,《强化学习导论》(1998),麻省理工学院出版社:麻省理工学院出版社,马萨诸塞州剑桥 [54] Szepesvari,C.,MDP强化学习算法(2010),摩根和克莱普尔出版社·Zbl 1205.68320号 [55] Vamvoudakis,K.G。;Lewis,F.L.,解决连续时间无限时域最优控制问题的在线actor-critic算法,Automatica,46,878-888(2010)·Zbl 1191.49038号 [56] Vamvoudakis,K.G。;Lewis,F.L.,耦合Hamilton-Jacobi方程的多玩家非零和游戏线自适应学习解,Automatica,471556-1569(2011)·Zbl 1237.91015号 [57] Vamvoudakis,K.G。;Lewis,F.L.,使用同步策略迭代的非线性两人零和博弈的在线神经网络解,鲁棒与非线性控制国际期刊,221460-1483(2012)·Zbl 1292.91011号 [58] 弗拉比,D。;帕斯特拉瓦努,O。;阿布·哈拉夫,M。;Lewis,F.L.,基于策略迭代的连续线性系统自适应最优控制,Automatica,45,477-484(2009)·Zbl 1158.93354号 [59] Wang,F.Y。;张,H。;Liu,D.,自适应动态编程简介,IEEE计算智能杂志,439-47(2009) [61] Werbos,P.J.,《智能要素》,《控制论(纳穆尔)》,第3卷(1968年) [63] Werbos,P.J.,《全球危机预警的高级预测方法和智能模型》,《通用系统年鉴》,22,25-38(1977) [65] Werbos,P.J.,随着时间的推移,强化学习的设计菜单,(Miller,W.T.;Sutton,R.S.;Werbos,P.J.,神经网络控制(1990),麻省理工学院出版社:麻省理工学院出版社,马萨诸塞州剑桥),67-95 [66] Werbos,P.J.,《实时控制和神经建模的近似动态规划》,(White,D.A.;Sofge,D.A.,《智能控制手册》(1992),Van Nostrand:Van Nostrand New York),493-525 [67] Werbos,P.J.,《强化学习和近似动态规划(RLADP)——基础、常见误解和未来挑战》,(Lewis,F.;Liu,D.,《反馈控制的强化学习与近似动态规划》(2012),John Wiley&Sons),3-30 [68] Xu,H。;Jagannathan,S。;Lewis,F.L.,存在随机延迟和数据包丢失时未知线性网络控制系统的随机最优控制,Automatica,48,1017-1030(2012)·Zbl 1244.93177号 [69] 张,H。;魏强。;Liu,D.,求解一类非线性零和微分对策的迭代自适应动态规划方法,Automatica,47207-214(2011)·Zbl 1231.91028号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。