×

基于神经网络的一类不确定非线性系统的自适应动态规划鲁棒最优控制设计。 (英语) Zbl 1354.93045号

摘要:本文研究了一类不确定非线性系统基于神经网络的自适应动态规划鲁棒最优控制设计。首先,通过向标称系统的最优控制器添加反馈增益,导出了原不确定系统的鲁棒控制器。研究还表明,该鲁棒控制器可以在给定的代价函数下达到最优,这是鲁棒最优控制设计的基本思想。然后,构造一个临界网络来求解标称系统对应的Hamilton-Jacobi-Bellman方程,其中引入一个附加的稳定项来验证稳定性。利用Lyapunov方法证明了闭环系统的一致最终有界性。此外,将所得结果推广到求解连续非线性关联大系统的分散最优控制问题。最后,通过两个仿真实例说明了所建立控制方案的有效性。

MSC公司:

93B35型 灵敏度(稳健性)
93C40型 自适应控制/观测系统
90立方厘米 动态编程
92B20型 生物研究、人工生命和相关主题中的神经网络
93D05型 李亚普诺夫和控制理论中的其他经典稳定性(拉格朗日、泊松、(L^p、L^p)等)
93亿B51 设计技术(稳健设计、计算机辅助设计等)
93甲14 分散的系统
93甲15 大型系统
03C10号机组 量词消除、模型完整性和相关主题
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿布·哈拉夫,M。;Lewis,F.L.,使用神经网络HJB方法的饱和执行器非线性系统的近似最优控制律,Automatica,41779-791(2005)·Zbl 1087.49022号
[2] Al-Tamimi,A。;刘易斯,F.L。;Abu-Khalaf,M.,使用近似动态规划的离散时间非线性HJB解:收敛证明,IEEE Trans。系统。人类网络B部分:网络。,1949年9月38日至1949年(2008年)
[3] Bertsekas,D.P。;霍默,M.L。;洛根,D.A。;Patek,S.D。;Sandell,N.R.,《神经动力学编程的导弹防御和拦截器分配》,IEEE Trans。系统。人类网络A部分:系统。人类,30,42-51(2000)
[4] 巴辛,S。;Kamalapurkar,R。;约翰逊,M。;Vamvoudakis,K.G。;刘易斯,F.L。;Dixon,W.E.,不确定非线性系统近似最优控制的新型actor-critic-identifier结构,Automatica,49,82-92(2013)·兹比尔1257.93055
[6] Dierks,T。;Jagannathan,S.,利用基于时间的策略更新对具有未知内部动力学的仿射非线性离散时间系统进行在线最优控制,IEEE Trans。神经网络。学习。系统。,23, 1118-1129 (2012)
[7] Fu,J。;He,H。;周,X.,基于自适应动态规划的MIMO系统自适应学习与控制,IEEE Trans。神经网络。,22, 1133-1148 (2011)
[8] 海达里,A。;Balakrishnan,S.N.,使用单网络自适应批评器的Finite-horizon控制约束非线性最优控制,IEEE Trans。神经网络。学习。系统。,24, 145-157 (2013)
[9] 姜瑜。;江志平,动力学完全未知连续线性系统的计算自适应最优控制,Automatica,482699-2704(2012)·Zbl 1271.93088号
[10] 姜振平。;姜瑜,《线性和非线性系统的鲁棒自适应动态规划:概述》,《欧洲控制杂志》,第19期,第417-425页(2013年)·Zbl 1293.49053号
[11] 刘易斯,F.L。;Jagannathan,S。;Yesildirek,A.,机器人操纵器和非线性系统的神经网络控制(1999),Taylor&Francis:Taylor and Francis London
[12] 刘易斯,F.L。;Liu,D.,反馈控制的强化学习和近似动态规划(2013),Wiley:Wiley Hoboken,NJ
[13] 刘易斯,F.L。;Vrabie,D.,反馈控制的强化学习和自适应动态规划,IEEE Circ。系统。Mag.,9,32-50(2009)
[14] 梁,J。;Venayagamoorthy,G.K。;Harley,R.G.,《高可变性和不确定性智能电网基于大面积测量的动态随机最优潮流控制》,IEEE Trans。智能电网,359-69(2012)
[15] 林,F。;品牌,R.D。;Sun,J.,《非线性系统的鲁棒控制:不确定性补偿》,《国际控制杂志》,561453-1459(1992)·Zbl 0771.93018号
[16] 刘,D。;李,H。;Wang,D.,通过迭代自适应动态规划算法实现离散时间非线性系统的基于神经网络的零和博弈,神经计算,110,92-100(2013)
[17] 刘,D。;王,D。;Li,H.,使用在线学习最优控制方法的一类连续非线性互联系统的分散镇定,IEEE Trans。神经网络。学习。系统。,2014年8月25日
[18] 刘,D。;王,D。;Yang,X.,输入受限的未知离散非线性系统最优控制的迭代自适应动态规划算法,Inform。科学。,220, 331-342 (2013) ·Zbl 1291.49018号
[19] 刘,D。;王,D。;赵,D。;魏强。;Jin,N.,使用全局对偶启发式规划对一类未知离散非线性系统进行基于神经网络的最优控制,IEEE Trans。自动。科学。工程,9628-634(2012)
[20] 罗,B。;Wu,H.N.,使用经验特征函数和神经网络的非线性一维抛物线PDE系统的近似最优控制设计,IEEE Trans。系统。人类网络B部分:网络。,1538-1549年(2012年)
[21] 莫达雷斯,H。;刘易斯,F.L。;Naghibi-Sistani,M.B.,部分未知约束输入连续时间系统自适应最优控制的积分强化学习和经验回放,Automatica,50,193-202(2014)·Zbl 1298.49042号
[22] 莫达雷斯,H。;Naghibi-Sistani,医学学士。;Lewis,F.L.,连续时间约束输入系统在线最优控制的策略迭代方法,ISA Trans。,52, 611-621 (2013)
[23] 镍,锌。;He,H。;Wen,J.,基于双临界网络设计的跟踪控制自适应学习,IEEE Trans。神经网络。学习。系统。,24, 913-928 (2013)
[24] 诺德兰,D。;Zargarzadeh,H。;Jagannathan,S.,直升机无人机基于神经网络的最优自适应输出反馈控制,IEEE Trans。神经网络。学习。系统。,24, 1061-1073 (2013)
[25] Prokhorov,D.V。;Wunsch,D.C.,自适应批评家设计,IEEE Trans。神经网络。,8, 997-1007 (1997)
[26] Saberi,A.,关于一类非线性互联系统分散控制的最优性,Automatica,24,101-104(1988)·Zbl 0629.93005
[27] Siljak,D.D.,《复杂系统的分散控制》(2012),学术出版社:马萨诸塞州波士顿学术出版社·Zbl 0728.93004号
[28] Vamvoudakis,K.G。;Lewis,F.L.,解决连续时间无限时域最优控制问题的在线actor-critic算法,Automatica,46,878-888(2010)·Zbl 1191.49038号
[29] 王,D。;Liu,D.,使用SN-DHP技术对一类未知非线性动态系统进行神经优化控制,神经计算,121,218-225(2013)
[30] 王,D。;刘,D。;Li,H.,一类连续非线性系统鲁棒控制在线设计的策略迭代算法,IEEE Trans。自动。科学。工程,11627-632(2014)
[32] 王,D。;刘,D。;Wei,Q.,使用自适应动态规划方法对一类离散非线性系统进行Finite-horizon神经优化跟踪控制,神经计算,78,14-22(2012)
[33] 王,D。;刘,D。;魏强。;赵,D。;Jin,N.,基于自适应动态规划的未知非仿射非线性离散时间系统的最优控制,Automatica,481825-1832(2012)·Zbl 1269.49042号
[34] 王福勇。;张,H。;Liu,D.,自适应动态编程:简介,IEEE计算。智力。Mag.,439-47(2009)
[35] Werbos,P.J.,《实时控制和神经建模的近似动态规划》(White,D.A.;Sofge,D.A.,《智能控制手册:神经、模糊和自适应方法》(1992),Van Nostrand Reinhold:Van Nostrand Reinho尔德,纽约)
[36] Wu,H.N。;Luo,B.,基于神经网络的在线同步策略更新算法,用于求解非线性H_(infty)控制中的HJI方程,IEEE Trans。神经网络。学习。系统。,23, 1884-1895 (2012)
[37] Wu,H.N。;Luo,B.,学习线性连续时间(H_\infty)状态反馈控制解的同步策略更新算法,Inform。科学。,222, 472-485 (2013) ·Zbl 1293.93275号
[38] 徐,B。;杨,C。;Shi,Z.,使用确定性学习技术的强化学习输出反馈神经网络控制,IEEE Trans。神经网络。学习。系统。,25, 635-641 (2014)
[39] 徐,D。;Ugrinovskii,V.,通过控制向量Lyapunov函数实现大规模系统的分散测量反馈镇定,系统。控制信函。,62, 1187-1195 (2013) ·兹比尔1282.93213
[40] Xu,X。;Hou,Z。;Lian,C。;He,H.,《使用稀疏内核机器的自适应批评家设计的在线学习控制》,IEEE Trans。神经网络。学习。系统。,24, 762-775 (2013)
[41] Xu,X。;左,L。;Huang,Z.,《函数逼近强化学习算法:最新进展和应用》,Inform。科学。,261, 1-31 (2014) ·Zbl 1328.68176号
[42] 杨,X。;刘,D。;Wang,D.,具有输入约束的未知连续非线性系统自适应最优控制的强化学习,国际控制杂志,87,553-566(2014)·Zbl 1317.93158号
[43] Yen,H.M。;Li,T.H.S。;Chang,Y.C.,一类电驱动非完整机械系统基于神经网络的鲁棒跟踪控制器的设计,Inform。科学。,222, 559-575 (2013) ·Zbl 1293.93558号
[44] 张,H。;崔,L。;Luo,Y.,使用单网络ADP的连续非线性系统非零和微分对策的近最优控制,IEEE Trans。网络。,43, 206-216 (2013)
[45] 张,H。;刘,D。;罗,Y。;Wang,D.,《控制的自适应动态规划:算法和稳定性》(2013),施普林格出版社:英国施普林格伦敦·Zbl 1279.49017号
[46] 张,H。;罗,Y。;Liu,D.,一类具有控制约束的离散仿射非线性系统的基于神经网络的近最优控制,IEEE Trans。神经网络。,20, 1490-1503 (2009)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。