文件Zbl 1391.49053-zbMATH打开

未知约束输入非线性连续时间系统HJI方程的在线近似解。（英语） Zbl 1391.49053号

信息科学。 328, 435-454 (2016).

摘要：本文研究具有未知动力学的约束输入非线性连续时间系统的Hamilton-Jacobi-Isaacs（HJI）方程的近似解。我们开发了一种新的在线自适应动态规划算法来学习HJI方程的解。本算法通过标识符-批评者体系结构实现，该体系结构由两个神经网络（NN）组成：一个标识符NN用于估计未知系统动力学，另一个批评者NN用于获得HJI方程的近似解。该体系结构的一个优点是标识符NN和批评者NN可以同时调谐。通过引入两个附加项，即稳定项和鲁棒项来更新临界神经网络，不再需要初始稳定控制。同时，所提出的临界值整定规则不仅保证了临界值收敛到最优鞍点，而且保证了闭环系统的稳定性。此外，利用Lyapunov的直接方法证明了标识符NN和批评者NN的权重的一致极限有界性。最后，为了说明所开发方法的有效性和适用性，提供了两个仿真示例。

引用于19文件

MSC公司：

49升20	最优控制与微分对策中的动态规划
49公里21	非微分方程关系问题的最优性条件
92B20型	生物研究、人工生命和相关主题中的神经网络

关键词：

自适应动态规划;Hamilton-Jacobi-Isaacs方程;输入约束;神经网络;最优控制;强化学习

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序

参考文献：

[1]	阿布·哈拉夫，M。；刘易斯，F.L。；Huang，J.，输入饱和状态反馈控制的Hamilton-Jacobi-Isaacs方程的策略迭代，IEEE Trans。自动。控制，511989-1995（2006）·Zbl 1366.93147号
[2]	阿布·哈拉夫，M。；刘易斯，F.L。；Huang，J.，约束控制系统的神经动力学编程和零和博弈，IEEE Trans。神经网络。，19, 1243-1252 (2008)
[3]	Aliyu，M.，非线性（H_∞）控制，哈密尔顿系统和哈密尔顿-雅可比方程（2011），CRC出版社：佛罗里达州博卡拉顿CRC出版社·Zbl 1243.93002号
[4]	巴萨，T。；Bernhard，P.，（H_∞）最优控制及相关最小最大设计问题（1995），Birkhäuser:Birkháuser Boston，USA·Zbl 0835.93001号
[5]	比尔德，R.W。；Mclain，T.W.，非线性最优和鲁棒控制的连续Galerkin近似算法，国际控制杂志，71717-743（1998）·Zbl 0945.49021号
[6]	巴辛，S。；Kamalapurkar，R。；约翰逊，M。；Vamvoudakis，K.G。；刘易斯，F.L。；Dixon，W.E.，不确定非线性系统近似最优控制的新型actor-critic-identifier结构，Automatica，49，82-92（2013）·兹比尔1257.93055
[7]	Dierks，T。；Jagannathan，S.，使用在线Hamilton-Jacobi-Isaacs公式对仿射非线性连续时间系统进行最优控制，第49届IEEE决策与控制会议论文集，美国佐治亚州亚特兰大，3048-3053（2010）
[8]	Finlayson，B.A.，《加权残差法和变分原理》（1972），学术出版社：纽约学术出版社·Zbl 0319.49020号
[9]	霍尼克，K。；Stinchcombe，M。；White，H.，使用多层前馈网络对未知映射及其导数的通用近似，神经网络。，2, 359-366 (1989) ·Zbl 1383.92015年
[10]	Huang，J.，求解（L_2）增益优化问题中产生的离散HJI方程的算法，国际期刊控制，72，49-57（1999）·兹伯利0965.93054
[11]	约翰逊，M。；巴辛，S。；Dixon，W.，使用政策迭代算法的非线性双层零和博弈近似解，IEEE决策与控制会议和欧洲控制会议论文集，美国佛罗里达州奥兰多，142-147（2011）
[12]	约翰逊，M。；Kamalapurkar，R。；巴辛，S。；Dixon，W.E.，不确定连续非线性系统的近似N人非零和对策解，IEEE Trans。神经网络。学习。系统。，26, 8, 1645-1658 (2015)
[13]	刘易斯，F.L。；Jagannathan，S。；Yesildirak，A.，机器人操纵器和非线性系统的神经网络控制（1999），Taylor&Francis:Taylor和Francis London，UK
[14]	刘易斯，F.L。；Liu，D.，《反馈控制的强化学习和近似动态规划》（2013），Wiley-IEEE出版社：新泽西州Hoboken Wiley-IIEE出版社
[15]	刘易斯，F.L。；Vrabie，D.，反馈控制的强化学习和自适应动态规划，IEEE电路系统。Mag.，9，32-50（2009）
[16]	刘，D。；李，H。；Wang，D.，通过迭代自适应动态规划算法实现离散时间非线性系统的基于神经网络的零和博弈，神经计算，110，92-100（2013）
[17]	刘，D。；李，H。；Wang，D.，动态未知的多人非零和博弈的在线同步近似最优学习算法，IEEE Trans。系统。人类网络。系统。，44, 1015-1027 (2014)
[18]	刘，D。；王，D。；Yang，X.，具有约束输入的未知离散时间非线性系统最优控制的迭代自适应动态规划算法，Inf.Sci。，220, 331-342 (2013) ·Zbl 1291.49018号
[19]	罗，B。；Wu，H.N。；Huang，T.W.，（H_∞）控制设计的非策略强化学习，IEEE Trans。赛博。，第45页，第65-76页（2015年）
[20]	Mehraeen，S。；Dierks，T。；Jagannathan，S。；Crow，M.L.，使用神经网络的仿射非线性离散时间系统的零和双层博弈理论公式，IEEE Trans。赛博。，43, 1641-1655 (2013)
[21]	莫达雷斯，H。；刘易斯，F.L。；Naghibi-Sistani，M.B.，使用策略迭代和神经网络对未知约束输入系统进行自适应最优控制，IEEE Trans。神经网络。学习。系统，24，1513-1525（2013）
[22]	莫达雷斯，H。；刘易斯，F.L。；Naghibi-Sistani，M.B.，部分未知约束输入连续时间系统自适应最优控制的积分强化学习和经验回放，Automatica，50，193-202（2014）·Zbl 1298.49042号
[23]	莫达雷斯，H。；刘易斯，F.L。；Sistani，M.B.N.，约束输入系统（H_∞）控制中产生的非二次两层零和对策的在线解，国际期刊Adapt。控制信号处理。，28, 232-254 (2014) ·Zbl 1331.93055号
[24]	镍，锌。；He，H。；Wen，J.，基于双临界网络设计的跟踪控制自适应学习，IEEE Trans。神经网络。学习。系统。，24, 913-928 (2013)
[25]	诺德兰，D。；Zargarzadeh，H。；Sarangapani，J.，直升机无人机基于神经网络的最优自适应输出反馈控制，IEEE Trans。神经网络。学习。系统。，24, 1061-1073 (2013)
[26]	帕迪，R。；Unnikrishnan，N。；王，X。；Balakrishnan，S.，一类非线性系统最优控制综合的单网络自适应评判（SNAC）体系结构，神经网络。，19, 1648-1660 (2006) ·邮编1120.90065
[27]	鲍威尔，W.B.，《近似动态规划：解决维度的诅咒》（2007），约翰·威利父子公司：约翰·威利和索恩斯·霍博肯，新泽西州·Zbl 1156.90021号
[28]	Rubio，J。；Yu，W.，时滞神经网络非线性系统辨识的稳定性分析，IEEE Trans。电路系统。二：实验。英国，54，161-165（2007）
[29]	Rudin，W.，《数学分析原理》（1976），麦格劳-希尔出版公司：美国麦格劳/希尔出版公司·Zbl 0148.02903号
[30]	萨萨诺，M。；Astolfi，A.，输入仿射非线性系统的HJ不等式和HJB方程的动态近似解，IEEE Trans。自动。对照，572490-2503（2012）·Zbl 1369.93179号
[31]	van der Schaft，A.J.，（L_2）-非线性控制中的增益和无源性技术（2000），施普林格出版社：施普林格伦敦·Zbl 0937.93020号
[32]	Vamvoudakis，K.G。；Lewis，F.L.，《多玩家非零和游戏：耦合Hamilton-Jacobi方程的在线自适应学习解》，Automatica，471556-1569（2011）·Zbl 1237.91015号
[33]	Vamvoudakis，K.G。；Lewis，F.L.，使用同步策略迭代的非线性两层零和博弈的在线求解，《国际鲁棒非线性控制》，221460-1483（2012）·Zbl 1292.91011号
[34]	王，D。；刘，D。；李，H。；Ma，H.，一类不确定非线性系统基于神经网络的自适应动态规划鲁棒最优控制设计，Inf.Sci。，282167-179（2014）·Zbl 1354.93045号
[35]	王福勇。；张，H。；Liu，D.，自适应动态编程：简介，IEEE计算。智力。Mag.，439-47（2009）
[36]	Werbos，P.，《超越回归：行为科学中预测和分析的新工具》（1974年），美国哈佛大学（博士论文）
[37]	Werbos，P.J.，《大脑中的智能：如何工作和如何构建的理论》，神经网络。，22, 200-212 (2009)
[38]	吴，H.N。；Luo，B.，求解非线性H_∞控制中HJI方程的基于神经网络的在线同步策略更新算法，IEEE Trans。神经网络。学习。系统。，23, 1884-1895 (2012)
[39]	杨，X。；刘，D。；黄毅，基于神经网络的不确定非线性连续系统在线最优控制，IET控制理论应用。，7, 2037-2047 (2013)
[40]	杨，X。；刘，D。；Wang，D.，具有输入约束的未知连续非线性系统自适应最优控制的强化学习，国际控制杂志，87，553-566（2014）·Zbl 1317.93158号
[41]	杨，X。；刘，D。；魏强，利用自适应动态规划对具有未知内部动力学的仿射非线性系统进行在线近似最优控制，IET控制理论应用。，8, 1676-1688 (2014)
[42]	Yu，W.，《智能控制系统的最新进展》（2009），施普林格出版社：英国伦敦施普林格·Zbl 1162.93003号
[43]	张，H。；崔，L。；Luo，Y.，使用单网络ADP的连续非线性系统非零和微分对策的近最优控制，IEEE Trans。赛博。，43, 206-216 (2013)
[44]	张，H。；崔，L。；张，X。；Luo，Y.，使用自适应动态规划方法的未知一般非线性系统的数据驱动鲁棒近似最优跟踪控制，IEEE Trans。神经网络。，22, 2226-2236 (2011)
[45]	张，H。；秦，C。；江，B。；Luo，Y.，未知仿射非线性离散时间系统（H_∞）状态反馈控制的在线自适应策略学习算法，IEEE Trans。赛博。，44, 2706-2718 (2014)
[46]	张，H。；魏强。；Liu，D.，求解一类非线性零和微分对策的迭代自适应动态规划方法，Automatica，47207-214（2011）·Zbl 1231.91028号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：书本；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	括号

示例

领域

操作员

未知约束输入非线性连续时间系统HJI方程的在线近似解。（英语） Zbl 1391.49053号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

未知约束输入非线性连续时间系统HJI方程的在线近似解。 （英语） Zbl 1391.49053号

MSC公司：

关键词：

参考文献：

未知约束输入非线性连续时间系统HJI方程的在线近似解。（英语） Zbl 1391.49053号