×

多玩家非零和游戏:耦合Hamilton-Jacobi方程的在线自适应学习解。 (英语) Zbl 1237.91015号

摘要:本文提出了一种基于策略迭代强化学习技术的在线自适应控制算法,用于求解线性和非线性系统的无限时域连续多人非零和博弈。NZS游戏允许玩家在策略中有合作的团队成分和个人自私成分。自适应算法分别在线学习线性和非线性系统的耦合Riccati方程和耦合Hamilton-Jacobi方程的解。这种自适应控制方法能够实时逼近最优值和NZS纳什均衡,同时保证闭环稳定性。最优自适应算法被实现为每个参与者的独立行动者/批评者参数网络逼近器结构,并涉及行动者/批评家网络的同时连续自适应。证明了激励条件的持续性,以保证每个临界点收敛到该玩家的实际最优值函数。对2人NZS游戏进行了详细的数学分析。给出了演员/评论员网络的新型调谐算法。证明了系统收敛于纳什均衡,并保证了系统的稳定性。这为非零和博弈及其特殊情况零和博弈提供了最优自适应控制解决方案。仿真实例表明了新算法的有效性。

MSC公司:

91A06型 \(n)-人游戏,(n>2)
91A26型 博弈论中的理性与学习
49号70 差异化游戏和控制
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abou-Kandil,H。;Freiling,G。;伊奥内斯库,V。;Jank,G.,《控制和系统理论中的矩阵Riccati方程》(2003),Birkhäuser·Zbl 1027.93001号
[2] 阿布·哈拉夫,M。;Lewis,F.L.,使用神经网络HJB方法实现饱和执行器非线性系统的近似最优控制律,Automatica,41,5,779-791(2005)·Zbl 1087.49022号
[3] 阿布·哈拉夫,M。;刘易斯,F.L。;Huang,Jie,具有输入饱和的(H_\infty)状态反馈控制的Hamilton-Jacobi-Isaacs方程的策略迭代,IEEE自动控制学报,51,121989-1995(2006)·Zbl 1366.93147号
[4] 亚当斯,R。;Fournier,J.,Sobolev spaces(2003),学术出版社:纽约学术出版社·Zbl 1098.46001号
[5] 巴沙尔,T。;Olsder,G.J.,《动态非合作博弈论》(1999),SIAM:宾夕法尼亚州费城SIAM·Zbl 0946.91001号
[6] Bertsekas,D.P。;Tsitsiklis,J.N.,《神经动力学编程》(1996),雅典娜科学:雅典娜科技硕士·Zbl 0924.68163号
[7] Finlayson,B.A.,《加权残差法和变分原理》(1990),学术出版社:纽约学术出版社
[8] Freiling,G。;詹克,G。;Abou-Kandil,H.,关于闭环Nash博弈中耦合矩阵Riccati方程解的全局存在性,IEEE自动控制汇刊,41,2,264-269(2002)·Zbl 0845.90137号
[9] Gajic,Z.和Li,T.-Y.(1988年)。求解耦合代数Riccati方程的两种新算法的仿真结果。第三个内部症状。关于微分对策。索菲亚,法国安蒂波利斯; Gajic,Z.和Li,T.-Y.(1988年)。求解耦合代数Riccati方程的两种新算法的仿真结果。第三个内部症状。关于微分对策。索菲亚,安提波利斯,法国
[10] Ge,S.S。;Wang,C.,不确定MIMO非线性系统的自适应神经控制,IEEE神经网络汇刊,15,3,674-692(2004)
[11] 霍尼克,K。;Stinchcombe,M。;White,H.,使用多层前馈网络的未知映射及其导数的通用近似,神经网络,3551-560(1990)
[12] Ioannou,P。;Fidan,B.(自适应控制教程。自适应控制教程,设计和控制进展(2006),SIAM:SIAM-PA)·Zbl 1116.93001号
[13] Jungers,M。;De Pieri,E。;Abou-Kandil,H.,通过缺乏信任的方法从闭环Nash策略求解耦合代数Riccati方程,国际层析成像与统计杂志,7,F07,49-54(2007)
[14] Khalil,H.K.,非线性系统(1996),Prentice-Hall·Zbl 0626.34052号
[15] Kleinman,D.,《关于Riccati方程计算的迭代技术》,《IEEE自动控制汇刊》,第13期,第114-115页(1968年)
[16] 刘易斯,F.L。;Jagannathan,S。;Yesildirek,A.,机器人操纵器和非线性系统的神经网络控制(1999),Taylor&Francis
[17] 刘易斯,F.L。;Syrmos,V.L.,最优控制(1995),John Wiley
[18] 刘易斯,F.L。;Vrabie,D.,反馈控制的强化学习和自适应动态规划,IEEE电路与系统杂志,9,3,32-50(2009)
[19] Limebeer,D.J.N。;B.D.O.安德森。;Hendel,H.,混合控制的Nash博弈方法,IEEE自动控制交易,39,1,69-82(1994)·Zbl 0796.93027号
[20] Nevisic,V.和Primbs,J.A.(1996年)。约束非线性最优控制:逆HJB方法。技术代表CIT-CDS 96-021。加利福尼亚理工学院。加利福尼亚州帕萨迪纳,邮编:91125。;Nevisic,V.和Primbs,J.A.(1996年)。约束非线性最优控制:逆HJB方法。技术代表CIT-CDS 96-021。加利福尼亚理工学院。加利福尼亚州帕萨迪纳市,邮编91125。
[21] Powell,W.,《近似动态规划:解决维度的诅咒》(2007),J.Wiley&Sons·Zbl 1156.90021号
[22] Sutton,R.S。;Barto,A.G.,《强化学习导论》(1998),麻省理工学院出版社:麻省剑桥麻省理学院出版社
[23] Tao,G.,(自适应控制设计和分析。自适应控制设计与分析,信号处理、通信和控制系列的自适应和学习系统(2003),威利国际科学:威利国际科霍博肯,新泽西州)·Zbl 1061.93004号
[24] Tijs,S.,《博弈论导论》(2003),印度斯坦图书代理:印度·兹比尔1018.91001
[25] Vamvoudakis,Kyriakos G。;Lewis,F.L.,解决连续时间无限时域最优控制问题的在线actor-critic算法,Automatica,46,5,878-888(2010)·Zbl 1191.49038号
[26] Vamvoudakis,K.、Vrabie,D.和Lewis,F.L.(2009年)。基于在线策略迭代的算法求解连续时间无限时域最优控制问题。程序。IEEE标准。纳什维尔ADPRL; Vamvoudakis,K.、Vrabie,D.和Lewis,F.L.(2009年)。基于在线策略迭代的算法求解连续时间无限时域最优控制问题。程序。IEEE标准。纳什维尔ADPRL
[27] 弗拉比,D。;帕斯特拉瓦努,O。;刘易斯,F.L。;Abu-Khalaf,M.,基于策略迭代的连续线性系统自适应最优控制,Automatica,45,2,477-484(2009)·Zbl 1158.93354号
[28] Vrabie,D.、Vamvoudakis,K.和Lewis,F.(2009年)。连续时间框架中基于广义策略迭代的自适应最优控制器程序。IEEE地中海控制和自动化会议; Vrabie,D.、Vamvoudakis,K.和Lewis,F.(2009年)。连续时间框架中基于广义策略迭代的自适应最优控制器程序。IEEE地中海控制和自动化会议
[29] Werbos,P.J.(1974年)。超越回归:行为科学中预测和分析的新工具。博士论文; Werbos,P.J.(1974)。超越回归:行为科学中预测和分析的新工具。博士论文
[30] Werbos,P.J.,《实时控制和神经建模的近似动态编程》(White,D.A.;Sofge,D.A.,《智能控制手册》(1992),Van Nostrand Reinhold:Van Nostrand Reinho尔德,纽约)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。