×

分层控制问题的开放式Stackelberg学习解决方案。 (英语) Zbl 1417.93038号

摘要:本文提出了一种基于自适应学习技术的新框架来解决连续时间开环Stackelberg对策。该方法在保证闭环系统平衡点渐近稳定的同时,实时逼近博弈值,并使策略收敛到开环Stackelberg平衡解。它被实现为每个玩家的独立演员/评论员参数网络近似器结构,并涉及同步连续时间自适应。为了将层次结构引入耦合优化问题并加以实现,我们将跟随器的控制器动力学与领队相连。激励条件的持续性保证了两个批评者收敛到最终解决分层优化问题的实际博弈值。仿真实例表明了该方法的有效性。

MSC公司:

93甲13 层次系统
91A65型 分级游戏(包括Stackelberg游戏)
91A10号 非合作游戏

软件:

虹膜
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 巴萨,T,奥尔斯德,GJ。动态非合作博弈论。宾夕法尼亚州费城:SIAM;1999. ·Zbl 0946.91001号
[2] Freiling,G,Jank,G,Abou‐Kandil,H。关于闭环Nash博弈中耦合矩阵Riccati方程解的全局存在性。IEEE Trans Autom控制. 1996; 41( 2): 264‐ 269. ·Zbl 0845.90137号
[3] Tijs,SH.博弈论导论。印度斯坦图书局;2003. ·Zbl 1018.91001号
[4] Limebeer,D,Anderson,BD,Hendel,B.混合瓮的纳什游戏方法:x-wiley:acs:media:acs2831:acs2831-math-0119控制。IEEE Trans Autom控制.1994年;39( 1): 69‐ 82. ·Zbl 0796.93027号
[5] 冯·斯塔克伯格,H.市场结构与均衡。施普林格科学与商业媒体;2010. ·Zbl 1405.91003号
[6] 他、X、Prasad、A、Sethi、SP、Gutierrez、GJ。供应和营销渠道中Stackelberg差分博弈模型的调查。系统科学与系统工程杂志. 2007; 16( 4): 385‐ 413.
[7] Pita,J,Jain,M,Marecki,J等人。部署的ARMOR保护:洛杉矶国际机场安全博弈模型的应用。论文发表于:第七届自主代理和多代理系统国际联合会议论文集:工业轨道;2008; 葡萄牙埃斯托利尔。
[8] Tsai,J,Kiekintveld,C,Ordonez,F,Tambe,M,Rathi,S.IRIS——运输网络战略安全分配工具,2009年。
[9] Papavassilopulos,G,Cruz,J.非经典控制问题和Stackelberg游戏。IEEE Trans Autom控制. 1979; 24( 2): 155‐ 166. ·Zbl 0406.49008号
[10] 巴萨,T,奥尔斯德,GJ。分层控制问题中的团队最优闭环Stackelberg策略。Automatica公司. 1980; 16( 4): 409‐ 414. ·Zbl 0444.93004号
[11] M·西蒙,JB·克鲁兹。非零和博弈中的Stackelberg策略。J Optim理论应用. 1973; 11( 5): 533‐ 555. ·Zbl 0243.90056号
[12] M·西蒙,JB·克鲁兹。非零和博弈中Stackelberg策略的其他方面。J Optim理论应用. 1973; 11( 6): 613‐ 626. ·Zbl 0245.90039号
[13] Abou‐Kandil,H,Freiling,G,Ionescu,V,Jank,G.控制和系统理论中的矩阵Riccati方程。Birkhäuser,2012年·Zbl 1027.93001号
[14] Jungers,M.论具有时间偏好率的线性二次Stackelberg博弈。IEEE Trans Autom控制. 2008; 53( 2): 621‐ 625. ·Zbl 1367.91031号
[15] Khalil,H,Medanic,J.奇摄动线性二次型问题的闭环Stackelberg策略。IEEE Trans Autom控制1980年;25( 1): 66‐ 71. ·Zbl 0432.49007号
[16] Johnson,M,Hiramatsu,T,Fitz‐Coy,N,Dixon,WE。不确定Euler-Lagrange系统的渐近Stackelberg最优控制设计。论文发表于:第49届IEEE决策与控制会议论文集;2010; 美国佐治亚州亚特兰大。
[17] Medanic,J.线性二次问题中的闭环Stackelberg策略。IEEE Trans Autom控制. 1978; 23( 4): 632‐ 637. ·Zbl 0381.49006号
[18] Basar,T.线性二次博弈中的一个反例:非线性纳什解的存在性。J Optim理论应用. 1974; 14( 4): 425‐ 430. ·Zbl 0272.90095号
[19] Nie、P‐y、Lai、M‐y和Zhu、S‐j。具有非唯一解决方案的动态反馈Stackelberg游戏。非线性分析:理论方法应用. 2008; 69( 7): 1904‐ 1913. ·Zbl 1142.91381号
[20] Jungers,M,Trélat,E,Abou‐Kandil,H.Min-max和Min-Min Stackelberg战略与闭环信息结构。J动态控制系统. 2011; 17( 3): 387. ·Zbl 1228.91019号
[21] Jank,G,Kremer,D,Kun,G,Polzer,J,Scholt,T.跟踪柔性机器人问题的Stackelberg博弈方法。论文发表于:2001年欧洲控制会议(ECC);2001; 葡萄牙波尔图。
[22] Yuan,Y,Sun,F,Liu,H。针对智能攻击者的网络物理系统弹性控制:分层Stackelberg游戏方法。国际系统科学杂志. 2016; 47( 9): 2067‐ 2077. ·Zbl 1345.93049号
[23] 鲍威尔,WB。近似动态规划:解决维数问题。第703卷。约翰·威利父子公司;2011. ·Zbl 1242.90002号
[24] Sutton,RS,Barto,AG。强化学习:简介。第1卷。马萨诸塞州剑桥:麻省理工学院出版社;1998年·Zbl 1407.68009号
[25] Bertsekas,DP,Tsitsiklis,JN。神经动态编程:概述。论文发表于:第34届IEEE决策与控制会议论文集,第1卷;1995; 美国洛杉矶新奥尔良。
[26] Vrabie,D,Vamvudakis,KG,Lewis,FL。通过强化学习原理的最优自适应控制和微分对策。第2卷。IET;2013; 伦敦·Zbl 1316.49007号
[27] Vamvoudakis,KG,Modares,H,Kiumarsi,B,Lewis,FL。基于博弈论的实时强化学习控制系统算法:如何在线解决多人游戏。IEEE控制系统. 2017; 37:33-52。
[28] Freiling,G,Jank,G,Kremer,D.Stackelberg对策中出现的非对称Riccati方程的可解性条件。论文发表于:欧洲控制会议(ECC)会议记录;2003; 英国剑桥。
[29] Vamvoudakis,KG,Lewis,FL,Johnson,M,Dixon,WE。层次问题中Stackelberg游戏的在线学习算法。论文发表于:第51届决策与控制年度会议记录;2012; 毛伊岛,HI,美国。
[30] Bagchi,A,Bašar,T.Stackelberg线性二次随机微分对策的策略。J Optim理论应用. 1981; 35( 3): 443‐ 464. ·Zbl 0445.90114号
[31] Leitmann,G.论广义Stackelberg策略。J Optim理论应用. 1978; 26( 4): 637‐ 643. ·Zbl 0372.90137号
[32] Freiling,G,Jank,G,Lee,SR.线性二次微分对策中开环Stackelberg均衡的存在性和唯一性。J Optim理论应用. 2001; 110( 3): 515‐ 544. ·Zbl 0989.49027号
[33] Abou‐Kandil,H,Bertrand,P.开环Stackelberg游戏的分析解决方案。IEEE Trans Autom控制. 1985; 30( 12): 1222‐ 1224. ·Zbl 0589.90097号
[34] Chen,C,Cruz,J.Stackelberg关于带有偏差信息模式的两人博弈的解决方案。IEEE Trans Autom控制. 1972; 17( 6): 791‐ 798. ·Zbl 0262.90095号
[35] Abou‐Kandil,H,Bertrand,P.开环Stackelberg游戏的分析解决方案。IEEE Trans Autom控制1985年;30: 1222‐ 1224. ·Zbl 0589.90097号
[36] Ioannou,P,Fidan,B.自适应控制教程。SIAM工业与应用数学学会;2006; 宾夕法尼亚州费城·Zbl 1116.93001号
[37] Kamalapurkar、R、Klotz、JR、Dixon、WE。N人非零和微分对策基于并行学习的近似反馈纳什均衡解。IEEE/CAA自动化杂志2014年;1( 3): 239‐ 247.
[38] 莫达雷斯,H,刘易斯,佛罗里达州,Naghibi‐Sistani,MB。部分未知约束输入连续时间系统自适应最优控制的集成强化学习和经验回放。Automatica公司2014年;50( 1): 193‐ 202. ·Zbl 1298.49042号
[39] 路易斯,佛罗里达州,西尔莫斯,弗吉尼亚州。最优控制。约翰·威利父子公司;1995; 新泽西州。
[40] Antsaklis,P,Michel,AN。线性系统。施普林格科学与商业媒体;2006; Birkhä用户Boston·Zbl 1189.93001号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。