×

多智能体离散时间图形游戏和强化学习解决方案。 (英语) Zbl 1367.91032号

摘要:本文介绍了一类新的多智能体离散时间动态游戏,在文献中称为动态图形游戏。因此,a地方的为仅依赖于的每个代理定义性能索引关于每个代理可用的本地信息根据离散时间耦合Hamilton-Jacobi方程的解,给出了纳什均衡策略和最佳响应策略。由于在这些博弈中,代理之间的相互作用是由通信图结构规定的,因此我们必须引入纳什均衡的新概念。证明了当所有主体都处于纳什均衡且图是强连通的时,该概念成立。给出了一种新的在线求解动态图形游戏的强化学习值迭代算法及其收敛性证明。当邻域中的所有代理更新其策略时,代理的策略形成一个纳什均衡,当邻域内的代理保持不变时,则形成一个最佳响应结果。本文将离散哈密顿力学、分布式多智能体控制、最优控制理论和博弈论结合起来,来制定和求解这些多智能体动态图形游戏。仿真实例表明了该方法在领导者同步情况下的有效性以及最优保证。

MSC公司:

91A25型 动态游戏
91A43型 涉及图形的游戏
91A55型 时间游戏
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Al-Tamimi,A。;刘易斯,F.L。;Abu-Khalaf,M.,使用近似动态规划的离散时间非线性HJB解决方案:收敛证明,IEEE系统汇刊,人与控制论,B部分,38,4,943-949(2008)
[2] 巴沙尔,T。;Olsder,G.J.,(动态非合作博弈论。动态非合作对策论,应用数学经典(1999),SIAM:SIAM Philadelphia)·Zbl 0946.91001号
[5] Bertsekas,D.P。;Tsitsiklis,J.N.,《神经动力学编程》(1996),雅典娜科学:雅典娜科技硕士·Zbl 0924.68163号
[7] Bryson,A.E.,《1950年至1985年的最优控制》,IEEE控制系统,16,3,26-33(1996)
[8] Busoniu,L。;巴布斯卡,R。;De Schutter,B.,《多智能体强化学习的综合调查》,IEEE系统、人与控制论汇刊第C部分:应用与评论,38,2,156-172(2008)
[9] Chang,C.F。;Hsu,J.Y。;Fu,L.,混合多智能体机器人系统的基于动态游戏的分析,国际电子商务管理杂志(IJEBM)(2007)
[11] 传真:J。;Murray,R.,车辆编队的信息流和协同控制,IEEE自动控制汇刊,49,9,1465-1476(2004)·Zbl 1365.90056号
[12] Freiling,G。;詹克,G。;Abou-Kandil,H.,关于闭环Nash博弈中耦合矩阵Riccati方程解的全局存在性,IEEE自动控制汇刊,41,2,264-269(2002)·Zbl 0845.90137号
[14] Gonzalez,O.,时间积分和离散哈密顿系统,非线性科学杂志,6,5,449-467(1996)·Zbl 0866.58030号
[15] 戈帕拉克里希南,R。;马尔登,J.R。;Wierman,A.,《博弈论控制的架构视图》,ACM SIGMETRICS性能评估评论,38,3,31-36(2011)
[16] 霍夫鲍尔,J。;Sigmund,K.,《进化博弈与人口动力学》(1998),剑桥大学出版社·Zbl 0914.90287号
[17] Y.Hong。;胡,J。;Gao,L.,带主动领导者和可变拓扑的多智能体共识跟踪控制,Automatica,42,7,1177-1182(2006)·Zbl 1117.93300号
[18] Jadbabaie,A。;林,J。;Morse,A.,使用最近邻规则协调移动自治代理组,IEEE自动控制事务,48,6,988-1001(2003)·Zbl 1364.93514号
[21] Khoo,S。;谢林。;Man,Z.,多机器人系统的鲁棒有限时间一致性跟踪算法,IEEE机电学报,14,219-228(2009)
[22] 拉尔,S。;West,M.,离散变分哈密顿力学,《物理学杂志A:数学与一般》,39,19,5509-5519(2006)·兹比尔1087.49027
[23] 兰卡斯特,P。;罗德曼,L.,《代数Riccati方程》(1995),克拉伦登出版社:牛津克拉伦登出版公司·Zbl 0836.15005号
[24] Lewis,F.,《应用最优控制和估算:数字设计和实现》(1992),普伦蒂斯·霍尔:新泽西州普伦蒂斯霍尔·Zbl 0778.93001号
[25] 刘易斯,F.L。;弗拉比,D。;Syrmos,V.L.,《最优控制》(2012),约翰·威利·Zbl 1284.49001号
[26] 李,Z。;段,Z。;陈,G。;Huang,L.,《多智能体系统与复杂网络同步的共识:Aunified观点》,IEEE电路与系统汇刊。I.常规论文,57,1,213-224(2010)·Zbl 1468.93137号
[27] 李,X。;王,X。;Chen,G.,《将复杂动态网络固定到平衡状态》,IEEE电路与系统汇刊。I.常规论文,51,10,2074-2087(2004)·Zbl 1374.94915号
[28] Littman,M.L.,马尔可夫博弈中的值函数强化学习,认知系统研究杂志,2,1,55-66(2001)
[29] Marden,J.R。;Arslan,G。;Shamma,J.S.,《潜在游戏中具有惯性的联合策略虚拟游戏》,IEEE自动控制交易,54,2,208-220(2009)·Zbl 1367.91035号
[30] Marsden,J.E。;West,M.,离散力学和变分积分器,《数值学报》,10,5,357-514(2001)·Zbl 1123.37327号
[31] 麦克拉克伦,R.I。;基斯佩尔,G.R.W。;Robidoux,N.,使用离散梯度的几何积分,《皇家学会哲学学报A》,35717541021-1045(1999)·Zbl 0933.65143号
[32] Mu,S。;Chu,T.等人。;Wang,L.,有领导者的运动粒子群中的协调集体运动,Physica a,351211-226(2005)
[34] Olfati-Saber,R。;传真:J。;Murray,R.,《网络化多智能体系统中的共识与合作》,IEEE学报,95,1,215-233(2007)·Zbl 1376.68138号
[35] Olfati-Saber,R。;Murray,R.M.,具有切换拓扑和延迟的代理网络中的共识问题,IEEE自动控制汇刊,49,9,1520-1533(2004)·Zbl 1365.93301号
[36] Qu,Z.,《动力系统的合作控制:在自动车辆上的应用》(2009),Springer-Verlag:Springer-Verlag纽约·Zbl 1171.93005号
[37] Ren,W。;Beard,R.,动态变化交互拓扑下多代理系统中的共识寻求,IEEE自动控制事务,50,5,655-661(2005)·Zbl 1365.93302号
[38] 任,W。;Beard,R.W.,《多车辆协同控制中的分布式共识》(2008),施普林格:施普林格柏林·Zbl 1144.93002号
[40] Ren,W。;摩尔,K。;Chen,Y.,多车辆系统协同控制中的高阶和模型参考共识算法,《动态系统、测量和控制杂志》,129,5,678-688(2007)
[41] Sandholm,W.H.,《人口游戏与进化动力学》(2010),麻省理工学院出版社·Zbl 1208.91003号
[42] Sen,S。;Weiss,G.,《多智能体系统中的多智能体学习:分布式人工智能的现代方法》,259-298(1999),麻省理工学院出版社:麻省理学院出版社剑桥
[43] Shinohara,R.,自愿参与博弈中的联盟证明均衡,国际博弈论杂志,39,4,603-615(2010)·Zbl 1211.91021号
[44] 肖姆,Y。;Leyton-Brown,K.,《多代理系统:算法、游戏理论和逻辑基础》(2009),剑桥大学出版社·Zbl 1163.91006号
[45] Suris,Y.B.,可积离散化问题:哈密顿方法(2003),Birkhäuser:Birkhäuser-Basel·Zbl 1033.37030号
[46] Suris,Y.B.,离散拉格朗日模型,(离散可积系统。离散可积体系,物理讲义,第644卷(2004),Springer),111-184·Zbl 1066.37035号
[47] Sutton,R.S。;Barto,A.G.,《强化学习导论》(1998),麻省理工学院出版社:麻省理学院出版社剑桥
[49] Tsitsiklis,J.,《分散决策和计算中的问题》(1984年),电子系。工程和计算。科学。,麻省理工学院:电子系。工程和计算。科学。,麻省理工学院剑桥分校(博士论文)
[50] 瓦姆沃达基斯,K.G。;Lewis,F.L.,解决连续时间无限时域最优控制问题的在线actor-critic算法,Automatica,46,5,878-888(2010)·Zbl 1191.49038号
[51] 瓦姆沃达基斯,K.G。;Lewis,F.L.,《多玩家非零和游戏:耦合Hamilton-Jacobi方程的在线自适应学习解决方案》,Automatica,47,8,1556-1569(2011)·Zbl 1237.91015号
[52] Vamvoudakis,K.G。;刘易斯,F.L。;Hudas,G.R.,《多智能体微分图形游戏:同步优化的在线自适应学习解决方案》,Automatica,48,8,1598-1611(2012)·Zbl 1267.93190号
[53] 弗拉比,D。;帕斯特拉瓦努,O。;刘易斯,F.L。;Abu-Khalaf,M.,基于策略迭代的连续线性系统自适应最优控制,Automatica,45,2,477-484(2009)·Zbl 1158.93354号
[54] 弗兰克斯,P。;Verbeeck,K。;Nowe,A.,马尔可夫博弈中的分散学习,IEEE系统、人与控制论汇刊,38,4,976-981(2008)
[55] 王,X。;Chen,G.,无标度动态网络的Pinning控制,Physica A,310,3-4,521-531(2002)·Zbl 0995.90008号
[56] 王,D。;刘,D。;魏强。;赵,D。;Jin,N.,基于自适应动态规划的未知非仿射非线性离散时间系统的最优控制,Automatica,48,8,1825-1832(2012)·Zbl 1269.49042号
[57] Werbos,P.J.,《超越回归:行为科学中预测和分析的新工具》(1974年),(博士论文)
[59] Werbos,P.J.,《实时控制和神经建模的近似动态编程》(White,D.A.;Sofge,D.A.,《智能控制手册》(1992),Van Nostrand Reinhold:Van Nostrand Reinho尔德,纽约)
[60] Young,H.P.,《个人战略与社会结构》(1998),普林斯顿大学出版社:普林斯顿大学出版社,新泽西州普林斯顿
[61] 张,H。;罗,Y。;Liu,D.,一类具有控制约束的离散仿射非线性系统的基于神经网络的近最优控制,IEEE神经网络汇刊,20,9,1490-1503(2009)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。