×

离散时间动态图形游戏:无模型强化学习解决方案。 (英语) Zbl 1340.91018号

摘要:本文介绍了一种无模型强化学习技术,用于解决一类称为动态图形游戏的动态游戏。图形游戏是由多智能体动力学系统产生的,在该系统中,固定控制用于使所有智能体同步到命令生成器或领导智能体的状态。为动态图形游戏开发了新型耦合Bellman方程和哈密顿函数。哈密顿力学用于推导最优性的必要条件。根据本文提出的一组耦合Hamilton-Jacobi-Bellman方程的解,给出了动态图对策的解。图形博弈的纳什均衡解是根据耦合的Hamilton-Jacobi-Bellman方程的解给出的。提出了一种在线无模型策略迭代算法,用于学习动态图形游戏的纳什解。该算法不需要任何关于代理动力学的知识。在对图的互关联性进行适当假设的情况下,给出了该多智能体学习算法的收敛性证明。利用具有关键网络结构的梯度下降技术实现策略迭代算法,实时求解图形游戏。

MSC公司:

91A25型 动态游戏
68T05型 人工智能中的学习和自适应系统
91A43型 涉及图形的游戏
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] P.J.Werbos。用于控制和系统识别的神经网络。第28届IEEE决策与控制会议记录,纽约:IEEE,1989:260-265。
[2] P.J.Werbos。用于实时控制和神经建模的近似动态规划。智能控制手册。D.A.White,D.A.Sofge(编辑)。纽约:Van Nostrand Reinhold,1992年。
[3] M.I.Abouheaf、F.L.Lewis、S.Haesaert等。多智能体离散时间图形游戏:交互式纳什均衡和值迭代解。《美国控制会议论文集》,纽约:IEEE,2013:4189–4195。
[4] K.G.Vamvoudakis,F.L.Lewis,G.R.Hudas。多智能体微分图形游戏:用于同步优化的在线自适应学习解决方案。Automatica,2012,48(8):1598–1611·Zbl 1267.93190号 ·doi:10.1016/j.automatica.2012.05.074
[5] A.E.布莱森。最佳控制——1950年至1985年。IEEE控制系统,1996,16(3):26–33·数字对象标识代码:10.1109/37.506395
[6] F.L.Lewis、D.Vrabie、V.L.Syrmos。最优控制。第三版,纽约:John Wiley&儿子,2012年·Zbl 1284.49001号
[7] J·E·马斯登,M·韦斯特。离散力学和变分积分器。《数值学报》,2001,10(5):357–514·Zbl 1123.37327号 ·doi:10.1017/S096249290100006X号
[8] Y.B.Suris。离散拉格朗日模型。离散可积系统国际学校,柏林:施普林格出版社,2004:111-184·Zbl 1066.37035号
[9] S.Lall,M.West。离散变分哈密顿力学。《物理学报A:数学与普通》,2006,39(19):5509–5519·兹比尔1087.49027 ·doi:10.1088/0305-4470/39/19/S11
[10] S.Mu、T.Chu、L.Wang。具有领导者的运动粒子群中的协调集体运动。《物理学A》,2005,351(2/4):211-226·doi:10.1016/j.physa.2004.12.054
[11] R.W.Beard和V.Stepanyan。分布式多车协同控制中的信息同步。IEEE决策和控制会议记录,毛伊岛:IEEE,2003:2029–2034。
[12] A.Jadbabaie、J.Lin和A.Morse。使用最近邻规则协调移动自治代理组。IEEE自动控制汇刊,2003,48(6):988–1001·Zbl 1364.93514号 ·doi:10.1109/TAC.2003.812781
[13] R.Olfati-Saber,R.Murray。具有切换拓扑和时滞的代理网络中的一致性问题。IEEE自动控制汇刊,2004,49(9):1520–1533·Zbl 1365.93301号 ·doi:10.1109/TAC.2004.834113
[14] 动态系统的协同控制:在自主车辆中的应用。纽约:施普林格出版社,2009年·Zbl 1171.93005号
[15] W.Ren、R.Beard、E.Atkins。多智能体协调中的共识问题综述。《美国控制会议论文集》,纽约:IEEE,2005:1859-1864。
[16] 齐齐克利斯(J.Tsitsiklis)。分散决策和计算中的问题。博士论文。马萨诸塞州剑桥:麻省理工学院电气工程与计算机科学系,1984年。
[17] Z.Li,Z.Duan,G.Chen,等。多智能体系统的共识和复杂网络的同步:一个统一的观点。IEEE电路与系统汇刊,2010,57(1):213-224。
[18] X.Li,X.Wang,G.Chen。将复杂的动力网络固定到平衡状态。IEEE电路与系统汇刊,2004,51(10):2074–2087·Zbl 1374.94915号 ·doi:10.1109/TCSI.2004.835655
[19] W.Ren、K.Moore、Y.Chen。多车辆系统协同控制中的高阶和模型参考一致性算法。《动态系统、测量与控制杂志》,2007,129(5):678–688·数字对象标识代码:10.1115/1.2764508
[20] 匡杰,朱杰。关于高阶多智能体系统的一致性协议。控制理论与应用杂志,2010,8(4):406–412·doi:10.1007/s11768-010-9064-4
[21] S.Zhang,G.Duan。控制输入有界的多智能体协同控制系统中的一致性寻求。控制理论与应用杂志,2011,9(2):210-214·doi:10.1007/s11768-011-9077-7
[22] R.Gopalakrishnan、J.R.Marden和A.Wierman。博弈论控制的架构视图。《绩效评估评论》,2011年,38(3):31–36·数字对象标识代码:10.1145/1925019.1925026
[23] T.Bašar、G.J.Olsder。动态非合作博弈论。应用数学经典。第2版,费城:SIAM,1999年。
[24] G.Freiling、G.Jank、H.Abou-Kandil。闭环纳什对策中耦合矩阵Riccati方程解的全局存在性。IEEE自动控制汇刊,2002,41(2):264–269·Zbl 0845.90137号 ·数字对象标识代码:10.1109/9.481532
[25] Z.Gajic,T.-Y.Li.求解耦合代数Riccati方程的两种新算法的仿真结果。第三届差分博弈国际研讨会论文集。索菲亚·安蒂波利斯,法国,1988年。
[26] A.G.Barto、R.S.Sutton、C.W.Anderson。类似神经元的自适应元件可以解决困难的学习控制问题。IEEE系统人与控制论汇刊,1983,13(5):834-846·doi:10.10109/TSMC.183.6313077
[27] R.霍华德。动态规划和马尔可夫过程。马萨诸塞州剑桥:麻省理工学院出版社,1960年·Zbl 0091.16001号
[28] R.贝尔曼。动态编程。普林斯顿:普林斯顿大学出版社,1957年·Zbl 0077.13605号
[29] D.P.Bertsekas、J.N.Tsitsiklis。神经动力学编程。马萨诸塞州贝尔蒙特:雅典娜科学出版社,1996年·Zbl 0924.68163号
[30] P.J.Werbos。《大脑中的智能:关于它如何工作和如何构建的理论》,牛津大学目标导向神经系统会议:Pergamon-Elsevier Science Ltd.,2009:200-212。
[31] D.Vrabie,F.L.Lewis。零和微分对策在线求解的自适应动态规划。控制理论与应用杂志,2011,9(3):353–360·Zbl 1249.90308号 ·doi:10.1007/s11768-011-0166-4
[32] J.Morimoto、G.Zeglin、C.Atkeson。Minimax微分动态规划:应用于两足步行机器人。IEEE/RSJ智能机器人与系统国际会议,纽约:IEEE,2003:1927–1932。
[33] T.兰德利乌斯。强化学习和分布式局部模型综合。博士论文。瑞典:林科平大学,1997年。
[34] R.S.Sutton,A.G.Barto。强化学习-简介。马萨诸塞州剑桥:麻省理工学院出版社,1998年。
[35] S.Sen和G.Weiss。在多智能体系统中学习:分布式人工智能的现代方法。马萨诸塞州剑桥:麻省理工学院出版社,1999:259–298。
[36] K.G.Vamvoudakis,F.L.Lewis。在线actor-critic算法求解连续时间无限时域最优控制问题。Automatica,2010,46(5):878–888·Zbl 1191.49038号 ·doi:10.1016/j.automatica.2010.02.018
[37] K.G.Vamvoudakis,F.L.Lewis。多玩家非零和游戏:耦合Hamilton-Jacobi方程的在线自适应学习解。自动化,2011,47(8):1556–1569·Zbl 1237.91015号 ·doi:10.1016/j.automatica.2011.03.005
[38] D.Vrabie,O.Pastravanu,F.L.Lewis,等,基于策略迭代的连续线性系统自适应最优控制。Automatica,2009,45(2):477–484·Zbl 1158.93354号 ·doi:10.1016/j.automatica.2008.017
[39] D.P.Bertsekas博士。近似策略迭代:调查和一些新方法。控制理论与应用杂志,2011,9(3):310-335·Zbl 1249.90179号 ·文件编号:10.1007/s11768-011-1005-3
[40] L.Busoniu、R.Babuska、B.De-Schutter。多智能体强化学习的综合综述。IEEE系统、人与控制论汇刊,2008,38(2):156-172·doi:10.10109/TSMCC.2007.913919
[41] P.Vrancx、K.Verbeeck、A.Nowe。马尔可夫博弈中的分散学习。IEEE系统、人与控制论汇刊,2008,38(4):976–981·doi:10.1109/TSMCB.2008.920998
[42] M.L.利特曼。马尔可夫对策中的值函数强化学习。认知系统研究,2001,2(1):55-66·doi:10.1016/S1389-0417(01)00015-8
[43] Y.Jiang,Z.Jiang.江。具有完全未知动力学的连续线性系统的计算自适应最优控制。Automatica,2012,48(10):2699–2704·Zbl 1271.93088号 ·doi:10.1016/j.automatica.2012.06.096
[44] Y.Jiang,Z.Jiang.江。连续时间非线性系统的全局自适应动态规划。2013: http://arxiv.org/abs/1401.0020 . ·Zbl 1360.49017号
[45] T.Dierks,S.Jagannathan。使用在线Hamilton-Jacobi-Isaacs公式对仿射非线性连续时间系统进行最优控制。第49届IEEE决策与控制会议记录,纽约:IEEE,2010:3048-3053。
[46] M.Johnson,T.Hiramatsu,N.Fitz-Coy等。不确定Euler-Lagrange系统的渐近Stackelberg最优控制设计。第49届IEEE决策与控制会议记录,纽约:IEEE,2010:6686–6691。
[47] F.L.刘易斯。应用最优控制和估计:数字设计和实现。恩格尔伍德悬崖:普伦蒂斯·霍尔,1992年·Zbl 0778.93001号
[48] S.Khoo,L.Xie,Z.Man。多机器人系统的鲁棒有限时间一致性跟踪算法。IEEE/ASME机电一体化汇刊,2009,14(2):219–228·doi:10.1109/TMECH.2009.2014057
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。