多智能体离散时间图形游戏和强化学习解决方案

M.Abouheaf、F.L.Lewis、K.G.Vamvoudakis、,S.海萨尔,R.Babuska

Onderzoeksoutput公司:Bijdrage aan tijdschrift公司Tijdschriftartikel公司学术同行评审

219 引用(Scopus)
617 下载(纯)

Samenvatting公司

本文介绍了一类新的多智能体离散时间动态博弈,在文献中称为动态图形博弈。因此,为每个代理定义了本地性能索引,该索引仅取决于每个代理可用的本地信息。根据离散耦合Hamilton–Jacobi方程的解,给出了纳什均衡策略和最佳响应策略。由于在这些博弈中,代理之间的相互作用是由通信图结构规定的,因此我们必须引入纳什均衡的新概念。证明了当所有主体都处于纳什均衡且图是强连通的时,该概念成立。给出了一种新的在线求解动态图形游戏的强化学习值迭代算法及其收敛性证明。当邻域中的所有代理更新其策略时,代理的策略形成一个纳什均衡,当邻域内的代理保持不变时,则形成一个最佳响应结果。本文将离散哈密顿力学、分布式多智能体控制、最优控制理论和博弈论结合起来,来制定和求解这些多智能体动态图形游戏。仿真实例表明了该方法在领导者同步情况下的有效性以及最优保证。
Originele塔尔-2恩格斯
帕吉纳(van-tot)3038-3053
蒂季施里夫Automatica公司
体积50
Nummer van het tijdschrift号12
内政部
状态Gepublicerd公司-2014

文杰拉夫德鲁克

Duik in de onderzoekthema的van“多智能体离散时间图形游戏和强化学习解决方案”。每个人都是独一无二的。

引文编辑