Multi-agent discrete-time graphical games and reinforcement learning solutions

M. Abouheaf; F.L. Lewis; K.G. Vamvoudakis; S. Haesaert; R. Babuska

doi:10.1016/j.automatica.2014.10.047

多智能体离散时间图形游戏和强化学习解决方案

M.Abouheaf、F.L.Lewis、K.G.Vamvoudakis、，S.海萨尔，R.Babuska

Onderzoeksoutput公司:Bijdrage aan tijdschrift公司›Tijdschriftartikel公司›学术›同行评审

219 引用（Scopus）

617 下载（纯）

Samenvatting公司

本文介绍了一类新的多智能体离散时间动态博弈，在文献中称为动态图形博弈。因此，为每个代理定义了本地性能索引，该索引仅取决于每个代理可用的本地信息。根据离散耦合Hamilton–Jacobi方程的解，给出了纳什均衡策略和最佳响应策略。由于在这些博弈中，代理之间的相互作用是由通信图结构规定的，因此我们必须引入纳什均衡的新概念。证明了当所有主体都处于纳什均衡且图是强连通的时，该概念成立。给出了一种新的在线求解动态图形游戏的强化学习值迭代算法及其收敛性证明。当邻域中的所有代理更新其策略时，代理的策略形成一个纳什均衡，当邻域内的代理保持不变时，则形成一个最佳响应结果。本文将离散哈密顿力学、分布式多智能体控制、最优控制理论和博弈论结合起来，来制定和求解这些多智能体动态图形游戏。仿真实例表明了该方法在领导者同步情况下的有效性以及最优保证。

Originele塔尔-2	恩格斯
帕吉纳（van-tot）	3038-3053
蒂季施里夫	Automatica公司
体积	50
Nummer van het tijdschrift号	12
内政部	https://doi.org/10.1016/j.automatica.2014.10.047
状态	Gepublicerd公司-2014

Toegang tot文件

10.1016/j.自动.2014.10.047

发布者版本Definitieve gepublicerede versie，781 KB

引文编辑

@第{64cbf5d8be8547b4bcdaa6beed5ccd36条，

title=“多代理离散时间图形游戏和强化学习解决方案”，

抽象=“本文介绍了一类新的多智能体离散时间动态博弈，在文献中称为动态图形博弈。为此，为每个智能体定义了一个局部性能指标，该指标仅取决于每个智能体可用的局部信息。纳什均衡策略和最佳响应策略都是根据策略离散时间耦合Hamilton–Jacobi方程的解。由于在这些博弈中，代理之间的相互作用是由通信图结构规定的，因此我们必须引入纳什均衡的新概念。证明了当所有主体都处于纳什均衡且图是强连通的时，该概念成立。给出了一种新的在线求解动态图形游戏的强化学习值迭代算法及其收敛性证明。当邻域中的所有代理更新其策略时，代理的策略形成一个纳什均衡，当邻域内的代理保持不变时，则形成一个最佳响应结果。本文将离散哈密顿力学、分布式多智能体控制、最优控制理论和博弈论结合起来，来制定和求解这些多智能体动态图形游戏。仿真实例表明了该方法在领导者同步情况下的有效性以及最优保证。",

author=“M.Abouheaf和F.L.Lewis和K.G.Vamvoudakis以及S.Haesaert和R.Babuska”，

year=“2014”，

doi=“10.1016/j.automatia.2014.10.047”，

language=“英语”，

volume=“50”，

页码=“3038-3053”，

journal=“自动化”，

issn=“0005-1098”，

publisher=“爱思唯尔”，

number=“12”，

}

TY-JOUR公司

T1-多代理离散时间图形游戏和强化学习解决方案

澳大利亚-Abouheaf，M。

AU-刘易斯，F.L。

澳大利亚-瓦姆武达基斯，K.G。

澳大利亚-海瑟特，S。

澳大利亚-巴布斯卡，R。

2014年上半年

2014年1月

N2-本文介绍了一类新的多智能体离散时间动态游戏，在文献中称为动态图形游戏。因此，为每个代理定义了本地性能索引，该索引仅取决于每个代理可用的本地信息。根据离散耦合Hamilton–Jacobi方程的解，给出了纳什均衡策略和最佳响应策略。由于在这些博弈中，代理之间的相互作用是由通信图结构规定的，因此我们必须引入纳什均衡的新概念。证明了当所有主体都处于纳什均衡且图是强连通的时，该概念成立。给出了一种新的在线求解动态图形游戏的强化学习值迭代算法及其收敛性证明。当邻域中的所有代理更新其策略时，代理的策略形成一个纳什均衡，当邻域内的代理保持不变时，则形成一个最佳响应结果。本文将离散哈密顿力学、分布式多智能体控制、最优控制理论和博弈论结合起来，来制定和求解这些多智能体动态图形游戏。仿真实例表明了该方法在领导者同步情况下的有效性以及最优保证。

AB-本文介绍了一类新的多智能体离散时间动态游戏，在文献中称为动态图形游戏。因此，为每个代理定义了本地性能索引，该索引仅取决于每个代理可用的本地信息。根据离散时间耦合Hamilton–Jacobi方程的解，给出了纳什均衡策略和最佳响应策略。由于在这些游戏中，代理之间的交互是由通信图结构规定的，我们必须引入纳什均衡的新概念。证明了当所有主体都处于纳什均衡且图是强连通的时，该概念成立。给出了一种新的在线求解动态图形游戏的强化学习值迭代算法及其收敛性证明。当邻域中的所有代理更新其策略时，代理的策略形成一个纳什均衡，当邻域内的代理保持不变时，则形成一个最佳响应结果。本文将离散哈密顿力学、分布式多智能体控制、最优控制理论和博弈论结合起来，来制定和求解这些多智能体动态图形游戏。仿真实例表明了该方法在领导者同步情况下的有效性以及最优保证。

U2-10.1016/j.automatica.2014.10.047

DO-10.1016/j.自动2014.10.047

M3-物品

序号-0005-1098

VL-50

SP-3038型

EP-3053型

JO-自动化

JF-自动化

IS-12标准

急诊室-

多智能体离散时间图形游戏和强化学习解决方案

Samenvatting公司

Toegang tot文件

文杰拉夫德鲁克

引文编辑