本文介绍了一类新的多智能体离散时间动态博弈,在文献中称为动态图形博弈。因此,为每个代理定义了本地性能索引,该索引仅取决于每个代理可用的本地信息。根据离散耦合Hamilton–Jacobi方程的解,给出了纳什均衡策略和最佳响应策略。由于在这些博弈中,代理之间的相互作用是由通信图结构规定的,因此我们必须引入纳什均衡的新概念。证明了当所有主体都处于纳什均衡且图是强连通的时,该概念成立。给出了一种新的在线求解动态图形游戏的强化学习值迭代算法及其收敛性证明。当邻域中的所有代理更新其策略时,代理的策略形成一个纳什均衡,当邻域内的代理保持不变时,则形成一个最佳响应结果。本文将离散哈密顿力学、分布式多智能体控制、最优控制理论和博弈论结合起来,来制定和求解这些多智能体动态图形游戏。仿真实例表明了该方法在领导者同步情况下的有效性以及最优保证。
Originele塔尔-2 | 恩格斯 |
---|
帕吉纳(van-tot) | 3038-3053 |
---|
蒂季施里夫 | Automatica公司 |
---|
体积 | 50 |
---|
Nummer van het tijdschrift号 | 12 |
---|
内政部 | |
---|
状态 | Gepublicerd公司-2014 |
---|