Differentiable Game Mechanics

Alistair Letcher; David Balduzzi; Sébastien Racanière; James Martens; Jakob Foerster; Karl Tuyls; Thore Graepel

深度学习建立在目标函数的梯度下降收敛到局部极小值的基本保证之上。不幸的是，这种保证在具有多重交互损失的设置（如生成性对抗网络）中失败。基于梯度的方法在游戏中的行为还没有得到很好的理解，随着对抗性和多目标体系结构的激增，这种方法变得越来越重要。在本文中，我们开发了新的工具来理解和控制$n$-player可微博弈中的动力学。关键结果是将博弈雅可比分解为两个分量。第一个是对称分量，它与潜对策有关，潜对策在隐函数上简化为梯度下降。第二个是反对称分量，它与哈密顿对策有关，哈密尔顿对策是一类新的对策，它遵循与经典力学系统中守恒定律类似的守恒定律。分解激发了辛梯度调整（SGA），这是一种在可微博弈中寻找稳定不动点的新算法。基本实验表明，在寻找GAN中稳定不动点方面，SGA与最近提出的算法相比具有竞争力，同时适用于更一般的情况，并在更一般的情形中具有保证。

可微博弈机制

摘要