×

不同的游戏机制。 (英语) Zbl 1489.91032号

摘要:深度学习是建立在目标函数的梯度下降收敛于局部极小值的基础上的。不幸的是,这种保证在具有多重交互损失的设置(如生成性对抗网络)中失败。基于梯度的方法在游戏中的行为还没有得到很好的理解,随着对抗性和多目标架构的激增,这种方法变得越来越重要。在本文中,我们开发了新的工具来理解和控制玩家可微游戏中的动力学。
关键结果是将博弈雅可比分解为两个分量。第一个是对称分量,它与潜对策有关,潜对策在隐函数上简化为梯度下降。第二个是反对称分量,它与哈密顿对策有关,哈密尔顿对策是一类新的对策,它遵循与经典力学系统中守恒定律类似的守恒定律。分解激发了辛梯度调整(SGA),一种寻找稳定固定值的新算法微分对策中的点。基本实验表明,在寻找GAN中稳定不动点方面,SGA与最近提出的算法相比具有竞争力,同时适用于更一般的情况,并在更一般的情形中具有保证。

MSC公司:

91A23型 微分对策(博弈论方面)
62G05型 非参数估计
2017年10月68日 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] S Abdallah和V R Lesser。一种具有非线性动力学的多智能体强化学习算法。J.阿蒂夫。智力。决议,33:521-5492008·Zbl 1165.91328号
[2] V阿诺德。经典力学的数学方法。施普林格,1989年·Zbl 0692.70003号
[3] J Bailey和G Piliouras。网络零和博弈中的多智能体学习是一个哈密顿系统。2019年国际航空航天学会。
[4] D Balduzzi。强类型代理可以保证安全交互。InICML,2017年。
[5] D Balduzzi、S Racani'ere、J Martens、J Foerster、K Tuyls和T Graepel。n人可微对策的力学。InICML,2018年a。
[6] D Balduzzi、K Tuyls、J Perolat和T Graepel。重新评估评估。InNeurIPS,2018年b。
[7] R Bott和L Tu.代数拓扑中的微分形式。斯普林格,1995年·Zbl 0496.55001号
[8] F博塔新。关于前辛流形的Marsden-Weinstein归约定理。2005
[9] M Bowling和M Veloso。使用可变学习速率的多智能体学习。人工智能,136:215-2502002·Zbl 0995.68075号
[10] M保龄球。多智能体学习中的收敛性和不收敛性。InNeurIPS,第209-216页,2004年。
[11] Y Burda、H Edwards、D Pathak、A Storkey、T Darrell和A Efros。好奇驱动学习的大规模研究。InICLR,2019年。
[12] O Candogan、I Menache、A Ozdaglar和P A Parrilo。游戏的流程和分解:和谐游戏和潜在游戏。运筹学数学,36(3):474-5032011·兹比尔1239.91006
[13] C Daskalakis、P W Goldberg和C Papadimitriou。计算纳什均衡的复杂性。SIAM J.计算机,39(1):195-2592009·兹比尔1185.91019
[14] C Daskalakis、A Ilyas、V Syrgkanis和H Zeng。乐观地训练GAN。InICLR,2018年。
[15] F Facchinei和C Kanzow。广义纳什均衡问题。运筹学年鉴,175(1):177-2112010·Zbl 1185.91016号
[16] S Feizi、C Suh、F Xia和D Tse。了解GAN:LQG设置。2017年,arXiv:1710.10793。
[17] J N Foerster、R Y Chen、M Al-Shedivat、S Whiteson、P Abbeel和I Mordatch。与对手一起学习。InAAMAS,2018年。
[18] 我是Gemp和S Mahadevan。在线单调优化。InarXiv:1608.078882016年。
[19] 我是Gemp和S Mahadevan。网络单调游戏。InarXiv:1710.073282017年。
[20] 我是Gemp和S Mahadevan。使用变分不等式全局收敛到GAN的平衡点。InarXiv:1808.015312018年。
[21] G Gidel、R A Hemmat、M Pezeshki、R Lepriol、G Huang、S Lacoste-Julien和I Mitliagkas。改善游戏动态的负面势头。InarXiv:1807.04742018年。
[22] G Gidel、H Berard、G Vignoud、P Vincent和Lacoste-Julien。生成性对抗网络的变分不等式观点。InICLR,2019年。
[23] I J Goodfellow、J Pouget-Abadie、M Mirza、B Xu、D Warde-Farley、S Ozair、A Courville和Y Bengio。生成性对抗网络。InNeurIPS,2014年。
[24] V Guillemin和S Sternberg。物理学中的辛技术。剑桥大学出版社,1990年·Zbl 0734.58005号
[25] S Hart和A Mas-Colell。简单的适应策略:从后悔匹配到非耦合动态。《世界科学》,2013年·Zbl 1298.91019号
[26] M Heusel、H Ramsauer、T Unterthiner、B Nessler、G Klambauer和S Hochreiter。由两个时间尺度更新规则训练的GAN收敛到纳什均衡。InNeurIPS,2017年。
[27] M Jaderberg、W M Czarnecki、S Osindero、O Vinyals、A Graves和K Kavukcuoglu。使用合成梯度解耦神经接口。InICML,2017年。
[28] X Jiang,L Lim,Y Yao,Y Ye。统计排名和组合霍奇理论。数学。程序。,序列号。B、 127:203-2442011年·Zbl 1210.90142号
[29] J D Lee、M Simchowitz、M I Jordan和B Recht。梯度下降收敛到极小值。InCOLT,2016年。
[30] JD Lee、I Panageas、G Piliouras、M Simchowitz、MI Jordan和B Recht。一阶方法几乎总是避免鞍点。InarXiv:1710.074062017年·Zbl 1415.90089号
[31] A Letcher、J Foerster、D Balduzzi、T Rockt¨aschel和S Whiteson。不同游戏中稳定的对手塑造。InICLR,2019年。
[32] B Liu、J Liu、M Ghavamzadeh、S Mahadevan和M Petrik。近似梯度时间差分学习算法。InIJCAI,2016年·Zbl 1451.68227号
[33] X Lu。哈密顿博弈。组合理论杂志,B辑,55:18-321992·Zbl 0702.90108号
[34] P Mertikopoulos和Z Zhou。在具有连续动作集和未知回报函数的游戏中学习。InarXiv:1608.073102016年·Zbl 1420.91027号
[35] P Mertikopoulos、C Papadimitriou和G Piliouras。对抗性正规化学习的周期。InSODA,2018年·Zbl 1403.68200号
[36] P Mertikopoulos、H Zenati、B Lecouat、C Foo、V Chandrasekhar和G Piliouras。鞍点问题中的镜像下降:额外(梯度)英里。在ICLR,2019年。
[37] L Mescheder、S Nowozin和A Geiger。GAN的数字。InNeurIPS。2017
[38] L Mescheder、A Geiger和S Nowozin。GAN的哪些训练方法实际上是收敛的?InICML,2018年。
[39] L Metz、B Poole、D Pfau和J Sohl-Dickstein。未部署的生成性对抗网络。InICLR,2017年。
[40] D蒙德勒和L S沙普利。潜在游戏。游戏与经济行为,14:124-1431996·Zbl 0862.90137号
[41] V Nagarajan和J Z Kolter。梯度下降GAN优化是局部稳定的。2017年,NeurIPS。
[42] J·纳什。个人游戏的平衡点。美国国家科学院院刊,36(1):48-491950·Zbl 0036.01104号
[43] Y内斯特罗夫。凸优化入门讲座:基础课程。Kluwer,2004年·Zbl 1086.90045号
[44] J.Ortega和W.Rheinboldt。多元非线性方程的迭代解法。工业和应用数学学会,2000年·Zbl 0949.65053号
[45] C Papadimitriou和G Piliouras。从纳什均衡到链递归集:解的概念和拓扑。InITCS,2016年·Zbl 1335.91009号
[46] C Papadimitriou和G Piliouras。从纳什均衡到链递归集:博弈论的算法解决概念。熵,2018年20月。
[47] D Pathak、P Agrawal、A A Efros和T Darrell。通过自我监督预测进行好奇驱动的探索。2017年国际采矿业联合会。
[48] David Pfau和Oriol Vinyals。连接生成性对抗网络和行动者批评方法。InarXiv:1610.019452016年。
[49] S Racani'ere、T Weber、D P Reichert、L Buesing、A Guez、D J Rezende、A P Badia、O Vinyals、N Heess、Y Li、R Pascanu、P Battaglia、D Hassabis、D Silver和D Wierstra。用于深度强化学习的想象力增强代理。InNeurIPS,2017年。
[50] S Rakhlin和K Sridharan。优化、学习和具有可预测序列的游戏。InNeurIPS,2013年。
[51] J B罗森。凹N人对策平衡点的存在唯一性。《计量经济学》,33(3):520-5341965年·Zbl 0142.17603号
[52] 罗森塔尔R W。一类具有纯策略纳什均衡的博弈。国际博弈论,1973年,2:65-67·Zbl 0259.90059号
[53] T Salimans、I Goodfellow、W Zaremba、V Cheung、A Radford和X Chen。改进了训练GAN的技术。InNeurIPS,2016年。
[54] S Santurkar、L Schmidt和A Madry。基于分类的GAN分布协变量偏移研究。InICML,2018年。
[55] G Scutari、D P Palomar、F Facchinei和J Pang。凸优化,博弈论,变分不等式理论。IEEE信号处理杂志,第35-49页,2010年。
[56] Y Shoham和K Leyton Brown。多智能体系统:算法、博弈论和逻辑基础。剑桥大学出版社,2008年·Zbl 1163.91006号
[57] M Shub.公司。动力系统的全局稳定性。斯普林格,2000年。
[58] S Singh、M Kearns和Y Mansour。广义和博弈中梯度动力学的纳什收敛性。InUAI,2000年。
[59] G Stoltz和G Lugosi。在具有紧凑策略集的游戏中学习相关均衡。游戏与经济行为,59:187-2082007·Zbl 1271.91012号
[60] V Syrgkanis、A Agarwal、H Luo和R E Schapire。游戏中正则化学习的快速收敛。InNeurIPS,2015年。
[61] A Vezhnevets、S Osindero、T Schaul、N Heess、M Jaderberg、D Silver和K Kavukcuoglu。用于分层强化学习的FeUdal网络。InICML,2017年。
[62] G Wayne和L F Abbott。使用经过高级前向模型训练的网络进行分层控制。神经计算,(26),2014年。
[63] J Zhu、T Park、P Isola和A A Efros。使用循环一致的对抗网络进行未配对的图像到图像转换。InCVPR,2017年。
[64] M Zinkevich先生。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。