×

求纳什均衡的贝叶斯优化方法。 (英语) Zbl 1410.91030号

摘要:博弈论在工程和机器学习中有着广泛的应用。然而,在无导数、昂贵的黑盒环境中,很少有算法解决方案可用于找到游戏均衡。在这里,我们提出了一种新的基于高斯过程的方法来解决这种环境下的游戏。我们遵循经典的贝叶斯优化框架,基于采集函数进行顺序采样决策。基于达到均衡的概率或基于逐步减少不确定性的范式,提出了两种策略。为了提高可扩展性和减少计算时间,讨论了实际和数值方面的问题。我们的方法是针对几个具有不同参与者数量和决策空间维数的综合博弈问题进行评估的。我们表明,与经典的基于导数的算法相比,可以可靠地找到成本(就黑盒评估而言)的一小部分的均衡。该方法在\(\mathsf{R}\)包中可用GPGame游戏CRAN上提供https://cran.r-project.org/package=GPGame。

理学硕士:

91年10月 非合作游戏
91A23型 微分对策(博弈论方面)
91-04 与博弈论、经济学和金融相关问题的软件、源代码等
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Adams,R.A.,Fournier,J.J.:《Sobolev空间》,第140卷。剑桥大学学术出版社(2003)·Zbl 1098.46001号
[2] Alvarez,M.A.,Rosasco,L.,Lawrence,N.D.:向量值函数的内核:综述。已找到。趋势马赫数。学习。4(3), 195-266 (2011). https://doi.org/10.1561/22000036 ·Zbl 1301.68212号 ·数字对象标识代码:10.1561/22000036
[3] Azzalini,A.,Genz,A.:R包mnormt:多元正态分布和t分布(版本1.5-4)。http://azzalini.stat.unipd.it/SW/Pkg-mnormt (2016). 2016年3月8日访问
[4] 巴沙尔,T.:非合作平衡在线计算的松弛技术和异步算法。经济杂志。动态。控制。11(4), 531-549 (1987) ·Zbl 0646.90100号
[5] Bect,J.、Ginsbourger,D.、Li,L.、Picheny,V.、Vazquez,E.:用于评估失效概率的计算机实验的顺序设计。统计计算。22(3), 773-793 (2012) ·Zbl 1252.62081号
[6] Bect,J.,Bachoc,F.,Ginsbourger,D.:基于高斯过程的序贯实验设计的超模方法。arXiv预印本arXiv:1608.01118(2016)·Zbl 1428.62369号
[7] Brown,N.、Ganzfried,S.、Sandholm,T.:分层抽象、分布式平衡计算和后处理,应用于冠军无限制的德克萨斯州hold'em代理。摘自:《2015年自主代理和多代理系统国际会议论文集》,第7-15页(2015)
[8] Chevalier,C.,Ginsbourger,D.:快速计算多点预期改进,并应用于批量选择。摘自:《学习与智能优化》,施普林格出版社,第59-69页(2013年)
[9] Chevalier,C.,Emery,X.,Ginsbourger,D.:条件模拟集合的快速更新。数学。地质科学。47(7), 771-789 (2015) ·Zbl 1323.86020号
[10] Cressie,N.:空间数据统计。新Terra Nova 4(5),613-617(1992)
[11] Dorsch,D.,Jongen,H.T.,Shikhman,V.:关于广义nash平衡的结构和计算。SIAM J.Optim。23(1), 452-474 (2013) ·兹比尔1266.49050
[12] Facchinei,F.,Kanzow,C.:广义纳什均衡问题。年鉴。操作。第175(1)号决议,177-211(2010)·Zbl 1185.91016号
[13] Fleuret,F.,Geman,D.:目标检测的分级学习。摘自:IEEE计算机视觉和模式识别国际会议(CVPR/SCTV)统计和计算视觉理论研讨会论文集,第2卷(1999年)·Zbl 1225.68259号
[14] 弗里德曼:随机微分对策。J.差异。埃克。11(1), 79-108 (1972) ·Zbl 0208.39402号
[15] 游戏,I.L.S.C.:独立学习者随机合作游戏中的宽容学习。J.马赫。学习。第17号决议,1-42(2016年)·Zbl 1360.68720号
[16] Garivier,A.,Kaufmann,E.,Koolen,W.M.:Maximin动作识别:游戏的新强盗框架。摘自:第29届学习理论年会,第1028-1050页(2016)
[17] Genz,A.,Bretz,F.:多元正态概率和t概率的计算。统计学讲义。斯普林格,海德堡(2009)·Zbl 1204.62088号
[18] Genz,A.、Bretz,F.、Miwa,T.、Mi,X.、Leisch,F.,Scheipl,F.和Hothorn,T.:mvtnorm:多元正态分布和T分布。http://CRAN.R-project.org/package=mvtnorm,r包版本1.0-5(2016)。2016年2月2日访问
[19] Gibbons,R.:应用经济学家的博弈论。普林斯顿大学出版社,普林斯顿(1992)
[20] Ginsbourger,D.,Le Riche,R.:走向基于高斯过程的有限时间范围优化。摘自:mODa9-面向模型的设计和分析进展,Springer,第89-96页(2010年)
[21] Gonzalez,J.,Osborne,M.,Lawrence,N.:眼镜:缓解贝叶斯优化的近视。摘自:《第19届国际人工智能与统计会议论文集》,第790-799页(2016)
[22] Gramacy,R.B.,Apley,D.W.:大型计算机实验的局部高斯过程近似。J.计算。图表。Stat.24(2),561-578(2015)
[23] Gramacy,R.B.,Ludkovski,M.:最优停止问题的序列设计。SIAM J.财务。数学。6(1), 748-775 (2015) ·Zbl 1320.91154号
[24] Habbal,A.,Kallel,M.:求解椭圆Cauchy问题的Neumann-Dirichlet-Nash策略。SIAM J.控制优化。51(5), 4066-4083 (2013). https://doi.org/10.1137/120869808 ·Zbl 1280.49003号 ·数字对象标识代码:10.1137/120869808
[25] Habbal,A.,Petersson,J.,Thellner,M.:多学科拓扑优化作为纳什博弈求解。国际期刊数字。方法工程61949-963(2004)·Zbl 1075.74606号
[26] Harsanyi,J.C.:随机干扰支付的游戏:混合策略均衡点的新理论基础。国际博弈论2(1),1-23(1973)·Zbl 0255.90084号
[27] Heaton,M.J.、Datta,A.、Finley,A.、Furrer,R.、Guhaniyogi,R.,Gerber,F.、Gramacy,R.B.、Hammerling,D.、Katzfush,M.、Lindgren,F.等人:大型空间数据分析方法之间的案例研究竞争。arXiv预印arXiv:1710.05013(2017)·Zbl 1426.62345号
[28] Hecht,F.,Pironneau,O.,Le Hyaric,A.,Ohtsuka,K.:Freefem++v.2.11。用户?巴黎大学手册6(2010)
[29] Hennig,P.,Schuler,C.J.:信息效率全局优化的熵搜索。J.马赫。学习。1809-1837年第13号决议(2012年)·Zbl 1432.65073号
[30] Hernández-Lobato,J.M.,Hoffman,M.W.,Ghahramani,Z.:预测熵搜索用于黑盒函数的有效全局优化。摘自:神经信息处理系统进展,第918-926页(2014年)
[31] Hernández-Lobato,J.M.,Gelbart,M.A.,Adams,R.P.,Hoffman,M.W.,Ghahramani,Z.:使用基于信息的搜索进行约束贝叶斯优化的通用框架。J.马赫。学习。第17(160)号决议,1-53(2016)·Zbl 1391.90641号
[32] Hu,J.,Wellman,M.P.:广义和随机博弈的Nash q学习。J.马赫。学习。第4号决议,1039-1069(2003)·Zbl 1094.68076号
[33] Isaacs,R.:差异游戏。数学理论及其在战争、追击、控制和优化中的应用。威利,纽约(1965年)·Zbl 0125.38001号
[34] Jala,M.、Lévy-Leduc,C.、Moulines等。,Conil,E.,Wiart,J.:评估胎儿暴露于电磁场的计算机实验的顺序设计。技术计量58(1),30-42(2016)
[35] Johanson,M.,Bowling,M.H.:数据偏向的稳健应对策略。摘自:《第十二届国际人工智能与统计会议论文集》,第264-271页(2009年)
[36] Jones,D.R.,Schonlau,M.,Welch,W.J.:昂贵的黑盒函数的高效全局优化。J.全球。最佳方案。13(4), 455-492 (1998) ·Zbl 0917.90270号
[37] Kanzow,C.,Steck,D.:求解广义nash平衡问题的增广拉格朗日方法。SIAM J.Optim公司。26(4), 2034-2058 (2016) ·Zbl 1351.65037号
[38] Lanctot,M.,Burch,N.,Zinkevich,M.,Bowling,M.,Gibson,R.G.:在回忆不完善的广泛形式游戏中学习并不后悔。摘自:《第29届国际机器学习会议论文集》(ICML-12),第65-72页(2012)
[39] León,E.R.,Pape,A.L.,Désidéri,J.A.,Alfano,D.,Costes,M.:使用纳什博弈方法对转子叶片进行并行气动优化。《美国直升机协会期刊》第61卷第1-13页(2014年)
[40] Li,S.,Başar,T.:计算非合作平衡的分布式算法。Autom。《国际会计师联合会期刊》23(4),523-533(1987)·Zbl 0619.90092号
[41] Littman,M.L.,Stone,P.:重复博弈的多项式时间纳什均衡算法。Decis公司。支持系统。39(1), 55-66 (2005)
[42] McKay,M.D.,Beckman,R.J.,Conover,W.J.:计算机代码输出分析中选择输入变量值的三种方法的比较。技术计量学21(2),239-245(1979)·Zbl 0415.62011号
[43] Mockus,J.:贝叶斯全局优化方法:理论与应用。柏林施普林格(1989)·Zbl 0693.49001号
[44] Neyman,A.,Sorin,S.:《随机游戏与应用》,第570卷。柏林施普林格出版社(2003)·Zbl 1027.00040号
[45] Nishimura,R.,Hayashi,S.,Fukushima,M.:n人非合作博弈中的稳健纳什均衡:唯一性和重新制定。派克靴。J.优化。5(2), 237-259 (2009) ·Zbl 1162.91304号
[46] Parr,J.M.:约束处理和多目标优化的改进标准。南安普顿大学博士论文(2012)
[47] Picheny,V.:约束全局优化的逐步不确定性减少方法。摘自:《第17届国际人工智能与统计会议论文集》,JMLR W&CP,第33卷,第787-795页(2014年)
[48] Picheny,V.,Binois,M.:GPGame:使用高斯过程解决复杂的游戏问题。统一资源定位地址http://CRAN.R-project.org/package=GPGame(通用游戏),r包版本0.1.3(2017)
[49] Plumlee,M.:使用稀疏网格实验设计快速预测确定性函数。《美国统计协会期刊》109(508),1581-1591(2014)·Zbl 1368.65017号
[50] R核心团队(2016)R:统计计算的语言和环境。R统计计算基金会,维也纳。网址:https://www.R-project.org/。2018年3月15日访问
[51] Rasmussen,C.E.,Williams,C.:机器学习的高斯过程。麻省理工学院出版社。http://www.gaussianprocess.org/gpml/ (2006) ·Zbl 1177.68165号
[52] Rosemüller,J.:关于lemke-howson算法对非合作n人游戏的推广。SIAM J.应用。数学。21(1), 73-79 (1971) ·Zbl 0222.90053号
[53] Roustant,O.,Ginsbourger,D.,Deville,Y.:DiceKriging,DiceOptim:通过基于kriging的元建模和优化分析计算机实验的两个R包。J.统计软件。51(1), 1-55 (2012)
[54] Rullière,D.,Durrande,N.,Bachoc,F.,Chevalier,C.:具有大量观测的数据集的嵌套克里格预测。统计计算。28, 1-19 (2016) ·Zbl 1384.62246号
[55] Scilab Enterprises(2012)Scilab:数值计算的免费开源软件。奥赛,科学实验室企业。http://www.scilab.org。2015年4月1日访问
[56] Shahriari,B.,Swersky,K.,Wang,Z.,Adams,R.P.,de Freitas,N.:《让人脱离循环:贝叶斯优化综述》。程序。IEEE 104(1),148-175(2016)
[57] Shapley,L.S.:随机游戏。程序。国家。阿卡德。科学。39(10), 1095-1100 (1953) ·Zbl 0051.35805号
[58] Srinivas,N.、Krause,A.、Kakade,S.M.、Seeger,M.:强盗环境下高斯过程优化的信息论遗憾边界。信息理论IEEE Trans。58(5), 3250-3265 (2012) ·Zbl 1365.94131号
[59] Uryas'ev,S.,Rubinstein,R.Y.:关于非合作平衡计算中的松弛算法。IEEE Trans。自动。控制39(6),1263-1267(1994)·Zbl 0811.90117号
[60] Villemonteix,J.,Vazquez,E.,Walter,E.:费用评估函数全局优化的信息方法。J.全球。最佳方案。44(4), 509-534 (2009) ·Zbl 1180.90253号
[61] Wagner,T.、Emmerich,M.、Deutz,A.、Ponweiser,W.:关于基于模型的多目标优化的预期改进标准。参加:柏林斯普林格自然组织的并行问题解决国际会议。第718-727页(2010年)
[62] Wang,G.,Shan,S.:支持工程设计优化的元建模技术综述。J.机械。设计。129(4), 370 (2007)
[63] Wilson,A.,Nickisch,H.:可伸缩结构高斯过程的核插值(kiss-gp)。摘自:国际机器学习会议,第1775-1784页(2015)
[64] ſilinskas,A.,Zhigljavsky,A.:随机全局优化:信息时代25年的回顾。Informatica 27(2),229-256(2016)·兹比尔1387.90203
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。