×

潜在平均场博弈中的最优策略学习:平滑策略迭代算法。 (英语) 兹比尔07800994

摘要:我们引入了两种平滑策略迭代算法(SPI)作为学习策略的规则,以及在二阶势平均场博弈(MFG)中计算纳什均衡的方法。如果MFG系统中的耦合项满足Lasry-Lions单调性条件,则证明了全局收敛性。对于一个可能有多个解的系统,证明了其局部收敛于稳定解。收敛性分析表明SPI和虚拟播放算法之间有着密切的联系,虚拟播放算法在MFG文献中得到了广泛的研究。给出了基于有限差分格式的数值模拟结果,以补充理论分析。

理学硕士:

91A16型 平均场博弈(博弈论方面)
91A26型 博弈论中的理性与学习
2006年6月65日 含偏微分方程初值和初边值问题的有限差分方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Achdou,Y.和Capuzzo-Dolcetta,I.,《平均场游戏:数值方法》,SIAM J.Numer。分析。,48(2010年),第1136-1162页·Zbl 1217.91019号
[2] Achdou,Y.、Camilli,F.和Capuzzo-Dolecetta,I.,《平均场游戏:有限差分方法的收敛性》,SIAM J.Numer。分析。,51(2013),第2585-2612页·Zbl 1286.91022号
[3] Achdou,Y.、Cardaliaguet,P.、Delarue,F.、Porretta,A.和Santambrogio,F.,《平均场地运动会:2019年意大利Cetraro》,2020年伦敦Springer Nature。
[4] Achdou,Y.和Kobeissi,Z.,控制的平均场游戏:有限差分近似,数学。《工程》,3(2021),第1-35页·Zbl 1496.91011号
[5] Achdou,Y.和Laurière,M.,《关于平均场型控制中产生的偏微分方程组》,离散Contin。动态。系统。,35(2015),第38-79页。
[6] Bardi,M.和Fischer,M.,关于有限视界平均场对策解的非唯一性和唯一性,ESAIM控制优化。计算变量,25(2019),44·Zbl 1437.91049号
[7] Bensoussan,A.和Lions,J.-L.,《变分不等式在随机控制中的应用》,Elsevier,纽约,2011年。
[8] Bensoussan,A.、Frehse,J.和Yam,P.,《平均场游戏和平均场类型控制理论》,施普林格,纽约,2013年·兹比尔1287.93002
[9] Lavigne,P.和Pfeiffer,L.,潜在平均场游戏中的广义条件梯度和学习,预印本,arXiv:2209.127722022。
[10] Briani,A.和Cardaliaguet,P.,潜在平均场博弈系统的稳定解,NoDEA非线性微分方程应用。,25(2018),第1-26页·Zbl 1390.35365号
[11] Cacase,S.、Camilli,F.和Goffi,A.,平均场博弈的政策迭代方法,ESAIM Control Optim。计算变量,27(2021)·Zbl 1473.49043号
[12] Camilli,F.和Tang,Q.,平均场博弈系统策略迭代方法的收敛速度,J.Math。分析。申请。,第512页(2022年),第126-138页·Zbl 1485.91019号
[13] Cannarsa,P.和Sinestari,C.,《半凹函数、哈密尔顿-雅可比方程和最优控制》,Springer,纽约,2004年·Zbl 1095.49003号
[14] Cardaliaguet,P.和Hadikhanloo,S.,《平均场游戏中的学习:虚构游戏》,ESAIM Control Optim。计算变量,23(2017),第569-591页·Zbl 1365.35183号
[15] Carmona,R.和Delarue,F.,《平均场博弈概率理论及其应用I》,施普林格,纽约,2018年·Zbl 1422.91014号
[16] Cirant,M.、Gianni,R.和Mannucci,P.,由平均场博弈产生的一般后向抛物系统的短时存在性,Dyn。游戏应用程序。,10(2020年),第100-119页·Zbl 1509.35130号
[17] Cirant,M.和Goffi,A.,抛物型Hamilton-Jacobi方程的最大正则性及其在平均场对策中的应用,Ann.PDE,7(2021)·Zbl 1486.35134号
[18] Cirant,M.和Goffi,A.,带(L^p)项的粘性Hamilton-Jacobi方程的Lipschitz正则性,Ann.Inst.H.PoincaréAnal。Non Linéaire,37(2020),第757-784页·Zbl 1440.35036号
[19] Cirant,M.和Porretta,A.,轻度非单调平均场游戏中的长时间行为和收费解决方案,ESAIM Control Optim。计算变量,27(2021)·Zbl 1471.91028号
[20] Cirant,M.和Tonon,D.,《以时间为中心的场内游戏:亚临界案例》,J.Dynam。微分方程,31(2019),第49-79页·Zbl 1408.35076号
[21] Delarue,F.和Vasileiadis,A.,《学习线性二次平均场游戏的探索噪音》,预印本,arXiv:2107.008392021。
[22] Deschamps,R.,《应用于双寡头问题的博弈论算法》,《欧洲经济学》。第6版(1975年),第187-194页。
[23] Dumitrescu,R.、Leutscher,M.和Tankov,P.,《具有最佳停止和吸收的平均场游戏的线性规划虚拟游戏算法》,预印本,arXiv:22022.114282022。
[24] Elie,R.、Pérolat,J.、Laurière,M.、Geist,M.和Pietquin,O.,《关于平均场游戏中无模型学习的收敛性》,载于第34届AAAI人工智能会议论文集,2020年。
[25] Evans,L.C.,偏微分方程,美国数学学会,罗得岛普罗维登斯,2022。
[26] Fudenberg,D.和Levine,D.K.,《游戏中的学习理论》,麻省理工学院出版社,马萨诸塞州剑桥,1998年·Zbl 0939.91004号
[27] Guo,X.,Hu,A.,Xu,R.,and Zhang,J.,《Mean Field Games学习的一般框架》,预印本,arXiv:2003.06069v32023。
[28] Graber,P.J.和Mészáros,A.R.,《关于平均场博弈的单调性条件》,J.Funct。分析。,285 (2023), 110095. ·兹比尔1519.91034
[29] Hadikhanloo,S.,《在平均场游戏中学习》,博士论文,巴黎多芬大学,2018年。
[30] Hadikhanloo,S.和Silva,F.J.,《有限平均场博弈:虚拟游戏和收敛到一阶连续平均场博弈》,J.Math。Pures应用程序。(9) 第132页(2019年),第369-397页·Zbl 1427.35288号
[31] Howard,R.A.,《动态规划和马尔可夫过程》,麻省理工学院出版社,马萨诸塞州剑桥,1960年·兹比尔0091.16001
[32] Huang,M.,Caines,P.E.和Malhame,R.P.,非均匀代理的大种群成本耦合LQG问题:个体-群体行为和分散-纳什均衡,IEEE Trans。自动化。控制,52(2007),第1560-1571页·Zbl 1366.91016号
[33] Ladyzenskaja,O.A.、Solonnikov,V.A.和Ural’ceva,N.N.,《抛物线型线性和拟线性方程》,美国数学学会,普罗维登斯,RI,1968年·Zbl 0174.15403号
[34] Lasry,J.M.和Lions,P.L.,《平均场游戏》,Jpn。数学杂志。,2(2007年),第229-260页·Zbl 1156.91321号
[35] Lauriere,M.,《平均场游戏的数值方法和平均场类型控制》,预印本,arXiv:2106.062312021年。
[36] Laurière,M.、Song,J.和Tang,Q.,含不可分离哈密顿量的含时平均场博弈系统的策略迭代方法,应用。数学。最佳。,87(2023),第1-34页·Zbl 1506.65125号
[37] Laurière,M.、Perrin,S.、Girgin,S.,Muller,P.、Jain,A.、Cabannes,T.、Piliouras,G.、Pérolat,J.、Elie,R.、Pietquin,O.和Geist,M.,《平均场游戏的可扩展深度强化学习算法》,预印本,arXiv:2203.11973年,2022年。
[38] Laurière,M.,Perrin,S.,Geist,M.和Pietquin,O.,《学习平均场游戏:调查》,预印本,arXiv:2205.129442022。
[39] Metafune,G.、Pallara,D.和Rhandi,A.,奇异扩散跃迁概率的全局性质,Teor。Veroyatn公司。引物。,54(2009),第116-148页·Zbl 1206.60072号
[40] Monderer,D.和Shapley,L.S.,《具有相同利益的游戏的虚拟游戏财产》,J.Econom。《理论》,68(1996),第258-265页·Zbl 0849.90130号
[41] Pérolat,J.、Perrin,S.、Elie,R.、Laurière,M.、Piliouras,G.、Geist,M.,Tuyls,K.和Pietquin,O.,《利用在线镜像下降扩大平均场游戏》,载于《2022年第21届自主代理和多代理系统国际会议论文集》。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不声称其完整性或完全匹配。