文件Zbl 07800994-zbMATH Open

潜在平均场博弈中的最优策略学习：平滑策略迭代算法。（英语）兹比尔07800994

SIAM J.控制优化。 62，第1号，351-375（2024）.

摘要：我们引入了两种平滑策略迭代算法（SPI）作为学习策略的规则，以及在二阶势平均场博弈（MFG）中计算纳什均衡的方法。如果MFG系统中的耦合项满足Lasry-Lions单调性条件，则证明了全局收敛性。对于一个可能有多个解的系统，证明了其局部收敛于稳定解。收敛性分析表明SPI和虚拟播放算法之间有着密切的联系，虚拟播放算法在MFG文献中得到了广泛的研究。给出了基于有限差分格式的数值模拟结果，以补充理论分析。

理学硕士：

91A16型	平均场博弈（博弈论方面）
91A26型	博弈论中的理性与学习
2006年6月65日	含偏微分方程初值和初边值问题的有限差分方法

关键词：

平均场游戏;策略迭代;在游戏中学习;数值方法

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Achdou，Y.和Capuzzo-Dolcetta，I.，《平均场游戏：数值方法》，SIAM J.Numer。分析。，48（2010年），第1136-1162页·Zbl 1217.91019号
[2]	Achdou，Y.、Camilli，F.和Capuzzo-Dolecetta，I.，《平均场游戏：有限差分方法的收敛性》，SIAM J.Numer。分析。，51（2013），第2585-2612页·Zbl 1286.91022号
[3]	Achdou，Y.、Cardaliaguet，P.、Delarue，F.、Porretta，A.和Santambrogio，F.，《平均场地运动会：2019年意大利Cetraro》，2020年伦敦Springer Nature。
[4]	Achdou，Y.和Kobeissi，Z.，控制的平均场游戏：有限差分近似，数学。《工程》，3（2021），第1-35页·Zbl 1496.91011号
[5]	Achdou，Y.和Laurière，M.，《关于平均场型控制中产生的偏微分方程组》，离散Contin。动态。系统。，35（2015），第38-79页。
[6]	Bardi，M.和Fischer，M.，关于有限视界平均场对策解的非唯一性和唯一性，ESAIM控制优化。计算变量，25（2019），44·Zbl 1437.91049号
[7]	Bensoussan，A.和Lions，J.-L.，《变分不等式在随机控制中的应用》，Elsevier，纽约，2011年。
[8]	Bensoussan，A.、Frehse，J.和Yam，P.，《平均场游戏和平均场类型控制理论》，施普林格，纽约，2013年·兹比尔1287.93002
[9]	Lavigne，P.和Pfeiffer，L.，潜在平均场游戏中的广义条件梯度和学习，预印本，arXiv:2209.127722022。
[10]	Briani，A.和Cardaliaguet，P.，潜在平均场博弈系统的稳定解，NoDEA非线性微分方程应用。，25（2018），第1-26页·Zbl 1390.35365号
[11]	Cacase，S.、Camilli，F.和Goffi，A.，平均场博弈的政策迭代方法，ESAIM Control Optim。计算变量，27（2021）·Zbl 1473.49043号
[12]	Camilli，F.和Tang，Q.，平均场博弈系统策略迭代方法的收敛速度，J.Math。分析。申请。，第512页（2022年），第126-138页·Zbl 1485.91019号
[13]	Cannarsa，P.和Sinestari，C.，《半凹函数、哈密尔顿-雅可比方程和最优控制》，Springer，纽约，2004年·Zbl 1095.49003号
[14]	Cardaliaguet，P.和Hadikhanloo，S.，《平均场游戏中的学习：虚构游戏》，ESAIM Control Optim。计算变量，23（2017），第569-591页·Zbl 1365.35183号
[15]	Carmona，R.和Delarue，F.，《平均场博弈概率理论及其应用I》，施普林格，纽约，2018年·Zbl 1422.91014号
[16]	Cirant，M.、Gianni，R.和Mannucci，P.，由平均场博弈产生的一般后向抛物系统的短时存在性，Dyn。游戏应用程序。，10（2020年），第100-119页·Zbl 1509.35130号
[17]	Cirant，M.和Goffi，A.，抛物型Hamilton-Jacobi方程的最大正则性及其在平均场对策中的应用，Ann.PDE，7（2021）·Zbl 1486.35134号
[18]	Cirant，M.和Goffi，A.，带（L^p）项的粘性Hamilton-Jacobi方程的Lipschitz正则性，Ann.Inst.H.PoincaréAnal。Non Linéaire，37（2020），第757-784页·Zbl 1440.35036号
[19]	Cirant，M.和Porretta，A.，轻度非单调平均场游戏中的长时间行为和收费解决方案，ESAIM Control Optim。计算变量，27（2021）·Zbl 1471.91028号
[20]	Cirant，M.和Tonon，D.，《以时间为中心的场内游戏：亚临界案例》，J.Dynam。微分方程，31（2019），第49-79页·Zbl 1408.35076号
[21]	Delarue，F.和Vasileiadis，A.，《学习线性二次平均场游戏的探索噪音》，预印本，arXiv:2107.008392021。
[22]	Deschamps，R.，《应用于双寡头问题的博弈论算法》，《欧洲经济学》。第6版（1975年），第187-194页。
[23]	Dumitrescu，R.、Leutscher，M.和Tankov，P.，《具有最佳停止和吸收的平均场游戏的线性规划虚拟游戏算法》，预印本，arXiv:22022.114282022。
[24]	Elie，R.、Pérolat，J.、Laurière，M.、Geist，M.和Pietquin，O.，《关于平均场游戏中无模型学习的收敛性》，载于第34届AAAI人工智能会议论文集，2020年。
[25]	Evans，L.C.，偏微分方程，美国数学学会，罗得岛普罗维登斯，2022。
[26]	Fudenberg，D.和Levine，D.K.，《游戏中的学习理论》，麻省理工学院出版社，马萨诸塞州剑桥，1998年·Zbl 0939.91004号
[27]	Guo，X.，Hu，A.，Xu，R.，and Zhang，J.，《Mean Field Games学习的一般框架》，预印本，arXiv:2003.06069v32023。
[28]	Graber，P.J.和Mészáros，A.R.，《关于平均场博弈的单调性条件》，J.Funct。分析。，285 (2023), 110095. ·兹比尔1519.91034
[29]	Hadikhanloo，S.，《在平均场游戏中学习》，博士论文，巴黎多芬大学，2018年。
[30]	Hadikhanloo，S.和Silva，F.J.，《有限平均场博弈：虚拟游戏和收敛到一阶连续平均场博弈》，J.Math。Pures应用程序。（9）第132页（2019年），第369-397页·Zbl 1427.35288号
[31]	Howard，R.A.，《动态规划和马尔可夫过程》，麻省理工学院出版社，马萨诸塞州剑桥，1960年·兹比尔0091.16001
[32]	Huang，M.，Caines，P.E.和Malhame，R.P.，非均匀代理的大种群成本耦合LQG问题：个体-群体行为和分散-纳什均衡，IEEE Trans。自动化。控制，52（2007），第1560-1571页·Zbl 1366.91016号
[33]	Ladyzenskaja，O.A.、Solonnikov，V.A.和Ural’ceva，N.N.，《抛物线型线性和拟线性方程》，美国数学学会，普罗维登斯，RI，1968年·Zbl 0174.15403号
[34]	Lasry，J.M.和Lions，P.L.，《平均场游戏》，Jpn。数学杂志。，2（2007年），第229-260页·Zbl 1156.91321号
[35]	Lauriere，M.，《平均场游戏的数值方法和平均场类型控制》，预印本，arXiv:2106.062312021年。
[36]	Laurière，M.、Song，J.和Tang，Q.，含不可分离哈密顿量的含时平均场博弈系统的策略迭代方法，应用。数学。最佳。，87（2023），第1-34页·Zbl 1506.65125号
[37]	Laurière，M.、Perrin，S.、Girgin，S.，Muller，P.、Jain，A.、Cabannes，T.、Piliouras，G.、Pérolat，J.、Elie，R.、Pietquin，O.和Geist，M.，《平均场游戏的可扩展深度强化学习算法》，预印本，arXiv:2203.11973年，2022年。
[38]	Laurière，M.，Perrin，S.，Geist，M.和Pietquin，O.，《学习平均场游戏：调查》，预印本，arXiv:2205.129442022。
[39]	Metafune，G.、Pallara，D.和Rhandi，A.，奇异扩散跃迁概率的全局性质，Teor。Veroyatn公司。引物。，54（2009），第116-148页·Zbl 1206.60072号
[40]	Monderer，D.和Shapley，L.S.，《具有相同利益的游戏的虚拟游戏财产》，J.Econom。《理论》，68（1996），第258-265页·Zbl 0849.90130号
[41]	Pérolat，J.、Perrin，S.、Elie，R.、Laurière，M.、Piliouras，G.、Geist，M.，Tuyls，K.和Pietquin，O.，《利用在线镜像下降扩大平均场游戏》，载于《2022年第21届自主代理和多代理系统国际会议论文集》。

此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配，并且可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不声称其完整性或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	综述，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	括号

示例

领域

操作员

潜在平均场博弈中的最优策略学习：平滑策略迭代算法。（英语）兹比尔07800994

理学硕士：

关键词：

参考文献：

示例

领域

操作员

潜在平均场博弈中的最优策略学习：平滑策略迭代算法。 （英语） 兹比尔07800994

理学硕士：

关键词：

参考文献：

潜在平均场博弈中的最优策略学习：平滑策略迭代算法。（英语）兹比尔07800994