文件Zbl 1417.91102-zbMATH Open

黎曼博弈动力学。（英语） Zbl 1417.91102号

《经济学杂志》。理论 177, 315-364 (2018).

摘要：我们研究了一类由平衡获得由游戏对运动费用这反映了人口在各州之间流动的困难。运动代价由黎曼度量表示，即种群状态集上的状态相关内积。复制因子动力学和（欧几里德）投影动力学是我们研究的类的原型示例。与这些具有代表性的动力学一样，所有黎曼博弈动力学都满足一定的基本要求，包括正相关性、内部ESS的局部稳定性和潜在博弈的全局收敛性。当基本黎曼度量满足Hessian可积条件时，所得到的动力学保留了复制因子和投影动力学的许多进一步性质。我们研究了正态博弈中Hessian博弈动力学和强化学习之间的密切联系，扩展并阐明了复制因子动力学和指数强化学习之间的一个众所周知的联系。

引用于11文件

MSC公司：

91A22型	进化游戏
91A26型	博弈论中的理性与学习
58D17号	度量流形（尤其是黎曼）

关键词：

进化博弈论;在游戏中学习;投影动力学;黎曼度量;复制因子动力学;强化学习

软件：

ABED公司

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序 arXiv公司

参考文献：

[1]	Akin，E.，《种群遗传学的几何学》，《生物数学讲义》，第31卷，（1979年），斯普林格-Verlag·Zbl 0437.92016号
[2]	阿金，E.，支配或平衡，数学。生物科学。，50, 239-250, (1980) ·Zbl 0452.92020号
[3]	Aliprantis，C.D。；Border，K.C.，《无限维度分析：搭便车指南》，（1999），施普林格柏林·Zbl 0938.46001号
[4]	Alvarez，F。；博尔特，J。；Brahic，O.，Hessian Riemannian梯度流凸规划，SIAM J.Control Optim。，43, 2, 477-501, (2004) ·Zbl 1077.34050号
[5]	奥宾，J.-P。；Cellina，A.，《差异包裹体》（1984），柏林施普林格出版社·Zbl 0538.34007号
[6]	拜耳，D.A。；Lagarias，J.C.，线性规划的非线性几何I.仿射和投影缩放轨迹，Trans。美国数学。Soc.，314499-526，（1989年）·Zbl 0671.90045号
[7]	贝纳伊姆，m。；Weibull，J.W.，游戏中随机演化的确定性近似，计量经济学，71，3，873-903，（2003）·Zbl 1152.91350号
[8]	Björnerstedt，J。；Weibull，J.W.，《模仿的纳什均衡与进化》（Arrow，K.J.；Colombatto，E.；Perlman，M.；Schmidt，C.，《经济行为的理性基础》（1996），纽约圣马丁出版社），155-181
[9]	博尔特，J。；Teboulle，M.，约束最小化问题的障碍算子和相关梯度型动力系统，SIAM J.控制优化。，42, 4, 1266-1292, (2003) ·Zbl 1051.49010号
[10]	Börgers，T。；Sarin，R.，《通过强化和复制因子动力学学习》，J.Econ。理论，77，1-14，（1997）·Zbl 0892.90198号
[11]	布拉沃，M。；Mertikopoulos，P.，《关于随机扰动支付观测博弈中学习的稳健性》，《约翰·纳什纪念问题》，《博弈经济学》。贝哈夫。，103, 41-66, (2017) ·Zbl 1393.91016号
[12]	Bregman，L.M.，寻找凸集公共点的松弛方法及其在凸规划问题求解中的应用，苏联计算机。数学。数学。物理。，7, 3, 200-217, (1967) ·兹比尔0186.23807
[13]	Brown，G.W.，《通过虚拟游戏的游戏迭代解》，（Koopmans，T.C.；等，《生产和分配的活动分析》，（1951），威利纽约），374-376·兹比尔0045.09902
[14]	库切尼，P。；Gaujal，B。；Mertikopoulos，P.，《游戏中的惩罚调节动态和稳健学习程序》，数学。操作。决议，40，3，611-633，（2015）·Zbl 1377.91033号
[15]	Demichelis，S。；Ritzberger，K.，《从进化到战略稳定》，J.Econ。理论，113，51-75，（2003）·Zbl 1102.91308号
[16]	Duistermaat，J.J.，《关于黑森-黎曼结构》，亚洲数学杂志。，5, 79-91, (2001) ·兹比尔1021.53021
[17]	Fisher，R.A.，《自然选择的遗传学理论》，（1930），克拉伦登出版社，牛津
[18]	Friedberg，S.H。；Insel，A.J。；Spence，L.E.，线性代数，（2002），皮尔逊
[19]	弗里德曼，D.，《经济学中的进化博弈》，《计量经济学》，第59、3、637-666页，（1991年）·Zbl 0745.90012号
[20]	Friesz，T.L。；伯恩斯坦，D。；新泽西州梅塔。；托宾，R.L。；Ganjalizadeh，S.，《日常动态网络不平衡和理想化的旅行者信息系统》，Oper。决议，42，1120-1136，（1994）·Zbl 0823.90037号
[21]	福登堡，D。；莱文，D.K.，《游戏中的学习理论》，《经济学习与社会进化》，第2卷，（1998），麻省理工学院出版社，马萨诸塞州剑桥·Zbl 0939.91004号
[22]	Harper，M.，护送进化博弈论，物理学。D：非线性现象。，240, 1411-1415, (2011) ·Zbl 1231.91026号
[23]	哈特，S。；Mas-Colell，A.，《一类通用的适应性策略》，J.Econ。理论，98，26-54，（2001）·Zbl 0994.91007号
[24]	Helbing，D.，通过配对互动实现行为变化的数学模型，（Haag，G.；Mueller，U.；Troitsch，K.G.，《经济进化和人口变化：社会科学中的形式模型》，（1992），施普林格-柏林），330-348
[25]	海因斯，W.G.S.，《人口战略稳定性的三个特征》，J.Appl。概率。，17，333-340，（1980），Correction，R.Cressman和W.G.S.Hines，21（1984），213-214·Zbl 0439.92021号
[26]	希里亚特·乌鲁蒂，J.-B。；Lemaréchal，C.，凸分析基础，（2001），施普林格-柏林·Zbl 0998.49001号
[27]	霍夫鲍尔，J。；Sandholm，W.H.，《随机虚拟游戏的全球收敛性》，《计量经济学》，70，6，2265-2294，（2002）·Zbl 1141.91336号
[28]	霍夫鲍尔，J。；Sandholm，W.H.，随机扰动支付博弈中的进化，J.Econ。理论，132，47-69，（2007）·Zbl 1142.91343号
[29]	霍夫鲍尔，J。；Sandholm，W.H.，《稳定游戏及其动力学》，J.Econ。理论，1441710-1725，（2009）·Zbl 1170.91316号
[30]	霍夫鲍尔，J。；舒斯特，P。；Sigmund，K.，关于进化稳定策略和博弈动力学的注释，J.Theor。生物学，81609-612，（1979）
[31]	霍夫鲍尔，J。；Sigmund，K.，自适应动力学和进化稳定性，应用。数学。莱特。，3, 75-79, (1990) ·Zbl 0709.92015
[32]	霍夫鲍尔，J。；Sigmund，K.，《进化博弈与人口动力学》（1998），英国剑桥大学出版社·Zbl 0914.90287号
[33]	霍夫鲍尔，J。；索林，S。；Viossat，Y.，《时间平均复制器和最佳回复动态》，数学。操作。研究，34，2，263-269，（2009）·Zbl 1232.91046号
[34]	Hopkins，E.，关于最佳反应动力学的注释，Games Econ。贝哈夫。，29, 138-150, (1999) ·Zbl 1131.91307号
[35]	霍普金斯，E.，《人们如何在游戏中学习的两种竞争模型》，《计量经济学》，70，2141-2166，（2002）·Zbl 1142.91357号
[36]	Izquierdo，L.R.，Izquierto，S.S.，Sandholm，W.H.，2018年。ABED简介：基于代理的进化博弈动力学模拟。布尔戈斯大学、巴利亚多利德大学和威斯康星大学。未发表的手稿。；Izquierdo，L.R.，Izquierto，S.S.，Sandholm，W.H.，2018年。ABED简介：基于代理的进化博弈动力学模拟。布尔戈斯大学、巴利亚多利德大学和威斯康星大学。未发表的手稿。
[37]	Kimura，M.，《自然选择对种群适应度的影响》，《遗传》，第12期，第145-167页，（1958年）
[38]	拉卡，R。；Sandholm，W.H.，人口游戏的投影动力学和几何，游戏经济。贝哈夫。，64, 565-590, (2008) ·Zbl 1152.91355号
[39]	拉拉基，R。；Mertikopoulos，P.，惯性游戏动力学及其在约束优化中的应用，SIAM J.控制优化。，53, 5, 3141-3170, (2015) ·Zbl 1335.91018号
[40]	Lee，J.M.，黎曼流形：曲率导论，数学研究生教材，第176卷，（1997），斯普林格·Zbl 0905.53001号
[41]	Lee，J.M.，《光滑流形导论》，《数学研究生教材》，第218卷，（2003年），纽约州斯普林格-弗拉格
[42]	梅纳德·史密斯（Maynard Smith，J.）。；普莱斯，G.R.，《动物冲突的逻辑》，《自然》，第246、15-18页，（1973年）·Zbl 1369.92134号
[43]	Mertikopoulos，P。；穆斯塔卡斯，A.L.，《随机扰动下理性行为的出现》，《Ann.Appl。概率。，20, 4, 1359-1388, (2010) ·兹比尔1195.91011
[44]	Mertikopoulos，P。；Sandholm，W.H.，《通过强化和正规化在游戏中学习》，数学。操作。决议，41，4，1297-1324，（2016）·Zbl 1349.91063号
[45]	Mertikopoulos，P.，Sandholm，W.H.，2018年。具有格子结构特征的离散选择和博弈动力学。CNRS和威斯康星大学。未发表的手稿。；Mertikopoulos，P.，Sandholm，W.H.，2018年。具有格子结构特征的离散选择和博弈动力学。CNRS和威斯康星大学。未发表的手稿。
[46]	Mertikopoulos，P。；Staudigl，M.，关于带噪声梯度输入的类梯度流的收敛性，SIAM J.Optim。，28, 1, 163-197, (2018) ·Zbl 1387.90187号
[47]	Mertikopoulos，P。；Zhou，Z.，在具有连续动作集和未知支付函数的游戏中学习，数学。程序。，(2018)
[48]	蒙德勒，D。；Shapley，L.S.，《潜在游戏》，《游戏经济》。贝哈夫。，14, 1, 124-143, (1996) ·Zbl 0862.90137号
[49]	纳格尼，A。；张，D.，固定需求交通网络平衡的制定、稳定性分析和计算中的投影动力系统，交通。科学。，31, 147-158, (1997) ·Zbl 0886.90072号
[50]	内米洛夫斯基。；尤丁，D.B.，优化中的问题复杂性和方法效率，（1983），纽约州威利·Zbl 0501.90062号
[51]	Posch，M.，正规形式游戏随机学习算法中的循环，J.Evol。经济。，7, 193-207, (1997)
[52]	Rockafellar，R.T.，凸分析，（1970），普林斯顿大学出版社，新泽西州普林斯顿·Zbl 0229.90020号
[53]	罗斯·G。；Sandholm，W.H.，具有恒定步长和微分包含的随机近似，SIAM J.Control Optim。，51, 1, 525-555, (2013) ·Zbl 1302.62182号
[54]	Rustichini，A.，刺激-反应学习模型的最佳特性，游戏经济学。贝哈夫。，29, 230-244, (1999) ·Zbl 1131.91308号
[55]	Sandholm，W.H.，《连续玩家集的潜在游戏》，J.Econ。理论，97，81-108，（2001）·Zbl 0990.91005号
[56]	Sandholm，W.H.，超额回报动力学和其他表现良好的进化动力学，J.Econ。理论，124149-170，（2005）·Zbl 1116.91019号
[57]	Sandholm，W.H.，进化博弈动力学下的局部稳定性，Theor。经济。，5, 27-50, (2010) ·兹比尔1194.91046
[58]	Sandholm，W.H.，《人口博弈与进化动力学》，经济学习与社会进化，（2010），麻省理工学院出版社，马萨诸塞州剑桥·Zbl 1208.91003号
[59]	Sandholm，W.H.，游戏动力学可积性的概率解释，Dyn。游戏应用。，4, 95-106, (2014) ·Zbl 1300.91012号
[60]	Sandholm，W.H.，《种群博弈与确定性进化动力学》，（Young，H.P.；Zamir，S.，《博弈论手册》，第4卷，（2015），爱思唯尔出版社），703-778
[61]	桑德霍姆，W.H。；杜库马克，E。；Lahkar，R.，《投影动态和复制动态》，《游戏经济》。贝哈夫。，64, 666-683, (2008) ·Zbl 1152.91357号
[62]	Schlag，K.H.，为什么要模仿，如果是，如何模仿？对多武装匪徒采取有界理性的方法，J.Econ。理论，78，130-156，（1998）·Zbl 0895.90003号
[63]	舒斯特，P。；Sigmund，K.，Replicator dynamics，J.Theor。生物学，100，3353-538，（1983）
[64]	舒斯特，P。；Sigmund，K。；霍夫鲍尔，J。；Wolff，R.，《动物社会行为的自我调节I：对称竞赛》，《生物》。赛博。，40, 1-8, (1981) ·Zbl 0465.92016
[65]	Shahshahani，S.，《连锁和选择研究的新数学框架》，《美国数学学会回忆录》，第211卷，（1979）·Zbl 0473.92008号
[66]	Shalev-Shwartz，S.，《在线学习和在线凸优化》，Found。趋势马赫数。学习。，4, 2, 107-194, (2011) ·Zbl 1253.68190号
[67]	Swinkels，J.M.，《游戏中的调整动力和理性游戏》，《游戏经济》。贝哈夫。，5, 455-484, (1993) ·Zbl 0805.90132号
[68]	P.D.泰勒。；Jonker，L.B.，进化稳定策略和博弈动力学，数学。生物科学。，40, 1-2, 145-156, (1978) ·Zbl 0395.90118号
[69]	Tsakas，E。；Voorneveld，M.，《目标投影动态》，《游戏经济》。贝哈夫。，67, 708-719, (2009) ·Zbl 1190.91009号
[70]	Tsallis，C.，Boltzmann-Gibbs统计的可能推广，J.Stat.Phys。，52, 479-487, (1988) ·Zbl 1082.82501号
[71]	威布尔，J.W.，进化博弈论，（1995），麻省理工学院出版社，马萨诸塞州剑桥·Zbl 0879.90206号
[72]	祖赛，D.，2018年。进化动力学中的收益：一种统一的方法来解决收缩游戏和ESS的稳定性问题。天普大学。未发表的手稿。；祖赛，D.，2018年。进化动力学中的收益：一种统一的方法来解决收缩游戏和ESS的稳定性问题。天普大学。未发表的手稿。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：书籍文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

黎曼博弈动力学。（英语） Zbl 1417.91102号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

黎曼博弈动力学。 （英语） Zbl 1417.91102号

MSC公司：

关键词：

软件：

参考文献：

黎曼博弈动力学。（英语） Zbl 1417.91102号