乔治·查斯帕利斯。;Shamma,Jeff S。;安德斯·兰泽 扰动强化学习下鞍点的不收敛性。 (英语) Zbl 1388.91060号 国际博弈论 44,第3期,667-699(2015). 摘要:对于战略形式博弈中的几种强化学习模型,在支付函数的某些条件下,可能会以正概率收敛到非纳什均衡的行为轮廓。在本文中,我们探讨了一个替代强化学习模型,其中每个代理的策略受到策略相关的扰动(或突变)函数的扰动,如何排除收敛到非Nash纯策略配置文件。该方法扩展了游戏中强化学习的先验分析,解决了收敛到鞍边界点的问题。它进一步提供了一个框架,在这个框架下,可以在强化学习的背景下分析突变的影响。 MSC公司: 91A26型 博弈论中的理性与学习 91A10号 非合作游戏 91A22型 进化游戏 关键词:在游戏中学习;强化学习;复制因子动力学 PDF格式BibTeX公司 XML格式引用 \textit{G.C.Chasparis}等人,《国际博弈论》44,第3期,667--699(2015;Zbl 1388.91060) 全文: 内政部 参考文献: [1] Altman E,Hayel Y,Kameda H(2007)非合作路由中的进化动力学和潜在博弈。在:WiOpt 2007,利马索尔 [2] Arthur WB(1993),关于设计行为像人类代理人的经济代理人。进化经济学杂志3:1-22·doi:10.1007/BF01199986 [3] Beggs A(2005)关于强化学习的收敛性。经济理论杂志122:1-36·Zbl 1118.91025号 ·doi:10.1016/j.jet.2004.03.008 [4] Bergin J,Lipman BL(1996)《状态依赖突变的进化》。经济计量学64(4):943-956·Zbl 0862.90142号 ·doi:10.307/2171851 [5] Bonacich P,Liggett T(2003),社会学中出现的矩阵值马尔可夫链的渐近性。Stoch过程应用104:155-171·Zbl 1075.60546号 ·doi:10.1016/S0304-4149(02)00231-4 [6] Börgers T,Sarin R(1997)通过强化和复制因子动力学学习。经济理论杂志77(1):1-14·Zbl 0892.90198号 ·doi:10.1006/jeth.1997.2319 [7] Bush R,Mosteller F(1955)学习的随机模型。纽约威利·Zbl 0064.39002号 ·doi:10.1037/14496-000 [8] Chasparis G,Shamma J(2012)多智能体协调和网络形成中有效结果的分布式动态强化。Dyn Games应用程序2(1):18-50·兹比尔1273.91056 ·doi:10.1007/s13235-011-0038-z [9] Cho IK,Matsui A(2005)《重复游戏中的学习抱负》。经济理论杂志124:171-201·Zbl 1116.91014号 ·doi:10.1016/j.jet.2004.12.001 [10] Erev I,Roth A(1998)《预测人们如何玩游戏:具有独特混合策略均衡的实验游戏中的强化学习》,《美国经济评论》88:848-881 [11] Hofbauer J,Sigmund K(1998)进化博弈与人口动力学。剑桥大学出版社·Zbl 0914.90287号 ·doi:10.1017/CBO9781139173179 [12] Hopkins E,Posch M(2005)强化学习下边界点的可达性。游戏Econ Behav 53:110-125·Zbl 1118.91026号 ·doi:10.1016/j.geb.2004.08.002 [13] Kushner HJ,Yin GG(2003)《随机近似和递归算法及应用》,第2版。Springer Verlag,纽约·Zbl 1026.62084号 [14] Leslie D(2004)游戏中的强化学习。布里斯托尔大学数学学院博士论文 [15] Marden J,Arslan G,Shamma J(2009)合作控制和潜在游戏。IEEE Trans-Syst Man Cybern B 39(6):1393-1407·doi:10.1109/TSMCB.2009.2017273 [16] 蒙德勒·D、沙普利·L(1996)《潜在游戏》。奥运会Econ Behav 14:124-143·Zbl 0862.90137号 ·doi:10.1006/游戏.1996.0044 [17] Narendra K,Thathachar M(1989)《学习自动机:导论》。Prentice-Hall,上鞍河·兹伯利0279.68067 [18] Nevelson MB,Hasminskii RZ(1976),随机近似和递归。美国数学学会,普罗维登斯 [19] Norman MF(1968)关于具有两个吸收状态的线性模型。数学心理学杂志5:225-241·Zbl 0157.26601号 ·doi:10.1016/0022-2496(68)90073-4 [20] Pemantle R(1990)urn模型和随机近似中不稳定点的不收敛性。Ann Probab年鉴18(2):698-712·Zbl 0709.60054号 ·doi:10.1214/aop/1176990853 [21] Posch M(1997)正规形式游戏的随机学习算法中的循环。进化经济学7:193-207·doi:10.1007/s001910050041 [22] Rosenthal R(1973)一类具有纯策略Nash均衡的博弈。国际博弈论2(1):65-67·Zbl 0259.90059号 ·doi:10.1007/BF01737559 [23] Rudin W(1964)《数学分析原理》。纽约McGraw-Hill图书公司·Zbl 0148.02903号 [24] Sandholm W(2001)具有连续玩家集的潜在游戏。经济理论杂志97:81-108·Zbl 0990.91005号 [25] Sandholm WH(2010)人口博弈与进化动力学。麻省理工学院出版社,剑桥·Zbl 1208.91003号 [26] Savla K,Frazzoli E(2010)空间覆盖问题的博弈学习算法。参加:第47届allerton通信、控制和计算年会,allerton·兹比尔1368.90052 [27] Shapiro IJ,Narendra KS(1969)《随机自动机在参数自组织和多模态性能标准中的应用》,IEEE Transac Syst Sci-Cybern 5:352-360·Zbl 0184.19401号 ·doi:10.1109/TSSC.1969.300228 [28] Skyrms B,Pemantle R(2000)社会网络形成的动态模型。美国国家科学院院刊97,9340-9346·Zbl 0984.91013号 [29] Smith JM(1982)《进化与博弈论》。剑桥大学出版社·Zbl 0526.90102号 ·doi:10.1017/CBO9780511806292 [30] Weibull J(1997)进化博弈论。麻省理工学院出版社,剑桥·Zbl 0879.90206号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。