×

扰动强化学习下鞍点的不收敛性。 (英语) Zbl 1388.91060号

摘要:对于战略形式博弈中的几种强化学习模型,在支付函数的某些条件下,可能会以正概率收敛到非纳什均衡的行为轮廓。在本文中,我们探讨了一个替代强化学习模型,其中每个代理的策略受到策略相关的扰动(或突变)函数的扰动,如何排除收敛到非Nash纯策略配置文件。该方法扩展了游戏中强化学习的先验分析,解决了收敛到鞍边界点的问题。它进一步提供了一个框架,在这个框架下,可以在强化学习的背景下分析突变的影响。

MSC公司:

91A26型 博弈论中的理性与学习
91A10号 非合作游戏
91A22型 进化游戏
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Altman E,Hayel Y,Kameda H(2007)非合作路由中的进化动力学和潜在博弈。在:WiOpt 2007,利马索尔
[2] Arthur WB(1993),关于设计行为像人类代理人的经济代理人。进化经济学杂志3:1-22·doi:10.1007/BF01199986
[3] Beggs A(2005)关于强化学习的收敛性。经济理论杂志122:1-36·Zbl 1118.91025号 ·doi:10.1016/j.jet.2004.03.008
[4] Bergin J,Lipman BL(1996)《状态依赖突变的进化》。经济计量学64(4):943-956·Zbl 0862.90142号 ·doi:10.307/2171851
[5] Bonacich P,Liggett T(2003),社会学中出现的矩阵值马尔可夫链的渐近性。Stoch过程应用104:155-171·Zbl 1075.60546号 ·doi:10.1016/S0304-4149(02)00231-4
[6] Börgers T,Sarin R(1997)通过强化和复制因子动力学学习。经济理论杂志77(1):1-14·Zbl 0892.90198号 ·doi:10.1006/jeth.1997.2319
[7] Bush R,Mosteller F(1955)学习的随机模型。纽约威利·Zbl 0064.39002号 ·doi:10.1037/14496-000
[8] Chasparis G,Shamma J(2012)多智能体协调和网络形成中有效结果的分布式动态强化。Dyn Games应用程序2(1):18-50·兹比尔1273.91056 ·doi:10.1007/s13235-011-0038-z
[9] Cho IK,Matsui A(2005)《重复游戏中的学习抱负》。经济理论杂志124:171-201·Zbl 1116.91014号 ·doi:10.1016/j.jet.2004.12.001
[10] Erev I,Roth A(1998)《预测人们如何玩游戏:具有独特混合策略均衡的实验游戏中的强化学习》,《美国经济评论》88:848-881
[11] Hofbauer J,Sigmund K(1998)进化博弈与人口动力学。剑桥大学出版社·Zbl 0914.90287号 ·doi:10.1017/CBO9781139173179
[12] Hopkins E,Posch M(2005)强化学习下边界点的可达性。游戏Econ Behav 53:110-125·Zbl 1118.91026号 ·doi:10.1016/j.geb.2004.08.002
[13] Kushner HJ,Yin GG(2003)《随机近似和递归算法及应用》,第2版。Springer Verlag,纽约·Zbl 1026.62084号
[14] Leslie D(2004)游戏中的强化学习。布里斯托尔大学数学学院博士论文
[15] Marden J,Arslan G,Shamma J(2009)合作控制和潜在游戏。IEEE Trans-Syst Man Cybern B 39(6):1393-1407·doi:10.1109/TSMCB.2009.2017273
[16] 蒙德勒·D、沙普利·L(1996)《潜在游戏》。奥运会Econ Behav 14:124-143·Zbl 0862.90137号 ·doi:10.1006/游戏.1996.0044
[17] Narendra K,Thathachar M(1989)《学习自动机:导论》。Prentice-Hall,上鞍河·兹伯利0279.68067
[18] Nevelson MB,Hasminskii RZ(1976),随机近似和递归。美国数学学会,普罗维登斯
[19] Norman MF(1968)关于具有两个吸收状态的线性模型。数学心理学杂志5:225-241·Zbl 0157.26601号 ·doi:10.1016/0022-2496(68)90073-4
[20] Pemantle R(1990)urn模型和随机近似中不稳定点的不收敛性。Ann Probab年鉴18(2):698-712·Zbl 0709.60054号 ·doi:10.1214/aop/1176990853
[21] Posch M(1997)正规形式游戏的随机学习算法中的循环。进化经济学7:193-207·doi:10.1007/s001910050041
[22] Rosenthal R(1973)一类具有纯策略Nash均衡的博弈。国际博弈论2(1):65-67·Zbl 0259.90059号 ·doi:10.1007/BF01737559
[23] Rudin W(1964)《数学分析原理》。纽约McGraw-Hill图书公司·Zbl 0148.02903号
[24] Sandholm W(2001)具有连续玩家集的潜在游戏。经济理论杂志97:81-108·Zbl 0990.91005号
[25] Sandholm WH(2010)人口博弈与进化动力学。麻省理工学院出版社,剑桥·Zbl 1208.91003号
[26] Savla K,Frazzoli E(2010)空间覆盖问题的博弈学习算法。参加:第47届allerton通信、控制和计算年会,allerton·兹比尔1368.90052
[27] Shapiro IJ,Narendra KS(1969)《随机自动机在参数自组织和多模态性能标准中的应用》,IEEE Transac Syst Sci-Cybern 5:352-360·Zbl 0184.19401号 ·doi:10.1109/TSSC.1969.300228
[28] Skyrms B,Pemantle R(2000)社会网络形成的动态模型。美国国家科学院院刊97,9340-9346·Zbl 0984.91013号
[29] Smith JM(1982)《进化与博弈论》。剑桥大学出版社·Zbl 0526.90102号 ·doi:10.1017/CBO9780511806292
[30] Weibull J(1997)进化博弈论。麻省理工学院出版社,剑桥·Zbl 0879.90206号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。