文件Zbl 1388.91060-zbMATH Open

扰动强化学习下鞍点的不收敛性。（英语） Zbl 1388.91060号

国际博弈论 44，第3期，667-699（2015）.

摘要：对于战略形式博弈中的几种强化学习模型，在支付函数的某些条件下，可能会以正概率收敛到非纳什均衡的行为轮廓。在本文中，我们探讨了一个替代强化学习模型，其中每个代理的策略受到策略相关的扰动（或突变）函数的扰动，如何排除收敛到非Nash纯策略配置文件。该方法扩展了游戏中强化学习的先验分析，解决了收敛到鞍边界点的问题。它进一步提供了一个框架，在这个框架下，可以在强化学习的背景下分析突变的影响。

MSC公司：

91A26型	博弈论中的理性与学习
91A10号	非合作游戏
91A22型	进化游戏

关键词：

在游戏中学习;强化学习;复制因子动力学

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Altman E，Hayel Y，Kameda H（2007）非合作路由中的进化动力学和潜在博弈。在：WiOpt 2007，利马索尔
[2]	Arthur WB（1993），关于设计行为像人类代理人的经济代理人。进化经济学杂志3:1-22·doi:10.1007/BF01199986
[3]	Beggs A（2005）关于强化学习的收敛性。经济理论杂志122:1-36·Zbl 1118.91025号 ·doi:10.1016/j.jet.2004.03.008
[4]	Bergin J，Lipman BL（1996）《状态依赖突变的进化》。经济计量学64（4）：943-956·Zbl 0862.90142号 ·doi:10.307/2171851
[5]	Bonacich P，Liggett T（2003），社会学中出现的矩阵值马尔可夫链的渐近性。Stoch过程应用104:155-171·Zbl 1075.60546号 ·doi:10.1016/S0304-4149（02）00231-4
[6]	Börgers T，Sarin R（1997）通过强化和复制因子动力学学习。经济理论杂志77（1）：1-14·Zbl 0892.90198号 ·doi:10.1006/jeth.1997.2319
[7]	Bush R，Mosteller F（1955）学习的随机模型。纽约威利·Zbl 0064.39002号 ·doi:10.1037/14496-000
[8]	Chasparis G，Shamma J（2012）多智能体协调和网络形成中有效结果的分布式动态强化。Dyn Games应用程序2（1）：18-50·兹比尔1273.91056 ·doi:10.1007/s13235-011-0038-z
[9]	Cho IK，Matsui A（2005）《重复游戏中的学习抱负》。经济理论杂志124:171-201·Zbl 1116.91014号 ·doi:10.1016/j.jet.2004.12.001
[10]	Erev I，Roth A（1998）《预测人们如何玩游戏：具有独特混合策略均衡的实验游戏中的强化学习》，《美国经济评论》88:848-881
[11]	Hofbauer J，Sigmund K（1998）进化博弈与人口动力学。剑桥大学出版社·Zbl 0914.90287号 ·doi:10.1017/CBO9781139173179
[12]	Hopkins E，Posch M（2005）强化学习下边界点的可达性。游戏Econ Behav 53:110-125·Zbl 1118.91026号 ·doi:10.1016/j.geb.2004.08.002
[13]	Kushner HJ，Yin GG（2003）《随机近似和递归算法及应用》，第2版。Springer Verlag，纽约·Zbl 1026.62084号
[14]	Leslie D（2004）游戏中的强化学习。布里斯托尔大学数学学院博士论文
[15]	Marden J，Arslan G，Shamma J（2009）合作控制和潜在游戏。IEEE Trans-Syst Man Cybern B 39（6）：1393-1407·doi:10.1109/TSMCB.2009.2017273
[16]	蒙德勒·D、沙普利·L（1996）《潜在游戏》。奥运会Econ Behav 14:124-143·Zbl 0862.90137号 ·doi:10.1006/游戏.1996.0044
[17]	Narendra K，Thathachar M（1989）《学习自动机：导论》。Prentice-Hall，上鞍河·兹伯利0279.68067
[18]	Nevelson MB，Hasminskii RZ（1976），随机近似和递归。美国数学学会，普罗维登斯
[19]	Norman MF（1968）关于具有两个吸收状态的线性模型。数学心理学杂志5:225-241·Zbl 0157.26601号 ·doi:10.1016/0022-2496（68）90073-4
[20]	Pemantle R（1990）urn模型和随机近似中不稳定点的不收敛性。Ann Probab年鉴18（2）：698-712·Zbl 0709.60054号 ·doi:10.1214/aop/1176990853
[21]	Posch M（1997）正规形式游戏的随机学习算法中的循环。进化经济学7:193-207·doi:10.1007/s001910050041
[22]	Rosenthal R（1973）一类具有纯策略Nash均衡的博弈。国际博弈论2（1）：65-67·Zbl 0259.90059号 ·doi:10.1007/BF01737559
[23]	Rudin W（1964）《数学分析原理》。纽约McGraw-Hill图书公司·Zbl 0148.02903号
[24]	Sandholm W（2001）具有连续玩家集的潜在游戏。经济理论杂志97:81-108·Zbl 0990.91005号
[25]	Sandholm WH（2010）人口博弈与进化动力学。麻省理工学院出版社，剑桥·Zbl 1208.91003号
[26]	Savla K，Frazzoli E（2010）空间覆盖问题的博弈学习算法。参加：第47届allerton通信、控制和计算年会，allerton·兹比尔1368.90052
[27]	Shapiro IJ，Narendra KS（1969）《随机自动机在参数自组织和多模态性能标准中的应用》，IEEE Transac Syst Sci-Cybern 5:352-360·Zbl 0184.19401号 ·doi:10.1109/TSSC.1969.300228
[28]	Skyrms B，Pemantle R（2000）社会网络形成的动态模型。美国国家科学院院刊97，9340-9346·Zbl 0984.91013号
[29]	Smith JM（1982）《进化与博弈论》。剑桥大学出版社·Zbl 0526.90102号 ·doi:10.1017/CBO9780511806292
[30]	Weibull J（1997）进化博弈论。麻省理工学院出版社，剑桥·Zbl 0879.90206号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

扰动强化学习下鞍点的不收敛性。（英语） Zbl 1388.91060号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

扰动强化学习下鞍点的不收敛性。 （英语） Zbl 1388.91060号

MSC公司：

关键词：

参考文献：

扰动强化学习下鞍点的不收敛性。（英语） Zbl 1388.91060号