×

学习具有线性记忆的终端游戏的获胜策略。 (英语) 兹比尔1211.91068

小结:我们证明了如果局部有限位置博弈中的一个或多个玩家有获胜策略,那么他们可以独立于其他玩家应用的策略,自己找到它,不会损失超过有限数量的局,也不会使用超过线性大小的内存。我们设计了两种学习如何取胜的算法。其中一个也可以修改,以确定实现平局的策略,前提是相关球员不存在获胜策略,但通过正确选择动作,可以从起始位置确保平局。如果存在平局或制胜策略,则在不超过一个线性的局数损失后学习(在游戏图的边数中是线性的)。

MSC公司:

91A24型 位置游戏(追逐和回避等)
91A26型 博弈论中的理性与学习
91A46型 组合游戏
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Berlekamp ER、Conway JH、Guy RK(1982)《数学游戏的获胜方式》。纽约学术出版社
[2] Bouton CL(1901–1902)Nim,一个具有完整数学理论的游戏。普林斯顿数学年鉴3:35-39·doi:10.2307/1967631
[3] Ernst A(2005)Gewinnstrategien auf Graphen。伊勒梅瑙大学技术文凭
[4] Fraenkel AS(2008)《组合游戏:精选书目和简洁美食介绍》。电子J组合(http://www.combinatorics.org/Surveys/index.html,6月20日访问)·Zbl 0871.90147号
[5] Fraenkel AS,Rahat O(2001)无限循环公平博弈。《Theor Comp Sci》252:13–22·Zbl 0976.91008号 ·doi:10.1016/S0304-3975(00)00074-8
[6] Fudenberg D,Tirole J(1991)博弈论。麻省理工学院出版社,剑桥·Zbl 0596.90015号
[7] 雅各布斯·K(1983)《Kombinatorik》中的艾因夫·朗。Walter de Gruyter,柏林·Zbl 0523.05001号
[8] Kummer B(1979)《格拉芬的斯皮尔》。德国维森沙芬船级社(Deutscher Verlag der Wissenschaften),柏林·Zbl 0486.90086号
[9] Michie D(1961)《试验与错误》。摘自:Barnett SA,McLaren A(编辑)科学调查,第2部分。企鹅哈蒙德斯沃思,第129-145页
[10] Michie D(1963)游戏学习机械化实验。1.模型及其参数的表征。组件J 1:232–263·doi:10.1093/comjnl/6.3.232
[11] Schwalbe U,Walker P(2001)Zermelo和博弈论的早期历史。游戏Econ Behav 34:123–137·Zbl 0978.91002号 ·doi:10.1006/游戏.2000.0794
[12] Sutton RS,Barto AG(1998)《强化学习:导论》。麻省理工学院出版社,剑桥
[13] Yang J,Liao S,Pawlak M(2001)关于Hex游戏中寻找获胜策略的分解方法。In:Sing ALW,Man WH,Wai W(eds)Proceedings ADCOG:国际会议应用和电脑游戏开发。九龙香港城市大学,第96-111页
[14] Zermelo E(1912)《Anwendung der Mengenlehre auf die Theory des Schachspiels》。收录:第五届数学家大会会议记录(剑桥1912)。剑桥大学出版社,剑桥,第501-504页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。