×

在Monte-Carlo树上搜索具有交替移动和完整信息的确定性游戏。 (英语) Zbl 1417.91011号

总结:我们考虑一个具有交替移动和完整信息的确定性游戏,其中的问题总是两个对手中的一个获胜。我们假设这个游戏是一个具有某些独立性质的随机模型的实现。我们本着蒙特卡罗树搜索的精神考虑算法,以至多估计给定位置的极小极大值:它包括从该位置开始,依次模拟精心选择的匹配。在某种意义上,我们构建了一个逐步优化的算法:一旦模拟了第一次匹配,算法就根据第一次匹配提供的统计信息(以及我们在游戏中拥有的先验信息)决定如何模拟(n+1)\)以这样一种方式进行匹配,即关于所研究位置的极小极大值的信息的增加是最大的。这个算法非常快。我们证明了我们的逐步优化算法不是全局最优的,并且它总是在有限的步骤中收敛,即使我们对博弈的先验是完全无关的。最后,我们针对MCTS测试了我们的算法J.珀尔的游戏[Artif.Intell.14113–138(1980;Zbl 0445.68048号)]并且,在游戏Connect Four和一些变体上,具有非常简单和通用的先验。数值结果相当令人失望。然而,在某些情况下,我们的算法似乎是有效的。

理学硕士:

91A05型 2人游戏
91A46型 组合游戏
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] B.Abramson,《预期产出:静态评估的一般模型》。IEEE传输。模式分析。机器。《情报》12(1990)182-193。
[2] P.Auer、N.Cesa-Bianchi和P.Fischer,《多武装匪徒问题的有限时间分析》。机器。《学习》47(2002)235-256·Zbl 1012.68093号
[3] E.B.Baum和W.D.Smith,游戏中相关性的贝叶斯方法。Artif公司。《情报学》97(1997)195-242·Zbl 0904.68075号
[4] C.Browne、E.Powley、D.Whitehouse、S.Lucas、P.I.Cowling、P.Rohlfshagen、S.Tadere、D.Perez、S.Samothrakis和S.Colton,《蒙特卡洛树搜索方法调查》。IEEE传输。计算。智力。AI Games4(2012)1-43。
[5] S.Bubeck和N.Cesa-Bianchi,随机和非随机多武器强盗问题的后悔分析。已找到。趋势马赫数。学习.5(2012)1-122·Zbl 1281.91051号 ·doi:10.1561/220000024
[6] L.Bušoniu、R.Munos和E.Páll,《乐观的、最早的最小极大顺序决策搜索分析》。IEEE国际标准。近似动态。程序。钢筋。学习。(2014).
[7] G.M.J.B.Chaslot、M.H.M.Winands、H.J.van den Herik、J.W.H.M.Uiterwijk和B.Bouzy,蒙特卡洛树搜索的渐进策略。新数学。《自然计算》4(2008)343-357·Zbl 1198.68225号 ·doi:10.1142/S1793005708001094
[8] P.A.Coquelin和R.Munos,树搜索的Bandit算法。技术报告,INRIA RR-6141(2007)。
[9] R.Coulom,Monte-Carlo树搜索中的高效选择性和备份操作符,收录于Proc。第五次国际比较计算。和运动会,意大利都灵(2006)72-83。
[10] L.Devroye和O.Kamoun,《随机最小极大博弈树》,收录于《随机离散结构》(明尼阿波利斯,明尼苏达州,1993年)第76卷《数学及其应用中的IMA卷》。施普林格,纽约(1996)55-80·兹伯利0841.90145 ·doi:10.1007/978-1-4612-0719-1-5
[11] A.Garivier、E.Kaufmann和W.M.Koolen,《Maximin动作识别:游戏的新强盗框架》,载于《JMLR:研讨会和会议记录》,第49卷(2016)1-23。
[12] S.Gelly、Y.Wang、R.Munos和O.Teytaud,用Monte-Carlo围棋的模式修改UCT。技术代表Inst.Nat.Rech。通知。自动。(INRIA),巴黎(2006年)。
[13] M.L.Ginsberg,GIB:具有计算挑战性的游戏中的不完美信息。J.阿蒂夫。智力。第14号决议(2001)303-358·Zbl 0979.91002号
[14] D.Golovin和A.Kraus,自适应子模块:主动学习和随机优化的理论和应用。J.阿蒂夫。智力。第42号决议(2011)427-486·Zbl 1230.90141号
[15] L.Kocsisand C.Szepesvári,基于Bandit的Monte-Carlo规划,摘自《机器学习:ECML》,计算机课堂笔记第4212卷。科学。柏林施普林格(2006)282-293·doi:10.1007/11871842-29
[16] C.S.Lee、M.H.Wang、G.M.J.B.Chaslot、J.B.Hoock、A.Rimmel、O.Teytaud等人,台湾电脑围棋锦标赛中展示的MoGo计算智能。IEEE传输。计算。智力。AI Games1(2009)73-89。
[17] R.Munos,《从强盗到Monte-Carlo树搜索:应用于优化和规划的乐观原则》,载于《机器学习的基础和趋势》(第21卷)。现为Publishers Inc.(2014)146·Zbl 1296.91086号
[18] J.Pearl,极小极大树的渐近性质和配子搜索程序。Artif公司。《情报》14(1980)113-138·Zbl 0445.68048号
[19] B.谢泼德(Sheppard),《世界青年解放运动》(World-champonship-caliber srabble)。Artif公司。Intell.134(2002)241-275·Zbl 0982.68126号
[20] D.Silver、A.Huang、C.J.Maddison、A.Guez、L.Sifre、G.van den Driessche、J.Schrittwieser、I.Antonoglou、V.Panneershelvam、M.Lanctot、S.Dieleman、D.Grewe、J.Nham、N.Kalchbrenner、I.Sutskever、T.Lillicrap、M.Leach、K.Kavukcuoglu、T.Graepel、D.Hassabis,通过深度神经网络和树搜索掌握围棋游戏。《自然》529(2016)484-489·doi:10.1038/nature16961
[21] M.Tarsi,一些游戏树上的最优搜索。J.协会计算。马赫30(1983)389-396·Zbl 0628.68072号 ·doi:10.1145/2402.322383
[22] G.Tesauro、V.T.Rajan和R.Segal,蒙特卡罗树搜索中的贝叶斯推理,UAI’10 Proc。第二十六届人工智能不确定性会议(2010)580-588。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。