×

修改蒙特卡罗树搜索中调整探索的改进置信上限。 (英语) Zbl 1370.68263号

摘要:树上置信上限(UCT)算法是蒙特卡罗树搜索(MCTS)算法中应用最广泛的变体,其成功的关键在于它将MCTS与上置信界(UCB)盗贼算法结合在一起。改进的UCB算法是一种土匪算法,它具有优于UCB算法的遗憾界。然而,改进的UCB算法的一些特性不适合直接应用于MCTS。组合置信限(CCB)土匪算法是对改进的UCB算法的改进,使其更适合于树搜索任务。通过探索调节因子,CCB土匪算法可以进一步扩展到MCTS中以简单遗憾最小化的方式调节探索。
本文分析了CCB盗贼算法的简单遗憾界。我们还对探索因素的不同选择如何影响围棋和Nogo的游戏进行了全面概述。

MSC公司:

68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
91A46型 组合游戏
91A60 概率博弈;赌博
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 布朗,C。;鲍利,E。;怀特豪斯,D。;卢卡斯,S。;Cowling,P。;罗尔夫沙根,P。;Tarede,S。;佩雷斯,D。;萨莫特拉基斯,S。;Colton,S.,《蒙特卡罗树搜索方法调查》,IEEE Trans。计算。智力。人工智能游戏,4,1-43(2012)
[2] 赖,T。;Robbins,H.,《渐进有效的自适应分配规则》,高级应用。数学。,6, 4-22 (1985) ·Zbl 0568.62074号
[3] 萨顿,R。;Barto,A.G.,《强化学习导论》(1998),麻省理工学院出版社:麻省理学院出版社,马萨诸塞州剑桥,美国
[4] Kocsis,L.公司。;Szepesvári,C.,基于Bandit的Monte-Carlo规划,(第17届欧洲机器学习会议论文集。第17届欧盟机器学习会议文献集,ECML'06(2006)),282-293
[5] 奥尔,P。;塞萨·比安奇,N。;Fischer,P.,多臂强盗问题的有限时间分析,马赫。学习。,47, 235-256 (2002) ·Zbl 1012.68093号
[6] 考夫曼,E。;科尔达,N。;Munos,R.,Thompson sampling:an渐近最优有限时间分析,(Algorithmic Learning Theory:233 International Conference.Proceedings.Algorithric LearningTheory:23 International Conference.Asseedings,ALT 2012,Lyon,France,October 29-31(2012)),199-213·Zbl 1386.91055号
[7] 加里维尔,A。;Cappé,O.,《有界随机土匪及其后的KL-UCB算法》(第24届学习理论年会论文集(2011))
[8] 李,L。;朱棣文。;Langford,J。;Schapire,R.E.,《个性化新闻文章推荐的情境土匪方法》(第19届万维网国际会议论文集(2010)),661-670
[9] 卡宁,Z。;Koren,T。;Somekh,O.,《多武装匪徒的几乎最优探索》(第30届机器学习国际会议论文集,第28卷(2013)),1238-1246
[10] 佩里克,P。;圣皮埃尔,D。;梅斯,F。;Ernst,D.,《tron游戏蒙特卡罗树搜索中不同选择策略的比较》(IEEE计算智能与游戏会议,IEEE计算智慧与游戏会议(2012)),242-249
[11] 曼迪,Y。;Kaneko,T.,LinUCB应用于Monte-Carlo树搜索,(计算机游戏的进展:第14届国际会议。计算机游戏的发展:第14次国际会议,ACG 2015,荷兰莱顿,2015年7月1日至3日),41-52,修订论文集
[12] Bubeck,S。;穆诺斯,R。;Stoltz,G.,《多武器强盗问题的纯粹探索》,(算法学习理论:第20届国际会议论文集。算法学习理论,第20届世界会议论文集,ALT 2009,葡萄牙波尔图,2009年10月3-5日(2009)),23-37·Zbl 1262.68061号
[13] 托宾,D。;Shimony,S.,基于简单遗憾的MCTS,(第26届AAAI人工智能会议论文集。第26届APAI人工智慧会议论文集,AAAI12(2012))
[14] Cazenave,T.,应用于树的顺序减半,IEEE Trans。计算。智力。AI游戏,7102-105(2015)
[15] 佩佩尔,T。;Cazenave,T。;Winands,M.H.M。;Lanctot,M.,《最小化蒙特卡洛树搜索中的简单和累积遗憾》,(计算机游戏:第三次计算机游戏研讨会。计算机游戏:计算机游戏第三次研讨会,CGW 2014(2014)),1-15,与第21届欧洲人工智能会议同时举行,ECAI 2014
[16] 费尔德曼,Z。;Domshlak,C.,《马尔可夫决策过程在线规划中的简单后悔优化》,《人工智能研究杂志》,第51期,第165-205页(2014年)·Zbl 1366.90216号
[17] 刘,Y.-C。;Tsuruoka,Y.,调整Monte-Carlo树搜索的改进置信上限,(《计算机游戏进展:第14届国际会议,修订论文集》。《计算机游戏发展:第14次国际会议,修改论文集》,ACG 2015,荷兰莱顿,2015年7月1-3日(2015),斯普林格国际出版公司),53-64
[18] 奥尔,P。;Ortner,R.,UCB重访:改进随机多武器盗贼问题的后悔界限,Period。数学。匈牙利。,61, 55-65 (2010) ·Zbl 1240.68164号
[19] 刘,Y.-C。;Tsuruoka,Y.,《Monte-Carlo树搜索中简单后悔最小化探索规则》(IEEE计算智能与游戏会议,IEEE计算智慧与游戏会议),CIG(2015),35-42
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。