文件Zbl 1370.68263-zbMATH Open

修改蒙特卡罗树搜索中调整探索的改进置信上限。（英语） Zbl 1370.68263号

西奥。计算。科学。 644, 92-105 (2016).

摘要：树上置信上限（UCT）算法是蒙特卡罗树搜索（MCTS）算法中应用最广泛的变体，其成功的关键在于它将MCTS与上置信界（UCB）盗贼算法结合在一起。改进的UCB算法是一种土匪算法，它具有优于UCB算法的遗憾界。然而，改进的UCB算法的一些特性不适合直接应用于MCTS。组合置信限（CCB）土匪算法是对改进的UCB算法的改进，使其更适合于树搜索任务。通过探索调节因子，CCB土匪算法可以进一步扩展到MCTS中以简单遗憾最小化的方式调节探索。
本文分析了CCB盗贼算法的简单遗憾界。我们还对探索因素的不同选择如何影响围棋和Nogo的游戏进行了全面概述。

MSC公司：

68T20型	人工智能背景下的问题解决（启发式、搜索策略等）
91A46型	组合游戏
91A60	概率博弈；赌博

关键词：

蒙特卡洛树搜索;全副武装的土匪;置信上限

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	布朗，C。；鲍利，E。；怀特豪斯，D。；卢卡斯，S。；Cowling，P。；罗尔夫沙根，P。；Tarede，S。；佩雷斯，D。；萨莫特拉基斯，S。；Colton，S.，《蒙特卡罗树搜索方法调查》，IEEE Trans。计算。智力。人工智能游戏，4，1-43（2012）
[2]	赖，T。；Robbins，H.，《渐进有效的自适应分配规则》，高级应用。数学。，6, 4-22 (1985) ·Zbl 0568.62074号
[3]	萨顿，R。；Barto，A.G.，《强化学习导论》（1998），麻省理工学院出版社：麻省理学院出版社，马萨诸塞州剑桥，美国
[4]	Kocsis，L.公司。；Szepesvári，C.，基于Bandit的Monte-Carlo规划，（第17届欧洲机器学习会议论文集。第17届欧盟机器学习会议文献集，ECML'06（2006）），282-293
[5]	奥尔，P。；塞萨·比安奇，N。；Fischer，P.，多臂强盗问题的有限时间分析，马赫。学习。，47, 235-256 (2002) ·Zbl 1012.68093号
[6]	考夫曼，E。；科尔达，N。；Munos，R.，Thompson sampling:an渐近最优有限时间分析，（Algorithmic Learning Theory:233 International Conference.Proceedings.Algorithric LearningTheory:23 International Conference.Asseedings，ALT 2012，Lyon，France，October 29-31（2012）），199-213·Zbl 1386.91055号
[7]	加里维尔，A。；Cappé，O.，《有界随机土匪及其后的KL-UCB算法》（第24届学习理论年会论文集（2011））
[8]	李，L。；朱棣文。；Langford，J。；Schapire，R.E.，《个性化新闻文章推荐的情境土匪方法》（第19届万维网国际会议论文集（2010）），661-670
[9]	卡宁，Z。；Koren，T。；Somekh，O.，《多武装匪徒的几乎最优探索》（第30届机器学习国际会议论文集，第28卷（2013）），1238-1246
[10]	佩里克，P。；圣皮埃尔，D。；梅斯，F。；Ernst，D.，《tron游戏蒙特卡罗树搜索中不同选择策略的比较》（IEEE计算智能与游戏会议，IEEE计算智慧与游戏会议（2012）），242-249
[11]	曼迪，Y。；Kaneko，T.，LinUCB应用于Monte-Carlo树搜索，（计算机游戏的进展：第14届国际会议。计算机游戏的发展：第14次国际会议，ACG 2015，荷兰莱顿，2015年7月1日至3日），41-52，修订论文集
[12]	Bubeck，S。；穆诺斯，R。；Stoltz，G.，《多武器强盗问题的纯粹探索》，（算法学习理论：第20届国际会议论文集。算法学习理论，第20届世界会议论文集，ALT 2009，葡萄牙波尔图，2009年10月3-5日（2009）），23-37·Zbl 1262.68061号
[13]	托宾，D。；Shimony，S.，基于简单遗憾的MCTS，（第26届AAAI人工智能会议论文集。第26届APAI人工智慧会议论文集，AAAI12（2012））
[14]	Cazenave，T.，应用于树的顺序减半，IEEE Trans。计算。智力。AI游戏，7102-105（2015）
[15]	佩佩尔，T。；Cazenave，T。；Winands，M.H.M。；Lanctot，M.，《最小化蒙特卡洛树搜索中的简单和累积遗憾》，（计算机游戏：第三次计算机游戏研讨会。计算机游戏：计算机游戏第三次研讨会，CGW 2014（2014）），1-15，与第21届欧洲人工智能会议同时举行，ECAI 2014
[16]	费尔德曼，Z。；Domshlak，C.，《马尔可夫决策过程在线规划中的简单后悔优化》，《人工智能研究杂志》，第51期，第165-205页（2014年）·Zbl 1366.90216号
[17]	刘，Y.-C。；Tsuruoka，Y.，调整Monte-Carlo树搜索的改进置信上限，（《计算机游戏进展：第14届国际会议，修订论文集》。《计算机游戏发展：第14次国际会议，修改论文集》，ACG 2015，荷兰莱顿，2015年7月1-3日（2015），斯普林格国际出版公司），53-64
[18]	奥尔，P。；Ortner，R.，UCB重访：改进随机多武器盗贼问题的后悔界限，Period。数学。匈牙利。，61, 55-65 (2010) ·Zbl 1240.68164号
[19]	刘，Y.-C。；Tsuruoka，Y.，《Monte-Carlo树搜索中简单后悔最小化探索规则》（IEEE计算智能与游戏会议，IEEE计算智慧与游戏会议），CIG（2015），35-42

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑不
作业成本法*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

修改蒙特卡罗树搜索中调整探索的改进置信上限。（英语） Zbl 1370.68263号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

修改蒙特卡罗树搜索中调整探索的改进置信上限。 （英语） Zbl 1370.68263号

MSC公司：

关键词：

参考文献：

修改蒙特卡罗树搜索中调整探索的改进置信上限。（英语） Zbl 1370.68263号