{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期部分”:[[2024,6,30]],“日期时间”:“2024-06-30T15:14:16Z”,“时间戳”:1719760456906},“引用计数”:0,“发布者”:“AI Access Foundation”,“内容域”:{“域”:[],“交叉标记限制”:false},”短容器时间“:[”jair“],“摘要”:“在Computer Go的成功推动下,Monte Carlo树搜索(MCTS)在游戏社区中得到了广泛采用。它与传统强化学习(RL)方法的联系在过去已有概述;然而,RL技术在树搜索中的使用还没有得到彻底的研究。在本文中,我们重新深入地审视了这两个领域之间的密切关系;我们的目标是提高两个社区之间的交叉意识。我们表明,在树搜索中直接适应RL语义可以产生大量新算法,而传统的MCTS只是其中的一种变体。我们确认,受RL启发的规划方法结合在线搜索在一些经典棋盘游戏和街机视频游戏比赛中显示出令人鼓舞的结果,我们的算法最近在这些比赛中排名第一。我们的研究促进了对学习、规划和搜索的统一看法<\/jats:p>“,”DOI“:”10.1613\/jair.5507“,”type“:”journal-article“,”created“:{”date-parts“:[[2018,7,18]],”date-time“:”2018-07-18T15:46:43Z“,”timestamp“:1531928803000},”page“:“881-936”,“source”:“Crossref”,“is-referenced-by-count”:36,“title”:[“On Monte Carlo Tree Search and Reinforcement Learning”],“前缀”:“10.1613”,“volume”:“60”,“作者”:[{“给定”:“Tom“,”family“:”Vodopivec“,”sequence“:”first“,”affiliation“:[]},”{“given”:“Spyridon”,“family”:“Samothrakis”,“sequence”:“additional”,“affiliance”:[]{,”given“:”Branko“,”家人“:”Ster“,”序列“:”additional“,”从属关系“:[]}”,“member”:“16860”,“published on”:{“date-parts”:[2017,12,20]]}“,”contain惰性物质“:[”《人工智能研究杂志》“],”original-title“:[],”link“:[{”URL“:”https:\/\/jair.org\/index.php\/jair \/article\/download\/11099\/26289“,”content-type“:”application\/pdf“,”content-version“:”vor“,”intended-application“:”text-mining“},{”URL“:”http://jair.org\/index.php\/jaire\/artracle\/dwnload\/1199\/2621989“,”内容类型“:”unspecified“,”content-version“:”vor“,”intended-application“:”similarity-checking“}],”deposed“:{”date-parts“:[[2019,10,8]],”date-time“:”2019-10-08T22:29:46Z“,”timestamp“:1570573786000},”score“:1,”resource“:”{“primary”:{“URL”:“https:\/\/jair.org\/index.php\/jair \/article\/view\/11099”}},“副标题”:[],“短标题“:[],”已发布“:{”date-parts“:[[2017,12,20]]},”references-count“:0,”URL“:”http://\/dx.doi.org\/10.1613\/jair.5507“,”relation“:{},“ISSN”:[“1076-9757”],”ISSN-type“:[{”value“:”1076-9755“,”type“:”electronic“}],”subject“:[],”published“:{”date-part“:[2017,12,20]}}}}