蒙特卡罗树搜索中的方差减少

的一部分神经信息处理系统的进展24(NIPS 2011)

Biptex公司 元数据 纸类

作者

Joel Veness、Marc Lanctot、Michael Bowling

摘要

蒙特卡罗树搜索(MCTS)已被证明是一种强大的通用规划技术,可用于单代理和对抗环境中的决策。蒙特卡罗模拟的随机性在价值估计中引入了误差,包括偏差和方差。虽然在MCTS文献中已经研究了减少偏差(通常通过添加领域知识),但相对较少的工作集中在减少方差上。这有点令人惊讶,因为方差减少技术是经典统计学中研究得很好的领域。在本文中,我们研究了一些标准技术在MCTS中的应用,包括常见随机数、对偶变量和控制变量。我们演示了如何将这些技术应用于MCTS,并探讨了它们在三种不同的随机、单代理设置(Pig、can't Stop和Dominion)上的效果。