递归因子环境的贝叶斯学习
马克·贝勒马尔、乔尔·维内斯、迈克尔·鲍林
第三十届机器学习国际会议论文集,PMLR 28(3):1211-12192013年。
摘要
基于模型的强化学习技术在扩展到大型观测空间方面遇到了许多困难。一种很有前途的方法是通过考虑观测空间,将模型学习任务分解为许多更小、更易于管理的子问题。通常,有许多不同的因子分解是可能的,这使得在没有广泛测试的情况下很难选择合适的因子分解。本文介绍了递归分解分解类,并说明了如何使用精确的贝叶斯推理来有效地保证预测性能接近该类中的最佳分解。我们通过展示20场不同的Atari 2600游戏的经验结果集合,展示了这种方法的优势。
引用本文
相关材料