Universal Reinforcement Learning Algorithms: Survey and Experiments

John Aslanides; Jan Leike; Marcus Hutter

通用强化学习算法：综述与实验

约翰·阿斯兰尼德斯、扬·雷克、马库斯·赫特

第二十六届国际人工智能联合会议记录

正线。第1403-1410页。https://doi.org/10.24963/ijcai.2017/1994

PDF格式 BibTeX公司

许多最先进的强化学习（RL）算法通常假设环境是遍历马尔可夫决策过程（MDP）。相反，通用强化学习（URL）领域涉及的是尽可能少地假设环境的算法。通用贝叶斯代理AIXI和一系列相关的URL算法都是在这种环境下开发的。虽然已经证明了这些代理的许多理论优化结果，但迄今为止还没有对其行为进行实证调查。我们在统一的符号和框架下对这些URL算法进行了一个简短且易于访问的调查，并提供了一些实验的结果，这些实验定性地说明了生成的策略的一些属性，以及它们在部分可观察的网格环境中的相对性能。我们还提供了这些算法的开源参考实现，我们希望这将有助于进一步理解和实验这些想法。

关键词：

机器学习：强化学习

基于Agent和多Agent系统：Agent理论和模型

人工智能的不确定性：顺序决策