通用强化学习算法:综述与实验

通用强化学习算法:综述与实验

约翰·阿斯兰尼德斯、扬·雷克、马库斯·赫特

第二十六届国际人工智能联合会议记录
正线。第1403-1410页。https://doi.org/10.24963/ijcai.2017/1994

许多最先进的强化学习(RL)算法通常假设环境是遍历马尔可夫决策过程(MDP)。相反,通用强化学习(URL)领域涉及的是尽可能少地假设环境的算法。通用贝叶斯代理AIXI和一系列相关的URL算法都是在这种环境下开发的。虽然已经证明了这些代理的许多理论优化结果,但迄今为止还没有对其行为进行实证调查。我们在统一的符号和框架下对这些URL算法进行了一个简短且易于访问的调查,并提供了一些实验的结果,这些实验定性地说明了生成的策略的一些属性,以及它们在部分可观察的网格环境中的相对性能。我们还提供了这些算法的开源参考实现,我们希望这将有助于进一步理解和实验这些想法。
关键词:
机器学习:强化学习
基于Agent和多Agent系统:Agent理论和模型
人工智能的不确定性:顺序决策