通过学习模型规划进行在线和离线强化学习

的一部分神经信息处理系统34的进展(NeurIPS 2021)

Biptex公司 纸类 评论和公众评论» 补充的

作者

Julian Schrittwiser、Thomas Hubert、Amol Mandhane、Mohammadamin Barekatain、Ioannis Antonoglou、David Silver

摘要

长期以来,从少量数据中高效学习一直是基于模型的强化学习的重点,无论是对于与环境交互时的在线案例,还是对于从固定数据集学习时的离线案例。然而,迄今为止,没有一种统一的算法能够证明这两种设置的最新结果。在这项工作中,我们描述了Reanalyse算法,该算法使用基于模型的策略和值改进操作符来计算现有数据点的改进训练目标,允许在不同数量级的数据预算中进行有效学习。我们进一步表明,重新分析也可以用于完全学习,而无需环境交互,就像离线强化学习(Offline RL)一样。将Reanalyse与MuZero算法相结合,我们引入了MuZero Unplugged,这是一种适用于任何数据预算(包括离线RL)的单一统一算法。与之前的工作相比,我们的算法不需要对关闭策略或离线RL设置进行特殊调整。MuZero Unplugged在标准的2亿帧在线设置以及RL Unpluged Offline RL基准中为Atari设定了最新的最先进结果。