的一部分神经信息处理系统34的进展(NeurIPS 2021)
Julian Schrittwiser、Thomas Hubert、Amol Mandhane、Mohammadamin Barekatain、Ioannis Antonoglou、David Silver
长期以来,从少量数据中高效学习一直是基于模型的强化学习的重点,无论是对于与环境交互时的在线案例,还是对于从固定数据集学习时的离线案例。然而,迄今为止,没有一种统一的算法能够证明这两种设置的最新结果。在这项工作中,我们描述了Reanalyse算法,该算法使用基于模型的策略和值改进操作符来计算现有数据点的改进训练目标,允许在不同数量级的数据预算中进行有效学习。我们进一步表明,重新分析也可以用于完全学习,而无需环境交互,就像离线强化学习(Offline RL)一样。将Reanalyse与MuZero算法相结合,我们引入了MuZero Unplugged,这是一种适用于任何数据预算(包括离线RL)的单一统一算法。与之前的工作相比,我们的算法不需要对关闭策略或离线RL设置进行特殊调整。MuZero Unplugged在标准的2亿帧在线设置以及RL Unpluged Offline RL基准中为Atari设定了最新的最先进结果。
在电子诉讼程序中更改姓名的请求将被接受,不会提出任何问题。然而,名称更改可能会导致书目跟踪问题。作者被要求仔细考虑这一点,并在要求在电子诉讼中更改姓名之前与合著者进行讨论。
使用“报告问题”链接请求更改名称。