基于模型的连续强化学习随机值梯度
布兰登·阿莫斯、塞缪尔·斯坦顿、丹尼斯·亚拉特斯、安德鲁·戈登·威尔逊
第三届动力学和控制学习会议记录,PMLR 144:6-202021年。
摘要
基于模型的强化学习方法将明确的领域知识添加到代理中,以期与无模型代理相比提高样本效率。然而,在实际中,由于学习和控制显式世界模型的复杂性,基于模型的方法在具有挑战性的连续控制任务中无法实现相同的渐近性能。本文研究了随机值梯度(SVG),这是一种控制连续系统的著名方法,其中包括基于模型的方法,该方法将基于模型的值扩展提取为无模型策略。我们考虑了基于模型的SVG的一种变体,它可以扩展到更大的系统,并使用1)熵正则化来帮助探索,2)学习的确定性世界模型来改进短期价值估计,以及3)模型推出后的学习的无模型价值估计。此SVG变体捕获了无模型软actor-critic方法,作为模型推出范围为零时的一个实例,否则使用短期模型推出来改进策略更新的价值估计。在OpenAI健身房的本体感知MuJoCo运动任务中,我们超越了其他基于模型的方法的渐近性能,包括仿人机器人。值得注意的是,我们通过一个简单的确定性世界模型实现了这些结果,而不需要集成。
引用本文
相关材料