On the Model-Based Stochastic Value Gradient for Continuous Reinforcement Learning

Brandon Amos; Samuel Stanton; Denis Yarats; Andrew Gordon Wilson

基于模型的连续强化学习随机值梯度

布兰登·阿莫斯、塞缪尔·斯坦顿、丹尼斯·亚拉特斯、安德鲁·戈登·威尔逊

第三届动力学和控制学习会议记录，PMLR 144:6-202021年。

摘要

基于模型的强化学习方法将明确的领域知识添加到代理中，以期与无模型代理相比提高样本效率。然而，在实际中，由于学习和控制显式世界模型的复杂性，基于模型的方法在具有挑战性的连续控制任务中无法实现相同的渐近性能。本文研究了随机值梯度（SVG），这是一种控制连续系统的著名方法，其中包括基于模型的方法，该方法将基于模型的值扩展提取为无模型策略。我们考虑了基于模型的SVG的一种变体，它可以扩展到更大的系统，并使用1）熵正则化来帮助探索，2）学习的确定性世界模型来改进短期价值估计，以及3）模型推出后的学习的无模型价值估计。此SVG变体捕获了无模型软actor-critic方法，作为模型推出范围为零时的一个实例，否则使用短期模型推出来改进策略更新的价值估计。在OpenAI健身房的本体感知MuJoCo运动任务中，我们超越了其他基于模型的方法的渐近性能，包括仿人机器人。值得注意的是，我们通过一个简单的确定性世界模型实现了这些结果，而不需要集成。

引用本文

BibTeX公司

@会议记录{pmlr-v144-amos21a，title={关于基于模型的连续强化学习随机值梯度}，author={Amos、Brandon和Stanton、Samuel和Yarats、Denis和Wilson、Andrew Gordon}，booktitle={第三届动力学和控制学习会议记录}，页数={6--20}，年份＝{2021}，editor={贾巴比、阿里和莱杰罗斯、约翰和帕帕斯、乔治J.和A.帕里罗、巴勃罗和雷希特、本杰明和汤姆林、克莱尔J.和泽林格、梅兰妮N.}，体积={144}，series={机器学习研究论文集}，月={07--08年6月}，publisher={PMLR}，pdf={http://proceedings.mlr.press/v144/amos21a/amos21a.pdf},url={https://proceedings.mlr.press/v144/amos21a.html},抽象={基于模型的强化学习方法将明确的领域知识添加到代理中，以期与无模型代理相比提高采样效率。然而，在实践中，由于学习和控制的复杂性，基于模型的方法无法在具有挑战性的连续控制任务中实现相同的渐近性能ng是一个显式的世界模型。本文研究了随机值梯度（SVG），这是一种控制连续系统的著名方法，其中包括基于模型的方法，该方法将基于模型的值扩展提取为无模型策略。我们考虑基于模型的SVG的一种变体，它可以扩展到更大的系统，并使用1）熵正则化来帮助探索，2）学习确定性世界模型来改进短期值估计，以及3）在模型推出后学习无模型值估计。此SVG变体捕获了无模型软actor-critic方法，作为模型推出范围为零时的一个实例，否则使用短期模型推出来改进策略更新的价值估计。在OpenAI健身房的本体感知MuJoCo运动任务中，我们超越了其他基于模型的方法的渐近性能，包括仿人机器人。我们通过一个简单的确定性世界模型显著地实现了这些结果，而不需要集成。}}

尾注

%0会议论文%基于模型的连续强化学习随机值梯度%布兰登·阿莫斯%塞缪尔·斯坦顿%丹尼斯·亚拉特斯%安德鲁·戈登·威尔逊%B第三届动力学和控制学习会议记录%C机器学习研究进展%D 2021年%E阿里·贾德巴比%E约翰·利格罗斯%E乔治·J·帕帕斯%E巴勃罗·帕里罗%E本杰明·雷希特%E克莱尔·汤姆林%E梅兰妮·泽林格%F pmlr-v144-amos21a型%我PMLR%第6-20页%U型https://proceedings.mlr.press/v144/amos21a.html%V 144型%X基于模型的强化学习方法将明确的领域知识添加到代理中，以期与无模型代理相比提高样本效率。然而，在实际中，由于学习和控制显式世界模型的复杂性，基于模型的方法在具有挑战性的连续控制任务中无法实现相同的渐近性能。本文研究了随机值梯度（SVG），这是一种控制连续系统的著名方法，其中包括基于模型的方法，该方法将基于模型的值扩展提取为无模型策略。我们考虑基于模型的SVG的一种变体，它可以扩展到更大的系统，并使用1）熵正则化来帮助探索，2）学习确定性世界模型来改进短期值估计，以及3）在模型推出后学习无模型值估计。此SVG变体捕获了无模型软actor-critic方法，作为模型推出范围为零时的一个实例，否则使用短期模型推出来改进策略更新的价值估计。在OpenAI健身房的本体感知MuJoCo运动任务中，我们超越了其他基于模型的方法的渐近性能，包括仿人机器人。我们通过一个简单的确定性世界模型显著地实现了这些结果，而不需要集成。

阿帕

Amos，B.，Stanton，S.，Yarats，D.&Wilson，A.G.（2021年）。基于模型的连续强化学习随机值梯度。第三届动力学和控制学习会议记录，英寸机器学习研究进展144:6-20网址：https://proceedings.mlr.press/v144/amos21a.html。

基于模型的连续强化学习随机值梯度

摘要

引用本文

相关材料