×

VIREL公司

swMATH ID: 42894
软件作者: Matthew Fellows、Anuj Mahajan、Tim G.J.Rudner、Shimon Whiteson
描述: VIREL:强化学习的变分推理框架。将概率模型应用于强化学习(RL)可以应用强大的优化工具,如对RL的变分推理。然而,现有的推理框架及其算法对学习最优策略提出了重大挑战,例如,伪似然方法中缺乏模式捕获行为,以及基于最大熵RL的方法中学习确定性策略的困难。我们提出了VIREL,这是一个新的、有理论依据的RL概率推理框架,它使用参数化的动作值函数来总结潜在MDP的未来动态。这为VIREL提供了一种KL发散的寻模形式,能够从推理中自然地学习确定性最优策略,并能够在单独的迭代步骤中优化值函数和策略。因此,在将变分期望最大化应用于VIREL时,我们证明了actor-critic算法可以简化为期望最大化,策略改进等效于E-step,策略评估等效于M-step。然后,我们从VIREL中导出了一系列actor-critic方法,包括一个自适应探索方案。最后,我们证明了该系列的actor-critic算法在多个领域优于基于软值函数的最新方法。
主页: https://arxiv.org/abs/1811.01132
源代码:  https://github.com/AnujMahajanOxf/VIREL/tree/master/VIREL_code网站
依赖项: 蟒蛇
相关软件: VIME(可变利益实体);杜布森;RecPF公司;取消锁定BoX;科恩平滑;稳定基线;MuJoCo公司;github;科学Py;CMA-ES公司;PILCO公司;OpenAI健身房
引用于: 3出版物

按年份列出的引文