VIREL公司 swMATH ID: 42894 软件作者: Matthew Fellows、Anuj Mahajan、Tim G.J.Rudner、Shimon Whiteson 描述: VIREL:强化学习的变分推理框架。将概率模型应用于强化学习(RL)可以应用强大的优化工具,如对RL的变分推理。然而,现有的推理框架及其算法对学习最优策略提出了重大挑战,例如,伪似然方法中缺乏模式捕获行为,以及基于最大熵RL的方法中学习确定性策略的困难。我们提出了VIREL,这是一个新的、有理论依据的RL概率推理框架,它使用参数化的动作值函数来总结潜在MDP的未来动态。这为VIREL提供了一种KL发散的寻模形式,能够从推理中自然地学习确定性最优策略,并能够在单独的迭代步骤中优化值函数和策略。因此,在将变分期望最大化应用于VIREL时,我们证明了actor-critic算法可以简化为期望最大化,策略改进等效于E-step,策略评估等效于M-step。然后,我们从VIREL中导出了一系列actor-critic方法,包括一个自适应探索方案。最后,我们证明了该系列的actor-critic算法在多个领域优于基于软值函数的最新方法。 主页: https://arxiv.org/abs/1811.01132 源代码: https://github.com/AnujMahajanOxf/VIREL/tree/master/VIREL_code网站 依赖项: 蟒蛇 相关软件: VIME(可变利益实体);杜布森;RecPF公司;取消锁定BoX;科恩平滑;稳定基线;MuJoCo公司;github;科学Py;CMA-ES公司;PILCO公司;OpenAI健身房 引用于: 3出版物 全部的 前5名10位作者引用 1 哈尼·阿卜杜勒萨马德 1 鲍里斯·贝卢索夫 1 皮埃尔·查奈斯 1 卡洛·德雷莫 1 尼古拉斯·多比基恩 1 帕斯卡·克林克 1 米利奇,伯伦 1 乔尼·巴贾林恩 1 简·彼得斯 1 马克西姆·沃诺 3篇连载文章中引用 1 数学心理学杂志 1 机器学习研究杂志(JMLR) 1 计算与图形统计杂志 在3个字段中引用 1 统计学(62-XX) 1 计算机科学(68至XX) 1 博弈论、经济学、金融和其他社会和行为科学(91-XX) 按年份列出的引文