×

维雷尔

swMATH标识: 42894
软件作者: 马修·费洛斯、阿努吉·马哈扬、蒂姆·G·J·鲁德纳、西蒙·怀特森
说明: VIREL:强化学习的变分推理框架。将概率模型应用于强化学习(RL)可以使变分推理等强大的优化工具应用于RL。然而,现有的推理框架及其算法对最优策略的学习提出了很大的挑战,例如伪似然方法缺乏模式捕捉行为,基于最大熵RL的方法难以学习确定性策略。我们提出了VIREL,一个新的,理论上基于RL的概率推理框架,它利用参数化的动作值函数来总结潜在MDP的未来动态。这给了VIREL一种KL发散的模式寻求形式,能够自然地从推理中学习确定性的最优策略,并且能够在单独的迭代步骤中优化值函数和策略。在将变分期望最大化应用于VIREL时,我们证明了actor-critic算法可以简化为期望最大化,策略改进相当于E-step,策略评估等价于M-step。然后,我们从VIREL得到了一系列的演员批评方法,包括一个自适应探索方案。最后,我们证明了这个家族中的actor-critic算法在几个领域都优于基于软值函数的最新方法。
主页: https://arxiv.org/abs/1811.01132
依赖项: 蟒蛇
相关软件: 维姆;多布森;RecPF公司;卸载箱;核平滑;稳定基线;穆乔科;github;神经质的;CMA-ES公司;皮尔科;OpenAI健身房
参考文献: 3出版物

按年份引用出版物