DNA:具有双网络结构的近似策略优化

的一部分神经信息处理系统进展35(NeurIPS 2022)主要会议轨道

Biptex公司 纸类 补充的

作者

Matthew Aitchison,Penny Sweetser公司

摘要

本文探讨了深度actor-critic强化学习模型中同时学习价值函数和策略的问题。我们发现,由于两个任务之间的噪声级存在数量级差异,联合学习这些函数的常见做法是次优的。相反,我们表明,独立学习这些任务,但在受限的蒸馏阶段,可以显著提高性能。此外,我们发现当使用较低的\textit{variance}返回估计值时,策略梯度噪声水平会降低。然而,值学习噪声水平随着较低的估计值而降低。这些见解共同构成了我们称之为\textit{Dual Network Architecture}(DNA)的Proximal Policy Optimization的扩展,它的性能显著优于其前身。DNA在测试的五个环境中的四个环境中的性能也超过了流行的Rainbow DQN算法,即使在更困难的随机控制设置下也是如此。