的一部分神经信息处理系统进展35(NeurIPS 2022)主要会议轨道
Matthew Aitchison,Penny Sweetser公司
本文探讨了深度actor-critic强化学习模型中同时学习价值函数和策略的问题。我们发现,由于两个任务之间的噪声级存在数量级差异,联合学习这些函数的常见做法是次优的。相反,我们表明,独立学习这些任务,但在受限的蒸馏阶段,可以显著提高性能。此外,我们发现当使用较低的\textit{variance}返回估计值时,策略梯度噪声水平会降低。然而,值学习噪声水平随着较低的估计值而降低。这些见解共同构成了我们称之为\textit{Dual Network Architecture}(DNA)的Proximal Policy Optimization的扩展,它的性能显著优于其前身。DNA在测试的五个环境中的四个环境中的性能也超过了流行的Rainbow DQN算法,即使在更困难的随机控制设置下也是如此。
在电子诉讼程序中更改姓名的请求将被接受,不会提出任何问题。然而,名称更改可能会导致书目跟踪问题。作者被要求仔细考虑这一点,并在要求在电子诉讼中更改姓名之前与合著者进行讨论。
使用“报告问题”链接请求更改名称。