DNA: Proximal Policy Optimization with a Dual Network Architecture

Aitchison, Matthew; Sweetser, Penny

DNA：具有双网络结构的近似策略优化

的一部分神经信息处理系统进展35（NeurIPS 2022）主要会议轨道

Biptex公司纸类补充的

作者

Matthew Aitchison，Penny Sweetser公司

摘要

本文探讨了深度actor-critic强化学习模型中同时学习价值函数和策略的问题。我们发现，由于两个任务之间的噪声级存在数量级差异，联合学习这些函数的常见做法是次优的。相反，我们表明，独立学习这些任务，但在受限的蒸馏阶段，可以显著提高性能。此外，我们发现当使用较低的\textit{variance}返回估计值时，策略梯度噪声水平会降低。然而，值学习噪声水平随着较低的估计值而降低。这些见解共同构成了我们称之为\textit{Dual Network Architecture}（DNA）的Proximal Policy Optimization的扩展，它的性能显著优于其前身。DNA在测试的五个环境中的四个环境中的性能也超过了流行的Rainbow DQN算法，即使在更困难的随机控制设置下也是如此。

DNA：具有双网络结构的近似策略优化

作者

摘要

名称更改策略