持续时间梯度加快政策学习
塞缪尔·安斯沃思(Samuel Ainsworth)、肯达尔·洛瑞(Kendall Lowrey)、约翰·蒂克斯敦(John Thickstun)、扎伊德·哈查伊(Zaid Harchaoui)、西德哈塔·斯里尼瓦萨(Siddhartha Srinivasa)
第三届动力学和控制学习会议记录,PMLR 144:1054-10672021年。
摘要
我们研究具有已知动力学的连续时间系统的策略梯度估计。通过重构连续时间的策略学习,我们证明了可以构造更高效、更准确的梯度估计。标准反向传播时间估计器(BPTT)计算连续时间系统粗离散化的精确梯度。相反,我们近似于原始系统中的连续时间梯度。由于明确的目标是估计连续时间梯度,我们能够自适应地离散化并构造一个更有效的策略梯度估计器,我们称之为连续时间策略梯度(CTPG)。我们表明,在各种控制任务和模拟器中,用更有效的CTPG估计取代BPTT策略梯度会导致更快、更稳健的学习。
引用本文
相关材料