持续时间梯度加快政策学习

塞缪尔·安斯沃思(Samuel Ainsworth)、肯达尔·洛瑞(Kendall Lowrey)、约翰·蒂克斯敦(John Thickstun)、扎伊德·哈查伊(Zaid Harchaoui)、西德哈塔·斯里尼瓦萨(Siddhartha Srinivasa)
第三届动力学和控制学习会议记录,PMLR 144:1054-10672021年。

摘要

我们研究具有已知动力学的连续时间系统的策略梯度估计。通过重构连续时间的策略学习,我们证明了可以构造更高效、更准确的梯度估计。标准反向传播时间估计器(BPTT)计算连续时间系统粗离散化的精确梯度。相反,我们近似于原始系统中的连续时间梯度。由于明确的目标是估计连续时间梯度,我们能够自适应地离散化并构造一个更有效的策略梯度估计器,我们称之为连续时间策略梯度(CTPG)。我们表明,在各种控制任务和模拟器中,用更有效的CTPG估计取代BPTT策略梯度会导致更快、更稳健的学习。

引用本文


BibTeX公司
@会议记录{pmlr-v144-ainsworth21a,title={采用连续时间梯度加快政策学习},author={安斯沃思、塞缪尔和洛瑞、肯德尔和蒂克斯敦、约翰和哈查伊、扎伊德和斯里尼瓦萨、悉达多},booktitle={第三届动力学和控制学习会议记录},页数={1054--1067},年份={2021},editor={贾巴比、阿里和莱杰罗斯、约翰和帕帕斯、乔治J.和A.帕里罗、巴勃罗和雷希特、本杰明和汤姆林、克莱尔J.和泽林格、梅兰妮N.},体积={144},series={机器学习研究论文集},月={07--08年6月},publisher={PMLR},pdf={http://procedures.mlr.press/v144/ainsworks 21a/ainsworth 21a.pdf},url={https://procedures.mlr.press/v144/ainsworth21a.html},abstract={我们研究了具有已知动力学的连续时间系统的策略梯度估计。通过重构连续时间的策略学习,我们表明可以构造一个更高效、更准确的梯度估计量计算连续时间系统粗略离散化的精确梯度。相反,我们近似于原始系统中的连续时间梯度。由于明确的目标是估计连续时间梯度,我们能够自适应地离散化并构造一个更有效的策略梯度估计器,我们称之为连续时间策略梯度(CTPG)。我们表明,用更有效的CTPG估计值替换BPTT策略梯度可以在各种控制任务和模拟器中实现更快、更稳健的学习。}}
尾注
%0会议论文%具有连续时间梯度的更快政策学习%塞缪尔·安斯沃思%肯达尔·洛瑞%John Thickstun%扎伊德·哈查伊%悉达多·斯里尼瓦萨%B第三届动力学和控制学习会议记录%C机器学习研究进展%D 2021年%E阿里·贾德巴比%E约翰·利格罗斯%E乔治·J·帕帕斯%E巴勃罗·帕里罗%E本杰明·雷希特%E克莱尔·汤姆林%E梅兰妮·泽林格%F pmlr-v144-ainsworth21a型%我PMLR%电话1054--1067%U型https://proceedings.mlr.press/v144/ainsworth21a.html%V 144型%我们研究具有已知动力学的连续时间系统的策略梯度估计。通过重构连续时间的策略学习,我们证明了可以构造更高效、更准确的梯度估计。标准反向传播时间估计器(BPTT)计算连续时间系统粗离散化的精确梯度。相反,我们近似于原始系统中的连续时间梯度。由于明确的目标是估计连续时间梯度,我们能够自适应地离散化并构造一个更有效的策略梯度估计器,我们称之为连续时间策略梯度(CTPG)。我们表明,用更有效的CTPG估计值替换BPTT策略梯度可以在各种控制任务和模拟器中实现更快、更稳健的学习。
阿帕
Ainsworth,S.、Lowrey,K.、Thickstun,J.、Harchaoui,Z.和Srinivasa,S.(2021)。通过持续时间梯度加快政策学习。第三届动力学和控制学习会议记录,英寸机器学习研究进展144:1054-1067可从https://proceedings.mlr.press/v144/ainsworth21a.html。

相关材料