Faster Policy Learning with Continuous-Time Gradients

Samuel Ainsworth; Kendall Lowrey; John Thickstun; Zaid Harchaoui; Siddhartha Srinivasa

持续时间梯度加快政策学习

塞缪尔·安斯沃思（Samuel Ainsworth）、肯达尔·洛瑞（Kendall Lowrey）、约翰·蒂克斯敦（John Thickstun）、扎伊德·哈查伊（Zaid Harchaoui）、西德哈塔·斯里尼瓦萨（Siddhartha Srinivasa）

第三届动力学和控制学习会议记录，PMLR 144:1054-10672021年。

摘要

我们研究具有已知动力学的连续时间系统的策略梯度估计。通过重构连续时间的策略学习，我们证明了可以构造更高效、更准确的梯度估计。标准反向传播时间估计器（BPTT）计算连续时间系统粗离散化的精确梯度。相反，我们近似于原始系统中的连续时间梯度。由于明确的目标是估计连续时间梯度，我们能够自适应地离散化并构造一个更有效的策略梯度估计器，我们称之为连续时间策略梯度（CTPG）。我们表明，在各种控制任务和模拟器中，用更有效的CTPG估计取代BPTT策略梯度会导致更快、更稳健的学习。

引用本文

BibTeX公司

@会议记录{pmlr-v144-ainsworth21a，title={采用连续时间梯度加快政策学习}，author={安斯沃思、塞缪尔和洛瑞、肯德尔和蒂克斯敦、约翰和哈查伊、扎伊德和斯里尼瓦萨、悉达多}，booktitle={第三届动力学和控制学习会议记录}，页数={1054--1067}，年份＝{2021}，editor={贾巴比、阿里和莱杰罗斯、约翰和帕帕斯、乔治J.和A.帕里罗、巴勃罗和雷希特、本杰明和汤姆林、克莱尔J.和泽林格、梅兰妮N.}，体积={144}，series={机器学习研究论文集}，月={07--08年6月}，publisher={PMLR}，pdf＝{http://procedures.mlr.press/v144/ainsworks 21a/ainsworth 21a.pdf}，url={https://procedures.mlr.press/v144/ainsworth21a.html}，abstract={我们研究了具有已知动力学的连续时间系统的策略梯度估计。通过重构连续时间的策略学习，我们表明可以构造一个更高效、更准确的梯度估计量计算连续时间系统粗略离散化的精确梯度。相反，我们近似于原始系统中的连续时间梯度。由于明确的目标是估计连续时间梯度，我们能够自适应地离散化并构造一个更有效的策略梯度估计器，我们称之为连续时间策略梯度（CTPG）。我们表明，用更有效的CTPG估计值替换BPTT策略梯度可以在各种控制任务和模拟器中实现更快、更稳健的学习。}}

尾注

%0会议论文%具有连续时间梯度的更快政策学习%塞缪尔·安斯沃思%肯达尔·洛瑞%John Thickstun%扎伊德·哈查伊%悉达多·斯里尼瓦萨%B第三届动力学和控制学习会议记录%C机器学习研究进展%D 2021年%E阿里·贾德巴比%E约翰·利格罗斯%E乔治·J·帕帕斯%E巴勃罗·帕里罗%E本杰明·雷希特%E克莱尔·汤姆林%E梅兰妮·泽林格%F pmlr-v144-ainsworth21a型%我PMLR%电话1054--1067%U型https://proceedings.mlr.press/v144/ainsworth21a.html%V 144型%我们研究具有已知动力学的连续时间系统的策略梯度估计。通过重构连续时间的策略学习，我们证明了可以构造更高效、更准确的梯度估计。标准反向传播时间估计器（BPTT）计算连续时间系统粗离散化的精确梯度。相反，我们近似于原始系统中的连续时间梯度。由于明确的目标是估计连续时间梯度，我们能够自适应地离散化并构造一个更有效的策略梯度估计器，我们称之为连续时间策略梯度（CTPG）。我们表明，用更有效的CTPG估计值替换BPTT策略梯度可以在各种控制任务和模拟器中实现更快、更稳健的学习。

阿帕

Ainsworth，S.、Lowrey，K.、Thickstun，J.、Harchaoui，Z.和Srinivasa，S.（2021）。通过持续时间梯度加快政策学习。第三届动力学和控制学习会议记录，英寸机器学习研究进展144:1054-1067可从https://proceedings.mlr.press/v144/ainsworth21a.html。

持续时间梯度加快政策学习

摘要

引用本文

相关材料