SEAGuL: Sample Efficient Adversarially Guided Learning of Value Functions

Benoit Landry; Hongkai Dai; Marco Pavone

SEAGuL：价值函数的有效对抗性学习示例

Benoit Landry、Hongkai Dai、Marco Pavone

第三届动力学和控制学习会议记录，PMLR 144:1105-11172021年。

摘要

价值函数是在最优控制和机器人算法中广泛使用的强大抽象。一些工作线试图利用轨迹优化来学习值函数近似，通常通过解决大量的轨迹优化问题来生成训练数据。尽管这些方法指向了一个有希望的方向，但对于足够复杂的任务，它们的采样要求可能会变得难以计算。在这项工作中，我们利用对抗性学习的洞察力来提高简单值函数学习算法的采样效率。我们演示了由于损失函数不允许样本的闭合形式表达式，但这需要解决非线性优化问题，因此如何为该任务生成对抗样本是一个独特的挑战。我们的关键见解是，通过利用优化的对偶理论，仍然可以在几乎没有计算开销的情况下计算此学习问题的对手样本，包括不必跟踪近似误差的转移分布或不必训练生成模型。我们将我们的方法SEAGuL应用于规范控制任务（平衡机器人）和更具挑战性和高度动态的非线性控制任务（小滑翔机的栖息）。我们证明，与随机抽样相比，在相同样本数下，使用SEAGuL进行训练值函数近似会导致改进的泛化误差，这也会转化为控制性能的改进。

引用本文

BibTeX公司

@会议记录{pmlr-v144-landry21a，title={{SEAGuL}：价值函数的有效对抗引导学习示例}，author={Landry、Benoit和Dai、Hongkai和Pavone，Marco}，booktitle={第三届动力学和控制学习会议记录}，页数={1105--1117}，年份={2021}，editor={贾巴比、阿里和莱杰罗斯、约翰和帕帕斯、乔治J.和A.帕里罗、巴勃罗和雷希特、本杰明和汤姆林、克莱尔J.和泽林格、梅兰妮N.}，体积={144}，series={机器学习研究论文集}，月={07--08年6月}，publisher={PMLR}，pdf={http://proceedings.mlr.press/v144/landry21a/landry21a.pdf},url={https://proceedings.mlr.press/v144/landry21a.html},抽象={值函数是优化控制和机器人算法中广泛使用的强大抽象。一些工作尝试利用轨迹优化来学习值函数近似值，通常通过解决大量轨迹优化问题来生成训练数据。尽管这些方法s指出了一个有希望的方向，对于足够复杂的任务，其采样要求可能会变得难以计算。在这项工作中，我们利用对抗性学习的洞察力来提高简单值函数学习算法的采样效率。我们演示了由于损失函数不允许样本的闭合形式表达式，但这需要解决非线性优化问题，因此如何为该任务生成对抗样本是一个独特的挑战。我们的关键见解是，通过利用优化的对偶理论，仍然可以在几乎没有计算开销的情况下计算此学习问题的对手样本，包括不必跟踪近似误差的转移分布或不必训练生成模型。我们将我们的方法SEAGuL应用于规范控制任务（平衡机器人）和更具挑战性和高度动态的非线性控制任务（小滑翔机的栖息）。我们证明，与随机抽样相比，在相同样本数下，使用SEAGuL进行训练值函数近似会导致改进的泛化错误，这也会转化为控制性能的改进。}}

尾注

%0会议论文%T SEAGuL：价值函数的有效对抗性学习示例%伯努瓦·兰德里%A洪凯戴%马可·帕沃内%B第三届动力学和控制学习会议记录%C机器学习研究进展%D 2021年%E阿里·贾德巴比%E John Lygeros公司%E乔治·J·帕帕斯%E巴勃罗·帕里罗%E本杰明·雷希特%E克莱尔·J·汤姆林%E梅兰妮·泽林格%F pmlr-v144-landry21a型%我PMLR%电话1105--1117%单位https://proceedings.mlr.press/v144/landry21a.html%V 144型%X值函数是在优化控制和机器人算法中广泛使用的强大抽象。一些工作线试图利用轨迹优化来学习值函数近似，通常通过解决大量的轨迹优化问题来生成训练数据。尽管这些方法指出了一个有希望的方向，但对于足够复杂的任务，它们的采样要求可能会变得难以计算。在这项工作中，我们利用对抗性学习的洞察力来提高简单值函数学习算法的采样效率。我们演示了由于损失函数不允许样本的闭合形式表达式，但这需要解决非线性优化问题，因此如何为该任务生成对抗样本是一个独特的挑战。我们的关键见解是，通过利用优化的对偶理论，仍然可以在几乎没有计算开销的情况下计算此学习问题的对手样本，包括不必跟踪近似误差的转移分布或不必训练生成模型。我们将我们的方法SEAGuL应用于规范控制任务（平衡机器人）和更具挑战性和高度动态的非线性控制任务（小滑翔机的栖息）。我们证明，与随机抽样相比，在相同样本数下，使用SEAGuL进行训练值函数近似会导致改进的泛化误差，这也会转化为控制性能的改进。

阿帕

Landry，B.、Dai，H.和Pavone，M.（2021）。SEAGuL：价值函数的有效对抗引导学习示例。第三届动力学和控制学习会议记录，英寸机器学习研究进展144:1105-1117可从https://proceedings.mlr.press/v144/landry21a.html。

SEAGuL：价值函数的有效对抗性学习示例

摘要

引用本文

相关材料