SEAGuL:价值函数的有效对抗性学习示例
Benoit Landry、Hongkai Dai、Marco Pavone
第三届动力学和控制学习会议记录,PMLR 144:1105-11172021年。
摘要
价值函数是在最优控制和机器人算法中广泛使用的强大抽象。一些工作线试图利用轨迹优化来学习值函数近似,通常通过解决大量的轨迹优化问题来生成训练数据。尽管这些方法指向了一个有希望的方向,但对于足够复杂的任务,它们的采样要求可能会变得难以计算。在这项工作中,我们利用对抗性学习的洞察力来提高简单值函数学习算法的采样效率。我们演示了由于损失函数不允许样本的闭合形式表达式,但这需要解决非线性优化问题,因此如何为该任务生成对抗样本是一个独特的挑战。我们的关键见解是,通过利用优化的对偶理论,仍然可以在几乎没有计算开销的情况下计算此学习问题的对手样本,包括不必跟踪近似误差的转移分布或不必训练生成模型。我们将我们的方法SEAGuL应用于规范控制任务(平衡机器人)和更具挑战性和高度动态的非线性控制任务(小滑翔机的栖息)。我们证明,与随机抽样相比,在相同样本数下,使用SEAGuL进行训练值函数近似会导致改进的泛化误差,这也会转化为控制性能的改进。
引用本文
相关材料