有效样本的对抗性模仿学习
大亨·荣格、李显裕、孙高义; 25(31):1−32, 2024.
摘要
通过演示进行学习的模拟学习已经被研究并提出用于奖励函数未预先定义的顺序决策任务。然而,模仿学习方法仍然需要大量的专家示范样本才能成功模仿专家的行为。为了提高样本效率,我们使用了自监督表示学习,它可以从给定的数据中生成大量的训练信号。在本研究中,我们提出了一种基于自我监督表征的对抗性模仿学习方法,用于学习非图像控制任务中对各种失真和时间预测具有鲁棒性的状态和动作表征。特别是,与现有的表格数据自监督学习方法相比,我们提出了一种对不同失真鲁棒的状态和动作表示的不同腐败方法。我们从理论和实证上观察到,用较少的样本复杂度构造信息特征流形可以显著提高模仿学习的性能。在限制为100个专家状态-动作对的情况下,与MuJoCo上现有的对抗性模仿学习方法相比,该方法显示出39%的相对改进。此外,我们使用不同最优性的演示进行了全面的消融和额外的实验,以深入了解一系列因素。
[腹肌]
[pdf格式][围兜]