POMDP中模仿学习的学习信念表征
Tanmay Gangwani、Joel Lehman、Qiang Liu、Jian Peng
第35届人工智能不确定性会议论文集,PMLR 115:1061-10712020年。
摘要
我们考虑部分可观测马尔可夫决策过程(POMDP)中专家演示的模仿学习问题。用递归神经网络和概率潜在变量模型对表征POMDP中潜在状态分布的信念表示进行了建模,并证明其对POMDP的强化学习是有效的。在这项工作中,我们研究了POMDP中生成性对抗性模仿学习的信念表示学习问题。我们没有像之前的工作中建议的那样分别训练信念模块和策略,而是将信念模块与策略一起学习,使用任务软件模拟损失来确保表示更符合策略的目标。为了提高表示的鲁棒性,我们引入了几种信息信念正则化技术,包括动力学和动作序列的多步预测。通过对各种部分可观测的连续控制运动任务的评估,我们的信念模块模拟学习方法(BMIL)大大优于一些基线,包括原始GAIL算法和任务认知信念学习算法。广泛的消融分析表明了任务软件信念学习和信念正则化的有效性。该项目的代码可在线获取。
引用本文
相关材料