POMDP中模仿学习的学习信念表征

Tanmay Gangwani、Joel Lehman、Qiang Liu、Jian Peng
第35届人工智能不确定性会议论文集,PMLR 115:1061-10712020年。

摘要

我们考虑部分可观测马尔可夫决策过程(POMDP)中专家演示的模仿学习问题。用递归神经网络和概率潜在变量模型对表征POMDP中潜在状态分布的信念表示进行了建模,并证明其对POMDP的强化学习是有效的。在这项工作中,我们研究了POMDP中生成性对抗性模仿学习的信念表示学习问题。我们没有像之前的工作中建议的那样分别训练信念模块和策略,而是将信念模块与策略一起学习,使用任务软件模拟损失来确保表示更符合策略的目标。为了提高表示的鲁棒性,我们引入了几种信息信念正则化技术,包括动力学和动作序列的多步预测。通过对各种部分可观测的连续控制运动任务的评估,我们的信念模块模拟学习方法(BMIL)大大优于一些基线,包括原始GAIL算法和任务认知信念学习算法。广泛的消融分析表明了任务软件信念学习和信念正则化的有效性。该项目的代码可在线获取。

引用本文


BibTeX公司
@会议记录{pmlr-v115-gangwani20a,title={POMDPs中模仿学习的学习信念表征},author={Gangwani、Tanmay和Lehman、Joel和Liu、Qiang和Peng、Jian},booktitle={第35届人工智能不确定性会议论文集},页码={1061--1071},年份={2020年},editor={Adams,Ryan P.和Gogate,Vibhav},体积={115},series={机器学习研究论文集},月={7月22日--25日},publisher={PMLR},pdf={http://processes.mlr.press/v115/gangwani20a/gangwani20a.pdf},url={https://procedures.mlr.press/v115/gangwani20a.html},abstract={我们考虑部分可观测马尔可夫决策过程(POMDP)中专家演示的模仿学习问题用递归神经网络和概率潜在变量模型对表征POMDP中潜在状态分布的信念表示进行了建模,并证明其对POMDP的强化学习是有效的。在这项工作中,我们研究了POMDP中生成性对抗性模仿学习的信念表示学习问题。我们没有像之前的工作中建议的那样分别训练信念模块和策略,而是将信念模块与策略结合起来学习,使用任务软件模拟损失来确保表示更符合策略的目标。为了提高表示的鲁棒性,我们引入了几种信息信念正则化技术,包括动力学和动作序列的多步预测。在各种部分可观察的连续控制运动任务上进行评估后,我们的信念模块模仿学习方法(BMIL)显著优于几个基线,包括原始的GAIL算法和任务不可知的信念学习算法。广泛的消融分析表明了任务软件信念学习和信念正则化的有效性。该项目的代码可在线获取。}}
尾注
%0会议论文%POMDP中模拟学习的T学习信念表征%丹梅·冈瓦尼%乔尔·雷曼%刘阿强%阿建鹏%第35届人工智能不确定性会议论文集%C机器学习研究进展%D 2020年%E瑞恩·P·亚当斯%E Vibhav Gogate公司%F pmlr-v115-gangwani20a型%我PMLR%电话:1061--1071%U型https://proceedings.mlr.press/v115/gangwani20a.html%115伏%我们考虑部分可观测马尔可夫决策过程(POMDP)中专家演示的模拟学习问题。用递归神经网络和概率潜在变量模型对表征POMDP中潜在状态分布的信念表示进行了建模,并证明其对POMDP的强化学习是有效的。在这项工作中,我们研究了POMDP中生成性对抗性模仿学习的信念表示学习问题。我们没有像之前的工作中建议的那样分别训练信念模块和策略,而是将信念模块与策略结合起来学习,使用任务软件模拟损失来确保表示更符合策略的目标。为了提高表示的鲁棒性,我们引入了几种信息信念正则化技术,包括动力学和动作序列的多步预测。通过对各种部分可观测的连续控制运动任务的评估,我们的信念模块模拟学习方法(BMIL)大大优于一些基线,包括原始GAIL算法和任务认知信念学习算法。广泛的消融分析表明了任务软件信念学习和信念正则化的有效性。该项目的代码可在线获取。
亚太地区
Gangwani,T.、Lehman,J.、Liu,Q.和Peng,J.(2020年)。POMDP中模仿学习的学习信念表征。第35届人工智能不确定性大会论文集,英寸机器学习研究进展115:1061-1071可从https://proceedings.mlr.press/v115/gangwani20a.html。

相关材料