现实世界中的顺序决策问题通常具有两个重要的属性——奖励函数通常未知,但可以获得专家演示,并且通常存在一个静态参数,也称为上下文,它决定了问题的某些方面。在这项工作中,我们形式化了上下文逆强化学习框架,提出了几种算法,并对其进行了理论和实证分析。
我们提出了一种学习分布策略的方法,这些策略不限于参数分布函数(例如高斯和Delta)。该方法克服了连续控制下的次优局部极值问题。
动作鲁棒性是鲁棒性的一种特殊情况,其中代理对所执行动作中的不确定性具有鲁棒性。我们(从理论上)表明,这种形式的鲁棒性具有有效的解决方案,并且(从经验上)可以产生对机器人领域常见不确定性具有鲁棒性的策略。
学习遵守行为约束的政策是一项重要任务。我们的算法RCPO不仅可以有效地满足折扣约束,还可以满足平均和概率约束。
我们提出了一个终身学习系统,它能够重用知识并将知识从一个任务转移到另一个任务,同时有效地保留以前学习过的知识库。知识通过学习可重用技能来传递,以解决Minecraft中的任务,这是一款流行的视频游戏,是一个尚未解决的高维终身学习问题。