从人类偏好中深度强化学习

的一部分神经信息处理系统进展30(NIPS 2017)

Biptex公司 元数据 纸类 评论 补充的

作者

保罗·克里斯蒂亚诺(Paul F.Christiano)、扬·雷克(Jan Leike)、汤姆·布朗(Tom Brown)、米尔詹·马蒂奇(Miljan Martic)、谢恩·莱格(Shane Legg)、达里奥·阿莫迪(Dario Am

摘要

为了使复杂的强化学习(RL)系统能够与现实环境进行有效的交互,我们需要将复杂的目标传达给这些系统。在这项工作中,我们探索了根据(非专业)人类偏好在成对轨迹段之间定义的目标。我们的方法将学习目标与学习实现目标的行为分离开来。我们表明,这种方法可以有效地解决复杂的RL任务,而无需使用奖励功能,包括Atari游戏和模拟机器人移动,同时提供大约0.1%的代理与环境交互的反馈。这大大降低了人为监督的成本,可以实际应用于最先进的RL系统。为了证明我们的方法的灵活性,我们证明我们可以用大约一个小时的人工时间成功地训练复杂的新奇行为。这些行为和环境比以前从人类反馈中学习到的任何行为和环境都要复杂得多。