的一部分神经信息处理系统进展30(NIPS 2017)
保罗·克里斯蒂亚诺(Paul F.Christiano)、扬·雷克(Jan Leike)、汤姆·布朗(Tom Brown)、米尔詹·马蒂奇(Miljan Martic)、谢恩·莱格(Shane Legg)、达里奥·阿莫迪(Dario Am
为了使复杂的强化学习(RL)系统能够与现实环境进行有效的交互,我们需要将复杂的目标传达给这些系统。在这项工作中,我们探索了根据(非专业)人类偏好在成对轨迹段之间定义的目标。我们的方法将学习目标与学习实现目标的行为分离开来。我们表明,这种方法可以有效地解决复杂的RL任务,而无需使用奖励功能,包括Atari游戏和模拟机器人移动,同时提供大约0.1%的代理与环境交互的反馈。这大大降低了人为监督的成本,可以实际应用于最先进的RL系统。为了证明我们的方法的灵活性,我们证明我们可以用大约一个小时的人工时间成功地训练复杂的新奇行为。这些行为和环境比以前从人类反馈中学习到的任何行为和环境都要复杂得多。
在电子程序中更改姓名的请求将被接受,不会提出任何问题。然而,名称更改可能会导致书目跟踪问题。作者被要求仔细考虑这一点,并在要求在电子诉讼中更改姓名之前与合著者进行讨论。
使用“报告问题”链接请求更改名称。