2021年MineRL玄武岩竞赛人类反馈学习回顾
Rohin Shah、Steven H.Wang、Cody Wild、Stephanie Milani、Anssi Kanervisto、Vinicius G.Goecks、Nicholas Waytowich、David Watkins-Valls、Bharat Prakash、Edmund Mills、Divyansh Garg、Alexander Fries、Alexandra Souly、Jun Shern Chan、Daniel del Castillo、Tom Lieberum
NeurIPS 2021竞赛和演示轨道会议记录,PMLR 176:259-2722022年。
摘要
在第三十五届神经信息处理系统会议(NeurIPS 2021)上,我们举办了有史以来第一次针对解决最简单任务的代理的MineRL基准测试(MineRL-BASALT)比赛。比赛的目标是促进对使用从人类反馈中学习(LfHF)技术解决开放世界任务的代理的研究。我们没有强制使用LfHF技术,而是用自然语言描述了视频游戏《我的世界》中要完成的四项任务,并允许参与者使用他们想要的任何方法来构建能够完成任务的代理。团队针对各种可能的人类反馈类型开发了各种LfHF算法。获胜的三支球队在取得相似成绩的同时,采用了截然不同的方法。有趣的是,他们的方法在不同的任务,验证我们选择的任务是否包括在比赛中。虽然结果验证了我们竞赛的设计,但我们并没有像我们的姐妹竞赛MineRL Diamond那样收到那么多的参与者和提交物。我们推测了这个问题的原因,并为比赛的未来迭代提出了改进建议。
引用本文
相关材料