Retrospective on the 2021 MineRL BASALT Competition on Learning from Human Feedback

Rohin Shah; Steven H. Wang; Cody Wild; Stephanie Milani; Anssi Kanervisto; Vinicius G. Goecks; Nicholas Waytowich; David Watkins-Valls; Bharat Prakash; Edmund Mills; Divyansh Garg; Alexander Fries; Alexandra Souly; Jun Shern Chan; Daniel del Castillo; Tom Lieberum

2021年MineRL玄武岩竞赛人类反馈学习回顾

Rohin Shah、Steven H.Wang、Cody Wild、Stephanie Milani、Anssi Kanervisto、Vinicius G.Goecks、Nicholas Waytowich、David Watkins-Valls、Bharat Prakash、Edmund Mills、Divyansh Garg、Alexander Fries、Alexandra Souly、Jun Shern Chan、Daniel del Castillo、Tom Lieberum

NeurIPS 2021竞赛和演示轨道会议记录，PMLR 176:259-2722022年。

摘要

在第三十五届神经信息处理系统会议（NeurIPS 2021）上，我们举办了有史以来第一次针对解决最简单任务的代理的MineRL基准测试（MineRL-BASALT）比赛。比赛的目标是促进对使用从人类反馈中学习（LfHF）技术解决开放世界任务的代理的研究。我们没有强制使用LfHF技术，而是用自然语言描述了视频游戏《我的世界》中要完成的四项任务，并允许参与者使用他们想要的任何方法来构建能够完成任务的代理。团队针对各种可能的人类反馈类型开发了各种LfHF算法。获胜的三支球队在取得相似成绩的同时，采用了截然不同的方法。有趣的是，他们的方法在不同的任务，验证我们选择的任务是否包括在比赛中。虽然结果验证了我们竞赛的设计，但我们并没有像我们的姐妹竞赛MineRL Diamond那样收到那么多的参与者和提交物。我们推测了这个问题的原因，并为比赛的未来迭代提出了改进建议。

引用本文

BibTeX公司

@会议记录{pmlr-v176-shah22a，title={2021年MineRL BASALT学习人类反馈竞赛回顾}，作者＝{Shah、Rohin和Wang、Steven H.和Wild、Cody和Milani、Stephanie和Kanervisto、Anssi和Goecks、Vinicius G.和Waytowich、Nicholas和Watkins Valls、David和Prakash、Bharat和Mills、Edmund和Garg、Divyansh和Fries、Alexander和Souly、Alexandra和Chan、Jun Shern和del Castillo、Daniel和Lieberum、Tom}，booktitle={NeurIPS 2021年竞赛和演示赛道会议记录}，页码={259--272}，年份={2022}，editor={基拉、杜威和西科内、马可和卡普托、芭芭拉}，体积={176}，series={机器学习研究论文集}，月={06年12月14日}，publisher={PMLR}，pdf={https://proceedings.mlr.press/v176/shah22a/shah22a.pdf},url={https://proceedings.mlr.press/v176/shah22a.html},abstract={在第三十五届神经信息处理系统会议（NeurIPS 2021）上，我们举办了有史以来第一次针对解决Almost-Lifelike任务的Agent的MineRL基准测试（MineRL-BASALT）比赛。比赛的目标是促进对使用从人的反馈中学习（LfHF）的Agent的研究解决开放世界任务的技巧。我们没有强制使用LfHF技术，而是用自然语言描述了视频游戏《我的世界》中要完成的四项任务，并允许参与者使用他们想要的任何方法来构建能够完成任务的代理。团队针对各种可能的人类反馈类型开发了各种LfHF算法。获胜的三支球队在取得相似成绩的同时，采用了截然不同的方法。有趣的是，他们的方法在不同的任务，验证我们选择的任务是否包括在比赛中。虽然结果验证了我们竞赛的设计，但我们并没有像我们的姐妹竞赛MineRL Diamond那样收到那么多的参与者和提交物。我们推测了这个问题的原因，并建议对比赛的未来迭代进行改进。}}

尾注

%0会议论文%2021年MineRL玄武岩竞赛人类反馈学习回顾%罗欣·沙阿%史蒂文·H·王%科迪野生动物%斯蒂芬妮·米拉尼%安西·卡内维斯托%维尼修斯·G·戈克斯%尼古拉斯·威特维奇%大卫·沃特金斯·沃尔斯%巴拉特·普拉卡什%埃德蒙·米尔斯%Divyansh Garg公司%亚历山大·弗里斯%亚历山大·索利%陈俊勋%丹尼尔·德尔·卡斯蒂略%汤姆·利伯鲁姆%B NeurIPS 2021竞赛和演示轨道会议记录%C机器学习研究进展%D 2022年%E Douwe Kiela公司%E马可·西科内%E芭芭拉·卡普托%对于pmlr-v176-shah22a%我PMLR%电话259--272%U型https://proceedings.mlr.press/v176/shah22a.html%V 176版%X在第三十五届神经信息处理系统会议（NeurIPS 2021）上，我们举办了有史以来第一次针对解决最困难任务的代理的MineRL基准测试（MineRL-BASALT）比赛。比赛的目标是促进对使用从人类反馈中学习（LfHF）技术解决开放世界任务的代理的研究。我们没有强制使用LfHF技术，而是用自然语言描述了在视频游戏Minecraft中要完成的四项任务，并允许参与者使用他们想要的任何方法来构建能够完成任务的代理。团队针对各种可能的人类反馈类型开发了各种LfHF算法。三支获胜的球队在取得相似成绩的同时，采用了截然不同的方法。有趣的是，他们的方法在不同的任务，验证我们选择的任务是否包括在比赛中。虽然结果验证了我们竞赛的设计，但我们并没有像我们的姐妹竞赛MineRL Diamond那样收到那么多的参与者和提交物。我们推测了这个问题的原因，并为比赛的未来迭代提出了改进建议。

亚太地区

Shah，R.，Wang，S.H.，Wild，C.，Milani，S.，Kanervisto，A.，Goecks，V.G.，Waytowich，N.，Watkins-Valls，D.，Prakash，B.，Mills，E.，Garg，D.，Fries，A.，Souly，A.，Chan，J.S.，del Castillo，D.&Lieberum，T.（2022年）。回顾2021年MineRL玄武岩竞赛“从人类反馈中学习”。NeurIPS 2021竞赛和演示轨道会议记录，英寸机器学习研究进展176:259-272网址：https://proceedings.mlr.press/v176/shah22a.html。

2021年MineRL玄武岩竞赛人类反馈学习回顾

摘要

引用本文

相关材料