2021年MineRL玄武岩竞赛人类反馈学习回顾

Rohin Shah、Steven H.Wang、Cody Wild、Stephanie Milani、Anssi Kanervisto、Vinicius G.Goecks、Nicholas Waytowich、David Watkins-Valls、Bharat Prakash、Edmund Mills、Divyansh Garg、Alexander Fries、Alexandra Souly、Jun Shern Chan、Daniel del Castillo、Tom Lieberum
NeurIPS 2021竞赛和演示轨道会议记录,PMLR 176:259-2722022年。

摘要

在第三十五届神经信息处理系统会议(NeurIPS 2021)上,我们举办了有史以来第一次针对解决最简单任务的代理的MineRL基准测试(MineRL-BASALT)比赛。比赛的目标是促进对使用从人类反馈中学习(LfHF)技术解决开放世界任务的代理的研究。我们没有强制使用LfHF技术,而是用自然语言描述了视频游戏《我的世界》中要完成的四项任务,并允许参与者使用他们想要的任何方法来构建能够完成任务的代理。团队针对各种可能的人类反馈类型开发了各种LfHF算法。获胜的三支球队在取得相似成绩的同时,采用了截然不同的方法。有趣的是,他们的方法在不同的任务,验证我们选择的任务是否包括在比赛中。虽然结果验证了我们竞赛的设计,但我们并没有像我们的姐妹竞赛MineRL Diamond那样收到那么多的参与者和提交物。我们推测了这个问题的原因,并为比赛的未来迭代提出了改进建议。

引用本文


BibTeX公司
@会议记录{pmlr-v176-shah22a,title={2021年MineRL BASALT学习人类反馈竞赛回顾},作者={Shah、Rohin和Wang、Steven H.和Wild、Cody和Milani、Stephanie和Kanervisto、Anssi和Goecks、Vinicius G.和Waytowich、Nicholas和Watkins Valls、David和Prakash、Bharat和Mills、Edmund和Garg、Divyansh和Fries、Alexander和Souly、Alexandra和Chan、Jun Shern和del Castillo、Daniel和Lieberum、Tom},booktitle={NeurIPS 2021年竞赛和演示赛道会议记录},页码={259--272},年份={2022},editor={基拉、杜威和西科内、马可和卡普托、芭芭拉},体积={176},series={机器学习研究论文集},月={06年12月14日},publisher={PMLR},pdf={https://proceedings.mlr.press/v176/shah22a/shah22a.pdf},url={https://proceedings.mlr.press/v176/shah22a.html},abstract={在第三十五届神经信息处理系统会议(NeurIPS 2021)上,我们举办了有史以来第一次针对解决Almost-Lifelike任务的Agent的MineRL基准测试(MineRL-BASALT)比赛。比赛的目标是促进对使用从人的反馈中学习(LfHF)的Agent的研究解决开放世界任务的技巧。我们没有强制使用LfHF技术,而是用自然语言描述了视频游戏《我的世界》中要完成的四项任务,并允许参与者使用他们想要的任何方法来构建能够完成任务的代理。团队针对各种可能的人类反馈类型开发了各种LfHF算法。获胜的三支球队在取得相似成绩的同时,采用了截然不同的方法。有趣的是,他们的方法在不同的任务,验证我们选择的任务是否包括在比赛中。虽然结果验证了我们竞赛的设计,但我们并没有像我们的姐妹竞赛MineRL Diamond那样收到那么多的参与者和提交物。我们推测了这个问题的原因,并建议对比赛的未来迭代进行改进。}}
尾注
%0会议论文%2021年MineRL玄武岩竞赛人类反馈学习回顾%罗欣·沙阿%史蒂文·H·王%科迪野生动物%斯蒂芬妮·米拉尼%安西·卡内维斯托%维尼修斯·G·戈克斯%尼古拉斯·威特维奇%大卫·沃特金斯·沃尔斯%巴拉特·普拉卡什%埃德蒙·米尔斯%Divyansh Garg公司%亚历山大·弗里斯%亚历山大·索利%陈俊勋%丹尼尔·德尔·卡斯蒂略%汤姆·利伯鲁姆%B NeurIPS 2021竞赛和演示轨道会议记录%C机器学习研究进展%D 2022年%E Douwe Kiela公司%E马可·西科内%E芭芭拉·卡普托%对于pmlr-v176-shah22a%我PMLR%电话259--272%U型https://proceedings.mlr.press/v176/shah22a.html%V 176版%X在第三十五届神经信息处理系统会议(NeurIPS 2021)上,我们举办了有史以来第一次针对解决最困难任务的代理的MineRL基准测试(MineRL-BASALT)比赛。比赛的目标是促进对使用从人类反馈中学习(LfHF)技术解决开放世界任务的代理的研究。我们没有强制使用LfHF技术,而是用自然语言描述了在视频游戏Minecraft中要完成的四项任务,并允许参与者使用他们想要的任何方法来构建能够完成任务的代理。团队针对各种可能的人类反馈类型开发了各种LfHF算法。三支获胜的球队在取得相似成绩的同时,采用了截然不同的方法。有趣的是,他们的方法在不同的任务,验证我们选择的任务是否包括在比赛中。虽然结果验证了我们竞赛的设计,但我们并没有像我们的姐妹竞赛MineRL Diamond那样收到那么多的参与者和提交物。我们推测了这个问题的原因,并为比赛的未来迭代提出了改进建议。
亚太地区
Shah,R.,Wang,S.H.,Wild,C.,Milani,S.,Kanervisto,A.,Goecks,V.G.,Waytowich,N.,Watkins-Valls,D.,Prakash,B.,Mills,E.,Garg,D.,Fries,A.,Souly,A.,Chan,J.S.,del Castillo,D.&Lieberum,T.(2022年)。回顾2021年MineRL玄武岩竞赛“从人类反馈中学习”。NeurIPS 2021竞赛和演示轨道会议记录,英寸机器学习研究进展176:259-272网址:https://proceedings.mlr.press/v176/shah22a.html。

相关材料