IMPALA:具有重要性加权参与者-学习者体系结构的可扩展分布式Deep-RL

Lasse Espeholt、Hubert Soyer、Remi Munos、Karen Simonyan、Vlad Mnih、Tom Ward、Yotam Doron、Vla Firoiu、Tim Harley、Iain Dunning、Shane Legg、Koray Kavukcuoglu
第35届机器学习国际会议论文集,PMLR 80:1407-14162018年。

摘要

在这项工作中,我们的目标是使用具有一组参数的单个强化学习代理来解决大量任务。一个关键挑战是处理增加的数据量和延长的培训时间。我们开发了一种新的分布式代理IMPALA(重要性加权参与者-学习者体系结构),它不仅可以在单机培训中更有效地使用资源,而且可以扩展到数千台机器,而不会牺牲数据效率或资源利用率。我们通过将解耦的动作和学习与一种称为V-trace的新的偏离策略校正方法相结合,实现了高吞吐量的稳定学习。我们证明了IMPALA在DMLab-30(一组来自DeepMind实验室环境的30个任务(Beattie等人,2016))和Atari57(Arcade learning environment中所有可用的Atari游戏(Bellemare等人,2013a))上进行多任务强化学习的有效性。我们的结果表明,IMPALA能够以较少的数据获得比以前的代理更好的性能,并且由于其多任务方法,关键是在任务之间表现出正迁移。

引用本文


BibTeX公司
@会议记录{pmlr-v80-espholt18a,title={{IMPALA}:具有重要性加权的参与者-学习者体系结构的可扩展分布式深层{RL},作者={Espeholt、Lasse和Soyer、Hubert和Munos、Remi和Simonyan、Karen和Mnih、Vlad和Ward、Tom和Doron、Yotam和Firoiu、Vlad和Harley、Tim和Dunning、Iain和Legg、Shane和Kavukcuoglu、Koray},booktitle={第35届机器学习国际会议论文集},页数={1407--1416},年份={2018年},editor={Dy,Jennifer和Krause,Andreas},体积={80},series={机器学习研究论文集},月={7月10日至15日},发布者={PMLR},pdf={http://proceedings.mlr.press/v80/espeholt18a/espeholt18a.pdf},url={https://proceedings.mlr.press/v80/espeholt18a.html},abstract={在这项工作中,我们的目标是使用一个具有单一参数集的单一强化学习代理来解决大量任务。一个关键挑战是处理增加的数据量和延长的训练时间。我们开发了一个新的分布式代理IMPALA(重要性加权参与者-学习者体系结构)这不仅可以在单机培训中更有效地使用资源,而且可以扩展到数千台机器,而不会牺牲数据效率或资源利用率。通过将解耦的行为和学习与一种称为V-trace的新型非策略校正方法相结合,我们实现了高吞吐量下的稳定学习。我们证明了IMPALA在DMLab-30(一组来自DeepMind实验室环境的30个任务(Beattie等人,2016))和Atari57(Arcade learning environment中所有可用的Atari游戏(Bellemare等人,2013a))上进行多任务强化学习的有效性。我们的结果表明,IMPALA能够以较少的数据获得比以前的代理更好的性能,并且由于其多任务方法,关键是在任务之间表现出正迁移。}}
尾注
%0会议论文%T IMPALA:具有重要性加权参与者-学习者体系结构的可扩展分布式Deep-RL%拉斯·埃斯佩霍尔特%休伯特·索耶%雷米·穆诺斯%凯伦·西蒙尼%A Vlad Mnih公司%汤姆·沃德%尤塔姆·多隆%弗拉德·菲鲁%蒂姆·哈雷%艾恩·邓宁%谢恩腿%A Koray Kavukcuoglu公司%第35届机器学习国际会议论文集%C机器学习研究进展%2018年D月%E詹妮弗·戴伊%E安德烈亚斯·克劳斯%F pmlr-v80-espesholt18a型%我PMLR%第1407页-1416页%单位https://proceedings.mlr.press/v80/espholt18a.html%80伏%X在这项工作中,我们的目标是使用具有单一参数集的单一强化学习代理来解决大量任务。一个关键挑战是处理增加的数据量和延长的培训时间。我们开发了一种新的分布式代理IMPALA(重要性加权参与者-学习者体系结构),它不仅可以在单机培训中更有效地使用资源,而且可以扩展到数千台机器,而不会牺牲数据效率或资源利用率。通过将解耦的行为和学习与一种称为V-trace的新型非策略校正方法相结合,我们实现了高吞吐量下的稳定学习。我们证明了IMPALA在DMLab-30(一组来自DeepMind实验室环境的30个任务(Beattie等人,2016))和Atari57(Arcade learning environment中所有可用的Atari游戏(Bellemare等人,2013a))上进行多任务强化学习的有效性。我们的结果表明,IMPALA能够以较少的数据获得比以前的代理更好的性能,并且由于其多任务方法,关键是在任务之间表现出正迁移。
亚太地区
Espeholt,L.、Soyer,H.、Munos,R.、Simonyan,K.、Mnih,V.、Ward,T.、Doron,Y.、Firoiu,V.、Harley,T.、Dunning,I.、Legg,S.和Kavukcuoglu,K.(2018)。IMPALA:具有重要性加权参与者-学习者体系结构的可扩展分布式Deep-RL。第35届机器学习国际会议论文集,英寸机器学习研究进展80:1407-1416网址:https://proceedings.mlr.press/v80/espholt18a.html。

相关材料