IMPALA:具有重要性加权参与者-学习者体系结构的可扩展分布式Deep-RL
Lasse Espeholt、Hubert Soyer、Remi Munos、Karen Simonyan、Vlad Mnih、Tom Ward、Yotam Doron、Vla Firoiu、Tim Harley、Iain Dunning、Shane Legg、Koray Kavukcuoglu
第35届机器学习国际会议论文集,PMLR 80:1407-14162018年。
摘要
在这项工作中,我们的目标是使用具有一组参数的单个强化学习代理来解决大量任务。一个关键挑战是处理增加的数据量和延长的培训时间。我们开发了一种新的分布式代理IMPALA(重要性加权参与者-学习者体系结构),它不仅可以在单机培训中更有效地使用资源,而且可以扩展到数千台机器,而不会牺牲数据效率或资源利用率。我们通过将解耦的动作和学习与一种称为V-trace的新的偏离策略校正方法相结合,实现了高吞吐量的稳定学习。我们证明了IMPALA在DMLab-30(一组来自DeepMind实验室环境的30个任务(Beattie等人,2016))和Atari57(Arcade learning environment中所有可用的Atari游戏(Bellemare等人,2013a))上进行多任务强化学习的有效性。我们的结果表明,IMPALA能够以较少的数据获得比以前的代理更好的性能,并且由于其多任务方法,关键是在任务之间表现出正迁移。
引用本文
相关材料