×

代理57

swMATH编号: 40127
软件作者: 阿德里·普格多梅内克·巴迪亚、比拉尔·皮奥、史蒂文·卡普图洛夫斯基、巴勃罗·斯普雷希曼、亚历克斯·维维茨基、丹尼尔·郭、查尔斯·布伦德尔
描述: 代理57:超越雅达利人类基准。过去十年,雅达利游戏一直是强化学习(RL)社区的长期基准。该基准是为了测试RL算法的一般能力而提出的。之前的工作取得了良好的平均成绩,在许多比赛中表现出色,但在一些最具挑战性的比赛中表现不佳。我们推荐Agent57,这是第一个深度RL代理,在所有57款Atari游戏中表现优于标准人类基准。为了实现这一结果,我们训练了一个神经网络,它将一系列政策参数化,从非常探索性的政策到纯粹的开发性政策。我们提出了一种适应性机制,以选择在整个培训过程中优先考虑的政策。此外,我们使用了一种新颖的架构参数化,可以实现更加一致和稳定的学习。
主页: https://arxiv.org/abs/2003.13350
源代码:  https://github.com/pocokhc/agent57
相关软件: OpenAI健身房;亚当;PyTorch公司;MuJoCo公司;Tensor2传感器;PMTK公司;阿尔法零;QT-点;GPT-3级;SimCLR(模拟清除);QISKit公司;TensorFlow公司;蘑菇RL;奥姆尼格洛特;通用包装器4AC;AlexNet公司;迷你电网;BOHB公司;DARTS公司;IMPALA公司
引用于: 9文件

按年份列出的引文