软件搜索-zbMATH Open

代理57

swMATH编号：	40127
软件作者：	阿德里·普格多梅内克·巴迪亚、比拉尔·皮奥、史蒂文·卡普图洛夫斯基、巴勃罗·斯普雷希曼、亚历克斯·维维茨基、丹尼尔·郭、查尔斯·布伦德尔
描述：	代理57：超越雅达利人类基准。过去十年，雅达利游戏一直是强化学习（RL）社区的长期基准。该基准是为了测试RL算法的一般能力而提出的。之前的工作取得了良好的平均成绩，在许多比赛中表现出色，但在一些最具挑战性的比赛中表现不佳。我们推荐Agent57，这是第一个深度RL代理，在所有57款Atari游戏中表现优于标准人类基准。为了实现这一结果，我们训练了一个神经网络，它将一系列政策参数化，从非常探索性的政策到纯粹的开发性政策。我们提出了一种适应性机制，以选择在整个培训过程中优先考虑的政策。此外，我们使用了一种新颖的架构参数化，可以实现更加一致和稳定的学习。
主页：	https://arxiv.org/abs/2003.13350
源代码：	https://github.com/pocokhc/agent57
相关软件：	OpenAI健身房;亚当;PyTorch公司;MuJoCo公司;Tensor2传感器;PMTK公司;阿尔法零;QT-点;GPT-3级;SimCLR（模拟清除）;QISKit公司;TensorFlow公司;蘑菇RL;奥姆尼格洛特;通用包装器4AC;AlexNet公司;迷你电网;BOHB公司;DARTS公司;IMPALA公司
引用于：	9文件