代理57 swMATH编号: 40127 软件作者: 阿德里·普格多梅内克·巴迪亚、比拉尔·皮奥、史蒂文·卡普图洛夫斯基、巴勃罗·斯普雷希曼、亚历克斯·维维茨基、丹尼尔·郭、查尔斯·布伦德尔 描述: 代理57:超越雅达利人类基准。过去十年,雅达利游戏一直是强化学习(RL)社区的长期基准。该基准是为了测试RL算法的一般能力而提出的。之前的工作取得了良好的平均成绩,在许多比赛中表现出色,但在一些最具挑战性的比赛中表现不佳。我们推荐Agent57,这是第一个深度RL代理,在所有57款Atari游戏中表现优于标准人类基准。为了实现这一结果,我们训练了一个神经网络,它将一系列政策参数化,从非常探索性的政策到纯粹的开发性政策。我们提出了一种适应性机制,以选择在整个培训过程中优先考虑的政策。此外,我们使用了一种新颖的架构参数化,可以实现更加一致和稳定的学习。 主页: https://arxiv.org/abs/2003.13350 源代码: https://github.com/pocokhc/agent57 相关软件: OpenAI健身房;亚当;PyTorch公司;MuJoCo公司;Tensor2传感器;PMTK公司;阿尔法零;QT-点;GPT-3级;SimCLR(模拟清除);QISKit公司;TensorFlow公司;蘑菇RL;奥姆尼格洛特;通用包装器4AC;AlexNet公司;迷你电网;BOHB公司;DARTS公司;IMPALA公司 引用于: 9文件 全部的 前5名45位作者引用 1 阿尔卑斯山阿克凯 1 塞萨尔·阿利皮 1 安德烈·比登卡普 1 迈克尔·保龄球 1 尼尔·伯奇 1 罗伯托·卡兰德拉 1 奥维迪乌·卡林。 1 安德烈亚·辛尼 1 卡洛·德雷莫 1 特蕾莎·艾玛 1 阿列克桑德拉·浮士德 1 迈克尔·J·弗兰克。 1 Franz,玛嘉 1 弗兰克·哈特 1 斯特拉·卡波迪斯特里亚 1 科瓦西克,沃伊特 1 莱昂纳多斯·斯特凡诺斯 1 马吕斯·林道尔 1 维利亚姆·利斯 1 雷克斯·G·刘。 1 沃尔夫冈·莫勒 1 苗英杰 1 克里斯托弗·穆施勒 1 亚历山德罗·努拉 1 Osa、Takayuki 1 杰克驻车支架 1 马尼拉曼·佩里亚萨米 1 简·彼得斯 1 乔治·皮里奥拉斯 1 马蒂奥·皮罗塔 1 Axel夹钳 1 拉胡·拉詹 1 马塞洛·雷斯特利 1 丹尼尔·谢勒(Daniel D.Scherer)。 1 马丁·施密德。 1 宋兴友 1 杉山正树 1 Voot Tangkaratt公司 1 克里斯蒂安·乌弗雷赫特 1 威廉·范·贾斯维尔德 1 Peter Verleijsdonk先生 1 西蒙·沃尔伯格 1 卢卡斯·沃尔夫 1 张保和 1 张应倩 全部的 前5名7篇连载文章中引用 三 人工智能 1 富兰克林学院学报 1 神经网络 1 欧洲运筹学杂志 1 人工智能研究杂志 1 数学与人工智能年鉴 1 机器学习研究杂志(JMLR) 全部的 前5名在7个字段中引用 7 计算机科学(68至XX) 1 偏微分方程(35-XX) 1 动力学系统与遍历理论(37至XX) 1 变分法与最优控制;最优化(49至XX) 1 量子理论(81-XX) 1 运筹学、数学规划(90-XX) 1 博弈论、经济学、金融和其他社会和行为科学(91-XX) 按年份列出的引文