阿瑟·盖兹
人员信息
优化列表
2020年–今天
2023 [第23条] 维罗妮卡·切鲁 , 汤姆·扎哈维 , 阿瑟·盖兹 , Doina Precup公司 , 塞巴斯蒂安·弗伦内尔哈格 :
政策优化中的乐观和适应性。 CoRR公司 abs/2306.10587 ( 2023 ) 2022 [c21] 李宗民(Jongmin Lee) , 科斯敏·帕杜拉鲁 , 丹尼尔·曼科维茨 , 尼古拉斯·希斯 , Doina Precup公司 , Kee-Eung Kim(金记) , 阿瑟·盖兹 :
COptiDICE:通过平稳分布校正估计进行离线约束强化学习。 ICLR公司 2022 [公元20年] 伊沃·达尼埃尔卡 , 阿瑟·盖兹 , 朱利安·施里特维瑟 , 大卫·西尔弗 :
通过与Gumbel的规划改进政策。 ICLR公司 2022 [第19条] 阿尼鲁德·戈亚尔 , 阿布拉姆·弗里森 , 安德烈亚·巴尼诺 , 西奥芬妮·韦伯 , 南·罗斯玛丽·科 , 阿德里亚·普伊格多梅内克·巴迪亚 , 阿瑟·盖兹 , 梅赫迪·米尔扎 , 彼得·康威·汉弗莱斯 , 克塞尼娅·科努什科娃 , 米查尔·瓦尔科 , 西蒙·奥斯宾多 , 蒂莫西·利利克拉普 , 尼古拉斯·希斯 , 查尔斯·布伦德尔 :
检索增强强化学习。 ICML公司 2022 : 7740-7765 [第18条] 彼得·康威·汉弗莱斯 , 阿瑟·盖兹 , 奥利维尔·蒂勒曼 , 劳伦特·西弗雷 , 西奥芬妮·韦伯 , 蒂莫西·利利克拉普 :
用于强化学习的大规模检索。 NeurIPS公司 2022 [i22] 阿尼鲁德·戈亚尔 , 阿布拉姆·弗里森 , 安德烈亚·巴尼诺 , 西奥芬妮·韦伯 , 南·罗斯玛丽·科 , 阿德里亚·普伊格多梅内克·巴迪亚 , 阿瑟·盖兹 , 梅赫迪·米尔扎 , 克塞尼娅·科努什科娃 , 米查尔·瓦尔科 , 西蒙·奥斯宾多 , 蒂莫西·利利克拉普 , 尼古拉斯·希斯 , 查尔斯·布伦德尔 :
检索增强强化学习。 CoRR公司 腹肌/2202.08417 ( 2022 ) 【i21】 李宗民(Jongmin Lee) , 科斯敏·帕杜拉鲁 , 丹尼尔·曼科维茨 , 尼古拉斯·希斯 , Doina Precup公司 , Kee-Eung Kim(金记) , 阿瑟·盖兹 :
COptiDICE:通过平稳分布校正估计进行离线约束强化学习。 CoRR公司 abs/2204.08957 ( 2022 ) [i20] 彼得·康威·汉弗莱斯 , 阿瑟·盖兹 , 奥利维尔·蒂勒曼 , 劳伦特·西弗雷 , 泰奥芬·韦伯 , 蒂莫西·利利克拉普 :
用于强化学习的大规模检索。 CoRR公司 abs/2206.05314 ( 2022 ) 2021 [第17条] 杰西卡·哈姆里克 , 阿布拉姆·弗里森 , 费亚尔·M·P·贝巴哈尼 , 阿瑟·盖兹 , 法比奥·维奥拉 , 西姆斯·威瑟斯彭 , 托马斯·安东尼 , 拉尔斯·霍尔格·布兴 , 彼得·维利科维奇 , 西奥芬妮·韦伯 :
关于计划在基于模型的深层强化学习中的作用。 ICLR公司 2021 [第16条] 马特奥·赫塞尔 , 伊沃·达尼埃尔卡 , 法比奥·维奥拉 , 阿瑟·盖兹 , 西蒙·施密特 , 劳伦特·西弗雷 , 西奥芬妮·韦伯 , 大卫·西尔弗 , 哈多·范·哈塞尔特 :
Muesli:结合策略优化方面的改进。 ICML公司 2021 : 4214-4226 [第15条] 托马斯·梅斯纳德 , 西奥芬妮·韦伯 , 法比奥·维奥拉 , Shantanu Thakoor公司 , 阿拉·萨阿德 , 安娜·哈里顿扬(Anna Harutyunyan) , 威尔·达布尼 , 托马斯·斯特普顿 , 尼古拉斯·希斯 , 阿瑟·盖兹 , 埃里克·穆林斯 , 马库斯·赫特 , 拉尔斯·布兴 , 雷米·穆诺斯 :
无模型强化学习中的反事实学分分配。 ICML公司 2021 : 7654-7664 [i19] 马特奥·赫塞尔 , 伊沃·达尼埃尔卡 , 法比奥·维奥拉 , 阿瑟·盖兹 , 西蒙·施密特 , 劳伦特·西弗雷 , 西奥芬妮·韦伯 , 大卫·西尔弗 , 哈多·范·哈塞尔特 :
Muesli:结合策略优化方面的改进。 CoRR公司 abs/2104.06159 ( 2021 ) 2020 [j5] 朱利安·施里特维瑟 , Ioannis Antonoglou公司 , 托马斯·休伯特 , 凯伦·西蒙扬 , 劳伦特·西弗雷 , 西蒙·施密特 , 阿瑟·盖兹 , 爱德华·洛克哈特 , 哈萨比斯 , 格雷佩尔 , 蒂莫西·利利克拉普 , 大卫·西尔弗 :
通过学习模型进行规划,掌握Atari、围棋、国际象棋和shogi。 国家。 588 ( 7839 ) : 604-609 ( 2020 ) [第14条] 阿瑟·盖兹 , 法比奥·维奥拉 , 西奥芬妮·韦伯 , 拉尔斯·布兴 , 史蒂文·卡普托洛夫斯基 , Doina Precup公司 , 大卫·西尔弗 , 尼古拉斯·希斯 :
价值驱动的后见建模。 NeurIPS公司 2020 [i18] 阿瑟·盖兹 , 法比奥·维奥拉 , 泰奥芬·韦伯 , 拉尔斯·布兴 , 史蒂文·卡普托洛夫斯基 , Doina Precup公司 , 大卫·西尔弗 , 尼古拉斯·希斯 :
价值驱动的后见建模。 CoRR公司 2002年8月329日 ( 2020 ) [i17] 梅赫迪·米尔扎 , 安德鲁·杰格尔 , 乔纳森·亨特 , 阿瑟·盖兹 , Saran Tunyasuvunakool公司 , 阿利斯泰尔·穆达尔 , 泰奥芬·韦伯 , 佩特尔·卡库斯 , 塞巴斯蒂安·拉卡尼埃 , 拉尔斯·布兴 , 蒂莫西·利利克拉普 , 尼古拉斯·希斯 :
物理嵌入的规划问题:强化学习的新挑战。 CoRR公司 abs/2009.05524 ( 2020 ) [i16] 佩特尔·卡库斯 , 梅赫迪·米尔扎 , 阿瑟·盖兹 , 安德鲁·杰格尔 , 蒂莫西·利利克拉普 , 拉尔斯·布兴 , 尼古拉斯·希斯 , 西奥芬妮·韦伯 :
超越Tabula-Rasa:物理嵌入式3D Sokoban的模块化强化学习方法。 CoRR公司 abs/2010.01298 ( 2020 ) 【i15】 杰西卡·哈姆里克 , 阿布拉姆·弗里森 , 费亚尔·M·P·贝巴哈尼 , 阿瑟·盖兹 , 法比奥·维奥拉 , 西姆斯·威瑟斯彭 , 托马斯·安东尼 , 拉尔斯·布兴 , 彼得·维利科维奇 , 泰奥芬·韦伯 :
关于计划在基于模型的深层强化学习中的作用。 CoRR公司 abs/2011.04021 ( 2020 ) [第14条] 托马斯·梅斯纳德 , 泰奥芬·韦伯 , 法比奥·维奥拉 , Shantanu Thakoor公司 , 阿拉·萨阿德 , 安娜·哈里顿扬(Anna Harutyunyan) , 威尔·达布尼 , 汤姆·斯特普顿 , 尼古拉斯·希斯 , 阿瑟·盖兹 , 马库斯·赫特 , 拉尔斯·布兴 , 雷米·穆诺斯 :
无模型强化学习中的反事实学分分配。 CoRR公司 abs/2011.09464 ( 2020 )
2010 – 2019
2019 [第13条] 拉尔斯·布兴 , 西奥芬妮·韦伯 , 尤里·兹沃斯 , 尼古拉斯·希斯 , 塞巴斯蒂安·拉卡尼埃 , 阿瑟·盖兹 , Jean-Baptiste Lespiau女士 :
Woulda、Coulda和Shoulda:反事实导向的政策搜索。 ICLR(海报) 2019 [第12条] 阿瑟·盖兹 , 梅赫迪·米尔扎 , 卡罗尔·格雷戈 , 里沙布·卡布拉 , 塞巴斯蒂安·拉卡尼埃 , 西奥芬妮·韦伯 , 大卫·拉波索 , 亚当·桑托罗 , 劳伦特·奥尔索 , 汤姆·埃克尔斯 , 格雷格·韦恩 , 大卫·西尔弗 , 蒂莫西·利利克拉普 :
无模型规划研究。 ICML公司 2019 : 2464-2473 [i13] 阿瑟·盖兹 , 梅赫迪·米尔扎 , 卡罗尔·格雷戈 , 里沙布·卡布拉 , 塞巴斯蒂安·拉卡尼埃 , 泰奥芬·韦伯 , 大卫·拉波索 , 亚当·桑托罗 , 劳伦特·奥尔索 , 汤姆·埃克尔斯 , 格雷格·韦恩 , 大卫·西尔弗 , 蒂莫西·利利克拉普 :
无模型规划研究。 CoRR公司 腹肌/1901.03559 ( 2019 ) [i12] 什鲁蒂·米什拉 , 阿巴斯·阿卜杜勒马利基 , 阿瑟·盖兹 , 彼得亚·特罗希姆 , Doina Precup公司 :
利用生物灵感领域中的对称性增强学习。 CoRR公司 abs/1910.00528 ( 2019 ) [i11] 朱利安·施里特维瑟 , Ioannis Antonoglou公司 , 托马斯·休伯特 , 凯伦·西蒙扬 , 劳伦特·西弗雷 , 西蒙·施密特 , 阿瑟·盖兹 , 爱德华·洛克哈特 , 哈萨比斯 , 格雷佩尔 , 蒂莫西·利利克拉普 , 大卫·西尔弗 :
通过学习模型进行规划,掌握雅达利、围棋、国际象棋和Shogi。 CoRR公司 腹肌/1911.08265 ( 2019 ) 2018 [第11条] 莫里茨·克鲁斯 , 埃里克·舒尔茨 , 阿瑟·盖兹 , Maarten Speekenbrink公司 :
人类搜索中的自适应规划。 CogSci公司 2018 [第10条] 阿瑟·盖兹 , 西奥芬妮·韦伯 , Ioannis Antonoglou公司 , 凯伦·西蒙扬 , Oriol葡萄酒 , Daan Wierstra公司 , 雷米·穆诺斯 , 大卫·西尔弗 :
学习使用MCTSnet进行搜索。 ICML公司 2018 : 1817-1826 [i10] 阿瑟·盖兹 , 泰奥芬·韦伯 , Ioannis Antonoglou公司 , 凯伦·西蒙扬 , Oriol葡萄酒 , Daan Wierstra公司 , 雷米·穆诺斯 , 大卫·西尔弗 :
学习使用MCTSnet进行搜索。 CoRR公司 abs/1802.04697 ( 2018 ) [第九章] 拉尔斯·布兴 , 西奥芬妮·韦伯 , 尤里·兹沃斯 , 塞巴斯蒂安·拉卡尼埃 , 阿瑟·盖兹 , Jean-Baptiste Lespiau女士 , 尼古拉斯·希斯 :
Woulda、Coulda和Shoulda:反事实导向的政策搜索。 CoRR公司 abs/1811.06272 ( 2018 ) 2017 [j4] 大卫·西尔弗 , 朱利安·施里特维瑟 , 凯伦·西蒙扬 , Ioannis Antonoglou公司 , Aja Huang(黄亚佳) , 阿瑟·盖兹 , 托马斯·休伯特 , 卢卡斯·贝克 , 马修·赖 , 阿德里安·博尔顿 , 陈玉田 , 蒂莫西·利利克拉普 , 范慧 , 劳伦特·西弗雷 , 乔治·范·登·德里斯(George van den Driessche) , 格雷佩尔 , 哈萨比斯 :
在没有人类知识的情况下掌握围棋游戏。 国家。 550 ( 7676 ) : 354-359 ( 2017 ) [c9] 大卫·西尔弗 , 哈多·范·哈塞尔特 , 马特奥·赫塞尔 , 汤姆·绍尔 , 阿瑟·盖兹 , 蒂姆·哈雷 , 加布里埃尔·杜拉克-阿诺德 , 大卫·P·赖歇特 , 尼尔·C·拉比诺维茨 , 安德烈·巴雷托 , 托马斯·迪吉斯 :
预测:端到端的学习和规划。 ICML公司 2017 : 3191-3199 【c8】 塞巴斯蒂安·拉卡尼埃 , 西奥芬妮·韦伯 , 大卫·P·赖歇特 , 拉尔斯·布兴 , 阿瑟·盖兹 , 丹尼尔·希梅内斯·雷泽德 , 阿德里亚·普伊格多梅内克·巴迪亚 , Oriol葡萄酒 , 尼古拉斯·希斯 , 李宇佳 , 拉兹万·帕斯卡努 , 彼得·巴塔利亚 , 哈萨比斯 , 大卫·西尔弗 , Daan Wierstra公司 :
用于深度强化学习的想象力增强代理。 NIPS公司 2017 : 5690-5701 [i8] 西奥芬妮·韦伯 , 塞巴斯蒂安·拉卡尼埃 , 大卫·P·赖歇特 , 拉尔斯·布兴 , 阿瑟·盖兹 , 丹尼尔·希梅内斯·雷泽德 , 阿德里亚·普伊格多梅内克·巴迪亚 , Oriol葡萄酒 , 尼古拉斯·希斯 , 李宇佳 , 拉兹万·帕斯卡努 , 彼得·巴塔利亚 , 大卫·西尔弗 , Daan Wierstra公司 :
用于深度强化学习的想象力增强代理。 CoRR公司 abs/1707.06203 ( 2017 ) [i7] 大卫·西尔弗 , 托马斯·休伯特 , 朱利安·施里特维瑟 , Ioannis Antonoglou公司 , 马修·赖 , 阿瑟·盖兹 , 马克·兰科特 , 劳伦特·西弗雷 , 达山库马兰 , 格雷佩尔 , 蒂莫西·利利克拉普 , 凯伦·西蒙扬 , 哈萨比斯 :
使用通用强化学习算法通过自我游戏掌握国际象棋和Shogi。 CoRR公司 abs/1712.01815 ( 2017 ) 2016 [j3] 大卫·西尔弗 , Aja Huang(黄亚佳) , 克里斯·麦迪森 , 阿瑟·盖兹 , 劳伦特·西弗雷 , 乔治·范·登·德里斯(George van den Driessche) , 朱利安·施里特维瑟 , Ioannis Antonoglou公司 , Vedavyas Panneershelvam公司 , 马克·兰科特 , 桑德·迪尔曼 , 多米尼克·格雷 , 约翰·纳姆 , 纳尔·卡尔克布伦纳 , 伊利亚·萨茨克沃 , 蒂莫西·利利克拉普 , 马德琳·利奇 , 科雷·卡武科格鲁 , 格雷佩尔 , 哈萨比斯 :
通过深度神经网络和树搜索掌握围棋游戏。 国家。 529 ( 7587 ) : 484-489 ( 2016 ) 【c7】 马克·贝勒马尔 , 乔治·奥斯特罗夫斯基 , 阿瑟·盖兹 , 菲利普·托马斯 , 雷米·穆诺斯 :
增加行动差距:强化学习的新操作员。 AAAI公司 2016 : 1476-1483 【c6】 哈多·范·哈塞尔特 , 阿瑟·盖兹 , 大卫·西尔弗 :
双Q学习深度强化学习。 AAAI公司 2016 : 2094-2100 [c5] 哈多·范·哈塞尔特 , 阿瑟·盖兹 , 马特奥·赫塞尔 , 沃洛德米尔·姆尼赫 , 大卫·西尔弗 :
学习跨越多个数量级的价值观。 NIPS公司 2016 : 4287-4295 [i6] 哈多·范·哈塞尔特 , 阿瑟·盖兹 , 马特奥·赫塞尔 , 大卫·西尔弗 :
学习跨越多个数量级的函数。 CoRR公司 abs/1602.07714 ( 2016 ) [i5] 大卫·西尔弗 , 哈多·范·哈塞尔特 , 马特奥·赫塞尔 , 汤姆·绍尔 , 阿瑟·盖兹 , 蒂姆·哈雷 , 加布里埃尔·杜拉克-阿诺德 , 大卫·P·赖歇特 , 尼尔·C·拉比诺维茨 , 安德烈·巴雷托 , 托马斯·迪吉斯 :
预测:端到端的学习和规划。 CoRR公司 abs/1612.08810 ( 2016 ) 2015 [i4] 哈多·范·哈塞尔特 , 阿瑟·盖兹 , 大卫·西尔弗 :
双Q学习的深度强化学习。 CoRR公司 abs/1509.06461 ( 2015 ) [i3] 马克·贝勒马尔 , 乔治·奥斯特罗夫斯基 , 阿瑟·盖兹 , 菲利普·托马斯 , 雷米·穆诺斯 :
增加行动差距:强化学习的新操作员。 CoRR公司 腹肌/1512.04860 ( 2015 ) 2014 【c4】 阿瑟·盖兹 , 尼古拉斯·希斯 , 大卫·西尔弗 , 彼得·达扬 :
基于贝叶斯自适应模拟的值函数逼近搜索。 NIPS公司 2014 : 451-459 [i2] 阿瑟·盖兹 , 大卫·西尔弗 , 彼得·达扬 :
贝叶斯优化:具有丰富模型的自适应规划。 CoRR公司 abs/1402.1958 ( 2014 ) 2013 [注2] 阿瑟·盖兹 , 大卫·西尔弗 , 彼得·达扬 :
基于蒙特卡罗树搜索的可扩展高效贝叶斯自适应强化学习。 J.阿蒂夫。 智力。 物件。 48 : 841-883 ( 2013 ) 2012 【c3】 阿瑟·盖兹 , 大卫·西尔弗 , 彼得·达扬 :
使用基于样本搜索的高效贝叶斯自适应强化学习。 NIPS公司 2012 : 1034-1042 [i1] 阿瑟·盖兹 , 大卫·西尔弗 , 彼得·达扬 :
使用基于样本搜索的高效贝叶斯自适应强化学习。 CoRR公司 abs/1205.3109 ( 2012 ) 2010 【c2】 阿瑟·盖兹 , 乔尔·皮诺 :
多任务SLAM。 ICRA公司 2010 : 377-384
2000 – 2009
2009 [j1] 乔尔·皮诺 , 阿瑟·盖兹 , 罗伯特·D·文森特 , 加布里埃拉·帕努乔 , 马西莫·阿沃利 :
通过适应性神经刺激治疗癫痫:强化学习方法。 国际神经系统杂志。 19 ( 4 ) : 227至240 ( 2009 ) 2008 【c1】 阿瑟·盖兹 , 罗伯特·D·文森特 , 马西莫·阿沃利 , 乔尔·皮诺 :
通过批处理模式强化学习自适应治疗癫痫。 AAAI公司 2008 : 1671-1678