约翰·泉
人员信息
其他同名人员
SPARQL查询
优化列表
2020年–今天
2023 [i13] 凯特·鲍姆利 , 萨廷德·巴韦亚 , 费亚尔·M·P·贝巴哈尼 , 哈里斯·陈 , Gheorghe Comanici公司 , 塞巴斯蒂安·弗伦内尔哈格 , 马克西姆·加佐 , 克里斯蒂安·霍尔斯海默 , 丹·霍根 , 迈克尔·拉斯金 , 克莱尔·莱尔 , 侯赛因·马苏姆 , 凯·麦金尼 , 沃洛德米尔·姆尼赫 , 亚历山大·奈茨 , 法比奥·帕尔多 , 杰克·帕克霍尔德 , 约翰·泉 , 蒂姆·罗克塔舍尔 , 希曼舒·萨尼 , 汤姆·绍尔 , 扬尼克·施罗德克 , 史蒂芬·斯宾塞 , 里奇·斯泰格沃 , 王璐瑜(Luyu Wang) , 张磊(Lei Zhang) :
作为奖励来源的视觉语言模型。 CoRR公司 腹肌/2312.09187 ( 2023 ) 2022 [c10] 汤姆·绍尔 , 安德烈·巴雷托 , 约翰·泉 , 乔治·奥斯特罗夫斯基 :
政策流失现象。 NeurIPS公司 2022 [i12] 汤姆·绍尔 , 安德烈·巴雷托 , 约翰·泉 , 乔治·奥斯特罗夫斯基 :
政策流失现象。 CoRR公司 abs/2206.00730 ( 2022 ) 2021 【c9】 威尔·达布尼 , 安德烈·巴雷托 , 马克·罗兰 , 罗伯特·达达西 , 约翰·泉 , 马克·贝勒马尔 , 大卫·西尔弗 :
价值提升之路:为强化学习提供更好的表现。 AAAI公司 2021 : 7160-7168 [i11] 马特奥·赫塞尔 , 曼纽尔·克罗伊斯 , 艾丹·克拉克 , 尤里·凯马耶夫 , 约翰·泉 , 托马斯·凯克 , 法比奥·维奥拉 , 哈多·范·哈塞尔特 :
用于可扩展强化学习的Podracer架构。 CoRR公司 abs/2104.06272 ( 2021 ) 2020 [i10] 威尔·达布尼 , 安德烈·巴雷托 , 马克·罗兰 , 罗伯特·达达西 , 约翰·泉 , 马克·贝勒马尔 , 大卫·西尔弗 :
价值提升之路:为强化学习提供更好的表现。 CoRR公司 abs/2006.02243 ( 2020 )
2010 – 2019
2019 【c8】 戴安娜·博萨 , 安德烈·巴雷托 , 约翰·泉 , 丹尼尔·曼科维茨 , 哈多·范·哈塞尔特 , 雷米·穆诺斯 , 大卫·西尔弗 , 汤姆·绍尔 :
通用后继函数具有近似值。 ICLR(海报) 2019 【c7】 史蒂文·卡普托洛夫斯基 , 乔治·奥斯特罗夫斯基 , 约翰·泉 , 雷米·穆诺斯 , 威尔·达布尼 :
分布式强化学习中的重复经验回放。 ICLR(海报) 2019 [第九章] 安德烈·巴雷托 , 戴安娜·博萨 , 约翰·泉 , 汤姆·绍尔 , 大卫·西尔弗 , 马特奥·赫塞尔 , 丹尼尔·曼科维茨 , 奥古斯汀·泽德克 , 雷米·穆诺斯 :
利用继任者特征和一般政策改进进行深度强化学习。 CoRR公司 abs/1901.10964 ( 2019 ) [i8] 哈多·范·哈塞尔特 , 约翰·泉 , 马特奥·赫塞尔 , 徐忠文 , 戴安娜·博萨 , 安德烈·巴雷托 :
一般非线性Bellman方程。 CoRR公司 abs/1907.03687 ( 2019 ) 2018 【c6】 托德·海丝特 , 马特杰·维克 , 奥利维尔·皮特金 , 马克·兰科特 , 汤姆·绍尔 , 比拉尔·皮奥 , 丹·霍根 , 约翰·泉 , 安德鲁·森多纳里斯 , 伊恩·奥斯班德 , 加布里埃尔·杜拉克-阿诺德 , 约翰·阿加皮欧 , 乔尔·雷波 , Audrunas Gruslys公司 :
从演示中进行深度Q-学习。 AAAI公司 2018 : 3223-3230 【c5】 丹·霍根 , 约翰·泉 , 大卫·布登 , 加布里埃尔·巴特·马龙 , 马特奥·赫塞尔 , 哈多·范·哈塞尔特 , 大卫·西尔弗 :
分布式优先体验重播。 ICLR(海报) 2018 【c4】 安德烈·巴雷托 , 戴安娜·博萨 , 约翰·泉 , 汤姆·绍尔 , 大卫·西尔弗 , 马特奥·赫塞尔 , 丹尼尔·曼科维茨 , 奥古斯汀·泽德克 , 雷米·穆诺斯 :
利用继任者特征和一般政策改进进行深度强化学习。 ICML公司 2018 : 510-519 [i7] 丹尼尔·曼科维茨 , 奥古斯汀·泽德克 , 安德烈·巴雷托 , 丹·霍根 , 马特奥·赫塞尔 , 约翰·泉 , Junhyuk噢 , 哈多·范·哈塞尔特 , 大卫·西尔弗 , 汤姆·绍尔 :
独角兽:与通用非政策代理一起持续学习。 CoRR公司 abs/1802.08294 ( 2018 ) [i6] 丹·霍根 , 约翰·泉 , 大卫·布登 , 加布里埃尔·巴特·马龙 , 马特奥·赫塞尔 , 哈多·范·哈塞尔特 , 大卫·西尔弗 :
分布式优先体验重播。 CoRR公司 abs/1803.00933 ( 2018 ) [i5] 托比亚斯·波伦 , 比拉尔·皮奥 , 托德·海丝特 , 穆罕默德·盖什拉希·阿扎尔 , 丹·霍根 , 大卫·布登 , 加布里埃尔·巴特·马龙 , 哈多·范·哈塞尔特 , 约翰·泉 , 梅尔·韦塞克 , 马特奥·赫塞尔 , 雷米·穆诺斯 , 奥利维尔·皮特金 :
观察并进一步观察:在Atari上实现一致的性能。 CoRR公司 abs/1805.11593 ( 2018 ) [i4] 戴安娜·博萨 , 安德烈·巴雷托 , 约翰·泉 , 丹尼尔·曼科维茨 , 雷米·穆诺斯 , 哈多·范·哈塞尔特 , 大卫·西尔弗 , 汤姆·绍尔 :
通用后继函数具有近似值。 CoRR公司 abs/1812.07626 ( 2018 ) 2017 【c3】 叶惠德 , 维克托·巴普斯特 , 沃伊切赫·M·恰尔内茨基 , 约翰·泉 , 詹姆斯·柯克帕特里克 , Raia Hadsell公司 , 尼古拉斯·希斯 , 拉兹万·帕斯卡努 :
分心:强大的多任务强化学习。 NIPS公司 2017 : 4496-4506 [i3] 叶惠德 , 维克托·巴普斯特 , Wojciech Marian Czarnecki公司 , 约翰·泉 , 詹姆斯·柯克帕特里克 , Raia Hadsell公司 , 尼古拉斯·希斯 , 拉兹万·帕斯卡努 :
分散:稳健的多任务强化学习。 CoRR公司 abs/1707.04175 ( 2017 ) [i2] Oriol葡萄酒 , 蒂莫·埃瓦尔德斯 , 谢尔盖·巴图诺夫 , 佩特科·乔治耶夫 , 亚历山大·萨沙·维日涅维茨 , 杨紫琼(Michelle Yeo) , Alireza Makhzani公司 , 海因里希·库特勒 , 约翰·阿加皮欧 , 朱利安·施里特维瑟 , 约翰·泉 , 斯蒂芬·加夫尼 , 斯蒂格·彼得森 , 凯伦·西蒙扬 , 汤姆·绍尔 , 哈多·范·哈塞尔特 , 大卫·西尔弗 , 蒂莫西·利利克拉普 , 凯文·卡尔德隆 , 保罗·基特 , 安东尼·布鲁纳索 , 大卫·劳伦斯 , 安德斯·埃克莫 , 雅各布·雷普 , Rodney Tsing公司 :
星际争霸II:强化学习的新挑战。 CoRR公司 abs/1708.04782 ( 2017 ) 2016 【c2】 汤姆·绍尔 , 约翰·泉 , Ioannis Antonoglou公司 , 大卫·西尔弗 :
优先体验重播。 ICLR(海报) 2016 [i1] 詹姆斯·柯克帕特里克 , 拉兹万·帕斯卡努 , 尼尔·C·拉比诺维茨 , 乔尔·维内斯 , 纪尧姆·德斯贾丁斯 , 安德烈·鲁苏 , 基兰米兰 , 约翰·泉 , 蒂亚戈·拉马略 , 阿格尼什卡·格拉布斯卡·巴文斯卡 , 哈萨比斯 , 克劳迪娅·克洛帕特 , 达山库马兰 , Raia Hadsell公司 :
克服神经网络中的灾难性遗忘。 CoRR公司 abs/1612.00796 ( 2016 ) 2011 [j1] 约翰·泉 , 卡拉·兰斯 , 侦缉警司海伊 :
互惠安全服务模型:支持大规模虚拟化环境。 IT教授。 13 ( 三 ) : 18-23 ( 2011 ) 【c1】 唐纳德·克莱恩 , 约翰·泉 :
大型网络的属性描述服务。 六氯环己烷(16) 2011 : 519-528