哈多·范·哈塞尔特
人员信息
附属: 谷歌DeepMind,英国伦敦 从属关系(2011年博士): 荷兰乌得勒支大学
SPARQL查询
优化列表
2020年–今天
2024 [j3] 爱德华多·皮格纳特里 , 约翰·费雷特 , 马蒂厄·盖斯特 , 托马斯·梅斯纳德 , 哈多·范·哈塞尔特 , 劳拉·托尼 :
深度强化学习中的时间学分分配研究。 事务处理。 机器。 学习。 物件。 2024 ( 2024 ) [i50] 克莱尔·莱尔 , 郑泽瑜 , Khimya Khetarpal公司 , 哈多·范·哈塞尔特 , 拉兹万·帕斯卡努 , 詹姆斯·马滕斯 , 威尔·达布尼 :
解开神经网络中塑性损失的原因。 CoRR公司 abs/2402.18762 ( 2024 ) [i49] 克莱尔·莱尔 , 郑泽瑜 , Khimya Khetarpal公司 , 詹姆斯·马滕斯 , 哈多·范·哈塞尔特 , 拉兹万·帕斯卡努 , 威尔·达布尼 :
强化学习的规范化和有效学习率。 CoRR公司 abs/2407.01800 ( 2024 ) 2023 [公元48年] 西蒙·施密特 , 约翰·肖·泰勒 , 哈多·范·哈塞尔特 :
通过认识价值评估进行探索。 AAAI公司 2023 : 9742-9751 [公元47年] 史蒂文·卡普托洛夫斯基 , 维克托·坎波斯 , 雷·江 , 内曼尼娅·拉基切维奇 , 哈多·范·哈塞尔特 , 查尔斯·布伦德尔 , 阿德里亚·普伊格多梅内克·巴迪亚 :
人性化Atari速度快200倍。 ICLR公司 2023 [公元46年] 埃布尔 , 安德烈·巴雷托 , 本杰明·范罗伊 , Doina Precup公司 , 哈多·菲利普·范·哈塞尔特 , 萨汀德·辛格 :
持续强化学习的定义。 NeurIPS公司 2023 [公元45年] 塞巴斯蒂安·弗伦内尔哈格 , 汤姆·扎哈维 , 布伦丹·奥多诺霍 , 哈多·菲利普·范·哈塞尔特 , 安德烈斯·吉尔吉 , 萨汀德·辛格 :
乐观的元梯度。 NeurIPS公司 2023 [i48] 塞巴斯蒂安·弗伦内尔哈格 , 汤姆·扎哈维 , 布伦丹·奥多诺霍 , 哈多·范·哈塞尔特 , 安德烈斯·吉尔吉 , 萨汀德·辛格 :
乐观的元梯度。 CoRR公司 abs/2301.03236 ( 2023 ) [i47] 陈天江 , 南·罗斯玛丽·科 , 哈多·范·哈塞尔特 :
学习如何推断部分MDP用于上下文适应和探索。 CoRR公司 abs/2302.04250 ( 2023 ) [i46] 西蒙·施密特 , 约翰·肖·泰勒 , 哈多·范·哈塞尔特 :
通过认识价值评估进行探索。 CoRR公司 abs/2303.04012 ( 2023 ) [i45] 埃布尔 , 安德烈·巴雷托 , 哈多·范·哈塞尔特 , 本杰明·范罗伊 , Doina Precup公司 , 萨汀德·辛格 :
关于有界代理的收敛性。 CoRR公司 abs/2307.11044 ( 2023 ) [i44] 埃布尔 , 安德烈·巴雷托 , 本杰明·范罗伊 , Doina Precup公司 , 哈多·范·哈塞尔特 , 萨汀德·辛格 :
持续强化学习的定义。 CoRR公司 abs/2307.11046 ( 2023 ) [i43] 爱德华多·皮格纳特里 , 约翰·费雷特 , 马蒂厄·盖斯特 , 托马斯·梅斯纳德 , 哈多·范·哈塞尔特 , 劳拉·托尼 :
深度强化学习中的时间学分分配研究。 CoRR公司 abs/2312.01072 ( 2023 ) 2022 [公元44年] 雷·江 , 张尚通 , 维罗妮卡·切鲁 , 亚当·怀特 , 哈多·范·哈塞尔特 :
学习深层RL的预期重点痕迹。 AAAI公司 2022 : 7015-7023 [公元43年] 路易斯·基尔希 , 塞巴斯蒂安·弗莱内哈格 , 哈多·范·哈塞尔特 , 阿布拉姆·弗里森 , Junhyuk噢 , 陈玉田 :
将对称引入黑盒元强化学习。 AAAI公司 2022 : 7202-7210 [公元42年] 西蒙·施密特 , 约翰·肖·泰勒 , 哈多·范·哈塞尔特 :
非政策学习的价值链功能。 AAAI公司 2022 : 8187-8195 [公元41年] 塞巴斯蒂安·弗伦内尔哈格 , 扬尼克·施罗德克 , 汤姆·扎哈维 , 哈多·范·哈塞尔特 , 大卫·西尔弗 , 萨汀德·辛格 :
引导元学习。 ICLR公司 2022 [公元40年] 大卫·西尔弗 , 阿尼鲁德·戈亚尔 , 伊沃·达尼埃尔卡 , 马特奥·赫塞尔 , 哈多·范·哈塞尔特 :
通过定向梯度下降学习。 ICLR公司 2022 [i42] 西蒙·施密特 , 约翰·肖·泰勒 , 哈多·范·哈塞尔特 :
非政策学习的价值链功能。 CoRR公司 abs/2201.06468 ( 2022 ) [i41] 维罗妮卡·切鲁 , 戴安娜·博萨 , Doina Precup公司 , 哈多·范·哈塞尔特 :
选择性信贷分配。 CoRR公司 abs/2202.09699 ( 2022 ) [i40] 史蒂文·卡普托洛夫斯基 , Víctor Campos公司 , 雷·江 , 内曼尼娅·拉基切维奇 , 哈多·范·哈塞尔特 , 查尔斯·布伦德尔 , 阿德里亚·普伊格多梅内克·巴迪亚 :
人性化Atari速度快200倍。 CoRR公司 abs/2209.07550 ( 2022 ) 2021 [公元39年] 哈多·范·哈塞尔特 , 丝芙兰Madjiheurem , 马特奥·赫塞尔 , 大卫·西尔弗 , 安德烈·巴雷托 , 戴安娜·博萨 :
预期合格跟踪。 AAAI公司 2021 : 9997-10005 [公元38年] 玛尔塔·加内洛 , Wojciech Marian Czarnecki公司 , 刘思奇 , 德鲁瓦·蒂鲁马拉 , Junhyuk噢 , 加泰尔·吉德尔 , 哈多·范·哈塞尔特 , 大卫·巴尔杜齐 :
选择你的战斗:互动图作为战略多样性的人口层面目标。 美国原子能机构 2021 : 1501-1503 [公元37年] 马特奥·赫塞尔 , 伊沃·达尼埃尔卡 , 法比奥·维奥拉 , 阿瑟·盖兹 , 西蒙·施密特 , 劳伦特·西弗雷 , 西奥芬妮·韦伯 , 大卫·西尔弗 , 哈多·范·哈塞尔特 :
Muesli:结合策略优化方面的改进。 ICML公司 2021 : 4214-4226 [公元36年] 雷·江 , 汤姆·扎哈维 , 徐忠文 , 亚当·怀特 , 马特奥·赫塞尔 , 查尔斯·布伦德尔 , 哈多·范·哈塞尔特 :
深度强化学习的重点算法。 ICML公司 2021 : 5023-5033 [公元35年] 格雷戈里·法夸尔 , 凯特·鲍姆利 , 齐塔·马里尼奥 , 安吉洛斯·菲洛斯 , 马特奥·赫塞尔 , 哈多·菲利普·范·哈塞尔特 , 大卫·西尔弗 :
自我一致的模型和价值观。 NeurIPS公司 2021 : 1111-1125 [公元34年] 维维克·维里亚 , 汤姆·扎哈维 , 马特奥·赫塞尔 , 徐忠文 , Junhyuk噢 , 尤里·凯马耶夫 , 哈多·范·哈塞尔特 , 大卫·西尔弗 , 萨汀德·辛格 :
通过元学习子目标发现选项。 NeurIPS公司 2021 : 29861-29873 [i39] 维维克·维里亚 , 汤姆·扎哈维 , 马特奥·赫塞尔 , 徐忠文 , Junhyuk噢 , 尤里·凯马耶夫 , 哈多·范·哈塞尔特 , 大卫·西尔弗 , 萨汀德·辛格 :
通过元学习子目标发现选项。 CoRR公司 abs/2102.06741 ( 2021 ) [i38] 大卫·拉波索 , 塞缪尔·里特 , 亚当·桑托罗 , 格雷格·韦恩 , 西奥芬妮·韦伯 , 马特·博特维尼克 , 哈多·范·哈塞尔特 , H.弗朗西斯·宋 :
长期信贷分配的综合回报。 CoRR公司 abs/2102.12425 ( 2021 ) [i37] 马特奥·赫塞尔 , 伊沃·达尼埃尔卡 , 法比奥·维奥拉 , 阿瑟·盖兹 , 西蒙·施密特 , 劳伦特·西弗雷 , 西奥芬妮·韦伯 , 大卫·西尔弗 , 哈多·范·哈塞尔特 :
Muesli:结合策略优化方面的改进。 CoRR公司 abs/2104.06159 ( 2021 ) [公元36年] 马特奥·赫塞尔 , 曼纽尔·克罗伊斯 , 艾丹·克拉克 , 尤里·凯马耶夫 , 约翰·泉 , 托马斯·凯克 , 法比奥·维奥拉 , 哈多·范·哈塞尔特 :
用于可扩展强化学习的Podracer架构。 CoRR公司 abs/2104.06272 ( 2021 ) [i35] 雷·江 , 汤姆·扎哈维 , 徐忠文 , 亚当·怀特 , 马特奥·赫塞尔 , 查尔斯·布伦德尔 , 哈多·范·哈塞尔特 :
深度强化学习的重点算法。 CoRR公司 abs/2106.11779 ( 2021 ) [i34] 雷·江 , 张尚通 , 维罗妮卡·切鲁 , 亚当·怀特 , 哈多·范·哈塞尔特 :
学习深层RL的预期重点痕迹。 CoRR公司 abs/2107.05405 ( 2021 ) [i33] 塞巴斯蒂安·弗伦内尔哈格 , 扬尼克·施罗德克 , 汤姆·扎哈维 , 哈多·范·哈塞尔特 , 大卫·西尔弗 , 萨汀德·辛格 :
引导元学习。 CoRR公司 abs/2109.04504 ( 2021 ) [i32] 路易斯·基尔希 , 塞巴斯蒂安·弗伦内尔哈格 , 哈多·范·哈塞尔特 , 阿布拉姆·弗里森 , Junhyuk噢 , 陈玉田 :
将对称引入黑盒元强化学习。 CoRR公司 abs/2109.10781 ( 2021 ) [i31] 玛尔塔·加内洛 , Wojciech Marian Czarnecki公司 , 刘思奇 , 德鲁瓦·蒂鲁马拉 , Junhyuk噢 , 加泰尔·吉德尔 , 哈多·范·哈塞尔特 , 大卫·巴尔杜齐 :
选择你的战斗:互动图作为战略多样性的人口层面目标。 CoRR公司 abs/2110.04041 ( 2021 ) [i30] 格雷戈里·法夸尔 , 凯特·鲍姆利 , 齐塔·马里尼奥 , 安吉洛斯·菲洛斯 , 马特奥·赫塞尔 , 哈多·范·哈塞尔特 , 大卫·西尔弗 :
自我一致的模型和价值观。 CoRR公司 abs/2110.12840 ( 2021 ) 2020 [公元33年] 马克·罗兰 , 安娜·哈里顿扬(Anna Harutyunyan) , 哈多·范·哈塞尔特 , 戴安娜·博萨 , 汤姆·绍尔 , 雷米·穆诺斯 , 威尔·达布尼 :
非政策学习的条件重要性抽样。 AISTATS公司 2020 : 45-55 [公元32年] 伊恩·奥斯班德 , 约塔姆·多隆 , 马特奥·赫塞尔 , 约翰·阿斯兰尼德斯 , 埃伦·塞泽纳 , 安德烈·萨拉瓦 , 卡特里娜·麦金尼 , 托拉蒂莫尔 , Csaba Szepesvariá , 萨汀德·辛格 , 本杰明·范罗伊 , 理查德·萨顿 , 大卫·西尔弗 , 哈多·范·哈塞尔特 :
强化学习行为套件。 ICLR公司 2020 [公元31年] 郑泽瑜 , Junhyuk噢 , 马特奥·赫塞尔 , 徐忠文 , 曼纽尔·克罗伊斯 , 哈多·范·哈塞尔特 , 大卫·西尔弗 , 萨汀德·辛格 :
学习到的内在奖励能捕捉到什么? ICML公司 2020 : 11436-11446 [公元30年] 维罗妮卡·切鲁 , Doina Precup公司 , 哈多·范·哈塞尔特 :
信贷分配中的预见性和后见性。 NeurIPS公司 2020 [公元29年] Junhyuk噢 , 马特奥·赫塞尔 , Wojciech M.Czarnecki公司 , 徐忠文 , 哈多·范·哈塞尔特 , 萨汀德·辛格 , 大卫·西尔弗 :
发现强化学习算法。 NeurIPS公司 2020 [公元28年] 徐忠文 , 哈多·菲利普·范·哈塞尔特 , 马特奥·赫塞尔 , Junhyuk噢 , 萨廷德·辛格 , 大卫·西尔弗 :
在线发现目标的元梯度强化学习。 NeurIPS公司 2020 [公元27年] 汤姆·扎哈维 , 徐忠文 , 维维克·维里亚 , 马特奥·赫塞尔 , Junhyuk噢 , 哈多·范·哈塞尔特 , 大卫·西尔弗 , 萨汀德·辛格 :
一个自我调整的演员-评论家算法。 NeurIPS公司 2020 [i29] 汤姆·扎哈维 , 徐忠文 , 维维克·维里亚 , 马特奥·赫塞尔 , Junhyuk噢 , 哈多·范·哈塞尔特 , 大卫·西尔弗 , 萨汀德·辛格 :
自我调节深度强化学习。 CoRR公司 abs/2002.12928 ( 2020 ) [第28条] 哈多·范·哈塞尔特 , 丝芙兰Madjiheurem , 马特奥·赫塞尔 , 大卫·西尔弗 , 安德烈·巴雷托 , 戴安娜·博萨 :
预期合格跟踪。 CoRR公司 abs/2007.01839 ( 2020 ) [i27] 徐忠文 , 哈多·范·哈塞尔特 , 马特奥·赫塞尔 , Junhyuk噢 , 萨汀德·辛格 , 大卫·西尔弗 :
在线发现目标的元梯度强化学习。 CoRR公司 abs/2007.08433 ( 2020 ) [i26] Junhyuk噢 , 马特奥·赫塞尔 , Wojciech M.Czarnecki公司 , 徐忠文 , 哈多·范·哈塞尔特 , 萨汀德·辛格 , 大卫·西尔弗 :
发现强化学习算法。 CoRR公司 abs/2007.08794 ( 2020 ) [i25] 维罗妮卡·切鲁 , Doina Precup公司 , 哈多·范·哈塞尔特 :
信贷分配中的预见性和后见性。 CoRR公司 abs/2010.13685 ( 2020 )
2010 – 2019
2019 [公元26年] 马特奥·赫塞尔 , 休伯特·索耶 , 拉斯·埃斯佩霍尔特 , 沃伊切赫·沙内基(Wojciech Czarnecki) , 西蒙·施密特 , 哈多·范·哈塞尔特 :
PopArt的多任务深度强化学习。 AAAI公司 2019 : 3796-3803 [公元25年] 戴安娜·博萨 , 安德烈·巴雷托 , 约翰·泉 , 丹尼尔·曼科维茨 , 哈多·范·哈塞尔特 , 雷米·穆诺斯 , 大卫·西尔弗 , 汤姆·绍尔 :
通用后继函数具有近似值。 ICLR(海报) 2019 [公元24年] 维维克·维里亚 , 马特奥·赫塞尔 , 徐忠文 , Janarthanan Rajendran公司 , 理查德·刘易斯 , Junhyuk噢 , 哈多·范·哈塞尔特 , 大卫·西尔弗 , 萨汀德·辛格 :
发现有用的问题作为辅助任务。 NeurIPS公司 2019 : 9306-9317 【c23】 安娜·哈里顿扬(Anna Harutyunyan) , 威尔·达布尼 , 托马斯·梅斯纳德 , 穆罕默德·盖什拉希·阿扎尔 , 比拉尔·皮奥 , 尼古拉斯·希斯 , 哈多·范·哈塞尔特 , 格雷戈里·韦恩 , 萨汀德·辛格 , Doina Precup公司 , 雷米·穆诺斯 :
事后观察信贷分配。 NeurIPS公司 2019 : 12467-12476 [公元22年] 哈多·范·哈塞尔特 , 马特奥·赫塞尔 , 约翰·阿斯兰尼德斯 :
何时在强化学习中使用参数模型? NeurIPS公司 2019 : 14322-14333 【i24】 佩德罗·奥尔特加 , 简·X·王 , 马克·罗兰 , 蒂姆·吉纳温 , 泽布·库思·内尔森 , 拉兹万·帕斯卡努 , 尼古拉斯·希斯 , 乔尔·维内斯 , 亚历山大·普里策 , 巴勃罗·斯普雷希曼 , Siddhant M.贾亚库马尔 , 汤姆·麦格拉思 , 凯文·米勒 , 穆罕默德·盖什拉希·阿扎尔 , 伊恩·奥斯班德 , 尼尔·C·拉比诺维茨 , 安德烈斯·吉尔吉 , 西尔维娅·齐亚帕 , 西蒙·奥斯宾多 , 叶惠德 , 哈多·范·哈塞尔特 , 南多·德·弗雷塔斯 , 马修·博特维尼克 , 谢恩·莱格 :
序列策略的元学习。 CoRR公司 abs/1905.03030 ( 2019 ) [第23条] 哈多·范·哈塞尔特 , 马特奥·赫塞尔 , 约翰·阿斯兰尼德斯 :
何时在强化学习中使用参数模型? CoRR公司 abs/1906.05243 ( 2019 ) [i22] 马特奥·赫塞尔 , 哈多·范·哈塞尔特 , 约瑟夫·莫达伊尔 , 大卫·西尔弗 :
深度强化学习中的归纳偏差。 CoRR公司 abs/1907.02908 ( 2019 ) 【i21】 哈多·范·哈塞尔特 , 约翰·泉 , 马特奥·赫塞尔 , 徐忠文 , 戴安娜·博萨 , 安德烈·巴雷托 :
一般非线性Bellman方程。 CoRR公司 abs/1907.03687 ( 2019 ) [i20] 伊恩·奥斯班德 , 约塔姆·多隆 , 马特奥·赫塞尔 , 约翰·阿斯兰尼德斯 , 埃伦·塞泽纳 , 安德烈·萨拉瓦 , 卡特里娜·麦金尼 , 托拉蒂莫尔 , Csaba Szepesvariá , 萨汀德·辛格 , 本杰明·范罗伊 , 理查德·萨顿 , 大卫·西尔弗 , 哈多·范·哈塞尔特 :
强化学习行为套件。 CoRR公司 abs/1908.03568 ( 2019 ) [i19] 维维克·维里亚 , 马特奥·赫塞尔 , 徐忠文 , 理查德·刘易斯 , Janarthanan Rajendran公司 , Junhyuk噢 , 哈多·范·哈塞尔特 , 大卫·西尔弗 , 萨汀德·辛格 :
发现有用的问题作为辅助任务。 CoRR公司 abs/1909.04607 ( 2019 ) [i18] 马克·罗兰 , 安娜·哈里顿扬(Anna Harutyunyan) , 哈多·范·哈塞尔特 , 戴安娜·博萨 , 汤姆·绍尔 , 雷米·穆诺斯 , 威尔·达布尼 :
非政策学习的条件重要性抽样。 CoRR公司 abs/1910.07479 ( 2019 ) [i17] 安娜·哈里顿扬(Anna Harutyunyan) , 威尔·达布尼 , 托马斯·梅斯纳德 , 穆罕默德·盖什拉希·阿扎尔 , 比拉尔·皮奥 , 尼古拉斯·希斯 , 哈多·范·哈塞尔特 , 格雷格·韦恩 , 萨汀德·辛格 , Doina Precup公司 , 雷米·穆诺斯 :
事后观察信贷分配。 CoRR公司 abs/1912.02503 ( 2019 ) [i16] 郑泽瑜 , Junhyuk噢 , 马特奥·赫塞尔 , 徐忠文 , 曼纽尔·克罗伊斯 , 哈多·范·哈塞尔特 , 大卫·西尔弗 , 萨汀德·辛格 :
学习到的内在奖励能捕捉到什么? CoRR公司 abs/1912.05500 ( 2019 ) 2018 【c21】 马特奥·赫塞尔 , 约瑟夫·莫达伊尔 , 哈多·范·哈塞尔特 , 汤姆·绍尔 , 乔治·奥斯特罗夫斯基 , 威尔·达布尼 , 丹·霍根 , 比拉尔·皮奥 , 穆罕默德·盖什拉希·阿扎尔 , 大卫·西尔弗 :
Rainbow:结合深度强化学习的改进。 AAAI公司 2018 : 3215-3222 [公元20年] 丹·霍根 , 约翰·泉 , 大卫·布登 , 加布里埃尔·巴特·马龙 , 马特奥·赫塞尔 , 哈多·范·哈塞尔特 , 大卫·西尔弗 :
分布式优先体验重播。 ICLR(海报) 2018 [第19条] 尤金尼奥·巴吉亚奇 , 蒂莫西·弗斯特雷顿 , 迪德里克·罗杰斯 , Ann Nowé , 哈多·范·哈塞尔特 :
重复单阶段多智能体决策问题中协调图的学习。 ICML公司 2018 : 491-499 [第18条] 徐忠文 , 哈多·范·哈塞尔特 , 大卫·西尔弗 :
元梯度强化学习。 NeurIPS公司 2018 : 2402-2413 【i15】 丹尼尔·曼科维茨 , 奥古斯汀·泽德克 , 安德烈·巴雷托 , 丹·霍根 , 马特奥·赫塞尔 , 约翰·泉 , Junhyuk噢 , 哈多·范·哈塞尔特 , 大卫·西尔弗 , 汤姆·绍尔 :
独角兽:与通用非政策代理一起持续学习。 CoRR公司 abs/1802.08294 ( 2018 ) [第14条] 丹·霍根 , 约翰·泉 , 大卫·布登 , 加布里埃尔·巴特·马龙 , 马特奥·赫塞尔 , 哈多·范·哈塞尔特 , 大卫·西尔弗 :
分布式优先体验重播。 CoRR公司 abs/1803.00933 ( 2018 ) [i13] 徐忠文 , 哈多·范·哈塞尔特 , 大卫·西尔弗 :
元梯度强化学习。 CoRR公司 abs/1805.09801 ( 2018 ) [i12] 托比亚斯·波伦 , 比拉尔·皮奥 , 托德·海丝特 , 穆罕默德·盖什拉希·阿扎尔 , 丹·霍根 , 大卫·布登 , 加布里埃尔·巴特·马龙 , 哈多·范·哈塞尔特 , 约翰·泉 , 梅尔·韦塞克 , 马特奥·赫塞尔 , 雷米·穆诺斯 , 奥利维尔·皮特金 :
观察并进一步观察:在Atari上实现一致的性能。 CoRR公司 abs/1805.11593 ( 2018 ) [i11] 马特奥·赫塞尔 , 休伯特·索耶 , 拉斯·埃斯佩霍尔特 , 沃伊切赫·沙内基(Wojciech Czarnecki) , 西蒙·施密特 , 哈多·范·哈塞尔特 :
PopArt的多任务深度强化学习。 CoRR公司 abs/1809.04474 ( 2018 ) [i10] 汤姆·绍尔 , 哈多·范·哈塞尔特 , 约瑟夫·莫达伊尔 , 马莎怀特 , 亚当·怀特 , 皮埃尔·吕克·培根 , 让·哈布 , 希布尔·穆拉德 , 马克·贝勒马尔 , Doina Precup公司 :
巴巴多斯2018年持续学习开放问题清单。 CoRR公司 abs/1811.07004 ( 2018 ) [第九章] 哈多·范·哈塞尔特 , 约塔姆·多隆 , 弗洛里安·斯特鲁布 , 马特奥·赫塞尔 , 尼古拉斯·索内拉特 , 约瑟夫·莫达伊尔 :
深度强化学习和致命三合会。 CoRR公司 abs/1812.02648 ( 2018 ) [i8] 戴安娜·博萨 , 安德烈·巴雷托 , 约翰·泉 , 丹尼尔·曼科维茨 , 雷米·穆诺斯 , 哈多·范·哈塞尔特 , 大卫·西尔弗 , 汤姆·绍尔 :
通用后继函数具有近似值。 CoRR公司 abs/1812.07626 ( 2018 ) 2017 [c17] 大卫·西尔弗 , 哈多·范·哈塞尔特 , 马特奥·赫塞尔 , 汤姆·绍尔 , 阿瑟·盖兹 , 蒂姆·哈雷 , 加布里埃尔·杜拉克-阿诺德 , David P.Reichert(大卫·雷切尔) , 尼尔·C·拉比诺维茨 , 安德烈·巴雷托 , 托马斯·迪吉斯 :
预测:端到端的学习和规划。 ICML公司 2017 : 3191-3199 [第16条] 徐忠文 , 约瑟夫·莫达伊尔 , 哈多·范·哈塞尔特 , 安德烈·巴雷托 , 大卫·西尔弗 , 汤姆·绍尔 :
自然价值近似值:学习何时信任过去的估计。 NIPS公司 2017 : 2120-2128 [第15条] 安德烈·巴雷托 , 威尔·达布尼 , 雷米·穆诺斯 , 乔纳森·亨特 , 汤姆·绍尔 , 大卫·西尔弗 , 哈多·范·哈塞尔特 :
强化学习中转移的继任者特征。 NIPS公司 2017 : 4055-4065 [i7] Oriol葡萄酒 , 蒂莫·埃瓦兹 , 谢尔盖·巴图诺夫 , 佩特科·乔治耶夫 , 亚历山大·萨沙·维日涅瓦茨 , 杨紫琼(Michelle Yeo) , Alireza Makhzani公司 , 海因里希·库特勒 , 约翰·阿加皮欧 , 朱利安·施里特维瑟 , 约翰·泉 , 斯蒂芬·加夫尼 , 斯蒂格·彼得森 , 凯伦·西蒙扬 , 汤姆·绍尔 , 哈多·范·哈塞尔特 , 大卫·西尔弗 , 蒂莫西·利利克拉普 , 凯文·卡尔德隆 , 保罗·基特 , 安东尼·布鲁纳索 , 大卫·劳伦斯 , 安德斯·埃克莫 , 雅各布·雷普 , Rodney Tsing公司 :
星际争霸II:强化学习的新挑战。 CoRR公司 abs/1708.04782 ( 2017 ) [i6] 马特奥·赫塞尔 , 约瑟夫·莫达伊尔 , 哈多·范·哈塞尔特 , 汤姆·绍尔 , 乔治·奥斯特罗夫斯基 , 威尔·达布尼 , 丹尼尔·霍根 , 比拉尔·皮奥 , 穆罕默德·盖什拉希·阿扎尔 , 大卫·西尔弗 :
彩虹:结合深度强化学习的改进。 CoRR公司 abs/1710.02298 ( 2017 ) 2016 [第14条] 哈多·范·哈塞尔特 , 阿瑟·盖兹 , 大卫·西尔弗 :
双Q学习深度强化学习。 AAAI公司 2016 : 2094-2100 [第13条] 王子玉 , 汤姆·绍尔 , 马特奥·赫塞尔 , 哈多·范·哈塞尔特 , 马克·兰科特 , 南多·德·弗雷塔斯 :
深入强化学习的决斗网络架构。 ICML公司 2016 : 1995-2003 [第12条] 哈多·范·哈塞尔特 , 阿瑟·盖兹 , 马特奥·赫塞尔 , 沃洛德米尔·姆尼赫 , 大卫·西尔弗 :
学习跨越多个数量级的价值观。 NIPS公司 2016 : 4287-4295 [i5] 哈多·范·哈塞尔特 , 阿瑟·盖兹 , 马特奥·赫塞尔 , 大卫·西尔弗 :
学习跨越多个数量级的函数。 CoRR公司 abs/1602.07714 ( 2016 ) [i4] 大卫·西尔弗 , 哈多·范·哈塞尔特 , 马特奥·赫塞尔 , 汤姆·绍尔 , 阿瑟·盖兹 , 蒂姆·哈雷 , 加布里埃尔·杜拉克-阿诺德 , David P.Reichert(大卫·雷切尔) , 尼尔·C·拉比诺维茨 , 安德烈·巴雷托 , 托马斯·迪吉斯 :
预测:端到端的学习和规划。 CoRR公司 abs/1612.08810 ( 2016 ) 2015 [i3] 哈多·范·哈塞尔特 , 理查德·萨顿 :
学会独立于跨度进行预测。 CoRR公司 abs/1508.04582 ( 2015 ) [i2] 哈多·范·哈塞尔特 , 阿瑟·盖兹 , 大卫·西尔弗 :
双Q学习的深度强化学习。 CoRR公司 abs/1509.06461 ( 2015 ) 2014 [第11条] 理查德·萨顿 , 阿什克·鲁帕姆·马哈茂德 , Doina Precup公司 , 哈多·范·哈塞尔特 :
一种新的Q(λ),具有中间前视图和蒙特卡罗等价性。 ICML公司 2014 : 568-576 [第10条] 阿什克·鲁帕姆·马哈茂德 , 哈多·范·哈塞尔特 , 理查德·萨顿 :
线性函数近似下非策略学习的加权重要性抽样。 NIPS公司 2014 : 3014-3022 【c9】 哈多·范·哈塞尔特 , 阿什克·鲁帕姆·马哈茂德 , 理查德·萨顿 :
非策略TD(l)与真正的在线等效。 阿联酋 2014 : 330-339 2013 【c8】 哈多·范·哈塞尔特 , 汉拉波雷 :
不确定性下的叠加:我们知道如何预测,但我们应该如何行动? CIPLS公司 2013 : 25-32 [i1] 哈多·范·哈塞尔特 :
估计最大期望值:(嵌套)交叉验证和最大样本平均值分析。 CoRR公司 abs/1302.7175 ( 2013 ) 2012 [第1页] 哈多·范·哈塞尔特 :
持续状态和行动空间中的强化学习。 强化学习 2012 : 207-251 2011 【b1】 哈多·菲利普·范·哈塞尔特 :
强化训练的见解:时间差分学习算法的形式分析和实证评估。 荷兰乌得勒支大学, 2011 [注2] 哈姆·范·塞扬 , 西蒙·怀特森 , 哈多·范·哈塞尔特 , 马可·维林 :
利用最佳匹配方程进行有效强化学习。 J.马赫。 学习。 物件。 12 : 2045-2094 ( 2011 ) 【c7】 马可·维林 , 哈多·范·哈塞尔特 , Auke-Dirk Pietersma公司 , 兰伯特·斯科马克 :
用于解决分类问题的强化学习算法。 ADPRL公司 2011 : 91-96 2010 【c6】 哈多·范·哈塞尔特 :
双Q学习。 NIPS公司 2010 : 2613-2621
2000 – 2009
2009 【c5】 马可·维林 , 哈多·范·哈塞尔特 :
QV系列与其他强化学习算法的比较。 ADPRL公司 2009 : 101-108 【c4】 哈姆·范·塞扬 , 哈多·范·哈塞尔特 , 西蒙·怀特森 , 马可·维林 :
预期Sarsa的理论和实证分析。 ADPRL公司 2009 : 177-184 【c3】 乔斯特·韦斯特拉 , 哈多·范·哈塞尔特 , 弗兰克·迪格纳姆 , 弗吉尼亚·迪格努姆 :
使用代理组织的自适应严肃游戏。 AGS公司 2009 : 206-220 【c2】 哈多·范·哈塞尔特 , 马可·维林 :
使用连续动作空间解决离散问题。 国际JCNN 2009 : 1149-1156 2008 [j1] 马可·维林 , 哈多·范·哈塞尔特 :
强化学习中的集成算法。 IEEE传输。 系统。 人类网络。 B部分 38 ( 4 ) : 930-936 ( 2008 ) 【c1】 乔斯特·韦斯特拉 , 哈多·范·哈塞尔特 , 弗吉尼亚·迪格努姆 , 弗兰克·迪格纳姆 :
使用代理组织在线改编游戏。 CIG公司 2008 : 243-250