戴安娜·博萨
人员信息
SPARQL查询
优化列表
2020年–今天
2024 【i21】 Khimya Khetarpal公司 , 赵汉·丹尼尔·郭 , 贝尔纳多·阿维拉·皮雷斯 , 汤云浩 , 克莱尔·莱尔 , 马克·罗兰 , 尼古拉斯·希斯 , 戴安娜·博萨 , 阿瑟·盖兹 , 威尔·达布尼 :
动作条件自预测强化学习的统一框架。 CoRR公司 腹肌/2406.02035 ( 2024 ) 2023 [第13条] 亚什·昌达克 , Shantanu Thakoor公司 , 赵汉·丹尼尔·郭 , 汤云浩 , 雷米·穆诺斯 , 威尔·达布尼 , 戴安娜·博尔萨 :
基于奇异值分解的深度强化学习的表示与探索。 ICML公司 2023 : 4009-4034 [第12条] 特德·莫斯科维茨 , 萨莫·赫罗马德卡 , 艾哈迈德·图亚蒂 , 戴安娜·博萨 , 曼尼什·萨哈尼 :
奖励递减的州代表。 NeurIPS公司 2023 [i20] 亚什·昌达克 , Shantanu Thakoor公司 , 赵汉·丹尼尔·郭 , 汤云浩 , 雷米·穆诺斯 , 威尔·达布尼 , 戴安娜·博尔萨 :
基于奇异值分解的深度强化学习的表示与探索。 CoRR公司 abs/2305.00654 ( 2023 ) [i19] 特德·莫斯科维茨 , 萨摩Hromadka , 艾哈迈德·图亚蒂 , 戴安娜·博萨 , 曼尼什·萨哈尼 :
奖励递减的州代表。 CoRR公司 abs/2309.03710 ( 2023 ) 2022 [第11条] 米鲁娜·皮斯拉 , 大卫·塞佩斯瓦里 , 乔治·奥斯特罗夫斯基 , 戴安娜·博尔萨 , 汤姆·绍尔 :
代理应该什么时候探索? ICLR公司 2022 [c10] 安吉洛斯·菲洛斯 , Eszter Vértes公司 , 齐塔·马里尼奥 , 格雷戈里·法夸尔 , 戴安娜·博萨 , 阿布拉姆·弗里森 , 费亚尔·M·P·贝巴哈尼 , 汤姆·绍尔 , 安德烈·巴雷托 , 西蒙·奥斯宾多 :
模型值不一致是认识不确定性的信号。 ICML公司 2022 : 6474-6498 【c9】 Shantanu Thakoor公司 , 马克·罗兰 , 戴安娜·博萨 , 威尔·达布尼 , 雷米·穆诺斯 , 安德烈·巴雷托 :
几何政策组合下的广义政策改进。 ICML公司 2022 : 21272-21307 [i18] 维罗妮卡·切鲁 , 戴安娜·博萨 , Doina Precup公司 , 哈多·范·哈塞尔特 :
选择性信贷分配。 CoRR公司 abs/2202.09699 ( 2022 ) [i17] Shantanu Thakoor公司 , 马克·罗兰 , 戴安娜·博萨 , 威尔·达布尼 , 雷米·穆诺斯 , 安德烈·巴雷托 :
几何政策组合下的广义政策改进。 CoRR公司 abs/2206.08736 ( 2022 ) 2021 【c8】 哈多·范·哈塞尔特 , 丝芙兰Madjiheurem , 马特奥·赫塞尔 , 大卫·西尔弗 , 安德烈·巴雷托 , 戴安娜·博萨 :
预期合格跟踪。 AAAI公司 2021 : 9997-10005 [i16] 汤姆·绍尔 , 乔治·奥斯特罗夫斯基 , 尤里·凯马耶夫 , 戴安娜·博萨 :
基于回报的缩放:Deep RL的另一个标准化技巧。 CoRR公司 腹肌/2105.05347 ( 2021 ) 【i15】 安德烈·巴雷托 , 戴安娜·博萨 , 侯少波 , Gheorghe Comanici公司 , 埃塞尔·艾根 , 菲利普·哈默尔 , 丹尼尔·富山 , 乔纳森·亨特 , 希布尔·穆拉德 , 大卫·西尔弗 , Doina Precup公司 :
选项键盘:强化学习中的组合技巧。 CoRR公司 腹肌/2106.13105 ( 2021 ) [第14条] 米鲁娜·皮斯拉 , 大卫·塞佩斯瓦里 , 乔治·奥斯特罗夫斯基 , 戴安娜·博萨 , 汤姆·绍尔 :
代理应该什么时候探索? CoRR公司 abs/2108.11811 ( 2021 ) [i13] 安吉洛斯·菲洛斯 , Eszter Vértes公司 , 齐塔·马里尼奥 , 格雷戈里·法夸尔 , 戴安娜·博萨 , 阿布拉姆·弗里森 , 费亚尔·M·P·贝巴哈尼 , 汤姆·绍尔 , 安德烈·巴雷托 , 西蒙·奥斯宾多 :
模型值不一致是认识不确定性的信号。 CoRR公司 abs/2112.04153 ( 2021 ) 2020 【b1】 戴安娜·博萨 :
持续性环境中的强化学习:表征学习和迁移。 英国伦敦大学学院, 2020 [j1] 安德烈·巴雷托 , 侯少波 , 戴安娜·博萨 , 大卫·西尔弗 , Doina Precup公司 :
通过通用策略更新快速强化学习。 程序。 国家。 阿卡德。 科学。 美国 117 ( 48 ) : 30079-30087 ( 2020 ) 【c7】 马克·罗兰 , 安娜·哈里顿扬(Anna Harutyunyan) , 哈多·范·哈塞尔特 , 戴安娜·博萨 , 汤姆·绍尔 , 雷米·穆诺斯 , 威尔·达布尼 :
非政策学习的条件重要性抽样。 AISTATS公司 2020 : 45-55 [i12] 哈多·范·哈塞尔特 , 丝芙兰Madjiheurem , 马特奥·赫塞尔 , 大卫·西尔弗 , 安德烈·巴雷托 , 戴安娜·博萨 :
预期合格跟踪。 CoRR公司 abs/2007.01839 ( 2020 ) [i11] 塞巴斯蒂安·弗伦内尔哈格 , 简·X·王 , 巴勃罗·斯普雷希曼 , 弗朗西斯科·维辛 , 亚历山大·加拉肖夫 , 史蒂文·卡普托洛夫斯基 , 戴安娜·博尔萨 , 尼古拉斯·希斯 , 安德烈·巴雷托 , 拉兹万·帕斯卡努 :
时间差异不确定性作为探索的信号。 CoRR公司 abs/2010.02255 ( 2020 )
2010 – 2019
2019 【c6】 安娜·哈里顿扬(Anna Harutyunyan) , 威尔·达布尼 , 戴安娜·博萨 , 尼古拉斯·希斯 , 雷米·穆诺斯 , Doina Precup公司 :
终止批评人士。 AISTATS公司 2019 : 2231-2240 【c5】 戴安娜·博萨 , 尼古拉斯·希斯 , 比拉尔·皮奥 , 刘思奇 , 伦纳德·哈森克韦尔 , 雷米·穆诺斯 , 奥利维尔·皮特金 :
通过强化学习进行观察学习。 美国原子能机构 2019 : 1117-1124 【c4】 戴安娜·博萨 , 安德烈·巴雷托 , 约翰·泉 , 丹尼尔·曼科维茨 , 哈多·范·哈塞尔特 , 雷米·穆诺斯 , 大卫·西尔弗 , 汤姆·绍尔 :
通用后继函数具有近似值。 ICLR(海报) 2019 【c3】 安德烈·巴雷托 , 戴安娜·博萨 , 侯少波 , Gheorghe Comanici公司 , 埃塞尔·艾根 , 菲利普·哈默尔 , 丹尼尔·富山 , 乔纳森·亨特 , 希布尔·穆拉德 , 大卫·西尔弗 , Doina Precup公司 :
可选键盘:强化学习中的组合技能。 NeurIPS公司 2019 : 13031-13041 [i10] 安德烈·巴雷托 , 戴安娜·博萨 , 约翰·泉 , 汤姆·绍尔 , 大卫·西尔弗 , 马特奥·赫塞尔 , 丹尼尔·曼科维茨 , 奥古斯汀·泽德克 , 雷米·穆诺斯 :
利用继任者特征和一般政策改进进行深度强化学习。 CoRR公司 abs/1901.10964 ( 2019 ) [第九章] 安娜·哈里顿扬(Anna Harutyunyan) , 威尔·达布尼 , 戴安娜·博萨 , 尼古拉斯·希斯 , 雷米·穆诺斯 , Doina Precup公司 :
终止批评人士。 CoRR公司 abs/1902.09996 ( 2019 ) [i8] 汤姆·绍尔 , 戴安娜·博萨 , 约瑟夫·莫达伊尔 , 拉兹万·帕斯卡努 :
射线干扰:深度强化学习平台的来源。 CoRR公司 abs/1904.11455 ( 2019 ) [i7] 哈多·范·哈塞尔特 , 约翰·泉 , 马特奥·赫塞尔 , 徐忠文 , 戴安娜·博萨 , 安德烈·巴雷托 :
一般非线性Bellman方程。 CoRR公司 abs/1907.03687 ( 2019 ) [i6] 马克·罗兰 , 安娜·哈里顿扬(Anna Harutyunyan) , 哈多·范·哈塞尔特 , 戴安娜·博萨 , 汤姆·绍尔 , 雷米·穆诺斯 , 威尔·达布尼 :
非政策学习的条件重要性抽样。 CoRR公司 abs/1910.07479 ( 2019 ) [i5] 汤姆·绍尔 , 戴安娜·博萨 , 大卫·丁 , 大卫·塞佩斯瓦里 , 乔治·奥斯特罗夫斯基 , 威尔·达布尼 , 西蒙·奥斯宾多 :
适应学习进度的行为。 CoRR公司 abs/1912.06910 ( 2019 ) 2018 【c2】 安德烈·巴雷托 , 戴安娜·博萨 , 约翰·泉 , 汤姆·绍尔 , 大卫·西尔弗 , 马特奥·赫塞尔 , 丹尼尔·曼科维茨 , 奥古斯汀·泽德克 , 雷米·穆诺斯 :
利用继任者特征和一般政策改进进行深度强化学习。 ICML公司 2018 : 510-519 [i4] 戴安娜·博萨 , 安德烈·巴雷托 , 约翰·泉 , 丹尼尔·曼科维茨 , 雷米·穆诺斯 , 哈多·范·哈塞尔特 , 大卫·西尔弗 , 汤姆·绍尔 :
通用后继函数具有近似值。 CoRR公司 abs/1812.07626 ( 2018 ) 2017 [i3] 戴安娜·博萨 , 比拉尔·皮奥 , 雷米·穆诺斯 , 奥利维尔·皮特金 :
通过强化学习进行观察学习。 CoRR公司 abs/1706.06617 ( 2017 ) 2016 【c1】 亚历克斯·冈特 , 戴安娜·博萨 , 约拉姆·巴赫拉赫 :
训练神经网络以聚合众包响应。 阿联酋 2016 [i2] 戴安娜·博萨 , 格雷佩尔 , 约翰·肖·泰勒 :
在多任务强化学习中学习共享表征。 CoRR公司 abs/1603.02041 ( 2016 ) 2015 [i1] 戴安娜·博萨 , 格雷佩尔 , 安德鲁·戈登 :
旋转过程:基于嵌套对称的几何图形的完全生成模型。 CoRR公司 abs/1506.03041 ( 2015 )