大卫·布兰德福恩布雷纳
人员信息
优化列表
![笔记](https://dblp.uni-trier.de/img/note-mark.dark.12x12.png)
2020年–今天
2024 [第14条] 萨米·杰拉西 , 大卫·布兰德福恩布雷纳 , 沙姆·M·卡卡德 , 埃兰·马拉奇 :
在我后面重复:变形金刚在复制方面比状态空间模型好。 CoRR公司 abs/2402.01032 ( 2024 ) [i13] 大卫·布兰德福恩布雷纳 , 锡比·拉贾 , 塔伦·普拉萨德 , 克洛伊·拉夫里奇 , 杨建昂 , 西蒙·海尼格尔 , 威廉·伯德 , 罗伯特·津科夫 , 纳达·阿明 :
使用大型语言模型和蒙特卡罗树搜索验证了多步综合。 CoRR公司 腹肌/2402.08147 ( 2024 ) [i12] 肯尼思李 , 萨米·杰拉西 , 休·张(Hugh Zhang) , 沙姆·M·卡卡德 , 瓦滕伯格 , 大卫·布兰德福恩布雷纳 :
Q-Probe:一种轻量级语言模型奖励最大化方法。 CoRR公司 abs/2402.14688 ( 2024 ) 2023 【c7】 大卫·布兰德福恩布雷纳 , 斯蒂芬·图 , 阿维·辛格 , 斯特凡·韦尔克 , 查德·布杜 , 尼古拉·马特尼 , 杰克·瓦利 :
视觉回溯遥操作:基于离线图像强化学习的数据收集协议。 ICRA公司 2023 : 11336-11342 【c6】 大卫·布兰德福恩布雷纳 , 奥菲尔·纳楚姆 , 琼·布鲁纳 :
逆动力学预训练学习多任务模拟的良好表现。 NeurIPS公司 2023 [i11] 大卫·布兰德福恩布雷纳 , 奥菲尔·纳楚姆 , 琼·布鲁纳 :
逆动力学预训练学习多任务模拟的良好表现。 CoRR公司 abs/2305.16985 ( 2023 ) 2022 【c5】 大卫·布兰德福恩布雷纳 , 阿尔贝托·比埃蒂 , 雅各布·巴克曼 , 罗曼·拉罗什 , 琼·布鲁纳 :
返回条件监督学习何时对离线强化学习起作用? NeurIPS公司 2022 [i10] 丹尼斯·亚拉特斯 , 大卫·布兰德丰布雷纳 , 郝刘 , 迈克尔·拉斯金 , 彼得·阿比尔 , 亚历山德罗·拉扎里奇 , 勒勒·平托 :
不要改变算法,改变数据:离线强化学习的探索性数据。 CoRR公司 abs/2201.13425 ( 2022 ) [第九章] 大卫·布兰德福恩布雷纳 , 阿尔贝托·比埃蒂 , 雅各布·巴克曼 , 罗曼·拉罗什 , 琼·布鲁纳 :
返回条件监督学习何时对离线强化学习起作用? CoRR公司 abs/2206.01079 ( 2022 ) [i8] 大卫·布兰德福恩布雷纳 , Remi Tachet des Combes公司 , 罗曼·拉罗什 :
将显式不确定性估计纳入深度离线强化学习。 CoRR公司 abs/2206.01085 ( 2022 ) [i7] 大卫·布兰德福恩布雷纳 , 斯蒂芬·图 , 阿维·辛格 , 斯特凡·韦尔克 , 查德·布杜 , 尼古拉·马特尼 , 杰克·瓦利 :
视觉回溯遥操作:基于离线图像强化学习的数据收集协议。 CoRR公司 abs/2210.02343 ( 2022 ) 2021 【c4】 大卫·布兰德福恩布雷纳 , 威廉·惠特尼 , 拉杰什·兰加纳思 , 琼·布鲁纳 :
具有过度参数化模型的脱机上下文盗贼。 ICML公司 2021 : 1049-1058 【c3】 大卫·布兰德福恩布雷纳 , 威尔·惠特尼 , 拉杰什·兰加纳思 , 琼·布鲁纳 :
无非政策评估的离线RL。 NeurIPS公司 2021 : 4933-4946 [i6] 大卫·布兰德福恩布雷纳 , 威廉·惠特尼 , 拉杰什·兰加纳思 , 琼·布鲁纳 :
无非政策评估的离线RL。 CoRR公司 abs/2106.08909 ( 2021 ) [i5] 大卫·布兰德福恩布雷纳 , 威廉·惠特尼 , 拉杰什·兰加纳思 , 琼·布鲁纳 :
分位数过滤模拟学习。 CoRR公司 abs/2112.00950 ( 2021 ) 2020 【c2】 安德烈亚·扎内特 , 大卫·布兰德福恩布雷纳 , 艾玛·布伦斯基 , 马蒂奥·皮罗塔 , 亚历山德罗·拉扎里奇 :
随机最小二乘值迭代的频繁后悔界。 AISTATS公司 2020 : 1954-1964 【c1】 大卫·布兰德福恩布雷纳 , 琼·布鲁纳 :
非线性TD学习收敛的几何观点。 ICLR公司 2020 [i4] 大卫·布兰德福恩布雷纳 , 威廉·惠特尼 , 拉杰什·兰加纳思 , 琼·布鲁纳 :
离线策略学习中的过度匹配与优化。 CoRR公司 abs/2006.15368 ( 2020 ) [i3] 威廉·惠特尼 , 宋敏杰 , 大卫·布兰德福恩布雷纳 , Jaan Altosaar公司 , Kyunghyun Cho(赵京贤) :
通过学习低损失预测因子的复杂性来评估表征。 CoRR公司 abs/2009.07368 ( 2020 )
2010 – 2019
2019 [i2] 大卫·布兰德丰布雷纳 , 琼·布鲁纳 :
关于非线性TD学习的预期动力学。 CoRR公司 abs/1905.12185 ( 2019 ) [i1] 安德烈亚·扎内特 , 大卫·布兰德福恩布雷纳 , 马蒂奥·皮罗塔 , 亚历山德罗·拉扎里奇 :
随机最小二乘值迭代的频繁后悔界。 CoRR公司 abs/1911.00567 ( 2019 ) 2018 [j1] 大卫·布兰德福恩布雷纳 , 帕特·德夫林 , 内塔内尔·弗里登伯格 , 宇轩可 , 斯特芬·马库斯 , 亨利·赖查德 , 伊桑·塞阿玛 :
图的雅可比矩阵的两顶点生成器。 电子。 J.库姆。 25 ( 1 ) : 1 ( 2018 )
合著者索引
![](https://dblp.uni-trier.de/img/cog.dark.24x24.png)