亚当·格莱夫
人员信息
优化列表
![笔记](https://dblp.org/img/note-mark.dark.12x12.png)
2020年–今天
2024 [i20] 佩德罗·弗雷尔 , 成成潭 , 亚当·格莱夫 , 丹·亨德里克斯 , 斯科特·埃蒙斯 :
在语言模型嵌入中揭示潜在的人类福祉。 CoRR公司 abs/2402.11777 ( 2024 ) 2023 【c6】 乔尔·马克斯·维克托·斯科尔斯 , 马修·法鲁吉娅·罗伯茨 , 斯图尔特·罗素 , 亚历山德罗·阿巴特 , 亚当·格莱夫 :
策略优化的不变性和奖励学习的部分可识别性。 ICML公司 2023 : 32033-32058 【c5】 Tony Tong Wang(托尼·王) , 亚当·格莱夫 , 汤姆·曾荫权 , 凯林·佩林 , 诺拉·贝尔罗斯 , 约瑟夫·米勒 , 迈克尔·D·丹尼斯 , 段亚文 , 维克托·波格雷布尼亚克 , 谢尔盖·莱文 , 斯图尔特·罗素 :
对抗性政策击败了超人围棋AI。 ICML公司 2023 : 35655-35739 [i19] 列夫·麦金尼 , 段亚文 , 大卫·克鲁格 , 亚当·格莱夫 :
学习奖励功能的脆弱性。 CoRR公司 abs/2301.03652 ( 2023 ) [i18] 约阿尔·斯科尔斯 , 露西·法尼克 , 苏梅特·拉梅什·莫特瓦尼 , 埃里克·詹纳 , 亚当·格莱夫 , 亚历山德罗·阿巴特 :
STARC:量化奖励功能之间差异的通用框架。 CoRR公司 abs/2309.15257 ( 2023 ) [i17] 凯林·佩林 , 穆罕默德·陶费奎 , 米查尔·扎贾克 , 尤安·麦克莱恩 , 亚当·格莱夫 :
开发新型GPT-4 API。 CoRR公司 abs/2312.14302 ( 2023 ) 2022 [i16] 亚当·格莱夫 , 杰弗里·欧文 :
语言奖励模型的不确定性估计。 CoRR公司 腹肌/2203.07472 ( 2022 ) 【i15】 约阿尔·斯科尔斯 , 马修·法鲁吉亚·罗贝茨 , 斯图尔特·罗素 , 亚历山德罗·阿巴特 , 亚当·格莱夫 :
策略优化的不变性和奖励学习的部分可识别性。 CoRR公司 abs/2203.07475 ( 2022 ) [第14条] 亚当·格莱夫 , 萨姆·托耶 :
最大因果熵逆强化学习入门。 CoRR公司 abs/2203.11409 ( 2022 ) [i13] 埃里克·詹纳 , 亚当·格莱夫 :
预处理奖励函数以实现可解释性。 CoRR公司 abs/2203.13553 ( 2022 ) [i12] 帕维尔·齐姆平 , 亚当·格莱夫 :
通过基于人口的培训降低可开发性。 CoRR公司 abs/2208.05083 ( 2022 ) [i11] 埃里克·詹纳 , 赫尔克·范·霍夫 , 亚当·格莱夫 :
MDPs上的微积分:作为梯度的潜力塑造。 CoRR公司 abs/2208.09570 ( 2022 ) [i10] Tony Tong Wang(托尼·王) , 亚当·格莱夫 , 诺拉·贝尔罗斯 , 汤姆·曾荫权 , 约瑟夫·米勒 , 迈克尔·D·丹尼斯 , 段亚文 , 维克托·波格雷布尼亚克 , 谢尔盖·莱文 , 斯图尔特·罗素 :
对抗性政策击败专业级围棋AI。 CoRR公司 abs/2211.00241 ( 2022 ) [第九章] 亚当·格莱夫 , 穆罕默德·陶费奎 , 胡安·罗卡蒙德 , 埃里克·詹纳 , 史蒂芬·H·王 , 萨姆·托耶 , 马克西米利安·厄内斯特斯 , 诺拉·贝尔罗斯 , 斯科特·埃蒙斯 , 斯图尔特·罗素 :
模仿:干净的模仿学习工具。 CoRR公司 abs/2211.11972 ( 2022 ) 2021 [j1] 安东宁·拉芬 , 阿什利·希尔 , 亚当·格莱夫 , 安西·卡内维斯托 , 马克西米利安·厄内斯特斯 , 诺亚·多尔曼 :
稳定的基线3:可靠的强化学习实现。 J.马赫。 学习。 物件。 22 : 268:1-268:8 ( 2021 ) 【c4】 亚当·格莱夫 , 迈克尔·丹尼斯 , 谢恩·莱格 , 斯图尔特·罗素 , 简·雷克 :
量化奖励功能的差异。 ICLR公司 2021 2020 【c3】 亚当·格莱夫 , 迈克尔·丹尼斯 , 野鳕鱼 , 内尔·坎特 , 谢尔盖·莱文 , 斯图尔特·罗素 :
对抗性政策:攻击深度强化学习。 ICLR公司 2020 [i8] 亚当·格里夫 , 迈克尔·丹尼斯 , 谢恩·莱格 , 斯图尔特·罗素 , 简·雷克 :
量化奖励功能的差异。 CoRR公司 abs/2006.13900 ( 2020 ) [i7] 佩德罗·弗雷尔 , 亚当·格莱夫 , 萨姆·托耶 , 斯图尔特·罗素 :
德里尔:奖励和模仿学习的诊断环境。 CoRR公司 abs/2012.01365 ( 2020 ) [i6] 埃里克·米绍德 , 亚当·格里夫 , 斯图尔特·罗素 :
了解学习的奖励功能。 CoRR公司 abs/2012.05862 ( 2020 )
2010 – 2019
2019 [i5] 亚当·格莱夫 , 迈克尔·丹尼斯 , 内尔·坎特 , 野鳕鱼 , 谢尔盖·莱文 , 斯图尔特·罗素 :
对抗性政策:攻击深度强化学习。 CoRR公司 abs/1905.10615 ( 2019 ) 2018 [i4] 亚当·格莱夫 , 奥利弗·哈布雷卡 :
多任务最大熵反向强化学习。 CoRR公司 abs/1805.08882 ( 2018 ) [i3] 索伦·明德曼 , 罗欣·沙阿 , 亚当·格莱夫 , 迪伦·哈德菲尔德·梅内尔 :
主动反向奖励设计。 CoRR公司 abs/1809.03060 ( 2018 ) [i2] 亚伦·塔克 , 亚当·格莱夫 , 斯图尔特·罗素 :
视频游戏的反向强化学习。 CoRR公司 abs/1810.10593 ( 2018 ) 2017 【c2】 亚当·格莱夫 , 克里斯蒂安·斯坦鲁肯 :
为Unicode文本制作压缩算法。 DCC公司 2017 : 441 [i1] 亚当·格莱夫 , 克里斯蒂安·斯坦鲁肯 :
为Unicode文本制作压缩算法。 CoRR公司 abs/1701.04047 ( 2017 ) 2016 【c1】 Ionel Gog公司 , 麦尔特·施瓦茨科普夫 , 亚当·格里夫 , 罗伯特·N·M·沃森 , 史蒂文·汉德 :
冰:快速、集中的大规模集群调度。 OSDI公司 2016 : 99-115
合著者索引
![](https://dblp.org/img/cog.dark.24x24.png)