停止战争！

Остановите войну!

对于科学家来说：

默认搜索操作

组合dblp搜索
作者搜索
场馆搜索
出版物搜索

询问他人

亚当·格莱夫

>主页 >珀森斯

人员信息

优化列表

优化激活！

放大了??属于??记录

查看优化列表

导出优化列表为

显示全部 ??记录

2020年–今天

请参阅常见问题解答

出版物列表中颜色的含义是什么？

2024
[i20]
- 看法
  - 通过DOI的电子版（开放访问）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2402-11777
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2402-11777
佩德罗·弗雷尔,成成潭,亚当·格莱夫,丹·亨德里克斯,斯科特·埃蒙斯:
在语言模型嵌入中揭示潜在的人类福祉。 CoRR公司 abs/2402.11777(2024)
2023
【c6】
- 看法
  - 电子版@mlr.press（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/icml/SkalseF0AG23
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/icml/SkalseF0AG23
乔尔·马克斯·维克托·斯科尔斯,马修·法鲁吉娅·罗伯茨,斯图尔特·罗素,亚历山德罗·阿巴特,亚当·格莱夫:
策略优化的不变性和奖励学习的部分可识别性。 ICML公司 2023:32033-32058
【c5】
- 看法
  - 电子版@mlr.press（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/icml/WangGTPBMDDPL023
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/icml/WangGTPBMDDPL023
Tony Tong Wang（托尼·王）,亚当·格莱夫,汤姆·曾荫权,凯林·佩林,诺拉·贝尔罗斯,约瑟夫·米勒,迈克尔·D·丹尼斯,段亚文,维克托·波格雷布尼亚克,谢尔盖·莱文,斯图尔特·罗素:
对抗性政策击败了超人围棋AI。 ICML公司 2023:35655-35739
[i19]
- 看法
  - 通过DOI的电子版（开放访问）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2301-03652
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2301-03652
列夫·麦金尼,段亚文,大卫·克鲁格,亚当·格莱夫:
学习奖励功能的脆弱性。 CoRR公司 abs/2301.03652(2023)
[i18]
- 看法
  - 通过DOI的电子版（开放访问）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/cor/abs-2309-15257
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2309-15257
约阿尔·斯科尔斯,露西·法尼克,苏梅特·拉梅什·莫特瓦尼,埃里克·詹纳,亚当·格莱夫,亚历山德罗·阿巴特:
STARC：量化奖励功能之间差异的通用框架。 CoRR公司 abs/2309.15257(2023)
[i17]
- 看法
  - 通过DOI的电子版（开放访问）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 轴颈/corr/abs-2312-14302
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2312-14302
凯林·佩林,穆罕默德·陶费奎,米查尔·扎贾克,尤安·麦克莱恩,亚当·格莱夫:
开发新型GPT-4 API。 CoRR公司 abs/2312.14302(2023)
2022
[i16]
- 看法
  - 通过DOI的电子版（开放访问）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2203-07472
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2203-07472
亚当·格莱夫,杰弗里·欧文:
语言奖励模型的不确定性估计。 CoRR公司腹肌/2203.07472(2022)
【i15】
- 看法
  - 通过DOI的电子版（开放访问）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2203-07475
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2203-07475
约阿尔·斯科尔斯,马修·法鲁吉亚·罗贝茨,斯图尔特·罗素,亚历山德罗·阿巴特,亚当·格莱夫:
策略优化的不变性和奖励学习的部分可识别性。 CoRR公司 abs/2203.07475(2022)
[第14条]
- 看法
  - 通过DOI的电子版（开放访问）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2203-11409
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2203-11409
亚当·格莱夫,萨姆·托耶:
最大因果熵逆强化学习入门。 CoRR公司 abs/2203.11409(2022)
[i13]
- 看法
  - 通过DOI的电子版（开放访问）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2203-13553
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2203-13553
埃里克·詹纳,亚当·格莱夫:
预处理奖励函数以实现可解释性。 CoRR公司 abs/2203.13553(2022)
[i12]
- 看法
  - 通过DOI的电子版（开放访问）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2208-05083
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2208-05083
帕维尔·齐姆平,亚当·格莱夫:
通过基于人口的培训降低可开发性。 CoRR公司 abs/2208.05083(2022)
[i11]
- 看法
  - 通过DOI的电子版（开放访问）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2208-09570
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2208-09570
埃里克·詹纳,赫尔克·范·霍夫,亚当·格莱夫:
MDPs上的微积分：作为梯度的潜力塑造。 CoRR公司 abs/2208.09570(2022)
[i10]
- 看法
  - 通过DOI的电子版（开放访问）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2211-00241
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2211-00241
Tony Tong Wang（托尼·王）,亚当·格莱夫,诺拉·贝尔罗斯,汤姆·曾荫权,约瑟夫·米勒,迈克尔·D·丹尼斯,段亚文,维克托·波格雷布尼亚克,谢尔盖·莱文,斯图尔特·罗素:
对抗性政策击败专业级围棋AI。 CoRR公司 abs/2211.00241(2022)
[第九章]
- 看法
  - 通过DOI的电子版（开放访问）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2211-11972
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2211-11972
亚当·格莱夫,穆罕默德·陶费奎,胡安·罗卡蒙德,埃里克·詹纳,史蒂芬·H·王,萨姆·托耶,马克西米利安·厄内斯特斯,诺拉·贝尔罗斯,斯科特·埃蒙斯,斯图尔特·罗素:
模仿：干净的模仿学习工具。 CoRR公司 abs/2211.11972(2022)
2021
[j1]
- 看法
  - 电子版@jmlr.org（开放访问）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - 期刊/jmlr/RaffinHGKED21
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/jmlr/RaffinHGKED21
安东宁·拉芬,阿什利·希尔,亚当·格莱夫,安西·卡内维斯托,马克西米利安·厄内斯特斯,诺亚·多尔曼:
稳定的基线3：可靠的强化学习实现。 J.马赫。学习。物件。 22:268:1-268:8(2021)
【c4】
- 看法
  - 电子版@openreview.net（开放访问）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/iclr/Gleave0LRL21
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/iclr/Gleave0LRL21
亚当·格莱夫,迈克尔·丹尼斯,谢恩·莱格,斯图尔特·罗素,简·雷克:
量化奖励功能的差异。 ICLR公司 2021
2020
【c3】
- 看法
  - 电子版@openreview.net（开放访问）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/iclr/GleaveDWKLR20
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/iclr/GleaveDWKLR20
亚当·格莱夫,迈克尔·丹尼斯,野鳕鱼,内尔·坎特,谢尔盖·莱文,斯图尔特·罗素:
对抗性政策：攻击深度强化学习。 ICLR公司 2020
[i8]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 期刊/corr/abs-2006-13900
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2006-13900
亚当·格里夫,迈克尔·丹尼斯,谢恩·莱格,斯图尔特·罗素,简·雷克:
量化奖励功能的差异。 CoRR公司 abs/2006.13900(2020)
[i7]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 期刊/corr/abs-2012-01365
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2012-01365
佩德罗·弗雷尔,亚当·格莱夫,萨姆·托耶,斯图尔特·罗素:
德里尔：奖励和模仿学习的诊断环境。 CoRR公司 abs/2012.01365(2020)
[i6]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 期刊/corr/abs-2012-05862
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2012-05862
埃里克·米绍德,亚当·格里夫,斯图尔特·罗素:
了解学习的奖励功能。 CoRR公司 abs/2012.05862(2020)

2010 – 2019

请参阅常见问题解答

出版物列表中颜色的含义是什么？

2019
[i5]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 期刊/corr/abs-1905-10615
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-1905-10615
亚当·格莱夫,迈克尔·丹尼斯,内尔·坎特,野鳕鱼,谢尔盖·莱文,斯图尔特·罗素:
对抗性政策：攻击深度强化学习。 CoRR公司 abs/1905.10615(2019)
2018
[i4]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 日记账/corr/abs-1805-08882
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-1805-08882
亚当·格莱夫,奥利弗·哈布雷卡:
多任务最大熵反向强化学习。 CoRR公司 abs/1805.08882(2018)
[i3]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 日记账/corr/abs-1809-03060
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-1809-03060
索伦·明德曼,罗欣·沙阿,亚当·格莱夫,迪伦·哈德菲尔德·梅内尔:
主动反向奖励设计。 CoRR公司 abs/1809.03060(2018)
[i2]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 期刊/corr/abs-1810-10593
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-1810-10593
亚伦·塔克,亚当·格莱夫,斯图尔特·罗素:
视频游戏的反向强化学习。 CoRR公司 abs/1810.10593(2018)
2017
【c2】
- 看法
  权限控制：
- 出口记录
  dblp键：
  - conf/dcc/GleaveS17
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/dcc/GleaveS17网址
亚当·格莱夫,克里斯蒂安·斯坦鲁肯:
为Unicode文本制作压缩算法。 DCC公司 2017:441
[i1]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 日记账/corr/GleaveS17
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/GreeaveS17
亚当·格莱夫,克里斯蒂安·斯坦鲁肯:
为Unicode文本制作压缩算法。 CoRR公司 abs/1701.04047(2017)
2016
【c1】
- 看法
- 出口记录
  dblp键：
  - conf/osdi/GogSGWH16
- 询问他人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/osdi/GogSGWH16
Ionel Gog公司,麦尔特·施瓦茨科普夫,亚当·格里夫,罗伯特·N·M·沃森,史蒂文·汉德:
冰：快速、集中的大规模集群调度。 OSDI公司 2016:99-115

合著者索引

请参阅常见问题解答

服务

管理网站设置

为了保护您的隐私，所有依赖浏览器外部API调用的功能都是默认情况下关闭。你需要选择加入，让他们变得活跃。此处的所有设置将在您的web浏览器中存储为cookie。有关更多信息查看我们的F.A.Q。