简·雷克
人员信息
SPARQL查询
优化列表
2020年–今天
2024 [公元29年] 亨特·莱特曼 , Vineet Kosaraju葡萄园 , 尤里·伯达 , 哈里森·爱德华兹 , 鲍文·贝克 , 泰迪·李 , 简·雷克 , 约翰·舒尔曼 , 伊利亚·萨茨克沃 , 卡尔·科布 :
让我们逐步验证。 ICLR公司 2024 [公元28年] 科林·伯恩斯 , 帕维尔·伊兹迈洛夫 , 简·亨德里克·基什内尔 , 鲍文·贝克 , 高里奥 , 利奥波德·阿舍布伦纳 , 陈一宁 , 阿德里安·埃科菲 , 玛纳斯·约格勒卡尔 , 简·雷克 , 伊利亚·萨茨克沃 , 杰弗里·吴 :
弱到强泛化:在监管薄弱的情况下激发强大的能力。 ICML公司 2024 [i42] 高里奥 , Tom Dupréla巡回赛 , 亨克·蒂尔曼 , 加布里埃尔·高 , 拉詹·特罗尔 , 亚历克·拉德福德 , 伊利亚·萨茨克沃 , 简·雷克 , 杰弗里·吴 :
缩放和评估稀疏自动编码器。 CoRR公司 abs/2406.04093 ( 2024 ) [i41] 纳特·麦克莱塞 , 雷·迈克尔·波科尼 , 胡安·菲利佩·塞隆-乌里韦 , 伊夫根妮亚·尼提申斯卡娅(Evgenia Nitishinskaya) , 马贾·特雷巴茨 , 简·雷克 :
LLM评论家帮助捕捉LLM错误。 CoRR公司 abs/2407.00215 ( 2024 ) [i40] 简·亨德里克·基什内尔 , 陈一宁 , 哈里·爱德华兹 , 简·雷克 , 纳特·麦克莱塞 , 尤里·伯达 :
验证者-验证者游戏提高了LLM输出的易读性。 CoRR公司 abs/2407.13692 ( 2024 ) 2023 [i39] 亨特·莱特曼 , Vineet Kosaraju葡萄园 , 尤拉·伯达 , 哈里·爱德华兹 , 鲍文·贝克 , 泰迪·李 , 简·雷克 , 约翰·舒尔曼 , 伊利亚·萨茨克沃 , 卡尔·科布 :
让我们逐步验证。 CoRR公司 abs/2305.20050 ( 2023 ) [i38] 科林·伯恩斯 , 帕维尔·伊兹迈洛夫 , 简·亨德里克·基什内尔 , 鲍文·贝克 , 高里奥 , 利奥波德·阿舍布伦纳 , 陈一宁 , 阿德里安·埃科菲 , 玛纳斯·约格勒卡尔 , 简·雷克 , 伊利亚·萨茨克沃 , 吴建福 :
弱到强泛化:在监管薄弱的情况下激发强大的能力。 CoRR公司 abs/2312.09390 ( 2023 ) 2022 [公元27年] 龙欧阳 , 杰弗里·吴 , 徐江 , 迪奥戈·阿尔梅达 , 卡罗尔·L·温赖特 , 帕梅拉·米什金 , 张冲(Chong Zhang) , 桑迪尼·阿加瓦尔 , 卡塔琳娜·斯拉玛 , 亚历克斯·雷 , 约翰·舒尔曼 , 雅各布·希尔顿 , 弗雷泽凯尔顿 , 卢克·米勒 , 麦迪·西蒙斯 , 阿曼达·阿斯克尔 , 彼得·韦林德 , 保罗·F·克里斯蒂亚诺 , 简·雷克 , 瑞恩·洛维 :
训练语言模型,使其遵循带有人类反馈的指令。 NeurIPS公司 2022 [i37] 马修·拉赫茨 , 维克兰·瓦尔马 , 拉马纳·库马尔 , 扎卡里·肯顿 , 谢恩·莱格 , 简·雷克 :
使用人的反馈在3D环境中实现安全深度RL。 CoRR公司 腹肌/2201.08102 ( 2022 ) [公元36年] 龙欧阳 , 吴建福 , 徐江 , 迪奥戈·阿尔梅达 , 卡罗尔·L·温赖特 , 帕梅拉·米什金 , 张冲(Chong Zhang) , 桑迪尼·阿加瓦尔 , 卡塔琳娜·斯拉玛 , 亚历克斯·雷 , 约翰·舒尔曼 , 雅各布·希尔顿 , 弗雷泽凯尔顿 , 卢克·米勒 , 麦迪·西蒙斯 , 阿曼达·阿斯克尔 , 彼得·韦林德 , 保罗·F·克里斯蒂亚诺 , 简·雷克 , 瑞恩·洛维 :
训练语言模型,使其遵循带有人类反馈的指令。 CoRR公司 abs/2203.02155 ( 2022 ) [i35] 桑德斯 , 凯瑟琳·叶 , 吴建福 , 史蒂文·比尔 , 龙欧阳 , 乔纳森·沃德 , 简·雷克 :
帮助人类评估者的自我批评模型。 CoRR公司 腹肌/2206.05802 ( 2022 ) 2021 [j3] Carina E.A.Prunkl公司 , 卡罗琳·阿什赫斯特 , 马库斯·安德荣格 , 海伦娜·韦伯 , 简·雷克 , 阿兰·达福 :
通过更广泛的影响要求将人工智能道德制度化。 自然马赫数。 智力。 三 ( 2 ) : 104-110 ( 2021 ) [公元26年] 亚当·格莱夫 , 迈克尔·丹尼斯 , 谢恩·莱格 , 斯图尔特·罗素 , 简·雷克 :
量化奖励功能的差异。 ICLR公司 2021 [i34] Carina E.A.Prunkl公司 , 卡罗琳·阿什赫斯特 , 马库斯·安德荣格 , 海伦娜·韦伯 , 简·雷克 , 阿兰·达福 :
通过更广泛的影响要求将人工智能道德制度化。 CoRR公司 abs/2106.11039 ( 2021 ) [i33] 马克·陈 , 杰里·特沃雷克 , Heewoo Jun先生 , 袁启明 , 奥利维拉·平托(Henrique Pondéde Oliveira Pinto) , 贾里德·卡普兰 , 哈里·爱德华兹 , 尤里·伯达 , 尼古拉斯·约瑟夫 , 格雷格·布罗克曼 , 亚历克斯·雷 , 劳尔·普里 , 格雷琴·克鲁格 , 迈克尔·彼得罗夫 , 海蒂·赫拉夫 , Girish Sastry女士 , 帕梅拉·米什金 , 布鲁克·陈 , 史考特·葛瑞 , 尼克·赖德 , 米哈伊尔·巴甫洛夫 , 阿莱西亚·鲍尔 , 卢卡斯·凯泽 , 穆罕默德·巴伐利亚 , 克莱门斯·温特 , 菲利普·蒂莱特 , Felipe Petroski如此 , 戴夫·卡明斯 , 马提亚斯·普拉佩特 , Fotios Chantzis公司 , 伊丽莎白·巴恩斯 , 阿里尔·赫伯特·沃斯 , 威廉·赫布根·格斯 , 亚历克斯·尼科尔 , 亚历克斯·佩诺 , 尼古拉斯·特扎克 , 杰唐 , 伊戈尔·巴布什金 , 苏奇尔·巴拉吉 , 山塔努耆那教 , 桑德斯 , 克里斯托弗·黑塞 , 安德鲁·卡尔 , 简·雷克 , 约书亚·阿齐姆 , Vedant Misra公司 , Evan Morikawa先生 , 亚历克·拉德福德 , 马修·奈特 , Miles Brundage公司 , 米拉·穆拉蒂 , 凯蒂·梅尔 , 彼得·韦林德 , 鲍勃·麦克格鲁 , 达里奥·阿莫迪 , 萨姆·麦肯迪什 , 伊利亚·萨茨克沃 , Wojciech Zaremba公司 :
评估经过代码培训的大型语言模型。 CoRR公司 abs/2107.03374 ( 2021 ) [i32] 吴建福 , 龙欧阳 , 丹尼尔·齐格勒 , 尼桑·斯汀农 , 瑞恩·洛维 , 简·雷克 , 保罗·F·克里斯蒂亚诺 :
用人类反馈递归总结书籍。 CoRR公司 abs/2109.10862 ( 2021 ) 2020 [公元25年] 西德哈斯·雷迪 , 安卡·D·德拉甘 , 谢尔盖·莱文 , 谢恩·莱格 , 简·雷克 :
通过评估假设行为来学习人类目标。 ICML公司 2020 : 8020-8029 [公元24年] 斯图尔特·阿姆斯特朗 , 简·雷克 , 劳伦特·奥尔索 , 谢恩·莱格 :
在线学习奖励功能的陷阱。 国际JCAI 2020 : 1592-1600 [i31] 斯图尔特·阿姆斯特朗 , 简·雷克 , 劳伦特·奥尔索 , 谢恩·莱格 :
在线学习奖励功能的陷阱。 CoRR公司 腹肌/2004.13654 ( 2020 ) [i30] 亚当·格莱夫 , 迈克尔·丹尼斯 , 谢恩·莱格 , 斯图尔特·罗素 , 简·雷克 :
量化奖励功能的差异。 CoRR公司 abs/2006.13900 ( 2020 ) [i29] 大卫·克鲁格 , 特根·马哈拉吉 , 简·雷克 :
自动诱导分配转移的隐性激励。 CoRR公司 abs/2009.09153 ( 2020 ) [第28条] 大卫·克鲁格 , 简·雷克 , 欧文·埃文斯 , 约翰·萨尔瓦蒂尔 :
主动强化学习:以代价观察奖励。 CoRR公司 abs/2011.06709 ( 2020 )
2010 – 2019
2019 [c23] Dzmitry Bahdanau公司 , 费利克斯·希尔 , 简·雷克 , 爱德华·休斯 , 赛义德·阿里安·侯赛尼 , Pushmet Kohli公司 , 爱德华·格雷芬斯特特 :
通过奖励建模学习理解目标规范。 ICLR(海报) 2019 [i27] 西德哈斯·雷迪 , 安卡·D·德拉甘 , 谢尔盖·莱文 , 谢恩·莱格 , 简·雷克 :
通过评估假设行为来学习人类目标。 CoRR公司 abs/1912.05652 ( 2019 ) 2018 [注2] 简·雷克 , 马库斯·赫特 :
所罗门诺夫归纳法和AIXI的可计算性。 西奥。 计算。 科学。 716 : 28-49 ( 2018 ) [公元22年] Dzmitry Bahdanau公司 , 费利克斯·希尔 , 简·雷克 , 爱德华·休斯 , Pushmet Kohli公司 , 爱德华·格雷芬斯特特 :
从指令和目标状态中共同学习“什么”和“如何”。 ICLR(车间) 2018 【c21】 博尔贾·伊巴兹 , 简·雷克 , 托比亚斯·波伦 , 杰弗里·欧文 , 谢恩·莱格 , 达里奥·阿莫迪 :
奖励从人类偏好和Atari演示中学习。 NeurIPS公司 2018 : 8022-8034 [公元20年] 简·雷克 , 马蒂亚斯·海兹曼 :
几何不确定性参数。 TACAS(2) 2018 : 266-283 [i26] Dzmitry Bahdanau公司 , 费利克斯·希尔 , 简·雷克 , 爱德华·休斯 , Pushmet Kohli公司 , 爱德华·格雷芬斯特特 :
通过对抗性奖励诱导学习遵循语言指导。 CoRR公司 腹肌/1806.01946 ( 2018 ) [i25] 博尔贾·伊巴兹 , 简·雷克 , 托比亚斯·波伦 , 杰弗里·欧文 , 谢恩·莱格 , 达里奥·阿莫迪 :
奖励从人类偏好和Atari演示中学习。 CoRR公司 abs/1811.06521 ( 2018 ) 【i24】 简·雷克 , 大卫·克鲁格 , 汤姆·艾唯瑞特 , Miljan Martic公司 , 维沙尔·梅尼 , 谢恩·莱格 :
通过奖励建模实现可伸缩的代理对齐:一个研究方向。 CoRR公司 腹肌/1811.07871 ( 2018 ) [第23条] Miljan Martic公司 , 简·雷克 , 安德鲁·特拉斯克 , 马特奥·赫塞尔 , 谢恩·莱格 , Pushmet Kohli公司 :
通过模型拆分扩展共享模型治理。 CoRR公司 abs/1812.05979 ( 2018 ) 2017 [第19条] 肖恩·拉蒙特 , 约翰·阿斯兰尼德斯 , 简·雷克 , 马库斯·赫特 :
适用于Monte-Carlo AI u实现的通用折扣函数。 美国原子能机构 2017 : 1589-1591 [第18条] 约翰·阿斯兰尼德斯 , 简·雷克 , 马库斯·赫特 :
通用强化学习算法:调查与实验。 国际JCAI 2017 : 1403-1410 [第17条] 简·雷克 , 托拉蒂莫尔 , 劳伦特·奥尔索 , 马库斯·赫特 :
关于汤普森抽样和渐近最优性。 国际JCAI 2017 : 4889-4893 [第16条] 保罗·F·克里斯蒂亚诺 , 简·雷克 , 汤姆·B·布朗 , Miljan Martic公司 , 谢恩·莱格 , 达里奥·阿莫迪 :
从人类偏好中深度强化学习。 NIPS公司 2017 : 4299-4307 [i22] 肖恩·拉蒙特 , 约翰·阿斯兰尼德斯 , 简·雷克 , 马库斯·赫特 :
适用于Monte-Carlo AImu实现的通用折扣函数。 CoRR公司 abs/1703.01358 ( 2017 ) 【i21】 约翰·阿斯兰尼德斯 , 简·雷克 , 马库斯·赫特 :
通用强化学习算法:调查与实验。 CoRR公司 abs/1705.10557 ( 2017 ) [i20] 保罗·F·克里斯蒂亚诺 , 简·雷克 , 汤姆·B·布朗 , Miljan Martic公司 , 谢恩·莱格 , 达里奥·阿莫迪 :
从人类偏好中进行深度强化学习。 CoRR公司 abs/1706.03741 ( 2017 ) [i19] 简·雷克 , Miljan Martic公司 , 维多利亚·克拉科夫纳 , 佩德罗·奥尔特加 , 汤姆·艾唯瑞特 , 安德鲁·勒弗朗克 , 劳伦特·奥尔索 , 谢恩·莱格 :
AI安全网格世界。 CoRR公司 abs/1711.09883 ( 2017 ) 2016 [第15条] 丹尼尔·菲兰 , 简·雷克 , 马库斯·赫特 :
速度优先的损失界限和时间复杂性。 AISTATS公司 2016 : 1394-1402 [第14条] 马蒂亚斯·海兹曼 , 丹尼尔·迪奇 , 马吕斯·格雷特斯 , 简·雷克 , 贝蒂姆·穆萨 , 克劳斯·施瓦茨勒 , 安德烈亚斯·波德尔斯基 :
具有双轨证明(竞争贡献)的终极Automizer。 TACAS公司 2016 : 950-953 [第13条] 简·雷克 , 托拉蒂莫尔 , 劳伦特·奥尔索 , 马库斯·赫特 :
汤普森抽样在一般环境下是渐近最优的。 阿拉伯联合酋长国 2016 [第12条] 简·雷克 , 杰西卡泰勒 , 本雅·法伦斯坦 :
真理粒问题的形式化解决方案。 阿拉伯联合酋长国 2016 [i18] 简·雷克 , 托拉蒂莫尔 , 劳伦特·奥尔索 , 马库斯·赫特 :
汤普森抽样在一般环境下是渐近最优的。 CoRR公司 abs/1602.07905 ( 2016 ) [i17] 丹尼尔·菲兰 , 马库斯·赫特 , 简·雷克 :
速度优先的损失界限和时间复杂性。 CoRR公司 abs/1604.03343 ( 2016 ) [i16] 简·雷克 :
勘探潜力。 CoRR公司 腹肌/1609.04994 ( 2016 ) 【i15】 简·雷克 , 杰西卡泰勒 , 本雅·法伦斯坦 :
真理粒问题的形式化解决方案。 CoRR公司 abs/1609.05058 ( 2016 ) [第14条] 简·雷克 , 马蒂亚斯·海兹曼 :
几何不确定性参数。 CoRR公司 abs/1609.05207 ( 2016 ) [i13] 简·雷克 :
非参数一般强化学习。 CoRR公司 abs/1611.08944 ( 2016 ) 2015 [j1] 简·雷克 , 马蒂亚斯·海兹曼 :
线性循环的排名模板。 日志。 方法计算。 科学。 11 ( 1 ) ( 2015 ) [第11条] 玛扬克·达斯瓦尼 , 简·雷克 :
强化学习者幸福感的定义。 AGI公司 2015 : 231-240 [c10] 汤姆·艾唯瑞特 , 简·雷克 , 马库斯·赫特 :
因果和证据决策理论的序贯扩展。 ADT公司 2015 : 205-221 【c9】 简·雷克 , 马库斯·赫特 :
所罗门诺夫归纳法违反了尼科德标准。 中高音 2015 : 349-363 【c8】 简·雷克 , 马库斯·赫特 :
所罗门诺夫归纳法和知识搜索的可计算性。 中高音 2015 : 364-378 【c7】 简·雷克 , 马库斯·赫特 :
坏的普遍先验和最优概念。 COLT公司 2015 : 1244-1259 【c6】 马蒂亚斯·海兹曼 , 丹尼尔·迪奇 , 简·雷克 , 贝蒂姆·穆萨 , 安德烈亚斯·波德尔斯基 :
带阵列插值的终极自动分析器-(竞争贡献)。 TACAS公司 2015 : 455-457 【c5】 简·雷克 , 马库斯·赫特 :
关于AIXI的可计算性。 阿拉伯联合酋长国 2015 : 464-473 [i12] 玛扬克·达斯瓦尼 , 简·雷克 :
强化学习者幸福感的定义。 CoRR公司 abs/1505.04497 ( 2015 ) [i11] 汤姆·艾唯瑞特 , 简·雷克 , 马库斯·赫特 :
因果和证据决策理论的序贯扩展。 CoRR公司 abs/1506.07359 ( 2015 ) [i10] 简·雷克 , 马库斯·赫特 :
所罗门诺夫归纳法违反了尼科德标准。 CoRR公司 abs/1507.04121 ( 2015 ) [第九章] 简·雷克 , 马库斯·赫特 :
所罗门诺夫归纳法和知识搜索的可计算性。 CoRR公司 abs/1507.04124 ( 2015 ) [i8] 简·雷克 , 马库斯·赫特 :
坏的普遍先验和最优概念。 CoRR公司 abs/1510.04931 ( 2015 ) [i7] 简·雷克 , 马库斯·赫特 :
关于AIXI的可计算性。 CoRR公司 abs/1510.05572 ( 2015 ) 2014 【c4】 简·雷克 , 马库斯·赫特 :
无限振荡的鞅。 中高音 2014 : 321-335 【c3】 简·雷克 , 马蒂亚斯·海兹曼 :
线性循环的排名模板。 TACAS公司 2014 : 172-186 【c2】 简·雷克 , 阿什什·蒂瓦里 :
多项式Lasso程序的合成。 VMCAI公司 2014 : 434-452 [i6] 简·雷克 , 马蒂亚斯·海兹曼 :
线性循环的排名模板。 CoRR公司 abs/1401.5338 ( 2014 ) [i5] 马蒂亚斯·海兹曼 , Jochen Hoenicke公司 , 简·雷克 , 安德烈亚斯·波德尔斯基 :
线性套索程序的线性排名。 CoRR公司 abs/1401.5347 ( 2014 ) [i4] 简·雷克 :
线性拉索程序的秩函数综合。 CoRR公司 abs/1401.5351 ( 2014 ) [i3] 简·雷克 , 马蒂亚斯·海兹曼 :
几何级数作为线性Lasso程序的非终止参数。 CoRR公司 abs/1405.4413 ( 2014 ) [i2] 简·雷克 , 马库斯·赫特 :
无限振荡的鞅。 CoRR公司 abs/1408.3169 ( 2014 ) 2013 【c1】 马蒂亚斯·海兹曼 , Jochen Hoenicke公司 , 简·雷克 , 安德烈亚斯·波德尔斯基 :
线性套索程序的线性排名。 ATVA公司 2013 : 365-380 [i1] 简·雷克 , 阿什什·蒂瓦里 :
多项式Lasso程序的合成。 CoRR公司 腹肌/1311.4046 ( 2013 )