默认搜索操作

组合dblp搜索
作者搜索
场馆搜索
出版物搜索

问别人

拉斐尔·拉斐洛夫

>主页 >珀森斯

人员信息

SPARQL查询

优化列表

优化激活！

放大??属于??记录

查看优化列表

导出优化列表为

显示全部 ??记录

2020年–今天

请参阅常见问题解答

出版物列表中颜色的含义是什么？

2024
[第16条]
- 看法
  权限控制：
- 出口记录
  dblp键：
  - conf/acl/ParkREF24
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/acl/ParkREF24
瑞安·帕克,拉斐尔·拉斐洛夫,斯特凡诺·埃蒙,切尔西芬兰人:
直接偏好优化中质量的分离长度。 ACL（调查结果） 2024:4998-5017
[第15条]
- 看法
  - 电子版@openreview.net（开放访问）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/iclr/HejnaRSFNKS24
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/iclr/HejnaRSFNKS24
乔伊·海纳,拉斐尔·拉斐洛夫,哈拉希·西科奇,切尔西芬兰人,斯科特·尼库姆,W.布拉德利·诺克斯,多尔萨·萨迪格:
对比偏好学习：从人的反馈中学习，而不是强化学习。 ICLR公司 2024
[第14条]
- 看法
  - 电子版@openreview.net（开放访问）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/icr/MichellRSFM24文件
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/iclr/MitchellRSFM24
埃里克·米歇尔,拉斐尔·拉斐洛夫,阿奇特·夏尔马,切尔西芬兰人,克里斯托弗·曼宁:
使用小型语言模型微调大型语言模型的仿真器。 ICLR公司 2024
[第13条]
- 看法
  - 电子版@openreview.net（开放访问）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/iclr/NicksMRSMFE24
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/icr/NicksMRSMFE24
夏洛特·尼克斯,埃里克·米歇尔,拉斐尔·拉斐洛夫,阿奇特·夏尔马,克里斯托弗·曼宁,切尔西芬兰人,斯特凡诺·埃蒙:
语言模型检测器很容易进行优化。 ICLR公司 2024
[第12条]
- 看法
  - 电子版@openreview.net（开放访问）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/icml/TajwarSSR0XEFK24
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/icml/TajwarSSR0XEFK24
法希姆·塔伊瓦尔,阿尼凯特·辛格,阿奇特·夏尔马,拉斐尔·拉斐洛夫,杰夫·施耐德,谢腾阳,斯特凡诺·埃蒙,切尔西芬兰人,阿维拉尔·库马尔:
LLM的偏好微调应利用次优的政策内数据。 ICML公司 2024
[c11]
- 看法
  权限控制：
- 出口记录
  dblp键：
  - conf/icra/ONeillRMGPLPGMJ24
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/icra/ONeillRMGPLPGMJ24网站
艾比·奥尼尔,阿卜杜勒·拉赫曼,阿比拉姆·马杜库里,阿披实古普塔,阿布谢克·帕达尔卡尔,亚伯拉罕·李,橡子池,阿格里姆·古普塔,阿贾伊·曼德勒卡,阿金基亚·贾因,艾伯特·东,亚历克斯·贝利,亚历山大·赫尔佐格,亚历克斯·伊尔潘,亚历山大·卡扎茨基,阿南特雷,安奇特·古普塔,安德鲁·王,阿尼凯特·辛格,动漫Garg,阿尼鲁达·坎巴维,谢安妮（Annie Xie）,安东尼·布罗汉,安东宁·拉芬,阿奇特·夏尔马,阿雷菲·雅法利,阿尔汉·贾因,阿什温·巴拉克里什纳,阿扎安·瓦希德,本·伯吉斯-利默里克,比姆琼·金,伯恩哈德·舍尔科夫,布莱克·沃尔夫,布莱恩·伊切特,策武路,查尔斯·徐,夏洛特·勒,切尔西芬兰人,陈旺,徐晨峰,程驰,黄晨光,克里斯汀·陈,克里斯托弗·阿吉亚,Chuer锅,《楚苑赋》,科林·德文,徐丹飞,丹尼尔·莫顿,丹尼·德里斯,Daphne Chen（达芙妮·陈）,迪帕克·帕塔克,德鲁夫·沙阿,迪特尔·比切勒,迪内什·贾亚拉曼,德米特里·卡拉什尼科夫,多尔萨·萨迪格,爱德华·约翰斯,伊桑·保罗·福斯特,刘芳晨,费德里科·塞奥拉,费霞,赵飞宇,弗里克·斯图尔普,周高岳,Gaurav S.Sukhatme公司,乔塔姆·萨尔霍特拉,葛燕,吉尔伯特·冯,朱利奥·希亚维,格伦·贝塞斯,格雷戈里·卡恩,王冠志,郝苏,豪舒芳,郝晨石,恒辉宝,海尼·本·阿莫尔,亨利克·克里斯滕森,Hiroki Furuta公司,霍默·沃克,红洁芳,Huy哈,伊戈尔·莫达奇,伊里贾·拉多萨沃维奇,伊莎贝尔·利尔,杰基·梁,贾德·阿布·查克拉,Jaehyung Kim先生,杰明·德雷克,简·彼得斯,简·施耐德,茉莉花Hsu,珍妮特·波赫,杰弗里·宾厄姆,杰弗里·吴,高延森（Jensen Gao）,胡嘉恒,吴家军,吴嘉林,孙建凯,罗建兰,顾佳元,谭杰,Jihoon噢,吴吉米,景培路,杨静云,吉坦德拉·马利克,乔·西尔维里奥,乔伊·海纳,乔纳森·布希尔,乔纳森·汤普森,乔纳森·杨,若尔迪·萨尔瓦多,约瑟夫·利姆,Junhyek Han先生,王开元,卡尼什卡·饶,卡尔·佩奇,卡罗尔·豪斯曼,基根Go,基尔萨娜·戈帕拉克里什南,肯·戈德伯格,肯德拉·拜恩,肯尼斯·奥斯陆,Kento Kawaharazuka公司,凯文·布莱克,凯文·林,张学敏,基亚娜·埃萨尼,基兰·莱卡拉,柯斯蒂·埃利斯,克里斯汉·拉纳,克里希南·斯里尼瓦桑,宽芳,库纳尔·普拉塔普·辛格,曾国浩,Kyle Hatch公司,徐凯乐（Kyle Hsu）,劳伦特·伊蒂,Lawrence Yuliang Chen陈运良,勒勒·平托,李飞飞,利亚姆·谭,林熙Jim Fan,莱昂内尔·奥特,丽莎李,卢卡·魏斯,Magnum Chen公司,马里恩·勒珀特,马吕斯·梅梅尔,Masayoshi Tomizuka先生,玛莎·伊奇纳,马特奥·瓜曼·卡斯特罗,马克斯·斯佩罗,马克西米利安·杜,迈克尔·安,迈克尔·C·叶,张明通,明玉鼎,Minho Heo公司,莫汉·库马尔·斯里拉马,莫希特·夏尔马,穆金金（Moo Jin Kim）,金泽直崎,尼克拉斯·汉森,尼古拉斯·希斯,尼基尔·乔希,尼科·苏恩德豪夫,刘宁（Ning Liu）,诺曼·迪·帕洛,努尔·穆罕默德（Mahi）Shafiullah,Oier Mees公司,奥利弗·克罗默,奥斯伯特·巴斯塔尼,潘纳格·桑科蒂,帕特里克·特里·米勒,帕特里克·尹,保罗·沃尔哈特,彭旭,彼得·大卫·法根,彼得·米特拉诺,皮埃尔·塞尔马内特,彼得·阿比尔,Priya Sundaresan公司,陈秋雨,全旺,拉斐尔·拉斐洛夫,冉天,里亚·多西,罗伯托·马丁·马丁,罗汉·拜加尔,罗萨里奥·斯卡利泽,罗斯·亨德里克斯,罗伊·林,钱润佳,张若翰,罗素·门多卡,鲁塔夫·沙阿,瑞恩·霍克,瑞安·朱利安,塞缪尔·巴斯塔曼特,肖恩·基尔马尼,谢尔盖·莱文,单林,雪利·摩尔,Shikhar铁路,希文·达斯,Shubham D.Sonawani公司,宋淑然,徐思纯,悉达恩·哈尔达尔,Siddharth Karamcheti公司,西蒙·阿德博拉,西蒙·吉斯特,索卢什·纳西里亚尼,斯特凡·沙尔,斯特凡·韦尔克,斯蒂芬·田,Subramanian Ramamoorthy语,苏迪普·达萨里,苏尼尔·贝尔哈勒,成宰公园,苏拉杰·奈尔,苏维·米尔昌达尼,Takayuki Osa公司,坦马·古普塔,原田达也,松岛达也,特德·肖,托马斯·科勒,天河余,丁天力,托多·达夫切夫,托尼·赵,特拉维斯·阿姆斯特朗,特雷弗·达雷尔,Trinity Chung公司,维迪·贾恩,文森特·范胡克,魏战,周文轩,沃尔夫拉姆·伯加德,席晨,王晓龙,朱兴浩,信阳耿,刘西元,徐良伟,李宣林,姚璐,叶成·杰森·马,金业镇,叶夫根·切博塔,周一凡,朱一峰,吴依林,应旭,王一轩,约纳坦·比斯克,Yoonyong Cho,李永勋,崔宇晨,岳曹,吴岳桦,玉津堂,朱玉可（Yuke Zhu）,张云初,姜云凡,李云双,李云珠,岩川优介,松本裕隆（Yutaka Matsuo）,马泽汉,卓旭,子晨Jeff Cui,Zichen Zhang（张子晨）,Zipeng Lin公司:
开放X体现：机器人学习数据集和RT-X模型：开放X体现协作。 ICRA公司 2024:6892-6903
[第10条]
- 看法
  - 电子版@mlr.press（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/l4dc/KolevRH0F24
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/l4dc/KolevRH0F24
维克托·科列夫,拉斐尔·拉斐洛夫,Kyle Hatch公司,吴家军,切尔西芬兰人:
使用保守世界模型进行有效的模仿学习。 L4DC（L4DC） 2024:1777-1790
[第28条]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2401-03306
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2401-03306
拉斐尔·拉斐洛夫,Kyle Hatch公司,维克托·科列夫,约翰·D·马丁,玛丽亚诺·菲利普,切尔西芬兰人:
MOTO：基于模型的机器人学习的离线预训练到在线微调。 CoRR公司 abs/2401.03306(2024)
[i27]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2402-11411
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2402-11411
周益阳,崔晨航,拉斐尔·拉斐洛夫,切尔西芬兰人,姚华秀:
通过偏好微调调整视觉大语言模型中的模式。 CoRR公司 abs/2402.11411(2024)
[i26]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2403-19159
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2403-19159
瑞恩·帕克,拉斐尔·拉斐洛夫,斯特凡诺·埃蒙,切尔西芬兰人:
直接偏好优化中质量的分离长度。 CoRR公司 abs/2403.19159(2024)
[i25]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2404-01413
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2404-01413
马蒂亚斯·戈斯特格拉斯,瑞兰·谢弗,Apratim戴,拉斐尔·拉斐洛夫,亨利·斯莱特,约翰·休斯,托马斯·科巴克,拉贾什里·阿格拉瓦尔,Dhruv Pai公司,安德烈·格罗莫夫,丹尼尔·罗伯茨,杨迪（Diyi Yang）,大卫·多诺霍,桑米·科耶霍:
模型崩溃不可避免吗？通过积累真实和合成数据打破递归的诅咒。 CoRR公司 abs/2404.01413(2024)
[i24]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2404-12358
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2404-12358
拉斐尔·拉斐洛夫,乔伊·海纳,瑞恩·帕克,切尔西芬兰人:
发件人第页至Q^*：你的语言模型秘密地是一个Q函数。 CoRR公司 abs/2404.12358(2024)
[第23条]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2404-14313
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2404-14313
Jan-Philipp Fränken先生,埃里克·泽利克曼,拉斐尔·拉斐洛夫,卡尼什克·甘地,托比亚斯·格斯滕贝格,诺亚·D·古德曼:
自我监督与相互信息的一致性：学习在没有偏好标签的情况下遵循原则。 CoRR公司腹肌/2404.14313(2024)
[i22]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2404-14367
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2404-14367
法希姆·塔伊瓦尔,阿尼凯特·辛格,阿奇特·夏尔马,拉斐尔·拉斐洛夫,杰夫·施耐德,谢腾阳,斯特凡诺·埃蒙,切尔西芬兰人,阿维拉尔·库马尔:
LLM的偏好微调应利用次优的政策内数据。 CoRR公司 abs/2404.14367(2024)
【i21】
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2405-13193
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2405-13193
维克托·科列夫,拉斐尔·拉斐洛夫,Kyle Hatch公司,吴家军,切尔西芬兰人:
使用保守世界模型进行有效的模拟学习。 CoRR公司 abs/2405.13193(2024)
[i20]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2405-19107
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2405-19107
皮埃尔·哈维·里奇蒙,汤云浩,丹尼尔·郭,丹尼尔·卡兰德里洛,穆罕默德·盖什拉希·阿扎尔,拉斐尔·拉斐洛夫,贝尔纳多·阿维拉·皮雷斯,尤金·塔拉索夫,卢卡斯·斯潘格,威尔·埃尔斯沃思,Aliaksei Severyn公司,乔纳森·马林森,利奥·沙尼,吉尔·沙米尔,里沙布·乔希,刘天奇,雷米·穆诺斯,比拉尔·皮奥:
大型语言模型对齐的离线规则强化学习。 CoRR公司 abs/2405.19107(2024)
[i19]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2406-01013
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2406-01013
艾哈迈德·艾哈迈德,拉斐尔·拉斐洛夫,斯蒂芬·沙尔科夫,李雪晨,桑米·科耶霍:
可扩展集成用于缓解奖励过度优化。 CoRR公司腹肌/2406.01013(2024)
[i18]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2406-02900
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2406-02900
拉斐尔·拉斐洛夫,亚斯旺斯·奇特普,瑞恩·帕克,哈拉希·西科奇,乔伊·海纳,W.布拉德利·诺克斯,切尔西芬兰人,斯科特·尼库姆:
直接对齐算法中奖励模型过度优化的比例律。 CoRR公司 abs/2406.02900(2024)
[i17]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2406-09246
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2406-09246
穆金金（Moo Jin Kim）,卡尔·佩奇,Siddharth Karamcheti公司,特德·肖,阿什温·巴拉克里什纳,苏拉杰·奈尔,拉斐尔·拉斐洛夫,伊桑·保罗·福斯特,格雷斯·林,潘纳·桑科蒂,全武,托马斯·科勒,本杰明·伯奇菲尔,俄罗斯·特德雷克,多尔萨·萨迪格,谢尔盖·莱文,珀西·梁,切尔西芬兰人:
OpenVLA：一个开源的视觉语言行动模型。 CoRR公司 abs/2406.09246(2024)
[i16]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2407-04842
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2407-04842
陈兆润,杜一超,《紫宸文》,周益阳,崔晨航,翁镇镇,涂浩琴,王朝琦（音译）,郑伟彤,黄庆兰,陈灿宇,叶庆浩,朱志宏,张玉清（Yuqing Zhang）,周嘉伟,赵卓凯,拉斐尔·拉斐洛夫,切尔西芬兰人,姚华秀:
MJ-Bench：你的多模态奖励模型真的能很好地判断文本到图像生成吗？ CoRR公司 abs/2407.04842(2024)
【i15】
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2407-17387
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2407-17387
路易斯·卡斯特里奥,内森·里尔,拉斐尔·拉斐洛夫,Jan-Philipp Fränken先生,切尔西芬兰人:
人格：多元对齐的可复制试验台。 CoRR公司 abs/2407.17387(2024)
[第14条]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2408-07199
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2408-07199
普拉纳夫·普塔,埃德蒙·米尔斯,纳曼·加格,苏梅特·莫特瓦尼,切尔西芬兰人,迪维安什·加格,拉斐尔·拉斐洛夫:
Agent Q：自主AI Agent的高级推理和学习。 CoRR公司 abs/2408.07199(2024)
[i13]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2408-08441
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2408-08441
拉斐尔·拉斐洛夫,Kyle Hatch公司,阿尼凯特·辛格,劳拉·史密斯,阿维拉尔·库马尔,伊利亚·科斯特里科夫,菲利普·汉森（Philippe Hansen-Estruch）,维克托·科列夫,菲利普·鲍尔,吴家军,切尔西芬兰人,谢尔盖·莱文:
D5RL：用于数据驱动的深度强化学习的多种数据集。 CoRR公司 abs/2408.08441(2024)
2023
【c9】
- 看法
  - 电子版@mlr.press（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/corl/Rafailov香港MPF23
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/corl/Rafailov香港MPF23
拉斐尔·拉斐洛夫,Kyle Beltran舱口,维克托·科列夫,约翰·D·马丁,玛丽亚诺·菲利普,切尔西芬兰人:
MOTO：离线预训练到在线微调，用于基于模型的机器人学习。 CoRL公司 2023:3654-3671
【c8】
- 看法
  权限控制：
- 出口记录
  dblp键：
  - conf/emnlp/TianMZSRYFM23
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/emnlp/TianMZSRYFM23
凯瑟琳·田,埃里克·米歇尔,周爱伦（Allan Zhou）,阿奇特·夏尔马,拉斐尔·拉斐洛夫,姚华秀,切尔西芬兰人,克里斯托弗·曼宁:
只需要求校准：从语言模型中提取校准置信度分数的策略——与人的反馈进行微调。 EMNLP公司 2023:5433-5442
【c7】
- 看法
  - 电子版@mlr.press（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/l4dc/HatchERYSLF23
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/l4dc/HatchERYSLF23
Kyle Beltran舱口,本杰明·艾森巴赫,拉斐尔·拉斐洛夫,天河余,鲁斯兰·萨拉库丁诺夫,谢尔盖·莱文,切尔西芬兰人:
基于对比示例的控制。 L4DC（L4DC） 2023:155-169
【c6】
- 看法
  - 电子版@nips.cc（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/nips/RafailovSMMEF23型
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/nips/RafailovSMMEF23
拉斐尔·拉斐洛夫,阿奇特·夏尔马,埃里克·米歇尔,克里斯托弗·曼宁,斯特凡诺·埃蒙,切尔西芬兰人:
直接偏好优化：你的语言模型是一个秘密的奖励模型。 NeurIPS公司 2023
[i12]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2305-14975
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2305-14975
凯瑟琳·田,埃里克·米歇尔,艾伦·周,阿奇特·夏尔马,拉斐尔·拉斐洛夫,姚华秀,切尔西芬兰人,克里斯托弗·曼宁:
只需要求校准：从经过人为反馈微调的语言模型中提取校准置信度分数的策略。 CoRR公司 abs/2305.14975(2023)
[i11]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2305-18290
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2305-18290
拉斐尔·拉斐洛夫,阿奇特·夏尔马,埃里克·米歇尔,斯特凡诺·埃蒙,克里斯托弗·曼宁,切尔西芬兰人:
直接偏好优化：你的语言模型是一个秘密的奖励模型。 CoRR公司 abs/2305.18290(2023)
[i10]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2307-13101
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2307-13101
Kyle Hatch公司,本杰明·艾森巴赫,拉斐尔·拉斐洛夫,天河余,鲁斯兰·萨拉库丁诺夫,谢尔盖·莱文,切尔西芬兰人:
基于对比示例的控制。 CoRR公司 abs/2307.13101(2023)
[第九章]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/cor/abs-2310-08558
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2310-08558
Max Sobol马克,阿奇特·夏尔马,法希姆·塔伊瓦尔,拉斐尔·拉斐洛夫,谢尔盖·莱文,切尔西芬兰人:
在线RL离线再培训：解耦政策学习以缓解探索偏差。 CoRR公司 abs/2310.08558(2023)
[i8]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-230-12962
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-230-12962
埃里克·米歇尔,拉斐尔·拉斐洛夫,阿奇特·夏尔马,切尔西芬兰人,克里斯托弗·曼宁:
使用小型语言模型微调大型语言模型的仿真器。 CoRR公司 abs/2310.12962(2023)
[i7]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-230-13639
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-230-13639
乔伊·海纳,拉斐尔·拉斐洛夫,哈拉希·西科奇,切尔西芬兰人,斯科特·尼库姆,W.布拉德利·诺克斯,多萨·萨迪:
对比偏好学习：在没有RL的情况下从人类反馈中学习。 CoRR公司 abs/2310.13639(2023)
[i6]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2311-12908
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2311-12908
布拉姆·华莱士,梅花党,拉斐尔·拉斐洛夫,周林琦（Linqi Zhou）,阿伦·卢,Senthil Purushwalkam公司,斯特凡诺·埃尔蒙,熊才明,沙菲克·乔蒂,尼基尔·奈克:
使用直接偏好优化的扩散模型对齐。 CoRR公司 abs/2311.12908(2023)
2022
【c5】
- 看法
  - 电子版@openreview.net（开放访问）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/iclr/HsuKR0F22
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/iclr/HsuKR0F22
徐凯乐（Kyle Hsu）,穆金金（Moo Jin Kim）,拉斐尔·拉斐洛夫,吴家军,切尔西芬兰人:
基于视觉的机械手也需要从手上看到。 ICLR公司 2022
[i5]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2203-12677
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2203-12677
徐凯乐（Kyle Hsu）,穆金金（Moo Jin Kim）,拉斐尔·拉斐洛夫,吴家军,切尔西芬兰人:
基于视觉的操纵器也需要从手上观察。 CoRR公司 abs/2203.12677(2022)
2021
【c4】
- 看法
  - 电子版@mlr.press（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/icml/MitchellRPLF21
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/icml/MitchellRPLF21
埃里克·米歇尔,拉斐尔·拉斐洛夫,薛斌鹏,谢尔盖·莱文,切尔西芬兰人:
具有优势加权的离线元强化学习。 ICML公司 2021:7780-7791
【c3】
- 看法
  - 电子版@mlr.press（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/l4dc/RafailovYRF21
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/l4dc/RafailovYRF21
拉斐尔·拉斐洛夫,天河余,阿拉文德·拉杰斯瓦兰,切尔西芬兰人:
利用潜在空间模型从图像中进行离线强化学习。 L4DC（L4DC） 2021:1154-1168
【c2】
- 看法
  - 电子版@neurips.cc（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/nips/RafailovYRF21
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/nips/RafailovYRF21
拉斐尔·拉斐洛夫,天河余,阿拉文德·拉杰斯瓦兰,切尔西芬兰人:
使用变分模型进行视觉对抗模拟学习。 NeurIPS公司 2021:3016-3028
【c1】
- 看法
  - 电子版@neurips.cc（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/nips/YuKRRLF21
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/nips/YuKRRLF21
天河余,阿维拉尔·库马尔,拉斐尔·拉斐洛夫,阿拉文德·拉杰斯瓦兰,谢尔盖·莱文,切尔西芬兰人:
COMBO：基于保守离线模型的策略优化。 NeurIPS公司 2021:28954-28967
[i4]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 期刊/corr/abs-2102-08363
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2102-08363
余天和,阿维拉尔·库马尔,拉斐尔·拉斐洛夫,阿拉文德·拉杰斯瓦兰,谢尔盖·莱文,切尔西芬兰人:
COMBO：基于保守离线模型的策略优化。 CoRR公司 abs/2102.08363(2021)
[i3]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 日记账/corr/abs-2107-08829
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2107-08829
拉斐尔·拉斐洛夫,天河余,阿拉文德·拉杰斯瓦兰,切尔西芬兰人:
使用变分模型进行视觉对抗模拟学习。 CoRR公司 abs/2107.08829(2021)
2020
[i2]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 期刊/corr/abs-2008-06043
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2008-06043
埃里克·米歇尔,拉斐尔·拉斐洛夫,薛斌鹏,谢尔盖·莱文,切尔西芬兰人:
带优势权重的离线元强化学习。 CoRR公司 abs/2008.06043(2020)
[i1]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 期刊/corr/abs-2012-11547
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2012-11547
拉斐尔·拉斐洛夫,天河余,阿拉文德·拉杰斯瓦兰,切尔西芬兰人:
利用潜在空间模型从图像中进行离线强化学习。 CoRR公司 abs/2012.11547(2020)

合著者索引

请参阅常见问题解答

管理站点设置

为了保护您的隐私，所有依赖浏览器外部API调用的功能都是默认情况下关闭。你需要选择加入，让他们变得活跃。此处的所有设置将在您的web浏览器中存储为cookie。有关更多信息查看我们的F.A.Q。