拉斐尔·拉斐洛夫
人员信息
SPARQL查询
优化列表
2020年–今天
2024 [第16条] 瑞安·帕克 , 拉斐尔·拉斐洛夫 , 斯特凡诺·埃蒙 , 切尔西芬兰人 :
直接偏好优化中质量的分离长度。 ACL(调查结果) 2024 : 4998-5017 [第15条] 乔伊·海纳 , 拉斐尔·拉斐洛夫 , 哈拉希·西科奇 , 切尔西芬兰人 , 斯科特·尼库姆 , W.布拉德利·诺克斯 , 多尔萨·萨迪格 :
对比偏好学习:从人的反馈中学习,而不是强化学习。 ICLR公司 2024 [第14条] 埃里克·米歇尔 , 拉斐尔·拉斐洛夫 , 阿奇特·夏尔马 , 切尔西芬兰人 , 克里斯托弗·曼宁 :
使用小型语言模型微调大型语言模型的仿真器。 ICLR公司 2024 [第13条] 夏洛特·尼克斯 , 埃里克·米歇尔 , 拉斐尔·拉斐洛夫 , 阿奇特·夏尔马 , 克里斯托弗·曼宁 , 切尔西芬兰人 , 斯特凡诺·埃蒙 :
语言模型检测器很容易进行优化。 ICLR公司 2024 [第12条] 法希姆·塔伊瓦尔 , 阿尼凯特·辛格 , 阿奇特·夏尔马 , 拉斐尔·拉斐洛夫 , 杰夫·施耐德 , 谢腾阳 , 斯特凡诺·埃蒙 , 切尔西芬兰人 , 阿维拉尔·库马尔 :
LLM的偏好微调应利用次优的政策内数据。 ICML公司 2024 [c11] 艾比·奥尼尔 , 阿卜杜勒·拉赫曼 , 阿比拉姆·马杜库里 , 阿披实古普塔 , 阿布谢克·帕达尔卡尔 , 亚伯拉罕·李 , 橡子池 , 阿格里姆·古普塔 , 阿贾伊·曼德勒卡 , 阿金基亚·贾因 , 艾伯特·东 , 亚历克斯·贝利 , 亚历山大·赫尔佐格 , 亚历克斯·伊尔潘 , 亚历山大·卡扎茨基 , 阿南特雷 , 安奇特·古普塔 , 安德鲁·王 , 阿尼凯特·辛格 , 动漫Garg , 阿尼鲁达·坎巴维 , 谢安妮(Annie Xie) , 安东尼·布罗汉 , 安东宁·拉芬 , 阿奇特·夏尔马 , 阿雷菲·雅法利 , 阿尔汉·贾因 , 阿什温·巴拉克里什纳 , 阿扎安·瓦希德 , 本·伯吉斯-利默里克 , 比姆琼·金 , 伯恩哈德·舍尔科夫 , 布莱克·沃尔夫 , 布莱恩·伊切特 , 策武路 , 查尔斯·徐 , 夏洛特·勒 , 切尔西芬兰人 , 陈旺 , 徐晨峰 , 程驰 , 黄晨光 , 克里斯汀·陈 , 克里斯托弗·阿吉亚 , Chuer锅 , 《楚苑赋》 , 科林·德文 , 徐丹飞 , 丹尼尔·莫顿 , 丹尼·德里斯 , Daphne Chen(达芙妮·陈) , 迪帕克·帕塔克 , 德鲁夫·沙阿 , 迪特尔·比切勒 , 迪内什·贾亚拉曼 , 德米特里·卡拉什尼科夫 , 多尔萨·萨迪格 , 爱德华·约翰斯 , 伊桑·保罗·福斯特 , 刘芳晨 , 费德里科·塞奥拉 , 费霞 , 赵飞宇 , 弗里克·斯图尔普 , 周高岳 , Gaurav S.Sukhatme公司 , 乔塔姆·萨尔霍特拉 , 葛燕 , 吉尔伯特·冯 , 朱利奥·希亚维 , 格伦·贝塞斯 , 格雷戈里·卡恩 , 王冠志 , 郝苏 , 豪舒芳 , 郝晨石 , 恒辉宝 , 海尼·本·阿莫尔 , 亨利克·克里斯滕森 , Hiroki Furuta公司 , 霍默·沃克 , 红洁芳 , Huy哈 , 伊戈尔·莫达奇 , 伊里贾·拉多萨沃维奇 , 伊莎贝尔·利尔 , 杰基·梁 , 贾德·阿布·查克拉 , Jaehyung Kim先生 , 杰明·德雷克 , 简·彼得斯 , 简·施耐德 , 茉莉花Hsu , 珍妮特·波赫 , 杰弗里·宾厄姆 , 杰弗里·吴 , 高延森(Jensen Gao) , 胡嘉恒 , 吴家军 , 吴嘉林 , 孙建凯 , 罗建兰 , 顾佳元 , 谭杰 , Jihoon噢 , 吴吉米 , 景培路 , 杨静云 , 吉坦德拉·马利克 , 乔·西尔维里奥 , 乔伊·海纳 , 乔纳森·布希尔 , 乔纳森·汤普森 , 乔纳森·杨 , 若尔迪·萨尔瓦多 , 约瑟夫·利姆 , Junhyek Han先生 , 王开元 , 卡尼什卡·饶 , 卡尔·佩奇 , 卡罗尔·豪斯曼 , 基根Go , 基尔萨娜·戈帕拉克里什南 , 肯·戈德伯格 , 肯德拉·拜恩 , 肯尼斯·奥斯陆 , Kento Kawaharazuka公司 , 凯文·布莱克 , 凯文·林 , 张学敏 , 基亚娜·埃萨尼 , 基兰·莱卡拉 , 柯斯蒂·埃利斯 , 克里斯汉·拉纳 , 克里希南·斯里尼瓦桑 , 宽芳 , 库纳尔·普拉塔普·辛格 , 曾国浩 , Kyle Hatch公司 , 徐凯乐(Kyle Hsu) , 劳伦特·伊蒂 , Lawrence Yuliang Chen陈运良 , 勒勒·平托 , 李飞飞 , 利亚姆·谭 , 林熙Jim Fan , 莱昂内尔·奥特 , 丽莎李 , 卢卡·魏斯 , Magnum Chen公司 , 马里恩·勒珀特 , 马吕斯·梅梅尔 , Masayoshi Tomizuka先生 , 玛莎·伊奇纳 , 马特奥·瓜曼·卡斯特罗 , 马克斯·斯佩罗 , 马克西米利安·杜 , 迈克尔·安 , 迈克尔·C·叶 , 张明通 , 明玉鼎 , Minho Heo公司 , 莫汉·库马尔·斯里拉马 , 莫希特·夏尔马 , 穆金金(Moo Jin Kim) , 金泽直崎 , 尼克拉斯·汉森 , 尼古拉斯·希斯 , 尼基尔·乔希 , 尼科·苏恩德豪夫 , 刘宁(Ning Liu) , 诺曼·迪·帕洛 , 努尔·穆罕默德(Mahi)Shafiullah , Oier Mees公司 , 奥利弗·克罗默 , 奥斯伯特·巴斯塔尼 , 潘纳格·桑科蒂 , 帕特里克·特里·米勒 , 帕特里克·尹 , 保罗·沃尔哈特 , 彭旭 , 彼得·大卫·法根 , 彼得·米特拉诺 , 皮埃尔·塞尔马内特 , 彼得·阿比尔 , Priya Sundaresan公司 , 陈秋雨 , 全旺 , 拉斐尔·拉斐洛夫 , 冉天 , 里亚·多西 , 罗伯托·马丁·马丁 , 罗汉·拜加尔 , 罗萨里奥·斯卡利泽 , 罗斯·亨德里克斯 , 罗伊·林 , 钱润佳 , 张若翰 , 罗素·门多卡 , 鲁塔夫·沙阿 , 瑞恩·霍克 , 瑞安·朱利安 , 塞缪尔·巴斯塔曼特 , 肖恩·基尔马尼 , 谢尔盖·莱文 , 单林 , 雪利·摩尔 , Shikhar铁路 , 希文·达斯 , Shubham D.Sonawani公司 , 宋淑然 , 徐思纯 , 悉达恩·哈尔达尔 , Siddharth Karamcheti公司 , 西蒙·阿德博拉 , 西蒙·吉斯特 , 索卢什·纳西里亚尼 , 斯特凡·沙尔 , 斯特凡·韦尔克 , 斯蒂芬·田 , Subramanian Ramamoorthy语 , 苏迪普·达萨里 , 苏尼尔·贝尔哈勒 , 成宰公园 , 苏拉杰·奈尔 , 苏维·米尔昌达尼 , Takayuki Osa公司 , 坦马·古普塔 , 原田达也 , 松岛达也 , 特德·肖 , 托马斯·科勒 , 天河余 , 丁天力 , 托多·达夫切夫 , 托尼·赵 , 特拉维斯·阿姆斯特朗 , 特雷弗·达雷尔 , Trinity Chung公司 , 维迪·贾恩 , 文森特·范胡克 , 魏战 , 周文轩 , 沃尔夫拉姆·伯加德 , 席晨 , 王晓龙 , 朱兴浩 , 信阳耿 , 刘西元 , 徐良伟 , 李宣林 , 姚璐 , 叶成·杰森·马 , 金业镇 , 叶夫根·切博塔 , 周一凡 , 朱一峰 , 吴依林 , 应旭 , 王一轩 , 约纳坦·比斯克 , Yoonyong Cho , 李永勋 , 崔宇晨 , 岳曹 , 吴岳桦 , 玉津堂 , 朱玉可(Yuke Zhu) , 张云初 , 姜云凡 , 李云双 , 李云珠 , 岩川优介 , 松本裕隆(Yutaka Matsuo) , 马泽汉 , 卓旭 , 子晨Jeff Cui , Zichen Zhang(张子晨) , Zipeng Lin公司 :
开放X体现:机器人学习数据集和RT-X模型:开放X体现协作。 ICRA公司 2024 : 6892-6903 [第10条] 维克托·科列夫 , 拉斐尔·拉斐洛夫 , Kyle Hatch公司 , 吴家军 , 切尔西芬兰人 :
使用保守世界模型进行有效的模仿学习。 L4DC(L4DC) 2024 : 1777-1790 [第28条] 拉斐尔·拉斐洛夫 , Kyle Hatch公司 , 维克托·科列夫 , 约翰·D·马丁 , 玛丽亚诺·菲利普 , 切尔西芬兰人 :
MOTO:基于模型的机器人学习的离线预训练到在线微调。 CoRR公司 abs/2401.03306 ( 2024 ) [i27] 周益阳 , 崔晨航 , 拉斐尔·拉斐洛夫 , 切尔西芬兰人 , 姚华秀 :
通过偏好微调调整视觉大语言模型中的模式。 CoRR公司 abs/2402.11411 ( 2024 ) [i26] 瑞恩·帕克 , 拉斐尔·拉斐洛夫 , 斯特凡诺·埃蒙 , 切尔西芬兰人 :
直接偏好优化中质量的分离长度。 CoRR公司 abs/2403.19159 ( 2024 ) [i25] 马蒂亚斯·戈斯特格拉斯 , 瑞兰·谢弗 , Apratim戴 , 拉斐尔·拉斐洛夫 , 亨利·斯莱特 , 约翰·休斯 , 托马斯·科巴克 , 拉贾什里·阿格拉瓦尔 , Dhruv Pai公司 , 安德烈·格罗莫夫 , 丹尼尔·罗伯茨 , 杨迪(Diyi Yang) , 大卫·多诺霍 , 桑米·科耶霍 :
模型崩溃不可避免吗? 通过积累真实和合成数据打破递归的诅咒。 CoRR公司 abs/2404.01413 ( 2024 ) [i24] 拉斐尔·拉斐洛夫 , 乔伊·海纳 , 瑞恩·帕克 , 切尔西芬兰人 :
发件人 第页 至Q * :你的语言模型秘密地是一个Q函数。 CoRR公司 abs/2404.12358 ( 2024 ) [第23条] Jan-Philipp Fränken先生 , 埃里克·泽利克曼 , 拉斐尔·拉斐洛夫 , 卡尼什克·甘地 , 托比亚斯·格斯滕贝格 , 诺亚·D·古德曼 :
自我监督与相互信息的一致性:学习在没有偏好标签的情况下遵循原则。 CoRR公司 腹肌/2404.14313 ( 2024 ) [i22] 法希姆·塔伊瓦尔 , 阿尼凯特·辛格 , 阿奇特·夏尔马 , 拉斐尔·拉斐洛夫 , 杰夫·施耐德 , 谢腾阳 , 斯特凡诺·埃蒙 , 切尔西芬兰人 , 阿维拉尔·库马尔 :
LLM的偏好微调应利用次优的政策内数据。 CoRR公司 abs/2404.14367 ( 2024 ) 【i21】 维克托·科列夫 , 拉斐尔·拉斐洛夫 , Kyle Hatch公司 , 吴家军 , 切尔西芬兰人 :
使用保守世界模型进行有效的模拟学习。 CoRR公司 abs/2405.13193 ( 2024 ) [i20] 皮埃尔·哈维·里奇蒙 , 汤云浩 , 丹尼尔·郭 , 丹尼尔·卡兰德里洛 , 穆罕默德·盖什拉希·阿扎尔 , 拉斐尔·拉斐洛夫 , 贝尔纳多·阿维拉·皮雷斯 , 尤金·塔拉索夫 , 卢卡斯·斯潘格 , 威尔·埃尔斯沃思 , Aliaksei Severyn公司 , 乔纳森·马林森 , 利奥·沙尼 , 吉尔·沙米尔 , 里沙布·乔希 , 刘天奇 , 雷米·穆诺斯 , 比拉尔·皮奥 :
大型语言模型对齐的离线规则强化学习。 CoRR公司 abs/2405.19107 ( 2024 ) [i19] 艾哈迈德·艾哈迈德 , 拉斐尔·拉斐洛夫 , 斯蒂芬·沙尔科夫 , 李雪晨 , 桑米·科耶霍 :
可扩展集成用于缓解奖励过度优化。 CoRR公司 腹肌/2406.01013 ( 2024 ) [i18] 拉斐尔·拉斐洛夫 , 亚斯旺斯·奇特普 , 瑞恩·帕克 , 哈拉希·西科奇 , 乔伊·海纳 , W.布拉德利·诺克斯 , 切尔西芬兰人 , 斯科特·尼库姆 :
直接对齐算法中奖励模型过度优化的比例律。 CoRR公司 abs/2406.02900 ( 2024 ) [i17] 穆金金(Moo Jin Kim) , 卡尔·佩奇 , Siddharth Karamcheti公司 , 特德·肖 , 阿什温·巴拉克里什纳 , 苏拉杰·奈尔 , 拉斐尔·拉斐洛夫 , 伊桑·保罗·福斯特 , 格雷斯·林 , 潘纳·桑科蒂 , 全武 , 托马斯·科勒 , 本杰明·伯奇菲尔 , 俄罗斯·特德雷克 , 多尔萨·萨迪格 , 谢尔盖·莱文 , 珀西·梁 , 切尔西芬兰人 :
OpenVLA:一个开源的视觉语言行动模型。 CoRR公司 abs/2406.09246 ( 2024 ) [i16] 陈兆润 , 杜一超 , 《紫宸文》 , 周益阳 , 崔晨航 , 翁镇镇 , 涂浩琴 , 王朝琦(音译) , 郑伟彤 , 黄庆兰 , 陈灿宇 , 叶庆浩 , 朱志宏 , 张玉清(Yuqing Zhang) , 周嘉伟 , 赵卓凯 , 拉斐尔·拉斐洛夫 , 切尔西芬兰人 , 姚华秀 :
MJ-Bench:你的多模态奖励模型真的能很好地判断文本到图像生成吗? CoRR公司 abs/2407.04842 ( 2024 ) 【i15】 路易斯·卡斯特里奥 , 内森·里尔 , 拉斐尔·拉斐洛夫 , Jan-Philipp Fränken先生 , 切尔西芬兰人 :
人格:多元对齐的可复制试验台。 CoRR公司 abs/2407.17387 ( 2024 ) [第14条] 普拉纳夫·普塔 , 埃德蒙·米尔斯 , 纳曼·加格 , 苏梅特·莫特瓦尼 , 切尔西芬兰人 , 迪维安什·加格 , 拉斐尔·拉斐洛夫 :
Agent Q:自主AI Agent的高级推理和学习。 CoRR公司 abs/2408.07199 ( 2024 ) [i13] 拉斐尔·拉斐洛夫 , Kyle Hatch公司 , 阿尼凯特·辛格 , 劳拉·史密斯 , 阿维拉尔·库马尔 , 伊利亚·科斯特里科夫 , 菲利普·汉森(Philippe Hansen-Estruch) , 维克托·科列夫 , 菲利普·鲍尔 , 吴家军 , 切尔西芬兰人 , 谢尔盖·莱文 :
D5RL:用于数据驱动的深度强化学习的多种数据集。 CoRR公司 abs/2408.08441 ( 2024 ) 2023 【c9】 拉斐尔·拉斐洛夫 , Kyle Beltran舱口 , 维克托·科列夫 , 约翰·D·马丁 , 玛丽亚诺·菲利普 , 切尔西芬兰人 :
MOTO:离线预训练到在线微调,用于基于模型的机器人学习。 CoRL公司 2023 : 3654-3671 【c8】 凯瑟琳·田 , 埃里克·米歇尔 , 周爱伦(Allan Zhou) , 阿奇特·夏尔马 , 拉斐尔·拉斐洛夫 , 姚华秀 , 切尔西芬兰人 , 克里斯托弗·曼宁 :
只需要求校准:从语言模型中提取校准置信度分数的策略——与人的反馈进行微调。 EMNLP公司 2023 : 5433-5442 【c7】 Kyle Beltran舱口 , 本杰明·艾森巴赫 , 拉斐尔·拉斐洛夫 , 天河余 , 鲁斯兰·萨拉库丁诺夫 , 谢尔盖·莱文 , 切尔西芬兰人 :
基于对比示例的控制。 L4DC(L4DC) 2023 : 155-169 【c6】 拉斐尔·拉斐洛夫 , 阿奇特·夏尔马 , 埃里克·米歇尔 , 克里斯托弗·曼宁 , 斯特凡诺·埃蒙 , 切尔西芬兰人 :
直接偏好优化:你的语言模型是一个秘密的奖励模型。 NeurIPS公司 2023 [i12] 凯瑟琳·田 , 埃里克·米歇尔 , 艾伦·周 , 阿奇特·夏尔马 , 拉斐尔·拉斐洛夫 , 姚华秀 , 切尔西芬兰人 , 克里斯托弗·曼宁 :
只需要求校准:从经过人为反馈微调的语言模型中提取校准置信度分数的策略。 CoRR公司 abs/2305.14975 ( 2023 ) [i11] 拉斐尔·拉斐洛夫 , 阿奇特·夏尔马 , 埃里克·米歇尔 , 斯特凡诺·埃蒙 , 克里斯托弗·曼宁 , 切尔西芬兰人 :
直接偏好优化:你的语言模型是一个秘密的奖励模型。 CoRR公司 abs/2305.18290 ( 2023 ) [i10] Kyle Hatch公司 , 本杰明·艾森巴赫 , 拉斐尔·拉斐洛夫 , 天河余 , 鲁斯兰·萨拉库丁诺夫 , 谢尔盖·莱文 , 切尔西芬兰人 :
基于对比示例的控制。 CoRR公司 abs/2307.13101 ( 2023 ) [第九章] Max Sobol马克 , 阿奇特·夏尔马 , 法希姆·塔伊瓦尔 , 拉斐尔·拉斐洛夫 , 谢尔盖·莱文 , 切尔西芬兰人 :
在线RL离线再培训:解耦政策学习以缓解探索偏差。 CoRR公司 abs/2310.08558 ( 2023 ) [i8] 埃里克·米歇尔 , 拉斐尔·拉斐洛夫 , 阿奇特·夏尔马 , 切尔西芬兰人 , 克里斯托弗·曼宁 :
使用小型语言模型微调大型语言模型的仿真器。 CoRR公司 abs/2310.12962 ( 2023 ) [i7] 乔伊·海纳 , 拉斐尔·拉斐洛夫 , 哈拉希·西科奇 , 切尔西芬兰人 , 斯科特·尼库姆 , W.布拉德利·诺克斯 , 多萨·萨迪 :
对比偏好学习:在没有RL的情况下从人类反馈中学习。 CoRR公司 abs/2310.13639 ( 2023 ) [i6] 布拉姆·华莱士 , 梅花党 , 拉斐尔·拉斐洛夫 , 周林琦(Linqi Zhou) , 阿伦·卢 , Senthil Purushwalkam公司 , 斯特凡诺·埃尔蒙 , 熊才明 , 沙菲克·乔蒂 , 尼基尔·奈克 :
使用直接偏好优化的扩散模型对齐。 CoRR公司 abs/2311.12908 ( 2023 ) 2022 【c5】 徐凯乐(Kyle Hsu) , 穆金金(Moo Jin Kim) , 拉斐尔·拉斐洛夫 , 吴家军 , 切尔西芬兰人 :
基于视觉的机械手也需要从手上看到。 ICLR公司 2022 [i5] 徐凯乐(Kyle Hsu) , 穆金金(Moo Jin Kim) , 拉斐尔·拉斐洛夫 , 吴家军 , 切尔西芬兰人 :
基于视觉的操纵器也需要从手上观察。 CoRR公司 abs/2203.12677 ( 2022 ) 2021 【c4】 埃里克·米歇尔 , 拉斐尔·拉斐洛夫 , 薛斌鹏 , 谢尔盖·莱文 , 切尔西芬兰人 :
具有优势加权的离线元强化学习。 ICML公司 2021 : 7780-7791 【c3】 拉斐尔·拉斐洛夫 , 天河余 , 阿拉文德·拉杰斯瓦兰 , 切尔西芬兰人 :
利用潜在空间模型从图像中进行离线强化学习。 L4DC(L4DC) 2021 : 1154-1168 【c2】 拉斐尔·拉斐洛夫 , 天河余 , 阿拉文德·拉杰斯瓦兰 , 切尔西芬兰人 :
使用变分模型进行视觉对抗模拟学习。 NeurIPS公司 2021 : 3016-3028 【c1】 天河余 , 阿维拉尔·库马尔 , 拉斐尔·拉斐洛夫 , 阿拉文德·拉杰斯瓦兰 , 谢尔盖·莱文 , 切尔西芬兰人 :
COMBO:基于保守离线模型的策略优化。 NeurIPS公司 2021 : 28954-28967 [i4] 余天和 , 阿维拉尔·库马尔 , 拉斐尔·拉斐洛夫 , 阿拉文德·拉杰斯瓦兰 , 谢尔盖·莱文 , 切尔西芬兰人 :
COMBO:基于保守离线模型的策略优化。 CoRR公司 abs/2102.08363 ( 2021 ) [i3] 拉斐尔·拉斐洛夫 , 天河余 , 阿拉文德·拉杰斯瓦兰 , 切尔西芬兰人 :
使用变分模型进行视觉对抗模拟学习。 CoRR公司 abs/2107.08829 ( 2021 ) 2020 [i2] 埃里克·米歇尔 , 拉斐尔·拉斐洛夫 , 薛斌鹏 , 谢尔盖·莱文 , 切尔西芬兰人 :
带优势权重的离线元强化学习。 CoRR公司 abs/2008.06043 ( 2020 ) [i1] 拉斐尔·拉斐洛夫 , 天河余 , 阿拉文德·拉杰斯瓦兰 , 切尔西芬兰人 :
利用潜在空间模型从图像中进行离线强化学习。 CoRR公司 abs/2012.11547 ( 2020 )