约翰·费雷特
人员信息
SPARQL查询
优化列表
2020年–今天
2024 [j1] 爱德华多·皮格纳特里 , 约翰·费雷特 , 马蒂厄·盖斯特 , 托马斯·梅斯纳德 , 哈多·范·哈塞尔特 , 劳拉·托尼 :
深度强化学习中的时间学分分配研究。 事务处理。 机器。 学习。 物件。 2024 ( 2024 ) 【c8】 哈里森李 , 萨姆拉特·法塔尔 , 哈桑·曼苏尔 , 托马斯·梅斯纳德 , 约翰·费雷特 , 凯利·卢 , 科尔顿主教 , 伊桑霍尔 , 维克托·卡布恩 , 阿比纳夫·拉斯托吉 , 苏珊·普拉卡什 :
RLAIF与RLHF:用人工智能反馈从人类反馈中扩展强化学习。 ICML公司 2024 [c7] 亚历山大·拉梅 , 尼诺·维亚拉德 , 莱昂纳德·侯赛诺 , 罗伯特·达达什 , 杰弗里·西德龙 , 奥利维尔·巴瑟姆 , 约翰·费雷特 :
温暖:关于体重平均奖励模式的好处。 ICML公司 2024 [i16] 亚历山大·拉梅 , 尼诺·维亚拉德 , 莱昂纳德·侯赛诺 , 罗伯特·达达西 , 杰弗里·西德龙 , 奥利维尔·巴瑟姆 , 约翰·费雷特 :
警告:关于加权平均奖励模型的好处。 CoRR公司 abs/2401.12187 ( 2024 ) 【i15】 郭尚敏 , 张彪 , 刘天林 , 刘天奇 , 米沙·卡尔曼 , 菲利佩·利纳雷斯 , 亚历山大·拉梅 , 托马斯·梅斯纳德 , 姚钊 , 比拉尔·皮奥 , 约翰·费雷特 , 马修·布隆德尔 :
在线人工智能反馈的直接语言模型校准。 CoRR公司 abs/2402.04792 ( 2024 ) [第14条] 托马斯·梅斯纳德 , 卡西迪·哈丁 , 罗伯特·达达西 , 苏里亚·布帕蒂拉朱 , Shreya Pathak先生 , 劳伦特·西弗雷 , Morgane Rivière公司 , Mihir Sanjay Kale先生 , 朱丽叶的爱 , 波亚·塔夫蒂 , 莱昂纳德·侯赛诺 , Aakanksha Chowdhery公司 , 亚当·罗伯茨 , 阿迪亚·巴鲁阿 , 亚历克斯·博特夫 , 亚历克斯·卡斯特罗·罗斯 , 安布罗斯·斯隆 , Amélie Héliou , 安德烈亚·塔切蒂 , 安娜·布拉诺娃 , 安东尼娅·帕特森 , 贝思·蔡 , 博巴克·沙里亚里 , 查林·勒兰 , Christopher A.Choquette Choo , Clément奶油蛋糕 , 丹尼尔·塞尔 , 达芙妮·伊波利托 , 魏明智 , 埃琳娜·布恰茨卡娅 , 埃里克·尼 , 埃里克·诺兰 , 耿燕 , 乔治·塔克 , 乔治·克里斯蒂安·穆拉鲁 , 格里戈里·罗日德斯特文斯基 , 亨利克·米查勒夫斯基 , 伊恩·坦尼 , 伊万·格里什琴科 , 杰克·奥斯汀 , 詹姆斯·基林 , 简·拉巴诺夫斯基 , Jean-Baptiste Lespiau女士 , 杰夫·斯坦威 , 珍妮·布伦南 , 杰里米·陈 , 约翰·费雷特 , 贾斯汀·邱 , 等。 :
Gemma:基于Gemini研究和技术的开放模型。 CoRR公司 abs/2403.08295 ( 2024 ) [i13] 亚历山大·博特夫 , Soham De公司 , 塞缪尔·史密斯 , 阿努山·费尔南多 , 乔治·克里斯蒂安·穆拉鲁 , 鲁巴·哈伦 , 伦纳德·贝拉达 , 拉兹万·帕斯卡努 , 朱塞佩·塞萨码头 , 罗伯特·达达西 , 莱昂纳德·侯赛诺 , 约翰·费雷特 , 谢尔坦·吉尔金 , 奥利维尔·巴瑟姆 , 亚历克·安德列夫 , 凯萨琳·凯尼利 , 托马斯·梅斯纳德 , 卡西迪·哈丁 , 苏里亚·布帕蒂拉朱 , Shreya Pathak先生 , 劳伦特·西弗雷 , Morgane Rivière公司 , Mihir Sanjay Kale先生 , 朱丽叶的爱 , 波亚·塔夫蒂 , 阿尔曼·朱林 , 诺亚·菲德尔 , 埃文·森特 , 陈玉田 , 斯里瓦桑·斯里尼瓦桑 , 纪尧姆·德斯贾丁斯 , 大卫·布登 , 阿诺·杜塞特 , 莎拉·维克兰 , 亚当·帕斯克 , 特雷弗·盖尔 , 塞巴斯蒂安·博尔盖乌德 , 赵开方 , 柏安地 , 安东尼娅·帕特森 , 珍妮·布伦南 , 梅格·里斯达尔 , 拉杰·冈德卢鲁 , 内什·德瓦纳坦 , 保罗·慕尼 , 尼莱·乔汉 , 菲尔·卡利顿 , 路易斯·古斯塔沃·马丁斯 , 伊丽莎·班迪 , 大卫·亨茨佩格 , 格伦·卡梅隆 , 亚瑟·祖克 , 特里斯·沃肯廷 , 卢多维克·佩兰 , 明江 , 邹宾·加拉马尼 , 克莱门·法拉贝特 , 科雷·卡武科格鲁 , 哈萨比斯 , Raia Hadsell公司 , 叶惠德 , 南多·德弗里塔斯 :
RecurrentGemma:超越高效开放语言模型的变形金刚。 CoRR公司 腹肌/2404.07839 ( 2024 ) [i12] 亚历山大·拉梅 , 约翰·费雷特 , 尼诺·维亚拉德 , 罗伯特·达达西 , 莱昂纳德·侯赛诺 , 皮埃尔·卢伊斯·塞多兹 , 朱塞佩·塞萨码头 , 谢尔坦·吉尔金 , 阿瑟·杜伊拉德 , 奥利维尔·巴瑟姆 :
WARP:关于平均体重奖励政策的好处。 CoRR公司 abs/2406.16768 ( 2024 ) [i11] 朱塞佩·塞萨码头 , 罗伯特·达达西 , 莱昂纳德·侯赛诺 , 约翰·费雷特 , 尼诺·维亚拉德 , 亚历山大·拉梅 , 博巴克·沙里亚里 , 莎拉·佩林 , 亚伯·弗里森 , 杰弗里·西德龙 , 谢尔坦·吉尔金 , 彼得·斯坦奇克 , 安德烈亚·米奇 , 丹尼拉·西诺帕尔尼科夫 , 萨贝拉·拉莫斯 , Amélie Héliou , Aliaksei Severyn公司 , 马特哈夫曼 , 尼古拉·蒙切夫 , 奥利维尔·巴瑟姆 :
BOND:将LLM与最佳N蒸馏相结合。 CoRR公司 腹肌/240714622 ( 2024 ) [i10] 王凯文 , 拉胡尔·基达姆比 , 瑞安·沙利文 , 阿列克·阿加瓦尔 , 克里斯托夫·丹恩 , 安德烈亚·米奇 , 马可·盖尔米 , 李云轩 , 拉哈夫古普塔 , 阿维纳瓦·杜比 , 亚历山大·拉梅 , 约翰·费雷特 , 杰弗里·西德龙 , 勒侯 , 余洪坤 , 阿姆尔·艾哈迈德 , 阿兰亚克·梅塔 , 莱昂纳德·侯赛诺 , 奥利维尔·巴瑟姆 , 爱德华·勒伦特 :
条件语言策略:可控制多目标微调的通用框架。 CoRR公司 abs/2407.15762 ( 2024 ) [第九章] Morgane Rivière公司 , Shreya Pathak先生 , 朱塞佩·塞萨码头 , 卡西迪·哈丁 , 苏里亚·布帕蒂拉朱 , 莱昂纳德·侯赛诺 , 托马斯·梅斯纳德 , 博巴克·沙里亚里 , 亚历山大·拉梅 , 约翰·费雷特 , 刘宇环 , 波亚·塔夫蒂 , 阿贝·弗里森 , 米歇尔·卡斯本 , 萨贝拉·拉莫斯 , 拉文·库马尔 , 查林·勒兰 , 萨米·杰罗姆 , 安东·齐斯普林 , 尼诺·维亚拉德 , 彼得·斯坦奇克 , 谢尔坦·吉尔金 , 尼古拉·蒙切夫 , 马特哈夫曼 , Shantanu Thakoor公司 , Jean-Bastien烧烤 , 贝南·奈沙布尔 , 奥利维尔·巴瑟姆 , 阿兰娜·沃尔顿 , Aliaksei Severyn公司 , 艾丽西娅·帕里什 , 阿里亚·艾哈迈德 , 艾伦·哈奇森 , 阿尔文·阿卜杜吉奇 , 阿曼达·卡尔 , 沈美美(Amy Shen) , 柏安地 , 安迪·科宁 , 安东尼·拉福吉 , 安东尼娅·帕特森 , 本·巴斯蒂安 , 比拉尔·皮奥 , 吴波 , 布兰登·罗亚尔 , 赵开方 , 钦图·库马尔 , 佩里 , 克里斯·韦尔蒂 , Christopher A.Choquette Choo , 丹尼拉·西诺帕尔尼科夫 , 大卫·温伯格 , 酒窝Vijaykumar , 多米尼克·罗戈金斯卡 , 达斯汀·赫比森 , 伊丽莎·班迪 , 艾玛·王 , 埃里克·诺兰 , 埃里卡·莫雷拉 , 埃文·森特 , 叶夫根尼·埃尔蒂舍夫 , 弗朗西斯科·维辛 , 加布里埃尔·拉斯金 , 加里·韦 , 格伦·卡梅隆 , 古斯·马丁斯 , 哈迪·哈希米 , 汉娜·克里姆恰克·普鲁金斯卡 , 哈琳·巴特拉 , 哈什·达恩 , 伊万·纳迪尼 , 哈辛达·梅恩 , 杰克·周 , 詹姆斯·斯文森 , 杰夫·斯坦威 , Jetha Chan公司 , 周金鹏 , 乔安娜·卡拉斯凯拉 , 乔安娜·伊尔贾齐 , 乔斯林·贝克尔 , 费尔南德斯 , 乔斯特·范·阿默斯福特 , 乔什·戈登 , 乔什·利普舒尔茨 , 乔什·纽兰 , 聚阳记 , 卡里姆·穆罕默德 , 卡提基亚·巴多拉 , 凯特·布莱克 , 凯蒂·米利肯 , 基林·麦克唐纳 , 开尔文·阮 , 基兰比尔·索迪亚 , 基什·格林 , 拉尔斯·洛·舍松德(Lars Lowe Sjösund) , 劳伦·乌苏(Lauren Usui) , 劳伦特·西弗雷 , 莉娜·豪尔曼 , 莱蒂西亚·拉戈 , 莉莉·麦克尼勒斯 :
Gemma 2:在实际规模上改进开放语言模型。 CoRR公司 abs/2408.00118 ( 2024 ) 2023 【c6】 保罗·罗特 , 约翰·费雷特 , 利奥·沙尼 , 罗伊·阿哈罗尼 , 杰弗里·西德龙 , 罗伯特·达达西 , 马蒂厄·盖斯特 , 谢尔坦·吉尔金 , 莱昂纳德·侯赛诺 , 奥加德·凯勒 , 尼古拉·蒙切夫 , 萨贝拉·拉莫斯·加里亚 , 彼得·斯坦奇克 , 尼诺·维亚拉德 , 奥利维尔·巴瑟姆 , 加尔·埃利丹 , 阿维纳坦·哈西迪姆 , 奥利维尔·皮特金 , 伊丹·斯佩克托 :
通过强化学习和文本隐含反馈实现事实一致性总结。 ACL(1) 2023 : 6252-6272 [i8] 保罗·罗特 , 约翰·费雷特 , 利奥·沙尼 , 罗伊·阿哈罗尼 , 杰弗里·西德龙 , 罗伯特·达达西 , 马蒂厄·盖斯特 , 谢尔坦·吉尔金 , 莱昂纳德·侯赛诺 , 奥加德·凯勒 , 尼古拉·蒙切夫 , 萨贝拉·拉莫斯 , 彼得·斯坦奇克 , 尼诺·维亚拉德 , 奥利维尔·巴瑟姆 , 加尔·埃利丹 , 阿维纳坦·哈西迪姆 , 奥利维尔·皮特金 , 伊丹·斯佩克托 :
通过强化学习和语篇纠缠反馈进行事实一致的总结。 CoRR公司 abs/2306.00186 ( 2023 ) [i7] 爱德华多·皮格纳特里 , 约翰·费雷特 , 马蒂厄·盖斯特 , 托马斯·梅斯纳德 , 哈多·范·哈塞尔特 , 劳拉·托尼 :
深度强化学习中的时间学分分配研究。 CoRR公司 abs/2312.01072 ( 2023 ) 2022 【b1】 约翰·费雷特 :
关于重要的行动:强化学习中的学分分配和可解释性。 (对行动的重要性:指定审查和执行许可)。 法国里尔大学, 2022 【c5】 亚历克西斯·雅克 , 约翰·费雷特 , 奥利维尔·皮特金 , 马蒂厄·盖斯特 :
懒惰的MDPs:通过学习何时行动来实现可解释的RL。 美国原子能机构 2022 : 669-677 [i6] 亚历克西斯·雅克 , 约翰·费雷特 , 奥利维尔·皮特金 , 马蒂厄·盖斯特 :
懒惰的MDPs:通过学习何时行动来实现可解释的强化学习。 CoRR公司 腹肌/2203.08542 ( 2022 ) 2021 【c4】 约翰·费雷特 , 奥利维尔·皮特金 , 马蒂厄·盖斯特 :
自我模仿优势学习。 美国原子能机构 2021 : 501-509 【c3】 Yannis Flet-Berliac公司 , 约翰·费雷特 , 奥利维尔·皮特金 , 菲利普·普鲁克斯 , 马蒂厄·盖斯特 :
对手指导演员-评论。 ICLR公司 2021 【c2】 内森·格林斯塔金 , 约翰·费雷特 , 奥利维尔·皮特金 , 菲利普·普鲁克斯 , 马蒂厄·盖斯特 :
没有回头路:一种自我监督的可逆性强化学习方法。 NeurIPS公司 2021 : 1898-1911 [i5] Yannis Flet-Berliac公司 , 约翰·费雷特 , 奥利维尔·皮特金 , 菲利普·普鲁克斯 , 马蒂厄·盖斯特 :
对抗性引导的演员评论家。 CoRR公司 abs/2102.04376 ( 2021 ) [i4] 内森·格林斯塔金 , 约翰·费雷特 , 奥利维尔·皮特金 , 菲利普·普鲁克斯 , 马蒂厄·盖斯特 :
没有回头路:可逆性强化学习的自我监督方法。 CoRR公司 abs/2106.04480 ( 2021 ) [i3] 托比·约翰斯通 , 内森·格林斯塔金 , 约翰·费雷特 , 菲利普·普鲁克斯 :
更有效地探索动作序列等价的符号先验。 CoRR公司 abs/2110.10632 ( 2021 ) 2020 【c1】 约翰·费雷特 , 拉斐尔·马里尼尔 , 马蒂厄·盖斯特 , 奥利维尔·皮特金 :
强化学习中转移的自我注意学分分配。 国际JCAI 2020 : 2655-2661 [i2] 约翰·费雷特 , 奥利维尔·皮特金 , 马蒂厄·盖斯特 :
自我模仿优势学习。 CoRR公司 abs/2012.11989 ( 2020 )
2010 – 2019
2019 [i1] 约翰·费雷特 , 拉斐尔·马里尼尔 , 马蒂厄·盖斯特 , 奥利维尔·皮特金 :
学分分配作为强化学习转移的代理。 CoRR公司 abs/1907.08027 ( 2019 )