默认搜索操作

组合dblp搜索
作者搜索
场馆搜索
出版物搜索

问别人

约翰·费雷特

>主页 >珀森斯

人员信息

SPARQL查询

优化列表

优化激活！

放大了??属于??记录

查看优化列表

导出优化列表为

显示全部 ??记录

2020年–今天

请参阅常见问题解答

出版物列表中颜色的含义是什么？

2024
[j1]
- 看法
  - 电子版@openreview.net（开放访问）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - 期刊/tmlr/PignatelliFGMHT24
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/tmlr/PignatelliFGMHT24
爱德华多·皮格纳特里,约翰·费雷特,马蒂厄·盖斯特,托马斯·梅斯纳德,哈多·范·哈塞尔特,劳拉·托尼:
深度强化学习中的时间学分分配研究。事务处理。机器。学习。物件。 2024(2024)
【c8】
- 看法
  - 电子版@openreview.net（开放访问）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/icml/0001PMMFLBHCRP24
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/icml/0001PMMFLBHCRP24
哈里森李,萨姆拉特·法塔尔,哈桑·曼苏尔,托马斯·梅斯纳德,约翰·费雷特,凯利·卢,科尔顿主教,伊桑霍尔,维克托·卡布恩,阿比纳夫·拉斯托吉,苏珊·普拉卡什:
RLAIF与RLHF：用人工智能反馈从人类反馈中扩展强化学习。 ICML公司 2024
[c7]
- 看法
  - 电子版@openreview.net（开放访问）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/icml/RameVHDCBF24
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/icml/RameVHDCBF24
亚历山大·拉梅,尼诺·维亚拉德,莱昂纳德·侯赛诺,罗伯特·达达什,杰弗里·西德龙,奥利维尔·巴瑟姆,约翰·费雷特:
温暖：关于体重平均奖励模式的好处。 ICML公司 2024
[i16]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2401-12187
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2401-12187
亚历山大·拉梅,尼诺·维亚拉德,莱昂纳德·侯赛诺,罗伯特·达达西,杰弗里·西德龙,奥利维尔·巴瑟姆,约翰·费雷特:
警告：关于加权平均奖励模型的好处。 CoRR公司 abs/2401.12187(2024)
【i15】
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2402-04792
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2402-04792
郭尚敏,张彪,刘天林,刘天奇,米沙·卡尔曼,菲利佩·利纳雷斯,亚历山大·拉梅,托马斯·梅斯纳德,姚钊,比拉尔·皮奥,约翰·费雷特,马修·布隆德尔:
在线人工智能反馈的直接语言模型校准。 CoRR公司 abs/2402.04792(2024)
[第14条]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2403-08295
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2403-08295
托马斯·梅斯纳德,卡西迪·哈丁,罗伯特·达达西,苏里亚·布帕蒂拉朱,Shreya Pathak先生,劳伦特·西弗雷,Morgane Rivière公司,Mihir Sanjay Kale先生,朱丽叶的爱,波亚·塔夫蒂,莱昂纳德·侯赛诺,Aakanksha Chowdhery公司,亚当·罗伯茨,阿迪亚·巴鲁阿,亚历克斯·博特夫,亚历克斯·卡斯特罗·罗斯,安布罗斯·斯隆,Amélie Héliou,安德烈亚·塔切蒂,安娜·布拉诺娃,安东尼娅·帕特森,贝思·蔡,博巴克·沙里亚里,查林·勒兰,Christopher A.Choquette Choo,Clément奶油蛋糕,丹尼尔·塞尔,达芙妮·伊波利托,魏明智,埃琳娜·布恰茨卡娅,埃里克·尼,埃里克·诺兰,耿燕,乔治·塔克,乔治·克里斯蒂安·穆拉鲁,格里戈里·罗日德斯特文斯基,亨利克·米查勒夫斯基,伊恩·坦尼,伊万·格里什琴科,杰克·奥斯汀,詹姆斯·基林,简·拉巴诺夫斯基,Jean-Baptiste Lespiau女士,杰夫·斯坦威,珍妮·布伦南,杰里米·陈,约翰·费雷特,贾斯汀·邱,等。:
Gemma：基于Gemini研究和技术的开放模型。 CoRR公司 abs/2403.08295(2024)
[i13]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2404-07839
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2404-07839
亚历山大·博特夫,Soham De公司,塞缪尔·史密斯,阿努山·费尔南多,乔治·克里斯蒂安·穆拉鲁,鲁巴·哈伦,伦纳德·贝拉达,拉兹万·帕斯卡努,朱塞佩·塞萨码头,罗伯特·达达西,莱昂纳德·侯赛诺,约翰·费雷特,谢尔坦·吉尔金,奥利维尔·巴瑟姆,亚历克·安德列夫,凯萨琳·凯尼利,托马斯·梅斯纳德,卡西迪·哈丁,苏里亚·布帕蒂拉朱,Shreya Pathak先生,劳伦特·西弗雷,Morgane Rivière公司,Mihir Sanjay Kale先生,朱丽叶的爱,波亚·塔夫蒂,阿尔曼·朱林,诺亚·菲德尔,埃文·森特,陈玉田,斯里瓦桑·斯里尼瓦桑,纪尧姆·德斯贾丁斯,大卫·布登,阿诺·杜塞特,莎拉·维克兰,亚当·帕斯克,特雷弗·盖尔,塞巴斯蒂安·博尔盖乌德,赵开方,柏安地,安东尼娅·帕特森,珍妮·布伦南,梅格·里斯达尔,拉杰·冈德卢鲁,内什·德瓦纳坦,保罗·慕尼,尼莱·乔汉,菲尔·卡利顿,路易斯·古斯塔沃·马丁斯,伊丽莎·班迪,大卫·亨茨佩格,格伦·卡梅隆,亚瑟·祖克,特里斯·沃肯廷,卢多维克·佩兰,明江,邹宾·加拉马尼,克莱门·法拉贝特,科雷·卡武科格鲁,哈萨比斯,Raia Hadsell公司,叶惠德,南多·德弗里塔斯:
RecurrentGemma：超越高效开放语言模型的变形金刚。 CoRR公司腹肌/2404.07839(2024)
[i12]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2406-16768
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2406-16768
亚历山大·拉梅,约翰·费雷特,尼诺·维亚拉德,罗伯特·达达西,莱昂纳德·侯赛诺,皮埃尔·卢伊斯·塞多兹,朱塞佩·塞萨码头,谢尔坦·吉尔金,阿瑟·杜伊拉德,奥利维尔·巴瑟姆:
WARP：关于平均体重奖励政策的好处。 CoRR公司 abs/2406.16768(2024)
[i11]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2407-14622
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2407-14622
朱塞佩·塞萨码头,罗伯特·达达西,莱昂纳德·侯赛诺,约翰·费雷特,尼诺·维亚拉德,亚历山大·拉梅,博巴克·沙里亚里,莎拉·佩林,亚伯·弗里森,杰弗里·西德龙,谢尔坦·吉尔金,彼得·斯坦奇克,安德烈亚·米奇,丹尼拉·西诺帕尔尼科夫,萨贝拉·拉莫斯,Amélie Héliou,Aliaksei Severyn公司,马特哈夫曼,尼古拉·蒙切夫,奥利维尔·巴瑟姆:
BOND：将LLM与最佳N蒸馏相结合。 CoRR公司腹肌/240714622(2024)
[i10]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 轴颈/cor/abs-2407-15762
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2407-15762
王凯文,拉胡尔·基达姆比,瑞安·沙利文,阿列克·阿加瓦尔,克里斯托夫·丹恩,安德烈亚·米奇,马可·盖尔米,李云轩,拉哈夫古普塔,阿维纳瓦·杜比,亚历山大·拉梅,约翰·费雷特,杰弗里·西德龙,勒侯,余洪坤,阿姆尔·艾哈迈德,阿兰亚克·梅塔,莱昂纳德·侯赛诺,奥利维尔·巴瑟姆,爱德华·勒伦特:
条件语言策略：可控制多目标微调的通用框架。 CoRR公司 abs/2407.15762(2024)
[第九章]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2408-00118
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2408-00118
Morgane Rivière公司,Shreya Pathak先生,朱塞佩·塞萨码头,卡西迪·哈丁,苏里亚·布帕蒂拉朱,莱昂纳德·侯赛诺,托马斯·梅斯纳德,博巴克·沙里亚里,亚历山大·拉梅,约翰·费雷特,刘宇环,波亚·塔夫蒂,阿贝·弗里森,米歇尔·卡斯本,萨贝拉·拉莫斯,拉文·库马尔,查林·勒兰,萨米·杰罗姆,安东·齐斯普林,尼诺·维亚拉德,彼得·斯坦奇克,谢尔坦·吉尔金,尼古拉·蒙切夫,马特哈夫曼,Shantanu Thakoor公司,Jean-Bastien烧烤,贝南·奈沙布尔,奥利维尔·巴瑟姆,阿兰娜·沃尔顿,Aliaksei Severyn公司,艾丽西娅·帕里什,阿里亚·艾哈迈德,艾伦·哈奇森,阿尔文·阿卜杜吉奇,阿曼达·卡尔,沈美美（Amy Shen）,柏安地,安迪·科宁,安东尼·拉福吉,安东尼娅·帕特森,本·巴斯蒂安,比拉尔·皮奥,吴波,布兰登·罗亚尔,赵开方,钦图·库马尔,佩里,克里斯·韦尔蒂,Christopher A.Choquette Choo,丹尼拉·西诺帕尔尼科夫,大卫·温伯格,酒窝Vijaykumar,多米尼克·罗戈金斯卡,达斯汀·赫比森,伊丽莎·班迪,艾玛·王,埃里克·诺兰,埃里卡·莫雷拉,埃文·森特,叶夫根尼·埃尔蒂舍夫,弗朗西斯科·维辛,加布里埃尔·拉斯金,加里·韦,格伦·卡梅隆,古斯·马丁斯,哈迪·哈希米,汉娜·克里姆恰克·普鲁金斯卡,哈琳·巴特拉,哈什·达恩,伊万·纳迪尼,哈辛达·梅恩,杰克·周,詹姆斯·斯文森,杰夫·斯坦威,Jetha Chan公司,周金鹏,乔安娜·卡拉斯凯拉,乔安娜·伊尔贾齐,乔斯林·贝克尔,费尔南德斯,乔斯特·范·阿默斯福特,乔什·戈登,乔什·利普舒尔茨,乔什·纽兰,聚阳记,卡里姆·穆罕默德,卡提基亚·巴多拉,凯特·布莱克,凯蒂·米利肯,基林·麦克唐纳,开尔文·阮,基兰比尔·索迪亚,基什·格林,拉尔斯·洛·舍松德（Lars Lowe Sjösund）,劳伦·乌苏（Lauren Usui）,劳伦特·西弗雷,莉娜·豪尔曼,莱蒂西亚·拉戈,莉莉·麦克尼勒斯:
Gemma 2：在实际规模上改进开放语言模型。 CoRR公司 abs/2408.00118(2024)
2023
【c6】
- 看法
  权限控制：
- 出口记录
  dblp键：
  - conf/acl/RoitFSACDGGHKMG23
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/acl/RoitFSACDGGHKMG23网站
保罗·罗特,约翰·费雷特,利奥·沙尼,罗伊·阿哈罗尼,杰弗里·西德龙,罗伯特·达达西,马蒂厄·盖斯特,谢尔坦·吉尔金,莱昂纳德·侯赛诺,奥加德·凯勒,尼古拉·蒙切夫,萨贝拉·拉莫斯·加里亚,彼得·斯坦奇克,尼诺·维亚拉德,奥利维尔·巴瑟姆,加尔·埃利丹,阿维纳坦·哈西迪姆,奥利维尔·皮特金,伊丹·斯佩克托:
通过强化学习和文本隐含反馈实现事实一致性总结。 ACL（1） 2023:6252-6272
[i8]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/cor/abs-2306-00186
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2306-00186
保罗·罗特,约翰·费雷特,利奥·沙尼,罗伊·阿哈罗尼,杰弗里·西德龙,罗伯特·达达西,马蒂厄·盖斯特,谢尔坦·吉尔金,莱昂纳德·侯赛诺,奥加德·凯勒,尼古拉·蒙切夫,萨贝拉·拉莫斯,彼得·斯坦奇克,尼诺·维亚拉德,奥利维尔·巴瑟姆,加尔·埃利丹,阿维纳坦·哈西迪姆,奥利维尔·皮特金,伊丹·斯佩克托:
通过强化学习和语篇纠缠反馈进行事实一致的总结。 CoRR公司 abs/2306.00186(2023)
[i7]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2312-01072
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2312-01072
爱德华多·皮格纳特里,约翰·费雷特,马蒂厄·盖斯特,托马斯·梅斯纳德,哈多·范·哈塞尔特,劳拉·托尼:
深度强化学习中的时间学分分配研究。 CoRR公司 abs/2312.01072(2023)
2022
【b1】
- 看法
  - 电子版@archives-ouvertes.fr
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - 博士/哈尔/费雷特22
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/phd/hal/Ferret22
约翰·费雷特:
关于重要的行动：强化学习中的学分分配和可解释性。（对行动的重要性：指定审查和执行许可）。法国里尔大学，2022
【c5】
- 看法
  权限控制：
- 出口记录
  dblp键：
  - conf/atal/JacqFPG22
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/atal/JacqFPG22
亚历克西斯·雅克,约翰·费雷特,奥利维尔·皮特金,马蒂厄·盖斯特:
懒惰的MDPs：通过学习何时行动来实现可解释的RL。美国原子能机构 2022:669-677
[i6]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2203-08542
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2203-08542
亚历克西斯·雅克,约翰·费雷特,奥利维尔·皮特金,马蒂厄·盖斯特:
懒惰的MDPs：通过学习何时行动来实现可解释的强化学习。 CoRR公司腹肌/2203.08542(2022)
2021
【c4】
- 看法
  权限控制：
- 出口记录
  dblp键：
  - conf/atal/FerretPG21
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/atal/FerretPG21
约翰·费雷特,奥利维尔·皮特金,马蒂厄·盖斯特:
自我模仿优势学习。美国原子能机构 2021:501-509
【c3】
- 看法
  - 电子版@openreview.net（开放访问）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/iclr/Flet-BerliacFPP21
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/icr/Filet-BerliacFPP21
Yannis Flet-Berliac公司,约翰·费雷特,奥利维尔·皮特金,菲利普·普鲁克斯,马蒂厄·盖斯特:
对手指导演员-评论。 ICLR公司 2021
【c2】
- 看法
  - 电子版@neurips.cc（开放访问）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/nips/GrinsztajnFPPG21
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/nips/GrinsztajnFPPG21
内森·格林斯塔金,约翰·费雷特,奥利维尔·皮特金,菲利普·普鲁克斯,马蒂厄·盖斯特:
没有回头路：一种自我监督的可逆性强化学习方法。 NeurIPS公司 2021:1898-1911
[i5]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 轴颈/cor/abs-2102-04376
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2102-04376
Yannis Flet-Berliac公司,约翰·费雷特,奥利维尔·皮特金,菲利普·普鲁克斯,马蒂厄·盖斯特:
对抗性引导的演员评论家。 CoRR公司 abs/2102.04376(2021)
[i4]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 日记账/corr/abs-2106-04480
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2106-04480
内森·格林斯塔金,约翰·费雷特,奥利维尔·皮特金,菲利普·普鲁克斯,马蒂厄·盖斯特:
没有回头路：可逆性强化学习的自我监督方法。 CoRR公司 abs/2106.04480(2021)
[i3]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 期刊/corr/abs-210-10632
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2110-10632
托比·约翰斯通,内森·格林斯塔金,约翰·费雷特,菲利普·普鲁克斯:
更有效地探索动作序列等价的符号先验。 CoRR公司 abs/2110.10632(2021)
2020
【c1】
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - conf/ijcai/FerretMGP20
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/ijcai/FerretMGP20
约翰·费雷特,拉斐尔·马里尼尔,马蒂厄·盖斯特,奥利维尔·皮特金:
强化学习中转移的自我注意学分分配。国际JCAI 2020:2655-2661
[i2]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 期刊/corr/abs-2012-1989
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2012-11989
约翰·费雷特,奥利维尔·皮特金,马蒂厄·盖斯特:
自我模仿优势学习。 CoRR公司 abs/2012.11989(2020)

2010 – 2019

请参阅常见问题解答

出版物列表中颜色的含义是什么？

2019
[i1]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 期刊/corr/abs-1907-08027
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-1907-08027
约翰·费雷特,拉斐尔·马里尼尔,马蒂厄·盖斯特,奥利维尔·皮特金:
学分分配作为强化学习转移的代理。 CoRR公司 abs/1907.08027(2019)

合著者索引

请参阅常见问题解答

管理网站设置

为了保护您的隐私，所有依赖浏览器外部API调用的功能都是默认情况下关闭。你需要选择加入，让他们变得活跃。此处的所有设置将在您的web浏览器中存储为cookie。有关更多信息查看我们的F.A.Q。