基安特·布兰特利
人员信息
优化列表
2020年–今天
2024 [第12条] 基安特·布兰特利 , 致冲方 , 莎拉·迪恩 , 托尔斯滕·约阿希姆斯 以下为:
长期约束排名。 WSDM公司 2024 以下为: 47-56 [i18] 高兆林 , 基安特·布兰特利 , 托尔斯滕·约阿希姆斯 以下为:
审阅者2:通过提示生成优化审阅生成。 CoRR公司 abs/2402.10886 ( 2024 ) [i17] 安妮·吴 , 基安特·布兰特利 , 约夫·阿尔齐 以下为:
意外的失败? 多模式LLM和NLVR挑战。 CoRR公司 abs/2402.17793 ( 2024 ) [i16] 欧文·欧特尔 , 乔纳森·D·张 , 张艺怡(Yiyi Zhang) , 基安特·布兰特利 , 文森(Wen Sun) 以下为:
一致性模型RL:更快的奖励引导文本到图像生成。 CoRR公司 abs/2404.03673 ( 2024 ) 【i15】 乔纳森·D·张 , 詹文浩 , 欧文·欧特尔 , 基安特·布兰特利 , 迪潘德拉·米斯拉 , 杰森·D·李 , 文森(Wen Sun) 以下为:
RLHF数据集重置策略优化。 CoRR公司 abs/2404.08495 ( 2024 ) [第14条] 乔纳森·D·张 , Druv Sreenivas博士 , 黄英兵 , 基安特·布兰特利 , 文森(Wen Sun) 以下为:
通过助推进行对抗性模仿学习。 CoRR公司 abs/2404.08513 ( 2024 ) 2023 [第11条] 安妮·吴 , 基安特·布兰特利 , 小岛正之 , 约夫·阿尔齐 以下为:
lilGym:自然语言视觉推理与强化学习。 ACL(1) 2023 以下为: 9214-9234 [第10条] 费利克斯·福廷斯 , 米歇尔·加利 , 基安特·布兰特利 , 彭宝林 , 蔡伟新 , 张一哲 , 高剑锋 , 比尔·多兰 以下为:
交互式文本生成。 EMNLP公司 2023 以下为: 4450-4468 【c9】 拉吉库马尔·拉马默西 , 阿马纳布罗Prithviraj , 基安特·布兰特利 , 杰克·海塞尔 , 筏式Sifa , 克里斯蒂安·巴克哈(Christian Bauckhage) , Hannaneh Hajishirzi公司 , 蔡叶进(Yejin Choi) 以下为:
强化学习是否适用于自然语言处理:自然语言策略优化的基准、基线和构建块。 ICLR公司 2023 [i13] 费利克斯·福廷斯 , 米歇尔·加利 , 彭宝林 , 基安特·布兰特利 , 蔡伟新 , 张一哲 , 高剑锋 , 比尔·多兰 以下为:
交互式文本生成。 CoRR公司 abs/2303.00908 ( 2023 ) [i12] 乔纳森·张 , 基安特·布兰特利 , 拉吉库马尔·拉马默西 , 迪潘德拉·米斯拉 , 文森(Wen Sun) 以下为:
学习创造比你的LLM更好的东西。 CoRR公司 abs/2306.11816 ( 2023 ) [i11] 基安特·布兰特利 , 致冲方 , 莎拉·迪恩 , 托尔斯滕·约阿希姆斯 以下为:
长期约束排名。 CoRR公司 abs/2307.04923 ( 2023 ) [i10] 葛高 , 乔纳森·D·张 , 克莱尔·卡迪 , 基安特·布兰特利 , 托尔斯滕·约阿希姆斯 以下为:
排名语言模型的政策梯度培训。 CoRR公司 abs/2310.04407 ( 2023 ) 2022 [i9] 拉吉库马尔·拉马默西 , 阿马纳布罗Prithviraj , 基安特·布兰特利 , 杰克·海塞尔 , 筏式Sifa , 克里斯蒂安·巴克哈(Christian Bauckhage) , Hannaneh Hajishirzi公司 , 蔡叶进(Yejin Choi) 以下为:
强化学习(不是)用于自然语言处理吗 自然语言策略优化的基准、基线和构建块。 CoRR公司 abs/2210.01241 ( 2022 ) [i8] 安妮·吴 , 基安特·布兰特利 , 小岛正之 , 约夫·阿尔齐 以下为:
lilGym:自然语言视觉推理与强化学习。 CoRR公司 abs/2211.01994 ( 2022 ) 2021 【b1】 基安特·布兰特利 以下为:
连续决策和预测的专家循环。 马里兰大学,帕克学院,医学博士,美国, 2021 【c8】 基安特·布兰特利 , 索鲁什·梅赫里 , 杰弗里·戈登 以下为:
后续功能集:跨策略通用后续功能表示。 AAAI公司 2021 以下为: 11774-11781 [i7] 基安特·布兰特利 , 索鲁什·梅赫里 , 杰弗里·戈登 以下为:
后续功能集:跨策略通用后续表示。 CoRR公司 abs/2103.02650 ( 2021 ) 2020 【c7】 基安特·布兰特利 , 哈尔·达美三世 , 阿姆尔·沙拉夫 以下为:
有噪音指导的主动模拟学习。 国际计算语言学协会 2020 以下为: 2093-2105 【c6】 基安特·布兰特利 , 文森(Wen Sun) , 米凯尔·赫纳夫 以下为:
分歧-规则化模仿学习。 ICLR公司 2020 【c5】 基安特·布兰特利 , 米罗斯拉夫·杜迪克 , 利库里氏梭菌 , Sobhan Miryoosefi公司 , 马克斯·辛乔维茨 , Aleksandrs Slivkins公司 , 文森(Wen Sun) 以下为:
凹凸和背包环境下的受限情景强化学习。 NeurIPS公司 2020 [i6] 基安特·布兰特利 , 阿姆尔·沙拉夫 , 哈尔·达美三世 以下为:
有噪音指导的主动模拟学习。 CoRR公司 abs/2005.12801 ( 2020 ) [i5] 基安特·布兰特利 , 米罗斯拉夫·杜迪克 , 利库里氏梭菌 , 索班·米廖塞菲 , 马克斯·辛乔维茨 , Aleksandrs Slivkins公司 , 文森(Wen Sun) 以下为:
凹凸和背包环境下的受限情景强化学习。 CoRR公司 abs/2006.05051 ( 2020 )
2010 – 2019
2019 【c4】 基安特·布兰特利 , Kyunghyun Cho(赵京贤) , 哈尔·达美三世 , 肖恩·威利克 以下为:
非单调序列文本生成。 WNLP@ACL 2019 以下为: 57-59 【c3】 肖恩·威利克 , 基安特·布兰特利 , 哈尔·道梅三世 , Kyunghyun Cho(赵京贤) 以下为:
非单调序列文本生成。 ICML公司 2019 以下为: 6716-6726 【c2】 索班·米廖塞菲 , 基安特·布兰特利 , 哈尔·达美三世 , 米罗斯拉夫·杜迪克 , 罗伯特·夏皮雷 以下为:
凸约束强化学习。 NeurIPS公司 2019 以下为: 14070-14079 [i4] 肖恩·威利克 , 基安特·布兰特利 , 哈尔·达美三世 , Kyunghyun Cho(赵京贤) 以下为:
非单调序列文本生成。 CoRR公司 abs/1902.02192 ( 2019 ) [i3] Sobhan Miryoosefi公司 , 基安特·布兰特利 , 哈尔·达美三世 , 米罗斯拉夫·杜迪克 , 罗伯特·夏皮雷 以下为:
凸约束强化学习。 CoRR公司 abs/1906.09323 ( 2019 ) 2017 【c1】 阿姆尔·沙拉夫 , 石峰 , Khanh Nguyen先生 , 基安特·布兰特利 , 哈尔·达美三世 以下为:
WMT17 Bandit学习任务中的UMD神经机器翻译系统。 WMT公司 2017 以下为: 667-673 [i2] 阿姆尔·沙拉夫 , 石峰 , Khanh Nguyen公司 , 基安特·布兰特利 , 哈尔·达美三世 以下为:
WMT17 Bandit学习任务中的UMD神经机器翻译系统。 CoRR公司 abs/1708.01318 ( 2017 ) 2015 [i1] 阿什文库马尔·加内桑 , 基安特·布兰特利 , 潘石美 , 陈健(Jian Chen) 以下为:
LDAExplore:可视化使用潜在Dirichlet分配生成的主题模型。 CoRR公司 abs/1507.06593 ( 2015 )