论文

参见AI2 获奖论文

了解有关AI2的更多信息持久影响力奖

查看第1-10页，共991页

ADaPT：基于语言模型的按需分解与规划
阿奇基·普拉萨德、亚历山大·科勒、马雷克·哈特曼、彼得·克拉克、阿什什·萨巴瓦尔、莫希特·班萨尔、图沙尔·科特全国有色人种协进会调查结果•2024 大型语言模型（LLM）越来越多地用于需要规划和适应环境的交互式决策任务。最近的工作主要以两种方式使用LLM作为代理：迭代确定下一个动作（迭代…
相关：
演示代码
评估用于代码生成的库的上下文学习
Arkil Patel、Siva Reddy、Dzmitry Bahdanau、Pradeep DasigiNAACL公司•2024 当代大型语言模型（LLM）具有高度的代码生成和理解能力。一个特别有前途的领域是他们能够从不熟悉的库中解释代码模块，以解决用户构建的任务。最近的工作…
利用代码改进语义分析的In-context学习
Ben Bogin、Shivanshu Gupta、Peter Clark、Ashish SabharwalNAACL公司•2024 在语义分析中，上下文内学习（ICL）以其较少的快照和改进的泛化能力而备受关注。然而，从几个演示中学习解析为罕见的领域特定语言（DSL）是一项挑战，限制了…
相关：
代码
QualEval：模型改进的定性评估
维什瓦克·穆拉哈里（Vishvak Murahari）、阿梅特·德斯潘德（Amee Deshpande）、彼得·克拉克（Peter Clark）、坦马·拉杰普罗希特（Tanmay Rajpurohit）、阿什什·萨巴瓦尔（Ashish Sabharwal）、卡西克·纳拉西姆汉（NAACL公司•2024 传统上，定量评估指标在衡量人工智能系统（包括大型语言模型（LLM））的进步方面至关重要。然而，这些指标具有固有的局限性。考虑到现实世界的复杂性…
相关：
代码
使用基于优势的脱机策略渐变改进语言模型
阿什图什·巴赫蒂、西明·卢、费兹·布拉曼、罗南·勒布拉斯、马尔滕·萨普、马克·里德尔ICLR公司•2024 当使用人工反馈强化学习（RLHF）进行微调时，语言模型（LM）可实现实质性的语言能力。然而，RLHF是一个不稳定且数据冗余的过程，它不断需要新的高质量LM生成的数据用于…
偏见根深蒂固：人格化LLM中的隐含推理偏见
Shashank Gupta、Vaishnavi Shrivastava、A.Deshpande、A.Kalyan、Peter Clark、Ashish Sabharwal、Tushar KhotICLR公司•2024 最近的作品展示了LLM在回应中体现不同人物角色的能力，例如提示“Youare Yoda”。解释相对论。”虽然此功能允许LLM个性化并支持人类行为…
相关：
数据集代码
BTR：高效检索增强语言模型的二进制令牌表示
曹庆庆、苏文敏、王毅忠、汉娜妮·哈吉什尔兹ICLR公司•2024 检索增强解决了大型语言模型中的许多关键问题，如幻觉、陈腐和隐私泄漏。然而，由于要处理大量的…
MathVista：在视觉环境中评估基础模型的数学推理
Pan Lu、Hritik Bansal、Tony Xia、刘家成、李春月、Hannaeh Hajishirzi、Hao Cheng、Kai Wei Chang、Michel Galley、Jianfeng GaoICLR公司•2024 大型语言模型（LLM）和大型多模态模型（LMM）在许多任务和领域中表现出令人印象深刻的问题解决能力，但它们在视觉环境中的数学推理能力尚未得到系统研究。为了弥合这一差距，我们…
自我RAG：通过自我反思学习检索、生成和批判
Akari Asai、Zeqiu Wu、Yizhong Wang、Avirup Sil、Hannaneh HajishirziICLR公司•2024 尽管大型语言模型（LLM）具有卓越的功能，但由于其仅依赖于其封装的参数化知识，因此通常会产生包含事实错误的响应。检索增强生成（RAG），一种特殊的方法…
SILO语言模型：非参数数据存储中的法律风险隔离
Sewon Min、Suchin Gururangan、Eric Wallace、Hannaneh Hajishirzi、Noah A.Smith、Luke ZettlemoyerICLR公司•2024 针对受版权保护或其他限制的数据训练语言模型（LM）的合法性正处于激烈的辩论中。然而，如我们所示，如果只对低风险文本（例如，盗版书籍或政府……）进行培训，模型性能会显著下降…

自然语言处理

计算机视觉

AI为环境服务

实验与交流

研究

研究

论文

ADaPT：基于语言模型的按需分解与规划

评估用于代码生成的库的上下文学习

利用代码改进语义分析的In-context学习

QualEval：模型改进的定性评估

使用基于优势的脱机策略渐变改进语言模型

偏见根深蒂固：人格化LLM中的隐含推理偏见

BTR：高效检索增强语言模型的二进制令牌表示

MathVista：在视觉环境中评估基础模型的数学推理

自我RAG：通过自我反思学习检索、生成和批判

SILO语言模型：非参数数据存储中的法律风险隔离