关于AllenNLP

AllenNLP团队设想以语言为中心的人工智能将公平地为人类服务。我们致力于改善NLP系统的性能和问责制,并推进评估和理解这些系统的科学方法。我们提供我们自己的、经过精心设计的开放源码工具的高影响力研究,以加速全球NLP研究。

特色软件

AI2探戈

用于编排机器学习研究的Python库。用可重复、可重用的步骤构建机器学习实验。

查看

AllenNLP库

用于构建最先进模型的自然语言处理平台。在PyTorch中解决自然语言处理任务的完整平台。

查看
  • 评估用于代码生成的库的上下文学习

    Arkil Patel、Siva Reddy、Dzmitry Bahdanau、Pradeep DasigiNAACL公司2024 当代大型语言模型(LLM)具有高度的代码生成和理解能力。一个特别有前途的领域是他们能够解释来自不熟悉库的代码模块,以解决用户指示的任务。最近的工作…
  • BTR:高效检索增强语言模型的二进制令牌表示

    曹庆庆、苏文敏、王毅忠、汉娜妮·哈吉什尔兹ICLR公司2024 检索增强解决了大型语言模型中的许多关键问题,如幻觉、陈腐和隐私泄漏。然而,由于要处理大量的…
  • MathVista:在视觉环境中评估基础模型的数学推理

    潘璐、Hritik Bansal、Tony Xia、Jiacheng Liu、Chun-yue Li、Hannaneh Hajishirzi、Hao Cheng、Kai-Wei Chang、Michel Galley、Jianfeng GaoICLR公司2024 大型语言模型(LLM)和大型多模态模型(LMM)在许多任务和领域中表现出令人印象深刻的问题解决能力,但它们在视觉环境中的数学推理能力尚未得到系统研究。为了弥合这一差距,我们…
  • 自我RAG:通过自我反思学习检索、生成和批判

    Akari Asai、Zeqiu Wu、Yizhong Wang、Avirup Sil、Hannaneh HajishirziICLR公司2024 尽管大型语言模型(LLM)具有非凡的功能,但由于它们仅依赖于所封装的参数知识,因此它们通常会产生包含事实不准确的响应。检索增强生成(RAG),一种特殊的方法…
  • SILO语言模型:隔离非参数数据存储中的法律风险

    Sewon Min、Suchin Gururangan、Eric Wallace、Hannaneh Hajishirzi、Noah A.Smith、Luke ZettlemoyerICLR公司2024 针对受版权保护或其他限制的数据训练语言模型(LM)的合法性正处于激烈的辩论中。然而,如我们所示,如果只对低风险文本(例如,盗版书籍或政府……)进行培训,模型性能会显著下降…

卡斯珀

研究论文的问答

一个包含1585篇论文的数据集,其中有5049个信息搜索问题,这些问题是由NLP论文的普通读者提出的,并由一组独立的NLP从业者回答的。

不完全信息阅读理解问题的数据集

维基百科段落中的13K阅读理解问题,需要在这些段落中链接到其他维基百科》页面

IIRC是一个由信息搜索问题组成的众包数据集,需要模型识别并检索原始上下文中缺少的必要信息。每个原始上下文都是英文维基百科中的一段,它附带了一组指向其他维基基百科页面的链接,回答这些问题需要找到合适的链接,然后从原始上下文中缺失的链接页面中检索相关信息。

ZEST:ZEroShot从任务描述中学习

ZEST是对未知NLP任务进行零快照泛化的基准,1251个不同任务中有25K个标记实例。

ZEST测试NLP系统是否可以在给定任务的自然语言描述的情况下以零快照方式执行看不见的任务。它是我们提出的“从任务描述中学习”框架的一个实例。这些任务包括分类、类型化实体提取和关系提取,每个任务都与20个不同的注释(输入、输出)示例配对。ZEST的结构允许我们系统地测试模型是否可以用五种不同的方式进行概括。

摩卡

用于训练和评估生成性阅读理解指标的基准。

将阅读理解视为一个代际问题提供了很大的灵活性,允许提出开放式问题,对可能的答案几乎没有限制。然而,现有的生成指标阻碍了进展,这些指标依赖于标记重叠,并且不知道阅读理解的细微差别。为了解决这个问题,我们引入了一个训练和评估生成性阅读理解指标的基准:用人工注释来表达正确性。MOCHA包含6个不同的问答数据集的模型输出的40K人类判断分数,以及一组额外的用于评估的最小对。使用MOCHA,我们训练一个评价指标:LERC,一个用于阅读理解的学习评价指标,以模拟人类的判断分数。

专家发现,随着人工智能工具变得越来越智能,它们越来越隐秘地带有种族主义色彩

《卫报》
2024年3月16日
阅读文章

Chatbot AI基于方言做出种族主义判断

自然
2024年3月13日
阅读文章

AI聊天机器人即使在反种族主义培训后也使用种族主义刻板印象

新科学家
2024年3月7日
阅读文章

AI的气候影响超出了其排放量

科学美国人
2023年12月7日
阅读文章

窥探潘多拉盒子:用“我的大数据中有什么”揭示语言模型数据集的隐藏复杂性?(WIMBD)

Marktechpost公司
2023年11月5日
阅读文章

你的个人信息可能被用来训练生成性人工智能模型

科学美国人
2023年10月19日
阅读文章

人工智能变得越来越强大,但也越来越神秘

有线
2023年10月19日
阅读文章

让类似人工智能的ChatGPT听起来更聪明的网站秘密列表

《华盛顿邮报》
2023年4月19日
阅读文章

播客

  • NLP亮点

    NLP Highlights是AllenNLP的播客,用于讨论最近与自然语言处理相关的有趣工作。来自AI2 AllenNLP团队的主持人会对论文进行简短的讨论,偶尔还会采访作者关于他们的工作。

    您还可以在上找到NLP亮点苹果播客,Spotify网站,播放器调频,或缝合机