AI2型欧文

关于

AI2欧文办公室是AI2科学家与加州大学欧文分校师生合作,于2018年5月在加州大学欧文校区成立。AI2的任务是通过高影响力的人工智能研究和工程来为人类做出贡献。

AI2欧文团队

我们的焦点

ai2irvine的重点是让机器阅读和理解文本的基础性长期研究。这包括仔细定义读取的含义,构建读取的模型,以及理解模型在对现有数据集进行操作时的实际操作。我们已经建立了大量语言驱动的数据集,旨在突破机器阅读的界限。

我们的建模进展旨在对长文本序列进行可解释的合成推理。通过数据集构建和建模开发,我们使用最先进的数据集构造和模型分析技术(其中一些技术是我们自己开发的),努力确保模型的性能良好。

ai2irvine团队与加州大学欧文分校有着密切的研究合作。

团队

所有2位欧文会员

  • 马特·加德纳的个人资料照片马特·加德纳研究
  • 桑杰·苏布拉曼尼的资料照片桑杰·苏布拉曼尼亚博士前青年调查员

实习生

  • 尼蒂什·古普塔的资料照片尼蒂什·古普塔实习生

校友

  • 强宁资料照片强宁研究
  • 猎户座韦勒的资料照片猎户座韦勒实习生
  • 刘建明资料照片刘建明名实习生
  • 埃里克·华莱士的个人资料照片埃里克·华莱士实习生
  • 王一忠资料照片王一忠实习生

加州大学欧文分校合作者

  • 萨梅尔·辛格的资料照片萨米尔·辛格助理教授
  • 陈冠希资料照片陈哲艺博士生
  • 杜瓦的资料照片杜瓦博士生
  • 罗伯特·L·洛根四世的资料照片罗伯特·L·洛根四世博士生
  • NLP模型预测的解释框架|阿伦尼普,艾尔文

    AllenNLP解释工具集使得将基于梯度的显著性映射和对抗性攻击应用于新模型以及开发新的解释方法变得容易。AllenNLP解释包含三个组件:一套适用于大多数模型的解释技术、开发新解释方法的api(例如,获取输入梯度的api)和用于可视化解释结果的可重用前端组件。

    尝试演示
    AllenNLP解释文本图像
  • AllenNLP解释文本图像
    NLP模型预测的解释框架|阿伦尼普,艾尔文

    AllenNLP解释工具集使得将基于梯度的显著性映射和对抗性攻击应用于新模型以及开发新的解释方法变得容易。AllenNLP解释包含三个组件:一套适用于大多数模型的解释技术、开发新解释方法的api(例如,获取输入梯度的api)和用于可视化解释结果的可重用前端组件。

    尝试演示
  • AllenNLP演示
    最先进的开源NLP研究图书馆|阿伦尼普

    AllenNLP是一个开源的NLP研究库,它使研究人员能够轻松地为几乎任何NLP问题设计和评估新的深度学习模型,并使几个重要的NLP模型和工具的最新实现随时可供研究人员使用和构建。

    尝试演示
  • AllenNLP演示
    最先进的开源NLP研究图书馆|阿伦尼普

    AllenNLP是一个开源的NLP研究库,它使研究人员能够轻松地为几乎任何NLP问题设计和评估新的深度学习模型,并使几个重要的NLP模型和工具的最新实现随时可供研究人员使用和构建。

    尝试演示
    • 使用Crowdaq轻松、可重复和质量控制的数据收集

      强宁、吴浩、普拉迪普·达西吉、杜阿鲁、马特·加德纳、罗根、安娜·马拉索维奇、Z.聂EMNLP•演示2020
      高质量和大规模的数据是人工智能系统成功的关键。然而,大规模的数据注释工作常常面临一系列共同的挑战:(1)设计一个用户友好的注释界面;(2)有效地培训足够多的注释器;(3)可重复性。为了解决这些问题,我们引入了Crowdaq,一个开源平台,它通过可定制的用户界面组件、自动注释器限定和以可重用格式保存的管道来标准化数据收集管道。我们展示了Crowdaq在一组不同的数据收集用例上大大简化了数据注释,我们希望它将成为社区的一个方便工具。
    • IIRC:不完全信息阅读理解问题的数据集

      詹姆斯·弗格森,马特·加德纳。Hannaneh Hajishirzi,Tushar Khot,Pradeep DasigiEMNLP公司2020
      人类经常需要阅读多个文档来满足他们的信息需求。然而,大多数现有的阅读理解任务只关注于语境提供了回答问题所需的所有信息的问题,因此没有评估系统在识别潜在的信息不足和定位信息来源方面的性能。为了填补这一空白,我们提出了一个数据集IIRC,其中有13K多个问题,这些问题来自英文维基百科,这些段落只提供部分信息来回答这些问题,缺失的信息出现在一个或多个链接文档中。这些问题是由人群工作者撰写的,他们无法访问任何相关文档,导致问题与答案出现的上下文几乎没有词汇重叠。这个过程也给出了许多没有答案的问题,以及那些需要离散推理的问题,增加了任务的难度。我们根据最近对各种阅读理解数据集的建模工作,为这个数据集构建了一个基线模型,发现在这个任务上它达到了31.1%的F1,而估计的人的绩效是88.4%。数据集、基线系统代码和排行榜可以在https://allennlp.org/iirc找到。
    • 语义分析中合成泛化的改进

      英巴·奥伦、乔纳森·赫齐格、尼蒂什·古普塔、马特·加德纳、乔纳森·贝兰特EMNLP的发现2020
      将模型推广到分布外(OOD)数据最近引起了广泛的关注。具体地说,合成泛化,即一个模型是否能推广到由训练过程中观察到的组件构建的新结构,已经引起了人们的极大兴趣。在这项工作中,我们研究了语义分析中的合成泛化,这是一个自然的合成泛化测试平台,因为输出程序是由子组件构造的。我们分析了各种各样的模型,并对语义解析器的注意力模块提出了多个扩展,以提高组合的泛化能力。我们发现,以下因素改善了合成泛化:(a)使用上下文表示,如ELMo和BERT,(b)通知解码器先前处理过哪些输入标记,(c)训练解码器注意与预先计算的标记对齐一致,以及(d)对应于频繁程序模板的下采样示例。虽然我们在很大程度上缩小了分布和OOD泛化之间的差距,但是OOD组合的性能仍然相当低。
    • 从任务描述中学习

      猎户座韦勒,尼克·劳里,马特·加德纳,马修·彼得斯EMNLP公司2020
    • 医学:医学图像、标题和文本参考的数据集

      Sanjay Subramanian、Lucy Lu Wang、Sachin Mehta、Ben Bogin、Madeleine van Zuylen、Sravanthi Parasa、Sameer Singh、Matt Gardner、Hannaneh HajishirziNLEMP的发现2020
      理解数字与文本的关系是科学文献理解的关键。尤其是医学数字是相当复杂的,通常由几个亚图形组成(在我们的数据集中有75%的数字),并有详细的文本描述其内容。以前研究科学论文中的数字的工作集中在对图形内容进行分类,而不是理解图像与文本的关系。为了解决图形检索和图到文本对齐的挑战,我们介绍了MedICaT,一个医学图像上下文数据集。MedICaT由来自131K篇开放获取生物医学论文的217K张图像组成,包括标题、74%的图形的内联参考以及为一个子集手动注释的子图形和子选项。使用MedICaT,我们介绍了子图形到复合图形中子选项对齐的任务,并演示了内联引用在图像文本匹配中的应用。我们的数据和代码可以访问https://github.com/allenai/medicat

    从任务描述中零距离学习

    ZEST是一个基准,用于将零快照泛化到看不见的NLP任务,在1251个不同的任务中有25K个标记实例。

    ZEST测试NLP系统是否能够以零触发的方式执行看不见的任务,给出任务的自然语言描述。它是我们提出的“从任务描述中学习”框架的一个实例。任务包括分类、类型化实体提取和关系提取,每个任务都有20个不同的注释(输入、输出)示例。ZEST的结构使我们能够系统地测试模型是否可以用五种不同的方式进行概括。

    夸雷夫

    24K个QA对,超过4.7K段,在列车(19K QAs)、开发(2.4K QAs)和隐藏测试分区(2.5K QAs)之间拆分。

    qoref是一个测试阅读理解系统核心推理能力的QA数据集。在这个包含24K个问题(超过4.7K个段落的Wikipedia段落)的范围选择基准测试中,系统必须先解决硬引用问题,然后才能在段落中选择合适的跨度来回答问题。

    绳索

    超过1.7K段的14k个QA对,在列车(10k QAs)、开发(1.6k QAs)和隐藏测试分区(1.7K QAs)之间拆分。

    ROPES是一个QA数据集,它测试系统将文本中的知识应用到新情况的能力。一个系统是一个背景段落,其中包含一个因果关系或定性关系,一个使用这个背景的新颖情境,以及需要在情境背景下推理背景段落中关系影响的问题。

    放下

    DROP数据集包含超过6.7K段的96k个QA对,在列车(77k QAs)、开发(9.5k QAs)和隐藏测试分区(9.5k QAs)之间分割。

    DROP是一个QA数据集,用于测试段落的全面理解。在这个众包、对手创建的96k问题回答基准测试中,系统必须解析一个问题中的多个引用,将它们映射到一个段落中,并对它们执行离散操作(例如加法、计数或排序)。

    ICS与AI2的合作导致了一个新的工具包和最佳演示文件奖

    UCI计算机科学系
    2019年11月19日
    阅读文章

    AI/NLP与Allen Institute for AI的合作研究

    UCI慢性粒细胞白血病
    2019年9月30日
    阅读文章

    ICS与Allen人工智能研究所合作推进机器学习

    UCI计算机科学系
    2019年4月24日
    阅读文章