这项工作特别关注于识别问答(QA)模型中的偏差。如果在现实生活中盲目地使用这些模型,这些模型中的偏见可能会造成真正的伤害,这就提出了一个问题:在问答模型中,社会成见有多广泛?
在AI2和UW的新的联合研究中,我们研究了流行的NLP组件产生问题内容的频率,是什么触发了给定系统的这种神经毒性退化,以及它是否能够成功避免。我们还研究了这些系统从中学习到的网络文本中有多少毒性,以了解为什么会发生毒性退化。
我们的事实验证演示是使用SciFact数据集构建的,SciFact数据集是由1.4K位专家撰写的科学声明与包含摘要的证据搭配在一起,并用标签和理据加以注释。
UnifiedQA是一个单独的预先训练的QA模型,它在跨越4种不同格式的17个QA数据集上表现得出奇地好。将质量保证统一到专门的模型中进行微调,可以在6个数据集上获得最新的技术水平,将此模型作为构建QA系统的有力起点。
SPIKE-CORD是一个功能强大的句子级、上下文感知和语言信息提取搜索系统,用于探索CORD-19语料库。
使用我们的探索性搜索工具,找出哪些小组正在朝着什么方向努力,看看生物医学概念如何随着时间的推移相互作用和演变,并发现新的联系。
规则制定者根据自然语言给出的规则来判断语句是真是假。
Computer Vision Explorer允许您尝试和比较与识别、视觉和语言、以人为中心的视觉和场景几何任务相关的各种流行计算机视觉模型。使用我们的示例图像或尝试使用您自己的图像。
QDMR CopyNet解析器的现场演示来自论文《分解:问题理解基准》(tacl2020)。解析器接收一个自然语言问题作为输入,并返回其问题分解意义表示(QDMR)。分解中的每一步都构成了回答原始问题所必需的子问题。 更多信息:https://allenai.github.io/Break/
AllenNLP解释工具集使得将基于梯度的显著性映射和对抗性攻击应用于新模型以及开发新的解释方法变得容易。包括三种最适用于前端解释的可重用的输入解释方法。