IIRC:不完全信息阅读理解问题数据集

@进行中{Ferguson2020IIRCAD,title={IIRC:不完全信息阅读理解问题数据集},author={詹姆斯·弗格森(James Ferguson)、马特·加德纳(Matt Gardner)、图沙尔·科特(Tushar Khot)和普拉迪普·达西吉(Pradeep Dasigi)},booktitle={自然语言处理经验方法会议},年份={2020年},网址={https://api.semanticscholar.org/CorpusID:226262208}}
一个包含英语维基百科段落中超过13K个问题的数据集,只提供了部分信息来回答这些问题,缺失的信息出现在一个或多个链接文档中,发现它在这项任务中实现了31.1%的F1,而估计的人因绩效是88.4%。

本文图表

询问这篇论文
AI供电

研究论文中的信息寻求问题和答案数据集

Qasper是一个包含1585篇自然语言处理论文中5049个问题的数据集,旨在促进基于文档的、寻求信息的QA,并发现在其他QA任务中表现良好的现有模型在回答这些问题时表现不佳。

QA数据集爆炸:用于问答和阅读理解的NLP资源分类

本研究是迄今为止NLP领域深度学习模型的最大调查,概述了当前资源的各种格式和领域,并强调了当前的不足,以供未来工作使用。

基于下游问答性能的检索数据增强

这项工作根据相关段落对训练有素的QA模型得出正确答案是否有用来识别相关段落,并根据QA模型的损失开发一个搜索过程,更好地推广到最终的QA任务。

条件问答:一个包含条件答案的复杂阅读理解数据集

研究表明,ConditionalQA对许多现有的QA模型都具有挑战性,尤其是在选择答案条件方面,它将激发对长文档中复杂问题的进一步研究。

深入研究长文档问题回答的LLM语篇结构

这项工作提出了一套技术,利用文档中常见的话语结构,创建文档的浓缩表示,从而更全面地理解和分析不同部分之间的关系。

利用检索边缘化缓解多文档问答中的假阴性语境

提出了一种新的集值检索参数化方法,用于处理无法回答的查询,结果表明,在训练过程中对该集进行边缘化可以减少支持证据注释的错误否定。

基于文档的QA评估LLM:精确答案选择和使用Cogtale数据集的数值提取

研究发现,LLM,特别是GPT-4,在给定相关上下文的情况下,可以准确回答许多单选和是非问题,证明了它们在信息检索任务中的有效性,并为正在进行的数据集评估提供了一个框架,确保信息检索和文档分析的LLM应用程序继续符合不断发展的标准。

使用理由生成和密集检索用较小的语言模型回答未知问题

单一最佳推理模型极大地改进了未发现评估数据集的强大可比先验基线,并且在较少的思想链和标准的少量设置方面,相对于更大的模型(BLOOM 175B和StableVicuna 13B),该模型通常优于直接提示。

教授较小的语言模型以概括看不见的构成问题

较小的语言模型能够概括回答训练中没有遇到的具有挑战性的合成问题,通过添加检索增强的训练数据集,可以显著提高性能,这些数据集旨在将作者的模型暴露于各种启发式推理策略。

SciMRC:多视角科学机器阅读理解

提出了一种新的多视角SMRC数据集,称为SciMRC,它包含了初学者、学生和专家的视角,这表明了考虑SMRC视角的重要性,并证明了其对机器理解的挑战性。

构建跨文档多点阅读理解的数据集

这是一项新任务,旨在鼓励开发跨多个文档的文本理解模型,并调查现有方法的局限性,在现有方法中,模型学会寻找和组合证据,从而有效地执行多跳、别名多步推理。

DROP:一个阅读理解基准,需要对段落进行离散推理

一个新的阅读理解基准DROP要求对段落的内容进行离散推理,并提出了一个新的模型,将阅读理解方法与简单的数字推理相结合,以实现51%的F1。

阅读理解的多数据综合评价

本文介绍了一个评估服务器ORB,它可以报告七个不同阅读理解数据集的性能,鼓励并促进测试单个模型理解各种阅读现象的能力。

Quoref:一个包含需要核心推理的问题的阅读理解数据集

这项工作提出了一个新的众包数据集,其中包含超过24K个跨选择问题,这些问题需要解决来自维基百科的超过47K个英语段落中实体之间的相互引用,并且表明,在这个基准上,最先进的阅读理解模型的表现明显不如人类。

与信息搜索代理的交互式机器理解

本文“屏蔽”文档的大部分文本,并添加上下文相关命令,以显示模型中隐藏文本的“一瞥”,并认为此设置有助于将模型扩展到web级QA场景。

TriviaQA:一个用于阅读理解的大规模远程监控挑战数据集

研究表明,与最近引入的其他大型数据集相比,TriviaQA具有相对复杂的组成问题,在问题和相应的答案证据句子之间具有相当大的句法和词汇可变性,并且需要更多的跨句推理来寻找答案。

SkuAD:100000多个机器理解文本的问题

建立了一个强大的logistic回归模型,F1得分为51.0%,比简单基线(20%)显著提高。

DuoRC:通过释义阅读理解实现复杂语言理解

DuoRC是一个新的阅读理解数据集(RC),它为神经方法在语言理解方面提出了一些新的挑战,超越了现有RC数据集所提供的挑战,并且可以补充其他RC数据集,以探索研究语言理解的新神经方法。

缺少什么:一种知识差距引导的多跳问答方法

开发了一种新的方法,明确识别所提供知识中的关键跨度和答案选择之间的知识差距,并基于针对该差距的检索知识,通过确定跨度和答案选项之间的关系来学习填补该差距。

知道你不知道的:SkuAD无法回答的问题

SQuadRUn是一个新的数据集,它将现有的斯坦福问答数据集(SQuAD)与50000多个由众工作者以敌对方式编写的无法回答的问题结合在一起,看起来与可回答的问题类似。