内政部：10.18653/v1/2020.emnlp-main.86
语料库ID:226262208

IIRC：不完全信息阅读理解问题数据集

@进行中{Ferguson2020IIRCAD，title={IIRC:不完全信息阅读理解问题数据集}，author={詹姆斯·弗格森（James Ferguson）、马特·加德纳（Matt Gardner）、图沙尔·科特（Tushar Khot）和普拉迪普·达西吉（Pradeep Dasigi）}，booktitle={自然语言处理经验方法会议}，年份={2020年}，网址={https://api.semanticscholar.org/CorpusID:226262208}}

詹姆斯·弗格森马特·加德纳 Pradeep Dasigi公司
已发布在里面实证会议… 2020年11月1日
计算机科学

一个包含英语维基百科段落中超过13K个问题的数据集，只提供了部分信息来回答这些问题，缺失的信息出现在一个或多个链接文档中，发现它在这项任务中实现了31.1%的F1，而估计的人因绩效是88.4%。

[PDF]语义阅读器

38引文

极具影响力的引文

6

19

17

本文图表

话题

IIRC公司阅读理解链接的文档词汇重叠离散推理人群工作者英语维基百科排行榜

询问这篇论文
贝塔
AI供电

我们的系统试图限制本文中找到的信息。结果质量可能有所不同。了解更多信息关于我们如何产生这些答案。

反馈？

研究论文中的信息寻求问题和答案数据集

Pradeep Dasigi公司凯尔·洛伊兹·贝尔塔基阿曼·科汉诺亚·A·史密斯马特·加德纳

计算机科学、语言学

2021

Qasper是一个包含1585篇自然语言处理论文中5049个问题的数据集，旨在促进基于文档的、寻求信息的QA，并发现在其他QA任务中表现良好的现有模型在回答这些问题时表现不佳。

127

[PDF]（PDF格式）

QA数据集爆炸：用于问答和阅读理解的NLP资源分类

安娜·罗杰斯马特·加德纳伊莎贝尔·奥根斯坦

计算机科学、语言学

ACM计算。Surv公司。

2023

本研究是迄今为止NLP领域深度学习模型的最大调查，概述了当前资源的各种格式和领域，并强调了当前的不足，以供未来工作使用。

123

[PDF]（PDF格式）

基于下游问答性能的检索数据增强

詹姆斯·弗格森Hannaneh Hajishirzi公司Pradeep Dasigi公司图沙尔河

计算机科学

发热

2022

这项工作根据相关段落对训练有素的QA模型得出正确答案是否有用来识别相关段落，并根据QA模型的损失开发一个搜索过程，更好地推广到最终的QA任务。

条件问答：一个包含条件答案的复杂阅读理解数据集

海地太阳威廉·科恩R.Salakhutdinov先生

计算机科学

辅助控制线

2022

研究表明，ConditionalQA对许多现有的QA模型都具有挑战性，尤其是在选择答案条件方面，它将激发对长文档中复杂问题的进一步研究。

[PDF]（PDF格式）

深入研究长文档问题回答的LLM语篇结构

因德吉特·奈尔Shwetha Somasundaram公司Apoorv Saxena公司库斯塔瓦·戈斯瓦米

计算机科学

2023

这项工作提出了一套技术，利用文档中常见的话语结构，创建文档的浓缩表示，从而更全面地理解和分析不同部分之间的关系。

[PDF]（PDF格式）

利用检索边缘化缓解多文档问答中的假阴性语境

倪安松马特·加德纳Pradeep Dasigi公司

计算机科学

2021

提出了一种新的集值检索参数化方法，用于处理无法回答的查询，结果表明，在训练过程中对该集进行边缘化可以减少支持证据注释的错误否定。

[PDF]（PDF格式）

基于文档的QA评估LLM：精确答案选择和使用Cogtale数据集的数值提取

扎法利亚布·拉苏尔斯科特·巴内特亚历克斯·巴哈尔·福奇斯（Alex Bahar-Fuchs）

计算机科学

2023

研究发现，LLM，特别是GPT-4，在给定相关上下文的情况下，可以准确回答许多单选和是非问题，证明了它们在信息检索任务中的有效性，并为正在进行的数据集评估提供了一个框架，确保信息检索和文档分析的LLM应用程序继续符合不断发展的标准。

[PDF]（PDF格式）

使用理由生成和密集检索用较小的语言模型回答未知问题

蒂姆·哈特尔戴安娜·贝纳维德斯·普拉多M.Witbrock先生帕特里夏·J·里德尔

计算机科学

2023

单一最佳推理模型极大地改进了未发现评估数据集的强大可比先验基线，并且在较少的思想链和标准的少量设置方面，相对于更大的模型（BLOOM 175B和StableVicuna 13B），该模型通常优于直接提示。

[PDF]（PDF格式）

教授较小的语言模型以概括看不见的构成问题

蒂姆·哈特尔N.Tan（北谭）M.Witbrock先生帕特里夏·J·里德尔

计算机科学、语言学

2023

较小的语言模型能够概括回答训练中没有遇到的具有挑战性的合成问题，通过添加检索增强的训练数据集，可以显著提高性能，这些数据集旨在将作者的模型暴露于各种启发式推理策略。

[PDF]（PDF格式）

SciMRC：多视角科学机器阅读理解

小张和其正聂玉祥黄和彦毛显灵

计算机科学

2023

提出了一种新的多视角SMRC数据集，称为SciMRC，它包含了初学者、学生和专家的视角，这表明了考虑SMRC视角的重要性，并证明了其对机器理解的挑战性。

[PDF]（PDF格式）

构建跨文档多点阅读理解的数据集

约翰内斯·韦尔布尔蓬特斯·斯坦托普S.里德尔

计算机科学

2018

这是一项新任务，旨在鼓励开发跨多个文档的文本理解模型，并调查现有方法的局限性，在现有方法中，模型学会寻找和组合证据，从而有效地执行多跳、别名多步推理。

459

[PDF]（PDF格式）

DROP：一个阅读理解基准，需要对段落进行离散推理

迪鲁·杜阿王一忠Pradeep Dasigi公司加布里埃尔·斯坦诺夫斯基萨米尔·辛格马特·加德纳

计算机科学

2019

一个新的阅读理解基准DROP要求对段落的内容进行离散推理，并提出了一个新的模型，将阅读理解方法与简单的数字推理相结合，以实现51%的F1。

678

[PDF]（PDF格式）

阅读理解的多数据综合评价

迪鲁·杜阿阿南斯·戈图穆卡拉阿隆·塔尔莫尔萨米尔·辛格马特·加德纳

计算机科学、语言学

2019

本文介绍了一个评估服务器ORB，它可以报告七个不同阅读理解数据集的性能，鼓励并促进测试单个模型理解各种阅读现象的能力。

10

[PDF]（PDF格式）

Quoref：一个包含需要核心推理的问题的阅读理解数据集

Pradeep Dasigi公司尼尔森·F·刘阿娜·马拉索维奇诺亚·A·史密斯马特·加德纳

计算机科学

2019

这项工作提出了一个新的众包数据集，其中包含超过24K个跨选择问题，这些问题需要解决来自维基百科的超过47K个英语段落中实体之间的相互引用，并且表明，在这个基准上，最先进的阅读理解模型的表现明显不如人类。

[PDF]（PDF格式）

与信息搜索代理的交互式机器理解

兴地园杰福马克·阿莱克安德烈·科特易泰C.帕尔亚当·特里施勒

计算机科学

辅助控制线

2020

本文“屏蔽”文档的大部分文本，并添加上下文相关命令，以显示模型中隐藏文本的“一瞥”，并认为此设置有助于将模型扩展到web级QA场景。

TriviaQA：一个用于阅读理解的大规模远程监控挑战数据集

曼达尔·乔希蔡恩索尔丹尼尔·维尔德卢克·泽特莫耶

计算机科学、语言学

辅助控制线

2017

研究表明，与最近引入的其他大型数据集相比，TriviaQA具有相对复杂的组成问题，在问题和相应的答案证据句子之间具有相当大的句法和词汇可变性，并且需要更多的跨句推理来寻找答案。

[PDF]（PDF格式）

SkuAD:100000多个机器理解文本的问题

普拉纳夫·拉贾普卡尔张健（Jian Zhang）康斯坦丁·洛佩列夫珀西·梁

计算机科学

2016

建立了一个强大的logistic回归模型，F1得分为51.0%，比简单基线（20%）显著提高。

6,725

[PDF]（PDF格式）

DuoRC：通过释义阅读理解实现复杂语言理解

阿姆里塔·萨哈拉胡尔·阿拉利卡特米特斯·卡普拉Karthik Sankaranarayanan公司

计算机科学、语言学

辅助控制线

2018

DuoRC是一个新的阅读理解数据集（RC），它为神经方法在语言理解方面提出了一些新的挑战，超越了现有RC数据集所提供的挑战，并且可以补充其他RC数据集，以探索研究语言理解的新神经方法。

182

[PDF]（PDF格式）

缺少什么：一种知识差距引导的多跳问答方法

图沙尔河Ashish Sabharwal公司彼得·克拉克

计算机科学

2019

开发了一种新的方法，明确识别所提供知识中的关键跨度和答案选择之间的知识差距，并基于针对该差距的检索知识，通过确定跨度和答案选项之间的关系来学习填补该差距。

23

[PDF]（PDF格式）

知道你不知道的：SkuAD无法回答的问题

普拉纳夫·拉贾普卡尔罗宾·贾珀西·梁

计算机科学

辅助控制线

2018

SQuadRUn是一个新的数据集，它将现有的斯坦福问答数据集（SQuAD）与50000多个由众工作者以敌对方式编写的无法回答的问题结合在一起，看起来与可回答的问题类似。

[PDF]（PDF格式）