论提高阅读理解的综合性
这项工作证明了阅读理解的问答方法是正确的,并描述了可以用来更全面测试系统对文章的理解的各种问题,超越了只探究局部谓词-参数结构的问题。 情境中段落效应的可解释推理
一种针对场景中段落效果的推理任务的顺序方法,该方法使用神经网络模块对推理过程的每个步骤进行显式建模,从而得到更易于解释的模型。 TORQUE:时间顺序问题的阅读理解数据集
TORQUE是一个新的英语阅读理解基准测试,它基于3.2k条新闻片段和21k个查询时间关系的人工生成问题,结果表明,RoBERTa-large在TORQUE测试集上取得了51%的准确匹配分数,大约落后于人的表现30%。 CURIE:一种用于情境推理的迭代查询方法
提出了一种在经过微调的语言模型上使用自然语言查询在结构化情景图(st图)中显式迭代构建相关结果图的方法,并表明这些改进主要来自数据的硬子集,这需要背景知识和多跳推理。 面向任务对话系统的逻辑推理
本文提出了一种新的方法来微调预处理的变压器模型(如Roberta和T5),以便在给定的对话上下文中对一组事实进行推理,并表明当对话上下文包含所有必需的信息时,基于变压器的模型可以执行逻辑推理来回答问题。 阅读理解的多数据综合评价
本文介绍了一个评估服务器ORB,它可以报告七个不同阅读理解数据集的性能,鼓励并促进测试单个模型理解各种阅读现象的能力。 超越表面:多句子阅读理解的挑战
该数据集是第一个大规模研究多句子推理的数据集,具有一组需要推理技能的开放式问题类型,并发现人类解决者的F1得分为88.1%。 会话机器阅读中自然语言规则的解读
本文将此任务形式化,并开发了一种众包策略,以基于真实世界规则和众生成的问题和场景收集37k个任务实例,通过评估基于规则和机器学习基线的性能来评估其难度。 自然问题:问答研究的基准
提出了自然问题语料库(一个问答数据集),引入了用于评估问答系统的稳健指标;证明这些指标的人类上限较高;并使用从相关文献中提取的竞争方法建立基线结果。