情境中段落效应的推理

@正在进行{Lin2019ReasoningOP,title={情境中段落效果的推理},author={Kevin Lin和Oyvind Tafjord以及Peter Clark和Matt Gardner},booktitle={自然语言处理经验方法会议},年份={2019},网址={https://api.semanticscholar.org/CorpusID:201058633}}
这项工作提出了ROPES,这是一个具有挑战性的阅读理解基准,针对情境中的段落效应推理,并针对描述因果关系的解释性语言,因为它们对新情境有明确的影响。

本文图表

论提高阅读理解的综合性

这项工作证明了阅读理解的问答方法是正确的,并描述了可以用来更全面测试系统对文章的理解的各种问题,超越了只探究局部谓词-参数结构的问题。

情境中段落效应的可解释推理

一种针对场景中段落效果的推理任务的顺序方法,该方法使用神经网络模块对推理过程的每个步骤进行显式建模,从而得到更易于解释的模型。

TORQUE:时间顺序问题的阅读理解数据集

TORQUE是一个新的英语阅读理解基准测试,它基于3.2k条新闻片段和21k个查询时间关系的人工生成问题,结果表明,RoBERTa-large在TORQUE测试集上取得了51%的准确匹配分数,大约落后于人的表现30%。

基于属性-软件上下文流的程序阅读理解

程序性阅读理解的算法是通过将文本翻译成一种通用形式主义来引入的,这种形式主义将过程表示为实体属性(例如位置、温度)的一系列转换。

面向机器阅读理解的可解释模块化知识推理

一种基于神经网络模块的模块化知识推理方法,该方法对每个推理过程步骤进行显式建模,从而产生更易于解释的模型,并产生更具泛化能力。

CURIE:一种用于情境推理的迭代查询方法

提出了一种在经过微调的语言模型上使用自然语言查询在结构化情景图(st图)中显式迭代构建相关结果图的方法,并表明这些改进主要来自数据的硬子集,这需要背景知识和多跳推理。

较小的语言模型是通过记忆还是泛化来回答上下文化问题的?

基于训练样本和评估样本之间输入标记和标签标记的语义相似性,提出了一种识别评估样本的方法,该评估样本的作者模型不太可能记住答案。

面向任务对话系统的逻辑推理

本文提出了一种新的方法来微调预处理的变压器模型(如Roberta和T5),以便在给定的对话上下文中对一组事实进行推理,并表明当对话上下文包含所有必需的信息时,基于变压器的模型可以执行逻辑推理来回答问题。

elBERto:用于答疑的自我监督常识学习

所提出的elBERto框架在简单的词汇相似性比较没有帮助的情况下,对图外和无效果问题进行了实质性改进,表明它成功地学习了常识,并且在给定动态上下文时能够利用它。

阅读理解的多数据综合评价

本文介绍了一个评估服务器ORB,它可以报告七个不同阅读理解数据集的性能,鼓励并促进测试单个模型理解各种阅读现象的能力。
...

超越表面:多句子阅读理解的挑战

该数据集是第一个大规模研究多句子推理的数据集,具有一组需要推理技能的开放式问题类型,并发现人类解决者的F1得分为88.1%。

DROP:一个阅读理解基准,需要对段落进行离散推理

一个新的阅读理解基准DROP,它要求对段落内容进行离散推理,并提出了一个新模型,将阅读理解方法与简单的数字推理相结合,以实现51%F1。

会话机器阅读中自然语言规则的解读

本文将此任务形式化,并开发了一种众包策略,以基于真实世界规则和众生成的问题和场景收集37k个任务实例,通过评估基于规则和机器学习基线的性能来评估其难度。

MCTest:开放域机器理解文本的挑战数据集

MCTest是一套免费提供的故事和相关问题,旨在研究文本的机器理解,要求机器回答关于虚构故事的多项选择阅读理解问题,直接解决开放域机器理解的高级目标。

SkuAD:100000多个机器理解文本的问题

建立了一个强大的logistic回归模型,F1得分为51.0%,比简单基线(20%)显著提高。

用于阅读理解和问答的门控自我匹配网络

本文提出了阅读理解式问答的门限自匹配网络,该网络旨在回答给定文章中的问题,无论是单一模型还是集成模型,都在SQuAD排行榜上占据首位。

RACE:来自考试的大规模重新阅读理解数据集

RACE中需要推理的问题的比例比其他阅读理解基准数据集中的问题要大得多,最先进模型的表现与最高人类表现之间存在显著差距。

QuaRel:回答定性关系问题的数据集和模型

这项工作深入解决了需要推理的复杂定性问题,并以低成本扩展到新的关系,为此任务构建了两个新模型,作为类型约束语义解析的扩展。

CNN/Daily Mail阅读理解任务的彻底检查

通过将CNN和《每日邮报》的新闻文章与其总结的要点进行配对,创建了一百多万个训练示例,对这项新的阅读理解任务进行了彻底的检查,并表明可以训练神经网络以在这项任务中取得好的表现。

自然问题:问答研究的基准

提出了自然问题语料库(一个问答数据集),引入了用于评估问答系统的稳健指标;证明这些指标的人类上限较高;并使用从相关文献中提取的竞争方法建立基线结果。