内政部：10.18653/v1/D19-5808
语料库ID:201058633

情境中段落效应的推理

@正在进行{Lin2019ReasoningOP，title={情境中段落效果的推理}，author={Kevin Lin和Oyvind Tafjord以及Peter Clark和Matt Gardner}，booktitle={自然语言处理经验方法会议}，年份={2019}，网址={https://api.semanticscholar.org/CorpusID:201058633}}

凯文·林奥文德·塔夫乔德马特·加德纳
出版在里面经验…会议… 2019年8月16日
计算机科学

这项工作提出了ROPES，这是一个具有挑战性的阅读理解基准，针对情境中的段落效应推理，并针对描述因果关系的解释性语言，因为它们对新情境有明确的影响。

ACL上的视图

arxiv.org网站

100篇引文

极具影响力的引文

19

48

26

4

本文图表

话题

绳索背景通道 QuaRel公司维基百科阅读理解鲜花人群工人

论提高阅读理解的综合性

马特·加德纳乔纳森·贝兰特Hannaneh Hajishirzi公司阿隆·塔尔莫尔Sewon Min公司

计算机科学

自然…实证方法会议…

2019

这项工作证明了阅读理解的问答方法是正确的，并描述了可以用来更全面测试系统对文章的理解的各种问题，超越了只探究局部谓词-参数结构的问题。

情境中段落效应的可解释推理

木城人耿秀波陶琴黄和彦大新江

计算机科学

自然…实证方法会议…

2020

一种针对场景中段落效果的推理任务的顺序方法，该方法使用神经网络模块对推理过程的每个步骤进行显式建模，从而得到更易于解释的模型。

TORQUE：时间顺序问题的阅读理解数据集

强宁郝武韩如军彭南云马特·加德纳D.罗斯

计算机科学

自然…实证方法会议…

2020

TORQUE是一个新的英语阅读理解基准测试，它基于3.2k条新闻片段和21k个查询时间关系的人工生成问题，结果表明，RoBERTa-large在TORQUE测试集上取得了51%的准确匹配分数，大约落后于人的表现30%。

84

基于属性-软件上下文流的程序阅读理解

艾达·阿米尼安托万·博塞卢特巴瓦娜·达维Yejin Choi（Yejin Choi）Hannaneh Hajishirzi公司

计算机科学

自动化知识库会议…

2020

程序性阅读理解的算法是通过将文本翻译成一种通用形式主义来引入的，这种形式主义将过程表示为实体属性（例如位置、温度）的一系列转换。

20

面向机器阅读理解的可解释模块化知识推理

木城人黄和彦杨高

计算机科学

神经计算与应用（打印）

2022

一种基于神经网络模块的模块化知识推理方法，该方法对每个推理过程步骤进行显式建模，从而产生更易于解释的模型，并产生更具泛化能力。

CURIE：一种用于情境推理的迭代查询方法

希拉杰·拉贾戈帕尔阿曼·马丹 E.霍维

计算机科学、环境科学

CSRR公司

2022

提出了一种在经过微调的语言模型上使用自然语言查询在结构化情景图（st图）中显式迭代构建相关结果图的方法，并表明这些改进主要来自数据的硬子集，这需要背景知识和多跳推理。

6

较小的语言模型是通过记忆还是泛化来回答上下文化问题的？

蒂姆·哈蒂尔约书亚·本斯曼迈克尔·维布罗克帕特里夏·里德尔

计算机科学

2023

基于训练样本和评估样本之间输入标记和标签标记的语义相似性，提出了一种识别评估样本的方法，该评估样本的作者模型不太可能记住答案。

高度影响力

面向任务对话系统的逻辑推理

萨贾德·贝吉玛丽亚姆·法泽尔·扎兰迪亚历山德拉·塞沃内普拉卡什·克里希南悉达多·R·乔纳拉加达

计算机科学

ECNLP公司

2022

本文提出了一种新的方法来微调预处理的变压器模型（如Roberta和T5），以便在给定的对话上下文中对一组事实进行推理，并表明当对话上下文包含所有必需的信息时，基于变压器的模型可以执行逻辑推理来回答问题。

4

elBERto：用于答疑的自我监督常识学习

詹薰林袁丽（音）肖东梁晓丹胡志婷L.卡林

计算机科学

基于知识的系统

2022

所提出的elBERto框架在简单的词汇相似性比较没有帮助的情况下，对图外和无效果问题进行了实质性改进，表明它成功地学习了常识，并且在给定动态上下文时能够利用它。

4

阅读理解的多数据综合评价

Dheeru Dua公司阿南斯·戈图穆卡拉阿隆·塔尔莫尔萨米尔·辛格马特·加德纳

计算机科学、语言学

自然…实证方法会议…

2019

本文介绍了一个评估服务器ORB，它可以报告七个不同阅读理解数据集的性能，鼓励并促进测试单个模型理解各种阅读现象的能力。

10

超越表面：多句子阅读理解的挑战

丹尼尔·卡沙比斯尼格达·查图尔维迪迈克尔·罗斯Shyam Upadhyay先生D.罗斯

计算机科学、教育

美国…协会北美分会…

2018

该数据集是第一个大规模研究多句子推理的数据集，具有一组需要推理技能的开放式问题类型，并发现人类解决者的F1得分为88.1%。

DROP：一个阅读理解基准，需要对段落进行离散推理

迪鲁·杜阿王一忠Pradeep Dasigi公司加布里埃尔·斯坦诺夫斯基萨米尔·辛格马特·加德纳

计算机科学

美国…协会北美分会…

2019

一个新的阅读理解基准DROP，它要求对段落内容进行离散推理，并提出了一个新模型，将阅读理解方法与简单的数字推理相结合，以实现51%F1。

678

会话机器阅读中自然语言规则的解读

马齐·萨伊迪马克斯·巴托洛 S.里德尔

计算机科学、语言学

自然…实证方法会议…

2018

本文将此任务形式化，并开发了一种众包策略，以基于真实世界规则和众生成的问题和场景收集37k个任务实例，通过评估基于规则和机器学习基线的性能来评估其难度。

145

MCTest：开放域机器理解文本的挑战数据集

马修·理查森C.伯格埃林·伦肖

计算机科学、语言学

自然…实证方法会议…

2013

MCTest是一套免费提供的故事和相关问题，旨在研究文本的机器理解，要求机器回答关于虚构故事的多项选择阅读理解问题，直接解决开放域机器理解的高级目标。

SkuAD:100000多个机器理解文本的问题

普拉纳夫·拉贾普卡尔张健（Jian Zhang）康斯坦丁·洛佩列夫梁佩西

计算机科学

自然…实证方法会议…

2016

建立了一个强大的logistic回归模型，F1得分为51.0%，比简单基线（20%）显著提高。

6,732

用于阅读理解和问答的门控自我匹配网络

王文辉南阳芙蓉味宝宝长周先生

计算机科学

…协会年会…

2017

本文提出了阅读理解式问答的门限自匹配网络，该网络旨在回答给定文章中的问题，无论是单一模型还是集成模型，都在SQuAD排行榜上占据首位。

RACE：来自考试的大规模重新阅读理解数据集

赖国坤谢启哲刘汉晓杨一鸣E.霍维

教育类

自然…实证方法会议…

2017

RACE中需要推理的问题的比例比其他阅读理解基准数据集中的问题要大得多，最先进模型的表现与最高人类表现之间存在显著差距。

1,083

QuaRel:回答定性关系问题的数据集和模型

奥文德·塔夫乔德彼得·克拉克马特·加德纳Wen-tau Yih先生Ashish Sabharwal公司

计算机科学

AAAI人工智能会议

2019

这项工作深入解决了需要推理的复杂定性问题，并以低成本扩展到新的关系，为此任务构建了两个新模型，作为类型约束语义解析的扩展。

73

CNN/Daily Mail阅读理解任务的彻底检查

陈丹琪杰森·博尔顿克里斯托弗·曼宁

计算机科学

…协会年会…

2016

通过将CNN和《每日邮报》的新闻文章与其总结的要点进行配对，创建了一百多万个训练示例，对这项新的阅读理解任务进行了彻底的检查，并表明可以训练神经网络以在这项任务中取得好的表现。

550

自然问题：问答研究的基准

T.奎亚特科夫斯基J.帕洛马基斯拉夫·彼得罗夫

计算机科学

计算协会事务…

2019

提出了自然问题语料库（一个问答数据集），引入了用于评估问答系统的稳健指标；证明这些指标的人类上限较高；并使用从相关文献中提取的竞争方法建立基线结果。