我们是为任务建模还是为注释器建模?自然语言理解数据集中注释者偏见的调查

@第{Geva2019AreWM条,title={我们是在为任务建模还是为注释器建模?对自然语言理解数据集中注释器偏差的调查},author={Mor Geva、Yoav Goldberg和Jonathan Berant},日志={ArXiv},年份={2019},体积={abs/1908.07898},网址={https://api.semanticscholar.org/CorpusID:201124736}}
结果表明,当使用注释器标识符作为特征进行训练时,模型性能会得到提高,并且模型能够识别最高效的注释器,并且模型通常不能很好地泛化为来自注释器的示例,而注释器对训练集没有贡献。

本文图表

询问这篇论文
AI供电

你就是你所注释的:通过注释器表示实现更好的模型

这项工作试图直接对注释器的不同视角进行建模,并通过为每个注释器及其注释创建表示来明确说明注释器在建模过程中的特性,并提出TID-8,the Inherent Disagreement-8数据集。

不要责怪注解者:注解指令中已经开始出现偏差

这项工作假设注解者在众包指令中提取模式,这使他们倾向于编写许多类似的示例,然后在收集的数据中过度表示,并在14个最近的NLU基准中研究这种形式的偏差。

参数挖掘中注解器偏差对任务定义的敏感性

本文提出了一个注释实验,该实验首次检验了社会偏见对数据注释方式的敏感程度,并表明注释显示出不同程度的群体差异,这取决于注释者遵循的准则。

注释员性别对NLP任务的影响分析

这项工作假设性别可能与一些NLP基准的注释差异相关,包括那些相当主观的和通常被认为是客观的基准,并开发了一个强大的框架来测试不同性别的注释差异。

主观NLP任务的两种对比数据注释范式

有人认为,数据集创建者应明确针对数据注释的一种或另一种描述性或规定性范式,以促进其数据集的预期使用。

众包中的注解群体偏见

研究表明,同一人口统计学组中的注释者在注释任务中倾向于表现出一致的组偏差,因此开发了一种新的概率图形框架GroupAnno,用于通过扩展的期望最大化(EM)算法捕获注释者组偏差。

对于困难的NLU数据收集任务,有效的众包协议有哪些要素?

研究发现,要求工作人员为他们的示例编写解释是一种无效的单独策略,用于增加NLU示例的难度,培训众工作者,然后使用收集数据、发送反馈、,而基于专家判断的合格工人是收集具有挑战性数据的有效手段。

通过对比集评估NLP模型

提出了一种新的NLP注释范式,该范式有助于缩小测试数据中的系统差距,建议在构建数据集后,数据集作者以小但有意义的方式手动扰动测试实例,从而改变黄金标签,创建对比集。

用基于图的方法研究注解器偏差

本研究旨在调查注释者偏见——注释者对任务及其主观感知的不同知识导致的一种偏见,并基于来自不同注释者的注释构建一个图,并应用社区检测算法对注释者进行分组。

从最坏的情况中学习:动态生成数据集以改进在线仇恨检测

这项工作提供了一个由40000个条目组成的新数据集,由经过训练的注释器在四轮动态数据创建中生成和标记,并表明使用这种方法可以显著提高模型性能。
...

贝叶斯注释模型的比较

分析了六种注释模型,包括注释器能力、项目难度的不同方法,以及注释器和项目之间的参数池(捆绑),使用了四个以随机注释器形式存在不同程度噪声的数据集。

自然语言推理数据中的注释工件

结果表明,一个简单的文本分类模型可以在67%的SNLI和53%的MultiNLI中正确地对假设进行分类,并且否定和模糊等特定语言现象与某些推理类高度相关。

NLP众包

这项工作介绍了众包,并描述了它在工业界和学术界的应用,介绍了不同的众包平台,审查隐私和机构审查委员会的问题,并提供了成本和时间估算的经验法则。

通过推理理解句子的大范围挑战语料库

本文介绍了多语种自然语言推理语料库,这是一个用于开发和评估句子理解的机器学习模型的数据集,并表明它比斯坦福NLI语料库要困难得多。

一个用于学习自然语言推理的大型注释语料库

介绍了斯坦福自然语言推理语料库,这是一个新的、免费的标签句子对集合,由人类编写,基于图像字幕的新颖扎根任务,这使得基于神经网络的模型首次能够在自然语言推理基准上竞争性地执行。

NewsQA:机器理解数据集

NewsQA是一个具有挑战性的机器理解数据集,包含超过100000个人工生成的问答对,分析证实NewsQA-需要的能力不仅仅是简单的单词匹配和识别文本隐含。

众包语料库注释:走向最佳实践指南

本文提出了一套面向语料库获取的众包方法的最佳实践指南,并介绍了GATE Crowd,它是GATE平台的一个插件,它依赖于这些指南,为以更原则、更高效的方式使用众包提供了工具支持。

SkuAD:100000多个机器理解文本的问题

建立了一个强大的logistic回归模型,F1得分为51.0%,比简单基线(20%)显著提高。

CommonsenseQA:针对常识知识的问答挑战

这项工作提出了CommonsenseQA:一个具有挑战性的新数据集,用于常识性问题回答,它从ConceptNet中提取出与单个源概念具有相同语义关系的多个目标概念。

自然语言推理中的假设基线

这种方法被称为仅假设模型,能够在许多NLI数据集上显著优于多数类基线,并表明统计不规则性可能允许模型在某些数据集中执行NLI,超出了不需要访问上下文即可实现的范围。