数据报表

数据陈述提供了有关数据集特征的基本信息,包括但不限于管理原理和数据源。数据语句中包含的信息可用于帮助(1)减轻数据集中偏见造成的危害(例如训练数据集和部署系统的上下文之间的不匹配),以及(2)通过识别差距创建更具包容性的数据目录。虽然是用语言数据类型开发的,但可以为各种数据类型生成数据语句,并根据特定数据类型的独特特征进行调整。

自然语言处理的数据语句

此网页包含有关自然语言处理系统中使用的语言数据集的数据语句的信息。模式元素已经被磨练成语言数据集的特定特征,包括语音上下文、说话人人口统计和注释人人口统计。这里列出了最新的模式元素(版本2)。元素的详细定义见数据语句编写指南,链接如下,以及编写每个元素的基本原理和建议以及一般最佳实践。下面的“其他资源”下有一个表格,总结了从版本1到版本2的更改。

架构元素版本2

  1. 集管
  2. 执行摘要
  3. 固化原理
  4. 源数据集文件
  5. 语言种类
  6. 扬声器人口统计
  7. 人口统计通告
  8. 演讲情况和文本特征
  9. 预处理和数据格式
  10. 捕获质量
  11. 限制
  12. 梅塔达塔
  13. 披露和道德审查
  14. 其他
  15. 词汇表

数据报表简史

数据语句于2017年由华盛顿大学的Emily M.Bender和Batya Friedman首次概念化,最初是为自然语言处理系统中使用的语言数据集开发的。这个第一版2018年,《计算语言学协会学报》发表了数据声明并在2019年会议上提出计算语言学协会(NAACL)北美分会。在接下来的两年里,人们产生了巨大的兴趣和兴趣。为了支持更广泛的理解和学习如何使数据陈述成为不同研究和机构背景下的合适实践,2020年,艾米丽·本德(Emily M.Bender)、巴蒂亚·弗里德曼(Batya Friedman)和安吉丽娜·麦克米兰(Angelina McMillan-Major)组织了一次车间在第十二届语言资源与评估会议上。这次研讨会的结果导致了一个更新的模式(第2版)、一套最佳实践,以及数据语句编写指南全部发布于2021年。

数据声明是人工智能系统透明文档工具包新兴前景的一部分,包括数据集的数据表,模型报告的模型卡,数据集营养标签,数据和模型的营养标签,产品介绍、和数据卡.