数据声明|技术政策实验室

数据陈述提供了有关数据集特征的基本信息，包括但不限于管理原理和数据源。数据语句中包含的信息可用于帮助（1）减轻数据集中偏见造成的危害（例如训练数据集和部署系统的上下文之间的不匹配），以及（2）通过识别差距创建更具包容性的数据目录。虽然是用语言数据类型开发的，但可以为各种数据类型生成数据语句，并根据特定数据类型的独特特征进行调整。

自然语言处理的数据语句

此网页包含有关自然语言处理系统中使用的语言数据集的数据语句的信息。模式元素已经被磨练成语言数据集的特定特征，包括语音上下文、说话人人口统计和注释人人口统计。这里列出了最新的模式元素（版本2）。元素的详细定义见数据语句编写指南，链接如下，以及编写每个元素的基本原理和建议以及一般最佳实践。下面的“其他资源”下有一个表格，总结了从版本1到版本2的更改。

架构元素版本2

集管
执行摘要
固化原理
源数据集文件
语言种类
扬声器人口统计
人口统计通告
演讲情况和文本特征
预处理和数据格式
捕获质量
限制
梅塔达塔
披露和道德审查
其他
词汇表

编写数据语句

指南

（PDF格式）
（PDF打印机友好）
（降价）

模板

（降价）
（上页）
（谷歌文档）

其他资源

Emily M.Bender和Batya Friedman。2018自然语言处理的数据声明：减少系统偏差并实现更好的科学.计算语言学协会学报6:587-604.

数据语句示例：

从架构版本1转换到架构版本2的表

LREC 2020研讨会“NLP数据声明：走向最佳实践”

数据报表简史

数据语句于2017年由华盛顿大学的Emily M.Bender和Batya Friedman首次概念化，最初是为自然语言处理系统中使用的语言数据集开发的。这个第一版2018年，《计算语言学协会学报》发表了数据声明并在2019年会议上提出计算语言学协会（NAACL）北美分会。在接下来的两年里，人们产生了巨大的兴趣和兴趣。为了支持更广泛的理解和学习如何使数据陈述成为不同研究和机构背景下的合适实践，2020年，艾米丽·本德（Emily M.Bender）、巴蒂亚·弗里德曼（Batya Friedman）和安吉丽娜·麦克米兰（Angelina McMillan-Major）组织了一次车间在第十二届语言资源与评估会议上。这次研讨会的结果导致了一个更新的模式（第2版）、一套最佳实践，以及数据语句编写指南全部发布于2021年。

数据声明是人工智能系统透明文档工具包新兴前景的一部分，包括数据集的数据表,模型报告的模型卡,数据集营养标签,数据和模型的营养标签,产品介绍、和数据卡.

致谢

数据报表由华盛顿大学的教职员工和学生编制语言学系,信息学院,技术政策实验室、和价值敏感设计实验室这项工作得到了威斯康辛大学技术政策实验室、弗朗西丝和霍华德·诺斯特兰德教授的资助。我们感谢Zeerak Talat和Leon Derczynski以及LREC车间参与者包括：卢西亚娜·贝诺蒂、博纳文图尔·多索、克里斯·埃梅祖、伊齐亚尔·冈萨雷斯-迪奥斯、艾米·伊萨德、内莱姆·皮尔巴伊-杰塔、苏兰吉卡·拉纳通加、比阿特丽斯·萨沃迪、马克·舒尔德和其他许多人。

联系人

我们很高兴收到你的来信！如果您在研究、开发、社区工作或教学中编写或使用数据陈述，或者有问题或想法想与我们分享，请告诉我们。

datastatements@uw.edu