跳过1简介部分 1 简介 负责任的计算在一定程度上需要积极应对危害(通常根源于社会结构和不公平),并通过我们的设计、开发和使用计算技术来支持人类繁荣。 在这方面,科学和技术界在开发新的工具和过程以减轻人类价值观前景化带来的危害方面发挥着特殊的作用。 然而,只有相关技术团体使用和调整这些工具和流程,最终改变实践,这些工具和过程才是有益的。 我们在这里考虑如何在实践中实现这样的改变,并介绍我们采用这样一种技术的过程——用于记录中使用的语言数据集的数据语句工具包 自然语言处理(NLP) 系统——从设想的概念和原型到NLP社区适应和采用的实践。 我们认为,技术社区的吸收需要与社区互动,双向分享知识:在社区洞察力的基础上改进技术,同时培训社区成员使用技术。 通过共同发展我们的技术工具以及我们的社会结构和实践,我们能够更好地实现对道德问题作出有意义回应的综合技术和实践。
数据陈述最初由Bender和Friedman提出[ 2 ]随着人们越来越意识到 机器学习(ML) 语言技术的方法给系统用户和受系统使用影响的其他人带来了各种危害风险[ 5 , 25 , 30 ]. 对于任何涉及人类创建的或与人类有关的数据的问题,ML方法都有类似的风险,但具体风险及其与数据收集实践的连接方式因数据类型而异。 经过磨练的数据语句是收敛数据集和模型文档提案浪潮的一部分(见第节 2 )寻求定位技术人员、采购和部署技术的人员以及社区成员,通过对用于培训和测试此类系统的数据提供透明度来减轻潜在危害。 1
工具包是指支持人们执行方法和过程的物理和数字材料[ 16 ]. 考虑到文档工具包及其用途,如果人们不使用它来创建文档,任何工具包都不会产生任何好处。 此外,如果文档不够详细,也无法访问,那么其益处将受到限制。 因此,我们提出了两个相互交织的问题: 我们如何调整我们提议的工具包和实践,以便我们希望的从业者能够这样做? 和 我们如何促进社区参与? 在本文中,我们介绍了我们参与社区并从中学习的方法,以及由此改进的工具包,包括修订的模式和提取的最佳实践。 我们在一份指南中介绍了修改后的模式和最佳实践,该指南旨在支持数据语句作者创建可供技术人员和需要或想要了解用于构建技术的数据的第三方访问的文档。 2 从我们对这些结果的描述中可以明显看出,我们将工具包和相关实践视为一个相互交织的系统。 最广泛地说,我们的贡献涉及如何发展技术和实践,以解决所处技术社区的道德问题。
文章结构如下。 在节中 2 ,我们概述了数据集、模型和系统的最新文档建议,并将数据陈述置于该生态系统中,同时回顾了我们从价值敏感设计中吸取的方法[ 9 ]. 我们在第节中阐述了研究者的立场、研究问题和具体方法 三 ,第节 4 、和节 5 分别是。 章节 6 概述了工具包的修订,第节 7 我们对我们的方法和我们所学到的关于数据语句如何适应数据文档实践和从业者活动的知识进行了反思。 最后,在第节 8 ,我们对未来的工作进行了展望,包括与更广泛的利益相关者接触,进一步研究数据语句的理解和使用,以及推广到其他数据类型。
跳过2BACKGROUND部分 2 背景 2.1 文档工具包 为了应对大规模应用模式识别(“AI”)的广泛潜在危害,2017-2019年,一些研究小组(主要来自美国)开始开发文档工具包,以支持AI系统的透明度。 如表所示 1 这些文档工具包都是从特定的非数字文档格式中获得灵感,并考虑到特定的用户、危害和用例而开发的。
最近,随着文档工具包的发展,我们看到了两种趋势。 首先,文档工具包正在被集成到标准实践和早期标准中,以缓解和管理人工智能系统中的偏见[ 28 ]. 第二,作为迭代设计过程的一部分,正在修订初始文档工具包,以获得更正式和完整的版本。 例如,根据法律学者和用户研究的反馈,数据表中使用的类别和问题得到了改进[ 13 ],数据营养项目更新了其数据营养标签工具,以包括预期的用例[ 6 ],IBM扩展了他们的FactSheet,以包括针对项目团队的专门模板开发[ 26 ]. 在文档工具包开发的第二阶段,该领域正在超越最初的工具包制定,探索文档编写者的需求,包括解决初始工具包方向中的差距和缺乏明确性,以及支持编写、阅读和使用工具包的技能发展。 这里报告的工作有助于这些第二阶段的努力。
2.2 数据报表 A类 数据语句 由模式元素组成,Bender和Friedman将其定义为“数据集的特征化,该数据集提供了上下文,使开发人员和用户能够更好地理解实验结果可能如何推广,软件可能如何适当部署,以及在基于软件构建的系统中可能反映出的偏见”[ 2 第587页]。 版本1的模式由两部分组成:长形式和短形式。长形式包含九个模式元素,每个元素对应于一组关于数据集某个方面的问题或建议描述,例如策展原理、语言多样性或数据集中说话者的人口统计[ 2 ,第5节]。 简短形式是针对引用数据集的出版物设计的长形式的摘要。 鼓励从业者配合介绍数据集的论文使用这两种形式,作为使用数据集的实验报告的一部分,并与根据数据集训练的模型文档一起使用。 数据陈述已用于数据集编目工作,以探索现有数据收集中的差距[ 33 ]最近的数据表工作表明,文档能够支持开发人员对ML技术中道德问题的认识[ 4 ]. 在节中 6 ,图 1 展示了数据语句模式的第1版和第2版,以及它们之间的区别。
图1。 版本1与版本2架构中的示例元素。 橙色表示元素顺序或标题的更改,绿色表示元素内的重组,蓝色表示对内容的细化。
2.3 价值敏感设计 价值敏感设计是在技术设计过程中突出人类价值和福祉的既定方法[ 9 ]. 价值敏感设计在将技术定义为塑造人类活动的工具、技术和基础设施的组合方面采取了广泛的立场,包括物理和数字工件[ 9 ]. 莫和海萨洛[ 23 ]使用价值敏感的设计方法将新的太阳能系统集成到历史建筑的建筑中,而Millett等人。 [ 21 ]采用价值敏感的设计方法来改进互联网浏览器中的知情同意功能。 价值敏感设计的核心是迭代和综合概念、技术和实证调查的三方方法,以及技术和社会结构共同发展的实践策略(包括社区实践)。 这种方法允许通过一段时间的反复调查和评估,对技术和社会之间的相互作用进行深入研究。 例如,Millett等人。 [ 21 ]根据Friedman等人的工作中描述的概念调查进行。 [ 8 ]它们是技术干预的基础,在Friedman等人的早期工作中进行了实证评估。 [ 10 ]. 类似地,本文的两位作者Bender和Friedman在数据语句的初始开发中使用了这种方法[ 2 ]. 我们继续利用对价值敏感的设计进行后续工作。
在最初的工作中,本德和弗里德曼以一项概念性调查开始,借鉴弗里德曼和尼森鲍姆在一篇文章中提出的偏见定义[ 11 ]作为“系统性”和“不公平歧视”。他们特别关注计算系统中的偏见如何反映预先存在的社会条件,或者在为特定环境开发的计算系统以及在其他环境和其他人群中使用人口时,随着时间的推移而出现的偏见。 作为概念验证和技术调查,Bender和Friedman随后将数据声明工具包应用于两个实际数据集,一个是英语推特数据,另一个是英文和法语视频访谈数据。 此外,他们还采用了价值情景[ 9 , 24 ]作为一种概念性方法,探索一个当时设想的文档工具包如何在减轻偏见和促进更好的科学方面提供益处。 价值情景提供了一种结构化的未来设想方式,提出了非建造和部署技术对个人、社区、领域和社会的潜在积极和消极影响。 Bender和Friedman的一个价值场景是,如果数据陈述过于标准化,那么数据陈述可能会成为一种排斥力量,因此他们呼吁进行实证调查,探索数据陈述作为一种实践如何适用于不同的从业者。
在这里报道的工作中,我们跟进了这个电话。 在这样做的过程中,我们进一步学习了价值敏感设计的三部分方法。 为了从使用社区的角度改进2018年数据报表模式,我们首先对一个直接利益相关者群体进行了实证调查, 三 NLP数据集创建者收集他们的观点和见解,了解如何通过澄清现有的模式元素、确定需要额外模式元素的差距以及收集最佳实践来改进数据语句和周围实践。 我们的实证研究之后,进行了两项连续的技术调查,以修改数据报表模式。 首先,我们使用经验研讨会的结果来指导模式的重新制定和最佳实践的确定; 在第二部分中,我们将数据集的数据表与重新制定的模式进行了比较,以确定并填补任何额外的空白。
跳过3RESEARCHER STANCE部分 三 研究人员立场 我们位于美国的研究团队由易于使用NLP和ML系统的计算语言学家和擅长应用价值敏感设计的信息科学家组成,特别是在缓解计算系统中的偏见方面。 所有团队成员都曾参与过为ML系统中使用的数据集开发文档工具包。
跳过4个研究问题部分 4 研究问题 在从一个设想的文档工具包转变为一个定位为供研究团体使用的工具包的过程中,我们试图使数据陈述工具包在机构背景、研究人员背景和研究目标方面更加强大。 这引发了两个广泛的研究问题:
(1)
NLP模式的数据语句应该如何更新,以更好地支持国际NLP社区中可能使用的项目范围?
(2)
我们如何支持各种机构背景下的从业者撰写数据声明,并促进社区对这种做法的吸收?
跳过5METHODS部分 5 方法 为了在这些研究问题上取得进展,我们采用了两阶段方法,借鉴了Friedman等人的类似方法。 [ 12 ]. 在第1阶段,为了了解NLP数据集创建者如何理解和利用现有模式(第1版),我们组织了一次以国际社区为基础的NLP从业人员研讨会形式的实证调查(如第 5.1 ). 根据第一阶段研讨会的结果,我们在技术调查中制定了一个临时修订方案。 然后在第2阶段,为了学习其他人开发文档建议的努力,我们进行了第二次技术调查,在该调查中,我们对模式和相关文档工具包进行了仔细的分析比较(第 5.2 ). 在整个过程中,我们特别关注(1)NLP数据集创建者如何有效地收集数据语句所需的信息; (2) 识别和开发用于编写数据语句的启发式方法; (3) 管理隐私和道德考虑,尤其是与小群体或弱势群体相关的隐私和道德因素; (4) 数据陈述如何与NLP社区中的其他现有实践相关联; 以及(5)如何记录遗留数据集。
5.1 第1阶段:NLP社区研讨会 揭示Version1模式元素的优势、差距、混淆和局限性(如Bender和Friedman的著作中所述[ 2 ])为了生成编写数据声明的最佳实践,我们与NLP社区成员举行了一次国际研讨会。 该研讨会被接受为第十二届语言资源和评估会议(LREC)的一部分; 由于新冠肺炎和会议最终取消,研讨会实际上于2020年5月11日至13日举行了3天多。 在这个实证调查中,我们从NLP数据集开发人员那里寻求反馈,以在实践中评估数据语句模式。
参与者及其数据集 。我们通过NLP社区标准研讨会公告渠道的公开邀请招募了参与者。 具体来说,我们邀请NLP社区成员参加一个工作会议,他们将参与编写数据声明。 我们在NLP研讨会分销渠道允许的范围内尽可能广泛地招募人员,以期获得非常广泛的视角,并成功地吸引了来自全球各地的参与者,尽管一些地区(欧洲和美国)的代表性更强。 总共有来自16个国家的38名从业人员参加,其中包括来自阿根廷、毛里求斯、斯里兰卡以及美国和欧洲的从业人员。 一半(50%)的参与者认为自己是高级研究人员,36.8%认为自己是初级研究人员,13.2%没有回答。 该研讨会是围绕培训语言技术从业者而设计的。 我们有一位参与者来自不同的研究社区(法律奖学金); 然而,在大多数情况下,我们的参与者在学术培训方面有着相当大的共同点。 这既促进了富有成效的工作会议,也形成了这些会议中阐明的各种想法。
大多数参与者将数据集记录在案; 在多个参与者代表同一数据集的情况下,我们认为他们是同一参与者团队的一部分。 总共有29个数据集,反映了所感兴趣的语言和内容的集体地理多样性。 刚刚超过一半的数据集是各种英语的集合; 其他语言包括阿拉伯语(阿拉伯语变体的混合)、阿根廷西班牙语、巴斯克语、爪哇语和约鲁巴语等。 数据类型包括推特帖子、生物医学数据和谚语。
车间结构和程序 。研讨会的设计是由我们的目标驱动的,我们的目标是获取关于数据陈述模式的形成性反馈,我们的目的是为研讨会参与者提供有用的培训和网络体验。 它也是由发生在Zoom上的这一事实所决定的,Zoom是新冠肺炎全球流行早期的经历。 在这种情况下,我们试图平衡深入的配对参与者互动与更大的小组工作。我们希望参与者在同行评审过程中体验数据陈述的编写和评估过程,然后与他人反思和讨论这些经验。 为了为国际社会的参与者提供一个建立联系的机会,我们设计了研讨会活动,希望为建立关系提供机会,在研讨会期间分配新的参与者配对。
虚拟研讨会在Zoom上同步举行,为期6小时,为期2小时,连续3天。 除了这些同步会议之外,与会者在会议之间异步完成了一些工作,为下次会议做准备。 在第1天,参与者团队相互介绍,并被告知研讨会的两个目标:(1)为每个带来数据集的参与者团队准备一份坚实的(如果不完整的话)数据表草案,以离开研讨会;(2) 让研讨会参与者作为一个整体来确定对版本1模式元素的改进,并生成编写数据语句的最佳实践。
为了达到这些目的,我们围绕他们带来的数据集组成了一小组参与者,每组有一到两个数据集。 此外,数据语句构造过程还得到了一个共享数字工作表的支持,该工作表显示了版本1的模式元素。 对于每个元素,工作表提供了元素解释(根据Bender和Friedman工作中的规定,来自第1版数据语句[ 2 ])并允许(a)注释、(b)文本草稿、(c)反馈和(d)对未来数据声明作者的建议。
车间流程如下。 在第一天,在介绍之后,我们将参与者分成小组,使用工作表开发前四个模式元素。 在这个写作过程中,参与者扮演两个角色之一:数据语句“作者”或“采访者”。数据语句作者角色需要为特定数据集编写实际的模式元素。 采访者的角色是向数据陈述作者询问有关数据集的问题,提出可能需要澄清、更详细的规范或被认为不必要或多余的方面。 从这个意义上说,模式元素充当了面试官提出的问题和数据陈述作者回答的问题。 访谈过程中的笔记记录在工作表上。 作为“家庭作业”,参与者完成了这些模式元素的起草。 在第二天,参与者分成小组审查前一天起草的图式元素,然后在第二次小组会议上重复其余五个图式元素的起草过程,再次作为家庭作业完成起草。第三天,最后一次小组会议允许同行审查第二组元素。 最后,由八至九名参与者和一名主持人组成的四个分组会议,就具体的研讨会活动和更广泛的数据陈述进行了思考。 在这些小组中,参与者被问及一些主题,例如他们将向未来的数据语句编写者提供什么建议,他们希望看到对模式元素的哪些改进,数据语句的潜在用途、危害和滥用,以及建议的最佳实践。 因此,参与者被要求提供他们建议的最佳实践,他们刚刚经历了迭代改进自己的数据陈述的过程,并对其他人的草稿提供了反馈。
作为我们分析实证基础的研讨会材料包括第1天和第2天结束时的最后分组会议和简短的全组汇报会议的记录,以及参与者制作的数据报表、他们在工作表中的笔记, 以及他们在第3天分组会议的讨论问题工作表中提供的笔记。 我们没有为实际数据报表开发中的小团队工作创建Zoom录音,因为我们认为这可能被视为侵入性的,与参与者之间建立关系的目标背道而驰。
数据分析 .使用感应过程[ 7 ],我们系统地审查了参与者工作表上的记录材料和小组讨论记录,以确定并巩固对模式和最佳实践的潜在改进。 具体来说,我们的研究团队的两名成员对语言数据类型和NLP系统有深入的了解,他们对工作表进行了注释,以获取提示和建议,以及参与者编写的数据陈述中的优点和缺点,特别注意由于模式定义和范围而出现的困难。 我们用来检查参与者写的数据陈述的镜头是,它们解决了模式元素问题,并着眼于潜在的偏见来源。 我们还注意到了过度:材料超出了描述数据集本身的范围,包括了更好地放置在其他地方的背景信息。 在评估参与者编写的数据语句的优缺点时,我们发现了导致我们开发最佳实践的模式(要么是数据语句作者所实践的,要么是有助于数据语句作者的)。 我们还观察到第1版模式不适合某些类型的语言数据的情况,例如在翻译数据中,参与者需要描述两种(或更多)语言的特征。 在小组讨论记录中,我们对最佳实践的想法进行了注释。 我们排除了参与者关于创建数据集(而不是记录数据集)和自动生成数据语句的评论。 基于对这两个数据源的分析,我们修订了版本1模式,并创建了通用和特定于元素的最佳实践。
中间产品 数据分析和随后的修订产生了第2版(第1阶段)数据语句模式和数据语句编写指南草案(见第 6 详细信息)。
5.2 阶段2:与数据集数据表进行分析比较 为了检查完整性并使阶段1中的数据语句模式和最佳实践更加健壮,我们遵循了利用相关模型的策略[ 12 ]在本例中,另一个文档工具包工作。 在选择一个文档工具包进行比较时,我们寻求一个也以详细的方式参与数据集(而不是系统的其他方面)的工具包,理想情况下,从另一个组织和/或机构背景中参与,作为丰富我们迄今为止开发工作的一种手段。 第节中描述的文档工具包 2.1 ,数据集的数据表[ 13 ](我们在arXiv上使用了论文的第7版[ 15 ])与数据语句最相似。 如表所示 1 ,只有另外两个仅与数据集有关。 其中,营养数据标签被设计为“一目了然”,数据表提供了更多细节,从而更好地与数据陈述进行比较。 数据表是由一家大型科技公司的行业研究人员而非学术研究团体开发的,因此我们希望它们能够捕捉不同的背景和组织视角,与我们提出的研究问题保持一致。 数据表在社区内也得到了高度重视。 例如,神经信息处理系统(NeurIPS)数据集和基准跟踪会议建议,2021年和2022年在其会场发布的数据集应随附数据集、数据声明或数据营养标签数据表之后的文件。 这一研究群体对数据表的兴趣一直在继续,这一点可以从撰写本文时数据表出版物的1000多处引用中得到证明。
在这项技术调查中,我们特别关注每个工具包如何概念化数据是什么、谁在编写文档、谁在阅读文档、减轻了什么风险以及文档的其他用途。 为了在两个工具包的细节中进行比较,我们试图解释数据表模式要求文档作者考虑的每个问题,尽可能将数据表问题映射到数据语句元素。 如果我们的Version 2–Phase 1模式中没有相应的元素,那么我们要么确定了可以将信息添加到数据语句模式的位置,要么将问题标记为超出数据语句的范围。 我们发现信息由于不同的原因超出了范围,例如,因为它不属于语言数据,或者因为我们认为它将在数据声明的补充文档中提供,例如重要道德审查过程的文档( 机构审查委员会(IRB) 或其他)。
跳过6最终产品:修订的方案、最佳实践和指南部分 6 最终产品:修订的方案、最佳实践和指南 NLP社区研讨会(第1阶段)和与数据集数据表的比较(第2阶段)产生了三种产品:(1)修订的模式(第2版),(2)编写NLP数据语句的关键术语和最佳实践列表(通用和特定元素),以及(3)编写NLP数据语句的指南,其中介绍了(1)和(2) 以令人信服的方式。 如表所示 2 ,大多数修订都是基于社区的研讨会的结果。
修订的模式(版本2) 基于社区的研讨会(第1阶段)创建了七个新的模式元素,并更新了其他原始九个模式元素的基本原理、描述和最佳实践。 此外,模式元素被重新排序和重组; 在一个实例中,将两个元素合并为一个,从而在版本2中总共产生了15个模式元素。 这些变化来自于研讨会参与者的明确评论和反馈,以及我们的数据分析。 例如,参与者在小组讨论中提出了五个新的模式元素(预处理和数据格式、限制、元数据、披露和道德审查以及词汇表)。 我们对参与者数据陈述的分析产生了额外的标题和执行摘要模式元素,并将语音情况和文本特征模式元素合并为一个元素。 与数据集数据表的比较(第2阶段)产生了五个额外的修订; 所有这些都是对元素的描述。 为了说明从版本1到版本2的更改的实质和深度,我们介绍了对两个模式元素所做的更改:Curation Rational和Recording/Capture Quality。
图的顶部 1 显示了我们对Curation Rational模式元素所做的更改。 首先, 元素顺序 。由于它是版本1模式中的第一个元素,我们观察到研讨会参与者倾向于用有关数据集的介绍性信息重载该元素。 作为回应,我们将Curation Rational作为第三个元素,位于新的Header和Executive Summary模式元素之后,这些元素允许更多关于数据集内容的上下文。 第二, 动机 最初,schema元素如何为数据语句的读者服务的动机是在描述元素的内容之后。 我们将这个动机转移到了 为什么? 部分,并包括了Curation基本原理如何支持数据集创建者的额外动机。 版本1中的其他一些模式元素也包含了为什么将该元素包含在模式中的动机; 我们在版本2中的所有模式元素中都做到了这一点,包括在 为什么? 每个元素的部分。 第三, 详细说明 最后,我们从两个阶段的分析中得出结论,添加了更多澄清性问题,以便完整的治理理论能够更好地支持数据集中可能编码的社会和/或紧急偏见的表面来源。
虽然治疗原理保留了版本1中元素的原始概念(有详细说明),但对捕获质量模式元素(以前的版本1记录质量元素)所做的更改说明了对范围以及元素名称和描述的大量重新想象。 图 1 还显示了我们对“捕获质量”模式元素所做的两个更改。 首先, 范围 在分析研讨会参与者的数据陈述时,我们发现这一最初旨在捕捉与所用视听设备相关的技术偏见的元素被创造性地用于记录更广泛的技术考虑。 其中包括用于校正光学字符识别(OCR)输出的系统、从在线平台请求数据时API的可靠性,以及由于链接数据变得不可访问而导致的数据退化。 因此,我们扩大了元素的范围,以便在捕获世界上语言使用的观察结果以用作数据集中的数据时,包括这些和其他可能的技术偏见来源。 第二, 理论基础 。如前所述,我们添加了 为什么? 部分向数据语句读者和数据集创建者传达这些注意事项的重要性。
最佳实践 我们对数据报表编写者的建议采用最佳实践的形式,通过分析研讨会参与者的反思以及参与者在活动期间编写的数据报表的优缺点来确定。 有16种通用最佳实践适用于数据语句元素或与整个数据语句相关的其他方面。 此外,还有47个特定于要素的最佳实践,每个要素从一个(针对言语情境和文本特征、其他和词汇表)到九个(针对说话人和注释人人口统计)不等。 最佳实践传达了三个层次的重点,在语言上有所区别。 第一个是我们认为必须遵循的最佳实践,以创建成功的数据声明,并将其表述为必要条件。 (然而,在许多情况下,命令性指令是 考虑 行动的过程。) 第二个是我们强烈建议的最佳实践,用 应该 第三个是我们提出的最佳实践,作为一种良好的继续方式,用 推荐 。通过三位作者对我们认为数据报表作者在大多数情况下提供哪些信息是可行的进行商议,确定了每种最佳实践的重点级别, 以及读者需要什么样的信息数据来回答有关偏见可能来源的问题。
作为最佳实践的说明,以下是一般最佳实践#4,内容如下:
一些数据陈述元素涉及可能需要提前规划才能收集的信息(例如,人口统计信息)。 我们建议在项目开始时确定要收集哪些信息以及如何收集,并留出适当的时间供道德审查委员会批准。
此最佳实践源自研讨会参与者的意见,这些意见主张在数据集开发过程的早期就着手处理数据声明,例如“建议在数据创建过程中起草数据声明,因为此时比稍后更容易获得某些信息。” 这一通用最佳实践还反映了对数据集创建者的积极响应,这些创建者可能对收集和处理人口统计信息感到不安,即使他们了解这些信息对于创建代表性数据集的重要性。
数据语句编写指南 。为了帮助技术人员、学者和其他人使用修订后的模式(第2版)编写数据语句,并借鉴最佳实践,我们创建了第三个产品,其形式为“编写数据语句指南:用于自然语言处理”[ 三 ]. 该指南将第2版模式元素和最佳实践整合到一个集成文档中,该文档的组织旨在支持数据语句编写过程。 首先是贯穿数据语句编写过程所有方面的一般最佳实践(共16个),其次是与语言数据类型相关的关键术语:注释器、无序语音、引出数据、发现数据、语言数据、语言多样性、说话人、语音合成文本和文本。 接下来是15个模式元素,每个元素都位于自己的页面上。 对于每个元素,我们提供了一个基本原理( 为什么? ),描述( 什么 )和特定于元素的最佳实践。 大多数页面都有足够的空白空间用于记笔记和用户注释。 侧边栏“模式图”起到了记忆辅助的作用,有助于在相关元素之间切换。 该指南以两个附录结尾,第一个附录用于将模式版本1转换为版本2,第二个附录用于设置与其他文档工具包相关的数据语句的位置。
跳过7个关于过程和产品的反思部分 7 工艺和产品反思 论方法论 我们采取了两阶段的方法,首先与NLP从业者直接在他们自己的工作背景下编写数据语句,然后使用密切相关的文档工具包进行比较分析。 在反思我们的方法论战略时,我们可以提出几点看法。 首先,遵循价值敏感设计的三方方法,我们采用的两种方法代表了不同类型的调查。 具体而言,研讨会是一项实证调查,让参与者直接参与数据陈述撰写过程,并分享他们的见解和建议,以及他们为自己的数据集生成的数据陈述工件。 因此,这种实证方法激发了参与者的创造力,并允许参与者以他们希望的任何方式表达自己。 然后,我们进行了两项技术调查:模式的第一阶段重新制定和最佳实践的开发,以及与密切相关的文档工具包的比较分析。 比较分析侧重于两个工具包的技术结构和细节。 这种技术方法提供了系统和全面的表面级比较,并且能够很好地揭示中间版本2模式中的遗漏。 其次,与单独使用这两种方法相比,同时使用经验和技术方法产生了更广泛的改进。 其他希望改进类似工具包的人可能希望采用类似的战略:结合经验和技术调查。
进一步考虑研讨会,我们接下来提出两个特别感兴趣的方面:一个来自参与者组成,另一个来自过程。 在参与者构成方面,与来自不同国家和不同机构研究背景的NLP从业者直接接触,为我们提供了获取他们集体智慧和创造力的途径。 作为一个团队,他们的深度和广度帮助我们了解在哪里可以改进版本1数据语句模式以更好地满足广泛的需求和背景,如何通过结构化和详细的数据语句编写指南更好地支持数据语句编写者, 以及与他人分享哪些关键见解和最佳实践。 考虑到我们的目标是创建一个文档工具包,让来自不同于美国学术界的机构环境的研究人员可以使用该工具包,这一点尤其有价值。 来自不同文化的研究人员帮助我们了解了关于演讲者和注释者的特定类型的数据被视为敏感数据的不同方式,以及围绕道德审查的不同程度的机构支持。 这些经验既指导了模式的设计,也指导了我们阐述的最佳实践。 就过程而言,采访数据集开发人员作为获取有意义文档的一种手段的做法让我们得到了一个更普遍的观察结果,即,由外部人员进行的采访是在有意义的粒度级别上从数据集开发员处获取内容的有效方法。 其中,术语 文档 通常会引发一种枯燥的异步实践&文档作者写道,后来其他人read-we发现,访谈技术使数据语句的编写具有交互性,因此,对数据语句的作者和(未来的)读者来说都更有意义。
论自动化 。在研讨会参与者(以及与我们讨论过数据报表的NLP社区其他成员)的建议中,有关于自动化和数据报表的建议。 有两种变体:我们可能会问数据语句的生成在多大程度上可以自动化,以及数据语句在多大范围内可以自动处理。 在这两方面,我们都看到了保留本流程手册的价值。 对于前者,我们认为,编写一份全面而有益的数据声明需要对所记录的数据进行深思熟虑,而自动化往往会在作者和数据集之间产生距离。 对于后者来说,非常重要的是,数据声明的设计应使来自广泛利益相关者群体的人类读者能够访问。 将它们设计为自动处理可能会降低它们的可读性。 从这个意义上说,我们看到数据语句与其他类型的元数据(如都柏林核心元数据标准)有很大的互补性[ 31 , 32 ]. 此类标准支持数据集的可发现性; 数据语句为发现感兴趣的数据集的读者提供有关其 内容 和 上下文 也就是说,鼓励数据语句作者使用BCP-47语言代码,以便自动确定哪些语言在数据目录中表示,重要的是,哪些语言尚未表示。 正如原始数据声明文章中所设想的那样[ 2 ],这些信息将使该领域成为一个集体,系统地填补代表性不足的语言的空白。 与前面的观点一致,这个特定的自动化任务不会干扰主要手动编目过程的好处。
关于未预期用例 从我们的角度来看,其中一个更有趣的结果涉及数据语句的用例。 回想一下,数据陈述旨在减轻语言技术中排斥和偏见的危害,并通过明智的数据集选择、更彻底的数据集分析,以及为所有NLP从业者带来NLP数据的道德考虑,支持该技术在未来应用中的透明性[ 2 ]. 也就是说,研讨会参与者确定了其他几个用例,包括在提高数据集的可访问性方面与README文档代码进行类比,提高NLP研究对其他领域的可访问度,促进数据存储库元数据,以及作为仔细开发数据集的规划工具。 这些意料之外的使用表明需要对数据集开发、集成和通信提供更广泛的支持,以及增加数据创建和数据集维护工作的价值[ 27 ]。
论文献实践的情境性 。通过与数据表模式的比较,我们可以看到数据语句的初始开发上下文如何塑造生成的工具包。 该上下文的两个关键特征是,数据语句(第1版和第2版)是从学术界的角度开发的,具体侧重于语言数据集。 我们看到了学术背景的影响,数据陈述试图补充而不是包含IRB所做的工作,在披露和道德审查元素中包含了指向任何IRB文件的指针。
我们发现,我们对语言数据的特别关注使我们的工具包具有几个关键功能。 首先,我们能够在模式中提示与语言数据集(例如方言、体裁)的突发偏见问题相关的特定类型的信息。 其次,我们对数据(语言用户生成的语言)和注释(添加到该语言数据的任何附加标签)有明确的区分,并且我们会提示有关每个过程中所涉及人员的信息。 我们认为,将这些分离出来,将使数据集和技术用户能够在出现问题时更好地诊断问题的根源。 第三,也可能是最重要的一点,通过将我们的工具包建立在特定的数据类型中,我们能够使我们的建议更具体,从而使数据集生产者更容易编写数据语句,并使所有背景的数据语句读者更容易理解数据语句。
论生产摩擦 。这里报告的工作是跨学科团队的成果。 作者麦克米兰·马约尔和本德是计算语言学家; 作者弗里德曼(Friedman)是一名设计师和技术专家,擅长技术设计中的人类价值观。 浏览我们的跨学科讨论既困难又耗时。 我们发现,无论是在词汇层面还是在其他领域的结果背后的工作层面,都很容易产生误解。 然而,与此同时,我们发现由此产生的摩擦是有生成性的,花时间达成谅解既有助于获得有价值的新见解,也有助于更广泛的社区获得研究产品。 例如,我们开发了数据陈述模式中的关键术语,以帮助我们相互理解,并支持非NLP专家参与和处理数据陈述。 最终, 我们发现,跨学科的经验带来的价值甚至超过了满足这种必要性:关注动荡而不是试图克服它,并在学科差异中给予宽厚和尊重,这给我们带来了学习机会和见解,而这些都是我们必须积极努力的结果 清晰和相互理解。
关于标准化:为什么、什么和什么时候? 文档架构开发的不同上下文、文档的不同目标对象以及开发人员自身的不同经验导致了各种文档架构的激增。 所有这些不同的格式都给文档的一致性和广泛性带来了挑战。 尽管对少数文档模式的标准化提供了一种前进的方式,但它也提出了另一组问题:模式本身还是文档的内容应该标准化? 在什么司法管辖区应该对文件进行标准化,特别是在背景和数据类型可能差异很大的跨学科领域? 在NLP的情况下,文本形式的语言数据通常伴随着视频和图像数据,这些数据对偏见和道德数据管理有其独特的考虑。 现在是时候融合和标准化了吗,还是最好留点时间在未来进行更多创新和标准化? 我们应该考虑创新-融合-接受生命周期的什么节奏,应该避免哪些节奏? 尽管涉及标准化的机构,如NIST[ 28 ],ISO标准[ 19 ]和IEEE[ 18 ],致力于在各种技术领域的文档方面提供广泛的指导,我们预计,这些问题以及本地化研究社区的其他问题的答案将需要积极和包容的社区参与,以鼓励吸收和有效的文档过程、实践和产品。
论协同进化的技术与社会结构 .价值敏感设计为我们指出了技术与社会结构共同发展的需求和机会[ 9 ]. 换句话说,通过开发技术工具和工具包以及使用它们的社会环境,我们有了更大的设计空间,可以参与其中,也有更大的可能性确保最终的实践能够响应个人、社区、领域和社会的需要。 做这种共同进化的工作是一项复杂而微妙的工作。莫和海萨洛[ 23 ]在芬兰、马加萨和弗里德曼的一座历史建筑的能源转型背景下,探索这种共同进化[ 20 ]这样做是为了《华盛顿州获得司法技术原则》(Washington State Access to Justice Technology Principles)。 我们改进数据语句文档工具包的工作为这种共同进化提供了一个重点突出的案例研究,我们在其中直接与实践社区合作,以改进技术并明确确定围绕技术使用的最佳实践。 我们的最终产品反映了这种共同进化的方法,产生了一个修订的文档工具包(数据语句模式版本2)和一组用于编写数据语句的最佳实践和指南。 当数据语句工具包集成到社区实践中时,可以使用这些方法来了解集成过程如何改变社区,以及这些社区更改如何需要再次修改模式。 我们采取的总体方法以及我们与社区同时参与技术工件开发的一些特定方法,将对其他希望在自己的设计环境中追求这种共同进化的人有用。
跳过8未来工作部分 8 未来的工作 这里报告的方法和途径在从技术概念到广泛的社区实践的轨道上取得了进展。 还有更多工作要做。 我们为今后的工作指出了三个有希望的方向。
与更广泛的利益相关者接触 。价值敏感型设计需要与直接和间接的关键利益相关者群体进行强有力的接触。 数据报表的利益相关者分析产生了许多不同的利益相关群体,每个群体都可能以不同的方式与数据报表交互。 这些人包括但不限于那些(语言学家、数据科学家等) 创建数据集 、那些(计算机科学家、数据科学家等) 开发经过数据集培训和测试的系统 由其他人创建,这些人(机构决策者和组织中的IT人员) 选择经过数据集训练的系统 由其他人创建,这些人(医生、人力资源人员、法官、律师、贷款官员等) 使用经过数据集训练的系统的输出 由他人以及可能 永远不要接触那些经过数据集训练但仍受到影响的系统 通过其他人对结果的解释和行动。 所有这些利益相关者群体都需要纳入数据陈述的设计过程,以确保文档包含有用的必要信息,并且信息以可读、可理解和可用的形式和格式呈现给每个利益相关者团体。 我们目前的工作主要针对前面提到的第一个利益相关者群体——那些创建数据集的人。
迭代和集成:用例和正在进行的技术改进 随着NLP系统的数据陈述不断被不同的利益相关者采纳、参与和完善,作为一个领域,我们将定位于研究其在实践中的采用、适应和有效性。 开放性研究问题包括:
NLP系统的数据语句出现了哪些用例?
语言数据类型的数据陈述模式需要如何完善,以达到完全通用,容纳可能与文本或视听语言数据同时出现或提供上下文的各种观测数据?
使用领域和组织环境如何影响数据语句模式元素的内容,以及这些元素在实践中的使用方式(例如,与带有患者、疾病和药物信息的医学文本相比,与带有案例法的法律文本)?
不同的利益相关者如何阅读数据声明,数据声明的可读性如何,特别是对于非技术利益相关者群体?
有什么证据可以证明NLP的数据声明(以及相关的文档工具包)在减轻偏见和实现更好的科学方面取得了成功?
数据语句作为文档工具包的不足之处和不足之处是什么?
泛化为其他数据类型 数据语句的一个关键优势是它们相对于数据集的数据类型的精度。 换句话说,模式元素被磨练为要记录的数据类型。 这种优势是以通用性为代价的,也就是说,最初为NLP系统中使用的语言数据类型开发的数据语句模式元素在概念和结构上如何适应其他数据类型。 我们的直觉是,模式的一些元素可能会传递到其他数据类型。 毕竟,任何数据类型的文档都需要说明选择和包含的根本原因(即治疗原理),以及道德审查过程的披露和信息(即披露和道德审查)。 但是,需要删除特定于语言数据的元素,并且需要开发与所记录的数据类型相关的新元素。 具有混合数据类型的数据集(例如,带有标题的图像)在文档中表现出更大的复杂性。
为了进一步探索,我们进行了如下思维实验。 每个作者都选择了不同的(非语言)数据类型,并考虑了为语言数据类型开发的模式元素如何应用:用于检测运动的视觉数据、用于训练自动车辆的传感器数据,以及用于脑-机交互的电信号数据。 我们比较了对每个模式元素的判断。 通过协商一致,我们在15个不延续的图式元素中仅确定了4个(元素5-8:语言变体、说话人人口统计、注释人人口统计以及言语情境和文本特征)。 其余11个元素全部转入三种考虑的数据类型中的每一种,在某些情况下没有修改,而在其他情况下对元素描述进行了轻微修改。 类似于NLP数据语句的开发过程可以为其他数据类型构建数据语句,用特定于数据类型的元素替换元素5到8,并调整其他元素的细节。 这一思维实验表明,数据语句工具包在特定数据类型中的基础,远没有使其固定地绑定到该数据类型,而是产生了一种资源,这将是适应其他领域的有益起点。
跳过9结论部分 9 结论 只有当旨在支持这些结果的工具和技术被采纳并集成到技术和非技术社区的日常实践中时,负责任的ML方法才会被购买。 在这里报告的工作中,我们探讨了如何支持在一个特定的技术社区中使用这样的工具包:NLP社区中的数据语句。 在此过程中,我们还演示了如何利用与技术社区的接触来改进工具包,从而通过一次干预实现两个目标。 以这种方式框架,我们的工作做出了四个关键贡献。 首先,我们提供了数据语句模式的修订版本,以及一组编写数据语句的最佳实践,这两种实践都在数据语句编写指南中提供。 其次,我们开发了一种方法,让技术研究团体参与ML系统文档工具包的理解和调整,包括研讨会结构和交互策略。 第三,关于改进文档工具包本身,我们提供了进一步开发和改进此类工具包的方法和实践。 最后,也是最普遍的,我们演示了如何从早期的技术概念和创新转向围绕更强大的技术工件的社区实践。
跳过补充材料部分
[1] 阿诺德·马修 , 贝拉米·雷切尔K.E。 , 辛德·迈克尔 , 霍德·斯蒂芬妮 , 梅塔·萨米普 , MojsilovićAleksandra先生 , 奈尔·拉维 ,等 . 2019 . 简介:通过供应商的合规声明增加对人工智能服务的信任 . IBM研究与开发杂志 63 , 4-5 ( 2019 ),第6条,共13页。 内政部: 谷歌学者 交叉引用 [2] 本德·艾米丽·M·。 和 弗里德曼·巴蒂亚 . 2018 . 自然语言处理的数据陈述:减少系统偏见,实现更好的科学 . 计算语言学协会会刊 6 ( 2018 ), 587 – 604 . 内政部: 谷歌学者 交叉引用 [3] 本德·艾米丽·M·。 , 弗里德曼·巴蒂亚 、和 麦克米兰-安吉丽娜少校 . 2021 . 自然语言处理数据语句编写指南 。2023年5月16日检索自 http://techpolicylab.uw.edu/data-statements/ . 谷歌学者 [4] 博伊德·凯伦·L。 . 2021 . 数据集数据表有助于ML工程师注意和理解培训数据中的道德问题 . ACM人机交互会议录 5 CSCW2(2021年10月),第438条, 27 页。 内政部: 谷歌学者 数字图书馆 [5] Caliskan Aylin公司 , 布莱森·乔安娜J。 、和 纳拉亚南·阿尔文德 . 2017 . 从语料库自动派生的语义包含类似人类的偏见 . 科学 356 , 6334 ( 2017 ), 183 – 186 . 谷歌学者 交叉引用 [6] Chmielinski Kasia S.公司。 , 纽曼·萨拉 , 泰勒·马特 , 约瑟夫·乔什 , 托马斯·凯米 , 尤科夫斯基·杰西卡 、和 秋月切尔西 . 2022 . 数据集营养标签(第二代):利用上下文减轻人工智能的危害 . arXiv预打印arXiv:2201.03954 ( 2022 ). 谷歌学者 [7] 科尔宾·朱丽叶·M。 和 Strauss Anselm L.公司。 . 2008 . 定性研究的基础:发展基础理论的技术和程序 (第三版),朱丽叶·科尔宾(Juliet Corbin)和安塞尔·施特劳斯(Anselm Strauss)(编辑) . SAGE公司 加利福尼亚州洛杉矶。 谷歌学者 [8] 弗里德曼·巴蒂亚 , 费尔登·爱德华 、和 米勒特·勒奈特一世。 . 2000 . 在线知情同意:概念模型和设计原则 技术报告00-12-2。 华盛顿大学。 谷歌学者 [9] 弗里德曼·巴蒂亚 和 亨德利·戴维·G。 . 2019 . 价值敏感设计:用道德想象塑造技术 . 麻省理工学院出版社 , 剑桥 马萨诸塞州。 谷歌学者 交叉引用 [10] 弗里德曼B。 , 豪·D.C。 、和 费尔顿E。 . 2002 . Mozilla浏览器中的知情同意:实现价值敏感设计 .英寸 第35届夏威夷国际系统科学年会论文集 . 1–10. 内政部: 谷歌学者 交叉引用 [11] 弗里德曼·巴蒂亚 和 尼森鲍姆·海伦 . 1996 . 计算机系统中的偏差 . 美国计算机学会信息系统汇刊 14 , 三 (7月 1996 ), 330 – 347 . 内政部: 谷歌学者 数字图书馆 [12] 弗里德曼·巴蒂亚 , 史密斯·伊恩 , 卡恩·彼得·H。 , 康索沃·桑尼 、和 塞拉夫斯基·吉纳 . 2006 . 开发开源许可的隐私附录:工业中的价值敏感设计 .英寸 第八届泛在计算国际会议论文集(UbiComp'06) . 194 – 211 . 内政部: 谷歌学者 数字图书馆 [13] Gebru Timnit公司 , 摩根斯坦·杰米 , Vecchione Briana公司 , 沃恩·詹妮弗·沃特曼 , 瓦拉赫·汉纳 , 三哈尔·道梅 、和 克劳福德凯特 . 2021 . 数据集的数据表 . ACM通信 64 , 12 ( 2021 ), 86 – 92 . 谷歌学者 数字图书馆 [14] Gebru Timnit公司 , 摩根斯坦·杰米 , Vecchione Briana公司 , 沃恩·詹妮弗·沃特曼 , 瓦拉赫·汉纳(Wallach Hanna M.)。 , III哈尔·达姆 、和 克劳福德·凯特 . 2018 . 数据集的数据表 . CoRR公司 abs/1803.09010v1 ( 2018 ). 谷歌学者 [15] Gebru Timnit公司 , 摩根斯坦·杰米 , Vecchione Briana公司 , 沃恩·詹妮弗·沃特曼 , 瓦拉赫·汉纳(Wallach Hanna M.)。 , III哈尔·达姆 、和 克劳福德·凯特 . 2020 . 数据集的数据表 . CoRR公司 abs/1803.09010v7 ( 2020 ). 谷歌学者 [16] 亨德利·戴维·G。 , 弗里德曼·巴蒂亚 、和 巴拉德·斯蒂芬妮 . 2021 . 作为形成性框架的价值敏感设计 . 道德与信息技术 23 ( 2021 ), 39 – 44 . 内政部: 谷歌学者 数字图书馆 [17] 荷兰莎拉 , 霍斯尼·艾哈迈德 , 纽曼·萨拉 , 约瑟夫·约书亚 、和 Chmielinski Kasia公司 . 2018 . 数据集营养标签:推动更高数据质量标准的框架 . arXiv预打印arXiv:1805.03677 ( 2018 ). 谷歌学者 [18] IEEE车辆技术协会智能运输系统委员会 和 IEEE机器人与自动化标准协会常务委员会 . 2021 . IEEE自治系统透明度标准 . 技术报告 IEEE标准7001-2021。 IEEE,加利福尼亚州洛斯阿拉米托斯。 内政部: 谷歌学者 交叉引用 [19] 平台联合技术委员会ISO/IEC JTC 1,信息技术,SC 38小组委员会,云计算和分布式 . 2020 . 云计算和分布式平台——数据流、数据类别和数据使用——第1部分:基础 . 技术报告 ISO/IEC 19944-1:2020(英文)。 国际标准化组织和国际电工委员会, 瑞士日内瓦 . https://www.iso.org/standard/79573.html . 谷歌学者 [20] 马加萨·拉萨纳 和 弗里德曼·巴蒂亚 【未注明日期】。 走向包容性司法:应用多元化声音设计方法改善华盛顿州获得司法公正的技术原则 。正在审查中。 谷歌学者 [21] 米勒特·勒奈特一世。 , 弗里德曼·巴蒂亚 、和 费尔登·爱德华 . 2001 . Cookie和web浏览器设计:实现在线知情同意 .英寸 SIGCHI计算机系统人为因素会议记录(CHI'01) ACM,纽约州纽约市, 46 – 52 . 内政部: 谷歌学者 数字图书馆 [22] 米切尔·玛格丽特 , 吴西蒙 , 扎尔迪瓦尔·安德鲁 , 巴恩斯·帕克 , 瓦瑟曼·露西 , 哈钦森·本 , 斯皮策·埃琳娜 , 拉吉·伊尼奥卢瓦·德博拉 、和 Gebru Timnit公司 . 2019 . 模型报告的模型卡 .英寸 公平、问责制和透明度会议记录 ACM,纽约州纽约市, 220 – 229 . 内政部: 谷歌学者 数字图书馆 [23] 莫路易莎 和 海赛洛·桑普萨 . 2018 . 通过价值敏感设计进行能量转换设计 . 设计研究 54 ( 2018 ), 162 – 183 . 内政部: 谷歌学者 交叉引用 [24] 内森·丽莎·P。 , Klasnja Predrag五世。 、和 弗里德曼·巴蒂亚 . 2007 . 价值场景:一种设想新技术系统效应的技术 .英寸 CHI’07计算机系统中人为因素的扩展摘要(CHI EA’07) ACM,纽约州纽约市, 2585 – 2590 . 内政部: 谷歌学者 数字图书馆 [25] Noble Safiya Umoja先生 . 2018 . 压迫算法:搜索引擎如何强化种族主义 . 纽约大学出版社 , 纽约州纽约市 . 谷歌学者 交叉引用 [26] 理查兹·约翰 , 皮奥科夫斯基·大卫 , 欣德·迈克尔 , 霍德·斯蒂芬妮 、和 MojsilovićAleksandra先生 . 2020 . 创建AI FactSheet的方法 . arXiv预打印arXiv:2006.13796 ( 2020 ). 谷歌学者 [27] 萨姆巴西万·尼提亚 , 卡帕尼亚·什瓦尼 , 高填充Hannah , 阿克朗·戴安娜 , 帕里托什·普拉文 、和 阿罗约·洛拉(Aroyo Lora M.)。 . 2021 . “每个人都想做模型工作,而不是数据工作”:高风险人工智能中的数据级联 .英寸 2021年CHI计算机系统人为因素会议记录(CHI'21) ACM,纽约州纽约市,文章 39 ,共15页。 内政部: 谷歌学者 数字图书馆 [28] 施瓦茨·雷瓦 , 瓦西列夫·阿波斯托尔 , 格林·克里斯汀 , 佩琳·洛里 , 伯特·安德鲁 、和 霍尔·帕特里克 . 2022 . 建立一个识别和管理人工智能偏差的标准 . 技术报告 ,NIST特别出版物(SP)1270(包括截至2022年3月的更新)。 国家标准与技术研究所, 马里兰州盖瑟斯堡 . 内政部: 谷歌学者 交叉引用 [29] 斯托亚诺维奇·朱莉娅 和 豪·比尔 . 2019 . 数据和模型的营养标签 . IEEE数据工程技术委员会计算机学会季刊 42 , 三 ( 2019 ),1-11。 谷歌学者 [30] 斯威尼·拉塔尼亚 . 2013 . 在线广告投放中的歧视 . ACM通信 56 , 5 ( 五月 2013 ), 44 – 54 . 内政部: 谷歌学者 数字图书馆 [31] 互操作性技术委员会ISO/TC 46,信息和文件,小组委员会SC 4,技术 . 2017 . 信息和文件——都柏林核心元数据元素集——第1部分:核心元素 . 技术报告 ISO 15836-1:2017。 国际标准化组织, 瑞士日内瓦 . https://www.iso.org/standard/71339.html . 谷歌学者 [32] 互操作性技术委员会ISO/TC 46,信息和文件,小组委员会SC 4,技术 . 2019 . 信息和文档——都柏林核心元数据元素集——第2部分:DCMI属性和类 . 技术报告 ISO 15836-2:2019。 国际标准化组织, 瑞士日内瓦 . https://www.iso.org/standard/71341.html . 谷歌学者 [33] 维德根·伯蒂 和 德钦斯基·莱昂 . 2020 . 滥用语言训练数据中的指示,系统回顾:垃圾输入,垃圾输出 . PLOS ONE系列 15 , 12 ( 12月。 2020 ),e0243300。 内政部: 谷歌学者 交叉引用