杂志的下一篇文章
TRIPOD-A步态分析用带IMU、压力分布和光电数据的跑步机行走数据集
期刊上的上一篇文章
一种在Web上发布互操作开放数据的可持续方法
 
 
订购文章重印
字体类型:
宋体 佐治亚州 宋体,Verdana
字体大小:
澳大利亚 澳大利亚 澳大利亚
行距:
列宽:
背景:
数据描述符

政府和公共部门、交通和教育、文化和体育类别中的欧洲数据门户数据集是否符合网络最佳实践数据?

通过
莫尔加纳·卡内罗·安德拉德
1,
拉斐拉·奥利维拉·达库尼亚
2,
豪尔赫·菲格雷多
安娜·爱丽丝·巴普蒂斯塔
4,*
1
巴西维托里亚圣埃斯皮里托联邦大学戈亚贝拉斯校区中央图书馆,邮编:29075-910
2
葡萄牙吉马朗斯,4800-058,Minho大学Azurém校区信息系统系
葡萄牙布拉加米尼奥大学瓜尔塔校区数学系,4710-057
4
葡萄牙吉马雷斯,4800-058,Minho大学Azurém校区Algoritmi中心
*
信件应寄给的作者。
收到日期:2021年7月15日/修订日期:2021年8月6日/接受日期:2021年8月16日/发布日期:2021年8月19日
(本文属于主题机器和深度学习)

摘要

:
欧洲数据门户网站是一个全球倡议,汇集并提供开放数据。这是一个采用定性方法的案例研究,旨在确定门户网站上发布的政府和公共部门、交通、教育、文化和体育类别的数据集在多大程度上符合网络数据最佳实践(W3C)。根据上次修改的数据集进行排序,并根据优秀和良好+评级进行过滤,我们分析了每个类别的50个不同数据集。分析显示,政府和交通类别的数据集评级最高,其次是交通,最后是教育。该分析表明,政府和交通类别的数据集评级最高,教育类别的数据最低。观察最多的BPs为:BP1、BP2、BP4、BP5、BP10、BP11、BP12、BP13C、BP16、BP17、BP19、BP29和BP34,观察最少的为:BP3、BP7H、BP7C、BP13H、BP14、BP15、BP21、BP32和BP35。这些结果填补了有关该门户网站提供的数据质量的文献中的一个空白,并为欧洲数据管理者提供了见解,以了解哪些最佳实践最受关注,哪些需要更多关注。

1.总结

数据的定义在研究人员之间可能存在显著差异,在不同的知识领域更是如此。围绕数据概念的这种多样性是因为数据是由多个社区和流程为各种目的生成的。数据可以被理解为“(……)内容单元,它必须与特定上下文相关,并由三元组实体、属性和值组成,这样,即使有关内容上下文的详细信息不明确,也应该隐式地提供给用户,从而允许其完全解释”[1](第2005页)。数据集是“由单个代理发布或管理的数据集合,可以以一种或多种序列化或格式访问或下载”[2],通常以表格形式呈现[1]. 无论数据类型如何,它们都应该与元数据相关,主要在描述、管理、法律要求、技术功能、使用和保存方面为数据增加价值[,4]. 元数据是关于数据的数据或关于数据的结构化数据,在计算机科学和信息科学的上下文中,元数据是表示数据的属性,例如作者身份、分类、描述、政策、分发术语和版权[1,5]. 高质量的元数据帮助人们发现和重用数据集[6].
目前,公共部门聚合器收集了大量数据,这些数据稍后将作为开放数据在单个门户中发布和提供。公开数据是指所有“(……)公共机构收集、生成或支付的信息,任何人都可以出于任何目的自由使用、修改和共享”[7].
开放数据被视为“(……)经济增长、创造就业和社会进步的基本资源”[8]. 开放数据带来了许多好处,例如提供有助于决策的洞察力,无论是以可视化的形式还是通过引用,它们都有助于认识到重用数据的重要性。从公开数据中受益最大的部门是公共部门,这表明公共部门是其数据的第一个重复使用者[8].
“数据门户是基于web的界面,旨在更容易地找到可重用的信息。(……),它们包含为重用而发布的数据集的元数据记录,大多与原始数字数据形式的信息有关”(…)[9].
就开放数据门户而言,它们越来越多地支持查找数据集,使数据发布者和重用者通过论坛以及来自数据和分类系统的反馈进行交互成为可能[10]. Simperl和Walker[6](第16页)介绍了开放数据门户发展的十种方式,以实现可持续性和附加值:“可发现、可测量、促进使用、组织使用、可访问、促进标准、发布元数据、提供链接数据、共同定位文档和提供共同定位工具”。数据门户的一个示例是葡萄牙开放数据门户dados.gov.pt或欧洲数据门户(EDP)data.europa.eu。
欧洲数据门户网站是汇集和提供开放数据访问的全球举措之一。EDP的第一个版本于2016年发布。EDP收集欧洲国家公共数据和地理空间门户上可用的元数据,这些国家包括欧盟成员国、EFTA国家和参与欧盟邻里政策的国家。例如,数据集包括土地记录、州地图和邮局的位置。可以通过机器可读的API和人类可读的网站访问门户[11,12]. 除此之外,该门户还提供了根据Eurovoc域定义的13个数据类别。该同义词库使用户能够按数据类别和主题进行多语言搜索[11,13]. EDP还旨在促进开放数据的可访问性和价值。
与其他计划一样,EDP对数据质量也非常关注。从这个意义上说,EDP评估了根据公平原则收集的数据集的质量。FAIR原则是公平性、准确性、互操作性和重用的缩写,于2014年推出,旨在“指导数据生产者和出版商(……)帮助最大化当代正式学术数字出版所获得的附加值”[14](第1页)。作者指出,公平原则“(……)不仅适用于传统意义上的‘数据’,也适用于导致数据的算法、工具和工作流,特别强调增强机器自动查找和使用数据的能力,并支持个人重用数据”[14](第1页)。FAIR原则的采用增强了不同数据环境之间的互操作性[14]. 虽然门户网站采用了基于公平原则的综合评估,但有些方面并未考虑。
2017年1月31日,W3C发布了一项建议,其中包含35种在网上发布数据的最佳实践,名为网上数据最佳实践(DWBP)[13]. 这组BP解决了在发布和重用数据时遇到的几个挑战。DWBP规范为每个BP分配了以下八个好处中的一个或多个好处:理解、可处理性、可发现性、重用、信任、可链接性、访问和互操作性。以下简要介绍了35个BP[13]以及他们可以提供的好处:
  • 最佳实践1:为人类用户和计算机应用程序提供元数据。此BP具有以下优点:重用、理解、发现和可处理性。
  • 最佳实践2:提供描述性元数据—数据集及其分布的一般特征,便于在web上发现数据集,以及数据集的性质。优点:重用、理解和可发现性。
  • 最佳实践3:提供结构化元数据——分发的模式和内部结构(例如,CSV文件、API或RSS提要的描述)。优点:可重用性、可理解性和可处理性。
  • 最佳实践4:使用数据许可协议的链接或副本提供数据许可信息。优点:重用和信任。
  • 最佳实践5:提供数据来源信息——数据的来源以及它们已经经历的所有更改。优点:重用、理解和信任。
  • 最佳实践6:提供数据质量信息-“提供有关数据质量和特定用途适用性的信息”。应明确记录数据质量。优点:重用和信任。
  • 最佳实践7:提供版本指示符-“为每个数据集分配并指示版本号或日期”。优点:重用和信任。
  • 最佳实践8:为每个可用版本提供版本历史记录描述,解释其与前一版本的差异。优点:重用和信任。
  • 最佳实践9:使用持久URI作为数据集的标识符,以持久的方式标识数据集。优点:重用、互操作性和可链接性。
  • 最佳实践10:使用持久URI作为数据集中的标识符,在数据集之间重用URI,并确保其他数据集可以一致地引用它们的标识符。优点:重用、互操作性、可链接性和可发现性。
  • 最佳实践11:将URI分配给数据集版本和系列,分配给单个版本的数据集,以及分配给整个系列。好处:重用、可发现性和信任。
  • 最佳实践12:使用机器可读的标准化数据格式,最大限度地减少对数据使用的限制。优点:可重用性和可加工性。
  • 最佳实践13:使用当地中立的数据表示,以限制误解;如果这不可能,则必须提供数据值使用的位置的元数据。优点:重用和理解。
  • 最佳实践14:以多种格式提供数据,以降低转换数据集的成本和过程中的错误。优点:可重用性和可加工性。
  • 最佳实践15:重用词汇表,最好是标准化词汇表,以编码数据和元数据。优点:重用、可处理性、理解、信任和互操作性。
  • 最佳实践16:选择正确的形式化级别—适合最可能的数据和应用程序的级别。优点:重用、理解和互操作性。
  • 最佳实践17:提供批量下载,允许用户通过单个请求检索完整的数据集。优点:重用和访问。
  • 最佳实践18:为大型数据集提供子集,以便数据用户只能下载他们需要的子集。优点:重用性、可链接性、访问性和可处理性。
  • 最佳实践19:使用内容协商来提供多种格式的数据,以提供各种格式的数据。优点:重用和访问。
  • 最佳实践20:为即时访问提供实时访问,以鼓励开发实时应用程序。“应用程序将能够实时或近实时访问时间关键型数据,其中实时意味着数据创建后的毫秒到几秒钟的范围”。优点:重用和访问。
  • 最佳实践21:提供最新的数据,并明确更新频率。好处:重复使用和访问。
  • 最佳实践22:对不可用的数据进行解释-“解释如何访问数据以及谁可以访问数据”,为潜在的数据使用者提供完整的上下文。优点:重用和信任。
  • 最佳实践23:通过API提供数据,为数据消费者提供最大的灵活性和可处理性。优点:重用、可处理性、互操作性和访问。
  • 最佳实践24:将网络标准用作API的基础,以使其更可用,并利用网络的优势。API应基于web标准构建,以利用web的优势(例如REST)。优点:可重用性、可处理性、可访问性、可发现性和可链接性。
  • 最佳实践25:为您的API提供完整的文档,使开发人员能够感知其质量和有用性。“在添加功能或进行更改时更新文档”。优点:重用和信任。
  • 最佳实践26:避免破坏对API的更改,这样客户端代码就不会停止工作。优点:信任和互操作性。
  • 最佳实践27:保留标识符——如果需要从web上删除数据,则需要保留相应的标识符,以便用户不会被定向到404响应代码(找不到)。优点:重用和信任。
  • 最佳实践28:评估数据集覆盖率—在保存数据集之前评估数据集的覆盖率。优点:重用和信任。
  • 最佳实践29:通过易于检测的机制从数据使用者那里收集反馈。“数据消费者将能够提供关于数据集和分布的反馈和评级”。优点:重用、信任和理解。
  • 最佳实践30:提供反馈-公开消费者对数据集和分发数据集的反馈。优点:重用和信任。
  • 最佳实践31:通过生成新数据来丰富数据,以提高其价值。优点:重用、理解、信任和可处理性。
  • 最佳实践32:提供补充演示文稿,如可视化、表格、web应用程序和摘要。优点:重用、理解、访问和信任。
  • 最佳实践33:向原始出版商提供反馈,例如,他们的数据何时以及如何被重用,或者改进的方面。优点:重用、互操作性和信任。
  • 最佳实践34:遵循许可条款,以便与原始出版商保持良好关系。优点:重用和信任。
  • 最佳实践35:引用原始出版物,以建立对数据的信任。优点:重用、信任和可发现性。
在本研究中,我们试图确定门户网站上发布的政府和公共部门、交通、教育、文化和体育类别的数据集在多大程度上符合Web上的数据最佳实践(W3C)。

2.数据说明

本节介绍了研究得出的数据,其方法见第3节如下所示。
根据29个BP对总共150个数据集进行了分析,由于其中一些数据集是针对人和机器的,因此总共进行了4350次分析。
观察或不观察政府和公共部门类别中每个BP的数据集数量如所示表1图1.
运输类别的结果如所示表2图2.
教育、文化和体育类别的结果显示在表3图3.

3.方法

从欧洲数据门户网站中随机选择了三个类别:政府和公共部门、交通、教育、文化和体育。研究分为两个阶段:探索性研究和最终研究。我们为这两项研究准备了一个电子表格,在行中包含BP,在列中包含数据集标识符。通过在每个单元格中输入以下代码之一进行最终分析并记录:“是”(Y)、“否”(N)。此外,在最终研究表中,将行添加到4个BP,以表明这些BP是否对应于机器可读或人类可读的数据。一些BP没有进行分析,因为它们超出了本研究的范围。在这些情况下,各个单元格的值为“不适用”(NA)(我们将数据集提供为补充材料,表S1–S4,在DataRepositoriUM,https://doi.org/10.34622/datarepositorium/N2P0NK(于2021年8月6日访问)。
在最后的研究中,除了最佳实践字段外,还为每个BP插入了一个观察行,以根据需要包括一些注释(我们提供的数据集如下补充材料,表S2–S4,在DataRepositoriUM,https://doi.org/10.34622/datarepositorium/N2P0NK(于2021年8月6日访问)。
每项研究的程序如下所述。

3.1. 探索性研究

为了分析欧洲数据门户网站在政府和公共部门、交通、教育、文化和体育等类别中的数据质量,进行了一项探索性研究,分析了每个类别的前20个数据集。
由于不可能及时手动分析所有数据集,因此必须定义样本。最初,对分类为优秀和良好+的数据集进行了系统抽样。为此,使用了算法1。
算法1数据集选择算法——探索性研究
   开始
将优秀数据集过滤到新列表;
通过Good+过滤数据集并将其添加到列表中;
计数=0;
WHILE(计数<20)
        将数据集添加到样本中;
        从列表中删除数据集;
        计数=计数+1;
结束(_W)
   结束
探索性研究仅关注每个类别的前20个数据集,因为本研究的目的是验证构成样本的算法的适用性,获得第一个结果,并确定潜在的实现问题。前20个数据集是对算法的测试,如果它被证明是有效的并且没有限制分析,那么它将在最终研究中被采用,并且样本将扩展到每个类别的50个数据集(我们将数据集作为补充材料,表S1,在DataRepositoriUM,https://doi.org/10.34622/datarepositorium/N2P0NK(于2021年8月6日访问)。
通过初步研究,我们验证了采样算法不是最优的,因为选择了许多属于同一国家的数据集,其中许多数据集相似,只是修改日期和数据本身不同。为了克服这个问题并增加数据集的多样性,对采样程序进行了一些更改,如下一节所示。

3.2. 最终研究

在最后的研究中,使用了算法2。
算法2数据集选择算法——最终研究
   开始
将优秀数据集过滤到新列表;
通过Good+过滤数据集并将其添加到列表中;
从列表中删除探索性研究的数据集;
计数=0;
WHILE(计数<50)
        如果新数据集与示例中已包含的数据集非常相似,则
          从列表中删除数据集;
        ELSE公司
          将数据集添加到样本中;
          从列表中删除数据集;
          计数=计数+1;
        结束_IF
结束_滑道
    结束
对于每个类别,根据上述算法选择50个数据集,其中数据集根据优秀或良好+分类进行过滤,并删除探索性研究的数据集。因此,在任何类别中都没有留下分类为优秀的数据集。根据不包括相似性的要求,该列表逐数据集滚动,以构成具有50个数据集的样本。
为了对每个数据集进行分析,使用了每个数据集的人类和机器可读(Turtle)EDP目录信息。对于一些BP,这项研究分两轮或两轮以上进行,因为有必要对信息进行混响或微调。此外,以下BP被排除在分析之外,因为它们不适用于EDP背景或本研究背景:B18、B20、BP23、BP24、BP25、B26、B27、B28、BP31和B33。
尽管W3C关于DWBP的规范明确了如何识别每个BP的合规性或不合规性,但有必要进一步详细说明这些标准,以消除分析过程中的主观性和偏差。为了便于数据的分析和表示,我们将一些业务流程划分为人类可读的版本和计算机可读的版本。分析每个BP的观察结果时采用的标准如下:
最佳实践1——提供元数据。为人类用户和计算机应用程序提供元数据,以便人类可以分析元数据,计算机应用程序可以处理元数据。始终添加“是”代码,因为欧洲数据门户始终需要提供元数据。
最佳实践2-提供描述性元数据。如果数据集目录提供了日期、关键字、标题和发布者等信息,则输入“是”,否则输入“否”。将不可用的元数据元素(被认为是必需的)添加到相应的备注字段中。
最佳实践3-提供结构元数据。需要它们来打开数据集。如果他们有关于每个字段的含义和可接受值的信息,请输入“是”,否则输入“否”。
最佳实践4——提供数据许可证信息。如果数据集有许可证并且许可证类型是明确的[15],然后输入“是”,但在备注字段中添加相关信息。如果它没有许可证,则填写“否”。
最佳实践5-提供数据来源信息。如果有关于发布者ID、创建日期和数据集修改的信息,则有来源信息[16,17]. 从两个角度对它们进行了分析:(a)除了存在dct:issued属性外,还应存在以下属性之一或全部三个属性:dct:creator、dct:publisher;离散余弦变换;publisher和(b)如果之前的属性都不存在,则应存在prov:actedOnBehalfOf。如果存在两种可能性中的一种或两者都存在,则输入“是”,否则输入“否”,并在适当的备注字段中添加信息。
最佳实践6——提供数据质量信息。如果数据集具有属性dqv:hasQualityMeausrement,则输入“yes”;否则,输入“否”。
最佳实践7——提供版本指示器。我们将其分为BP7H(人类可读信息)和BP7C(计算机可读信息)。在BP7H中,如果数据集有版本信息,则输入“yes”。在BP7C中,只有当它具有某些属性(如pav:version或owl:versionInfo)时,才会添加“yes”。这些属性可以在Turtle语法中识别。在这种情况下,会在备注字段中添加适当的信息。
最佳实践8—提供版本历史记录。我们将其分为BP8H(人类可读信息)和BP8C(计算机可读信息)。在BP8C中,只有当它具有元数据元素dct:isVersionOf、dct:hasVersion、owl:versionInfo、pav:version或与rdfs:comment关联的等效元素时,才输入“yes”。在这种情况下,会在备注字段中添加适当的信息。对于BP8H,如果提供了版本之间差异的摘要,则输入“是”;否则,输入“否”。
最佳实践9—使用持久URI作为数据集的标识符。如果数据集使用已知的永久标识符,例如URN、Handle、DOI、ARK、永久统一资源定位符(PURL)、电子标识符系列出版物(EISP)、国际电子书标识符编号(IEIN)、可扩展资源标识符(XRI)、磁性链接磁铁、虚拟国际权威文件(VIAF)、,国际标准名称识别码(ISNI)或国际标准名称标识码(ISNIC),填写“是”;如果不是,请填写“否”。
最佳实践10—将持久URI用作数据集中的标识符。检查属性(如dct:creator、dct:publisher、dct:location、dct=spacial、dct:subject、dct:license或dct:contributor)是否被永久URI引用,例如文档的DOI或Handle、作者的Orcid或Creative Commons许可的URI。如果是,请输入“是”;否则写上“否”。
最佳实践11-将URI分配给数据集版本和系列。如果为每个版本分配了URI,请输入“yes”;否则,输入“否”。
最佳实践12——使用机器可读的标准化数据格式。如果数据集具有标准化的机器可读分布,例如XML、JSON、Turtle和/或CSV,则输入“yes”;否则,输入“否”。
最佳实践13——使用与地区无关的数据表示。我们将其分为BP13H(人类可读信息)和BP13C(计算机可读信息)。在BP13H中,如果有关于如何解释列中各个值(日期、时间、货币和数字)的信息,则输入“是”;否则,输入“否”。对于BP13C,必须按属性进行搜索:dct:conformsTo、dct:language、dct:location和/或dct:spacial。如果确定,则填写“是”,否则填写“否”。
最佳实践14——以多种格式提供数据。如果数据集具有多种格式的分布,请填写“是”;否则,输入“否”。
最佳实践15——重用词汇表,最好是标准化词汇表。默认情况下,EDP对所有数据集使用DCAT和用于数据集分类(DCAT:theme)的数据主题权限表。因此,我们的分析只关注价值词汇的使用,如Eurovoc。因此,如果数据集描述具有属性dct:subject和标准词汇表(Eurovoc)中的值,则输入“yes”;否则,输入“否”。
最佳实践16——选择正确的形式化级别。对于这一最佳实践,如果数据集使用了适当的词汇,如都柏林核心和Schema.org,则表示“是”;如果它使用的词汇没有过多或过少,请写上“否”。
最佳实践17——提供批量下载。如果数据集可以一次全部下载,则输入“是”;否则,输入“否”。
最佳实践18——为大型数据集提供子集。此最佳实践仅适用于大型数据集。在EDP中,这些已经被划分,因此不适用。
最佳实践19使用内容协商来提供多种格式的可用数据。检查资源的可用表示形式,并尝试通过在HTTP请求头中指定接受的内容来获取它们。如果返回,请填写“是”;否则写上“否”。
最佳实践20-提供实时访问。EDP鼓励数据提供商实时提供数据。然而,该BP无法通过分析其目录进行验证,因此未包含在分析中。
最佳实践21提供最新数据。如果有属性dct:accumalPeriodicity或类似,则输入“是”,否则输入“否”。
最佳实践22——对不可用的数据进行解释。我们将其分为BP22H(人类可读信息)和BP22C(计算机可读信息)。对于BP22H,如果数据集附带有一个HTML文档,其中包含数据集中引用的数据信息,但由于某种原因不可用,请输入“是”;否则写上“否”。对于BP22C,如果使用了适当的HTTP状态代码,例如303(请参阅其他)、410(永久删除)或503(服务*提供数据*不可用),请填写“是”;否则,输入“否”。
最佳实践23-通过API提供数据。EDP支持通过API分配数据集,但由于遵守此BP并不依赖于数据集,因此未对其进行分析。
最佳实践24——将网络标准作为API的基础。该BP的符合性不取决于数据集,因此未进行分析。
最佳实践25——为您的API提供完整的文档。该BP的符合性不取决于数据集,因此未进行分析。
最佳实践26——为您的API提供完整的文档。EDP为其API提供了完整的文档。该BP的符合性不取决于数据集,因此未进行分析。
最佳实践27-保留标识符。该BP也不适用于本研究的范围,因为我们没有查看删除的数据集。
最佳实践28—评估数据集覆盖率。该BP的合规性分析也不在本研究范围内,因为它与档案保存信息有关。
最佳实践29——数据消费者的反馈。数据使用者将能够对数据集及其分布提供反馈和评估。如果有针对数据消费者的反馈机制,例如电子邮件或其他通信渠道,请填写“是”;否则,输入“否”。
最佳实践30——提供反馈。可以向数据使用者提供反馈。该属性的存在被验证为rdfs:comment或类似,如果存在,则输入“yes”,否则输入“no”。
最佳实践31—通过生成新数据来丰富数据。由于我们在数据集或元数据中均未发现任何信息,无法说明数据已被丰富,因此分析中未包含此最佳实践。
最佳实践32提供补充演示。如果数据集有互补的表示形式,如图形,则输入“是”;否则,输入“否”。
最佳实践33——向原始出版商提供反馈。遵守此BP不在本研究范围内,因为我们无法接触EDP与其数据提供商之间的通信。
最佳实践34-遵循许可条款。虽然EDP收集数据时使用了源中提供的相同类型的许可证(https://data.europa.eu/pt/faq(2021年5月28日访问),根据所提供的术语,检查数据集是否符合数据的许可证。如果是,请填写“是”;否则写上“否”。
最佳实践35——引用原始出版物。如果通过文本或链接(例如,数据源,可从中获得)引用任何数据集的原始来源,则输入“是”;否则写上“否”。
该分析表明,政府和交通类别的数据集评级最高,教育类别的数据最低。观察最多的BPs为:BP1、BP2、BP4、BP5、BP10、BP11、BP12、BP13C、BP16、BP17、BP19、BP29和BP34,观察最少的为:BP3、BP7H、BP7C、BP13H、BP14、BP15、BP21、BP32和BP35。此外,在分析的3个类别中,任何数据集都未观察到BP6、BP8H、BP8C、BP9、BP22H、BP22C和BP30(我们提供的数据集为补充材料,表S2–S4,在DataRepositoriUM,https://doi.org/10.34622/datarepositorium/N2P0NK(于2021年8月6日访问)。
这些结果突出了质量驱动的数据发布的重要性。数据发布为管理者和用户都带来了好处。数据发布对于各个部门和用户非常有用,例如在交通方面,可以在紧急情况下提供更有效的响应[18]或者在决策中提供补贴。然而,在发布数据时不注意质量是没有意义的,因为这是确保访问和重用可靠性所必需的。除了公平原则外,遵守W3C推荐的最佳实践也可以提高开放数据的质量,DWBP更全面。
这项研究的结果为数据管理者提供了见解,尤其是在政府背景下,哪些最佳实践最受关注,哪些需要更多关注。此外,从DWBP的角度来看,它填补了EDP提供的数据质量文献中的一个空白。
本研究的局限性在于,由于不符合本研究范围,我们没有分析BP18、BP20、BP23、BP24、BP25、BP26、BP27、BP28、BP31和BP33。
尽管对采样技术格外小心,但许多数据集仍然相似,因此新的研究需要从改进样本构成算法开始。

4.用户注释

我们的数据集以开放格式的CSV文件提供。在每个CSV的第一页上,有关于数据的结构信息。缩写的图例位于CSV的底部。
CSV表的结构如下:行-BP;列—每个数据集的标识符。在最终研究表中,我们为每个BP添加了一行备注。

补充资料

电子表格位于:https://doi.org/10.34622/datarepositorium/N2P0NK表S1:探索性研究,政府、交通和教育文化体育类别。表S2:最终研究,政府类别。表S3:最终研究,运输类别。表S4:最终研究,教育、文化和体育。

作者贡献

概念化,A.A.B。;方法,A.A.B.和J.F。;调查,编写原始草案,R.O.d.C.和M.C.A。;写作审查和编辑,R.O.d.C.、A.A.B.和M.C.A。;监督-M。所有作者都已阅读并同意手稿的出版版本。

基金

这项研究没有得到外部资助。

机构审查委员会声明

不适用。

知情同意书

不适用。

数据可用性声明

这项工作创建了数据集,可在https://doi.org/10.34622/datarepositorium/N2P0NK,根据2021年8月6日访问的CC0-“公共域专用”许可证。

利益冲突

作者声明没有利益冲突。

工具书类

  1. 桑托斯,P.L.V.A.C。;圣安娜,R.C.G.Dado e granularidade e na perspectiva da informaçáo e tecnologia:Uma interpretataço pela ciñncia da informationço。词。信息。 2013,42, 199–209. [谷歌学者]
  2. 阿尔贝托尼(R.Albertoni)。;考克斯,S。;Beltran,A.G.公司。;Perego,A。;Winstanley,P.数据目录词汇(DCAT-Version 2)。W3C建议2020年2月4日)。在线可用:https://www.w3.org/TR/vocab-dcat/(2021年2月18日访问)。
  3. Greenberg,J.元数据和万维网。图书馆与信息科学百科全书。2003年。在线提供:http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.134.4528&rep=rep1&type=pdf(2021年5月28日访问)。
  4. J.莱利。什么是元数据,它的用途是什么?NISO:美国马里兰州巴尔的摩,2017年;在线可用:https://groups.niso.org/apps/group_public/download.php/17446/理解%20Metadata.pdf(2021年5月28日访问)。
  5. Lee-Berners,T.编织网络:词汇表。1999年7月23日。在线可用:https://www.w3.org/People/Berners-Lee/Waving/glossary.html(2021年5月28日访问)。
  6. Simperl,E。;沃克,J。分析报告8:开放数据门户的未来; 欧盟出版局:卢森堡,2017年;第1-26页。在线可用:https://www.europeandataportal.eu/sites/default/files/edp_analyticalreport_n8.pdf(2020年10月5日访问)。
  7. 卡拉拉,W。;费舍尔,S。;van Steenbergen,E.《2015年欧洲开放数据成熟度:对欧洲游戏状态的洞察》。2020年。在线提供:https://beta.op.europa.eu/en/publication-detail/-/publicaation/0e95f3cb-141c-11eb-b57e-01aa75ed71a1(2020年10月13日访问)。
  8. Berends,J。;卡拉拉,W。;拉杜,C。分析报告9:开放数据的经济效益; 欧盟出版局:卢森堡,2017年。[谷歌学者] [交叉参考]
  9. 欧洲委员会。打开数据门户。2021.在线提供:https://digital-strategy.ec.europa.eu/en/policies/open-data-portals(2021年5月28日访问)。
  10. 范·克尼彭伯格(Van Knippenberg,L.)。分析报告16:欧洲开放数据最佳实践:向塞浦路斯、法国和爱尔兰学习; 欧盟出版局:卢森堡,2020年。[谷歌学者] [交叉参考]
  11. 数据。欧罗巴。欧盟。关于数据。欧罗巴。欧盟。(2021年更新)。在线可用:https://data.europa.eu/de/highlights/openregions-and-cities-data-european-data-portal(https://data.europa.eu/de/highlights/openregions-and-cities-data-european-data-portal数据门户网站)(于2021年6月21日访问)。
  12. 国家空间数据基础设施。大约2021年4月21日。在线可用:https://www.nipp.hr/default.aspx?id=1728。(2021年6月19日访问)。
  13. 莱西奥,B.F。;伯尔,C。;Calegari,N.(编辑)网络最佳实践数据。2017年1月31日。在线可用:https://www.w3.org/TR/dwbp/#intro。(2020年10月13日访问)。
  14. 医学博士威尔金森。;杜蒙蒂尔,M。;Jan Aalbersberg,I.J。;阿普尔顿,G。;艾克斯顿,M。;Baak,A。;布隆伯格,N。;Boiten,J。;桑托斯,L.B.D。;伯恩,P.E。;等。科学数据管理和管理的公平指导原则。科学。数据 2016,, 60018. [谷歌学者] [交叉参考] [绿色版本]
  15. E.都灵。;Trevisan,G.L。;Vidotti,S.A.B.G.Dados abertos CAPES:Um OlharáLuz dos Desafios para Publicaço de Dados na Web。词。信息。 2019,48, 38–46. 在线可用:https://repositorio.utfpr.edu.br/jspui/handle/1/4812。(2021年6月1日访问)。
  16. 原产地。链接数据词汇表。2013.在线提供:https://www.w3.org/TR/ld-glossary/#provenance。(2021年5月5日访问)。
  17. Hartig,O.《数据网络中的产地信息》。2009年。在线提供:http://ceur-ws.org/Vol-538/ldow2009_paper18.pdf(于2021年5月28日访问)。
  18. 卡拉拉,W。;费舍尔,S。;Oudkerk,F。;van Steenbergen,E。;丁霍尔特,D。分析报告1:数字转型和开放数据; 欧盟出版局:卢森堡,2015年;第1-22页。[谷歌学者] [交叉参考]
图1。观察到或未观察到每个BP的政府和公共部门类别数据集的百分比。注:图中未显示未应用的BP。*BP7H,BP7的可读版本;BP7C,BP7的计算机可读版本;BP8H,BP8的可读版本;BP8C,BP8的计算机可读版本;BP13H,BP13的可读版本;BP13C,BP13的计算机可读版本;BP22H,BP22的可读版本;BP22C,BP22的计算机可读版本。
图1。观察到或未观察到每个BP的政府和公共部门类别数据集的百分比。注:图中未显示未应用的BP。*BP7H,BP7的可读版本;BP7C,BP7的计算机可读版本;BP8H,BP8的可读版本;BP8C,BP8的计算机可读版本;BP13H,BP13的可读版本;BP13C,BP13的计算机可读版本;BP22H,BP22的可读版本;BP22C,BP22的计算机可读版本。
数据06 00094 g001
图2。观察到或未观察到每个BP的传输类别数据集的百分比。注:图中未显示未应用的BP。*BP7H,BP7的可读版本;BP7C,BP7的计算机可读版本;BP8H,BP8的可读版本;BP8C,BP8的计算机可读版本;BP13H,BP13的人类可读版本;BP13C,BP13的计算机可读版本;BP22H,BP22的可读版本;BP22C,BP22的计算机可读版本。
图2。观察到或未观察到每个BP的传输类别数据集的百分比。注:图中未显示未应用的BP。*BP7H,BP7的可读版本;BP7C,BP7的计算机可读版本;BP8H,BP8的可读版本;BP8C,BP8的计算机可读版本;BP13H,BP13的可读版本;BP13C,BP13的计算机可读版本;BP22H,BP22的可读版本;BP22C,BP22的计算机可读版本。
数据06 00094 g002
图3。教育、文化和体育类数据集中观察到或未观察到每个BP的百分比。注:图中未显示未应用的BP。*BP7H,BP7的可读版本;BP7C,BP7的计算机可读版本;BP8H,BP8的可读版本;BP8C,BP8的计算机可读版本;BP13H,BP13的可读版本;BP13C,BP13的计算机可读版本;BP22H,BP22的可读版本;BP22C,BP22的计算机可读版本。
图3。教育、文化和体育类数据集中观察到或未观察到每个BP的百分比。注:图中未显示未应用的BP。*BP7H,BP7的可读版本;BP7C,BP7的计算机可读版本;BP8H,BP8的可读版本;BP8C,BP8的计算机可读版本;BP13H,BP13的可读版本;BP13C,BP13的计算机可读版本;BP22H,BP22的可读版本;BP22C,BP22的计算机可读版本。
数据06 00094 g003
表1。政府和公共部门类别中观察或不观察每个BP的数据集数量。
表1。政府和公共部门类别中观察或不观察每个BP的数据集数量。
最佳实践观察人未观察者
业务流程150
业务流程23812
业务流程3 50
业务流程450
桶5491
业务流程6 50
BP7H,BP7的可读版本545
BP7C,BP7的计算机可读版本545
BP8H,BP8的可读版本 50
BP8C,BP8的计算机可读版本 50
业务流程9 50
业务流程10482
业务流程11491
业务流程12491
BP13H,BP13的可读版本1733
BP13C,BP13的计算机可读版本3713
业务流程141931
业务流程151832
业务流程16491
业务流程1750
业务流程1950
业务流程212327
BP22H,BP22的可读版本 50
BP22C,BP22的计算机可读版本 50
业务流程29428
BP30型 50
BP32型2327
业务流程3450
BP35型743
表2。传输类别中观察到或未观察到每个BP的数据集数量。
表2。传输类别中观察到或未观察到每个BP的数据集数量。
最佳实践观察人未观察者
业务流程150
桶2455
桶3941
业务流程450
业务流程550
业务流程6 50
BP7H,BP7的可读版本1634
BP7C,BP7的计算机可读版本1634
BP8H,BP8的可读版本 50
BP8C,BP8的计算机可读版本 50
业务流程9 50
业务流程1050
业务流程1150
业务流程1250
BP13H,BP13的可读版本941
BP13C,BP13的计算机可读版本3614
业务流程142129
业务流程15248
业务流程1650
业务流程1750
业务流程1950
业务流程211040
BP22H,BP22的可读版本 50
BP22C,BP22的计算机可读版本 50
业务流程29446
BP30型 50
BP32型3317
业务流程3450
BP35型446
表3。教育、文化和体育类别中观察到或未观察到每个BP的数据集数量。
表3。教育、文化和体育类别中观察到或未观察到每个BP的数据集数量。
最佳实践观察人未观察者
业务流程150
业务流程2464
业务流程3446
业务流程450
业务流程550
业务流程6 50
BP7H,人类可读版本的BP7545
BP7C,BP7的计算机可读版本545
BP8H,BP8的可读版本 50
BP8C,BP8的计算机可读版本 50
业务流程9 50
业务流程10491
业务流程1150
业务流程12482
BP13H,人类可读版本的BP131436
BP13C,BP13的计算机可读版本3119
业务流程142228
业务流程15149
业务流程1650
业务流程1750
业务流程1950
业务流程211733
BP22H,BP22的可读版本 50
BP22C,BP22的计算机可读版本 50
业务流程293317
BP30型 50
BP32型2426
业务流程3450
BP35型743
出版商备注:MDPI对公布的地图和机构关联中的管辖权主张保持中立。

分享和引用

MDPI和ACS样式

安德拉德,M.C。;库尼亚,R.O.d。;Figueiredo,J。;A.A.巴普蒂斯塔。政府和公共部门、交通和教育、文化和体育类别中的欧洲数据门户数据集是否符合网络最佳实践数据?数据 2021,6, 94.https://doi.org/10.3390/data6080094

AMA风格

Andrade MC、Cunha ROd、Figueiredo J、Baptista AA。政府和公共部门、交通和教育、文化和体育类别中的欧洲数据门户数据集是否符合网络最佳实践数据?数据. 2021; 6(8):94.https://doi.org/10.3390/data6080094

芝加哥/图拉宾风格

安德拉德、莫尔加纳·卡内罗、拉斐拉·奥利维拉·达库尼亚、豪尔赫·菲格雷多和安娜·爱丽丝·巴普蒂斯塔。2021.“政府和公共部门、交通和教育、文化和体育类别中的欧洲数据门户数据集是否符合网络最佳实践数据?”数据6,编号8:94。https://doi.org/10.3390/数据6080094

文章指标

返回页首顶部