介绍
精心生成的数据是科学结论、新假设、论述、分歧和解决这些分歧的基础,所有这些都推动了科学发现。 因此,必须将数据视为一级科学输出,并加以处理,在此基础上可能有许多下游衍生作品,其中包括熟悉的研究文章( Starr等人,2015年 ). 但随着数据量和复杂性的不断增长,数据发布和分发基础设施开始出现 特别的 ,但更明确地设计为支持发现、可访问性、(重新)编码到标准、集成、机器引导解释和重用。
在本文中,我们使用“数据”一词来表示所有数字研究人工制品,无论它们是数据(传统意义上)、面向研究的数字对象(如工作流)或这些对象的组合/包(即“研究对象”的概念( Bechhofer等人,2013年 )). 实际上,本手稿将把研究数据生态系统中的所有数字实体视为数据。 此外,我们希望“数据”包括数据和元数据,并认识到两者之间的区别通常取决于用户。 各种类型的数据通常在网上发布,学术界鼓励公开数据发布的做法,并越来越多地将其作为资助机构的要求( Stein等人,2015年 ). 此类出版物要么使用专用存储库(例如,模型或分子数据存储库),要么越来越普遍地使用通用存储库,如FigShare、Zenodo、Dataverse、EUDAT,甚至机构存储库。 特殊用途存储库通常会获得专门的资金来管理和组织数据,并具有特定的查询接口和API来支持对其内容的探索。 另一方面,通用存储库允许以任意格式发布数据,很少或没有管理,并且通常很少有结构化元数据。 这两种场景都存在互操作性问题。 虽然API允许对专用存储库的数据进行机械化访问,但每个存储库都有自己的API,因此需要为每个跨存储库查询创建专门的软件。 此外,精心策划的注释的本体论基础并不总是透明的(无论是对人类还是机器),这阻碍了自动化集成。 通用存储库不太可能有丰富的API,因此通常需要手动发现和下载; 然而,更重要的是,存储库中的文件类型/格式和编码系统经常缺乏统一,并且缺乏管理,导致它们的许多内容无法使用( 罗氏等人,2015年 ).
以前的项目,特别是在生物/医学领域,试图实现深度互操作性,包括caBIO( Covitz等人,2003年 )和TAPIR( De Giovanni等人,2010年 ). 前者创建了一个丰富的基于SOAP的API,在所有存储库上强制实施通用接口。 后者实现了一种所有参与存储库都应该响应的特定于域的查询语言。这些举措成功地实现了强大的跨资源数据探索和集成; 然而,这是以牺牲广泛的理解为代价的,部分原因是实现的复杂性,和/或需要个人数据提供者不可避免的参与,他们通常都是经过资源培训的。 此外,在这两种情况下,互操作性都针对特定的研究领域(分别是癌症和生物多样性),而不是跨所有领域的更广泛的互操作性目标。
对于更通用的方法,以及“轻量级”互操作性被认为可以接受的地方,myGrid( 史蒂文斯、罗宾逊和戈布尔,2003年 )通过服务接口的丰富的基于本体的注释和BioMoby,促进了Web服务之间的发现和互操作性( Wilkinson等人,2008年 )通过进一步定义新的基于本体的服务请求/响应结构,在这些myGrid注释的基础上构建,以保证数据级兼容性,从而帮助构建工作流( 威瑟斯等人,2010年 ). 南共体( 威尔金森、范德瓦尔克和麦卡锡,2011年 )和SSWAP( Gessler等人,2009年 )使用RDF和OWL的新兴语义Web技术,通过将服务输入和输出定义为OWL类的实例,来丰富Web Service接口定义和正在传递的数据的机器可读性, 和SSWAP,通过传递嵌入OWL“图形”中的数据来帮助客户端和服务器解释消息的含义。 此外,万维网联盟-OWL-S还推出了两项Web服务互操作性计划( Martin等人,2005年 )和SAWSDL( Martin、Paolucci和Wagner,2007年 )两者都使用语义注释来增强机器理解Web服务接口定义和操作的能力。 所有这些面向服务的项目在采用其方法的社区中都取得了成功; 然而,迄今为止,这些收养社区的规模相当有限,在某些情况下具有高度的地区特异性。 此外,这些解决方案中的每一个都专注于Web服务功能,它只代表全局数据归档的一小部分,在全局数据归档中,大多数数据都作为静态记录发布。 面向服务的方法还要求数据发布者具有相当多的编码专业知识和对服务器的访问权限,以便使用该标准,这进一步限制了他们对于构成大多数学术社区的“普通”数据发布者的效用。 因此,这些以及跨越几十年的众多其他互操作性计划尚未令人信服地实现轻量级、广泛适用于域的解决方案,该解决方案可以在各种静态和动态源数据资源上运行,并且可以用最少的技术专业知识来实现。
许多利益攸关方将从这项努力的进展中受益。 科学家本身,既是这些公共和私人数据的生产者,也是消费者; 公共和私人研究机构; 期刊和专业数据出版商既有“通用”也有“专用”; 已支付基础研究费用的研究资助者; 数据中心(例如,EBI( 库克等人,2016年 )和SIB( 瑞士生物信息学研究所成员,2016 ))谁代表研究界管理和托管这些数据; BBMRI-ERIC等研究基础设施( Van Ommen等人,2015年 )和ELIXIR( Crosswell&Thornton,2012年 )以及其他多样性。 所有这些利益相关者对学术数据基础设施的行为都有不同的需求。 例如,科学家需要访问研究数据集以启动综合分析,而资助机构和审查小组可能对与数据存储相关的元数据更感兴趣,例如,浏览或下载的数量,以及选定的许可证。 由于利益相关者的多样性; 数据资产的规模、性质/格式和分布; 支持所有利益相关者自由选择的必要性; 尊重隐私; 承认数据所有权; 由于认识到数据生产者和数据主机可用的资源有限,我们认为这项努力是 电子科学的重大挑战 .
2014年1月,应荷兰电子科学中心和荷兰生命科学技术中心(DTL)的要求,一系列利益相关者的代表齐聚荷兰莱顿洛伦茨中心,就如何进一步加强基础设施以支持电子科学数据生态系统进行头脑风暴和辩论。 从这些讨论中,出现了这样一个概念,即定义和广泛支持一套最低限度的社区商定指导原则和做法,可以使数据提供者和消费者-机器和人类更容易找到、访问、互操作, 并明智地重用当代数据密集型科学产生的大量信息。 这些原则和实践应该支持广泛的综合和探索行为,并支持广泛的技术选择和实施,就像互联网协议(IP)提供了一个最小层,可以在互联网上创建大量数据提供、消费和可视化工具一样。 研讨会的主要成果是定义了所谓的公平指导原则,旨在以以下格式发布数据: 可查找 , 无障碍 , 可互操作 和 可重复使用的 机器和人类用户。 《公平原则》经过了一段时间的公众讨论和详细阐述,最近才出版( Wilkinson等人,2016年 ). 简而言之,这些原则指出:
可查找 -数据应该使用全局唯一、可解析和持久的标识符进行标识,并且应该包括机器可操作的上下文信息,这些信息可以被索引以支持人工和机器对该数据的发现。
无障碍 -识别出的数据应该能够被人和机器最佳地访问,使用一个明确定义的协议,如果需要,使用明确定义的授权/身份验证规则。
可互操作 -当数据是机器可操作的,使用共享词汇表和/或本体,在机器可访问的语法和语义格式中时,数据就变得可互操作。
可重复使用的 -可重复使用的数据首先符合F、A和I原则,但进一步,将与上下文信息等充分描述,以便可以与其他数据源进行准确链接或集成。 此外,应该有足够丰富的出处信息,以便能够正确引用重复使用的数据。
虽然这些原则描述了数据发布应该展示的期望特性,以鼓励最大程度的自动发现和重用,但它们对于如何实现这些目标提供的指导很少。 当主要组织已经认可,甚至要求遵守公平原则时,这就构成了一个问题。 例如,一个生物研究小组进行了一项实验,以检查致病真菌中多聚腺苷化位点的使用情况 稻瘟病菌 ,记录,通过高吞吐量3 ′ -末端测序,在多种生长条件下以及在寄主植物感染期间选择性多聚腺苷化位点选择的偏好。 结果数据采用特定于研究的Excel电子表格、BED比对图和蛋白质功能注释饼图的形式。 与基因组或蛋白质序列和微阵列输出不同,这些类型的数据没有公共管理的存储库,但这些数据对其他研究人员有用,并且应该(至少)容易被试图复制其结果的评论员或第三方研究组发现和解释。 此外,他们的资助机构和他们偏爱的科学期刊都要求他们根据公平原则在公开的公共档案中公布源数据。 目前,该领域中常用的通用数据存档资源没有明确提供对FAIR的支持,也没有为如何以符合FAIR的方式使用其存档设施提供工具甚至指导。 因此,生物研究团队在正式数据发布方面几乎没有经验,但必须以公平的方式自我指导其数据存档。 我们相信,这种情况将在所有研究领域中极为常见,因此,这种用法是该互操作性基础设施和FAIR数据发布原型的最初重点。
这里我们描述了一种新的互操作性体系结构,它结合了三种预先存在的Web技术,以增强缺少或具有不兼容API的存储库中数据的发现、集成和重用; 数据格式通常被认为是不可互操作的,如Excel电子表格和扁平文件; 甚至是通常被认为是可互操作的数据,但没有使用所需的词汇表标准。 我们研究了该体系结构的特征在多大程度上符合FAIR原则,并建议这可能被视为FAIR原则的“参考实现”,特别是适用于任何通用或专用存储库中的非互操作数据。 我们提供了两个用法示例。 第一个关注的是与上述类似的使用案例,在该案例中,我们使用我们提议的基础设施创建一个公平的、自存档的生物数据学术存储库,以供通用Zenodo存储库使用。 第二个更复杂的示例有两个目标:第一,使用基础设施提高元数据的透明度和公平性,描述数据集的包含标准,表示特殊用途、精选资源(UniProt)的子集; 第二,展示如何通过使UniProt中已有的FAIR数据能够与其他本体和词汇互操作,并更明确地将其与引用信息连接,从而进一步提高其FAIR性。 最后,我们将这项工作置于其他倡议的背景下,并证明它是对其他倡议的补充,而不是与其他倡议竞争。
方法
实施
技术决策及其理由概述
万维网联盟(W3C)的资源描述框架(RDF)以与广泛使用的Web应用程序格式(如JSON和XML)兼容的标准化方式,提供了用显式语义描述实体、属性及其关系的能力。 关联数据原则( Berners-Lee,2006年 )强制要求数据项和模式元素由HTTP可解析的URI标识,因此可以使用HTTP协议来获取数据。 在RDF描述中,将共享公共本体术语用于元数据注释支持搜索和大规模集成。 考虑到所有这些特性,我们选择使用RDF作为这个互操作性基础设施的基础,因为它是为了在Web上共享数据而设计的。
除此之外,人们普遍认为,任何需要新型数据发现/共享“平台”、“总线”或API的实现都超出了我们承诺的最低设计; 这需要发明一种技术,然后数据生态系统中的所有参与者都需要实现,而这被认为是一种不可启动的技术。 然而,在查找和检索数据的机制周围需要某种形式的合并。 我们最初的目标通信(即生物医学科学)采用了轻量级HTTP接口。 我们建议通过基于REST的实现继续这一方向( Fielding&Taylor,2002年 )由于几个FAIR原则令人信服地映射到分布式超媒体系统的REST体系结构风格的目标,例如为所有实体提供可解析的标识符,以及发现和检索这些实体的不同表示的通用机器可访问方法。 我们在这里描述的实现主要基于HTTPGET方法,并使用丰富的元数据和超媒体控件。 我们使用广泛接受的词汇表不仅以可互操作的方式描述数据,而且还描述其性质(例如,实验的背景和数据是如何处理的)以及如何访问它。这些选择有助于最大限度地吸收我们的初始目标群体,最大限度地提高资源之间的互操作性, 并简化我们打算支持的广泛(非预定义)客户行为的构建。
机密和隐私敏感数据也是一个重要的考虑因素,人们早就认识到,在我们的实施过程中,必须能够识别和丰富描述数据和/或数据集,而不必允许直接访问它们, 或者允许通过现有监管框架或安全基础设施进行访问。 例如,国际罕见疾病研究联盟的许多资源都参与了研发连接平台( 汤普森等人,2014年 )它定义了“疾病卡”(disease card),这是一个元数据对象,提供了有关各个疾病注册中心的总体信息,然后将其合并到“疾病矩阵”中。 疾病矩阵提供了关于登记册中有哪些疾病变体、每个疾病有多少个人代表的汇总数据,以及其他高级描述性数据,例如,研究人员可以通过这些数据确定是否应该向登记册申请完整的数据访问。
最后,重要的是,数据主机/提供程序 必要地 作为使其数据互操作的参与者,互操作性解决方案应该能够在源提供商参与或不参与的情况下调整现有数据。 这确保了资源有限的项目可以实现互操作性目标,“废弃的”数据集可能仍然参与互操作性框架,但最重要的是,那些有需求和资源的项目应该承担起使其感兴趣的数据可互操作的责任, 即使它不属于他们。 这将把数据迁移到可互操作格式的问题分散到最大数量的利益相关者身上,并确保最关键的资源——对互操作性需求最大的资源——成为最早的迁移目标。
考虑到这些因素,我们受到了三种现有技术的启发,这三种技术的功能以新颖的组合方式用于创建数据和元数据的互操作性基础设施,旨在满足FAIR的所有要求。 简而言之,所选技术包括:
W3C的链接数据平台( 斯派彻,阿威和马霍特拉,2015年 ). 我们根据链接数据平台(LDP)容器的概念以及LDP对数据目录词汇(DCAT)的使用,为分层数据集容器生成了一个模型, Maali,Erickson&Archer,2014年 )用于描述数据集、数据元素和这些数据元素的分布。 我们还采用了DCAT使用的简单知识组织系统(SKOS, Miles&Bechhofer,2009年 )概念方案是一种从本体上描述数据集或数据记录内容的方法。
RDF映射语言(RML, Dimou等人,2014 ). RML允许我们为任何给定的数据集描述一个或多个可能的RDF表示,并以其本身即FAIR的方式进行描述:RML模型的每个子组件都是可查找、可访问、可互操作和可重用的。 此外,对于许多常见的半结构化数据,有一些通用工具可以利用RML模型动态地将数据从这些不透明表示转换为可互操作的表示( https://github.com/RMLio/RML-Mapper网站 ).
三模式碎片(TPF- Verborgh等人,2016年 ). TPF接口是一个REST Web API,用于从任何本机格式的数据源检索RDF数据。 TPF服务器接受表示三种模式[Subject、Predicate、Object]的URL,其中这三种元素中的任何一种都可以是常量或变量,并从其数据源返回与这些模式匹配的RDF三元组。 这样的模式可以用于获取整个数据集、数据集切片或单个数据点,甚至是单个三元组(本质上是电子表格中的单个单元格)。 TPF接口不是依赖于服务器和客户端之间的标准化合同,而是自我描述,以便自动化客户端可以发现接口及其数据。
现在,我们将详细描述如何将这些技术的关键特性结合起来,以提供一种新的数据发现架构。 我们稍后将演示,这种技术的组合还可以实现元数据和数据级的互操作性,即使是在不透明对象(如扁平文件)之间,也可以使这些对象中的数据与语义Web上的其他数据并行查询。
元数据互操作性“FAIR访问器”和链接的数据平台
链接数据平台” 为Web资源上的HTTP操作定义了一组规则……以提供Web上读写链接数据的体系结构” ( https://www.w3.org/TR/ldp/ ). 所有实体和概念都由URL标识,机器可读元数据描述每个URL的功能或目的,以及解析该URL时返回的资源的性质。
LDP规范中包含LDP容器的概念。 LDP容器的基本实现涉及两种“资源”,如图所示 图1 。第一种类型的资源表示容器,这是一个元数据文档,描述资源集合的共享功能,以及(可选)该集合的成员身份。 例如,这类似于描述数据存储库的元数据文档,其中存储库本身具有独立于该存储库中的单个数据记录(即集合的成员)的功能(所有权、管理策略等)。 第二种类型的资源描述所包含集合的成员,并(可选)提供访问记录本身的方法。
图1: FAIR Accessor的两层。
受LDP容器的启发,FAIR Accessor中有两种资源。 第一个资源是Container,它通过提供有关复合研究对象的FAIR元数据来响应HTTP GET请求,还可以选择提供表示MetaRecords的URL列表,这些URL描述集合中的各个组件。 MetaRecord资源通过HTTP GET解析为包含有关单个数据组件的元数据的文档,还可以选择包含一组结构为DCAT Distributions的链接,这些链接将导致该数据的各种表示。
我们称之为“公平存取器”的实现使用了LDP描述的容器概念,但它不需要完全实现LDP,因为我们只需要读取功能。 此外,自民党的其他要求会增加复杂性,但不会带来显著效益。 因此,我们的实现具有基于上述LDP容器的两种资源类型,具有以下特定功能:
容器资源: 这是一个复合研究对象(任何类型的-存储库、存储记录、数据库、数据集、数据片、工作流等)。 它的表示可以包括涵盖的范围或知识领域、对象的作者/所有权、最新更新、版本号、管理策略等。 此元数据可能包含也可能不包含表示MetaRecord资源(如下所述)的URL,这些资源包含复合对象中的各个元素。 值得注意的是,容器URL提供了独立于所描述数据集标识符的可解析标识符; 事实上,数据集可能没有标识符,例如,容器表示动态生成的数据切片的情况就是这样。 此外,容器可以由任何人发布,也就是说,容器的发布者可以独立于它所描述的研究对象的发布者。这实现了我们互操作层实现的目标之一,即任何人都可以发布任何研究对象的元数据,从而使这些对象更加公平。
MetaRecord资源 :这是集合中的特定元素(数据点、记录、研究、服务等)。 其表示应包括有关许可和可访问性、访问协议、丰富的引文信息以及其他描述性元数据的信息。 它还包含对其所属容器的引用(容器URL)。 最后,MetaRecord可以包含其他URL,这些URL提供对数据本身的直接访问,并通过其MIME类型(例如,text/html、application/json、application/vnd.ms-excel、text/csv等)明确引用关联的数据格式。 这是通过使用数据目录词汇表(DCAT; W3C,2014年 ),它定义了数据“分发”的概念,其中包括元数据方面,如数据源URL及其格式。 的下部 图1 图中显示了多个DCAT分发如何成为单个MetaRecord的一部分。 与容器资源一样,任何人都可以独立于原始数据发布者发布MetaRecords。
总之,FAIR访问器与链接数据平台有共同之处,但还建议基于FAIR原则包含丰富的上下文元数据,以促进存储库和记录级信息的发现和互操作性。 FAIR访问器是只读的,仅使用HTTP GET和广泛使用的语义框架来指导人类和机器探索。 重要的是,缺少新的API意味着通用的网络爬网代理可以访问这些信息,如果该代理“理解”所使用的词汇表,也可以对其进行处理。 因此,简单地说,访问器可以被设想为一系列Web页面,每个页面都包含元数据,以及指向更详细的元数据和/或数据的超链接,在这些页面中,元数据元素和页面之间的关系被显式地解释给Web爬虫。
为了在展示互操作性提案中更复杂的组件之前帮助澄清此组件,我们现在将研究我们的第一个用例数据自存档。 网上发布了一个简单的FAIR Accessor( Rodriguez Iglesias等人,2016年 )在Zenodo通用存储库中。 本引文中的数据自存档表示类似于“引言”部分中描述的聚腺苷酸化用途的情况。 在这种情况下,数据描述了真菌RNA代谢途径组成部分的进化保守性,如一系列热图图像。 数据存放包括一个文件“RNAME_Accessor.rdf”,它充当容器资源。 本文档包括有关存款的元数据(作者、主题等),以及一系列“包含”关系,引用文件“RNAME_Accessor_MetaRecords.rdf”中的MetaRecords。 每个MetaRecord都是关于其中一个热图的,除了关于图像的元数据外,还包括指向关联图像(数据类型image/png)的链接,以及指向该图像所表示的相同信息的RDF表示的链接(数据类型application/RDF+xml)。 应该注意的是,这些Accessor文件的大部分内容都是使用基于模板RDF文档的文本编辑器创建的。 这两个文档的结构在Results部分中有更详细的描述,其中包括更复杂的示例Accessor的完整演练。
因此,在元数据级别,互操作性体系结构的这一部分通过允许机器发现和解释有用的元数据,并将其与相关的数据存储链接,即使在不提供FAIR支持的存储库的情况下,也能提供高度的FAIR。 然而,这些组件并没有显著增强数据本身的公平性和互操作性,这是本项目的关键目标。 我们现在将描述两种最新发布的Web技术——三模式片段和RML在数据级互操作性问题上的应用。 我们将展示这两种技术可以结合起来提供一个无API的通用接口,该接口可以用机器可读的方式服务于FAIR数据转换(从非FAIR数据,或将FAIR数据转化为新的本体框架)。 我们还将演示如何将此FAIR数据重新发布层集成到FAIR访问器中,以便为从高级存储库元数据到记录中的各个数据点再到记录中各个数据点的增量向下钻取提供机器可移动的路径。
数据互操作性:通过基于RML的FAIR配置文件发现兼容数据
在我们的数据级互操作性方法中,我们首先确定了解决方案应展现的一些迫切需要:
不同数据类型上的视图统一,允许发现 可能 非整合格式中的可整合数据。
支持多种源数据格式(XML、Excel、CSV、JSON、二进制等)
“单元级”发现和互操作性(指电子表格中的“单元”)
模块化,这样用户就可以只对他们感兴趣的数据组件进行互操作
可重用性,避免“一个解决方案一个记录”,并最大限度地减少工作量/浪费
必须使用标准技术,并重用现有词汇表
不应要求数据主机参与(对于公共数据)。
我们选择的方法基于这样一个前提,即任何格式的数据都可以进行元建模,作为实现互操作性的第一步; 即,可以以机器可读的方式描述不透明数据“blob”中的显著数据类型和关系。 然后可以比较两个数据源的元模型,以确定其包含的数据在原则上是否可积。
我们将这些元模型称为“FAIR Profiles”,并进一步指出,我们应该支持相同数据的多个元模型,在一个FAIR Proffile中,这些元模型的结构或本体/语义框架不同。 例如,一个包含血压信息的数据记录可能有一个FAIR Profile,其中使用SNOMED词汇表和ICD10词汇表对该方面进行建模,因为可以使用任何一种方法来理解数据方面。 我们承认,这些元建模概念并不新颖,并且已经被许多其他项目所建议,例如DCAT和Dublin Core(DC Application Profile( Heery&Patel,2000年 )),ISO 11179标准对“元数据注册表”进行了广泛的描述。 然后有必要为FAIR Profiles选择一个建模框架,该框架能够表示任意的、可能冗余的语义模型。
我们对相关现有技术和实现的调查揭示了一种相对较新的非官方通用映射语言规范,称为“RDF映射语言”(RML 迪莫等人,2014年 ). RML是R2RML的扩展( Das、Sundara和Cyganiak,2012年 )是W3C推荐标准,用于将关系数据库映射到RDF,描述为“ 不同格式的数据的统一映射形式化,可以在工具和应用数据之间重用和交换 ” ( 迪莫等人,2014年 ). RML映射描述了三重结构(主语、谓语、宾语,缩写为[S,P,O])、主语和宾语的语义类型及其组成的URI结构,这些都是将非RDF数据(任何类型)转换为RDF数据的结果。 RML映射是模块化文档,其中每个组件描述了一个以资源为中心的图的模式(即,一个包含共享同一主题的所有三元组的图)。 每个映射模块中的“对象”位置可以映射到文本,也可以映射到另一个RML模块,从而允许映射之间的链接,其方式与RDF三元组的对象成为另一个三元组主题的方式大致相同。 因此,RML模块可以组装成一个完整的映射,表示数据源的RDF表示的结构和语义。 RML映射本身采用RDF文档的形式,可以通过标准的Web技术和协议在Web上发布、发现和重用。 因此,RML满足了公平配置文件的每一个需求,因此,我们选择此技术作为其实现的候选技术。 与相关技术相比,我们互操作性原型的这一部分与XML模式(XSD; Fallside&Walmsley,2004年 )Web服务描述语言(WSDL)文档的输出组件中的定义能够描述RDF图的结构和语义,但与XSD不同。
我们特别感兴趣的是RML的模块化,它能够对单个三元组进行建模。 这直接说明了我们的迫切需要4,我们不希望(也不应该期望)建模者投入所需的时间和精力来对潜在非常复杂的数据集的每个方面进行全面建模。 更常见的情况是,个人只对数据集的一个或几个方面感兴趣。 因此,我们选择在最高粒度级别上使用RML模型,也就是说,我们需要为每个感兴趣的三重模式(主语+类型、谓语、宾语+类型)使用不同的RML模型。 我们将这些小型RML模型称为“三重描述符”。 示例三描述符如图所示 图2 。可能有多个三重描述符与单个数据资源关联。 此外,多个三重描述符可以使用不同的URI结构、主题/对象语义类型或谓词对该数据资源中的同一方面进行建模,从而充当该数据方面的不同“视图”。 最后,与特定数据资源关联的所有三重描述符的聚合将生成该数据的公平配置文件。 请注意,公平概况不一定全面; 然而,通过汇集所有建模者的努力,FAIR Profiles只对社区最重要的数据方面进行建模。
图2: 样本三描述符的结构图,代表患者基因组中SNP的假设记录。
在这个描述符中,Subject将具有URL结构 http://example.org/病人/ {标识} ,主题的类型为PatientRecord。 谓词为hasVariant,对象将具有URL结构 http://identifiers.org/dbsnp/ 序列本体“0000694”中带有rdf:type的{snp}(这是“snp”的概念)。 绿色阴影的两个节点具有相同的本体类型,显示了RML的迭代性质,以及单个RML三描述符将如何连接到完整的FAIR配置文件中。 黄色阴影的三个节点是定义所描述三元组的主语类型、谓语和宾语类型的节点。
FAIR Profiles支持在兼容但结构上不可集成的数据(可能在不同的存储库中)上进行视图协调。 可以将一个数据资源的配置文件与另一个数据源的配置文件进行比较,以确定其三元描述符在语义级别上的共性,即使底层数据在语义上不透明和/或结构上不同,这也是实现互操作性的关键步骤。 因此,公平配置文件具有实用性,独立于任何 启动 转换底层数据,因为它们有助于兼容数据发现。 此外,就desidera 5而言,三重描述符,有时是整个FAIR Profiles,是在Web上发布的RDF文档,因此可以被重用来描述Web上任何地方包含类似数据元素的新数据资源,而不管该新资源的本机表示, 进一步简化数据协调的目标。
数据互操作性:使用FAIR投影仪和三模式片段进行数据转换
识别能力 可能 与 现状 然而,除了发现相关数据外,我们的互操作层旨在支持和促进跨资源数据集成和查询应答。这要求数据不仅要进行语义描述,还要进行语义和语法转换,以形成通用结构。
刚刚提出了一种描述RML中数据三元描述符的结构和语义的机制,但仍然缺少一种检索与这些三元描述符一致的数据的方法。 我们需要一种方法来公开转换后的数据,而不会加剧互操作性的现有关键障碍——不透明、非机器可读的接口和API激增( Verborgh&Dumoniter,2016年 ). 需要的是一种通用的方法来检索由(用户定义的)数据提取或转换过程生成的数据,而不会产生另一个API。
三模式片段(TPF)规范( Verborgh等人,2016年 )定义了用于发布三元组的REST接口。 服务器在包含三种模式[S、P、O]的URL上接收HTTP GET调用,其中该模式的任何组件都是常量或变量。 作为响应,TPF服务器返回其数据源中与传入模式匹配的所有三元组的页面。 因此,任何给定的三重模式都有一个不同的URL。
因此,我们建议将三个元素(转换为RDF的数据)组合在一起,RDF由三重描述符描述,并通过符合TPF的URL提供服务。我们将这种技术组合称为“FAIR投影仪”。 因此,公平投影仪是一种与特定数据源和特定三描述符关联的Web资源(即通过URL标识的内容)。 在FAIR投影仪的URL上调用HTTPGET会从数据源中生成RDF三元组,该三元组与投影仪三元组描述符定义的格式相匹配。 Projector背后的原始数据源可能是数据库、数据转换脚本、分析web服务、另一个FAIR Projector或任何其他静态或动态数据源。 请注意,我们在本提案中不包括转换方法; 然而,我们会在讨论部分解决这个问题并提供建议。 当然,可能会有多个投影仪与任何给定的数据源相关联,为代表该数据不同方面的各种三元组提供服务。
链接组件:FAIR投影仪和FAIR访问器
现在,我们有了一种方法来请求具有特定结构的三元组-TPF服务器,并且我们有了描述这些三元组的结构和语义的方法——三元组描述符。 与RDF数据源一起,这些数据定义了FAIR投影仪。 然而,我们仍然缺乏一种将符合TPF的URL与其关联的三重描述符链接的正式机制,这样,具有特定数据资源所需语义的三重描述子的发现也会提供其关联的投影仪URL。
我们建议,如果FAIR投影仪的输出被视为特定数据源的DCAT分布,并且包含在FAIR访问器的MetaRecord中,则可以在不定义任何新API或标准的情况下实现这种关联。 Projector的URL及其三重描述符成为MetaRecord中新dcat:Distribution元素的元数据方面。 如图所示 图3 其中,Distribution_3和Distributon_4包括表示FAIR投影仪的三模式片段格式URL,以及描述通过调用投影仪返回的数据的结构和语义的三描述符RML模型。
图3: 将FAIR投影仪集成到FAIR访问器中。
解析MetaRecord资源将返回包含给定记录的多个DCAT分发的元数据文档,如中所示 图1 。当FAIR投影仪可用时,此元数据文档中包含其他DCAT分发内容。 这些分发版包含一个URL(紫色文本),表示投影仪,以及一个三元描述符,该描述符在RML中描述将从该投影仪资源中获得的三元的结构和语义(如果已解析)。 这些三个描述符可以根据它们关联的记录(图中的记录R)聚合为公平配置文件,以提供记录R中数据的所有可用表示的完整映射。
因此,该互操作性系统的所有组件,从顶级存储库元数据到单个数据单元,现在都以允许机械化数据发现、协调和检索的方式相互关联,包括相关引文信息。 不需要新的技术或API,因此可以使用现有的Web工具和爬虫来探索数据和元数据的丰富组合。
结果
在上一节中,我们提供了Zenodo上发布的一个简单示例FAIR Accessor的URL。 为了演示整个互操作性系统,包括Accessor和Projector组件,我们现在将继续第二个示例,涉及蛋白质序列信息的专用存储库UniProt。 在本例中,我们检查了通过数据库查询创建的数据集的公平访问器,该数据集由UniProt数据库中特定的蛋白质记录“切片”组成,即 巢状曲霉FGSC A4 (NCBI分类ID 227321 )注释为参与mRNA处理(基因本体检索 去:0006397 ). 我们首先详细演示了FAIR Accessor的两层功能。 然后,我们展示了一个FAIR投影仪,并展示了它的元数据是如何集成到FAIR访问器中的。 在本例中,投影仪修改UniProt数据的本体框架,以便UniProt使用的本体术语被EDAM中指定的术语替换,EDAM是生物信息学操作、数据类型和格式的本体( Ison等人,2013年 ). 我们将演示此转换是由每个投影仪元数据附带的FAIR三描述符以机器可读的方式指定的。
两步FAIR访问器
示例FAIR Accessor访问UniProt托管的RDF数据库,并在该数据库上发出以下查询(用标准RDF查询语言SPARQL表示):
前缀向上:< http://purl.uniprot.org/core/ > 前缀分类单元:< http://purl.uniprot.org/taxonomy/ > 前缀rdf:< http://www.w3.org/1999/02/22-rdf-syntax-ns# > 前缀GO:< http://purl.oboblibrary.org/obo/GO_ > 选择DISTINCT? 身份证件 何处 { ? 蛋白质a up:蛋白质; up:生物分类单元:227321; up:classifiedWith/rdfs:subClassOf GO:0006397。 结合蛋白(substr(?protein),33)as? 标识) }
从容器资源URL检索访问器输出:
http://linkeddata.systems/Accessors/UniProtAccess
对容器资源URL调用GET的结果显示在中 图4 ,其中制表器( Berners-Lee等人,2006年 )用于将输出呈现为HTML,以提高可读性。
特别值得注意的是以下元数据元素:
图4: 解析FAIR访问器的容器资源输出的代表性部分,通过Tabolator Firefox插件呈现为HTML。
这三列显示了所有RDF Triples的Subject节点的标签(左)、每个Triple谓词位置中URI的标签(中)和Object位置的值(右),其中蓝色文本表示值是Resource,黑色文本表示值为literal。
许可信息以HTML+RDFa文档的形式提供,遵循Creative Commons发布的主要标准许可表格之一。 这允许机器和人员在访问任何数据元素之前明确地解释许可证,这是一个重要的功能,稍后将讨论。
作者使用学术研究项目资助本体(ARPFO)按名称提供,但也通过作者的ORCID链接明确提供,使用起源创作和版本控制(PAV; Ciccarese等人,2013年 )本体论。
存储库描述符被类型化为都柏林核心数据集、链接数据平台容器和起源集合,允许各种客户端代理对其进行解释,并符合一些最佳实践,如医疗保健和生命科学数据集描述指南( 格雷等人,2015年 ; Dumonier等人,2016年 ).
联系信息通过作者的朋友(FoaF)记录和DCAT本体“contactPoint”属性以机器可读的方式提供。
使用DCAT的人类可读关键字通过机器可读的RDF文档进行镜像和/或增强,RDF文档是DCAT“主题”属性的值。 该RDF文档遵循简单知识组织系统(SKOS)本体确定的结构,并列出了描述机器处理存储库的本体术语。
最后,数据集中的单个记录表示为链接数据平台“包含”属性的值,并作为可能分页的URL列表提供(此处不讨论机器可操作的分页)。 这些URL是中显示的MetaRecord资源URL 图1 .
跟随流入 图1 ,FAIR访问器的下一步是解析MetaRecord资源URL。为了清楚起见,我们将首先显示如果该数据集没有FAIR投影仪,则返回的元数据文档。 这类似于在前面的方法部分讨论的Zenodo用例中调用FAIR MetaRecord URL返回的文档。
对MetaRecord资源URL调用HTTP GET将返回包含元数据元素和结构的文档,如所示 图5 。请注意 图5 不是完整的MetaRecord; 相反,它经过了编辑,只包含了与互操作性基础设施的各个方面相关的元素,这些方面到目前为止已经讨论过了。 有关MetaRecord RDF的更完整示例,包括描述投影仪的元素,请参见 图6 – 9 .
这些列的含义与 图4 .
图6: 来自与两个DCAT发行版相关的MetaRecord元数据的三元组子集的Turtle表示。
每个发行版都指定了一个可用的表示形式(媒体类型),以及可以从中下载该表示形式的URL。
图7: 解析记录C8UZX9的FAIR访问器的MetaRecord Resource的部分输出,由Tabolator Firefox插件呈现为HTML。
这些列的含义与 图4 。将本文档的结构与 图5 显示“distribution”谓词现在有四个值。 RDF和HTML表示,如 图5 ,以及两个附加的发行版,其URL符合TPF设计模式(突出显示)。
图8: MetaRecord元数据中三元组子集的海龟表示,该元数据与中所示的MetaRecort的FAIR投影仪DCAT分布之一有关 图7 .
文本采用彩色编码,以帮助视觉探索RDF。 两个投影仪分布的DCAT分布块(黑体)具有多个媒体类型表示(红色),并通过hasMapping谓词连接到RML映射(深蓝色),该谓词是语义上描述主语、谓语和宾语(分别为绿色、橙色和紫色)的RML块 该投影仪的三重描述符。 RML块示意图如所示 图2 。这三种媒体类型(红色)表示URL将响应HTTP内容协商,并可能返回这三种格式中的任何一种。
图9: 公平预测前后的数据。
粗体段显示了URI结构和数据语义是如何根据三重描述符中定义的映射进行修改的(data_0896=“Protein report”和data_1176=“GO Concept ID”)。 URI结构转换对于针对使用Identifiers.org URI方案(如OpenLifeData)的数据集的集成查询可能很有用( González等人,2014年 ). 语义转换允许跨数据集进行集成查询,这些数据集利用各种冗余本体来描述其数据,在本例中,还可以用于添加以前没有的语义。
此元数据文档中的许多属性与FAIR访问器较高级别的属性相似。 然而,值得注意的是,本文档的主要主题是UniProt记录,这表明文档的焦点从访问器的提供者转移到原始数据的提供者。 因此,这些方面的值现在反映了该记录的作者和联系信息。 我们承认,元记录本身就是学术著作,应该被适当引用。 MetaRecord包含“in-dataset”谓词,它引用了FAIR访问器的第一级,因此这为捕获MetaRecords的来源信息提供了一种途径。 如果需要额外的出处细节,我们建议(但此处不作进一步描述)此信息可以以类似于NanoPublications使用的方式包含在单独的命名图中( Kuhn等人,2016年 ).
本文档中重要的独特属性是DCAT本体中的“分布”属性。 为了清楚起见,Turtle格式的缩写文档如所示 图6 ,只包含“distribution”元素及其值。
本文档中有两个DCAT发行版。 第一个被描述为“application/rdf+xml”格式,以及与其关联的下载URL。第二个被描述成“text/html”格式,同样具有该表示的正确URL。 这两种类型都是DCAT本体中的Distributions。 这些发行版由UniProt自己发布,并使用UniProt URL。 FAIR访问器中的其他元数据(未显示在 图6 )以机器和人类可读的格式、访问策略和许可证描述与该记录相关的关键字,允许机器在检索该记录之前更准确地确定其用途。
在讨论公平投影仪之前,有几件事需要注意。 首先,公平访问者的两个层次并不相互依赖。 容器层可以描述有关存储库范围和性质的相关信息,但可能不会提供任何到MetaRecords的进一步链接。 类似地,是否在MetaRecord中提供分发完全由数据所有者决定。 对于敏感数据,所有者可以选择只提供(甚至是有限的)元数据,但不提供与数据本身的任何直接链接,这完全符合FAIR准则。 此外,在发布单个数据记录时,不必发布公平访问器的容器级别; 只需提供描述该数据文件的MetaRecord文档,以及指向该文件的可选链接作为分发。 最后,如果需要描述多资源场景(例如,托管多个不同数据库的机构),也可以发布任意深度的容器容器。
FAIR投影仪
FAIR投影仪可用于多种用途,包括(但不限于)发布非链接数据转换后的链接数据; 将链接数据源中的转换数据发布到不同的结构或本体框架中; 负荷管理/查询管理; 或者作为一种以可搜索的方式显式描述底层数据源的本体结构的方法。 在本演示中,FAIR Projector发布动态转换的数据,其中转换涉及将UniProt提供的RDF语义更改为不同的本体框架(EDAM)。
该FAIR投影仪的TPF界面位于:
http://linkeddata.systems:3001/fragments链接数据系统
作为符合TPF的资源公开的数据需要在URL中指定主题和/或谓词和/或对象值; 对全变量模式(如上所述为空白)的请求将不返回任何内容。 软件代理如何知道哪些URL是有效的,以及从这样的请求中会返回什么?
在这个互操作性基础设施中,我们建议将投影仪视为DCAT分发,因此在MetaRecord元数据的分发部分中包含TPF URL,并绑定了适当的参数。 示例如所示 图7 ,再次使用制表符进行渲染。
注意,现在有四个发行版,其中两个是上面讨论的html和rdf发行版( 图5 ). 这两个新的发行版是由FAIR投影仪提供的。 再次,为了清晰起见,请查看一份简化的Turtle文档( 图8 )我们可以看到这两个新发行版之一的元数据结构。
遵循三模式片段行为,使用HTTP GET请求downloadURL将触发投影仪将其输出限制为仅来自UniProt的数据,其中主题是UniProt记录C8V1L6,感兴趣的属性是UniProt核心本体中的“classifiedWith”。 然而,响应此调用返回的三元组将与UniProt的本机语义不匹配,而是与RML Mappings块中定义的语义和结构匹配。 该映射RML的示意结构如图所示 图2 映射描述了一个三元组,其中主题的类型为edam:data_0896(“蛋白质记录”),谓词的类型为UniProt核心本体中的“classifiedWith”,对象的类型为edam:data_1176(“GO概念ID”)。
具体来说,返回的三元组是:
@前缀uni:< http://identifiers.org/uniprot/ >. @前缀obo:< http://purl.obolibrary.org/obo/ >. uni:C8V1L6核心:分类使用obo:GO_0000245,obo:GO_0045292。
这伴随着一个使用Hydra词汇表的超媒体控件块(未显示)( Lanthaler&Gütl,2013年 ; Das、Sundara和Cyganiak,2012年 )它为如何导航该数据集的其余部分提供了机器可读的指令,例如,如何获取当前数据点的整行或整列。
虽然在这个对投影仪的调用的输出中没有显式地键入主题和对象,但通过TPF的超媒体控件对投影机的输出进行进一步的探索,可以发现主题和对象实际上是根据EDAM本体论键入的,正如RML映射中所声明的那样。 因此,该FAIR投影仪提供的数据从UniProt核心语义类型转换为EDAM语义框架中表示的等效数据,如 图9 另请注意,UniProt实体的URI结构已从UniProt URI方案更改为Identifiers.org方案之后的URI。
在本例中,FAIR Projector是一个脚本,它将UniProt查询中的数据动态转换为适当格式的三元组; 然而,这对客户来说是不透明的。 从客户的角度来看,如果投影仪从静态文档中提供预先转换的数据,甚至从分析服务中生成新的数据,那么投影仪的TPF接口将是相同的。 因此,无论生成数据的底层机制如何,FAIR Projectors都会协调界面以检索所需语义/结构中的RDF数据。
选择这个例子有很多原因。 首先,与前面提供的静态Zenodo示例相比,该Accessor/Projector组合动态查询UniProt数据库。 此外,因为我们希望演示投影仪以可发现的方式转换现有FAIR数据语义框架的功能。 例如,在UniProt中,基因本体术语的语义分类并不比“owl:Class”更丰富。 就互操作性而言,这是一个问题,因为缺乏丰富的语义类型使它们无法用于自动发现可能会消耗它们的资源,或用于集成的跨域查询。 该FAIR访问器/投影仪宣称,只需解析投影仪URL,就可以从UniProt获取EDAM分类数据。
讨论
互操作性很难实现。 很明显,在四个公平原则中,互操作性将是最具挑战性的。 在这里,我们设计了一个新的基础设施,其主要目标是元数据和数据的互操作性,但要考虑到所有四个公平原则。 我们希望为广泛的基础数据源提供可发现和可互操作的访问,即使是计算不透明格式的数据源,也支持这些数据源之上的各种学术和商业最终用户应用程序。 此外,我们对技术的选择施加了限制; 特别是,实现应该尽可能地重用现有技术,并且应该支持多种不可预测的最终用途。 此外,人们从一开始就认为,简单性和强大性之间的权衡是无法避免的,因为关键目标是最大限度地利用跨越所有领域的最广泛的数据存储库——这几乎不可能通过以下方式实现:, 试图强加“通用”API或新颖的查询语言。 因此,为了最大限度地在全球范围内吸收和采用这种互操作性基础设施,并使整个利益相关者社区的实施成本民主化,用户和提供商都选择了轻量级、弱集成的REST解决方案, 然而,这使得它们在发现和整合方面实现了相当程度的机械化。
我们现在更仔细地看一下这个互操作性基础架构如何满足公平原则中的期望。
容器资源解决的公平方面:
可查找 -容器有一个独特的全局唯一的可解析标识符,允许对其进行发现和明确引用。 这一点很重要,因为在许多情况下,所描述的数据集本身并不具有标识符,正如我们上面的示例所示,其中数据集表示查询的结果。 此外,容器的元数据描述了研究对象,允许人类和机器评估该对象对其任务的潜在效用。
无障碍 -容器URL使用标准HTTP GET解析为元数据记录。 除了描述研究对象的性质外,元数据记录还应包括有关许可、访问限制和/或研究对象的访问协议的信息。 重要的是,容器元数据独立于它所描述的研究对象而存在,其中公平可访问性要求元数据持久可用,即使数据本身不可用。
可互操作 -元数据以RDF提供,RDF是一种全球适用的数据和知识共享语法。此外,元数据使用共享的、广泛采用的公共本体和词汇表,以促进元数据级别的互操作性。
可重复使用的 -元数据包括与容器和/或其内容的作者相关的引用信息,以及与数据重用、由谁重用以及用于什么目的相关的许可证信息。
容器资源的其他功能
MetaRecord解决的公平方面:
可查找的 -MetaRecord URL是数据实体的全局唯一且可解析的标识符,无论它本身是否具有标识符。 它解析为的元数据允许人类和机器在决定访问数据元素之前查询数据元素的性质。
无障碍 -通过访问MetaRecord URL提供的元数据描述了该记录的可访问性协议和许可证信息,并描述了所有可用格式。
可互操作 -与容器元数据一样,共享本体和RDF的使用确保了元数据的互操作性。
可重复使用的 -MetaRecord元数据应包含记录级引文信息,以确保使用数据时的正确属性。 我们进一步提出,但并没有证明,MetaRecord本身的作者身份可以以类似于NanoPublication规范所建议的方式在第二个命名图中进行。
MetaRecord的其他功能
隐私保护 -MetaRecord提供关于集合中特定成员的丰富描述性信息,其中描述的粒度完全由数据所有者控制。 因此,MetaRecord可以在单个记录的级别上提供高度的公平性,而不必公开任何可识别的信息。 此外,提供商可以选择停止在这个FAIRness级别,并且不包括允许访问数据本身的其他URL。
导线对称性 -由于我们预测客户将来会查询FAIR元数据的索引,以搜索感兴趣的数据集或记录,因此无法预测客户或其代理进入您的FAIR访问器的位置。 虽然容器元数据提供了指向单个MetaRecords的链接,但MetaRecord同样提供了对其容器的“向上”引用。 因此,客户端可以访问其发现的任何给定数据元素的存储库级元数据(例如,管理策略、所有权、链接策略)。 由于欧洲法院的裁决,这变得尤为重要( 欧盟法院,2016年 )这就给那些创建超链接的人带来了举证责任,以确保他们链接到的文档本身不侵犯版权。
高粒度的访问控制 -集合的各个元素可能具有不同的访问限制或许可证。 例如,研究中的个别患者可能提供了不同的同意书。 MetaRecords允许集合中的每个元素拥有并发布其自己的访问策略、访问协议、许可证和/或使用约束,从而对存储库中各个元素的访问/使用进行细粒度控制。
三重描述符和公平投影仪解决的公平方面:
可查找 -三重描述符,在隔离或聚合到FAIR概要文件时,提供数据元素的一个或多个语义解释。 通过索引这些描述符,可以在数据集上搜索包含感兴趣的数据类型的描述符。 此外,作为TPFURI结构的结果,FAIR投影仪为记录中的每个数据点创建一个唯一的URL。 这对学术交流有着显著的影响。 例如,可以明确地引用任何数据存储库中的单个电子表格单元格,从而“讨论”和/或对其进行注释。
无障碍 -使用TPF设计模式,所有数据检索都是以完全相同的方式完成的—via HTTP GET。 响应包括机器可读的指令,这些指令指导对数据的进一步探索,而无需定义API。 FAIR投影仪还为数据所有者提供了高粒度的访问控制; 他们可以选择只发布数据集的某些组件,而不是发布整个数据集,和/或对不同的数据元素设置不同的访问控制,例如,将访问控制降低到单个电子表格单元格的级别。
可互操作 -FAIR投影仪提供了一种标准化的方法,可以使用广泛使用的公共共享词汇表,以机器可读的结构导出任何类型的底层数据。 最初隐含在数据存储中的数据链接(例如标识符)在转换为URI时变得显式,从而在以前不透明的数据存储之间形成合格的链接。 类似地,如果有一种算法能够提取数据并通过TPF接口将其公开,那么驻留在计算不透明结构或格式中的数据也可以公开,并以公平的方式发布。
可重复使用的 -所有数据点现在都具有唯一的标识符,这允许它们显式连接到引用和许可证信息(即MetaRecord)。 通过这种方式,每个数据点(即使是孤立地遇到)都提供了一条路径,以追踪其可重用元数据。
FAIR投影的其他功能
保留本机格式 -与许多研究领域一样,生物信息学创建了大量数据/文件格式。 其中许多文件,尤其是包含“大数据”的文件,都是专门格式化的扁平文件,以牺牲一般机器的可访问性为代价,专注于数据的高效表示。 该领域中存在的分析工具能够使用这些不同的格式。 虽然公平数据社区从未提倡对这些类型的数据进行大规模的互操作表示,这将是低效、浪费和缺乏实用性的,但公平投影仪提供了一个折衷方案。 投影允许软件在下载之前查询存储库中文件的核心内容; 以例如确定其是否包含关于感兴趣的实体或标识符的数据。 因此,FAIR投影仪能够高效地发现感兴趣的数据,而无需将所有数据内容浪费地转换为FAIR格式。
现有Triplestore的语义转换 -习惯上使用自定义的SPARQL BIND或CONSTRUCT子句在三元组存储中重新映射实体的语义类型。 FAIR投影仪提供了一种标准化、无SPARQL和可发现的方式来完成相同的任务。 这进一步协调了数据,简化了互操作性。
(一些)Web API的标准化接口 -生物医学领域中的许多Web API都有一个输入参数,通常表示某些生化实体的标识符。 FAIR Projectors可以用一个通用的TPF接口轻松地替换这些无数的Web API,从而大大增强了这些当前广泛不同的服务之间的可发现性、机器可读性和互操作性。
实施的激励和障碍
展望未来,有迹象表明,公平性很快将成为资助机构和/或期刊的一项要求。 因此,像本示例中描述的那样的基础设施几乎肯定会成为未来学术数据发布的自然组成部分。 虽然这里提出的公平基础设施似乎很难实现,但我们认为,这些行为的很大一部分例如,Accessor-can的前两层可以使用简单的填充空白模板完成。 事实上,这样的模板工具已经由几个合著者创建,并将在不久的将来在生物医学数据发布社区中进行测试,以确保这些工具对于这些关键目标受众来说是清晰可用的。
然而,预测显然是一项复杂的任务,不太可能由非信息专家独自完成。 从非结构化或半结构化格式到可互操作格式的转换不可能完全自动化,我们也不声称已经完全解决了互操作性瓶颈。 然而,我们确实声称已经创建了一个基础设施,它改进了 现状 在两个方面:首先,我们建议用一种通用的、可重用的和机器可读的方法,取代目前在整个生物医学界(及其以外)每天进行的浪费的、一次性的、“不可重用”的数据转换活动, 建议在RML中描述所有数据转换,并使用TPF公开转换的数据。 其次,在许多情况下,我们提出的解决方案可能会部分自动化数据转换过程本身。 RML可以与通用软件(如RML处理器)结合使用( http://github.com/RMLio )在许多常见文件格式(如CSV或XML)上执行数据转换。 因此,通过专注于构建RML模型, 代替 在不可重用的数据转换脚本中,数据发布者既实现了所需的数据转换,也实现了将转换后的数据提供给所有其他用户的机器可读接口。 通过创建RML模型的存储库,这些模型可以被那些需要进行数据转换的人重用,这可能会更加激励人们。 虽然用于捕获这些用户驱动的转换事件并将其正式化为FAIR投影仪的基础设施尚不存在,但表面上看这并不是一个复杂的问题。 因此,我们预计,在公平成为学术出版要求之后,这种基础设施将很快出现,我们的合著者正在构建这些基础设施的早期原型。
一些数据提供商社区已经计划使用此功能或相关的FAIR实现,以帮助其社区查找、访问和重用其宝贵的数据。 例如,生物银行和罕见疾病社区将获得最终用户工具,利用/生成此类公平基础设施:指导研究人员的发现; 帮助生物银行家和研究人员将其数据重新编码为基于SORTA系统的标准本体( Pang等人,2015年 ); 协助扩展MOLGENIS/BiobankConnect系统( Pang等人,2016年 ); 将FAIR接口添加到BBMRI(生物银行和生物分子资源研究基础设施)和RD连接的国家和欧洲生物银行数据和样本目录。 还有一个由FAIR基础设施作者组成的核心小组,他们正在创建大规模的索引和发现系统,这将有助于从任何存储库中自动识别和检索相关信息,以响应最终用户的查询,预示着当前未使用的一天将“丢失” -数据存储通过其发现和重用再次提供了投资回报。
结论
根据公平原则,理事机构和资助组织越来越多地要求公开数据发布。 因此,有一个示范性的“参考实施”很有用,它展示了公平资源所期望的行为类型。
在四个公平原则中,互操作性可以说是最难实现的公平方面,并且是几十年来信息学研究的主题。 最近几个月出现了几个新的标准和框架,解决了互操作性问题的各个方面。 在这里,我们将这些应用于一种新的组合,并表明其结果能够在Web上任何地方发布的以前不兼容的数据格式之间提供互操作性。 此外,我们注意到,FAIR-Findability、Accessibility和Reusability的其他三个方面很容易通过生成的基础设施解决。 因此,结果提供了对任何存储库中任何格式的丰富描述的数据资源的机器可发现访问,并且所包含数据的互操作性可以降低到单个“单元”的级别。 不需要新的标准或API; 相反,我们依赖于REST行为,所有实体都是具有可解析标识符的资源,该标识符允许超媒体驱动的“向下钻取”从存储库描述符级别一直钻取到记录中的单个数据点。
任何人都可以为任何数据源创建和发布这样的互操作层,而无需与数据所有者进行交互。 此外,我们描述的大多数互操作层可以通过从软件中动态生成的文件来实现,甚至(对于访问器部分)可以通过存放在任何公共存储库中的静态手动编辑文件来实现。 因此,实现这些公平行为的很大一部分并不需要了解如何构建或部署Web基础设施。
人们认为,在功能和简单性之间进行权衡是可以接受的,这是希望鼓励广泛采用的一种手段。 解决方案的模块化也很重要,因为以类似于众包的方式,我们预计实施将在需求驱动的基础上在社区中传播, 随着最关键的资源组件尽早被确定为目标,单个研究人员需要对他们感兴趣的数据集/子集进行互操作访问。 这里介绍的互操作性设计模式为这些个人提供了一种结构化的方式,使他们能够以协作的方式贡献和分享他们本来可以投入的个人努力,一件一件地构建一个更大的互操作和公平的数据基础设施,以造福全球社区。