摘要

总结

为了推进生物医学研究,需要发现和集成越来越多的复杂数据。这需要进行语法和语义验证,以确保共享对相关实体的理解。本文描述了ELIXIR生物验证器,它通过基于本体的JSON文档验证扩展了广泛使用的AJV库的语法验证。

可用性和实施

源代码:https://github.com/elixir-europe/biovalidator网站,版本:v1.9.1,许可证:Apache License 2.0,部署位置:https://www.ebi.ac.uk/biosamples/schema/validator/validate.

补充信息

补充数据可在生物信息学在线。

1引言

今天的基因组数据生态系统被描述为“巴别塔”,因为使用不同技术在不断扩大的领域中生成的数据量不断增加,托管在不断增加的数据库中。这种大规模的多样化使得数据科学成为一项劳动密集型的工作,因此成本高昂。数据公平化(威尔金森等。, 2016)旨在通过促进遵守一组促进数据重用和互操作性的原则来应对这些挑战。验证描述生物医学实体的元数据是这一过程的关键部分。然而,验证规则通常在特定资源中进行硬编码,并且不能有效共享。此外,档案馆使用的清单(哈里森等。, 2021)仍然可能导致各种解释和不同的实现,导致数据异构,从而妨碍其有效重用。因此,除了明确的最佳实践文档外,还需要在现实世界中实现强制执行共享验证过程的工具。

JavaScript对象表示法(JSON)是一种IETF标准,指定了轻量级数据交换格式。JSON模式是一个词汇表,用于指定JSON文档的结构。JSON和JSON模式广泛用于数据交换、API和标准定义。虽然JSON模式提供了一个全面的词汇表来验证JSON文档的结构和语法,但它对检查内容的语义贡献甚微。在生命科学中,对元数据模式的遵从性通常要求评估值是否符合指定的本体,例如检查“疾病”属性的值是否是疾病本体术语的子类。为了确保高质量的元数据,需要进行这种严格的验证检查,特别是通过基于本体结构本身的查询。为了解决这个问题,我们使用自定义关键字扩展了JSON模式词汇表,这些关键字描述了如何验证约束到本体术语标识符的特定属性。本文描述了我们如何部署ELIXIR生物验证器,并将其应用于工厂相关用例,以增强收集并提交给公共档案的数据的真实性。

2实施

我们开发了ELIXIR生物验证器,这是一个用于验证编码为JSON文档的生命科学元数据的工具,与编码为JSONSchema的声明性元数据标准相对应。ELIXIR生物验证器基于广泛使用的Ajv JSON模式验证器(Poberezkin,2021年). 通过为用户定义的关键字添加验证规则,我们用基于本体的约束增强了验证器,例如有效期限检查EMBL-EBI本体查找服务(OLS)中是否存在给定的本体术语(朱普等。, 2015). 在撰写本文时,ELIXIR生物验证器支持用于本体和分类验证的四个扩展关键字(2021年欧洲长生不老药). 这四个关键字支持对OLS中的任何类进行基于本体的验证的不同方式。例如,关键字graph_restriction(图形_限制),与父项ID和本体ID一起使用,允许我们表示JSON属性,例如疾病诊断id只能包含来自表型和特征本体(PATO)或君主疾病本体(MONDO)的术语。此外,这些术语必须是疾病类别的一个子类PATO公司:0000461蒙多:0000001.

ELIXIR生物验证器能够作为服务或一次性脚本运行,根据模式验证给定的JSON文档(2021年欧洲长生不老药). 当作为服务运行时,用户可以使用web界面或API进行验证,这更适合批量验证。Docker映像可用于在本地环境中进行测试。生物验证器目前部署在人类细胞地图集项目以及EMBL-EBI生物样本的数据摄取系统中(库尔托等。, 2022),用于确保超过1800万个样本符合多个检查表,如MiXS和MIAPPE[关于植物表型试验的最小信息(帕普索格鲁., 2020)]分别用于基因组和植物元数据。

3工厂元数据验证

全球各地的植物研究机构开发了数据库和工具,用于管理和存储植物表型数据,并根据其特定用例进行了定制。MIAPPE是一个开放的、社区驱动的元数据标准,充分描述了植物表型实验。育种API(塞尔比等。, 2019)]与MIAPPE协同开发,以提供通用的编程接口,通过使用通用元数据表示确保数据库和工具的互操作性;因此,BrAPI是MIAPPE的web服务API实现。此标准化API允许开发在所有支持BrAPI的植物表型数据库上运行的脚本。其中一个脚本BrAPI2Biosamples可用于使用MIAPPE命名法导出JSON对象(补充材料). ELIXIR生物验证器可以验证这些(用户提供的)元数据对象,以获得用于植物表型分析的高质量FAIR数据。本体验证可确保MIAPPE兼容数据中存在的任何本体术语的语义有效性。这也有助于将符合MIAPPE的数据提交给BioSamples,因为BioSample在提交之前或提交时使用相同的验证器验证样本元数据(图1). 独立模块的开发允许将ELIXIR生物验证器集成到BrAPI生态系统中。未来,我们还将在FAIRDOM/SEEK等数据管理平台上实施验证(Wolstencroft公司等。, 2015)和ISA(约翰逊等。, 2021)模型及其JSON模式定义。

工厂用例的数据验证。数据提交者使用机构数据存储库作为代理,通过API提交Biosamples元数据,该API根据MIAPPE JSON模式进行验证。来自植物表型数据库的元数据通过育种API(BrAPI)公开,并使用BrAPI2Biosamples脚本将其格式化为JSON对象。可以使用ELIXIR生物验证器根据MIAPPE JSON模式清单验证这些对象
图1。

工厂用例的数据验证。数据提交者使用机构数据存储库作为代理,通过API提交Biosamples元数据,该API根据MIAPPE JSON模式进行验证。来自植物表型数据库的元数据通过育种API(BrAPI)公开,并使用BrAPI2Biosamples脚本将其格式化为JSON对象。可以使用ELIXIR生物验证器根据MIAPPE JSON模式清单验证这些对象

4结论

ELIXIR生物验证器允许通过扩展现有的JSON模式语法来验证JSON文档的结构和内容的符合性。biovalidator能够根据需求验证JSON文档中嵌入的本体术语。按照欧洲开放科学云互操作性框架的设想,实现社区标准的质量控制对于在分布式FAIR数字对象生态系统中开发语义互操作性至关重要(科尔乔等。, 2021). 未来,我们计划通过将其与Identifiers.org集成,增加对标识符交叉引用检查的支持,从而进一步扩展生物验证器(朱蒂等。, 2012). 这将使biovalidator能够检查JSON数据中存在的访问的有效性。

致谢

作者感谢Sarah Cohen Boulakia对该项目的初步贡献,以及Guillaume Cornut和Jeremy Destin对MIAPPE与生物样本互操作性的贡献。

基金

这项工作得到了EMBL-EBI核心基金的支持;ELIXIR-生命科学数据的研究基础设施;以及比利时ELIXIR的佛兰德斯研究基金会(FWO)[I002819N]。

利益冲突:未声明。

工具书类

科尔,

O。
等(
2021
)EOSC互操作性框架:EOSC执行委员会公平与架构工作组的报告。https://data.europa.eu/doi/10.2777/620649.

库尔托
M。
等(
2022
)
生物样本数据库:更公平的样本元数据,加速研究数据管理
.
核酸研究。
,
50
,
D1500美元
D1507型
.

欧洲长生不老药(

2021
)
生物验证器/README.md在elixir-europe,biovalidator
.https://github.com/elixir-europe/biovalidator/blob/main/README.md.

哈里森
P.W.公司。
等(
2021
)
2020年欧洲核苷酸档案
.
核酸研究
.,
49
,
D82型
D85型
.

约翰逊
D。
等(
2021
)
ISA API:可互操作生命科学实验元数据的开放平台
.
Giga科学
,
10
,
贾布060
.

朱普
美国。
等(
2015
)
embl-ebi的一种新本体查找服务
.
样本4ls
,
2
,
118
119
.

朱蒂
N。
等(
2012
)
Identifiers.org和MIRIAM Registry:提供持久标识的社区资源
.
核酸研究
.,
40
,
D580型
D586型
.

帕普索格鲁
E.A.公司。
等(
2020
)
利用MIAPPE 1.1实现植物物候数据集的可重用性
.
新植物醇
.,
227
,
260
273
.

波贝雷兹金
E.公司。
(
2021
)Ajv-另一个JSON模式验证器. https://ajv.js.org/(2021年10月25日,上次访问日期)。

塞尔比
第页。
等(
2019
)
BrAPI-植物育种应用程序的应用程序编程接口
.
生物信息学
,
35
,
4147
4155
.

威尔金森
医学博士。
等(
2016
)
科学数据管理和管理的公平指导原则
.
科学数据
,
,
160018
.

Wolstencroft公司
英国。
等(
2015
)SEEK:系统生物学数据和模型管理平台。BMC系统生物.,9, 33.

这是一篇根据知识共享署名许可条款发布的开放存取文章(https://creativecommons.org/licenses/by/4.0/)它允许在任何介质中不受限制地重用、分发和复制原始作品,前提是正确引用了原始作品。
副编辑: 彼得·罗宾逊
彼得·罗宾逊
助理编辑
搜索此作者的其他作品:

补充数据