摘要

动机

生物数据的数量和复杂性迅速增加。许多没有生物信息学背景的临床专业人员和生物医学研究人员正在生成大的“组学”数据,但并不总是拥有管理、处理或公开共享这些数据的工具。

结果

这里我们介绍MOLGENIS Research,这是一个开源的网络应用程序,用于收集、管理、分析、可视化和共享大型复杂的生物医学数据集,而无需高级生物信息学技能。

可用性和实施

MOLGENIS Research免费提供(开源软件)。它可以从源代码安装(请参见http://github.com/molgenis),下载为预编译的WAR文件(用于您自己的服务器),安装在Docker容器内(请参阅http://molgenis.github.io)或作为软件即服务订阅请求。有关公共演示实例和完整的安装说明,请参阅http://molgenis.org/research.

1引言

为了改善人类健康,生物医学科学家越来越多地使用大型复杂数据集来发现生物机制。通过问卷调查、生物医学测量、高通量技术(如基因组、转录组和微生物组的下一代测序)筛选大量患者和对照参与者(金斯堡,2014)产生了大量的表型和分子数据(鲍丁等。, 2014). 然而,许多临床专业人员和生物医学研究人员并不总是拥有适当的工具来处理、管理、分析、可视化和公开共享这些数据(贾加迪什,2015年)同时遵守“公平”(可查找、可访问、可互操作和可重复使用)(威尔金森等。, 2016)和“ELSI”(道德、法律和社会影响)原则。

在为生物医学研究人员使用的大数据开发软件时,出现了几个挑战(Raghupathi和Raghupath,2014年). 第一个挑战是数据捕获和数据管理。数据系统需要具有足够的适应性,不仅能够处理今天的数据,而且能够无缝捕获明天的数据格式(斯威茨等。2010年a,b条). 当前系统在导入新数据类型方面往往过于严格。因此,有时甚至必须使系统离线以重新设计数据库(阿达穆萨克等。, 2012;斯威茨等。2010年a,b条). 因此,一个好的系统需要允许连续使用,而数据库可以重新设计,并且可以使用不可预见的数据类型。第二个挑战是整合和分析数据。生物数据本质上是复杂和异构的,导致数据不兼容、系统混乱和机会错失(奥弗雷等。, 2016;贾加迪什,2015年). 需要数据集成解决方案来理解环境影响与导致特定表型的分子测量的相互作用(施蒂布等。, 2017),通过组合多个组学层(苏拉瓦贾拉等。, 2016)有临床数据(希格顿等。, 2015). 第三个也是最困难的挑战是创建易于理解和解释数据的用户界面,但要足够精细,以便进行生物医学“大数据”研究所需的综合查询、分析和可视化。

在这里,我们介绍MOLGENIS Research,旨在克服上述挑战,遵循生物医学研究的自然流程:收集、管理、分析、可视化和共享数据。

2特点

MOLGENIS Research是建立在MOLGENIS平台之上的生命科学数据解决方案。MOLGENIS平台允许为特定任务开发各种应用程序,并上传数据模型和设置,以根据特定用途定制平台。下面,我们展示了一组应用程序和设置,它们共同构成了MOLGENIS Research解决方案。这些应用程序分为五类,代表了典型的研究数据流:(i)收集:收集或将数据输入数据库;(ii)管理:检查和处理数据库内的数据;三分析:使用算法和统计测试检测数据中的模式和差异;(iv)可视化:创建图形和其他可视化;和(v)共享:将数据、可视化和结果提供给他人。

2.1收集

MOLGENIS Research提供了几种向系统输入或上传数据的方法。添加数据的典型方法是使用单键导入程序应用程序或更高级的逐步导入程序应用程序。这两个导入程序应用程序都接受EMX(实体模型可扩展)格式的文件,它们在https://molgenis.gitbooks.io.EMX是一种灵活的表格数据电子表格格式。它允许在运行时使用表中每个列的定义进行数据建模,这意味着列中的数据没有预定义或锁定到位,但数据一致性会被检查和保留。可以上传带有XLSX-、ZIP和TSV-扩展名的EMX格式。更专业的进口商接受VCF和VCF。用于快速导入基因组数据的GZ文件,以及用于导入本体数据的OWL和OBO格式。根据用户的需要,未来还可以支持其他社区标准格式。这个远程文件插入应用程序可以访问远程服务器并直接通过web安全地导入数据。通过问卷调查应用程序,可以立即从研究参与者那里收集数据并导入数据库。参与者填写的答案直接存储在MOLGENIS研究数据库中。最后,可以在数据资源管理器通过在数据库表中添加行或列来应用程序。

2.2管理

数据收集完成后,MOLGENIS Research拥有用于检查、组织、许可和定制数据的应用程序。主要的数据管理应用程序是数据资源管理器,用作表查看器。在这里,可以选择和排序列,并且可以看到数据行。此外,可以通过“Package”系统表将数据集放置在分层文件夹结构中。请参见图1给人的印象数据资源管理器.使用导航器应用程序中,可以在其文件夹结构中浏览和查看数据集。最后元数据管理器使超级用户能够修改底层数据结构本身,以跟上先进的见解并满足不可预见的需求。

MOLGENIS Research图形用户界面的屏幕截图。这里显示的是数据浏览器应用程序,它是MOLGENIS Research的一个中心位置,用于输入、丰富、过滤、分析和导出数据集
图1。

MOLGENIS Research图形用户界面的屏幕截图。这里显示的是数据资源管理器应用程序,MOLGENIS Research的中心位置,用于输入、丰富、过滤、分析和导出数据集

2.3分析

MOLGENIS Research使生物信息学家能够添加数据分析工具。例如数据资源管理器通常用于分析数据。这里筛选器向导可用于运行查询。在最近的一个项目中描述性统计添加了一个应用程序,可以自动创建手稿第一个表格中经常需要的所有描述性统计数据。这个描述性统计该应用程序自动识别数据是连续的、二进制的还是分类的,是否是正常分布的,以及是否有太多的缺失值。根据其提供的结果、平均值、中位数、计数和百分比。

使用R、Python和REST API可以添加额外的数据分析和到其他数据系统的连接。有一个脚本应用程序,其中JavaScript、R和Python脚本可以由其他人存储和运行。这些脚本可以由生物信息学家编写,但不具备数据分析技能的研究人员可以轻松运行或重复。使用这些工具,可以构建专门的工具,例如GAVIN方法(范德维尔德等。, 2017)]以自动对基因组变异的致病性进行分类。演示中展示了此类附加分析工具的几个示例。

2.4可视化

打开基因组数据时基因组浏览器应用程序使用交互式Dalliance基因组浏览器自动可视化基因组位点(向下等。, 2011). MOLGENIS网站和Github知识库上提供了更多脚本,以生成价值分布图和多类别价值的共识。可以通过模板系统(Freemarker)添加自定义报告和可视化,该模板系统加载单行或整个数据集,用于特定于用户的格式规则,并使用上述脚本功能(参见第2.3节)。

2.5股份

为了支持合作,MOLGENIS Research有不同的方法来共享和连接数据,并实现一些公平指标(威尔金森., 2018)例如,确保标识符的唯一性和持久性,索引其数据表,提供HTTP访问和授权,以及将数据连接到FAIR词汇表(如本体)的工具(等。2015年a). 为了联合分析数据集,我们开发了地图绘制处制作两个列的工具(等。2015年a)和值(等。2015年b)可在数据集之间进行互操作,以便合并数据集。这个标记向导应用程序可以使用本体为数据列赋值,本体可以使用地图绘制处应用程序。通过从系统中收集的原始数据、整理数据或有趣结果的组合中创建目录,可以使数据集和变量变得可查找,而不会暴露(敏感)数据值。其他人可以在联系或提交访问请求之前浏览此目录。MOLGENIS Research支持数据所有者设计的完整数据访问和请求工作流。超级用户还可以创建FAIR端点(威尔金森., 2017)基于元数据、目录、数据集、分发和响应的定义,确保您的数据是机器可访问的,从而提高了可查找性。

3实施

MOLGENIS Research采用开放和可自由使用的行业标准进行实施。它在GNU Lesser General Public License v3.0下可用(https://www.gnu.org/licenses/lgpl-3.0.en.html). 它是用Java 1.8编写的(https://java.com),由Spring MVC框架支持(https://spring.io网站). 它使用Apache Maven(https://maven.apache.org网站)管理依赖关系,并在Apache Tomcat上运行(http://tomcat.apache.org)Web服务器。数据存储在PostgreSQL数据库中(https://www.postgresql.org)并由ElasticSearch索引(https://www.elastic.co网站)分别通过数据复制和分片实现高性能和水平扩展能力。最终存储和查询性能取决于特定的硬件和软件配置。其图形用户界面由Bootstrap组成(https://getbootstrap.com)、Vue(https://vuejs.org)和Freemarker模板(https://freemarker.apache.org). FAIR端点在W3C RDF 1.1 Turtle中实现(https://www.w3.org/TR/curl).

4结论

我们已经构建了MOLGENIS Research,这是一个生物医学领域的web应用程序,用于处理多组学数据集,而不依赖于生物信息学家。MOLGENIS Research使研究人员能够更有效地收集、管理、分析、可视化和共享数据,并为以灵活和安全的方式实现数据公平提供支持。MOLGENIS Research提供了具有详细数据管理和访问控制选项的真正数据库系统的所有优势,同时通过允许根据实际需要动态塑造数据,能够“有机地”增长,并在运行系统中添加自定义扩展,如可视化和算法,而不会停机。它可以从第一天起用作项目数据库,因为不需要预先设计数据模型。

目前,MOLGENIS Research已被多个研究项目采用,包括1000IBD、500FG和LifeLines。1000IBD数据库(http://1000ibd.org)每个组学类型包含多达2000名患者的一系列临床和研究表型,其中包括12000+微生物组OTU、400+免疫芯片标记和~300个RNA-seq实验的量化。500FG数据库(https://hfgp.bbmri.nl)包含约500名个体的微生物组、代谢组学、细胞因子、QTL、细胞染色、血清Ig和流式细胞仪数据。个人的标识符代码用作外键,可以将数据表链接在一起进行数据集成和分析。最后,LifeLines数据目录(https://catalogue.生命线.nl)包含可供研究人员使用的约40000个数据项的元数据,例如问卷、测量和(血液和尿液)样本分析,这些数据项来自一项对167000人的纵向研究。我们预计不久将有更多项目跟进,并很高兴邀请大家帮助我们扩展和发展MOLGENIS Research解决方案,以满足所有热门研究需求。我们强烈鼓励感兴趣的用户尝试演示,下载并安装MOLGENIS Researchhttp://molgenis.org/research.

确认

我们感谢Benjamin Kant的反馈和评论。

基金

这项工作得到了BBMRI-NL的支持,用于通过代金券赞助本手稿中描述的软件的开发。BBMRI-NL是由荷兰科学研究组织(NWO)资助的研究基础设施[赠款编号184.033.111]。我们还感谢NWO VIDI[授权号917.164.455]。

利益冲突:未声明。

工具书类

阿达穆萨克
 
T。
等(
2012
)
Observ-OM和Obserf-TAB:表型和基因型信息集成、搜索和交换的通用语法解决方案
.
嗯,变种人
.,
33
,
867
873
.

奥弗雷
 
C、。
等(
2016
)
理解健康研究中的大数据:走向欧盟行动计划
.
基因组医学
.,
8
,
71
.

鲍丁
 
美国。
等(
2014
)
基因组诊所:评估将基因组分析纳入临床护理的机会和挑战的多学科方法
.
嗯,变种人
.,
35
,
513
519
.

向下
 
T.A.公司。
等(
2011
)
Dalliance:网上交互式基因组浏览
.
生物信息学
,
27
,
889
890
.

金斯堡
 
G.公司。
(
2014
)
医学基因组学:在卫生保健中收集和使用遗传数据
.
性质
,
508
,
451
453
.

希格顿
 
R。
等(
2015
)
多组学和临床数据集成在孤独症谱系障碍的个性化医疗方法中的应用前景
.
奥米。A J.积分。生物
.,
19
,
197
208
.

贾加迪什语
 
高压。
(
2015
)
大数据与科学:神话与现实
.
大数据存储
.,
2
,
49
52
.

 
C、。
等(
2015年a
)
BiobankConnect:使用本体和词汇索引快速连接数据元素以进行跨生物库的池分析的软件
.
美国医学信息学会
.,
22
,
65
75
.

 
C、。
等(
2015年b
)
SORTA:基于本体论的生物医学表型数据重新编码和技术注释系统
.
数据库
,
2015
,bav089。

拉古帕西
 
西。
,
拉古帕西
对。
(
2014
)
医疗保健领域的大数据分析:前景和潜力
.
治愈。信息科学。系统
.,
2
,
三。

施蒂布
 
D.M.公司。
等(
2017
)
大数据在职业和环境健康应用中的前景和陷阱
.
BMC公共卫生
,
17
,
372
.

苏拉瓦贾拉
 
第页。
等(
2016
)
使用系统基因组学方法进行多组数据集成和分析:方法及其在动物生产、健康和福利中的应用
.
基因。选择。进化
.,
48
,
38
.

斯威茨
 
文学硕士。
等(
2010年a
)
MOLGENIS工具包:一键式生物软件快速原型制作
.
BMC生物信息学
,
11
,
第12节
.

斯威茨
 
文学硕士。
等(
2010年b
)
XGAP:用于基因型和表型实验的统一可扩展数据模型和软件平台
.
基因组生物学
.,
11
,
R27。

范德维尔德
 
K.J.公司。
等(
2017
)
GAVIN:用于医学测序的基因软件变体解释
.
基因组生物学
.,
18
,
6
.

威尔金森
 
医学博士。
等(
2017
)
通过Web技术的新组合实现互操作性和公平性
.
同行J计算。科学
.,
,
e110。

威尔金森
 
医学博士。
等(
2018
)公平性的设计框架和范例度量。科学。数据,
5
,
180118
.

威尔金森
 
医学博士。
等(
2016
)
科学数据管理和管理的公平指导原则
.
科学。数据
,
,
160018
.

这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/4.0/),这允许只要原著被恰当引用,就可以在任何媒介中不受限制地重复使用、分发和复制。
副编辑: 乔纳森·雷恩
乔纳森·雷恩
助理编辑
搜索此作者的其他作品: