摘要

总结: xQTL workbench是一个可扩展的网络平台,用于在多个水平上绘制数量性状位点(QTL):例如基因表达(eQTL。通过网络用户界面可以访问模式生物和人类种群的流行QTL作图方法。大型计算很容易扩展到多核计算机、集群和云。所有涉及的数据都可以在线上传和查询:标记、基因型、微阵列、NGS、LC-MS、GC-MS、NMR等。当新的数据类型可用时,xQTL工作台使用Molgenis软件生成器快速定制。

可利用性: xQTL工作台在所有通用平台上运行,包括Linux、Mac OS X和Windows。LGPL3许可证下的在线演示系统、安装指南、教程、软件和源代码可从网址:http://www.xqtl.org.

联系人: m.a.swertz@rug.nl

1简介

现代高通量技术产生了大量基因组、转录组、蛋白质组和代谢组数据。然而,现有的基于web的开源QTL分析工具,如webQTL(等。, 2003)和QTL网络(等。, 2008),不容易扩展到不同的设置,并且计算可扩展到整个基因组分析。xQTL workbench使得使用最先进的QTL定位工具分析大型复杂数据集变得容易,并使用并行化的“大数据”解决方案将这些方法应用于数百万表型(特雷列斯等。, 2011).xQTL工作台还支持存储原始、中间和最终结果数据,以及再现性和数据来源的分析协议和历史。Molgenis的使用(斯威茨等。,2010年a)有助于自定义软件。所有这些都可以通过Windows、Linux或Mac上的标准Internet浏览器方便地访问(并使用Java、R作为服务器)。

2特点

xQTL工作台提供了QTL图谱的可视化、单个和多个QTL定位方法、新QTL分析的轻松添加、可扩展的数据管理和分析跟踪。

2.1探索QTL概况

通过web界面,用户可以通过在可滚动和缩放的交互式窗口中查看QTL图来探索映射的QTL和基础信息。xQTL工作台支持其他常见的图像格式,如PNG、JPG、SVG和嵌入式postscript;用于在网上和纸上发布科学结果。从输出中,主要数据库标识符,如基因、蛋白质和/或代谢产物标识符,被自动链接到公共数据库的匹配外部网页,如NCBI、KEGG和Wormbase。

2.2单个和多个QTL定位

xQTL工作台包裹R/QTL(阿伦兹等。, 2010;Broman公司等。, 2003)在一个基于网络的分析框架中,提供所有重要的QTL作图程序,如EM算法、插补、Haley-Knott回归、扩展的Haley-Nnott方法、标记回归和多QTL定位。此外,xQTL工作台包括R/qtlbim,这是一个库,为映射多个相互作用的QTL提供了贝叶斯模型选择方法(扬戴尔等。, 2007)和Plink,一个用于自然群体中单核苷酸多态性(SNP)关联QTL定位的库(Purcell公司等。, 2007).

2.3添加新的分析工具

xQTL工作台支持灵活添加更多QTL分析软件:可以插入任何基于R的或命令行工具。所有分析结果都在x通过R-API的QTL工作台数据库。当添加新工具时,它们可以基于TORQUE/OpenPBS和BioNode构建高级多核计算机、集群和云管理功能(普林斯等。, 2011).x使用R、Excel、REST和SOAP web服务以及Galaxy的接口,QTL工作台可以成为更大分析管道的一部分(戈克斯等。, 2010).

启用所有功能的xQTL工作台屏幕截图;(1) 导入表型、基因型和遗传图谱数据,按导入类型给出示例;(2) 搜索整个数据库,使用molgenis生成的网络界面浏览您的数据;(3) 运行R/qtl qtl作图,通用插件不仅允许用户进行qtl定位,还允许用户进行其他分析;(4) 使用默认(或自定义)插件来浏览结果(例如热图、QTL配置文件);(5) 向工作台添加新工具(针对生物信息学家);(6) 系统的用户管理和访问控制(仅限管理员);(7) 可以在管理选项卡中更改专家设置(仅适用于管理员);(8) 使用生成的API到R统计、REST/JSON、SOAP连接/共享数据。
图1。

启用所有功能的xQTL工作台屏幕截图;(1) 进口表型、基因型和遗传图谱数据,每个进口类型都有例子;(2) 搜索整个数据库,使用molgenis生成的网络界面浏览您的数据;(3) 运行R/qtl qtl作图,通用插件不仅允许用户进行qtl定位,还允许用户进行其他分析;(4) 使用默认(或自定义)插件来浏览结果(例如热图、QTL配置文件);(5) 向工作台添加新工具(针对生物信息学家);(6) 系统的用户管理和访问控制(仅限管理员);(7) 可以在管理选项卡中更改专家设置(仅适用于管理员);(8) 使用生成的API到R统计、REST/JSON、SOAP连接/共享数据。

2.4跟踪分析和监控性能

当定义了新的分析协议或R脚本时,可以很容易地将该协议应用于新数据。也,xQTL工作台跟踪历史。可以以自动化的方式重复使用分析协议。可以在不重置参数的情况下重新运行以前的分析。xQTL工作台提供了过去分析的在线概览,例如执行了哪些分析、由谁执行、何时执行以及应用的显示设置。

2.5可扩展数据管理

xQTL工作台具有基于XGAP规范的一致性检查数据库(斯威茨等。2010年b)、用户界面,用于管理和查询基因型和表型数据集,并支持各种数据库后台,包括HSQL(单机版)和MySQL。表型、基因型和遗传图谱数据可以作为文本(TXT)、逗号分隔(CSV)和Excel文件导入。xQTL工作台在一个新的、高效的XGAP格式二进制版本中处理和存储大型数据,该版本名为XGAPbin(extension.xbin),在线记录。在处理、存储和传输多千兆字节数据集时,这种二进制格式至关重要。

2.6可根据研究需要定制

可以使用Molgenis软件生成器添加新数据模式的其他模块(斯威茨等。2010年b). 的“外观和感觉”xQTL工作台通过更改一个简单的模板来适应机构或联盟的风格,如xQTL工作台文档能够无缝集成到现有网站或内部网站,例如最近的EU-PANACEA生物模型项目和LifeLines生物库。

3实施

我们建造了xMolgenis顶部的QTL工作台(斯威茨等。, 2004),一种基于Java的软件,可按需生成定制的研究基础设施(Swertz和Jansen,2007年). 从描述整个系统的单个“蓝图”开始,Molgenis自动生成完整的应用程序,包括用户界面、数据库基础设施、R、REST和SOAP(API)中的应用程序编程接口。Molgenis的灵活性和鲁棒性已被广泛的研究项目证明,例如北欧GWAS控制数据库(亮氨酸等。, 2010),EB突变数据库(范登·阿克等。, 2011)和动物观察数据库(斯威茨等。2010年a).

数据存储采用可扩展基因型和表型(XGAP)数据模型(斯韦茨等。2010年b)并扩展到大数据。为了支持对包含的映射例程的计算资源的增加需求,我们添加了用于计算的高级集群和云管理功能。可扩展的QTL定位程序xQTL工作台是用R和C编写的。R的选择与使用R进行QTL定位的一般做法有关。用户界面包括直接访问R解释器。两者都有xQTL workbench和Molgenis是开源软件,源代码在在线源代码控制库中透明地存储和跟踪。

4结论

xQTL workbench为基于web的分析提供了一个完整的解决方案:集成了主要的QTL映射例程,供有经验和无经验的用户使用。研究人员可以上传原始数据,进行分析,探索定位的QTL和潜在信息,并链接到重要的数据库。新算法可以灵活添加,所有用户都可以立即使用。大型分析可以在集群或云中轻松执行。未来的工作包括可视化和搜索选项,以探索结果。我们还举办了EU-SYSGENET研讨会,该研讨会设想将xQTL与HAPPY等分析工具、GeneNetwork等数据库以及工作流管理器TIQS进一步集成(达兰特等。, 2011).

作者希望知道,根据他们的选择,前两位作者应被视为联合第一作者。

致谢

我们感谢Konrad Zych图1.

基金:美国国立卫生研究院(GM074244 to KB);荷兰科学研究组织(NWO)/TTI绿色遗传学(1CC029RP to P.P.);NWO(Rubicon 825.09.008 to M.A.S)、生物系统基因组中心(CBSG)、荷兰系统生物学联合会(NCSB)(to D.A.)、荷兰生物信息中心(NBIC)(to M.A.S.),均为荷兰基因组计划/NWO的一部分;由欧洲区域发展基金和NWO共同资助的Target/LifeLines(发给M.A.S.);以及EU-FP7项目PANACEA(222936至K.J.v.d.v.)和EURATRANS(241504至R.C.J.)。

利益冲突:未声明。

参考文献

阿伦兹
D。
R/qtl:高通量多qtl定位
生物信息学
2010
,卷。 
26
(第
2990
-
2992
)
Broman公司
科威特。
R/qtl:qtl在实验杂交中的定位
生物信息学
2003
,卷。 
19
(第
889
-
890
)
达兰特
C、。
,等人
用于小鼠系统遗传学分析的生物信息学工具和数据库资源——简短回顾和未来需求评估
简介。生物信息。
2011
 
戈克斯
J。
银河系:支持生命科学中可访问、可复制和透明计算研究的综合方法
基因组。生物。
2010
,卷。 
11
第页。 
86兰特
 
M。
,等人
北欧数据库:北欧全基因组控制数据库和门户
《欧洲遗传学杂志》。
2010
,卷。 
18
(第
1322
-
1326
)
普林斯
第页。
阿尼西莫娃
M。
进化基因组学中的可伸缩计算
进化基因组学:统计和计算方法。
2011
Humana-Springer公司
Purcell公司
美国。
Plink:用于全基因组关联和基于人群的连锁分析的工具集
Am.J.Hum.遗传学。
2007
,卷。 
81
(第
559
-
575
)
斯威茨
文学硕士。
分子遗传学信息系统(MOLGENIS):开发本地实验基因组学数据库的替代方案
生物信息学
2004
,卷。 
20
(第
2075
-
2083
)
斯威茨
文学硕士。
molgenis工具包:一键式生物软件快速原型制作
BMC生物信息学
2010
,卷。 
11
 
补充12
第页
第12节
 
斯威茨
文学硕士。
Xgap:用于基因型和表型实验的统一可扩展数据模型和软件平台
基因组。生物。
2010
,卷。 
11
第页。 
27兰特
 
斯威茨
文学硕士。
詹森
钢筋混凝土。
超越标准化:系统生物学的动态软件基础设施
国家版次。通用。
2007
,卷。 
8
(第
235
-
243
)
特雷列斯
O。
大数据,但我们准备好了吗?
Nat.Rev.基因。
2011
,卷。 
12
(第
224
-
224
)
范登·阿克
第页。
国际营养不良性大疱性表皮松解症患者登记:营养不良性大疱性上皮松解症病人及其col7a1突变的在线数据库
哼。穆塔特。
2011
,卷。 
32
(第
1100
-
1107
)
J。
,等人
网络qtl
神经信息学
2003
,卷。 
1
(第
299
-
308
)
扬戴尔
英国标准。
R/qtlbim:QTL在实验杂交中的贝叶斯区间作图
生物信息学
2007
,卷。 
23
(第
641
-
643
)
J。
Qtl网络:绘制和可视化实验群体复杂性状的遗传结构
生物信息学
2008
,卷。 
24
(第
721
-
723
)

作者注释

副主编:杰弗里·巴雷特

这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/3.0)它允许在任何媒体上无限制地进行非商业性使用、分发和复制,前提是正确引用了原始作品。