摘要
总结: xQTL workbench是一个可扩展的网络平台,用于在多个水平上绘制数量性状位点(QTL):例如基因表达(eQTL。通过网络用户界面可以访问模式生物和人类种群的流行QTL作图方法。大型计算很容易扩展到多核计算机、集群和云。所有涉及的数据都可以在线上传和查询:标记、基因型、微阵列、NGS、LC-MS、GC-MS、NMR等。当新的数据类型可用时,xQTL工作台使用Molgenis软件生成器快速定制。
可利用性: xQTL工作台在所有通用平台上运行,包括Linux、Mac OS X和Windows。LGPL3许可证下的在线演示系统、安装指南、教程、软件和源代码可从网址:http://www.xqtl.org.
联系人: m.a.swertz@rug.nl
1简介
现代高通量技术产生了大量基因组、转录组、蛋白质组和代谢组数据。然而,现有的基于web的开源QTL分析工具,如webQTL(王等。, 2003)和QTL网络(杨等。, 2008),不容易扩展到不同的设置,并且计算可扩展到整个基因组分析。xQTL workbench使得使用最先进的QTL定位工具分析大型复杂数据集变得容易,并使用并行化的“大数据”解决方案将这些方法应用于数百万表型(特雷列斯等。, 2011).xQTL工作台还支持存储原始、中间和最终结果数据,以及再现性和数据来源的分析协议和历史。Molgenis的使用(斯威茨等。,2010年a)有助于自定义软件。所有这些都可以通过Windows、Linux或Mac上的标准Internet浏览器方便地访问(并使用Java、R作为服务器)。
2特点
xQTL工作台提供了QTL图谱的可视化、单个和多个QTL定位方法、新QTL分析的轻松添加、可扩展的数据管理和分析跟踪。
2.1探索QTL概况
通过web界面,用户可以通过在可滚动和缩放的交互式窗口中查看QTL图来探索映射的QTL和基础信息。xQTL工作台支持其他常见的图像格式,如PNG、JPG、SVG和嵌入式postscript;用于在网上和纸上发布科学结果。从输出中,主要数据库标识符,如基因、蛋白质和/或代谢产物标识符,被自动链接到公共数据库的匹配外部网页,如NCBI、KEGG和Wormbase。
2.2单个和多个QTL定位
xQTL工作台包裹R/QTL(阿伦兹等。, 2010;Broman公司等。, 2003)在一个基于网络的分析框架中,提供所有重要的QTL作图程序,如EM算法、插补、Haley-Knott回归、扩展的Haley-Nnott方法、标记回归和多QTL定位。此外,xQTL工作台包括R/qtlbim,这是一个库,为映射多个相互作用的QTL提供了贝叶斯模型选择方法(扬戴尔等。, 2007)和Plink,一个用于自然群体中单核苷酸多态性(SNP)关联QTL定位的库(Purcell公司等。, 2007).
2.3添加新的分析工具
xQTL工作台支持灵活添加更多QTL分析软件:可以插入任何基于R的或命令行工具。所有分析结果都在x通过R-API的QTL工作台数据库。当添加新工具时,它们可以基于TORQUE/OpenPBS和BioNode构建高级多核计算机、集群和云管理功能(普林斯等。, 2011).x使用R、Excel、REST和SOAP web服务以及Galaxy的接口,QTL工作台可以成为更大分析管道的一部分(戈克斯等。, 2010).
图1。
启用所有功能的xQTL工作台屏幕截图;(1) 进口表型、基因型和遗传图谱数据,每个进口类型都有例子;(2) 搜索整个数据库,使用molgenis生成的网络界面浏览您的数据;(3) 运行R/qtl qtl作图,通用插件不仅允许用户进行qtl定位,还允许用户进行其他分析;(4) 使用默认(或自定义)插件来浏览结果(例如热图、QTL配置文件);(5) 向工作台添加新工具(针对生物信息学家);(6) 系统的用户管理和访问控制(仅限管理员);(7) 可以在管理选项卡中更改专家设置(仅适用于管理员);(8) 使用生成的API到R统计、REST/JSON、SOAP连接/共享数据。
2.4跟踪分析和监控性能
当定义了新的分析协议或R脚本时,可以很容易地将该协议应用于新数据。也,xQTL工作台跟踪历史。可以以自动化的方式重复使用分析协议。可以在不重置参数的情况下重新运行以前的分析。xQTL工作台提供了过去分析的在线概览,例如执行了哪些分析、由谁执行、何时执行以及应用的显示设置。
2.5可扩展数据管理
xQTL工作台具有基于XGAP规范的一致性检查数据库(斯威茨等。2010年b)、用户界面,用于管理和查询基因型和表型数据集,并支持各种数据库后台,包括HSQL(单机版)和MySQL。表型、基因型和遗传图谱数据可以作为文本(TXT)、逗号分隔(CSV)和Excel文件导入。xQTL工作台在一个新的、高效的XGAP格式二进制版本中处理和存储大型数据,该版本名为XGAPbin(extension.xbin),在线记录。在处理、存储和传输多千兆字节数据集时,这种二进制格式至关重要。
2.6可根据研究需要定制
可以使用Molgenis软件生成器添加新数据模式的其他模块(斯威茨等。2010年b). 的“外观和感觉”xQTL工作台通过更改一个简单的模板来适应机构或联盟的风格,如xQTL工作台文档能够无缝集成到现有网站或内部网站,例如最近的EU-PANACEA生物模型项目和LifeLines生物库。
3实施
我们建造了xMolgenis顶部的QTL工作台(斯威茨等。, 2004),一种基于Java的软件,可按需生成定制的研究基础设施(Swertz和Jansen,2007年). 从描述整个系统的单个“蓝图”开始,Molgenis自动生成完整的应用程序,包括用户界面、数据库基础设施、R、REST和SOAP(API)中的应用程序编程接口。Molgenis的灵活性和鲁棒性已被广泛的研究项目证明,例如北欧GWAS控制数据库(亮氨酸等。, 2010),EB突变数据库(范登·阿克等。, 2011)和动物观察数据库(斯威茨等。2010年a).
数据存储采用可扩展基因型和表型(XGAP)数据模型(斯韦茨等。2010年b)并扩展到大数据。为了支持对包含的映射例程的计算资源的增加需求,我们添加了用于计算的高级集群和云管理功能。可扩展的QTL定位程序xQTL工作台是用R和C编写的。R的选择与使用R进行QTL定位的一般做法有关。用户界面包括直接访问R解释器。两者都有xQTL workbench和Molgenis是开源软件,源代码在在线源代码控制库中透明地存储和跟踪。
4结论
xQTL workbench为基于web的分析提供了一个完整的解决方案:集成了主要的QTL映射例程,供有经验和无经验的用户使用。研究人员可以上传原始数据,进行分析,探索定位的QTL和潜在信息,并链接到重要的数据库。新算法可以灵活添加,所有用户都可以立即使用。大型分析可以在集群或云中轻松执行。未来的工作包括可视化和搜索选项,以探索结果。我们还举办了EU-SYSGENET研讨会,该研讨会设想将xQTL与HAPPY等分析工具、GeneNetwork等数据库以及工作流管理器TIQS进一步集成(达兰特等。, 2011).
致谢
我们感谢Konrad Zych图1.
基金:美国国立卫生研究院(GM074244 to KB);荷兰科学研究组织(NWO)/TTI绿色遗传学(1CC029RP to P.P.);NWO(Rubicon 825.09.008 to M.A.S)、生物系统基因组中心(CBSG)、荷兰系统生物学联合会(NCSB)(to D.A.)、荷兰生物信息中心(NBIC)(to M.A.S.),均为荷兰基因组计划/NWO的一部分;由欧洲区域发展基金和NWO共同资助的Target/LifeLines(发给M.A.S.);以及EU-FP7项目PANACEA(222936至K.J.v.d.v.)和EURATRANS(241504至R.C.J.)。
利益冲突:未声明。
参考文献
等R/qtl:高通量多qtl定位
, 生物信息学
, 2010
,卷。 26
(第2990
-2992
) 等R/qtl:qtl在实验杂交中的定位
, 生物信息学
, 2003
,卷。 19
(第889
-890
) ,等人用于小鼠系统遗传学分析的生物信息学工具和数据库资源——简短回顾和未来需求评估
, 简介。生物信息。
, 2011
等银河系:支持生命科学中可访问、可复制和透明计算研究的综合方法
, 基因组。生物。
, 2010
,卷。 11
第页。 86兰特
,等人北欧数据库:北欧全基因组控制数据库和门户
, 《欧洲遗传学杂志》。
, 2010
,卷。 18
(第1322
-1326
) 等. 进化基因组学中的可伸缩计算
, 进化基因组学:统计和计算方法。
, 2011
Humana-Springer公司
等Plink:用于全基因组关联和基于人群的连锁分析的工具集
, Am.J.Hum.遗传学。
, 2007
,卷。 81
(第559
-575
) 等分子遗传学信息系统(MOLGENIS):开发本地实验基因组学数据库的替代方案
, 生物信息学
, 2004
,卷。 20
(第2075
-2083
) 等molgenis工具包:一键式生物软件快速原型制作
, BMC生物信息学
, 2010
,卷。 11
补充12
第页第12节
等Xgap:用于基因型和表型实验的统一可扩展数据模型和软件平台
, 基因组。生物。
, 2010
,卷。 11
第页。 27兰特
, . 超越标准化:系统生物学的动态软件基础设施
, 国家版次。通用。
, 2007
,卷。 8
(第235
-243
) 等大数据,但我们准备好了吗?
, Nat.Rev.基因。
, 2011
,卷。 12
(第224
-224
) 等国际营养不良性大疱性表皮松解症患者登记:营养不良性大疱性上皮松解症病人及其col7a1突变的在线数据库
, 哼。穆塔特。
, 2011
,卷。 32
(第1100
-1107
) ,等人网络qtl
, 神经信息学
, 2003
,卷。 1
(第299
-308
) 等R/qtlbim:QTL在实验杂交中的贝叶斯区间作图
, 生物信息学
, 2007
,卷。 23
(第641
-643
) 等Qtl网络:绘制和可视化实验群体复杂性状的遗传结构
, 生物信息学
, 2008
,卷。 24
(第721
-723
)
作者注释
©作者2012。牛津大学出版社出版。
这是一篇根据知识共享署名非商业许可条款发布的开放存取文章(http://creativecommons.org/licenses/by-nc/3.0)它允许在任何媒体上无限制地进行非商业性使用、分发和复制,前提是正确引用了原始作品。