跳到主要内容

SNPexp-一个用于计算和可视化HapMap基因型和基因表达水平之间相关性的网络工具

摘要

背景

来自所有270个HapMap II期个体的淋巴母细胞系中47294个转录物的表达水平,以及相同个体中396万个单核苷酸多态性(SNPs)的基因型(HapMap II期和III期)是公开的。我们旨在生成一个基于web的用户友好工具,用于可视化特定基因组区域内SNP基因型与感兴趣基因之间的相关性,这也被称为表达定量性状位点(eQTL)分析。

结果

SNPexp是作为服务器端脚本实现的,可在以下网站上公开获得:http://tinyurl.com/snpexp基因型和转录表达水平之间的相关性通过执行线性回归和Wald检验计算,如在PLINK中实现并使用UCSC基因组浏览器可视化。使用先前发布的eQTL对SNPexp进行验证,得出了可比较的结果。

结论

SNPexp提供了一种方便且依赖于平台的方法来计算和可视化基因组中任何特定遗传区域内的HapMap基因型与基因表达水平之间的相关性。这允许对顺式和反式效应进行研究。网络界面和对公开可用和广泛使用的软件资源的利用,使其成为对更先进的生物信息工具的一个有吸引力的补充。对于高级用户,该程序可以在自定义数据集的本地计算机上使用。

背景

根据dbSNP构建131[1]超过1400万个单核苷酸多态性(SNPs)已被鉴定并被注释为有效[2]. 这张密集的人类遗传变异图为基因分型阵列的设计铺平了道路,根据连锁不平衡≥0.8测量,全基因组覆盖率接近100%。与所有HapMap II期基因型相比[]. 这些基因分型阵列在病例对照全基因组关联研究(GWAS)中的广泛应用揭示了遗传变异与多种疾病和人类表型之间的2830多个强有力的关联[4,5]. 在大多数情况下,已识别的变异体在基因表达和蛋白质功能方面的功能含义仍不明确。在其中一些情况下,基因表达的改变被认为是致病机制[69].

基因表达水平可被视为受遗传变异影响的数量性状,并可通过SNP相关统计进行遗传作图。研究这种相关性被称为表达定量性状位点(eQTL)定位,已被证明是检测对基因表达重要的区域和变异的有用工具,从而也为GWAS遗传发现的潜在机制提出了假设[6,7,9,10]. eQTL方法的效率激发了多种软件工具的实施,用于为多个物种的不同组织生成eQTL-结果[11,12].

虽然对于有计算技能的用户来说功能强大,但大多数工具都不允许快速、即时地评估感兴趣的区域或基因。eQTL查看器[12]是一个可定制的工具,用于绘制eQTL结果,用户必须提供并准备自己的源数据,需要了解Perl、XML和使用SQL的数据库查询。另一个工具,FastMap[11]是必须在本地计算机上安装和运行的Java程序。它适用于研究近交系小鼠的群体,以及计算全基因组eQTL图谱的需要。eQTL浏览器[13]总结了其他几项研究中确定的假定eQTL,但不允许用户浏览一个区域中的每个SNP。

HapMap项目中淋巴母细胞系的全基因组SNP基因型和基因表达水平是公开的[1416]. 我们希望将这些数据集中的信息结合起来,并创建一个易于访问的网络工具,在该工具中,不了解编程和复杂数据处理的用户可以可视化基因组中任何特定遗传区域内的每个SNP与感兴趣的单个基因的表达水平之间的相关性。

实施

SNPexp公司网址:http://tinyurl.com/snpexp实现为用Perl 5.10编写的服务器端脚本[17]在Apache HTTP服务器2.2上执行[18]. 它利用了全基因组关联分析工具集PLINK中的定量关联测试[19]用于计算相关统计数据和网络资源UCSC基因组浏览器[20]用于可视化结果。此外,用户可以使用整个源代码,并且可以对其进行自定义,以便在HapMap以外的其他数据集上本地运行。

源数据

基因型

HapMap第二阶段发布的23个数据集包含来自4个群体(CEU:90(30个三人组)的270名个体的396万SNP基因型,犹他州居民的祖先来自北欧和西欧;CHB:45名北京无关汉族;JPT:东京有45名无关日本人;YRI:90(30个三重唱)尼日利亚伊巴丹的约鲁巴[16]. 数据以PLINK格式的二进制文件的形式从PLINK网站下载,并根据前向链的NCBI(构建36)坐标进行编码[21]. 此外,还下载了过滤后的HapMap第三阶段第3版,其中包含146万个质量受控的SNP[22]. SNP基因型影响基因表达的遗传模型在不同SNP和转录物之间会有所不同。为了开放所有可能的遗传模型,SNPexp可以在加性、显性、隐性或基因型模型假设下分析SNPs,但对于基因区域的一般首次筛选,我们建议使用加性模型。

表达式

来自相同270个Hapmap个体的EBV转化淋巴母细胞系的47294个转录物的表达水平也可用[15]. 每个基因在阵列(Illumina Human WG-6 Expression BeadChip v1)上由一个或多个不同的转录探针表示。这个表达式数据是从Genevar网站下载的[23]作为两个不同的文件集。在第一组中,每个HapMap群体(CEU、CHB、JPT、YRI)都已独立归一化(以保留任何特定人群的差异)。在第二组中,所有种群在归一化之前都汇集在一起,这使得在种群之间进行直接比较成为可能。

施工

1显示了SNPexp工具的工作流。它首先搜索并提取代表该基因的芯片上转录探针的表达数据,然后使用PLINK从指定的基因组区域提取基因型数据。随后,将这两个数据集合并到一个新的PLINK输入文件中,该文件包含人口中每个个体的提取基因型和表达水平。通过执行线性回归和通过PLINK中实现的Wald检验获得的p值来即时分析组合数据。如果一个基因由阵列上的多个探针表示,SNPexp会对每个探针进行单独分析,每个探针返回一个结果。建议用户谨慎判断返回的统计结果,因为执行的测试数量可能很高。为了便于根据多次测试进行解释,采用了几种方法来校正P值(Bonferroni、Holm、Sidak、Benjamini&Hochberg和Benjamini&Yekutieli FDR)。

图1
图1

工作流堆栈SNPexp将HapMap SNP基因型数据与来自相同个体的淋巴母细胞系的基因表达数据相结合,并在PLINK中自动应用线性回归和Wald检验来评估转录水平的相关性。数据以可下载文本文件和(-log)的形式显示10)p值可以在UCSC基因组浏览器中直接可视化。

生成了几个可下载的文件。首先,在UCSC基因组浏览器上,将一个文件格式化为“自定义曲目”上传[24]以可视化基因组区域内每个SNP与基因表达水平之间的相关性的p值(表示为负十倍对数)。对于多探针基因,每个探针的结果显示为平行轨迹。调整和未调整的p值均绘制为平行轨迹。SNPexp结果页面上提供了一个直接链接,可在UCSC基因组浏览器上自动上传和绘制结果。其次,生成文件,其中包含提取的SNP基因型和由此产生的per-SNP基因型频率、平均表达水平以及来自定量关联测试的未调整和调整的p值。结果页面上提供了一个全面的日志文件,其中包含流程中各个步骤的所有输出。

结果和讨论

2显示了SNPexp web工具的首页。用户输入SNPexp需要(1)NCBI基因符号,(2)染色体,(3)该染色体内的特定基因组区域(或特定SNP),(4)要进行分析的HapMap版本和人群,(5)是否调整多重测试,以及(6)假设的遗传模型。还可以对所有HapMap群体进行汇总评估。重要的是,利用UCSC基因组浏览器进行数据表示可以实现动态交互、快速了解遗传区域的总体特征和多个自定义视图。可以使用其他工具或进一步分析,继续使用详细的结果文件进行数据展示。

图2
图2

SNPexp网络工具的屏幕截图用户输入SNPexp需要(1)NCBI基因符号,(2)染色体,(3)该染色体内的特定基因组区域(或特定SNP),以及(4)要进行分析的HapMap版本和人群,(5)是否调整多次测试,以及(6)假设的遗传模型。

我们建议各种结果文件(extracted_snps_with_expression_valuesPROBE.ped、pvaluesPROBE.linear.assoc.txt、pvalgesPROBE-linear.assic.adjusted.txt、PROBE.qassoc.means.txt和customtrack.txt其中PROBE指的是表达式数组中的转录targetID),并与日志文件一起下载和评估。本地保存的自定义轨迹文件稍后可以在UCSC基因组浏览器上上传和查看。

为了证明SNPexp的有效性,我们特别希望重现之前发布的eQTL结果。特别是,Veyrieras等人[9]基于相同的原始HapMap数据,这意味着结果应该非常相似。显示了从SNPexp中得出的第4染色体(8168000-8790000 bp)遗传区域SNP与基因表达之间的相关性图环氧乙烷3(对于汇集在一起的所有210个无关的HapMap II期个体,使用加性模型进行分析,无需对多重测试进行校正)。此图与中相同区域的图相似(在相反的链上引用)[9]并显示了之前发布的eQTL结果(两个图中都存在最强的SNP:rs827000 p<10-12). 小的差异可能是由于在[9]、标准化方法以及Hapmap第二阶段Release 21和Release 23之间的差异。

图3
图3

SNPexp结果的可视化.计算的每个SNP(-log10)UCSC基因组浏览器上显示的4号染色体(8168000-8790000 bp)遗传区域SNP与基因ACOX3表达之间相关性的p值(所有210个无关的HapMap II期个体合并在一起)。此图显示了之前发布的eQTL结果[9](两个图中都存在最强的SNP:rs827000 p<10-12). 浏览器可以通过不同的方式进行定制,为绘图提供基因注释和SNP位置。

Moffat等人的哮喘全基因组关联研究[25]也是基于淋巴母细胞系的数据,但在另一个(非HapMap)研究人群中(994名儿童期哮喘患者,1243名对照;317000个SNPs使用illumina Sentrix HumanHap300 BeadChip进行基因分型;使用Affymetrix HG-U133Plus 2.0芯片测量基因表达水平)。该研究具有普遍性和特殊性,因为eQTL定位有助于解决具有强连锁不平衡(LD)的易感区。我们为ORMDL3型染色体17q21周围区域的SNP位点。在这项评估中,eQTL作图中观察到的最密切相关的SNP只有部分重叠,并且使用这两种方法都检测到了一些排他性关联。这些明显的差异并不奇怪,因为哮喘人群和HapMap在遗传构成以及连锁不平衡模式方面可能存在差异。

创建SNPexp的目的是成为一个快速、用户友好、随时可用的网络工具,用于分析和可视化两个高质量和公开可用的数据集之间的相关性。我们决定使用源数据as-is,不对SNP或基因应用额外的质量过滤器,从而提供一组完整且无偏见的结果,留给研究人员进一步检查和解释。

由于可能的基因与SNP组合数量极高,基因表达的等位基因效应的真实模型可能因基因而异,SNPexp支持使用加性、显性、隐性或基因型遗传模型假设。选择了对PLINK中的数量性状使用内建Wald检验的实用方法。虽然该测试适用于大多数目的,但我们建议对SNPexp的结果进行深入的统计验证,以获得可发表的结论或进一步的实验。熟悉Perl编程的高级用户可能希望从工具的帮助页面下载脚本的“脱机版本”,在本地进行设置,并进行调整以支持其他数据源等。

结论

通过结合公开的HapMap基因型和基因表达数据,我们开发了一个交互式网络工具(SNPexp),用户可以在其中可视化基因组中任何特定遗传区域内的SNP基因型与感兴趣基因的表达水平之间的相关性。SNP和编码转录物的基因可能位于不同的染色体上,因此支持对顺式和反式eQTL的搜索。快速方便的用户界面只需最少的计算机知识,无需准备源数据,这使得SNPexp成为更先进的eQTL工具的一个有吸引力的补充。

可用性和要求

项目名称

SNPexp公司

项目主页

http://tinyurl.com/snpexp

(别名:http://app3.titan.uio.no/biotools/tool.php?app=snpexp).

操作系统

独立于平台

程序设计语言

Perl 5.10语言

许可证

公共域

工具书类

  1. NCBI dbSNP构建131[http://www.ncbi.nlm.nih.gov/projects/SNP]

  2. Sherry ST、Ward MH、Kholodov M、Baker J、Phan L、Smigielski EM、Sirotkin K:dbSNP:NCBI遗传变异数据库。核酸研究2001, 29: 308–311. 10.1093/nar/29.1.308

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  3. Anderson CA、Pettersson FH、Barrett JC、Zhuang JJ、Ragoussis J、Cardon LR、Morris AP:评估插补对全基因组SNP平台的功率、覆盖率和成本效率的影响。美国人类遗传学杂志2008, 83: 112–119. 10.1016/j.ajhg.2008.06.008

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  4. Hindorff LA、Junkins HA、Hall PN、Mehta JP、Manolio TA:已发表的全基因组关联研究目录。[http://www.genome.gov/gwastudies网站]2010年6月16日访问

  5. Hindorff LA、Sethupathy P、Junkins HA、Ramos EM、Mehta JP、Collins FS、Manolio TA:人类疾病和特征全基因组关联位点的潜在病因学和功能意义。《美国科学院院刊》2009, 106: 9362–9367. 10.1073/pnas.0903103106

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  6. Cheung VG,Spielman RS:人类基因表达的遗传学:绘制影响基因表达的DNA变体。Nat Rev基因2009, 10: 595–604. 10.1038/编号2630

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  7. Dixon AL、Liang L、Moffatt MF、Chen W、Heath S、Wong KC、Taylor J、Burnett E、Gut I、Farrall M、Lathrop GM、Abecasis GR、Cookson WO:全球基因表达的全基因组关联研究。自然基因2007, 39: 1202–1207. 1038/ng2109年10月10日

    第条 中国科学院 公共医学 谷歌学者 

  8. Schadt EE、Molony C、Chudin E、Hao K、Yang X、Lum PY、Kasarskis A、Zhang B、Wang S、Suver C、Zhu J、Millstein J、Sieberts S、Lamb J、GuhaThakurta D、Derry J、Storey JD、vila-Campillo I、Kruger MJ、Johnson JM、Rohl CA、van Nas A、Mehrabian M、Drake TA、Lusis AJ、Smith RC、Guengrech FP、Strom SC、Schuetz E、Rushmore TH、,.:绘制人类肝脏基因表达的遗传结构。公共科学图书馆生物2008年6月:e107。10.1371/期刊.pbio.0060107

    第条 公共医学 公共医学中心 谷歌学者 

  9. Veyrieras JB、Kudaravalli S、Kim SY、Dermitzakis ET、Gilad Y、Stephens M、Pritchard JK:表达-QTL的高分辨率定位有助于深入了解人类基因调控。公共科学图书馆-基因2008年,4:e1000214。10.1371/journal.pgen.1000214

    第条 公共医学 公共医学中心 谷歌学者 

  10. Cookson W,Liang L,Abecasis G,Moffatt M,Lathrop M:利用全球基因表达绘制复杂疾病特征图。Nat Rev基因2009, 10: 184–194. 10.1038/nrg2537

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  11. Gatti DM、Shabalin AA、Lam TC、Wright FA、Rusyn I、Nobel AB:FastMap:纯合子群体的快速eQTL定位。生物信息学2009, 25: 482–489. 10.1093/生物信息学/btn648

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  12. Zou W,Aylor DL,Zeng ZB:eQTL查看器:可视化序列变异如何影响全基因组转录。BMC生物信息学2007, 8: 7. 10.1186/1471-2105-8-7

    第条 公共医学 公共医学中心 谷歌学者 

  13. Pritchard实验室的eQTL浏览器[http://eqtl.uchicago.edu/cgi-bin/gbrowse/eqtl]

  14. Frazer KA、Ballinger DG、Cox DR、Hinds DA、Stuve LL、Gibbs RA、Belmont JW、Boudreau A、Hardenbol P、Leal SM、Pasternak S、Wheeler DA、Willis TD、Yu F、Yang H、Zeng C、Gao Y、Hu H、Hu W、Li C、Lin W、刘S、Pan H、Tang X、Wang J、Wang W、Yu J、Zhang B、ZhangQ、Zhao H、,.:第二代人类单倍型图谱,包含310多万个SNP。自然2007, 449: 851–861. 10.1038/性质06258

    第条 中国科学院 公共医学 谷歌学者 

  15. Stranger BE、Forrest MS、Dunning M、Ingle CE、Beazley C、Thorne N、Redon R、Bird CP、de Grassi A、Lee C、Tyler-Smith C、Carter N、Scherer SW、Tavare S、Deloukas P、Hurles ME、Dermitzakis ET:核苷酸和拷贝数变异对基因表达表型的相对影响。科学类2007, 315: 848–853. 10.1126/科学.1136678

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  16. 国际HapMap联盟:国际HapMap项目。自然2003, 426: 789–796. 10.1038/自然02168

    第条 谷歌学者 

  17. Larry Wall:Perl编程语言,版本5.10[http://www.perl.org]

  18. Apache软件基金会[http://www.apache.org]

  19. Purcell S、Neale B、Todd-Brown K、Thomas L、Ferreira MA、Bender D、Maller J、Sklar P、de Bakker PI、Daly MJ、Sham PC:PLINK:全基因组关联和基于人群的连锁分析的工具集。美国人类遗传学杂志2007, 81: 559–575. 10.1086/519795

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  20. Kent WJ、Sugnet CW、Furey TS、Roskin KM、Pringle TH、Zahler AM、Haussler D:加州大学洛杉矶分校的人类基因组浏览器。基因组研究2002, 12: 996–1006.

    第条 中国科学院 公共医学 公共医学中心 谷歌学者 

  21. Shaun Purcell的PLINK v1.06[http://pngu.mgh.harvard.edu/purcell/plink]

  22. HapMap第三阶段第3版(共识)[http://www.sanger.ac.uk/humgen/hapmap3]

  23. 基因-基因表达变异[http://www.sanger.ac.uk/humgen/genevar]

  24. UCSC基因组浏览器[http://genome.ucsc.edu/cgi-bin/hgGateway网站]

  25. Moffatt MF、Kabesch M、Liang L、Dixon AL、Strachan D、Heath S、Depner M、von Berg A、Bufe A、Rietschel E、Heinzmann A、Simma B、Frischer T、Willis-Owen SA、Wong KC、Illig T、Vogelberg C、Weiland SK、von Mutius E、Abecasis GR、Farrall M、Gut IG、Lathrop GM、,库克森WO:调节ORMDL3表达的基因变体有助于儿童哮喘的风险。自然2007, 448: 470–473. 10.1038/性质06014

    第条 中国科学院 公共医学 谷歌学者 

  26. 奥斯陆大学生物门户[http://www.bioportal.uio.no/]

下载参考资料

致谢

SNPexp网络工具托管在免费提供的Bioportal上[26]由挪威奥斯陆大学的研究计算服务部运营。

作者信息

作者和附属机构

作者

通讯作者

与的通信安德烈·弗兰克.

其他信息

作者的贡献

KH实施了该软件,进行了eQTL定位并撰写了手稿。EM参与了项目的设计并帮助撰写论文。AF和THK设计并监督了该项目,并为手稿做出了贡献。所有作者都批准了最后的手稿。

作者提交的原始图像文件

下面是作者提交的原始图像文件的链接。

图1的作者原始文件

图2的作者原始文件

图3的作者原始文件

权利和权限

开放式访问本文经BioMed Central Ltd.许可发布。这是一篇开放存取文章,根据知识共享署名许可条款分发(https://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

霍尔姆(Holm,K.)、梅勒姆(Melum,E.)、弗兰克(Franke,A.)。等。SNPexp-一个网络工具,用于计算和可视化HapMap基因型和基因表达水平之间的相关性。BMC生物信息学 11, 600 (2010). https://doi.org/10.1186/1471-2105-11-600

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1471-2105-11-600

关键词