生物信息学。2015年1月15日;31(2): 259–261.
EasyStrata:分层全基因组关联荟萃分析数据的评估和可视化
,1,* ,2,三,4 ,1 ,5 ,6和1,*
托马斯·温克勒
1德国雷根斯堡大学遗传流行病学系,D-93053,2瑞士洛桑CH-1005洛桑大学医学遗传学系,三瑞士洛桑CH-1010 Vaudois大学中心医院社会与预防医学研究所(IUMSP),4瑞士生物信息研究所,瑞士洛桑CH-1015,5德国雷根斯堡大学功能基因组研究所统计生物信息学系,邮编:D-930536奥地利因斯布鲁克A-6020因斯布鲁克医科大学医学遗传学、分子和临床药理学系遗传流行病学部
佐尔坦·库塔利克
1德国雷根斯堡大学遗传流行病学系,D-93053,2瑞士洛桑CH-1005洛桑大学医学遗传学系,三瑞士洛桑CH-1010 Vaudois大学中心医院社会与预防医学研究所(IUMSP),4瑞士生物信息研究所,瑞士洛桑CH-1015,5德国雷根斯堡大学功能基因组研究所统计生物信息学系,邮编:D-930536奥地利因斯布鲁克A-6020因斯布鲁克医科大学医学遗传学、分子和临床药理学系遗传流行病学部
马蒂亚斯·戈尔斯基
1德国雷根斯堡大学遗传流行病学系,D-93053,2瑞士洛桑CH-1005洛桑大学医学遗传学系,三瑞士洛桑CH-1010 Vaudois大学中心医院社会与预防医学研究所(IUMSP),4瑞士生物信息研究所,瑞士洛桑CH-1015,5德国雷根斯堡大学功能基因组研究所统计生物信息学系,邮编:D-930536奥地利因斯布鲁克A-6020因斯布鲁克医科大学医学遗传学、分子和临床药理学系遗传流行病学部
克劳迪奥·洛塔兹
1德国雷根斯堡大学遗传流行病学系,D-93053,2瑞士洛桑CH-1005洛桑大学医学遗传学系,三瑞士洛桑CH-1010 Vaudois大学中心医院社会与预防医学研究所(IUMSP),4瑞士生物信息研究所,瑞士洛桑CH-1015,5德国雷根斯堡大学功能基因组研究所统计生物信息学系,邮编:D-930536奥地利因斯布鲁克A-6020因斯布鲁克医科大学医学遗传学、分子和临床药理学系遗传流行病学部
弗洛里安·科伦伯格
1德国雷根斯堡D-93053雷根斯堡大学遗传流行病学系,2瑞士洛桑CH-1005洛桑大学医学遗传学系,三瑞士洛桑CH-1010 Vaudois大学中心医院社会与预防医学研究所(IUMSP),4瑞士生物信息学研究所,瑞士洛桑CH-1015,5德国雷根斯堡大学功能基因组研究所统计生物信息学系,邮编:D-930536奥地利因斯布鲁克A-6020因斯布鲁克医科大学医学遗传学、分子和临床药理学系遗传流行病学处
艾丽斯·海德
1德国雷根斯堡大学遗传流行病学系,D-93053,2瑞士洛桑CH-1005洛桑大学医学遗传学系,三瑞士洛桑CH-1010 Vaudois大学中心医院社会与预防医学研究所(IUMSP),4瑞士生物信息研究所,瑞士洛桑CH-1015,5德国雷根斯堡大学功能基因组研究所统计生物信息学系,邮编:D-930536奥地利因斯布鲁克A-6020因斯布鲁克医科大学医学遗传学、分子和临床药理学系遗传流行病学部
1德国雷根斯堡大学遗传流行病学系,D-93053,2瑞士洛桑CH-1005洛桑大学医学遗传学系,三瑞士洛桑CH-1010 Vaudois大学中心医院社会与预防医学研究所(IUMSP),4瑞士生物信息研究所,瑞士洛桑CH-1015,5德国雷根斯堡大学功能基因组研究所统计生物信息学系,邮编:D-930536奥地利因斯布鲁克A-6020因斯布鲁克医科大学医学遗传学、分子和临床药理学系遗传流行病学部
*信件应寄给谁。
副主编:珍妮特·凯尔索
2014年4月16日收到;2014年7月7日修订;2014年9月12日接受。
版权©作者2014。牛津大学出版社出版。保留所有权利。有关权限,请发送电子邮件至:journals.permissions@oup.com - 补充资料
补充数据
GUID:6D4EF0A1-4601-44C4-B56A-FC3C18CF758F
GUID:41693E39-F26E-49C1-8BCE-DA7810A647FE
摘要
总结:R包EasyStrata促进了分层全基因组关联荟萃分析(GWAMA)结果的评估和可视化。它提供了(i)用于测试和解释层间差异的统计方法,作为处理基因-层间相互作用效应的手段,以及(ii)为分层GWAMA结果定制的扩展图形特征。该软件还提供了适用于一般GWAMA的其他功能,包括注释、排除或突出显示绘图中的特定基因座,或从全基因组数据集提取基因座的独立子集。它是免费的,包括一个用户友好的脚本界面,简化了数据处理,并允许以灵活的方式组合统计和图形功能。
可利用性:EasyStrata可从我们的网站免费获得(根据GNU通用公共许可证v3)www.genepi-regensburg.de/easystrata以及来自CRAN R软件包存储库CRAN.R-project.org/web/packages/EasyStrata/。
联系人:
ed.rku@relkniw.samoht(电子邮箱)或ed.rku@dieh.siri
补充信息:
补充数据可在生物信息学在线。
1简介
全基因组关联荟萃分析(GWAMA)汇集了多个研究特异性全基因组关联(GWA)结果,导致导致复杂性状和疾病的已知基因数量增加了10到20倍(维斯切等。2012年)。同时,重点还放在全基因-环境相互作用分析(GEWIS)上,该分析旨在进一步表征遗传主效应,并发现仅在某些环境条件下存在的新的遗传关联(基因-环境相互作用,GxE)。尽管一些GEWIS已经从单一研究分析扩展到了荟萃分析,但迄今为止,只有少数报道可复制的GxE效应(赫特等。, 2013)。对于分类环境因素E,GEWIS荟萃分析可以按GWAMA按E分层,例如按性别或吸烟状态分层。分层GWAMA不仅提高了检测地层敏感遗传主效应的能力(贝伦斯等。, 2011)还可以测试基因-地层(GxS)相互作用和联合(主要+相互作用)效应(阿斯查德等。,2010年;三博士等。,2010年;兰德尔等。, 2013)。尽管存在多种分析分层GWAMA结果的方法,但软件工具的可用性有限(请参阅补充表S1与其他GWAS工具进行比较)。
我们开发了一个名为EasyStrata的R包,它允许用户获得跨层比较的统计和图形摘要,并研究潜在的GxS效应。该软件是在GIANT(ANthropometric Traits基因调查)联盟的GxE工作组内开发的,该软件包的功能在GWAMA人体特征结果中得到了例证,该结果可在以下网址公开获得:www.broadinstitute.org/collaboration/g巨人EasyStrata适用于连续或二分结果的分层GWAMA,许多功能也适用于“非分层”GWAMA(补充说明).
2实施
2.1特点和功能
EasyStrata分析的基础是每个单核苷酸多态性(SNP)全基因组和分层(m层)的GWAMA结果(补充图S1):特定阶层的meta分析β估计值和标准误差(考克斯和欣克利,1979年)]或Z-分数和样本量[样本量-加权Z-基于评分的meta分析(斯托弗,1949年)]以及其他信息(例如,特定于地层的关联P(P)-值)。分层的例子包括男性和女性(m=2),或老年组和年轻组(m=2.),这些因素的组合(m=4),吸烟状态(不吸烟者、以前吸烟者和现在吸烟者,m=3.)或其他分类暴露。
2.1.2绘图功能
为了可视化分层GWAMA结果,我们实现了最先进的图形功能,如分位数-分位数图(QQ)、散点图和曼哈顿图。更具体地说,我们提供了为层间比较量身定制的图形功能:EasyStrata允许在所谓的“迈阿密”地块中对比两个曼哈顿地块(),用于在单个图形中显示多条QQ曲线(补充图S2),以及将散点图扩展到更高维度(补充图S3)。图形功能由其他方便的功能补充,例如突出显示曼哈顿或迈阿密地块中的特定区域(),将QQ图中的特定区域排除在外,以专注于新关联的潜力,省略不太重要的SNP,以大幅提高大型数据集的绘图速度,打破y轴的规模,以确保极重要SNP的正确表示,或创建地块小组,快速概述GWAMA的单一研究或各种性状(补充图S4–S7).
2.2使用
我们的开源软件是用R语言编写的,并使用了“Cairo”和“plotrix”包。使用基于LD的阈值提取独立位点需要PLINK软件(Purcell公司等。, 2007)。对于基于HapMap-imputted研究的分层GWAMA结果,我们建议至少有4GB的随机存取存储器(RAM)可用(请参阅补充表S3用于评估运行时和RAM分配)。EasyStrata是通过调用函数'EasyStrata'来启动的,函数的参数是ecf-file:EasyStratea('/path2ecf/example.ecf')。用户定义的ecf文件是一个文本文件,它提供了一个灵活的脚本接口,允许生成自定义的分析管道(补充图S8)。可以从我们的网站下载一些模板ecf-管道(例如,用于创建此处显示的图形的管道)。
3结论
通过EasyStrata,我们提供了一个用户友好的R包,有助于评估或图形化呈现分层GWAMA结果。我们作为分析师开发了这个软件,GIANT联盟对一百多项研究进行了荟萃分析,以调查人体测量特征的遗传基础,并确定潜在的GxE效应。例如,我们软件的功能已用于评估性别分层的GWAMA的多种人体测量特征(兰德尔等。, 2013)。EasyStrata的自动化管道方法可以节省时间,并将手动提取和合并数据的错误降至最低。该软件对于分析师应对高维分层GWAMA数据日益复杂的问题非常有用。
参考文献
- Aschard H等人。遗传和基因-环境相互作用联合测试的全基因组荟萃分析。哼,来了。2010;70:292–300. [PMC免费文章][公共医学][谷歌学者]
- Behrens G等人。分层与否:基于群体的数量性状全基因组关联研究的功率考虑。遗传学。流行病。2011;35:867–879.[公共医学][谷歌学者]
- Benjamini Y,Hochberg Y。控制错误发现率-一种实用且强大的多重测试方法。J.罗伊。统计Soc.B Met。1995;57:289–300. [谷歌学者]
- 科克伦工作组。不同实验估计值的组合。生物计量学。1954;10:101–129. [谷歌学者]
- Cox DR、Hinkley DV。理论统计。伦敦,纽约:查普曼和霍尔出版社;1979[谷歌学者]
- Heid IM等。荟萃分析确定了13个与腰围比相关的新基因座,并揭示了脂肪分布遗传基础中的性别二型性。自然遗传学。2010;42:949–960. [PMC免费文章][公共医学][谷歌学者]
- Hutter CM等人,《癌症流行病学中的基因-环境相互作用:国家癌症研究所智库报告》。遗传学。流行病。2013;37:643–657. [PMC免费文章][公共医学][谷歌学者]
- Johnson RC等人,全基因组关联研究(GWAS)中多重比较的解释BMC基因组。2010;11:724。 [PMC免费文章][公共医学][谷歌学者]
- Lindgren CM等。全基因组关联扫描荟萃分析确定了三个影响肥胖和脂肪分布的位点。公共科学图书馆-遗传学。2009;5:e1000508。 [PMC免费文章][公共医学][谷歌学者]
- Magi R等人,性别特异性全基因组关联研究的荟萃分析。遗传学。流行病。2010;34:846–853. [PMC免费文章][公共医学][谷歌学者]
- Purcell S等人PLINK:一套用于全基因组关联和基于人群的连锁分析的工具。Am.J.Hum.遗传学。2007;81:559–575. [PMC免费文章][公共医学][谷歌学者]
- Randall JC等。包括270000名个体的性别分层全基因组关联研究表明,人体测量性状的遗传位点存在性别二型性。公共科学图书馆-遗传学。2013;9:e1003500。 [PMC免费文章][公共医学][谷歌学者]
- Stouffer公司。《美国士兵:陆军生活中的调整》。第1卷。新泽西州普林斯顿:普林斯顿大学出版社;1949[谷歌学者]
- Visscher PM等人。GWAS发现的五年。Am.J.Hum.遗传学。2012;90:7–24. [PMC免费文章][公共医学][谷歌学者]