×

多表型研究中主成分关联检验功效的几何透视。 (英语) Zbl 1428.62475号

摘要:联合分析多种表型可以提高遗传关联研究的统计能力。主成分分析是一种常用的降维方法,尤其是在表型数为高维时,被用来分析多个相关表型。根据经验观察,在检测遗传关联信号时,第一个PC(总结了最大方差)的功能可能不如高阶PC和其他常用方法。在本文中,我们通过引入一个称为主角的新概念,从几何角度研究了基于PCA的多表型分析的特性。如果主角为(0°),则特定PC是强大的;如果主角是(90°),PC是无能为力的。如果没有关于真实主角度的事先知识,每个PC都可能无能为力。我们通过组合PC提出了线性、非线性和数据自适应的综合测试。我们证明了Wald测试是一种特殊的基于PC的二次型测试。我们表明,综合PC测试在广泛的场景中是健壮和强大的。我们使用功率分析和特征分析研究了所提方法的特性。这些组合PC方法之间的细微差异和紧密联系以图形方式说明了它们的拒绝边界。我们建议的测试具有凸验收区域,因此是可接受的。拟议测试的(p)-值可以有效地进行分析计算,拟议测试已在公开可用的R包中实施MPAT公司我们利用各种信号矢量和相关结构在低维和高维环境中进行模拟研究。我们使用从四个国际协会收集的数据集,将建议的测试应用于代谢综合征相关表型的联合分析,以证明建议的组合PC测试程序的有效性。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62H25个 因子分析和主成分;对应分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aschard,H。;维尔姆松,B.J。;北卡罗来纳州格里奇。;Morange,体育。;Trégouët,医学博士。;Kraft,P.,“在全基因组关联研究中最大化相关表型的主成分分析的力量”,《美国人类遗传学杂志》,94662-676(2014)·doi:10.1016/j.ajhg.2014.03.016
[2] Bahadur,R.R.,“估计和检验统计的收敛速度”,《数理统计年鉴》,38,303-324(1967)·Zbl 0201.52106号 ·doi:10.1214/aoms/1177698949
[3] Bickel,P.J。;Levina,E.,“Fisher线性判别函数的一些理论,‘朴素贝叶斯’,以及当变量多于观测值时的一些替代方法,”,Bernoulli,10,989-1010(2004)·Zbl 1064.62073号 ·doi:10.3150/bj/1106314847
[4] Birnbaum,A.,“组合独立显著性检验”,《美国统计协会杂志》,49,559-574(1954)·Zbl 0056.37703号 ·doi:10.2307/2281130
[5] Birnbaum,A.,一些多参数假设的完全类检验的特征及其在似然比检验中的应用,《数理统计年鉴》,26,21-36(1955)·Zbl 0064.13802号
[6] Bittman,R.M。;罗曼诺,J.P。;瓦拉里诺,C。;Wolf,M.,“具有共同效应方向的多个假设的最佳测试”,《生物计量学》,96,399-410(2009)·Zbl 1163.62011年 ·doi:10.1093/biomet/asp006
[7] Brown,A.E。;Walker,M.,“胰岛素抵抗和代谢综合征的遗传学”,《当前心脏病学报告》,18,75(2016)
[8] 布什,W.S。;Oetjens,M.T。;Crawford,D.C.,“利用全表型关联研究解开人类基因组-表型关系”,《自然评论遗传学》,17,129-145(2016)·doi:10.1038/nrg.2015.36
[9] Choi,Y。;泰勒,J。;Tibshirani,R.,“选择主成分的数量:噪声矩阵真实秩的估计”,《统计年鉴》,452590-2617(2014)·Zbl 1394.62073号 ·doi:10.1214/16-AOS1536
[10] 柯林斯,F.S。;Varmus,H.,“精准医学的新倡议”,《新英格兰医学杂志》,372793-795(2015)
[11] 康奈利,K.N。;Boehnke,M.,“如此多的相关测试,如此少的时间!快速调整多重相关测试的P值”,《美国人类遗传学杂志》,811158-1168(2007)·doi:10.1086/522036
[12] Davies,R.B.,“算法AS 155:卡方随机变量线性组合的分布”,《皇家统计学会杂志》,C辑,29,323-333(1980)·Zbl 0473.62025号 ·doi:10.2307/2346911
[13] 费雷拉,M.A.R。;Purcell,S.M.,“关联的多变量测试”,生物信息学,25132-133(2009)
[14] Fisher,R.A.S.,《研究工作者的统计方法》(第5卷,第7版,生物专著和手册)(1932年),伦敦爱丁堡:奥利弗和博伊德,伦敦爱丁堡·JFM 58.1161.04标准
[15] Fisher,R.A.S.,《分类学问题中多重测量的使用》,《优生学年鉴》,第7期,第179-188页(1936年)
[16] Galesroot,T.E。;van Steen,K。;基梅尼,洛杉矶。;詹斯,L.L。;Vermeulen,S.H.,“多变量全基因组关联方法的比较”,《公共科学图书馆·综合》,9,e95923(2014)
[17] Genz,A.,“多元正态概率的数值计算”,《计算与图形统计杂志》,第141-149页(1992年)·doi:10.2307/1390838
[18] Genz,A.,多元正态概率计算方法的比较,计算科学与统计学,25400-400(1993)
[19] Genz,A。;布雷茨,F。;Miwa,T。;米,X。;Leisch,F。;Scheipl,F。;Hothorn,T.(2009)
[20] 何,Q。;Avery,C.L。;Lin,D.-Y,“大规模基因组研究中多变量性状关联检验的一般框架”,《遗传流行病学》,第37期,第759-767页(2013年)·doi:10.1002/gepi.21759
[21] 黄Y.-T。;Lin,X.,“使用方差分量测试进行基因集分析”,BMC生物信息学,14,210(2013)
[22] “新途径中的遗传变异影响血压和心血管疾病风险”,《自然》,478103-109(2011)
[23] Johnstone,I.M.,《关于主成分分析中最大特征值的分布》,《统计年鉴》,29,295-327(2001)·Zbl 1016.62078号 ·doi:10.1214/aos/1009210544
[24] Kraja,A.T。;查斯曼,D.I。;北部,K.E。;Reiner,A.P。;Yanek,L.R。;Kilpeläinen,T.O。;Smith,J.A。;Dehghan,A。;杜普伊斯,J。;Johnson,A.D.,“代谢综合征和炎症的多效性基因”,分子遗传学和代谢,112317-338(2014)·doi:10.1016/j.ymgme.2014.04.007
[25] Lee,S。;吴先生。;Lin,X.,“序列关联研究中罕见变异效应的最佳测试”,生物统计,13762-775(2012)·doi:10.1093/生物统计学/kxs014
[26] Liptak,T.,“关于独立测试的组合”,Magyar Tud Akad Mat Kutato Int Kozl,371-197(1958)·兹伯利0093.32103
[27] 利特尔,R.C。;Folks,J.L.,“Fisher组合独立检验方法的渐近最优性”,《美国统计协会杂志》,66,802-806(1971)·Zbl 0229.62011号 ·doi:10.1080/01621459.1971.10482347
[28] 利特尔,R.C。;Folks,J.L.,Fisher组合独立检验方法的渐近最优性II,美国统计协会杂志,68,193-194(1973)·Zbl 0259.62022号
[29] 刘,D。;林,X。;Ghosh,D.,“多维遗传路径数据的半参数回归:最小二乘核机器和线性混合模型”,生物统计学,631079-1088(2007)·Zbl 1274.62825号 ·文件编号:10.1111/j.1541-0420.2007.00799.x
[30] 刘,Z。;Lin,X.,“在全基因组关联研究中使用汇总统计数据进行多表型关联测试”,《生物统计学》,74165-175(2018)·Zbl 1415.62116号 ·doi:10.1111/biom.12735
[31] 洛克,A.E。;卡哈利,B。;Berndt,S.I。;正义,A.E。;Pers,T.H。;Day,F.R。;鲍威尔,C。;韦丹坦,S。;Buchkovich,M.L。;Yang,J.,“体重指数的遗传研究为肥胖生物学提供了新见解”,《自然》,518197-206(2015)
[32] 曼宁,A.K。;希弗特,M.-F。;斯科特·R·A。;Grimsby,J.L。;布瓦提亚·纳吉,N。;陈,H。;Rybin,D。;刘,C.-T。;Bielak,L.F。;Prokopenko,I.,“计算体重指数的全基因组方法确定影响空腹血糖特征和胰岛素抵抗的遗传变异”,《自然遗传学》,44,659-669(2012)·doi:10.1038/ng.2274
[33] Marsaglia,G。;Olkin,I.,“生成相关矩阵”,SIAM统计计算杂志,5470-475(1984)·Zbl 0552.65006号 ·电话:10.1137/0905034
[34] 莫斯特勒,F。;布什,R.R。;Green,B.F.,《精选定量技术》(1954年),马萨诸塞州坎布里奇:马萨诸塞州立坎布里奇市Addison-Wesley
[35] Pettofrezzo,A.J.,《矩阵与转换》(1978年),纽约:Courier Corporation,纽约·Zbl 0397.15002号
[36] Purcell,S。;Neale,B。;托德·布朗,K。;托马斯·L。;费雷拉,M.A.R。;本德,D。;Maller,J。;Sklar,P。;de Bakker,P.I.W。;Daly,M.J。;Sham,P.C.,“PLINK:全基因组关联和基于群体的连锁分析的工具集”,《美国人类遗传学杂志》,81,559-575(2007)·doi:10.1086/519795
[37] Schifano,E.D。;李,L。;哥伦比亚特区克里斯蒂安尼。;Lin,X.,“多个连续次级表型的全基因组关联分析”,《美国人类遗传学杂志》,92744-759(2013)·doi:10.1016/j.ajhg.2013.04.004
[38] Shungin,D。;温克勒,T.W。;克罗托·孔卡,哥伦比亚特区。;费雷拉,T。;洛克,A.E。;Mägi,R。;斯特劳布里奇,R.J。;Pers,T.H。;费舍尔,K。;Justice,A.E.,“新基因位点将脂肪和胰岛素生物学与体脂分布联系起来”,《自然》,518187-196(2015)
[39] Sivakumaran,S。;阿加科夫,F。;西奥多拉图,E。;普伦德加斯特,J.G。;Zgaga,L。;Manolio,T。;鲁丹,I。;McKeigue,P。;Wilson,J.F。;Campbell,H.,“人类复杂疾病和特征中的丰富多样性”,《美国人类遗传学杂志》,89,607-618(2011)·doi:10.1016/j.ajhg.2011.10.004
[40] Solovieff,N。;Cotsapas,C.科萨帕斯。;Lee,P.H.等人。;Purcell,S.M。;Smoller,J.W.,“复杂性状中的多效性:挑战和策略”,《自然评论遗传学》,14,483-495(2013)
[41] Sotoodehnia,北卡罗来纳州。;艾萨克斯,A。;De Bakker,P.I。;Dörr,M。;纽顿·切赫,C。;诺尔特,I.M。;范德哈斯特,P。;米勒,M。;埃杰格尔斯海姆,M。;Alonso,A.,“22个位点的常见变异与QRS持续时间和心室传导相关”,《自然遗传学》,42,1068-1076(2010)·doi:10.1038/ng.716
[42] 苏建清。;Liu,J.S.,“多诊断标记的线性组合”,美国统计协会杂志,88,1350-1355(1993)·Zbl 0792.62099号 ·doi:10.1080/01621459.1993.10476417
[43] Teslovich,T.M。;穆苏努鲁,K。;史密斯,A.V。;埃德蒙森,A.C。;Stylianou,I.M。;Koseki,M。;Pirruccello,J.P。;里帕蒂,S。;查斯曼,D.I。;Willer,C.J.,“血脂95个位点的生物学、临床和人群相关性”,《自然》,466707-1313(2010)·doi:10.1038/nature09270
[44] van der Sluis,S。;Posthuma,D。;Dolan,C.V.,“TATES:基因组全方位关联研究的高效多变量基因型-表型分析”,《公共科学图书馆·遗传学》,9,e1003235(2013)·doi:10.1371/journal.pgen.1003235
[45] Welter,D。;麦克阿瑟,J。;莫拉莱斯,J。;Burdett,T。;霍尔,P。;Junkins,H。;克莱姆,A。;弗利切克,P。;Manolio,T。;Hindorff,L.,“NHGRI GWAS目录,SNP性状关联的控制资源”,核酸研究,42,D1001-D1006(2014)·doi:10.1093/nar/gkt1229
[46] 威勒,C.J。;Consortium,G.L.G.,“与血脂水平相关基因座的发现和精炼”,《自然遗传学》,45,1274-1283(2013)
[47] Zeggini,E。;斯科特·L·J。;Saxena,R。;沃伊特,B.F。;Marchini,J.L。;胡,T。;de Bakker,P.I。;Abecasis,G.R。;阿尔姆格伦,P。;Andersen,G.,“全基因组关联数据和大规模复制的荟萃分析确定了2型糖尿病的其他易感位点”,《自然遗传学》,40,638-645(2008)·doi:10.1038/ng.120
[48] 周,X。;Stephens,M.,“基因组关联研究的高效多元线性混合模型算法”,《自然方法》,第11期,第407-409页(2014年)·doi:10.1038/nmeth.2848
[49] 朱,X。;冯·T。;Tayo,B.O。;梁,J。;Young,J.H。;Franceschini,N。;Smith,J.A。;Yanek,L.R。;Sun,Y.V。;Edwards,T.L.,“通过GWAS的汇总统计数据对高血压相关性状进行Meta分析”,《美国人类遗传学杂志》,96,21-36(2015)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。