×

兹马思-数学第一资源

全基因组关联研究中调整群体分层的实用方法:主成分和倾向评分(PCAPS)。(英语) Zbl 1420.92080
摘要:全基因组关联研究(GWAS)易受群体分层(PS)的影响。目前最常用的校正PS偏差的方法是主成分分析(PCA),但没有客观的方法来指导将哪些PCs作为协变量。通常,包括具有最高特征值的10个PCs来调整PS。这种选择是任意的,并且局部连锁不平衡的模式可能会影响PCA校正。为了解决这些局限性,我们根据Tracy-Widom(TW)统计选择的所有具有统计学意义的pc来估计基因组倾向性得分。我们使用模拟的GWAS数据,在无、中度和重度PS条件下,比较主成分和倾向评分(PCAPS)方法对PCA和EMMAX的影响。PCAPS减少了虚假的遗传关联,无论PS的程度如何,结果是优势比(OR)估计更接近真实OR。我们使用来自睾丸生殖细胞肿瘤研究的GWAS数据来说明我们的PCAPS方法。PCAPS提供了比PCA更保守的调整。PCAPS方法的优点包括与PCA相比减少了偏差,一致地选择倾向分数来调整PS,处理异常值的潜在能力,以及使用现有软件包实现的容易性。
理学硕士:
920天 遗传学和表观遗传学
第62页 统计学在生物学和医学科学中的应用;元分析
62小时25分 因子分析与主成分分析;对应分析
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] 艾里,G.(1838):“关于苛性碱附近的光强度,”Thans。坎布。菲尔。第6379-402页。
[2] Allen,A.,M.P.Epstein和G.A.Satten(2010年):“遗传关联研究中人群分层混杂的基于分数的调整”,Genet。埃皮迪米尔,34(5),383-385。
[3] Bouaziz,M.,C.Ambroise和M.Guedj(2011):“实践中人口分层的核算:基因组关联研究的主要策略比较”,PLoS One,6,e28845。
[四] Cepeda,M.S.,R.Boston,J.T.Farrar和B.L.Strom(2003年):“事件数量较少且存在多个混杂因素时,逻辑回归与倾向评分的比较”,美国流行病学杂志,158280-287。
[5] Chen,H.,C.Wang,M.P.Economos,A.M.Stilp,Z.Li,T.Sofer,A.A.Szpiro,W.Chen,J.M.Brehm,J.C.Celedón,S.Redline,G.J.Papanicolaou,T.A.Thornton,C.C.Laurie,K.Rice和X.Lin(2016):“通过逻辑混合模型对遗传关联研究中二元性状的群体结构和相关性的控制”,Am。J、 哼。遗传学,98653-666。
[6] de Andrade,M.,D.Ray,A.C.Pereira和J.P.Soler(2015):“使用主要成分进行家庭数据的全球个体祖先”,Hum。遗传,80,1-11。
[7] Devlin,B.和K.Roeder(1999):“关联研究的基因组控制”,生物识别,55997-1004。·Zbl 1059.62640
[8] Dominici,D.和R.S.Maier(2008):特殊函数和正交多项式,美国数学学会。
[9] Drake,C.(1993年):“倾向评分错误指定对治疗效果评估的影响”,《生物识别》,491231-1236。
[10] Epstein,M.P.,A.S.Allen和G.A.Satten(2007):“病例对照研究中人口分层的简单和改进修正”,Am。J、 哼。遗传学,80921-930。
[11] Epstein,M.P.,R.Duncan,K.A.Broadway,M.He,A.S.Allen和G.A.Satten(2012):“病例对照关联研究中,分层评分匹配改善了人群分层混淆的校正,”Genet。埃皮迪米尔,36195-205。
[12] Feng,Q.,J.Abraham,T.Feng,Y.Song,R.C.Elston和X.Zhu(2009):“使用分离模型校正种群结构的方法”,BMC Proc.,3(Suppl 7),S104。
[13] 黑斯廷斯,S.P.和J.B.麦克劳德(1980):“与第二潘涅夫超越和Korteweg-de-Vries方程相关的边值问题”,Arch。定额。机械。第73页,第31-51页。·Zbl 0426.34019
[14] Imbens,G.W.(2004):“外源性下平均治疗效果的非参数估计:综述”,Rev。经济。统计,86,4-29。
[15] Johnstone,I.M.(2001):“主成分分析中最大特征值的分布”,Ann。统计,29,295-327。·Zbl 1016.62078
[16] Kanetsky,P.A.,N.Mitra,S.Vardhanabhuti,M.Li,D.J.Vaughn,R.Letrero,S.L.Ciosek,D.R.Doody,L.M.Smith,J.Weaver,A.Albano,C.Chen,J.R.Starr,D.J.Rader,A.K.Godein,M.P.Reilly,H.Hakonarson,S.M.Schwartz和K.L.Nathanson(2009):“KITLG和at 5q31.3的共同变异易患睾丸生殖细胞癌,“纳特。遗传学,41811-815。
[17] Kang,H.M.,J.H.Sul,S.K.Service,N.A.Zaitlen,S.-Y.Kong,N.B.Freimer,C.Sabatti和E.Eskin(2010):“全基因组关联研究中样本结构的方差成分模型”,Nat。基因,42348-354。
[18] Kang,S.J.,E.K.Larkin,Y.Song,J.Barnholtz-Sloan,D.Baechle,T.Feng和X.Zhu(2009):“关联研究中全球与本地祖先的影响评估”,BMC Proc.,3(增刊7),S107。
[十九] Lee,A.B.,D.Luca,L.Klei,B.Devlin和K.Roeder(2010):“使用光谱图理论发现遗传祖先”,Genet。埃皮迪米尔,34,51-59。
[20] Li,C.和M.Li(2008):“GWAsimulator:快速全基因组模拟程序”,生物信息学,24140-142。
[21] Li,Q.,S.Wacholder,D.J.Hunter,R.N.Hoover,S.Chanock,G.Thomas和K.Yu(2009):“基于距离回归的遗传背景比较及其在人口分层评价和调整中的应用”,Genet。埃皮迪米尔,33432-441。
[22] Li,Q.和K.Yu(2008):“通过识别隐藏的种群结构,改进全基因组关联研究中的人口分层校正,”Genet。埃皮迪米尔,32,215-226。
[23] 林、丁、曾。(2011):“全基因组关联研究中的人口分层修正”,J.Am。统计协会,106997-1008。·Zbl 1229.62148
[24] Liu,L.,D.Zhang,H.Liu和C.Arendt(2013):“全基因组关联研究中群体分层的稳健方法”,BMC生物信息学,14332。
[25] Luca,D.,S.Ringquist,L.Klei,A.B.Lee,C.Gieger,H.E.Wichmann,S.Schreiber,M.Krawczak,Y.Lu,A.Styche,B.Devlin,K.Roeder和M.Trucco(2008):“关于全基因组关联研究的一般控制样本的使用:基因匹配突出因果变异,”Am。J、 哼。遗传学,82,453-63。
[26] Lunceford,J.K.和M.Davidian(2004年):“通过倾向评分对因果治疗效果进行分层和加权:一项比较研究”,Stat.Med.,23,2937-2960。
[27] McPeek,M.和M.Abney(2008):“基于主成分校正的群体分层关联测试”,美国人类遗传学学会,2008年11月13日,宾夕法尼亚州费城。
[28] Patterson,N.,A.L.Price和D.Reich(2006):“种群结构和特征分析”,公共科学图书馆遗传学,2,e190。
[29] Price,A.L.,N.J.Patterson,R.M.Plenge,M.E.Weinblatt,N.A.Shadick和D.Reich(2006年):“主成分分析校正全基因组关联研究中的分层”,Nat。第9038-904页。
[30] Price,A.L.,N.A.Zaitlen,D.Reich和N.Patterson(2010):“全基因组关联研究中的群体分层新方法”,美国国家科学院。版次。遗传学,11459-463。
[31] Pritchard,J.K.和P.Donnelly(2001年):“结构化或混合群体中关联的病例对照研究”,理论。平民。生物,60227-237。
[32] Pritchard,J.K.,M.Stephens,N.A.Rosenberg和P.Donnelly(2000年):“结构化群体中的关联图”,Am。J、 哼。遗传学,67,170-181。
[33] Purcell,S.,B.Neale,K.Todd Brown,L.Thomas,M.A.Ferreira,D.Bender,J.Maller,P.Sklar,P.I.de Bakker,M.J.Daly和P.C.Sham(2007):“PLINK:全基因组关联和基于群体的连锁分析的工具集”,Am。J、 哼。遗传学,81559-575。
[34] Ray,D.和S.Basu(2017年):“病例对照GWA中多个次级表型的新关联试验”,Genet。埃皮迪米尔,41,413-426。
[35] Rosenbaum,P.R.和D.B.Rubin(1983):“倾向评分在因果效应观察研究中的中心作用”,生物计量学,70,41-55。·Zbl 0522.62091
[36] Tracy,C.A.和H.Widom(1993):“能级间距分布和艾里核”,物理。利特。B、 ,305,115-118页。
[37] Tracy,C.A.和H.Widom(1994):“能级间距分布和艾里核”,公共通讯。数学。物理学,159151-174。·中银0789.35152
[38] Tracy,C.A.和H.Widom(1996):“关于正交和辛矩阵系综”,Common。数学。物理学,177727-754。·Zbl 0851.60101
[39] Voight,B.F.和J.K.Pritchard(2005):“病例对照关联研究中的隐性相关性混淆”,《公共科学图书馆遗传学》,1:e32。
[40] Wan,F.和N.Mitra(2016年):“倾向分数调整非线性回归模型中的偏差评估”,统计方法医学。研究,27:846-862。
[41] Wang,D.,Y.Sun,P.Stang,J.A.Berlin,M.A.Wilcox和Q.Li(2009):“类风湿关节炎全基因组关联研究中校正人群分层的方法比较:主成分分析与多维标度”,BMC Proc.,3(Suppl 7),S109。
[42] Weir,B.S.,A.D.Anderson和A.B.Hepler(2006):“遗传相关性分析:现代数据和新挑战,”Nat。版次。基因,771-780。
[43] Zhang,Y.和W.Pan(2015):“结构样本关联分析中的主成分回归和线性混合模型:竞争还是互补?,“吉奈。埃皮迪米尔,39149-155。
[44] Zhang,Z.,E.Ersoz,C.-Q.Lai,R.J.Todhunter和H.K.Tiwari(2010):“适用于全基因组关联研究的混合线性模型方法”,Nat。遗传学,42,355-360。
[45] Zhang,Y.,W.Guan和W.Pan(2013a):“稀有变异关联分析中通过主成分调整人口分层,”Genet。埃皮迪米尔,37,99-109。
[46] Zhang,Y.,Xx.Shen和W.Pan(2013b):“用主成分和测序数据调整人口分层,”Genet。埃皮迪米尔,37787-801。
[47] Zhao,H.,T.R.Rebbeck和N.Mitra(2009年):“利用遗传和非遗传因素校正群体分层偏差的倾向评分法”,Genet。埃皮迪米尔,33679-690。
[48] Zhao,H.,T.R.Rebbeck和N.Mitra(2012):“用扩展倾向评分法分析遗传关联研究”,Stat.Appl。吉奈特。分子生物学,11,ISSN(在线)1544-6115,DOI:。·Zbl 1296.92179
[49] Zhu,X.,S.Li,R.S.Cooper和R.C.Elston(2008):“家庭和无关样本校正的统一关联分析方法”,Am。J、 哼。遗传学,82352-365。
[50] Zou,F.,S.Lee,R.Knowles和F.A.Wright(2010):“通过收缩主成分使用相关SNP对种群结构进行量化”,Hum。遗传,70,9-22。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。