跳到内容
得到许可的 未获得许可 需要身份验证 发布人:德古意特出版社 2018年12月4日

全基因组关联研究中调整群体分层的实用方法:主成分和倾向得分(PCAPS)

  • 赵华清 ORCID标志 电子邮件徽标 , 南迪塔·米特拉 , 彼得·卡尼茨基 , 凯瑟琳·内森森 蒂莫西·雷贝克

摘要

全基因组关联研究(GWAS)容易因人口分层(PS)而产生偏差。校正PS引起的偏差最常用的方法是主成分分析(PCA),但没有客观的方法来指导将哪些PC作为协变量包括在内。通常,包括具有最高特征值的十个PC来调整PS。这种选择是任意的,并且局部链接不平衡的模式可能会影响PCA校正。为了解决这些局限性,我们根据Tracy-Widom(TW)统计选择的所有具有统计学意义的PC来估计基因组倾向得分。我们使用模拟GWAS数据,在无、中度和重度PS的情况下,将主成分和倾向得分(PCAPS)方法与PCA和EMMAX进行比较。PCAPS减少了虚假的遗传关联,而不管PS的程度如何,导致比值比(OR)估计更接近真实OR。我们使用来自睾丸生殖细胞肿瘤研究的GWAS数据来说明我们的PCAPS方法。PCAPS提供了比PCA更保守的调整。PCAPS方法的优点包括减少了与PCA相比的偏差,一致地选择倾向得分来调整PS,处理异常值的潜在能力,以及使用现有软件包的易实现性。

工具书类

Airy,G.(1838):“关于腐蚀性物质附近的光强度”,Thans。外倾角。Phil.Soc.,6379–402。在谷歌学者中搜索

Allen,A.、M.P.Epstein和G.A.Satten(2010):“遗传关联研究中人群分层混淆的基于分数的调整”,《遗传学》。流行病。,34(5), 383–385.10.1002/gepi.20487年在谷歌学者中搜索公共医学公共医学中心

Bouaziz,M.、C.Ambroise和M.Guedj(2011):“实践中人口分层的核算:致力于全基因组关联研究的主要策略的比较”,《公共科学图书馆·综合》,第6卷,e28845页。10.1371/日记本.0028845在谷歌学者中搜索公共医学公共医学中心

Cepeda,M.S.、R.Boston、J.T.Farrar和B.L.Strom(2003):“当事件数量低且存在多重混杂因素时,逻辑回归与倾向得分的比较”,《美国流行病学杂志》,158280-287。10.1093/aje/kwg115在谷歌学者中搜索公共医学

Chen,H.,C.Wang,M.P.Conomos,A.M.Stilp,Z.Li,T.Sofer,A.A.Szpiro,W.Chen,J.M.Brehm,J.C.Celedón,S.Redline,G.J.Papanicolaou,T.A.Thornton,C.C.Laurie,K.Rice和X.Lin(2016):“通过Logistic混合模型控制遗传关联研究中的群体结构和二元性状的相关性”,Am.J.Hum。遗传学。,98, 653–666.10.1016/j.ajhg.2016.02.012在谷歌学者中搜索公共医学公共医学中心

de Andrade,M.、D.Ray、A.C.Pereira和J.P.Soler(2015):“使用家庭数据主成分的全球个人祖先”,Hum.Hered。,80, 1–11.10.1159/000381908在谷歌学者中搜索公共医学公共医学中心

Devlin,B.和K.Roeder(1999):“关联研究的基因组控制”,《生物计量学》,55,997–1004。10.1111/j.0006-341X.1999.00997.x在谷歌学者中搜索公共医学

Dominici,D.和R.S.Maier(2008):特殊函数和正交多项式,美国数学学会。10.1090/conm/471在谷歌学者中搜索

Drake,C.(1993):“倾向评分的错误指定对治疗效果评估的影响”,《生物计量学》,49,1231–1236。10.2307/2532266在谷歌学者中搜索

Epstein,M.P.,A.S.Allen和G.A.Satten(2007):“病例对照研究中人口分层的简单改进修正”,《美国遗传学杂志》。,80921–930。10.1086/516842在谷歌学者中搜索公共医学公共医学中心

Epstein,M.P.,R.Duncan,K.A.Broadaway,M.He,A.S.Allen和G.A.Satten(2012):“在病例对照关联研究中,分层-核心匹配改善了人群分层混淆的校正,”Genet。流行病。,36, 195–205.10.1002/gepi.21611在谷歌学者中搜索公共医学公共医学中心

Feng,Q.,J.Abraham,T.Feng,Y.Song,R.C.Elston和X.Zhu(2009):“使用分离模型校正人口结构的方法”,BMC Proc。,3(补充7),S104。10.1186/1753-6561-3-s7-s104在谷歌学者中搜索公共医学公共医学中心

Hastings,S.P.和J.B.McLeod(1980):“与第二个Painleve超越和Korteweg-de-Vries方程相关的边值问题”,Arch。定额。机械。安,73,31–51。2007年10月10日/BF00283254在谷歌学者中搜索

Imbens,G.W.(2004):“异质性下平均治疗效果的非参数估计:综述”,《经济学评论》。《法律总汇》第86页,第4–29页。10.1162/003465304323023651在谷歌学者中搜索

Johnstone,I.M.(2001):“关于主成分分析中最大特征值的分布”,《Ann.Stat.》,29,295–327。10.1214/aos/1009210543在谷歌学者中搜索

Kanetsky,P.A.、N.Mitra、S.Vardhanabhuti、M.Li、D.J.Vaughn、R.Letrero、S.L.Ciosek、D.R.Doody、L.M.Smith、J.Weaver、A.Albano、C.Chen、J.R.Starr、D.J Rader、A.K.Godein、M.P.Reilly、H.Hakonson、S.M.Schwartz和K.L.Nathanson(2009):“KITLG和5q31.3易患睾丸生殖细胞癌的常见变异,”自然遗传学。,41, 811–815.10.1038/ng.393在谷歌学者中搜索公共医学公共医学中心

Kang,H.M.、J.H.Sul、S.K.Service、N.A.Zaitlen、S.Y.Kong、N.B.Freimer、C.Sabatti和E.Eskin(2010):“解释全基因组关联研究中样本结构的方差分量模型”,《自然基因》。,42, 348–354.10.1038/ng.548在谷歌学者中搜索公共医学公共医学中心

Kang,S.J.、E.K.Larkin、Y.Song、J.Barnholtz-Sloan、D.Baechle、T.Feng和X.Zhu(2009年):“在关联研究中评估全球与本地血统的影响”,BMC Proc。,3(补充7),S107。10.1186/1756-651-3-s7-s107在谷歌学者中搜索公共医学公共医学中心

Lee,A.B.,D.Luca,L.Klei,B.Devlin和K.Roeder(2010):“利用光谱图理论发现遗传祖先”,《遗传学》。流行病。,34, 51–59.10.1002/gepi.20434年在谷歌学者中搜索公共医学公共医学中心

Li,C.和M.Li(2008):“GWAsimulator:快速全基因组模拟程序”,生物信息学,24,140–142。10.1093/生物信息学/btm549在谷歌学者中搜索公共医学

Li,Q.,S.Wacholder,D.J.Hunter,R.N.Hoover,S.Chanock,G.Thomas和K.Yu(2009):“使用基于距离的回归进行遗传背景比较,以及在人口分层评估和调整中的应用”,Genet。流行病。,33, 432–441.10.1002/gepi.20396年在谷歌学者中搜索公共医学公共医学中心

Li,Q.和K.Yu(2008):“通过识别隐藏的种群结构改进全基因组关联研究中的种群分层校正”,Genet。流行病。,32, 215–226.10.2002/gepi.20296年10月10日在谷歌学者中搜索公共医学

Lin,D.Y.和D.Zeng。(2011年):“修正全基因组关联研究中的人群分层”,《美国国家统计总汇》,106997–1008。10.1198/jasa.2011.tm10294在谷歌学者中搜索公共医学公共医学中心

Liu,L.,D.Zhang,H.Liu和C.Arendt(2013):“全基因组关联研究中人口分层的稳健方法”,BMC生物信息学,14,132。10.1186/1471-2105-14-132在谷歌学者中搜索公共医学公共医学中心

Luca,D.、S.Ringquist、L.Klei、A.B.Lee、C.Gieger、H.E.Wichmann、S.Schreiber、M.Krawczak、Y.Lu、A.Styche、B.Devlin、K.Roeder和M.Trucco(2008):“关于全基因组关联研究中一般对照样本的使用:基因匹配突出了因果变异”,《美国遗传学杂志》。,82, 453–63.2016年10月10日/j.ajhg.2007.11.003在谷歌学者中搜索公共医学公共医学中心

Lunseford,J.K.和M.Davidian(2004):“通过倾向评分评估因果治疗效果的分层和加权:比较研究”,《统计医学》,23,2937-2960。10.1002/sim.1903在谷歌学者中搜索公共医学

McPeek,M.和M.Abney(2008):“基于主成分校正的人口分层关联测试”,美国人类遗传学学会,2008年11月13日,宾夕法尼亚州费城。在谷歌学者中搜索

Patterson,N.、A.L.Price和D.Reich(2006):“人口结构和特征分析”,《公共科学图书馆·遗传学》。,2,e190。10.1371/日志.pgen.0020190在谷歌学者中搜索公共医学公共医学中心

Price,A.L.,N.J.Patterson,R.M.Plenge,M.E.Weinblatt,N.A.Shadick和D.Reich(2006):“主成分分析纠正了全基因组关联研究中的分层,”《自然遗传学》。,38, 904–909.1038/ng1847年10月10日在谷歌学者中搜索公共医学

Price,A.L.、N.A.Zaitlen、D.Reich和N.Patterson(2010年):“全基因组关联研究中人口分层的新方法”,《自然评论遗传学》。,11, 459–463.10.1038/编号2813在谷歌学者中搜索公共医学公共医学中心

Pritchard,J.K.和P.Donnelly(2001):“结构化或混合群体关联的病例对照研究”,Theor。大众。生物学,60,227–237。2006年10月10日/tpbi.2001.1543在谷歌学者中搜索公共医学

Pritchard,J.K.,M.Stephens,N.A.Rosenberg和P.Donnelly(2000):“结构化人群中的关联映射”,《美国遗传学杂志》。,67, 170–181.10.1086/302959在谷歌学者中搜索公共医学公共医学中心

Purcell,S.,B.Neale,K.Todd Brown,L.Thomas,M.A.Ferreira,D.Bender,J.Maller,P.Sklar,P.I.de Bakker,M.J.Daly和P.C.Sham(2007):“PLINK:一套用于全基因组关联和基于群体的连锁分析的工具,”Am.J.Hum.Genet。,81, 559–575.10.1086/519795在谷歌学者中搜索公共医学

Ray,D.和S.Basu(2017):“针对病例对照GWAS的多种次级表型的新型关联测试”,Genet。流行病。,41, 413–426.10.1002/gepi.22045在谷歌学者中搜索公共医学

Rosenbaum,P.R.和D.B.Rubin(1983):“倾向评分在因果效应观察性研究中的中心作用”,《生物统计学》,70,41–55。10.1093/生物组/70.1.41在谷歌学者中搜索

Tracy,C.A.和H.Widom(1993):“水平间距分布和Airy内核”,《物理学》。莱特。B.,第305页,第115–118页。10.1016/0370-2693(93)91114-3在谷歌学者中搜索

Tracy,C.A.和H.Widom(1994):“水平间距分布和Airy内核”,Commun。数学。物理。,159, 151–174.2007年10月10日/BF02100489在谷歌学者中搜索

Tracy,C.A.和H.Widom(1996):“关于正交和辛矩阵系综”,Commun。数学。物理。,177, 727–754.2007年10月10日/BF02099545在谷歌学者中搜索

Voight,B.F.和J.K.Pritchard(2005):“病例对照关联研究中的隐秘相关性令人困惑”,《公共科学图书馆·遗传学》。,1:e32。10.1371/journal.pgen.0010032在谷歌学者中搜索公共医学公共医学中心

Wan,F.和N.Mitra(2016):“倾向得分调整非线性回归模型中的偏差评估”,《统计方法医学研究》,27:846–862。在谷歌学者中搜索

Wang,D.,Y.Sun,P.Stang,J.A.Berlin,M.A.Wilcox和Q.Li(2009):“类风湿关节炎全基因组关联研究中校正人群分层的方法比较:主成分分析与多维标度”,BMC Proc。,3(补充7),S109。10.1186/1753-6561-3-S7-S109在谷歌学者中搜索公共医学公共医学中心

Weir,B.S.、A.D.Anderson和A.B.Hepler(2006):“遗传相关性分析:现代数据和新挑战”,《自然评论》。,771–780之间。10.1038/nrg1960年在谷歌学者中搜索公共医学

Zhang,Y.和W.Pan(2015):“结构化样本关联分析中的主成分回归和线性混合模型:竞争对手还是互补?”,Genet。流行病。,39, 149–155.10.1002/gepi.21879在谷歌学者中搜索公共医学公共医学中心

Zhang,Z.,E.Ersoz,C.-Q.Lai,R.J.Todhunter和H.K.Tiwari(2010):“适用于全基因组关联研究的混合线性模型方法”,《自然遗传学》。,42, 355–360.10.1038/ng.546在谷歌学者中搜索公共医学公共医学中心

Zhang,Y.,W.Guan和W.Pan(2013a):“通过稀有变异关联分析中的主成分调整人口分层”,Genet。流行病。,37, 99–109.10.1002/gepi.21691在谷歌学者中搜索公共医学公共医学中心

Zhang,Y.,X.Shen和W.Pan(2013b):“利用主成分和测序数据对人口分层进行精细调整”,Genet。流行病。,37, 787–801.10.1002/表21764在谷歌学者中搜索公共医学公共医学中心

Zhao,H.,T.R.Rebbeck和N.Mitra(2009):“使用遗传和非遗传因素校正因人口分层引起的偏见的倾向评分方法”,Genet。流行病。,33, 679–690.10.1002/gepi.20419在谷歌学者中搜索公共医学公共医学中心

Zhao,H.、T.R.Rebbeck和N.Mitra(2012):“用扩展倾向评分法分析遗传关联研究”,《统计应用》。遗传学。分子生物学。,11,ISSN(在线)1544–6115,内政部:https://doi.org/10.1515/1544-6115.1790.10.1515/1544-6115.1790在谷歌学者中搜索公共医学公共医学中心

Zhu,X.,S.Li,R.S.Cooper和R.C.Elston(2008):“家庭和无关样本校正分层的统一关联分析方法”,《美国遗传学杂志》。,82, 352–365.2016年10月10日/j.ajhg.2007年10月09日在谷歌学者中搜索公共医学公共医学中心

Zou,F.、S.Lee、R.Knowles和F.A.Wright(2010):“通过收缩主成分使用相关SNP量化人口结构”,Hum.Hered。,70, 9–22.101159/000288706年10月在谷歌学者中搜索公共医学公共医学中心


补充材料

本文的在线版本提供了补充材料(DOI:https://doi.org/10.1515/sagmb-2017-0054).


在线发布:2018-12-04

©2018 Walter de Gruyter GmbH,柏林/波士顿

2024年4月19日从下载https://www.degruyter.com/document/doi/10.1515/sagmb-2017-0054/html
滚动到顶部按钮