×

SNP数据的特征分析,通过下降解释具有相同性。 (英文) Zbl 1343.92331号

主成分分析(PCA)广泛应用于全基因组关联研究(GWAS),主成分轴通常表示地理空间中的垂直梯度。对PCA结果的解释是遗传学家理解基本人口统计学参数的主要兴趣所在。在这里,我们提供了一种基于相关性度量的PCA解释,相关性度量用一组基因按血统相同(IBD)的概率来描述。发现具有多个祖先的个体的祖先比例(AP)与其对主成分的投影之间存在近似线性变换。
此外,提出了一种新的特征分析方法“EIGMIX”来估计个体祖先。EIGMIX是一种计算效率高的矩量法,适用于数百万SNP数据,并且不受连接平衡假设的约束。通过对多个祖先及其替代祖先样本的假设,EIGMIX能够推断出个体的祖先比例(AP)。这些方法应用于来自HapMap Phase 3项目和人类基因组多样性小组的SNP数据。EIGMIX推断出的个人AP与ADMIXTURE程序的结果一致。
总之,EIGMIX可用于检测种群结构,并以相对较高的精度估计全基因组祖先比例。

MSC公司:

92D10型 遗传学和表观遗传学
92D15型 与进化有关的问题
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿比·雷奇,L。;Jobin,M.J。;库尔卡尼,S。;McWhinnie,A。;Dalva,K.,《通过与古代人类的多区域混合形成现代人类免疫系统》,《科学》,334,89-94(2011)
[2] 亚历山大·D·H。;Novembre,J。;Lange,K.,《非亲缘个体基于模型的祖先快速估计》,《基因组研究》,第19期,1655-1664页(2009年)
[3] 坎恩·H·M。;德托马,C。;Cazes,L。;罗格朗,M.-F。;Morel,V.,人类基因组多样性细胞系小组,科学(纽约州纽约市),296261-262(2002)
[4] 卡瓦利·斯福扎,L。;Feldman,M.,分子遗传学方法在人类进化研究中的应用,自然遗传学。,33, 266-275 (2003)
[5] Churchhouse,C。;Marchini,J.,《使用相控或非相控祖先面板的多路混合反褶积》,Genet。流行病。,37, 1-12 (2013)
[6] Engelhardt,B.E。;Stephens,M.,《人口结构分析:基于稀疏因子分析的统一框架和新方法》,《公共科学图书馆·遗传学》。,6,e100117(2010)
[7] Falush,D。;斯蒂芬斯,M。;Pritchard,J.K.,利用多点基因型数据推断种群结构:连锁位点和相关等位基因频率,遗传学,1641567-1587(2003)
[8] Hanis,C.L。;查克拉博蒂,R。;费雷尔,R.E。;Schull,W.J.,《个体混合估计:德克萨斯州斯塔尔县美籍墨西哥人糖尿病和胆囊疾病的疾病关联性和个体风险》,Am.J.Phys。人类学。,70, 433-441 (1986)
[9] Altshuler,D.M。;Gibbs,R.A。;佩尔顿,L。;Altshuler,D.M.,《整合不同人群中常见和罕见的遗传变异》,《自然》,467,52-58(2010)
[10] 李建中。;Absher,D.M。;Tang,H。;索斯维克,A.M。;Casto,A.M.,《从全基因组变异模式推断的全球人类关系》,《科学》(纽约州纽约市),319,1100-1104(2008)
[11] 马,J。;Amos,C.I.,检测和纠正人口分层的主成分分析理论公式,《公共科学图书馆·综合》,5(2010)
[12] 马,J。;Amos,C.I.,人口混合的主成分分析,PLoS One,7,e40115(2012)
[13] McVean,G.,《主成分分析的系谱解释》,《公共科学图书馆遗传学》。,5 (2009)
[14] Menozzi,P。;A.广场。;Cavalli-Sforza,L.,《欧洲人人类基因频率合成图》,《科学》,201786-792(1978)
[15] Novembre,J。;约翰逊,T。;Bryc,K。;库塔利克,Z。;Boyko,A.R.,《欧洲内的基因反映地理》,《自然》,45698-101(2008)
[16] Novembre,J。;Stephens,M.,解释空间种群遗传变异的主成分分析,自然遗传学。,40, 646-649 (2008)
[17] 帕特森,N。;价格,A.L。;Reich,D.,人口结构和特征分析,公共科学图书馆遗传学。,2 (2006)
[18] 价格,A.L。;新泽西州帕特森。;Plenge,R.M。;Weinblatt,M.E。;Shadick,N.A.,《主成分分析修正全基因组关联研究中的分层》,《自然遗传学》。,38, 904-909 (2006)
[19] 价格,A.L。;帕特森,N。;Yu,F。;考克斯·D·R。;Waliszewska,A.,《拉丁裔群体的全基因组混合图》,《美国遗传学杂志》。,80, 1024-1036 (2007)
[20] 价格,A.L。;Tandon,A。;帕特森,N。;巴恩斯,K.C。;Rafaels,N.,混合群体中不同祖先染色体片段的敏感检测,《公共科学图书馆·遗传学》。,5 (2009)
[21] 价格,A.L。;Zaitlen,N.A。;Reich,D。;Patterson,N.,《全基因组关联研究中种群分层的新方法》,《自然评论遗传学》。,11, 459-463 (2010)
[22] Pritchard,J.K。;斯蒂芬斯,M。;Donnelly,P.,利用多点基因型数据推断人口结构,遗传学,155945-959(2000)
[23] Rosenberg,N.A.,hgdp-ceph人类基因组多样性细胞系面板的标准化子集,解释非典型和重复样本以及近亲对,《人类遗传学年鉴》。,70, 841-847 (2006)
[24] 罗森博格,N.A。;Pritchard,J.K。;韦伯,J.L。;坎恩·H·M。;Kidd,K.K.,《人类群体的遗传结构》,《科学》,2982381-2385(2002)
[25] Tang,H。;彭杰。;王,P。;Risch,N.J.,《单个外加剂的估算:分析和研究设计考虑》,Genet。流行病。,28, 289-301 (2005)
[26] Thompson,E.A.,《按血统鉴定:减数分裂、基因组间和群体间的变异》,《遗传学》,194,301-326(2013)
[27] Weir,B.S。;安德森,A.D。;Hepler,A.B.,《遗传相关性分析:现代数据和新挑战》,自然科学出版社。,7, 771-780 (2006)
[28] Weir,B.S。;Cockerham,C.C.,估计用于人口结构分析的F统计,进化,381358-1370(1984)
[29] Weir,B.S。;Hill,W.G.,《估算F-统计》,年度。修订版Genet。,36, 721-750 (2002)
[30] Wright,S.,《远距离隔离》,遗传学,2114-138(1943)
[31] 郑,X。;莱文,D。;沈杰。;戈加滕,S.M。;Laurie,C.,SNP数据相关性和主成分分析的高性能计算工具集,生物信息学(英国牛津),283326-3328(2012)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。