×

计算混合家庭和无关个人的血统分数。 (英语) Zbl 1415.62150号

摘要:在计算基因型血统得分(如特征向量预测)时,对家庭关系的稳健性问题在遗传关联中受到了越来越多的关注,并且当包括不相关的个体和密切相关的家庭成员时,这一问题尤其具有挑战性。当前的标准是使用无关的个人计算载荷(左奇异向量),并计算其余家庭成员的预测分数。然而,这种方法预测的血统分数会缩水到零。我们考虑了两种主要的新策略:(i)基于目标族正交协方差矩阵分解的矩阵替换,以及(ii)使用族平均数据获得载荷。我们通过模拟来说明性能,包括从1000个基因组项目数据中重新采样,以及对囊性纤维化数据集的分析。矩阵替换法的性能与当前标准相似,但简单且仅使用基因型协方差矩阵,而家庭平均法表现出优越的性能。我们的方法伴随着新的辅助方法,提供了相当深入的见解,包括个别特定的特征值曲线图。

MSC公司:

62页第10页 统计学在生物学和医学科学中的应用;元分析
62H20个 关联度量(相关性、典型相关性等)
62G35型 非参数稳健性
92D25型 人口动态(一般)
62H25个 因子分析和主成分;对应分析
92D20型 蛋白质序列,DNA序列

软件:

PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 1000基因组项目联盟。(2015). 人类遗传变异的全球参考。{自然}526,68-74。
[2] Cabanski,C.R.,Qi,Y.,Yin,X.,Bair,E.,Hayward,M.C.,Fan,C.等人(2010)。瑞士制造:标准化类内平方和,用于评估方法和数据集元素。{\it PloS ONE}5,e9905。
[3] Cattell,R.B.(1966年)。因子数量的筛选测试。{多元行为研究}1,245-276。
[4] Conomos,M.P.、Miller,M.B.和Thornton,T.A.(2015)。人口结构的稳健推断,用于在存在关联性的情况下进行祖先预测和分层校正。{遗传流行病学}39,276-293。
[5] Corvol,H.、Blackman,S.M.、Boélle,P.‐Y.、。,Gallins,P.J.、Pace,R.G.、Stonebraker,J.R.等人(2015)。全基因组关联荟萃分析确定了囊性纤维化肺部疾病严重程度的五个修饰位点。{\it Nature Communications}68382。
[6] Epstein,M.P.、Allen,A.S.和Satten,G.A.(2007年)。病例对照研究中人口分层的简单改进修正。{美国人类遗传学杂志}80921-930。
[7] Frudakis,T.、Venkateswarlu,K.、Thomas,M.、Gaskin,Z.、Ginjupalli,S.、Gunturi,S.等人(2003年)。基于snp的祖先推断分类器。{法医学杂志}48,771-782。
[8] Lake,S.L.、Blacker,D.和Laird,N.M.(2000年)。存在联系时基于家庭的关联测试。{美国人类遗传学杂志}671515-1525。
[9] Lee,S.、Zou,F.和Wright,F.A.(2010年)。在高维环境中主成分得分的收敛和预测。{统计年鉴}38,3605·Zbl 1204.62097号
[10] Levine,D.M.、Ek,W.E.、Zhang,R.、Liu,X.、Onstad,L.、Sather,C.等人(2013)。一项全基因组关联研究确定了食管腺癌和barrett食管的新易感性位点。{自然遗传学}451487-1493。
[11] Manichaikul,A.、Mychaleckyj,J.C.、Rich,S.S.、Daly,K.、Sale,M.和Chen,W.‐M。(2010). 全基因组关联研究中的稳健关系推断。{生物信息学}262867-2873。
[12] Patterson,N.、Price,A.L.和Reich,D.(2006年)。种群结构和特征分析。{《公共科学图书馆·遗传学》}2,e190。
[13] Price,A.L.、Patterson,N.J.、Plenge,R.M.、Weinblatt,M.E.、Shadick,N.A.和Reich,D.(2006)。主成分分析修正了全基因组关联研究中的分层。{自然遗传学}38,904-909。
[14] Sankaraman,S.、Sridhar,S.,Kimmel,G.和Halperin,E.(2008年)。估计混合种群的当地祖先。{美国人类遗传学杂志}82290-303。
[15] Song,M.、Hao,W.和Storey,J.D.(2015)。任意结构群体中的遗传关联测试。{自然遗传学}47,550-554。
[16] Wright,F.A.、Huang,H.、Guan,X.、Gamiel,K.、Jeffries,C.、Barry,W.T.等人(2007年)。模拟关联研究:一种基于数据的候选区域或全基因组扫描重采样方法。{生物信息学}232581-2588。
[17] Wright,F.A.、Strug,L.J.、Doshi,V.K.、Commander,C.W.、Blackman,S.M.、Sun,L.等人(2011年)。全基因组关联和连锁确定11p13和20q13囊性纤维化中肺部疾病严重程度的修饰位点。2.《自然遗传学》43,539-546。
[18] Zhu,X.、Li,S.、Cooper,R.S.和Elston,R.C.(2008)。家庭和无关样本校正分层的统一关联分析方法。{\f5《美国人类遗传学杂志》}82352-365。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。