×

REMI:边缘信息回归及其在全基因组关联研究中的应用。 (英语) Zbl 1524.62324号

摘要:当无法获得完整数据时,我们考虑高维线性回归模型中的变量选择和估计问题,但我们确实有某些边际信息或汇总统计。这个问题是由数百万基因型单核苷酸多态性(SNP)的全基因组关联研究(GWAS)引发的,这些SNP已被广泛用于识别复杂人类特征/疾病中的风险变体。随着大量已完成的GWAS,由于无法获取单个级别的数据,使用汇总统计的统计方法变得越来越重要。在本研究中,我们提出了带有边际信息的回归(REMI)方法,一种带有估计边际效应的惩罚方法,以及一个带有外部参考样本的预测因子的估计协方差矩阵。该方法具有高度可扩展性,能够分析数十万个人和大量SNP的多个GWAS数据集。我们还建立了REMI估计误差的上界,其阶数与具有完全个体水平数据的Lasso的最小最大误差界的阶数相同。我们进行了仿真研究以评估该方法的性能。一个有趣的发现是,当有大量的边际估计可用于少量参考样本时,如在GWAS中,所提出的方法产生了良好的估计和预测结果,在完整数据下优于Lasso,但样本量相对较小。我们将该方法应用于芬兰北部出生队列项目的10个性状GWAS数据。特别是,实际数据分析结果表明,当汇总数据的样本大小大于个人数据的样本容量时,使用REMI的汇总级分析优于个人级分析。总之,我们的理论和实际数据结果为基于总结的分析提供了坚实的支持。因此,可以使用具有理论保证性能的汇总统计数据获得各种复杂疾病的多基因风险评分。开发的R包和再现结果的代码可在https://github.com/gordonliu810822/REMI网站.

MSC公司:

62J05型 线性回归;混合模型
62J07型 岭回归;收缩估计器(拉索)
62G08号 非参数回归和分位数回归
62甲12 多元分析中的估计
62页第10页 统计学在生物学和医学科学中的应用;元分析
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Berisa,T.和Pickrell,J.K.(2016)。人类群体中近似独立的连锁不平衡障碍。生物信息学32,283。
[2] Bickel,P.J.、Ritov,Y.和Tsybakov,A.B.(2009年)。Lasso和Dantzig选择器的同时分析。《统计年鉴》37,1705-1732·Zbl 1173.62022号
[3] Bühlmann,P.和van de Geer,S.(2011年)。高维数据统计:方法、理论和应用。柏林施普林格·Zbl 1273.62015年
[4] Bulik Sullivan,B.K.、Loh,P.-R.、Finucane,H.K.、Ripke,S.、Yang,J.、Patterson,N.等人(2015)。在全基因组关联研究中,LD评分回归将混杂与多基因性区分开来。《自然遗传学》47,291-295。
[5] Candes,E.和Tao,T.(2007)。Dantzig选择器:当p远大于n时的统计估计。统计年鉴35,2313-2351·Zbl 1139.62019号
[6] Chen,W.,Larrabee,B.R.,Ovsyannikova,I.G.,Kennedy,R.B.,Haralambieva,I.H.,Poland,G.A.等人(2015)。使用边缘测试统计的近似贝叶斯方法精细映射因果变量。遗传学200,719-736。
[7] 1000基因组项目联盟(2012年)。1092个人类基因组遗传变异的综合图。《自然》491,56-65。
[8] 国际HapMap 3联盟(2010年)。整合不同人群中常见和罕见的遗传变异。《自然》467,52-58。
[9] Fan,J.和Li,R.(2001)。通过非冲突惩罚似然及其oracle属性进行变量选择。J.Amer。统计师。协会96,1348-1360·Zbl 1073.62547号
[10] Friedman,J.、Hastie,T.和Tibshirani,R.(2010)。广义线性模型的坐标下降正则化路径。《统计软件杂志》33,1-22。
[11] Fuchsberger,C.、Flannick,J.、Teslovich,T.M.、Mahajan,A.、Agarwala,V.、Gaulton,K.J.等人(2016年)。2型糖尿病的遗传结构。《自然》536,41-47。
[12] 遗传学,N.(2012)。要求更多。《自然遗传学》44,733。
[13] Gratten,J.、Wray,N.R.、Keller,M.C.和Visscher,P.M.(2014)。大规模基因组学揭示了精神疾病的遗传结构。《自然神经科学》17,782-790。
[14] Hastie,T.、Tibshirani,R.和Friedman,J.(2009)。统计学习的要素:数据挖掘、推理和预测。第2版。纽约州施普林格·兹比尔1273.62005
[15] Hastie,T.、Tibshirani,R.和Wainwright,M.(2015)。稀疏的统计学习:套索和泛化。CRC出版社,博卡拉顿·Zbl 1319.68003号
[16] Hindorff,L.A.、Sethupathy,P.、Junkins,H.A.、Ramos,E.M.、Mehta,J.P.、Collins,F.S.等人(2009年)。全基因组关联位点对人类疾病和特征的潜在病因和功能意义。美国国家科学院院刊106,9362-9367。
[17] Hoffmann,T.J.、Kvale,M.N.、Hesselson,S.E.、Zhan,Y.、Aquino,C.、Cao,Y.等人(2011年)。下一代全基因组关联工具:设计和覆盖高通量欧洲优化SNP阵列。基因组学98,79-89。
[18] Hormozdiari,F.、Kostem,E.、Kang,E.Y.、Pasaniuc,B.和Eskin,E.(2014)。识别具有多重关联信号的位点上的因果变异。遗传学198,497-508。
[19] Hu,Y.,Lu,Q.,Powles,R.,Yao,X.,Yang,C.,Fang,F.等人(2017)。利用功能注释预测人类复杂疾病的遗传风险。PLOS计算生物学13,e1005589。
[20] Huang,J.,Jiao,Y.,Lu,X.和Zhu,L.(2018)。使用普通和正则化最小二乘从1位压缩采样进行稳健解码。SIAM科学计算杂志40,A2062-A2086·Zbl 1395.49033号
[21] Kichaev,G.,Yang,W.-Y.,Lindstrom,S.,Hormozdiari,F.,Eskin,E.,Price,A.L.等人(2014)。在统计精细地图研究中,整合功能数据以优先考虑因果变量。公共科学图书馆Genet 10,e1004722。
[22] Lee,S.H.、Wray,N.R.、Goddard,M.E.和Visscher,P.M.(2011)。从全基因组关联研究中估计疾病缺失的遗传性。《美国人类遗传学杂志》88,294-305。
[23] Meinshausen,N.和Bühlmann,P.(2006)。用拉索选择高维图和变量。安。统计师。34, 1436-1462. ·Zbl 1113.62082号
[24] Ning,Z.、Lee,Y.、Joshi,P.K.、Wilson,J.F.、Pawitan,Y.和Shen,X.(2017)。摘要关联统计的选择算子揭示了复杂性状的等位基因异质性。《美国人类遗传学杂志》101,903-912。
[25] Pasaniuc,B.、Zaitlen,N.、Shi,H.、Bhatia,G.、Gusev,A.、Pickrell,J.等人(2014)。快速准确地插补汇总统计数据可以增强功能丰富的证据。生物信息学302906-2914。
[26] Pickrell,J.K.(2014)。功能基因组数据的联合分析和18个人类特征的全基因组关联研究。《美国人类遗传学杂志》94,559-573。
[27] Purcell,S.、Neale,B.、Todd-Brown,K.、Thomas,L.、Ferreira,M.A.、Bender,D.等人(2007年)。PLINK:用于全基因组关联和基于人群的连锁分析的工具集。《美国人类遗传学杂志》81555-575。
[28] Raskutti,G.、Wainwright,M.J.和Yu,B.(2011年)。q-ball上高维线性回归的Minimax估计率。IEEE信息理论汇刊57,6976-6994·Zbl 1365.62276号
[29] Sabatti,C.、Hartikainen,A.-L.、Pouta,A.、Ripatti,S.、Brodsky,J.、Jones,C.G.等人(2009年)。
[30] 创始人群出生队列中代谢特征的全基因组关联分析。《自然遗传学》41,35-46。
[31] Schäfer,J.和Strimmer,K.(2005年)。大规模协方差矩阵估计的收缩方法及其对功能基因组学的启示。遗传学和分子生物学中的统计应用4,32。
[32] Tibshirani,R.(1996)。通过拉索回归收缩和选择。J.罗伊。统计师。Soc.序列号。B 58267-288·兹比尔0850.62538
[33] Van De Geer,S.A.和Bühlmann,P.(2009)。根据用于证明拉索预言结果的条件。电子统计杂志3,1360-1392·Zbl 1327.62425号
[34] Vershynin,R.(2010年)。介绍随机矩阵的非渐近分析。arXiv预打印arXiv:1011.3027。
[35] Vilhjálmsson,B.J.、Yang,J.、Finucane,H.K.、Gusev,A.、Lindström,S.、Ripke,S.等人(2015年)。
[36] 建立连锁不平衡模型可以提高多基因风险评分的准确性。《美国人类遗传学杂志》97,576-592。
[37] Visscher,P.M.、Brown,M.A.、McCarthy,M.I.和Yang,J.(2012)。五年的gwas发现。《美国人类遗传学杂志》90,7-24。
[38] Visscher,P.M.、Hill,W.G.和Wray,N.R.(2008)。基因组学中的遗传性——概念和误解。《自然评论遗传学》9,255-266。
[39] Visscher,P.M.、Wray,N.R.、Zhang,Q、Sklar,P、McCarthy,M.I.、Brown,M.A.等人(2017年)。GWAS发现10年:生物学、功能和翻译。美国人类遗传学杂志101,5-22。
[40] Welter,D.,MacArthur,J.,Morales,J.、Burdett,T.、Hall,P.、Junkins,H.等人(2014)。NHGRI GWAS目录,SNP-性状关联的精选资源。核酸研究42,D1001-D1006。
[41] Wood,A.R.、Esko,T.、Yang,J.、Vedantam,S.、Pers,T.H.、Gustafsson,S.等人(2014年)。定义成人身高基因组和生物结构中常见变异的作用。《自然遗传学》46,1173-1186。
[42] Yang,J.、Bakshi,A.、Zhu,Z.、Hemani,G.、Vinkhuyzen,A.A.、Nolte,I.M.等人(2015)。
[43] 人类身高和体重指数在性别和人群之间的全基因组遗传同质性。人类分子遗传学24,7445-7449。
[44] Yang,J.、Benyamin,B.、McEvoy,B.P.、Gordon,S.、Henders,A.K.、Nyholt,D.R.等人(2010年)。
[45] 常见的单核苷酸多态性解释了人类身高遗传率的很大一部分。《自然遗传学》42,565-569。
[46] Yang,J.、Lee,S.H.、Goddard,M.E.和Visscher,P.M.(2011年)。GCTA:全基因组复杂性状分析工具。《美国人类遗传学杂志》88,76-82。
[47] Zhang,C.-H.(2010)。极小极大凹惩罚下的几乎无偏变量选择。安。统计师。38, 894-942. ·Zbl 1183.62120号
[48] Zhang,C.-H.和Huang,J.(2008)。高维线性回归中LASSO选择的稀疏性和偏差。安。统计师。36, 1567-1594. ·Zbl 1142.62044号
[49] Zhang,C.-H.和Zhang、T.(2012)。高维稀疏估计问题的凹正则化的一般理论。统计师。科学。27, 576-593. ·Zbl 1331.62353号
[50] Zhao,P.和Yu,B.(2006年)。关于拉索模型选择的一致性。J.马赫。学习。第7号决议,2541-2563·Zbl 1222.62008年
[51] 周旭(2016)。全基因组关联研究中方差分量估计与汇总统计的统一框架。《应用统计年鉴》第11期,2027-2051年·Zbl 1383.62305号
[52] Zhu,X.和Stephens,M.(2017)。贝叶斯大规模多元回归与全基因组关联研究的汇总统计。应用统计学年鉴11,1561-1592·Zbl 1380.62263号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。