×

全基因组关联研究的层次推理:软件方法论观点。 (英语) Zbl 1505.62334号

摘要:我们对全基因组关联研究的高维统计推断提出了看法。它部分是一个综述,但也涵盖了元分析的新发展,包括多个研究和新软件R(右)-包装希林夫重要性的推断和评估基于非常高维的多元(广义)线性模型:与常用的边际方法相比,这是朝着更为因果导向的推断迈出的一步。

MSC公司:

62-08 统计问题的计算方法
62页第10页 统计学在生物学和医学科学中的应用;元分析
62J07型 岭回归;收缩估计器(拉索)
62J05型 线性回归;混合模型
62小时12分 多元分析中的估计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 亚历山大。;Lange,K.,《全基因组关联的稳定性选择》,《基因流行病学》,35,722-728(2011)·doi:10.1002/gepi.20623
[2] 拜尔,A。;博格丹,M。;弗罗姆莱特,F.n。;Futschik,A.,关于在交叉设计中定位多个相互作用的数量性状位点,遗传学,1731693-1703(2006)·doi:10.1534/genetics.105.048108
[3] Y.本杰米尼。;Hochberg,Y.,《控制错误发现率:一种实用而有效的多重测试方法》,J R Stat Soc Ser B,57,289-300(1995)·Zbl 0809.62014号
[4] Y.本杰米尼。;Yekutieli,D.,使用错误发现率进行数量性状位点分析,遗传学,171783-790(2005)·doi:10.1534/genetics.104.036699
[5] 比克尔,P。;Ritov,Y。;Tsybakov,A.,Lasso和Dantzig选择器的同步分析,Ann Stat,371705-1732(2009)·Zbl 1173.62022号 ·doi:10.1214/08-AOS620
[6] Brzyski,D。;Peterson,CB公司;Sobczyk,P。;坎迪斯,EJ;博格丹,M。;Sabatti,C.,控制GWAS错误发现率,遗传学,205,61-75(2017)·doi:10.1534/genetics.116.193987
[7] Bühlmann,P.,高维线性模型的统计显著性,伯努利,1921212-1242(2013)·Zbl 1273.62173号 ·doi:10.3150/12-BEJSP11
[8] Bühlmann,P.,《高维统计及其在全基因组关联研究中的应用》,EMS Surv Math Sci,4,45-75(2017)·Zbl 1381.62094号 ·doi:10.4171/EMSS/4-1-3
[9] Bühlmann,P。;Mandozzi,J.,《高维变量筛选和后续推断中的偏差,以及实证比较》,《计算统计》,29,407-430(2014)·Zbl 1306.65035号 ·doi:10.1007/s00180-013-0436-3
[10] Bühlmann,P。;Rütimann,P。;van de Geer,S。;Zhang,C-H,回归中的相关变量:聚类和稀疏估计,J Stat Plan推断,1431835-1858(2013)·Zbl 1278.62103号 ·doi:10.1016/j.jspi.2013.05.019
[11] Bühlmann,P。;van de Geer,S.,《高维数据统计:方法、理论和应用》(2011),纽约:施普林格出版社,纽约·Zbl 1273.62015年
[12] Bühlmann,P。;van de Geer,S.,错误指定线性模型中的高维推理,电子统计杂志,9,1449-1473(2015)·Zbl 1327.62420号 ·doi:10.1214/15-EJS1041
[13] Buja A,Berk R,Brown L,George E,Pitkin E,Traskin M,Zhan K,Zhao L(2014)近似模型,第一部分:线性回归中非线性和随机回归元的合谋。预打印arXiv:1404.1578
[14] 布什,WS;Moore,JH,《全基因组关联研究》,PLOS Comput Biol,8,e1002822(2012)·doi:10.1371/journal.pcbi.1002822
[15] Buzdugan L(2019)hierGWAS:评估预测性GWA研究的统计意义。R包版本1.17.0。https://www.bioconductor.org/packages/devel/bioc/html/hierGWAS.html
[16] 布兹杜根,L。;Kalisch,M。;纳瓦罗,A。;Schunk,D。;Fehr,大肠杆菌。;Bühlmann,P.,《评估多变量全基因组关联分析的统计显著性》,生物信息学,321990-2000(2016)·doi:10.1093/生物信息系统/btw128
[17] 康托,RM;兰格,K。;Sinsheimer,JS,《确定GWAS结果的优先级:对统计方法及其应用建议的审查》,Am J Hum Genet,86,6-22(2010)·doi:10.1016/j.ajhg.2009.11.017
[18] Carbonetto,P。;Stephens,M.,回归中贝叶斯变量选择的可缩放变分推断及其在遗传关联研究中的准确性,贝叶斯分析,773-108(2012)·Zbl 1330.62089号 ·doi:10.1214/12-BA703
[19] 查特吉,A。;Lahiri,S.,Bootstrapping Lasso估值器,美国统计协会,106,608-625(2011)·Zbl 1232.62088号 ·doi:10.1198/jasa.2011.tm10159
[20] 查特吉,A。;Lahiri,S.,自适应LASSO估计量对预言分布的收敛速度和通过bootstrap进行的高阶细化,Ann Stat,411232-1259(2013)·Zbl 1293.62153号 ·doi:10.1214/13-AOS1106
[21] Dezeure,R。;Bühlmann,P。;Meier,L。;Meinshausen,N.,《高维推断:置信区间、p值和R软件hdi》,《统计科学》,第30期,第533-558页(2015年)·Zbl 1426.62183号 ·doi:10.1214/15-STS527
[22] Dezeure,R。;Bühlmann,P。;Zhang,C-H,用bootstrap进行高维同时推理(带讨论),TEST,26,685-719(2017)·Zbl 06833591号 ·doi:10.1007/s11749-017-0554-2
[23] Dolejsi,E。;Bodenstorfer,B。;Frommlet,F.,《利用FDR控制贝叶斯信息标准修改分析全基因组关联研究》,《公共科学图书馆·综合》,9,7,e103322(2014)·doi:10.1371/journal.pone.0103322
[24] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降广义线性模型的正则化路径,J Stat Softw,33,1,1-22(2010)·doi:10.18637/jss.v033.i01
[25] Frommlet,F。;博格丹,M。;Ramsey,D.,《表型和基因型:寻找有影响力的基因》(2016),纽约:Springer,纽约·Zbl 1342.92004号
[26] 弗洛姆莱,F。;Ruhaltinger,F。;Twaróg,P。;Bogdan,M.,用于全基因组关联研究的贝叶斯信息标准的修改版本,Comput Stat Data Anal,56,51038-1051(2012)·doi:10.1016/j.csda.2011.05.005
[27] JJ戈曼;Finos,L.,遗传过程:树结构假设的多重检验,Stat Appl Genet Mol Biol,11,1-18(2012)·数字对象标识代码:10.1515/1544-6115.1554
[28] JJ戈曼;Solari,A.,《家庭差错控制的顺序拒绝原则》,Ann Stat,38,3782-3810(2010)·Zbl 1204.62140号 ·doi:10.1214/10-AOS829
[29] JJ戈曼;Solari,A.,探索性研究的多重测试,《统计科学》,26,584-597(2011)·Zbl 1331.62369号 ·doi:10.1214/11-STS356
[30] Hartigan,J.,《聚类算法》(1975),纽约:威利·Zbl 0321.62069号
[31] 何,Q。;Lin,D-Y,《全基因组关联研究的变量选择方法》,生物信息学,27,1-8(2011)·doi:10.1093/bioinformatics/btq600
[32] Heller R,Chatterjee N,Krieger A,Shi J,(2017)大规模基因组数据中聚合水平假设测试后的选择推断。美国统计协会期刊10.1080/01621459.2017.1375933·Zbl 1409.62222号
[33] 希杰·霍加特;JC惠塔克;De Iorio,M。;Balding,DJ,全基因组和重新排序关联研究中所有SNP的同步分析,PLOS Genet,4,e1000130(2008)·doi:10.1371/journal.pgen.1000130
[34] 爪哇马德,A。;Montanari,A.,高维回归的置信区间和假设检验,J Mach Learn Res,152869-2909(2014)·Zbl 1319.62145号
[35] Klasen J、Barbez E、Meier L、Meinshausen N、Bühlmann P、Koornneef M、Busch W、Schneeberger K(2016)无需群体结构校正的全基因组关联研究的多标记关联方法。Nat Commun 7:第13299条。10.1038/ncomms13299
[36] 李,J。;Das,K。;Fu,G。;李,R。;Wu,R.,《全基因组关联研究的贝叶斯拉索》,生物信息学,27516-523(2011)·doi:10.1093/bioinformatics/btq688
[37] Lippert,C。;Listgarten,J。;刘,Y。;CM卡迪;戴维森,RI;Heckerman,D.,全基因组关联研究的快速线性混合模型,Nat Methods,8833(2011)·doi:10.1038/nmeth.1681
[38] 刘,H。;Yu,B.,Lasso+mLS和Lasso+Ridge在稀疏高维线性回归中的渐近性质,Electron J Stat,73124-3169(2013)·Zbl 1281.62158号 ·doi:10.1214/14-EJS875
[39] Lu Y,Dhillon P,Foster DP,Ungar L(2013)通过二次抽样随机哈达玛变换进行的更快岭回归。主题:神经信息处理系统进展,第26卷,第369-377页
[40] 马洛,N。;利比格,O。;Schork,N.,通过岭回归调节遗传关联分析中的连锁不平衡,《美国人类遗传学杂志》,82,375-385(2008)·doi:10.1016/j.ajhg.2007.10.012
[41] 曼多齐,J。;Bühlmann,P.,《相关变量高维环境下的层次测试》,美国统计学会杂志,111,331-343(2016)·doi:10.1080/01621459.2015.1007209
[42] 曼多齐,J。;Bühlmann,P.,《相关变量高维回归的序贯拒绝测试方法》,国际生物统计杂志,12,79-95(2016)·doi:10.1515/ijb-2015-0008
[43] 梅杰尔,RJ;克雷布斯,TJ;Goeman,JJ,《空间或时间有序假设的基于区域的多重测试方法》,《Stat Appl Genet Mol Biol》,第14期,第1-19页(2015年)·Zbl 1306.92007号 ·doi:10.1515/sagmb-2013-0075
[44] Meinshausen,N.,《可变重要性的层次测试》,《生物统计学》,第95期,第265-278页(2008年)·Zbl 1437.62557号 ·doi:10.1093/biomet/asn007
[45] 明绍森,N。;Bühlmann,P.,Lasso的高维图和变量选择,Ann Stat,341436-1462(2006)·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[46] 明绍森,N。;Bühlmann,P.,稳定性选择(含讨论),J R Stat Soc Ser B,72,417-473(2010)·Zbl 1411.62142号 ·文件编号:10.1111/j.1467-9868.2010.00740.x
[47] 明绍森,N。;Meier,L。;Bühlmann,P.,高维回归的P值,美国统计协会杂志,1041671-1681(2009)·Zbl 1205.62089号 ·doi:10.1198/jasa.2009.tm08647
[48] 新泽西州纳格尔科克,关于决定系数一般定义的注释,《生物统计学》,78,691-692(1991)·Zbl 0741.62069号 ·doi:10.1093/biomet/78.3.691
[49] Novembre,J。;约翰逊,T。;Bryc,K.(布莱克,K.)。;库塔利克,Z。;博伊科,RA;奥托恩,A。;Indap,A.公司。;金·K。;Bergmann,S。;尼尔森,M。;斯蒂芬斯,M。;Bustamante,C.,《基因反映欧洲地理》,《自然》,45698-101(2008)·doi:10.1038/nature07331
[50] Pearl,J.,《因果关系:模型、推理和推断》(2000),剑桥:剑桥大学出版社,剑桥·Zbl 0959.68116号
[51] 彼得森,CB;博戈莫洛夫,M。;Y.本杰米尼。;Sabatti,C.,《没有许多错误发现的许多表型:多重关联研究的错误控制策略》,《基因流行病学》,40,45-56(2016)·doi:10.1002/gepi.21942
[52] Pilanci,M。;MJ Wainwright,《具有严格保证的凸规划的随机草图》,IEEE Trans-Inf Theory,61,5096-5115(2015)·Zbl 1359.90097号 ·doi:10.1109/TIT.2015.2450722
[53] Plagnol,V.公司。;霍森,JM;DJ Smyth;Walker,N。;哈夫勒,JP;华莱士,C。;史蒂文斯,H。;Jackson,L。;西蒙兹,MJ;Bingley,PJ,1型糖尿病患者自身抗体阳性的全基因组关联分析,PLOS Genet,7,e1002216(2011)·doi:10.1371/journal.pgen.1002216
[54] R核心团队(2019)R:统计计算的语言和环境。R统计计算基金会,维也纳。https://www.R-project.org/
[55] 拉基奇,B。;Lippert,C。;斯特格尔,O。;Borgwardt,K.,《用于种群结构校正关联映射的Lasso多标记混合模型》,生物信息学,29,206-214(2013)·doi:10.1093/bioinformatics/bts669
[56] 萨巴蒂,C。;Freimer,N.,复杂疾病连锁和关联基因组筛查中的错误发现率,遗传学,164829-833(2003)
[57] 斯科特,LJ;吉尔吉斯斯坦州莫尔克;Bonnycastle,法学博士;威勒,CJ;李毅。;杜伦,WL;MR鄂尔多斯;英国皇家斯特林厄姆;中文,PS;澳大利亚杰克逊;Prokunina Olsson,L.公司。;丁,C-J;斯威夫特,AJ;Narisu,N。;胡,T。;普鲁姆,R。;Xiao,R。;李,X-Y;康奈利,KN;荷兰Riebow;斯普劳,AG;Tong,M。;白色,PP;Hetrick,KN;巴恩哈特,MW;树皮,CW;戈尔茨坦,JL;沃特金斯,L。;向,F。;Saramies,J。;TA布坎南;渡边,RM;Valle,TT;Kinnunen,L。;阿贝卡西斯,GR;普格,EW;Doheny,KF;伯格曼,注册护士;Tuomilehto,J。;柯林斯,FS;Boehnke,M.,《芬兰人2型糖尿病的全基因组关联研究检测多种易感性变体》,《科学》,3161341-1345(2007)·doi:10.1126/science.1142382
[58] 沙阿·R。;Bühlmann,P.,高维线性模型的拟合优度测试,J R Stat Soc Ser B,80,113-135(2018)·Zbl 06840459号 ·doi:10.1111/rssb.12234
[59] 沙阿·R。;Samworth,R.,《带误差控制的变量选择:稳定性选择的另一种观点》,J R Stat Soc Ser B,75,55-80(2013)·兹伯利07555438 ·文件编号:10.1111/j.1467-9868.2011.01034.x
[60] 邵,J。;Deng,X.,《具有确定性设计矩阵的高维线性模型估计》,Ann Stat,40,812-831(2012)·兹比尔1273.62177 ·doi:10.1214/12-AOS982
[61] Shi,G。;Boerwinkle,E。;莫里森,AC;顾,CC;查克拉瓦蒂,A。;Rao,D.,《在全基因组显著性水平下挖掘金矿尘:GWAS分析的两阶段方法》,《基因流行病学》,35,111-118(2011)·doi:10.1002/gepi.20556
[62] DJ斯特霍芬;Bühlmann,P.,Missforest-混合型数据的非参数缺失值插补,生物信息学,28,1,112-118(2012)·doi:10.1093/bioinformatics/btr597
[63] Storey,JD;Tibshirani,R.,《全基因组研究的统计意义》,国家科学院学报,1009440-9445(2003)·Zbl 1130.62385号 ·doi:10.1073/pnas.1530509100
[64] 南非斯托弗;苏赫曼,EA;德文尼,LC;Star,SA;小威廉姆斯,《美国士兵:军队生活中的调整》。(第二次世界大战中的社会心理学研究)(1949年),普林斯顿:普林斯顿大学出版社,普林斯顿
[65] 苏尔,P。;Candès,E.,《高维逻辑回归的现代最大似然理论》,《国家科学院学报》,116,29,14516-14525(2019)·Zbl 1431.62084号 ·doi:10.1073/pnas.1810420116
[66] Wellcome Trust Case Control Consortium,对14000例7种常见疾病和3000种共享控制的全基因组关联研究,Nature,447661-678(2007)·doi:10.1038/nature05911
[67] Tibshirani,R.,通过Lasso回归收缩和选择,J R Stat Soc Ser B,58,267-288(1996)·Zbl 0850.62538号
[68] Tippett,LHC,《统计方法》(1931),伦敦:Williams Norgate,伦敦
[69] 范布伦,S。;Groothuis-Oudshoorn,K.,《小鼠:R,J Stat软文章中链式方程的多元插补》,45,1-67(2011)
[70] van de Geer S(2007)确定性拉索。摘自:JSM会议记录,2007年,140。美国统计协会
[71] van de Geer,S.,稀疏性下的估计和测试:École d'Étéde ProbabilityéS des Saint-Flour XLV-2015。数学课堂讲稿(2016),纽约:Springer,纽约·Zbl 1362.62006年
[72] 范德吉尔,S。;Bühlmann,P。;Ritov,Y。;Dezeure,R.,关于高维模型的渐近最优置信区和检验,Ann Stat,4211166-1202(2014)·Zbl 1305.62259号 ·doi:10.1214/14-AOS1221
[73] Wasserman,L。;Roeder,K.,高维变量选择,Ann Stat,372178-2201(2009)·Zbl 1173.62054号 ·doi:10.1214/08-AOS646
[74] 吴杰。;德夫林,B。;林奎斯特,S。;特鲁克,M。;Roeder,K.,Screen and clean:a tool for identification interactions in genome wide association studies,Genet Epidemiol,34,275-285(2010),《筛查和清洁:全基因组关联研究中识别相互作用的工具》
[75] 吴,M。;卡夫,P。;爱泼斯坦,M。;泰勒,D。;Chanock,S。;亨特,D。;Lin,X.,《病例对照全基因组关联研究的强大SNP集分析》,《美国人类遗传学杂志》,86,929-942(2010)·doi:10.1016/j.ajhg.2010.05.002
[76] Zeggini,E。;明尼苏达州威登;林格伦,CM;Frayling,TM;堪萨斯州埃利奥特;兰戈,H。;新泽西州廷普森;JRB佩里;雷纳,西北部;Freathy,RM;巴雷特,JC;屏蔽,B。;美联社莫里斯;Ellard,S。;格罗夫斯,CJ;哈里斯,LW;马奇尼,JL;KR欧文;Knight,B。;Cardon,LR;沃克,M。;乔治亚州希特曼;莫里斯,AD;助理秘书长Doney;密歇根州麦卡锡;哈特斯利,AT,《英国样本中全基因组关联信号的复制揭示了2型糖尿病的风险位点》,《科学》,3161336-1341(2007)·doi:10.1212/科学1142364
[77] 张,C-H;Zhang,S.,高维线性模型中低维参数的置信区间,J R Stat Soc Ser B,76,217-242(2014)·Zbl 1411.62196号 ·doi:10.1111/rssb.12026
[78] 赵,P。;Yu,B.,关于拉索模型选择一致性,J Mach Learn Res,72541-2563(2006)·Zbl 1222.62008年
[79] 周,X。;Carbonetto,P。;Stephens,M.,贝叶斯稀疏线性混合模型,PLOS Genet,9,e1003264(2013)·doi:10.1371/journal.pgen.1003264
[80] 周,X。;Stephens,M.,基因组关联研究的高效多元线性混合模型算法,Nat Methods,11407-409(2014)·doi:10.1038/nmeth.2848
[81] Zou,H.,自适应Lasso及其oracle属性,美国统计协会,101,1418-1429(2006)·Zbl 1171.62326号 ·doi:10.1198/016214500000735
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。