×

兹马思-数学第一资源

全基因组关联研究的层次推理:软件方法论观点。(英语) Zbl 07206107
计算机。斯达。 35,1号,1-40(2020年); 答辩同上。第35期,第1期,第59-67页(2020年)。
摘要:我们为全基因组关联研究提供了一个高维统计推断的观点。这是一个部分的回顾,但也涵盖了元分析的新发展,多个研究和新的软件,在一个方面R-包装海里夫.显著性的推断和评估是基于非常高维的多元(广义)线性模型:与通常使用的边际方法相比,这为朝着更为因果导向的推理迈出了一步。

理学硕士:
65立方英尺 统计计算问题(MSC2010)
PDF格式 BibTeX公司 XML 引用
参考文献:
[1] 亚历山大,D。;Lange,K.,全基因组关联稳定性选择,Genet Epidemiol,35722-728(2011)
[2] 拜尔,A。;博格丹,M。;弗罗姆莱特。;Futschik,A.,关于在交叉设计中定位多个相互作用的数量性状基因座,遗传学,1731693-1703(2006)
[3] 本贾米尼,Y。;Hochberg,Y.,控制错误发现率:一种实用而强大的多重测试方法,J R Stat Soc Ser B,57289-300(1995)·Zbl 0809.62014
[4] 本贾米尼,Y。;叶库铁力,D.,利用错误发现率进行数量性状基因座分析,遗传学,171783-790(2005)
[5] 比克尔,P。;里托夫,Y。;Tsybakov,A.,《套索和Dantzig选择器的同步分析》,Ann Stat,371705-1732(2009)·Zbl 1173.62022
[6] 布尔茨基,D。;彼得森,哥伦比亚特区;索布奇克,P。;坎迪斯,EJ;博格丹,M。;Sabatti,C.,《控制GWAS错误发现率》,遗传学,205,61-75(2017年)
[7] Bühlmann,P.,高维线性模型中的统计显著性,伯努利,191212-1242(2013)·Zbl 1273.62173
[8] Bühlmann,P.,《高维统计学及其在全基因组关联研究中的应用》,EMS Surv Math Sci,4,45-75(2017年)·Zbl 1381.62094号
[9] Bühlmann,P。;Mandozzi,J.,高维变量筛选和后续推理中的偏差,与实证比较,Comput Stat,29407-430(2014)·Zbl 1306.65035
[10] Bühlmann,P。;吕蒂曼,P。;范德格尔,S。;张国华,回归中的相关变量:聚类与稀疏估计,统计计划推断,1431835-1858(2013)·Zbl 1278.62103
[11] Bühlmann,P。;van de Geer,S.,高维数据统计:方法、理论和应用(2011),纽约:斯普林格,纽约·Zbl 1273.62015
[12] Bühlmann,P。;van de Geer,S.,《错误指定线性模型中的高维推断》,《电子科学杂志》,91449-1473(2015)·Zbl 1327.62420号
[13] Buja A,Berk R,Brown L,George E,Pitkin E,Traskin M,Zhan K,Zhao L(2014)模型作为近似,第一部分:线性回归中非线性和随机回归的合谋。预印本arXiv:1404.1578
[14] 布什,华盛顿州;Moore,JH,全基因组关联研究,公共科学图书馆计算机生物学,8,e1002822(2012)
[15] Buzdugan L(2019)hierGWAS:评估预测GWA研究中的统计显著性。包17.0.1版。biochiendu.html/biochiendu.html/biochiendu.html/
[16] 布兹杜根,L。;卡利什,M。;纳瓦罗,A。;舒克,D。;费尔,E。;Bühlmann,P.,评估多变量全基因组关联分析的统计意义,生物信息学,321990-2000(2016)
[17] 康托,RM;兰格,K。;Sinsheimer,JS,《GWAS结果优先化:统计方法及其应用建议的回顾》,Am J Hum Genet,86,6-22(2010)
[18] 卡博内托P。;Stephens,M.,《回归中贝叶斯变量选择的可伸缩变分推理及其在遗传关联研究中的准确性》,Bayes Anal,7,73-108(2012)·Zbl 1330.62089
[19] 查特吉,A。;Lahiri,S.,自举套索估计器,J Am Stat Assoc,106608-625(2011)·Zbl 1232.62088
[20] 查特吉,A。;Lahiri,S.,甲骨文分布的自适应LASSO估计量的收敛速度和bootstrap的高阶改进,Ann Stat,411232-1259(2013)·Zbl 1293.62153
[21] 德泽尔,R。;Bühlmann,P。;梅尔,L。;Meinshausen,N.,高维推理:置信区间、p值和R软件hdi,Stat Sci,30533-558(2015)·Zbl 1426.62183
[22] 德泽尔,R。;Bühlmann,P。;张春华,高维同时推理与自举(附讨论),测试,26685-719(2017)·Zbl 06833591
[23] 多莱西,E。;博登斯托弗B。;Frommlet,F.,《用FDR控制修改贝叶斯信息准则分析全基因组关联研究》,PloS One,9,7,e103322(2014)
[24] 弗里德曼,J。;黑斯蒂,T。;Tibshirani,R.,通过坐标下降实现广义线性模型的正则化路径,J Stat Softw,33,1,1-22(2010)
[25] 弗罗姆莱特。;博格丹,M。;Ramsey,D.,《表型和基因型:寻找有影响力的基因》(2016),纽约:斯普林格,纽约·Zbl 1342.92004号
[26] 弗罗姆莱特。;鲁哈廷格,F。;特沃格,P。;Bogdan,M.,《全基因组关联研究的贝叶斯信息标准的修正版本》,《计算机统计数据分析》,56,5,1038-1051(2012)
[27] 戈曼,JJ;Finos,L.,《遗传程序:树结构假设的多重检验》,Stat Appl Genet Mol Biol,11,1-18(2012年)
[28] 戈曼,JJ;Solari,A.,《家族性错误控制的顺序拒绝原则》,Ann Stat,383782-3810(2010)·Zbl 1204.62140
[29] 戈曼,JJ;Solari,A.,探索性研究的多重测试,Stat Sci,26584-597(2011)·Zbl 1331.62369号
[30] Hartigan,J.,聚类算法(1975),纽约:威利,纽约·Zbl 0321.62069
[31] 何,Q。;Lin,D-Y,全基因组关联研究的变量选择方法,生物信息学,27,1-8(2011)
[32] Heller R,Chatterjee N,Krieger A,Shi J,(2017)大规模基因组数据中聚合水平假设检验后的选择推理。J Am Stat Assoc.10.1080/01621459.2017.1375933·Zbl 1409.62222
[33] 霍格特,CJ;惠塔克,JC;迪奥里奥,M。;Balding,DJ,全基因组和重测序关联研究中所有SNP的同步分析,PLOS Genet,4,e1000130(2008)
[34] 贾文马尔,A。;Montanari,A.,高维回归的置信区间和假设检验,J Mach Learn Res,152869-2909(2014)·Zbl 1319.62145
[35] Klasen J,Barbez E,Meier L,Meinshausen N,Bühlmann P,Koornneef M,Busch W,Schneeberger K(2016),无需种群结构校正的全基因组关联研究的多标记关联方法。国家通讯社7:文章编号13299。10.1038/ncomms13299
[36] 李,J。;达斯,K。;傅,G。;李,R。;Wu,R.,全基因组关联研究的贝叶斯套索,生物信息学,27516-523(2011)
[37] 李佩特。;加滕·利斯顿。;刘,Y。;卡迪,厘米;戴维森,里约热内卢;Heckerman,D.,全基因组关联研究的快速线性混合模型,Nat方法,8833(2011)
[38] 刘,H。;于斌.稀疏高维线性回归中Lasso+mLS和Lasso+Ridge的渐近性质,Electron J Stat,73124-3169(2013)·Zbl 1281.62158
[39] Lu Y,Dhillon P,Foster DP,Ungar L(2013)通过亚抽样随机hadamard变换进行更快的岭回归。神经信息处理系统的进展,第26卷,第369-377页
[40] 马洛,N。;利比格,O。;Schork,N.,通过岭回归调整遗传关联分析中的连锁不平衡,Am J Hum Genet,82375-385(2008)
[41] 曼多兹,J。;Bühlmann,P.,《关联变量高维环境下的分层测试》,J Am Stat Assoc,111331-343(2016年)
[42] 曼多兹,J。;Bühlmann,P.,《具有相关变量的高维回归的序贯拒绝测试方法》,Int J Biostat,12,79-95(2016)
[43] 梅杰,RJ;克雷布斯,TJ;Goeman,JJ,《空间或时间顺序假设的基于区域的多重测试方法》,Stat Appl Genet Mol Biol,14,1-19(2015)·Zbl 1306.92007号
[44] Meinshausen,N.,变量重要性的分层测试,生物计量学,95265-278(2008)·Zbl 1437.62557
[45] 新罕布什尔州梅因绍森。;Bühlmann,P.,高维图和套索变量选择,Ann Stat,341436-1462(2006)·Zbl 1113.62082
[46] 新罕布什尔州梅因绍森。;Bühlmann,P.,稳定性选择(与讨论),J R Stat Soc Ser B,72417-473(2010)·Zbl 1411.62142
[47] 新罕布什尔州梅因绍森。;梅尔,L。;Bühlmann,P.,高维回归的P值,J Am Stat Assoc,1041671-1681(2009)·Zbl 1205.62089
[48] Nagelkerke,NJ,关于决定系数一般定义的注释,Biometrika,78691-692(1991)·Zbl 0741.62069
[49] 诺文布雷,J。;约翰逊,T。;布莱克。;库塔利克,Z。;博伊科,RA;汽车,A。;印第安纳,A。;国王,K。;伯格曼,S。;纳尔逊,M。;斯蒂芬斯,M。;布斯塔曼特,C.,《基因镜像欧洲地理》,自然杂志,45698-101(2008)
[50] 《因果关系:模型、推理和推理》(2000),剑桥:剑桥大学出版社,剑桥·Zbl 0959.68116
[51] 彼得森,哥伦比亚特区;博戈莫洛夫,M。;本贾米尼,Y。;Sabatti,C.,《没有许多错误发现的许多表型:多重关联研究的错误控制策略》,Genet Epidemiol,40,45-56(2016)
[52] 皮兰西,M。;MJ.Wainwright,《具有严格保证的凸规划随机草图》,IEEE Trans-Inf理论,615096-5115(2015)·Zbl 1359.90097
[53] 普雷格诺,V。;豪森,吉咪;斯迈思,DJ;沃克,N。;哈夫勒,日本;华莱士,C。;史蒂文斯,H。;杰克逊,洛杉矶。;西蒙兹,乔丹州;Bingley,PJ,1型糖尿病患者自身抗体阳性的全基因组关联分析,PLOS Genet,7,e1002216(2011)
[54] R核心团队(2019)R:统计计算的语言和环境。R统计计算基金会,维也纳。https://www.R-project.org/
[55] 拉基奇,B。;利珀特,C。;斯蒂格尔,欧。;《生物结构与生物多样性研究联合会》,第206期,生物信息学,2013年
[56] 萨巴迪,C。;弗雷默,N.,《复杂疾病连锁和关联基因组筛查中的错误发现率》,遗传学,164829-833(2003)
[57] 斯科特,LJ;吉隆坡Mohlke;邦尼卡斯尔,伊利诺伊州;威勒,CJ;李,Y。;华盛顿州杜伦市;鄂尔多斯先生;斯特林厄姆,嗯;中文,PS;杰克逊,澳大利亚;普罗库尼娜奥尔森,L。;丁,C-J;斯威夫特,AJ;纳里苏,N。;胡,T。;普鲁姆,R。;肖,R。;Li,X-Y;康涅利,KN;荷兰里博;斯普拉乌,AG;唐,M。;白色,PP;赫特里克,KN;巴恩哈特,MW;树皮,CW;戈尔茨坦,JL;沃特金斯,L。;向,F。;萨拉米斯,J。;佐治亚州布坎南;渡边,RM;瓦勒,TT;基努南,L。;Abecasis,希腊语;普格,EW;多赫尼,KF;伯格曼,注册护士;托米莱托,J。;科林斯,佛罗里达州;Boehnke,M.,《芬兰人2型糖尿病全基因组关联研究发现多个易感变体》,《科学》,3161341-1345(2007)
[58] 沙阿,R。;Bühlmann,P.,高维线性模型的拟合优度检验,J R Stat Soc Ser B,80113-135(2018年)·Zbl 06840459
[59] 沙阿,R。;Samworth,R.,带误差控制的变量选择:稳定性选择的另一个视角,J R Stat Soc Ser B,75,55-80(2013)
[60] 邵杰。;邓,X.,具有确定性设计矩阵的高维线性模型估计,Ann Stat,40812-831(2012)·Zbl 1273.62177
[61] 石,G。;波尔温克尔。;加利福尼亚州莫里森;顾,抄送;查克拉瓦提,A。;Rao,D.,《在全基因组显著性水平下开采金矿:GWAS的两阶段分析方法》,Genet Epidemiol,35111-118(2011)
[62] 斯特霍文,DJ;Bühlmann,P.,Missforest-混合类型数据的非参数缺失值插补,生物信息学,28,1112-118(2012)
[63] 斯托里,JD;Tibshirani,R.,《全基因组研究的统计意义》,《自然科学杂志》,1009440-9445(2003)·Zbl 1130.62385
[64] 斯托弗,南澳大利亚;苏克曼,EA;德维尼,LC;斯塔尔,南非;《美国士兵:军队生活中的调整》。普林斯顿大学社会研究出版社,1949年
〔65〕 南苏丹。;Candès,E.,高维logistic回归的现代最大似然理论,Proc Nat Acad Sci,116,29,14516-14525(2019年)
[66] Wellcome Trust病例对照联合会,《7种常见疾病的14000例全基因组关联研究》和《自然》,447661-678(2007)
[67] Tibshirani,R.,《通过套索进行回归收缩和选择》,J R Stat Soc Ser B,58267-288(1996)·Zbl 0850.62538
[68] Tippett,LHC,《统计学方法》(1931),伦敦:威廉姆斯·诺盖特,伦敦
〔69〕 范布伦,S。;Groothuis Oudshoorn,K.,《小鼠:通过链式方程进行多元插补》,R,J Stat软文章,45,1-67(2011年)
[70] van de Geer S(2007)确定性套索。In:JSM会议记录,2007,140。美国统计协会
[71] van de Geer,S.,稀疏条件下的估计和检验:École d'téde ProbabilitéS des Saint-Flour XLV-2015。数学课堂讲稿(2016),纽约:斯普林格,纽约·Zbl 1362.62006
[72] 范德格尔,S。;Bühlmann,P。;里托夫,Y。;Dezure,R.,高维模型的渐近最优置信域和检验,Ann Stat,421166-1202(2014)·Zbl 1305.62259
[73] 瓦瑟曼,L。;Roeder,K.,高维变量选择,Ann Stat,372178-2201(2009)·Zbl 1173.62054
[74] 吴杰。;德夫林,B。;林奎斯特。;特拉科,M。;Roeder,K.,筛选和清洁:全基因组关联研究中识别相互作用的工具,Genet Epidemiol,34275-285(2010)
[75] 吴,M。;卡夫,P。;爱泼斯坦,M。;泰勒,D。;查诺克,S。;亨特,D。;Lin,X.,病例对照全基因组关联研究的强大SNP集分析,Am J Hum Genet,86929-942(2010)
[76] 泽基尼,E。;明尼苏达州威登市;林格伦,厘米;弗雷林,TM;堪萨斯州埃利奥特;兰戈,H。;新泽西州蒂普森;佩里,JRB;雷纳,西北部;弗雷西,RM;巴雷特,JC;防护罩,B。;美联社莫里斯;埃拉尔德,S。;格罗夫斯,CJ;哈里斯,路易斯安那州;马尔基尼,JL;欧文,韩国;骑士,B。;卡登,LR;沃克,M。;杀手,佐治亚州;莫里斯,公元前;多尼,ASF;密歇根州麦卡锡;哈特斯利,AT,在英国样本中复制全基因组关联信号揭示2型糖尿病的风险位点,《科学》,3161336-1341(2007)
[77] 张,C-H;Zhang,S.,高维线性模型中低维参数的置信区间,J R Stat Soc Ser B,76217-242(2014)·Zbl 1411.62196
[78] 赵,P。;于,B.,关于套索模型选择的一致性,J Mach Learn Res,72541-2563(2006)·Zbl 1222.62008号
[79] 周,X。;卡博内托P。;Stephens,M.,贝叶斯稀疏线性混合模型,PLOS Genet,9,e1003264(2013)
[80] 周,X。;Stephens,M.,全基因组关联研究的有效多元线性混合模型算法,Nat方法,11407-409(2014)
[81] 自适应的,第1418页,第1418页,以及《甲骨文》第1418页·62ZB6.1171升
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。