×

M回归、错误发现率和异常值检测及其在遗传关联研究中的应用。 (英语) Zbl 1506.62116号

概述:当基本的经典假设没有完全实现时,稳健多元线性回归方法是有价值的工具。在这种情况下,稳健的方法可以确保分析不会受到任何外围观测值的显著干扰。然而,了解这些观察结果对于评估数据的潜在机制可能很重要。因此,本文讨论了一种稳健的异常值检验,以及一种充分的错误发现率校正措施,以用于带有分类解释变量的多元线性回归。该方法侧重于数量性状的遗传关联研究,尽管它有更广泛的应用。该方法还与文献中的基准规则进行了比较,并通过仿真研究和候选基因研究的实际数据示例验证了其良好的性能。

MSC公司:

62-08 统计问题的计算方法
62层35 鲁棒性和自适应程序(参数推断)
62J15型 配对和多重比较;多重测试
62页第10页 统计学在生物学和医学中的应用;元分析
92D20型 蛋白质序列、DNA序列

软件:

multtest公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿尔沙迪,N。;Chang,B。;Kustra,R.,《存在人群分层的病例对照单核苷酸多态性研究中的预测建模:使用遗传分析研讨会16问题1数据集的案例研究》,BMC Proceedings,3,7,S60,(2009)
[2] 贝尔斯利,D.A。;Kuh,E。;Welsch,R.E.,《回归诊断:确定有影响力的数据和共线性来源》,(1980年),纽约约翰·威利出版社·Zbl 0479.62056号
[3] Y.本杰米尼。;Hochberg,Y.,《控制错误发现率:一种实用且强大的多重测试方法》,J.R.Stat.Soc.系列B,57,1,289-300,(1995)·Zbl 0809.62014号
[4] Y.本杰米尼。;Hochberg,Y.,《关于独立统计的多重测试中错误发现率的自适应控制》,J.Educ。行为。统计,25,1,60-83,(2000)
[5] 本杰明,Y。;Krieger,A.M。;Yekutieli,D.,控制错误发现率的自适应线性加速程序,Biometrika,93,3,491-507,(2006)·Zbl 1108.62069号
[6] Y.本杰米尼。;Yekutieli,D.,《依赖性下多重测试中错误发现率的控制》,《统计年鉴》,29,4,1165-1188,(2001)·Zbl 1041.62061号
[7] Cerioli,A。;Farcomeni,A.,多元异常值检测的错误率,计算。统计师。数据分析。,55, 544-553, (2011) ·Zbl 1247.62192号
[8] Cerioli,A。;Farcomeni,A。;Riani,M.,《无离群值良好性测试的稳健距离》,计算。统计师。数据分析。,65, 29-45, (2013) ·Zbl 1471.62036号
[9] 库克,R.D.,《线性回归中影响观察的检测》,《技术计量学》,第19、1、15-18页,(1977年)·Zbl 0371.62096号
[10] 克罗克斯,C。;Rousseeuw,P.J.,两种高度稳健规模估计的时间效率算法,(Dodge;Whittaker,计算统计学,1,(1992),Physica-Verlag-Heidelberg),411-428
[11] Daszykowski,M。;Kaczmarek,K。;海登,Y.V。;Walczak,B.,数据分析中的稳健统计——综述,基本概念,化学计量学。因特尔。实验室系统。,85, 203-219, (2007)
[12] 戴维斯,L。;Gather,U.,《多个异常值的识别》,J.Amer。统计师。协会,88423782-792,(1993)·兹比尔0797.62025
[13] Dell'Aquila,R。;Ronchetti,E.,《稳健统计和计量经济学及其经济和金融应用》,(2006年),威利纽约
[14] F.R.汉佩尔。,影响曲线及其在稳健估计中的作用,J.Amer。统计师。协会,69,383-393,(1974)·Zbl 0305.62031号
[15] Hampel,F.R.,《平均值的分解点与一些拒绝规则》,《技术计量学》,第27期,第95-107页,(1985年)·Zbl 0571.62030号
[16] P.J.Huber。,位置参数的稳健估计,Ann.Math。统计人员。,35, 73-101, (1964) ·Zbl 0136.39805号
[17] Inouye,M。;Silander,K.公司。;Hamalainen,E。;萨洛马,V。;哈拉尔德,K。;Jousilahti,P.,与血脂水平相关的免疫反应网络,《公共科学图书馆·遗传学》。,6、9、e1001113(2010)
[18] Z.贾拉塔。;Ayana,A。;Zeleke,H.,埃塞俄比亚大麦某些产量和产量相关性状的变异性、遗传力和遗传进展(大麦L.)地方品种和杂交品种,国际植物育种杂志。遗传学。,5, 1, 44-52, (2011)
[19] Liu,B.H.,《统计基因组学:连锁、定位和QTL分析》,(1997),CRC出版社,博卡拉顿
[20] 卢伦索,V.M。;Pires,A.M。;Kirst,M.,关联研究中的稳健线性回归方法,生物信息学,27,6,815-821,(2011)
[21] McKean,J.W。;Sheather,S.J。;Hettmansperger,T.P.,《基于稳健估计的残差使用和解释》,J.Amer。统计师。协会,88,424,1254-1263,(1993)·Zbl 0792.62061号
[22] Paschou,P。;德里尼亚斯,P。;刘易斯,J。;Nievergelt,C.M。;Nickerson,D.A。;Smith,J.D.,用PCA信息标记追踪欧美人群的亚结构,PLoS Genet。,4,7,e1000114,(2008年)
[23] Pollard,K.S.、Ge,Y.、Gilbert,H.N.、Taylor,S.、Dudoit,S.,2005,multtest:基于重采样的多重假设检验。R软件包版本1.16.1。
[24] C.A.雷蒙德。,的遗传学桉树木材特性,Ann.For。科学。,59, 525-531, (2002)
[25] 赖斯,K。;Spiegelhalter,D.,《连接稳健估计、异常值检测和错误发现率的简单诊断图》,J.Appl。统计,33,10,1131-1147,(2006)·Zbl 1119.62324号
[26] Roke,D.M。;Woodruff,D.L.,多元数据中异常值的识别,J.Amer。统计师。协会,911047-1061,(1996)·Zbl 0882.62049号
[27] Ronchetti,E.,2006年,稳健统计的历史发展。第七届国际统计教学会议(ISI)。萨尔瓦多,巴伊亚(巴西)。
[28] Rousseeuw,P.J。;Croux,C.,《中位数绝对偏差的替代方法》,J.Amer。统计师。协会,88,424,1273-1283,(1993)·Zbl 0792.62025号
[29] Storey,J.D。;Tibshirani,R.,《全基因组研究的统计意义》,Proc。国家。阿卡德。科学。,100, 9440-9445, (2003) ·Zbl 1130.62385号
[30] Tzeng,J.Y。;Byerley,W。;德夫林,B。;罗德,K。;Wasserman,L.,《全基因组DNA匹配的异常检测和错误发现率》,J.Amer。统计师。协会,98,461,236-246,(2003)·Zbl 1047.62114号
[31] 韦伯,A.L。;Briggs,W.H。;Rucker,J。;巴尔塔扎尔,B。;桑切斯·冈萨雷斯,J.J。;Feng,P.,岩黄铁矿复杂性状的遗传结构(玉米特殊用途。细小的):关联映射的新证据,遗传学,1801221-1232,(2008)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。