×

BACON:阻塞了自适应计算效率高的离群值提名器。 (英语) Zbl 1145.62314号

总结:虽然习惯上假设数据是同质的,但事实上,它们通常包含离群值或子组。识别多个离群值和子组的方法必须应对这样的挑战,即建立一个本身不受非均匀性污染的度量标准来衡量数据点的异常程度。对于足够大的样本来支持复杂的方法,计算成本往往使离群值检测变得不具吸引力。过去,所有多离群值检测方法都受到计算成本的影响,计算成本随着样本量的增加而迅速上升。我们基于Hadi(19921994)和Hadi和Simonoff(1993)的方法提出了一种新的通用方法,这些方法可以快速计算,通常不需要对适合数据的模型进行五次评估,而不管样本大小如何。本文介绍了这种方法的两种情况(检测多元数据和回归数据中异常值的算法)。然而,这些算法的应用范围比这两种情况更广。我们表明,所提出的方法在标准测试问题上与计算成本较高的方法相匹配,并证明了它们在大型模拟挑战上的优越性能。

MSC公司:

62层35 鲁棒性和自适应程序(参数推断)
65C60个 统计中的计算问题(MSC2010)
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 阿特金森,公元1985年。在:绘图、转换和回归:诊断回归分析的图形方法简介。牛津克拉伦登出版社·Zbl 0582.62065号
[2] Atkinson,A.C.:检测多个离群值的快速、非常稳健的方法。《美国统计协会杂志》89,1329-1339(1994)·Zbl 0825.62429号
[3] 培根,F.,1620年。作者:Urbach,P.,Gibson,J.(译者,编辑),Novum Organum。公开法庭出版公司,芝加哥,1994年。
[4] Barrett,B.E.,Gray,J.B.,1997年。在最小二乘回归分析中使用稳健诊断。美国统计协会统计计算部会议记录,第130-135页。
[5] Barnett,V.,Lewis,T.,1994年。In:统计数据中的异常值。纽约威利·兹比尔0801.62001
[6] Belsley,D.A.,Kuh,E.,Welsch,R.E.,1980年。In:回归诊断:识别影响数据和共线性来源。纽约威利·Zbl 0479.62056号
[7] Chatterjee,S。;Hadi,A.S.:线性回归中的敏感性分析。。(1988) ·Zbl 0648.62066号
[8] 库克,R.D.,霍金斯,D.M.,1990年。In:关于揭开多元异常值和杠杆点的评论。美国统计协会杂志85,640-644。
[9] 库克,R.D.,魏斯伯格,S.,1982年。In:回归中的残差和影响。查普曼和霍尔,伦敦·Zbl 0564.62054号
[10] Donoho,D.L.,1982年。多元位置估计量的分解性质。合格论文。哈佛大学,马萨诸塞州波士顿。
[11] Donoho,D.L.,Huber,P.J.,1983年。击穿点的概念。收录人:Bickel,P.,Doksum,K.,Hodges J.L.Jr.(编辑),埃里希·莱曼的Festschrift。加利福尼亚州贝尔蒙特市沃兹沃斯·Zbl 0523.62032号
[12] 德雷珀,N.,史密斯,H.,1966年。应用回归分析。约翰·威利父子公司,纽约·Zbl 0158.17101号
[13] Friedman,J.H.,Stuetzle,W.,1981年。投影寻踪回归,《美国统计协会杂志》76,817–823。
[14] Glymour,C.,Madigan,D.,Pregibon,D.,Smyth,P.,1997年。数据挖掘的统计主题和经验教训。数据挖掘和知识发现,1:1,http://www.research.microsoft.com/research/datamine/vol1-1。
[15] 古尔德,W。;Hadi,A.S.:识别多元异常值。Stata技术公告11,2-5(1993)
[16] Gray,J.B.:一个用于评估回归影响的简单图形。统计计算与模拟杂志24,121-134(1986)
[17] 格雷,J.B。;Ling,R.F.:K-聚类作为回归中影响子集的检测工具。技术计量学26,305-330(1984)
[18] Hadi,A.S.:识别多元数据中的多个离群值。英国皇家统计学会期刊系列(B)54,第3期,761-771(1992)
[19] Hadi,A.S.:线性回归中整体潜在影响的一种新度量。计算统计和数据分析14,1-27(1992)·Zbl 0875.62302号
[20] Hadi,A.S.:多元样本中异常值检测方法的改进。英国皇家统计学会期刊系列(B)56,393-396(1994)·Zbl 0800.62347号
[21] 哈迪,A.S。;Simonoff,J.S.:线性模型中多个离群值的识别程序。美国统计协会杂志88,1264-1272(1993)
[22] 哈迪,A.S。;Simonoff,J.S.:改进最小二乘中值和最小体积椭球估值器的估计和异常值识别特性。Parisankhyan sammikkha 1,61-70(1994)
[23] 哈迪,A.S.,西蒙诺夫,J.S.,1997年。回归数据的更稳健的离群值标识符。国际统计学会公报281–282。
[24] Hampel,F.R.,Ronchetti,E.M.,Rousseeuw,P.J.,Stahel,W.A.,1986年。中:稳健统计:基于影响函数的方法。纽约威利·兹比尔0593.62027
[25] 霍金斯博士,1980年。In:异常值的识别。查普曼和霍尔,伦敦·Zbl 0438.62022号
[26] 霍金斯博士。;Simonoff,J.S.:高分解回归和多元估计。应用统计学42,423-432(1993)
[27] 霍金斯博士。;Simonoff,J.S。;Stromberg,A.J.:分配计算密集型估计:精确LMS回归的情况。。计算统计学983-95(1994)·Zbl 0938.62070号
[28] 休伯,P.J.,1981年。In:稳健统计。纽约威利·Zbl 0536.62025号
[29] Kianifard,F。;Swallow,W.H.:使用根据自适应有序观测值计算的递归残差,识别线性回归中的异常值。生物统计学45,571-585(1989)·Zbl 0715.62144号
[30] 梅奥,M.S。;Gray,J.B.:元素子集:回归的构建块。《美国统计协会杂志》51,122-129(1997)
[31] 保罗·S·R。;Fung,K.Y.:线性回归中的广义极值研究残差多输出检测程序。技术计量学33,339-348(1991)·Zbl 0850.62527号
[32] Portnoy,S.:使用回归分位数识别异常值。基于L1范数和相关方法的统计数据分析,345-356(1987)
[33] Roke,D.M。;Woodruff,D.L.:多元数据中异常值的识别。《美国统计协会杂志》91,1047-1071(1996)·Zbl 0882.62049号
[34] Rousseeuw,P.J.:最小二乘回归。《美国统计协会杂志》79,871-880(1984)·Zbl 0547.62046号
[35] Rousseeuw,P.J.,Leroy,A.,1987年。稳健回归和异常检测。纽约威利·Zbl 0711.62030号
[36] Rousseeuw,P.J。;Van Driessen,K.:最小协方差行列式估计的快速算法。技术计量学41,212-223(1999)
[37] Rousseeuw,P.J。;Van Zomeren,B.:揭开多元异常值和杠杆点的面纱(通过讨论)。《美国统计协会杂志》85,633-639(1990)
[38] Ruppert,D。;Simpson,D.G.:关于揭示多元异常值和杠杆点的评论。《美国统计协会杂志》85,644-646(1990)
[39] Siegel,A.F.:使用重复中位数的稳健回归。《生物特征》69,242-244(1982)·Zbl 0483.62026号
[40] Simonoff,J.S.,1991年。In:数据分析中逐步识别异常值的一般方法。摘自:Stahel,W.,Weisberg,S.(编辑),稳健统计和诊断方向:第二部分。纽约州施普林格,223-242。
[41] Souvaine,D.L。;Steele,J.M.:最小二乘回归的时间和空间效率算法。《美国统计协会杂志》82,794-801(1987)·兹伯利0633.62061
[42] Staudte,R.G.,Sheather,S.J.,1990年。In:稳健估计和测试。纽约威利。
[43] 斯蒂尔,J.M。;Steiger,W.L.:最小二乘回归的算法和复杂性。离散应用数学13,509-517(1986)·Zbl 0587.62078号
[44] Stromberg,A.J.:计算多元线性回归中的精确最小平方中值估计和稳定性诊断。SIAM科学计算杂志14,1289-1299(1993)·Zbl 0788.65144号
[45] Sullivan,J.H.,Barrett,B.E.,1997年。使用扩展钟乳石图进行多元异常值检测。美国统计协会统计计算部会议记录,第120-123页。
[46] Velleman,P.F.,1998年。在:数据台。纽约州伊萨卡Data Description Inc。
[47] 伍德拉夫·D·L。;Roke,D.M.:使用复合估值器在高维中对多元位置和形状进行可计算的稳健估计。美国统计协会杂志89,888-896(1994)·Zbl 0825.62485号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。