×

检测异常值和影响点:一种基于间接经典马氏距离的方法。 (英语) Zbl 07192644号

摘要:在本文中,我们考虑了检测离群值和影响点的问题,并提出了一种用于多元数据集的间接经典马氏距离方法(ICMD)。Rousseeuw和Van Zomeren将离群值描述为不符合大多数数据模式的点;这种描述在统计文献中已被普遍接受。首先,我们通过整合以下思想来更新此描述以构建ICMD:在排除异常值之前和之后,数据驱动模式中至少一个点的作用将受到很大影响。然后,使用类似的想法来确定影响点。给出了详细的算法。两个人工数据集和三个真实数据集的应用表明,ICMD具有健壮性、无淹没性和抗屏蔽性。

MSC公司:

62G08号 非参数回归和分位数回归
62G05型 非参数估计

软件:

alr3
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Chang G,Xu T,Wang Q.M三维对称Helmert坐标变换估计器。《地理杂志》。2018;92(1):47-58. doi:10.1007/s00190-017-1043-9[Crossref],[Web of Science®],[Google学者]
[2] Ben-Gal I.异常检测。收录人:Maimon O,Rockach L,编辑。数据挖掘和知识发现手册。第2版,纽约:施普林格出版社;2010.[谷歌学者]
[3] Chandula V,Banerjee A,Kumar V.异常值检测:一项调查。技术报告。美国:明尼苏达大学;2007.[谷歌学者]
[4] Filzmoser P、Maronna R、Werner M.高维离群识别。计算统计数据分析。2008年;52(3):1694-1711. doi:10.1016/j.csda.2007.05.018[Crossref],[Web of Science®],[Google学者]·Zbl 1452.62370号
[5] Hadi AS、Imon AHMR、Werner M.异常值检测。Wiley Interdiscip Rev Compute Stat.2009年;1(1):57-70. doi:10.1002/wics.6[交叉引用],[谷歌学者]
[6] 魏伯承、卢国平、史家强。统计诊断简介。南京:东南大学出版社;1991.[谷歌学者]
[7] 魏伯承、林继刚、谢福才。统计诊断。北京:高等教育出版社;2009.[谷歌学者]·Zbl 1181.62112号
[8] 严X、苏XG。线性回归分析:理论与计算。新加坡:世界科学;2009年。[Crosref],[谷歌学者]·Zbl 1180.62101号
[9] Weisberg S.应用线性回归。第三版,新泽西州霍博肯:威利;2005.【Crossref】,【谷歌学者】·Zbl 1068.62077号
[10] 苏XG,蔡CL.异常值检测。Wiley Interdiscip Rev Data Min Knowl光盘。2011;1(3):261-268. doi:10.1002/widm.19[Crossref],[Web of Science®],[Google学者]
[11] Tukey JW公司。探索性数据分析。纽约:Addison-Wesley;1977.[谷歌学者]·Zbl 0409.62003号
[12] Banerjee S,Iglewicz B.为大样本设计的简单单变量异常值识别程序。公共统计模拟计算。2007;36(2):249-263. doi:10.1080/03610910601161264[Taylor&Francis在线],[Web of Science®],[Google学者]·兹比尔1113.62035
[13] Rousseeuw PJ公司。具有高分解点的多变量估计。出现在:Grossmann W,Pflug G,Vincze I,Wertz W,编辑。数理统计与应用。多德雷赫特:雷德尔出版公司;1985年,第283-297页。[谷歌学者]·Zbl 0609.62054号
[14] Ruppert D,Simpson总经理。揭示多元异常值和杠杆点:评论。美国统计协会杂志,1990年;85(411):644-646. [Taylor&Francis Online]、[Web of Science®]、[Google学者]
[15] Rousseeuw PJ,Van Driessen K。最小协方差行列式估计的快速算法。技术计量学。1999;41(3):212-223. doi:10.1080/00401706.1999.10485670[Taylor&Francis Online],[Web of Science®],[Google学者]
[16] Fauconnier C,Haesbroeck G.实际中最小协方差行列式估计的异常值检测。统计方法。2009;6(4):363-379. doi:10.1016/j.stamet.2008.12.005[交叉引用],[谷歌学者]
[17] Billor N、Hadi AS、Velleman PF.BACON:阻塞的自适应计算效率离群值提名器。公司统计数据分析。2000;34(3):279-298. doi:10.1016/S0167-9473(99)00101-2[Crossref],[Web of Science®],[Google学者]·Zbl 1145.62314号
[18] Billor N,Kiral G.回归数据多个离群值检测方法的比较。公共统计模拟计算。2008年;37(3):521-545. doi:10.1080/03610910701812352[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 1159.62316号
[19] Caroni C,Billor N.分组多元数据中多个离群值的稳健检测。2007年应用统计杂志;34(10):1241-1250. doi:10.1080/02664760701592877[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 1516.62185号
[20] Riani M,Atkinson AC,Cerioli A.发现未知数量的多元异常值。J R Statist Soc B.2009年;71(2):447-466. doi:10.1111/j.1467-9868.2008.00692.x[Crosref],[谷歌学者]·Zbl 1248.62091号
[21] Rousseeuw PJ,Van Zomeren不列颠哥伦比亚省。揭示多元异常值和杠杆点。美国统计协会杂志,1990年;85(411):633-639。doi:10.1080/01621459.1990.10474920[Taylor&Francis Online],[Web of Science®],[Google学者]
[22] Penny KI。使用马氏距离测试单个多元异常值时的适当临界值。J R统计学会(C)。1996;45(1):73-81. [Web of Science®],[Google学者]·Zbl 1076.62528号
[23] Giloni A,Simonoff JS,Segupta B.稳健加权LAD回归。计算统计数据分析。2006;50(11):3124-3140. doi:10.1016/j.csda.2005.06.005[Crossref],[Web of Science®],[Google学者]·Zbl 1445.62163号
[24] Menjoge RS,Welsch RE。线性回归中同时进行特征选择和异常值识别的诊断方法。公司统计数据分析。2010;54(12):3181-3193. doi:10.1016/j.csda.2010.02.014[Crossref],[Web of Science®],[Google学者]·Zbl 1284.62426号
[25] 高世光、李国荣、王德强。一种检测多元异常值的新方法。通信统计理论方法。2005;34(8):1857-1865. doi:10.1081/STA-200066315[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 1072.62053号
[26] Habshah M、Norazan MR、Rahmatullah Imon AHM。线性回归中识别多个高杠杆点的诊断-破产广义潜力的性能。2009年应用统计杂志;36(5):507-520. doi:10.1080/02664760802553463[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 1473.62239号
[27] 霍金斯DM、Bradu D、Kass GV。使用元素集在多元回归数据中定位几个离群值。技术计量学。1984;26(3):197-208. doi:10.1080/00401706.1984.10487956[Taylor&Francis Online],[Web of Science®],[Google学者]
[28] Shi YL,Wang SS.(史永林,王世生)。RJMCMC方法在线性回归模型异常值研究中的应用。数学实践理论。2011;41(17):115-120. [谷歌学者]
[29] 王T,何DW。线性回归模型中多个离群值的正向逐步诊断程序。数学实践理论。1999;29(4):69-76. [谷歌学者]
[30] Hubert M,Rousseeuw PJ,Van Aelst S.高分解稳健多元方法。统计科学。2008年;23(1):92-119. doi:10.1214/0883423070000087[Crossref],[Web of Science®],[Google学者]·Zbl 1327.62328号
[31] Nguyen TD,Welsch R.使用半定规划进行异常值检测和最小修剪平方逼近。计算统计数据分析。2010;54(12):3212-3226. doi:10.1016/j.csda.2009.09.037[Crossref],[Web of Science®],[Google学者]·Zbl 1284.62430号
[32] 王涛,李强,陈斌,李忠。稀疏高维回归中的多个离群值检测。J统计计算模拟。2018;88(1):89-107. doi:10.1080/00949655.2017.1379521[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 07192543号
[33] Chang G.基于马氏距离的鲁棒卡尔曼滤波作为离群点判断准则。《地理杂志》。2014;88(4):391-401. doi:10.1007/s00190-013-0690-8[Crossref],[Web of Science®],[Google学者]
[34] Chang G,Liu M.一种基于马氏距离的自适应衰落卡尔曼滤波器。Proc Inst Mech Eng第G部分:J Aerosp Eng.2015;229(6):1114-1123. doi:10.1177/0954410014545181[Crossref],[Web of Science®],[Google学者]
[35] Huber私人。位置参数的稳健估计。Ann Math Stat.1964年;35(1):73-101. doi:10.1214/aoms/1177703732[交叉引用],[谷歌学者]·Zbl 0136.39805号
[36] Bickel PJ公司。线性模型中的一步Huber估计。J Am Stat Assoc.1975年;70(350):428-434. doi:10.1080/01621459.1975.10479884[Taylor&Francis Online],[Web of Science®],[Google学者]·兹伯利0322.62038
[37] Fischler MA,Bolles RC公司。随机样本一致性:模型拟合的范例,应用于图像分析和自动制图。通用ACM。1981;24(6):381-395。doi:10.1145/358669.358692[Crossref],[Web of Science®],[Google学者]
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。