×

孤立性:哪些变量贡献最大? (英语) Zbl 1430.62095号

摘要:离群点检测是大多数统计数据分析的必然步骤。然而侦查一个离奇的案例并不总是能回答与该数据点相关的所有科学问题。孤立点检测技术,无论是经典的还是稳健的,通常都会将整个案例标记为孤立点,或者将特定的案例权重赋予整个案例。在实践中,特别是在高维数据中,离群值很可能不是所有变量都离群,而只是其中的一个子集。如果是这样的话,那么为什么该病例被标记为异常病例的科学问题就变得令人感兴趣了。本文提出了一种快速有效的方法来检测对离群值异常贡献最大的变量。因此,它有助于分析人员了解异常值的存在方式。本工作所追求的方法是估计最大异常的单变量方向。结果表明,估计该方向的问题可以改写为经典最小二乘回归问题的赋范解。因此,可以通过以稀疏的方式估计相关的最小二乘问题来识别对寿命贡献最大的变量子集。从实际角度来看,建议采用稀疏偏最小二乘(SPLS)回归,最好使用快速稀疏NIPALS(SNIPLS)算法来解决该问题。该方法在模拟数据和实际例子中都表现良好。

MSC公司:

62G32型 极值统计;尾部推断
62G35型 非参数稳健性
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agostinelli,C.,Leung,A.,Yohai,V.J.,Zamar,R.H.:在存在细胞和病例污染的情况下,对多元位置和散布的稳健估计。测试24(3),441-461(2015)·Zbl 1326.62111号 ·doi:10.1007/s11749-015-0450-6
[2] Alfons,A.:robusthd:高维数据的稳健方法。R包版本01(2012)
[3] Bibby,J.、Kent,J.和Mardia,K.:多元分析。伦敦学术出版社(1979)·兹比尔0432.62029
[4] Boudt,K.,Rousseeuw,P.,Vanduffel,S.,Verdonck,T.:最小正则协方差行列式估计量。arXiv:1701.07086(2017)·兹比尔1436.62197
[5] Candès,E.,Tao,T.:dantzig选择器:当p远大于n时的统计估计Ann.Stat.35,2313-2351(2007)·Zbl 1139.62019号 ·doi:10.1214/00905360000001523
[6] Cerioli,A.:使用高分解估计器的多元异常值检测。《美国统计协会期刊》105(489),147-156(2010)·Zbl 1397.62167号 ·doi:10.1198/jasa.2009.tm09147
[7] Chun,H.,Keleš,S.:同时降维和变量选择的稀疏偏最小二乘回归。J.R.Stat.Soc.系列。B(Stat.Methodol.)72(1),3-25(2010)·Zbl 1411.62184号 ·文件编号:10.1111/j.1467-9868.2009.00723.x
[8] Croux,C.,Ruiz-Gazen,A.:主成分的高分解估计:重新审视投影追踪方法。J.多变量。分析。95, 206-226 (2005) ·Zbl 1065.62040号 ·doi:10.1016/j.jmva.2004.08.002
[9] Davies,P.,Gather,U.:多个异常值的识别。《美国统计协会期刊》88,782-792(1993)·Zbl 0797.62025号 ·doi:10.1080/016214519993.10476339
[10] Fan,J.,Li,R.:通过非冲突惩罚似然及其预言属性进行变量选择。《美国统计协会期刊》96(456),1348-1360(2001)·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[11] Farcomeni,A.,Greco,L.:稳健的数据简化方法。CRC出版社,博卡拉顿(2015)·Zbl 1311.62006年
[12] Hoerl,A.E.,Kennard,R.W.:岭回归:非正交问题的有偏估计。技术计量学12(1),55-67(1970)·Zbl 0202.17205号 ·网址:10.1080/00401706.1970.10488634
[13] Hoffmann,I.,Serneels,S.,Filzmoser,P.,Croux,C.:稀疏偏稳健m回归。化学。智力。实验室系统。149, 50-59 (2015) ·doi:10.1016/j.chemolab.2015.09.019
[14] Hoffmann,I.、Filzmoser,P.、Serneels,S.、Varmuza,K.:二进制分类的稀疏和稳健PLS。《化学杂志》。30, 153-162 (2016) ·doi:10.1002/cem.2775
[15] Hubert,M.,Rousseeuw,P.J.,Vanden Branden,K.:ROBPCA:稳健主成分分析的新方法。《技术计量学》47,64-79(2005)·doi:10.1198/00401700400000563
[16] Janssens,K.H.,De Raedt,I.,Schalm,O.,Veeckman,J.:比利时安特卫普出土的世纪拱形玻璃器皿的组成。Mikrochimica Acta 15(补遗),253-267(1998)
[17] Lemberge,P.,De Raedt,I.,Janssens,K.H.,Wei,F.,Van Espen,P.J.:使用epxma和[mu\]μ-xrf数据的pls回归对世纪拱形玻璃器皿进行定量分析。《化学杂志》。14, 751-763 (2000) ·doi:10.1002/1099-128X(200009/12)14:5/6<751::AID-CEM622>3.0.CO;二维
[18] Lopuhaä,H.:位置和散布的多元τ估计量。可以。《美国联邦法律大全》第19卷第307-321页(1991年)·Zbl 0746.62034号 ·数字对象标识代码:10.2307/3315391.n
[19] Maronna,R.,Zamar,R.:高维数据集位置和离散度的稳健估计。技术计量学44,307-317(2002)·doi:10.1198/004017002188618509
[20] Maronna,R.,Martin,D.,Yohai,V.:稳健统计:理论和方法。威利,纽约(2006)·邮编1094.62040 ·doi:10.1002/0470010940
[21] Oh ller,V.,Croux,C.:稳健的高维精度矩阵估计。摘自:现代非参数、稳健和多元方法,第325-350页。斯普林格(2015)·Zbl 1326.62113号
[22] Oh llerer,V.,Alfons,A.,Croux,C.:稳健回归的打靶s估计量。计算。统计31,829-844(2016)·Zbl 1347.65027号 ·doi:10.1007/s00180-015-0593-7
[23] Riani,M.,Atkinson,A.,Cerioli,A.:发现未知数量的多元异常值。J.R.Stat.Soc.B 71(2),447-466(2009)·Zbl 1248.62091号 ·文件编号:10.1111/j.1467-9868.2008.00692.x
[24] Rousseeuw,P.J.:最小平方中值回归。J.Am.Stat.Assoc.79,871-880(1984年)·Zbl 0547.62046号 ·doi:10.1080/01621459.1984.10477105
[25] Rousseeuw,P.J.,Van den Bossche,W.:检测偏差数据单元。技术计量学(接受)(2017年)。https://doi.org/101080/00401706.2017.1340909
[26] Rousseeuw,P.J.,Croux,C.:中位数绝对偏差的替代方案。《美国统计协会期刊》88(424),1273-1283(1993)·Zbl 0792.62025号 ·doi:10.1080/01621459.1993.10476408
[27] Rousseeuw,P.J.,Leroy,A.:稳健回归和异常值检测。威利,纽约(1987)·Zbl 0711.62030号 ·doi:10.1002/0471725382
[28] Rousseeuw,P.J.,Van Driessen,K.:最小协方差行列式估计的快速算法。技术计量学41,212-223(1999)·doi:10.1080/00401706.1999.10485670
[29] Rousseeuw,P.J.,Van Zomeren,B.:揭示多元异常值和杠杆点。《美国统计协会期刊》85,633-651(1990)·网址:10.1080/01621459.1990.10474920
[30] Serneels,S.、Croux,C.、Filzmoser,P.、Van Espen,P.J.:部分稳健m-回归。化学。智力。实验室系统。79, 55-64 (2005) ·doi:10.1016/j.chemolab.2005.04.007
[31] Tibshirani,R.:通过套索进行回归收缩和选择。J.R.Stat.Soc.系列。B(Methodol.)58(1),267-288(1996)·Zbl 0850.62538号
[32] Willems,G.,Joe,H.,Zamar,R.:诊断稳健估计检测到的多元异常值。J.计算。Gr.Stat.18(1),73-91(2009)·doi:10.1198/jcgs.2009.0005
[33] Wold,H。;Krishnaiaah,PR(编辑),用迭代最小二乘法估计主成分和相关模型,391-420(1966),纽约·Zbl 0214.46103号
[34] Zhang,C.H.:极小极大凹惩罚下的几乎无偏变量选择。Ann.Stat.38(2),894-942(2010)·Zbl 1183.62120号 ·doi:10.1214/09-AOS729
[35] Zou,H.:自适应套索及其预言属性。《美国统计协会期刊》101(476),1418-1429(2006)·Zbl 1171.62326号 ·doi:10.1198/016214500000735
[36] Zou,H.,Hastie,T.:通过弹性网进行正则化和变量选择。J.R.Stat.Soc.系列。B(Stat.Methodol.)67(2),301-320(2005)·兹比尔1069.62054 ·文件编号:10.1111/j.1467-9868.2005.005.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。