×

应用数据分析中的多变量离群值检测:全局、局部、成分和单元离群值。 (英语) Zbl 1451.62055号

概要:在数据分析的所有实际情况中都会遇到异常值,而不管应用的规则如何。然而,术语“离群值”并不是在所有这些领域中统一定义的,因为常规行为和非常规行为之间的区别自然地嵌入了所考虑的主题领域。必须修改离群值识别的通用方法,以便仔细搜索潜在离群值。因此,在地球科学领域中经常发现的选定类型的数据范围内,对多元异常值检测的不同技术进行了概述。特别是,探索了地质研究中三种常见的数据类型:空间数据、成分数据和平面数据。所有这些格式都激发了新的离群值概念,例如局部离群值,其中数据的空间信息用于定义邻域结构。另一种类型是合成数据,它很好地说明了这样一个事实,即某些类型的数据不仅需要适应标准的离群值方法,还需要在执行离群值搜索之前对数据本身进行转换。最后,最近发展起来的细胞外围性概念,通常用于高维数据,允许人们识别数据矩阵中的非典型细胞。实际上,不同的数据格式可以混合,并且在各种示例中演示了如何在这种情况下进行处理。

MSC公司:

62甲12 多元分析中的估计
62层35 鲁棒性和自适应程序(参数推断)
62H30型 分类和歧视;聚类分析(统计方面)
62-08 统计学相关问题的计算方法
86A32型 地质统计学
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Agostinelli,C。;梁,A。;尤海,VJ;Zamar,RH,《存在细胞和病例污染时多元位置和散布的稳健估计》,Test,24,3,441-461(2015)·Zbl 1326.62111号
[2] Aitchison,J.,《成分数据的统计分析》,J R Stat Soc Ser B(Methodol),44,2,139-177(1982)·Zbl 0491.62017号
[3] Alfons A(2016)robustHD:高维数据的稳健方法。R包版本0.5.1
[4] Alqallaf,F。;Van Aelst,S。;尤海,VJ;Zamar,RH,多元数据中离群值的传播,Ann Stat,37,1,311-331(2009)·Zbl 1155.62043号
[5] Barceló,C。;帕沃斯基,V。;Grunsky,E.,《成分数据转换和异常值识别的一些方面》,《数学地质学》,第28、4、501-518页(1996年)
[6] Beisteiner L(2016)在含有结构零点的成分数据中,探索性工具用于细胞离群值检测。奥地利维也纳TU Wien硕士论文
[7] Breunig MM,Kriegel HP,Ng RT,Sander J(2000)LOF:识别基于密度的局部异常值。包含:ACM SIGMOD记录,ACM,第29卷,第93-104页
[8] Chawla,S。;Sun,P.,SLOM:局部空间异常值的一种新测量方法,Knowl Inf Syst,9,412-429(2006)
[9] Egozcue,JJ;Pawlowsky-Glahn,V。;Mateu-Figueras,G。;Barceló-Vidal,C.,《成分数据分析的等距对数比变换》,《数学地理学》,35,3,279-300(2003)·Zbl 1302.86024号
[10] 恩斯特,M。;Haesbroeck,G.,空间多元数据中局部异常检测技术的比较,data Min Knowl Discov,31,2,371-399(2017)
[11] Filzmoser P,Gschwandtner M(2018)mvoutlier:基于稳健方法的多元离群值检测。R软件包版本2.0.9
[12] Filzmoser,P。;Hron,K.,使用稳健方法对成分数据进行异常值检测,Math Geosci,40,3323-248(2008)·Zbl 1135.62040号
[13] Filzmoser,P。;加勒特,RG;Reimann,C.,勘探地球化学中的多变量异常值检测,计算地球科学,31,5,579-587(2005)
[14] Filzmoser,P。;Hron,K。;Reimann,C.,《含有离群值的成分数据的主成分分析》,环境计量学,20,6,621-632(2009)
[15] Filzmoser,P。;Ruiz-Gazen,A。;Thomas-Agnan,C.,局部多变量异常值的识别,Stat Pap,55,1,29-47(2014)·Zbl 1416.62297号
[16] Filzmoser,P。;Hron,K。;Templ,M.,《应用成分数据分析》。R(2018),Cham:Springer,Cham中的示例·Zbl 1284.62049号
[17] 菲舍罗娃,E。;Hron,K.,《关于成分数据的正交坐标解释》,《数学地质》,43,4,455(2011)
[18] 弗莱姆,B。;托格森,E。;Englmaier,P。;安德森,M。;Finne,TE;鸡蛋,O。;Reimann,C.,挪威南部土壤C层和O层以及陆生苔藓样品对各种岩性单元和矿化的响应,《地球化学勘探环境分析》,18,3,252-262(2018)
[19] Haslett,J。;布拉德利,R。;克雷格,P。;Unwin,A。;Wills,G.,《探索空间数据并应用于定位全球和局部异常的动态图形》,美国统计局,45,3,234-242(1991)
[20] Hron,K。;坦普尔,M。;Filzmoser,P.,使用经典和稳健方法对成分数据的缺失值进行插补,《计算统计数据分析》,54,12,3095-3107(2010)·Zbl 1284.62049号
[21] Maechler M、Rousseeuw P、Croux C、Todorov V、Ruckstuhl A、Salibian-Barrera M、Verbeke T、Koller M、Conceicao E L T、Anna di Palma M(2018)《稳健基础:基本统计》。R包版本0.93-3
[22] 马哈拉诺比斯,PC,《论统计学中的广义距离》,印度国家科学院学报,249-55(1936)·兹标0015.03302
[23] 玛丽娜,RA;Zamar,RH,高维数据集位置和离散度的稳健估计,技术计量学,44,4,307-317(2002)
[24] 玛丽娜,RA;马丁,RD;尤海,VJ,《稳健统计:理论和方法》(2006),霍博肯:威利,霍博克·邮编1094.62040
[25] 马萨诸塞州马丁·费尔南德斯;Barceló-Vidal,C。;Pawlowsky-Glahn,V.,《使用非参数插补处理成分数据集中的零和缺失值》,《数学地理学》,35,3,253-278(2003)·Zbl 1302.86027号
[26] Pawlowsky-Glahn,V。;Buccianti,A.,《成分数据分析:理论和方法》(2011),霍博肯:威利·Zbl 1103.62111号
[27] 佩尼亚,D。;Prieto,FJ,多变量离群值检测和稳健协方差矩阵估计,技术计量学,43,3,286-310(2001)
[28] R开发核心团队,R:统计计算的语言和环境(2019年),维也纳:R统计计算基金会,维也纳
[29] Raymaekers J,Rousseeuw P,Van den Bossche W,Hubert M(2019)cellWise:使用单元格异常值分析数据。R包版本2.1.0
[30] Reimann,C。;Éyräs先生。;Chekushin,V。;Bogatyrev,I。;博伊德·R。;Caritat,P。;杜特,R。;Finne,TE;哈雷客,JH;Jger,Ø。;Kashulina,G。;O.莱托。;Niskavaara,H。;巴甫洛夫,VK;Räisänen,马里兰州;绞线,T。;Volden,T.,巴伦支地区中部环境地球化学地图集(1998年),特隆赫姆:挪威地质调查局,特隆海姆
[31] Reimann,C。;美国Siewers。;塔尔瓦宁,T。;Bityukova,L。;埃里克森,J。;Gilucis,A。;格雷戈洛斯基,V。;卢卡舍夫,V。;Matinian,NN;Pasieczna,A.,《波罗的海土壤调查:波罗的海周边10个国家耕地土壤中主要和选定微量元素的总浓度》,《科学与环境》,257,2-3,155-170(2000)
[32] Reimann,C。;Filzmoser,P。;Fabian,K。;Hron,K。;M.伯克。;Demetriades,A。;迪内利,E。;Ladenberger,A。;GEMAS项目团队,《欧洲农田和牧场土壤中实际主要元素浓度的成分数据分析概念》,《科学与环境》,426196-210(2012)
[33] 罗素,PJ;Bossche,WVD,《检测偏差数据单元》,Technometrics,60,2,135-145(2018)
[34] 罗素,PJ;Driesen,KV,最小协方差行列式估计器的快速算法,Technometrics,41,3121-223(1999)
[35] 舒伯特,E。;Zimek,A。;Kriegel,HP,《重新考虑局部异常值检测:应用于空间、视频和网络异常值检测的局部性的一般观点》,Data Min Knowl Discov,28,1,190-237(2014)·Zbl 1281.68192号
[36] 坦普尔,M。;Hron,K。;Filzmoser,P.,robCompositions:a R-package for robust statistical analysis of composition data(2011),霍博肯:霍博肯·威利。
[37] 坦普尔,M。;Hron,K。;Filzmoser,P。;Gardlo,A.,《高维成分数据的四舍五入零点插补》,化学智能实验室系统,155183-190(2016)
[38] 坦普尔,M。;Hron,K。;Filzmoser,P.,《结构零点成分数据中离群值检测的探索工具》,《应用统计杂志》,44,4,734-752(2017)·Zbl 1516.62625号
[39] Todorov V(2016)rrcovHD:高维数据的稳健多元方法。R包版本0.2-5
[40] 托多罗夫,V。;Filzmoser,P.,稳健多元分析的面向对象框架,J Stat Softw,32,3,1-47(2009)
[41] Van Aelst,S.,高维数据的Stahel-Donoho估计,国际计算数学杂志,93,4,628-639(2016)·Zbl 1341.62143号
[42] 瓦拉赫,J。;Filzmoser,P。;库伊勒。;弗里德克·D。;Adam,T.,基于成对对数比率的代谢组学中的细胞异常检测和生物标记物识别,化学杂志(2019)
[43] Zimek,A。;Filzmoser,P.,There and back again:统计推理和数据挖掘算法之间的离群值检测,Wiley Interdiscip Rev data Min Knowl Discov,8,6,e1280(2018)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。