×

异常聚类和可视化的多元极值理论方法。 (英语) Zbl 1482.62007年

摘要:在各种情况下,复杂系统的行为异常,其健康状况是通过观察值为\(\mathbb{R}^d\)的随机向量\(\mathbf{X}=(X_1,\dots,X_d)\)来监测的,对应于某些子群\(\alpha\subet \{1,\dots,d\}\)的极值同时出现变量\(X_j\)。在重尾假设下(该假设恰好适用于建模这些现象),过去几年发展了基于多元极值理论的统计方法来识别此类事件/子组。本文通过一种新的混合模型进一步利用了这种方法,该模型允许描述极值观测值的分布,并将异常类型(α)视为潜在变量。然后,可以通过为任何极值点分配每个异常类型(α)的后验概率来利用模型,隐式定义异常之间的相似性度量。详细解释了后者如何允许对极端观测进行聚类,并使用标准图形挖掘工具获得异常的信息平面表示。在航空应用领域中,通过模拟数据集和实际观测,说明了由此设计的聚类和二维可视化显示的相关性和实用性。

MSC公司:

2008年6月62日 统计问题的计算方法
62G32型 极值统计;尾部推断
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Athreya,A。;Fishkind,D。;唐,M。;Priebe,C。;Park,Y。;Vogelstein,J。;莱文,K。;利津斯基,V。;Qin,Y.,随机点积图的统计推断:一项调查,J Mach Learn Res,18,1,8393-8484(2017)·Zbl 1473.05279号
[2] 贝兰特,J。;Goegebeur,Y。;Teugels,J。;Segers,J.,《极值统计:理论与应用》(2004),霍博肯:威利·Zbl 1070.62036号
[3] 博尔迪,M-O;Davison,A.,多元极值的混合模型,J R Stat Soc Ser B(Stat Methodol),69,2,217-229(2007)·Zbl 1120.62030 ·文件编号:10.1111/j.1467-9868.2007.00585.x
[4] Chautu,E.,多元极值分析中的降维,Electron J Stat,9,1,383-418(2015)·Zbl 1308.62121号 ·doi:10.1214/15-EJS1002
[5] Chiapino M,Sabourin A(2016),极端事件分析的特征聚类,应用于极端水流数据。年:关于采矿复杂模式新前沿的国际研讨会。施普林格,第132-147页
[6] Chiapino M,Sabourin A,Segers J(2018)确定同时具有较大潜力的变量组。arXiv预打印arXiv:1802.09977·Zbl 1420.62226号
[7] 克利夫顿,D。;Hugueny,S。;Tarassenko,L.,利用多元极值统计进行新颖性检测,《信号处理系统杂志》,65,3,371-389(2011)·doi:10.1007/s11265-010-0513-6
[8] Coles,S.,《极值统计建模导论》(2001),伦敦:施普林格出版社,伦敦·Zbl 0980.62043号
[9] Dempster,A。;北莱尔德。;Rubin,D.,通过EM算法获得不完整数据的最大似然,JRSS Ser B(methodol),39,1,1-22(1977)·Zbl 0364.62022号
[10] Dheeru,D。;Karra Taniskidou,E.,UCI机器学习库,信息与计算机科学学院(2017),欧文:加州大学欧文分校
[11] 福布斯,F。;Wraith,D.,一个新的具有可变尾数边际量的多元重尾分布族:稳健聚类的应用,统计计算,24,6,971-984(2014)·Zbl 1332.62204号 ·doi:10.1007/s11222-013-9414-4
[12] Früchterman,T。;Reingold,E.,通过强制定向放置绘制图形,Softw Pract Exp,21,11,1129-1164(1991)·doi:10.1002/spe.4380211102
[13] Fruhworth-Schnatter,S。;Celeux,G。;Robert,C.,《混合物分析手册》(2018),博卡拉顿:查普曼和霍尔/CRC,博卡拉顿
[14] Goix N,Sabourin A,Clémençon S(2016)多元极值的稀疏表示及其在异常排序中的应用。摘自:AISTATS’16第19届国际人工智能和统计会议记录·Zbl 1373.62252号
[15] 新墨西哥州戈瓦。;Sabourin,A。;Clémençon,S.,多元极值的稀疏表示及其在异常检测中的应用,《多元分析杂志》,161,12-31(2017)·Zbl 1373.62252号 ·doi:10.1016/j.jmva.2017.06.010
[16] Gorban A,Kégl B,C.Wunsch D,Zinovyev A,(2008)数据可视化和降维的主要流形。LNCSE 58。柏林施普林格·Zbl 1125.68003号
[17] Gorinevsky D、Matthews B、Martin R(2012),使用根据机队数据训练的性能模型进行飞机异常检测。附:2012年智能数据理解会议记录
[18] Green,PJ,可逆跳马尔可夫链蒙特卡罗计算和贝叶斯模型确定,生物医学,82,4,711-732(1995)·Zbl 0861.62023号 ·doi:10.1093/biomet/82.4.711
[19] Hagber A、Schult D、Swart P(2008)《使用NetworkX探索网络结构、动态和功能》。摘自:《第七届Python科学会议论文集》(SciPy2008),美国加利福尼亚州帕萨迪纳,第11-15页
[20] 胡,Y。;Shi,L.,可视化大图形,Wiley Interdiscip Rev Compute Stat,7,2,115-136(2015)·doi:10.1002/wics.1343
[21] 克里格尔,H。;科尔格,P。;舒伯特,E。;Zimek,A。;Ludäscher,B。;Mamoulis,N.,《提高基于PCA的相关聚类算法鲁棒性的通用框架》,科学与统计数据库管理,418-435(2008),柏林:施普林格出版社,柏林
[22] Lee,H。;Roberts,S.,使用卡尔曼滤波器和极值理论进行在线新颖性检测,ICPR,2008,1-4(2008)
[23] Liu F,Ting K,Zhou Z(2008)《隔离森林》。2008年第八届IEEE数据挖掘国际会议。ICDM’08,第413-422页
[24] McKerns M、Strand L、Sullivan T、Fang A、Aivazis M(2012)《构建预测科学框架》。arXiv预打印arXiv:1202.1056
[25] 缪勒,P。;昆塔纳,FA,非参数贝叶斯数据分析,统计科学,1995-110(2004)·Zbl 1057.62032号 ·doi:10.1214/0883423040000017
[26] Naik,G.,《主成分分析进展》。研究与开发(2017),柏林:施普林格,柏林
[27] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;杜堡,V。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;Duchesnay,E.,Scikit-learn:Python中的机器学习,J Mach learn Res,122825-2830(2011)·Zbl 1280.68189号
[28] Punzo A,Tortora C(2018)多尺度污染正态分布及其在聚类中的应用。arXiv预印本arXiv:1810.08918
[29] Resnick,S.,《极值、规则变化和点过程》(1987),纽约:Springer,纽约·Zbl 0633.60001号
[30] Resnick,S.,《重尾现象:概率和统计建模》(2007),柏林:施普林格出版社,柏林·Zbl 1152.62029号
[31] Roberts,S.,《生物医学信号处理中新颖性检测的极值统计》,Adv Med signal Inf Process,2000,166-172(2000)·doi:10.1049/cp:20000333
[32] Sabourin,A。;Naveau,P.,《多元极值的贝叶斯-迪里克莱混合模型:重新参数化》,《计算统计数据分析》,71542-567(2014)·Zbl 1471.62176号 ·doi:10.1016/j.csda.2013.04.021
[33] Schaeffer,S.,《图形聚类》,《计算科学评论》,第1、1、27-64页(2007年)·Zbl 1302.68237号 ·doi:10.1016/j.cosrev.2007.05.001
[34] Schölkopf,B。;普拉特,J。;肖-泰勒,J。;Smola,A。;Williamson,R.,估计高维分布的支持,神经计算,13,71443-1471(2001)·Zbl 1009.62029号 ·doi:10.1162/089976601750264965
[35] Simpson E、Wadsworth J、Tawn J(2018)《确定多元极值的依赖结构》。arXiv预打印arXiv:1809.01606
[36] 斯坦瓦特,I。;Hush,D。;Scovel,C.,异常检测的分类框架,J Mach Learn Res,6211-232(2005)·Zbl 1222.68309号
[37] 福塞特,T。;Provost,F.,自适应欺诈检测,Data-Min Knowl Discov,1291-316(1997)·doi:10.1023/A:1009700419189
[38] Tressou,J.,重尾分布的贝叶斯非参数。《食品风险评估应用》,贝叶斯分析,3,2,367-391(2008)·兹比尔1330.62183 ·doi:10.1214/08-BA314
[39] 维斯瓦纳坦,K。;乔杜尔,L。;塔尔瓦尔五世。;王,C。;麦克唐纳,G。;西塞特菲尔德。;James,RD,《数据中心排名异常、网络运营和系统管理》,79-87(2012),纽约:IEEE,纽约
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。