×

基于稳健马氏距离和收缩估计的多元离群点检测。 (英文) Zbl 1477.62133号

摘要:基于收缩的概念,提出了一组用于多元异常检测的稳健马氏距离。最佳估计稳健强度和比例因子,以定义收缩。研究了仿射等方差和击穿值等性质。通过与文献中其他技术的比较、模拟研究和实际数据集,说明了该方案的性能。当基本分布是重尾或偏斜时的行为表明,当我们偏离正态性的常见假设时,该方法是适当的。在绝大多数情况下产生的高真阳性率和低假阳性率,以及显著缩短的计算时间,都表明了我们的建议的优点。

MSC公司:

62甲12 多元分析中的估计
62层35 鲁棒性和自适应程序(参数推断)
62小时05 多元概率分布的表征与结构理论;连接线
62J07型 山脊回归;收缩估计器(拉索)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agostinelli,C。;Romanazzi,M.,《局部深度》,《J Stat Plan推断》,第141、2、817-830页(2011年)·Zbl 1353.62019年
[2] Alqallaf,F。;Van Aelst,S。;尤海,VJ;Zamar,RH,多元数据中离群值的传播,Ann Stat,37,1,311-331(2009)·Zbl 1155.62043号
[3] Bay SD(1999)UCI KDD档案[网址:http://kdd.ics.uci.edu]. 加州大学欧文分校。信息与计算机科学系,第404卷,第405页
[4] 贝克尔,C。;Gather,U.,《多元异常值识别规则的掩蔽分解点》,美国统计协会期刊,944479451999年·Zbl 1072.62600号
[5] 贝克尔,C。;油炸,R。;Kuhnt,S.,《稳健性和复杂数据结构:纪念Ursula Gather的节日》(2014),纽约:Springer,纽约·Zbl 1290.62004号
[6] Bose,A.,估计l1中值的渐近分散性,Ann Inst Stat Math,47,2,267-271(1995)·Zbl 0833.62025号
[7] Bose,A。;Chaudhuri,P.,《关于多元中值的离散性》,Ann Inst Stat Math,45,3,541-550(1993)·Zbl 0799.62061号
[8] Brettschneider,J。;科林,F。;博尔斯塔德,BM;短寡核苷酸微阵列数据的速度、TP、质量评估,技术计量学,50,3,241-264(2008)
[9] Brown,B.,《空间中值的统计应用》,J R Stat Soc Ser B(Methodol),45,25-30(1983)·兹比尔0508.62046
[10] Cerioli,A。;Riani,M。;阿特金森,AC;佩罗塔,D。;Torti,F.,用正向搜索拟合回归线的混合物,《最小海量数据集安全》,19,271(2008)
[11] Cerioli,A。;Riani,M。;Atkinson,AC,用离散的mcd估计值控制多元异常值检验的大小,统计计算,19,3,341-353(2009)
[12] 陈,SX;Qin,Y-L,高维数据的双样本检验及其在基因集测试中的应用,Ann Stat,38,2808-835(2010)·Zbl 1183.62095号
[13] 陈,Y。;Dang,X。;彭,H。;Bart,HL,核化空间深度函数的离群点检测,IEEE Trans-Pattern Ana Mach Intell,31,2,288-305(2009)
[14] 陈,Y。;Wiesel,A。;Hero,AO,高维协方差矩阵的稳健收缩估计,IEEE Trans-Signal Process,59,9,4097-4107(2011)·兹比尔1391.62088
[15] Choi,HC;爱德华兹,惠普;瑞士斯威特曼;Obolonkin,V.,《奶牛群测试数据的多变量异常值检测》,ANZIAM J,57,38-53(2016)
[16] Chu,JT,关于样本中位数的分布,Ann Math Stat,26,112-116(1955)·Zbl 0064.13102号
[17] 库伊莱特,R。;McKay,M.,稳健收缩协方差矩阵估值器的大维分析与优化,J Multivar Ana,13199-120(2014)·Zbl 1306.62119号
[18] 德米格尔,V。;马丁·乌特雷拉,A。;Nogales,FJ,《规模问题:投资组合选择收缩估计值的最佳校准》,《银行金融杂志》,第37、8、3018-3034页(2013年)
[19] 德夫林,SJ;Gnanadesikan,R。;Kettering,JR,分散矩阵和主成分的稳健估计,美国统计学会杂志,76,374,354-362(1981)·Zbl 0463.62031号
[20] Dodge,Y.,《基于l1-范数的统计数据分析简介》,《计算统计数据分析》,第5、4、239-253页(1987年)
[21] 多诺霍,DL;休伯,PJ;PJ Bickel;Doksum,KA;霍奇斯,JL Jr,《崩溃点的概念》,《埃里希·莱曼的节日》,157-184(1983),贝尔蒙特:沃兹沃思·Zbl 0523.62032号
[22] Falk,M.,《论疯子和喜剧演员》,《Ann Inst Stat Math》,49、4、615-644(1997)·Zbl 0897.62029号
[23] Filzmoser,P。;加勒特,RG;Reimann,C.,勘探地球化学中的多变量异常值检测,计算地球科学,31,5,579-587(2005)
[24] Gao X(2016)模糊分组变量选择的灵活收缩算子。统计论文,第1-24页
[25] Gnanadesikan,R。;Kettenring,JR,多响应数据的稳健估计、残差和异常值检测,生物计量学,28,81-124(1972)
[26] Goutte C,Gaussier E(2005)《精确性、召回率和f分数的概率解释,以及评估的含义》。摘自:《欧洲信息检索会议记录》,第345-359页。施普林格
[27] Gower,J.,Algorithm as 78:the mediancentre,J R Stat Soc Ser C(Appl Stat),23,3,466-470(1974)
[28] 霍尔,P。;A.威尔士,《中值偏差的极限定理》,Ann Inst Stat Math,37,1,27-36(1985)·Zbl 0591.62028号
[29] 哈丁,J。;Roke,DM,稳健距离的分布,《计算图形统计杂志》,14,4,928-946(2005)
[30] 休伯特,M。;Debruyne,M.,故障值,Wiley Interdiscip Rev Compute Stat,1,3,296-302(2009)
[31] 休伯特,M。;Debruyne,M.,最小协方差行列式,Wiley Interdiscip Rev Comput Stat,2,1,36-43(2010)
[32] 休伯特,M。;罗素,PJ;Van Aelst,S.,高分解稳健多元方法,《统计科学》,23,92-119(2008)·Zbl 1327.62328号
[33] Inselberg,A.,平行坐标(2009),纽约:Springer,纽约·Zbl 1183.68662号
[34] Inselberg A,Dimsdale B(1990)平行坐标:可视化多维几何的工具。摘自:《90年可视化第一届会议记录》,第361-378页。IEEE计算机学会出版社
[35] James W,Stein C(1961)二次损失估计。摘自:第四届伯克利数理统计与概率研讨会论文集,第1卷,第361-379页·Zbl 1281.62026号
[36] Lazar,N.,《功能性MRI数据的统计分析》(2008年),纽约:Springer,纽约·Zbl 1312.62004号
[37] Ledoit O,Wolf M(2003a)Honey,i缩小了样本协方差矩阵。UPF经济学和商业工作文件(691)
[38] Ledoit,O。;Wolf,M.,《股票收益协方差矩阵的改进估计及其在投资组合选择中的应用》,《企业财务杂志》,2003年第10期,第5期,第603-621页
[39] Ledoit,O。;Wolf,M.,《大维协方差矩阵的良好估计》,《多元分析杂志》,88,2,365-411(2004)·Zbl 1032.62050
[40] Leroy AM,Rousseeuw PJ(1987)稳健回归和异常值检测·Zbl 0711.62030号
[41] 马萨诸塞州林德奎斯特,《FMRI数据的统计分析》,《统计科学》,23,439-464(2008)·Zbl 1329.62296号
[42] Liu,RY,关于基于随机单形的数据深度概念,Ann Stat,18,1,405-414(1990)·Zbl 0701.62063号
[43] 惠普Lopuhaa;Rousseeuw,PJ,多元位置和协方差矩阵的仿射等变估计的分解点,Ann Stat,19,229-248(1991)·Zbl 0733.62058号
[44] 马哈拉诺比斯,PC,《论统计学中的广义距离》,加尔各答国家科学院学报,249-55(1936)·Zbl 0015.03302号
[45] 马卡诺,L。;Fermín,W.,Comparacionón de métodos de detección d datos anómalos multifriantes mediante un estudio de simuracionós,SABER。东方大学多学科研究修订版,25,2192-201(2013)
[46] Maronna RA,Yohai VJ(1976)多元位置和散布的稳健估计。在线统计参考,Wiley StatsRef·Zbl 1466.62158号
[47] 玛丽娜,RA;Zamar,RH,高维数据集位置和离散度的稳健估计,技术计量学,44,4,307-317(2002)
[48] Monti,MM,fmri时间序列的统计分析:对glm方法的批判性回顾,Front Hum Neurosci,5,28(2011)
[49] Möttönen J,Nordhausen K,Oja H等人(2010)空间中值的渐近理论。收录于:《现代统计推断和时间序列分析中的非参数和稳健性:纪念Jana Jurečková教授的节日》,第182-193页。数理统计研究所
[50] Oja,H.,带R的多变量非参数方法:一种基于空间符号和秩的方法(2010),纽约:施普林格,纽约·兹比尔1269.62036
[51] Paindaveine,D。;Van Bever,G.,《从深度到局部深度:对中心性的关注》,美国统计协会期刊,108,503,1105-1119(2013)·Zbl 06224990号
[52] 佩尼亚,D。;Prieto,FJ,多变量离群值检测和稳健协方差矩阵估计,技术计量学,43,3,286-310(2001)
[53] 佩尼亚,D。;Prieto,FJ,《结合随机和特定方向进行高维多元数据中的离群值检测和稳健估计》,《计算图统计杂志》,16,1,228-254(2007)
[54] Perrotta D,Torti F(2010年)用前瞻搜索法检测欧洲贸易数据中的价格异常值。摘自:《数据分析和分类》,第415-423页。施普林格
[55] 脊髓灰质炎,J-B;Brett,M.,《一般线性模型和功能磁共振成像:爱情会永远持续吗?》?,《神经影像》,62,2871-880(2012)
[56] Powers DM(2011)评估:从精确性、召回和f测量到roc、信息性、标记性和相关性
[57] Reimann,C。;Filzmoser,P.,《地球化学中的正态和对数正态数据分布:神话的终结》。地球化学和环境数据统计处理的后果。,《环境地质学》,39,9,1001-1014(2000)
[58] Rousseeuw,PJ,高崩溃点多元估计,数学统计应用,8283-297(1985)·Zbl 0609.62054号
[59] 罗素,PJ;Driessen,KV,最小协方差行列式估计的快速算法,《技术计量学》,41,3,212-223(1999)
[60] 罗素,PJ;Van Zomeren,BC,《揭示多元异常值和杠杆点》,美国统计协会杂志,85,411,633-639(1990)
[61] Sajesh,T。;Srinivasan,M.,《使用喜剧方法检测高维数据的离群值》,J Stat Compute Simul,82,5,745-757(2012)·兹比尔1432.62164
[62] Serfling R(2002)基于空间分位数的深度函数和比例曲线。In:基于L1-形式和相关方法的统计数据分析,第25-38页。纽约州施普林格·Zbl 1460.62076号
[63] Small,CG,多维中位数调查,国际统计评论,58,263-277(1990)
[64] Sokolova M、Japkowicz N、Szpakowicz S(2006)《超越准确性、f-score和roc:绩效评估的一系列判别指标》。摘自:澳大利亚人工智能联合会议,第1015-1021页。纽约州施普林格
[65] Steland A(2018)协方差估计收缩:渐近性、置信区间、界限和在传感器监测和金融中的应用。统计论文,第1-22页·Zbl 1408.62178号
[66] 孙R,马T,刘S(2018)投资组合选择:收缩时变逆条件协方差矩阵。统计论文,第1-22页
[67] 孙,Y。;Genton,MG,《函数箱线图》,《计算图形统计杂志》,20,2,316-334(2011)
[68] 塔尔,G。;缪勒,S。;NC韦伯,《细胞污染下精确矩阵的稳健估计》,《计算统计数据分析》,93,404-420(2016)·Zbl 1468.62192号
[69] 坦普尔,M。;Filzmoser,P。;Reimann,C.,《应用于区域地球化学数据的聚类分析:问题和可能性》,Appl Geochem,23,8,2198-2213(2008)
[70] Tukey,JW,《数学与数据绘图》,《国际会议数学》,2,523-531(1975)·Zbl 0347.6202号
[71] 瓦尔迪,Y。;Zhang,C-H,多元l1-中值和相关数据深度,美国国家科学院学报,97,41423-1426(2000)·Zbl 1054.62067号
[72] 瓦尔加斯,JA;Robust,N.,个体观测的多元控制图估计,《质量技术杂志》,35,4,367-376(2003)
[73] Verboven,S。;Hubert,M.,Libra:稳健分析的matlab库,化学计量学智能实验室系统,75,2,127-136(2005)
[74] Wegman,EJ,使用平行坐标进行超维数据分析,J Am Stat Assoc,85,411,664-675(1990)
[75] 曾勇。;王,G。;杨,E。;吉,G。;Brinkmeyer-Langford,CL;Cai,JJ,人类的异常基因表达,《公共科学图书馆·遗传学》,11,1,e1004942(2015)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。