×

多尺度污染正态分布及其在聚类中的应用。 (英语) Zbl 07381254号

摘要:多元污染正态(MCN)分布代表了多元正态(MN)分布的一种简单的重尾泛化,用于在存在轻微异常值(此处也称为“坏”点)的情况下建模椭圆轮廓散射体,并自动检测坏点。这些优势的代价是两个额外的参数:良好观测的比例和污染程度。然而,在多元环境中,只有一部分良好的观察结果和一种程度的污染可能是有限的。为了克服这一局限性,我们提出了多尺度污染正态分布(MSCN)。在它的参数中,我们有一个正交矩阵\(\Gamma\)。在由\(\Gamma\)向量(主分量)跨越的空间中,每个分量都有一定比例的良好观测值和一定程度的污染。此外,每个观察结果对于每个主成分都具有良好的后验概率。由于这种概率,该方法提供了嵌套MN参数的方向稳健估计和坏点的自动方向检测。添加“定向”一词是为了指定该方法对每个主成分分别起作用。还提出了MSCN分布的混合,并使用期望最大化算法进行参数估计。考虑到实际和模拟数据,表明了我们的混合物对于具有重尾的对称分布的成熟混合物的有用性。

理学硕士:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aitken,AC(1926)关于伯努利代数方程的数值解。爱丁堡皇家学会会刊46, 289-305. ·doi:10.1017/S0370164600022070
[2] Aitkin,M,Wilson,GT(1980年)。混合模型、离群值和EM算法。技术指标, 22, 325-31. ·Zbl 0466.62034号 ·doi:10.1080/00401706.1980.10486163
[3] Akaike,H(1973)《信息论与最大似然原理的扩展》。第二届信息理论国际研讨会由Petrov,BN,Csaki,F编辑,第267-81页。纽约-纽约:施普林格出版社·Zbl 0283.62006号
[4] Alqallaf,F,Van Aelst,S,Yohai,VJ,Zamar,RH(2009)多元数据中异常值的传播。统计学年鉴37, 311-31. ·Zbl 1155.62043号 ·doi:10.1214/07-AOS588
[5] Andrews,JL,McNicholas,PD(2011)《多元t因子分析仪的扩展混合物》。统计与计算21, 361-73. ·Zbl 1255.62175号 ·doi:10.1007/s11222-010-9175-2
[6] Andrews,J,Wickins,J,Boers,N,McNicholas,P(2018)teigen:通过多元t分布进行基于模型的聚类和分类的R包。统计软件杂志83, 1-32. ·doi:10.18637/jss.v083.i07
[7] Bagnato,L,Punzo,A(2013)单峰β和γ密度以及k-bumps算法的有限混合。计算统计学28, 1571-97. ·Zbl 1306.65024号 ·doi:10.1007/s00180-012-0367-4
[8] ——— (2019)正交矩阵的无约束表示及其在公共主成分中的应用.ArXiv.org电子版1906.00587。统一资源定位地址http://arxiv.org/abs/1906.00587
[9] Bagnato,L,Punzo,A,Zoia,MG(2017)多元轻子正态分布及其在基于模型的聚类中的应用。加拿大统计杂志45, 95-119. ·Zbl 1462.62308号 ·doi:10.1002/cjs.11308
[10] Berkane,M,Bentler,PM(1988)多元数据中污染参数的估计和异常值的识别。社会学方法与研究17, 55-64.
[11] Biernacki,C,Celeux,G,Govaert,G(2003)为EM算法选择初始值,以获得多元高斯混合模型中的最大似然。计算统计学与数据分析41, 561-75. ·Zbl 1429.62235号 ·doi:10.1016/S0167-9473(02)00163-9
[12] Bock,HH(2002)聚类方法:从经典模型到新方法。转型期统计5, 725-58.
[13] Böhning,D(2000)计算机辅助混合分析及应用:荟萃分析疾病绘图及其他(统计学和应用概率专著81)伦敦:查普曼和霍尔/CRC·兹比尔0951.62088 ·doi:10.1080/00401706.2000.10485740
[14] Böhning,D,Dietz,E,Schaub,R,Schlattmann,P,Lindsay,B(1994)单参数指数族密度混合物的似然比分布。统计数学研究所年鉴46, 373-88. ·Zbl 0802.62017年 ·doi:10.1007/BF01720593
[15] Box,GEP(1980)科学建模和稳健性中的抽样和贝叶斯推断。英国皇家统计学会杂志:A辑(社会统计)143, 383-430. ·Zbl 0471.62036号 ·doi:10.2307/2982063
[16] 乔治亚州刁市GEP信箱(2011年)统计分析中的贝叶斯推断纽约:威利经典图书馆。
[17] Browne,RP,ElSherbiny,A,McNicholas,PD(2018)混合物:用于聚类和分类的有限高斯混合模型.R软件包版本1.5。统一资源定位地址http://CRAN.R-project.org/package=混合物
[18] Cabral,CSB,Lachos,VH,Prates,MO(2012)使用偏正态独立分布的多元混合建模。计算统计学与数据分析56, 126-42. ·Zbl 1239.62058号 ·doi:10.1016/j.csda.2011.06.026
[19] Dang,UJ,Browne,RP,McNicholas,PD(2015)多元幂指数分布的混合。生物计量学71, 1081-89. ·Zbl 1419.62330号 ·doi:10.1111/biom.12351
[20] Davies,L,Gather,U(1993)。多个异常值的识别。美国统计协会杂志, 88, 782-92. ·Zbl 0797.62025号 ·doi:10.1080/01621459.1993.10476339
[21] Dempster,A,Laird,N,Rubin,D(1977)通过EM算法从不完整数据中获得最大似然。英国皇家统计学会杂志:B辑(方法学)39, 1-38. ·Zbl 0364.62022号 ·doi:10.1111/j.2517-6161.1977.tb01600.x
[22] Devlin,SJ,Gnanadesikan,R,Kettering,JR(1981)《离散矩阵和主成分的稳健估计》。美国统计协会杂志76, 354-62. ·Zbl 0463.62031号 ·doi:10.1080/016214519981.10477654
[23] Farcomeni,A(2014a)存在入门级离群值的稳健约束聚类。技术指标56, 102-11. ·doi:10.1080/00401706.2013.826148
[24] Farcomeni,A(2014b)组件式污染下稳健k均值聚类的截取。统计与计算24, 907-19. ·Zbl 1332.62203号 ·doi:10.1007/s11222-013-9410-8
[25] Farcomeni,A,Greco,L(2016)稳健的数据缩减方法佛罗里达州博卡拉顿:CRC出版社·Zbl 1311.62006年 ·doi:10.1201/b18358
[26] Farcomeni,A,Punzo,A(2019)基于稳健模型的聚类,具有轻微和严重的异常值。测试网址:https://doi.org/10.1007/s11749-019-00693-z ·Zbl 1474.62222号
[27] Forbes,F,Wraith,D(2014)一个新的多元重尾分布族,具有可变的边际尾量:稳健聚类的应用。统计与计算1971年8月24日·Zbl 1332.62204号 ·doi:10.1007/s11222-013-9414-4
[28] Fraley,C,Raftery,AE(1998)有多少个集群?哪种聚类方法?通过基于模型的聚类分析得出答案。计算机杂志41, 578-88. ·Zbl 0920.68038号 ·doi:10.1093/comjnl/41.8.578
[29] Franczak,BC,Browne,RP,McNicholas,PD(2014)移位不对称拉普拉斯分布的混合。IEEE模式分析和机器智能汇刊36, 1149-57. ·doi:10.1109/TPAMI.2013.216
[30] Franczak,BC,Tortora,C,Browne,RP,McNicholas,PD(2015),通过带有超立方体轮廓的倾斜分布混合进行无监督学习。模式识别字母58, 69-76. ·doi:10.1016/j.patrec.2015.02.011
[31] Fritz,H,Garcia-Escudero,LA,Mayo-Iscar,A(2012)tclust:A R package for A triming approach to A cluster analysis(聚类分析修剪方法的R包)。统计软件杂志47, 1-26. ·doi:10.18637/jss.v047.i12
[32] Gallegos,MT,Ritter,G(2009)整理了受污染混合物的ML估算。桑基?:印度统计杂志A71, 164-220. ·兹比尔1193.62021
[33] Garcia-Escudero,LA,Gordaliza,A,Matran,C,Mayo-Iscar,A(2008)稳健聚类分析的一般修正方法。统计年刊36, 1324-45. ·Zbl 1360.62328号 ·doi:10.1214/07-AOS515
[34] Gómez,E,Góme z-Villegas,MA,Marín,JM(2003)连续椭圆矢量分布调查。Revista Matemática Complutense公司16, 345-61. ·Zbl 1041.60016号
[35] Gómez-Villegas,MA,Góme z-Sánchez-Manzano,E,MAín,P,Navarro,H(2011)。幂指数分布中非正态性的影响。捕获复杂性的现代数学工具和技术《理解复杂系统》,由Pardo,L,Balakrishnan,N,Gil,MA编辑,第119-29页。柏林和海德堡:斯普林格·弗拉格。 ·doi:10.1007/978-3-642-20853-99
[36] Hogg,RV(1974)自适应鲁棒程序:部分综述和对未来应用和理论的一些建议。美国统计协会杂志69, 909-23. ·Zbl 0305.62030号 ·doi:10.1080/01621459.1974.10480225
[37] Hubert,L,Arabie,P(1985)比较分区。分类杂志193-218年·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[38] Karlis,D,Xekalaki,E(2003)为有限混合物的EM算法选择初始值。计算统计学与数据分析41, 577-90. ·Zbl 1429.62082号 ·doi:10.1016/S0167-9473(02)00177-9
[39] Kaufman,L,Rousseeuw,PJ(Eds)(1990年)围绕medoids的分区(PAM程序)。在数据中查找组:聚类分析简介第68-125页。新泽西州霍博肯:威利·Zbl 1345.62009号 ·doi:10.1002/9780470316801.ch2
[40] Kotz,S,Nadarajah,S(2004)多元t分布及其应用剑桥:剑桥大学出版社·Zbl 1100.62059号 ·doi:10.1017/CBO9780511550683
[41] Lange,KL,Little,RJA,Taylor,JMG(1989)《使用t分布的稳健统计建模》。美国统计协会杂志84881-96中描述·doi:10.1080/01621459.1989.10478852
[42] 林赛,B(1995)混合模型:理论几何与应用(NSF-CBMS区域会议系列,概率与统计第5卷)。加州海沃德:数理统计研究所·Zbl 1163.62326号 ·doi:10.1214/cbms/1462106013
[43] Little,RJA(1988)从缺失值数据中稳健估计平均值和协方差矩阵。应用统计学37, 23-8. ·Zbl 0647.62040号 ·doi:10.2307/2347491
[44] Maechler,M,Rousseeuw,P,Struyf,A,Hubert,M(2018)集群:“在数据中发现群体”——扩展Rousseeuw等人的聚类分析.R包版本2.0.7-1。统一资源定位地址https://CRAN.R-project.org/package=集群
[45] Maronna,RA(1976)多元位置和散布的稳健M估计。统计学年鉴第4页,51-67页·Zbl 0322.62054号 ·doi:10.1214/aos/1176343347
[46] Maronna,RA,Yohai,VJ(2014)。多元位置和散射的稳健估计约翰·威利父子公司。
[47] Maruotti,A,Punzo,A(2017)基于模型的多变量纵向数据的时变聚类,带有协变量和离群值。计算统计学与数据分析113475-96中·Zbl 1464.62128号 ·doi:10.1016/j.csda.2016.05.024
[48] Mazza,A,Punzo,A(2017)多元污染正态回归模型的混合。统计论文。网址:https://doi.org/10.1007/s00362-017-0964-y ·Zbl 1435.62238号
[49] McLachlan,GJ,Basford,KE(1988)混合模型:推理及其在聚类中的应用纽约州纽约市:Marcel Dekker·Zbl 0697.62050号
[50] McLachlan,GJ,Bean,RW,Ben-Tovim-Jones,L(2007)混合因子分析模型的扩展,以纳入多元分布。计算统计学与数据分析51, 5327-38. ·Zbl 1445.62053号 ·doi:10.1016/j.csda.2006.09.015
[51] McLachlan,GJ,Peel,D(2000)有限混合模型。纽约纽约:John Wiley&Sons·兹比尔0963.62061 ·doi:10.1002/0471721182
[52] McLachlan,GJ,Peel,D,Bean,RW(2003)通过混合因子分析仪模拟高维数据。计算统计学与数据分析41, 379-88. ·Zbl 1256.62036号 ·doi:10.1016/S0167-9473(02)00183-4
[53] 麦克尼古拉斯,PD(2016)基于混合模型的分类佛罗里达州博卡拉顿:查普曼和霍尔/CRC出版社·Zbl 1454.62005年 ·数字标识代码:10.1201/9781315373577
[54] McNicholas,PD,Murphy,TB(2008)简约高斯混合模型。统计与计算18, 285-96. ·doi:10.1007/s11222-008-9056-0
[55] McNicholas,PD,Murphy,TB,McDaid,AF,Frost,D(2010)通过简约高斯混合模型实现基于模型的聚类的串行和并行实现。计算统计学与数据分析第54711-23页·Zbl 1464.62131号 ·doi:10.1016/j.csda.2009.02.011
[56] Morris,K.,Punzo,A.,McNicholas,P.D.,Browne,R.P.(2019年)。非对称聚类和异常值:多变量污染移位非对称拉普拉斯分布的混合。计算统计学与数据分析, 132, 145-66. ·Zbl 1507.62136号 ·doi:10.1016/j.csda.2018.12.001
[57] Peel,D,McLachlan,GJ(2000)使用(t)分布的稳健混合建模。统计与计算10, 339-48. ·doi:10.1023/A:1008981510081
[58] Punzo,A,Blostein,M,McNicholas,PD(2020)《通过节约型污染混合物进行高维无监督分类》。模式识别98: 107031. ·doi:10.1016/j.patcog.2019.107031
[59] Punzo,A,Ingrassia,S,Maruotti,A(2019)多元隐马尔可夫回归模型:随机协变量和重尾分布。统计论文出现。网址:https://doi.org/10.1007/s00362-019-01146-3。 ·Zbl 1477.62224号
[60] Punzo,A,Maruotti,A(2016)聚类多元纵向观测:受污染的高斯隐马尔可夫模型。计算与图形统计杂志25, 1097-116. ·doi:10.1080/10618600.2015.1089776
[61] Punzo,A,Mazza,A,Maruotti,A(2018a)用异常值拟合保险和经济数据:一种基于受污染伽马分布有限混合的灵活方法。应用统计学杂志45, 2563-84. ·Zbl 1516.62555号 ·doi:10.1080/02664763.2018.1428288
[62] Punzo,A,Mazza,A,McNicholas,P(2018b)污染混合:用于拟合多元污染正态分布的简约混合的R包。统计软件杂志85, 1-25. ·doi:10.18637/jss.v085.i10
[63] Punzo,A,McNicholas,PD(2016)多元污染正态分布的简约混合。生物医学杂志58, 1506-37. ·Zbl 1353.62124号 ·doi:10.1002/bimj.201500144
[64] ---(2017)通过污染高斯聚类加权模型进行回归分析中的稳健聚类。分类杂志34, 249-93. ·Zbl 1373.62316号 ·数字对象标识代码:10.1007/s00357-017-9234-x
[65] Rand,WM(1971)聚类方法评估的客观标准。美国统计协会杂志第66846-50页·doi:10.1080/016214591971.10482356
[66] Ritter,G(2015)稳健聚类分析与变量选择(查普曼和霍尔/CRC统计学与应用概率专著第137卷)。佛罗里达州博卡拉顿:CRC出版社·兹比尔1341.62037
[67] Schwarz,G(1978)估算模型的维数。统计学年鉴6, 461-64. ·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[68] Stephens,M(2000)《混合模型中标签切换的处理》。英国皇家统计学会杂志:B辑(统计方法)62, 795-809. ·兹比尔0957.62020 ·doi:10.1111/1467-9868.00265
[69] Subedi,S,Punzo,A,Ingrassia,S,McNicholas,PD(2013),通过聚类加权因子分析仪进行聚类和分类。数据分析和分类进展7, 5-40. ·Zbl 1271.62137号 ·doi:10.1007/s11634-013-0124-8
[70] ---(2015)用于稳健的基于模型的聚类和降维的聚类加权t因子分析仪。统计方法与应用24, 623-49. ·Zbl 1416.62362号 ·doi:10.1007/s10260-015-0298-7
[71] Tortora,C,Franczak,B,Browne,R,McNicholas,P(2019年)。合并的广义双曲分布的混合。分类杂志, 36, 26-57. ·Zbl 1433.62172号 ·doi:10.1007/s00357-019-09319-3
[72] Tukey,JW(1960)《污染分布抽样调查》。概率与统计贡献:哈罗德·霍特林荣誉论文(斯坦福数学与统计研究)由Olkin,I编辑。第39章第448-85页。斯坦福CA:斯坦福大学出版社·Zbl 0201.52803号
[73] Zhang,J,Liang,F(2010)。使用指数幂混合的稳健聚类。生物计量学, 66, 1078-86. ·Zbl 1233.62192号 ·文件编号:10.1111/j.1541-0420.2010.01389.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。