×

多元污染正态分布的简约混合。 (英语) Zbl 1353.62124号

摘要:为基于模型的聚类开发了多元污染正态分布的混合。除了经典正态混合的参数外,我们的污染混合对于每个聚类都有一个控制轻度异常值比例的参数和一个指定污染程度的参数。重要的是,这些参数不必预先指定,这为我们的方法增加了灵活性。通过对分量协方差矩阵的特征分解引入简约性,并给出了该族所有成员可辨识的充分条件。本文概述了一种用于参数估计的期望条件最大化算法,并讨论了各种实现问题。通过大规模仿真研究,研究了该方法的性能,并与已有的有限混合方法进行了比较。这种新型模型族的性能也在人工数据和实际数据上进行了说明。

理学硕士:

62页第10页 统计学在生物学和医学中的应用;元分析
62H30型 分类和区分;聚类分析(统计方面)
62英尺10英寸 点估计
62-07 数据分析(统计)(MSC2010)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aggarwal,离群值分析(2013)·Zbl 1291.68004号 ·doi:10.1007/978-1-4614-6396-2
[2] 艾特肯,代数方程和超越方程根的系列公式,《爱丁堡皇家学会学报》45页14–(1926)·doi:10.1017/S0370164600024871
[3] Aitkin,混合模型、离群值和EM算法,《技术计量学》22 pp 325–(1980)·Zbl 0466.62034号 ·doi:10.1080/00401706.1980.10486163
[4] Andrews,基于模型的聚类、分类和多元t分布判别分析:tEIGEN家族,《统计与计算》22页1021–(2012)·Zbl 1252.62062号 ·doi:10.1007/s11222-011-9272-x
[5] Andrews,J.L.Wickins,J.R.Boers,N.M.McNicholas,P.D.2015泰根:基于模型的聚类和多元t分布分类。2.1.0版(2015-11-20)http://CRAN.R-project.org/package=teigen
[6] Bagnato,单峰β和γ密度的有限混合物以及k-bumps算法,《计算统计学》28页1571–(2013)·Zbl 1306.65024号 ·doi:10.1007/s00180-012-0367-4
[7] Bai,混合回归模型的稳健拟合,计算统计与数据分析56 pp 2347–(2012)·Zbl 1252.62011年 ·doi:10.1016/j.csda.2012.01.016
[8] 班菲尔德,基于模型的高斯和非高斯聚类,生物统计学49,第803页–(1993)·Zbl 0794.62034号 ·doi:10.2307/2532201
[9] Barnett,《统计数据中的异常值》(1994年)
[10] Becker,《多元异常值识别规则的掩蔽分解点》,《美国统计协会杂志》94页947–(1999)·Zbl 1072.62600号 ·doi:10.1080/01621459.1999.10474199
[11] Berkane,多元数据中污染参数的估计和异常值的识别,社会学方法与研究17,第55页–(1988)·doi:10.1177/049124188017001003
[12] Biernacki,C.2004防止高斯混合物退化的可能性的渐近上限。法国贝桑松法兰西大学技术代表
[13] Biernacki,为EM算法选择初始值以获得多元高斯混合模型中的最大似然,计算统计与数据分析41 pp 561–(2003)·Zbl 1429.62235号 ·doi:10.1016/S0167-9473(02)00163-9
[14] Biernacki、C.Celeux、G.Govaert、G.Langronet、F.Noulin、G.Vernaz、Y.2008年MIXMODhttp://www.mixmmod.org/IMG/pdf/statdoc_2_1_1.pdf
[15] Biernacki,带EM的单变量高斯混合函数最大似然估计中的退化,《统计学与概率快报》第61页373–(2003)·Zbl 1038.62023号 ·doi:10.1016/S0167-7152(02)00396-6
[16] 博克,《聚类方法:从经典模型到新方法》,《转型中的统计》5,第725页–(2002年)
[17] Böhning,混合物的计算机辅助分析和应用:荟萃分析、疾病绘图和其他。统计学与应用概率专著(2000)第81卷·兹比尔0951.62088
[18] Böhning,单参数指数族密度混合物的似然比分布,统计数学研究所年鉴46 pp 373–(1994)·Zbl 0802.62017年 ·doi:10.1007/BF01720593
[19] Böhning,关于含尺度正态分布到最佳正态分布的最大偏差的注记,Metrika 55 pp 177–(2002)·Zbl 1320.62035号 ·doi:10.1007/s001840100138
[20] Browne,《在高维中估计常见主成分》,《数据分析和分类进展》,第8页,第217页–(2014年)·doi:10.1007/s11634-013-0139-1
[21] Browne,R.P.McNicholas,P.D.2015年http://CRAN.R-project.org/package=混合物
[22] Browne,使用高斯和均匀分布混合的基于模型的学习,IEEE模式分析和机器智能汇刊34,第814页–(2012)·doi:10.1109/TPAMI.2011.199
[23] Browne,R.P.Subedi,S.McNicholas,P.D.2013高斯简约聚类模型子集的约束优化http://arxiv.org/abs/1306.5824
[24] Byers,用于估计空间点过程中特征的最近邻杂波去除,《美国统计协会杂志》93第577页–(1998)·Zbl 0926.62089号 ·doi:10.1080/01621459.1998.10473711
[25] 坎贝尔,《混合模型和非典型值》,《数学地质学》16页465–(1984)·doi:10.1007/BF01886327
[26] Campbell,Leptograpsus属两种岩蟹变异的多元研究,澳大利亚动物学杂志22页417–(1974)·doi:10.1071/ZO9740417
[27] Celeux,高斯简约聚类模型,模式识别28 pp 781–(1995)·doi:10.1016/0031-3203(94)00125-6
[28] Celeux,混合后验分布的计算和推断困难,《美国统计协会杂志》95 pp 957–(2000)·Zbl 0999.62020号 ·doi:10.1080/01621459.2000.10474285
[29] Coretto,高斯分布和均匀分布异质混合物的最大似然估计,《统计规划与推断杂志》141页462–(2011)·Zbl 1203.62017年 ·doi:10.1016/j.jspi.2010.06.024
[30] Coretto,P.Hennig,C.2015稳健不当最大似然:稳健高斯聚类的调整、计算和与其他方法的比较网址:http://arxiv.org/abs/11406.0808
[31] 克劳福德,拉普拉斯方法在有限混合分布中的应用,美国统计协会杂志89页259–(1994)·兹比尔0795.62022 ·doi:10.1080/01621459.1994.10476467
[32] Cuesta-Albertos,Trimmed k-means:增强量化器的尝试,《统计年鉴》第25卷第553页–(1997)·兹比尔0878.62045 ·doi:10.1214/aos/1031833664
[33] Davies,《多个离群值的识别》,《美国统计协会杂志》88页782–(1993)·Zbl 0797.62025号 ·doi:10.1080/01621459.1993.10476339
[34] De Veaux,正态混合物的稳健估计,《统计学与概率快报》,第10页,第1页,(1990年)·doi:10.1016/0167-7152(90)90104-F
[35] Dempster,通过EM算法获得不完整数据的最大似然,皇家统计学会杂志:B系列39第1页–(1977)·Zbl 0364.62022号
[36] Di Zio,分类问题的混合模型:统一度量误差,计算统计与数据分析51 pp 2573–(2007)·Zbl 1161.62373号 ·doi:10.1016/j.csda.2006.01.01
[37] Flury,将几个正定矩阵同时正交变换为近似对角形式的算法,SIAM科学与统计计算杂志7 pp 169–(1986)·Zbl 0614.65043号 ·doi:10.1137/0907013
[38] Forina,M.Leardi,R.Armanino,C.Lanteri,S.1998 PARVUS:数据探索、分类和关联的可扩展包。IT热那亚制药和食品分析技术研究所技术代表
[39] 弗雷,有多少簇?哪种聚类方法?通过基于模型的聚类分析得出的答案,《计算机期刊》41 pp 578–(1998)·Zbl 0920.68038号 ·doi:10.1093/comjnl/41.8.578
[40] Fraley,C.Raftery,A.E.Murphy,T.B.Scrucca,L.2012 mclust版本4 R:基于模型的聚类、分类和密度估计的正态混合建模。华盛顿大学统计系技术报告597,西雅图
[41] Fraley,C.Raftery,A.E.Scrucca,L.Murphy,T.B.Fop,M.2015年http://CRAN.R-project.org/package=mclust
[42] Gallegos,《稳健的聚类分析方法》,《统计年鉴》第33卷第347页–(2005年)·Zbl 1064.62074号 ·doi:10.1214/009053604000000940
[43] Gallegos,污染混合物的Trimmed ML估计,Sankhyá:印度统计杂志,A系列71第164页–(2009)
[44] García-Escudero,k均值和修剪k均值的稳健性,美国统计协会杂志94页956–(1999)·Zbl 1072.62547号
[45] García-Escudero,探索性数据分析中的修剪工具,《计算与图形统计杂志》,12页,434–(2003)·doi:10.1198/1061860031806
[46] García-Escudero,稳健聚类分析的一般修正方法,《统计年鉴》第36页第1324页–(2008)·Zbl 1360.62328号 ·doi:10.1214/07-AOS515
[47] García-Escudero,稳健聚类方法综述,数据分析和分类进展4,第89页–(2010年)·Zbl 1284.62375号 ·doi:10.1007/s11634-010-0064-5
[48] Gerogannis,《学生t分布的混合作为刚性注册的稳健框架》,《图像和视觉计算》27页1285–(2009)·doi:10.1016/j.imavis.2008.11.013
[49] Hartigan,聚类中的统计理论,分类杂志2,第63页–(1985)·Zbl 0575.62058号 ·doi:10.1007/BF01908064
[50] Hastie,高斯混合判别分析,皇家统计学会杂志:B系列58页155–(1996)·Zbl 0850.62476号
[51] Hathaway,单变量正态混合物的约束EM算法,《统计计算与模拟杂志》23第211页–(1986)·doi:10.1080/00949658608810872
[52] 霍金斯,异常值的识别。统计学和应用概率专著(2013)·Zbl 0438.62022号
[53] Hennig,《线性回归的不动点聚类:计算与比较》,《分类杂志》第19卷第249页–(2002年)·Zbl 1017.62057号 ·doi:10.1007/s00357-001-0045-7
[54] Hennig,位置-尺度混合最大似然估计的分解点,《统计年鉴》32页1313–(2004)·Zbl 1047.62063号 ·doi:10.1214/009053604000000571
[55] Hennig,C.Hausdorf,B.2015年http://CRAN.R-project.org/package=prabclus
[56] Holzmann,椭圆分布有限混合的可识别性,《斯堪的纳维亚统计杂志》,33 pp 753–(2006)·Zbl 1164.62354号 ·网址:10.1111/j.1467-9469.2006.00505.x
[57] Hunter,Rejoiner讨论“使用替代目标函数的优化转移”,《计算与图形统计杂志》第9卷第52页–(2000年)
[58] Hurley,多元数据的聚类可视化,《计算与图形统计杂志》13页788–(2004)·doi:10.1198/106186004X12425
[59] Ingrassia,多元正态混合模型的基于似然的约束算法,《统计方法与应用》13,第151页–(2004)·Zbl 1205.62066号 ·doi:10.1007/s10260-004-0092-4
[60] Ingrassia,多元高斯有限混合的约束单调em算法,计算统计与数据分析51 pp 5339–(2007)·Zbl 1445.62116号 ·doi:10.1016/j.csda.2006.10.011
[61] Ingrassia,多元高斯混合和动态约束最大似然的EM算法的退化,计算统计与数据分析55 pp 1715–(2011)·Zbl 1328.65030号 ·doi:10.1016/j.csda.2010.10.026
[62] Karlis,为有限混合物的EM算法选择初始值,计算统计与数据分析41 pp 577–(2003)·Zbl 1429.62082号 ·doi:10.1016/S0167-9473(02)00177-9
[63] Lebret,R.Iovleff,S.Langrognet,F.Biernacki,C.Celeux,G.Govaert,G.2012 Rmixmod:基于模型的无监督、监督和半监督分类Mixmod库的R包
[64] Li,基于多层混合模型的聚类,《计算与图形统计杂志》14页547–(2005)·doi:10.1198/106186005X59586
[65] 根据缺失值数据对均值和协方差矩阵进行的稳健估计,《应用统计学》第37页第23页–(1988年)·Zbl 0647.62040号 ·doi:10.2307/2347491
[66] Lo,方差不等的正态混合物中成分数量的似然比检验,《统计学与概率快报》71第225页–(2005)·Zbl 1065.62024号 ·doi:10.1016/j.spl.2004.11.007
[67] Lo,同方差正态混合物与异方差正态混合的似然比检验,《统计与计算》18,第233页–(2008)·doi:10.1007/s11222-008-9052-4
[68] Lo,测试正常混合物中的成分数量,Biometrika 88第767页–(2001)·Zbl 0985.62019号 ·doi:10.1093/生物技术/88.3.767
[69] Markatou,混合模型,稳健性和加权似然法,《生物计量学》56页483–(2000)·Zbl 1060.62511号 ·doi:10.1111/j.0006-341X.2000.00483.x
[70] 麦克拉克伦,《概率统计威利级数》第382卷(2007)
[71] 麦克拉克伦,《混合模型:推断及其在聚类中的应用》(1988)·Zbl 0697.62050号
[72] McLachlan,模式识别进展。计算机科学讲义第1451卷第658页–(1998)
[73] McLachlan,有限混合模型(2000)·兹比尔0963.62061 ·doi:10.1002/0471721182
[74] McNicholas,使用潜在高斯混合模型的基于模型的分类,《统计规划与推断杂志》140页1175–(2010)·Zbl 1181.62095号 ·doi:10.1016/j.jspi.2009.11.006
[75] McNicholas,基于混合模型的分类(2016)·Zbl 1454.62005年 ·数字标识代码:10.1201/9781315373577
[76] McNicholas,通过简约高斯混合模型实现基于模型的聚类的串行和并行实现,计算统计与数据分析54 pp 711–(2010)·Zbl 1464.62131号 ·doi:10.1016/j.csda.2009.02.011
[77] 孟,通过ECM算法的最大似然估计:一般框架,Biometrika 80 pp 267–(1993)·Zbl 0778.62022号 ·doi:10.1093/biomet/80.2.267
[78] 剥离,使用t分布的稳健混合物建模,统计与计算10 pp 339–(2000)·doi:10.1023/A:1008981510081
[79] Punzo,混合模型选择的假设检验,《统计计算与模拟杂志》86页2797–(2016)·doi:10.1080/00949655.2015.1131282
[80] Punzo,A.Mazza,A.McNicholas,P.D.2015年http://CRAN.R-project.org/package=ContaminatedMixt
[81] 2015网址:http://www.R-project.org/
[82] 拉弗瑞,社会研究中的贝叶斯模型选择,社会学方法论25,第111页–(1995)·doi:10.2307/271063
[83] Ritter,稳健聚类分析和变量选择。查普曼和霍尔/CRC统计与应用概率专著第137卷(2015年)·兹比尔1341.62037
[84] Ruwet,The imfluence function of The tclust robust clustering procedure,Advances in Data Analysis and Classification 6,第107页–(2012)·Zbl 1255.62182号 ·doi:10.1007/s11634-012-0107-1
[85] Ruwet,《关于tclust聚类过程的分解行为》,测试22,第466页–(2013年)·Zbl 1273.62146号 ·doi:10.1007/s11749-012-0312-4
[86] Schwarz,估算模型的维度,《统计年鉴》第6卷第461页–(1978年)·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[87] Stephens,《处理混合模型中的标签切换》,《皇家统计学会杂志》。B系列:统计方法62 pp 795–(2000)·兹比尔0957.62020 ·doi:10.1111/1467-9868.00265
[88] Teicher,有限混合物的可识别性,《数理统计年鉴》34第1265页–(1963)·Zbl 0137.12704号 ·doi:10.1214/aoms/1177703862
[89] 图基,《概率与统计学的贡献:纪念哈罗德·霍特林的论文》。斯坦福大学数学与统计研究第448页–(1960)
[90] Verdinelli,使用吉布斯采样器对异常值问题进行贝叶斯分析,统计学和计算1第105页–(1991)·doi:10.1007/BF01889985
[91] Wolfe,J.H.1965类型最大似然分析的计算机程序。技术公报65-15,美国海军人员研究活动
[92] 雅科维茨,《有限混合物的可识别性》,《数理统计年鉴》39页209–(1968)·Zbl 0155.25703号 ·doi:10.1214/aoms/1177698520
[93] Yao,混合物模型的基于模型的标签,《统计与计算》22,第337页–(2012年)·Zbl 1322.62047号 ·doi:10.1007/s11222-010-9226-8
[94] Yao,使用t分布的稳健混合回归,计算统计和数据分析71 pp 116–(2014)·Zbl 1471.62227号 ·doi:10.1016/j.csda.2013.07.019
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。