×

多元污染正态分布的简约混合。 (英语) Zbl 1353.62124号

摘要:为基于模型的聚类开发了多元污染正态分布的混合。除了经典正态混合的参数外,我们的污染混合对于每个聚类都有一个控制轻度异常值比例的参数和一个指定污染程度的参数。重要的是,这些参数不必预先指定,这为我们的方法增加了灵活性。通过对分量协方差矩阵的特征分解引入简约性,并给出了该族所有成员可辨识的充分条件。本文概述了一种用于参数估计的期望条件最大化算法,并讨论了各种实现问题。通过大规模仿真研究,研究了该方法的性能,并与已有的有限混合方法进行了比较。这种新型模型族的性能也在人工数据和实际数据上进行了说明。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62H30型 分类和区分;聚类分析(统计方面)
10层62层 点估计
62-07 数据分析(统计)(MSC2010)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aggarwal,C.C.(2013)。离群值分析。纽约州纽约州施普林格·Zbl 1291.68004号
[2] 艾特肯(1926)。代数方程和超越方程根的级数公式。《爱丁堡皇家学会会刊》,4514-22。
[3] Aitkin,M.和Wilson,G.T.(1980)。混合模型、离群值和EM算法。技术计量22,325-331·Zbl 0466.62034号
[4] Andrews,J.L.和McNicholas,P.D.(2012年)。基于模型的聚类、分类和多元t分布判别分析:tEIGEN家族。统计与计算221021-1029·Zbl 1252.62062号
[5] Andrews,J.L.、Wickins,J.R.、Boers,N.M.和McNicholas,P.D.(2015)。teigen:基于模型的聚类和分类,具有多元t分布。2.1.0版(2015年11月20日)。统一资源定位地址http://CRAN.R网站‐project.org/package=teigen
[6] Bagnato,L.和Punzo,A.(2013年)。单峰β和γ密度的有限混合以及k‐bumps算法。计算统计281571-1597·Zbl 1306.65024号
[7] Bai,X.、Yao,W.和Boyer,J.E.(2012)。混合回归模型的稳健拟合。计算统计与数据分析56,2347-2359·Zbl 1252.62011年
[8] Banfield,J.D.和Raftery,A.E.(1993年)。基于模型的高斯和非高斯聚类。生物计量学49803-821·兹比尔0794.62034
[9] Barnett,V.和Lewis,T.(1994年)。统计数据中的异常值。概率统计威利级数。英国奇切斯特:John Wiley&Sons·Zbl 0801.62001
[10] Becker,C.和Gather,U.(1999年)。多元异常值识别规则的掩蔽分解点。《美国统计协会杂志》94947-955·Zbl 1072.62600号
[11] Berkane,M.和Bentler,P.M.(1988)。多元数据中污染参数的估计和异常值的识别。社会学方法与研究17,55-64。
[12] Biernacki,C.(2004)。防止高斯混合函数退化的可能性的渐近上界。法国贝桑松法兰西大学技术代表。
[13] Biernacki,C.、Celeux,G.和Govaert,G.(2003年)。为EM算法选择初始值,以获得多元高斯混合模型中的最大似然。计算统计与数据分析41,561-575·Zbl 1429.62235号
[14] Biernacki,C.、Celeux,G.、Govaert,G.,Langrognet,F.、Noulin,G.和Vernaz,Y.(2008)\(\mathsf{MIXMOD}\)‐统计文件。可从下载http://www.mixmod.org/IMG/pdf/statdoc_2_1.pdf。
[15] Biernacki,C.和Chrétien,S.(2003年)。带有EM的单变量高斯混合函数最大似然估计中的退化。统计学和概率字母61,373-382·Zbl 1038.62023号
[16] Bock,H.H.(2002)。聚类方法:从经典模型到新方法。转型统计5725-758。
[17] Böhning,D.(2000)。混合物的计算机辅助分析和应用:荟萃分析、疾病绘图和其他。统计学和应用概率专著第81卷。查普曼和霍尔/CRC,英国伦敦·Zbl 0951.62088号
[18] Böhning,D.,Dietz,E.,Schaub,R.,Schlattmann,P.和Lindsay,B.(1994)。单参数指数族密度混合物的似然比分布。《统计数学研究所年鉴》46,373-388·兹比尔0802.62017
[19] Böhning,D.和Ruangroj,R.(2002)。关于标度污染正态分布到最佳正态分布的最大偏差的注释。Metrika55,177-182·Zbl 1320.62035号
[20] Browne,R.P.和McNicholas,P.D.(2014)。估计高维中的常见主成分。数据分析和分类的进展8,217-226·Zbl 1474.62183号
[21] Browne,R.P.和McNicholas,P.D.(2015)。混合:用于聚类和分类的混合模型。版本1.4(2015年3月10日)。统一资源定位地址http://CRAN.R网站‐project.org/package=混合物
[22] Browne,R.P.、McNicholas,P.D.和Sparling,M.D.(2012)。使用高斯分布和均匀分布混合的基于模型的学习。IEEE模式分析和机器智能汇刊34,814-817。
[23] Browne,R.P.、Subedi,S.和McNicholas,P.D.(2013)。高斯简约聚类模型子集的约束优化。arXiv.org电子版1306.5824,网址:http://arxiv.org/abs/1306.5824。
[24] Byers,S.和Raftery,A.E.(1998年)。用于估计空间点过程中特征的最近邻杂波消除。《美国统计协会杂志》93,577-584·Zbl 0926.62089号
[25] 坎贝尔,N.A.(1984)。混合模型和非典型值。数学地质学16,465-477。
[26] 坎贝尔,N.A.和马洪,R.J.(1974)。纤毛蟹属两种岩蟹变异的多元研究。澳大利亚动物学杂志22,417-425。
[27] Celeux,G.和Govaert,G.(1995年)。高斯简约聚类模型。模式识别28,781-793。
[28] Celeux,G.、Hurn,M.和Robert,C.P.(2000年)。混合后验分布的计算和推断困难。《美国统计协会杂志》95,957-970·Zbl 0999.62020号
[29] Coretto,P.和Hennig,C.(2011年)。高斯分布和均匀分布的异质混合物的最大似然估计。《统计规划与推断杂志》141,462-473·Zbl 1203.62017年
[30] Coretto,P.和Hennig,C.(2015)。稳健不当最大似然:调整、计算以及与稳健高斯聚类的其他方法的比较。arXiv.org电子版1406.0808,网址:http://arxiv.org/abs/1406.0808。
[31] Crawford,S.L.(1994)。拉普拉斯方法在有限混合分布中的应用。《美国统计协会杂志》89,259-267·Zbl 0795.62022号
[32] Cuesta‐Albertos,J.A.、Gordaliza,A.和Matrán,C.(1997)。Trimmed k‐means:尝试增强量化器。《统计年鉴》25553-576·Zbl 0878.62045号
[33] Davies,L.和Gather,U.(1993年)。多个异常值的识别。《美国统计协会杂志》88,782-792·Zbl 0797.62025号
[34] De Veaux,R.D.和Krieger,A.M.(1990)。正态混合物的稳健估计。统计与概率信件10,1-7。
[35] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977年)。通过EM算法从不完整数据中获得最大似然。英国皇家统计学会杂志:B39系列,1-38·Zbl 0364.62022号
[36] Di Zio,M.、Guarnera,U.和Rocci,R.(2007)。分类问题的混合模型:单位度量误差。计算统计与数据分析51,2573-2585·Zbl 1161.62373号
[37] Flury,B.N.和Gautschi,W.(1986年)。将几个正定矩阵同时正交变换为近似对角形式的算法。SIAM科学与统计计算杂志7169-184·Zbl 0614.65043号
[38] Forina,M.、Leardi,R.、Armanino,C.和Lanteri,S.(1998)。PARVUS:用于数据探索、分类和关联的可扩展包。IT热那亚制药和食品分析技术研究所技术代表。
[39] Fraley,C.和Raftery,A.E.(1998年)。有多少簇?哪种聚类方法?通过基于模型的聚类分析得出答案。计算机日志41578-588·兹伯利0920.68038
[40] Fraley,C.、Raftery,A.E.、Murphy,T.B.和Scrucca,L.(2012)。mclust版本4 for R:基于模型的聚类、分类和密度估计的正态混合建模。华盛顿大学统计系技术报告597,西雅图,华盛顿州。
[41] Fraley,C.、Raftery,A.E.、Scrucca,L.、Murphy,T.B.和Fop,M.(2015)。mclust:基于模型的聚类、分类和密度估计的正态混合建模。版本5.1(2015年10月27日)。统一资源定位地址http://CRAN.R网站‐project.org/package=mclust项目
[42] Gallegos,M.T.和Ritter,G.(2005)。一种稳健的聚类分析方法。统计年鉴33347-380·Zbl 1064.62074号
[43] Gallegos,M.T.和Ritter,G.(2009年)。污染混合物的修正最大似然估计。桑基拉:《印度统计杂志》,A71系列,164-220·Zbl 1193.62021号
[44] García‐Escudero,L.a.和Gordaliza,a.(1999)。k均值和修剪k均值的鲁棒性。《美国统计协会杂志》94,956-969·Zbl 1072.62547号
[45] García‐Escudero,L.a.、Gordaliza,a.和Matrán,C.(2003)。探索性数据分析中的修剪工具。计算与图形统计杂志12,434-449。
[46] García‐Escudero,L.a.、Gordaliza,a.、Matrán,C.和Mayo‐Iscar,a.(2008)。稳健聚类分析的一般修正方法。《统计年鉴》361324-1345·Zbl 1360.62328号
[47] García‐Escudero,L.a.、Gordaliza,a.、Matrán,C.和Mayo‐Iscar,a.(2010年)。鲁棒聚类方法综述。数据分析和分类进展4,89-109·Zbl 1284.62375号
[48] Gerogannis,D.、Nikou,C.和Likas,A.(2009年)。学生t分布的混合作为刚性注册的稳健框架。图像与视觉计算271285-1294。
[49] Hartigan,J.A.(1985)。聚类中的统计理论。分类杂志2,63-76·Zbl 0575.62058号
[50] Hastie,T.和Tibshirani,R.(1996年)。高斯混合判别分析。英国皇家统计学会期刊:B58系列,155-176·兹比尔0850.62476
[51] Hathaway,R.J.(1986年)。一元正态混合的约束EM算法。统计计算与模拟杂志23,211-230。
[52] Hawkins,D.(2013)。异常值的识别。统计学和应用概率专著。荷兰施普林格。
[53] Hennig,C.(2002年)。线性回归的不动点簇:计算和比较。分类杂志19,249-276·Zbl 1017.62057号
[54] Hennig,C.(2004)。位置-尺度混合的最大似然估计的分解点。《统计年鉴》32,1313-1340·Zbl 1047.62063号
[55] Hennig,C.和Hausdorf,B.(2015)。prabclus:存在-缺失、丰度和多地点遗传数据的聚类功能。版本2.2-6(2015年1月14日)。统一资源定位地址http://CRAN.R网站‐project.org/package=prabclus
[56] Holzmann,H.、Munk,A.和Gneiting,T.(2006)。椭圆分布有限混合的可识别性。斯堪的纳维亚统计杂志33753-763·Zbl 1164.62354号
[57] Hunter,D.R.和Lange,K.(2000年)。再次讨论“使用替代目标函数的优化转移”。计算与图形统计杂志9,52-59。
[58] Hurley,C.(2004)。多元数据的聚类可视化。计算与图形统计杂志13,788-806。
[59] Ingrassia,S.(2004)。多元正态混合模型的基于似然的约束算法。统计方法与应用13,151-166·Zbl 1205.62066号
[60] Ingrassia,S.和Rocci,R.(2007年)。多元高斯有限混合的约束单调em算法。计算统计与数据分析51,5339-5351·Zbl 1445.62116号
[61] Ingrassia,S.和Rocci,R.(2011年)。多元高斯混合和动态约束的mle EM算法的退化性。计算统计与数据分析55,1715-1725·Zbl 1328.65030号
[62] Karlis,D.和Xekalaki,E.(2003年)。为有限混合的EM算法选择初始值。计算统计与数据分析41,577-590·Zbl 1429.62082号
[63] Lebret,R.、Iovleff,S.、Langrognet,F.、Biernacki,C.、Celeux,G.和Govaert,G.(2012年)。Rmixmod:基于模型的无监督、监督和半监督分类Mixmod库的R包。
[64] Li,J.(2005)。基于多层混合模型的聚类。计算与图形统计杂志14,547-568。
[65] Little,R.J.A.(1988年)。根据缺失值的数据对均值和协方差矩阵进行稳健估计。应用统计37,23-38·Zbl 0647.62040号
[66] Lo,Y.(2005)。方差不等的正态混合物中成分数量的似然比检验。统计与概率快报71、225-235·Zbl 1065.62024号
[67] Lo,Y.(2008)。同方差正态混合物与异方差正态混合的似然比检验。统计与计算18,233-240。
[68] Lo,Y.,Mendell,N.R.和Rubin,D.B.(2001)。测试正常混合物中的组分数量。生物特征88,767-778·Zbl 0985.62019号
[69] Markatou,M.(2000年)。混合模型、稳健性和加权似然法。生物统计学56,483-486·Zbl 1060.62511号
[70] McLachlan,G.和Krishnan,T.(2007年)。EM算法和扩展(第2版)。《概率统计威利系列》第382卷。John Wiley&Sons,纽约。
[71] McLachlan,G.J.和Basford,K.E.(1988年)。《混合模型:聚类的推断和应用》,Marcel Dekker,纽约州纽约市·Zbl 0697.62050号
[72] McLachlan,G.J.和Peel,D.(1998)。通过多元t分布混合进行稳健聚类分析。收录人:Amin,A.(编辑)、Dori,D.(编辑),Pudil,P.(编辑)和Freeman,H.(编)(编辑)《模式识别进展》。计算机科学讲义第1451卷。柏林-海德堡施普林格出版社,第658-666页。
[73] McLachlan,G.J.和Peel,D.(2000)。有限混合模型。John Wiley&Sons,纽约州纽约市·Zbl 0963.62061号
[74] McNicholas,P.D.(2010年)。使用潜在高斯混合模型的基于模型的分类。《统计规划与推断杂志》140,1175-1181·Zbl 1181.62095号
[75] McNicholas,P.D.(2016)。基于混合模型的分类。查普曼和霍尔/CRC出版社,佛罗里达州博卡拉顿。
[76] McNicholas,P.D.、Murphy,T.B.、McDaid,A.F.和Frost,D.(2010年)。通过简约高斯混合模型实现基于模型的聚类的串行和并行实现。计算统计与数据分析54,711-723·Zbl 1464.62131号
[77] 孟,X.‐L。和Rubin,D.B.(1993年)。通过ECM算法的最大似然估计:一般框架。生物特征80,267-278·Zbl 0778.62022号
[78] Peel,D.和McLachlan,G.J.(2000)。使用t分布的稳健混合建模。统计与计算10,339-348。
[79] Punzo,A.、Browne,R.P.和McNicholas,P.D.(2016)。混合模型选择的假设检验。统计计算与模拟杂志。86, 2797-2818 ·Zbl 07184768号
[80] Punzo,A.、Mazza,A.和McNicholas,P.D.(2015)。污染混合:基于模型的多变量污染正态分布聚类和分类。1.0版(2015年12月20日)。统一资源定位地址http://CRAN.R网站‐project.org/package=污染混合物。
[81] R核心团队(2015)。R: 统计计算语言和环境。R统计计算基金会,奥地利维也纳。URL网址:http://www.R‐project.org/。
[82] Raftery,A.E.(1995)。社会研究中的贝叶斯模型选择。社会学方法25,111-164。
[83] Ritter,G.(2015)。稳健聚类分析和变量选择。查普曼和霍尔/CRC统计学与应用概率专著第137卷。CRC出版社:佛罗里达州博卡拉顿·Zbl 1341.62037号
[84] Ruwet,C.、García‐Escudero,L.a.、Gordaliza,a.和Mayo‐Iscar,a.(2012)。tclust鲁棒聚类过程的影响函数。数据分析和分类进展6,107-130·Zbl 1255.62182号
[85] Ruwet,C.、García‐Escudero,L.a.、Gordaliza,a.和Mayo‐Iscar,a.(2013)。关于tclust聚类过程的崩溃行为。测试22466-487·Zbl 1273.62146号
[86] Schwarz,G.(1978年)。估算模型的维度。统计年鉴461-464·Zbl 0379.62005年
[87] Stephens,M.(2000年)。处理混合模型中的标签切换。英国皇家统计学会杂志。B系列:统计方法62,795-809·Zbl 0957.62020号
[88] Teicher,H.(1963年)。有限混合的可识别性。《数理统计年鉴》341265-1269·Zbl 0137.12704号
[89] Tukey,J.W.(1960年)。污染分布抽样调查。收录于:Olkin,I.(编辑)(编辑),《概率与统计的贡献:哈罗德·霍特林的论文》。斯坦福大学数学与统计研究。斯坦福大学出版社,加利福尼亚州,第39章,第448-485页·兹比尔0201.52803
[90] Verdinelli,I.和Wasserman,L.(1991)。使用吉布斯采样器对异常值问题进行贝叶斯分析。统计与计算1,105-117。
[91] Wolfe,J.H.(1965)。用于类型最大似然分析的计算机程序。技术公告65-15,美国海军人员研究活动。
[92] Yakowitz,S.J.和Spragins,J.D.(1968年)。关于有限混合的可识别性。《数理统计年鉴》39209-214·兹伯利0155.25703
[93] Yao,W.(2012)。混合模型的基于模型的标签。统计与计算22,337-347·Zbl 1322.62047号
[94] Yao,W.、Wei,Y.和Yu,C.(2014)。使用t分布的稳健混合回归。计算统计与数据分析71、116-127·Zbl 1471.62227号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。