×

污染高斯聚类加权模型回归分析中的稳健聚类。 (英语) Zbl 1373.62316号

摘要:高斯聚类加权模型(CWM)是一种带有随机协变量的回归模型的混合物,允许对由响应变量和协变量组成的随机向量进行灵活聚类。在每个混合成分中,协变量和给定协变量的响应均采用高斯分布。为了使该方法对轻度非典型观测的存在具有鲁棒性,引入了污染高斯CWM。除了高斯CWM的参数外,每个混合成分都有一个控制异常值比例的参数,一个控制杠杆点的比例,一个指定响应变量的污染程度,另一个指定协方差的污染程度。重要的是,不必指定这些参数先验的,增加了方法的灵活性。此外,一旦对模型进行了估计,并将观察值分配给各个组成部分,就可以直接获得典型点、(轻度)异常值、良好杠杆点和不良杠杆点的更精细的组内分类,这些都是稳健回归分析中最重要的概念。分析了与其他基于混合物的污染模型的关系,提供了可识别条件,概述了用于参数估计的期望条件最大化算法,并讨论了各种实现和操作问题。通过蒙特卡罗实验评价了回归系数估计量的性质,并与其他方法进行了比较。还基于真实数据集进行了敏感性研究。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62层35 鲁棒性和自适应程序(参数推断)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] AITKEN,A.C.(1926),“代数和先验方程根的级数公式”,《爱丁堡皇家学会学报》,45(1),14-22·doi:10.1017/S0370164600024871
[2] AITKIN,M.和WILSON,G.T.(1980),“混合模型、异常值和EM算法”,《技术计量学》,22(3),325-331·Zbl 0466.62034号 ·doi:10.1080/00401706.1980.10486163
[3] BAGNATO,L.和PUNZO,A.(2013),“单峰β密度和伽马密度的有限混合与k-bumps算法”,计算统计学,28(4),1571-1597·Zbl 1306.65024号 ·doi:10.1007/s00180-012-0367-4
[4] BAGNATO,L.、PUNZO,A.和ZOIA,M.G.(2017),“多元线性正态分布及其在基于模型聚类中的应用”,加拿大统计杂志,45(1),95-119·Zbl 1462.62308号 ·doi:10.1002/cjs.11308
[5] BAI,X.、YAO,W.和BOYER,J.E.(2012),“混合回归模型的稳健拟合”,计算统计与数据分析,56(7),2347-2359·Zbl 1252.62011年 ·doi:10.1016/j.csda.2012.01.016
[6] BANFIELD,J.D.和RAFTERY,A.E.(1993),“基于模型的高斯和非高斯聚类”,《生物统计学》,49(3),803-821·Zbl 0794.62034号 ·doi:10.2307/2532201
[7] BERKANE,M.和BENTLER,P.M.(1988),“多元数据中污染参数的估计和异常值的识别”,社会学方法与研究,17(1),55-64·doi:10.1177/0049124188017001003
[8] BERTA,P.、INGRASIA,S.、PUNZO,A.和VITTADINI,G.(2016),“医院评估的多级聚类加权模型”,METRON,74(3),275-292·Zbl 1394.62154号 ·doi:10.1007/s40300-016-0098-3
[9] BIERNACKI,C.、CELEUX,G.和GOVAERT,G.(2003),“为EM算法选择初始值以获得多元高斯混合模型中的最大似然”,计算统计与数据分析,41(3-4),561-575·Zbl 1429.62235号 ·doi:10.1016/S0167-9473(02)00163-9
[10] BHNING,D.,DIETZ,E.,SCHAUB,R.,SCHLATTMANN,P.和LINDSAY,B.(1994),“单参数指数族密度混合物的似然比分布”,统计数学研究所年鉴,46(2),373-388·Zbl 0802.62017年 ·doi:10.1007/BF01720593
[11] BROWNE,R.P.,SUBEDI,S.和MCNICHOLAS,P.D.(2013),“高斯简约聚类模型子集的约束优化”,arXiv.org电子版1306.5824,网址:http://arxiv.org/abs/1306.5824。 ·Zbl 0957.62020号
[12] CELEUX,G.和GOVAERT,G.(1995),“高斯节约聚类模型”,模式识别,28(5),781-793·doi:10.1016/0031-3203(94)00125-6
[13] CELEUX,G.、HURN,M.和ROBERT,C.P.(2000),“混合后验分布的计算和推断困难”,美国统计协会杂志,95(451),957-970·Zbl 0999.62020号 ·doi:10.1080/01621459.2000.10474285
[14] CUESTA-ALBERTOS,J.A.、GORDALIZA,A.和MATRáN,C.(1997年),“Trimmed<Emphasis Type=“Italic”>k-Means:尝试稳健量化”,《统计学年鉴》,25(2),553-576·兹比尔0878.62045 ·doi:10.1214/aos/1031833664
[15] DANG,U.J.、PUNZO,A.、MCNICHOLAS,P.D.、INGRASSIA,S.和BROWNE,R.P.(2017),“高斯聚类加权模型的多元反应和简约性”,《分类杂志》,34(1),4-34·Zbl 1364.62149号 ·doi:10.1007/s00357-017-9221-2
[16] DAVIES,L.和GATHER,U.(1993),“多个异常值的识别”,《美国统计协会杂志》,88(423),782-792·Zbl 0797.62025号 ·doi:10.1080/01621459.1993.10476339
[17] DEMPSTER,A.、LAIRD,N.和RUBIN,D.(1977),“通过EM算法从不完整数据中获得最大可能性”,《皇家统计学会杂志:B辑(统计方法)》,39(1),1-38·Zbl 0364.62022号
[18] DESARBO,W.S.和CRON,W.L.(1988),“聚类线性回归的最大似然方法”,《分类杂志》,5(2),249-282·Zbl 0692.62052号 ·doi:10.1007/BF01897167
[19] FRALEY,C.、RAFTERY,A.E.、MURPHY,T.B.和SCRUCCA,L.(2012),“<Emphasis Type=“Bold”>mclust Version 4 for R:Normal Mixel Modeling for Model Based Clustering,Classification,and Density Estimation”,技术报告597,美国华盛顿大学西雅图分校统计系。
[20] FRüHWIRTH-SCHNATTER,S.(2006),有限混合和马尔可夫转换模型,纽约:Springer·Zbl 1108.6202号
[21] GALIMBERTI,G.和SOFFRITTI,G.(2014),“使用t分布有限混合的多元线性回归分析”,计算统计与数据分析,71,138-150·Zbl 1471.62070号 ·doi:10.1016/j.csda.2013.01.017
[22] GARCíA-ESCUDERO,L.A.、GORDALIZA,A.、MAYO-ISCAR,A.和SAN MARTIN,R.(2010),“通过修剪的稳健聚类线性回归”,计算统计与数据分析,54(12),3057-3069·Zbl 1284.62198号 ·doi:10.1016/j.csda.2009.07.002
[23] GARCíA-ESCUDERO,L.A.、GORDALIZA,A.、SAN MARTIN,R.、VAN AELST,S.和ZAMAR,R.(2009),“稳健线性聚类”,《皇家统计学会杂志:B辑(统计方法)》,71(1),301-318·Zbl 1231.62112号 ·文件编号:10.1111/j.1467-9868.2008.00682.x
[24] GERSHENFELD,N.(1997),“非线性推断和聚类加权建模”,《纽约科学院年鉴》,808(1),18-24·doi:10.1111/j.1749-6632.1997.tb51651.x
[25] G奥斯MEZ,E.,G奥斯梅兹-VIILEGAS,M.A.和MARIN,J.M.(1998),“幂指数分布族的多元推广”,《统计学中的通信——理论和方法》,27(3),589-600·Zbl 0895.62053号 ·doi:10.1080/03610929808832115
[26] HARRINGTON,J.(2012),lga:“线性分组分析工具(lga)”,R软件包版本1.1-1,网址:https://cran.r-project.org/web/packages/lga/index.html。
[27] HARTIGAN,J.A.(1985),“聚类中的统计理论”,《分类杂志》,2(1),63-76·兹比尔0575.62058 ·doi:10.1007/BF01908064
[28] HENNIG,C.(2000),“聚类线性回归模型的可辨识性”,《分类杂志》,17(2),273-296·Zbl 1017.62058号 ·doi:10.1007/s0035700000022
[29] HENNIG,C.(2002),“线性回归的不动点聚类:计算和比较”,《分类杂志》,19(2),249-276·Zbl 1017.62057号 ·doi:10.1007/s00357-001-0045-7
[30] HENNIG,C.(2004),“位置-尺度混合最大似然估计的分解点”,《统计年鉴》,32(4),1313-1340·Zbl 1047.62063号 ·doi:10.1214/009053604000000571
[31] INGRASSIA,S.(2004),“多元正态混合模型的基于似然的约束算法”,统计方法与应用,13(2),151-166·Zbl 1205.62066号 ·doi:10.1007/s10260-004-0092-4
[32] INGRASSIA,S.、MINOTTI,S.C.和PUNZO,A.(2014),“通过线性聚类加权模型进行基于模型的聚类”,计算统计与数据分析,71,159-182·Zbl 1471.62095号 ·doi:10.1016/j.csda.2013.02.012
[33] INGRASSIA,S.、MINOTTI,S.C.和VITTADINI,G.(2012),“利用椭圆分布的聚类加权方法进行局部统计建模”,《分类杂志》,29(3),363-401·兹比尔1360.62335 ·文件编号:10.1007/s00357-012-9114-3
[34] INGRASSIA,S.和PUNZO,A.(2016),“回归混合的决策边界”,《韩国统计学会杂志》,45(2),295-306·Zbl 1341.62181号 ·doi:10.1016/j.jkss.2015.11.005
[35] INGRASSIA,S.、PUNZO,A.、VITTADINI,G.和MINOTTI,S.C.(2015),“广义线性混合聚类加权模型”,分类杂志,32(1),85-113·Zbl 1331.62310号 ·doi:10.1007/s00357-015-9175-1
[36] INGRASSIA,S.和ROCCI,R.(2007),“多元高斯有限混合的约束单调EM算法”,计算统计与数据分析,51(11),5339-5351·Zbl 1445.62116号 ·doi:10.1016/j.csda.2006.10.011
[37] KARLIS,D.和XEKALAKI,E.(2003),“为有限混合的EM算法选择初始值”,计算统计与数据分析,41(3-4),577-590·Zbl 1429.62082号 ·doi:10.1016/S0167-9473(02)00177-9
[38] LANGE,K.L.,LITTLE,R.J.A.和TAYLOR,J.M.G.(1989),“使用<Emphasis Type=“Italic”>t分布的稳健统计建模”,《美国统计协会杂志》,84(408),881-896。
[39] LITTLE,R.J.A.(1988),“从缺失值数据中稳健估计均值和协方差矩阵”,应用统计学,37(1),23-38·Zbl 0647.62040号 ·doi:10.2307/2347491
[40] LüTKEPOHL,H.(1996),矩阵手册,奇切斯特:威利·Zbl 0856.15001号
[41] MARDIA,K.V.、KENT,J.T.和BIBBY,J.M.(1997),《多元分析、概率和数理统计》,伦敦:学术出版社·Zbl 0432.62029号
[42] MARUOTTI,A.和PUNZO,A.(2016),“带协变量和离群值的多元纵向数据的基于模型的时间序列聚类”,计算统计和数据分析,即将出版,DOI:10.1016/j.csda.2016.05.024·Zbl 1464.62128号
[43] MAZZA,A.和PUNZO,A.(2017),“多元污染正态回归模型的混合”,提交的统计论文·Zbl 1435.62238号
[44] MAZZA,A.、PUNZO,A.和INGRASSIA,S.(2017),“flexCWM:集群加权模型的灵活框架”,《统计软件杂志》,1-27·Zbl 1445.62116号
[45] MCLACHLAN,G.和KRISHNAN,T.(2007),《EM算法和扩展》(第二版),第382卷,《概率统计中的威利级数》,纽约:约翰·威利父子出版社·Zbl 0882.62012号
[46] MCLACHLAN,G.J.和BASFORD,K.E.(1988),《混合模型:聚类的推断和应用》,纽约:Marcel Dekker·Zbl 0697.62050号
[47] MCLACHLAN,G.J.和Peel,D.(2000),有限混合模型,纽约:John Wiley and Sons·Zbl 0963.62061号 ·doi:10.1002/0471721182
[48] MCNICHOLAS,P.D.(2016),《基于混合模型的分类》,博卡拉顿:查普曼和霍尔/CRC出版社·Zbl 1364.62155号 ·数字标识代码:10.1201/9781315373577
[49] MCNICHOLAS,P.D.、MURPHY,T.B.、MCDAID,A.F.和FROST,D.(2010),“通过简约高斯混合模型实现基于模型的聚类的串行和并行实现”,计算统计与数据分析,54(3),711-723·Zbl 1464.62131号 ·doi:10.1016/j.csda.2009.02.011
[50] MENG,X.-L.和RUBIN,D.B.(1993),“通过ECM算法的最大似然估计:一般框架”,生物特征,80(2),267-278·Zbl 0778.62022号 ·doi:10.1093/biomet/80.2.267
[51] NEYKOV,N.、FILZMOSER,P.、DIMOVA,R.和NEYTCHEV,P.(2007),“使用修剪似然估计对混合物进行稳健拟合”,计算统计与数据分析,52(1),299-308·Zbl 1328.62033号 ·doi:10.1016/j.csda.2006.12.024
[52] PUNZO,A.(2014),“多项式高斯聚类加权模型的柔性混合建模”,统计建模,14(3),257-291·Zbl 07257904号 ·doi:10.1177/1471082X13503455
[53] PUNZO,A.、BROWNE,R.P.和MCNICHOLAS,P.D.(2016),“混合模型选择的假设检验”,《统计计算与模拟杂志》,86(14),2797-2818·Zbl 07184768号 ·doi:10.1080/00949655.2015.1131282
[54] PUNZO,A.和INGRASSIA,S.(2013),“关于使用广义线性指数聚类加权模型评估二元数据中的局部线性独立性”,QdS-方法与应用统计学杂志,第15期,第131-144页。
[55] 宾夕法尼亚州,PUNZO。;印度。;Morlini,I.(编辑);Minerva,T.(编辑);Vichi,M.(编辑),简约广义线性高斯簇加权模型,201-209(2015),瑞士·doi:10.1007/978-3-319-17377-1_21
[56] PUNZO,A.和INGRASSIA,S.(2016),“通过聚类加权模型对双变量混合类型数据进行聚类”,计算统计学,31(3),989-1013·Zbl 1347.65030号 ·doi:10.1007/s00180-015-0600-z
[57] PUNZO,A.和MARUOTTI,A.(2016),“聚类多变量纵向观测:污染高斯隐马尔可夫模型”,计算与图形统计杂志,25(4),1097-1116·doi:10.1080/10618600.2015.1089776
[58] PUNZO,A.、MAZZA,A.和MCNICHOLAS,P.D.(2017),“<Emphasis Type=“Bold”>污染混合:用于拟合多变量污染正态分布的解析混合的R包”,《统计软件杂志》,1-25·Zbl 1364.62149号
[59] PUNZO,A.和MCNICHOLAS,P.D.(2014),“污染高斯分布的稳健高维建模”,arXiv.org电子版1408.2128,网址:http://arxiv.org/abs/1408.2128。 ·Zbl 0797.62025号
[60] PUNZO,A.和MCNICHOLAS,P.D.(2016),“多元污染正态分布的节俭混合”,《生物医学杂志》,58(6),1506-1537·Zbl 1353.62124号 ·doi:10.1002/bimj.201500144
[61] R CORE TEAM(2013),R:统计计算语言与环境,R统计计算基金会,奥地利维也纳,网址:网址:http://www.Rproject.org/ ·Zbl 1445.62116号
[62] RITTER,G.(2015),稳健聚类分析和变量选择(第137卷),查普曼和霍尔/CRC统计学和应用概率专著,博卡拉顿:CRC出版社·Zbl 1341.62037号
[63] ROUSSEUW,P.J.和DRIESSEN,K.V.(1999),“最小协方差行列式估计的快速算法”,《技术计量学》,41(3),212-223·doi:10.1080/00401706.1999.10485670
[64] ROUSSEUW,P.J.和LEROY,A.M.(2005),稳健回归和异常值检测,Wiley Series in Probability and Statistics,Wiley·Zbl 0711.62030号
[65] ROUSSEUW,P.J.和VAN ZOMEREN,B.C.(1990),“揭示多元异常值和杠杆点”,美国统计协会杂志,85(411),633-639·网址:10.1080/01621459.1990.10474920
[66] SCHWARZ,G.(1978),“估算模型的维数”,《统计年鉴》,6(2),461-464·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[67] SEO,B.和KIM,D.(2012),“正态混合模型中的根选择”,计算统计与数据分析,56(8),2454-2470·Zbl 1252.62013年 ·doi:10.1016/j.csda.2012.01.022
[68] 宋伟、姚伟、邢毅(2014),“基于拉普拉斯分布的稳健混合回归模型拟合”,计算统计与数据分析,71128-137·Zbl 1471.62189号 ·doi:10.1016/j.csda.2013.06.022
[69] STEPHENS,M.(2000),“处理混合模型中的标签转换”,《皇家统计学会期刊:B系列(统计方法论)》,62(4),795-809·Zbl 0957.62020号 ·doi:10.1111/1467-9868.00265
[70] SUBEDI,S.、PUNZO,A.、INGRASSIA,S.和MCNICHOLAS,P.D.(2013),“通过聚类加权因子分析仪进行聚类和分类”,《数据分析和分类进展》,7(1),5-40·Zbl 1271.62137号 ·doi:10.1007/s11634-013-0124-8
[71] SUBEDI,S.、PUNZO,A.、INGRASSIA,S.和MCNICHOLAS,P.D.(2015),“稳健基于模型的聚类和降维的聚类t-因子分析工具的聚类权重”,统计方法与应用,24(4),623-649·Zbl 1416.62362号 ·doi:10.1007/s10260-015-0298-7
[72] TITTERINGTON,D.M.、SMITH,A.F.M.和MAKOV,U.E.(1985),有限混合分布的统计分析,纽约:John Wiley&Sons·Zbl 0646.62013.中
[73] TUKEY,J.W.(1960年),“污染分布抽样调查”,《概率与统计贡献:哈罗德·霍特林荣誉论文》。斯坦福大学数学与统计研究,编辑I.Olkin,加利福尼亚:斯坦福大学出版社,第39章,第448-485页·兹比尔0201.52803
[74] VAN AELST,S.、WANG,X.S.、ZAMAR,R.H.和ZHU,R.(2006),“使用正交回归进行线性分组”,计算统计和数据分析,50(5),1287-1312·Zbl 1431.62273号 ·doi:10.1016/j.csda.2004.11.011
[75] WEDEL,M.(2002),“有限混合模型中的伴随变量”,《Neerlandica统计》,56(3),362-375·Zbl 1076.62531号 ·doi:10.1111/1467-9574.t01-1-00072
[76] YAO,W.(2012),“混合模型的基于模型的标签”,《统计与计算》,22(2),337-347·兹比尔1322.62047 ·doi:10.1007/s11222-010-9226-8
[77] YAO,W.和LINDSAY,B.G.(2009年),“用最高后验密度标记贝叶斯混合物”,美国统计协会杂志,104(486),758-767·Zbl 1388.62007号 ·doi:10.1198/jasa.2009.0237
[78] YAO,W.、WEI,Y.和YU,C.(2014),“使用t分布的稳健混合回归”,计算统计与数据分析,71,116-127·Zbl 1471.62227号 ·doi:10.1016/j.csda.2013.07.019
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。