×

通过重尾分布的新的简约混合实现基于模型的聚类。 (英语) Zbl 1490.62164号

摘要:为了进行基于模型的聚类,引入了两类简约混合模型。它们基于两种多元分布——移位指数正态分布和尾部膨胀正态分布,这两种分布是近年来文献中作为多元正态分布的重尾推广而引入的。简约性是通过分量尺度矩阵的特征分解以及对尾部参数施加约束来实现的。还提供了可识别性条件。提出了两种用于最大似然参数估计的期望最大化算法。通过仿真研究研究了参数恢复和聚类性能。副产品是与无约束混合模型的比较。我们进行了进一步的模拟分析,以评估我们和一些公认的吝啬竞争对手对自己的生成方案的敏感性。最后,根据三个实际数据集的拟合和聚类,对我们的模型和竞争模型进行了评估。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
10层62层 点估计
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abramowitz,M.,Stegun,I.A.:数学函数手册,包括公式、图形和数学表。In:美国商务部,国家标准局应用数学系列55(1965)·Zbl 0171.38503号
[2] 安德鲁斯,JL;McNicholas,PD,基于模型的聚类、分类和通过多元(t)分布混合的判别分析:(t)EIGEN家族,统计计算。,22, 5, 1021-1029 (2012) ·Zbl 1252.62062号 ·doi:10.1007/s11222-011-9272-x
[3] 安德鲁斯,JL;威金斯,JR;新墨西哥州波尔斯;McNicholas,PD,teigen:通过多元分布进行基于模型的聚类和分类的R包,J.Stat.Softw。,83, 7, 1-32 (2018) ·doi:10.18637/jss.v083.i07
[4] 阿诺德,不列颠哥伦比亚省;Beaver,RJ,The Skew-Cauchy分布,Stat.Probab Lett。,49, 3, 285-290 (2000) ·Zbl 0969.62037号 ·doi:10.1016/S0167-7152(00)00059-6
[5] JD Banfield;Raftery,AE,基于模型的高斯和非高斯聚类,生物统计学,49,3,803-821(1993)·Zbl 0794.62034号 ·doi:10.2307/2532201
[6] Bhattacharyya,A.,关于由概率分布定义的两个统计总体之间差异的度量,Bull。加尔各答数学。学会,35,99-109(1943)·Zbl 0063.00364号
[7] 比尔纳基,C。;Celeux,G。;Govaert,G.,《用综合完全似然评估聚类的混合模型》,IEEE Trans。模式分析。机器。智力。,22, 7, 719-725 (2000) ·doi:10.1109/34.865189
[8] 比尔纳基,C。;Celeux,G。;Govaert,G.,为EM算法选择初始值,以获得多元高斯混合模型中的最大似然,计算。统计数据分析。,41, 561-575 (2003) ·Zbl 1429.62235号 ·doi:10.1016/S0167-9473(02)00163-9
[9] 布朗,RP;McNicholas,PD,《高维常见主成分估计》,高级数据分析。分类。,8, 2, 217-226 (2014) ·Zbl 1474.62183号 ·doi:10.1007/s11634-013-0139-1
[10] Cannon,A.,Cobb,G.,Hartlaub,B.,Legler,J.,Lock,R.,Moore,T.,Rossman,A.,Witmer,J.:Stat2Data:Stat2的数据集。https://CRAN.R-project.org/package=Stat2Data,r包版本2.0.0(2019)
[11] Celeux,G。;Govaert,G.,高斯简约聚类模型,模式识别。,28, 5, 781-793 (1995) ·doi:10.1016/0031-3203(94)00125-6
[12] UJ Dang;Browne,RP;McNicholas,PD,多元幂指数分布的混合,生物统计学,71,4,1081-1089(2015)·Zbl 1419.62330号 ·doi:10.1111/biom.12351
[13] UJ Dang;Punzo,A。;麦克尼古拉斯,PD;Ingrassia,S.公司。;Browne,RP,高斯加权模型的多元响应和简约性,J.Classif。,34, 1, 4-34 (2017) ·Zbl 1364.62149号 ·doi:10.1007/s00357-017-9221-2
[14] Dang,U.J.,Gallaugher,M.P.B.,Browne,R.P.,McNicholas,P.D.:混合SPE:幂指数分布和偏斜幂指数分布的混合,用于基于模型的聚类和分类。https://CRAN.R-project.org/package=mixSPE,r包版本0.1.1(2019)
[15] 阿联酋登普斯特;新墨西哥州莱尔德;Rubin,DB,通过EM算法从不完整数据中获得最大似然,J.R.Stat.Soc.Ser。B(Stat.Methodol.),第39、1、1-38页(1977年)·Zbl 0364.62022号
[16] Farcomeni,A。;Punzo,A.,基于稳健模型的轻度和严重异常值聚类,TEST,29989-1007(2020)·Zbl 1474.62222号 ·数字对象标识代码:10.1007/s11749-019-00693-z
[17] Flury,BN,《常见主成分和相关多元模型》(1988),纽约:Wiley,纽约·Zbl 1081.62535号
[18] Frühwirth-Schnatter,S.,有限混合和马尔可夫转换模型(2006),纽约:Springer,纽约·Zbl 1108.6202号
[19] Fukunaga,K.:统计模式识别。摘自:《模式识别和计算机视觉手册》,《世界科学》,第33-60页(1993年)
[20] 格雷塞林,F。;Punzo,A.,评估协方差矩阵相似性的闭似然比测试程序,Am.Stat.,67,3117-128(2013)·Zbl 07649195号 ·doi:10.1080/00031305.2013.791643
[21] 格雷塞林,F。;Ingrassia,S.公司。;Punzo,A.,通过增强多重测试程序评估协方差矩阵的模式,统计方法应用。,20, 2, 141-170 (2011) ·Zbl 1232.62090号 ·doi:10.1007/s10260-010-0157-5
[22] 霍尔兹曼,H。;Munk,A。;Gneiting,T.,椭圆分布有限混合的可识别性,扫描。《统计杂志》,33、4、753-763(2006)·Zbl 1164.62354号 ·网址:10.1111/j.1467-9469.2006.00505.x
[23] 休伯特,L。;Arabie,P.,比较分区,J.Classif。,2, 1, 193-218 (1985) ·doi:10.1007/BF01908075
[24] Kiers,HA,为解决各种矩阵优化问题建立交替最小二乘和迭代优化算法,计算。统计数据分析。,41, 1, 157-170 (2002) ·Zbl 1018.65074号 ·doi:10.1016/S0167-9473(02)00142-1
[25] 李,SX;McLachlan,GJ,基于模型的非正态混合分布聚类和分类,统计方法应用。,22, 4, 427-454 (2013) ·Zbl 1332.62209号 ·doi:10.1007/s10260-013-0237-4
[26] 李,M。;项,S。;Yao,W.,线性回归模型混合物成分数量的稳健估计,计算。统计,31,4,1539-1555(2016)·Zbl 1348.65032号 ·doi:10.1007/s00180-015-0610-x
[27] 林赛,B.G.:《混合物模型:理论、几何和应用》,第5卷。收录于:加利福尼亚州海沃德数理统计研究所(1995年),NSF-CBMS概率与统计区域会议系列·Zbl 1163.62326号
[28] Mazza,A。;Punzo,A.,多元污染正态回归模型的混合,Stat.Pap。,61, 2, 787-822 (2020) ·Zbl 1435.62238号 ·doi:10.1007/s00362-017-0964-y
[29] 孟,XL;Van Dyk,D.,《EM算法——一首旧民歌,以快速的新曲调演唱(有讨论)》,J.R.Stat.Soc.B,59,3,511-567(1997)·Zbl 1090.62518号 ·doi:10.111/1467-9868.00082
[30] Misra,R.D.:关于晶格的稳定性。二、。摘自:《剑桥哲学学会数学学报》,剑桥大学出版社36,173-182(1940)
[31] 穆勒,H.C.,伯杰,D.D.,阿列兹,G.P:锐利鹰大小的年龄和性别差异。鸟类环志第34-44页(1979年a)
[32] 穆勒,HC;伯杰,DD;Allez,G.,《北美食蚁兽的识别》,《美国鸟类》,第33、3、236-240页(1979年)
[33] Ogawa,A.,Takahashi,S.:基于hmm的声学模型中有效减少高斯混合成分的加权距离度量。2008年IEEE国际声学会议,第4173-4176页。语音和信号处理,IEEE(2008)
[34] 皮,D。;McLachlan,GJ,使用t分布的稳健混合建模,统计计算。,10, 4, 339-348 (2000) ·doi:10.1023/A:1008981510081
[35] Punzo,A。;Bagnato,L.,使用多元移动指数正态分布的异速生长分析,Biom。J.,62,6,1525-1543(2020)·Zbl 1448.62184号 ·doi:10.1002/bimj.201900248
[36] Punzo,A。;Bagnato,L.,《多元尾胀正态分布及其在金融中的应用》,J.Stat.Compute。模拟。,91, 1, 1-36 (2021) ·兹伯利07488066 ·网址:10.1080/00949655.2020.1805451
[37] Punzo,A。;McNicholas,PD,多元污染正态分布的节俭混合物,生物。J.,58,6,1506-1537(2016)·Zbl 1353.62124号 ·doi:10.1002/bimj.201500144
[38] Punzo,A。;McNicholas,PD,通过污染高斯聚类加权模型进行回归分析中的稳健聚类,J.Classif。,34, 2, 249-293 (2017) ·Zbl 1373.62316号 ·数字对象标识代码:10.1007/s00357-017-9234-x
[39] Punzo,A。;Browne,RP;McNicholas,PD,混合模型选择的假设检验,J.Stat.Compute。模拟。,86, 14, 2797-2818 (2016) ·兹比尔07184768 ·doi:10.1080/00949655.2015.1131282
[40] Punzo,A。;Mazza,A。;McNicholas,PD,《污染混合:拟合多元污染正态分布简约混合的R包》,J.Stat.Softw。,85, 10, 1-25 (2018) ·doi:10.18637/jss.v085.i10
[41] R核心团队R:统计计算的语言和环境。奥地利维也纳R统计计算基金会(2019年)
[42] Robnik-Sikonja,M.,Savicky,P.:CORElearn:分类、回归和特征评估。https://CRAN.R-project.org/package=CORElearn公司,r包版本1.56.0(2021)
[43] Schwarz,G.,估算模型的维数,《Ann.Stat.》,6,2,461-464(1978)·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[44] Sonsthagen,SA;罗森菲尔德,注册护士;Bielefeldt,J。;墨菲,RK;AC斯图尔特;斯托特,WE;Driscoll,TG;马萨诸塞州博泽克;斯洛斯,BL;Talbot,SL,北美西北部和西部繁殖的库珀鹰(accipiter cooperii)种群之间的遗传和形态差异,Auk,129,3,427-437(2012)·doi:10.2525/2016年12月12日
[45] Titterington,DM;史密斯,AFM;Makov,UE,《有限混合分布的统计分析》(1985),纽约:Wiley,纽约·Zbl 0646.62013.中
[46] Tomarchio,S.D.,Punzo,A.,Bagnato,L.:两种新的矩阵变量分布及其在基于模型的聚类中的应用。计算。统计数据分析。第107050页(2020年)·Zbl 1510.62235号
[47] Tomarchio,S.D,Luca,B.,Punzo,A.:SenTinMixt:MSEN和MTIN分布的简约混合。https://CRAN.R-project.org/package=SenTinMixt,R包版本1.0.0(2021)
[48] Wang,S.,Yao,W.,Huang,M.:关于glms的非参数和半参数混合的可识别性的注记。《统计与概率快报》93,41-45(2014)。doi:10.1016/j.spl.2014.06.010。https://www.sciencedirect.com/science/article/pii/S0167715214002120 ·Zbl 1400.62159号
[49] Weisberg,S.:应用线性回归,第4版。新泽西州霍博肯市威利,http://z.umn.edu/alr4ed (2014) ·Zbl 1281.62015年
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。