×

具有异常值的非对称数据聚类:正态分布的污染平均混合的简约混合。 (英语) Zbl 1522.62056号

摘要:混合建模已成为一种统计工具,用于对异构数据进行基于模型的无监督聚类。设计了一个使用污染正态分布均值混合作为混合模型组件的框架,以适应具有离群值的不对称数据。通过采用分量尺度矩阵的特征值分解,引入了假设模型的14个简约变量。同时聚类和离群点检测是该模型在分析非正态分布数据时的一个突出优点。概述了一种计算上可行且灵活的EM型算法,用于获得最大似然参数估计。此外,通过提供基于信息的方法,导出了用于计算参数估计的渐近标准误差的得分向量和经验信息矩阵。通过对具有不同比例离群值的模拟数据集和实际数据集的分析,验证了该方法的适用性。

MSC公司:

62H30型 分类和歧视;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Redner,R.A。;Walker,H.F.,《混合密度、最大似然和EM算法》,SIAM Rev.,26,2,195-239(1984)·Zbl 0536.62021号
[2] Punzo,A。;McNicholas,P.D.,多元污染正态分布的节俭混合物,生物。J.,58,6,1506-1537(2016)·Zbl 1353.62124号
[3] 纳德里,M。;洪,W.-L。;林,T.-I。;Jamalizadeh,A.,使用Birnbaum-saunders分布的多元正态均值-方差混合的新混合模型及其在太阳系外行星中的应用,J.multivariate Anal。,171, 126-138 (2019) ·Zbl 1417.62176号
[4] 莫里斯,K。;Punzo,A。;医学博士麦克尼古拉斯。;Browne,R.P.,《非对称簇和离群值:多元污染移位非对称拉普拉斯分布的混合》,计算。统计数据分析。,132, 145-166 (2019) ·Zbl 1507.62136号
[5] Farcomeni,A。;Punzo,A.,具有轻度和严重异常值的稳健基于模型的聚类,TEST,29,4989-1007(2019)·Zbl 1474.62222号
[6] Naderi,M。;哈希米,F。;Bekker,A。;Jamalizadeh,A.,《右偏金融数据流建模:基于广义birnbaum-saunders混合模型的似然推断》,应用。数学。计算。,376,第125109条pp.(2020)·Zbl 1475.62251号
[7] Celeux,G。;Govaert,G.,高斯简约聚类模型,模式识别。,28, 5, 781-793 (1995)
[8] Benaglia,T。;乔沃,D。;Hunter,D.R.,《多元混合物中半参数和非参数估计的类EM算法》,J.Compute。图表。统计人员。,18, 2, 505-526 (2009)
[9] Azzalini,A.,包含正态分布的一类分布,Scand。《J Stat.》,171-178(1985)·兹伯利0581.62014
[10] 维尔卡,F。;Balakrishnan,N。;Zeller,C.B.,《多元偏正态广义双曲分布及其性质》,《多元分析杂志》。,128, 73-85 (2014) ·Zbl 1352.62080号
[11] 巴索·R·M。;拉科斯,V.H。;卡布拉尔,C.R.B。;Ghosh,P.,基于偏态正态分布比例混合的稳健混合建模,计算。统计师。数据分析。,54, 12, 2926-2941 (2010) ·Zbl 1284.62193号
[12] 卡布拉尔,C.R.B。;拉科斯,V.H。;Prates,M.O.,使用偏态正态独立分布的多元混合建模,计算。统计师。数据分析。,56, 1, 126-142 (2012) ·Zbl 1239.62058号
[13] 尼加雷斯塔尼,H。;Jamalizadeh,A。;沙菲伊,S。;Balakrishnan,N.,正态分布的平均混合:性质、推论和应用,Metrika,82,4,501-528(2019)·Zbl 1481.60026号
[14] 哈希米,F。;Naderi,M。;Jamalizadeh,A。;Bekker,A.,基于正态分布均值类的灵活因子分析,计算。统计数据分析。,第157条,第107162页(2021)·Zbl 1510.62276号
[15] 纳德里,M。;Bekker,A。;Arashi,M。;Jamalizadeh,A。;Zanotta,D.C.,《基于正态模型矩阵变量均值的陆地卫星数据建模理论框架》,《公共科学图书馆·综合》,第15、4期,文章e0230773 pp.(2020)
[16] 麦克尼尔,A.J。;弗雷,R。;Embrachts,P.,《定量风险管理:概念、技术和工具——修订版》(2015),普林斯顿大学出版社·Zbl 1337.91003号
[17] Dempster,A.P。;莱尔德,新墨西哥州。;Rubin,D.B.,《通过EM算法从不完整数据中获得最大似然》,J.R.Stat.Soc.Ser。B统计方法。,39, 1, 1-22 (1977) ·Zbl 0364.62022号
[18] Jones,M.,《关于带形状参数的分布族》,国际出版社。统计师。版次:83、2、175-192(2014年)·Zbl 07763428号
[19] 理查森,S。;Green,P.J.,《关于成分数量未知的混合物的贝叶斯分析》(带讨论),J.R.Stat.Soc.Ser。B统计方法。,59, 4, 731-792 (1997) ·Zbl 0891.62020号
[20] 刘,C。;Rubin,D.B.,《ECME算法:EM和ECM的简单扩展,具有更快的单调收敛性》,Biometrika,81,4,633-648(1994)·Zbl 0812.62028号
[21] 孟,X.-L。;Rubin,D.B.,《通过ECM算法的最大似然估计:一般框架》,《生物特征识别》,80,2,267-278(1993)·Zbl 0778.62022号
[22] Banfield,J.D。;Raftery,A.E.,基于模型的高斯和非高斯聚类,生物统计学,803-821(1993)·Zbl 0794.62034号
[23] Basford,K。;Greenway,D。;McLachlan,G.J。;Peel,D.,正常混合模型下拟合平均值的标准误差,计算。统计人员。,12、1-17、5If(1997)·Zbl 0924.62055号
[24] Meilijson,I.,对EM算法本身的快速改进,J.R.Stat.Soc.Ser。B统计方法。,51, 1, 127-138 (1989) ·Zbl 0674.65118号
[25] Louis,T.A.,《使用EM算法时发现观测信息矩阵》,J.R.Stat.Soc.Ser。B统计方法。,44,226-233(1982年)·Zbl 0488.62018号
[26] 艾特肯,A.C.,《关于伯努利代数方程的数值解》,Proc。罗伊。爱丁堡州立大学,46,289-305(1927)
[27] Lindsay,B.G.,混合模型:理论、几何和应用,(NSF-CBMS概率与统计学区域会议系列(1995),JSTOR),i-163·Zbl 1163.62326号
[28] Schwarz,G.,估算模型的维数,Ann.Statist。,461-464 (1978) ·Zbl 0379.62005年
[29] 休伯特,L。;Arabie,P.,比较分区,J.分类,2,1,193-218(1985)
[30] Birnbaum,Z.W。;Saunders,S.C.,《生命分布的新家族》,J.Appl。概率。,6, 2, 319-327 (1969) ·Zbl 0209.49801号
[31] Villasenor Alva,J.A。;Estrada,E.G.,Shapiro-Wilk多元正态性检验的推广,Comm.Statist。理论方法,38,11,1870-1883(2009)·兹比尔1167.62406
[32] E.米法拉。;纳德里,M。;Chen,D.-G.,删失数据的线性专家混合模型:正态分布标度的新方法,计算。统计数据分析。,第158条,第107182页(2021)·Zbl 1510.62281号
[33] de Alencar,F.H.C。;加拉萨,C.E。;洛杉矶马托斯。;Lachos,V.H.,《使用多元偏态分布对删失数据和缺失数据进行有限混合建模》,《高级数据分析》。分类。,16, 3, 521-557 (2021) ·Zbl 07630551号
[34] 哈希米,F。;Naderi,M。;Mashinchi,M.,《通过Birnbaum-Saunders混合模型对右旋数据流进行聚类:基于模糊聚类算法的灵活方法》,应用。软计算。,82,第105539条pp.(2019)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。