×

基于混合因子分析仪的稳健、模糊和简约聚类。 (英语) Zbl 1450.62075号

摘要:提出了一种结合模糊聚类和稳健统计估值器优点的聚类算法。它基于因子分析的混合,通过在改进的最大似然法中联合使用公正的修剪和散射矩阵的约束估计来实现。该算法生成一组隶属度值,用于对数据集进行模糊划分,并有助于对混合参数进行稳健估计。采用高斯因子分析(Gaussian Factor Analysis)建模的聚类可以降低维数并发现数据中的局部线性结构。通过将其应用于人工数据,新方法已被证明能够抵抗不同类型的污染。简要讨论了调整参数,如调整水平、模糊化器参数、簇数和散布矩阵约束值,并借助一些启发式工具进行了选择。最后,对一个实际数据集进行了分析,以显示如何估计位于簇重叠处的观测值的中间隶属度值,而簇核心是由以清晰的方式分配给簇的观测值组成的。

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
62H25个 因子分析和主成分;对应分析
62小时86 多元分析与模糊性
62G32型 极值统计;尾部推断
68T05型 人工智能中的学习和自适应系统

软件:

TCLUST公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Banerjee,A。;Davé,R.N.,稳健聚类,WIRE数据挖掘知识发现(2),29-59(2012)
[2] Bezdek,J.C.,《通过模糊集进行数值分类》,J.Math。生物学,157-71(1974)·Zbl 0403.62039号
[3] Bishop,C.M.,《潜在变量模型》(Jordan,M.I.,《图形模型学习》(1998),Kluwer:Kluwer-Dordrecht),371-403·Zbl 0948.62043号
[4] Bryant,P.G.,基于优化的聚类方法的大样本结果,J.Classif。,8, 31-44 (1991) ·Zbl 0747.62057号
[5] Chang,W.,《关于在分离两个多元正态分布的混合物之前使用主成分》,J.R.Stat.Soc.,Ser。C、 申请。统计,32,3,267-275(1983)·Zbl 0538.62050号
[6] Chatzis,S。;Varvarigou,T.,因子分析-潜在子空间建模和使用\(T\)-分布的鲁棒模糊聚类,IEEE Trans。模糊系统。,17, 3, 505-517 (2009)
[7] 库克·R·D。;Weisberg,S.,回归图形介绍(1994),John Wiley&Sons:John Willey&Sons纽约·Zbl 0925.62287号
[8] Cuesta-Albertos,J.A。;Gordaliza,A。;Matrán,C.,Trimmed(k)-意指:量化器鲁棒化的尝试,《美国国家统计年鉴》,25,2,553-576(1997)·Zbl 0878.62045号
[9] Davé,R.N.,聚类中噪声的表征和检测,模式识别。莱特。,12, 657-664 (1991)
[10] Davé,R.N。;Krishnapuram,R.,《稳健聚类方法:统一视图》,IEEE Trans。模糊系统。,5, 270-293 (1997)
[11] 多托,F。;Farcomeni,A。;加西亚·埃斯库德罗,洛杉矶。;Mayo Iscar,A.,鲁棒回归聚类的模糊方法,高级数据分析。分类。,1-20 (2016)
[12] Farcomeni,A。;Greco,L.,《稳健的数据缩减方法》(2015),Chapman和Hall/CRC·Zbl 1311.62006年
[13] 弗里茨,H。;加西亚·埃斯库德罗,洛杉矶。;Mayo-Iscar,A.,鲁棒约束聚类的快速算法,计算。统计数据分析。,61, 124-136 (2013) ·兹比尔1349.62264
[14] 弗里茨,H。;加西亚·埃斯库德罗,洛杉矶。;Mayo-Iscar,A.,稳健约束模糊聚类,信息科学。,245, 38-52 (2013) ·Zbl 1321.62070号
[15] 加列戈斯,麻省理工学院。;Ritter,G.,《聚类受污染分组数据的修剪算法及其稳健性》,《高级数据分析》。分类。,3, 135-167 (2009) ·Zbl 1284.62372号
[16] 加西亚·埃斯库德罗,洛杉矶。;Gordaliza,A。;马特兰,C。;Mayo-Iscar,A.,稳健聚类分析的一般修正方法,《Ann.Stat.》,36,3,1324-1345(2008)·Zbl 1360.62328号
[17] García-Escudero,洛杉矶。;Gordaliza,A。;马特兰,C。;Mayo-Iscar,A.,《稳健聚类方法综述》,《高级数据分析》。分类。,4, 89-109 (2010) ·Zbl 1284.62375号
[18] 加西亚·埃斯库德罗,洛杉矶。;Gordaliza,A。;马特兰,C。;Mayo-Iscar,A.,《探索基于稳健模型的聚类中的组数》,统计计算。,21, 585-599 (2011) ·Zbl 1221.62093号
[19] 加西亚·埃斯库德罗,洛杉矶。;Gordaliza,A。;格雷塞林,F。;英格拉西亚,S。;Mayo-Iscar,A.,混合高斯因子分析仪稳健估计中修剪和约束的联合作用,计算。统计数据分析。,99, 131-147 (2016) ·Zbl 1468.62060号
[20] 加特,I。;Geva,A.B.,无监督最优模糊聚类,IEEE Trans。模式分析。,11, 7, 773-780 (1989) ·兹比尔0709.62592
[21] 加赫拉马尼,Z。;Hinton,G.E.,《因子分析仪的EM算法》(1996),多伦多大学:多伦多大学,技术报告编号CRG-TR-96-1
[22] 格雷塞林,F。;Ingrassia,S.,混合因子分析仪约束参数空间中的最大似然估计,统计计算。,25, 215-226 (2015) ·Zbl 1331.62307号
[23] 古斯塔夫森,E.E。;Kessel,W.C.,带模糊协方差矩阵的模糊聚类,(IEEE模糊系统国际会议论文集,IEEE国际模糊系统会议论文集),圣地亚哥(1979),761-766·Zbl 0448.62045号
[24] Hathaway,R.,正态混合分布最大似然估计的约束公式,《Ann.Stat.》,13,2,795-800(1985)·Zbl 0576.62039号
[25] Hennig,C.,位置-尺度混合最大似然估计的分解点,《Ann.Stat.》,32,4,1313-1340(2004)·Zbl 1047.62063号
[26] 辛顿,G.E。;大研,P。;Revow,M.,《手写数字图像流形建模》,IEEE Trans。神经网络。,第8页,第65-73页(1997年)
[27] Huber,P.J.,《稳健统计》(1981),威利出版社:威利纽约·Zbl 0536.62025号
[28] Ingrassia,S.公司。;Rocci,R.,多元高斯有限混合的约束单调EM算法,计算。统计数据分析。,51, 5339-5351 (2007) ·Zbl 1445.62116号
[29] Kim,J。;Krishnapuram,R。;Davé,R.,最小平方修剪技术在基于原型聚类中的应用,模式识别。莱特。,17, 633-641 (1996)
[30] Klawonn,F.,噪声固定分数的噪声聚类,(《软计算应用与科学》(2004),施普林格:施普林格-柏林-海德堡-纽约),133-138
[31] Krishnapuram,R。;Keller,J.M.,《集群的可能性方法》,IEEE Trans。模糊系统。,1, 98-110 (1993)
[32] Łeski,J.,走向稳健的模糊聚类,模糊集系统。,37215-233(2003年)·兹比尔1043.62058
[33] 麦克拉克伦,G.J。;Peel,D.,有限混合模型(2000),John Wiley&Sons:John Willey&Sons纽约·Zbl 0963.62061号
[34] Ritter,G.,稳健聚类分析和变量选择,Chapman&Hall/CRC统计学与应用概率专著(2015)·Zbl 1341.62037号
[35] Rousseeuw,P.J。;特劳瓦特,E。;考夫曼,L.,高对比度模糊聚类,J.Compute。申请。数学。,第64页,第81-90页(1995年)·Zbl 0847.62052号
[36] Rousseeuw,P.J。;Van Driessen,K.,最小协方差行列式估计的快速算法,技术计量学,41,212-223(1999)
[37] Rousseeuw,P.J。;考夫曼,L。;Trauwaert,E.,使用分散矩阵的模糊聚类,计算。统计数据分析。,23, 135-151 (1996) ·Zbl 0900.62321号
[38] Ruwet,C。;加西亚·埃斯库德罗,洛杉矶。;Gordaliza,A。;Mayo-Iscar,A.,《关于TCLUST聚类程序的崩溃行为》,Test,22,3,466-487(2013)·Zbl 1273.62146号
[39] Symons,M.J.,聚类标准和多元正态混合物,生物计量学,37,35-43(1981)·兹伯利0473.62048
[40] Tipping,M.E。;Bishop,C.M.,概率主成分分析仪的混合物(1997),阿斯顿大学神经计算研究小组:伯明翰阿斯顿大学神经元计算研究小组,技术报告编号NCRG=97=0.03
[41] Tipping,M.E。;Bishop,C.M.,概率主成分分析仪的混合,神经计算。,11, 443-482 (1999)
[42] 特劳瓦特,E。;考夫曼,L。;Rousseeuw,P.,基于最大似然原理的模糊聚类算法,模糊集系统。,42, 2, 213-227 (1991) ·Zbl 0741.62065号
[43] Wu,K.L。;Yang,M.S.,Alternative(c)-means聚类算法,模式识别。,35, 2267-2278 (2002) ·Zbl 1006.68876号
[44] 杨明生,关于一类模糊分类最大似然法,模糊集系统。,57365-375(1993年)·Zbl 0807.62049号
[45] Zadeh,L.A.,模糊集,信息控制,8,3,338-353(1965)·Zbl 0139.24606号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。