×

识别用于聚类的高斯有限混合模型中的连通分量。 (英语) Zbl 1468.62174

摘要:基于模型的聚类将有限混合分布的每个组成部分与一个组或簇相关联。因此,一个隐含的假设是混合组分和簇之间存在一对一的对应关系。在多变量连续数据的应用中,通常使用高斯分布的有限混合。信息准则,如BIC,经常被用来选择混合物组分的数量。然而,单一的高斯密度可能是不够的,可能需要两个或更多的混合成分来合理地近似在一组均匀的观测值中的分布。介绍了一种基于下垫密度函数高密度区域识别的聚类方法。从一个估计的高斯有限混合模型开始,用相应的密度估计来识别簇核,即构成簇核的数据点。然后,剩余的观测值被分配到那些聚类概率最高的簇核上。通过仿真和实际数据实例说明了该方法与全参数方法相比,该方法如何提高非高斯聚类的识别率。此外,它还可以识别不能通过合并混合组分得到的簇,并且可以直接扩展到高维的情况。

理学硕士:

62-08年 统计问题的计算方法
62小时30分 分类和区分;聚类分析(统计方面)
PDF格式 BibTeX公司 XML 引用
全文: 内政部

参考文献:

[1] Azzalini,A.,Menardi,G.,2013.:通过非参数密度估计进行聚类分析,R包版本1.0-1。
[2] 阿扎里尼,A。;Torelli,N.,通过非参数密度估计进行聚类,Stat.Comput。,17,1,71-80,(2007年)
[3] 班菲尔德,J。;Raftery,A.E.,基于模型的高斯和非高斯聚类,生物特征学,49803-821,(1993)·Zbl 0794.62034
[4] 理发师,C.B。;多布金,D.P。;Huhdanpaa,H.,凸壳的快速壳算法,ACM Trans。数学。软件,22,4469-483,(1996)·Zbl 0884.65145
[5] Barber,C.B.,Habel,K.,Grasman,R.,Gramacy,R.B.,Stahel,A.,Sterratt,D.C.,2013.几何学:网格生成和表面细分,R程序包版本0.3-3。
[6] 鲍德里,J.P。;莱弗利,A.E。;塞勒克斯,G。;罗,K。;Gottardo,R.,《组合聚类的混合成分》,J.Comput。图表。统计学家。,19,22332-353,(2010年)
[7] 比尔纳基,C。;塞勒克斯,G。;Govaert,G.,《用综合完全似然评估聚类的混合模型》,IEEE Trans。肛门模式。机器。内尔。,22,7719-725,(2000年)
[8] Carreira Perpiñan,M.Á;Williams,C.K.,《高斯混合模式的数量》,(计算机视觉中的尺度空间方法,(2003),Springer),625-640·Zbl 1067.68724号
[9] 塞勒克斯,G。;Govaert,G.,高斯简约聚类模型,模式识别。,28781-793,(1995年)
[10] 塞勒克斯,G。;Soromenho,G.,《评估混合模型中团簇数量的熵准则》,J.分类,13,2,195-212,(1996)·Zbl 0861.62051
[11] 邓普斯特,A.P。;莱尔德,新墨西哥州。;Rubin,D.B.,《通过EM算法从不完全数据中获得最大似然性(与讨论)》,J.R.Stat.Soc.Ser。统计方法。,第39卷,第1-38页,(1977年)·Zbl 0364.62022
[12] 福尔纳,M。;阿玛尼诺,C。;卡斯蒂诺,M。;Ubigli,M.,多元数据分析作为葡萄酒起源的判别方法,Vitis,25189-201,(1986),葡萄酒识别数据库
[13] 弗雷利,C。;Raftery,A.E.,有多少簇?哪种聚类方法?答案通过基于模型的聚类分析,计算机。J、 ,41578-588,(1998年)·Zbl 0920.68038
[14] 弗雷利,C。;莱弗利,A.E。;墨菲,T.B。;Scrucca,L.,MCLUST版本4 for R:基于模型的聚类、分类和密度估计的正常混合建模。技术报告597,(2012),华盛顿大学统计系
[15] Fraley,C.,Raftery,A.,Scruca,L.,2014.:基于模型的聚类、分类和密度估计的正常混合建模,R包4.2.7版。
[16] 弗朗扎克,不列颠哥伦比亚省。;布朗,R.P。;麦克尼古拉斯,P.D.,位移不对称拉普拉斯分布的混合,IEEE Trans。肛门模式。机器。内尔。,3661149-1157,(2014年)
[17] 福纳加,K。;霍斯特勒,L.,《密度函数梯度的估计及其在模式识别中的应用》,IEEE Trans。通知。理论,21,1,32-40,(1975)·Zbl 0297.62025
[18] Hartigan,J.A.,《聚类算法》,(1975),John Wiley&Sons New York·Zbl 0372.62040
[19] Hennig,C.,合并高斯混合成分的方法,高级数据分析。分类。,4,1,3-34,(2010年)·Zbl 1306.62141
[20] 休伯特,L。;Arabie,P.,比较分区,J.分类,2193-218,(1985)
[21] Keribin,C.,混合模型阶数的一致估计,Sankhya A,62,1,49-66,(2000)·Zbl 1081.62516
[22] 李,S.X。;McLachlan,G.J.,《关于斜交正态分布和斜交分布的混合》,高级数据分析。分类。,7,3,241-266,(2013年)·Zbl 1273.62115
[23] 林泰辉,多元偏正态混合模型的最大似然估计,多元分析杂志。,1002257-265,(2009年)·Zbl 1152.62034
[24] 林,T.I.,多元偏态分布的稳健混合模型,统计计算。,20,3343-356,(2010年)
[25] 林,T.-I。,通过特征值分解,利用参数化混合模型从不完全数据中学习,计算。统计学家。数据分析。,71183-195,(2014年)
[26] 林,T.I。;李,J.C。;谢伟杰,周永健,利用偏态分布进行稳健混合建模,统计计算。,17,2,81-92,(2007年)
[27] 林,T.I。;李,J.C。;Yen,S.Y.,使用偏正态分布的有限混合模型,统计。中国,17,3909-927,(2007)·Zbl 1133.62012
[28] Lubischew,A.,《分类学中判别函数的使用,生物识别》,18,4,455-477,(1962)·中银0112.11602
[29] 麦克拉克伦,G。;Krishnan,T.,EM算法和扩展,(2008),Wiley Interscience Hoboken,新泽西州·Zbl 1165.62019
[30] 麦克拉克伦,G。;皮尔,D.,有限混合模型,(2000),威利纽约·Zbl 0963.62061
[31] 麦克拉克伦,G.J。;Rathnayake,S.,《高斯混合模型中成分的数量》,Wiley Interdiscip。最小已知修订数据。迪斯科舞厅。,4,5,341-355,(2014年)
[32] 梅纳迪,G。;阿扎里尼,A.,《通过非参数密度估计进行聚类的进展》,统计计算。,245753-767,(2014年)·Zbl 1322.62175
[33] 尼思,A.A。;Cavanaugh,J.E.,《贝叶斯信息准则:背景、推导和应用》,Wiley Interdiscip。收入计算。Stat.,4,2199-203,(2012年)
[34] R核心团队,R:统计计算的语言和环境,(2014),R统计计算基金会,奥地利维也纳
[35] 莱弗利,A.E。;Dean,N.,基于模型聚类的变量选择,J.Amer。统计学家。协会,101,473,168-178,(2006年)·Zbl 1118.62339
[36] 雷,S。;林赛,B.G.,高维模型选择:基于二次风险的方法,J.R.Stat.Soc.Ser。统计方法。,70,1195-118,(2008年)·Zbl 1400.62039
[37] 罗德,K。;Wasserman,L.,使用正态混合的实际贝叶斯密度估计,J.Amer。统计学家。协会,92439894-902,(1997年)·Zbl 0889.62021
[38] Schafer,J.L.,不完全多元数据分析,(1997),查普曼和霍尔/CRC伦敦·Zbl 0997.62510
[39] 施瓦茨,G.,《估计模型的维数》,安。统计学家。,6,31-38,(1978年)
[40] Scrucca,L.,《基于模型的聚类的降维》,Stat.Comput。,204471-484,(2010年)
[41] Scrucca,L.,基于模型的混合判别分析的图形工具,高级数据分析。分类。,8,2147-165,(2014年)
[42] Stuetzle,W.通过分析样本的最小生成树估计密度的聚类树,J.分类,20,1,25-47,(2003)·Zbl 1055.62075
[43] 斯图兹尔,W。;Nugent,R.,估计密度聚类树的广义单链方法,J.Comput。图表。统计学家。,19,2397-418,(2010年)
[44] 王,W.-L。,用于模拟高维缺失值数据的公共(t)因子分析器的混合物,计算。统计学家。数据分析。,83223-235,(2015年)
[45] 黄,M。;Lane,T.,第k个最近邻聚类程序,J.R.Stat.Soc.Ser。B、 45362-368,(1983年)·Zbl 0535.62055
[46] 朱,X。;戈德伯格,A.B.,半监督学习导论,综合。选择。人工制品。因特尔。机器。学习。,3,1,1-130,(2009年)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。