×

高维数据的参数化联合聚类。 (英语) Zbl 07734172号

摘要:近年来,数据维数越来越受到关注,导致文献中提出了许多参数和降维技术。针对通过连续随机变量建模的(可能是高维)数据,提出了一种参数化的联合聚类模型。该模型虽然具有更大的灵活性,但仍保持了传统联合聚类所实现的高度简约性和可解释性,关键在于大幅增加列聚类的数量,同时将每个列聚类表示为有限数量的均值相关和方差相关列聚类的组合。使用随机期望最大化算法和吉布斯采样器进行参数估计,并使用完整的对数似然准则进行模型选择。使用模拟数据集和实际数据集进行说明,并与传统的联合聚类进行比较。

MSC公司:

62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 鲍姆,LE;Petrie,T。;索尔斯,G。;Weiss,N.,马尔可夫链概率函数统计分析中出现的最大化技术,《数学统计年鉴》,41164-171(1970)·Zbl 0188.49603号 ·doi:10.1214/aoms/1177697196
[2] Biernacki C,Maugis C(2017)《高维聚类》。In:Choix de modèles et agrégation,Sous la direction de J-J.Droesbeke,G.Saporta,C.Thoma-Agnan Edition:Technip
[3] 比尔纳基,C。;Celeux,G。;Govaert,G.,《用综合完全似然评估聚类的混合模型》,IEEE Trans-Pattern Ana Mach Intell,22,7,719-725(2000)·doi:10.1109/34.865189
[4] Bouveyron,C。;Brunet-Saumard,C.,《基于模型的高维数据聚类:综述》,《计算统计数据分析》,71,52-78(2014)·Zbl 1471.62032号 ·doi:10.1016/j.csda.2012.12.008
[5] Bouveyron,C。;Girard,S。;Schmid,C.,高维数据聚类,Comput Stat数据分析,52,1502-519(2007)·Zbl 1452.62433号 ·doi:10.1016/j.csda.2007.02.009
[6] Brault V,Keribin C,Mariadassou M(2017)潜在区块模型估计量的一致性和渐近正态性。arXiv预打印arXiv:1704.06629·兹比尔1439.62256
[7] Ghahramani Z,Hinton GE(1997)因子分析仪的EM算法。技术报告CRG-TR-96-1。多伦多大学
[8] Goldberg,K。;罗德,T。;古普塔,D。;Perkins,C.,Eigentaste:恒定时间协同过滤算法,Inf Ret,4,2,133-151(2001)·Zbl 0989.68052号 ·doi:10.1023/A:101149012209
[9] Hartigan,JA,数据矩阵的直接聚类,J Am Stat Assoc,67,337,123-129(1972)·网址:10.1080/01621459.1972.10481214
[10] 休伯特,L。;Arabie,P.,比较分区,J Classif,2,1,193-218(1985)·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[11] 雅克·J。;Biernacki,C.,有序数据的基于模型的联合聚类,《计算统计数据分析》,123,101-115(2018)·Zbl 1469.62086号 ·doi:10.1016/j.csda.2018.01.014
[12] McLachlan G,Peel D(2000)因子分析仪的混合物。摘自:第十七届机器学习国际会议论文集,Morgan Kaufmann,旧金山,第599-606页
[13] McNicholas,PD,基于模型的聚类,J Classif,33,331-373(2016)·Zbl 1364.62155号 ·doi:10.1007/s00357-016-9211-9
[14] 麦克尼古拉斯,PD;墨菲,TB,简约高斯混合模型,统计计算,18,3,285-296(2008)·doi:10.1007/s11222-008-9056-0
[15] Meynet C,Maugis-Rabusseau C(2012)基于模型聚类中的稀疏变量选择程序。研究报告
[16] Nadif M,Govaert G(2010)基于模型的连续数据联合聚类。2010年第九届机器学习和应用国际会议(ICMLA),IEEE,第175-180页·Zbl 1187.62117号
[17] 潘·W。;Shen,X.,基于惩罚模型的聚类及其在变量选择中的应用,J Mach Learn Res,81145-1164(2007)·Zbl 1222.68279号
[18] 抵押人,S。;Arnold,R.,《使用混合物的多元方法:对应分析、缩放和模式检测》,《计算统计数据分析》,71,241-261(2014)·Zbl 1471.62162号 ·doi:10.1016/j.csda.2013.05.013
[19] Robert V(2017)用于药物警戒大规模数据集分析的聚集。巴黎萨克利大学博士论文
[20] Schwarz,G.,估算模型的维数,Ann Stat,6,2,461-464(1978)·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[21] 斯科特,AJ;Symons,MJ,基于似然比标准的聚类方法,生物统计学,27387-397(1971)·doi:10.2307/2529003
[22] 小费,ME;Bishop,CM,概率主成分分析仪的混合,神经计算,11,2,443-482(1999)·doi:10.1162/0899766999300016728
[23] Wolfe JH(1965)类型最大似然分析的计算机程序。技术公告65-15。美国海军人员研究活动
[24] Xiao H,Rasul K,Vollgraf R(2017)Fashion-mnist:一个用于基准机器学习算法的新型图像数据集。arXiv预打印arXiv:1708.07747
[25] 周,H。;潘·W。;Shen,X.,基于惩罚模型的无约束协方差矩阵聚类,Electron J Stat,31473(2009)·Zbl 1326.62143号 ·doi:10.1214/09-EJS487
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。