×

基于模型的聚类和正则化判别分析中的变量选择。 (英文) Zbl 1474.62216号

摘要:在基于模型的聚类和分类中,提出了几种变量选择方法。这些方法使用向后或向前的过程来定义变量的角色。不幸的是,当分析包含许多变量的大型数据集时,这种逐步过程很慢,并且由此产生的算法效率很低。在本文中,我们提出了一种用于基于模型的聚类和分类中变量选择的替代正则化方法。在我们的方法中,变量首先使用类套索程序排序,以避免缓慢的逐步算法。因此C.毛吉斯等【计算统计数据分析53,第11期,3872–3882(2009;Zbl 1453.62154号)]可以有效地应用于高维数据集。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
91C20个 社会和行为科学中的集群
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Banfield JD,Raftery AE(1993),基于模型的高斯和非高斯聚类。生物统计学49(3):803-821·兹比尔0794.62034 ·doi:10.2307/2532201
[2] Biernacki C,Celeux G,Govaert G(2000)使用综合完全似然评估聚类的混合模型。IEEE Trans-Pattern Ana Mach Intell 22(7):719-725·doi:10.1109/34.865189
[3] Bouveyron C,Brunet C(2014),稀疏Fisher-EM算法聚类的判别变量选择。计算统计29:489-513·Zbl 1306.65033号 ·doi:10.1007/s00180-013-0433-6
[4] Celeux G,Govaert G(1995)高斯简约聚类模型。图案识别28(5):781-793·doi:10.1016/0031-3203(94)00125-6
[5] Celeux G,Maugis C,Martin-Magniette ML,Raftery AE(2014)《基于模型聚类中变量选择的模型选择和正则化方法比较》。J Fr Stat Soc 155:57-71·Zbl 1316.62083号
[6] Dempster AP、Laird NM、Rubin DB(1977)通过EM算法从不完整数据中获得最大似然(带讨论)。罗伊统计学会J Roy Stat Soc B 39(1):1-38·Zbl 0364.62022号
[7] Fraiman R、Justel A和Svarc M(2008),聚类分析和分类规则的变量选择。美国统计协会期刊103:1294-1303·Zbl 1205.62077号 ·doi:10.1198/0162145000000544
[8] Friedman J,Hastie T,Tibshirani R(2007)用图形套索进行稀疏逆协方差估计。生物统计学9(3):432-441·Zbl 1143.62076号 ·doi:10.1093/biostatistics/kxm045
[9] Friedman J,Hastie T,Tibshirani R(2014)glasso:高斯图形模型的图形套索估计。https://CRAN.R-project.org/package=glasso。2014年7月22日访问
[10] Gagnot S、Tamby JP、Martin-Magniete ML、Bitton F、Taconnat L、Balzergue S、Aubourg S、Renou JP、Lecharny A、Brunaud V(2008)CATdb:从URGV-CATMA平台公开获取拟南芥转录组数据。核酸研究36(增刊1):D986-D990
[11] Galinberti G,Montanari A,Viroli C(2009),聚类数据中变量选择的惩罚因子混合分析。计算统计数据分析53:4301-4310·Zbl 1453.62094号 ·doi:10.1016/j.csda.2009.05.025
[12] Kim S,Song DKH,DeSarbo WS(2012),基于模型的分段,同时选择分段级变量。《马克研究杂志》49:725-736·doi:10.1509/jmr.10.395
[13] Law MH,Figueiredo MAT,Jain AK(2004)使用混合模型同时进行特征选择和聚类。IEEE Trans-Pattern Ana Mach Intell公司26(9):1154-1166·doi:10.1109/TPAMI.2004.71
[14] Lebret R、Iovleff S、Langrognet F、Biernacki C、Celeux G、Govaert G(2015)Rmixmod:基于模型的非监督、监督和半监督分类mixmod-库的R包。J Stat Softw统计软件67(6):241-270·doi:10.18637/jss.v067.i06
[15] Lee H,Li J(2012)基于脊线的可分性聚类变量选择。J计算图形统计21:315-337·doi:10.1080/10618600.2012.679226
[16] Maugis C,Celeux G,Martin-Magniete M(2009a)高斯混合模型聚类的变量选择。生物统计学65(3):701-709·Zbl 1172.62021号 ·doi:10.1111/j.1541-0420.2008.0160.x
[17] Maugis C、Celeux G、Martin-Magniette ML(2009b)基于模型的聚类中的变量选择:一般变量角色建模。计算机统计数据分析53:3872-3882·Zbl 1453.62154号 ·doi:10.1016/j.csda.2009.04.013
[18] Maugis C、Celeux G、Martin-Magniette ML(2011)基于模型的判别分析中的变量选择。多变量分析杂志102:1374-1387·Zbl 1219.62103号 ·doi:10.1016/j.jmva.2011.05.004
[19] Meinshausen N,Bühlmann P(2006)高维图和Lasso变量选择。Ann Stat 34(3):1436-1462·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[20] Murphy TB,Dean N,Raftery AE(2010),食品真实性应用高维数据基于模型的判别分析中的变量选择和更新。Ann Appl统计4:396-421·Zbl 1189.62105号 ·doi:10.1214/09-AOAS279
[21] Nia VP,Davison AC(2012),带变量选择的高维贝叶斯聚类:R包bclust。J Stat Softw统计软件47(5):1-22·doi:10.18637/jss.v047.i05
[22] Pan W,Shen X(2007)基于模型的惩罚聚类及其在变量选择中的应用。J Mach学习研究8:1145-1164·Zbl 1222.68279号
[23] Raftery AE,Dean N(2006),基于模型聚类的变量选择。美国统计协会期刊101(473):168-178·Zbl 1118.62339号 ·doi:10.1198/016214500000113
[24] Schwarz G(1978)估计模型的维数。Ann Stat 6(2):461-464·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[25] Scrucca L,Raftery AE(2014)clustvarsel:在R.arXiv中实现基于模型聚类的变量选择的包:1411.0606
[26] Scrucca L、Fop M、Murphy TB、Raftery AE(2016)mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计。R J 8(1):289·doi:10.32614/RJ-2016-021
[27] 孙伟,王杰,方勇(2012)高维数据的正则化k-均值聚类及其渐近一致性。电子J统计6:148-167·Zbl 1335.62109号 ·doi:10.1214/12-EJS668
[28] Tadesse MG,Sha N,Vannucci M(2005)高维数据聚类中的贝叶斯变量选择。美国统计协会杂志100(470):602-617·Zbl 1117.62433号 ·doi:10.1198/0162145000001565
[29] Wang S,Zhu J(2008)基于模型的高维聚类变量选择及其在微阵列数据中的应用。生物统计学64(2):440-448·Zbl 1137.62041号 ·文件编号:10.1111/j.1541-0420.2007.00922.x
[30] Xie B,Pan W,Shen X(2008)基于模型的惩罚聚类,具有特定于聚类的对角协方差矩阵和分组变量。电子J统计2:168-212·Zbl 1135.62055号 ·doi:10.1214/08-EJS194
[31] Zhou H,Pan W,Shen X(2009)利用无约束协方差矩阵对基于模型的聚类进行惩罚。电子J统计3:1473-1496·Zbl 1326.62143号 ·doi:10.1214/09-EJS487
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。