×

建模变量在基于模型的聚类分析中的作用。 (英语) Zbl 1384.62195号

摘要:在基于高斯混合模型的聚类分析框架中,通常假设所有变量都提供了有关样本单元聚类的信息。当聚类结构包含在可变子向量中时,可以使用几个变量选择程序来检测感兴趣的聚类结构。目前,在这些程序中,假设一个变量扮演三种角色之一:(1)信息性的,(2)非信息性的并且与一些信息性变量相关的,(3)非信息的并且与任何信息性变量无关的。考虑到变量向量可能提供关于聚类的多个感兴趣结构的信息,提出了一种更通用的建模变量作用的方法。该方法是通过假设这些信息是由变量的非重叠且可能相关的子向量给出的;还假设可变向量的模型等于条件独立高斯混合模型的乘积(每个可变子向量一个)。详细介绍了模型的可辨识性、参数估计和模型选择。所述方法的有用性和有效性通过模拟和实际数据集进行了说明。

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
62J05型 线性回归;混合模型
PDF格式BibTeX公司 XML格式引用
全文: DOI程序 链接

参考文献:

[1] Anderson,T.:《多元统计分析导论》,第3版。威利,纽约(2003)·Zbl 1039.62044号
[2] Andrews,J.L.,McNicholas,P.D.:聚类和分类的变量选择。J.分类。31, 136-153 (2014) ·兹比尔1360.62310 ·doi:10.1007/s00357-013-9139-2
[3] Banfield,J.D.,Raftery,A.E.:基于模型的高斯和非高斯聚类。生物统计学49,803-821(1993)·Zbl 0794.62034号 ·doi:10.2307/2532201
[4] Belitskaya Levy,I.:一个广义聚类问题,应用于DNA微阵列。Stat.应用。遗传学。分子生物学。5,第2条(2006年)·Zbl 1166.62331号
[5] Biernacki,C.,Celeux,G.,Govaert,G.:评估具有综合完全似然的聚类混合模型。IEEE传输。模式分析。马赫。智力。22, 719-725 (2000) ·doi:10.1109/34.865189
[6] Biernacki,C.,Govaert,G.:在基于模型的聚类和判别分析中选择模型。J.统计计算。模拟。64, 49-71 (1999) ·Zbl 1156.62335号 ·网址:10.1080/00949659908811966
[7] 博兹多安,H。;Bozdogan,H.(编辑),《具有信息复杂性和遗传算法的智能统计数据挖掘》,15-56(2004),伦敦
[8] Browne,R.P.,ElSherbiny,A.,McNicholas,P.D.:混合物:用于聚类和分类的混合物模型。R包版本1.4(2015)·Zbl 1146.62101号
[9] Brusco,M.J.,Cradit,J.D.:k-means聚类的可变选择启发式。《心理测量学》66,249-270(2001)·Zbl 1293.62237号 ·doi:10.1007/BF02294838
[10] Campbell,N.A.,Mahon,R.J.:薄抓蟹属两种岩蟹变异的多元研究。澳大利亚。J.佐尔。22, 417-425 (1974) ·doi:10.1071/ZO9740417
[11] Celeux,G.,Govaert,G.:高斯简约聚类模型。模式识别。28, 781-793 (1995) ·doi:10.1016/0031-3203(94)00125-6
[12] Celeux,G.,Martin-Magniette,M.-L.,Maugis,C.,Raftery,A.E.:给编辑的信。《美国统计协会期刊》106、383(2011)·Zbl 1430.62126号 ·doi:10.1198/jasa.2011.tm10681
[13] Celeux,G.,Martin-Magniette,M.-L.,Maugis-Rabusseau,C.,Raftery,A.E.:比较基于模型聚类中变量选择的模型选择和正则化方法。J.Soc.Fr.Statistique 155,57-71(2014)·Zbl 1316.62083号
[14] Chatterjee,S.、Laudato,M.、Lynch,L.A.:遗传算法及其统计应用:简介。计算。统计数据分析。22, 633-651 (1996) ·Zbl 0900.62336号 ·doi:10.1016/0167-9473(96)00011-4
[15] Dang,X.H.,Bailey,J.:揭示多个替代聚类的框架。马赫。学习。98, 7-30 (2015) ·Zbl 1321.68399号 ·doi:10.1007/s10994-013-5338-7
[16] UJ Dang;麦克尼古拉斯,PD;Morlini,I.(编辑);Minerva,T.(编辑);Vichi,M.(编辑),回归模型的节约型有限混合族,73-84(2015),柏林·doi:10.1007/978-3-319-17377-1_9
[17] De Sarbo,W.S.,Cron,W.L.:聚类线性回归的最大似然方法。J.分类。5, 249-282 (1988) ·Zbl 0692.62052号 ·doi:10.1007/BF01897167
[18] Dempster,A.P.,Laird,N.M.,Rubin,D.B.:通过EM算法实现不完整数据的最大可能性。J.R.Stat.Soc.系列。B 39,1-22(1977)·Zbl 0364.62022号
[19] Dy,J.G.,Brodley,C.E.:无监督学习的特征选择。J.马赫。学习。第5845-889号决议(2004年)·Zbl 1222.68187号
[20] Fowlkes,E.B.,Gnanadesikan,R.,Kettering,J.R.:《聚类中的变量选择》,J.Classif。5, 205-228 (1988) ·doi:10.1007/BF01897164
[21] Fraiman,R.、Justel,A.、Svarc,M.:聚类分析和分类规则的变量选择。《美国统计协会期刊》103,1294-1303(2008)·Zbl 1205.62077号 ·doi:10.1198/0162145000000544
[22] Fraley,C.、Raftery,A.E.:基于模型的聚类、判别分析和密度估计。《美国统计协会期刊》97,611-631(2002)·兹比尔1073.62545 ·doi:10.1198/016214502760047131
[23] Fraley,C.、Raftery,A.E.、Murphy,T.B.、Scrucca,L.:mclust版本4 R:基于模型的聚类、分类和密度估计的正态混合建模。华盛顿大学统计系第597号技术报告(2012年)·Zbl 1520.62002号
[24] Friedman,J.H.,Meulman,J.J.:在属性子集上聚类对象(带讨论)。J.R.Stat.Soc.系列。B 66815-849(2004)·Zbl 1060.62064号 ·文件编号:10.1111/j.1467-9868.2004.02059.x
[25] Frühwirth-Schnatter,S.:有限混合和Markow切换模型。施普林格,纽约(2006)·Zbl 1108.6202号
[26] Galinberti,G.,Montanari,A.,Viroli,C.:聚类数据中变量选择的惩罚因子混合分析。计算。统计数据分析。53, 4301-4310 (2009) ·兹比尔1453.62094 ·doi:10.1016/j.csda.2009.05.025
[27] Galinberti,G.,Scardovi,E.,Soffriti,G.:在具有非正态误差的看似无关的线性回归模型中使用混合物。统计计算。261025-1038(2016)·Zbl 1505.62150号 ·doi:10.1007/s11222-015-9587-0
[28] Galimberti,G.,Soffritti,G.:基于模型的方法来识别数据集中的多个聚类结构。计算。统计数据分析。52, 520-536 (2007) ·Zbl 1452.62442号 ·doi:10.1016/j.csda.2007.02.019
[29] Galinberti,G.,Soffriti,G.:对基于简约模型的高斯聚类使用条件独立性。统计计算。23, 625-638 (2013) ·Zbl 1322.62167号 ·doi:10.1007/s11222-012-9336-6
[30] Gnanadesikan,R.,Kettering,J.R.,Tsao,S.L.:聚类分析变量的加权和选择。J.分类。12, 113-136 (1995) ·Zbl 0825.62540号 ·doi:10.1007/BF01202271
[31] Goldberg,D.E.:搜索、优化和机器学习中的遗传算法。Addison-Wesley,雷丁(1989)·Zbl 0721.68056号
[32] Gordon,A.D.:分类,第二版。查普曼和霍尔,博卡拉顿(1999)·Zbl 0929.62068号
[33] Grün,B.,Leisch,F.:自举有限混合模型。收录:Antoch,J.(编辑)Compstat 2004。《计算统计学学报》,第1115-1122页。Phisica-Verlag/Springer,海德堡(2004)
[34] Guo,J.,Levina,E.,Michailidis,G.,Zhu,J.:基于高维模型聚类的成对变量选择。生物统计学66,793-804(2010)·Zbl 1203.62190号 ·doi:10.1111/j.1541-0420.2009.01341.x
[35] Hastie,T.、Tibshirani,R.、Friedman,J.:《统计学习的要素:数据挖掘、推断和预测》,第2版。施普林格,纽约(2009)·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[36] Hubert,L.,Arabie,P.:比较分区。J.分类。2, 193-218 (1985) ·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[37] Kass,R.E.,Raftery,A.E.:贝叶斯因子。J.Am.Stat.Assoc.90,773-795(1995年)·Zbl 0846.62028号 ·doi:10.1080/01621459.1995.10476572
[38] Keribin,C.:混合模型阶数的一致估计。SankhyáSer。A 62,49-66(2000年)·Zbl 1081.62516号
[39] Law,M.H.C.,Figueiredo,M.A.T.,Jain,A.K.:使用混合模型同时进行特征选择和聚类。IEEE传输。模式分析。马赫。智力。26, 1154-1166 (2004) ·doi:10.10109/TPAMI.2004.71
[40] Liu,T.-F,Zhang,N.L.,Chen,P.,Liu,A.H.,Poon,L.K.M.,Wang,Y.:多维聚类潜在树模型的贪婪学习。学习。98, 301-330 (2015) ·兹比尔1321.68408 ·doi:10.1007/s10994-013-5393-0
[41] Malsiner-Walli,G.,Frühwirth-Schnatter,S.,Grün,B.:基于稀疏有限高斯混合的基于模型的聚类。统计计算。26, 303-324 (2016) ·Zbl 1342.62109号 ·doi:10.1007/s11222-014-9500-2
[42] Maugis,C.,Celeux,G.,Martin-Magniette,M.-L.:高斯混合模型聚类的变量选择。生物统计学65,701-709(2009a)·Zbl 1172.62021号 ·doi:10.1111/j.1541-0420.2008.0160.x
[43] Maugis,C.,Celeux,G.,Martin-Magniette,M.-L.:基于模型的聚类中的变量选择:通用变量角色建模。计算。统计数据分析。533872-3882(2009年b)·Zbl 1453.62154号 ·doi:10.1016/j.csda.2009.04.013
[44] McLachlan,G.J.,Peel,D.:有限混合模型。奇切斯特·威利(2000)·Zbl 0963.62061号 ·doi:10.1002/0471721182
[45] McLachlan,G.J.,Peel,D.,Bean,R.W.:通过混合因子分析仪模拟高维数据。计算。统计数据分析。41, 379-388 (2003) ·Zbl 1256.62036号 ·doi:10.1016/S0167-9473(02)00183-4
[46] McNicholas,P.D.,Murphy,T.B.:简约高斯混合模型。统计计算。18, 285-296 (2008) ·doi:10.1007/s11222-008-9056-0
[47] McNicholas,P.D.,Murphy,T.B.,McDaid,A.F.,Frost,D.:通过简约高斯混合模型实现基于模型的聚类的串行和并行实现。计算。统计数据分析。54, 711-723 (2010) ·Zbl 1464.62131号 ·doi:10.1016/j.csda.2009.02.011
[48] Melnykov,V.,Maitra,R.:有限混合模型和基于模型的聚类。统计综述。4, 80-116 (2010) ·Zbl 1190.62121号 ·doi:10.1214/09-SS053
[49] Montanari,A.,Lizzani,L.:变量选择的投影寻踪方法。计算。统计数据分析。35, 463-473 (2001) ·Zbl 1080.62527号 ·doi:10.1016/S0167-9473(00)00026-8
[50] Pan,W.,Shen,X.:基于惩罚模型的聚类及其在变量选择中的应用。J.马赫。学习。第8号决议,1145-1164(2007)·Zbl 1222.68279号
[51] Poon,L.K.M.、Zhang,N.L.、Liu,T.-F.、Liu、A.H.:基于模型的高维数据聚类:变量选择与方面确定。国际期刊近似原因。196-215年(2013年)·Zbl 1266.68160号 ·doi:10.1016/j.ijar.2012.08.001
[52] Quantt,R.E.,Ramsey,J.B.:估计正态分布和切换回归的混合物。《美国统计学会期刊》第73卷,第730-738页(1978年)·Zbl 0401.62024号 ·doi:10.1080/01621459.1978.10480085
[53] R核心团队:R:统计计算的语言和环境。R统计计算基金会,奥地利维也纳。网址:网址:http://www.R-project.org (2015) ·Zbl 1266.68160号
[54] Raftery,A.E.,Dean,N.:基于模型的聚类分析的变量选择。《美国统计协会期刊》101、168-178(2006)·Zbl 1118.62339号 ·doi:10.1198/016214500000113
[55] Schwarz,G.:估算模型的维数。Ann.Stat.6,461-464(1978)·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[56] Scrucca,L.:GA:R.J.Stat.Softw中的遗传算法包。53, 1-37 (4) (2013)
[57] Scrucca,L。;Celebi,ME(编辑);Aydin,K.(编辑),基于模型聚类中子集选择的遗传算法,55-70(2016),柏林·doi:10.1007/978-3-319-24211-83
[58] Scrucca,L.,Raftery,A.E.:使用高斯层次划分改进了基于模型的聚类初始化。高级数据分析。分类。9, 447-460 (2015) ·Zbl 1414.62272号 ·doi:10.1007/s11634-015-0220-z
[59] Scrucca,L.,Raftery,A.E.:clustvarsel:R(2014)中实现基于模型聚类的变量选择的包。预打印可在arxiv:1411.0606获得·Zbl 1172.62021号
[60] Soffriti,G.:识别数据矩阵中的多个簇结构。统计模拟。32, 1151-1177 (2003) ·Zbl 1100.62581号 ·doi:10.1081/SAC-120023883
[61] Soffriti,G.,Galinberti,G.:具有非正态误差的多元线性回归:基于混合模型的解决方案。统计计算。第21页,523-536页(2011年)·Zbl 1221.62106号 ·doi:10.1007/s11222-010-9190-3
[62] Srivastava,M.S.:多元统计方法。威利,纽约(2002)·Zbl 1006.62048号
[63] Steinley,D.,Brusco,M.J.:一种用于k均值聚类分析的新的可变加权和选择程序。多变量。行为。第43号决议,77-108(2008a)·doi:10.1080/00273170701836695
[64] Steinley,D.,Brusco,M.J.:聚类分析中变量的选择:八种程序的实证比较。《心理测量学》73,125-144(2008b)·Zbl 1143.62327号 ·doi:10.1007/s11336-007-9019-y
[65] Tadesse,M.G.,Sha,N.,Vannucci,M.:高维数据聚类中的贝叶斯变量选择。《美国统计协会期刊》100,602-617(2005)·Zbl 1117.62433号 ·doi:10.1198/0162145000001565
[66] Venables,W.N.,Ripley,B.D.:《现代应用统计学与S》,第4版。斯普林格,纽约(2002)·Zbl 1006.62003号 ·doi:10.1007/978-0-387-21706-2
[67] Viroli,C.:通过混合因子分析工具降低基于模型的聚类维数。J.分类。31, 363-388 (2010) ·Zbl 1337.62141号 ·doi:10.1007/s00357-010-9063-7
[68] Wang,S.,Zhu,J.:基于模型的高维聚类的变量选择及其在微阵列数据中的应用。生物统计学64,440-448(2008)·Zbl 1137.62041号 ·文件编号:10.1111/j.1541-0420.2007.00922.x
[69] Witten,D.M.,Tibshirani,R.:《聚类中特征选择的框架》,《美国统计协会期刊》105,713-726(2010)·Zbl 1392.62194号
[70] Xie,B.,Pan,W.,Shen,X.:通过对分组参数进行正则化,在基于惩罚模型的聚类中选择变量。生物统计学64,921-930(2008)·Zbl 1146.62101号 ·doi:10.1111/j.1541-0420.2007.00955.x
[71] Zeng,H.,Cheung,Y.-M.:高斯混合聚类的一种新的特征选择方法。模式识别。42, 243-250 (2009) ·Zbl 1181.68261号 ·doi:10.1016/j.patcog.2008.05.030
[72] Zhou,H.,Pan,W.,Shen,X.:基于惩罚模型的无约束协方差矩阵聚类。电子。J.Stat.3,1473-1496(2009年)·Zbl 1326.62143号 ·doi:10.1214/09-EJS487
[73] Zhu,X.,Melnykov,V.:有限混合建模中的Manly变换。计算。统计数据分析。(2016年)。doi:10.1016/j.csda.2016.01.015·Zbl 1469.62184号 ·doi:10.1016/j.csda.2016.01.015
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。