×

基于模型的高维数据聚类:综述。 (英语) Zbl 1471.62032号

摘要:基于模型的聚类是一种流行的工具,以其概率基础和灵活性而闻名。然而,高维数据现在越来越频繁,不幸的是,经典的基于模型的聚类技术在高维空间中表现出令人失望的行为。这主要是由于在这种情况下,基于模型的聚类方法被显著地过度参数化。然而,高维空间具有对聚类有用的特定特征,最近的技术利用了这些特征。在回顾了基于模型聚类的基础上,综述了降维方法、正则化技术、简约建模、子空间聚类方法和基于变量选择的聚类方法。还将审查现有的基于模型的高维数据聚类软件,并将在实际数据集上说明其实际应用。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agrawal,R.,Gehrke,J.,Gunopulos,D.,Raghavan,P.,1998年。用于数据挖掘应用的高维数据的自动子空间聚类。摘自:ACM SIGMOD国际数据管理会议,第94-105页。
[2] 安德鲁斯,J.L。;McNicholas,P.D.,《多元因子分析仪的扩展混合》,统计与计算,21,3,361-373,(2011)·Zbl 1255.62175号
[3] 安德鲁斯,J.L。;McNicholas,P.D.,基于模型的聚类、分类和多元分布混合判别分析,统计与计算,22,5,1021-1029,(2012)·Zbl 1252.62062号
[4] Baek,J。;McLachlan,G.J。;Flack,L.,《因子分析器与公共因子加载的混合:应用于高维数据的聚类和可视化》,IEEE模式分析和机器智能学报,1-13,(2009)
[5] 班菲尔德,J。;Raftery,A.E.,基于模型的高斯和非高斯聚类,生物统计学,49,803-821,(1993)·Zbl 0794.62034号
[6] Bellman,R.,《动态编程》(1957),普林斯顿大学出版社·Zbl 0077.13605号
[7] 贝尔热,L。;Bouveyron,C.等人。;Girard,S.,Hdclassif:高维数据基于模型聚类和判别分析的R包,《统计软件杂志》,42,6,1-29,(2012)
[8] Bickel,P.J。;Levina,E.,通过阈值进行协方差正则化,《统计年鉴》,36,2577-2604,(2008)·Zbl 1196.62062号
[9] 比克尔,P.J。;Levina,E.,大型协方差矩阵的正则化估计,《统计年鉴》,36,199-227,(2008)·Zbl 1132.62040号
[10] 比尔纳基,C。;Celeux,G。;Govaert,G.,评估具有集成完成可能性的聚类混合模型,IEEE模式分析和机器智能汇刊,22,719-725,(2001)
[11] 比尔纳基,C。;Celeux,G。;戈瓦特,G。;Langrognet,F.,使用mixmod软件进行基于模型的聚类和判别分析,计算统计和数据分析,51,587-600,(2006)·Zbl 1157.62431号
[12] 比尔纳基,C。;Jacques,J.,基于插入排序算法的秩数据生成模型,计算统计与数据分析,58,0,162-176,(2013)·Zbl 1365.62167号
[13] Bishop,C.M.,模式识别和机器学习,(2006),纽约斯普林格出版社·兹比尔1107.68072
[14] Bouchard,G.,Bouveyron,C.,2007年。statlearn工具箱:Matlab的统计学习工具。http://statlearn.free.fr/。
[15] Bouchard,G。;Celeux,G.,监督分类中的模型选择,IEEE模式分析和机器智能汇刊,28,4,544-554,(2005)
[16] Bouveyron,C。;Brunet,C.,《关于Fisher-EM算法中潜在鉴别子空间的估计》,《法国社会统计杂志》,152,3,98-115,(2011)·Zbl 1316.62082号
[17] Bouveyron,C.,Brunet,C.,2012a。稀疏Fisher-EM算法聚类的判别变量选择。技术报告预印本HAL 00685183,巴黎大学SAMM实验室,巴黎圣索邦大学·Zbl 1306.65033号
[18] Bouveyron,C。;Brunet,C.,《Fisher判别子空间中基于模型的同时聚类和可视化》,统计与计算,22,1,301-324,(2012)·Zbl 1322.62162号
[19] Bouveyron,C。;Brunet,C.,关于Fisher-EM算法收敛特性的理论和实践考虑,多元分析杂志,109,29-41,(2012)·Zbl 1352.62099号
[20] Bouveyron,C。;Celeux,G。;Girard,S.,各向同性概率主成分分析中基于最大似然的本征维数估计,模式识别快报,32,14,1706-1713,(2011)
[21] Bouveyron,C。;Girard,S。;Schmid,C.,高维数据聚类,计算统计与数据分析,52,1,502-519,(2007)·Zbl 1452.62433号
[22] Bouveyron,C。;Girard,S。;Schmid,C.,高维判别分析,统计学传播:理论与方法,36,142607-2623,(2007)·Zbl 1128.62072号
[23] 坎贝尔,N。;Mahon,R.J.,《细角蟹属两种岩蟹变异的多元研究》,澳大利亚动物学杂志,22417-425,(1974)
[24] Cattell,R.,因素数量的筛选检验,多变量行为研究,1,2145-276,(1966)
[25] Celeux,G。;Govaert,G.,高斯简约聚类模型,模式识别,28781-793,(1995)
[26] 塞勒,G。;Martin-Magniette,M.-L。;毛吉斯,C。;Raftery,A.E.,致编辑的信,《美国统计协会杂志》,106,493,(2011)·Zbl 1430.62126号
[27] Chang,W.C.,《关于在分离两个多元正态分布的混合物之前使用主成分》,《皇家统计学会杂志》,C辑,32,3,267-275,(1983)·Zbl 0538.62050号
[28] Chen,W.C。;奥斯特鲁乔夫,G.,《基于并行模型的聚类》(2012),美国田纳西州橡树岭国家实验室橡树岭
[29] Dempster,A。;莱尔德,N。;Robin,D.,通过EM算法从不完整数据中获取最大似然,《皇家统计学会杂志》,39,1,1-38,(1977)·Zbl 0364.62022号
[30] 杜达,R。;哈特,P。;Stork,D.,模式分类,(2000),John Wiley&Sons
[31] 埃夫隆,B。;哈斯蒂,T。;约翰斯通,I。;Tibshirani,R.,最小角回归,《统计年鉴》,32407-499,(2004)·Zbl 1091.62054号
[32] El Karoui,N.,2007年。大维稀疏协方差矩阵的算子范数一致估计。技术报告734,加州大学伯克利分校,统计部·Zbl 1196.62064号
[33] Fisher,R.A.,《多重测量在分类问题中的应用》,《优生学年鉴》,第7期,第179-188页,(1936年)
[34] Foley,D.H。;Sammon,J.W.,最佳鉴别向量集,IEEE计算机学报,24281-289,(1975)·Zbl 0296.68106号
[35] Fraley,C.,基于模型的高斯层次聚类算法,SIAM科学计算杂志,20,270-281,(1998)·Zbl 0911.62052号
[36] 弗雷利,C。;Raftery,A.E.,MCLUST:基于模型的聚类分析软件,分类杂志,16,297-306,(1999)·Zbl 0951.91500号
[37] 弗雷利,C。;Raftery,A.E.,基于模型的聚类、判别分析和密度估计,美国统计协会杂志,97,458,(2002)·Zbl 1073.62545号
[38] 不列颠哥伦比亚省Franczak,R.P.Browne,P.D.McNicholas,2012年。移位非对称拉普拉斯分布的混合。预打印arXiv:1207.1727v2。
[39] Frank,A.,Asuncion,A.,2010年。UCI机器学习库。http://archive.ics.uci.edu/ml。
[40] Friedman,J.H.,正则化判别分析,《美国统计协会杂志》,84,165-175,(1989)
[41] 弗里德曼,J.H。;哈斯蒂,T。;Tibshirani,R.,用图形套索进行稀疏逆协方差估计,美国统计协会杂志,104,177-186,(2008)·兹比尔1143.62076
[42] Fukunaga,K.,《统计模式识别导论》(1990),学术版。圣地亚哥出版社·Zbl 0711.62052号
[43] 加林贝蒂,G。;Montanari,A。;Viroli,C.,聚类数据中变量选择的惩罚因子混合分析,计算统计学和数据分析,53,1244301-4310,(2009)·Zbl 1453.62094号
[44] 加林贝蒂,G。;Soffriti,G.,《将条件独立性用于基于简约模型的高斯聚类》,《统计与计算》,(2012年)·兹比尔1322.62167
[45] Ghahramani,Z.,Hinton,G.E.,1997年。因子分析仪的EM算法。多伦多大学技术报告。
[46] 霍尔,P。;Marron,J。;Neeman,A.,高维低样本数据的几何表示,《皇家统计学会杂志》,B辑,67,3,427-444,(2005)·兹比尔1069.62097
[47] 哈斯蒂,T。;Buja,A。;Tibshirani,R.,惩罚判别分析,《统计年鉴》,23,73-102,(1995)·Zbl 0821.62031号
[48] Hotelling,H.,《将复杂的统计变量分析为主要成分》,《教育心理学杂志》,24417-441,(1933)
[49] Huber,P.,《投影追求》,《统计年鉴》,第13、2、435-525页,(1985年)·Zbl 0595.62059号
[50] 法学硕士。;Figueiredo,M。;Jain,A.,使用混合模型同时进行特征选择和聚类,IEEE模式分析和机器智能汇刊,26,9,1154-1166,(2004)
[51] Ledoit,O。;Wolf,M.,《大维协方差矩阵的良好估计》,《多元分析杂志》,88,365-411,(2003)·Zbl 1032.62050
[52] Lee,-J.C。;Lin,T.I。;谢伟杰,使用斜(t)分布的稳健混合建模,统计与计算,17,81-92,(2007)
[53] Lee,S。;McLachlan,G.J.,《多元斜(t)分布的有限混合:一些最新结果》,统计与计算,(2013)
[54] Lee,G。;Scott,C.,具有截断和删失数据的多元高斯混合模型的EM算法,计算统计与数据分析,56,9,2816-2829,(2012)·Zbl 1255.62308号
[55] Lin,T.I.,使用多元斜T分布的稳健混合建模,统计与计算,20343-356,(2010)
[56] Lindsay,B.G.,(混合模型:理论、几何和应用,NSF-CBMS概率统计区域会议系列,第5卷,(1995),数理统计研究所)·Zbl 1163.62326号
[57] 刘杰。;张建林。;Palumbo,M.J。;Lawrence,C.E.,带变量和转换选择的贝叶斯聚类,贝叶斯统计,7,249-276,(2003)
[58] MacQueen,J.,《多元观测分类和分析的一些方法》,(Cam,L.M.;Neyman,J.《第五届伯克利数理统计与概率研讨会论文集》,第1卷,(1967),加利福尼亚大学出版社),281-297·Zbl 0214.46201号
[59] 马诺洛波卢,I。;开普勒,T.B。;Merl,D.M.,《高斯井的混合物:理论、计算和应用》,计算统计和数据分析,56,12,3809-3820,(2012)·Zbl 1255.62178号
[60] Maugis,C.,2009年。selvarclust软件。网址:http://www.math.unive-toulouse.fr/maugis/SelvarClustHomepage.html。
[61] 毛吉斯,C。;Celeux,G。;Martin Magniette,M.-L.,高斯混合模型聚类的变量选择,生物计量学,65,3701-709,(2009)·Zbl 1172.62021号
[62] 毛吉斯,C。;Celeux,G。;Martin Magniette,M.-L.,基于模型的聚类中的变量选择:一般变量角色建模,计算统计学和数据分析,538872-3882,(2009)·Zbl 1453.62154号
[63] McLachlan,G.J.,2003年。EMMIX-MFA软件。http://www.maths.uq.edu.au/gjm/mix_soft/mfa/。
[64] McLachlan,G.J.,2010年a。EMMIX软件。http://www.maths.uq.edu.au/gjm/mix_soft/EMMIX_R/index.html。
[65] McLachlan,G.J.,2010年b。R软件的mcfa功能。http://www.maths.uq.edu.au/gjm/mix_soft/mcfa/。
[66] McLachlan,G.J。;Basford,K.E.,《混合模型:聚类的推断和应用》,(1988年),马塞尔·德克尔纽约·Zbl 0697.62050号
[67] McLachlan,G.J。;比恩,R.W。;Ben-Tovim-Jones,L.,将混合因子分析模型扩展为包含多元分布,计算统计与数据分析,51,5327-5338,(2011)·Zbl 1445.62053号
[68] McLachlan,G.J。;Krishnan,T.,《EM算法和扩展》,(1997),威利跨科学纽约·Zbl 0882.62012号
[69] McLachlan,G.J。;Peel,D.,通过多元(t)分布混合物进行稳健聚类分析,计算机科学讲义,1451658-666,(1998)
[70] McLachlan,G.J。;Peel,D.,有限混合模型,(2000),纽约威利跨科学出版社·Zbl 0963.62061号
[71] McLachlan,G.J。;皮,D。;Basford,K.E。;Adams,P.,《正态(t)分量混合物拟合的emmix软件》,《统计软件杂志》,4,2,1-14,(1999)
[72] McLachlan,G.J。;皮尔,D。;Bean,R.,《利用因子分析仪混合建模高维数据》,计算统计与数据分析,41,379,(2003)·Zbl 1256.62036号
[73] 医学博士麦克尼古拉斯。;Murphy,T.B.,解析高斯混合模型,统计学与计算,18,3,285-296,(2008)
[74] 医学博士麦克尼古拉斯。;Murphy,T.B.,通过潜在高斯混合模型对微阵列表达数据进行基于模型的聚类,生物信息学,26,21,2705-2712,(2010)
[75] McNicholas,P.D.,Murphy,T.B.,Jampani,K.R.,McDaid,A.F.,Banks,L.,2011年。Pgmm Version 1.0 for R:通过潜在高斯混合模型进行基于模型的聚类和分类。技术报告320,圭尔夫大学数学和统计系。
[76] 梅利尼科夫,V。;Melnykov,I.,用未知分量数的高斯混合模型初始化EM算法,计算统计与数据分析,56,6,1381-1395,(2012)·Zbl 1246.65025号
[77] Meng,X-L。;Van Dyk,D.,《EM算法——一首古老的民歌,以新快的调子演唱》,《皇家统计学会杂志》,B辑,59,3,511-567,(1997)·Zbl 1090.62518号
[78] Mkhadri,A。;Celeux,G。;Nasrollah,A.,《判别分析中的正则化:一项调查》,计算统计与数据分析,23,403-423,(1997)·Zbl 0875.62266号
[79] Mo,C.,2009年。emgm:高斯混合模型的EM算法。http://www.mathworks.com/matlabcentral/fileexchange/26184。
[80] Montanari,A。;Viroli,C.,异方差因子混合分析,统计建模,10,4,441-460,(2010)·Zbl 07256833号
[81] Murtagh,F.,《超高维数据的显著简单性:基于模型聚类的应用》,《分类杂志》,26,249-277,(2009)·Zbl 1337.62136号
[82] Murtagh,F。;Raftery,A.E.,将直线拟合到点模式,模式识别,17,479-483,(1984)
[83] 奥哈根,A。;墨菲,T.B。;Gormley,I.C.,通过期望最大化算法拟合混合模型的计算方面,计算统计与数据分析,56,12,3843-3864,(2012)·Zbl 1255.62180号
[84] 潘·W。;Shen,X.,基于惩罚模型的聚类及其在变量选择中的应用,机器学习研究杂志,81145-1164,(2007)·Zbl 1222.68279号
[85] 帕森斯,L。;哈克,E。;Liu,H.,高维数据的子空间聚类:综述,SIGKDD勘探通讯,6,1,69-76,(1998)
[86] Partovi Nia,V。;Davison,A.C.,《带变量选择的高维贝叶斯聚类:R包bclust》,《统计软件杂志》,47,5,1-22,(2012)
[87] Pavlenko,T.,《判别分析中的特征选择、维数诅咒和错误概率》,《统计规划与推断杂志》,115,565-584,(2003)·兹比尔1015.62066
[88] Pavlenko,T。;Von Rosen,D.,维度对歧视的影响,统计学,35,3,191-213,(2001)·Zbl 0980.62050号
[89] Pearson,K.,《关于与空间中的点系统最接近的线和平面》,哲学杂志,6,2559-572,(1901)
[90] Raftery,A.E。;Dean,N.,基于模型聚类的变量选择,《美国统计协会杂志》,101,473,168-178,(2006)·Zbl 1118.62339号
[91] 鲁宾,D。;Thayer,D.,ML因子分析的EM算法,《心理测量学》,47,1,69-76,(1982)·Zbl 0483.62046号
[92] Sanguinetti,G.,聚类数据集的降维,IEEE模式分析与机器智能汇刊,30,3,1-29,(2008)
[93] Schwarz,G.,估算模型的维度,《统计年鉴》,第6期,第461-464页,(1978年)·Zbl 0379.62005年
[94] 斯科特,A.J。;Symons,M.J.,基于似然比标准的聚类方法,生物统计学,27387-397,(1971)
[95] Scott,D.,Thompson,J.,1983年。高维概率密度估计,见:第十五届界面研讨会,第173-179页。
[96] Scrucca,L.,基于模型聚类的降维,统计与计算,20,4,471-484,(2010)
[97] 斯皮尔曼,C.,《两件事之间联系的证明和测量》,《美国心理学杂志》,第15期,第72-101页,(1904年)
[98] 斯坦纳,P.M。;Hudec,M.,通过充分EM对混合模型的大数据集进行分类,计算统计和数据分析,51,11,5416-5428,(2007)·Zbl 1445.62153号
[99] Tipping,M.E.,Bishop,C.M.,1997年。概率主成分分析。技术报告NCRG-97-010,阿斯顿大学神经计算研究小组·Zbl 0924.62068号
[100] Tipping,M.E。;Bishop,C.M.,概率主成分分析仪的混合,神经计算,11,2,443-482,(1999)
[101] Tran,T.N。;韦伦斯,R。;Buydens,L.M.C.,高维多元数据的基于Knn核密度的聚类,计算统计与数据分析,51,2,513-525,(2006)·Zbl 1157.62448号
[102] Tritchler,D。;法拉,S。;Beyene,J.,微阵列数据的光谱聚类方法,计算统计与数据分析,49,1,63-76,(2005)·Zbl 1429.62266号
[103] 韦纳布尔斯,W.N。;里普利,B.D.,《现代应用统计学与S》,(2002),施普林格出版社·Zbl 1006.62003号
[104] Viroli,C.,2010年a。R软件的hmfa函数。http://www2.stat.unibo.it/viroli/Cinzia_viroli/Software_&_Data.html。
[105] Viroli,C.,2010年b。R软件的mmfa功能。http://www2.stat.unibo.it/viroli/Software/MFMA_1.0.tar.gz。
[106] von Borries,G。;Wang,H.,基于p值的高维低样本数据分区聚类,计算统计与数据分析,53,12,3987-3998,(2009)·Zbl 1453.62233号
[107] 弗比克,I。;McNicholas,P.D.,多元斜交(t)混合模型EM算法的分析计算,《统计与概率快报》,82,1169-1174,(2012)·Zbl 1244.65012号
[108] 王,S。;Zhou,J.,基于模型的高维聚类变量选择及其在微阵列数据中的应用,生物统计学,64,440-448,(2008)·Zbl 1137.62041号
[109] Ward,J.H.,优化目标函数的分层分组,美国统计协会杂志,58234-244,(1963)
[110] Witten,D.M。;Tibshirani,R.,《聚类中特征选择的框架》,《美国统计协会杂志》,105,490,713-726,(2010)·Zbl 1392.62194号
[111] Wolfe,J.H.,1963年。社会领域的对象聚类分析。加州大学伯克利分校硕士论文。
[112] Wu,C.,关于EM算法的收敛性,统计年鉴,11,95-103,(1983)·Zbl 0517.62035号
[113] 谢,B。;潘·W。;Shen,X.,《基于惩罚模型的聚类与簇特定对角协方差矩阵和分组变量》,《统计学电子期刊》,2168-212,(2008)·Zbl 1135.62055号
[114] 谢,B。;潘·W。;Shen,X.,Penized of factor analyzers with application to clustering high dimension microarray data,Bioinformatics,26,4,501-508,(2010),因子分析仪的混合及其在高维微阵列数据聚类中的应用,生物信息学,26,4501-508
[115] 吉田,R。;Higuchi,T。;Imoto,S.,基因表达数据中群体结构降维和提取的混合因子模型,IEEE计算系统生物信息学会议,8161-172,(2004)
[116] 吉田,R。;Higuchi,T。;Imoto,S。;Miyano,S.,Array cluster:基因表达谱聚类、数据可视化和模型发现的分析工具,生物信息学,221538-1539,(2006)
[117] Zhang,Dai,G.,Jordan,M.I.,2009年。《正则化fisher判别分析的灵活高效算法》,载《欧洲数据库机器学习和知识发现会议论文集》,第632-647页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。