文件Zbl 1471.62032-zbMATH打开

基于模型的高维数据聚类：综述。（英语） Zbl 1471.62032号

计算。统计数据分析。 71，52-78（2014）.

摘要：基于模型的聚类是一种流行的工具，以其概率基础和灵活性而闻名。然而，高维数据现在越来越频繁，不幸的是，经典的基于模型的聚类技术在高维空间中表现出令人失望的行为。这主要是由于在这种情况下，基于模型的聚类方法被显著地过度参数化。然而，高维空间具有对聚类有用的特定特征，最近的技术利用了这些特征。在回顾了基于模型聚类的基础上，综述了降维方法、正则化技术、简约建模、子空间聚类方法和基于变量选择的聚类方法。还将审查现有的基于模型的高维数据聚类软件，并将在实际数据集上说明其实际应用。

引用于68文件

MSC公司：

62-08	统计问题的计算方法
62H30型	分类和区分；聚类分析（统计方面）

关键词：

基于模型的聚类;高维数据;尺寸缩减;正规化;简约模型;子空间聚类;变量选择;软件;R包

软件：

PGMM公司;质量（R）;EMMIX公司;玻璃制品;UCI-毫升;R（右）;bclust公司;预防卒中;麦克卢斯特;PRMLT公司;统计学习;Mixmod公司;HD等级

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Agrawal，R.，Gehrke，J.，Gunopulos，D.，Raghavan，P.，1998年。用于数据挖掘应用的高维数据的自动子空间聚类。摘自：ACM SIGMOD国际数据管理会议，第94-105页。
[2]	安德鲁斯，J.L。；McNicholas，P.D.，《多元因子分析仪的扩展混合》，统计与计算，21，3，361-373，（2011）·Zbl 1255.62175号
[3]	安德鲁斯，J.L。；McNicholas，P.D.，基于模型的聚类、分类和多元分布混合判别分析，统计与计算，22，5，1021-1029，（2012）·Zbl 1252.62062号
[4]	Baek，J。；McLachlan，G.J。；Flack，L.，《因子分析器与公共因子加载的混合：应用于高维数据的聚类和可视化》，IEEE模式分析和机器智能学报，1-13，（2009）
[5]	班菲尔德，J。；Raftery，A.E.，基于模型的高斯和非高斯聚类，生物统计学，49，803-821，（1993）·Zbl 0794.62034号
[6]	Bellman，R.，《动态编程》（1957），普林斯顿大学出版社·Zbl 0077.13605号
[7]	贝尔热，L。；Bouveyron，C.等人。；Girard，S.，Hdclassif:高维数据基于模型聚类和判别分析的R包，《统计软件杂志》，42，6，1-29，（2012）
[8]	Bickel，P.J。；Levina，E.，通过阈值进行协方差正则化，《统计年鉴》，36，2577-2604，（2008）·Zbl 1196.62062号
[9]	比克尔，P.J。；Levina，E.，大型协方差矩阵的正则化估计，《统计年鉴》，36，199-227，（2008）·Zbl 1132.62040号
[10]	比尔纳基，C。；Celeux，G。；Govaert，G.，评估具有集成完成可能性的聚类混合模型，IEEE模式分析和机器智能汇刊，22，719-725，（2001）
[11]	比尔纳基，C。；Celeux，G。；戈瓦特，G。；Langrognet，F.，使用mixmod软件进行基于模型的聚类和判别分析，计算统计和数据分析，51，587-600，（2006）·Zbl 1157.62431号
[12]	比尔纳基，C。；Jacques，J.，基于插入排序算法的秩数据生成模型，计算统计与数据分析，58，0，162-176，（2013）·Zbl 1365.62167号
[13]	Bishop，C.M.，模式识别和机器学习，（2006），纽约斯普林格出版社·兹比尔1107.68072
[14]	Bouchard，G.，Bouveyron，C.，2007年。statlearn工具箱：Matlab的统计学习工具。http://statlearn.free.fr/。
[15]	Bouchard，G。；Celeux，G.，监督分类中的模型选择，IEEE模式分析和机器智能汇刊，28，4，544-554，（2005）
[16]	Bouveyron，C。；Brunet，C.，《关于Fisher-EM算法中潜在鉴别子空间的估计》，《法国社会统计杂志》，152，3，98-115，（2011）·Zbl 1316.62082号
[17]	Bouveyron，C.，Brunet，C.，2012a。稀疏Fisher-EM算法聚类的判别变量选择。技术报告预印本HAL 00685183，巴黎大学SAMM实验室，巴黎圣索邦大学·Zbl 1306.65033号
[18]	Bouveyron，C。；Brunet，C.，《Fisher判别子空间中基于模型的同时聚类和可视化》，统计与计算，22，1，301-324，（2012）·Zbl 1322.62162号
[19]	Bouveyron，C。；Brunet，C.，关于Fisher-EM算法收敛特性的理论和实践考虑，多元分析杂志，109，29-41，（2012）·Zbl 1352.62099号
[20]	Bouveyron，C。；Celeux，G。；Girard，S.，各向同性概率主成分分析中基于最大似然的本征维数估计，模式识别快报，32，14，1706-1713，（2011）
[21]	Bouveyron，C。；Girard，S。；Schmid，C.，高维数据聚类，计算统计与数据分析，52，1，502-519，（2007）·Zbl 1452.62433号
[22]	Bouveyron，C。；Girard，S。；Schmid，C.，高维判别分析，统计学传播：理论与方法，36，142607-2623，（2007）·Zbl 1128.62072号
[23]	坎贝尔，N。；Mahon，R.J.，《细角蟹属两种岩蟹变异的多元研究》，澳大利亚动物学杂志，22417-425，（1974）
[24]	Cattell，R.，因素数量的筛选检验，多变量行为研究，1，2145-276，（1966）
[25]	Celeux，G。；Govaert，G.，高斯简约聚类模型，模式识别，28781-793，（1995）
[26]	塞勒，G。；Martin-Magniette，M.-L。；毛吉斯，C。；Raftery，A.E.，致编辑的信，《美国统计协会杂志》，106，493，（2011）·Zbl 1430.62126号
[27]	Chang，W.C.，《关于在分离两个多元正态分布的混合物之前使用主成分》，《皇家统计学会杂志》，C辑，32，3，267-275，（1983）·Zbl 0538.62050号
[28]	Chen，W.C。；奥斯特鲁乔夫，G.，《基于并行模型的聚类》（2012），美国田纳西州橡树岭国家实验室橡树岭
[29]	Dempster，A。；莱尔德，N。；Robin，D.，通过EM算法从不完整数据中获取最大似然，《皇家统计学会杂志》，39，1，1-38，（1977）·Zbl 0364.62022号
[30]	杜达，R。；哈特，P。；Stork，D.，模式分类，（2000），John Wiley&Sons
[31]	埃夫隆，B。；哈斯蒂，T。；约翰斯通，I。；Tibshirani，R.，最小角回归，《统计年鉴》，32407-499，（2004）·Zbl 1091.62054号
[32]	El Karoui，N.，2007年。大维稀疏协方差矩阵的算子范数一致估计。技术报告734，加州大学伯克利分校，统计部·Zbl 1196.62064号
[33]	Fisher，R.A.，《多重测量在分类问题中的应用》，《优生学年鉴》，第7期，第179-188页，（1936年）
[34]	Foley，D.H。；Sammon，J.W.，最佳鉴别向量集，IEEE计算机学报，24281-289，（1975）·Zbl 0296.68106号
[35]	Fraley，C.，基于模型的高斯层次聚类算法，SIAM科学计算杂志，20，270-281，（1998）·Zbl 0911.62052号
[36]	弗雷利，C。；Raftery，A.E.，MCLUST:基于模型的聚类分析软件，分类杂志，16，297-306，（1999）·Zbl 0951.91500号
[37]	弗雷利，C。；Raftery，A.E.，基于模型的聚类、判别分析和密度估计，美国统计协会杂志，97，458，（2002）·Zbl 1073.62545号
[38]	不列颠哥伦比亚省Franczak，R.P.Browne，P.D.McNicholas，2012年。移位非对称拉普拉斯分布的混合。预打印arXiv:1207.1727v2。
[39]	Frank，A.，Asuncion，A.，2010年。UCI机器学习库。http://archive.ics.uci.edu/ml。
[40]	Friedman，J.H.，正则化判别分析，《美国统计协会杂志》，84，165-175，（1989）
[41]	弗里德曼，J.H。；哈斯蒂，T。；Tibshirani，R.，用图形套索进行稀疏逆协方差估计，美国统计协会杂志，104，177-186，（2008）·兹比尔1143.62076
[42]	Fukunaga，K.，《统计模式识别导论》（1990），学术版。圣地亚哥出版社·Zbl 0711.62052号
[43]	加林贝蒂，G。；Montanari，A。；Viroli，C.，聚类数据中变量选择的惩罚因子混合分析，计算统计学和数据分析，53，1244301-4310，（2009）·Zbl 1453.62094号
[44]	加林贝蒂，G。；Soffriti，G.，《将条件独立性用于基于简约模型的高斯聚类》，《统计与计算》，（2012年）·兹比尔1322.62167
[45]	Ghahramani，Z.，Hinton，G.E.，1997年。因子分析仪的EM算法。多伦多大学技术报告。
[46]	霍尔，P。；Marron，J。；Neeman，A.，高维低样本数据的几何表示，《皇家统计学会杂志》，B辑，67，3，427-444，（2005）·兹比尔1069.62097
[47]	哈斯蒂，T。；Buja，A。；Tibshirani，R.，惩罚判别分析，《统计年鉴》，23，73-102，（1995）·Zbl 0821.62031号
[48]	Hotelling，H.，《将复杂的统计变量分析为主要成分》，《教育心理学杂志》，24417-441，（1933）
[49]	Huber，P.，《投影追求》，《统计年鉴》，第13、2、435-525页，（1985年）·Zbl 0595.62059号
[50]	法学硕士。；Figueiredo，M。；Jain，A.，使用混合模型同时进行特征选择和聚类，IEEE模式分析和机器智能汇刊，26，9，1154-1166，（2004）
[51]	Ledoit，O。；Wolf，M.，《大维协方差矩阵的良好估计》，《多元分析杂志》，88，365-411，（2003）·Zbl 1032.62050
[52]	Lee，-J.C。；Lin，T.I。；谢伟杰，使用斜（t）分布的稳健混合建模，统计与计算，17，81-92，（2007）
[53]	Lee，S。；McLachlan，G.J.，《多元斜（t）分布的有限混合：一些最新结果》，统计与计算，（2013）
[54]	Lee，G。；Scott，C.，具有截断和删失数据的多元高斯混合模型的EM算法，计算统计与数据分析，56，9，2816-2829，（2012）·Zbl 1255.62308号
[55]	Lin，T.I.，使用多元斜T分布的稳健混合建模，统计与计算，20343-356，（2010）
[56]	Lindsay，B.G.，（混合模型：理论、几何和应用，NSF-CBMS概率统计区域会议系列，第5卷，（1995），数理统计研究所）·Zbl 1163.62326号
[57]	刘杰。；张建林。；Palumbo，M.J。；Lawrence，C.E.，带变量和转换选择的贝叶斯聚类，贝叶斯统计，7，249-276，（2003）
[58]	MacQueen，J.，《多元观测分类和分析的一些方法》，（Cam，L.M.；Neyman，J.《第五届伯克利数理统计与概率研讨会论文集》，第1卷，（1967），加利福尼亚大学出版社），281-297·Zbl 0214.46201号
[59]	马诺洛波卢，I。；开普勒，T.B。；Merl，D.M.，《高斯井的混合物：理论、计算和应用》，计算统计和数据分析，56，12，3809-3820，（2012）·Zbl 1255.62178号
[60]	Maugis，C.，2009年。selvarclust软件。网址：http://www.math.unive-toulouse.fr/maugis/SelvarClustHomepage.html。
[61]	毛吉斯，C。；Celeux，G。；Martin Magniette，M.-L.，高斯混合模型聚类的变量选择，生物计量学，65，3701-709，（2009）·Zbl 1172.62021号
[62]	毛吉斯，C。；Celeux，G。；Martin Magniette，M.-L.，基于模型的聚类中的变量选择：一般变量角色建模，计算统计学和数据分析，538872-3882，（2009）·Zbl 1453.62154号
[63]	McLachlan，G.J.，2003年。EMMIX-MFA软件。http://www.maths.uq.edu.au/gjm/mix_soft/mfa/。
[64]	McLachlan，G.J.，2010年a。EMMIX软件。http://www.maths.uq.edu.au/gjm/mix_soft/EMMIX_R/index.html。
[65]	McLachlan，G.J.，2010年b。R软件的mcfa功能。http://www.maths.uq.edu.au/gjm/mix_soft/mcfa/。
[66]	McLachlan，G.J。；Basford，K.E.，《混合模型：聚类的推断和应用》，（1988年），马塞尔·德克尔纽约·Zbl 0697.62050号
[67]	McLachlan，G.J。；比恩，R.W。；Ben-Tovim-Jones，L.，将混合因子分析模型扩展为包含多元分布，计算统计与数据分析，51，5327-5338，（2011）·Zbl 1445.62053号
[68]	McLachlan，G.J。；Krishnan，T.，《EM算法和扩展》，（1997），威利跨科学纽约·Zbl 0882.62012号
[69]	McLachlan，G.J。；Peel，D.，通过多元（t）分布混合物进行稳健聚类分析，计算机科学讲义，1451658-666，（1998）
[70]	McLachlan，G.J。；Peel，D.，有限混合模型，（2000），纽约威利跨科学出版社·Zbl 0963.62061号
[71]	McLachlan，G.J。；皮，D。；Basford，K.E。；Adams，P.，《正态（t）分量混合物拟合的emmix软件》，《统计软件杂志》，4，2，1-14，（1999）
[72]	McLachlan，G.J。；皮尔，D。；Bean，R.，《利用因子分析仪混合建模高维数据》，计算统计与数据分析，41，379，（2003）·Zbl 1256.62036号
[73]	医学博士麦克尼古拉斯。；Murphy，T.B.，解析高斯混合模型，统计学与计算，18，3，285-296，（2008）
[74]	医学博士麦克尼古拉斯。；Murphy，T.B.，通过潜在高斯混合模型对微阵列表达数据进行基于模型的聚类，生物信息学，26，21，2705-2712，（2010）
[75]	McNicholas，P.D.，Murphy，T.B.，Jampani，K.R.，McDaid，A.F.，Banks，L.，2011年。Pgmm Version 1.0 for R：通过潜在高斯混合模型进行基于模型的聚类和分类。技术报告320，圭尔夫大学数学和统计系。
[76]	梅利尼科夫，V。；Melnykov，I.，用未知分量数的高斯混合模型初始化EM算法，计算统计与数据分析，56，6，1381-1395，（2012）·Zbl 1246.65025号
[77]	Meng，X-L。；Van Dyk，D.，《EM算法——一首古老的民歌，以新快的调子演唱》，《皇家统计学会杂志》，B辑，59，3，511-567，（1997）·Zbl 1090.62518号
[78]	Mkhadri，A。；Celeux，G。；Nasrollah，A.，《判别分析中的正则化：一项调查》，计算统计与数据分析，23，403-423，（1997）·Zbl 0875.62266号
[79]	Mo，C.，2009年。emgm：高斯混合模型的EM算法。http://www.mathworks.com/matlabcentral/fileexchange/26184。
[80]	Montanari，A。；Viroli，C.，异方差因子混合分析，统计建模，10，4，441-460，（2010）·Zbl 07256833号
[81]	Murtagh，F.，《超高维数据的显著简单性：基于模型聚类的应用》，《分类杂志》，26，249-277，（2009）·Zbl 1337.62136号
[82]	Murtagh，F。；Raftery，A.E.，将直线拟合到点模式，模式识别，17，479-483，（1984）
[83]	奥哈根，A。；墨菲，T.B。；Gormley，I.C.，通过期望最大化算法拟合混合模型的计算方面，计算统计与数据分析，56，12，3843-3864，（2012）·Zbl 1255.62180号
[84]	潘·W。；Shen，X.，基于惩罚模型的聚类及其在变量选择中的应用，机器学习研究杂志，81145-1164，（2007）·Zbl 1222.68279号
[85]	帕森斯，L。；哈克，E。；Liu，H.，高维数据的子空间聚类：综述，SIGKDD勘探通讯，6，1，69-76，（1998）
[86]	Partovi Nia，V。；Davison，A.C.，《带变量选择的高维贝叶斯聚类：R包bclust》，《统计软件杂志》，47，5，1-22，（2012）
[87]	Pavlenko，T.，《判别分析中的特征选择、维数诅咒和错误概率》，《统计规划与推断杂志》，115，565-584，（2003）·兹比尔1015.62066
[88]	Pavlenko，T。；Von Rosen，D.，维度对歧视的影响，统计学，35，3，191-213，（2001）·Zbl 0980.62050号
[89]	Pearson，K.，《关于与空间中的点系统最接近的线和平面》，哲学杂志，6，2559-572，（1901）
[90]	Raftery，A.E。；Dean，N.，基于模型聚类的变量选择，《美国统计协会杂志》，101，473，168-178，（2006）·Zbl 1118.62339号
[91]	鲁宾，D。；Thayer，D.，ML因子分析的EM算法，《心理测量学》，47，1，69-76，（1982）·Zbl 0483.62046号
[92]	Sanguinetti，G.，聚类数据集的降维，IEEE模式分析与机器智能汇刊，30，3，1-29，（2008）
[93]	Schwarz，G.，估算模型的维度，《统计年鉴》，第6期，第461-464页，（1978年）·Zbl 0379.62005年
[94]	斯科特，A.J。；Symons，M.J.，基于似然比标准的聚类方法，生物统计学，27387-397，（1971）
[95]	Scott，D.，Thompson，J.，1983年。高维概率密度估计，见：第十五届界面研讨会，第173-179页。
[96]	Scrucca，L.，基于模型聚类的降维，统计与计算，20，4，471-484，（2010）
[97]	斯皮尔曼，C.，《两件事之间联系的证明和测量》，《美国心理学杂志》，第15期，第72-101页，（1904年）
[98]	斯坦纳，P.M。；Hudec，M.，通过充分EM对混合模型的大数据集进行分类，计算统计和数据分析，51，11，5416-5428，（2007）·Zbl 1445.62153号
[99]	Tipping，M.E.，Bishop，C.M.，1997年。概率主成分分析。技术报告NCRG-97-010，阿斯顿大学神经计算研究小组·Zbl 0924.62068号
[100]	Tipping，M.E。；Bishop，C.M.，概率主成分分析仪的混合，神经计算，11，2，443-482，（1999）
[101]	Tran，T.N。；韦伦斯，R。；Buydens，L.M.C.，高维多元数据的基于Knn核密度的聚类，计算统计与数据分析，51，2，513-525，（2006）·Zbl 1157.62448号
[102]	Tritchler，D。；法拉，S。；Beyene，J.，微阵列数据的光谱聚类方法，计算统计与数据分析，49，1，63-76，（2005）·Zbl 1429.62266号
[103]	韦纳布尔斯，W.N。；里普利，B.D.，《现代应用统计学与S》，（2002），施普林格出版社·Zbl 1006.62003号
[104]	Viroli，C.，2010年a。R软件的hmfa函数。http://www2.stat.unibo.it/viroli/Cinzia_viroli/Software_&_Data.html。
[105]	Viroli，C.，2010年b。R软件的mmfa功能。http://www2.stat.unibo.it/viroli/Software/MFMA_1.0.tar.gz。
[106]	von Borries，G。；Wang，H.，基于p值的高维低样本数据分区聚类，计算统计与数据分析，53，12，3987-3998，（2009）·Zbl 1453.62233号
[107]	弗比克，I。；McNicholas，P.D.，多元斜交（t）混合模型EM算法的分析计算，《统计与概率快报》，82，1169-1174，（2012）·Zbl 1244.65012号
[108]	王，S。；Zhou，J.，基于模型的高维聚类变量选择及其在微阵列数据中的应用，生物统计学，64，440-448，（2008）·Zbl 1137.62041号
[109]	Ward，J.H.，优化目标函数的分层分组，美国统计协会杂志，58234-244，（1963）
[110]	Witten，D.M。；Tibshirani，R.，《聚类中特征选择的框架》，《美国统计协会杂志》，105，490，713-726，（2010）·Zbl 1392.62194号
[111]	Wolfe，J.H.，1963年。社会领域的对象聚类分析。加州大学伯克利分校硕士论文。
[112]	Wu，C.，关于EM算法的收敛性，统计年鉴，11，95-103，（1983）·Zbl 0517.62035号
[113]	谢，B。；潘·W。；Shen，X.，《基于惩罚模型的聚类与簇特定对角协方差矩阵和分组变量》，《统计学电子期刊》，2168-212，（2008）·Zbl 1135.62055号
[114]	谢，B。；潘·W。；Shen，X.，Penized of factor analyzers with application to clustering high dimension microarray data，Bioinformatics，26，4，501-508，（2010），因子分析仪的混合及其在高维微阵列数据聚类中的应用，生物信息学，26，4501-508
[115]	吉田，R。；Higuchi，T。；Imoto，S.，基因表达数据中群体结构降维和提取的混合因子模型，IEEE计算系统生物信息学会议，8161-172，（2004）
[116]	吉田，R。；Higuchi，T。；Imoto，S。；Miyano，S.，Array cluster:基因表达谱聚类、数据可视化和模型发现的分析工具，生物信息学，221538-1539，（2006）
[117]	Zhang，Dai，G.，Jordan，M.I.，2009年。《正则化fisher判别分析的灵活高效算法》，载《欧洲数据库机器学习和知识发现会议论文集》，第632-647页。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：书本；一：书籍文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

基于模型的高维数据聚类：综述。（英语） Zbl 1471.62032号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

基于模型的高维数据聚类：综述。 （英语） Zbl 1471.62032号

MSC公司：

关键词：

软件：

参考文献：

基于模型的高维数据聚类：综述。（英语） Zbl 1471.62032号