×

基于模型的高维数据聚类:综述。 (英语) Zbl 1471.62032

摘要:基于模型的聚类是一种流行的工具,以其概率基础和灵活性而闻名。然而,高维数据越来越频繁,传统的基于模型的聚类技术在高维空间表现出令人失望的行为。这主要是因为在这种情况下,基于模型的聚类方法被显著地过度参数化。然而,高维空间具有特殊的特性,这些特性对于聚类是有用的,而最近的技术利用了这些特性。在回顾了基于模型聚类的基础上,综述了降维方法、正则化技术、简约建模、子空间聚类方法和基于变量选择的聚类方法。此外,还将回顾现有的基于模型的高维数据聚类软件,并说明它们在实际数据集上的实际应用。

理学硕士:

62-08年 统计问题的计算方法
H3620小时 分类和区分;聚类分析(统计方面)
PDF格式 BibTeX公司 XML 引用
全文: 内政部 链接

参考文献:

[1] Agrawal,R.,Gehrke,J.,Gunopulos,D.,Raghavan,P.,1998.用于数据挖掘应用的高维数据自动子空间聚类。In:ACM SIGMOD国际数据管理会议,第94-105页。
[2] 安德鲁斯,J.L。;McNicholas,P.D.,《扩展多元混合因子分析、统计与计算》,21,3,361-373,(2011)·Zbl 1255.62175
[3] 安德鲁斯,J.L。;McNicholas,P.D.,《基于模型的聚类、分类和多元混合判别分析——分布、统计和计算》,22,5,1021-1029,(2012)·Zbl 1252.62062
[4] 贝克,J。;麦克拉克伦,G.J。;Flack,L.,《因子分析与公共因子加载的混合:高维数据聚类与可视化应用》,IEEE模式分析与机器智能汇刊,1-13,(2009)
[5] 班菲尔德,J。;Raftery,A.E.,基于模型的高斯和非高斯聚类,生物特征学,49803-821,(1993)·Zbl 0794.62034
[6] 《动态规划》(1957年),普林斯顿大学出版社·中宝0077.13605
[7] 贝格,L。;布维隆,C。;Girard,S.,Hdclassif:高维数据基于模型的聚类和判别分析的R包,统计软件杂志,42,6,1-29,(2012)
[8] 比克尔,P.J。;Levina,E.,阈值法协方差正则化,《统计年鉴》,362577-2604,(2008)·Zbl 1196.62062
[9] 比克尔,P.J。;Levina,E.,大型协方差矩阵的正则化估计,统计年鉴,36199-227,(2008)·Zbl 1132.62040
[10] 比尔纳基,C。;塞勒克斯,G。;Govaert,G.,《用综合完全似然评估聚类的混合模型》,IEEE模式分析与机器智能汇刊,22,7,719-725,(2001)
[11] 比尔纳基,C。;塞勒克斯,G。;政府,G。;Langrognet,F.,用mixmod软件进行基于模型的聚类和判别分析,计算统计和数据分析,51587-600,(2006)·Zbl 1157.62431
[12] 比尔纳基,C。;Jacques,J.,基于插入排序算法的秩数据生成模型,计算统计与数据分析,58,0,162-176,(2013)·Zbl 1365.62167
[13] Bishop,C.M.,模式识别和机器学习(2006),Springer纽约·Zbl 1107.68072
[14] Bouchard,G.,Bouveyron,C.,2007.statlearn工具箱:Matlab的统计学习工具。http://statlearn.free.fr/。
[15] 布查德,G。;Celeux,G.,监督分类中的模型选择,IEEE模式分析与机器智能汇刊,28,4,544-554,(2005)
[16] 布维隆,C。;Brunet,C.,关于Fisher-EM算法中潜在判别子空间的估计,法国社会统计杂志,152,3,98-115,(2011)·Zbl 1316.62082
[17] 布维隆,C.,布鲁内特,C.,2012年a。稀疏Fisher-EM算法在聚类中的判别变量选择。技术报告预印本HAL 00685183,巴黎大学萨姆实验室,巴黎1潘森索邦·Zbl 1306.65033
[18] 布维隆,C。;《基于区分计算的同步统计》,Brunet C,2012年·Zbl 1322.62162
[19] 布维隆,C。;Brunet,C.,Fisher-EM算法收敛性的理论与实践考量,多元分析杂志,109,29-41,(2012)·Zbl 1352.62099
[20] 布维隆,C。;塞勒克斯,G。;Girard,S.,各向同性概率主元分析中的最大似然内禀维数估计,模式识别字母,32,14,1706-1713,(2011)
[21] 布维隆,C。;吉拉德,S。;高维数据聚类,计算统计学和数据分析,52,1502-519,(2007)·Zbl 1452.62433
[22] 布维隆,C。;吉拉德,S。;高维判别分析,统计学通讯:理论与方法,36,14,2607-2623,(2007)·Zbl 1128.62072
[23] 北卡罗来纳州坎贝尔市。;Mahon,R.J.,两种岩蟹属岩蟹变异的多变量研究,澳大利亚动物学杂志,22,417-425,(1974)
[24] 卡特尔,R.,《因素数量的scree检验》,多变量行为研究,1,2,145-276,(1966)
[25] 塞勒克斯,G。;Govaert,G.,高斯简约聚类模型,模式识别,28781-793,(1995)
[26] 塞勒克斯,G。;马丁·马格涅特,M.-L。;毛吉斯,C。;Raftery,A.E.,致编辑的信,美国统计协会杂志,106493,(2011)
[27] 张文聪,关于在分离两个多元正态分布的混合物之前使用主成分,皇家统计学会期刊,C辑,32,3,267-275,(1983)·Zbl 0538.62050
[28] 陈伟。;Ostrouchov,G.,基于并行模型的聚类(2012),美国田纳西州橡树岭国家实验室
[29] 邓普斯特,A。;莱尔德,N。;Robin,D.,《通过EM算法从不完全数据中获得最大似然值》,皇家统计学会期刊,39,1,1-38,(1977)·Zbl 0364.62022
[30] 杜达,R。;哈特,P。;Stork,D.,模式分类,(2000),John Wiley&Sons
[31] 埃夫隆,B。;黑斯蒂,T。;约翰斯顿,我。;Tibshirani,R.,最小角度回归,《统计年鉴》,32407-499,(2004)·Zbl 1091.62054
[32] El Karoui,N.,2007。大维稀疏协方差矩阵的算子范数一致估计。技术报告734,加州大学伯克利分校,统计系·Zbl 1196.62064
[33] Fisher,R.A.,《分类学问题中多重测量的使用》,《优生学年鉴》,7179-188,(1936)
[34] 福利博士。;《最佳鉴别向量集》,IEEE计算机事务,24281-289,(1975)·中银0296.68106
[35] Fraley,C.,基于模型的高斯层次聚类算法,暹罗科学计算杂志,20,270-281,(1998)·Zbl 0911.62052
[36] 弗雷利,C。;Raftery,A.E.,McClust:基于模型的聚类分析软件,分类杂志,16297-306,(1999)·Zbl 0951.91500
[37] 弗雷利,C。;Raftery,A.E.,基于模型的聚类、判别分析和密度估计,美国统计协会杂志,97458,(2002)·Zbl 1073.62545
[38] Franczak,B.C.,Browne,R.P.,McNicholas,P.D.,2012.位移不对称拉普拉斯分布的混合。预印本arXiv:1207.1727v2。
[39] Frank,A.,Asuncion,A.,2010.UCI机器学习知识库。http://archive.ics.uci.edu/ml。
[40] Friedman,J.H.,正则化判别分析,美国统计协会杂志,84165-175,(1989)
[41] 弗里德曼,J.H。;黑斯蒂,T。;Tibshirani,R.,用图形套索进行稀疏逆协方差估计,美国统计协会杂志,104177-186,(2008)·Zbl 1143.62076
[42] Fukunaga,K.,统计学模式识别导论,(1990),学术。圣地亚哥出版社·Zbl 0711.62052
[43] 加林贝蒂,G。;蒙塔纳里,A。;Viroli,C.,聚类数据中变量选择的惩罚因子混合分析,计算统计学和数据分析,53,12,4301-4310,(2009)·Zbl 1453.62094
[44] 加林贝蒂,G。;Soffritti,G.,《使用条件独立性进行基于简约模型的高斯聚类、统计和计算》(2012)·Zbl 1322.62167
[45] Ghahramani,Z.,Hinton,G.E.,1997.因子分析仪的EM算法。多伦多大学技术报告。
[46] 霍尔,P。;马里恩,J。;Neeman,A.,高维低样本数据的几何表示,英国皇家统计学会期刊,B辑,67,3,427-444,(2005)·Zbl 1069.62097
[47] 黑斯蒂,T。;Buja,A。;Tibshirani,R.,惩罚判别分析,统计年鉴,23,73-102,(1995)·Zbl 0821.62031
[48] Hotelling,H.,《将统计变量综合成主成分的分析》,《教育心理学杂志》,24417-441,(1933)
[49] 《统计研究》第13期,第525页·Zbl 0595.62059
[50] 法律,M。;菲格雷多,M。;Jain,A.,使用混合模型的同步特征选择和聚类,IEEE模式分析与机器智能汇刊,26,9,1154-1166,(2004)
[51] 莱多特,O。;Wolf,M.,大维协方差矩阵的良好条件估计,多元分析杂志,88365-411,(2003)·Zbl 1032.62050
[52] 李,J。C、 。;林,T.I。;谢伟,W.J.,《使用偏态分布的稳健混合模型》,统计与计算,17,81-92,(2007)
[53] 李,S。;McLachlan,G.J.,多元偏斜分布的有限混合:一些最新结果,统计与计算,(2013)
[54] 李,G。;Scott,C.,具有截断和截尾数据的多元高斯混合模型的EM算法,计算统计和数据分析,56,9,2816-2829,(2012)·Zbl 1255.62308
[55] 林,T.I.,使用多元偏态T分布的稳健混合模型,统计与计算,20343-356,(2010)
[56] 林赛,B.G.,(混合模型:理论,几何和应用,NSF-CBMS概率统计区域会议系列,第5卷,(1995),数理统计研究所)
[57] 刘杰。;张建利。;帕伦博,M.J。;劳伦斯,C.E.,贝叶斯聚类与变量和转换选择,贝叶斯统计,7249-276,(2003)
[58] MacQueen,J.,《多元观测的分类和分析的一些方法》,(Cam,L.M.;Neyman,J.,《第五届伯克利数理统计和概率研讨会论文集》,第1卷,(1967年),加利福尼亚大学出版社,281-297·Zbl 0214.46201
[59] 马诺洛波卢,I。;开普勒,T.B。;Merl,D.M.,高斯井的混合:理论、计算和应用,计算统计和数据分析,56,123809-3820,(2012)·Zbl 1255.62178
[60] Maugis,C.,2009.selvarclust软件。http://www.math.univ-toulouse.fr/maugis/SelvarClustHomepage.html。
[61] 毛吉斯,C。;塞勒克斯,G。;马丁·马格涅特,M.-L。,高斯混合模型聚类变量选择,生物特征学,65,3,701-709,(2009)·Zbl 1172.62021
[62] 毛吉斯,C。;塞勒克斯,G。;马丁·马格涅特,M.-L。,基于模型聚类的变量选择:一般变量角色建模,计算统计和数据分析,533872-3882,(2009)·Zbl 1453.62154
[63] McLachlan,G.J.,2003.EMMIX-MFA软件。http://www.mathematics.uq.edu.au/gjm/混合软质/mfa/。
[64] 麦克拉克伦,G.J.,2010a。EMMIX软件。http://www.mathematics.uq.edu.au/gjm/mix_soft/EMMIX_R/index.html。
〔65〕 麦克拉克伦,G.J.,2010b。R软件的mcfa功能。http://www.mathematics.uq.edu.au/gjm/混合软质/mcfa/。
[66] 麦克拉克伦,G.J。;Basford,K.E.,混合模型:推理和聚类应用,(1988),Marcel Dekker纽约·中保0697.62050
[67] 麦克拉克伦,G.J。;比恩,R.W。;Ben Tovim Jones,L.,混合因子分析模型的扩展,以纳入多元分布,计算统计和数据分析,515327-5338,(2011)·Zbl 1445.62053
[68] 麦克拉克伦,G.J。;Krishnan,T.,EM算法和扩展,(1997),Wiley Interscience New York·邮政编码:0882.62012
〔69〕 麦克拉克伦,G.J。;皮尔,D.,《多元分布混合的稳健聚类分析》,计算机科学讲稿,1451658-666,(1998)
[70] 麦克拉克伦,G.J。;Peel,D.,有限混合模型,(2000),Wiley Interscience New York·Zbl 0963.62061
[71] 麦克拉克伦,G.J。;皮尔,D。;英国巴斯福德。;Adams,P.,《emmix软件对正态成分混合物的拟合》,统计软件杂志,4,2,1-14,(1999)
[72] 麦克拉克伦,G.J。;皮尔,D。;Bean,R.,《利用因子分析仪的混合建模高维数据,计算统计学和数据分析》,41379,(2003)·Zbl 1256.62036
[73] 麦克尼古拉斯,P.D。;墨菲,T.B.,简约高斯混合模型,统计与计算,18,3285-296,(2008)
[74] 麦克尼古拉斯,P.D。;Murphy,T.B.,通过潜在高斯混合模型对微阵列表达数据进行基于模型的聚类,生物信息学,26,21,2705-2712,(2010)
[75] McNicholas,P.D.,Murphy,T.B.,Jampani,K.R.,McDaid,A.F.,Banks,L.,2011.Pgmm版本1.0 for R:通过潜在高斯混合模型基于模型的聚类和分类。盖尔夫大学数学与统计系,320。
[76] 梅尔尼科夫,V。;Melnykov,I.,用未知分量数初始化高斯混合模型中的EM算法,计算统计和数据分析,56,6,1381-1395,(2012)·Zbl 1246.65025
[77] 孟,X-L。;范·戴克,D.,《EM算法——一首以快速的新曲调演唱的古老民歌》,《皇家统计学会杂志》,B辑,59,3511-567,(1997)·Zbl 1090.62518
[78] Mkhadri,A。;塞勒克斯,G。;Nasrollah,A.,判别分析中的正则化:调查,计算统计和数据分析,23403-423,(1997)·Zbl 0875.62266
[79] 莫,C.,2009。emgm:高斯混合模型的EM算法。http://www.mathworks.com/matlabcentral/fileexchange/26184。
[80] 蒙塔纳里,A。;Viroli,C.,异方差因子混合分析,统计建模,10,441-460,(2010)
[81] Murtagh,F.,《非常高维数据的显著简单性:基于模型的聚类应用》,分类杂志,26249-277,(2009)·Zbl 1337.62136
[82] 默塔赫,F。;Raftery,A.E.,拟合直线到点模式,模式识别,17479-483,(1984)
[83] 奥哈根,A。;墨菲,T.B。;葛姆利,I.C.,通过期望最大化算法拟合混合模型的计算方面,计算统计学和数据分析,56,12,3843-3864,(2012)·Zbl 1255.62180
[84] 潘,W。;沈,X,基于惩罚模型的聚类及其在变量选择中的应用,机器学习研究杂志,81145-1164,(2007)·Zbl 1222.68279号
[85] 帕森斯,L。;哈克,E。;Liu,H.,高维数据的子空间聚类:综述,SIGKDD勘探通讯,6,1,69-76,(1998)
[86] 帕托维尼亚五世。;戴维森,A.C.,高维贝叶斯聚类与变量选择:R包bclust,统计软件杂志,47,5,1-22,(2012)
[87] Pavlenko,T.,《判别分析中的特征选择、维数灾难和错误概率》,统计规划与推理杂志,115565-584,(2003)·Zbl 1015.62066
[88] 帕夫连科。;冯·罗森,D.,维度对歧视的影响,统计学,35,3,191-213,(2001)·Zbl 0980.62050
[89] 皮尔逊,K.,《空间中最接近点系的直线和平面》,哲学杂志,6,2559-572,(1901)·京财32.0246.07
[90] 莱弗利,A.E。;Dean,N.,基于模型聚类的变量选择,美国统计协会杂志,101473,168-178,(2006)·Zbl 1118.62339
[91] 鲁宾,D。;Thayer,D.,ML因子分析的EM算法,心理测量学,47,1,69-76,(1982)·Zbl 0483.62046
[92] Sanguinetti,G.,《聚类数据集的维数缩减》,IEEE模式分析与机器智能汇刊,30,3,1-29,(2008)
[93] Schwarz,G.,《估计模型的维数》,《统计年鉴》,6461-464,(1978)·Zbl 0379.62005
[94] 斯科特,A.J。;Symons,M.J.,基于似然比标准的聚类方法,生物识别,27387-397,(1971)
[95] Scott,D.,Thompson,J.,1983,《高维概率密度估计》,in:第十五届界面研讨会,第173-179页。
[96] Scrucca,L.,《基于模型的聚类的降维,统计与计算》,20,4,471-484,(2010)
[97] 斯皮尔曼,C.,《两件事之间联系的证明和测量》,美国心理学杂志,15,72-101,(1904)
[98] 斯坦纳,P.M。;Hudec,M.,《通过充分EM对具有混合模型的大数据集的分类》,计算统计和数据分析,51,11,5416-5428,(2007)·Zbl 1445.62153
[99] Tipping,M.E.,Bishop,C.M.,1997.概率主成分分析。技术报告NCRG-97-010,阿斯顿大学神经计算研究组·Zbl 0924.62068
[100] 小费,医学硕士。;毕晓普,C.M.,概率主成分分析仪的混合,神经计算,11,2,443-482,(1999)
[101] 交通部。;韦伦斯,R。;Buydens,L.M.C.,基于Knn核密度的高维多元数据聚类,计算统计学和数据分析,51,2,513-525,(2006)·Zbl 1157.62448号
[102] 特里奇勒,D。;法拉,S。;Beyene,J.,微阵列数据的谱聚类方法,计算统计学和数据分析,49,1,63-76,(2005)·Zbl 1429.62266
[103] 维纳布尔斯,W.N。;《现代统计学》,2002年,与斯普林•S·Zbl 1006.62003
[104] 维罗利,C.,2010a。R软件的hmfa功能。http://www2.stat.unibo.it/viroli/Cinzia_viroli/Software\uu Data.html。
[105] 维罗利,C.,2010b。R软件的mmfa功能。http://www2.stat.unibo.it/viroli/Software/MFMA_1.0.tar.gz。
[106] 冯·博里斯,G。;Wang,H.,基于\(p\)-值的高维低样本数据的分区聚类,计算统计与数据分析,53,12,3987-3998,(2009)·Zbl 1453.62233
[107号] 维比克,I。;McNicholas,P.D.,《多元偏态混合模型EM算法的分析计算》,《统计学与概率论》,821169-1174,(2012)·Zbl 1244.65012号
[108] 王,S。;Zhou,J.,基于模型的高维聚类变量选择及其在微阵列数据中的应用,生物特征学,64440-448,(2008)·Zbl 1137.62041
[109号] Ward,J.H.,优化目标函数的层次分组法,美国统计协会杂志,58234-244,(1963)
[110] 维顿博士。;Tibshirani,R.,聚类中特征选择的框架,美国统计协会杂志,105,490,713-726,(2010)·Zbl 1392.62194
[111] Wolfe,J.H.,1963.社会领域的对象聚类分析。加州大学伯克利分校硕士论文。
[112] 吴,C.关于EM算法的收敛性,统计年鉴,11,95-103,(1983)·零担0517.62035
[113] 谢乙。;潘,W。;Shen,X.,《基于惩罚模型的聚类与聚类特定对角协方差矩阵和分组变量》,电子统计杂志,2168-212,(2008)
[114] 谢乙。;潘,W。;Shen,X.,因子分析的惩罚混合因子及其在高维微阵列数据聚类中的应用,生物信息学,26,4,501-508,(2010)
[115] 吉田,R。;Higuchi,T。;Imoto,S.,基因表达数据中降维和提取群结构的混合因子模型,IEEE计算系统生物信息学会议,8161-172,(2004)
[116] 吉田,R。;Higuchi,T。;伊莫托,S。;Miyano,S.,Array cluster:基因表达谱聚类、数据可视化和模型发现的分析工具,生物信息学,221538-1539,(2006)
[117] Zhang,Z.,Dai,G.,Jordan,M.I.,2009.正则化fisher判别分析的一种灵活有效的算法,载:欧洲数据库机器学习与知识发现会议论文集,第632-647页。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。