×

高维数据聚类。 (英语) Zbl 1452.62433号

摘要:高维空间中的聚类是一个困难的问题,在许多领域中经常出现,例如在图像分析中。困难在于高维数据通常存在于原始空间中不同的低维子空间中。结合子空间聚类和简约建模的思想,提出了一类用于高维数据的高斯混合模型。这些模型产生了一种基于期望最大化算法的聚类方法,称为高维数据聚类(HDDC)。为了正确地拟合数据,HDDC估计每个组的特定子空间和固有维数。在人工和真实数据集上的实验表明,HDDC在聚类高维数据方面优于现有方法。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62-08 统计问题的计算方法

软件:

ARPACK公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿格拉瓦尔,R。;Gehrke,J。;Gunoplos博士。;Raghavan,P.,用于数据挖掘应用的高维数据的自动子空间聚类,(ACM SIGMOD国际数据管理会议(1998)),94-105
[2] 班菲尔德,J。;Raftery,A.,基于模型的高斯和非高斯聚类,生物统计学,49,803-821(1993)·Zbl 0794.62034号
[3] Bellman,R.,《动态编程》(1957),普林斯顿大学出版社:普林斯顿大学出版,新泽西州普林斯顿·Zbl 0077.13605号
[4] Bezdek,J.C。;Coray,C。;冈德森,R。;Watson,J.,《簇子结构的检测和表征》。一、线性结构:模糊线;二: 模糊变种及其凸组合,SIAM J.Appl。数学。,40, 339-357 (1981), 38-372 ·Zbl 0475.62046号
[5] Bibring,J.-P.,42位合著者,2004年。欧米茄:《观景报》(Observatoire pour la Minéralogie,l'Eau,les Glaces et l'Activité)。ESA SP-1240:火星快车:科学有效载荷,第37-49页。;Bibring,J.-P.,42位合著者,2004年。欧米茄:《观景报》(Observatoire pour la Minéralogie,l'Eau,les Glaces et l'Activité)。欧空局SP-1240:《火星快车:科学有效载荷》,第37-49页。
[6] 博奇,L。;维卡里,D。;Vichi,M.,三向邻近数据分类的混合模型,计算。统计师。数据分析。,50, 7, 1625-1654 (2006) ·Zbl 1445.62139号
[7] 博克,H.-H.,1969年。两个极值问题的等价性及其在多元数据迭代分类中的应用。在:Mathematisches Forschungsinstitut。;波克,H.-H.,1969年。两个极值问题的等价性及其在多元数据迭代分类中的应用。收录:Mathematisches Forschungsinstitut。
[8] Bock,H.-H.,Automatische Klassifikation(1974),范登霍克和鲁普雷希特:范登霍克和鲁普雷赫特·戈廷根·Zbl 0207.19202号
[9] Bock,H.-H.,关于聚类分析、主成分聚类和多维尺度之间的接口,(Bozdogan,H.;Gupta,A.K.,多元统计建模和数据分析(1987),Reidel:Reidel Dordrecht),7-34
[10] Bock,H.-H.,聚类分析中的概率模型,计算。统计师。数据分析。,23, 1, 5-28 (1996) ·Zbl 0900.62324号
[11] Bouveyron,C.,Girard,S.,Schmid,C.,2006年。高维数据聚类。1083M技术报告,LMC-IMAG,UniversityéJ.Fourier Grenoble 1。;Bouveyron,C.,Girard,S.,Schmid,C.,2006年。高维数据聚类。1083M技术报告,LMC-IMAG,UniversityéJ.Fourier Grenoble 1·Zbl 1452.62433号
[12] Cattell,R.,《因子数的筛选试验》,《多元行为研究》,1,2,245-276(1966)
[13] Celeux,G。;Govaert,G.,一种用于聚类的分类EM算法和两种随机版本,计算。统计师。数据分析。,14, 315-332 (1992) ·Zbl 0937.62605号
[14] Celeux,G。;Govaert,G.,高斯简约聚类模型,国际。J.图案设计。,28, 5, 781-793 (1995)
[15] De Soete,G。;Carroll,J.D.,(K)-表示低维欧几里德空间中的聚类,(Diday,E.;Lechevallier,Y.;Schader,M.;Bertrand,P.;Burtschy,B.,《分类和数据分析的新方法》(1994),Springer:Springer-Hidelberg),212-219
[16] Demartines,P。;Hérault,J.,《曲线成分分析:数据集非线性映射的自组织神经网络》,IEEE Trans。神经网络。,8, 1, 148-154 (1997)
[17] Dempster,A。;莱尔德,N。;Rubin,D.,通过EM算法从不完整数据中获得最大似然,J.Roy。统计师。《社会学杂志》,39,1,1-38(1977)·Zbl 0364.62022号
[18] 德萨博,W.S。;Cron,W.L.,《聚类线性回归的最大似然方法》,J.Classification,5249-282(1988)·Zbl 0692.62052号
[19] Diday,E.,《分析因子类型引言》,Rev.Statist。申请。,22, 29-38 (1974)
[20] Flury,B。;Gautschi,W.,将几个正定对称矩阵同时正交变换为近似对角形式的算法,SIAM J.Sci。统计师。计算。,7, 169-184 (1986) ·Zbl 0614.65043号
[21] Flury,L.公司。;Boukai,B。;Flury,B.,《区分子空间模型》,J.Amer。统计师。协会,92,438,758-766(1997)·Zbl 0888.62063号
[22] 弗雷利,C。;Raftery,A.,基于模型的聚类、判别分析和密度估计,J.Amer。统计师。协会,97,611-631(2002)·Zbl 1073.62545号
[23] Girard,S.,基于流形近似的非线性PCA,计算。统计人员。,15, 2, 145-167 (2000) ·兹比尔0976.62056
[24] 盖恩,I。;Elisseeff,A.,《变量和特征选择简介》,J.Mach。学习。第3号决议,1157-1182(2003年)·Zbl 1102.68556号
[25] 哈斯蒂,T。;Stuetzle,W.,Principal curves,J.Amer。统计师。协会,84,502-516(1989)·兹比尔0679.62048
[26] Jain,A。;马蒂,M。;Flynn,P.,《数据聚类:综述》,ACM Compute。调查,31,3,264-323(1999)
[27] Jolliffe,I.,主成分分析(1986),Springer:Springer New York·Zbl 1011.62064号
[28] Kohonen,T.,《自组织地图》(1995),Springer:Springer New York
[29] Krzanowski,K。;Jonathan,P。;麦卡锡,W。;Thomas,M.,《奇异协方差矩阵的判别分析:光谱数据中的方法和应用》,J.Appl。统计人员。,44, 101-115 (1995) ·Zbl 0821.62032号
[30] 勒霍克,R。;Sorensen,D。;Yang,C.,《ARPACK用户指南:用隐式重启Arnoldi方法解决大规模特征值问题》(1998),SIAM出版物:费城SIAM出版物·Zbl 0901.65021号
[31] 麦克拉克伦,G。;Krishnan,T.,《EM算法和扩展》(1997),威利跨科学:威利跨学科纽约·Zbl 0882.62012号
[32] 麦克拉克伦,G。;Peel,D.,有限混合模型(2000),Wiley Interscience:Wiley Interscience纽约·Zbl 0963.62061号
[33] 麦克拉克伦,G。;皮,D。;Bean,R.,用混合因子分析仪模拟高维数据,计算。统计师。数据分析。,41, 379-388 (2003) ·Zbl 1256.62036号
[34] 帕森斯,L。;哈克,E。;Liu,H.,《高维数据的子空间聚类:综述》,SIGKDD Explor。纽斯利特。,6, 1, 90-105 (2004)
[35] Pavlenko,T.,《判别分析中的特征选择、维数诅咒和错误概率》,J.Statist。规划推断,115,565-584(2003)·兹比尔1015.62066
[36] Pavlenko,T。;Von Rosen,D.,维度对歧视的影响,统计学,35,3,191-213(2001)·Zbl 0980.62050号
[37] Quandt,R.E。;Ramsey,J.B.,估计正态分布和切换回归的混合,J.Amer。统计师。协会,73730-752(1978)·Zbl 0401.62024号
[38] Raftery,A。;Dean,N.,基于模型聚类的变量选择,J.Amer。统计师。协会,101,473,168-178(2006)·Zbl 1118.62339号
[39] Roweis,S。;Saul,L.,通过局部线性嵌入降低非线性维数,《科学》,290,5500,2323-2326(2000)
[40] Schölkopf,B。;Smola,A。;Müller,K.,作为核特征值问题的非线性分量分析,神经计算。,10, 1299-1319 (1998)
[41] Schott,J.,二次判别分析中的降维,计算。统计师。数据分析。,66161-174(1993年)·Zbl 0937.62607号
[42] Schwarz,G.,估算模型的维数,Ann.Statist。,6, 461-464 (1978) ·Zbl 0379.62005年
[43] 斯科特·D。;汤普森,J.,高维概率密度估计,(第十五届界面研讨会(1983)),173-179
[44] 特南鲍姆,J。;德席尔瓦,V。;Langford,J.,《非线性降维的全球几何框架》,《科学》,29055002319-2323(2000)
[45] 小费,M。;Bishop,C.,概率主成分分析仪的混合,神经计算。,11, 2, 443-482 (1999)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。