×

稳健的线性聚类。 (英语) Zbl 1231.62112号

摘要:非层次聚类方法通常基于围绕“对象”形成组的思想。这类方法的主要指数是\(k \)-means方法,其中这些对象是点。然而,数据集中的聚类往往是由于被测变量之间的某些关系。例如,我们可以找到直线和平面之类的线性结构,观察结果以自然的方式围绕其分组。这些结构不能用点很好地表示。我们提出了一种在存在离群值的情况下搜索线性组的方法。该方法基于公平修剪的思想。我们通过测量正交距离的差异来搜索包含数据比例(1-alpha)的“最佳”子样本,以及与这些非丢弃观测值拟合的最佳(k)仿射子空间。还考虑了样本问题的总体版本。我们证明了样本问题和总体问题解的存在性及其一致性。还描述了解决样本问题的可行算法。最后,给出了一些示例,说明了该方法在实际中的工作原理。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62H25个 因子分析和主成分;对应分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Agostinelli,从数据和信息分析到知识,分类、数据分析和知识组织研究,第246页–(2006)
[2] Banfield,《利用数学形态学和主曲线聚类法识别卫星图像中的浮冰》,J.Am.Statist。评估87第7页–(1992)
[3] 班菲尔德,基于模型的高斯和非高斯聚类,生物统计学49,第803页–(1993)·Zbl 0794.62034号
[4] 布拉德利,Proc。第四届国际会议知识发现和数据挖掘第9页–(1998年)
[5] Bryant,分类最大似然估计的渐近行为,生物特征65 pp 273–(1978)·Zbl 0393.62011号
[6] 坎贝尔,《使用基于模型的聚类法检测机织物的线性缺陷》,Pattn Recogn。莱特。第18页,第1539页–(1997年)
[7] Celeux,用于聚类的分类EM算法和两个随机版本,Computenl Statist。数据分析。第13页,第315页–(1992年)
[8] 陈,Proc。Conf.计算机视觉和模式识别pp 1069–(2001)
[9] 克罗克斯(2007)
[10] 《Cuesta-Albertos,Trimmed k-means:增强量化器的尝试》,《统计年鉴》。第553页,共25页–(1997年)·Zbl 0878.62045号
[11] Dasgupta,《通过基于模型的聚类检测杂波空间点过程中的特征》,J.Am.Statist。第93章第294页——(1998年)·Zbl 0906.62105号
[12] DeSarbo,《聚类线性回归的最大似然法》,J.Classification 5 pp 249–(1988)·Zbl 0692.62052号
[13] DeSarbo,聚类线性回归的模拟退火方法,Psycholometrika 54第707页–(1989)
[14] 杜达,模式分类(2000)
[15] Fisher,通过增量概念聚类获取知识,Mach。学习。第139页,第2页–(1987)
[16] Fukunaga,《统计模式识别导论》(1990)
[17] García-Escudero,探索性数据分析中的修剪工具,J.Computenl Graph。统计师。第12页,434页–(2003年)
[18] García-Escudero,《稳健聚类的一般修剪方法》,《统计年鉴》。第36页,第1324页–(2008年)·兹比尔1360.62328
[19] Gordaliza,基于修剪程序的随机变量最佳近似,J.近似理论64页162–(1991)·Zbl 0745.41030号
[20] Hartigan,聚类算法(1975)
[21] Hartigan,算法AS136:k-means聚类算法,应用。统计师。第28页,100页–(1979年)·Zbl 0447.62062号
[22] 哈斯蒂(Hastie),《主要曲线》(Principal curves),《美国统计杂志》(J.Am.Statist)。第84章第502页——(1989年)
[23] Hennig,《集群、离群值和回归:不动点集群》,J.Multiv。分析。第83页第183页–(2003年)·Zbl 1020.62051号
[24] Hennig,《验证大型数据集中的可视聚类:光谱特征的定点聚类》,Computenl Statist。数据分析。第40页,723页–(2002年)·Zbl 1043.68089号
[25] Hosmer,两条回归线混合参数的最大似然估计,Communs Statist。Simuln Computen 3第995页–(1974年)·Zbl 0294.62085号
[26] Jolion,《计算机视觉应用中的稳健集群》,IEEE Trans。Pattn Ana公司。机器。智力。第13页,791页–(1991年)
[27] Kamgar-Parsi,使用神经网络将多个平面同时拟合到点集,计算。视觉。图表。图像处理。第52页,第341页–(1990年)·Zbl 0687.68031号
[28] 考夫曼,《在数据中寻找群体》(1990年)·Zbl 1345.62009号 ·doi:10.1002/9780470316801
[29] Lenstra,双线最小二乘法,Ann.Disc。数学。第16页201–(1982)·兹伯利0495.62071
[30] Maitra,《利用软件度量和层析成像的应用对海量数据集进行聚类》,Technometrics 43 pp 336–(2001)
[31] 麦奎因,Proc。第五届伯克利交响乐团。数理统计与概率pp 281–(1967)
[32] Meer,《计算机视觉中的稳健回归方法:综述》,国际计算机杂志。视觉。第59页第6页–(1991年)
[33] Müller,基于重降M-估计量的简单一致聚类方法及其在图像边缘识别中的应用,J.Multiv。分析。第92页,359页–(2005年)·Zbl 1062.62114号 ·doi:10.1016/j.jmva.2003.12.005
[34] Murtagh,《海量数据集手册》,第401页–(2002年)
[35] Murtagh,将直线拟合到点模式,Patnt Recogn。第17页,第479页–(1984年)
[36] Ng,程序。第20届Conf.超大型数据库第144页–(1994)
[37] 佩尼亚,《贝叶斯统计》,第7页,第327页——(2003年)
[38] Phillips,直线拟合的ISODATA算法,Pattn Recogn。莱特。第7页,291页–(1988年)
[39] Rousseeuw,Silhouettes:聚类分析解释和验证的图形辅助,J.Computenl Appl。数学。第20页第53页–(1987)·兹伯利0636.62059
[40] Rousseeuw,最小协方差行列式估计的快速算法,Technometrics 41 pp 212–(1999)
[41] Scott,多元密度估计(1992)·数字对象标识代码:10.1002/9780470316849
[42] Silverman,统计和数据分析密度估计(1986)·兹比尔0617.62042 ·doi:10.1007/978-1-4899-3324-9
[43] Späth,聚类线性回归的快速算法,计算29 pp 175–(1982)·Zbl 0485.65030号
[44] 斯坦福,《在空间点模式中发现曲线特征:带噪声的主曲线聚类》,IEEE Trans。Patnt Recogn公司。第22页601–(2000)·doi:10.1109/34.862198
[45] 斯图尔特,MINPRAN:一种新的计算机视觉鲁棒估计器,IEEE Trans。Pattn Ana公司。机器。智力。第17页,925页–(1995年)
[46] Stewart,计算机视觉中的稳健参数估计,SIAM Rev.41 pp 513–(1999)
[47] XGobi Swayne:X Window系统中的交互式动态数据可视化,J.Computenl Graph。统计师。第7页,113页–(1998年)
[48] GGobi Swayne:从XGobi演变为交互式数据可视化的可扩展框架,Computenl Statist。数据分析。第43页,423页–(2003年)·Zbl 1429.62013号
[49] Tarpey,自一致性算法,J.Computenl Graph。统计师。第889页第8页–(1999年)·Zbl 0999.62042号
[50] Tarpey,自我一致性:统计学中的一个基本概念。科学。第229页第11页–(1996年)·Zbl 0955.62540号
[51] Van Aelst,使用正交回归的线性分组,计算统计量。数据分析。第50页,1287页–(2006年)
[52] Zhang,BIRCH:一种新的数据聚类算法及其应用,data Min.Knowl。迪斯科。第1页141–(1997)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。