文件Zbl 1231.62112-zbMATH打开

加西亚·埃斯库德罗，洛杉矶。;戈尔达利扎，A。;圣马丁，R。;van Aelst，S。;R.扎马。

稳健的线性聚类。（英语） Zbl 1231.62112号

J.R.Stat.Soc.，塞尔维亚。B、统计方法。 71，第1号，301-318（2009）.

摘要：非层次聚类方法通常基于围绕“对象”形成组的思想。这类方法的主要指数是\（k \）-means方法，其中这些对象是点。然而，数据集中的聚类往往是由于被测变量之间的某些关系。例如，我们可以找到直线和平面之类的线性结构，观察结果以自然的方式围绕其分组。这些结构不能用点很好地表示。我们提出了一种在存在离群值的情况下搜索线性组的方法。该方法基于公平修剪的思想。我们通过测量正交距离的差异来搜索包含数据比例（1-alpha）的“最佳”子样本，以及与这些非丢弃观测值拟合的最佳（k）仿射子空间。还考虑了样本问题的总体版本。我们证明了样本问题和总体问题解的存在性及其一致性。还描述了解决样本问题的可行算法。最后，给出了一些示例，说明了该方法在实际中的工作原理。

引用于22文件

MSC公司：

62H30型	分类和区分；聚类分析（统计方面）
62H25个	因子分析和主成分；对应分析

关键词：

仿射子空间;正交回归;主要成分;稳健性;修剪\（k\）-表示;修整

软件：

XGobi公司;算法39;GGobi公司;剪影

PDF格式 BibTeX公司 XML格式引用

全文：内政部链接

参考文献：

[1]	Agostinelli，从数据和信息分析到知识，分类、数据分析和知识组织研究，第246页–（2006）
[2]	Banfield，《利用数学形态学和主曲线聚类法识别卫星图像中的浮冰》，J.Am.Statist。评估87第7页–（1992）
[3]	班菲尔德，基于模型的高斯和非高斯聚类，生物统计学49，第803页–（1993）·Zbl 0794.62034号
[4]	布拉德利，Proc。第四届国际会议知识发现和数据挖掘第9页–（1998年）
[5]	Bryant，分类最大似然估计的渐近行为，生物特征65 pp 273–（1978）·Zbl 0393.62011号
[6]	坎贝尔，《使用基于模型的聚类法检测机织物的线性缺陷》，Pattn Recogn。莱特。第18页，第1539页–（1997年）
[7]	Celeux，用于聚类的分类EM算法和两个随机版本，Computenl Statist。数据分析。第13页，第315页–（1992年）
[8]	陈，Proc。Conf.计算机视觉和模式识别pp 1069–（2001）
[9]	克罗克斯（2007）
[10]	《Cuesta-Albertos，Trimmed k-means:增强量化器的尝试》，《统计年鉴》。第553页，共25页–（1997年）·Zbl 0878.62045号
[11]	Dasgupta，《通过基于模型的聚类检测杂波空间点过程中的特征》，J.Am.Statist。第93章第294页——（1998年）·Zbl 0906.62105号
[12]	DeSarbo，《聚类线性回归的最大似然法》，J.Classification 5 pp 249–（1988）·Zbl 0692.62052号
[13]	DeSarbo，聚类线性回归的模拟退火方法，Psycholometrika 54第707页–（1989）
[14]	杜达，模式分类（2000）
[15]	Fisher，通过增量概念聚类获取知识，Mach。学习。第139页，第2页–（1987）
[16]	Fukunaga，《统计模式识别导论》（1990）
[17]	García-Escudero，探索性数据分析中的修剪工具，J.Computenl Graph。统计师。第12页，434页–（2003年）
[18]	García-Escudero，《稳健聚类的一般修剪方法》，《统计年鉴》。第36页，第1324页–（2008年）·兹比尔1360.62328
[19]	Gordaliza，基于修剪程序的随机变量最佳近似，J.近似理论64页162–（1991）·Zbl 0745.41030号
[20]	Hartigan，聚类算法（1975）
[21]	Hartigan，算法AS136:k-means聚类算法，应用。统计师。第28页，100页–（1979年）·Zbl 0447.62062号
[22]	哈斯蒂（Hastie），《主要曲线》（Principal curves），《美国统计杂志》（J.Am.Statist）。第84章第502页——（1989年）
[23]	Hennig，《集群、离群值和回归：不动点集群》，J.Multiv。分析。第83页第183页–（2003年）·Zbl 1020.62051号
[24]	Hennig，《验证大型数据集中的可视聚类：光谱特征的定点聚类》，Computenl Statist。数据分析。第40页，723页–（2002年）·Zbl 1043.68089号
[25]	Hosmer，两条回归线混合参数的最大似然估计，Communs Statist。Simuln Computen 3第995页–（1974年）·Zbl 0294.62085号
[26]	Jolion，《计算机视觉应用中的稳健集群》，IEEE Trans。Pattn Ana公司。机器。智力。第13页，791页–（1991年）
[27]	Kamgar-Parsi，使用神经网络将多个平面同时拟合到点集，计算。视觉。图表。图像处理。第52页，第341页–（1990年）·Zbl 0687.68031号
[28]	考夫曼，《在数据中寻找群体》（1990年）·Zbl 1345.62009号 ·doi:10.1002/9780470316801
[29]	Lenstra，双线最小二乘法，Ann.Disc。数学。第16页201–（1982）·兹伯利0495.62071
[30]	Maitra，《利用软件度量和层析成像的应用对海量数据集进行聚类》，Technometrics 43 pp 336–（2001）
[31]	麦奎因，Proc。第五届伯克利交响乐团。数理统计与概率pp 281–（1967）
[32]	Meer，《计算机视觉中的稳健回归方法：综述》，国际计算机杂志。视觉。第59页第6页–（1991年）
[33]	Müller，基于重降M-估计量的简单一致聚类方法及其在图像边缘识别中的应用，J.Multiv。分析。第92页，359页–（2005年）·Zbl 1062.62114号 ·doi:10.1016/j.jmva.2003.12.005
[34]	Murtagh，《海量数据集手册》，第401页–（2002年）
[35]	Murtagh，将直线拟合到点模式，Patnt Recogn。第17页，第479页–（1984年）
[36]	Ng，程序。第20届Conf.超大型数据库第144页–（1994）
[37]	佩尼亚，《贝叶斯统计》，第7页，第327页——（2003年）
[38]	Phillips，直线拟合的ISODATA算法，Pattn Recogn。莱特。第7页，291页–（1988年）
[39]	Rousseeuw，Silhouettes:聚类分析解释和验证的图形辅助，J.Computenl Appl。数学。第20页第53页–（1987）·兹伯利0636.62059
[40]	Rousseeuw，最小协方差行列式估计的快速算法，Technometrics 41 pp 212–（1999）
[41]	Scott，多元密度估计（1992）·数字对象标识代码：10.1002/9780470316849
[42]	Silverman，统计和数据分析密度估计（1986）·兹比尔0617.62042 ·doi:10.1007/978-1-4899-3324-9
[43]	Späth，聚类线性回归的快速算法，计算29 pp 175–（1982）·Zbl 0485.65030号
[44]	斯坦福，《在空间点模式中发现曲线特征：带噪声的主曲线聚类》，IEEE Trans。Patnt Recogn公司。第22页601–（2000）·doi:10.1109/34.862198
[45]	斯图尔特，MINPRAN：一种新的计算机视觉鲁棒估计器，IEEE Trans。Pattn Ana公司。机器。智力。第17页，925页–（1995年）
[46]	Stewart，计算机视觉中的稳健参数估计，SIAM Rev.41 pp 513–（1999）
[47]	XGobi Swayne：X Window系统中的交互式动态数据可视化，J.Computenl Graph。统计师。第7页，113页–（1998年）
[48]	GGobi Swayne：从XGobi演变为交互式数据可视化的可扩展框架，Computenl Statist。数据分析。第43页，423页–（2003年）·Zbl 1429.62013号
[49]	Tarpey，自一致性算法，J.Computenl Graph。统计师。第889页第8页–（1999年）·Zbl 0999.62042号
[50]	Tarpey，自我一致性：统计学中的一个基本概念。科学。第229页第11页–（1996年）·Zbl 0955.62540号
[51]	Van Aelst，使用正交回归的线性分组，计算统计量。数据分析。第50页，1287页–（2006年）
[52]	Zhang，BIRCH：一种新的数据聚类算法及其应用，data Min.Knowl。迪斯科。第1页141–（1997）

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

稳健的线性聚类。（英语） Zbl 1231.62112号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

稳健的线性聚类。 （英语） Zbl 1231.62112号

MSC公司：

关键词：

软件：

参考文献：

稳健的线性聚类。（英语） Zbl 1231.62112号