×

一种用于接头尺寸和样品缩减的公正修剪方法。 (英语) Zbl 07300772号

小结:基于修剪的思想,提出了一种稳健的约化和阶乘k-均值。约简和阶乘k-means是数据约简技术,非常适合通过主成分分析和聚类同时进行维数和样本约简。数据不足的发生会使标准分析失效。实际上,手头数据中的污染可以隐藏数据的底层集群结构。通过不偏不倚的修剪,给出了一种开发阶乘和约化k均值稳健对应项的诱人方法。其想法是丢弃一部分被选为距质心最远的观测值。通过一些数值研究和实际数据示例,研究了所提方法的有限样本行为。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Atkinson,A.,《检测多个离群值的快速非常稳健方法》,《美国统计协会杂志》,89,428,1329-1339(1994)·Zbl 0825.62429号
[2] Cerioli,A。;Farcomeni,A.,多元异常值检测的错误率,计算统计与数据分析,55,1,544-553(2011)·Zbl 1247.62192号
[3] 克罗克斯,C。;Filzmoser,P。;Fritz,H.,稳健稀疏主成分分析,技术计量学,55,2,202-214(2013)
[4] 库斯塔·阿尔贝托斯,J。;Gordaliza,A。;Matrán,C.,Trimmed k-means:增强量化器的尝试,《统计年鉴》,25,2553-576(1997)·Zbl 0878.62045号
[5] De Soete,G.和Carroll,J.D.(1994年)。K-表示低维欧氏空间中的聚类。In:分类和数据分析的新方法(第212-219页)。斯普林格。
[6] 多托,F。;Farcomeni,A。;加西亚·埃斯库德罗,洛杉矶;Mayo-Iscar,A.,稳健回归聚类的模糊方法,数据分析和分类进展,11,4,691-710(2017)·Zbl 1414.62240号
[7] 多托,F。;Farcomeni,A。;加西亚·埃斯库德罗,洛杉矶;Mayo-Iscar,A.,稳健聚类的重加权方法,统计与计算,28,2,477-493(2018)·Zbl 1384.62193号
[8] Farcomeni,A.,《稳健双重聚类:基于交替集中步骤的方法》,《分类杂志》,26,1,77-101(2009)·Zbl 1276.62040号
[9] Farcomeni,A.和Greco,L.(2015)。稳健的数据缩减方法。CRC出版社·兹比尔1311.62006
[10] Frank,A.和Asuncion,A.(2010年)。加州大学信息与计算机科学学院机器学习库。加利福尼亚州欧文。
[11] Gallegos,M.和Ritter,G.(2005年)。一种稳健的聚类分析方法。《统计年鉴》,347-380·Zbl 1064.62074号
[12] 路易斯安那州加西亚-埃斯库德罗;Gordaliza,A.,k均值和修剪k均值的稳健性性质,美国统计协会杂志,94447956-969(1999)·Zbl 1072.62547号
[13] 加西亚·埃斯库德罗,洛杉矶;Gordaliza,A。;Matrán,C.,探索性数据分析中的修剪工具,计算与图形统计杂志,12,2,434-449(2003)
[14] 加西亚·埃斯库德罗,洛杉矶;Gordaliza,A。;马特兰,C。;Mayo-Iscar A.,《探索基于稳健模型的聚类中的组数》,《统计与计算》,第21、4、585-599页(2011年)·Zbl 1221.62093号
[15] Gebeyaw M.(2017)。网络抓取和应用聚类全球幸福和社会进步指数。datasciencepluscom。
[16] Gordaliza,A.,基于修剪程序的随机变量最佳近似,近似理论杂志,64,2,162-180(1991)·Zbl 0745.41030号
[17] 格雷科,L。;Farcomeni,A.,稀疏稳健主成分分析的插件方法,Test,25,3,449-481(2016)·Zbl 06833258号
[18] Helliwell,J.、Layard,R.、Sachs,J.(2017)。2017年世界幸福报告。
[19] 休伯特,L。;Arabie,P.,比较分区,分类杂志,2,1,193-218(1985)·Zbl 0587.62128号
[20] 考夫曼,L。;Rousseeuw,P.,《在数据中发现群体:聚类分析简介》,第344卷(2009年),纽约:威利出版社,纽约
[21] Markos,A.、Iodice D’Enza,A.、van de Velden,M.(2017)。clustrd:联合降维和聚类方法。https://CRAN.R-project.org/package=clustrd,r包版本1.2.0。
[22] Rocci,R。;南非Gattone;Vichi,M.,《一种新的降维方法:因子判别k均值》,《分类杂志》,28,2,210-226(2011)·Zbl 1226.62062号
[23] 火箭,DM;伍德拉夫,DL,多元数据中离群值的识别,美国统计协会杂志,91,435,1047-1061(1996)·Zbl 0882.62049号
[24] 卢梭,P。;Driesen,K.,最小协方差行列式估计器的快速算法,Technometrics,41,3121-223(1999)
[25] Timmerman,M。;Ceulemans,E。;基尔斯,HA;Vichi,M.,重新考虑因子和约化k均值,计算统计与数据分析,54,7,1858-1871(2010)·Zbl 1284.62396号
[26] 维基,M。;Kiers,H.,双向数据的因子k均值分析,计算统计与数据分析,37,1,49-64(2001)·Zbl 1051.62056号
[27] 维希,M。;Rocci,R。;Kiers,HA,《三向数据的同步组件和聚类模型:方法内和方法间》,《分类杂志》,24,1,71-98(2007)·Zbl 1144.62045号
[28] 邹,H。;哈斯蒂,T。;Tibshirani,R.,《稀疏主成分分析》,《计算与图形统计杂志》,15,2,265-286(2006)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。