×

一种新的降维方法:因子判别(K)均值。 (英语) Zbl 1226.62062号

小结:约简平均值(RKM)和阶乘平均值(FKM)是两种数据约简技术,将主成分分析和(K)平均值结合到一种统一的方法中,以获得变量的约简组分和对象的最优划分。RKM通过最大化簇间偏差而不对簇内偏差施加任何条件,在缩小的空间中发现簇,因此簇是孤立的,但它们可能是异质的。另一方面,FKM通过最小化簇内偏差来识别缩减空间中的簇,而不对簇间偏差施加任何条件。因此,集群是同质的,但它们可能不是孤立的。这两种技术给出了不同的结果,因为这两种方法在约化空间中的总偏差不是恒定的;因此,簇内偏差的最小化并不等同于簇间偏差的最大化。
本文对这两种技术进行了改进,以避免上述缺点。结果表明,这两种改进方法给出了相同的结果,从而将RKM和FKM合并为一种新的方法。它被称为因子判别平均值(FDKM),因为它结合了线性判别分析和(K)平均值。本文通过仿真研究检验了FDKM的几个理论性质及其性能。给出了一个基于真实数据的应用程序,展示了FDKM的特点。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62H25个 因子分析和主成分;对应分析
65立方厘米60 统计中的计算问题(MSC2010)

软件:

帕尔沃斯
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bock,H.H.(1987),“关于聚类分析、主成分和多维标度之间的接口”,载于:多元统计建模和数据分析,《多元建模与数据分析进展研讨会论文集》,田纳西州诺克斯维尔,1986年5月15日至16日,编辑H.Bozdogan和A.J.Gupta,多德雷赫特:雷德尔出版公司,第17-34页。
[2] Caliánski,T.和Harabasz,J.(1974年),“聚类分析的枝晶方法”,《统计学通讯》,第3、1–27页·Zbl 0273.62010
[3] Cormack,R.M.(1971),“分类综述”,《皇家统计学会杂志》。系列A,134(3),321-367·doi:10.2307/2344237
[4] De Soete,G.和Carroll,J.D.(1994年)。”K-表示低维欧几里德空间中的聚类”,载于《分类和数据分析的新方法》,E.Diday等人编辑,海德堡:Springer,第212-219页。
[5] Diday,E.等人(1979年),“自动分类优化”,INRIA(第1卷),法国罗克扬科特·Zbl 0471.62056号
[6] Forina,M.、Lear,R.、Armanino,C.和Lauter,S.(1988),《PARVUS–数据探索、分类和关联的可扩展包》,意大利热那亚制药和食品分析技术研究所。
[7] Hubert,L.和Arabie,P.(1985),《比较分区》。分类杂志,2193-218·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[8] Timmerman,M.、Ceulemans,E.、Kiers,H.A.L.和Vichi,M.(2010年),重新考虑的因子和约化K均值,计算统计和数据分析,541858-1871·Zbl 1284.62396号 ·doi:10.1016/j.csda.2010.02.009
[9] Van Buuren,S.和Heiser,W.J.(1989),“在变量的最佳缩放下将n个对象聚类为k个组”,《心理测量学》,54,699–706·兹比尔04567856 ·doi:10.1007/BF02296404
[10] Vichi,M.和Kiers,H.A.L.(2001),“双向数据的因子K均值分析”,计算统计与数据分析,37,49–64·Zbl 1051.62056号 ·doi:10.1016/S0167-9473(00)00064-5
[11] Vichi,M.、Rocci,R.和Kiers,H.A.L.(2007),“三向数据的同时成分和聚类模型:方法内和方法间”,《分类杂志》,24(1),71–98·兹比尔1144.62045 ·数字对象标识代码:10.1007/s00357-007-0006-x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。