×

聚类分析中变量的选择:八个程序的实证比较。 (英文) Zbl 1143.62327号

摘要:针对基于模型和非基于模型的聚类,在广泛的聚类结构中评估了八种不同的变量选择技术。结果表明,当模型中包含非信息变量(即随机噪声)时,几种方法都有困难。此外,随机噪声的分布极大地影响了几乎所有变量选择过程的性能。总的来说,基于方差-距离加权程序的变量选择技术,加上簇内平方和误差的最大减少,表现最佳。另一方面,与有限混合模型结合使用的变量选择方法表现最差。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
91C20个 社会和行为科学中的集群
第62页,共15页 统计学在心理学中的应用

关键词:

变量选择

软件:

EDA公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Banfield,J.D.和Raftery,A.E.(1993年)。基于模型的高斯和非高斯聚类。生物统计学,49,803–821·兹比尔0794.62034 ·doi:10.2307/2532201
[2] Bartholomew,D.J.和Knott,M.(1999)。潜在变量模型和因子分析。伦敦:阿诺德·Zbl 1066.62528号
[3] Brusco,M.J.和Cradit,J.D.(2001年)。K-means聚类的可变选择启发式。《心理测量学》,66249-270·Zbl 1293.62237号 ·doi:10.1007/BF02294838
[4] Carmone,F.J.、Kara,A.和Maxwell,S.(1999)。HINoV:通过识别噪声变量来改进细分市场定义的新模型。《营销研究杂志》,36,501–509·doi:10.2307/3152003年
[5] Cormack,R.M.(1971)。分类综述。《皇家统计学会杂志》,A辑,134,321-367·doi:10.2307/2344237
[6] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977年)。通过E-M算法获得不完整数据的最大似然。英国皇家统计学会杂志,B辑,39,1-38·Zbl 0364.62022号
[7] DeSarbo,W.S.、Carroll,J.D.、Clark,L.A.和Green,P.E.(1984年)。综合聚类:一种将备选聚类基础与变量的微分加权相结合的方法。《心理测量学》,49,57-78·Zbl 0594.62067号 ·doi:10.1007/BF02294206
[8] De Soete,G.、DeSarbo,W.S.和Carroll,J.D.(1985年)。分层聚类的最优变量权重:一种替代的最小二乘算法。分类杂志,2173–192·兹伯利0585.62111 ·doi:10.1007/BF01908074
[9] Donoghue,J.R.(1990)。用于聚类分析的单变量筛选措施。多元行为研究,30385-427·doi:10.1207/s15327906mbr3003_5
[10] Dy,J.G.和Brodley,C.E.(2004)。无监督学习的特征选择。机器学习研究杂志,5845–889·Zbl 1222.68187号
[11] Fowlkes,E.B.和Mallows,C.L.(1983年)。一种比较两个层次聚类的方法。美国统计协会杂志,78553-569·Zbl 0545.62042号 ·doi:10.2307/2288117
[12] Fowlkes,E.B.、Gnanadesikan,R.和Kettering,J.R.(1988年)。聚类中的变量选择。分类杂志,5205–228·doi:10.1007/BF01897164
[13] Friedman,J.H.(1987)。探索性投影追踪。美国统计协会杂志,82249-266·兹比尔0664.62060 ·doi:10.2307/2289161
[14] Friedman,J.H.和Meulman,J.J.(2004)。在变量子集上对对象进行聚类。英国皇家统计学会杂志,B辑,66,1-25·Zbl 1060.62064号 ·doi:10.1046/j.1369-7412.003.02051.x
[15] Friedman,J.H.和Tukey,J.W.(1974年)。用于探索性数据分析的投影寻踪算法。IEEE计算汇刊,23881–890·Zbl 0284.68079号 ·doi:10.1109/T-C.1974.224051
[16] Gnanadesikan,R.、Kettering,J.R.和Tsao,S.L.(1995)。聚类分析变量的加权和选择。《分类杂志》,12113-136·Zbl 0825.62540号 ·doi:10.1007/BF01202271
[17] Goffe,W.L.、Ferrier,G.D.和Rogers,J.(1994年)。使用模拟退火对统计函数进行全局优化。《计量经济学杂志》,60,65–99·兹比尔0789.62095 ·doi:10.1016/0304-4076(94)90038-8
[18] Green,P.E.、Carmone,F.J.和Kim,J.(1990年)。k均值聚类中最优变量权重的初步研究。分类杂志,7271–285·doi:10.1007/BF01908720
[19] Hubert,L.J.和Arabie,P.(1985)。比较分区。分类杂志,2193-218·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[20] Kruskal,J.B.(1969年)。寻求一种实用的方法,通过找到优化新凝聚指数的线变换,帮助揭示一组观测值的结构。R.C.Milton和J.A.Nelder(编辑),《统计计算》(第427-440页)。纽约:学术出版社。
[21] Law,M.H.C.、Figueiredo,M.A.T.和Jain,A.K.(2004)。使用混合模型同时进行特征选择和聚类。IEEE模式分析和机器智能汇刊,261154–1166·doi:10.1109/TPAMI.2004.71
[22] 马丁内斯,W.L.和马丁内兹,A.R.(2001)。MATLAB计算统计手册。博卡拉顿:查普曼和霍尔·Zbl 0986.62104号
[23] 马丁内斯(W.L.)和马丁内兹(A.R.)(2005年)。用MATLAB进行探索性数据分析。博卡拉顿:查普曼和霍尔·Zbl 1067.62005年
[24] McLachlan,G.J.和Basford,K.E.(1988年)。《混合模型:聚类的推断和应用》,纽约:德克尔出版社·Zbl 0697.62050号
[25] McLachlan,G.J.和Krishnan,T.(1997)。EM算法及其扩展。纽约:威利·Zbl 0882.62012号
[26] McLachlan,G.J.和Peel,D.(2000)。有限混合模型。纽约:威利·Zbl 0963.62061号
[27] Milligan,G.W.(1980)。研究了六种误差扰动对十五种聚类算法的影响。《心理测量学》,45325-342·doi:10.1007/BF022939907
[28] Milligan,G.W.(1985)。一种生成人工测试簇的算法。Psycholometrika,50岁,23-127岁。
[29] Milligan,G.W.(1989)。一种用于聚类分析的可变权重算法的验证研究。分类期刊,6,53–71·doi:10.1007/BF01908588
[30] Montanari,A.和Lizzani,L.(2001)。变量选择的投影寻踪方法。计算统计与数据分析,35,463–473·Zbl 1080.62527号 ·doi:10.1016/S0167-9473(00)00026-8
[31] Raftery,A.E.和Dean,N.(2006年)。基于模型聚类的变量选择。美国统计协会杂志,101,168–178·Zbl 1118.62339号 ·doi:10.1198/016214500000113
[32] Steinley,D.(2003)。K-中的局部最优意味着集群:你不知道的可能会伤害你。心理学方法,8294–304·doi:10.1037/1082-989X.8.3.294
[33] Steinley,D.(2004年a)。K-均值聚类中的标准化变量。D.Banks,L.House,F.R.McMorris,P.Arabie,&W.Gaul(编辑),分类,聚类和数据挖掘应用(第53-60页)。纽约:施普林格。
[34] Steinley,D.(2004年b)。Hubert–Arabie调整的兰德指数的属性。心理学方法,9386–396·doi:10.1037/1082-989X.9.3.386
[35] Steinley,D.(2006年a)。K-表示聚类:半个世纪的综合。英国数学与统计心理学杂志,59,1-34·doi:10.1348/000711005X48266
[36] Steinley,D.(2006年b)。在K-means聚类中分析局部最优:开发诊断技术。心理学方法,11,178-192·doi:10.1037/1082-989X.11.2.178
[37] Steinley,D.和Brusco,M.J.(2007年出版)。一种新的K-均值聚类分析变量加权和选择方法。心理测量学·Zbl 1151.91731号
[38] Steinley,D.和Henson,R.(2005年)。OCLUS:生成具有已知重叠的簇的分析方法。分类杂志,22,221-250·兹比尔1336.62191 ·doi:10.1007/s00357-005-0015-6
[39] Steinley,D.和McDonald,R.P.(2007年)。检查因素得分分布,以确定潜在空间的性质。多元行为研究,42,133–156。
[40] Tibshirani,R.、Walther,G.和Hastie,T.(2001)。通过间隙统计估计数据集中的簇数。英国皇家统计学会杂志,B辑,63411-423·Zbl 0979.62046号 ·数字对象标识代码:10.1111/1467-9868.00293
[41] van Buuren,S.V.和Heiser,W.J.(1989)。在变量的最佳缩放下将N个对象聚类为K个组。《心理测量学》,54、699–706·doi:10.1007/BF02296404
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。