×

(K)-均值聚类中簇数的智能选择:一项不同簇间距的实验研究。 (英语) Zbl 1337.62127号

摘要:确定(K)-Means中“正确簇数”的问题引起了相当大的兴趣,尤其是近年来。簇混合似乎是最影响聚类结果的因素。本文提出了一个实验装置,用于比较不同方法对高斯簇生成的数据的影响,这些数据的控制参数为簇间和簇内扩散到模型簇混合。该设置允许对质心恢复进行与传统集群恢复评估相同的评估。我们感兴趣的主题是两种版本的“智能”(K)-均值方法,即i(K)-Means,它通过从数据中逐个提取“异常模式”来找到“正确”的簇数。我们将它们与其他七种方法进行了比较,包括Hartigan规则、平均轮廓宽度和Gap统计,在不同的簇间和簇内扩展形状条件下。在我们的实验结果中有几个一致的模式,例如,哈蒂根法则能最好地再现右(K),而不是簇或它们的质心。这导致我们提出了一种调整后的i(K)-Means,它在当前实验环境中表现良好。

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] BANFIELD,J.D.和RAFTERY,A.E.(1993),“基于模型的高斯和非高斯聚类”,生物统计学,49,803–821·Zbl 0794.62034号 ·doi:10.2307/2532201
[2] BEL MUFTI,G,BERTRAND,P.和EL MOUBARKI,L.(2005),“从集群稳定性度量中确定群体数量”,《应用随机模型和数据分析国际研讨会论文集》,第404-412页。
[3] BENZECRI,J.P.(1992),《信函分析手册》,纽约:马塞尔·德克尔。
[4] BOCK,H.-H.(2007),“聚类方法:k-Means算法的历史”,载于《数据分析和分类的精选贡献》,P.Brito、P.Bertrand、G.Cucumel和F.De Carvalho,Heidelberg:Springer Verlag,第161-172页·Zbl 1181.68229号
[5] BRECKENRIDGE,J.(1989),“复制聚类分析:方法、一致性和有效性”,多变量行为研究,24147-61·doi:10.1207/s15327906mbr2402_1
[6] CALINSKI,T.和HARABASZ,J.(1974),“聚类分析的枝晶方法”,《统计学通讯》,3(1),1-27·Zbl 0273.62010 ·doi:10.1080/03610928308827180
[7] CASILLAS,A.、GONZALES DE LENA,M.T.和MARTINEZ,H.(2003),“使用遗传算法将文档聚类为未知数量的簇”,文本、演讲和对话:第六届国际会议,捷克共和国,第43–49页。
[8] CHAE,S.S.、DUBIEN,J.L.和WARDE,W.D.(2006),“使用随机统计预测聚类数的方法”,计算统计与数据分析,50(12),3531–3546·Zbl 1446.62176号 ·doi:10.1016/j.csda.2005.08.006
[9] DIMITRIADOU,E.、DOLNICAR,S.和WEINGASSEL,A.(2002),“确定二进制数据集中簇数的索引检查”,《心理测量学》,67(1),137-160·Zbl 1297.62229号 ·doi:10.1007/BF02294713
[10] DUDA,R.O.和HART,P.E.(1973),模式分类和场景分析,纽约:威利·Zbl 0277.68056号
[11] DUDOIT,S.和FRIDLYAND,J.(2002),“估算数据集中簇数的基于预测的重采样方法”,基因组生物学,3(7),研究0036.1–0036.21。
[12] EFRON B.和TIBSHIRANI R.J.(1993年),《Bootstrap简介》,纽约:查普曼和霍尔出版社·Zbl 0835.62038号
[13] FAYYAD,U.M.、PIATETSKY-SHAPIRO,G.、SMYTH,P.和UTHURUSAMY,R.(编辑)(1996年),《知识发现和数据挖掘进展》,加利福尼亚州门罗公园:AAAI出版社/麻省理工学院出版社。
[14] FENG,Y.和HAMERLY,G.(2006),“PG-Means:学习数据中簇的数量”,《神经信息处理系统进展》,19(NIPS进展),马萨诸塞州剑桥:麻省理工学院出版社,第393-400页。
[15] FRALEY,C.和RAFTERY,A.E.(2002),“基于模型的聚类、判别分析和密度估计”,《美国统计协会杂志》,97(458),611-631·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[16] 高斯混合分布数据的生成(2006),NETLAB神经网络软件,http://www.ncrg.aston.ac.uk/netlab .
[17] HAND,D.J.和KRZANOWSKI,W.J.(2005),“使用标准软件包优化k均值聚类结果”,计算统计与数据分析,49,969–973·Zbl 1429.62244号 ·doi:10.1016/j.csda.2004.06.017
[18] HANSEN,P.和MLADENOVIC,N.(2001),“J-MEANS:最小平方和聚类的新局部搜索启发式”,模式识别,34,405–413·Zbl 1012.68873号 ·doi:10.1016/S0031-3203(99)00216-2
[19] HARDY A.(1996),“关于集群数量”,计算统计与;数据分析23、83–96·兹比尔0900.92186 ·doi:10.1016/S0167-9473(96)00022-9
[20] HARTIGAN,J.A.(1975),聚类算法,纽约:J.Wiley&儿子们·Zbl 0372.62040号
[21] HUBERT,L.J.和ARABIE,P.(1985),“比较分区”,分类杂志,2193-218·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[22] HUBERT,L.J.和LEVIN,J.R.(1976),“自由回忆中评估类别聚类的一般统计框架”,《心理学公报》,83,1072–1080·数字对象标识代码:10.1037/0033-2909.83.1072
[23] ISHIOKA,T.(2005),“扩展X平均值以自动确定最佳簇数”,《计算智能国际会议论文集》,加拿大卡尔加里AB,第91-96页。
[24] JAIN,A.K.和DUBES,R.C.(1988),《聚类数据的算法》,新泽西州恩格尔伍德克利夫斯:普伦蒂斯·霍尔·Zbl 0665.62061号
[25] KAUFMAN L.和ROUSSEUW P.(1990),《在数据中发现群体:聚类分析导论》,纽约:J.Wiley&儿子·Zbl 1345.62009号
[26] KRZANOWSKI W.和LAI Y.(1985),“使用平方和聚类确定数据集中组数的标准”,生物计量学,44,23-34·Zbl 0707.62122号 ·doi:10.2307/2531893
[27] KUNCHEVA,L.I.和VETROV,D.P.(2005),“关于随机初始化的K-均值聚类集成稳定性评估”,IEEE模式分析和机器智能汇刊,28(11),1798-1808·doi:10.1109/TPAMI.2006.226
[28] LEISCH,F.(2006),“K质心聚类分析工具箱”,计算统计与数据分析,51,526–544·Zbl 1157.62439号 ·doi:10.1016/j.csda.2005.10.006
[29] MAULIK,U.和BANDYOPADHYAY,S.(2000),“基于遗传算法的聚类技术”,模式识别,331455-1465·doi:10.1016/S0031-3203(99)00137-5
[30] MCLACHLAN,G.J.和KHAN,N.(2004),“关于组织样本基于混合模型聚类的聚类数测试的重采样方法”,《多元分析杂志》,90,990–1005·Zbl 1052.65006号 ·doi:10.1016/j.jmva.2004.02.002
[31] MCLACHLAN,G.J.和PEEL,D.(2000),有限混合模型,纽约:Wiley·Zbl 0963.62061号
[32] MCQUEEN,J.(1967),“多元观测分类和分析的一些方法”,载于第五届伯克利数理统计与概率研讨会,第二卷,第281-297页。
[33] MILLIGAN,G.W.(1981),“聚类分析的三十种内部标准测量的蒙特卡罗研究”,《心理测量学》,46,187–199·Zbl 0472.62070号 ·doi:10.1007/BF02293899
[34] MILLIGAN,G.W.和COOPER,M.C.(1985),“确定数据集中簇数的程序检查”,《心理测量学》,50,159-179·doi:10.1007/BF02294245
[35] MILLIGAN,G.W.和COOPER,M.C.(1988),“聚类分析中变量标准化的研究”,分类杂志,5181-204·doi:10.1007/BF01897163
[36] MINAEI-BIDGOLI,B.、TOPCHY,A.和PUNCH,W.F.(2004),“聚类集成重采样方法的比较”,机器学习国际会议;模型、技术和应用(MLMTA04),内华达州拉斯维加斯,第939-945页。
[37] MIRKIN,B.(1990),“线性数据聚合模型的顺序拟合程序”,《分类杂志》,第7期,第167-195页·兹比尔0727.62065 ·doi:10.1007/BF01908715
[38] MIRKIN,B.(1996),《数学分类和聚类》,纽约:Kluwer出版社·Zbl 0874.90198号
[39] MIRKIN,B.(2005),《数据挖掘的聚类:数据恢复方法》,佛罗里达州博卡拉顿:查普曼和霍尔/CRC·Zbl 1083.68099号
[40] MONTI,S.、TAMAYO,P.、MESIROV,J.和GOLUB,T.(2003),“共识聚类:基于重采样的类发现方法和基因表达微阵列数据可视化”,机器学习,52,91–118·Zbl 1039.68103号 ·doi:10.1023/A:1023949509487
[41] MOJENA,R.(1977),“分层分组方法和停止规则:评估”,《计算机杂志》,第20、359–363页·Zbl 0364.62065号 ·doi:10.1093/comjnl/20.4.359
[42] MURTAGH,F.和RAFTERY,A.E.(1984),“将直线拟合到点模式”,模式识别,17,479–483·doi:10.1016/0031-3203(84)90045-1
[43] PELLEG,D.和MOORE,A.(2000),“X-means:扩展K-means并有效估计集群数量”,《第17届机器学习国际会议论文集》,旧金山:摩根·考夫曼,第727-734页。
[44] PENA,J.M.,LOZANO,J.A.和LARRANAGA P.(1999),“K-Means算法四种初始化方法的实证比较”,模式识别字母,20(10),1027–1040·doi:10.1016/S0167-8655(99)00069-0
[45] POLLARD,K.S.和VAN DER LAAN,M.J.(2002),“识别基因表达数据中重要簇的方法”,加州大学伯克利分校生物统计学工作论文系列,第107页。
[46] SHEN,J.、CHANG,S.I.、LEE,E.S.、DENG,Y.和BROWN,S.J.(2005),“聚类微阵列数据中聚类数的确定”,应用数学与计算,1691172-1185·Zbl 1074.62043号 ·doi:10.1016/j.amc.2004.10.076
[47] SPAETH,H.(1985),《集群解剖与分析》,奇切斯特:埃利斯·霍伍德出版社。
[48] STEINEY,D.(2004),“K-Means聚类中的标准化变量”,《分类、聚类和数据挖掘应用》,编辑:D.Banks,L.House,F.R.McMorris,P.Arabie和W.Gaul,纽约:Springer,第53–60页。
[49] STEINEY,D.(2006),“K-Means聚类:半个世纪的综合”,《英国数学与统计心理学杂志》,59,1-34·doi:10.1348/00711005X48266
[50] STEINEY,D.和BRUSCO M.(2007),“初始化K-均值批量聚类:几种技术的关键评估”,《分类杂志》,24,99–121·Zbl 1144.62331号 ·doi:10.1007/s00357-007-0003-0
[51] STEINEY,D.和HENSON,R.(2005),“OCLUS:生成已知重叠簇的分析方法”,《分类杂志》,22,221-250·Zbl 1336.62191号 ·doi:10.1007/s00357-005-0015-6
[52] SUGAR,C.A.和JAMES,G.M.(2003),“找出数据集中的簇数:信息论方法”,《美国统计协会杂志》,98(463),750-778·Zbl 1046.62064号 ·doi:10.1198/0162145000000666
[53] TIBSHIRANI,R.、WALTHER,G.和HASTIE,T.(2001),“通过缺口统计估算数据集中的簇数”,英国皇家统计学会期刊B,63,411-423·Zbl 0979.62046号 ·数字对象标识代码:10.1111/1467-9868.00293
[54] TIPPING,M.E.和BISHOP,C.M.(1999),“概率主成分分析”,《皇家统计学会杂志》,B辑61,611-622·Zbl 0924.62068号 ·doi:10.1111/1467-9868.00196
[55] VAPNIK,V.(2006),基于经验数据的依赖性估计(第二版),柏林:Springer Science+Business Media Inc·Zbl 1118.6202号
[56] WASITO,I.和MIRKIN,B.(2006),“具有不同缺失模式的最小二乘数据插补算法中的最近邻”,计算统计与;数据分析,50926–949·兹比尔1431.62044 ·doi:10.1016/j.csda.2004.11.009
[57] YEUNG,K.Y.和RUZZO,W.L.(2001),“调整后的随机指数和聚类算法的细节”,生物信息学,17,763–774·doi:10.1093/bioinformatics/17.9.763
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。