文件Zbl 1337.62127-zbMATH打开

（K）-均值聚类中簇数的智能选择：一项不同簇间距的实验研究。（英语） Zbl 1337.62127号

J.分类。 27，第1期，第3-40页（2010年）。

摘要：确定（K）-Means中“正确簇数”的问题引起了相当大的兴趣，尤其是近年来。簇混合似乎是最影响聚类结果的因素。本文提出了一个实验装置，用于比较不同方法对高斯簇生成的数据的影响，这些数据的控制参数为簇间和簇内扩散到模型簇混合。该设置允许对质心恢复进行与传统集群恢复评估相同的评估。我们感兴趣的主题是两种版本的“智能”（K）-均值方法，即i（K）-Means，它通过从数据中逐个提取“异常模式”来找到“正确”的簇数。我们将它们与其他七种方法进行了比较，包括Hartigan规则、平均轮廓宽度和Gap统计，在不同的簇间和簇内扩展形状条件下。在我们的实验结果中有几个一致的模式，例如，哈蒂根法则能最好地再现右（K），而不是簇或它们的质心。这导致我们提出了一种调整后的i（K）-Means，它在当前实验环境中表现良好。

引用于20文件

MSC公司：

62小时30分

分类和区分；聚类分析（统计方面）

关键词：

\（K\）-表示聚类;集群数量;异常图案;哈蒂根规则;缺口统计量

软件：

弗莱克斯集群;J平均值;群集查找;引导数据库

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	BANFIELD，J.D.和RAFTERY，A.E.（1993），“基于模型的高斯和非高斯聚类”，生物统计学，49，803–821·Zbl 0794.62034号 ·doi:10.2307/2532201
[2]	BEL MUFTI，G，BERTRAND，P.和EL MOUBARKI，L.（2005），“从集群稳定性度量中确定群体数量”，《应用随机模型和数据分析国际研讨会论文集》，第404-412页。
[3]	BENZECRI，J.P.（1992），《信函分析手册》，纽约：马塞尔·德克尔。
[4]	BOCK，H.-H.（2007），“聚类方法：k-Means算法的历史”，载于《数据分析和分类的精选贡献》，P.Brito、P.Bertrand、G.Cucumel和F.De Carvalho，Heidelberg:Springer Verlag，第161-172页·Zbl 1181.68229号
[5]	BRECKENRIDGE，J.（1989），“复制聚类分析：方法、一致性和有效性”，多变量行为研究，24147-61·doi:10.1207/s15327906mbr2402_1
[6]	CALINSKI，T.和HARABASZ，J.（1974），“聚类分析的枝晶方法”，《统计学通讯》，3（1），1-27·Zbl 0273.62010 ·doi:10.1080/03610928308827180
[7]	CASILLAS，A.、GONZALES DE LENA，M.T.和MARTINEZ，H.（2003），“使用遗传算法将文档聚类为未知数量的簇”，文本、演讲和对话：第六届国际会议，捷克共和国，第43–49页。
[8]	CHAE，S.S.、DUBIEN，J.L.和WARDE，W.D.（2006），“使用随机统计预测聚类数的方法”，计算统计与数据分析，50（12），3531–3546·Zbl 1446.62176号 ·doi:10.1016/j.csda.2005.08.006
[9]	DIMITRIADOU，E.、DOLNICAR，S.和WEINGASSEL，A.（2002），“确定二进制数据集中簇数的索引检查”，《心理测量学》，67（1），137-160·Zbl 1297.62229号 ·doi:10.1007/BF02294713
[10]	DUDA，R.O.和HART，P.E.（1973），模式分类和场景分析，纽约：威利·Zbl 0277.68056号
[11]	DUDOIT，S.和FRIDLYAND，J.（2002），“估算数据集中簇数的基于预测的重采样方法”，基因组生物学，3（7），研究0036.1–0036.21。
[12]	EFRON B.和TIBSHIRANI R.J.（1993年），《Bootstrap简介》，纽约：查普曼和霍尔出版社·Zbl 0835.62038号
[13]	FAYYAD，U.M.、PIATETSKY-SHAPIRO，G.、SMYTH，P.和UTHURUSAMY，R.（编辑）（1996年），《知识发现和数据挖掘进展》，加利福尼亚州门罗公园：AAAI出版社/麻省理工学院出版社。
[14]	FENG，Y.和HAMERLY，G.（2006），“PG-Means:学习数据中簇的数量”，《神经信息处理系统进展》，19（NIPS进展），马萨诸塞州剑桥：麻省理工学院出版社，第393-400页。
[15]	FRALEY，C.和RAFTERY，A.E.（2002），“基于模型的聚类、判别分析和密度估计”，《美国统计协会杂志》，97（458），611-631·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[16]	高斯混合分布数据的生成（2006），NETLAB神经网络软件，http://www.ncrg.aston.ac.uk/netlab .
[17]	HAND，D.J.和KRZANOWSKI，W.J.（2005），“使用标准软件包优化k均值聚类结果”，计算统计与数据分析，49，969–973·Zbl 1429.62244号 ·doi:10.1016/j.csda.2004.06.017
[18]	HANSEN，P.和MLADENOVIC，N.（2001），“J-MEANS:最小平方和聚类的新局部搜索启发式”，模式识别，34，405–413·Zbl 1012.68873号 ·doi:10.1016/S0031-3203（99）00216-2
[19]	HARDY A.（1996），“关于集群数量”，计算统计与；数据分析23、83–96·兹比尔0900.92186 ·doi:10.1016/S0167-9473（96）00022-9
[20]	HARTIGAN，J.A.（1975），聚类算法，纽约：J.Wiley&amp；儿子们·Zbl 0372.62040号
[21]	HUBERT，L.J.和ARABIE，P.（1985），“比较分区”，分类杂志，2193-218·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[22]	HUBERT，L.J.和LEVIN，J.R.（1976），“自由回忆中评估类别聚类的一般统计框架”，《心理学公报》，83，1072–1080·数字对象标识代码：10.1037/0033-2909.83.1072
[23]	ISHIOKA，T.（2005），“扩展X平均值以自动确定最佳簇数”，《计算智能国际会议论文集》，加拿大卡尔加里AB，第91-96页。
[24]	JAIN，A.K.和DUBES，R.C.（1988），《聚类数据的算法》，新泽西州恩格尔伍德克利夫斯：普伦蒂斯·霍尔·Zbl 0665.62061号
[25]	KAUFMAN L.和ROUSSEUW P.（1990），《在数据中发现群体：聚类分析导论》，纽约：J.Wiley&amp；儿子·Zbl 1345.62009号
[26]	KRZANOWSKI W.和LAI Y.（1985），“使用平方和聚类确定数据集中组数的标准”，生物计量学，44，23-34·Zbl 0707.62122号 ·doi:10.2307/2531893
[27]	KUNCHEVA，L.I.和VETROV，D.P.（2005），“关于随机初始化的K-均值聚类集成稳定性评估”，IEEE模式分析和机器智能汇刊，28（11），1798-1808·doi:10.1109/TPAMI.2006.226
[28]	LEISCH，F.（2006），“K质心聚类分析工具箱”，计算统计与数据分析，51，526–544·Zbl 1157.62439号 ·doi:10.1016/j.csda.2005.10.006
[29]	MAULIK，U.和BANDYOPADHYAY，S.（2000），“基于遗传算法的聚类技术”，模式识别，331455-1465·doi:10.1016/S0031-3203（99）00137-5
[30]	MCLACHLAN，G.J.和KHAN，N.（2004），“关于组织样本基于混合模型聚类的聚类数测试的重采样方法”，《多元分析杂志》，90，990–1005·Zbl 1052.65006号 ·doi:10.1016/j.jmva.2004.02.002
[31]	MCLACHLAN，G.J.和PEEL，D.（2000），有限混合模型，纽约：Wiley·Zbl 0963.62061号
[32]	MCQUEEN，J.（1967），“多元观测分类和分析的一些方法”，载于第五届伯克利数理统计与概率研讨会，第二卷，第281-297页。
[33]	MILLIGAN，G.W.（1981），“聚类分析的三十种内部标准测量的蒙特卡罗研究”，《心理测量学》，46，187–199·Zbl 0472.62070号 ·doi:10.1007/BF02293899
[34]	MILLIGAN，G.W.和COOPER，M.C.（1985），“确定数据集中簇数的程序检查”，《心理测量学》，50，159-179·doi:10.1007/BF02294245
[35]	MILLIGAN，G.W.和COOPER，M.C.（1988），“聚类分析中变量标准化的研究”，分类杂志，5181-204·doi:10.1007/BF01897163
[36]	MINAEI-BIDGOLI，B.、TOPCHY，A.和PUNCH，W.F.（2004），“聚类集成重采样方法的比较”，机器学习国际会议；模型、技术和应用（MLMTA04），内华达州拉斯维加斯，第939-945页。
[37]	MIRKIN，B.（1990），“线性数据聚合模型的顺序拟合程序”，《分类杂志》，第7期，第167-195页·兹比尔0727.62065 ·doi:10.1007/BF01908715
[38]	MIRKIN，B.（1996），《数学分类和聚类》，纽约：Kluwer出版社·Zbl 0874.90198号
[39]	MIRKIN，B.（2005），《数据挖掘的聚类：数据恢复方法》，佛罗里达州博卡拉顿：查普曼和霍尔/CRC·Zbl 1083.68099号
[40]	MONTI，S.、TAMAYO，P.、MESIROV，J.和GOLUB，T.（2003），“共识聚类：基于重采样的类发现方法和基因表达微阵列数据可视化”，机器学习，52，91–118·Zbl 1039.68103号 ·doi:10.1023/A:1023949509487
[41]	MOJENA，R.（1977），“分层分组方法和停止规则：评估”，《计算机杂志》，第20、359–363页·Zbl 0364.62065号 ·doi:10.1093/comjnl/20.4.359
[42]	MURTAGH，F.和RAFTERY，A.E.（1984），“将直线拟合到点模式”，模式识别，17，479–483·doi:10.1016/0031-3203（84）90045-1
[43]	PELLEG，D.和MOORE，A.（2000），“X-means:扩展K-means并有效估计集群数量”，《第17届机器学习国际会议论文集》，旧金山：摩根·考夫曼，第727-734页。
[44]	PENA，J.M.，LOZANO，J.A.和LARRANAGA P.（1999），“K-Means算法四种初始化方法的实证比较”，模式识别字母，20（10），1027–1040·doi:10.1016/S0167-8655（99）00069-0
[45]	POLLARD，K.S.和VAN DER LAAN，M.J.（2002），“识别基因表达数据中重要簇的方法”，加州大学伯克利分校生物统计学工作论文系列，第107页。
[46]	SHEN，J.、CHANG，S.I.、LEE，E.S.、DENG，Y.和BROWN，S.J.（2005），“聚类微阵列数据中聚类数的确定”，应用数学与计算，1691172-1185·Zbl 1074.62043号 ·doi:10.1016/j.amc.2004.10.076
[47]	SPAETH，H.（1985），《集群解剖与分析》，奇切斯特：埃利斯·霍伍德出版社。
[48]	STEINEY，D.（2004），“K-Means聚类中的标准化变量”，《分类、聚类和数据挖掘应用》，编辑：D.Banks，L.House，F.R.McMorris，P.Arabie和W.Gaul，纽约：Springer，第53–60页。
[49]	STEINEY，D.（2006），“K-Means聚类：半个世纪的综合”，《英国数学与统计心理学杂志》，59，1-34·doi:10.1348/00711005X48266
[50]	STEINEY，D.和BRUSCO M.（2007），“初始化K-均值批量聚类：几种技术的关键评估”，《分类杂志》，24，99–121·Zbl 1144.62331号 ·doi:10.1007/s00357-007-0003-0
[51]	STEINEY，D.和HENSON，R.（2005），“OCLUS：生成已知重叠簇的分析方法”，《分类杂志》，22，221-250·Zbl 1336.62191号 ·doi:10.1007/s00357-005-0015-6
[52]	SUGAR，C.A.和JAMES，G.M.（2003），“找出数据集中的簇数：信息论方法”，《美国统计协会杂志》，98（463），750-778·Zbl 1046.62064号 ·doi:10.1198/0162145000000666
[53]	TIBSHIRANI，R.、WALTHER，G.和HASTIE，T.（2001），“通过缺口统计估算数据集中的簇数”，英国皇家统计学会期刊B，63，411-423·Zbl 0979.62046号 ·数字对象标识代码：10.1111/1467-9868.00293
[54]	TIPPING，M.E.和BISHOP，C.M.（1999），“概率主成分分析”，《皇家统计学会杂志》，B辑61，611-622·Zbl 0924.62068号 ·doi:10.1111/1467-9868.00196
[55]	VAPNIK，V.（2006），基于经验数据的依赖性估计（第二版），柏林：Springer Science+Business Media Inc·Zbl 1118.6202号
[56]	WASITO，I.和MIRKIN，B.（2006），“具有不同缺失模式的最小二乘数据插补算法中的最近邻”，计算统计与；数据分析，50926–949·兹比尔1431.62044 ·doi:10.1016/j.csda.2004.11.009
[57]	YEUNG，K.Y.和RUZZO，W.L.（2001），“调整后的随机指数和聚类算法的细节”，生物信息学，17，763–774·doi:10.1093/bioinformatics/17.9.763

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

（K）-均值聚类中簇数的智能选择：一项不同簇间距的实验研究。（英语） Zbl 1337.62127号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

（K）-均值聚类中簇数的智能选择：一项不同簇间距的实验研究。 （英语） Zbl 1337.62127号

MSC公司：

关键词：

软件：

参考文献：

（K）-均值聚类中簇数的智能选择：一项不同簇间距的实验研究。（英语） Zbl 1337.62127号