×

评估高维数据模糊聚类验证中的数值不稳定性。 (英语) Zbl 1443.62181号

摘要:高维数据集的模糊聚类验证只能使用可靠的聚类有效性指数(CVI)。一个好的CVI必须正确识别数据结构,其验证必须独立于聚类算法或数据属性的任何参数。然而,一些经典的模糊CVI如分配系数(PC)、分配熵(PE)和Fukuyama-Sugeno(FS)在簇数函数上具有单调的趋势。尽管文献对这种趋势进行了广泛的研究,但它们是针对低维数据进行的,在低维数据中,这种数据属性不会影响聚类行为。为了研究这些方面如何影响高维数据的模糊聚类结果,在这项工作中,我们使用fuzzy-c-Means算法对13个实际数据集的对象进行聚类。通过PC、PE、FS对模糊划分进行了验证,并提出了一些改进建议,以导致单调趋势,共分析了八个模糊CVI。除了对CVI选择的聚类数进行分析外,还进行了Mann-Kendall检验,以从统计学上验证CVI结果的单调趋势。从这两个分析来看,修正分配系数和标度分配熵指数分别成功地改善了PC和PE指数。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62时86分 多元分析与模糊性
62-08 统计问题的计算方法

软件:

趋势
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 斯坦巴赫,M。;埃尔特斯,L。;库马尔,V.,《高维数据聚类的挑战,统计物理的新方向:经济物理、生物信息学和模式识别》,273-309(2004)·Zbl 1078.62066号
[2] Jensen,R。;Cornelis,C.,Fuzzy-rough最近邻分类和预测,自然计算中的粗糙集和模糊集。自然计算中的粗糙集和模糊集理论。计算。科学。,412、42、5871-5884(2011年)·兹比尔1223.68095
[3] Xu,R。;Wunsch,D.,集群,IEEE计算智能系列(2009),威利
[4] Bezdek,J.C.,《模糊目标函数算法的模式识别》(1981),Kluwer学术出版社:Kluwer-学术出版社,美国马萨诸塞州诺威尔·兹比尔0503.68069
[5] Wang,W。;张勇,关于模糊聚类有效性指标,模糊集系统。,158, 19, 2095-2117 (2007) ·Zbl 1123.62046号
[6] Bezdek,J.C.,模糊集的聚类有效性,J.Cybern。,3, 3, 58-73 (1973) ·Zbl 0294.68035号
[7] Bezdek,J.C.,《模糊集数值分类法》,J.Math。生物学,1,1,57-71(1974)·Zbl 0403.62039号
[8] Bezdek,J.C.,《系统学和分类学的数学模型》,(第八届国际会议,旧金山数值分类学(1975)),143-166·Zbl 0362.62067号
[9] 福山,Y。;Sugeno,M.,为模糊c-均值方法选择簇数的新方法,(模糊系统研讨会(1989)),247-250
[10] 谢晓乐。;Beni,G.,模糊聚类的有效性度量,IEEE Trans。模式分析。机器。智力。,13, 8, 841-847 (1991)
[11] Schwämmle,V。;Jensen,O.N.,《确定模糊c-均值聚类分析参数的简单快速方法》,生物信息学,26,22,2841-2848(2010)
[12] 北卡罗来纳州帕尔。;Bezdek,J.C.,《关于模糊C-均值模型的聚类有效性》,IEEE Trans。模糊系统。,3, 3, 370-379 (1995)
[13] 李,H。;张,S。;丁,X。;张,C。;Dale,P.,《多/高光谱遥感数据集聚类有效性指数(CVI)的性能评估》,遥感,8(2016)
[14] Kwon,S.H.,模糊聚类的聚类有效性指数,电子。莱特。,34, 22, 2176-2177 (1998)
[15] Tang,Y。;Sun,F。;Sun,Z.,《模糊聚类的改进验证指数》,(《2005年美国控制会议论文集》,2005年,第2卷(2005)),1120-1125
[16] Capitaine,H.L。;Frelicot,C.,基于模糊聚合算子的重叠测度和分离测度相结合的聚类有效性指数,IEEE Trans。模糊系统。,19, 3, 580-588 (2011)
[17] 周凯乐,C.F.S.Y。;丁,帅,模糊聚类有效性指数的比较与加权求和型,国际计算机。Commun公司。控制,9,3,370-378(2014)
[18] Tang,Y。;胡,X。;佩德里茨,W。;Song,X.,高密度视点的可能性模糊聚类,神经计算,329407-423(2019)
[19] 胡,Y。;左,C。;Yang,Y。;Qu,F.,模糊c-均值聚类的鲁棒聚类有效性指数,(国际运输、机械和电气工程会议(2011)),448-451
[20] 尤斯塔奎奥,F。;Nogueira,T.,关于高维数据的一些模糊聚类有效性指数的单调趋势,(2018年第七届巴西智能系统会议(BRACIS)(2018)),558-563
[21] Dave,R.N.,验证通过c-shell聚类获得的模糊划分,模式识别。莱特。,17, 6, 613-623 (1996)
[22] Chong,A。;Gedeon,T.D。;Koczy,L.T.,解决集群有效性问题的混合方法,(数字信号处理国际会议论文集,第2卷(2002)),1207-1210
[23] 杨,硕士。;Wu,K.-L.,模糊聚类的新有效性指标,(IEEE模糊系统国际会议,第1卷(2001)),89-92
[24] 李胜,C.,改进的分配系数,国际工程进展会议,24534-538(2011)
[25] Dunn,J.C.,《大数据集中划分模糊性指标和簇检测》(Fuzzy Automata and Decision Processes,1977),Elsevier:Elsevier New York),271-284
[26] 尤斯塔基奥,F。;卡马戈,H。;Rezende,S。;Nogueira,T.,《关于高维特征空间的模糊聚类有效性指标》,(fuzzy Logic and Technology 2017进展:欧洲模糊逻辑与技术学会第十届会议论文集,2017)。《2017年模糊逻辑和技术进展:欧洲模糊逻辑与技术学会第十届会议论文集》,2017年,波兰华沙,第2卷(2018),12-23
[27] 北卡罗来纳州帕尔。;Pal,K。;Keller,J.M。;Bezdek,J.C.,《一种可能的模糊C-均值聚类算法》,IEEE Trans。模糊系统。,13, 4, 517-530 (2005)
[28] Dunn,J.C.,isodata过程的模糊关系及其在检测紧密且分离良好的簇中的应用,J.Cybern。,3, 3, 32-57 (1973) ·Zbl 0291.68033号
[29] Bezdek,J.C.,《模糊目标函数算法的模式识别》(1981),Kluwer学术出版社:Kluwer-学术出版社,美国马萨诸塞州诺威尔·兹比尔0503.68069
[30] Hartigan,J.A.,《聚类算法》(1975),John Wiley and Sons,Inc.:美国纽约州纽约市John Willey and Sons公司·Zbl 0372.62040号
[31] Klir,G.J。;Yuan,B.,《模糊集与模糊逻辑:理论与应用》(1995),普伦蒂斯·霍尔公司:普伦蒂斯霍尔公司,美国新泽西州上鞍河·Zbl 0915.03001号
[32] Bezdek,J.C。;温德姆,M.P。;Ehrlich,R.,《聚类有效性泛函的统计参数》,国际计算机杂志。信息科学。,9, 4, 323-336 (1980) ·Zbl 0468.62051号
[33] Pazzani,M.、Syskill和Webert网页评级数据集(1998年)
[34] Group,M.L.,爱尔兰经济情绪数据集(2009年)
[35] Forman,G.,19mclasstextwc数据集(2006年)
[36] Karypis,G.,Cluto-高维数据集聚类软件(2006)
[37] 罗西,R.G。;马尔卡西尼,R.M。;Rezende,S.O.,《分类和聚类任务基准文本集》(2013),圣卡洛斯联邦大学数学和计算机科学研究所,技术代表395
[38] Rennie,J.,20个新闻组数据集(2008年)
[39] Han,J。;Kamber,M.,《数据挖掘:概念和技术》(2006年),摩根·考夫曼出版社:摩根·考夫曼出版社,加利福尼亚州旧金山桑索姆街500号400室,邮编94111·Zbl 1445.68004号
[40] Subhashini,R。;Kumar,V.J.S.,《评估文档聚类和信息检索中使用的相似性度量的性能》,(国际集成智能计算会议(2010)),27-31
[41] 库马尔,D。;Bezdek,J。;Palaniswami,M。;拉贾塞加拉,S。;Leckie,C。;Havens,T.,《大数据集群的混合方法》,IEEE Trans。赛博。,99, 1 (2015)
[42] Bezdek,J.C。;莫什塔吉,M。;Runkler,T。;Leckie,C.,内部模糊聚类有效性的广义C指数,IEEE Trans。模糊系统。,24, 6, 1500-1512 (2016)
[43] Mann,H.B.,非参数趋势检验,《计量经济学》,第13、3、245-259页(1945年)·Zbl 0063.03770号
[44] Kendall,M.,等级相关方法(1948),C.Griffin·Zbl 0032.17602号
[45] Pohlert,T.,趋势:非参数趋势测试和变化点检测(2018),r包版本1.1.1
[46] Wu,K.-L.,分配系数指标的稳健性分析,(IEEE模糊系统国际会议(2008)),372-376
[47] 瓦伦特,R.X。;Braga,A.P。;Pedrycz,W.,基于模糊邻近矩阵的新模糊聚类有效性指数,(巴西计算智能大会(2013)),489-494
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。