费尔南多·尤斯塔基奥;塔蒂安·诺盖拉 评估高维数据模糊聚类验证中的数值不稳定性。 (英语) Zbl 1443.62181号 西奥。计算。科学。 805, 19-36 (2020). 摘要:高维数据集的模糊聚类验证只能使用可靠的聚类有效性指数(CVI)。一个好的CVI必须正确识别数据结构,其验证必须独立于聚类算法或数据属性的任何参数。然而,一些经典的模糊CVI如分配系数(PC)、分配熵(PE)和Fukuyama-Sugeno(FS)在簇数函数上具有单调的趋势。尽管文献对这种趋势进行了广泛的研究,但它们是针对低维数据进行的,在低维数据中,这种数据属性不会影响聚类行为。为了研究这些方面如何影响高维数据的模糊聚类结果,在这项工作中,我们使用fuzzy-c-Means算法对13个实际数据集的对象进行聚类。通过PC、PE、FS对模糊划分进行了验证,并提出了一些改进建议,以导致单调趋势,共分析了八个模糊CVI。除了对CVI选择的聚类数进行分析外,还进行了Mann-Kendall检验,以从统计学上验证CVI结果的单调趋势。从这两个分析来看,修正分配系数和标度分配熵指数分别成功地改善了PC和PE指数。 MSC公司: 62H30型 分类和区分;聚类分析(统计方面) 62时86分 多元分析与模糊性 62-08 统计问题的计算方法 关键词:模糊聚类验证;模糊聚类有效性指标;模糊c均值;单调倾向;集群数量;高维数据 软件:趋势 PDF格式BibTeX公司 XML格式引用 \textit{F.Eustáquio}和\textit{T.Nogueira},Theor。计算。科学。805、19-36(2020年;Zbl 1443.62181) 全文: 内政部 参考文献: [1] 斯坦巴赫,M。;埃尔特斯,L。;库马尔,V.,《高维数据聚类的挑战,统计物理的新方向:经济物理、生物信息学和模式识别》,273-309(2004)·Zbl 1078.62066号 [2] Jensen,R。;Cornelis,C.,Fuzzy-rough最近邻分类和预测,自然计算中的粗糙集和模糊集。自然计算中的粗糙集和模糊集理论。计算。科学。,412、42、5871-5884(2011年)·兹比尔1223.68095 [3] Xu,R。;Wunsch,D.,集群,IEEE计算智能系列(2009),威利 [4] Bezdek,J.C.,《模糊目标函数算法的模式识别》(1981),Kluwer学术出版社:Kluwer-学术出版社,美国马萨诸塞州诺威尔·兹比尔0503.68069 [5] Wang,W。;张勇,关于模糊聚类有效性指标,模糊集系统。,158, 19, 2095-2117 (2007) ·Zbl 1123.62046号 [6] Bezdek,J.C.,模糊集的聚类有效性,J.Cybern。,3, 3, 58-73 (1973) ·Zbl 0294.68035号 [7] Bezdek,J.C.,《模糊集数值分类法》,J.Math。生物学,1,1,57-71(1974)·Zbl 0403.62039号 [8] Bezdek,J.C.,《系统学和分类学的数学模型》,(第八届国际会议,旧金山数值分类学(1975)),143-166·Zbl 0362.62067号 [9] 福山,Y。;Sugeno,M.,为模糊c-均值方法选择簇数的新方法,(模糊系统研讨会(1989)),247-250 [10] 谢晓乐。;Beni,G.,模糊聚类的有效性度量,IEEE Trans。模式分析。机器。智力。,13, 8, 841-847 (1991) [11] Schwämmle,V。;Jensen,O.N.,《确定模糊c-均值聚类分析参数的简单快速方法》,生物信息学,26,22,2841-2848(2010) [12] 北卡罗来纳州帕尔。;Bezdek,J.C.,《关于模糊C-均值模型的聚类有效性》,IEEE Trans。模糊系统。,3, 3, 370-379 (1995) [13] 李,H。;张,S。;丁,X。;张,C。;Dale,P.,《多/高光谱遥感数据集聚类有效性指数(CVI)的性能评估》,遥感,8(2016) [14] Kwon,S.H.,模糊聚类的聚类有效性指数,电子。莱特。,34, 22, 2176-2177 (1998) [15] Tang,Y。;Sun,F。;Sun,Z.,《模糊聚类的改进验证指数》,(《2005年美国控制会议论文集》,2005年,第2卷(2005)),1120-1125 [16] Capitaine,H.L。;Frelicot,C.,基于模糊聚合算子的重叠测度和分离测度相结合的聚类有效性指数,IEEE Trans。模糊系统。,19, 3, 580-588 (2011) [17] 周凯乐,C.F.S.Y。;丁,帅,模糊聚类有效性指数的比较与加权求和型,国际计算机。Commun公司。控制,9,3,370-378(2014) [18] Tang,Y。;胡,X。;佩德里茨,W。;Song,X.,高密度视点的可能性模糊聚类,神经计算,329407-423(2019) [19] 胡,Y。;左,C。;Yang,Y。;Qu,F.,模糊c-均值聚类的鲁棒聚类有效性指数,(国际运输、机械和电气工程会议(2011)),448-451 [20] 尤斯塔奎奥,F。;Nogueira,T.,关于高维数据的一些模糊聚类有效性指数的单调趋势,(2018年第七届巴西智能系统会议(BRACIS)(2018)),558-563 [21] Dave,R.N.,验证通过c-shell聚类获得的模糊划分,模式识别。莱特。,17, 6, 613-623 (1996) [22] Chong,A。;Gedeon,T.D。;Koczy,L.T.,解决集群有效性问题的混合方法,(数字信号处理国际会议论文集,第2卷(2002)),1207-1210 [23] 杨,硕士。;Wu,K.-L.,模糊聚类的新有效性指标,(IEEE模糊系统国际会议,第1卷(2001)),89-92 [24] 李胜,C.,改进的分配系数,国际工程进展会议,24534-538(2011) [25] Dunn,J.C.,《大数据集中划分模糊性指标和簇检测》(Fuzzy Automata and Decision Processes,1977),Elsevier:Elsevier New York),271-284 [26] 尤斯塔基奥,F。;卡马戈,H。;Rezende,S。;Nogueira,T.,《关于高维特征空间的模糊聚类有效性指标》,(fuzzy Logic and Technology 2017进展:欧洲模糊逻辑与技术学会第十届会议论文集,2017)。《2017年模糊逻辑和技术进展:欧洲模糊逻辑与技术学会第十届会议论文集》,2017年,波兰华沙,第2卷(2018),12-23 [27] 北卡罗来纳州帕尔。;Pal,K。;Keller,J.M。;Bezdek,J.C.,《一种可能的模糊C-均值聚类算法》,IEEE Trans。模糊系统。,13, 4, 517-530 (2005) [28] Dunn,J.C.,isodata过程的模糊关系及其在检测紧密且分离良好的簇中的应用,J.Cybern。,3, 3, 32-57 (1973) ·Zbl 0291.68033号 [29] Bezdek,J.C.,《模糊目标函数算法的模式识别》(1981),Kluwer学术出版社:Kluwer-学术出版社,美国马萨诸塞州诺威尔·兹比尔0503.68069 [30] Hartigan,J.A.,《聚类算法》(1975),John Wiley and Sons,Inc.:美国纽约州纽约市John Willey and Sons公司·Zbl 0372.62040号 [31] Klir,G.J。;Yuan,B.,《模糊集与模糊逻辑:理论与应用》(1995),普伦蒂斯·霍尔公司:普伦蒂斯霍尔公司,美国新泽西州上鞍河·Zbl 0915.03001号 [32] Bezdek,J.C。;温德姆,M.P。;Ehrlich,R.,《聚类有效性泛函的统计参数》,国际计算机杂志。信息科学。,9, 4, 323-336 (1980) ·Zbl 0468.62051号 [33] Pazzani,M.、Syskill和Webert网页评级数据集(1998年) [34] Group,M.L.,爱尔兰经济情绪数据集(2009年) [35] Forman,G.,19mclasstextwc数据集(2006年) [36] Karypis,G.,Cluto-高维数据集聚类软件(2006) [37] 罗西,R.G。;马尔卡西尼,R.M。;Rezende,S.O.,《分类和聚类任务基准文本集》(2013),圣卡洛斯联邦大学数学和计算机科学研究所,技术代表395 [38] Rennie,J.,20个新闻组数据集(2008年) [39] Han,J。;Kamber,M.,《数据挖掘:概念和技术》(2006年),摩根·考夫曼出版社:摩根·考夫曼出版社,加利福尼亚州旧金山桑索姆街500号400室,邮编94111·Zbl 1445.68004号 [40] Subhashini,R。;Kumar,V.J.S.,《评估文档聚类和信息检索中使用的相似性度量的性能》,(国际集成智能计算会议(2010)),27-31 [41] 库马尔,D。;Bezdek,J。;Palaniswami,M。;拉贾塞加拉,S。;Leckie,C。;Havens,T.,《大数据集群的混合方法》,IEEE Trans。赛博。,99, 1 (2015) [42] Bezdek,J.C。;莫什塔吉,M。;Runkler,T。;Leckie,C.,内部模糊聚类有效性的广义C指数,IEEE Trans。模糊系统。,24, 6, 1500-1512 (2016) [43] Mann,H.B.,非参数趋势检验,《计量经济学》,第13、3、245-259页(1945年)·Zbl 0063.03770号 [44] Kendall,M.,等级相关方法(1948),C.Griffin·Zbl 0032.17602号 [45] Pohlert,T.,趋势:非参数趋势测试和变化点检测(2018),r包版本1.1.1 [46] Wu,K.-L.,分配系数指标的稳健性分析,(IEEE模糊系统国际会议(2008)),372-376 [47] 瓦伦特,R.X。;Braga,A.P。;Pedrycz,W.,基于模糊邻近矩阵的新模糊聚类有效性指数,(巴西计算智能大会(2013)),489-494 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。