×

理解和增强分类数据的内部聚类验证指标。 (英语) Zbl 1461.62095号

摘要:聚类是机器学习的主要任务之一。内部聚类验证指标(CVI)用于衡量多个聚类分区的质量,以无监督的方式确定局部最优聚类结果,并可作为聚类算法的目标函数。本文首先研究了用于分类数据聚类的几种著名的内部CVI,并证明了在没有任何簇间分离度量或假设的情况下评估不同数量簇的划分是无效的;分离的准确性,以及它与星团内紧密度度量的协调,可以显著影响性能。然后,为了增强内部聚类有效性度量,我们提出了一种新的内部CVI——基于隔离每个簇的平均信息增益的聚类效用(容积)–测量隔墙的紧密度和间距。实验结果支持了我们关于现有内部CVI的发现,并表明提出的古巴优于具有或不具有已知数量簇的其他内部CVI。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Xu,R。;二、D.C.W。;聚类算法综述;IEEE传输。神经网络:2005; 第16卷,645-678。
[2] Jain,A.K。;杜布斯,R.C。;数据聚类算法;技术计量学:1988年;第32卷,227-229·Zbl 0665.62061号
[3] 科努约尔,A。;Wemmert,C。;甘萨尔斯基,P。;Bennani,Y。;协作集群:原因、时间、内容和方式;信息融合:2017年;第39卷。
[4] Handl,J。;Knowles,J。;凯尔,D.B。;后基因组数据分析中的计算聚类验证;生物信息学:2005;第21卷,3201-3212。
[5] 哈尔基迪,M。;巴蒂斯塔基斯,Y。;Vazirgiannis,M。;聚类验证技术研究;J.智力。信息系统:2001; 第17卷,107-145·Zbl 0998.68154号
[6] 兰德,W.M。;聚类方法评价的客观标准;出版物。美国统计协会:1971年;第66卷,846-850页。
[7] 新泽西州文。;埃普斯,J。;Bailey,J。;聚类比较的信息论度量:是否有必要对概率进行修正?;机器学习国际会议论文集:,1073-1080. ·Zbl 1242.62062号
[8] Rijsbergen,C.J.V;信息检索:牛津,英国1979,777. ·Zbl 0227.68052号
[9] Bai,L。;梁,J。;分类数据的聚类有效性函数:解决方案空间视角;数据最小知识。迪斯科:2015年;第29卷,1560-1597·Zbl 1405.62074号
[10] 李,H。;张,S。;丁,X。;张,C。;戴尔,P。;多/高光谱遥感数据集聚类有效性指数(CVI)的性能评价;遥感:2016年;第8卷。
[11] 哈里穆尔蒂,R。;Yamasari,Y。;Ekohariadi,B.I.G.P。;穆诺托;阿斯托;用线性回归预测职业高中学生的心理运动领域;2018年国际信息通信技术大会(ICOIACT)会议记录:,448-453.
[12] Luna-Romera,J.M。;加西亚·古铁雷斯,J。;马丁内斯·巴列斯特罗斯,M。;桑托斯,J.C.R。;大数据中聚类技术有效性指标的研究;掠夺。人工。整数:2018; 第7卷,81-94。
[13] Rizzoli,P。;Loder,E。;Joshi,S。;电子健康记录中聚类诊断的有效性;头痛:2016年;第56卷,1132-1136。
[14] 阿加瓦尔,C.C。;普罗科皮乌克,C。;余,P.S。;在市场篮子数据中发现本地化关联;IEEE传输。知识。数据工程:2002;第14卷,第51-62页。
[15] 巴巴拉,D。;Jajodia,S;数据挖掘在计算机安全中的应用:波士顿,马萨诸塞州,美国2002年·Zbl 1041.68003号
[16] Yang,Y。;文本分类统计方法的评价;信息检索:1999; 第1卷,69-90。
[17] 刘,Y。;李,Z。;熊,H。;高,X。;吴杰。;Wu,S。;了解并加强内部聚类验证措施;IEEE传输。网络:2013; 第43卷,982-994。
[18] Kremer,H。;Kranen,P。;詹森,T。;塞德尔,T。;Bifet,A。;霍姆斯,G。;普法林格,B。;一种有效的演化数据流聚类评价方法;ACM SIGKDD知识发现和数据挖掘国际会议论文集:,868-876.
[19] 宋,M。;张,L。;数据流聚类中部分二阶矩与完全四阶矩聚类表示的比较;第八届IEEE数据挖掘国际会议论文集:,560-569.
[20] 熊,H。;吴杰。;陈,J。;K-means聚类与验证度量:数据分布视角;IEEE传输。系统。人类网络。B部分网络:2009年;第39卷,318-331页。
[21] 布伦,M。;Chao,S。;Hua,J。;罗伊,J。;卡罗尔,B。;苏,E。;Dougherty,E.R。;基于模型的聚类验证措施评估;图案识别:2007; 第40卷,第807-824页·Zbl 1118.68132号
[22] Tan,P.N。;斯坦巴赫,M。;库马尔,V;数据挖掘简介:美国马萨诸塞州波士顿,2005,86-103.
[23] 哈尔基迪,M。;巴蒂斯塔基斯,Y。;Vazirgiannis,M。;聚类有效性方法:第一部分;ACM SIGMOD记录:2002;第31卷,40-45页。
[24] 张,G.X。;潘,L.Q。;膜计算作为自然计算的一个新分支综述;下巴。J.计算:2010年;第33卷,208-214。
[25] Busi,北。;利用结构良好的过渡体系确定催化P体系的发散;西奥。计算。科学:2007; 第372卷,第125-135页·Zbl 1111.68037号
[26] 利用P系统求解NP-完全优化问题的近似算法。
[27] Maulik,美国。;Bandyopadhyay,S;一些聚类算法和有效性指标的性能评估:华盛顿,WA,USA 2002,1650-1654.
[28] 帕尔,N.R。;Bezdek,J.C。;模糊c-均值模型的聚类有效性研究;IEEE传输。模糊系统:2002年;第3卷,370-379。
[29] 雷,Y。;Bezdek,J.C。;罗曼诺,S。;新泽西州文。;Chan,J。;Bailey,J。;外部聚类有效性指数中的基本事实偏差;图案识别:2017; 第65卷,第58-70页。
[30] 巴巴拉,D。;李毅。;库托,J。;COOLCAT:一种基于熵的分类聚类算法;第十一届信息和知识管理国际会议记录:,582-589.
[31] 黄,Z。;数据挖掘中超大类别数据集的快速聚类算法;Res.Issues Data Min.Knowl.研究发布数据最小知识。发现:1997; ,1-8.
[32] 格卢克,M。;信息、不确定性与范畴的效用;认知科学学会第七届年会论文集:,283-287.
[33] Yang,Y。;关,X。;你,J。;CLOPE:一种快速有效的事务数据聚类算法;第八届ACM SIGKDD知识发现和数据挖掘国际会议论文集:,682-687.
[34] Chang,C.H。;丁,Z.K。;使用主观因素的分类数据可视化和聚类;数据知识。工程:2005年;第53卷,243-262。
[35] 香农,C.E。;传播的数学理论;贝尔实验室技术期刊:1948;第27卷,379-423·Zbl 1154.94303号
[36] J.麦昆。;多变量观测分类与分析的若干方法;伯克利数理统计与概率研讨会论文集:,281-297. ·Zbl 0214.46201号
[37] 费希尔,D.H。;基于增量概念聚类的知识获取;马赫。学习。:1987; 第2卷,139-172。
[38] Witten,I。;E.弗兰克。;霍尔,M。;霍尔,M。;数据挖掘:实用机器学习工具和技术,第三版(数据管理系统中的摩根-考夫曼系列);ACM SIGMOD修订版:2011年;第31卷,76-77。
[39] 李毅。;Le,J。;王,M。;用优化的聚合方法提高CLOPE的利润价值和稳定性;算法:2015年;第8卷,380-394·兹比尔1461.62103
[40] 坎波,D.N。;Stegmayer,G。;Milone,D.H。;一种新的重叠聚类有效性指标;专家系统。申请:2016; 第64卷,549-556。
[41] Dziopa,T。;基于语义同质性的聚类有效性指标评价;2016年计算机科学与信息系统联合会议论文集:,3-9.
[42] 奥斯祖斯特,M。;科斯特卡,M。;基于内部有效性测度的子空间聚类评价;高级电子设备。计算。工程:2015年;第15卷,第141-146页。
[43] Desgraupes,B;聚类指数:法国南特,2013,34
[44] Baarsch,J。;Celebi,M.E。;K-means聚类的内部有效性测度研究;国际工程师和计算机科学家联合会会议记录:,14-16.
[45] 赵(Q.Zhao);聚类方法中的聚类有效性:Kuopio,芬兰2012。
[46] 伦登,E。;阿布恩德斯,I。;Arizmendi,A。;Quiroz,E.M。;内部与外部集群验证指标;国际期刊计算。共同点:2011; 第5卷,第27-34页。
[47] Ingaramo,D。;平托,D。;罗索,P。;埃雷卡尔德,M。;短文本语料库内部效度评价;智能文本处理与计算语言学国际会议论文集:,555-567.
[48] 哈尔基迪,M。;Vazirgiannis,M。;聚类有效性评估:找到数据集的最佳划分;2001年IEEE数据挖掘国际会议论文集:,187-194. ·Zbl 1009.68665号
[49] 江,D。;唐,C。;张,A。;基因表达数据的聚类分析:一项调查;IEEE传输。知识。数据工程:2004;第16卷,1370-1386。
[50] 吴杰。;陈,J。;熊,H。;谢,M。;K-means聚类的外部验证措施:数据分布视角;专家系统。申请:2009年;第36卷,6050-6061。
[51] Jensen,J.L.W.V。;在埃加利特的《莫耶纳中心》中,函数是凸的;数学学报:1906; 第30卷,175-193年·JFM 37.0422.02号
[52] 封面,T.M。;托马斯,J.A;信息理论要素:纽约,纽约,美国1991,155-183. ·Zbl 0762.94001号
[53] 昆兰,J.R。;决策树的归纳;马赫。学习。:1986; 第1卷,81-106。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。