×

结合属性内容和标签信息进行分类数据集成聚类。 (英语) Zbl 1508.62163号

摘要:集合聚类近年来受到了越来越多的关注,因为它能够将多个基本聚类(集合成员)组合成一个更健壮的聚类。它主要由两部分组成,即生成多个集合成员和找到最终划分。信息矩阵的构造对于找到最终划分起着重要作用。在一般的分类数据集成聚类框架中,现有的信息矩阵大多只依赖集成成员的标签信息而不考虑数据集的原始信息。为了解决这个问题,本文提出了一种新的分类数据集成聚类框架,其中信息矩阵将标签信息和原始数据信息结合在一起,并将其实例化为ALM矩阵。ALM矩阵不仅考虑了属性内容在每个集合成员中的分布,还考虑了基于分布的集合成员之间的关系。为了简单起见,使用k均值技术对ALM矩阵进行聚类,形成一种新的集成聚类算法。通过将所提出的算法与其他集成聚类算法进行比较,实验结果表明了ALM矩阵的优点。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Han,J。;M.Kamber。;Pei,J.,《数据挖掘概念和技术》(2011年)
[2] Macqueen,J.,《多元观测分类和分析的一些方法》,《伯克利数理统计与概率研讨会论文集》,281-297(1967)·Zbl 0214.46201号
[3] 埃斯特,M。;Kriegel,H.P。;Xu,X.,一种基于密度的算法,用于在有噪声的大型空间数据库中发现簇,知识发现和数据挖掘国际会议,226-231(1996)
[4] Jain,A.K.,《数据聚类:超越K-means的50年》,模式识别。莱特。,31, 651-666 (2010)
[5] Jain,A.K。;Murty,M.N。;Flynn,P.J.,《数据聚类:综述》,ACM Compute。调查。,31, 3, 264-323 (1999)
[6] Xu,R。;Wunsch II,D.,聚类算法综述,IEEE Trans。神经网络。,16, 3, 645-678 (2005)
[7] Huang,Z.,用分类值聚类大数据集的k-means算法的扩展,data Min.Knowl。发现。,2, 3, 283-304 (1998)
[8] 黄,Z。;Ng,M.K.,分类数据聚类的模糊K模式算法,IEEE Trans。模糊系统。,7, 4, 446-452 (1999)
[9] Ng,M.K。;李,M.J。;黄,Z。;He,Z.,《关于k模式聚类算法中不同度量的影响》,IEEE Trans。模式分析。机器。智力。,29, 3, 503-507 (2007)
[10] Bai,L。;梁,J。;Dang,C。;Cao,F.,集群代表对k型集群收敛性的影响,IEEE Trans。模式分析。机器。智力。,35, 6, 1509-1522 (2013)
[11] 曹,F。;梁,J。;李,D。;Zhao,X.,分类数据子空间聚类的加权k模式算法,神经计算,108,5,23-30(2013)
[12] Chen,L。;王,S。;王,K。;Zhu,J.,概率距离分类数据的软子空间聚类,模式识别。,51, 322-332 (2016)
[13] 曹,F。;黄,Z。;梁,J。;X.赵。;孟,Y。;Feng,K。;Qian,Y.,带集值特征的分类数据聚类算法,IEEE Trans。神经网络。学习。系统。,29, 10, 4593-4606 (2018)
[14] Guha,S。;Rastogi,R。;Shim,K.,ROCK:分类属性的鲁棒聚类算法,Inf.Syst。,252345-366(2000年)
[15] 巴巴拉,D。;库托,J。;Li,Y.,COOLCAT:一种基于熵的分类聚类算法,第11届信息和知识管理国际会议论文集,582-589(2002)
[16] X.赵。;曹,F。;Liang,J.,混合数据的序列集成聚类生成算法,应用。数学。计算。,335, 264-277 (2018) ·Zbl 1427.68280号
[17] Ghosh,J。;Acharya,A.,《星团群》,Wiley Interdiscip。修订数据最小知识。发现。,1, 4, 305-315 (2011)
[18] 阿亚德·H·G。;Kamel,M.S.,《关于基于投票的集群信号群共识》,模式识别。,43, 5, 1943-1953 (2010) ·Zbl 1191.68552号
[19] 黄,D。;赖,J。;Wang,C.D.,使用因子图的集成聚类,模式识别。,50, 131-142 (2016) ·Zbl 1395.62157号
[20] Iam-On,N。;Boongoen,T。;加勒特,S。;Price,C.,分类数据聚类的基于链接的集群集成方法,IEEE Trans。知识。数据工程,24,3,413-425(2012)
[21] Al-Razgan,M。;多梅尼科尼,C。;Barbara,D.,分类数据聚类的随机子空间集合,监督和非监督集合方法及其应用,31-48(2008)
[22] Iam-On,N。;Boongoen,T。;Garrett,S.,《利用簇关系优化簇集成问题的成对相似矩阵》,《发现科学国际会议论文集》,222-233(2008)
[23] 杰赫·G。;Widom,J.,SimRank:结构-控制相似性的度量,《第八届Acm-Sigkdd知识发现和数据挖掘国际会议论文集》,538-543(2002)
[24] 卢,Y。;Wan,Y.,Pha:一种基于电位的快速层次凝聚聚类方法,模式识别。,46, 5, 1227-1239 (2013)
[25] Cilibrasi,R.L。;Vitnyi,P.M.B.,层次聚类的快速四叉树启发式算法,模式识别。,44, 3, 662-677 (2011) ·Zbl 1209.68448号
[26] 何,Z。;Xu,X。;Deng,S.,分类数据聚类的聚类集成方法,Inf.Fusion,6,2143-151(2005)
[27] Karypis,G。;Kumar,V.,不规则图的多级方式划分方案,J.Parallel Distrib.Comput。,48, 2, 96-129 (1998)
[28] Ng,A。;乔丹,M。;Weiss,Y.,关于光谱聚类:分析和算法,神经信息处理系统进展,14849-856(2001)
[29] Jing,L。;田,K。;黄,Z.,高维数据集成聚类的分层特征采样方法,模式识别。,48, 11, 3688-3702 (2015)
[30] Yu,Z。;李,L。;高,Y。;你,J。;刘杰。;Wong,H.S。;Han,G.,混合聚类解决方案选择策略,模式识别。,47, 10, 3362-3375 (2014)
[31] Chen,H.L。;Chuang,K.T。;Chen,M.S.,基于重要属性值将未聚类分类数据标记为簇,IEEE数据挖掘国际会议,8(2006)
[32] 曹,F。;Yu,L。;黄J.Z。;Liang,J.,k-mw-modes:分类矩阵对象数据聚类算法,应用。软计算。,57, 605-614 (2017)
[33] K.Bache,M.Lichman,UCI机器学习库,2014年,http://archive.ics.uci.edu/ml。
[34] 梁,J。;Bai,L。;Dang,C。;Cao,F.,《k均值型算法与不平衡数据分布》,IEEE Trans。模糊系统。,20, 4, 728-745 (2012)
[35] 斯特雷尔,A。;Ghosh,J.,《集群集成——用于组合多个分区的知识重用框架》,J.Mach。学习。决议,3583-617(2003)·Zbl 1084.68759号
[36] 斯特雷尔,A。;Ghosh,J.,《集群集成:用于组合分区的知识重用框架》,J.Mach。学习。决议,3583-617(2002)·Zbl 1084.68759号
[37] 刘,H。;刘,T。;吴杰。;陶,D。;Yun,F.,光谱集合聚类,第21届ACM SIGKDD国际知识发现和数据挖掘会议论文集,715-724(2015)
[38] Yu,Z.,基于图的一致性聚类用于基因表达数据的类发现,生物信息学,23,21,2888-2896(2007)
[39] X.赵。;梁,J。;Dang,C.,基于内部有效性指数的分类数据聚类集成选择,模式识别。,69, 150-168 (2017)
[40] Ar,J.,多数据集上分类器的统计比较,J.Mach。学习。第7、1、1-30号决议(2006年)·Zbl 1222.68184号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。