×

基于聚类稳定性的进化K-means。 (英语) Zbl 07075521号

摘要:进化K-Means(Evolutionary K-Meanss,EKM)是一种将K-Means和遗传算法相结合的方法,通过分区的进化自动选择参数,解决了K-Means的初始化问题。目前,EKM算法通常选择剪影指数作为聚类有效性指标,对分离良好的聚类有效。然而,它们对有噪声数据进行聚类的性能往往令人失望。另一方面,基于聚类稳定性的方法对噪声更具鲁棒性;然而,他们应该明智地开始寻找一些具有挑战性的集群。有必要将EKM与基于聚类稳定性的分析结合起来。在本文中,我们提出了一种新的EKM算法,该算法使用聚类稳定性来评估分区。我们首先引入两个加权聚合共识矩阵,即正聚合共识矩阵和负聚合共识矩阵来存储每对实例的聚类趋势。具体来说,PA存储共享同一标签的趋势,NA存储具有不同标签的趋势。基于矩阵,可以从聚类稳定性的角度评估聚类和分区。然后,我们提出了一种基于聚类稳定性的EKM算法CSEKM,该算法可以同时进化划分和聚集矩阵。为了评估算法的性能,我们将其与EKM算法、两种一致性聚类算法、一种基于聚类稳定性的算法和一种基于多指标的聚类方法进行了比较。在一系列人工数据集、两个模拟数据集和八个UCI数据集上的实验结果表明,CSEKM对噪声更具鲁棒性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Aggarwal CC,Reddy CK(2014)《数据聚类:算法和应用》。博卡拉顿CRC出版社·兹比尔1331.62026 ·doi:10.1201/b17320
[2] Alves V,Campello RJBB,Hruschka ER(2006):朝向快速进化算法的聚类。摘自:IEEE进化计算大会会议记录(CEC 2006),第1776-1783页
[3] Arbelaitz O,Gurrutxaga I,Muguerza J,Perez JM,Perona I(2013)《集群有效性指数的广泛比较研究》。图案识别46:243-256·doi:10.1016/j.patcog.2012.07.021
[4] Arthur D,Vassilvitskii(2007)S K-means++:细心播种的优势。摘自:第18届ACM-SIAM离散算法(SODA)年会论文集,第1027-1035页·Zbl 1302.68273号
[5] Bache K,Lichman M(2013)UCI机器学习库。加利福尼亚大学信息与计算机科学学院,加利福尼亚州欧文。http://archive.ics.uci.edu/ml
[6] Bandyopadhyay S,Maulik U(2002)基于K-Means算法的进化技术用于RN.Inf Sci 146:221-237中的最优聚类·Zbl 1033.68595号 ·doi:10.1016/S0020-0255(02)00208-6
[7] Ben-David S,von Luxburg U,Páal D(2006)《集群稳定性的清醒观察》。摘自:第19届学习理论年会论文集(COLT 2006),第5-19页·Zbl 1143.68520号
[8] Bezdek JC,Boggavarapu S,Hall LO,Bensaid A(1994),遗传算法引导聚类。摘自:IEEE进化计算第一届会议论文集,第34-39页
[9] Brunsch T,Roglin H(2013)k-means++的一个坏例子。理论计算科学505:19-26·Zbl 1341.68307号 ·doi:10.1016/j.tcs.2012.02.028
[10] Bubeck S、MeiléM、Luxburg U(2012)初始化如何影响K-Means算法的稳定性。ESAIM探针统计16:436-452·兹比尔1302.62141 ·doi:10.1051/ps/2012013
[11] Cano JR,Cordon O,Herrera F,Sanchez F(2002)一种贪婪的随机自适应搜索程序,作为使用K-Means作为局部搜索程序的初始化过程应用于聚类问题,《智能模糊系统杂志》12:235-242·Zbl 1065.68521号
[12] Charrad M、Ghazzali N、Boiteau V、Niknafs A(2014)NbClust:用于确定数据集中相关簇数的R包。J Stat Softw杂志61(6):1-36·doi:10.18637/jss.v061.i06
[13] Chen S,Chao Y,Wang H,Fu H(2006)嵌入原型的遗传K-Means算法。摘自:第18届国际模式识别会议记录,第724-727页
[14] Chiu TY,Hsu TC,Wang JS(2010)基于AP的基因表达时间序列共识聚类。摘自:《第20届模式识别国际会议论文集》,第2512-2515页
[15] Chui TY,Hsu TC,Yen CC,Wang JS(2015)基于插值的基因表达时间序列共识聚类。BMC生物信息16:117·doi:10.1186/s12859-015-0541-0
[16] Craenendonck TV,Blockeel H(2015)使用内部有效性度量来比较聚类算法。ICML 2015 AutoML研讨会,https://lirias.kuleuven.be/bitstream/123456789/504712/1/automl_camera.pdf
[17] de Amorima RC(2015)使用特征缩放因子恢复具有噪声特征的数据集中的簇数。信息科学324:126-145·doi:10.1016/j.ins.2015.06.039
[18] Erisoglu M,Calis N,Sakallioglu S(2011)K-Means算法中初始聚类中心的新算法。图案识别信32:1701-1705·doi:10.1016/j.patrec.2011.07.011
[19] Famili AF,Liu G,Liu Z(2004)基因表达数据分析中聚类的评估与优化。生物信息学20(10):1535-1545·doi:10.1093/bioinformatics/bth124
[20] Fang Y,Wang J(2012)通过bootstrap方法选择簇数。计算统计数据分析56(3):468-477·Zbl 1239.62076号 ·doi:10.1016/j.csda.2011.09.003
[21] Hall LO,Øzyurt IB,Bezdek JC(1999),用遗传优化方法聚类。IEEE Trans-Evol计算3(2):103-112·doi:10.1109/4235.771164
[22] Handl J,Knowles J(2007):多目标聚类的进化方法。IEEE Trans-Evol Compute 11(1):56-76·doi:10.1109/TEVC.2006.877146
[23] He Z(2016)带成对约束的演化K-Means。软计算20(1):287-301·doi:10.1007/s00500-014-1503-6
[24] Hennig C(2007)聚类稳定性的聚类评估。计算机统计数据分析52(1):258-271·Zbl 1452.62447号 ·doi:10.1016/j.csda.2006.11.025
[25] Hruschka ER、Campello RJBB、de Castro LN(2006)基因表达数据中的进化集群。信息科学176:1898-1927·doi:10.1016/j.ins.2005.07.015
[26] Hruschka ER、Campello RJBB、Freitas AA、Carvalho ACPLF(2009)聚类进化算法调查。IEEE Trans-Syst Man Cybern第C部分应用程序版本39(2):133-155·doi:10.1109/TSMCC.2008.2007252
[27] Jain AK(2010)数据聚类:超过K-means 50年。图案识别信31(8):651-666·doi:10.1016/j.patrec.2009.09.011
[28] Krishna K,Murty MN(1999)遗传K-Means算法。IEEE Trans-Syst Man-Cybern B Cybern 29(3):433-439·doi:10.1009/3477.764879
[29] Liu Y,Li Z,Xiong H,Gao X,Wu J(2010)《内部聚类验证措施的理解》。摘自:第十届IEEE数据挖掘国际会议论文集(ICDM 2010),第911-916页
[30] Moller U(2009)从样本数据中进行无监督学习的重采样方法。收录:Mellouk A,Chebira A(编辑)机器学习。南非开普敦InTech,第289-304页http://cdn.intechweb.org/pdfs/6069.pdf
[31] Monti S,Tamayo P,Mesirov J,Golub T(2003)共识聚类:基于重采样的类别发现方法和基因表达微阵列数据可视化。机器学习52:91118·Zbl 1039.68103号 ·doi:10.1023/A:1023949509487
[32] Naldi MC、Campello RJBB、Hruschka ER、Carvalho ACPLF(2011)进化K-Means的效率问题。应用软计算11:1938-1952·doi:10.1016/j.asoc.2010.06.010
[33] R核心团队(2015)R:统计计算的语言和环境。R统计计算基金会,维也纳。https://www.R-project.org/
[34] Rahman MA、Islam MZ、Bossomaier T、DenClust(2014)K-Means基于密度的种子选择方法。摘自:第13届人工智能和软计算国际会议(ICSISC)论文集,第二部分,计算机科学讲稿,第8468卷,第784-795页
[35] Rousseeuw PJ(1987)《剪影:聚类分析解释和验证的图形辅助》。J计算应用数学20:53-65·Zbl 0636.62059号 ·doi:10.1016/0377-0427(87)90125-7
[36] Schmidt TSB,Matias Rodrigues JF,von Mering C(2015)《操作分类单元划分中稳健性和再现性的限制》。环境微生物17(5):1689-1706·doi:10.1111/1462-2920.12610
[37] Senbabaoglu Y,Michailidis G,Li JZ(2014)类发现中共识聚类的关键局限性。科学代表4:6207·doi:10.1038/srep06207
[38] Shamir O,Tishby N(2010)K-Means聚类中的稳定性和模型选择。Mach Learn 80(2-3):213-243·Zbl 1470.62094号 ·doi:10.1007/s10994-010-5177-8
[39] Vendramin L,Campello RJBB,Hruschka ER(2010)相对聚类有效性标准:比较概述。统计分析数据最小值3(4):243-256
[40] Vinh NX,Epps J(2009)基于共识聚类的微阵列数据中自动簇数检测的新方法。摘自:第九届生物信息学和生物工程国际会议论文集,第84-91页
[41] Vinh NX,Epps J,Bailey J(2009)《聚类比较的信息理论度量:是否有必要进行机会修正?》?。摘自:第26届国际机器学习年会(ICML 2009)会议记录,第1073-1080页
[42] von Luxburg U(2009)《集群稳定性:概述》。发现趋势机器学习2(3):235-274·Zbl 1191.68615号 ·doi:10.1561/2200000008
[43] Wang X,Qiu W,Zamar RH(2007)CLUES:一种基于局部收缩的非参数聚类方法。计算机统计数据分析52(1):286-298·Zbl 1452.62474号 ·doi:10.1016/j.csda.2006.12.016
[44] Xu R,Wunsch D(2005)聚类算法综述。IEEE Trans神经网络16(3):645-678·doi:10.1109/TNN.2005.845141
[45] Yu Z,Wong H,Wang H(2007)基于图的共识聚类,用于基因表达数据的类别发现。生物信息学23(21):2888-2896·doi:10.1093/bioinformatics/btm463
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。