×

一种新的基于坐标下降的谱旋转嵌入均值优化方法。 (英语) Zbl 07830795号

概述:Lloyd’s启发式(K)-Means是应用最广泛的聚类方法之一,由于其简单性,在机器学习的各种下游任务中发挥着重要作用。然而,Lloyd的启发式算法有时在寻找局部极小值时表现不佳,并且受到初始点的严重影响。为了解决这些问题,我们提出了一种新的K均值模型优化方法。首先,我们建立了(K)-均值最小化问题可以重新表述为跟踪最大化问题,这可以看作是谱聚类的统一观点,我们放松了标度聚类矩阵的约束,实现了一种改进的光谱旋转,使聚类矩阵无限接近二进制指示矩阵。为此,使用了一种高效且无冗余的坐标下降(CD)方法来优化光谱旋转。大量实验(包括对多个不同数据集的混合测试)表明,与Lloyd启发式算法相比,该算法在不同的初始化策略(随机或(K)-Means++)下获得了更好的局部目标值。在混合测试中,该算法可以进一步降低Lloyd启发式算法得到的目标函数的收敛值;相反,Lloyd的启发式算法不起作用。此外,统计假设和比较测试进一步验证了该算法的优越性。

理学硕士:

90立方厘米 数学编程
68倍 计算机科学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 丁·D·T。;Huynh,V.-N。;Sriboonchitta,S.,《数值和类别混合数据缺失值的聚类》,《信息科学》。,571, 418-442 (2021)
[2] 张,R。;杜,T。;Qu,S。;Sun,H.,具有共享知识冲突游戏的自适应基于密度的聚类算法,信息科学。,565, 344-369 (2021) ·兹伯利07763304
[3] 徐,Z。;沈,D。;聂,T。;寇,Y。;尹,N。;Han,X.,《针对不平衡医疗数据的基于聚类的过采样算法,结合了Smole和k-means》,Inf.Sci。,572, 574-589 (2021)
[4] 张,X。;孙,Y。;刘,H。;Hou,Z。;赵,F。;Zhang,C.,基于非局部信息和反投影的图像分割改进聚类算法,信息科学。,550, 129-144 (2021) ·Zbl 1483.68478号
[5] Kim,W。;Kanezaki,A。;Tanaka,M.,基于可微特征聚类的图像分割无监督学习,IEEE Trans。图像处理。,298055-8068(2020)·Zbl 07586456号
[6] Sharma,K.K。;Seal,A.,《不确定物体的多视图光谱聚类》,《信息科学》。,547, 723-745 (2021) ·Zbl 1479.62042号
[7] Famila,S。;贾瓦哈尔,A。;Sariga,A。;Shankar,K.,智能传感器环境下基于改进人工蜂群优化的聚类算法,对等网络和应用,13,4,1071-1079(2020)
[8] 吕杰。;康,Z。;王,B。;纪磊。;Xu,Z.,基于分区融合的多视点子空间聚类,信息科学。,560, 410-423 (2021)
[9] 彭,Y。;朱,X。;聂,F。;W·孔。;Ge,Y.,模糊图聚类,信息科学。,571, 38-49 (2021)
[10] 长,Z。;高,Y。;孟,H。;姚,Y。;Li,T.,基于局部密度峰值和图形切割的聚类,信息科学。,600, 263-286 (2022)
[11] J.A.Hartigan和M.A.Wong,Algorithm as 136:A k-means聚类算法,J.R.Stat.Soc.Series C(Appl.Stat.),第28卷,第1期,第100-1081979页·Zbl 0447.62062号
[12] 吴,X。;库马尔,V。;昆兰,J.R。;Ghosh,J。;杨琼。;Motoda,H。;麦克拉克伦,G.J。;Ng,A。;刘,B。;Philip,S.Y.,《数据挖掘十大算法》,Knowl。通知。系统。,14, 1, 1-37 (2008)
[13] Dasgupta,S.,《k-means聚类的硬度》(2008),加利福尼亚大学:加利福尼亚大学计算机科学与工程系
[14] Lloyd,S.,《pcm中的最小二乘量化》,IEEE Transon Inform。理论,28,2,129-137(1982)·Zbl 0504.94015号
[15] M.Ghadiri、S.Samadi和S.Vempala,《社会公平k均值聚类》,载于2021年美国计算机学会公平、问责和透明度会议记录,2021,第438-448页。
[16] G.A.Wilkin和X.Huang,《K-means聚类算法:实现和比较》,载于第二届国际计算机与计算科学多专题讨论会(IMSCCS 2007)。IEEE,2007年,第133-136页。
[17] 布拉德利,P.S。;Bennett,K.P。;Demiriz,A.,《受限k-means聚类》,微软研究院,雷蒙德,20(2000)
[18] 艾哈迈德,M。;Seraj,R。;Islam,S.M.S.,《k-means算法:综合调查和性能评估》,《电子学》,第9、8、1295页(2020年)
[19] 佩纳,J.M。;Lozano,J.A。;Larranaga,P.,《k-means算法四种初始化方法的经验比较,模式识别》。莱特。,20, 10, 1027-1040 (1999)
[20] 亚瑟·D·。;Vassilvitskii,S.,k-表示++:谨慎播种的优势(2006),技术代表:斯坦福技术代表
[21] 埃里索格鲁,M。;北卡罗来纳州卡利斯。;Sakallioglu,S.,k-means算法中初始聚类中心的新算法,模式识别。莱特。,32, 14, 1701-1705 (2011)
[22] B.Bahmani、B.Moseley、A.Vattani、R.Kumar和S.Vassilvitskii,可缩放k-means++,arXiv预印本arXiv:1203.64022012。
[23] Sharma,K.K。;Seal,A.,不确定物体的多视图光谱聚类,信息科学。,547, 723-745 (2021) ·Zbl 1479.62042号
[24] A.Y.Ng、M.I.Jordan和Y.Weiss,《关于谱聚类:分析和算法》,《神经信息处理系统进展》,2002年,第849-856页。
[25] Hagen,L。;Kahng,A.B.,比率分割和聚类的新谱方法,IEEE Trans。计算-集成电路辅助设计系统。,11, 9, 1074-1085 (1992)
[26] Chan,P.K。;Schlag,医学博士。;Zien,J.Y.,谱k路比率切割分区和聚类,IEEE Trans。计算-辅助设计。集成电路系统。,13, 9, 1088-1096 (1994)
[27] J.Huang、F.Nie和H.Huang.光谱聚类中的光谱旋转与k均值,《AAAI人工智能会议论文集》,第27卷,第1期,2013年。
[28] X.Y.Stella和J.Shi,多类光谱聚类,计算机视觉,IEEE国际会议,第2卷。IEEE计算机学会,2003年,第313-313页。
[29] Wen,G.,稳健自校正谱聚类,神经计算,391243-248(2020)
[30] S.Sieranoja和P.Fränti,k均值聚类的随机投影,国际人工智能和软计算会议。施普林格,2018年,第680-689页。
[31] 费尔德曼,D。;施密特,M。;Sohler,C.,《将大数据转化为小数据:k-means、pca和投影聚类的常量核集》,SIAM J.Compute。,49, 3, 601-657 (2020) ·兹比尔1451.68244
[32] Har-Peled,S。;Kushal,A.,k-median和k-means聚类的较小核心集,Disc。计算。几何,37,1,3-19(2007)·Zbl 1106.68112号
[33] 刘伟。;沈,X。;Tsang,I.W.,稀疏嵌入k-means聚类,(第31届神经信息处理系统国际会议论文集(2017)),3321-3329
[34] K.Sinha,K-means使用随机矩阵稀疏进行聚类,在国际机器学习会议上。PMLR,2018年,第4684-4692页。
[35] X.Shen、W.Liu、I.Tsang、F.Shen和Q.-S.Sun,《大规模聚类的压缩k均值》,第三十一届AAAI人工智能会议,2017年。
[36] 科恩,M.B。;Elder,S。;密斯科,C。;马斯科,C。;Persu,M.,《k均值聚类和低秩近似的降维》,(第四十七届ACM计算理论研讨会论文集(2015)),163-172·Zbl 1321.68398号
[37] 谢文斌。;Lee,Y.-L。;王,C。;陈,D.-B。;周,T.,互惠近邻支持的层次聚类,Inf.Sci。,527279-292(2020)
[38] Ushakov,A.V。;Vasilyev,I.,近最优大规模k-medoids聚类,Inf.Sci。,545, 344-362 (2021) ·Zbl 1475.62196号
[39] Wang,F。;王,Q。;聂,F。;李,Z。;于伟(Yu,W.)。;Ren,F.,基于k均值分裂的线性多元二叉决策树分类器,模式识别。,107,第107521条pp.(2020)
[40] 丁,Y。;Zhao,Y。;沈,X。;穆苏瓦蒂,M。;Mytkowicz,T.,Yinyang k-means:在机器学习国际会议上以一致的加速率替代经典k-means,PMLR,579-587(2015)
[41] 纽林,J。;Fleuret,F.,Nested mini-bactch k-means,高级神经信息。过程。系统。,29, 1352-1360 (2016)
[42] 夏,S。;彭,D。;孟,D。;张,C。;王,G。;吉姆·E。;魏伟(Wei,W.)。;Chen,Z.,无边界快速自适应k-means,IEEE Trans。模式分析。机器。智力。(2020)
[43] Wright,S.J.,坐标下降算法,数学。程序。,151,1,3-34(2015)·Zbl 1317.49038号
[44] D.Dua和C.Graff,UCI机器学习库,2017年。[在线]。可用:http://archive.ics.uci.edu/ml。
[45] He,L。;雷,N。;关,Y。;Zhang,H.,通过显式特征映射快速大规模谱聚类,IEEE Trans。赛博。,49, 3, 1058-1071 (2018)
[46] F.Nie、D.Xu、I.W.-H.Tsang和C.Zhang,光谱嵌入聚类,第二十届国际人工智能联合会议,2009年。
[47] 陈,X。;Hong,W。;聂,F。;He,D。;杨,M。;Huang,J.Z.,直接求解归一化割集的大规模数据谱聚类,(第24届ACM SIGKDD国际知识发现与数据挖掘会议论文集(2018)),1206-1215
[48] 陈,X。;聂,F。;黄J.Z。;Yang,M.,改进光谱旋转的可缩放归一化切割,IJCAI,1518-1524(2017)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。