×

基于凸规划的谱聚类。 (英语) Zbl 07432826号

摘要:聚类是数据分析中的一项基本任务,谱聚类被认为是一种很有前途的方法。给定一个描述数据之间关系的图,谱聚类分两个阶段探索潜在的聚类结构。第一阶段将图中的节点嵌入到实际空间中,第二阶段将嵌入的节点分组为多个簇。在分组阶段使用\(k\)means方法是目前的标准做法。我们提出了一种在分组阶段使用凸规划的谱聚类算法,并研究了其工作情况。该算法是根据以下观察结果设计的。如果一个图聚类良好,那么可以通过计算嵌入实空间中的节点的封闭椭球来找到每个簇中度最大的节点,并使用这些节点来识别簇。我们证明,对于聚类良好的图,该算法可以找到电导最小的节点簇。我们还对算法的性能进行了实验评估。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿洛伊斯,D。;Deshpande,A。;Hansen,P。;Popat,P.,欧几里德平方和聚类的NP-harrdness,机器学习,75,245-248(2009)·Zbl 1378.68047号 ·doi:10.1007/s10994-009-5103-0
[2] UMC阿劳约;索尔达尼亚,BTC;加尔瓦诺,RKH;Yoneyama,T。;查姆,HC;Visani,V.,光谱多成分分析中变量选择的连续投影算法,化学计量学和智能实验室系统,57,2,65-73(2001)·doi:10.1016/S0169-7439(01)00119-8
[3] Arora,S.、Ge,R.、Kannan,R.和Moitra,A.(2012)。计算非负矩阵因式分解。摘自:第44届计算理论研讨会(STOC)会议记录(第145-162页)·Zbl 1286.15014号
[4] Arora,S。;Rao,S。;Vazirani,U.,膨胀流,几何嵌入和图分割,ACM杂志,56,2,5:1-5:37(2009)·兹比尔1325.68255 ·数字对象标识代码:10.1145/1502793.1502794
[5] Arthur,D.和Vassilvitskii,S.(2007)\(k)-表示++:仔细播种的优点。摘自:第18届ACM-SIAM离散算法(SODA)研讨会论文集(第1027-1035页)·Zbl 1302.68273号
[6] 巴赫,F.R.和乔丹,M.I.(2003)。学习谱聚类。摘自:神经信息处理系统进展16(NIPS)(第305-312页)。
[7] 蔡,D。;何,X。;Han,J。;黄,TS,用于数据表示的图正则化非负矩阵分解,IEEE模式分析和机器智能学报,33,8,1548-1560(2011)·doi:10.1109/TPAMI.2010.231
[8] Chen,X.和Cai,D.(2011)。基于地标表示的大规模光谱聚类。摘自:第25届AAAI人工智能会议记录(第313-318页)。
[9] Chung,FRK,谱图论(1997),美国数学学会·Zbl 0867.05046号
[10] Cohen,G.、Afshar,S.、Tapson,J.和van Schaik,A.(2017年)。EMNIST:MNIST对手写信件的扩展。arXiv:1702.05373。
[11] 戴伊,蒂克;彭,P。;罗西,A。;Sidiropoulos,A.,光谱集中和贪婪聚类,计算几何:理论与应用,76,19-32(2019)·Zbl 1476.68203号 ·doi:10.1016/j.comgeo.2018.09.001
[12] 多纳,WE;AJ霍夫曼,图划分的下限,IBM研究与开发杂志,17,5,420-425(1973)·Zbl 0259.05112号 ·doi:10.1147/rd.175.0420
[13] Donoho,D.和Stodden,V.(2003)。非负矩阵分解什么时候能正确地分解成多个部分?摘自:《神经信息处理系统进展学报》16(NIPS)(第1141-1148页)。
[14] Fiedler,M.,图的代数连通性,捷克斯洛伐克数学杂志,23,2,298-305(1973)·Zbl 0265.05119号 ·doi:10.21136/CMJ.1973.101168
[15] Gharan,S.O.和Trevisan,L.(2014)。分成扩展器。摘自:25届ACM-SIAM离散算法(SODA)研讨会论文集(第1256-1266页)·Zbl 1423.05182号
[16] Gillis,N.,稳健非负盲源分离的连续非负投影算法,SIAM成像科学杂志,7,2,1420-1450(2014)·Zbl 1296.65065号 ·数字对象标识代码:10.1137/130946782
[17] Gillis,N。;Vavasis,SA,可分离非负矩阵分解的快速稳健递归算法,IEEE模式分析和机器智能汇刊,36,4,698-714(2014)·doi:10.1109/TPAMI.2013.226
[18] Golub,生长激素;Loan,CFV,矩阵计算(2013),约翰·霍普金斯大学出版社·Zbl 1268.65037号
[19] 黄,D。;王,C-D;吴,J-S;赖,J-H;Kwoh,C-K,超尺度谱聚类和系综聚类,IEEE知识与数据工程汇刊,32,6,1212-1226(2020)·doi:10.1109/TKDE.2019.2903410
[20] Kannan,R。;Vempala,S。;Vetta,A.,《关于聚类:好、坏和光谱》,《ACM杂志》,第51、3、497-515页(2004年)·Zbl 1192.05160号 ·数字对象标识代码:10.1145/990308.990313
[21] Khachiyan,LG,实数计算模型中多面体的四舍五入,运筹学数学,21,2,307-320(1996)·Zbl 0856.68066号 ·doi:10.1287/门212.307
[22] Kolev,P.和Mehlhorn,K.(2016年)。谱聚类注释。摘自:第24届欧洲算法年会(ESA 2016)(第57卷,第57:1-57:14页)·Zbl 1397.68144号
[23] Kolev,P.和Mehlhorn,K.(2018年)。近似谱聚类:效率和保证。arXiv:1509.09188v5。
[24] 库马尔,P。;Yildirim,EA,最小体积封闭椭球和核集,优化理论与应用杂志,126,1,1-21(2005)·兹比尔1093.90039 ·doi:10.1007/s10957-005-2653-6
[25] Kwok,T.C.、Lau,L.C.、Lee,Y.T.、Gharan,S.O.和Trevisan,L.(2013)。改进的切格不等式:通过高阶谱间隙分析谱划分算法。摘自:第45届ACM计算理论研讨会论文集(第11-20页)·Zbl 1293.05301号
[26] 乐村,Y。;博图,L。;Y.本吉奥。;Haffner,P.,《基于梯度的学习应用于文档识别》,IEEE会议记录,86,11,2278-2324(1998)·doi:10.10109/5.726791
[27] Lee,J.R.、Gharan,S.O.和Trevisan,L.(2012)。多路谱划分和高阶cheeger不等式。摘自:第44届ACM计算理论研讨会论文集(第1117-1130页)·Zbl 1286.05091号
[28] Lei,J。;Rinaldo,A.,随机块模型中谱聚类的一致性,《统计年鉴》,43,1,215-237(2015)·Zbl 1308.62041号
[29] Lloyd,SP,PCM中的最小二乘量化,IEEE信息理论汇刊,28,2,129-137(1982)·Zbl 0504.94015号 ·doi:10.1109/TIT.1982.1056489
[30] Mahajan,M.、Nimbhorkar,P.和Varadarajan,K.(2009年)。平面(k)-均值问题是NP-hard。在:第三届算法与计算国际研讨会论文集(WALCOM)(第274-285页)·Zbl 1211.68212号
[31] 曼宁,CD;Raghavan,P。;Schuetze,H.,《信息检索导论》(2008),剑桥大学出版社·Zbl 1160.68008号 ·doi:10.1017/CBO9780511809071
[32] 马图拉,DW;Shahrokhi,F.,《图中的最稀疏切割和瓶颈》,离散应用数学,27,1-2,113-123(1990)·Zbl 0733.05056号 ·doi:10.1016/0166-218X(90)90133-W
[33] McSherry,F.(2001)。随机图的谱划分。摘自:第42届IEEE计算机科学基础研讨会论文集(第529-537页)。
[34] Mizutani,T.,噪声可分性下非负矩阵因式分解的椭球四舍五入,《机器学习研究杂志》,第15期,第1011-1039页(2014年)·Zbl 1319.65023号
[35] Mizutani,T.(2015)。椭球谱聚类及其与可分非负矩阵分解的联系。arXiv:1503.01531。
[36] Mizutani,T.,《聚类光谱算法的改进分析》,《优化快报》(2020年)·doi:10.1007/s11590-020-01639-3
[37] Ng,A.Y.、Jordan,M.和Weiss,Y.(2001)。关于谱聚类:分析和算法。摘自:神经信息处理系统的进展14(NIPS)(第849-856页)。
[38] Ostrovsky,R.、Rabani,Y.、Schulman,L.J.和Swamy,C.(2012)。Lloyd型方法对\(k\)-均值问题的有效性。美国医学会杂志,59(6)·Zbl 1281.68229号
[39] Peng,R.、Sun,H.和Zanetti,L.(2015)。划分聚类良好的图:谱聚类有效!收录于:第28届学习理论会议记录(COLT)(第40卷,第1423-1455页)·Zbl 1370.05204号
[40] 彭,R。;Sun,H。;Zanetti,L.,划分良好聚类图:谱聚类有效!,SIAM计算机杂志,46,2,710-743(2017)·Zbl 1370.05204号 ·doi:10.1137/15M1047209
[41] Rohe,K。;Chatterjee,S。;Yu,B.,谱聚类和高维随机块模型,《统计年鉴》,39,4,596-616(2011)·兹比尔1227.62042 ·doi:10.1214/11-AOS887
[42] 史J。;Malik,J.,标准化切割和图像分割,IEEE模式分析和机器智能汇刊,22,8,888-905(2000)·数字对象标识代码:10.1109/34.868688
[43] Sinop,A.K.(2016)。如何舍入子空间:一种新的谱聚类算法。摘自:第27届ACM-SIAM离散算法(SODA)年度研讨会论文集(第1832-1847页)·Zbl 1412.62086号
[44] Toh,K-C;托德,MJ;TüTüncü,RH,SDPT3-A MATLAB半定规划软件包,优化方法和软件,11545-581(1999)·Zbl 0997.90060号 ·doi:10.1080/10556789908805762
[45] von Luxburg,U.,光谱聚类、统计学和计算教程,17,4395-416(2007)·数字对象标识代码:10.1007/s11222-007-9033-z
[46] Xiao,H.、Rasul,K.和Vollgraf,R.(2017)。Fashion-MNIST:用于基准机器学习算法的新型图像数据集。arXiv:1708.07747。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。