×

快速密度加权低阶近似谱聚类。 (英语) Zbl 1235.68187号

摘要:虽然光谱聚类可以在小数据集上产生高质量的聚类,但计算成本使其不适用于大数据集。亲和传播(AP)有一个局限性,即很难确定参数“偏好”的值,从而得到最优的聚类解决方案。这些问题限制了这两种方法的应用范围。本文提出了一种新的具有局部和全局一致性的快速两阶段谱聚类框架。在此框架下,我们提出了一种快速的密度加权低秩近似谱聚类(FWASC)算法来解决上述问题。该算法是一种高质量的图划分方法,同时考虑了数据集中包含的局部和全局结构信息。具体来说,我们首先提出了一种新的快速两阶段AP(FTSAP)算法来粗化输入稀疏图并生成少量最终代表样本,这是一种简单有效的采样方案。然后,我们提出了一种密度加权低秩近似谱聚类算法,以在数据流形的全局底层结构上操作这些具有代表性的样本。实验结果表明,我们的算法在速度、内存使用和质量方面优于最新的谱聚类和原始AP算法。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Baker C(1977)积分方程的数值处理。克拉伦登,牛津·Zbl 0373.65060号
[2] Balasubramanian M,Schwartz EL,Tenenbaum JB,de Silva V,Langford JC(2002)Isomap算法和拓扑稳定性。《科学》295(5552):7·doi:10.1126/science.295.5552.7a
[3] Belabbas M-A,Wolfe PJ(2009)机器学习中的谱方法和超大数据集的新策略。美国国家科学院院刊106:369–374·doi:10.1073/pnas.0810600105
[4] Berkhin P(2002)聚类数据挖掘技术综述。技术报告。Accrue软件。网址:http://www.ee.ucr.edu/\(\sim\)barth/EE242/clustering_survey.pdf
[5] 丁CHQ,何X,查H,顾M,西蒙HD(2001)图分割和数据聚类的最小最大割算法。摘自:IEEE数据挖掘国际会议论文集,第107–114页
[6] Donath WE,Hofmann AJ(1973)图划分的下界。IBM J Res Dev 17:420–425·Zbl 0259.05112号 ·doi:10.1147/rd.175.0420
[7] Drineas P,Mahoney MW(2005)关于Nyström方法,用于近似Gram矩阵以改进基于核的学习。J Mach学习研究6:2153–2175·Zbl 1222.68186号
[8] Duda RO、Hart PE、Stork DG(2001)模式分类。纽约威利
[9] Fei-Fei L,Fergus R,Perona P(2004)从少数训练示例中学习生成性视觉模型:一种对101个对象类别进行测试的增量贝叶斯方法。参加:IEEE计算机视觉和模式识别会议。基于生成模型的视觉研讨会,第178-178页
[10] Fowlkes C,Belongie S,Chung F,Malik J(2004)使用Nyström方法进行光谱分组。IEEE Trans-Pattern Ana Mach Intell 26(2):214–225·Zbl 05110623号 ·doi:10.10109/TPAMI.2004.1262185
[11] Freitas ND,Wang Y,Mahdaviani M,Lang D(2006)《N体学习的快速Krylov方法》。高级神经信息处理系统18:251–258
[12] Frey BJ,Dueck D(2007)通过在数据点之间传递消息进行聚类。科学305(5814):972–976·Zbl 1226.94027号 ·doi:10.1126/science.1136800
[13] Georghiades AS、Belhumeur PN、Kriegman DJ(2001)从少到多:可变光照和姿势下人脸识别的照明锥模型。IEEE Trans-Pattern Ana Mach Intell 23(6):643–660·Zbl 05111520号 ·doi:10.1109/34.927464
[14] Givoni I,Frey BJ(2009)具有实例级约束的半监督亲和传播。摘自:第14届人工智能与统计国际研讨会(AISTATS)会议记录,第5卷。JMLR W&佛罗里达州克利尔沃特海滩CP,第161-168页
[15] Hagen L,Kahng A(1992)比率分割和聚类的新谱方法。IEEE Trans Computer Aided Des Integr Circuits Syst 11(9):1074–1085·兹伯利05448238 ·数字对象标识代码:10.1109/43.159993
[16] Han J,Kamber M(2001)《数据挖掘:概念和技术》。Morgan Kaufmann出版社,旧金山·Zbl 1230.68018号
[17] Jain A,Murty M,Flynn P(1999)数据聚类:综述。ACM计算概况31(3):264–323·数字对象标识代码:10.1145/331499.331504
[18] Jia Y,Wang J,Zhang C,Hua X(2008)使用快速稀疏亲和传播寻找图像样本。摘自:《ACM多媒体会议录》,第639-642页
[19] Johnson W,Lindenstrauss J(1984)Lipschitz映射到Hilbert空间的扩张。当代数学26:189–206·Zbl 0539.46017号 ·doi:10.1090/conm/026/737400
[20] Kschichang F,Frey BJ,Loeliger H-A(2001)因子图和和积算法。IEEE传输信息理论47(2):498–519·Zbl 0998.68234号 ·数字对象标识代码:10.1109/18.910572
[21] Kumar S、Mohri M、Talwalkar A(2009)《NyströM方法的取样技术》。摘自:第14届人工智能与统计国际研讨会(AISTATS)会议记录,第5卷。JMLR W&佛罗里达州克利尔沃特海滩CP,第304–311页·Zbl 1283.68292号
[22] Lazebnik S,Schmid C,Ponce J(2006)《超越特征袋:识别自然场景类别的空间金字塔匹配》。摘自:IEEE计算机视觉和模式识别会议记录,第2169–2178页
[23] Lee JA,Verleysen M(2005)带基本回路的数据流形的非线性降维。神经计算67(1):29–53·Zbl 02224088号 ·doi:10.1016/j.neucom.2004.11.042
[24] Leone M,Sumedha,Weigt M(2007)《软约束亲和传播聚类:基因表达数据的应用》。生物信息学23(20):2708–2715·doi:10.1093/bioinformatics/btm414
[25] Liu T,Moore AW,Gray AG,Yang K(2005)实用近似最近邻算法研究。高级神经信息处理系统17:825–832
[26] Liu W,He J,Chang S(2010)可扩展半监督学习的大型图构建。摘自:第27届国际机器学习会议记录,第679-686页
[27] Madigan D、Raghavan N、Dumouchel W、Nason M、Posse C、Ridgeway G(2002)《基于似然的数据挤压:实例构建的建模方法》。数据最小知识发现6:173–190·Zbl 0996.68564号 ·doi:10.1023/A:1014095614948
[28] Mahadevan S(2008)使用Lanczos特征空间投影的快速光谱学习。摘自:第23届全国人工智能会议记录,第1472-1475页
[29] Mitra P,Murthy CA,Pal SK(2002),基于密度的多尺度数据压缩。IEEE Trans-Pattern Ana Mach Intell 24(6):734–747·doi:10.1109/TPAMI.2002.1008381
[30] Ng A、Jordan M、Weiss Y(2002)《关于光谱聚类:分析和算法》。高级神经信息处理系统14:849–856
[31] Ouimet M,Bengio Y(2005)贪婪光谱嵌入。摘自:第十届人工智能和统计国际研讨会(AISTATS)会议记录,第253-260页
[32] Papadimitriou CH,Steiglitz K(1998)组合优化:算法和复杂性。纽约州多佛市·Zbl 0944.90066号
[33] Shi J,Malik J(2000)归一化剪切和图像分割。IEEE跨模式分析-马赫积分22(8):888–905·兹伯利05111961 ·doi:10.1009/34.868688
[34] Song Y,Chen W-Y,Bai H,Lin C-J,Chang EY(2008)平行谱聚类。摘自:数据库中知识发现的学习、原理和实践论文集(ECML/PKDD),第374–389页
[35] Strehl A,Ghosh J(2002)集群集成——用于组合多个分区的知识重用框架。J Mach学习研究3:583–617·Zbl 1084.68759号
[36] Talwalkar A、Kumar S、Rowley H(2008)《大尺度流形学习》。摘自:IEEE计算机视觉和模式识别会议记录,第1-8页·Zbl 1317.68192号
[37] Tenenbaum JB,de Silva V,Langford JC(2000)非线性降维的全球几何框架。科学290(5500):2319–2323·doi:10.1126/science.290.5500.2319
[38] Vidal R,Ma Y,Piazzi J(2004)通过拟合、微分和划分多项式来聚类子空间的新GPCA算法。摘自:IEEE计算机视觉和模式识别会议记录,第510-517页
[39] von Luxburg U(2007)光谱聚类教程。统计计算17(4):395–416·数字对象标识代码:10.1007/s11222-007-9033-z
[40] Wang F,Zhang C(2008)线性邻域的标签传播。IEEE Trans Knowl Data Eng 20(1):55–67·Zbl 05340176号 ·doi:10.1109/TKDE.2007.190672
[41] Williams C,Seeger M(2001)使用NyströM方法加速内核机器。高级神经信息处理系统13:682–688
[42] Wittkop T,Baumbach J,Lobo F,Rahmann S(2007)《利用FORCE对蛋白质序列进行大规模聚类——基于布局的启发式加权聚类编辑》。BMC生物信息学8(1):396·Zbl 05326199号 ·doi:10.1186/1471-2105-8-396
[43] Wu M,Schölkopf B(2007)聚类的局部学习方法。高级神经网络过程系统19:1529–1536
[44] 肖杰,王杰,谭鹏,权力(2007)多视点分割的联合亲和传播。摘自:IEEE第11届计算机视觉国际会议(ICCV)会议记录,第1-7页
[45] Xu R,Wunsch D(2005)聚类算法综述。IEEE Trans神经网络16(3):645–678·doi:10.1109/TNN.2005.845141
[46] Yan D,Huang L,Jordan M(2009)快速近似谱聚类。摘自:第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第907–916页
[47] Yann L,Corinna C(2009)MNIST手写数字数据库。http://yann.lecun.com/exdb/mnist/
[48] Zelnik-Manor L,Perona P(2005),自校正谱聚类。高级神经网络过程系统17:1601–1608
[49] Zhang K,Kwok J(2008)改进的Nyström低阶近似和误差分析。摘自:第25届机器学习国际会议(ICML)会议记录,第273-297页
[50] Zhang K,Kwok J(2009)计算大核特征系统的密度加权Nyström方法。神经计算21:121–146·Zbl 1178.68480号 ·doi:10.1116/neco.2009.11-07-651
[51] Zhou D,Bousquet O,Lal TN,Weston J,Schölkopf B(2004)《学习与地方和全球的一致性》。Adv Neural Inf过程系统16:321–328
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。