×

用于数据聚类的基于示例的低秩矩阵分解。 (英语) Zbl 1403.68217号

摘要:今天,数字数据在科学、工程、生物医学和真实世界的传感领域以前所未有的速度积累。海量数据和稀疏信息的普遍现象给数据挖掘研究带来了相当大的挑战。本文提出了一个理论框架,即基于示例的低秩稀疏矩阵分解(EMD),用于对大规模数据集进行聚类。利用矩阵近似和分解的最新进展,EMD可以高效地划分具有大维度和可扩展大小的数据集。具体来说,给定一个数据矩阵,EMD首先计算一个具有代表性的数据子空间和一个接近最优的低秩近似。然后,通过矩阵分解得到聚类中心和指标,其中我们要求聚类中心位于代表性数据子空间内。通过选择具有代表性的样本,我们获得了数据的紧凑“草图”。这使得聚类高效且对噪声鲁棒。此外,聚类结果稀疏,易于解释。从理论上证明了EMD算法的正确性和收敛性,并对其效率进行了详细分析,包括运行时间和空间要求。通过在合成数据集和实际数据集上进行的大量实验,我们证明了EMD对大规模数据进行聚类的性能。

MSC公司:

68T05型 人工智能中的学习和自适应系统
15A21号机组 规范形式、约简、分类
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Achlioptas D,Mcsherry F(2007)低阶矩阵近似的快速计算。美国临床医学杂志54(2):9·Zbl 1311.94031号 ·数字对象标识代码:10.1145/1219092.1219097
[2] Baker CTH(1997)积分方程的数值处理。牛津克拉伦登出版社
[3] Barron AR,Rissanen J,Yu B(1998)编码和建模中的最小描述长度原则。IEEE Trans-Inf理论44(6):2743-2760·Zbl 0933.94013号 ·doi:10.1109/18.720554
[4] Berry MW,Browne M,Langville AN,Pauca PV,Plemmons RJ(2007年9月),近似非负矩阵分解的算法和应用。计算统计数据分析52(1):155-173·Zbl 1452.90298号
[5] Berry MW、Pulatova SA、Stewart GW(2005)《算法844:计算稀疏矩阵的稀疏缩减秩近似》。ACM Trans数学软件31(2):252-269·兹比尔1070.655539 ·数字对象标识代码:10.1145/1067967.1067972
[6] Chen Y,Wang L,Dong M,Hua J(2009)基于示例的大型文档语料库可视化。IEEE跨视觉计算图形15(6):1169-1176·doi:10.1010/TVCG.2009.165
[7] Chung FRK(1997)谱图理论。美国数学学会
[8] Delves LM,Mohamed JL(1985)积分方程的计算方法。剑桥大学出版社,纽约·Zbl 0592.65093号 ·doi:10.1017/CBO9780511569609
[9] Dempster AP、Laird NM、Rubin DB(1977)通过em算法从不完整数据中获得最大似然。J R统计社会学B 39:1-38·Zbl 0364.62022号
[10] Dhillon I,Guan Y,Kulis B(2004)《核k-means:谱聚类和归一化切割》。摘自:第九届ACM SIGKDD知识发现和数据挖掘国际会议记录,第551-556页
[11] Dhillon IS,Guan Y,Kulis B(2005)核k均值、谱聚类和图切割的统一视图。技术报告TR-04-25,德克萨斯大学计算机科学系
[12] 丁C,何X,西蒙HD(2005)关于非负矩阵分解与谱聚类的等价性。摘自:SIAM国际数据挖掘会议论文集,第606-610页
[13] 丁C,何X,查H,西蒙HD(2001)图分割和数据聚类的最小最大割算法。收录:IEEE数据挖掘国际会议,第107-114页
[14] Ding C,Li T,Jordan MI(2008)凸矩阵分解与半非负矩阵分解。收录于:IEEE模式分析和机器智能汇刊,第99卷。IEEE计算机学会,洛斯阿拉米托斯
[15] 丁C,李T,彭伟(2006)非负矩阵因式分解与概率潜在语义索引:等价齐方统计和一种混合方法。Proc Natl Conf人工智能集成21(1):342
[16] 丁C,李T,彭伟,Park H(2006)用于聚类的正交非负矩阵T-分解。摘自:第12届ACM SIGKDD国际知识发现与数据挖掘会议论文集,第126-135页
[17] Drineas P,Frieze A,Kannan R,Vempala S,Vinay V(2004)通过奇异值分解聚类大型图。IEEE J机械学习56(1-3):9-33·Zbl 1089.68090号 ·doi:10.1023/B:MACH.0000033113.59016.96
[18] Drineas P,Kannan R,Mahoney M(2006)矩阵的快速蒙特卡罗算法ii:计算矩阵的低阶近似。SIAM J Compute 36:158-183·Zbl 1111.68148号 ·doi:10.1137/S0097539704442696
[19] Drineas P,Kannan R,Mahoney MW(2006)矩阵的快速蒙特卡罗算法iii:计算压缩近似矩阵分解。SIAM J计算36:184-206·Zbl 1111.68149号 ·doi:10.1137/S0097539704442702
[20] Drineas P,Mahoney MW(2005),关于用于改进基于核的学习的近似克矩阵的nyström方法。J Mach学习研究6:2153-2175·Zbl 1222.68186号
[21] Duda HO、Hart PE、Stork DG(2001)《图案分类》,第2版。纽约威利·兹伯利0968.68140
[22] Fiedler M(1973)图的代数连通性。捷克斯洛伐克数学J 23(98):298-305·Zbl 0265.05119号
[23] Fowlkes C,Belongie S,Chung F,Malik J(2004)使用nyström方法进行光谱分组。IEEE Trans-Pattern Ana Mach Intell 26(2):214-225·doi:10.1109/TPAMI.2004.1262185
[24] Garey MR、Johnson DS(1979)《计算机与难处理性:NP完全性理论指南》。W.H.弗里曼,纽约·Zbl 0411.68039号
[25] Golub GH,Van Loan CF(1996)《矩阵计算》,第3版。巴尔的摩约翰霍普金斯大学出版社·Zbl 0865.65009号
[26] Hagen L,Kahng AB(1992),比率分割和聚类的新谱方法。IEEE Trans Compute Aided Des Integr Circuits Syst 11(9):1074-1085·doi:10.1109/43.159993年
[27] Hoyer PO(2004)具有稀疏约束的非负矩阵分解。J Mach学习研究5:1457-1469·Zbl 1222.68218号
[28] Jain AK、Murty MN、Flynn PJ(1999)《数据聚类:综述》。ACM计算机调查31:264-323·数字对象标识代码:10.1145/331499.331504
[29] Jolliffe IT(2002)《主成分分析》,第2版。纽约州施普林格·Zbl 1011.62064号
[30] Kim H,Park H(2007)通过交替非负约束最小二乘法对微阵列数据进行稀疏非负矩阵分解。生物信息学23(12):1495-1502·doi:10.1093/bioinformatics/btm134
[31] Lang K(1995)《新闻推土机:学习过滤网络新闻》。摘自:第十二届机器学习国际会议记录,第331-339页
[32] Lee DD,Seung HS(1999)通过非负矩阵分解学习对象的各个部分。性质401(6755):788-791·Zbl 1369.68285号 ·doi:10.1038/44565
[33] Lee DD,Seung HS(2000)非负矩阵分解算法。神经信息处理系统13:556-562
[34] Li T,Ding C(2006)各种非负矩阵因式分解聚类方法之间的关系。摘自:IEEE数据挖掘国际会议论文集,第362-371页
[35] MacQueen JB(1967)多变量观测的分类和分析的一些方法。摘自:第五届伯克利数理统计与概率研讨会论文集,第281-297页
[36] Mahdavi M,Abolhassani H(2009)《文档聚类的Harmony k-means算法》。Data Min Knowl Disc 18:370-391。doi:10.1007/s10618-008-0123-0·doi:10.1007/s10618-008-0123-0
[37] Porter MF(1980)后缀剥离算法。程序14(3):130-137·doi:10.1108/eb046814
[38] Schwarz G(1978)估算模型的维数。Ann Stat 6(2):461-464·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[39] Sha F,Lin Y,Saul LK,Lee DD(2007)非负二次规划的乘法更新。神经计算19(8):2004-2031·Zbl 1161.90456号 ·doi:10.1162/neco.2007.19.8.2004年
[40] Shi J,Malik J(2000)标准化切割和图像分割。IEEE Trans-Pattern Ana Mach Intell 22(8):888-905·数字对象标识代码:10.1109/34.868688
[41] Shyamalkumar ND,Varadarajan K(2007)高效子空间近似算法。在:SODA'07第18届ACM-SIAM离散算法年度研讨会论文集,第532-540页·Zbl 1302.68295号
[42] Stewart GW(1999)高效计算稀疏矩阵截断qr近似的四种算法。数值数学83:313-323·Zbl 0957.65031号 ·doi:10.1007/s002110050451
[43] Strehl A,Ghosh J,Cardie C(2002)《集群集成:用于组合多个分区的知识重用框架》。J Mach学习研究3:583-617·Zbl 1084.68759号
[44] 孙杰,谢毅,张浩,Faloutsos C(2008)少即是多:基于紧矩阵分解的稀疏图挖掘。统计分析数据最小值1(1):6-22·Zbl 07260179号 ·doi:10.1002/sam.102
[45] Tong H,Papadimitriou S,Sun J,Yu PS,Faloutsos C(2008)Colibri:大型静态和动态图形的快速挖掘。附:第14届ACM SIGKDD知识发现和数据挖掘国际会议记录,第686-694页
[46] Wang F,Li T,Wang X,Zhu S,Ding C(2011)使用非负矩阵分解的社区发现。Data Min Knowl光盘22:493-521。doi:10.1007/s10618-010-0181-y·Zbl 1235.68034号 ·doi:10.1007/s10618-010-0181-y
[47] Wang L,Dong M(2011)关于大规模数据的聚类:基于矩阵的方法。摘自:《IEEE国际神经网络联合会议论文集》(IJCNN 2011),第10页
[48] Williams CK,Seeger M(2001)使用nyströM方法加速内核机器。In:《神经信息处理系统的进展13:2000年会议论文集》,麻省理工学院出版社,第682-688页
[49] 徐伟,龚毅(2004)基于概念分解的文献聚类。In:SIGIR’04:第27届ACM SIGIR信息检索研究与开发国际年会会议记录,ACM,纽约,第202-209页
[50] Xu W,Liu X,Gong Y(2003)基于非负矩阵分解的文献聚类。摘自:第26届ACM SIGIR信息检索研究与开发国际年会论文集,第267-273页
[51] Yan D,Huang L,Jordan M(2009)快速近似光谱聚类。技术报告UCB/EECS-2009-45,加州大学伯克利分校EECS系
[52] Yen GG,Wu Z(2008)秩形心投影:一种具有自组织映射的数据可视化方法。IEEE Trans神经网络19(2):245-259·doi:10.1109/TNN.2007.905858
[53] Zhang K,Kwok JT(2006)用于快速谱嵌入的块量化核矩阵。In:ICML'06:第23届机器学习国际会议记录,ACM,纽约,第1097-1104页
[54] Zhang K,Tsang IW,Kwok JT(2008)改进nyström低阶近似和误差分析。2008年ICML:第25届机器学习国际会议记录,ACM,纽约,第1232-1239页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。