×

高效的正则化光谱数据嵌入。 (英语) Zbl 07363867号

摘要:数据嵌入(DE)或降维技术特别适合于将高维数据嵌入到大多数情况下只有二维的空间中。低维空间中的数据样本(数据点)更容易可视化,也经常用于学习方法,如聚类。然而,有时,DE会识别出对聚类结构贡献不大的维度。在本文中,我们研究了通过聚类进行的正则化数据嵌入,并提出了一种用于DE和聚类的同时学习方法,该方法加强了这两个任务之间的关系。我们的方法基于矩阵分解技术,用于学习谱DE、簇成员矩阵和旋转矩阵,旋转矩阵紧密映射出连续谱嵌入,以获得良好的聚类解。我们将该方法与一些传统的聚类方法进行了比较,并在一组基准数据集上进行了数值实验,以证明其潜力。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)

软件:

CoClust公司达奇
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Affeldt S、Labiod L、Nadif M(2019),通过集成深度自动编码器学习(SC-EDAE)进行光谱聚类。arXiv:1901.02291
[2] M.Ailem。;角色,F。;Nadif,M.,《图形模块化最大化作为联合聚类文本数据的有效方法》,《基于知识的系统》,109,160-173(2016)·doi:10.1016/j.knosys.2016.07.002
[3] 巴赫,法国;Jordan,MI,Learning spectrum clustering,with application to speech separation,J Mach Learn Res,71963-2001(2006)·Zbl 1222.68138号
[4] Banijamali E,Ghodsi A(2017)使用自动编码器和地标进行快速光谱聚类。In:国际会议图像分析与识别,Springer,pp 380-388
[5] Ben-Hur A,Guyon I(2003)使用主成分分析检测稳定簇。在:功能基因组学,施普林格,第159-182页
[6] Bock HH(1987)关于聚类分析、主成分分析和多维尺度之间的接口。In:多元统计建模和数据分析,Springer,第17-34页·Zbl 0627.62068号
[7] Boutsidis C、Kambadur P、Gittens A(2015)《通过功率法进行光谱聚类》(Spectral clustering via the power method provable)。In:机器学习国际会议,第40-48页
[8] Celeux,G。;Govaert,G.,高斯简约聚类模型,模式识别,28,5,781-793(1995)·doi:10.1016/0031-3203(94)00125-6
[9] Chan,PK;医学博士Schlag;Zien,JY,谱k路比率切割分区和聚类,IEEE Trans Compute Aided Des Integr Circuits Syst,13,9,1088-1096(1994)·数字对象标识代码:10.1109/43.310898
[10] Chang,W.,《关于在分离两个多元正态分布的混合物之前使用主成分》,《应用统计》,32,267-275(1983)·Zbl 0538.62050号 ·doi:10.2307/2347949
[11] Chen X,Cai D(2011)基于陆地的大规模光谱聚类。摘自:第25届AAAI人工智能会议,第313-318页
[12] Chen,W。;宋,Y。;Bai,H。;林,C。;Chang,E.,分布式系统中的并行频谱聚类,IEEE Trans-Pattern Ana Mach Intell,33,568-586(2011)·doi:10.1109/TPAMI.2010.88
[13] De Soete G,Carroll JD(1994)K-表示低维欧氏空间中的聚类。In:分类和数据分析的新方法,Springer,第212-219页
[14] Dhillon I,Guan Y,Kulis B(2004)《核k-means,谱聚类和归一化切割》。摘自:ACM SIGKDD知识发现和数据挖掘国际会议,第551-556页
[15] 丁C,李T(2007)利用判别分析和k-均值聚类进行自适应降维。摘自:第24届机器学习国际会议论文集,ACM,第521-528页
[16] 丁C,何X,查H,顾M,西蒙H(2001)图分割和数据聚类的最小最大割算法。收录:IEEE数据挖掘国际会议(ICDM),第107-114页
[17] Ding C,He X,Simon HD(2005)关于非负矩阵分解和谱聚类的等价性。在:2005年SIAM数据挖掘国际会议论文集,SIAM,第606-610页
[18] 丁C,李T,乔丹M(2008)用于组合优化的非负矩阵分解:谱聚类,图匹配和团发现。摘自:IEEE数据挖掘国际会议(ICDM),第183-192页
[19] Engel D,Hüttenberger L,Hamann B(2012)高维数据分析和可视化的降维方法调查。收录:OAIS信息学开放存取系列,Schloss Dagstuhl,Leibniz-Zentrum fuer Informatik,第27卷,第135-149页
[20] Fowlkes,C。;Belongie,S。;Chung,F。;Malik,J.,使用nystrom方法进行光谱分组,IEEE Trans-Pattern Ana Mach Intell,26,2,214-225(2004)·doi:10.10109/TPAMI.2004.1262185
[21] Gattone,S。;Rocci,R.,《简化子空间上的聚类曲线》,J Comput Gr Stat,21,2,361-379(2012)·数字对象标识码:10.1080/10618600.2012.679237
[22] Gittins R(1985)规范分析综述及其在生态学中的应用。收录:柏林斯普林格生物数学第12卷·Zbl 0576.62069号
[23] Golub,G。;Loan,CV,Matrix calculations(1996),巴尔的摩:约翰霍普金斯大学出版社·Zbl 0865.65009号
[24] 戈瓦特,G。;Nadif,M.,《协同聚类:模型、算法和应用》(2013),纽约:威利出版社·兹比尔0910.62021 ·doi:10.1002/9781118649480
[25] 戈瓦特,G。;Nadif,M.,《列联表的相互信息、平方和基于模型的联合聚类》,Adv Data Anal Classif,12,3,455-488(2018)·Zbl 1416.62309号 ·doi:10.1007/s11634-016-0274-6
[26] 辛顿,G。;Salakhuttinov,R.,用神经网络降低数据的维数,科学,3135786504-507(2006)·Zbl 1226.68083号 ·doi:10.1126/science.1127647
[27] Ji P,Zhang T,Li H,Salzmann M,Reid I(2017)深子空间聚类网络。收录:Guyon I、Luxburg UV、Bengio S、Wallach H、Fergus R、Vishwanathan S、Garnett R(eds)《神经信息处理系统进展》,第30卷,第24-33页
[28] Lee H,Battle A,Raina R,Ng A(2007)高效稀疏编码算法。主题:神经信息处理系统(NIPS)进展,第801-808页
[29] Leyli-Abadi M,Labiod L,Nadif M(2017),作为文本数据的有效降维和聚类,去噪自动编码器。在:太平洋-亚洲知识发现和数据挖掘会议,施普林格,第801-813页
[30] Liu W,He J,Chang S(2010)可扩展半监督学习的大型图构造。摘自:第27届国际机器学习会议记录(ICML-10),第679-686页
[31] 罗,D。;黄,H。;丁,C。;Nie,F.,关于p-laplacian的特征向量,J Mach Learn,81,1,37-51(2010)·Zbl 1470.68141号 ·doi:10.1007/s10994-010-5201-z
[32] 美国卢克斯堡,《光谱聚类教程》,《统计计算》,17,4,395-416(2007)·数字对象标识代码:10.1007/s11222-007-9033-z
[33] Ng A、Jordan M、Weiss Y(2001)《关于光谱聚类:分析和算法》。主题:神经信息处理系统(NIPS)进展,第849-856页
[34] 聂F,丁C,罗D,黄H(2010)用非负松弛改进最小最大割图聚类。在:欧洲机器学习和数据库知识发现实践会议(ECML/PKDD),第6322卷,第451-466页
[35] 角色,F。;Morbieu,S。;Nadif,M.,Coclust:联合集群的python包,J Stat Softw,88,7,1-29(2019)·doi:10.18637/jss.v088.i07
[36] Salah A,Nadif M(2017)基于模型的von mises-fisher与良知联合聚类。摘自:2017年SIAM数据挖掘国际会议记录,SIAM,第246-254页
[37] 萨拉赫,A。;Nadif,M.,定向联合聚类,Adv Data Ana Classif,13,3,591-620(2019)·Zbl 1474.62244号 ·doi:10.1007/s11634-018-0323-4
[38] Schölkopf B,Smola A,Müller KR(1997)《核主成分分析》。在:人工神经网络国际会议。瑞士洛桑,施普林格,第583-588页
[39] Schonemann,P.,正交procutes问题的广义解,《心理测量学》,31,1,1-10(1966)·Zbl 0147.19401号 ·doi:10.1007/BF02289451
[40] Scrucca,L.,基于模型聚类的降维,统计计算,20,4,471-484(2010)·doi:10.1007/s11222-009-9138-7
[41] Seuret M、Alberti M、Liwicki M、Ingold R(2017)Pca初始化深度神经网络应用于文档图像分析。参加:2017年11月9日至15日在日本京都举行的第14届IAPR文件分析和识别国际会议,ICDAR 2017,第877-882页
[42] 史J。;Malik,J.,归一化剪切和图像分割,IEEE Trans-Pattern Anal Mach-Intell,22,8888-905(2000)·数字对象标识代码:10.1109/34.868688
[43] Shinnou H,Sasaki M(2008)通过减小相似矩阵大小对大型数据集进行光谱聚类。摘自:第六届语言资源与评估国际会议(LREC)会议记录,第201-2014页
[44] 斯特雷尔,A。;Ghosh,J.,《集群集成:用于组合多个分区的知识重用框架》,J Mach Learn Res,3583-617(2002)·Zbl 1084.68759号
[45] ten Berge,JM,多元分析中的最小二乘优化(1993),莱顿:DSWO出版社,莱顿
[46] 田科,周S,关J(2017)深度集群:基于深度学习的通用集群框架。In:Ceci M、Hollmén J、Todorovski L、Vens C、Díeroski S(eds)数据库中的机器学习和知识发现
[47] Van Der Maaten,L。;Postma,E。;Van den Herik,J.,《降维:比较》,《马赫-学习研究杂志》,2009年第10期,第66-71页
[48] 维基,M。;Kiers,H.,双向数据的因子k均值分析,计算统计数据分析,37,1,49-64(2001)·Zbl 1051.62056号 ·doi:10.1016/S0167-9473(00)00064-5
[49] 维基,M。;Saporta,G.,聚类和不相交主成分分析,《计算统计数据分析》,53,8,3194-3208(2009)·兹比尔1453.62230 ·doi:10.1016/j.csda.2008.05.028
[50] Vidal,R.,子空间聚类,IEEE Signal Process Mag,28,2,52-68(2011)·doi:10.1109/MSP.2010.939739
[51] Wang S,Ding Z,Fu Y(2017)特征选择引导自动编码器。In:第三十一届人工智能会议(AAAI),第2725-2731页
[52] Xie J,Girshick R,Farhadi A(2016)非监督深度嵌入聚类分析。In:机器学习国际会议,第478-487页
[53] Yamamoto,M.,低维子空间中函数数据的聚类,高级数据分析分类,6,3,219-247(2012)·Zbl 1254.62077号 ·doi:10.1007/s11634-012-0113-3
[54] 山本,M。;Hwang,H.,具有降维和子空间分离的聚类分析的一般公式,Behaviormetrica,41,1,115-129(2014)·doi:10.233/bhmk.41.115
[55] Yang L,Cao X,He D,Wang C,Wang X,Zhang W(2016)基于模块的社区检测与深度学习。摘自:第二十五届国际人工智能联合会议(IJCAI)会议记录,第2252-2258页
[56] Yang B,Fu X,Sidiropoulos N,Hong M(2017)《迈向k-means友好空间:同步深度学习和聚类》。摘自:第34届机器学习国际会议论文集,第3861-3870页
[57] Yan D,Huang L,Jordan M(2009)快速近似谱聚类。摘自:第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集,ACM,第907-916页
[58] 叶J,赵Z,吴敏(2008)聚类的判别k均值。In:神经信息处理系统的进展,第1649-1656页
[59] 袁,Z。;杨,Z。;Oja,E.,投影非负矩阵分解:稀疏性、正交性和聚类,神经过程快报,2009,11-13(2009)
[60] Zha H,He X,Ding C,Simon H,Gu M(2002)k-means聚类的谱松弛。In:神经信息处理系统的进展,麻省理工学院出版社,第1057-1064页
[61] Z.Zhirong。;Laaksonen,J.,投影非负矩阵分解及其在面部图像处理中的应用,J Pattern Recognit Artif Intell,21,8,1353-1362(2007)·doi:10.1142/S021801407005983
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。