×

规则化双向联合集群。 (英语) Zbl 1475.62012号

摘要:文档和单词的同时聚类,称为联合群集在处理稀疏的高维数据集时,已证明比单边聚类更有效。就其性质而言,文本数据通常也是不平衡和有方向的。最近,提出了von Mises-Fisher(vMF)混合模型来处理不平衡数据,同时利用文本的方向性。在本文中,我们基于基于vMF模型的联合聚类的矩阵公式,提出了一个通用的联合聚类框架。该公式为文本联合聚类提供了一个灵活的框架,可以轻松地将两者结合起来文字语义关系和文档-文档相似之处。与通常使用相似度累加合并的现有方法相比,我们提出了一种双向乘法更好地封装底层文本数据结构的正则化。对各种真实世界文本数据集的广泛评估表明,我们提出的方法在聚类结果和联合聚类主题一致性方面都优于基线和竞争方法。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 哈尔

参考文献:

[1] 阿哈尔特,南卡罗来纳州;克里希那穆尔蒂,正义与发展党;陈,P。;Melton,DE,矢量量化竞争学习算法,神经网络。,3, 3, 277-290 (1990) ·doi:10.1016/0893-6080(90)90071-R
[2] M.Ailem。;角色,F。;Nadif,M.,《图形模块化最大化作为联合聚类文本数据的有效方法》,Knowl。基于系统。,109, 160-173 (2016) ·doi:10.1016/j.knosys.2016.07.002
[3] M.Ailem。;角色,F。;Nadif,M.,用于有效处理稀疏数据的基于模型的联合聚类,模式识别。,72, 108-122 (2017) ·doi:10.1016/j.patcog.2017.06.005
[4] Ailem,M.,Salah,A.,Nadif,M.:非负矩阵分解满足单词嵌入。第40届国际acm-sigir信息检索研究与开发会议论文集,第1081-1084页(2017b)
[5] Akaike,H.:信息理论和最大似然原理的扩展。收录于:《秋叶裕久文选》,第199-213页。斯普林格(1998)
[6] Banerjee,A。;印度迪伦;Ghosh,J。;Sra,S.,使用von Mises-Fisher分布在单位超球面上的聚类,J.Mach。学习。第6号决议,1345-1382(2005)·Zbl 1190.62116号
[7] Banerjee,A。;Ghosh,J.,高维超球面上可扩展平衡聚类的频率敏感竞争学习,IEEE Trans。神经网络。,15, 3, 702-719 (2004) ·doi:10.10109/TNN.2004.824416
[8] Bock,H.:对象和变量的同时聚类。收录于:Tomassone,R.(编辑)《唐奈与信息分析》,第187-203页。INRIA,Le Chesnay(1979年)·Zbl 0454.62055号
[9] Bock,H.-H.:通过变量数据矩阵对对象进行共聚类。摘自:《行为计量学和数据科学高级研究》,第3-17页。施普林格(2020)
[10] Bozdogan,H.,Akaike的信息标准和信息复杂性的最新发展,J.Math。心理医生。,44, 1, 62-91 (2000) ·Zbl 1047.62501号 ·doi:10.1006/jmps.1999.1277
[11] Cho,H。;Dhillon,IS,使用最小平方和残差对人类癌症微阵列进行共聚类,IEEE/ACM Trans。计算。生物信息学。,5, 3, 385-400 (2008) ·doi:10.1109/TCBB.2007.70268
[12] Deodhar,M。;Ghosh,J.,Scoal:同步联合聚类和从复杂数据中学习的框架,ACM Trans。知识。发现。数据,4,3,1-31(2010)·doi:10.1145/1839490.1839492
[13] DeSieno,D.:为竞争性学习增添良知。收录于:IEEE神经网络国际会议,第1卷,第117-124页,美国加利福尼亚州圣地亚哥。电气与电子工程师学会,纽约,IEEE(1988)
[14] Dhillon,I.S.、Mallela,S.、Modha,D.S.:信息论联合聚类。摘自:第九届ACM SIGKDD知识发现和数据挖掘国际会议。ACM,第89-98页(2003年)
[15] 印度迪伦;Modha,DS,使用聚类对大型稀疏文本数据进行概念分解,Mach。学习。,42, 1-2, 143-175 (2001) ·Zbl 0970.68167号 ·doi:10.1023/A:1007612920971
[16] Gopal,S.,Yang,Y.:Von mises-fisher聚类模型。摘自:机器学习国际会议,第154-162页。PMLR(2014)
[17] Govaert,G.:克罗地亚分类。法国巴黎第六大学(1983年)
[18] 戈瓦特,G。;Nadif,M.,用块混合模型聚类,模式识别。,36, 2, 463-473 (2003) ·doi:10.1016/S0031-3203(02)00074-2
[19] 戈瓦特,G。;Nadif,M.,块混合模型的EM算法,IEEE Trans。模式分析。马赫。智力。,27, 4, 643-647 (2005) ·doi:10.1109/TPAMI.2005.69
[20] 戈沃特,G。;Nadif,M.,用Bernoulli混合模型进行块聚类:不同方法的比较,计算。统计数据分析。,52, 6, 3233-3245 (2008) ·Zbl 1452.62444号 ·doi:10.1016/j.csda.2007.09.007
[21] 戈瓦特,G。;Nadif,M.,《协同聚类:模型》(2013),纽约:算法与应用。纽约威利·Zbl 0910.62021号 ·doi:10.1002/9781118649480
[22] 戈瓦特,G。;Nadif,M.,《列联表的相互信息、phi-squared和基于模型的联合聚类》,高级数据分析。分类。,12, 3, 455-488 (2018) ·Zbl 1416.62309号 ·doi:10.1007/s11634-016-0274-6
[23] B.Hanczar。;Nadif,M.,双聚类任务的集成方法,模式识别。,45, 11, 3938-3949 (2012) ·doi:10.1016/j.patcog.2012.04.010
[24] Hartigan,JA,数据矩阵的直接聚类,美国统计协会,67,337,123-129(1972)·doi:10.1080/01621451972.10481214
[25] Hofmann,T.,Puzicha,J.:协作过滤的潜在类模型。收录于:IJCAI,第99卷,第688-693页,瑞典斯德哥尔摩。Morgan Kaufmann(1999)
[26] 休伯特,L。;Arabie,P.,比较分区,J.Classif。,2, 1, 193-218 (1985) ·doi:10.1007/BF01908075
[27] 克里宾,C。;Brault,V。;Celeux,G。;Govaert,G.,分类数据上潜在块模型的估计和选择,统计计算。,25, 6, 1201-1216 (2015) ·Zbl 1331.62149号 ·doi:10.1007/s11222-014-9472-2
[28] Le,Q。;Mikolov,T.,《句子和文档的分布式表示》,《国际商榷》。学习。,3211188-1196(2014)
[29] Lee,DD;Seung,HS,非负矩阵分解算法,高级神经信息处理。系统。,23, 556-562 (2001)
[30] 南卡罗来纳州马德拉;Oliveira,AL,《生物数据分析的双聚类算法:调查》,IEEE/ACM Trans。计算。生物信息学。,1, 1, 24-45 (2004) ·doi:10.1109/TCBB.2004.2
[31] Marcotorchino,F.,《序列化问题:概述》,应用。斯托克。模型数据分析。,7, 2, 139-151 (1991) ·doi:10.1002/asm.3150070204
[32] Mardia,千伏;Jupp,PE,方向统计(2009),纽约:威利,纽约·Zbl 0935.62065号
[33] 麦克拉克伦,GJ;Peel,D.,有限混合模型(2004),纽约:威利,纽约·Zbl 0963.62061号
[34] Mikolov,T.,Chen,K.,Corrado,G.,Dean,J.:向量空间中单词表示的有效估计。参加:第一届学习代表国际会议,美国亚利桑那州,ICLR(2013)
[35] Newman,D.,Karimi,S.,Cavedon,L.:主题模型的外部评估。In:澳大利亚文件计算研讨会,IEEE(2009)
[36] Rocci,R。;Vichi,M.,双模多分区,计算。统计数据分析。,52, 4, 1984-2003 (2008) ·Zbl 1452.62463号 ·doi:10.1016/j.csda.2007.06.025
[37] Röder,M.,Both,A.,Hinneburg,A.:探索主题连贯性度量的空间。摘自:第八届ACM网络搜索和数据挖掘国际会议论文集,中国上海,第399-408页(2015)
[38] 角色,F。;莫尔比厄,S。;Nadif,M.,Coclust:联合集群的python包,J.Stat.Softw。工艺。,88, 7, 1-29 (2019)
[39] Role,F.,Nadif,M.:处理低频事件对基于共现的单词相似性度量的影响。摘自:知识发现和信息检索国际会议记录(KDIR-2011)。Scitepress,第218-223页(2011年)
[40] 萨拉赫,A。;M.Ailem。;Nadif,M.,《文本数据联合聚类的单词共现正则化非负矩阵三因子化》,AAAI Conf.Artif。智力。,32, 3292-3299 (2018)
[41] Salah,A.,Nadif,M.:基于模型的von Mises-Fisher与良心联合集群。摘自:2017年SIAM数据挖掘国际会议记录。SIAM,第246-254页(2017a)
[42] 萨拉赫,A。;Nadif,M.,项目推荐的社会规范化von Mises-Fisher混合模型,Data Min.Knowl。发现。,31, 5, 1218-1241 (2017) ·Zbl 1411.68153号 ·doi:10.1007/s10618-017-0499-9
[43] 萨拉赫,A。;Nadif,M.,定向联合聚类,高级数据分析。分类。,13, 3, 591-620 (2019) ·Zbl 1474.62244号 ·doi:10.1007/s11634-018-0323-4
[44] Schwarz,G.,估算模型的维数,《Ann.Stat.》,6,2,461-464(1978)·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[45] Steinley,D.,《Bubert-rable调整后兰特指数的特性》,心理医学。方法,9,3,386(2004)·doi:10.1037/1082-989X.9.3.386
[46] 斯特雷尔,A。;Ghosh,J.,《集群集成——用于组合多个分区的知识重用框架》,J.Mach。学习。决议,3583-617(2003)·Zbl 1084.68759号
[47] Tanay,A。;沙兰,R。;Shamir,R.,《双聚类算法:调查》,Handb。计算。分子生物学。,9, 1-20, 122-124 (2005)
[48] Van Mechelen,I。;博克,H-H;De Boeck,P.,《双模聚类方法:结构综述》,《统计方法医学研究》,13,5,363-394(2004)·Zbl 1053.62078号 ·doi:10.1191/0962280204sm373ra
[49] Vichi,M.,Double k-means聚类,用于同时分类对象和变量,Adv.Classif。数据分析。(2001) ·doi:10.1007/978-3-642-59471-76
[50] Wang,H.,Nie,F.,Huang,H.和Makedon,F.:用于大规模数据联合聚类的快速非负矩阵三因子化。In:第22届国际人工智能联合会议(2011)
[51] 钟,S。;Ghosh,J.,基于生成模型的文档聚类:一项比较研究,Knowl。信息系统。,8, 3, 374-384 (2005) ·doi:10.1007/s10115-004-0194-1
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。