×

用于用户-项目关系多层重叠协同聚类的高效代数多重网格方法。 (英语) Zbl 07552224号

摘要:编码用户-项目关系的各种数字数据集包含多级重叠簇结构。用户-项目关系可以编码在加权二部图中,在二部图的多个层次上揭示这些重叠的用户和项目的共簇,在许多应用中分析用户-项目数据时可以发挥重要作用。例如,为了进行有效的在线营销,例如投放在线广告或部署智能在线营销策略,识别同时出现的用户和项目集群可以带来准确的目标广告和更好的营销结果。在本文中,我们提出了受代数多重网格方法启发的快速算法,用于寻找编码用户-项目关系的特征矩阵的多层重叠共簇结构。算法从特征矩阵的加权二部图结构出发,使用聚集过程递归地粗化二部图,这些二部图表示在越来越粗的级别上的余聚类之间的关系。描述了新的快速粗化例程,通过利用特征矩阵中行和列变量之间的直接连接强度度量,绕过了所有相似度计算的瓶颈。以可扩展到大型数据集的方式在多个级别上提供准确的共聚类是一项具有挑战性的任务。在本文中,我们提出了一种启发式算法,该算法近似并递归地最小化归一化割,以获得多层次分辨率的聚合二部图中的余聚类。鉴于本文的主要新颖性和重点在于降低计算复杂性的算法方面,以获得专门针对大型矩形用户-项目矩阵的可伸缩方法,算法变体还定义了几个新模型,用于确定多级协同聚类,我们通过将它们与用户-项目关系协同过滤方法的基础原理联系起来,直观地证明了这些模型的合理性。实验结果表明,该算法成功地揭示了人工数据集和真实数据集的多层重叠簇结构。
贡献总结:本文提出了一种新的高效计算方法,用于发现编码用户-项目关系的特征矩阵的多层重叠共簇结构。我们的方法基于特征之间的成对相似性度量,寻找彼此相似且与簇外点不同的点簇。我们使用一个基于以前用于求解稀疏线性系统和聚类图的高效多级方法的框架,近似地解决了在多个层次上寻找最优重叠共聚类的问题。我们的主要贡献是,我们以有效的方式扩展了这些方法,以在编码常见和重要用户-项目关系或社会网络关系的二部图中找到共聚类。我们提出的新方法本质上可扩展到较大的问题规模,并且自然能够在多个级别上发现重叠的协同聚类,而现有方法通常只在精细级别上找到协同聚类。我们展示了该算法及其在文献中的一些标准测试问题上的性能,以及将领英用户与其技能和专业知识联系起来的概念验证真实世界数据集。

MSC公司:

90倍X 运筹学、数学规划
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Baker A、Falgout R、Kolev T、Yang UM(2012)将Hypre的多重网格求解器扩展到100000个岩芯。Berry MW、Gallivan KA、Gallopoulos E、Grama A、Philippe B、Saad Y、Saied F编辑。高性能科学计算(施普林格,伦敦),261-279.谷歌学者交叉引用·doi:10.1007/978-1-4471-2437-5_13
[2] Banerjee A、Merugu S、Dhillon IS、Ghosh J、Lafferty J(2005)《Bregman分歧的聚类》。J.机器学习。物件。6(58):1705−1749谷歌学者·Zbl 1190.62117号
[3] Brandt A、McCormick S、Ruge J(1984)稀疏性及其应用:稀疏矩阵方程的代数多重网格(AMG)(英国剑桥大学出版社)。谷歌学者
[4] Briggs W、Henson V、McCormick S(2000)多重网格教程(费城SIAM)。Crossref,谷歌学者·兹比尔0958.65128 ·doi:10.1137/1.9780898719505
[5] Brunet J,Tamayo P,Golub T,Mesirov J(2004),使用矩阵分解发现元基因和分子模式。程序。国家。阿卡德。科学。美国101(12):4164-4169.谷歌学者(Google Scholar)交叉引用·doi:10.1073/pnas.0308531101
[6] Cheng W,Zhang X,Pan F,Wang W(2012)基于熵分裂的层次联合聚类。程序。第21届ACM国际。确认通知。知识管理(ACM,纽约),1472-1476。谷歌学者
[7] Dale J,Nishimoto A,Obafemi-Ajayi T(2018)双聚类算法的性能评估和增强。程序。第七届国际。Conf.模式识别应用。方法,第1卷(科学技术出版社,葡萄牙塞图巴尔),202-213.谷歌学者
[8] De Sterck H(2012)极值奇异三元组和特征对的自学习代数多重网格方法。SIAM J.科学。计算。34(4):A2092-A2117.Crossref,谷歌学者·Zbl 1253.65052号 ·doi:10.1137/110823316
[9] Dhillon IS(2001)使用二分谱图划分对文档和单词进行联合聚类。程序。第七届ACM SIGKDD国际。Conf.知识发现数据挖掘(ACM,纽约),269-274.谷歌学者
[10] França FOD(2012)字文档数据的可扩展重叠联合聚类。程序。第11届国际。Conf.机器学习应用程序。,第1卷(IEEE,新泽西州皮斯卡塔韦),464-467.谷歌学者
[11] Grover A,Leskovec J(2016)node2vec:网络的可扩展特性学习。程序。第22届ACM SIGKDD国际。Conf.知识发现数据挖掘(ACM,纽约),855-864.谷歌学者
[12] Harper FM,Konstan JA(2015)电影镜头数据集:历史与背景。ACM事务处理。交互式智能系统5(4):1-19.Crossref,谷歌学者·doi:10.1145/2827872
[13] Henriques R,Madeira SC(2015)用柔性格子模型进行双聚类,以揭示生物过程之间的相互作用。IEEE/ACM传输。计算。生物.生物信息学12(4):738-752.Crossref,谷歌学者·doi:10.1109/TCBB.2014.2388206
[14] Huang J,Sun H,Han J,Deng H,Sun Y,Liu Y(2010)SHRINK:一种用于检测网络中分层社区的结构聚类算法。程序。第19届ACM国际。确认通知。知识管理(ACM,纽约),219-228。谷歌学者
[15] Ienco D,Pensa RG,Meo R(2009),无参数分层联合聚类(n-ary splits)。Buntine W、Grobelnik M、MladenićD、Shawe-Taylor J编辑。数据库中的机器学习与知识发现(柏林施普林格),580-595.Crossref,谷歌学者·doi:10.1007/978-3642-04180-8_55
[16] Kim J,Park H(2008)《迈向更快的非负矩阵分解:一种新算法和比较》。程序。第八国际。Conf.数据挖掘(IEEE,Piscataway,NJ),353-362.谷歌学者
[17] Koren Y,Bell R(2015)《协作过滤的进展》,Ricci F,Rokach L,Shapira B,eds。推荐系统手册(波士顿斯普林格),77-118,Crossref,谷歌学者·doi:10.1007/978-1-4899-7637-63
[18] Kuang D,Park H(2013)分层文档聚类的快速秩-2非负矩阵分解。Proc。第19届ACM SIGKDD国际。Conf.知识发现数据挖掘(ACM,纽约),739-747.谷歌学者
[19] Kushnir D,Galun M,Brandt A(2006)快速多尺度聚类和流形识别。模式识别39(10):1876-1891。Crossref,谷歌学者·Zbl 1096.68720号 ·doi:10.1016/j.patcog.2006.04.007
[20] Kushnir D、Galun M、Brandt A(2009)高效多级特征解算器及其在数据分析任务中的应用。IEEE传输。模式分析。机器智能32(8):1377-1391.Crossref,谷歌学者·doi:10.1109/TPAMI.2009.147
[21] Kvalsets TO(1987)熵与相关性:一些评论。IEEE传输。系统人控制论17(3):517-519。Crossref,谷歌学者·doi:10.1109/TSMC.1987.4309069
[22] Lancichinetti A,Fortunato S,Kertész J(2009)《检测复杂网络中重叠和分层的社区结构》。新J.Phys。11:033015.谷歌学者Crossref·doi:10.1088/1367-2630/11/3/033015
[23] Li J,Li T(2010)HCC:一种分层联合聚类算法。程序。第33届国际。ACM SIGIR Conf.Res.开发信息。检索(ACM,纽约),861-862.谷歌学者
[24] McAuley J、Targett C、Shi Q、Van Den Hengel A(2015)《关于风格和替代品的基于图像的建议》。程序。第38届国际。ACM SIGIR Conf.Res.开发信息。检索(ACM,纽约),43-52。谷歌学者
[25] Orzechowski P,Boryczko K(2016)混合双聚类算法的文本挖掘。Rutkowski L、KorytkowskiM、Scherer R、Tadeusiewicz R、Zadeh LA、Zurada JM编辑。人工智能与软计算(瑞士查姆施普林格),102-113.谷歌学者
[26] Rousseeuw P(1987)《剪影:用于解释和验证聚类分析的图形辅助》。J.计算。申请。数学。20:53-65.Crossref,谷歌学者·Zbl 0636.62059号 ·doi:10.1016/0377-0427(87)90125-7
[27] Sales-Pardo M、Guimra R、Moreira A、Amaral L(2007)《复杂系统的层次结构提取》。程序。国家。阿卡德。科学。美国104(39):15224-15229.Crossref,谷歌学者·doi:10.1073/pnas.0703740104
[28] Sharon E、Galun M、Sharon D、Basri R、Brandt A(2006)视觉场景分割的层次和适应性。自然442:810-813.Crossref,谷歌学者·doi:10.1038/nature04977
[29] Shchur O,Günnemann S(2019)图神经网络重叠社区检测。预印本,提交日期:年月日,https://arxiv.org/abs/1909.12201.谷歌学者
[30] Shi J,Malik J(2000)标准化切割和图像分割。IEEE传输。模式分析。机器智能22(8):888-905.Crossref,谷歌学者·数字对象标识代码:10.1109/34.868688
[31] Smith S,Park J,Karypis G(2016)《高性能张量补全优化算法的探索》。程序。国际。Conf.高性能计算机。网络存储分析。(新泽西州皮斯卡塔韦IEEE),359-371.谷歌学者
[32] Steinbach M,Karypis G,Kumar V(2000)《文档聚类技术的比较》。KDD文本挖掘研讨会,波士顿,8月20日。谷歌学者
[33] Vinh NX,Epps J,Bailey J(2010)《聚类比较的信息理论度量:变量、属性、归一化和机会修正》。J.机器学习研究。11(95):2837-2854.谷歌学者·Zbl 1242.62062号
[34] Wang W,Street WN(2015)使用影响力引导的标签传播在复杂网络中发现层级社区。程序。第15届IEEE国际年会。Conf.数据挖掘研讨会(IEEE,新泽西州皮斯卡塔韦),547-556。谷歌学者
[35] Wang J,De Vries AP,Reinders MJ(2006)通过相似性融合统一基于用户和基于项目的协同过滤方法。程序。第29届国际年会。ACM SIGIR Conf.Res.开发信息。检索(ACM,纽约),501-508。谷歌学者
[36] Winlaw M,Hynes MB,Caterini A,De Sterck H(2015)用于协作过滤的并行ALS算法加速:加速spark中的分布式大数据推荐。Proc。第21届国际。Conf.并行分布式系统(ICPADS)(IEEE,Piscataway,NJ),682-691.谷歌学者
[37] Xu H(2013)快速多级共聚类。滑铁卢大学未发表的硕士研究报告。谷歌学者
[38] Xu J,Zikatanov L(2017)代数多重网格方法。Acta Numer公司。26:591-721.Crossref,谷歌学者·Zbl 1378.65182号 ·doi:10.1017/S0962492917000083
[39] Xu W,Liu X,Gong Y(2003)基于非负矩阵分解的文献聚类。程序。第26届国际年会。ACM SIGIR Conf.Res.开发信息。检索(ACM,纽约),267-273,谷歌学者
[40] Zhao Y,Karypis G(2002)文档数据集的层次聚类算法评估。程序。第11届国际。确认通知。知识管理(ACM,纽约),515-524谷歌学者
[41] Zhao Y,Yuan Y,Nie F,Wang Q(2018)基于迭代优化的大规模高维数据谱聚类。神经计算318:227-235.Crossref,谷歌学者·doi:10.1016/j.neucom.2018.08.059
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。