×

集群化大型属性信息网络:一种高效的增量计算方法。 (英语) Zbl 1259.05150号

摘要:近年来,许多信息网络已可用于分析,包括社会网络、道路网络、传感器网络、生物网络等。图聚类在分析和可视化大型网络方面显示出其有效性。图聚类的目标是基于各种标准(如顶点连通性或邻域相似性)将大型图中的顶点划分为簇。现有的许多图聚类方法主要关注于拓扑结构,但在很大程度上忽略了顶点属性的异构性。最近,提出了一种新的图聚类算法SA-聚类,它通过统一的距离度量将结构相似性和属性相似性结合起来。SA-Cluster执行矩阵乘法以计算图形顶点之间的随机行走距离。作为聚类细化的一部分,将迭代调整图形边缘权重,以平衡结构相似性和属性相似性之间的相对重要性。因此,在聚类过程的每次迭代中都会重复矩阵乘法,以重新计算受边缘权重更新影响的随机行走距离。为了提高SA-聚类的效率和可扩展性,本文提出了一种高效的算法Inc-cluster,在给定边权重增量的情况下,增量更新随机行走距离。提供复杂性分析以估计Inc-Cluster可以节省多少运行时成本。我们在多核体系结构上进一步设计了并行矩阵计算技术。实验结果表明,在大型图上,Inc-Cluster比SA-Cluster实现了显著的加速,同时在簇内结构内聚性和属性值同质性方面实现了完全相同的聚类质量。

MSC公司:

05C80号 随机图(图形理论方面)
68兰特 计算机科学中的图论(包括图形绘制)
05C82号 小世界图形、复杂网络(图形理论方面)
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 蔡D,邵Z,何X,严X,韩J(2005)挖掘异质社会网络中的隐藏社区。摘自:《链接发现:问题、方法和应用研讨会论文集》(LinkKDD’05),第58–65页,伊利诺伊州芝加哥
[2] Cohn H,Kleinberg R,Szegedy B,Umans C(2005)矩阵乘法的群理论算法。参加:计算机科学基础研讨会(FOCS)
[3] Desikan P,Pathak N,Srivastava J,Kumar V(2005)进化图的增量页秩计算。摘自:第14届国际万维网(WWW)会议,第1094–1095页
[4] Hofmann T(1999)概率潜在语义索引。摘自:SIGIR会议记录,第50-57页
[5] Jeh G,Widom J(2002)SimRank:结构-控制相似性的度量。收录:KDD会议记录,第538–543页
[6] Long B,Zhang ZM,Wu X,Yu PS(2006)多类型关系数据的谱聚类。摘自:机器学习国际会议(ICML)论文集,第585-592页
[7] Navlakha S、Rastogi R、Shrivastava N(2008)《有界误差的图形摘要》。摘自:SIGMOD会议记录,第419-432页
[8] Newman MEJ,Girvan M(2004)《发现和评估网络中的社区结构》。物理版E 69:026113
[9] Pons P,Latapy M(2006)使用随机行走在大型网络中计算社区。J.图形算法应用10(2):191–218·Zbl 1161.68694号 ·doi:10.7155/jgaa.00124
[10] Satuluri V,Parthasarathy S(2009),使用随机流的可缩放图聚类:社区发现应用。In:知识发现和数据挖掘会议(KDD),第737–745页
[11] Shi J,Malik J(2000)标准化切割和图像分割。收录:IEEE模式分析和机器智能汇刊22(8):888–905·数字对象标识代码:10.1109/34.868688
[12] Strassen V(1969)高斯消去不是最优的。数字数学13:354–356·Zbl 0185.40101号 ·doi:10.1007/BF02165411
[13] Sun J,Faloutsos C,Papadimitriou S,Yu PS(2007)Graphscope:大型时间演化图的无参数挖掘。收录:KDD会议记录,第687-696页
[14] 孙毅、韩杰、赵鹏、尹Z、程浩、吴涛(2009)Rankclus:将聚类与排序结合起来进行异质信息网络分析。摘自:EDBT会议记录,第565-576页
[15] Tian Y,Hankins RA,Patel JM(2008)图摘要的有效聚合。摘自:SIGMOD会议记录,第567-580页
[16] Tong H,Faloutsos C,Pan J-Y(2006)带重启的快速随机行走及其应用。In:ICDM会议记录,第613–622页
[17] Tong H、Faloutsos C、Pan J-Y(2008)《重新启动的随机行走:快速解决方案和应用》。知识信息系统14:327–346·Zbl 1161.68701号 ·doi:10.1007/s10115-007-0094-2
[18] Tsai C-Y,Chui C-C(2008)为k-means聚类算法开发一种特征权重自调整机制。计算统计数据分析52:4658–4672·Zbl 1452.62471号 ·doi:10.1016/j.csda.2008.03.002
[19] Wang F,Li T,Wang X,Zhu S,Ding C(2011)使用非负矩阵分解的社区发现。数据最小知识发现22(3):493–521·兹比尔1235.68034 ·doi:10.1007/s10618-010-0181-y
[20] Wu Y,Raschid L(2009)近似秩:估计子图的秩。摘自:ICDE会议记录,第54–65页
[21] Xu X,Yuruk N,Feng Z(2007)Schweiger TAJ Scan:一种网络结构聚类算法。收录:KDD会议记录,第824-833页
[22] Zhou Y,Cheng H,Yu JX(2009)基于结构/属性相似性的图聚类。摘自:VLDB捐赠会议记录,第718–729页
[23] Zhou Y,Cheng H,Yu JX(2010)聚类大型属性图:一种有效的增量方法。摘自:IEEE国际数据挖掘会议(ICDM),第689–698页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。