×

总结和理解大型图形。 (英语) Zbl 07260433号

小结:我们如何用几个简单的句子简洁地描述一个百万节点图?给定一个大图形,我们如何找到它最“重要”的结构,以便对其进行总结并轻松可视化?我们如何衡量在一个大图中发现的一组子图的“重要性”?从观察真正的图通常由星、二分核、团和链组成开始,我们的主要想法是找到这些“词汇”术语对图的最简洁描述。为此,我们首先使用一个或多个图划分算法挖掘候选子图。接下来,我们使用最小描述长度(MDL)原则确定最佳摘要,只从候选子图中挑选出那些能产生最佳无损压缩图的子图,或者等价地,最简洁地描述其邻接矩阵的子图。
我们的贡献有三方面:(i)配方:我们提供了一个原则性的编码方案,用于识别给定子图的词汇类型,用于实际图中常见的六种结构类型,(ii)算法:我们开发了VoG,这是一种根据局部图结构近似给定图的MDL最优摘要的有效方法,以及(iii)适用性:我们报告了对数百万边真实图的广泛经验评估,包括Flickr和Notre-Dame网络图。

MSC公司:

62至XX 统计
68倍 计算机科学
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] M.Faloutsos、P.Falooutsos和C.Faloutos,《互联网拓扑的权力关系》,载于《ACM数据通信特别利益小组会议记录》(SIGCOMM),西班牙巴塞罗那,1999年,第251-262页·Zbl 0889.68050号
[2] D.Chakrabarti、Y.Zhan、D.Blandford、C.Faloutsos和G.Blelloch,《Netmine:大型图形的新挖掘工具》,SDM链接分析研讨会,反恐与隐私,2004年。
[3] J.Leskovec、K.J.Lang、A.Dasgupta和M.W.Mahoney,大型社会和信息网络中社区结构的统计特性,第17届万维网国际会议论文集,中国北京,2008年,695-704。
[4] B.A.Prakash、M.Seshadri、A.Sridharan、S.Machiraju和C.Faloutsos,《Eigenspokes:大图形中的意外模式和社区结构》,《第十四届亚太知识发现和数据挖掘会议论文集》,印度海得拉巴,2010年。
[5] G.Karypis和V.Kumar,多层超图划分,第36届设计自动化会议论文集,洛杉矶新奥尔良,1999,343-348·Zbl 0918.68073号
[6] D.J.Cook和L.B.Holder,《使用最小描述长度和背景知识发现子结构》,《J Artif Intell Res 1》(1994年),第231-255页。
[7] T.Kamada和S.Kawai,绘制一般无向图的算法,Infor Process Lett 31(1989),7-15·Zbl 0679.68128号
[8] Y.Lim、U.Kang和C.Faloutsos,《Slashburn:洞穴人社区以外的图形压缩和挖掘》,IEEE Trans Knowl Data Eng,26(2014),3077-3089。
[9] L.Tauro、C.Palmer、G.Siganos和M.Faloutsos,《互联网拓扑的简单概念模型》,全球通信会议展览和行业论坛,德克萨斯州圣安东尼奥,2001年。
[10] J.Kleinberg、R.Kumar、P.Raghavan、S.Rajagopalan和A.Tomkins,《网络作为图形:测量、模型和方法》,第五届国际年会(COCOON)会议记录,日本东京,1999年。
[11] J.Rissanen,《用最短数据描述建模》,Automatica 14(1978),465-471·Zbl 0418.93079号
[12] D.Koutra、U.Kang、J.Vreeken和C.Faloutsos,《VoG:使用丰富词汇总结图形》,《SIAM国际数据挖掘会议论文集》,宾夕法尼亚州费城,SIAM,2014年。
[13] J.Rissanen,《整数的通用先验和最小描述长度估计》,《Ann Stat》11(1983),416-431·Zbl 0513.62005号
[14] M.Li和P.Vit´anyi,《Kolmogorov复杂性及其应用简介》,纽约,斯普林格出版社,1993年·Zbl 0805.68063号
[15] P.Gr¨unwald,《最小描述长度原则》,马萨诸塞州剑桥,麻省理工学院出版社,2007年。
[16] T.M.Cover和J.A.Thomas,《信息理论的要素》,纽约,威利国际科学出版社,2006年·Zbl 1140.94001号
[17] P.Miettinen和J.Vreeken,布尔矩阵因式分解的模型顺序选择,第17届ACM知识发现和数据挖掘国际会议(SIGKDD)论文集,加利福尼亚州圣地亚哥,2011年,51-59。
[18] P.Miettinen和J.Vreeken,mdl4bmf:布尔矩阵因式分解的最小描述长度。技术报告MPI-I-2012-5-001,马克斯·普朗克信息学院,2012年。
[19] D.Koutra、T.-Y.Ke、U.Kang、D.H.Chau、H.-K.Pao和C.Faloutsos,《统一逐关联方法:定理和快速算法》,《欧洲机器学习会议论文集和数据库知识发现原理与实践》(ECML PKDD),希腊雅典,2011年,245-260页。
[20] Flickr、,http://www.flickr.com。 ·Zbl 1407.68526号
[21] 捕捉,http://snap.stanford.edu/data/index.html。 ·Zbl 1040.68649号
[22] 安然数据集,http://www.cs.cmu.edu/安然·兹比尔1086.68505
[23] 作为俄勒冈数据集,http://topology.eecs.umich.edu/data。html格式。
[24] J.Vreeken、M.van Leeuwen和A.Siebes,Krimp:压缩的挖掘项集,《数据挖掘知识发现》23(2011),169-214·Zbl 1235.68071号
[25] A.Koopman和A.Siebes,《特征关系模式》,《第十五届ACM知识发现和数据挖掘国际会议(SIGKDD)论文集》,法国巴黎,2009年,437-446。
[26] N.Tatti和J.Vreeken,《它的长与短:用连续剧总结事件序列》,《第18届ACM知识发现和数据挖掘国际会议论文集》,中国北京,2012年·Zbl 1260.68347号
[27] X.Yan和J.Han,gSpan:基于图的子结构模式挖掘,IEEE数据挖掘国际会议,加利福尼亚州洛斯阿拉米托斯,2002年。
[28] M.Araujo、S.G¨unnemann、G.Mateos和C.Faloutsos,《超越区块:双曲社区检测》,《欧洲机器学习会议论文集与数据库知识发现原理与实践》(ECML PKDD),法国南希,2014年,第50-65页。
[29] C.Faloutsos和V.Megalooikonomou,《关于数据挖掘、压缩和Kolmogorov复杂性》,《数据挖掘知识发现》15(2007),3-20。
[30] R.Cilibrasi和P.Vit´anyi,压缩聚类,IEEE Trans Inform Technol 51(2005),1523-1545·Zbl 1297.68097号
[31] M.van Leeuwen、J.Vreeken和A.Siebes,压缩选择了重要的项目集,《第十届欧洲数据库知识发现原则与实践会议论文集》,德国柏林,2006年,585-592。
[32] D.Chakrabarti、S.Papadimitriou、D.S.Modha和C.Faloutsos,《全自动交叉关联》,第十届ACM知识发现和数据挖掘国际会议(SIGKDD)论文集,华盛顿州西雅图,2004年,79-88。
[33] P.Miettinen和J.Vreeken,mdl4bmf:布尔矩阵因式分解的最小描述长度,ACM Trans Knowl Discov Data 8(2014),1-30。
[34] K.Smets和J.Vreeken,《奇怪的一点:识别和表征异常》,《第十一届SIAM国际数据挖掘会议(SDM)论文集》,亚利桑那州梅萨,2011年,804-815。
[35] L.Akoglu、H.Tong、J.Vreeken和C.Faloutsos,CompreX:基于压缩的异常检测,In
[36] B.A.Prakash、J.Vreeken和C.Faloutsos,《发现流行病的罪魁祸首:多少人和哪些人?》?第十二届IEEE数据挖掘国际会议(ICDM)会议记录,比利时布鲁塞尔,2012年。
[37] L.Akoglu、J.Vreeken、H.Tong、N.Tatti和C.Faloutsos,大型图中标记节点的连接路径挖掘,《SIAM国际数据挖掘会议论文集》,德克萨斯州奥斯汀,2013年。
[38] P.Boldi和S.Vigna,网络图框架I:压缩技术,国际万维网会议,2004年。
[39] F.Chierichetti、R.Kumar、S.Lattanzi、M.Mitzenmacher、A.Panconesi和P.Raghavan,《关于压缩社交网络》,《第十五届ACM知识发现和数据挖掘国际会议(SIGKDD)论文集》,法国巴黎,2009年,第219-228页。
[40] A.Apostolico和G.Drovandi,bfs的图形压缩,《算法2》(2009),1031-1044·Zbl 1461.68021号
[41] H.Maserrat和J.Pei,《社交网络的邻域查询友好压缩》,《第16届ACM知识发现和数据挖掘国际会议论文集》,华盛顿特区,2010年。
[42] J.Feng,X.He,N.Hubig,C.B¨ohm,和C.Plant,利用结构原语的基于压缩的图挖掘,第13届IEEE国际数据挖掘会议论文集,德克萨斯州达拉斯,2013年,181-190年。
[43] Y.Tian、R.A.Hankins和J.M.Patel,图摘要的高效聚合,《ACM国际数据管理会议(SIGMOD)论文集》,不列颠哥伦比亚省温哥华,2008年,567-580。
[44] N.Zhang、Y.Tian和J.M.Patel,发现驱动的图形摘要,第26届国际数据工程会议论文集,加利福尼亚州长滩,2010年,880-891。
[45] H.Toivonen、F.Zhou、A.Hartikainen和A.Hinkka,加权图的压缩,第17届ACM知识发现和数据挖掘国际会议(SIGKDD)论文集,加利福尼亚州圣地亚哥,2011年,965-973。
[46] J.Leskovec和C.Faloutsos,《从大图形中采样》,载于《第十二届ACM SIGKDD知识发现和数据挖掘国际会议论文集》,KDD’06,纽约,ACM,2006,631-636。
[47] C.H¨ubler、H.-P.Kriegel、K.Borgwardt和Z.Ghahramani,代表性子图采样的Metropolis算法,《2008年IEEE第八届国际数据挖掘会议论文集》,ICDM’08,IEEE计算机学会,美国华盛顿特区,2008,283-292。
[48] A.S.Maiya和T.Y.Berger-Wolf,《抽样社区结构》,第19届万维网国际会议论文集,纽约,ACM,2010年,第701-710页。
[49] D.Rafiei和S.Curial,《通过采样有效可视化大型网络》,第16届IEEE可视化会议(VIS 2005),明尼阿波利斯,明尼苏达州,2005年,第48页。
[50] J.Dean和S.Ghemawat,《Mapreduce:大型集群上的简化数据处理》,《第六届操作系统设计与实现研讨会论文集》,加利福尼亚州旧金山,2004年。
[51] A.Koopman和A.Siebes,《高效发现关系项集》,《第八届SIAM国际数据挖掘会议论文集》,佐治亚州亚特兰大,2008年,第108-119页。
[52] S.Navlakha、R.Rastogi和N.Shrivastava,有界误差的图形摘要,《ACM国际数据管理会议(SIGMOD)论文集》,不列颠哥伦比亚省温哥华,2008年,419-432。
[53] S.Papadimitriou、J.Sun、C.Faloutsos和P.S.Yu,分层、无参数的社区发现,《欧洲机器学习与数据库知识发现原理与实践会议论文集》(ECML PKDD),比利时安特卫普,2008年,170-187。
[54] M.Rosvall和C.T.Bergstrom,解决复杂网络中社区结构的信息理论框架,美国国家科学院院刊,104(2007),7327-7331。
[55] D.H.Chau、A.Kittur、J.I.Hong和C.Faloutsos,Apolo:将机器学习和可视化相结合的交互式大型图形感知,《第17届ACM知识发现和数据挖掘国际会议论文集》,加利福尼亚州圣地亚哥,2011年。
[56] L.Akoglu、D.H.Chau、U.Kang、D.Koutra和C.Faloutsos,《Opavion:大型图形中的挖掘和可视化》,《美国计算机学会国际数据管理会议(SIGMOD)论文集》,亚利桑那州斯科茨代尔,2012年。
[57] U.Kang,C.Tsourakakis和C.Faloutsos,Pegasus:一个peta-scale图形挖掘系统的实现和观察,第九届IEEE数据挖掘国际会议(ICDM)论文集,佛罗里达州迈阿密,2009年。
[58] L.Akoglu、M.McGlohon和C.Faloutsos,《奇数球:在加权图中发现异常》,《第十四届亚太知识发现和数据挖掘会议论文集》,印度海得拉巴,2010年。
[59] B.Shneiderman,《极端可视化:将10亿条记录压缩成100万像素》,《ACM国际数据管理会议论文集》,不列颠哥伦比亚省温哥华,2008年。
[60] E.Bertini和G.Santucci,《偶然是不够的:通过非均匀采样保持相对密度》,《信息可视化学报》,2004年。
[61] U.Kang、J.-Y.Lee、D.Koutra和C.Faloutsos,《网络道路:可视化和挖掘十亿级图形》,《第十八届亚太知识发现和数据挖掘会议论文集》,台湾台南,2014年。
[62] C.Dunne和B.Shneiderman,Motif simplization:Improving network visualization readability with fan,connector,and clique glyphs,In Proceedings of the SIGCHI Conference on Human Factors In Computing Systems(CHI),New York,ACM,2013年,第3247-3256页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。