×

大规模网络中的分布式图挖掘方法。 (英文) Zbl 1411.68123号

摘要:我们提出了一种新的分布式算法,用于从单个、非常大的标记网络中挖掘频繁子图。我们的方法是第一种分布式方法,用于挖掘太大而无法放入任何单个计算节点内存的大规模输入图。因此,必须在节点之间划分输入图,这可能会导致潜在的误报。此外,为了获得可扩展的性能,最小化计算节点之间的通信至关重要。我们的算法,DistGraph(分布图)确保没有误报,并使用一组优化和高效的集体通信操作来最小化信息交换。据我们所知DistGraph(分布图)是第一种演示缩放到具有十亿个顶点和边的图的方法。在多达2048个IBM Blue Gene/Q计算节点(每个节点有16个核)上的可扩展性结果显示出了非常好的速度提升。

MSC公司:

68T05型 人工智能中的学习和自适应系统
05C82号 小世界图形、复杂网络(图形理论方面)
62-07 数据分析(统计)(MSC2010)
62H30型 分类和区分;聚类分析(统计方面)
第68页,共15页 数据库理论
68宽15 分布式算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Afrati FN、Fotakis D、Ullman JD(2013)使用map-reduce枚举子图实例。参加:IEEE数据工程国际会议
[2] Bhuiyan M,Al Hasan M(2015)基于迭代mapreduce的频繁子图挖掘算法。IEEE Trans Knowl Data Eng 27(3):608-620·doi:10.1109/TKDE.2014.2345408
[3] Bringmann B,Nijssen S(2008)单个图形中的频率是多少?主题:亚太地区知识发现和数据挖掘进展会议
[4] Buehrer G,Parthasarathy S,Chen Y-K(2006)cmp体系结构的自适应并行图挖掘。参加:IEEE数据挖掘国际会议
[5] Elseidy M,Abdelhamid E,Skiadopoulos S,Kalnis P(2014)Grami:单个大型图中的频繁子图和模式挖掘。程序VLDB Endow 7:517-528·doi:10.14778/2732286.2732289
[6] Fatta GD,Berthold MR(2006),分子结构分布式挖掘的动态负载平衡。IEEE跨并行配电系统17(8):773-785·doi:10.1109/TPDS.2006.101
[7] Hill S,Srichandan B,Sunderraman R(2012)生物数据集中频繁子图挖掘的迭代mapreduce方法。参加:ACM生物信息学、计算生物学和生物医学会议
[8] Holder LB,Cook DJ(1993)从结构数据中发现不精确的概念。IEEE Trans Knowl Data Eng 5(6):992-994·数字对象标识代码:10.1109/69.250085
[9] Huan J,Wang W,Prins J(2003)同构下频繁子图的高效挖掘。参加:IEEE数据挖掘国际会议
[10] Inokuchi A,Washio T,Motoda H(2000)一种基于先验的算法,用于从图形数据中挖掘频繁子结构。In:数据挖掘和知识发现的原理。LNCS第1910卷。施普林格,第13-23页
[11] Karypis G,Kumar V(1998)用于划分不规则图的快速高质量多级方案。SIAM科学计算杂志20(1):359-392·Zbl 0915.68129号 ·doi:10.1137/S1064827595287997
[12] Kessl R、Talukder N、Anchuri P、Zaki MJ(2014)《使用GPU的并行图挖掘》。BigMine研讨会论文集(ACM SIGKDD),《机器学习研究杂志:会议和研讨会论文集》,第36:1-16页
[13] Kimelfeld B,Kolaitis PG(2014)挖掘最大频繁子图的复杂性。ACM跨数据库系统(TODS)39(4):32·Zbl 1474.68106号 ·doi:10.1145/2629550
[14] Kuramochi M,Karypis G(2001)频繁子图发现。在:IEEE数据挖掘国际会议
[15] Kuramochi M,Karypis G(2005)在大型稀疏图中发现频繁模式。数据最小知识发现11(3):243-271·doi:10.1007/s10618-005-0003-9
[16] Lin W,Xiao X,Ghinta G(2014)mapreduce中的大尺度频繁子图挖掘。参加:IEEE数据工程国际会议
[17] Liu Y,Jiang X,Chen H,Ma J,Zhang X(2009)基于Mapreduce的模式查找算法在处方配伍网络基序检测中的应用。in:Advanced parallel processing technologies,LNCS vol.5737。施普林格,pp 341-355
[18] Lu W,Chen G,Tung A,Zhao F(2013)使用mapreduce高效提取频繁子图。参加:IEEE大数据国际会议
[19] Meinl T,Wörlein M,Fischer I,Philippsen M(2006)在对称多处理器系统上挖掘分子数据集。收录:IEEE系统、人与控制论国际会议,第2卷
[20] Reinhardt S,Karypis G(2007)在大型稀疏图中查找频繁模式的程序的多级并行实现。In:IEEE国际并行和分布式处理研讨会
[21] Shahrivari S,Jalili S(2015)使用MapReduce分布式发现网络的频繁子图。计算97(11):1101-1120·Zbl 1343.68284号 ·doi:10.1007/s00607-015-0446-9
[22] Shao Y,Cui B,Chen L,Ma L,Yao J,Xu N(2014)大规模图中的并行子图列表。参加:ACM SIGMOD国际数据管理会议
[23] 孙Z,王H,王H,邵B,李J(2012)十亿节点图上的高效子图匹配。VLDB Endow程序5(9):788-799·doi:10.14778/2311906.2311907
[24] Teixeira CHC、Fonseca AJ、Serafini M、Siganos G、Zaki MJ、Aboulnaga A(2015)《阿拉伯:分布式图形模式挖掘系统》。In:第25届ACM操作系统原理研讨会
[25] 尤卡尔,D。;Asur,S。;Catalysurek,美国。;Parthasarathy,S。;Fürnkranz,J.(编辑);Scheffer,T.(编辑);Spiliopoulou,M.(编辑),使用hub-induced subgraph改进蛋白质相互作用图中的功能模块性,371-382(2006),柏林·doi:10.1007/11871637_36
[26] Wu B,Bai Y(2010)一种有效的超大图中的分布式子图挖掘算法。In:人工智能和计算智能国际会议:第一部分
[27] 严X,韩J(2002)gspan:基于图的子结构模式挖掘。参加:IEEE数据挖掘国际会议
[28] Yang G(2004)挖掘最大频繁项集和最大频繁模式的复杂性。摘自:第十届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第344-353页
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。