×

使用MapReduce分布式发现网络的频繁子图。 (英语) Zbl 1343.68284号

摘要:发现网络的频繁子图是一个具有挑战性和耗时的过程。之前已经提出了一些启发和改进。然而,当子图的大小或网络的大小较大时,该过程不能在可行的时间内在单个机器上完成。有希望的解决方案之一是利用可用的并行和分布式系统的处理能力。在本文中,我们提出了一种使用MapReduce框架发现网络频繁子图的分布式解决方案。该解决方案名为MRSUB,是为了在Hadoop框架上运行而开发的。MRSUB使用了一种新颖的、负载平衡的并行子图枚举算法,并将其放入MapReduceFramework中。此外,采用快速子图同构检测启发式算法,进一步加快了整个过程。我们在拥有40台机器的私有云基础设施上执行了MRSUB,并在不同的网络上进行了几次实验。实验结果表明,MRSUB具有良好的伸缩性,为发现在可行时间内单台机器上不可能实现的网络频繁子图提供了有效的解决方案。

MSC公司:

68宽15 分布式算法
05C60型 图论中的同态问题(重构猜想等)和同态(子图嵌入等)
05C85号 图形算法(图论方面)
68兰特 计算机科学中的图论(包括图形绘制)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Milo R、Shen-Orr S、Itzkovitz S等人(2002)《网络主题:复杂网络的简单构建块》。科学298:824-827·doi:10.1126/science.298.5594.824
[2] Wernicke S(2006)网络基序的高效检测。IEEE/ACM Trans-Comput Biol生物信息3:347-359·doi:10.1010/TCBB.2006.51
[3] Wernicke S,Rasche F(2006)FANMOD:快速网络基序检测工具。生物信息学22:1152-1153·doi:10.1093/bioinformatics/btl038
[4] Kashani ZRM,Ahrabian H,Elahi E et al(2009)Kavosh:一种新的网络基序发现算法。BMC生物信息10:318·doi:10.1186/1471-2105-10-318
[5] Ribeiro P、Silva F、Lopes L(2012)网络基序的平行发现。J平行分布计算72:144-154·doi:10.1016/j.jpdc.2011.08.007
[6] Grochow,J。;凯利斯,M。;Speed,T.(编辑);Huang,H.(编辑),使用子图枚举和对称破缺的网络基序发现,92-106(2007),柏林·数字对象标识代码:10.1007/978-3-540-71681-57
[7] Rudi AG、Shahrivari S、Jalili S、Kashani ZRM(2013)RANGI:一种快速列表着色图基序查找算法。IEEE/ACM Trans-Comput生物信息10:504-513·doi:10.1109/TCBB.2012.167
[8] Masoudi-Nejad A,Schreiber F,Kashani ZRM(2012)《生物网络的构建模块:主要网络模体发现算法综述》。系统生物学6:164-174
[9] Wong E,Baur B,Quader S,Huang C-H(2012)《生物网络基序检测:原理与实践》。生物信息简介13:202-215·doi:10.1093/bib/bbr033
[10] Kang U,Tsourakakis CE,Faloutsos C(2011)《PEGASUS:挖掘peta-scale图》。知识信息系统27:303-325·doi:10.1007/s10115-010-0305-0
[11] Inokuchi A,Washio T,Motoda H(2003)从图中完全挖掘频繁模式:挖掘图数据。马赫学习50:321-354·Zbl 1033.68079号 ·doi:10.1023/A:1021726221443
[12] Kuramochi M,Karypis G(2001)频繁子图发现。摘自:IEEE数据挖掘国际会议论文集,第313-320页
[13] 严X,韩J(2002)gSpan:基于图的子结构模式挖掘。摘自:IEEE数据挖掘国际会议论文集,第721-724页
[14] Schreiber F,Schwbbermeyer H(2004)《网络中的主题检测:频率概念和灵活搜索》。摘自:生物网络工具和应用国际研讨会论文集。NETTAB,第91-102页·Zbl 1442.68065号
[15] Kuramochi M,Karypis G(2004)GREW-一种可扩展的频繁子图发现算法。摘自:第四届IEEE数据挖掘国际会议论文集ICDM’04,第439-442页
[16] Holder LB、Cook DJ、Djoko S(1994),俯冲体系中的亚结构发现。摘自:数据库知识发现研讨会论文集,第169-180页
[17] Afrati FN、Fotakis D、Ullman JD(2013)使用map-reduce枚举子图实例。摘自:IEEE第29届数据工程国际会议(ICDE)会议记录,第62-73页
[18] Cohen J(2009)MapReduce世界中的图形旋转。计算机科学与工程11:29-41·doi:10.1109/MCSE.2009.120
[19] Suri S,Vassilvitskii S(2011)《计算三角形和最后一个减速器的诅咒》。收录于:第20届万维网国际会议论文集。纽约州ACM,第607-614页
[20] Kolda TG、Pinar A、Plantenga T等人(2013)使用MapReduce计算海量图中的三角形。arXiv:1301.5887·Zbl 1306.05237号
[21] Pagh R,Tsourakakis CE(2012)彩色三角形计数和mapreduce实现。Inf过程快报112:277-281·Zbl 1237.68245号 ·doi:10.1016/j.ipl.2011.12.007
[22] Zhao Z,Wang G,Butt AR等人(2012)Sahad:使用hadoop在大规模网络中进行子图分析。收录:IEEE国际并行与分布式处理研讨会(IPDPS)论文集。IEEE,第390-401页
[23] Kang U,Tsourakakis CE,Appel AP,Faloutsos C,Leskovec J(2011)Hadi:大型图的挖掘半径。ACM事务处理知识发现数据5(2):1-24·数字对象标识代码:10.1145/1921632.1921634
[24] Johnson DS(2005)《NP完备性专栏》。ACM传输算法1:160-176·兹比尔1442.68065 ·数字对象标识代码:10.1145/1077464.1077476
[25] Dean J,Ghemawat S(2008)MapReduce:大型集群上的简化数据处理。社区ACM 51:1-13·数字对象标识代码:10.1145/1227452.1327492
[26] Dean J,Ghemawat S(2010)MapReduce:一种灵活的数据处理工具。通用ACM 53:72-77·doi:10.1145/1629175.1629198
[27] White T(2012)Hadoop:权威指南。加利福尼亚州雅虎出版社
[28] McKay BD(1981)实用图同构。美国田纳西州范德比尔特大学计算机科学系
[29] Junttila T,Kaski P(2007)为大型和稀疏图设计一种有效的规范标记工具。摘自:Applegate D、Brodal GS、Panario D、Sedgewick R(eds)第九届算法工程与实验研讨会论文集和第四届分析算法与组合学研讨会论文集。SIAM,第135-149页·Zbl 1428.68222号
[30] West DB(2001)图论导论。英格伍德悬崖普伦蒂斯·霍尔
[31] Kashtan N,Itzkovitz S,Milo R,Alon U(2004)估算子图浓度和检测网络主题的高效采样算法。生物信息学20:1746-1758·doi:10.1093/bioinformatics/bth163
[32] Srihari S,Leong HW(2013)《从蛋白质相互作用网络预测蛋白质复合物的计算方法调查》。生物信息计算机生物学杂志11:12-30·doi:10.1142/S021972012230002X
[33] Pablo MG,Danon L(2003)《爵士乐中的社区结构》。高级综合系统6:565-573·doi:10.1142/S0219525903001067
[34] StehléJ、Voirin N、Barrat A等人(2011)小学面对面接触模式的高分辨率测量。公共科学图书馆ONE 6:e23176·doi:10.1371/journal.pone.0023176
[35] Leskovec J、Huttenlocher D、Kleinberg J(2010)预测在线社交网络中的积极和消极联系。摘自:第19届万维网国际会议记录,第641-650页
[36] Leskovec J,Mcauley JJ(2012)《学习发现自我网络中的社交圈》。摘自:《神经信息处理系统进展学报》,第539-547页
[37] Leskovec J、Kleinberg J、Faloutsos C(2007)《图形演变:致密化和收缩直径》。ACM变速器知识发现数据1(1):1-41·doi:10.1145/1217299.1217301
[38] Albert R、Jeong H、Barabási A-L(1999)《互联网:全球互联网的直径》。自然401:130-131·doi:10.1038/43601
[39] Stoica I、Morris R、Karger D等人(2001)Chord:一种适用于互联网应用的可扩展对等查找服务。SIGCOMM计算机通信版本31:149-160·数字对象标识代码:10.1145/964723.383071
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。