跳到主要内容
研究论文

基于简洁颜色编码和自适应采样的快速Motif计数

出版:2021年5月19日出版历史
跳过抽象节

摘要

我们解决了计算诱导连通子图分布的问题,也就是graphlet图形图案,以大图形式显示。当前最先进的算法利用Alon、Yuster和Zwick的颜色编码技术,通过均匀采样来估计图案数量。在这项工作中,我们通过引入一组算法优化和技术来扩展此方法的适用性,这些优化和技术减少了颜色编码的运行时间和空间使用,并提高了计数的准确性。为此,我们首先展示了如何优化颜色编码,以有效地构建输入图中所有graphlet的代表性子样本的紧凑表。对于8节点基序,我们可以在一个小时内为一个具有65M节点和1.8B边的图构建这样一个表,即\然后,我们引入了一种新的自适应采样方案,该方案打破了均匀采样的“加性误差屏障”,保证了乘法近似,而不仅仅是加性近似。这使我们不仅可以计算出最常见的图案,还可以计算出极为罕见的图案。例如,在一张图上,我们准确地计算了近10.000个不同的8节点基序,它们的相对频率非常小,以至于均匀采样需要几个世纪才能找到它们。我们的结果表明,颜色编码仍然是可伸缩模体计数的最有希望的方法。

工具书类

  1. Ahmed F.Abdelzaher、Ahmad F.Al-Musawi、Preetam Ghosh、Michael L.Mayo和Edward J.Perkins。2015.使用基于基序的优先依恋的转录网络生长模型。Front Bioeng Biotechtol 3(2015),157。内政部:内政部:https://doi.org/10.3389/fbioe.2015.00157谷歌学者谷歌学者交叉引用交叉引用
  2. 马特奥·阿戈斯蒂尼(Matteo Agostini)、马可·布雷桑(Marco Bressan)和沙赫扎德·哈达丹(Shahrzad Haddadan)。2019.石墨随机游动的混合时间界限。通知。过程。莱特。152 (2019), 105851. 内政部:内政部:https://doi.org/10.1016/j.ipl.2019.105851谷歌学者谷歌学者交叉引用交叉引用
  3. 内斯琳·艾哈迈德(Nesreen K.Ahmed)、詹妮弗·内维尔(Jennifer Neville)、瑞安·罗西(Ryan A.Rossi)和尼克·达菲尔德(Nick Duffield)。2015年,大型网络的高效石墨线计数。2015年IEEE数据挖掘国际会议论文集。1-10.内政部:内政部:https://doi.org/10.1109/IDM.2015.141谷歌学者谷歌学者数字图书馆数字图书馆
  4. N.Alon、P.Dao、I.Hajirasouliha、F.Hormozdiari和S.C.Sahinalp。2008。生物分子网络基序计数和颜色编码发现。生物信息学24,13(2008年7月),i241-249。谷歌学者谷歌学者数字图书馆数字图书馆
  5. 诺加·阿隆、奥里·古列·古列维奇和埃亚尔·卢贝茨基。2010.分配中的选择-记忆权衡。附录申请。普罗巴伯。20,4(2010),1470–1511。谷歌学者谷歌学者交叉引用交叉引用
  6. 诺加·阿隆、拉斐尔·尤斯特和乌里·兹威克。1995.彩色编码。《美国医学会期刊》42,4(1995),844-856。内政部:内政部:https://doi.org/10.1145/20332.210337谷歌学者谷歌学者数字图书馆数字图书馆
  7. Toufik Baroudi、Rachid Seghir和Vincent Loechner。2017.使用2d封装布局优化三角形和带状矩阵操作。ACM TACO 14,4(2017),55:1–55:19。DOI:DOI:https://doi.org/10.1145/3162016谷歌学者谷歌学者数字图书馆数字图书馆
  8. 曼苏鲁尔·布伊扬、马穆杜尔·拉赫曼、马穆达·拉赫曼和穆罕默德·哈桑。2012.GUISE:用于大型图形分析的Graphlet均匀采样。2012年IEEE数据挖掘国际会议论文集。91–100.内政部:内政部:https://doi.org/10.109/ICDM.2012.87谷歌学者谷歌学者数字图书馆数字图书馆
  9. 马可·布莱桑、弗拉维奥·基里切蒂、拉维·库马尔、斯特凡诺·卢奇和亚历山德罗·潘科内西。2017.计算图表:空间与时间。第十届ACM网络搜索和数据挖掘国际会议论文集。557–566. 内政部:内政部:https://doi.org/10.1145/3018661.3018732谷歌学者谷歌学者数字图书馆数字图书馆
  10. 马可·布莱桑、弗拉维奥·基里切蒂、拉维·库马尔、斯特凡诺·卢奇和亚历山德罗·潘科内西。2018年,主题数超过五个节点。ACM TKDD 12,4,第48条(2018年),25页。谷歌学者谷歌学者数字图书馆数字图书馆
  11. 马可·布莱桑、斯特凡诺·卢奇和亚历山德罗·潘科内西。2019.动机:通过简洁的颜色编码和自适应采样快速计算图案。程序。荷兰VLDB。第12、11页(2019年7月),1651–1663。内政部:内政部:https://doi.org/10.14778/3342263.3342640谷歌学者谷歌学者数字图书馆数字图书馆
  12. 文凯特桑·查卡拉瓦尔西、迈克尔·卡普拉洛夫、普拉卡什·穆拉利、法布里奇奥·佩里尼、新余奎、约基什·萨巴瓦尔和巴鲁克·希伯。2016。子图计数:超越树木的颜色编码。2016年IEEE国际并行和分布式处理研讨会论文集。2–11.谷歌学者谷歌学者交叉引用交叉引用
  13. 陈建儿、黄秀珍、伊亚德·坎吉和葛霞。2006.通过参数化复杂性实现强大的计算下限。J.计算。系统科学。72,8(2006),1346–1367。内政部:内政部:https://doi.org/10.1016/j.jcss.2006.04.007谷歌学者谷歌学者数字图书馆数字图书馆
  14. Xuhao Chen、Roshan Dathathri、Gurbinder Gill和Keshav Pingali。2020年,穿山甲:基于CPU和GPU的高效灵活的图形挖掘系统。程序。荷兰VLDB。2013年4月8日(2020年4月),1190-1205。内政部:内政部:https://doi.org/10.14778/3389133.3389137谷歌学者谷歌学者数字图书馆数字图书馆
  15. 陈晓伟、李永坤、王平慧和吕国祥。2016年,通过随机漫步估算graphlet统计的一般框架。程序。荷兰VLDB。10, 3 (2016), 253–264. 内政部:内政部:https://doi.org/10.14778/3021924.3021940谷歌学者谷歌学者数字图书馆数字图书馆
  16. Vinicius Dias、Carlos H.C.Teixeira、Dorgival Guedes、Wagner Meira和Srinivasan Parthasarathy。2019.分形:通用图形模式挖掘系统。2019年国际数据管理会议记录。1357–1374. 内政部:内政部:https://doi.org/10.1145/3299869.3319875谷歌学者谷歌学者数字图书馆数字图书馆
  17. Devdatt Dubhashi和Alessandro Panconesi。2009年,《随机算法分析的度量集中》(第1版)。剑桥大学出版社,纽约州纽约市。谷歌学者谷歌学者数字图书馆数字图书馆
  18. P.埃利亚斯。1975.通用码字集和整数表示。IEEE传输。Inf.Theory 21,2(1975),194-203。内政部:内政部:https://doi.org/10.109/TIT.1975.1055349谷歌学者谷歌学者数字图书馆数字图书馆
  19. 艾琳·菲诺奇、马可·菲诺基和伊曼纽尔·福斯科。2015.MapReduce中的团计数:算法和实验。ACM J.实验算法20,第1.7条(2015年10月),20页。内政部:内政部:https://doi.org/10.1145/2794080网址谷歌学者谷歌学者数字图书馆数字图书馆
  20. Guyue Han和Harish Sethu。2016.漫步随机行走:快速准确地挖掘大型图形中的主题统计信息。2016年IEEE数据挖掘国际会议论文集。181-190。谷歌学者谷歌学者交叉引用交叉引用
  21. 福尔克·胡夫纳(Falk Hüffner)、塞巴斯蒂安·沃尼克(Sebastian Wernicke)和托马斯·齐奇纳(Thomas Zichner)。2008年。彩色编码算法工程及其在信号通路检测中的应用。算法52,2(2008),114–132。谷歌学者谷歌学者数字图书馆数字图书馆
  22. Shweta Jain和C.Seshadhri,2017年。使用Turán定理估计团数的一种快速且可证明的方法。2017年万维网会议记录。441–449. 内政部:内政部:https://doi.org/10.1145/3038912.3052636谷歌学者谷歌学者数字图书馆数字图书馆
  23. Shweta Jain和C.Seshadhri,2020年。旋转的力量,精确计算团数。在2020年ACM网络搜索和数据挖掘国际会议论文集上。268–276. 内政部:内政部:https://doi.org/10.1145/3336191.3371839谷歌学者谷歌学者数字图书馆数字图书馆
  24. H.Jeong、S.P.Mason、A.-L.Barabási和Z.N.Oltvai。2001.蛋白质网络的致命性和中心性。《自然》4116833(2001年5月),41-42。内政部:内政部:https://doi.org/10.1038/35075138谷歌学者谷歌学者交叉引用交叉引用
  25. Madhav Jha、C.Seshadhri和Ali Pinar。2015.路径采样:一种快速且可证明的估计四顶点子图计数的方法。2015年万维网会议记录。495–505. 内政部:内政部:https://doi.org/10.1145/2736277.2741101谷歌学者谷歌学者数字图书馆数字图书馆
  26. 丹尼尔·马惠特和吴波。2019.AutoMine:协调图形挖掘的高级抽象和高性能。第27届ACM操作系统原理研讨会论文集。509–523. 内政部:内政部:https://doi.org/10.1145/3341301.3359633谷歌学者谷歌学者数字图书馆数字图书馆
  27. Brendan D.McKay和Adolfo Piperno。2014.实用图同构,II。J.塞姆。计算。60, 0 (2014), 94–112. DOI:DOI:https://doi.org/10.1016/j.jsc.2013.09.003谷歌学者谷歌学者数字图书馆数字图书馆
  28. 理查德·奥特(Richard Otter)。1948.树木的数量。安。数学。49, 3 (1948), 583–599.谷歌学者谷歌学者交叉引用交叉引用
  29. 基里尔·帕拉莫诺夫、德米特里·谢梅托夫和詹姆斯·夏普纳克。2019.通过提升来估计图表统计数据。第25届ACM SIGKDD知识发现与数据挖掘国际会议论文集。587–595. 内政部:内政部:https://doi.org/10.1145/3292500.3330995谷歌学者谷歌学者数字图书馆数字图书馆
  30. Ali Pinar、C.Seshadhri和Vaidyanathan Vishal。2017.ESCAPE:高效计算所有5顶点子图。2017年万维网会议记录。1431–1440. DOI:DOI:https://doi.org/10.1145/3038912.3052597谷歌学者谷歌学者数字图书馆数字图书馆
  31. S.Ranu和A.K.Singh。2009年。GraphSig:一种在大型图形数据库中挖掘重要子图的可扩展方法。《2009年IEEE第25届国际数据工程会议论文集》844-855。谷歌学者谷歌学者数字图书馆数字图书馆
  32. G.M.Slota和K.Madduri,2013年。快速近似子图计数和枚举。2013年第42届并行处理国际会议论文集。210–219. 内政部:内政部:https://doi.org/10.109/ICPP.2013.30谷歌学者谷歌学者数字图书馆数字图书馆
  33. Carlos H.C.Teixeira、Alexandre J.Fonseca、Marco Serafini、Georgos Siganos、Mohammed J.Zaki和Ashraf Aboulnaga。2015.Arabesque:分布式图形挖掘系统。第25届操作系统原理研讨会论文集。425–440. 内政部:内政部:https://doi.org/10.1145/2815400.2815410谷歌学者谷歌学者数字图书馆数字图书馆
  34. Ngoc Hieu Tran、Kwok Pui Choi和Louxin Zhang。2013年,人类交互组中的计数主题。Nat Commun 4,2241(2013)。谷歌学者谷歌学者
  35. 迈克尔·D·沃斯。1991.生成给定分布的随机数的线性算法。IEEE传输。软件工程17,9(1991),972–975。DOI:DOI:https://doi.org/10.109/32.92917谷歌学者谷歌学者数字图书馆数字图书馆
  36. 王平辉、路易斯(John C.S.Lui)、里贝罗(Bruno Ribeiro)、唐·托斯利(Don Towsley)、赵俊洲(Junzhou Zhao)和关晓红(Xiaohong Guan)。2014年,高效估计大型网络的模体统计数据。ACM TKDD 9,2(2014),27页。内政部:内政部:https://doi.org/10.1145/2629564谷歌学者谷歌学者数字图书馆数字图书馆
  37. 王平辉、陶静、赵俊洲和关晓红。2018年,Moss:高效采样和计算4节点和5节点Graphlet的可扩展工具。IEEE知识与数据工程汇刊30,1(2018),73-86。内政部:10.1109/TKDE.2017.2756836谷歌学者谷歌学者交叉引用交叉引用
  38. 王平慧、张向良、李振国、程洁峰、路易斯、唐·托斯利、赵俊洲、陶静和关晓红。2019.探索大型有向图和无向图的石墨线度的快速采样方法。知识与信息系统61,1(2019),301-326。谷歌学者谷歌学者交叉引用交叉引用
  39. 奥梅尔·内比尔·亚维罗卢、诺埃尔·马洛德·多宁、达伦·戴维斯、佐兰·列夫纳吉奇、武克·扬吉奇、拉萨·卡拉潘扎、阿列克桑达尔·斯托杰米罗维奇和娜塔沙·普日尔吉。2014.揭示复杂网络的隐藏语言。科学代表4,第4547条(2014年)。内政部:http://dx.doi.org/10.1038/srep04547谷歌学者谷歌学者
  40. Esti Yeger-Lotem、Shmuel Sattath、Nadav Kashtan、Shalev Itzkovitz、Ron Milo、Ron Y.Pinter、Uri Alon和Hanah Margalit。2004.转录-调节和蛋白质-蛋白质相互作用的集成细胞网络中的网络基序。《美国国家科学院院刊》101,16(2004),5934–5939。内政部:内政部:https://doi.org/10.1073/pnas.0306752101谷歌学者谷歌学者交叉引用交叉引用
  41. 郝茵(Hao Yin)、奥斯汀·R·本森(Austin R.Benson)、朱尔·莱斯科维奇(Jure Leskovec)和大卫·F·格莱奇(David F.Gleich)。2017.局部高阶图聚类。第23届ACM SIGKDD知识发现和数据挖掘国际会议论文集。555–564. 内政部:内政部:https://doi.org/10.1145/3097983.3098069谷歌学者谷歌学者数字图书馆数字图书馆
  42. 张浩、许瑜、张一凯、赵康飞和洪成。2020年。分布式子图计数:通用方法。程序。荷兰VLDB。13、12(2020年8月),2493–2507。内政部:内政部:https://doi.org/10.14778/3407790.3407840谷歌学者谷歌学者数字图书馆数字图书馆
  43. 赵昭(Zhao Zhao)、马莱克·汗(Maleq Khan)、V.S.Anil Kumar和马达夫·马拉特(Madhav V.Marathe)。2010年,大型社交网络中使用并行颜色编码和流媒体的子图枚举。2010年第39届国际并行处理会议记录。594–603. DOI:DOI:https://doi.org/10.109/ICPP.2010.67谷歌学者谷歌学者数字图书馆数字图书馆
  44. Z.Zhao、G.Wang、A.R.Butt、M.Khan、V.S.A.Kumar和M.V.Marathe。2012.SAHAD:使用Hadoop在大规模网络中进行子图分析。2012年IEEE第26届国际并行和分布式处理研讨会论文集。390–401.谷歌学者谷歌学者数字图书馆数字图书馆

索引术语

  1. 通过简洁的颜色编码和自适应采样实现更快的Motif计数

        建议

        评论

        登录选项

        检查您是否可以通过登录凭据或您的机构访问本文。

        登录

        完全访问权限

        • 发布于

          从数据中发现知识的封面图像ACM事务
          ACM数据知识发现事务 第15卷第6期
          2021年6月
          474页
          国际标准编号:1556-4681
          EISSN公司:1556-472倍
          内政部:10.1145/3465438
          期刊目录

          版权所有©2021版权归所有人/作者所有。授权给ACM的出版权。

          如果复制品不是为了盈利或商业利益而制作或分发的,并且复制品的第一页载有本通知和完整引文,则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布,在服务器上发布或重新发布到列表,需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].

          出版商

          计算机协会

          美国纽约州纽约市

          出版历史

          • 出版:2021年5月19日
          • 认可的:2021年1月1日
          • 收到:2020年9月1日
          发布于tkdd公司第15卷第6期

          权限

          请求有关此文章的权限。

          请求权限

          检查更新

          限定符

          • 研究论文
          • 参考

        PDF格式

        以PDF文件查看或下载。

        PDF格式

        电子阅读器

        使用eReader联机查看。

        电子阅读器

        HTML格式

        以HTML格式查看本文。

        查看HTML格式