研究论文

基于简洁颜色编码和自适应采样的快速Motif计数

作者：
马可·布莱桑

意大利米兰国立大学

意大利米兰国立大学

0000-0001-5211-2264
查看个人资料

,
斯特凡诺·卢奇

意大利阿奎拉大学

意大利阿奎拉大学
查看个人资料

,
亚历山德罗·潘科内西

意大利罗马萨皮恩扎大学

意大利罗马萨皮恩扎大学
查看个人资料

作者信息和声明

ACM数据知识发现事务第15卷第6版条款编号：96第1-27页https://doi.org/10.1145/3447397

出版：2021年5月19日出版历史

ACM数据知识发现事务

摘要

我们解决了计算诱导连通子图分布的问题，也就是graphlet图形或图案，以大图形式显示。当前最先进的算法利用Alon、Yuster和Zwick的颜色编码技术，通过均匀采样来估计图案数量。在这项工作中，我们通过引入一组算法优化和技术来扩展此方法的适用性，这些优化和技术减少了颜色编码的运行时间和空间使用，并提高了计数的准确性。为此，我们首先展示了如何优化颜色编码，以有效地构建输入图中所有graphlet的代表性子样本的紧凑表。对于8节点基序，我们可以在一个小时内为一个具有65M节点和1.8B边的图构建这样一个表，即\然后，我们引入了一种新的自适应采样方案，该方案打破了均匀采样的“加性误差屏障”，保证了乘法近似，而不仅仅是加性近似。这使我们不仅可以计算出最常见的图案，还可以计算出极为罕见的图案。例如，在一张图上，我们准确地计算了近10.000个不同的8节点基序，它们的相对频率非常小，以至于均匀采样需要几个世纪才能找到它们。我们的结果表明，颜色编码仍然是可伸缩模体计数的最有希望的方法。

工具书类

Ahmed F.Abdelzaher、Ahmad F.Al-Musawi、Preetam Ghosh、Michael L.Mayo和Edward J.Perkins。2015.使用基于基序的优先依恋的转录网络生长模型。Front Bioeng Biotechtol 3（2015），157。内政部：内政部：https://doi.org/10.3389/fbioe.2015.00157谷歌学者交叉引用
马特奥·阿戈斯蒂尼（Matteo Agostini）、马可·布雷桑（Marco Bressan）和沙赫扎德·哈达丹（Shahrzad Haddadan）。2019.石墨随机游动的混合时间界限。通知。过程。莱特。152 (2019), 105851. 内政部：内政部：https://doi.org/10.1016/j.ipl.2019.105851谷歌学者交叉引用
内斯琳·艾哈迈德（Nesreen K.Ahmed）、詹妮弗·内维尔（Jennifer Neville）、瑞安·罗西（Ryan A.Rossi）和尼克·达菲尔德（Nick Duffield）。2015年，大型网络的高效石墨线计数。2015年IEEE数据挖掘国际会议论文集。1-10.内政部：内政部：https://doi.org/10.1109/IDM.2015.141谷歌学者数字图书馆
N.Alon、P.Dao、I.Hajirasouliha、F.Hormozdiari和S.C.Sahinalp。2008。生物分子网络基序计数和颜色编码发现。生物信息学24,13（2008年7月），i241-249。谷歌学者数字图书馆
诺加·阿隆、奥里·古列·古列维奇和埃亚尔·卢贝茨基。2010.分配中的选择-记忆权衡。附录申请。普罗巴伯。20，4（2010），1470–1511。谷歌学者交叉引用
诺加·阿隆、拉斐尔·尤斯特和乌里·兹威克。1995.彩色编码。《美国医学会期刊》42，4（1995），844-856。内政部：内政部：https://doi.org/10.1145/20332.210337谷歌学者数字图书馆
Toufik Baroudi、Rachid Seghir和Vincent Loechner。2017.使用2d封装布局优化三角形和带状矩阵操作。ACM TACO 14，4（2017），55:1–55:19。DOI:DOI:https://doi.org/10.1145/3162016谷歌学者数字图书馆
曼苏鲁尔·布伊扬、马穆杜尔·拉赫曼、马穆达·拉赫曼和穆罕默德·哈桑。2012.GUISE：用于大型图形分析的Graphlet均匀采样。2012年IEEE数据挖掘国际会议论文集。91–100.内政部：内政部：https://doi.org/10.109/ICDM.2012.87谷歌学者数字图书馆
马可·布莱桑、弗拉维奥·基里切蒂、拉维·库马尔、斯特凡诺·卢奇和亚历山德罗·潘科内西。2017.计算图表：空间与时间。第十届ACM网络搜索和数据挖掘国际会议论文集。557–566. 内政部：内政部：https://doi.org/10.1145/3018661.3018732谷歌学者数字图书馆
马可·布莱桑、弗拉维奥·基里切蒂、拉维·库马尔、斯特凡诺·卢奇和亚历山德罗·潘科内西。2018年，主题数超过五个节点。ACM TKDD 12，4，第48条（2018年），25页。谷歌学者数字图书馆
马可·布莱桑、斯特凡诺·卢奇和亚历山德罗·潘科内西。2019.动机：通过简洁的颜色编码和自适应采样快速计算图案。程序。荷兰VLDB。第12、11页（2019年7月），1651–1663。内政部：内政部：https://doi.org/10.14778/3342263.3342640谷歌学者数字图书馆
文凯特桑·查卡拉瓦尔西、迈克尔·卡普拉洛夫、普拉卡什·穆拉利、法布里奇奥·佩里尼、新余奎、约基什·萨巴瓦尔和巴鲁克·希伯。2016。子图计数：超越树木的颜色编码。2016年IEEE国际并行和分布式处理研讨会论文集。2–11.谷歌学者交叉引用
陈建儿、黄秀珍、伊亚德·坎吉和葛霞。2006.通过参数化复杂性实现强大的计算下限。J.计算。系统科学。72，8（2006），1346–1367。内政部：内政部：https://doi.org/10.1016/j.jcss.2006.04.007谷歌学者数字图书馆
Xuhao Chen、Roshan Dathathri、Gurbinder Gill和Keshav Pingali。2020年，穿山甲：基于CPU和GPU的高效灵活的图形挖掘系统。程序。荷兰VLDB。2013年4月8日（2020年4月），1190-1205。内政部：内政部：https://doi.org/10.14778/3389133.3389137谷歌学者数字图书馆
陈晓伟、李永坤、王平慧和吕国祥。2016年，通过随机漫步估算graphlet统计的一般框架。程序。荷兰VLDB。10, 3 (2016), 253–264. 内政部：内政部：https://doi.org/10.14778/3021924.3021940谷歌学者数字图书馆
Vinicius Dias、Carlos H.C.Teixeira、Dorgival Guedes、Wagner Meira和Srinivasan Parthasarathy。2019.分形：通用图形模式挖掘系统。2019年国际数据管理会议记录。1357–1374. 内政部：内政部：https://doi.org/10.1145/3299869.3319875谷歌学者数字图书馆
Devdatt Dubhashi和Alessandro Panconesi。2009年，《随机算法分析的度量集中》（第1版）。剑桥大学出版社，纽约州纽约市。谷歌学者数字图书馆
P.埃利亚斯。1975.通用码字集和整数表示。IEEE传输。Inf.Theory 21，2（1975），194-203。内政部：内政部：https://doi.org/10.109/TIT.1975.1055349谷歌学者数字图书馆
艾琳·菲诺奇、马可·菲诺基和伊曼纽尔·福斯科。2015.MapReduce中的团计数：算法和实验。ACM J.实验算法20，第1.7条（2015年10月），20页。内政部：内政部：https://doi.org/10.1145/2794080网址谷歌学者数字图书馆
Guyue Han和Harish Sethu。2016.漫步随机行走：快速准确地挖掘大型图形中的主题统计信息。2016年IEEE数据挖掘国际会议论文集。181-190。谷歌学者交叉引用
福尔克·胡夫纳（Falk Hüffner）、塞巴斯蒂安·沃尼克（Sebastian Wernicke）和托马斯·齐奇纳（Thomas Zichner）。2008年。彩色编码算法工程及其在信号通路检测中的应用。算法52，2（2008），114–132。谷歌学者数字图书馆
Shweta Jain和C.Seshadhri，2017年。使用Turán定理估计团数的一种快速且可证明的方法。2017年万维网会议记录。441–449. 内政部：内政部：https://doi.org/10.1145/3038912.3052636谷歌学者数字图书馆
Shweta Jain和C.Seshadhri，2020年。旋转的力量，精确计算团数。在2020年ACM网络搜索和数据挖掘国际会议论文集上。268–276. 内政部：内政部：https://doi.org/10.1145/3336191.3371839谷歌学者数字图书馆
H.Jeong、S.P.Mason、A.-L.Barabási和Z.N.Oltvai。2001.蛋白质网络的致命性和中心性。《自然》4116833（2001年5月），41-42。内政部：内政部：https://doi.org/10.1038/35075138谷歌学者交叉引用
Madhav Jha、C.Seshadhri和Ali Pinar。2015.路径采样：一种快速且可证明的估计四顶点子图计数的方法。2015年万维网会议记录。495–505. 内政部：内政部：https://doi.org/10.1145/2736277.2741101谷歌学者数字图书馆
丹尼尔·马惠特和吴波。2019.AutoMine：协调图形挖掘的高级抽象和高性能。第27届ACM操作系统原理研讨会论文集。509–523. 内政部：内政部：https://doi.org/10.1145/3341301.3359633谷歌学者数字图书馆
Brendan D.McKay和Adolfo Piperno。2014.实用图同构，II。J.塞姆。计算。60, 0 (2014), 94–112. DOI:DOI:https://doi.org/10.1016/j.jsc.2013.09.003谷歌学者数字图书馆
理查德·奥特（Richard Otter）。1948.树木的数量。安。数学。49, 3 (1948), 583–599.谷歌学者交叉引用
基里尔·帕拉莫诺夫、德米特里·谢梅托夫和詹姆斯·夏普纳克。2019.通过提升来估计图表统计数据。第25届ACM SIGKDD知识发现与数据挖掘国际会议论文集。587–595. 内政部：内政部：https://doi.org/10.1145/3292500.3330995谷歌学者数字图书馆
Ali Pinar、C.Seshadhri和Vaidyanathan Vishal。2017.ESCAPE：高效计算所有5顶点子图。2017年万维网会议记录。1431–1440. DOI:DOI:https://doi.org/10.1145/3038912.3052597谷歌学者数字图书馆
S.Ranu和A.K.Singh。2009年。GraphSig：一种在大型图形数据库中挖掘重要子图的可扩展方法。《2009年IEEE第25届国际数据工程会议论文集》844-855。谷歌学者数字图书馆
G.M.Slota和K.Madduri，2013年。快速近似子图计数和枚举。2013年第42届并行处理国际会议论文集。210–219. 内政部：内政部：https://doi.org/10.109/ICPP.2013.30谷歌学者数字图书馆
Carlos H.C.Teixeira、Alexandre J.Fonseca、Marco Serafini、Georgos Siganos、Mohammed J.Zaki和Ashraf Aboulnaga。2015.Arabesque：分布式图形挖掘系统。第25届操作系统原理研讨会论文集。425–440. 内政部：内政部：https://doi.org/10.1145/2815400.2815410谷歌学者数字图书馆
Ngoc Hieu Tran、Kwok Pui Choi和Louxin Zhang。2013年，人类交互组中的计数主题。Nat Commun 4，2241（2013）。谷歌学者
迈克尔·D·沃斯。1991.生成给定分布的随机数的线性算法。IEEE传输。软件工程17，9（1991），972–975。DOI:DOI:https://doi.org/10.109/32.92917谷歌学者数字图书馆
王平辉、路易斯（John C.S.Lui）、里贝罗（Bruno Ribeiro）、唐·托斯利（Don Towsley）、赵俊洲（Junzhou Zhao）和关晓红（Xiaohong Guan）。2014年，高效估计大型网络的模体统计数据。ACM TKDD 9，2（2014），27页。内政部：内政部：https://doi.org/10.1145/2629564谷歌学者数字图书馆
王平辉、陶静、赵俊洲和关晓红。2018年，Moss：高效采样和计算4节点和5节点Graphlet的可扩展工具。IEEE知识与数据工程汇刊30，1（2018），73-86。内政部：10.1109/TKDE.2017.2756836谷歌学者交叉引用
王平慧、张向良、李振国、程洁峰、路易斯、唐·托斯利、赵俊洲、陶静和关晓红。2019.探索大型有向图和无向图的石墨线度的快速采样方法。知识与信息系统61，1（2019），301-326。谷歌学者交叉引用
奥梅尔·内比尔·亚维罗卢、诺埃尔·马洛德·多宁、达伦·戴维斯、佐兰·列夫纳吉奇、武克·扬吉奇、拉萨·卡拉潘扎、阿列克桑达尔·斯托杰米罗维奇和娜塔沙·普日尔吉。2014.揭示复杂网络的隐藏语言。科学代表4，第4547条（2014年）。内政部：http://dx.doi.org/10.1038/srep04547谷歌学者
Esti Yeger-Lotem、Shmuel Sattath、Nadav Kashtan、Shalev Itzkovitz、Ron Milo、Ron Y.Pinter、Uri Alon和Hanah Margalit。2004.转录-调节和蛋白质-蛋白质相互作用的集成细胞网络中的网络基序。《美国国家科学院院刊》101，16（2004），5934–5939。内政部：内政部：https://doi.org/10.1073/pnas.0306752101谷歌学者交叉引用
郝茵（Hao Yin）、奥斯汀·R·本森（Austin R.Benson）、朱尔·莱斯科维奇（Jure Leskovec）和大卫·F·格莱奇（David F.Gleich）。2017.局部高阶图聚类。第23届ACM SIGKDD知识发现和数据挖掘国际会议论文集。555–564. 内政部：内政部：https://doi.org/10.1145/3097983.3098069谷歌学者数字图书馆
张浩、许瑜、张一凯、赵康飞和洪成。2020年。分布式子图计数：通用方法。程序。荷兰VLDB。13、12（2020年8月），2493–2507。内政部：内政部：https://doi.org/10.14778/3407790.3407840谷歌学者数字图书馆
赵昭（Zhao Zhao）、马莱克·汗（Maleq Khan）、V.S.Anil Kumar和马达夫·马拉特（Madhav V.Marathe）。2010年，大型社交网络中使用并行颜色编码和流媒体的子图枚举。2010年第39届国际并行处理会议记录。594–603. DOI:DOI:https://doi.org/10.109/ICPP.2010.67谷歌学者数字图书馆
Z.Zhao、G.Wang、A.R.Butt、M.Khan、V.S.A.Kumar和M.V.Marathe。2012.SAHAD：使用Hadoop在大规模网络中进行子图分析。2012年IEEE第26届国际并行和分布式处理研讨会论文集。390–401.谷歌学者数字图书馆

索引术语

通过简洁的颜色编码和自适应采样实现更快的Motif计数
1. 信息系统
  1. 数据管理系统
    1. 数据结构
      1. 数据布局
  2. 信息系统应用
    1. 数据挖掘
2. 计算数学
  1. 离散数学
    1. 图论
      1. 图形枚举

建议

子图计数学习素描
SIGMOD’21：2021年国际数据管理会议记录

子图计数作为网络分析中的一个基本问题，是通过同态或子图同构来计算数据图中与给定查询图匹配的子图的数量。子图计数的重要性来自于。。。
阅读更多信息
主题超越五个节点

在图挖掘和社会网络分析中，计算图的数量是一个被广泛研究的问题。最近，几篇论文探索了基于马尔可夫链蒙特卡罗抽样的非常简单自然的算法，并报告了令人鼓舞的结果。我们展示，。。。
阅读更多信息
快速近似子图计数与枚举
2013年ICPP：2013年第42届并行处理国际会议记录

我们提出了一种新的共享内存并行算法和实现，称为FASCIA，用于解决近似子图计数和子图枚举问题。子图计数问题是指确定一个。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此文章

发布于

ACM数据知识发现事务第15卷第6期
2021年6月
474页
国际标准编号：1556-4681
EISSN公司：1556-472倍
内政部：10.1145/3465438
期刊目录

版权所有©2021版权归所有人/作者所有。授权给ACM的出版权。
如果复制品不是为了盈利或商业利益而制作或分发的，并且复制品的第一页载有本通知和完整引文，则允许免费制作本作品的全部或部分数字或硬拷贝以供个人或课堂使用。必须尊重作者以外的其他人对本作品组成部分的版权。允许用信用证进行摘要。要以其他方式复制或重新发布，在服务器上发布或重新发布到列表，需要事先获得特定许可和/或付费。从请求权限[电子邮件保护].
赞助商
合作中
出版商
计算机协会
美国纽约州纽约市
出版历史
- 出版：2021年5月19日
- 认可的：2021年1月1日
- 收到：2020年9月1日
发布于tkdd公司第15卷第6期

权限
请求有关此文章的权限。
请求权限

检查更新
作者标记
画笔
图案
彩色编码
子图计数
图挖掘
限定符
- 研究论文
- 参考
会议
资金来源
其他指标
查看文章指标

文章指标
- 2
  引文总数
  查看引文
- 163
  总下载次数
- 下载次数（过去12个月）33
- 下载次数（最近6周）6
其他指标
查看作者指标
引用人
查看全部

PDF格式

以PDF文件查看或下载。

PDF格式

电子阅读器

使用eReader联机查看。

电子阅读器

HTML格式

以HTML格式查看本文。

查看HTML格式

基于简洁颜色编码和自适应采样的快速Motif计数

ACM数据知识发现事务

摘要

工具书类

引用人

索引术语

建议

子图计数学习素描

主题超越五个节点

快速近似子图计数与枚举

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

资金来源

其他指标

文章指标

其他指标

引用人

PDF格式

电子阅读器

数字版

HTML格式

解说词

基于简洁颜色编码和自适应采样的快速Motif计数

ACM数据知识发现事务

摘要

工具书类

引用人

索引术语

建议

子图计数学习素描

主题超越五个节点

快速近似子图计数与枚举

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

权限

检查更新

作者标记

限定符

会议

资金来源

文章指标

其他指标

PDF格式

电子阅读器

数字版

HTML格式

共享此出版物链接

在社交媒体上分享