×

使用压缩进行大规模网络基模分析。 (英语) Zbl 1455.68134号

小结:我们介绍了一种新的查找方法网络模体当子图在数据中的频率高于零模型为了计算这个期望值,通常在从空模型中取样的多达1000个随机图上重复出现一个基序的完整或近似计数;昂贵得令人望而却步。我们使用最小描述长度文献中的观点来定义一种新的主题相关性度量方法。在我们的方法中,不需要来自空模型的样本。相反,我们计算零模型下数据的概率,并将其与专门设计的替代模型下的概率进行比较。通过这种新的相关性测试,我们可以通过随机抽样来搜索基序,而不需要精确计算基序的所有实例。这使得模体分析可以扩展到具有数十亿链接的网络。

MSC公司:

68兰特 计算机科学中的图论(包括图形绘制)
05C82号 小世界图形、复杂网络(图形理论方面)
68T09号 数据分析和大数据的计算方面
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿德里安,F。;Lijffijt,J。;De Bie,T.,《连接树木和森林的主观趣味》,Data Min Knowl Discov,33,4,1088-1124(2019)·Zbl 1458.68155号
[2] 阿加瓦尔,CC;Han,J.,《频繁模式挖掘》(2014),柏林:施普林格出版社,柏林·Zbl 1297.68010号
[3] 阿尔伯特·R。;巴拉巴西,AL,《复杂网络的统计力学》,《现代物理学评论》,第74、1、47页(2002年)·Zbl 1205.82086号
[4] Auer S、Bizer C、Kobilarov G、Lehmann J、Cyganiak R、Ives Z(2008)DBpedia:开放数据网的核心。摘自:《国际语义网络会议论文集》,第722-735页
[5] EA本德;Canfield,ER,具有给定度序列的标记图的渐近数,J Combin Theory Ser A,24,3,296-307(1978)·Zbl 0402.05042号
[6] Bhuiyan MA、Rahman M、Rahman-M、Al-Hasan M(2012)Guise:大型图形分析的石墨小图均匀采样。2012年IEEE第12届数据挖掘国际会议。IEEE,第91-100页
[7] 布利茨坦,JK;Diaconis,P.,用于生成具有规定度数的随机图的序列重要性抽样算法,《互联网数学》,6,4,489-522(2011)·Zbl 1238.60084号
[8] Bloem P,de Rooij S(2018)图分析MDL假设测试教程。arXiv预印本arXiv:11810.13163
[9] Budhathoki K,Vreeken J(2015)数据库之间的差异和常态分类相似性和差异。在:关于数据库中的机器学习和知识发现的欧洲联合会议上。施普林格,第206-223页
[10] Carstens CJ(2013)《定向非循环网络中的基序》。参加:2013年12月2日至5日在日本京都举行的SITIS 2013信号图像技术和基于互联网的系统国际会议。IEEE,第605-611页。10.1109/SITIS.2013.99
[11] Carstens CJ,Berger A,Strona G(2016)《曲线球:固定次数序列图的新一代采样算法》。arXiv预打印arXiv:1609.05137
[12] 科尔曼,J。;Katz,E。;Menzel,H.,《创新在医生中的传播》,《社会计量学》,第20期,第253-270页(1957年)
[13] Cook DJ,Holder LB(1994)使用最小描述长度和背景知识的子结构发现。CoRR,arXiv:cs公司。AI/9401022号文件
[14] 封面,TM;托马斯,JA,《信息理论的要素》(2006),霍博肯:威利,霍博克·Zbl 1140.94001号
[15] De Bie T(2011)数据挖掘的信息理论框架。摘自:第17届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第564-572页
[16] 德波尔,V。;Wielemaker,J。;van Gent,J。;Oosterbroek,M。;希尔德布兰德,M。;艾萨克,A。;van Ossenbruggen,J。;Schreiber,G.,阿姆斯特丹博物馆链接开放数据,Semant Web,4,3,237-243(2013)
[17] Faas M,van Leeuwen M(2019)《Vouw:使用mdl原理的几何模式挖掘》。arXiv预打印arXiv:1911.09587
[18] Gehrke,J。;金斯帕格,P。;Kleinberg,J.,《2003年KDD杯概述》,ACM SIGKDD Explor Newsl,5,2,149-151(2003)
[19] Genio CID,Kim H,Toroczkai Z,Bassler KE(2010)给定任意度序列的简单图的高效精确采样。CoRR,arXiv:1002.2975
[20] 英国吉尔伯特,《随机图》,《数学统计年鉴》,第30期,第1141-1144页(1959年)·Zbl 0168.40801号
[21] Gionis A,Tsourakakis CE(2015)稠密子图发现:KDD 2015教程。摘自:第21届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第2313-2314页
[22] Grünwald,P.,最小描述长度原则(2007),剑桥:麻省理工学院出版社,剑桥
[23] Hočevar,T。;Demšar,J.,《图形计数的组合方法》,生物信息学,30,4,559-565(2014)
[24] Jha M,Seshadhri C,Pinar A(2015)《路径采样:估计四点子图计数的快速且可证明的方法》。摘自:第24届国际互联网会议记录,ACM,第495-505页
[25] 北卡罗来纳州卡什坦。;伊兹科维茨,S。;米洛·R。;Alon,U.,估算子图浓度和检测网络基序的高效采样算法,生物信息学,20,11,1746-1758(2004)
[26] Khakabimamaghani,S。;Sharafuddin,我。;Dichter,N。;科赫,I。;Masoudi-Nejad,A.,《Quatexelero:一种加速的精确网络模体检测算法》,《公共科学图书馆·综合》,8,7,e68073(2013)
[27] Kiefer,J.,对最大值的连续极小极大搜索,美国数学学会学报,4,3502-506(1953)·Zbl 0050.35702号
[28] Knerr S,Personnaz L,Dreyfus G(1990)《单层学习重访:构建和训练神经网络的逐步过程》。摘自:《神经计算》。施普林格,第41-50页
[29] KONECT(2014)King James网络数据集-KONECT。http://konetc.uni-koblenz.de/networks/moreno_names
[30] KONECT(2015)医生网络数据集-KONECT。http://konetc.uni-koblenz.de/networks/moreno_innovation
[31] KONECT(2016a)Friendster网络数据集-KONECT。http://konetc.uni-koblenz.de/networks/friendster
[32] KONECT(2016b)推特(www)网络数据集-KONECT。http://konetc.uni-koblenz.de/networks/twitter
[33] KONECT(2016c)维基百科,英语网络数据集-KONECT。http://konetc.uni-koblenz.de/networks/dbpedia-link
[34] KONECT(2016d)维基百科,nl(动态)网络数据集-KONECT。http://konetc.uni-koblenz.de/networks/link-dynamic-nlwiki
[35] Kontonasios,KN;Spyropoulou,E。;De Bie,T.,基于意外的知识发现兴趣度测量,Wiley Interdiscip Rev Data Min Knowl Discov,2,5,386-399(2012)
[36] Koskas M、Grasseau G、BirmeléE、Schbath S、Robin S(2011)《尼莫:网络主题的快速计数》。《Ouvertes生物信息数学杂志(JOBIM)摘要》,第53-60页
[37] 库特拉,D。;Kang,U。;弗里肯,J。;Faloutsos,C.,《总结和理解大图形》,《统计分析数据最小值》,8,3,183-202(2015)·Zbl 07260433号
[38] 克里切夫斯基,RE;特罗菲莫夫,VK,通用编码的性能,IEEE Trans-Inf理论,27,2,199-207(1981)·Zbl 0469.94004号
[39] 库内吉斯J(2013)KONECT-The Koblenz network collection。摘自:《全球网络伙伴国际会议论文集》,第1343-1350页。http://userpages.uni-koblenz.de/kunegis/paper/kunegis-koblenz网络收集.pdf
[40] Kwak H、Lee C、Park H、Moon S(2010)什么是推特、社交网络或新闻媒体?摘自:《国际万维网会议论文集》,第591-600页
[41] 李,X。;石头,DS;王,H。;邓,H。;刘,X。;Wang,G.,网络模式:没有nauty的网络基序检测,PLoS ONE,7,12,e50093(2012)
[42] Lim,Y。;Kang,U。;Faloutsos,C.,Slashburn:Caveman社区以外的图形压缩和挖掘,IEEE Trans Knowl Data Eng,26,12,3077-3089(2014)
[43] McKay BD等人(1981)实用图同构。美国田纳西州范德比尔特大学计算机科学系·Zbl 0521.05061号
[44] 洛杉矶梅拉;马西莫,VR;阿尔·法森达;Da Conciáo,AF,Acc-motif:加速网络基序检测,IEEE/ACM Trans-Comput Biol Bioninform(TCBB),11,5,853-862(2014)
[45] 米洛·R。;Shen-Orr,S。;伊兹科维茨,S。;北卡罗来纳州卡什坦。;Chklovskii,D。;阿隆,U。,《网络主题:复杂网络的简单构建块》,《科学》,2985594827(2002)
[46] 米洛·R。;伊兹科维茨,S。;北卡罗来纳州卡什坦。;莱维特·R。;Shen-Orr,S。;艾森斯塔特,I。;谢弗,M。;美国阿隆,《进化和设计网络的超级家族》,《科学》,30356631538-1542(2004)
[47] Navlakha S、Rastogi R、Shrivastava N(2008)《有界误差的图形摘要》。摘自:2008年ACM SIGMOD数据管理国际会议记录。ACM,第419-432页
[48] Newman,M.,《网络:简介》(2010),牛津:牛津大学出版社,牛津·Zbl 1195.94003号
[49] 帕雷德斯,P。;Ribeiro,P.,《随机基础:快速近似子图普查》,Soc Netw Ana Min,5,1,1-18(2015)
[50] 皮卡德,F。;Daudin,JJ;Koskas,M。;Schbath,S。;Robin,S.,《评估网络基序的例外性》,《计算机生物学杂志》,第15、1、1-20页(2008年)
[51] Preusse J、Kunegis J、Thimm M、Gottron T、Staab S(2013)《知识网络的结构动力学》。主题:网络日志和社交媒体国际会议论文集
[52] Reguly,T。;Breitkreutz,A.公司。;Boucher,L。;布莱特克鲁兹,BJ;尊敬的GC;迈尔斯,CL;帕森斯,A。;弗里森,H。;Oughtred,R。;Tong,A.,酿酒酵母全球交互网络的综合管理和分析,生物学报,5,4,11(2006)
[53] Renyi,A。;Erdős,P.,《随机图》,公共数学,6290-297,5(1959)·Zbl 0092.15705号
[54] Ribeiro P,Silva F(2010)G-tries:发现网络主题的有效数据结构。摘自:2010年ACM应用计算研讨会论文集。ACM,第1559-1566页
[55] Rissanen,J.,《用最短数据描述建模》,Automatica,14,5,465-471(1978)·Zbl 0418.93079号
[56] Rissanen,J。;兰登,GG,算术编码,IBM J Res Dev,23,2,149-162(1979)·Zbl 0404.94005号
[57] Ristoski P,de Vries GKD,Paulheim H(2016)语义网络机器学习系统评估的基准数据集集合。In:国际语义网络会议。施普林格,第186-194页
[58] Römhild C,Harrison C(2007)。http://chrisharrison.net/projects/bibleviz/index.html。2014年9月22日访问
[59] 罗斯瓦尔,M。;CT Bergstrom,《解决复杂网络中社区结构的信息理论框架》,《国家科学院学报》,104、18、7327-7331(2007)
[60] Schreiber F,Schwobbermeyer H(2004)《网络中的主题检测:频率概念和灵活搜索》。In:Proceedings International WSH network tools and applications In biology(NETTAB'04),第91-102页
[61] Shah N、Koutra D、Zou T、Gallagher B、Faloutsos C(2015)《时间危机:可解释的动态图形摘要》。摘自:第21届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第1055-1064页
[62] Slota GM,Madduri K(2013)快速近似子图计数和枚举。2013年第42届并行处理国际会议(ICPP)。IEEE,第210-219页
[63] Slota GM,Madduri K(2014)使用并行近似模体计数的复杂网络分析。参加:2014年IEEE第28届国际并行和分布式处理研讨会。IEEE,第405-414页
[64] 斯特罗纳,G。;Nappo,D。;博卡奇,F。;法托里尼,S。;San-Miguel-Ayanz,J.,用固定行和列总数随机化生态二元矩阵的快速无偏程序,Nat Commun,5,1-9(2014)
[65] Tsourakakis C、Bonchi F、Gionis A、Gullo F、Tsiarli M(2013)《密度大于最稠密子图:在质量保证的情况下提取最佳准液体》。摘自:第19届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第104-112页
[66] van Leeuwen M,Vreeken J,Siebes A(2006)Compression选择了重要的项目集。收录于:Fürnkranz J,Scheffer T,Spiliopoulou M(eds)《数据库中的知识发现:PKDD 2006》,第十届欧洲数据库知识发现原理与实践会议,柏林,2006年9月18日至22日,《斯普林格学报》,计算机科学讲稿,第4213卷,第585-592页。10.1007/11871637_59
[67] van Leeuwen,M。;De Bie,T。;Spyropoulou,E。;Mesnage,C.,子图模式的主观趣味性,Mach Learn,105,1,41-75(2016)·Zbl 1392.68376号
[68] 范德帕斯,S。;Grünwald,P.,《几乎是三个世界中最好的:嵌套模型选择中切换标准的风险、一致性和可选停止》,Stat Sin,28,25(2018)·Zbl 1382.62006年
[69] 弗瑞肯,J。;Van Leeuwen,M。;Siebes,A.,Krimp:压缩的挖掘项集,Data Min Knowl Discov,23,1,169-214(2011)·Zbl 1235.68071号
[70] Wang Y,Ramon J(2012)频繁子图模式挖掘的高效可计算支持措施。摘自:数据库中的机器学习和知识发现,第362-377页
[71] 王,P。;Lui,J。;里贝罗,B。;托斯利,D。;赵,J。;Guan,X.,高效估计大型网络的模体统计,ACM Trans Knowl Discov Data(TKDD),9,2,8(2014)
[72] Wernicke S(2005)检测网络图案的快速算法。收录于:Casadio R,Myers G(eds)生物信息学中的算法,第五届国际研讨会,WABI 2005,西班牙马洛卡,2005年10月3-6日,《斯普林格学报》,计算机科学讲稿,第3692卷,第165-177页。10.1007/11557067_14
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。