×

基于嵌入的剪影社区检测。 (英语) Zbl 1523.68069号

摘要:以网络的形式挖掘复杂数据越来越受到许多科学学科的关注。网络社区对应于紧密连接的子网,通常代表真实世界系统的关键功能部分。本文提出了基于嵌入的轮廓社区检测(SCD),这是一种检测社区的方法,它基于网络节点嵌入的聚类,即从其邻域派生的节点的实值表示。我们研究了所提出的SCD方法在234个合成网络以及现实社会网络上的性能。尽管SCD没有基于任何形式的模块化优化,但它的性能与最先进的社区检测算法(如InfoMap和Louvain)相当或更好。此外,我们还证明了SCD的输出可以与领域本体一起用于语义子组发现,从而对在真实蛋白质交互网络中检测到的社区做出人类可理解的解释,SCD具有广泛的适用性,可以作为许多现有网络学习和探索管道的一部分进行开箱即用测试。

MSC公司:

68T05型 人工智能中的学习和自适应系统
05C82号 小世界图形、复杂网络(图形理论方面)
92立方厘米 系统生物学、网络
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Adhikari,公关;瓦夫佩蒂奇,A。;Kralj,J。;拉夫拉奇,N。;Hollmén,J.,通过语义模式挖掘和带状矩阵可视化解释混合模型,机器学习,105,1,3-39(2016)·Zbl 1392.68336号
[2] Aranganayagi,S.和Thangavel,K.(2007年)。使用轮廓系数作为重新定位度量对分类数据进行聚类。计算智能和多媒体应用国际会议(ICCIMA 2007)(第2卷,第13-17页)。电气与电子工程师协会。
[3] Arthur,D.和Vassilvitskii,S.(2007)。k-means++:仔细播种的优点。第十八届ACM-SIAM离散算法研讨会论文集(第1027-1035页)。工业和应用数学学会·兹比尔1302.68273
[4] 阿什伯恩,M。;加州鲍尔;JA布莱克;博茨坦,D。;巴特勒,H。;樱桃,吉咪;美联社戴维斯;Dolinski,K。;德怀特,SS;Eppig,JT,《基因本体论:生物学统一的工具》,《自然遗传学》,25,1,25-29(2000)
[5] Bachem,O.、Lucic,M.、Hassani,H.和Krause,A.(2016)。k-means的快速且可证明的良好播种。《神经信息处理系统进展》29(第55-63页)。Curran Associates公司。
[6] 巴拉巴西,AL,《无标度网络:十年及其后》,《科学》,3255939412-413(2009)·Zbl 1226.91052号
[7] Bergstra,J.、Breuleux,O.、Bastien,F.、Lamblin,P.、Pascanu,R.、Desjardins,G.等人(2010年)。Theano:CPU和GPU数学表达式编译器。科学计算会议Python会议记录(SciPy)(第4卷)。德克萨斯州奥斯汀。
[8] Brandes,U.、Delling,D.、Gaertler,M.、Görke,R.、Hoefer,M.和Nikoloski,Z.等人(2006年)。最大化模块化很难。arXiv预打印,arXiv:物理/0608255·Zbl 1141.68519号
[9] 蔡,H。;郑,大众;Chang,KCC,《图形嵌入的综合调查:问题、技术和应用》,IEEE知识与数据工程汇刊,30,9,1616-1637(2018)
[10] 克劳塞特,A。;纽曼,ME;Moore,C.,《发现超大型网络中的社区结构》,《物理评论》E,70,6,066111(2004)
[11] Cordasco,G.和Gargano,L.(2010年)。通过半同步标签传播算法进行社区检测。2010年IEEE国际研讨会:社交网络分析的商业应用(BASNA)(第1-8页)。电气与电子工程师协会。
[12] 戴维斯,DL;Bouldin,DW,A cluster separation measure,IEEE Transactions on Pattern Analysis and Machine Intelligence,PAMI-1,2,224-227(1979)
[13] De Meo,P.、Ferrara,E.、Fiumara,G.和Provetti,A.(2011年)。大型网络中社区检测的广义louvain方法。2011年第11届智能系统设计与应用国际会议论文集(第88-93页)。电气与电子工程师协会·Zbl 1311.68133号
[14] Defferrard,M.、Bresson,X.和Vandergheynst,P.(2016)。图上的卷积神经网络与快速局部谱滤波。《神经信息处理系统进展》29(第3844-3852页)。柯兰联合公司。
[15] 德里尼亚斯,P。;弗里兹,A。;Kannan,R。;Vempala,S。;Vinay,V.,通过奇异值分解聚类大型图,机器学习,56,1-3,9-33(2004)·Zbl 1089.68090号
[16] 福图纳托,S。;Barthelemy,M.,《社区检测中的分辨率限制》,《国家科学院学报》,104,1,36-41(2007)
[17] 福克斯,EB;Mallows,CL,《比较两种等级聚类的方法》,《美国统计协会杂志》,78,383,553-569(1983)·Zbl 0545.62042号
[18] Fürnkranz,J。;Gamberger,D。;Lavrač,N.,《规则学习基础》(2012),柏林:施普林格,柏林·Zbl 1263.68002号
[19] 很好,BH;德蒙乔伊,YA;Clauset,A.,《模块化最大化在实际环境中的表现》,《物理评论》E,81,4,046106(2010)
[20] Grover,A.和Leskovec,J.(2016)。node2vec:网络的可扩展特性学习。第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第855-864页)。ACM公司。
[21] 盖登,O。;Vershynin,R.,通过grothendieck不等式在稀疏网络中进行社区检测,概率论和相关领域,165,3-41025-1049(2016)·Zbl 1357.90111号
[22] Hagberg,A.,Swart,P.,&S Chult,D.(2008)。使用networkx探索网络结构、动态和功能。技术报告,美国新墨西哥州洛斯阿拉莫斯国家实验室(LANL)。
[23] Hamilton,W.、Ying,Z.和Leskovec,J.(2017)。大型图的归纳表示学习。《神经信息处理系统进展》30(第1024-1034页)。Curran Associates公司。
[24] Harenberg,S。;贝洛,G。;Gjeltema,L。;Ranshous,S。;哈拉尔卡,J。;西伊·R。;Padmanabhan,K。;Samatova,N.,《大规模网络中的社区检测:调查和实证评估》,威利跨学科评论:计算统计,6,6,426-439(2014)
[25] Honghao,C.、Zuren,F.和Zhigang,R.(2013)。使用蚁群优化进行社区检测。2013年IEEE进化计算大会(第3072-3078页)。电气与电子工程师协会。
[26] Hotho,A。;Maedche,A。;Staab,S.,基于本体的文本文档聚类,KI,16,4,48-54(2002)
[27] Jin,J.,《快速社区得分检测》,《统计年鉴》,43,1,57-89(2015)·Zbl 1310.62076号
[28] Kipf,T.N.和Welling,M.(2017年)。图卷积网络半监督分类。在学习代表国际会议上。
[29] Kozak,M.,Caliánski和Harabasz的“用于聚类分析的树枝晶方法”:被错误引用的经典著作,《统计学中的通信——理论和方法》,41,12,2279-2280(2012)·Zbl 1250.01015号
[30] Kralj,J。;Robnik-Šikonja,M。;Lavrać,N.,Hinmine:《利用信息检索启发式进行异构信息网络挖掘》,《智能信息系统杂志》,50,1,29-61(2018)
[31] Lancichinetti,A。;Fortunato,S.,《社区检测算法:比较分析》,Physical Review E,80,5,056117(2009)
[32] Lancichinetti,A。;福图纳托,S。;Radicchi,F.,用于测试社区检测算法的基准图,Physical Review E,78,4,046110(2008)
[33] Langohr,L。;波德潘,V。;Petek,M。;莫泽蒂奇,I。;格鲁登,K。;拉夫拉奇,N。;Toivonen,H.,对比亚组发现,《计算机杂志》,56,3,289-303(2012)
[34] Mikolov,T。;Sutskever,I。;Chen,K。;科罗拉多州,GS;迪安·J。;博格斯,CJC;博图,L。;韦林,M。;加赫拉马尼,Z。;Weinberger,KQ,单词和短语的分布式表示及其合成性,神经信息处理系统的进展2613111-3119(2013),Red Hook:Curran Associates Inc,Red Hook
[35] Nickel,M.和Kiela,D.(2017年)。用于学习层次表示的Poincaré嵌入。《神经信息处理系统进展》30(第6338-6347页)。Curran Associates公司。
[36] 诺瓦克,PK;拉夫拉奇,N。;Webb,GI,《监督描述性规则发现:对比集、新兴模式和子组挖掘的统一调查》,《机器学习研究杂志》,2009年2月10日,377-403·Zbl 1235.68178号
[37] Page,L.、Brin,S.、Motwani,R.和Winograd,T.(1999)。PageRank引文排名:给网络带来秩序。斯坦福信息实验室:技术报告。
[38] 停车场,HS;Jun,CH,一种简单快速的k-medoids聚类算法,应用专家系统,36,2,3336-3341(2009)
[39] Paszke,A.、Gross,S.、Massa,F.、Lerer,A.、Bradbury,J.、Chanan,G.、Killeen,T.、Lin,Z.、Gimelshein,N.和Antiga,L.(2019年)。PyTorch:一个命令式、高性能的深度学习库。神经信息处理系统进展32(第8024-8035页)。Curran Associates公司。
[40] Perozzi,B.、Al-Rfou,R.和Skiena,S.(2014)。Deepwalk:社交表征的在线学习。第20届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第701-710页)。ACM公司。
[41] 邱,J.、董,Y.、马,H.、李,J.,王,K.和唐,J.(2018)。网络嵌入作为矩阵分解:统一deepwalk、line、PTE和node2vec。第十一届ACM网络搜索和数据挖掘国际会议论文集(第459-467页)。ACM公司。
[42] Rand,WM,聚类方法评估的客观标准,《美国统计协会杂志》,66,336,846-850(1971)
[43] Ribeiro,L.F.、Saverese,P.H.和Figueiredo,D.R.(2017)。struc2vec:从结构标识学习节点表示。第23届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第385-394页)。ACM公司。
[44] 罗森伯格,G。;梅恩,S。;Kutsche,K.,癌基因HRAS突变导致肋骨综合征患者成纤维细胞对表皮生长因子的反应中PI3K信号延长,人类突变,30,3,352-362(2009)
[45] 罗斯瓦尔,M。;Axelsson,D。;Bergstrom,CT,映射方程,《欧洲物理杂志》专题,178,1,13-23(2009)
[46] 罗斯瓦尔,M。;Axelsson,D。;康涅狄格州伯格斯特罗姆,《地图方程》,《欧洲物理杂志专题》,178,1,13-23(2009)
[47] Rousseeuw,PJ,Silhouettes:聚类分析解释和验证的图形辅助,《计算与应用数学杂志》,20,53-65(1987)·兹伯利0636.62059
[48] 马耳他州绍布;德文,JC;罗斯瓦尔,M。;Lambiotte,R.,《复杂网络中社区检测的多方面》,《应用网络科学》,2017年第2、1、4期
[49] Sculley,D.(2010年)。Web-scale k-means clustering,摘自《第19届万维网国际会议论文集》(第1177-1178页)。ACM公司。
[50] Škrlj,B.、Kralj,J.和Lavrać,N.(2018年)。有针对性的端到端知识图分解。在归纳逻辑编程国际会议上(第157-171页)。柏林:斯普林格·Zbl 1455.68202号
[51] Škrlj,B.、Kralj,J.和Lavrać,N.(2019a)。CBSSD:基于社区的语义子组发现。智能信息系统杂志,53265-304。
[52] Škrlj,B。;Kralj,J。;拉夫拉奇,N。;阿耶罗,LM;Cherifi,C。;谢里菲,H。;兰比奥特,R。;利奥,P。;Rocha,LM,Py3plex:用于可扩展多层网络分析和可视化的库,复杂网络及其应用VII,757-768(2019),商会:施普林格国际出版,商会
[53] Skrlj,B。;Kralj,J。;Lavrac,N.,《用于多层网络可视化和分析的Py3plex工具包》,《应用网络科学》,2019年第4期,第1期,第94页
[54] Škrlj,B。;Kralj,J。;瓦夫佩蒂奇,A。;拉夫拉奇,N。;Appice,A。;洛格利西,C。;曼科,G。;Masciari,E。;Ras,ZW,基于社区的语义子组发现,挖掘复杂模式的新前沿,182-196(2018),柏林:施普林格国际出版公司,柏林
[55] Tang,J.,Qu,M.,&Mei,Q.(2015)。PTE:通过大规模异构文本网络嵌入预测文本。第21届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第1165-1174页)。ACM公司。
[56] 唐J.、曲M.、王M.、张M.、严J.和梅Q.(2015)。线路:大规模信息网络嵌入。第24届万维网国际会议记录(第1067-1077页)。国际万维网会议指导委员会。
[57] JA托马斯;Cover,T.,《信息理论的要素》(1991),纽约:威利出版社,纽约·Zbl 0762.94001号
[58] Toni,T。;韦尔奇,D。;斯特雷尔科瓦,N。;艾普森。;Stumpf,MPH,动力学系统中参数推断和模型选择的近似贝叶斯计算方案,皇家学会接口杂志,6187-202(2009)
[59] Vavpetić,A.、Novak,P.K.、Grčar,M.、Mozetić,I.和Lavrać,N.(2013年)。金融新闻文章的语义数据挖掘。《发现科学国际会议论文集》(第294-307页)。柏林:斯普林格。
[60] Vavpetić,A.(2017年)。语义子组发现。乔伊夫·斯特凡国际研究生院博士论文。
[61] Velićković,P.、Cucurull,G.、Casanova,A.、Romero,A.、Lio,P.和Bengio,Y.(2017年)。绘制注意力网络图。arXiv预打印arXiv:1710.10903。
[62] Wu,Z.、Pan,S.、Chen,F.、Long,G.、Zhang,C.和Yu,P.S.(2019年)。关于图神经网络的全面综述。arXiv预打印arXiv:1901.00596。
[63] 杨,Z。;阿尔盖谢默,R。;Tessone,CJ,《人工网络上社区检测算法的比较分析》,《科学报告》,630750(2016)
[64] Yin,H.、Benson,A.R.、Leskovec,J.和Gleich,D.F.(2017)。局部高阶图聚类。第23届ACM SIGKDD知识发现和数据挖掘国际会议论文集(第555-564页)。ACM公司。
[65] 张,Q。;Yang,LT;陈,Z。;李鹏,大数据深度学习调查,信息融合,42,146-157(2018)
[66] 张,XS;王,RS;Wang,Y。;Wang,J。;邱,Y。;Wang,L。;Chen,L.,复杂网络社区检测中的模块化优化,EPL(欧洲物理快报),87,338002(2009)
[67] Zhao,W.X.,Huang,J.和Wen,J.R.(2016)。使用网络嵌入方法学习推荐系统的分布式表示。亚洲信息检索研讨会(第224-236页)。柏林:斯普林格。
[68] Zhu,Y。;诺尔霍夫,BL;迈耶,马萨诸塞州;马来西亚Nywening;西部,BL;罗,J。;Wang-Gillam,A。;Goedegebuure,SP;Linehan,DC;DeNardo,DG,CSF1/CSF1R在胰腺癌模型中阻断肿瘤浸润巨噬细胞的重编程并提高对t细胞检查点免疫治疗的反应,癌症研究,74,18,5057-5069(2014)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。