×

将数据深度与复杂网络融合:利用先验信息进行社区检测。 (英语) Zbl 1507.62167号

摘要:提出了一种新的非参数监督算法,用于使用深度与深度(DD(G))分类器检测复杂网络中的多个社区。新聚类方法背后的关键思想是健壮且数据驱动的数据深度方法论,该方法论在网络科学中仍然是新的和未探索的。开发的新DD(G)-方法本质上是几何的,允许同时考虑网络社区和异常值。尽管基于数据的分类器在监督学习框架内运行,但网络中相关的非参数深度概念可用于更一般的环境,包括(半)监督和非监督学习。通过使用基准政治博客数据、“黑暗”恐怖网络以及意大利议会对法案共同赞助的分析,说明了新方法的实用性。

MSC公司:

62-08 统计学相关问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abbe,E.,《社区检测和随机块模型》,IEEE Inf.Theory Soc.Newsletter,66,1,3-12(2016)
[2] Adamic,洛杉矶,Glance,N.,2005年。政治博客圈与2004年美国大选:分裂博客。摘自:第三届链路发现国际研讨会论文集。第36-43页。;Adamic,洛杉矶,Glance,N.,2005年。政治博客圈和2004年美国大选:他们的博客出现分歧。摘自:第三届链路发现国际研讨会论文集。第36-43页。
[3] Aggarwal,C.C.,图和网络中的离群点检测,(离群点分析(2013),Springer),343-371
[4] 阿米尼,A.A。;陈,A。;Bickel,P.J。;Levina,E.,大型稀疏网络中社区检测的伪似然方法,Ann.Statist。,41, 2097-2122 (2013) ·Zbl 1277.62166号
[5] Athreya,A。;利津斯基,V。;Priebe,C.E。;苏斯曼,D.L。;唐,M。;Marchette,D.,随机点积图的标度特征向量的极限定理,Sankhya A,78,1,1-18(2016)·Zbl 1338.62061号
[6] Avrachenkov,K.,Cottatellucci,L.,Kadavankandy,A.,2015年。随机块模型随机矩阵的谱性质。In:程序。PHYSCOMNET 2015年版。;Avrachenkov,K.,Cottatellucci,L.,Kadavankandy,A.,2015年。随机块模型随机矩阵的谱特性。In:程序。PHYSCOMNET 2015。
[7] Bai,Z。;Silverstein,J.W.,《大维随机矩阵的谱分析》(2010),施普林格出版社·Zbl 1301.60002号
[8] 班德,M.F。;de la Fuente,M.O。;加利亚诺,P。;Nieto,A。;Garcia-Portugues,E.,fda.usc:功能数据分析和统计计算实用程序,R包(2016)
[9] Briatte,F.,《20个议会的立法合作网络模式》,Netw。科学。,4, 2, 266-271 (2016)
[10] Cai,T.T。;Li,X.,存在任意离群节点时鲁棒且计算可行的社区检测,Ann.Statist。,43, 3, 1027-1059 (2015) ·Zbl 1328.62381号
[11] 坎贝尔,W。;达格利,C。;Weinstein,C.,《内容和图表的社会网络分析》,Linc。实验室J.,20,1,62-81(2013)
[12] 卡里西莫,A。;Cutillo,L。;Defeis,I.,社区稳健性验证,计算。统计师。数据分析。,120, 1-24 (2018) ·Zbl 1469.62029号
[13] Charles,C.A。;Maras,M.-H.,《从美国成功的恐怖袭击和失败的任务中加强反恐》,J.Appl。安全。决议,10,2,155-180(2015)
[14] 乔杜里,K。;Chung,F。;Tsiatas,A.,《扩展种植分区模型中一般度图的谱聚类》,J.Mach。学习。决议,35.1-35.23(2012)
[15] Choi,D。;Wolfe,P。;Airoldi,E.,类数量不断增加的随机块模型,Biometrika,99,2,273-284(2012)·Zbl 1318.62207号
[16] Cuesta-Albertos,J.A。;Febrero-Bandey,M。;de la Fuente,M.O.,《功能设置中的(D D^g)分类器》,Test,26,1,119-142(2017)·Zbl 1422.62216号
[17] Cuesta-Albertos,J.A。;Nieto-Reyes,A.,随机Tukey深度,计算。统计师。数据分析。,第52页,第11页,4979-4988页(2008年)·Zbl 1452.62344号
[18] 奎瓦斯,A。;费布雷罗,M。;Fraiman,R.,《通过基于投影的深度函数对功能数据进行稳健估计和分类》,计算。统计学。,22, 481-496 (2007) ·兹比尔1195.62032
[19] Dey,A.K.,Gel,Y.R.,Poor,H.V.,2017年。具有数据深度的电网有意孤岛。收录:IEEE多传感器自适应处理计算进展研讨会(CAMSAP2017)。第1-5页。;Dey,A.K.,Gel,Y.R.,Poor,H.V.,2017年。具有数据深度的电网有意孤岛。收录:IEEE多传感器自适应处理计算进展研讨会(CAMSAP2017)。第1-5页。
[20] Dhillon,P.S.,Talukdar,P.,Crammer,K.,2012年。基于图形的域自适应的度量学习。摘自:第24届国际计算语言学会议论文集。COLING'12。;Dhillon,P.S.,Talukdar,P.,Crammer,K.,2012年。基于图形的域自适应的度量学习。摘自:第24届国际计算语言学会议论文集。2012年冬季。
[21] Dyckerhoff,R。;Mozharovskyi,P.,半空间深度的精确计算,计算。统计师。数据分析。,98, 19-31 (2016) ·Zbl 1468.62048号
[22] Dyckerhoff,R。;Mozharovskyi,P.,半空间深度的精确计算,计算。统计师。数据分析。,98, 19-30 (2016) ·Zbl 1468.62048号
[23] 埃斯特拉达,E。;Knight,P.A.,《网络理论第一课程》(2015),牛津大学出版社:牛津大学出版社·Zbl 1360.90046号
[24] 埃弗顿,S.,《颠覆黑暗网络》(2012),剑桥大学出版社
[25] 范,J。;Wang,W.,超高维尖峰协方差模型经验特征结构的渐近性(2015),https://arxiv.org/pdf/1502.0473.pdf
[26] Fortunato,S.,《图形中的社区检测》,Phys。代表(2010)
[27] 福图纳托,S。;Barthelemy,M.,《社区检测中的分辨率限制》,Proc。国家。阿卡德。科学。,104, 1, 36-41 (2007)
[28] 弗雷曼,D。;弗莱曼,F。;Fraiman,R.,《动态随机网络统计:深度函数方法》(2015),arXiv:1408.3584v3
[29] Gao,J.、Liang,F.、Fan,W.、Wang,C.、Sun,Y.、Han,J.,2010年。信息网络中社区离群点及其有效检测。参见:第16届ACM SIGKDD会议记录。第813-822页。;Gao,J.、Liang,F.、Fan,W.、Wang,C.、Sun,Y.、Han,J.,2010年。论社区异常值及其在信息网络中的有效检测。在:第16届ACM SIGKDD会议记录。第813-822页。
[30] Goldenberg,A。;郑亚欣。;菲恩伯格,S.E。;Airoldi,E.M.,《统计网络模型调查》,Found。趋势马赫数。学习。,2, 2, 129-233 (2010) ·Zbl 1184.68030号
[31] Harenberg,S。;贝洛,G。;Gjeltema,L。;Ranshous,S。;哈拉尔卡,J。;Seay,R。;Padmanabhan,K。;Samatova,N.,《大规模网络中的社区检测:一项调查和实证评估》,Wiley Interdiscip。版次计算。统计,6426-439(2014)
[32] 荷兰,P。;Laskey,K.B。;Leinhardt,S.,《随机块模型:第一步》,《社交网络》,5,2,109-137(1983)
[33] 休伯特,M。;Rousseeuw,P.J。;Van Aelst,S.,高分解稳健多元方法,统计。科学。,23, 1, 92-119 (2008) ·Zbl 1327.62328号
[34] Hyndman,R.J。;Shang,H.L.,功能数据的彩虹图、bagplots和箱线图,J.Compute。图表。统计学。,19, 29-45 (2010)
[35] Ieraci,G.,《意大利政府和政党:议会辩论、投资投票和政策立场》(1994-2006)(2008),Troubador Publishing Ltd
[36] Jörnsten,R.,基于(l_1)数据深度的聚类和分类,《多元分析杂志》。,90,167-89(2004年)·Zbl 1047.62064号
[37] 约瑟夫,A。;Yu,B.,正则化对谱聚类的影响,Ann.Statist。(2016) ·Zbl 1357.62229号
[38] Kadavankandy,A.,Cottatellucci,L.,Avrachenkov,K.,2015年。随机块模型的随机矩阵特征向量的特征。In:程序。第49届亚西洛马信号、系统和计算机会议。第861-865页。;Kadavankandy,A.,Cottatellucci,L.,Avrachenkov,K.,2015年。随机块模型的随机矩阵特征向量的特征。In:程序。第49届亚西洛马信号、系统和计算机会议。第861-865页。
[39] Kumpula,J.M.(Kumpula,J.M.)。;Saramäki,J。;Kaski,K。;Kertész,J.,使用Potts模型方法进行复杂网络社区检测的有限分辨率,欧洲物理学会。J.B,56,1,41-45(2007)
[40] Le,C.M。;Vershynin,R.,《随机图的集中与正则化》(2015),arXiv预印本arXiv:1506.00669
[41] O.莱多特。;Péché,S.,一些大样本协方差矩阵系综的特征向量,Probab。理论相关领域,151,1,233-264(2011)·Zbl 1229.60009号
[42] Leskovec,J.,Lang,K.J.,Mahoney,M.W.,2010年。网络社区检测算法的实证比较。In:程序。第19届万维网国际会议。第631-640页。;Leskovec,J.,Lang,K.J.,Mahoney,M.W.,2010年。网络社区检测算法的实证比较。In:程序。第19届万维网国际会议。第631-640页。
[43] 李海杰。;Bu,Z。;李,A。;刘,Z。;Shi,Y.,《快速准确挖掘社区结构:整合中心定位和成员优化》,IEEE Trans。知识。数据工程,28,9,2349-2362(2016)
[44] 李,J。;库斯塔·阿尔贝托斯,J。;Liu,R.Y.,DD-分类器:基于DD-plot的非参数分类程序,J.Amer。统计师。协会,107,498,737-753(2012)·Zbl 1261.62058号
[45] 李海杰。;Daniels,J.J.,《社区结构的社会意义:统计观点》,《物理学》。修订版E,91,1012801(2015)
[46] 李海杰。;Wang,H。;Chen,L.,测量复杂网络中社区结构的稳健性,Europhys。莱特。,108, 6, 68009 (2015)
[47] 李海杰。;Zhang,X.-S.,多层次社区结构稳定性分析,Europhys。莱特。,103, 5, 58002 (2013)
[48] 刘,R.Y。;Parelius,J。;Singh,K.,《通过数据深度进行多元分析:描述性统计、图形和推理》,Ann.Statist。,27, 3, 783-858 (1999) ·Zbl 0984.62037号
[49] 洛佩兹·平塔多,S。;Romo,J.,《关于函数数据深度的概念》,J.Amer。统计师。协会,104,718-734(2009)·兹比尔1388.62139
[50] 曼宁,C.D。;Raghavan,P。;Schütze,H.,《信息检索导论》(2008),剑桥大学出版社·Zbl 1160.68008号
[51] 莫斯勒,K。;Mozharovskyi,P.,功能数据的快速DD-分类(2015),http://dx.doi.org/10.1007/s00362-015-0738-3
[52] 纽曼,M。;Clauset,A.,注释网络中的结构和推理,自然通讯。,7, 11863 (2016)
[53] Nieto-Reyes,A。;Battey,H.,功能数据深度的拓扑有效定义。预印本、统计。科学。,31, 1, 61-79 (2016) ·Zbl 1436.62720号
[54] Paindaveine,D。;Šiman,M.,计算多输出回归分位数区域,计算。统计师。数据分析。,56, 4, 840-853 (2012) ·Zbl 1244.62060号
[55] Perozzi,B。;Akoglu,L。;Iglesias Sánchez,P。;Müller,E.,《大型属性图中的聚焦聚类和离群点检测》(第20届ACM SIGKDD(2014),ACM),1346-1355
[56] Plantié,M。;Crampes,M.,《社会社区检测调查》(Ramzan,N.;van Zwol,R.;Lee,J.-S.;Clüver,K.;Hua,X.S.,《社交媒体检索》(2013),施普林格:施普林格伦敦),65-85
[57] Povoledo,E.,意大利:立法选举改革(斜体),全球法律监测。美国国会图书馆,6(2015)
[58] Povoledo,E.,Matteo renzi辞职,结束了意大利70年来第63届政府,《纽约时报》,12(2016)
[59] 拉德克利夫,M。;杨,S.J.,乘法属性图的谱,线性代数应用。,462, 39-58 (2014) ·Zbl 1300.05288号
[60] Rohe,K。;Chatterjee,S。;Yu,B.,谱聚类和高维随机块模型,Ann.Statist。,39, 4, 1878-1915 (2011) ·Zbl 1227.62042号
[61] Rousseeuw,P.J。;Ruts,I.,算法AS 307:二元定位深度,J.R.Stat.Soc.Ser。C.申请。Stat.,45,4,516-526(1996)·兹比尔0905.62002
[62] Ruppert,D.,多元转换(2014),Wiley StatsRef:在线统计参考
[63] 斯科特,J。;Carrington,P.,SAGE社会网络分析手册(2011),SAGE
[64] 西格诺雷利,M。;Wit,E.C.,《意大利议会中社区结构随机块建模的惩罚推理方法》(2016),arXiv预印本arXiv:1607.08743
[65] START,美国国家恐怖主义研究与应对恐怖主义联盟(START)(2016年),由马里兰大学领导的国土安全部卓越中心
[66] 苏比安,K。;Sharma,D。;温,Z。;Srivastava,J.,《利用社会资本在网络中寻找影响力者》,Soc.Netw。分析。Min.,4,1,1-13(2014)
[67] 唐,M。;Priebe,C.,随机图的归一化拉普拉斯特征向量的极限定理,Ann.Statist。(2016),(印刷中)
[68] 田,Y。;Gel,Y.R.,《使用K深度分类器在复杂网络中进行快速社区检测》(Ahmed,S.E.,《大数据和复杂数据分析:方法和应用》(2017),Springer),139-157·Zbl 1380.62231号
[69] van Laarhoven,T.,Marchiori,E.,2013年。基于LFR图训练边缘分类器的网络社区检测,In:欧洲人工神经网络、计算智能和机器学习研讨会(ESANN)论文集。;van Laarhoven,T.,Marchiori,E.,2013年。使用基于LFR图训练的边缘分类器进行网络社区检测,In:欧洲人工神经网络、计算智能和机器学习(ESANN)研讨会论文集。
[70] Wilson,J.D。;王,S。;穆查,P.J。;巴米迪,S。;诺贝尔,A.B.,一种基于测试的提取算法,用于识别网络中的重要社区,Ann.Appl。统计,8,3,1853-1891(2014)·Zbl 1304.05141号
[71] Yang,J.、Leskovec,J.,2012年。用于重叠网络社区检测的社区关联图模型。摘自:ICDM2012会议记录。第1170-1175页。;Yang,J.、Leskovec,J.,2012年。用于重叠网络社区检测的社区隶属关系图模型。摘自:ICDM2012会议记录。第1170-1175页。
[72] Zhu,X.,Ghahramani,Z.,Lafferty,J.,2003年。使用高斯场和调和函数的半监督学习。收录于:2003年ICML会议记录。第3卷。第912-919页。;Zhu,X.,Ghahramani,Z.,Lafferty,J.,2003年。使用高斯场和调和函数的半监督学习。收录于:2003年ICML会议记录。第3卷。第912-919页。
[73] Zuo,Y。;Serfling,R.,统计深度函数的一般概念,Ann.Statist。,28461-482(2000年)·Zbl 1106.62334号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。