开放式访问
2015年6月 存在任意离群节点时鲁棒且计算可行的社区检测
T.蔡东尼,李晓东
安。统计师。 43(3): 1027-1059 (2015年6月)。 DOI:10.1214/14-AOS1290

摘要

社区检测是网络数据分析中的一个重要问题,其目的是根据观察到的无向边将给定图中的$N$节点聚类为$r$个不同的组。本文将流行的随机块模型(SBM)扩展为广义随机块模型,该模型允许以任意方式与图中其他节点连接的敌对异常节点。在这个模型下,我们引入了一个使用凸优化的过程,然后使用$k=r$的$k$-means算法。

分析了该方法的理论和数值特性。在聚类数量可以随$N$增长的情况下,为该程序准确检测误分类率较小的群落提供了理论保证。这一理论结果与文献中关于SBM中无离群点的计算可行社区检测的最著名结果一致。数值结果表明,我们的方法计算速度快,对不同类型的离群点都具有鲁棒性,而一些流行的计算速度快的社区检测算法,如应用于邻接矩阵或图Laplacian的谱聚类,可能会由于一小部分离群点而无法检索到主要簇。我们将我们的方法稍作修改,应用于政治博客数据集,表明我们的方法在实践中是可行的,可以与文献中现有的计算可行性方法进行比较。据作者所知,我们的结果是文献中首次在GSBM下聚类数量快速增长的社区,其中存在部分任意离群节点。

引用

下载引文

T.Tony Cai。 李晓东。 “在存在任意离群节点的情况下,进行稳健且计算上可行的社区检测。” 安。统计师。 43 (3) 1027 - 1059, 2015年6月。 https://doi.org/10.1214/14-AOS1290

问询处

收到日期:2014年4月1日修订日期:2014年11月1日出版日期:2015年6月
首次在欧几里德项目中提供:2015年5月15日

zbMATH公司:1328.62381
数学科学网:MR3346696型
数字对象标识符:10.1214/14-AOS1290

学科:
主要用户:62H30型,91C20个

关键词:$k$-表示集群,双重证书,强大的社区检测,SDP松弛

版权所有©2015数学统计研究所

第43卷•第3期•2015年6月
返回页首