用于社区检测的谱聚类算法分析:一般二分设置

周志新,阿拉什·阿米尼。

年份:2019年,数量:20,版本:47,页码:1-47


摘要

我们考虑了一般二分随机块模型(SBM)下用于社区检测的谱聚类算法。现代谱聚类算法包括三个步骤:(1)适当邻接矩阵或拉普拉斯矩阵的正则化(2)谱截断的一种形式和(3)简化谱域中的kmeans型算法。我们将重点放在基于邻接的谱聚类上,并针对第一步,提出了一种新的数据驱动正则化方法,即使对于稀疏网络,也可以恢复邻接矩阵的集中度。该结果基于最近关于随机二进制矩阵正则化的工作,但避免了使用未知的总体水平参数,而是从数据中估计必要的数量。我们还提出并研究了谱截断步长的一种新变化,并展示了这种变化如何改变一般SBM中误分类率的性质。然后我们展示了如何将一致性结果扩展到SBM以外的模型,例如具有近似簇的非均匀随机图模型,包括一个图形聚类问题,以及一般的亚高斯双聚类。本文的主题是在相当一般的聚类模型和广泛的度增长机制下,更好地理解用于社区检测和建立一致性结果的谱方法分析,包括平均期望度任意缓慢增长的稀疏情况。

PDF格式 BibTeX公司