摘要
正如Amini等人的经验所证明的那样,通过正则化可以显著提高谱聚类的性能[Ann.Statist公司。 41(2013) 2097–2122]. 在这里,我们试图通过理论分析量化这种改进。在随机块模型(SBM)及其扩展下,以前关于谱聚类的结果依赖于图的最小程度足够大以获得良好的性能。通过检查正则化参数$\tau$较大的场景,我们表明可以删除最小度假设。作为一种特殊情况,对于具有两个块的SBM,结果要求最大程度大于最小程度(增长速度大于$\log n$)。更重要的是,我们展示了正则化在并非所有节点都属于定义明确的簇的情况下的有用性。我们的结果依赖于一种类似“偏差-方差”的权衡,这种权衡产生于理解样本拉普拉斯算子的浓度和作为正则化参数函数的本征间隙。作为边界的副产品,我们提出了一种数据驱动技术丹麦测试(代表估计的Davis–Kahan边界)用于选择正则化参数。通过仿真和实际数据集,该技术表现出良好的效果。
引用
下载引文
安东尼·约瑟夫。
余斌。
“正则化对光谱聚类的影响。”
Ann.Statist公司。
44
(4)
1765 - 1791,
2016年8月。
https://doi.org/10.1214/16-AOS1447
问询处
接收日期:2014年7月1日;修订日期:2016年1月1日;发布日期:2016年8月
首次在欧几里德项目中提供:2016年7月7日
数字对象标识符:10.1214/16-AOS147
学科:
主要用户:62英尺12英寸
次要:62小时99
关键词:社区检测,网络分析,正规化,光谱聚类,随机块体模型
版权所有©2016数学统计研究所