×

用于社区检测的谱聚类算法分析:一般二分设置。 (英文) Zbl 1484.62088号

摘要:我们考虑在一般二部随机块模型(SBM)下用于社区检测的谱聚类算法。现代谱聚类算法包括三个步骤:(1)适当邻接矩阵或拉普拉斯矩阵的正则化(2)谱截断的一种形式和(3)简化谱域中的kmeans型算法。我们将重点放在基于邻接的谱聚类上,并针对第一步,提出了一种新的数据驱动正则化方法,即使对于稀疏网络,也可以恢复邻接矩阵的集中度。该结果基于最近关于随机二进制矩阵正则化的工作,但避免了使用未知的总体水平参数,而是从数据中估计必要的数量。我们还提出并研究了谱截断步长的一种新变化,并展示了这种变化如何改变一般SBM中误分类率的性质。然后我们展示了如何将一致性结果扩展到SBM以外的模型,例如具有近似簇的非均匀随机图模型,包括一个graphon聚类问题,以及一般的亚高斯双聚类。本文的主题是更好地理解用于社区检测的谱方法分析和建立一致性结果,在相当一般的聚类模型下,对于广泛的度增长机制,包括平均期望度任意缓慢增长的稀疏情况。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
05C80号 随机图(图论方面)
05C82号 小世界图形、复杂网络(图形理论方面)
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 艾曼纽尔·阿贝。社区检测和随机块模型:最新发展。arXiv预印arXiv:1703.101462017·Zbl 1403.62111号
[2] 艾曼纽尔·阿贝(Emmanuel Abbe)、范建清(Jianqing Fan)、王开正(Kaizheng Wang)和钟一桥(Yiqiao Zhong)。低期望等级随机矩阵的条目特征向量分析。arXiv预印本arXiv:1709.095652017·Zbl 1450.62066号
[3] Edo M Airoldi、Thiago B Costa和Stanley H Chan。图形的随机块模型近似:理论和一致性估计。神经信息处理系统进展,第692-700页,2013年。
[4] Arash A Amini、Aiyou Chen、Peter J Bickel、Elizaveta Levina等。大型稀疏网络中社区检测的伪似然方法。《统计年鉴》,41(4):2097-21222013·兹比尔1277.62166
[5] David Arthur和Sergei Vassilvitskii。k-means++:仔细播种的优点。第十八届ACM-SIAM离散算法年会论文集,第1027-1035页。工业和应用数学学会,2007年·Zbl 1302.68273号
[6] Sivaraman Balakrishnan、Min Xu、Akshay Krishnamurthy和Aarti Singh。谱聚类的噪声阈值。神经信息处理系统进展,第954-962页,2011年。
[7] Afonso S Bandeira,Ramon Van Handel,et al.具有独立项的随机矩阵范数的尖锐非同调界。概率年鉴,44(4):2479-25062016·Zbl 1372.60004号
[8] 拉金德拉·巴蒂亚。矩阵分析,第169卷。施普林格科学与商业媒体,2013年·Zbl 0863.15001号
[9] 彼得·比克尔(Peter J Bickel)和陈爱友(Aiyou Chen)。网络模型和newman–girvan及其他模块的非参数视图。《美国国家科学院院刊》,第pnas-0907096106页,2009年·Zbl 1359.62411号
[10] 诺伯特·宾基维茨(Norbert Binkiewicz)、约书亚·T·沃格斯坦(Joshua T.Vogelstein)和卡尔·罗(Karl Rohe)。协变量辅助光谱聚类,第1-48页,2014年11月。统一资源定位地址http://arxiv.org/abs/1411.2158。 ·Zbl 1506.62319号
[11] 贝拉·博洛巴斯、斯万特·詹森和奥利弗·里奥丹。非均匀随机图中的相变。随机结构与算法,31(1):3-1222007·Zbl 1123.05083号
[12] 拉维·B·波帕纳。特征值和图二分:平均案例分析。《计算机科学基础》,1987年,第28届年度研讨会,第280-285页。IEEE,1987年。
[13] Joshua Cape、Minh Tang和Carey E Priebe。关于随机块模型图中的谱嵌入性能和说明网络结构。arXiv预印本arXiv:1808.048552018·Zbl 1470.62065号
[14] 卡马利卡·乔杜里(Kamalika Chaudhuri)、范忠(Fan Chung)和亚历山大·齐亚塔斯(Alexander Tsiatas)。扩展种植分割模型中一般度图的谱聚类。InConference on Learning Theory,第35-1页,2012年。
[15] 陈玉东和徐家明。随着簇和子矩阵数量的增加,植入式问题和子矩阵定位的统计计算权衡。机器学习研究杂志,17(1):882-9382016·兹比尔1360.62320
[16] Peter Chin,Anup Rao和Van Vu。稀疏图中的随机块模型和社区检测:一种具有最优恢复率的谱算法。《学习理论会议》,第391-4232015页。
[17] 阿明·科贾·奥格伦(Amin Coja-Oghlan)。通过自适应谱技术进行图形分割。组合数学,概率与计算,19(2):227-2842010·Zbl 1209.05178号
[18] 阿尼尔本·达斯古普塔(Anirban Dasgupta)、约翰·霍普克罗夫特(John Hopcroft)、拉维·坎南(Ravi Kannan)和普拉迪普塔·米特拉(Pradipta Mitra)。通过递归划分进行谱聚类。算法——ESA 2006,第256-267页,2006年·Zbl 1131.05313号
[19] Inderjit S Dhillon公司。使用二部谱图划分对文档和单词进行共聚类。第七届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第269-274页。ACM,2001年。
[20] 唐尼尔·菲什金(Donniell E Fishkind)、丹尼尔·苏斯曼(Daniel L Sussman)、明·唐(Minh Tang)、约书亚·T·沃格斯坦(Joshua T Vogelstein)和凯里·普里贝(Carey E Priebe)。当模型参数未知时,随机块模型的一致邻接谱划分。SIAM矩阵分析与应用杂志,34(1):23-392013·Zbl 1314.05186号
[21] 高超,陆瑜,周哈里森,等。速率最优图元估计。《统计年鉴》,43(6):2624-26522015·Zbl 1332.60050号
[22] 高超(Chao Gao)、马宗明(Zongming Ma)、张安德森(Anderson Y Zhang)和周哈里森(Harrison H Zhou)。在随机块段模型中实现最优误分类比例。机器学习研究杂志,18(1):1980-20242017·Zbl 1440.62244号
[23] 高超,马宗明,张安德森,周哈里森,等。度校正块模型中的社区检测。《统计年鉴》,46(5):2153-21852018年·Zbl 1408.62116号
[24] 约翰·哈蒂根(John A Hartigan)。数据矩阵的直接聚类。美国统计协会杂志,67(337):123-1291972。
[25] 金嘉顺。通过分数快速社区检测。《统计年鉴》,43(1):57-892015·Zbl 1310.62076号
[26] A约瑟夫和B余。正则化对光谱聚类的影响。arXiv预印本arXiv:1312.17332013。统一资源定位地址http://arxiv.org/abs/1312.1733。 ·Zbl 1357.62229号
[27] B.Karrer和M.E.J.Newman。网络中的随机块模型和社区结构。物理学。版本E,83(1):0161072011。
[28] Olga Klopp、Alexandre B Tsybakov、Nicolas Verzelen等,网络模型和稀疏图形估计的Oracle不等式。《统计年鉴》,45(1):316-3542017年·Zbl 1367.62090号
[29] F.Krzakala、C.Moore、E.Mossel、J.Neeman、A.Sly、Lenka Zdeborov´A和Pan Zhang。聚类稀疏网络中的谱赎回。《美国国家科学院院刊》,110(52):20935-402013年12月。ISSN 10916490.doi:10.1073/pnas.1312486110.URLhttp://www.pubmedcentral.nih.gov/articlerender.fcgi?artid=3876200{&}工具=pmcentrez{&}renderype=抽象·兹比尔1359.62252
[30] Amit Kumar、Yogish Sabharwal和Sandeep Sen。一种用于任何维度的k-均值聚类的简单线性时间(1+/spl-epsiv/)近似算法。《计算机科学基础》,2004年。诉讼程序。第45届IEEE年会,第454-462页。IEEE,2004年。
[31] C.M.Le、E.Levina和R.Vershynin。稀疏随机图:Laplacian.arXiv预印本arXiv:1502.03049的正则化和浓度,2015年2月。doi:10.1088/0264-9381/32/11/115009。统一资源定位地址http://arxiv.org/abs/1502.0304/arxivorg/abs/1502.00304http://arxiv.org/abs/1502.03049。 ·Zbl 1373.05179号
[32] Can M Le、Elizaveta Levina和Roman Vershynin。随机图的集中和正则化。随机结构与算法,2017年·Zbl 1373.05179号
[33] Jing Lei,Alessandro Rinaldo,等。随机块模型中谱聚类的一致性。《统计年鉴》,43(1):215-2372015·Zbl 1308.62041号
[34] 于璐和哈里森·H·周。劳埃德算法及其方差的统计和计算保证。arXiv预印arXiv:1612.02099,2016。
[35] Vince Lyzinski、Daniel L Sussman、Minh Tang、Avanti Athreya、Carey E Priebe等。通过邻接谱嵌入实现随机块模型图的完美聚类。《电子统计杂志》,8(2):2905-29222014·Zbl 1308.62131号
[36] F.McSherry。随机图的谱划分。2001年IEEE集群计算国际会议论文集,第529-537页。IEEE计算。Soc,2001年。国际标准图书编号0-7695-1116-3。doi:10.1109/SFCS.2001.959929。统一资源定位地址http://ieeexplore.ieee。org/lpdocs/epic03/wrapper.htm?arnumber=959929。
[37] Andrew Y Ng、Michael I Jordan和Yair Weiss。关于谱聚类:分析和算法。神经信息处理系统进展,第849-8562002页。
[38] 索菲亚·C·奥尔赫德和帕特里克·J·沃尔夫。网络直方图和块模型近似的通用性。《美国国家科学院院刊》,111(41):14722-147272014。
[39] 泰琴和卡尔·罗赫。度校正随机块模型下的正则谱聚类。《神经信息处理系统进展》,第3120-3128页,2013年。
[40] 卡尔·罗和宾·余。有向图的共聚类;随机协块模型和谱算法。stat,1050:102012。
[41] Karl Rohe,Sourav Chatterjee,Bin Yu等。谱聚类和高维随机块模型。《统计年鉴》,39(4):1878-19152011年·Zbl 1227.62042号
[42] Bo S¨oderberg。非齐次随机图的一般形式。物理评论E,66(6):0661212002。
[43] 苏良军、王武义和张一冲。随机块模型谱聚类的强一致性。arXiv预印本arXiv:1710.061912017·Zbl 1433.62170号
[44] D.C.Tomozei和L.Massouli’e。通过光谱方法进行分布式用户分析。《InACM SIGMETRICS绩效评估审查》,第383-384页,2010年。统一资源定位地址http://www.i-journals.org/ssy/viewarticle.php?id=36http://arxiv.org/abs/1109.3318http://dl.acm.org/citation.cfm?id=1811098。
[45] 乔尔·特罗普(Joel A Tropp)。矩阵集中不等式简介。《机器学习基础与趋势》,8(1-2):1-230,2015年·Zbl 1391.15071号
[46] 罗曼·弗什宁。高维概率:数据科学应用简介,第47卷。剑桥大学出版社,2018年·Zbl 1430.60005号
[47] Ulrike Von Luxburg.光谱聚类教程.统计与计算,17(4):395-4162007。
[48] 乌尔里克·冯·卢克斯堡(Ulrike Von Luxburg)、米哈伊尔·贝尔金(Mikhail Belkin)和奥利维尔·布斯克(Olivier Bousquet)。光谱聚类的一致性。《统计年鉴》,第555-586页,2008年·Zbl 1133.62045号
[49] 徐嘉明。石墨估算光谱方法的收敛速度。arXiv预印本arXiv:1709.031832017。
[50] Se-Young Yun和Alexandre Proutiere。通过谱算法在随机块模型中准确检测社区。arXiv预打印arXiv:1412.73352014a。
[51] Se-Young Yun和Alexandre Proutiere。通过随机和自适应采样进行社区检测。InConference on Learning Theory,第138-175页,2014年b。
[52] 赵云鹏(Yunpeng Zhao)、伊丽莎维塔·莱维娜(Elizaveta Levina)和季朱(Ji Zhu)。度校正随机块模型下网络中社区检测的一致性。《统计年鉴》,40(4):2266-22922012年·Zbl 1257.62095号
[53] 周志新(Zhixin Zhou)和阿拉什·阿米尼(Arash A.Amini)。最优二部网络聚类。预印本,2018年·Zbl 1498.68281号
[54] Zhixin Zhou和Arash A。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。