×

度校正块模型的调整齐方检验。 (英语) Zbl 07783619号

摘要:我们提出了一种度校正随机块模型(DCSBM)的有效性检验。该测试基于一个调整后的双平方统计,用于测量多项式分布组之间的平均值相等性\({d} _1个,\t个,{d}_{n} \)观察。在网络模型的背景下,多项式的数量增长比观测值的数量快得多{d}_{i} \),对应于节点度\(i),因此设置偏离了经典渐近。我们证明,只要({d_{i}})的调和平均值增长到无穷大,简单的调整就可以使统计在零的情况下收敛于分布。当按顺序应用时,测试也可以用来确定社区的数量。该测试基于邻接矩阵的压缩版本,以度为条件,因此对于大型稀疏网络具有高度可扩展性。在测试(K)社区时,我们采用了一种新颖的想法,即基于({K}+1)社区分配来压缩行。这种方法在不牺牲计算效率的情况下提高了顺序应用程序的能力,并且我们证明了它在恢复社区数量方面的一致性。由于测试统计数据不依赖于特定的替代方案,因此其实用性超越了顺序测试,可用于同时测试DCSBM系列以外的各种替代方案。特别地,我们证明了该测试对于具有社区结构的一般隐变量网络模型族是一致的。通过大量的模拟和实际数据的数值实验,我们证明了该方法的有效性。特别是,将该测试应用于Facebook-100数据集(一个由100个社交网络组成的集合),我们发现拥有少量社区的DCSBM在几乎所有情况下都不太适合。

理学硕士:

62H30型 分类和区分;聚类分析(统计方面)
62G10型 非参数假设检验
6220国集团 非参数推理的渐近性质
91天30分 社交网络;意见动态

软件:

github;净值
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abbe,E.(2017)。社区检测和随机块模型:最新发展。J.马赫。学习。决议18第177、86号文件。数学科学网:MR3827065·Zbl 1403.62110号
[2] AMINI,A.、PAEZ,M.和LIN,L.(2022)。用于多路网络中社区检测的分层随机块模型。贝叶斯分析。预先出版1-27。
[3] AMINI,A.A.和ZHANG,L.(2020年)。nett包,https://aaamini.github.io/nett/index.html。
[4] Bickel,P.J.、Chen,A.和Levina,E.(2011年)。网络模型的矩和度分布方法。安。统计师。39 2280-2301. 数字对象标识符:10.1214/11-AOS904谷歌学者:查找链接数学科学网:MR2906868·Zbl 1232.91577号 ·doi:10.1214/11-AOS904
[5] BICKEL,P.J.、RITOV,Y.和STOKER,T.M.(2006)。半参数假设拟合优度的定制测试。安。统计师。34 721-741. 数字对象标识符:10.1214/009053606000000137谷歌学者:查找链接MathSciNet:MR22281882·Zbl 1092.62050 ·doi:10.1214/0090536000000137
[6] Bickel,P.J.和Sarkar,P.(2016)。网络中自动社区检测的假设测试。J.R.统计社会服务。B.统计方法。78 253-273. 数字对象标识符:10.1111/rssb.12117谷歌学者:查找链接数学科学网:MR3453655·Zbl 1411.62162号 ·doi:10.1111/rssb.12117
[7] Breiman,L.(2001)。统计建模:两种文化。统计师。科学。16 199-231. 数字对象标识符:10.1214/ss/1009213726谷歌学者:查找链接数学科学网:MR1874152·Zbl 1059.62505号 ·doi:10.1214/ss/1009213726
[8] Chen,K.和Lei,J.(2018)。用于确定网络数据中社区数量的网络交叉验证。J.Amer。统计师。协会113 241-251。数字对象标识符:10.1080/01621459.2016.1246365谷歌学者:查找链接数学科学网:MR3803461·Zbl 1398.62159号 ·doi:10.1080/01621459.2016.1246365
[9] 陈世新(2000)。条件Bernoulli模型的一般性质和估计。《多元分析杂志》。74 69-87. 数字对象标识符:10.1006/jmva.1999.1872谷歌学者:查找链接数学科学网:MR1790614·Zbl 0969.62038号 ·doi:10.1006/jmva.1999.1872
[10] Chen,Y.、Li,X.和Xu,J.(2018)。度校正随机块模型的凸模块最大化。安。统计师。46 1573-1602. 数字对象标识符:10.1214/17-AOS1595谷歌学者:查找链接数学科学网:MR3819110·Zbl 1410.62105号 ·doi:10.1214/17-AOS1595
[11] DALL'AMICO,L.、COUILLET,R.和TREMBLAY,N.(2021)。稀疏图中谱聚类的统一框架。J.马赫。学习。决议22第217、56号文件。数学科学网:MR4329796·Zbl 07626732号
[12] ERDŐS,L.、YAU,H.-T.和YIN,J.(2012)。广义Wigner矩阵特征值的刚性。高级数学。229 1435-1515. 数字对象标识符:10.1016/j.aim.2011.12.010谷歌学者:查找链接MathSciNet:MR2871147·Zbl 1238.15017号 ·doi:10.1016/j.aim.2011.12.010
[13] Gao,C.、Ma,Z.、Zhang,A.Y.和Zhou,H.H.(2017)。在随机块段模型中实现最优误分类比例。J.马赫。学习。决议18第60、45号论文。数学科学网:MR3687603·Zbl 1440.62244号
[14] Geng,J.、Bhattacharya,A.和Pati,D.(2019年)。未知社区数的概率社区检测。J.Amer。统计师。协会114 893-905。数字对象标识符:10.1080/01621459.2018.1458618谷歌学者:查找链接数学科学网:MR3963189·Zbl 1420.62271号 ·doi:10.1080/01621459.2018.1458618
[15] Holland,P.W.、Laskey,K.B.和Leinhardt,S.(1983年)。随机块模型:第一步。Soc.网络。5 109-137. 数字对象标识符:10.1016/0378-8733(83)90021-7谷歌学者:查找链接数学科学网:MR0718088·doi:10.1016/0378-8733(83)90021-7
[16] 胡杰、秦华、闫涛和赵云(2020)。修正了随机块模型的贝叶斯信息准则。J.Amer。统计师。协会115 1771-1783。数字对象标识符:10.1080/01621459.2019.1637744谷歌学者:查找链接数学科学网:MR4189756·Zbl 1452.62154号 ·doi:10.1080/01621459.2019.1637744
[17] 亨特·D·R、古德鲁·S·M和汉考克·M·S(2008)。社交网络模型的拟合度。J.Amer。统计师。协会103 248-258。数学科学网:MR2394635·Zbl 1471.62390号
[18] Karrer,B.和Newman,M.E.J.(2011年)。网络中的随机块模型和社区结构。物理学。版本E(3)83 016107,10。数字对象标识符:10.1103/PhysRevE.83.016107谷歌学者:查找链接数学科学网:MR2788206·doi:10.1103/PhysRevE.83.016107
[19] KARWA,V.、PATI,D.、PETROVI,S.、SOLUS,L.、ALEXEEV,N.、RAI采,M.、WILBURNE,D.,WILLIAMS,R.和YAN,B.(2016)。随机块模型的精确测试。预印。可从arXiv:1612.06040获取。
[20] KAWAMOTO,T.和KABASHIMA,Y.(2017年)。网络中集群数量的交叉验证估计。代表7。
[21] LE,C.M.和LEVINA,E.(2022年)。用光谱法估算群落数量。电子。《美国法律总汇》第16卷第3315-3342页。数字对象标识符:10.1214/21-ejs1971谷歌学者:查找链接数学科学网:MR4422967·Zbl 1493.62313号 ·doi:10.1214/21-ejs1971
[22] Lee,J.O.和Yin,J.(2014)。Wigner矩阵边普适性的一个充要条件。杜克大学数学。期刊163 117-173。数字对象标识符:10.1215/00127094-2414767谷歌学者:查找链接数学科学网:MR3161313·Zbl 1296.60007号 ·数字对象标识代码:10.1215/00127094-2414767
[23] Lei,J.(2016)。随机块模型的良好性检验。安。统计师。44 401-424. 数字对象标识符:10.1214/15-AOS1370谷歌学者:查找链接数学科学网:MR3449773·Zbl 1331.62283号 ·doi:10.1214/15-AOS1370
[24] Lei,J.和Rinaldo,A.(2015)。随机块模型中谱聚类的一致性。安。统计师。43 215-237. 数字对象标识符:10.1214/14-AOS1274谷歌学者:查找链接数学科学网:MR3285605·Zbl 1308.62041号 ·doi:10.1214/14-AOS1274
[25] LI,T.,LEI,L.,BHATTACHARYYA,S.,VAN DEN BERGE,K.,SARKAR,P.,BICKEL,P.J.和LEVINA,E.(2022)。通过递归分区进行分层社区检测。J.Amer。统计师。协会117 951-968。数字对象标识符:10.1080/01621459.2020.1833888谷歌学者:查找链接数学科学网:MR4436325·Zbl 1507.68297号 ·doi:10.1080/016214592020.1833888
[26] LI,T.、LEVINA,E.和ZHU,J.(2020年)。通过边缘采样进行网络交叉验证。生物特征107 257-276. 数字对象标识符:10.1093/biomet/asaa006谷歌学者:查找链接数学科学网:MR4108931·Zbl 1441.62049号 ·doi:10.1093/biomet/asaa006
[27] LI,Y.和CHOUGH CARRIERE,K.(2013)。评估指数随机图模型的拟合优度。Int.J.Stat.Probab公司。2 64.
[28] LOH,W.-L.(1992年)。斯坦因方法和多项式近似。附录申请。普罗巴伯。2 536-554. 数学科学网:MR1177898·Zbl 0759.62007年
[29] MA,S.,SU,L.和ZHANG,Y.(2021)。确定度校正随机块模型中的社区数。J.马赫。学习。决议22第69、63号论文。数学科学网:MR4253762·Zbl 07370586号
[30] NEWMAN,M.E.和REINERT,G.(2016)。估算网络中的社区数量。修订稿。117 078301.
[31] NEWMAN,M.E.J.和GIRVAN,M..(2004)。发现和评估网络中的社区结构。物理学。版本E,Stat.Nonlin。软物质物理。69 03.
[32] OSPINA-FORERO,L.、DEANE,C.M.和REINERT,G.(2019年)。通过基于子图计数的网络比较方法评估模型拟合度。J.复杂网络。7 226-253. ·Zbl 1473.90037号
[33] RIOLO,M.A.、CANTWELL,G.T.、REINERT,G.和NEWMAN,M.E.(2017年)。估算网络中社区数量的有效方法。版次:E 96 032310。
[34] Qin,T.和Rohe,K.(2013)。度校正随机块模型下的正则谱聚类。神经信息处理系统进展3120-3128。
[35] TRAUD,A.L.、KELSIC,E.D.、MUCHA,P.J.和PORTER,M.A.(2011年)。比较在线大学社交网络中的社区结构和特征。SIAM版本53 526-543。数字对象标识符:10.1137/080734315谷歌学者:查找链接数学科学网:MR2834086·doi:10.1137/080734315
[36] TRAUD,A.L.、MUCHA,P.J.和PORTER,M.A.(2012年)。脸书网络的社会结构。物理学。A、 统计机械。申请。391 4165-4180.
[37] van der Vaart,A.W.(1998)。渐近统计。剑桥统计与概率数学系列3。剑桥大学出版社,剑桥。数字对象标识符:10.1017/CBO978051180225谷歌学者:查找链接数学科学网:MR1652247·Zbl 0943.6202号 ·doi:10.1017/CBO978051180225
[38] Wang,Y.X.R.和Bickel,P.J.(2017)。随机区块模型的基于似然的模型选择。安。统计师。45 500-528. 数字对象标识符:10.1214/16-AOS1457谷歌学者:查找链接数学科学网:MR3650391·Zbl 1371.62017年 ·doi:10.1214/16-AOS1457
[39] YAN,B.,SARKAR,P.和CHENG,X.区块模型中区块数量的可证明估计。《第二十届国际人工智能与统计会议论文集》,加那利群岛兰萨罗特帕亚·布兰卡,2018年4月9日至11日(A.Storkey和F.Perez-Cruz编辑)。机器学习研究论文集84 1185-1194。PMLR公司。
[40] 闫霞(2016)。随机块模型的贝叶斯模型选择。2016年IEEE/ACM社会网络分析和挖掘进展国际会议(ASONAM公司) 323-328.
[41] YAN,X.,SHALIZI,C.,JENSEN,J.E.,KRZAKALA,F.,MOORE,C.,ZDEBOROVá,L.,ZHANG,P.和ZHU,Y.(2014)。度校正块模型的模型选择。J.Stat.机械。理论实验2014 P05007。
[42] YUAN,M.,FENG,Y.和SHANG,Z.(2022)。有界度随机块模型的似然比类型检验。J.统计。计划。推论219 98-119。数字对象标识符:10.1016/j.jspi.20211.2005谷歌学者:查找链接数学科学网:MR4355951·Zbl 1484.62052号 ·doi:10.1016/j.jspi.2021.12.005
[43] Zhang,A.Y.和Zhou,H.H.(2016)。随机块模型中社区检测的最小最大速率。安。统计师。44 2252-2280. 数字对象标识符:10.1214/15-OS1428谷歌学者:查找链接MathSciNet:MR3546450·Zbl 1355.60125号 ·doi:10.1214/15-AOS1428
[44] ZHANG,L.和AMINI,A.(2021)。过量供给广义(k)均值中的标签一致性。高级神经信息处理。系统。34
[45] ZHANG,L.和AMINI,A.A.(2020年)。度校正块模型的调整齐方检验:R。https://github.com/linfanz/nac-test。
[46] ZHANG,L.和AMINI,A.A(2023年)。对“度校正块体模型的调整卡方检验”的补充https://doi.org/10.1214/23-AOS2329SUPP网站
[47] ZHOU,Z.和AMINI,A.A.(2020年)。最优二部网络聚类。J.Mach。学习。第21号决议第40、68号文件。数学科学网:MR4073773·Zbl 1498.68281号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。