×

潜在区块模型的拟合优度检验。 (英语) Zbl 1510.62285号

摘要:潜在块模型用于概率双聚类,这被证明是分析各种关系数据集的有效方法。然而,还没有统计测试方法来确定潜在块模型的行和列簇数。最近的研究为随机块模型构建了基于统计测试的方法,该方法假设观测矩阵是一个平方对称矩阵,并且行和列的聚类分配相同。在这项研究中,我们为潜在块模型开发了一种新的拟合优度测试,以测试观察到的数据矩阵是否适合给定的一组行和列簇数,或者它是否由在行和列的至少一个方向上的更多簇组成。为了构造测试方法,我们使用了随机矩阵理论中的一个结果作为样本协方差矩阵。我们通过显示测试统计量的渐近行为和测量测试精度,实验证明了所提方法的有效性。

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
15B52号 随机矩阵(代数方面)
60对20 随机矩阵(概率方面)

软件:

UCI-毫升
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ames,B.P.W.,《通过半定规划保证聚类和双聚类》,数学。程序。,147, 1, 429-465 (2014) ·Zbl 1297.90107号
[2] Arabie,P。;Boorman,S.A。;Levit,P.R.,《构建块模型:如何和为什么》,J.Math。心理学,17,1,21-63(1978)·Zbl 0375.92001号
[3] Bai,Z.D。;Yin,Y.Q.,大维样本协方差矩阵最小特征值的极限,Ann.Probab。,21, 3, 1275-1294 (1993) ·Zbl 0779.60026号
[4] 包,Z。;潘·G。;周伟,具有一般总体的样本协方差矩阵最大特征值的普遍性,Ann.Statist。,43, 1, 382-421 (2015) ·Zbl 1408.60006号
[5] Bickel,P.J。;Sarkar,P.,网络中自动社区检测的假设测试,J.R.Stat.Soc.Ser。B统计方法。,78, 1, 253-273 (2016) ·Zbl 1411.62162号
[6] Bloemendal,A。;Knowles,A。;尤,H.-T。;Yin,J.,关于样本协方差矩阵的主成分,Probab。理论相关领域,164,459-552(2016)·Zbl 1339.15023号
[7] Brault,V。;Channarond,A.,潜在区块模型的快速一致算法(2016),arXiv:11610.09005
[8] Chen,K。;Lei,J.,确定网络数据中社区数量的网络交叉验证,J.Amer。统计师。协会,113,521,241-251(2018)·Zbl 1398.62159号
[9] Conover,W.J.,《实用非参数统计》(1999),John Wiley&Sons,纽约
[10] Corneli,M.,Latouche,P.,Rossi,F.,2015年。动态网络潜在块模型非平稳时间扩展中的精确ICL最大化。摘自:第23届欧洲人工神经网络、计算智能和机器学习研讨会论文集。第225-230页。
[11] Dabbs,B。;Junker,B.,随机块模型交叉验证方法的比较(2016),arXiv:1605.03000
[12] Dhillon,I.S.,2001年。使用二部谱图划分对文档和单词进行共聚类。摘自:第七届ACM SIGKDD知识发现和数据挖掘国际会议论文集。第269-274页。
[13] 丁,X。;Yang,F.,协方差矩阵最大奇异值边普适性的一个充要条件,Ann.Probab。,28, 3, 1679-1738 (2018) ·Zbl 1426.15052号
[14] 杜瓦,D。;Graff,C.,UCI机器学习知识库(2017),加利福尼亚大学欧文分校信息与计算机科学学院,http://archive.ics.uci.edu/ml
[15] 弗林,C.J。;Perry,P.O.,《剖面似然双聚类》,电子。J.Stat.,第14、1、731-768页(2020年)·Zbl 1435.62229号
[16] Geman,S.,随机矩阵范数的极限定理,Ann.Probab。,8,2522-261(1980年)·Zbl 0428.60039号
[17] 戈瓦特,G。;Nadif,M.,用块混合模型聚类,模式识别。,36, 463-473 (2003)
[18] Hartigan,J.A.,数据矩阵的直接聚类,J.Amer。统计人员。协会,67,337,123-129(1972)
[19] 荷兰,P.W。;Laskey,K.B。;Leinhardt,S.,《随机块模型:第一步》,《社交网络》,5,109-137(1983)
[20] 胡,J。;秦,H。;Yan,T。;Zhao,Y.,修正了随机块模型的贝叶斯信息准则,J.Amer。统计师。协会,1-13(2019)
[21] 胡,J。;张,J。;秦,H。;Yan,T。;Zhu,J.,使用最大入门偏差测试随机块模型的拟合优度,J.Amer。统计师。协会,1-10(2020年)
[22] Johansson,K.,《形状波动和随机矩阵》,《公共数学》。物理。,209, 437-476 (2000) ·Zbl 0969.15008号
[23] Johnstone,I.M.,《关于主成分分析中最大特征值的分布》,Ann.Statist。,29, 2, 295-327 (2001) ·Zbl 1016.62078号
[24] 卡瓦,V。;帕蒂,D。;彼得罗维奇,S。;Solus,L。;Alexeev,N。;雷奇,M。;威尔伯恩,D。;威廉姆斯,R。;Yan,B.,随机块模型的精确测试(2016),arXiv:1612.06040
[25] 川本,T。;Kabashima,Y.,网络中集群数量的交叉验证估计,科学。代表,73327(2017)
[26] Keribin,C.、Brault,V.、Celeux,G.、Govaert,G.,2012年。二进制潜在块模型的模型选择。摘自:《第20届国际计算统计会议论文集》。第379-390页·兹比尔1331.62149
[27] 克里宾,C。;Brault,V。;Celeux,G。;Govaert,G.,分类数据上潜在块模型的估计和选择,统计计算。,25, 1201-1216 (2015) ·Zbl 1331.62149号
[28] Labiod,L.,Nadif,M.,2011年。分类数据的模块化和光谱联合聚类。摘自:《数据挖掘国际会议论文集》。第386-392页。
[29] Lei,J.,随机块模型的有效性检验,Ann.Statist。,44, 1, 401-424 (2016) ·Zbl 1331.62283号
[30] Li,T.等人。;莱维纳,E。;Zhu,J.,通过边缘采样进行网络交叉验证,Biometrika,107,2,257-276(2020)·Zbl 1441.62049号
[31] Lomet,A.,Govaert,G.,Grandvalet,Y.,2012年。基于综合分类似然的块聚类模型选择。摘自:《第20届国际计算统计会议论文集》。第519-530页·Zbl 1416.62349号
[32] Ma,Z.,白Wishart矩阵中极端特征值的Tracy-Widom极限的准确性,Bernoulli,18,1,322-359(2012)·Zbl 1248.60010号
[33] Mariadassou,M。;Matias,C.,潜在或随机块模型中群体后验分布的收敛性,Bernoulli,21,1,537-573(2015)·Zbl 1329.62285号
[34] Nakano,M.,Ishiguro,K.,Kimura,A.,Yamada,T.,Ueda,N.,2014年。矩形平铺过程。摘自:第31届机器学习国际会议论文集。第361-369页。
[35] Passino,F.S。;Heard,N.A.,随机块模型中潜在维度和社区的贝叶斯估计,统计计算。,301291-1307(2020)·Zbl 1452.62404号
[36] Péché,S.,某些样本协方差矩阵系综最大特征值的普适性结果,Probab。理论相关领域,143481-516(2009)·Zbl 1167.62019
[37] Peixoto,T.P.,大型网络中的节俭模块推理,物理学。修订稿。,110,第148701条pp.(2013)
[38] 新南威尔士州皮莱。;Yin,J.,协方差矩阵的普遍性,Ann.Appl。概率。,24, 3, 935-1001 (2014) ·Zbl 1296.15021号
[39] Pontes,B。;Giráldez,R。;Aguilar-Ruiz,J.S.,《表达数据的双聚类:综述》,J.Biomed。通知。,57, 163-180 (2015)
[40] Rastelli,R。;Friel,N.,潜在变量聚类模型的最优贝叶斯估计,统计计算。,28, 1169-1186 (2018) ·Zbl 1430.62140号
[41] 罗伯特·V。;Vasseur,Y.,《比较高维分区与协同聚类调整后的兰德指数》(2017),arXiv:1705.06760
[42] 罗伊·D·M。;Teh,Y.W.,蒙德里安过程,(神经信息处理系统进展21(2008)),1377-1384
[43] 萨尔达尼亚,D.F。;Yu,Y。;Feng,Y.,有多少社区?,J.计算。图表。统计人员。,26, 1, 171-181 (2017)
[44] Shan,H.,Banerjee,A.,2008年。贝叶斯联合聚类。收录:第八届IEEE数据挖掘国际会议论文集。第530-539页。
[45] Silverstein,J.W.,大维Wishart矩阵的最小特征值,Ann.Probab。,13, 4, 1364-1368 (1985) ·Zbl 0591.60025号
[46] Soshnikov,A.,关于某些样本协方差矩阵中最大特征值分布的普适性的注释,J.Stat.Phys。,108, 1033-1056 (2002) ·Zbl 1018.62042号
[47] 特蕾西,C.A。;Widom,H.,《随机矩阵理论的分布及其应用》,(数学物理新趋势(2009),施普林格出版社),753-765·Zbl 1176.15046号
[48] van der Vaart,A.W.,《渐进统计》(1998),剑桥大学出版社·兹比尔0910.62001
[49] Ward,J.H.,优化目标函数的分层分组,J.Amer。统计师。协会,58,301,236-244(1963)
[50] Wyse,J。;Friel,N.,具有折叠潜在块模型的块聚类,统计计算。,22, 415-428 (2012) ·Zbl 1322.62046号
[51] Wyse,J。;弗里尔,N。;Latouche,P.,使用潜在块模型和精确ICL推断二部网络中的结构,Netw。科学。,5, 1, 45-69 (2017)
[52] Yin,Y.Q。;Bai,Z.D。;Krishnaiah,P.R.,关于大维样本协方差矩阵最大特征值的极限,Probab。理论相关领域,78,509-521(1988)·Zbl 0627.62022号
[53] 袁,M。;Feng,Y。;Shang,Z.,有界度随机块模型的似然比类型检验(2018),arXiv:1807.04426
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。