×

模型辅助变量聚类:最小最优恢复和算法。 (英语) Zbl 1441.62164号

作者摘要:变量聚类的问题是从(X\)的独立副本中估计(p\)维向量(X=(X_1,dots,X_p)\)相似分量的组。存在大量返回数据相关变量组的算法,但它们的解释仅限于生成它们的算法。另一种方法是基于模型的集群其中一个是通过定义相对于嵌入相似性概念的模型的种群水平聚类开始的。针对此类模型定制的算法可以产生具有明确统计解释的估计聚类。我们在这里采用这种观点,并引入了一类G块协方差模型作为变量聚类的背景模型。在这种模型中,如果一个簇中的两个变量具有相似的关联,那么它们将被视为相似的所有其他变量。例如,当变量组是同一潜在因素的噪声破坏版本时,就会出现这种情况。我们量化了从\(G\)-块协方差模型生成的聚类数据的难度,根据两个相关但不同的聚类分离度量来测量聚类接近度。我们推导了极小极大聚类分离阈值,这是一个度量值,在这个度量值之下,任何算法都无法准确地恢复模型定义的聚类,并表明这两个度量值是不同的。因此,我们开发了两种算法,COD和PECOK,专门针对G块协方差模型,并研究了它们相对于每个度量的最小最优性。独立的有趣的是,对PECOK算法的分析基于流行的K均值算法的修正凸松弛,为变量聚类提供了此类算法的首次统计分析。此外,我们将我们的方法与另一种流行的聚类方法谱聚类进行了比较。广泛的模拟研究以及我们的数据分析,确认我们的方法的适用性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62G05型 非参数估计
62C20个 统计决策理论中的Minimax过程

软件:

k平均值++
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abbe,E.、Fan,J.、Wang,K.和Zhong,Y.(2017)。低期望秩随机矩阵的条目特征向量分析。ArXiv预印ArXiv:1709.09565·Zbl 1450.62066号
[2] Abbe,E.和Sandon,C.(2015)。一般随机块模型中的社区检测:恢复的基本极限和有效算法。在2015年IEEE第56届计算机科学基础年会上—FOCS 2015 670-688。IEEE计算机协会,加利福尼亚州洛斯阿拉米托斯。
[3] Amini,A.A.和Levina,E.(2018年)。关于块模型的半定松弛。Ann.Statist公司。46 149-179. ·Zbl 1393.62021号 ·doi:10.1214/17-AOS1545
[4] Arthur,D.和Vassilvitskii,S.(2007)。k-means++:仔细播种的优点。第十八届ACM-SIAM离散算法年会论文集1027-1035。纽约ACM·Zbl 1302.68273号
[5] Awasthi,P.、Charikar,M.、Krishnaswamy,R.和Sinop,A.K.(2015)。欧氏k-均值逼近的困难。在第31届国际计算几何研讨会上。LIPIcs公司。莱布尼茨国际会议记录。通知。34 754-767. 达格斯图尔宫。莱布尼兹·赞特。通知。,韦德恩·Zbl 1378.68048号
[6] Banerjee,O.、El Ghaoui,L.和d’Aspremont,A.(2008年)。通过多元高斯或二进制数据的稀疏最大似然估计进行模型选择。J.马赫。学习。第9 485-516号决议·Zbl 1225.68149号
[7] Bellec,P.、Perlbarg,V.、Jbabdi,S.、Pélégrini Issac,M.、Anton,J.-l.、Doyon,J.和Benali,H.(2006年)。使用fMRI识别大脑中的大规模网络。神经图像29 1231-1243。
[8] Bernardes,J.S.、Vieira,F.R.、Costa,L.M.和Zaverucha,G.(2015)。用于检测远程同源蛋白家族的聚类算法的评估和改进。BMC生物信息。16 1-14.
[9] Berthet,Q.和Rigollet,P.(2013)。稀疏主成分检测的复杂性理论下限。《第26届学习理论年会论文集》(S.Shalev-Shwartz和I.Steinwart编辑)。机器学习研究论文集30 1046-1066。PMLR,新泽西州普林斯顿。
[10] Berthet,Q.、Rigollet,P.和Srivastava,P.(2018)。伊辛区块模型中的精确恢复。Ann.Statist公司。出现。arXiv:1612.03880·Zbl 1420.62268号 ·doi:10.1214/17-AOS1620
[11] Bing,M.、Bunea,F.、Ning,Y.和Wegkamp,M.(2018年)。结构因子模型中的自适应估计及其在重叠聚类中的应用。ArXiv E-prints·Zbl 1455.62116号
[12] Bouveyron,C.和Brunet-Saumard,C.(2014)。基于模型的高维数据聚类:综述。计算。统计师。数据分析。71 52-78. ·Zbl 1471.62032号 ·doi:10.1016/j.csda.2012.12.008
[13] Bunea,F.、Giraud,C.和Luo,X.(2015)。通过跳线在(G)-模型中的Minimax最优变量聚类。ArXiv预印ArXiv:1508.01939。
[14] Bunea,F.、Giraud,C.、Luo,X.、Royer,M.和Verzelen,N.(2020年)。补充“模型辅助变量聚类:最小最优恢复和算法”https://doi.org/10.1214/18-AOS1794SUPP。 ·Zbl 1441.62164号
[15] Bunea,F.、Giraud,C.、Royer,M.和Verzelen,N.(2016年)。PECOK:变量聚类的凸优化方法。ArXiv预打印ArXiv:1606.05100。
[16] Chen,Y.和Xu,J.(2016)。种植问题和子矩阵定位中的统计计算权衡,以及越来越多的聚类和子矩阵。J.马赫。学习。第17号决议第27、57号文件·Zbl 1360.62320号
[17] Chong,M.、Bhushan,C.、Joshi,A.A.、Choi,S.、Haldar,J.P.、Shattuck,D.W.、Spreng,R.N.和Leahy,R.M.(2017)。静息功能磁共振成像的个体分割与先前的组功能连接。神经影像156 87-100。
[18] Craddock,R.C.、James,G.A.、Holtzheimer,P.E.、Hu,X.P.和Mayberg,H.S.(2012)。通过空间约束光谱聚类生成的全脑fMRI图谱。Hum.brain Mapp。33 1914-1928.
[19] Frei,N.、Garcia,A.V.、Bigeard,J.、Zaag,R.、Bueso,E.、Garmier,M.、Pateyron,S.、de Tauzia-Moreau,M.L.、Brunaud,V.等人(2014)。拟南芥免疫相关MAPKs的功能分析揭示了MPK3作为诱导防御负调控因子的作用。基因组生物学。15 1-22.
[20] Glasser,M.F.、Coalson,T.S.、Robinson,E.C.、Hacker,C.D.、Harwell,J.、Yacoub,E.、Ugurbil,K.、Andersson,J.和Beckmann,C.F.等人(2016年)。人类大脑皮层的多模态分割。自然536 171-178。
[21] Guédon,O.和Vershynin,R.(2016)。基于Grothendieck不等式的稀疏网络社区检测。普罗巴伯。理论相关领域165 1025-1049·Zbl 1357.90111号 ·doi:10.1007/s00440-015-0659-z
[22] James,G.A.、Hazaroglu,O.和Bush,K.A.(2016)。通过静止状态和基于任务的fMRI数据的n-cut分割得到的人脑图谱。Magn.公司。Reson公司。成像34 209-218。
[23] 江D.、唐C.和张A.(2004)。基因表达数据的聚类分析:一项调查。IEEE传输。知识。数据工程16 1370-1386。
[24] Koltchinskii,V.和Lounici,K.(2017年)。样本协方差算子的集中不等式和矩界。伯努利23 110-133·Zbl 1366.60057号 ·doi:10.3150/15-BEJ730
[25] Kong,R.、Li,J.、Sun,N.、Sabuncu,M.、Liu,H.、Schaefer,A.、Zuo,X.-N.、Holmes,A.和Eickhoff,S.等人(2018年)。个体特定皮层网络的空间地形预测人类认知、人格和情感。https://www.biorxiv.org/content/early/2018/01/31/213041。
[26] Kumar,A.、Sabharwal,Y.和Sen,S.(2004年)。一种简单的线性时间((1+epsilon)-近似算法,用于任意维的k-means聚类。《计算机科学基础》,2004年。诉讼程序。第45届IEEE年会,454-462。
[27] Le,C.M.、Levina,E.和Vershynin,R.(2016)。基于低阶近似的网络社区检测优化。Ann.Statist公司。44 373-400. ·Zbl 1331.62312号 ·doi:10.1214/15-OS1360
[28] Lei,J.和Rinaldo,A.(2015)。随机块模型中谱聚类的一致性。Ann.Statist公司。43 215-237·Zbl 1308.62041号 ·doi:10.1214/14-AOS1274
[29] Lei,J.和Zhu,L.(2014)。随机块模型中用于精细社区恢复的通用样本分割方法。ArXiv预打印ArXiv:1411.1469。
[30] Lloyd,S.P.(1982)。PCM中的最小二乘量化。IEEE传输。通知。理论28 129-137·Zbl 0504.94015号 ·doi:10.1109/TIT.1982.1056489
[31] Lu,Y.和Zhou,H.H.(2016)。劳埃德算法及其变体的统计和计算保证。ArXiv预打印ArXiv:1612.02099。
[32] Mixon,D.G.、Villar,S.和Ward,R.(2017年)。基于半定规划的亚高斯混合聚类。Inf.推理6 389-415·Zbl 1381.62189号 ·doi:10.1093/imaiai/iax001
[33] Mossel,E.、Neeman,J.和Sly,A.(2014)。二进制对称块模型的一致性阈值。ArXiv预打印ArXiv:1407.1591·Zbl 1321.05242号
[34] Peng,J.和Wei,Y.(2007)。通过半定规划逼近(K)-均值型聚类。SIAM J.Optim公司。18 186-205. ·Zbl 1146.90046号 ·doi:10.1137/050641983年
[35] Perry,A.和Wein,A.S.(2015)。随机块模型中非平衡多段的半定规划。ArXiv电子打印ArXiv:1507.05605。
[36] Poldrack,R.A.(2007)。功能磁共振成像的感兴趣区域分析。影响。神经科学。2 67-70.
[37] Power,J.D.,Cohen,A.L.,Nelson,S.M.,Wig,G.S.,Barnes,K.A.,Church,J.A.,Vogel,A.C.,Laumann,T.O.,Miezin,F.M.等人(2011年)。人脑的功能网络组织。神经元72 665-678。
[38] Royer,M.(2017)。通过半定规划实现自适应聚类。神经信息处理系统进展。
[39] Xue,G.、Aron,A.R.和Poldrack,R.A.(2008)。抑制口头和手动反应的常见神经基质。塞雷布。Cortex 18 1923-1932年。
[40] Yeo,B.T.、Krienen,F.M.、Sepulcre,J.、Sabuncu,M.R.、Lashkari,D.、Hollinshed,M.、Roffman,J.L.、Smoller,J.W.、Zöllei,L.等人(2011年)。通过内在功能连通性估计的人类大脑皮层的组织。《神经生理学杂志》。106 1125-1165.
[41] Zaag,R.、Tamby,J.、Guichard,C.、Tariq,Z.、Rigaill,G.、Delannoy,E.、Renou,J.,Balzergue,S.、Mary-Huard,T.等人(2015)。GEM2Net:从基因表达建模到组学网络,一个新的CATdb模块,用于研究拟南芥与应激反应相关的基因。核酸研究43 1010-1017。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。