×

惩罚模型聚类中的分组收缩估计。 (英语) Zbl 07646910号

摘要:有限高斯混合模型为聚类多变量连续数据提供了一种强大且广泛应用的概率方法。然而,在高维空间中,这些模型的实用性受到了威胁,因为它们往往被过度参数化。因此,人们提出了不同的解决方案,通常依赖于矩阵分解或变量选择策略。最近,在高斯图形模型和有限混合之间建立了方法上的联系,为在存在大精度矩阵的情况下基于惩罚模型的聚类铺平了道路。尽管如此,目前的方法隐含地假设了类之间相似的稀疏性水平,没有考虑到组之间变量之间不同程度的关联。我们通过推导分组惩罚因子来克服这一限制,这些惩罚因子会自动强制估计图中的欠连通性或过连通性。该方法完全由数据驱动,不需要额外的超参数规范。对合成数据和实际数据的分析表明了我们建议的有效性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] O.班纳吉。;LE Ghaoui;d'Aspremont,A.,多元高斯或二进制数据的稀疏最大似然估计模型选择,机器学习研究杂志,9,485-516(2008)·Zbl 1225.68149号
[2] JD Banfield;Raftery,AE,基于模型的高斯和非高斯聚类,生物统计学,49,3,803-821(1993)·Zbl 0794.62034号 ·doi:10.2307/2532201
[3] Bhattacharya,A。;Pati博士。;皮莱,NS;Dunson,DB,Dirichlet-Laplace最优收缩率先验,美国统计协会杂志,110,512,1479-1490(2015)·Zbl 1373.62368号 ·doi:10.1080/01621459.2014.960967
[4] PJ Bickel;Levina,E.,通过阈值进行协方差正则化,《统计年鉴》,36,6,2577-2604(2008)·Zbl 1196.62062号 ·doi:10.1214/08-AOS600
[5] 比恩,J。;Tibshirani,RJ,协方差矩阵的稀疏估计,Biometrika,98,4,807-820(2011)·Zbl 1228.62063号 ·doi:10.1093/biomet/asr054
[6] 比尔纳基,C。;Lourme,A.,《稳定且可视的高斯简约聚类模型》,《统计与计算》,24,6,953-969(2014)·兹比尔1332.62199 ·doi:10.1007/s11222-013-9413-5
[7] Bouveyron,C.等人。;Brunet,C.,《费希尔判别子空间中基于模型的同时聚类和可视化》,《统计与计算》,22,1,301-324(2012)·Zbl 1322.62162号 ·doi:10.1007/s11222-011-9249-9
[8] Bouveyron,C.等人。;Brunet-Saumard,C.,《基于模型的高维数据聚类:综述》,计算统计与数据分析,71,52-78(2014)·Zbl 1471.62032号 ·doi:10.1016/j.csda.2012.12.008
[9] Bouveyron,C.等人。;Celeux,G。;墨菲,TB;Raftery,AE,《数据科学的基于模型的聚类和分类:在R中的应用》(2019),剑桥:剑桥大学出版社,剑桥·Zbl 1436.62006年 ·doi:10.1017/9781108644181
[10] Bouveyron,C.等人。;Girard,S。;Schmid,C.,高维数据聚类,计算统计与数据分析,52,1,502-519(2007)·Zbl 1452.62433号 ·doi:10.1016/j.csda.2007.02.009
[11] Carter,J.S.、Rossell,D.和Smith,J.Q.(2021)。偏相关图形套索。arXiv:2104.1099。
[12] 卡萨,A。;Scrucca,L。;Menardi,G.,比最好的更好?基于密度聚类中模型集成的答案,数据分析和分类进展,15,3,599-623(2021)·Zbl 07433032号 ·doi:10.1007/s11634-020-00423-6
[13] Celeux,G。;Govaert,G.,高斯简约聚类模型,模式识别,28,5781-793(1995)·doi:10.1016/0031-3203(94)00125-6
[14] 乔杜里,S。;德顿,M。;Richardson,TS,带零协方差矩阵的估计,生物统计学,94,1,199-216(2007)·Zbl 1143.62032号 ·doi:10.1093/biomet/asm007
[15] Danaher,P。;王,P。;Witten,DM,《多类协方差逆估计的联合图形套索》,《皇家统计学会杂志:B辑(方法学)》,76,2,373(2014)·Zbl 07555455号 ·doi:10.1111/rssb.12033
[16] 阿联酋登普斯特;新墨西哥州莱尔德;Rubin,DB,《通过EM算法从不完整数据中获取最大似然》,《皇家统计学会杂志:B辑(方法学)》,39,1,1-22(1977)·Zbl 0364.62022号
[17] 伊利诺伊州德莱顿;Koloydenko,A。;Zhou,D.,协方差矩阵的非欧几里得统计,及其在扩散张量成像中的应用,应用统计学年鉴,3,31102-1123(2009)·Zbl 1196.62063号 ·doi:10.1214/09-AOAS249
[18] 埃尔德斯,P。;Rényi,A.,《关于随机图的演化》,匈牙利科学院数学研究所出版物,5,1,17-60(1960)·Zbl 0103.16301号
[19] 范,J。;Feng,Y。;Wu,Y.,通过自适应套索和扫描惩罚进行网络探索,应用统计年鉴,3,2,521(2009)·Zbl 1166.62040号 ·doi:10.1214/08-AOAS215
[20] Fop,M.(2020年)。covglasso:稀疏协方差矩阵估计。R包版本2.0。https://CRAN.R-project.org/package=covglasso
[21] Fop,M。;Murphy,TB,基于模型聚类的变量选择方法,统计调查,12,18-65(2018)·Zbl 1496.62105号 ·doi:10.1214/18-SS119
[22] Fop,M。;墨菲,TB;Scrucca,L.,基于模型的稀疏协方差矩阵聚类,统计与计算,29,4,791-819(2019)·Zbl 1430.62131号 ·doi:10.1007/s11222-018-9838-y
[23] Forina,M.、Armanino,C.、Lanteri,S.和Tiblispia,E.(1983年)。根据脂肪酸组成对橄榄油进行分类。食品研究和数据分析:1982年9月20日至23日在挪威奥斯陆举行的IUFoST研讨会论文集,由H.Martens和H.Russwurm,Jr.伦敦编辑:应用科学出版社。
[24] 弗雷利,C。;Raftery,AE,基于模型的聚类、判别分析和密度估计,美国统计协会杂志,97,458,611-631(2002)·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[25] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,用图形套索进行稀疏逆协方差估计,生物统计学,9,3,432-441(2008)·Zbl 1143.62076号 ·doi:10.1093/生物统计学/kxm045
[26] 高,X。;Massam,H.,对称约束高斯图形模型的估计:在聚集密集网络中的应用,计算与图形统计杂志,24,4,909-929(2015)·doi:10.1080/10618600.2014.937811
[27] Gelman,A。;Vehtari,A.,过去50年中最重要的统计思想是什么?,美国统计协会杂志,1165362087-2097(2021)·Zbl 1506.62003年 ·doi:10.1080/01621459.2021.1938081
[28] 郭杰。;莱维纳,E。;Michailidis,G。;Zhu,J.,多图形模型的联合估计,Biometrika,98,1,1-15(2011)·Zbl 1214.62058号 ·doi:10.1093/biomet/asq060
[29] 哈斯蒂,T。;Tibshirani,R。;温赖特,M.,《稀疏的统计学习:套索和概括》(2015),博卡拉顿:CRC出版社,博卡拉顿·Zbl 1319.68003号 ·doi:10.1201/b18401
[30] Höjsgaard,S。;Lauritzen,SL,边缘和顶点对称的图形高斯模型,《皇家统计学会杂志:B辑(统计方法)》,70,5,1005-1027(2008)·Zbl 1411.62177号 ·doi:10.1111/j.1467-9868.2008.0066.x
[31] 休伯特,L。;Arabie,P.,比较分区,分类杂志,2193-218(1985)·doi:10.1007/BF01908075
[32] 船体,合资公司;多科夫纳,LB;Jacokes,ZJ;托格森,CM;Irimia,A。;Van Horn,JD,自闭症谱系障碍的静态功能连接:综述,精神病学前沿,7205(2017)·doi:10.3389/fpsyt.2016.00205
[33] Kuhn,M.(2021)。插入符号:分类和回归训练。R软件包版本6.0-86。https://CRAN.R-project.org/package=插入符号
[34] Leday,GG;MC de Gunst;Kpogbezan,GB;范德法特,AW;van Wieringen,WN;van de Wiel,MA,《利用全球-局部收缩先验进行基因网络重建》,《应用统计年鉴》,11,1,41-68(2017)·Zbl 1366.62227号 ·doi:10.1214/16-AOAS990
[35] 李强。;太阳,X。;Wang,N。;Gao,X.,有色图形高斯模型的惩罚复合似然,统计分析与数据挖掘:美国统计局数据科学期刊,14,4,366-378(2021)·doi:10.1002/sam.11530
[36] Lian,H.,精密矩阵估计中的收缩调谐参数选择,《统计规划与推断杂志》,141,82839-2848(2011)·Zbl 1213.62099号 ·doi:10.1016/j.jspi.2011.03.008
[37] Lin,TI,多元正态混合模型的最大似然估计,多元分析杂志,100,2,257-265(2009)·兹比尔1152.62034 ·doi:10.1016/j.jmva.2008.04.010
[38] Lin,TI,使用多元斜t分布的稳健混合建模,统计与计算,20,3,343-356(2010)·doi:10.1007/s11222-009-9128-9
[39] Lyu,Y。;薛,L。;张,F。;科赫,H。;萨巴,L。;Kechris,K。;Li,Q.,条件自适应融合图形套索(CFGL):推断条件特异性基因共表达网络的自适应程序,《公共科学图书馆·计算生物学》,14,9,e1006436(2018)·doi:10.1371/journal.pcbi.1006436
[40] 毛吉斯,C。;Celeux,G。;Martin-Magniete,M-L,高斯混合模型聚类的变量选择,生物计量学,65,3,701-709(2009)·Zbl 1172.62021号 ·doi:10.1111/j.1541-0420.2008.0160.x
[41] 毛吉斯,C。;Celeux,G。;Martin-Magniette,M-L,《基于模型聚类中的变量选择:一般变量角色建模》,计算统计与数据分析,53,11,3872-3882(2009)·Zbl 1453.62154号 ·doi:10.1016/j.csda.2009.04.013
[42] McLachlan,G.J.和Peel,D.(1998年)。通过多元t分布混合进行稳健聚类分析。在IAPR关于模式识别(SPR)和结构和句法模式识别(SSPR)统计技术的联合国际研讨会上(第658-666页)。斯普林格。
[43] GJ麦克拉克伦;皮,D。;Bean,R.,《利用因子分析仪混合建模高维数据》,计算统计与数据分析,41,3-4,379-388(2003)·Zbl 1256.62036号 ·doi:10.1016/S0167-9473(02)00183-4
[44] McNicholas,PD,基于模型的聚类,分类杂志,33,3,331-373(2016)·兹比尔1364.62155 ·doi:10.1007/s00357-016-9211-9
[45] McNicholas,P.D.、ElSherbiny,A.、McDaid,A.F.和Murphy,T.B.(2019年)。pgmm:简约高斯混合模型。R包版本1.2.4。https://CRAN.R-project.org/package=pgmm
[46] McNicholas,P.D.和Murphy,T.B.(2008年)。简约高斯混合模型。统计与计算,18(3),285-296。
[47] 明绍森,N。;Bühlmann,P.,用套索选择高维图和变量,《统计年鉴》,34,3,1436-1462(2006)·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[48] Meyer,D.、Dimitriadou,E.、Hornik,K.、Weingessel,A.和Leisch,F.(2020年)。e1071:TU Wien概率论小组统计部其他职能部门(原名:e1071)。R软件包版本1.7-4。
[49] 莫汉,K。;P.伦敦。;法泽尔,M。;维滕,D。;Lee,S.,多高斯图形模型的基于节点的学习,《机器学习研究杂志》,15,1,445-488(2014)·兹比尔1318.62181
[50] 潘·W。;Shen,X.,基于惩罚模型的聚类及其在变量选择中的应用,机器学习研究杂志,811145-1164(2007)·Zbl 1222.68279号
[51] Polson,NG;Scott,JG,《全球收缩,局部行动:稀疏贝叶斯正则化和预测》,贝叶斯统计,9501-538105(2010)
[52] Pourahmadi,M.,《概率统计中的高维协方差估计威利序列》(2013),纽约:威利出版社·Zbl 1276.62031号 ·doi:10.1002/9781118573617
[53] R核心团队,R:统计计算语言与环境(2022),奥地利维也纳:R统计计算基金会,奥地利维也纳
[54] Raftery,AE;Dean,N.,基于模型聚类的变量选择,《美国统计协会杂志》,101,473,168-178(2006)·Zbl 1118.62339号 ·doi:10.1198/016214500000113
[55] Russell,N.、Murphy,T.B.和Raftery,A.E.(2015)。基于模型的聚类和密度估计中的贝叶斯模型平均。arXiv:1506.09035。
[56] Scheinberg,K.、Ma,S.和Goldfarb,D.(2010年)。通过交替线性化方法选择稀疏逆协方差。第23届神经信息处理系统国际会议论文集。
[57] Schwarz,G.,估算模型的维度,《统计年鉴》,6,2,461-464(1978)·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[58] Scrucca,L。;Fop,M。;墨菲,TB;Raftery,AE,mclust 5:使用高斯有限混合模型的聚类、分类和密度估计,《R杂志》,8,1,289-317(2016)·doi:10.32614/RJ-2016-021
[59] Scrucca,L。;Raftery,AE,使用高斯分层分区改进基于模型的聚类初始化,数据分析和分类进展,9,4447-460(2015)·Zbl 1414.62272号 ·doi:10.1007/s11634-015-0220-z
[60] Tibshirani,R.,《通过套索进行回归收缩和选择》,《皇家统计学会期刊:B辑(方法学)》,58,1,267-288(1996)·Zbl 0850.62538号
[61] 弗瑞克,I。;McNicholas,PD,基于模型的聚类和分类的简约斜交混合模型,计算统计与数据分析,71,196-210(2014)·Zbl 1471.62202号 ·doi:10.1016/j.csda.2013.07.008
[62] Wang,H.,贝叶斯图形套索模型和有效后验计算,贝叶斯分析,7,4,867-886(2012)·Zbl 1330.62041号 ·doi:10.1214/12-BA729
[63] Wang,H.,协方差图形套索的坐标下降算法,统计与计算,24,4,521-529(2014)·Zbl 1325.62136号 ·doi:10.1007/s11222-013-9385-5
[64] 魏毅。;McNicholas,PD,聚类的混合模型平均,数据分析和分类进展,9,2197-217(2015)·Zbl 1414.62283号 ·doi:10.1007/s11634-014-0182-6
[65] Whittaker,J.,应用多元统计中的图形模型(1990),纽约:威利·Zbl 0732.62056号
[66] 维滕,DM;JH弗里德曼;Simon,N.,《图形套索的新见解和更快计算》,《计算与图形统计杂志》,20,4,892-900(2011)·doi:10.1198/jcgs.2011.11051a
[67] 谢,B。;潘·W。;Shen,X.,《基于惩罚模型的聚类与集群特定对角协方差矩阵和分组变量》,《电子统计杂志》,2168(2008)·Zbl 1135.62055号 ·doi:10.1214/08-EJS194
[68] 赵,T。;刘,H。;罗德,K。;Lafferty,J。;Wasserman,L.,《R中高维无向图估计的巨大包》,《机器学习研究杂志》,13,1,1059-1062(2012)·Zbl 1283.68311号
[69] 周,H。;潘·W。;Shen,X.,基于惩罚模型的无约束协方差矩阵聚类,《电子统计杂志》,31473-1496(2009)·Zbl 1326.62143号 ·doi:10.1214/09-EJS487
[70] Zou,H.,自适应套索及其预言属性,《美国统计协会杂志》,101,476,1418-1429(2006)·Zbl 1171.62326号 ·doi:10.1198/016214500000735
[71] 邹,H。;哈斯蒂,T。;Tibshirani,R.,《论套索的“自由度”》,《统计年鉴》,35,5,2173-2192(2007)·Zbl 1126.62061号 ·doi:10.1214/009053600700000127
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。