×

一种用于基于模型的张量聚类的双重增强EM算法。 (英语) Zbl 1515.62065号

摘要:现代科学研究通常以张量的形式收集数据集。这些数据集需要创新的统计分析方法。特别是,迫切需要张量聚类方法来理解数据中的异质性。我们提出了张量正态混合模型方法,以实现概率解释和计算可处理性。我们的统计模型利用张量-协方差结构来减少简约建模的参数数量,同时明确利用相关性来更好地选择变量和进行聚类。我们提出了一种双重增强的期望最大化(DEEM)算法来在该模型下进行聚类。期望步骤和最大化步骤都是针对张量数据精心定制的,以最大化统计精度并最小化高维计算成本。理论研究证实,即使张量的每个模式的维数以样本大小的指数速度增长,DEEM也能实现一致的聚类。数值研究表明,与现有方法相比,DEEM具有良好的性能。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62C20个 统计决策理论中的Minimax过程
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 安德鲁奇,L。;Viroli,C.,“用于分析多元非均匀纵向数据的协方差模式混合模型,应用统计年鉴,9777-800(2015)·Zbl 1397.62214号 ·doi:10.1214/15-AOAS816
[2] 亚瑟·D·。;瓦西维茨基,S。;Gabow,H.,《第18届ACM-SIAM离散算法年会论文集》,K-means++:谨慎播种的优势,(2007),宾夕法尼亚州费城:工业和应用数学学会,宾夕法尼亚州,费城
[3] Balakrishnan,S。;Wainwright,M.J。;Yu,B.,“EM算法的统计保证:从人口到基于样本的分析”,《统计年鉴》,45,77-120(2017)·Zbl 1367.62052号 ·doi:10.1214/16-AOS1435
[4] Banfield,J.D。;Raftery,A.E.,“基于模型的高斯和非高斯聚类,生物统计学,49,803-821(1993)·Zbl 0794.62034号 ·doi:10.2307/2532201
[5] 比克尔,P.J。;Levina,E.,“Fisher线性判别函数的一些理论,朴素贝叶斯,以及当变量多于观测值时的一些替代方法”,Bernoulli,10,989-1010(2004)·Zbl 1064.62073号 ·doi:10.3150/bj/1106314847
[6] 宾,X。;布尼亚,F。;宁,Y。;Wegkamp,M.,结构因子模型中的自适应估计及其在重叠聚类中的应用,统计学年鉴,4822055-2081(2020)·Zbl 1455.62116号
[7] 布尼亚,F。;Giraud,C。;罗,X。;罗耶,M。;Verzelen,N.,“模型辅助变量聚类:最小最大最优恢复和算法”,《统计年鉴》,48,111-137(2020)·兹比尔1441.62164 ·doi:10.1214/18-AOS1794
[8] 蔡,T。;Liu,W.,“稀疏线性判别分析的直接估计方法”,《美国统计协会杂志》,106,1566-1577(2011)·Zbl 1233.62129号 ·doi:10.1198/jasa.2011.tm11199
[9] Cai,T.T。;马,J。;Zhang,L.,“编钟:用EM算法对高维高斯混合数据进行聚类及其最优性”,《统计年鉴》,471234-1267(2019)·Zbl 1428.62182号 ·doi:10.1214/18-AOS1711
[10] 曹,X。;魏,X。;韩,Y。;Yang,Y。;Lin,D。;Rossi,F.,《第二十届国际人工智能联合会议论文集》(IJCAI’13),具有非自由最大化的稳健张量聚类,1254-1259(2013),帕洛阿尔托:CAAAAI出版社,帕洛阿托
[11] Chen,J.,“有限混合模型的最佳收敛速度,统计年鉴,23,221-233(1995)·Zbl 0821.62023号 ·doi:10.1214/aos/1176324464
[12] Chi,E.C。;艾伦,G.I。;Baraniuk,R.G.,凸面双聚类。生物统计学,73,10-19(2017)·Zbl 1366.62208号 ·doi:10.1111/biom.12540
[13] Chi,E.C。;盖恩斯,B.R。;Sun,W.W。;周,H。;杨,J.,“张量的可证明凸协簇”,《机器学习研究杂志》,21,1-58(2020)·Zbl 1529.62066号
[14] Chi,E.C。;Kolda,T.G.,“关于张量、稀疏性和非负因子分解,SIAM矩阵分析与应用杂志,331272-1299(2012)·Zbl 1262.15029号 ·数字对象标识代码:10.1137/10859063
[15] M.M.T.蒋。;Mirkin,B.,“k均值聚类中聚类数的智能选择:不同聚类扩散的实验研究”,《分类杂志》,27,3-40(2010)·兹比尔1337.62127 ·doi:10.1007/s00357-010-9049-5
[16] 科恩,M.B。;埃尔德,S。;密斯科,C。;密斯科,C。;Persu,M.,《k均值聚类和低秩近似的维数缩减》(2015)·Zbl 1321.68398号 ·doi:10.1145/2746539.2746569
[17] Daskalakis,C。;特扎莫斯,C。;Zampetakis,M.,《学习理论会议,两个高斯人混合的EM充分性的十个步骤》,704-710(2017),阿姆斯特丹:荷兰、阿姆斯特丹
[18] Dempster,A.P。;新墨西哥州莱尔德。;Rubin,D.B.,“通过EM算法从不完整数据中获得最大似然”,《皇家统计学会杂志》,B辑,39,1-22(1977)·Zbl 0364.62022号
[19] Dutilleul,P.,矩阵正态分布的MLE算法,统计计算与模拟杂志,64,105-123(1999)·Zbl 0960.62056号 ·网址:10.1080/00949659908811970
[20] Dwivedi,R。;Ho,N。;Khamaru,K。;Wainwright,M.J。;M.I.乔丹。;Yu,B.,“EM的奇异性、错误规范和收敛速度”,《统计年鉴》,483161-3182(2020)·Zbl 1462.62382号
[21] 范,J。;Fan,Y.,“使用特征退火独立规则的高维分类,统计年鉴,362605-2637(2008)·Zbl 1360.62327号
[22] 方,Y。;Wang,J.,“通过Bootstrap方法选择簇数,计算统计与数据分析,56468-477(2012)·Zbl 1239.62076号
[23] Fosdick,B.K。;Hoff,P.D.,“应用于死亡率数据的可分离因子分析,应用统计年鉴,8120-147(2014)·Zbl 1454.62185号 ·doi:10.1214/13-aoas694
[24] 弗雷利,C。;Raftery,A.E.,“基于模型的聚类、判别分析和密度估计,美国统计协会杂志,97,611-631(2002)·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[25] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《统计学中的斯普林格系列》,1,《统计学习的要素》(2001),柏林:斯普林格出版社,柏林·Zbl 0973.62007号
[26] 傅伟(Fu,W.)。;Perry,P.O.,“使用交叉验证估算集群数量,计算与图形统计杂志,29,162-173(2020)·Zbl 07499280号 ·doi:10.1080/10618600.2019.1647846
[27] 藤田,A。;高桥,D.Y。;Patriota,A.G.,“估算集群数量的非参数方法,计算统计与数据分析,73,27-39(2014)·兹比尔1506.62064
[28] Gallaugher,M.P。;McNicholas,P.D.,“倾斜矩阵变量分布的有限混合,模式识别,80,83-93(2018)·doi:10.1016/j.patcog.2018.02.025
[29] 高,X。;沈伟(Shen,W.)。;张,L。;胡,J。;新泽西州福廷。;弗罗斯蒂格,R.D。;Ombao,H.,正则矩阵数据聚类及其在图像分析、生物识别中的应用(2021)·Zbl 1520.62208号
[30] 郭杰。;莱维纳,E。;Michailidis,G。;Zhu,J.,“基于高维模型聚类的成对变量选择,生物统计学,66793-804(2010)·Zbl 1203.62190号 ·doi:10.1111/j.1541-0420.2009.01341.x
[31] 古普塔,A。;Nagar,D.,《矩阵变量分布》,104(1999),马萨诸塞州布鲁克林:马萨诸塞州立布鲁克林市CRC出版社·Zbl 0935.62064号
[32] 郝,B。;Sun,W.W。;刘,Y。;Cheng,G.,异构图形模型的同时聚类和估计,《机器学习研究杂志》,18,1-58(2018)·Zbl 1473.62220号
[33] Hardt,M。;Price,E.,学习两个高斯混合的紧边界,第四十七届年度ACM计算理论研讨会论文集,753-760(2015)·Zbl 1321.68405号 ·doi:10.1145/2746539.2746579
[34] Heinrich,P。;Kahn,J.,“有限混合估计的强可辨识性和最优极小极大率,统计年鉴,46,2844-2870(2018)·Zbl 1420.62215号 ·doi:10.1214/17-AOS1641
[35] Hoff,P.D.,“通过塔克乘积的可分离协方差数组,及其在多元关系数据中的应用,贝叶斯分析,6179-196(2011)·Zbl 1330.62132号 ·doi:10.1214/11-BA606
[36] Hoff,P.D.,纵向关系数据的多线性张量回归,应用统计学年鉴,9,1169-1193(2015)·Zbl 1454.62481号 ·doi:10.1214/15-AOAS839
[37] 徐,D。;Kakade,S.M.,球面高斯的学习混合,第四届会议(2013年)·Zbl 1362.68246号
[38] 杰格尔卡,S。;Sra,S。;Banerjee,A。;加瓦尔达,R。;卢戈西,G。;Zeugmann,T。;Zilles,S.,算法学习理论国际会议,“张量聚类的近似算法”,368-383(2009),柏林,海德堡:施普林格,柏林·兹比尔1262.68151
[39] 卡莱,A.T。;莫伊特拉,A。;Valiant,G.,《高效学习两个高斯混合体》(2010)·Zbl 1293.68229号
[40] 科尔达·T·G。;Bader,B.W.,“张量分解与应用,SIAM评论,51,455-500(2009)·Zbl 1173.65029号 ·doi:10.1137/07070111X
[41] 科尔达·T·G。;Sun,J.,IEEE,2008年第八届IEEE数据挖掘国际会议,多视角数据挖掘的可伸缩张量分解,363-372(2008),纽约州纽约市
[42] 法律,M.H.C。;Figueiredo,M.A.T。;Jain,A.K.,“使用混合模型的同时特征选择和聚类,IEEE模式分析和机器智能汇刊,261154-1166(2004)·doi:10.1109/TPAMI.2004.71
[43] 李,M。;沈,H。;黄J.Z。;Marron,J.,“通过稀疏奇异值分解进行双聚类,生物统计学,661087-1095(2010)·Zbl 1233.62182号 ·文件编号:10.1111/j.1541-0420.2010.01392.x
[44] 李,L。;Zhang,X.,“节俭张量响应回归,美国统计协会杂志,1121131-1146(2017)·doi:10.1080/01621459.2016.1193022
[45] Lock,E.F.,传感器上的张量回归,计算与图形统计杂志,27,638-647(2018)·Zbl 07498939号 ·doi:10.1080/10618600.2017.1401544
[46] Lyu,T。;锁,E.F。;Eberly,L.E.,《利用多途径数据区分样本组》,生物统计学,18434-450(2017)
[47] Lyu,X。;Sun,W.W。;王,Z。;刘,H。;Yang,J.等人。;Cheng,G.,“张量图形模型:非凸优化和统计推断,IEEE模式分析和机器智能汇刊,422024-2037(2019)·doi:10.1109/TPAMI.2019.2907679
[48] MacQueen,J.,1,281-297(1967),美国北卡罗来纳州达勒姆
[49] Mai,Q。;Yang,Y。;邹浩,“多类稀疏判别分析”,《中国统计》,29,97-111(2019)·Zbl 1412.62081号
[50] Mai,Q。;邹,H。;Yuan,M.,“超高维稀疏判别分析的直接方法”,《生物统计学》,99,29-42(2012)·Zbl 1437.62550号 ·doi:10.1093/biomet/asr066
[51] 曼彻,A.M。;Dutilleul,P.,张量正态分布的最大似然估计:算法,最小样本量,经验偏差和离散,计算与应用数学杂志,239,37-49(2013)·Zbl 1255.65029号 ·doi:10.1016/j.cam.2012.09.017
[52] McLachlan,G.J。;Lee,S.X。;Rathnayake,S.I.,“有限混合模型,统计及其应用年度回顾,6,355-378(2019)·doi:10.1146/annurev-statistics-031017-100325
[53] 莫伊特拉,A。;Valiant,G.公司。;Trevisan,L.,IEEE,2010年IEEE第51届计算机科学基础年会,解决高斯混合多项式可学习性,93-102(2010),纽约州纽约市
[54] Ng,A.Y。;M.I.乔丹。;韦斯,Y.,849-856(2001)
[55] 潘·W。;Shen,X.,“基于惩罚模型的聚类及其在变量选择中的应用”,《机器学习研究杂志》,8,1145-1164(2007)·Zbl 1222.68279号
[56] 潘,Y。;Mai,Q。;Zhang,X.,“高维协变量调整张量分类,美国统计协会期刊,1141305-1319(2019)·Zbl 1428.62291号 ·doi:10.1080/01621459.2018.1497500
[57] Raskutti,G。;袁,M。;Chen,H.,“高维多响应张量回归的凸正则化,统计年鉴,471554-1584(2019)·Zbl 1428.62324号 ·doi:10.1214/18-AOS1725
[58] 糖,C.A。;James,G.M.,“发现数据集中的簇数:信息论方法”,《美国统计协会杂志》,98,750-763(2003)·Zbl 1046.62064号 ·doi:10.1198/0162145000000666
[59] Sun,W.W。;Li,L.,“动态张量聚类,美国统计协会杂志,114,1-30(2018)
[60] Sun,W.W。;卢,J。;刘,H。;Cheng,G.,“可证明稀疏张量分解”,《皇家统计学会杂志》,B辑,79,899-916(2016)·Zbl 1411.62158号 ·doi:10.1111/rssb.12190
[61] Tan,K.M。;Witten,D.M.,“转置数据的稀疏双聚类,计算与图形统计杂志,23,985-1008(2014)·doi:10.1080/10618600.2013.85254
[62] Tibshirani,R。;Walther,G。;Hastie,T.,“通过差距统计估算数据集中的簇数,皇家统计学会期刊,B辑,63,411-423(2001)·Zbl 0979.62046号 ·数字对象标识代码:10.1111/1467-9868.00293
[63] Verzelen,北卡罗来纳州。;Arias-Castro,E.,《稀疏混合模型中的检测和特征选择》,《统计年鉴》,451920-1950(2017)·Zbl 1486.62192号
[64] Viroli,C.,用于分类三向数据的矩阵正态分布的有限混合,统计学和计算,2111-522(2011)·Zbl 1221.62083号 ·doi:10.1007/s11222-010-9188-x
[65] Wang,J.,通过交叉验证一致选择簇数,生物特征,97893-904(2010)·Zbl 1204.62104号 ·doi:10.1093/biomet/asq061
[66] 王,M。;Zeng,Y.,通过张量块模型的多路聚类,神经信息处理系统的进展,114715-725(2019)
[67] 王,S。;Zhu,J.,“基于模型的高维聚类变量选择及其在微阵列数据中的应用”,生物统计学,64,440-448(2008)·Zbl 1137.62041号 ·文件编号:10.1111/j.1541-0420.2007.00922.x
[68] Wang,W。;张,X。;Mai,Q.,“基于模型的包络聚类”,《电子统计杂志》,第14期,第82-109页(2020年)·Zbl 1434.62135号 ·doi:10.1214/19-EJS1652
[69] 王,X。;Zhu,H.,“通过总变差的广义标量图像回归模型,美国统计协会杂志,1121156-1168(2017)·doi:10.1080/01621459.2016.1194846
[70] 王,Z。;顾,Q。;宁,Y。;刘,H。;科尔特斯,C。;Lawrence,N.D.,《神经信息处理系统的进展》,高维EM算法:统计优化和渐近正态性,2521-2529(2015),纽约州红钩:Curran Associates,Inc,纽约州红钩
[71] Witten,D.M。;Tibshirani,R.,“聚类中特征选择的框架”,《美国统计协会杂志》,105,713-726(2010)·Zbl 1392.62194号 ·doi:10.1198/jasa.2010.tm09415
[72] Wu,Y.和Zhou,H.H.(2019),“二分量高斯混合的随机初始化EM算法在\(####)迭代中实现近最优”,arXiv预印本arXiv:1908.10935。
[73] Yi,X。;Caramanis,C.,《正则化EM算法:统一框架和统计保证》,《神经信息处理系统的进展》,1567-1575(2015)
[74] 袁,M。;Lin,Y.,“分组变量回归中的模型选择和估计,皇家统计学会期刊,B辑,68,49-67(2006)·Zbl 1141.62030号 ·doi:10.1111/j.1467-9868.2005302.x
[75] 张,A。;Han,R.,“高维高阶数据的最优稀疏奇异值分解,美国统计协会期刊,1141708-1725(2019)·Zbl 1428.62262号 ·doi:10.1080/01621459.2018.1527227
[76] 张,X。;Li,L.,张量包络偏最小二乘回归,技术计量学,59,426-436(2017)·doi:10.1080/00401706.2016.1272495
[77] 周,H。;李,L。;Zhu,H.,“张量回归在神经影像数据分析中的应用,美国统计协会杂志,108,540-552(2013)·Zbl 06195959号 ·doi:10.1080/01621459.2013.776499
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。