文件Zbl 1515.62065-zbMATH Open

一种用于基于模型的张量聚类的双重增强EM算法。（英语） Zbl 1515.62065号

美国统计协会。 117，编号5402120-2134（2022）.

摘要：现代科学研究通常以张量的形式收集数据集。这些数据集需要创新的统计分析方法。特别是，迫切需要张量聚类方法来理解数据中的异质性。我们提出了张量正态混合模型方法，以实现概率解释和计算可处理性。我们的统计模型利用张量-协方差结构来减少简约建模的参数数量，同时明确利用相关性来更好地选择变量和进行聚类。我们提出了一种双重增强的期望最大化（DEEM）算法来在该模型下进行聚类。期望步骤和最大化步骤都是针对张量数据精心定制的，以最大化统计精度并最小化高维计算成本。理论研究证实，即使张量的每个模式的维数以样本大小的指数速度增长，DEEM也能实现一致的聚类。数值研究表明，与现有方法相比，DEEM具有良好的性能。

引用于6文件

MSC公司：

62H30型	分类和区分；聚类分析（统计方面）
62C20个	统计决策理论中的Minimax过程
62-08	统计问题的计算方法

关键词：

群集;EM算法;高斯混合模型;克罗内克积协方差;极小极大值;张量

软件：

预防卒中;k平均值++;克莱姆;多路回归;最大持续时间;CHIME公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司链接

参考文献：

[1]	安德鲁奇，L。；Viroli，C.，“用于分析多元非均匀纵向数据的协方差模式混合模型，应用统计年鉴，9777-800（2015）·Zbl 1397.62214号 ·doi:10.1214/15-AOAS816
[2]	亚瑟·D·。；瓦西维茨基，S。；Gabow，H.，《第18届ACM-SIAM离散算法年会论文集》，K-means++：谨慎播种的优势，（2007），宾夕法尼亚州费城：工业和应用数学学会，宾夕法尼亚州，费城
[3]	Balakrishnan，S。；Wainwright，M.J。；Yu，B.，“EM算法的统计保证：从人口到基于样本的分析”，《统计年鉴》，45，77-120（2017）·Zbl 1367.62052号 ·doi:10.1214/16-AOS1435
[4]	Banfield，J.D。；Raftery，A.E.，“基于模型的高斯和非高斯聚类，生物统计学，49，803-821（1993）·Zbl 0794.62034号 ·doi:10.2307/2532201
[5]	比克尔，P.J。；Levina，E.，“Fisher线性判别函数的一些理论，朴素贝叶斯，以及当变量多于观测值时的一些替代方法”，Bernoulli，10，989-1010（2004）·Zbl 1064.62073号 ·doi:10.3150/bj/1106314847
[6]	宾，X。；布尼亚，F。；宁，Y。；Wegkamp，M.，结构因子模型中的自适应估计及其在重叠聚类中的应用，统计学年鉴，4822055-2081（2020）·Zbl 1455.62116号
[7]	布尼亚，F。；Giraud，C。；罗，X。；罗耶，M。；Verzelen，N.，“模型辅助变量聚类：最小最大最优恢复和算法”，《统计年鉴》，48，111-137（2020）·兹比尔1441.62164 ·doi:10.1214/18-AOS1794
[8]	蔡，T。；Liu，W.，“稀疏线性判别分析的直接估计方法”，《美国统计协会杂志》，106，1566-1577（2011）·Zbl 1233.62129号 ·doi:10.1198/jasa.2011.tm11199
[9]	Cai，T.T。；马，J。；Zhang，L.，“编钟：用EM算法对高维高斯混合数据进行聚类及其最优性”，《统计年鉴》，471234-1267（2019）·Zbl 1428.62182号 ·doi:10.1214/18-AOS1711
[10]	曹，X。；魏，X。；韩，Y。；Yang，Y。；Lin，D。；Rossi，F.，《第二十届国际人工智能联合会议论文集》（IJCAI’13），具有非自由最大化的稳健张量聚类，1254-1259（2013），帕洛阿尔托：CAAAAI出版社，帕洛阿托
[11]	Chen，J.，“有限混合模型的最佳收敛速度，统计年鉴，23，221-233（1995）·Zbl 0821.62023号 ·doi:10.1214/aos/1176324464
[12]	Chi，E.C。；艾伦，G.I。；Baraniuk，R.G.，凸面双聚类。生物统计学，73，10-19（2017）·Zbl 1366.62208号 ·doi:10.1111/biom.12540
[13]	Chi，E.C。；盖恩斯，B.R。；Sun，W.W。；周，H。；杨，J.，“张量的可证明凸协簇”，《机器学习研究杂志》，21，1-58（2020）·Zbl 1529.62066号
[14]	Chi，E.C。；Kolda，T.G.，“关于张量、稀疏性和非负因子分解，SIAM矩阵分析与应用杂志，331272-1299（2012）·Zbl 1262.15029号 ·数字对象标识代码：10.1137/10859063
[15]	M.M.T.蒋。；Mirkin，B.，“k均值聚类中聚类数的智能选择：不同聚类扩散的实验研究”，《分类杂志》，27，3-40（2010）·兹比尔1337.62127 ·doi:10.1007/s00357-010-9049-5
[16]	科恩，M.B。；埃尔德，S。；密斯科，C。；密斯科，C。；Persu，M.，《k均值聚类和低秩近似的维数缩减》（2015）·Zbl 1321.68398号 ·doi:10.1145/2746539.2746569
[17]	Daskalakis，C。；特扎莫斯，C。；Zampetakis，M.，《学习理论会议，两个高斯人混合的EM充分性的十个步骤》，704-710（2017），阿姆斯特丹：荷兰、阿姆斯特丹
[18]	Dempster，A.P。；新墨西哥州莱尔德。；Rubin，D.B.，“通过EM算法从不完整数据中获得最大似然”，《皇家统计学会杂志》，B辑，39，1-22（1977）·Zbl 0364.62022号
[19]	Dutilleul，P.，矩阵正态分布的MLE算法，统计计算与模拟杂志，64，105-123（1999）·Zbl 0960.62056号 ·网址：10.1080/00949659908811970
[20]	Dwivedi，R。；Ho，N。；Khamaru，K。；Wainwright，M.J。；M.I.乔丹。；Yu，B.，“EM的奇异性、错误规范和收敛速度”，《统计年鉴》，483161-3182（2020）·Zbl 1462.62382号
[21]	范，J。；Fan，Y.，“使用特征退火独立规则的高维分类，统计年鉴，362605-2637（2008）·Zbl 1360.62327号
[22]	方，Y。；Wang，J.，“通过Bootstrap方法选择簇数，计算统计与数据分析，56468-477（2012）·Zbl 1239.62076号
[23]	Fosdick，B.K。；Hoff，P.D.，“应用于死亡率数据的可分离因子分析，应用统计年鉴，8120-147（2014）·Zbl 1454.62185号 ·doi:10.1214/13-aoas694
[24]	弗雷利，C。；Raftery，A.E.，“基于模型的聚类、判别分析和密度估计，美国统计协会杂志，97，611-631（2002）·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[25]	弗里德曼，J。；哈斯蒂，T。；Tibshirani，R.，《统计学中的斯普林格系列》，1，《统计学习的要素》（2001），柏林：斯普林格出版社，柏林·Zbl 0973.62007号
[26]	傅伟（Fu，W.）。；Perry，P.O.，“使用交叉验证估算集群数量，计算与图形统计杂志，29，162-173（2020）·Zbl 07499280号 ·doi:10.1080/10618600.2019.1647846
[27]	藤田，A。；高桥，D.Y。；Patriota，A.G.，“估算集群数量的非参数方法，计算统计与数据分析，73，27-39（2014）·兹比尔1506.62064
[28]	Gallaugher，M.P。；McNicholas，P.D.，“倾斜矩阵变量分布的有限混合，模式识别，80，83-93（2018）·doi:10.1016/j.patcog.2018.02.025
[29]	高，X。；沈伟（Shen，W.）。；张，L。；胡，J。；新泽西州福廷。；弗罗斯蒂格，R.D。；Ombao，H.，正则矩阵数据聚类及其在图像分析、生物识别中的应用（2021）·Zbl 1520.62208号
[30]	郭杰。；莱维纳，E。；Michailidis，G。；Zhu，J.，“基于高维模型聚类的成对变量选择，生物统计学，66793-804（2010）·Zbl 1203.62190号 ·doi:10.1111/j.1541-0420.2009.01341.x
[31]	古普塔，A。；Nagar，D.，《矩阵变量分布》，104（1999），马萨诸塞州布鲁克林：马萨诸塞州立布鲁克林市CRC出版社·Zbl 0935.62064号
[32]	郝，B。；Sun，W.W。；刘，Y。；Cheng，G.，异构图形模型的同时聚类和估计，《机器学习研究杂志》，18，1-58（2018）·Zbl 1473.62220号
[33]	Hardt，M。；Price，E.，学习两个高斯混合的紧边界，第四十七届年度ACM计算理论研讨会论文集，753-760（2015）·Zbl 1321.68405号 ·doi:10.1145/2746539.2746579
[34]	Heinrich，P。；Kahn，J.，“有限混合估计的强可辨识性和最优极小极大率，统计年鉴，46，2844-2870（2018）·Zbl 1420.62215号 ·doi:10.1214/17-AOS1641
[35]	Hoff，P.D.，“通过塔克乘积的可分离协方差数组，及其在多元关系数据中的应用，贝叶斯分析，6179-196（2011）·Zbl 1330.62132号 ·doi:10.1214/11-BA606
[36]	Hoff，P.D.，纵向关系数据的多线性张量回归，应用统计学年鉴，9，1169-1193（2015）·Zbl 1454.62481号 ·doi:10.1214/15-AOAS839
[37]	徐，D。；Kakade，S.M.，球面高斯的学习混合，第四届会议（2013年）·Zbl 1362.68246号
[38]	杰格尔卡，S。；Sra，S。；Banerjee，A。；加瓦尔达，R。；卢戈西，G。；Zeugmann，T。；Zilles，S.，算法学习理论国际会议，“张量聚类的近似算法”，368-383（2009），柏林，海德堡：施普林格，柏林·兹比尔1262.68151
[39]	卡莱，A.T。；莫伊特拉，A。；Valiant，G.，《高效学习两个高斯混合体》（2010）·Zbl 1293.68229号
[40]	科尔达·T·G。；Bader，B.W.，“张量分解与应用，SIAM评论，51，455-500（2009）·Zbl 1173.65029号 ·doi:10.1137/07070111X
[41]	科尔达·T·G。；Sun，J.，IEEE，2008年第八届IEEE数据挖掘国际会议，多视角数据挖掘的可伸缩张量分解，363-372（2008），纽约州纽约市
[42]	法律，M.H.C。；Figueiredo，M.A.T。；Jain，A.K.，“使用混合模型的同时特征选择和聚类，IEEE模式分析和机器智能汇刊，261154-1166（2004）·doi:10.1109/TPAMI.2004.71
[43]	李，M。；沈，H。；黄J.Z。；Marron，J.，“通过稀疏奇异值分解进行双聚类，生物统计学，661087-1095（2010）·Zbl 1233.62182号 ·文件编号：10.1111/j.1541-0420.2010.01392.x
[44]	李，L。；Zhang，X.，“节俭张量响应回归，美国统计协会杂志，1121131-1146（2017）·doi:10.1080/01621459.2016.1193022
[45]	Lock，E.F.，传感器上的张量回归，计算与图形统计杂志，27，638-647（2018）·Zbl 07498939号 ·doi:10.1080/10618600.2017.1401544
[46]	Lyu，T。；锁，E.F。；Eberly，L.E.，《利用多途径数据区分样本组》，生物统计学，18434-450（2017）
[47]	Lyu，X。；Sun，W.W。；王，Z。；刘，H。；Yang，J.等人。；Cheng，G.，“张量图形模型：非凸优化和统计推断，IEEE模式分析和机器智能汇刊，422024-2037（2019）·doi:10.1109/TPAMI.2019.2907679
[48]	MacQueen，J.，1，281-297（1967），美国北卡罗来纳州达勒姆
[49]	Mai，Q。；Yang，Y。；邹浩，“多类稀疏判别分析”，《中国统计》，29，97-111（2019）·Zbl 1412.62081号
[50]	Mai，Q。；邹，H。；Yuan，M.，“超高维稀疏判别分析的直接方法”，《生物统计学》，99，29-42（2012）·Zbl 1437.62550号 ·doi:10.1093/biomet/asr066
[51]	曼彻，A.M。；Dutilleul，P.，张量正态分布的最大似然估计：算法，最小样本量，经验偏差和离散，计算与应用数学杂志，239，37-49（2013）·Zbl 1255.65029号 ·doi:10.1016/j.cam.2012.09.017
[52]	McLachlan，G.J。；Lee，S.X。；Rathnayake，S.I.，“有限混合模型，统计及其应用年度回顾，6，355-378（2019）·doi:10.1146/annurev-statistics-031017-100325
[53]	莫伊特拉，A。；Valiant，G.公司。；Trevisan，L.，IEEE，2010年IEEE第51届计算机科学基础年会，解决高斯混合多项式可学习性，93-102（2010），纽约州纽约市
[54]	Ng，A.Y。；M.I.乔丹。；韦斯，Y.，849-856（2001）
[55]	潘·W。；Shen，X.，“基于惩罚模型的聚类及其在变量选择中的应用”，《机器学习研究杂志》，8，1145-1164（2007）·Zbl 1222.68279号
[56]	潘，Y。；Mai，Q。；Zhang，X.，“高维协变量调整张量分类，美国统计协会期刊，1141305-1319（2019）·Zbl 1428.62291号 ·doi:10.1080/01621459.2018.1497500
[57]	Raskutti，G。；袁，M。；Chen，H.，“高维多响应张量回归的凸正则化，统计年鉴，471554-1584（2019）·Zbl 1428.62324号 ·doi:10.1214/18-AOS1725
[58]	糖，C.A。；James，G.M.，“发现数据集中的簇数：信息论方法”，《美国统计协会杂志》，98，750-763（2003）·Zbl 1046.62064号 ·doi:10.1198/0162145000000666
[59]	Sun，W.W。；Li，L.，“动态张量聚类，美国统计协会杂志，114，1-30（2018）
[60]	Sun，W.W。；卢，J。；刘，H。；Cheng，G.，“可证明稀疏张量分解”，《皇家统计学会杂志》，B辑，79，899-916（2016）·Zbl 1411.62158号 ·doi:10.1111/rssb.12190
[61]	Tan，K.M。；Witten，D.M.，“转置数据的稀疏双聚类，计算与图形统计杂志，23，985-1008（2014）·doi:10.1080/10618600.2013.85254
[62]	Tibshirani，R。；Walther，G。；Hastie，T.，“通过差距统计估算数据集中的簇数，皇家统计学会期刊，B辑，63，411-423（2001）·Zbl 0979.62046号 ·数字对象标识代码：10.1111/1467-9868.00293
[63]	Verzelen，北卡罗来纳州。；Arias-Castro，E.，《稀疏混合模型中的检测和特征选择》，《统计年鉴》，451920-1950（2017）·Zbl 1486.62192号
[64]	Viroli，C.，用于分类三向数据的矩阵正态分布的有限混合，统计学和计算，2111-522（2011）·Zbl 1221.62083号 ·doi:10.1007/s11222-010-9188-x
[65]	Wang，J.，通过交叉验证一致选择簇数，生物特征，97893-904（2010）·Zbl 1204.62104号 ·doi:10.1093/biomet/asq061
[66]	王，M。；Zeng，Y.，通过张量块模型的多路聚类，神经信息处理系统的进展，114715-725（2019）
[67]	王，S。；Zhu，J.，“基于模型的高维聚类变量选择及其在微阵列数据中的应用”，生物统计学，64，440-448（2008）·Zbl 1137.62041号 ·文件编号：10.1111/j.1541-0420.2007.00922.x
[68]	Wang，W。；张，X。；Mai，Q.，“基于模型的包络聚类”，《电子统计杂志》，第14期，第82-109页（2020年）·Zbl 1434.62135号 ·doi:10.1214/19-EJS1652
[69]	王，X。；Zhu，H.，“通过总变差的广义标量图像回归模型，美国统计协会杂志，1121156-1168（2017）·doi:10.1080/01621459.2016.1194846
[70]	王，Z。；顾，Q。；宁，Y。；刘，H。；科尔特斯，C。；Lawrence，N.D.，《神经信息处理系统的进展》，高维EM算法：统计优化和渐近正态性，2521-2529（2015），纽约州红钩：Curran Associates，Inc，纽约州红钩
[71]	Witten，D.M。；Tibshirani，R.，“聚类中特征选择的框架”，《美国统计协会杂志》，105，713-726（2010）·Zbl 1392.62194号 ·doi:10.1198/jasa.2010.tm09415
[72]	Wu，Y.和Zhou，H.H.（2019），“二分量高斯混合的随机初始化EM算法在\（####）迭代中实现近最优”，arXiv预印本arXiv:1908.10935。
[73]	Yi，X。；Caramanis，C.，《正则化EM算法：统一框架和统计保证》，《神经信息处理系统的进展》，1567-1575（2015）
[74]	袁，M。；Lin，Y.，“分组变量回归中的模型选择和估计，皇家统计学会期刊，B辑，68，49-67（2006）·Zbl 1141.62030号 ·doi:10.1111/j.1467-9868.2005302.x
[75]	张，A。；Han，R.，“高维高阶数据的最优稀疏奇异值分解，美国统计协会期刊，1141708-1725（2019）·Zbl 1428.62262号 ·doi:10.1080/01621459.2018.1527227
[76]	张，X。；Li，L.，张量包络偏最小二乘回归，技术计量学，59，426-436（2017）·doi:10.1080/00401706.2016.1272495
[77]	周，H。；李，L。；Zhu，H.，“张量回归在神经影像数据分析中的应用，美国统计协会杂志，108，540-552（2013）·Zbl 06195959号 ·doi:10.1080/01621459.2013.776499

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑非
作业成本法*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

一种用于基于模型的张量聚类的双重增强EM算法。（英语） Zbl 1515.62065号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

一种用于基于模型的张量聚类的双重增强EM算法。 （英语） Zbl 1515.62065号

MSC公司：

关键词：

软件：

参考文献：

一种用于基于模型的张量聚类的双重增强EM算法。（英语） Zbl 1515.62065号