×

使用成分数量未知的因子分析贝叶斯混合对多元数据进行聚类。 (英语) Zbl 1436.62280号

摘要:最近关于过拟合贝叶斯混合分布的研究为使用类似因子分析模型的潜在高斯模型聚类多元数据提供了一个强大的框架。过拟合混合模型提供的灵活性为利用马尔可夫链蒙特卡罗抽样估计未知簇数和模型参数提供了一种简单有效的方法。本研究通过考虑一组八个参数化来扩展此方法,从而得出每个簇的协方差矩阵的简约表示。为了从过拟合混合物的后验分布中近似取样,实施了吉布斯采样器和先前的平行回火方案。根据贝叶斯信息准则选择参数化和因子数。通过使用等价类代表算法对模拟输出进行后处理,来处理与标签切换相关的可识别性问题。对所提供的方法和软件进行了演示,并与在模拟和实际数据集上使用期望最大化算法估计的类似模型进行了比较。该软件在线提供,网址为https://CRAN.R-project.org/package=fabMix.

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62H25个 因子分析和主成分;对应分析
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Altekar,G。;德瓦卡达斯,S。;Huelsenbeck,Jp;Ronquist,F.,用于贝叶斯系统发育推断的并行都市耦合马尔可夫链蒙特卡罗,生物信息学,20,3,407-415(2004)·doi:10.1093/bioinformatics/btg427
[2] 巴托洛缪,Dj;诺特,M。;穆斯塔基,I.,《潜在变量模型和因子分析:统一方法》(2011),霍博肯:威利·Zbl 1266.62040号
[3] Bhattacharya,A。;Dunson,Db,《稀疏贝叶斯无限因子模型》,Biometrika,98,2,291-306(2011)·兹比尔1215.62025
[4] 布雷曼,L。;弗里德曼,J。;奥尔森,R。;Stone,C.,《分类和回归树》(1984),加利福尼亚州贝尔蒙特市:加利福尼亚州贝尔蒙市沃兹沃斯国际集团·Zbl 0541.62042号
[5] Celeux,G。;Hurn,M。;Robert,Cp,混合后验分布的计算和推断困难,《美国统计协会期刊》,95,451,957-970(2000)·Zbl 0999.62020号 ·doi:10.1080/01621459.2000.10474285
[6] Celeux,G。;Hurn,M。;Robert,Cp,混合后验分布的计算和推断困难,《美国统计协会期刊》,95,451,957-970(2000)·Zbl 0999.62020号
[7] Cho,Rj;坎贝尔,Mj;Ea Winzeler;斯坦梅茨,L。;Conway,A。;沃迪卡,L。;沃尔夫斯堡,Tg;加布里埃利安(Gabrielian,Ae);Landsman,D。;Dj洛克哈特;Davis,Rw,有丝分裂细胞周期的全基因组转录分析,分子细胞,2,1,65-73(1998)·doi:10.1016/S1097-2765(00)80114-8
[8] 康蒂,G。;Frühwirth-Schnatter,S。;Jj·赫克曼;Piatek,R.,贝叶斯探索性因子分析,J.Econom。,183, 1, 31-57 (2014) ·兹比尔1312.62077
[9] Dellaportas,P。;Papageorgiou,I.,成分数目未知的多元混合法线,统计计算。,16, 1, 57-68 (2006)
[10] 登普斯特,Ap;莱尔德,Nm;Rubin,D.,《通过EM算法从不完整数据中获得最大似然(带讨论)》,J.R.Stat.Soc.B,39,1-38(1977)·Zbl 0364.62022号
[11] Eddelbuettel,D。;François,R.,Rcpp:无缝R和C++集成,J.Stat.Softw。,40, 8, 1-18 (2011) ·doi:10.18637/jss.v040.2008
[12] Eddelbuettel,D。;Sanderson,C.,Rcpparmadillo:使用高性能C++线性代数加速R,计算。统计数据分析。,71, 1054-1063 (2014) ·Zbl 1471.62055号 ·doi:10.1016/j.csda.2013.02.005
[13] Ferguson,Ts,一些非参数问题的贝叶斯分析,Ann.Stat.,1,2,209-230(1973)·Zbl 0255.62037号
[14] Fokoué,E。;Titterington,D.,因子分析仪的混合物。贝叶斯估计和随机模拟推理,马赫。学习。,50, 1, 73-94 (2003) ·Zbl 1033.68085号
[15] 福里纳,M。;阿玛尼诺,C。;M.卡斯蒂诺。;Ubigli,M.,多元数据分析作为葡萄酒原产地的判别方法,Vitis,25,3189-201(1986)
[16] 弗雷利,C。;Raftery,Ae,基于模型的聚类、判别分析和密度估计,美国统计协会,97,611-631(2002)·兹比尔1073.62545
[17] Frühwirth-Schnatter,S。;Malsiner-Walli,G.,《从这里到无限:基于模型聚类中稀疏有限与Dirichlet过程混合》,高级数据分析。分类。,13, 33-64 (2019) ·Zbl 1474.62225号
[18] Gaujoux,R.:doRNG:“foreach”循环的通用可复制并行后端。https://CRAN.R-project.org/package=doRNG,r包版本1.7.1(2018)
[19] Gelfand,A。;Smith,A.,《基于抽样的边际密度计算方法》,《美国统计协会期刊》,第85期,第398-409页(1990年)·Zbl 0702.62020号
[20] Geman,S。;Geman,D.,《随机松弛、吉布斯分布和图像的贝叶斯恢复》,IEEE Trans。模式分析。机器。智力。,PAMI-6,6721-741(1984)·Zbl 0573.62030号 ·doi:10.1109/TPAMI.1984.4767596
[21] Geweke,J。;周刚,《套利定价理论的定价误差测量》,《金融评论》。螺柱,9557-587(1996)·doi:10.1093/rfs/9.2.557
[22] Geyer,C.J.:马尔可夫链蒙特卡罗最大似然。摘自:弗吉尼亚州费尔法克斯站第23届接口、接口基础研讨会论文集,第156-163页(1991)
[23] Geyer,Cj;Thompson,Ea,退火马尔可夫链蒙特卡罗及其在祖先推断中的应用,美国统计协会,90,431,909-920(1995)·Zbl 0850.62834号 ·doi:10.1080/01621459.1995.10476590
[24] Ghahramani,Z.,Hinton,G.E.等人:混合因子分析仪的em算法。技术代表,技术报告CRG-TR-96-1,多伦多大学(1996)
[25] Green,Pj,可逆跳马尔可夫链蒙特卡罗计算和贝叶斯模型确定,生物医学,82,4,711-732(1995)·Zbl 0861.62023号
[26] Hager,Ww,更新矩阵的逆矩阵,SIAM Rev.,31,2,221-239(1989)·Zbl 0671.65018号
[27] 伊哈卡,R。;Gentleman,R.,R:数据分析和图形语言,J.Compute。图表。《统计》,第5、3、299-314页(1996年)·doi:10.1080/10618600.1996.10474713
[28] 金,乔;Mueller,Cw,《因子分析:统计方法和实际问题》(1978年),《千橡:鼠尾草》
[29] Ledermann,W.,《关于多因素分析中简化相关矩阵的秩》,《心理测量学》,第2期,第85-93页(1937年)·JFM 63.1109.03标准
[30] Lichman,M.:UCI机器学习库(2013)。http://archive.ics.uci.edu/ml。2018年9月15日访问
[31] Malsiner Walli,G。;Frühwirth-Schnatter,S。;Grün,B.,基于稀疏有限高斯混合的基于模型的聚类,统计计算。,26, 303-324 (2016) ·Zbl 1342.62109号
[32] Malsiner Walli,G.公司。;Frühwirth-Schnatter,S。;Grün,B.,《使用贝叶斯估计识别混合物》,J.Compute。图表。Stat.,26,285-295(2017)
[33] 马林,J。;Mengersen,K。;Robert,C.,混合分布的贝叶斯建模和推断,Handb。《统计》,25,1577-590(2005)
[34] Mavridis,D。;Ntzoufras,I.,因子分析模型的随机搜索项选择,英国数学杂志。《心理统计》。,67, 2, 284-303 (2014) ·兹比尔1410.62096 ·doi:10.1111/bmsp.12019
[35] 麦克拉克伦,J。;Peel,D.,有限混合模型(2000),纽约:威利,纽约·Zbl 0963.62061号
[36] McNicholas,P.D.,ElSherbiny,A.,Jampani,R.K.,McDaid,A.F.,Murphy,B.,Banks,L.:pgmm:简约高斯混合模型。http://CRAN.R-project.org/package=pgmm,R包版本1.2.3(2015)
[37] Mcnicholas,Pd,《基于混合模型的分类》(2016),博卡拉顿:CRC出版社,博卡拉顿
[38] Mcnicholas,私人;Murphy,Tb,简约高斯混合模型,统计计算。,18, 3, 285-296 (2008)
[39] Mcnicholas,私人;Murphy,Tb,通过潜在高斯混合模型对微阵列表达数据进行基于模型的聚类,生物信息学,26,21,2705(2010)
[40] Mcnicholas,私人;墨菲,Tb;Mcdaid,Af公司;Frost,D.,通过简约高斯混合模型实现基于模型的聚类的串行和并行实现,计算。统计数据分析。,54, 3, 711-723 (2010) ·Zbl 1464.62131号
[41] Mcparland,D。;菲利普斯,Cm;布伦南,L。;罗氏,嗯;Gormley,Ic,《聚类高维混合数据以揭示亚表型:表型和基因型数据的联合分析》,《统计医学》,36,28,4548-4569(2017)
[42] 孟,Xl;Van Dyk,D.,《EM算法》(The EM algorithm),一首古老的民歌,随着一个快速的新曲调演唱,J.R.Stat.Soc.Ser。B(Stat.Methodol.),59,3,511-567(1997)·Zbl 1090.62518号
[43] Murphy,K.,Gormley,I.C.,Viroli,C.:无限因子分析仪的无限混合物(2019)。arXiv预打印arXiv:1701.07010·Zbl 1459.62118号
[44] Neal,Rm,Dirichlet过程混合模型的马尔可夫链抽样方法,J.Compute。图表。统计,9,2,249-265(2000)
[45] 诺比尔,A。;Fearnside,At,Bayesian有限混合与未知分量数:分配采样器,统计计算。,17, 2, 147-162 (2007) ·doi:10.1007/s11222-006-9014-7
[46] Papastamoulis,P.:fabMix:具有简约协方差和未知分量数的因子分析仪的过度贝叶斯混合(2018a)。http://CRAN.R-project.org/package=fabMix,R包版本4.5·Zbl 1469.62125号
[47] Papastamoulis,P.,通过ECR算法处理潜在类模型中的标签切换问题,Commun。统计模拟。计算。,43, 4, 913-927 (2014) ·Zbl 1291.62071号
[48] Papastamoulis,P.,标签切换:用于处理MCMC输出中标签切换问题的R包,J.Stat.Softw。,69, 1, 1-24 (2016)
[49] Papastamoulis,P.,成分数量未知的因子分析仪贝叶斯混合拟合过度,计算。统计数据分析。,124, 220-234 (2018) ·Zbl 1469.62125号 ·doi:10.1016/j.csda.2018.03.007
[50] 帕帕斯塔穆利斯,P。;Iliopoulos,G.,具有相同分量均值的正态分布混合物中的可逆跳跃MCMC,计算。统计数据分析。,53, 4, 900-911 (2009) ·Zbl 1452.62229号
[51] 帕帕斯塔穆利斯,P。;Iliopoulos,G.,分布混合贝叶斯分析中基于人工分配的标签切换问题解决方案,J.Comput。图表。统计,19,313-331(2010)
[52] 帕帕斯塔穆利斯,P。;Iliopoulos,G.,《关于缺失数据模型中随机排列采样器和ECR算法的收敛速度》,Methodol。计算。申请。概率。,15, 2, 293-304 (2013) ·Zbl 1277.65007号 ·doi:10.1007/s11009-011-9238-7
[53] 帕帕斯塔穆利斯,P。;Rattray,M.,BayesBinMix:多元二进制数据基于模型聚类的R包,R J.,9,1,403-420(2017)
[54] 普卢默,M。;贝斯特,N。;Cowles,K。;Vines,K.,CODA:MCMC的收敛诊断和输出分析,R News,6,1,7-11(2006)
[55] R核心团队(2016)R:统计计算的语言和环境。R统计计算基金会,奥地利维也纳。https://www.R-project.org/,ISBN 3-900051-07-0
[56] Rand,Wm,《聚类方法评估的客观标准》,美国统计协会期刊,66,336,846-850(1971)
[57] 雷德纳,Ra;Walker,Hf,《混合密度、最大似然和EM算法》,SIAM Rev.,26,2,195-239(1984)·Zbl 0536.62021号
[58] Revolution Analytics和Steve Weston(2014)foreach:R的foreach循环构造。http://CRAN.R-project.org/package=foreach,r包版本1.4.2
[59] Revolution Analytics和Steve Weston(2015)doParallel:Foreach Parallel Adaptor for the‘Parallel’Package。http://CRAN.R-project.org/package=doParallel,r包版本1.0.10
[60] 理查森,S。;Green,Pj,《关于成分数量未知的混合物的贝叶斯分析》,J.R.Stat.Soc.Ser。B、 59,4731-758(1997)
[61] 卢梭,J。;Mengersen,K.,过量混合模型中后验分布的渐近行为,J.R.Stat.Soc.Ser。B(Stat.Methodol.),第73、5、689-710页(2011年)·兹比尔1228.62034
[62] Schwarz,G.,估算模型的维数,《Ann.Stat.》,6,2,461-464(1978)·Zbl 0379.62005年
[63] Scrucca,L。;Fop,M。;墨菲,Tb;Raftery,Ae,mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计,R J.,8,1,205-233(2017)
[64] Stephens,M.,成分数量未知的混合模型的贝叶斯分析——可逆跳跃法的替代方法,《美国统计年鉴》,28,1,40-74(2000)·Zbl 1106.62316号
[65] 斯特雷利,H.:《卡夫埃切米的法律立场》(Der heutige stand Der kaffeechemie)。摘自:第六届咖啡化学国际学术讨论会,哥伦比亚波哥大科学国际咖啡协会,第61-72页(1973)
[66] 小费,我;Bishop,Cm,概率主成分分析仪的混合,神经计算。,11, 2, 443-482 (1999)
[67] 范·哈弗尔,Z。;白色,N。;卢梭,J。;Mengersen,K.,成分数量未知的过度拟合贝叶斯混合模型,《公共科学图书馆·综合》,10,7,1-27(2015)
[68] Yeung,Ky;弗雷利,C。;Murua,A。;Raftery,Ae;Ruzzo,Wl,基因表达数据的基于模型的聚类和数据转换,生物信息学,17,10,977-987(2001)·doi:10.1093/bioinformatics/17.10.977
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。