×

无限因子分析仪的无限混合。 (英文) Zbl 1459.62118号

摘要:因子分析高斯混合通常被用作基于模型的方法来聚类高维数据。通常,聚类和潜在因素的数量必须在模型拟合之前确定。然后选择优化某些模型选择标准的对。由于计算上的原因,很少考虑集群中因子的数量不同。
这里介绍了无限因子分析仪(IMIFA)的无限混合模型。IMIFA采用Pitman-Yor过程,然后使用断胶结构和切片取样器来促进集群数量的自动推断。使用乘法伽马过程收缩先验和自适应吉布斯采样器实现了对特定于簇的因子数的自动推断。IMIFA是因子分析混合物家族的旗舰产品。
基准数据、代谢组学光谱数据和手写数字示例的应用说明了IMIFA模型的优点。这些包括消除对模型选择标准的需要,减少与模型空间搜索相关的计算负担,通过允许特定数量的因子提高聚类性能,以及不确定性量化。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
6020万 广义随机过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Baek,J.、McLachlan,G.J.和Flack,L.K.(2010年)。“因子分析器与公共因子加载的混合:高维数据的聚类和可视化应用”,IEEE模式分析与机器智能汇刊,32(7):1298-1309。
[2] Bai,J.和Li,K.(2012年)。“高维因素模型的统计分析”,《统计学年鉴》,40(1):436-465·Zbl 1246.62144号 ·doi:10.1214/11-AOS966
[3] Bhattacharya,A.和Dunson,D.B.(2011年)。“稀疏贝叶斯无限因子模型”,《生物统计学》,98(2):291-306·Zbl 1215.62025号 ·doi:10.1093/biomet/asr013
[4] Brooks,S.P.和Gelman,A.(1998年)。“监测迭代模拟收敛性的生成方法”,《计算与图形统计杂志》,7(4):434-455。
[5] Carmody,S.和Brennan,L.(2010年)。“戊四氮诱导癫痫发作对大鼠大脑代谢组的影响”,《国际神经化学》,56(2):340-344。
[6] Carmona,C.、Nieto-barajas,L.和Canale,A.(2019年)。“基于模型的混合规模变量家庭聚类方法”,《数据分析和分类进展》,13(2):559-583·Zbl 1474.62439号 ·doi:10.1007/s11634-018-0313-6
[7] Carpaneto,G.和Toth,P.(1980)。“分配问题的解决”,《ACM数学软件汇刊》,6(1):104-111·Zbl 0445.90089号 ·doi:10.1287/mnsc.26.7.736
[8] Carvalho,C.M.、Chang,J.、Lucas,J.E.、Nevins,J.R.、Wang,Q.和West,M.(2008)。“高维稀疏因子建模:在基因表达基因组学中的应用”,《美国统计协会杂志》,103(484):1438-1456·Zbl 1286.62091号 ·doi:10.1198/0162145000000869
[9] Chen,M.、Silva,J.、Paisley,J.,Wang,C.、Dunson,D.B.和Carin,L.(2010年)。“使用非参数混合因子分析仪的流形压缩传感:算法和性能界限”,IEEE信号处理汇刊,58(12):6140-6155·Zbl 1392.94139号 ·doi:10.1109/TSP.2010/200796
[10] De Blasi,P.、Favaro,S.、Likoi,A.、Mena,R.H.、Prünster,I.和Ruggiero,M.(2015)。“Gibbs类型是Dirichlet过程最自然的概括吗?”IEEE模式分析和机器智能汇刊,37(2):212-229。
[11] Diebolt,J.和Robert,C.P.(1994年)。“通过贝叶斯抽样估计有限混合分布”,《皇家统计学会杂志:B辑(统计方法)》,56(2):363-375·Zbl 0796.62028号 ·doi:10.1111/j.2517-6161.1994.tb01985.x
[12] Durante,D.(2017)。“关于乘法伽马过程的注释”,《统计与概率快报》,122:198-204·Zbl 1463.62160号 ·doi:10.1016/j.spl.2016.11.014
[13] Ferguson,T.S.(1973)。“一些非参数问题的贝叶斯分析”,《统计学年鉴》,1(2):209-230·Zbl 0255.62037号 ·doi:10.1214/aos/1176342360
[14] Fokoué,E.和Titterington,D.M.(2003)。“因子分析的混合。随机模拟的贝叶斯估计和推断。”机器学习,50(1):73-94·兹比尔1033.68085 ·doi:10.1023/A:1020297828025
[15] Forina,M.、Armanino,C.、Lanteri,S.和Tibrivia,E.(1983年)。“根据脂肪酸成分对橄榄油进行分类”,见Martens,H.和Russrum Jr.,H.(编辑),《食品研究与数据分析》,189-214。应用科学出版社,伦敦。
[16] Frühwirth-Schnatter,S.(2010年)。有限混合和马尔可夫切换模型。统计学系列。纽约:斯普林格·Zbl 1108.6202号
[17] Frühwirth-Schnatter,S.(2011)。“处理模型不确定性下的标签转换”,收录于Mengersen,K.L.、Robert,C.P.和Titterington,D.M.(编辑),《混合:估计和应用》,《概率统计中的威利级数》,193-218。奇切斯特:John Wiley&Sons。
[18] Frühwirth-Schnatter,S.和Lopes,H.F.(2010)。“因子数量未知时的简约贝叶斯因子分析”,芝加哥大学布斯商学院技术报告。
[19] Frühwirth-Schnatter,S.和Malsiner-Walli,G.(2019年)。“从这里到无限:基于模型聚类中稀疏有限与Dirichlet过程混合”,《数据分析与分类进展》,13(1):33-63·Zbl 1474.62225号 ·doi:10.1007/s11634-018-0329-y
[20] Gelman,A.、Carlin,J.B.、Stern,H.S.、Dunson,D.B.、Vehtari,A.和Rubin,D.B.(2004)。贝叶斯数据分析。查普曼和霍尔/CRC出版社,第三版·Zbl 1279.62004号
[21] Ghahramani,Z.和Hinton,G.E.(1996年)。“混合因子分析仪的EM算法”,多伦多大学计算机科学系技术报告。
[22] Ghosh,J.和Dunson,D.B.(2008年)。“贝叶斯因子分析中的默认先验分布和有效后验计算”,《计算与图形统计杂志》,18(2):306-320。
[23] Green,P.J.和Richardson,S.(2001)。“利用和不利用Dirichlet过程模拟异质性”,《斯堪的纳维亚统计杂志》,28(2):355-375·Zbl 0973.62031号 ·doi:10.1111/1467-9469.00242
[24] Hastie,D.I.、Liverani,S.和Richardson,S.(2014)。“从含有未知浓度参数的Dirichlet过程混合模型中取样:大数据实现中的混合问题”,《统计与计算》,25(5):1023-1037·兹比尔1332.62093 ·doi:10.1007/s11222-014-9471-3
[25] Hastie,T.、Tibshirani,R.和Friedman,J.(2001)。统计学习的要素。统计学中的斯普林格系列。纽约:斯普林格出版社,第二版·Zbl 0973.62007号
[26] Hubert,L.和Arabie,P.(1985)。“比较分区”,《分类杂志》,2(1):193-218·Zbl 0587.62128号
[27] Kalli,M.、Griffin,J.E.和Walker,S.G.(2011年)。“切片取样混合模型”,《统计与计算》,21(1):93-105·Zbl 1256.65006号 ·doi:10.1007/s11222-009-9150-年
[28] Kass,R.E.和Raftery,A.E.(1995)。“贝叶斯因素”,《美国统计协会杂志》,90(430):773-795·Zbl 0846.62028号 ·doi:10.1080/01621459.1995.10476572
[29] Kim,S.、Tadesse,M.G.和Vannucci,M.(2006年)。“通过狄利克雷过程混合模型进行聚类的变量选择”,Biometrika,93(4):877-893·Zbl 1436.62266号 ·doi:10.1093/biomet/93.4.877
[30] Knott,M.和Bartholomew,D.J.(1999年)。潜在变量模型和因子分析。肯德尔统计图书馆排名第七。伦敦:爱德华·阿诺德,第二版·Zbl 1066.62528号
[31] Knowles,D.和Ghahramani,Z.(2007年)。“无限稀疏因子分析和无限独立分量分析”,摘自Davies,M.E.、James,C.J.、Abdallah,S.A.和Plumbley,M.D.(编辑),独立分量分析和信号分离,381-388。柏林,海德堡:施普林格·Zbl 1173.94367号
[32] Knowles,D.和Ghahramani,Z.(2011年)。“非参数贝叶斯稀疏因子模型在基因表达建模中的应用”,《应用统计学年鉴》,5(2B):1534-1552·Zbl 1223.62013年 ·doi:10.1214/10-AOAS435
[33] Lee,J.和MacEachern,S.N.(2014)。“高维贝叶斯推理中的推理功能”,《统计学及其接口》,7(4):477-486·Zbl 1388.62143号 ·doi:10.4310/SII.2014.v7.n4.a5
[34] Legramanti,S.、Durante,D.和Dunson,D.B.(2019年)。“无限因子分解的贝叶斯累积收缩”,arXiv:1902.04349。
[35] McLachlan,G.J.和Peel,D.(2000)。有限混合模型。概率统计威利级数。纽约:John Wiley&Sons·Zbl 0963.62061号
[36] McNicholas,P.D.(2010年)。“使用潜在高斯混合模型的基于模型的分类”,《统计规划与推断杂志》,140(5):1175-1181·Zbl 1181.62095号 ·doi:10.1016/j.jspi.2009.11.006
[37] McNicholas,P.D.、ElSherbiny,A.、McDaid,A.F.和Murphy,T.B.(2018年)。pgmm:简约高斯混合模型。R包版本1.2.3。统一资源定位地址https://cran.r-project.org/package=pgmm。
[38] McNicholas,P.D.和Murphy,T.B.(2008)。简约高斯混合模型〉,《统计与计算》,18(3):285-296。
[39] McParland,D.、Gormley,I.C.、McCormick,T.H.、Clark,S.J.、Kabudula,C.W.和Collinson,M.A.(2014)。“利用潜在变量模型根据南非家庭的资产状况对其进行聚类。”《应用统计年鉴》,8(2):747-767·Zbl 1454.62503号 ·doi:10.1214/14-AOAS726
[40] Miller,J.W.和Dunson,D.B.(2018年)。《通过粗化进行稳健贝叶斯推断》,《美国统计协会杂志》,114(527):1113-1125·Zbl 1428.62287号 ·doi:10.1080/01621459.2018.1469995
[41] Miller,J.W.和Harrison,M.T.(2013年)。“Dirichlet过程混合物成分数量不一致的简单例子”,《神经信息处理系统进展》,26:199-206。
[42] Miller,J.W.和Harrison,M.T.(2014)。《机器学习研究杂志》,15(1):3333-3370·Zbl 1319.62100号
[43] Müller,P.和Mitra,R.(2013)。“贝叶斯非参数推断-为什么和如何”,贝叶斯分析,8(2):269-360·Zbl 1329.62172号
[44] Murphy,K.、Viroli,C.和Gormley,I.C.(2019a)。“补充材料:无限因子分析仪的无限混合物”,贝叶斯分析。
[45] Murphy,K.、Viroli,C.和Gormley,I.C.(2019b)。IMIFA:无限因子分析仪和相关模型的无限混合。R包版本2.1.0。统一资源定位地址https://cran.r-project.org/package=IMIFA。
[46] Ng,A.Y.、Jordan,M.I.和Weiss,Y.(2001)。“关于谱聚类:分析和算法”,《神经信息处理系统进展》,849-856。美国马萨诸塞州剑桥:麻省理工学院出版社。
[47] Nyamunda,G.、Brennan,L.和Gormley,I.C.(2010年)。“代谢组数据的概率主成分分析”,BMC生物信息学,11(571):1-11。
[48] Paisley,J.和Carin,L.(2009年)。“Beta过程先验的非参数因子分析”,载于第26届机器学习国际年会论文集,ICML'09777-784。美国纽约州纽约市:ACM。
[49] Papaspiliopoulos,O.和Roberts,G.O.(2008)。“Dirichlet过程层次模型的回顾性马尔可夫链蒙特卡罗方法”,《生物统计学》,95(1):169-186·Zbl 1437.62576号 ·doi:10.1093/biomet/asm086
[50] Papastamoulis,P.(2018)。“成分数量未知的因子分析仪的过度贝叶斯混合”,《计算统计与数据分析》,124:220-234·Zbl 1469.62125号 ·doi:10.1016/j.csda.2018.03.007
[51] Peel,D.和McLachlan,G.J.(2000)。“使用(t)分布的稳健混合建模”,《统计与计算》,10:339-348。
[52] Perman,M.、Pitman,J.和Yor,M.(1992年)。“泊松点过程和偏移的尺寸抽样”,《概率论及相关领域》,92(1):21-39·Zbl 0741.60037号 ·doi:10.1007/BF01205234
[53] Pitman,J.(1996)。《应用概率论进展》,28(2):525-539·Zbl 0853.62018号 ·doi:10.2307/1428070
[54] Pitman,J.和Yor,M.(1997年)。“双参数泊松-狄里克莱分布源自稳定的从属。”《概率年鉴》,25(2):855-900·Zbl 0880.60076号 ·doi:10.1214/aop/1024404422
[55] Plummer,M.、Best,N.、Cowles,K.和Vines,K.(2006年)。《CODA:MCMC的收敛诊断和输出分析》,R News,6(1):7-11。
[56] Raftery,A.E.、Newton,M.、Satagopan,J.和Krivitsky,P.(2007年)。“使用调和平均恒等式通过后验模拟估计综合似然。”贝叶斯统计8,1-45·Zbl 1252.62038号
[57] R核心团队(2019年)。R: 用于统计计算的语言和环境。R统计计算基金会,奥地利维也纳。
[58] Richardson,S.和Green,P.J.(1997)。“关于成分数量未知的混合物的贝叶斯分析(讨论)”,《皇家统计学会杂志:B辑(统计方法)》,59(4):731-792·Zbl 0891.62020号 ·数字标识代码:10.1111/1467-9868.00095
[59] Rocková,V.和George,E.I.(2016)。“通过自动旋转到稀疏性的快速贝叶斯因子分析”,《美国统计协会杂志》,111(516):1608-1622。
[60] Rodriguez,C.E.和Walker,S.G.(2014)。“使用单峰核的单变量贝叶斯非参数混合建模”,《统计与计算》,24(1):35-49·Zbl 1325.62016号 ·doi:10.1007/s11222-012-9351-7
[61] Rousseau,J.和Mengersen,K.(2011年)。“过量混合模型后验分布的渐近行为”,《皇家统计学会杂志:B辑(统计方法)》,73(5):689-710·兹比尔1228.62034 ·doi:10.1111/j.1467-9868.2011.00781.x
[62] Rue,H.和Held,L.(2005)。高斯马尔可夫随机场:理论与应用,统计与应用概率专著104卷。伦敦:查普曼和霍尔/CRC出版社·邮编1093.60003
[63] Scrucca,L.、Fop,M.、Murphy,T.B.和Raftery,A.E.(2016)。“mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计。”《R杂志》,8(1):289-317。
[64] Spiegelhalter,D.J.、Best,N.G.、Carlin,B.P.和Van Der Linde,A.(2002)。“模型复杂性和拟合的贝叶斯度量”,《皇家统计学会杂志:B辑(统计方法)》,64(4):583-639·Zbl 1067.62010年 ·数字对象标识代码:10.1111/1467-9868.00353
[65] Spiegelhalter,D.J.、Best,N.G.、Carlin,B.P.和Van Der Linde,A.(2014)。《偏差信息标准:12年后》,《皇家统计学会期刊:B辑(统计方法)》,76(3):485-493·Zbl 1411.62027号 ·doi:10.1111/rssb.12062
[66] Stephens,M.(2000年)。“成分数目未知的混合模型的贝叶斯分析——可逆跳跃法的替代方法”,《统计年鉴》,28(1):40-74·Zbl 1106.62316号 ·doi:10.1214/aos/1016120364
[67] Tipping,M.E.和Bishop,C.M.(1999)。“概率主成分分析仪的混合”,《神经计算》,11(2):443-482。
[68] van den Berg,R.A.、Hoefsloot,H.C.、Westerhuis,J.A.、Smiled,A.K.和van der Werf,M.J.(2006)。“集中、缩放和转换:改进代谢组学数据的生物信息含量”,《BMC基因组学》,7(1):142。
[69] van Havre,Z.、White,N.、Rousseau,J.和Mengersen,K.(2015)。“成分数量未知的贝叶斯混合模型拟合过度。”《公共科学图书馆·综合》,10(7):e0131739。
[70] Viroli,C.(2010年)。“通过因子混合分析器的混合物进行降维的基于模型的聚类。”分类杂志,27(3):363-388·Zbl 1337.62141号 ·doi:10.1007/s00357-010-9063-7
[71] Viroli,C.(2011)。“用于分类三向数据的矩阵正态分布的有限混合”,《统计与计算》,21(4):511-522·兹比尔1221.62083 ·doi:10.1007/s11222-010-9188-x
[72] Walker,S.G.(2007)。“用切片对Dirichlet混合模型进行采样”,《统计学中的通信——模拟与计算》,36(1):45-54·Zbl 1113.62058号 ·doi:10.1080/03610910601096262
[73] Wang,C.、Pan,G.、Tong,T.和L,Z.(2015)。“利用随机矩阵理论对大维精度矩阵进行收缩估计”,《统计》,25(3):993-1008·Zbl 1415.62035号
[74] Wang,Y.、Canale,A.和Dunson,D.B.(2016)。“可缩放几何密度估计”,摘自Gretton,A.和Robert,C.P.(编辑),《第19届国际人工智能与统计会议论文集》,《机器学习研究论文集》第51卷,857-865。西班牙加的斯:PMLR。
[75] West,M.(2003)。“大p,小n”范式中的贝叶斯因子回归模型。”贝叶斯统计7723-732。牛津大学出版社。
[76] West,M.、Müller,P.和Escobar,M.D.(1994年)。“层次先验和混合模型,及其在回归和密度估计中的应用”,Smith,A.F.M.和Freeman,P.R.(eds.),《不确定性方面:向D.V.Lindley致敬》,363-386。纽约:John Wiley&Sons·Zbl 0842.62001号
[77] Xing,E.P.、Sohn,K.A.、Jordan,M.I.和Teh,Y.W.(2006)。“通过分层Dirichlet过程混合进行贝叶斯多种群单倍型推断”,《第23届机器学习国际会议论文集》,1049-1056。ACM公司。
[78] Yellott,J.I.,Jr.(1977年)。“卢斯的选择公理、瑟斯顿的比较判断理论和双指数分布之间的关系”,《数学心理学杂志》,15(2):109-144·Zbl 0362.92024号 ·doi:10.1016/0022-2496(77)90026-8
[79] Yerebakan,H。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。