×

变分近似-DIC量规,用于在族设置中进行参数估计和混合模型选择。 (英语) Zbl 07370653号

摘要:自50多年前引入以来,基于混合模型的聚类已经成为一种越来越流行的数据分析技术,现在通常在家庭环境中使用。当分解成分参数(通常是成分协方差(或尺度)矩阵)并施加一些约束时,就会出现混合模型族。在系列设置中,除了混合成分的数量外,模型选择还包括选择系列成员,即适当的协方差结构。迄今为止,贝叶斯信息准则(BIC)已被证明对模型选择最有效,而期望最大化(EM)算法通常用于参数估计。事实上,EM-BIC准则实际上垄断了关于混合模型族的文献。偏离这一准则,发展了变分贝叶斯近似用于参数估计和偏差信息准则(DIC)用于模型选择。变分贝叶斯方法通过在复边际似然上构造一个紧下界,并通过最小化相关的Kullback-Leibler散度来最大化该下界,为参数估计提供了一个替代框架。所介绍的框架,我们称之为VB-DIC,应用于最常用的高斯混合模型家族,并使用实际和模拟数据与EM-BIC准则进行比较。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 艾特肯,AC,代数和超越方程根的系列公式,《爱丁堡皇家学会学报》,45,14-22(1926)
[2] Akaike,H.,统计模型识别的新视角,IEEE自动控制汇刊,19,6716-723(1974)·兹伯利0314.62039
[3] JD Banfield;Raftery,AE,基于模型的高斯和非高斯聚类,生物统计学,49,3,803-821(1993)·Zbl 0794.62034号
[4] Bensmail,H。;Celeux,G。;Raftery,AE;Robert,CP,基于模型的聚类分析中的推断,统计与计算,7,1-10(1997)
[5] 比尔纳基,C。;Celeux,G。;Govaert,G.,《用综合完全似然评估聚类的混合模型》,IEEE模式分析和机器智能汇刊,22,7,719-725(2000)
[6] 比尔纳基,C。;Lourme,A.,《(协同)聚类中统一数据单元和模型》,《数据分析和分类进展》,第13、1、7-31页(2019年)·Zbl 1459.62105号
[7] 宾厄姆,C.,球面上的反极对称分布,《统计年鉴》,第2期,第6期,第1201-1225页(1974年)·Zbl 0297.62010
[8] 布莱,DM;Kucukelbir,A。;McAuliffe,JD,《变量推断:统计学家评论》,《美国统计协会杂志》,第112、518、859-877页(2017年)
[9] Bock,HH,聚类分析中的概率模型,计算统计学和数据分析,23,5-28(1996)·Zbl 0900.62324号
[10] Bock,HH,《数据科学、分类和相关方法》,3-21(1998),纽约:Springer-Verlag,纽约
[11] Bock,HH,《聚类分析中的概率方法》,《国际统计学会公报》,第57期,第603-606页(1998年)·Zbl 0923.62061号
[12] Böhning博士。;迪茨,E。;Schaub,R。;施拉特曼,P。;Lindsay,B.,单参数指数族密度混合物的似然比分布,统计数学研究所年鉴,46,373-388(1994)·Zbl 0802.62017年
[13] Boulesteix,A.-L.,Durif,G.,Lambert-Lacroix,S.,Peyre,J.,Strimmer,K.(2018年)。基因组学:基因组学的PLS分析。R软件包版本1.5-2。
[14] Bouveyron,C。;Brunet Saumard,C.,基于模型的高维数据聚类:综述,计算统计学和数据分析,71,52-78(2014)·Zbl 1471.62032号
[15] Browne,RP;McNicholas,PD,估计高维中的常见主成分,数据分析和分类进展,8,2,217-226(2014)·Zbl 1474.62183号
[16] 卡塞拉,G。;Mengersen,K。;罗伯特·C。;Titterington,D.,《混合分布的完美采样器》,《皇家统计学会杂志:B辑》,64,777-790(2002)·Zbl 1067.62028号
[17] Celeux,G。;Govaert,G.,高斯简约聚类模型,模式识别,28781-793(1995)
[18] Celeux,G。;Hurn,M。;Robert,C.,混合后验分布的计算和推断困难,美国统计协会杂志,95957-970(2000)·Zbl 0999.62020号
[19] ASM Cheam;马尔巴克,M。;McNicholas,PD,空气质量监测时空数据的基于模型的聚类,环境计量,93,192-206(2017)
[20] Cordunenu,A.和Bishop,C.(2001年)。混合分布的变分贝叶斯模型选择。《人工智能与统计》(第27-34页)。洛斯·阿尔托斯:摩根·考夫曼。
[21] UJ Dang;Browne,RP;McNicholas,PD,多元幂指数分布的混合,生物统计学,71,4,1081-1089(2015)·兹比尔1419.62330
[22] UJ Dang;Punzo,A。;麦克尼古拉斯,PD;Ingrassia,S.公司。;Browne,RP,高斯加权模型的多元响应和简约性,分类杂志,34,1,4-34(2017)·Zbl 1364.62149号
[23] Day,NE,估计正态分布混合的成分,生物统计学,56,3,463-474(1969)·Zbl 0183.48106号
[24] 阿联酋登普斯特;新墨西哥州莱尔德;DB鲁宾,《通过EM算法从不完整数据中获取最大似然》,《皇家统计学会杂志:B辑,39,1,1-38》(1977)·Zbl 0364.62022号
[25] Diebolt,J。;Robert,C.,通过贝叶斯抽样估计有限混合分布,英国皇家统计学会期刊:B系列,56363-375(1994)·Zbl 0796.62028号
[26] 弗雷利,C。;Raftery,AE,正态混合估计和基于模型聚类的贝叶斯正则化,分类杂志,24155-181(2007)·Zbl 1159.62302号
[27] 不列颠哥伦比亚省Franczak;Browne,RP;McNicholas,PD,移位不对称拉普拉斯分布的混合,IEEE模式分析和机器智能汇刊,36,61149-1157(2014)
[28] 加洛赫,MPB;McNicholas,PD,偏斜矩阵变量分布的有限混合,模式识别,80,83-93(2018)
[29] Gallaugher,M.P.B.和McNicholas,P.D.(2018b)。矩阵变量双线性因子分析器的混合。摘自:联合统计会议记录。弗吉尼亚州亚历山大市:美国统计协会。也可作为arXiv预印本提供。arXiv:1712.08664v3·兹比尔1474.62227
[30] Gallaugher,M.P.B.和McNicholas,P.D.(2019a)。倾斜矩阵变量双线性因子分析器的混合。数据分析和分类进展。出现。doi:10.1007/s11634-019-00377-4·Zbl 1474.62227号
[31] 加洛赫,MPB;McNicholas,PD,《分数监督分类:权重选择和多元t分布的扩展》,《分类杂志》,36,2,232-265(2019)·Zbl 1436.62252号
[32] Gelman,A。;斯特恩,HS;卡林,JB;邓森,DB;Vehtari,A。;罗宾,DB,贝叶斯数据分析(2013),博卡拉顿:查普曼和霍尔/CRC出版社,博卡拉顿·Zbl 1279.62004号
[33] 古普塔,A。;Nagar,D.,矩阵变量分布(2000),博卡拉顿:查普曼和霍尔/CRC出版社,博卡拉顿·Zbl 0935.62064号
[34] 哈蒂根,JA;Wong,MA,A k-means聚类算法,应用统计学,28,1,100-108(1979)·Zbl 0447.62062号
[35] Hasselblad,V.,正态分布混合参数的估计,技术计量学,8,3,431-444(1966)
[36] Hoff,P.(2012)。rstiefel:Stiefel流形上的随机正交矩阵生成。R包版本0.9。
[37] Hoff,PD,矩阵Bingham-von-Mises-Fisher分布的模拟,及其在多元和关系数据中的应用,计算与图形统计杂志,18,2,438-456(2009)
[38] 休伯特,L。;Arabie,P.,比较分区,分类杂志,2193-218(1985)·Zbl 0587.62128号
[39] Jasra,A。;福尔摩斯,CC;Stephens,DA,马尔可夫链蒙特卡罗方法和贝叶斯混合建模中的标签切换问题,皇家统计学会杂志:B辑,10,1,50-67(2005)·Zbl 1100.62032号
[40] 约旦,M。;加赫拉马尼,Z。;Jaakkola,T。;Saul,L.,图形模型的变分方法简介,机器学习,37183-233(1999)·Zbl 0945.68164号
[41] Lee,S。;McLachlan,GJ,《多元斜t分布的有限混合:一些最新结果》,《统计与计算》,24,181-202(2014)·Zbl 1325.62107号
[42] 李,SX;McLachlan,GJ,规范基本斜t分布的有限混合-限制和非限制斜t混合模型的统一,统计与计算,26,3,573-589(2016)·兹比尔1420.60020
[43] Lin,T。;GJ麦克拉克伦;Lee,SX,使用受限多元偏态分布扩展因子模型的混合,多元分析杂志,143398-413(2016)·Zbl 1328.62378号
[44] 林,T-I;麦克尼古拉斯,PD;Hsiu,JH,通过节约型t混合模型捕获模式,《统计与概率快报》,88,80-87(2014)·Zbl 1369.62131号
[45] 麦昆,J.B.(1967年)。多元观测值分类和分析的一些方法。第五届伯克利数理统计与概率研讨会论文集。伯克利:加利福尼亚大学出版社·Zbl 0214.46201号
[46] McGrory,C。;Titterington,D.,有限混合分布贝叶斯模型选择中的变分近似,计算统计与数据分析,51,5352-5367(2007)·Zbl 1445.62050号
[47] McGrory,C。;Titterington,D.,隐马尔可夫模型的变分贝叶斯分析,澳大利亚和新西兰统计杂志,51,227-244(2009)·Zbl 1337.62015年
[48] McGrory,C。;Titterington,D。;Pettitt,A.,估计隐藏Potts模型参数的变分贝叶斯,计算统计与数据分析,19,3,329-340(2009)
[49] GJ麦克拉克伦;Krishnan,T.,《EM算法和扩展》(2008),纽约:威利·Zbl 1165.62019号
[50] McNicholas,PD,使用潜在高斯混合模型的基于模型的分类,《统计规划与推断杂志》,140,5,1175-1181(2010)·Zbl 1181.62095号
[51] McNicholas,PD,基于混合模型的分类(2016),博卡拉顿:查普曼和霍尔/CRC出版社,博卡拉顿·Zbl 1454.62005年
[52] McNicholas,PD,基于模型的聚类,分类杂志,33,3,331-373(2016)·Zbl 1364.62155号
[53] 麦克尼古拉斯,PD;墨菲,TB,简约高斯混合模型,统计与计算,18,285-296(2008)
[54] 麦克尼古拉斯,PD;Murphy,TB,通过潜在高斯混合模型对微阵列表达数据进行基于模型的聚类,生物信息学,26,21,2705-2712(2010)
[55] 梅利尼科夫,V。;Zhu,X.,《基于模型的偏斜矩阵数据聚类》,《多元分析杂志》,167181-194(2018)·Zbl 1395.62165号
[56] 莫里斯,K。;McNicholas,PD,聚类、分类、判别分析和通过广义双曲线混合进行降维,计算统计和数据分析,97,133-150(2016)·Zbl 1468.62144号
[57] 莫里斯,K。;Punzo,A。;麦克尼古拉斯,PD;Browne,RP,不对称聚类和异常值:多变量污染移位不对称拉普拉斯分布的混合物,计算统计学和数据分析,132145-166(2019)·Zbl 1507.62136号
[58] 莫里,PM;布朗,RB;McNicholas,PD,偏t因子分析仪的混合物,计算统计和数据分析,77,326-335(2014)·兹比尔1506.62132
[59] Murray,P.M.,Browne,R.P.,McNicholas,P.D.(2019年)。隐藏截断双曲因子分析器的混合。分类杂志。出现。doi:10.1007/s00357-019-9309-y·Zbl 07223606号
[60] 莫里,PM;麦克尼古拉斯,PD;Browne,RP,常见倾斜t因子分析仪的混合物,Stat,3,1,68-82(2014)·Zbl 1506.62132号
[61] Neath,R.C.等人(2013年)。蒙特卡罗EM算法的收敛性。收录于:《现代统计理论与应用的进展:莫里斯·L·伊顿纪念活动》,第43-62页。数理统计研究所·Zbl 1329.62287号
[62] 奥哈根,A。;墨菲,TB;IC Gormley;麦克尼古拉斯,PD;Karlis,D.,多元正态逆高斯分布聚类,计算统计与数据分析,93,18-30(2016)·Zbl 1468.62151号
[63] Pearson,K.,《进化数学理论的贡献》,伦敦皇家学会哲学学报A,185,71-110(1894)
[64] Punzo,A。;布洛斯坦,M。;McNicholas,PD,通过节约型污染混合物进行高维无监督分类,模式识别,98,107031(2020)
[65] R核心团队,R:统计计算的语言和环境(2018),维也纳:R统计计算基金会,维也纳
[66] Rand,WM,聚类方法评估的客观标准,美国统计协会杂志,66846-850(1971)
[67] 理查森,S。;Green,P.,《关于成分数量未知的混合物的贝叶斯分析》(含讨论),《皇家统计学会杂志:B辑》,59,731-792(1997)·Zbl 0891.62020号
[68] Schwarz,G.,估算模型的维度,《统计年鉴》,6,2,461-464(1978)·Zbl 0379.62005年
[69] Scrucca,L。;Fop,M。;墨菲,TB;Raftery,AE,mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计,《R期刊》,8,1,205-233(2016)
[70] Spiegelhalter,D。;贝斯特,N。;卡林,B。;Van der Linde,A.,模型复杂性和拟合的贝叶斯度量(含讨论),《皇家统计学会杂志:B辑》,64,583-639(2002)·Zbl 1067.62010年
[71] Stephens,M.,正态分布混合的贝叶斯方法(1997),牛津:牛津大学博士论文
[72] Stephens,M.,成分数量未知的混合模型的贝叶斯分析-可逆跳跃法的替代方法,《统计年鉴》,28,40-74(2000)·Zbl 1106.62316号
[73] Subedi,S。;McNicholas,PD,通过正态逆高斯分布混合进行聚类的变分贝叶斯近似,数据分析和分类进展,8,2,167-193(2014)·兹比尔1459.62122
[74] Subedi,S。;Punzo,A。;Ingrassia,S.公司。;McNicholas,PD,稳健模型聚类和降维的聚类加权t因子分析,统计方法与应用,24,4,623-649(2015)·Zbl 1416.62362号
[75] Titterington,DM;Smith,原子力显微镜;Makov,UE,有限混合分布的统计分析(1985),奇切斯特:John Wiley&Sons,奇切斯·Zbl 0646.62013.中
[76] 托托拉,C。;不列颠哥伦比亚省Franczak;Browne,RP;McNicholas,PD,合并广义双曲分布的混合物,分类杂志,36,1,26-57(2019)·Zbl 1433.62172号
[77] Ueda,N。;Ghahramani,Z.,基于优化变分界限的混合模型贝叶斯模型搜索,神经网络,151223-1241(2002)
[78] 维纳布尔斯,WN;Ripley,BD,《现代应用统计与S》(2002),纽约:Springer,纽约·Zbl 1006.62003号
[79] Viroli,C.,《用于分类三向数据的矩阵正态分布有限混合》,《统计与计算》,21,4,511-522(2011)·Zbl 1221.62083号
[80] 弗比克,I。;McNicholas,PD,基于模型的聚类和分类的简约斜交混合模型,计算统计和数据分析,71,196-210(2014)·Zbl 1471.62202号
[81] 弗比克,I。;McNicholas,PD,部分监督分类,分类杂志,32,3,359-381(2015)·Zbl 1331.62319号
[82] 王,X。;He,CZ;Sun,D.,给定列表不匹配的患者群体规模的贝叶斯推断,《医学统计》,24,2,249-267(2005)
[83] Wolfe,J.H.(1965)。用于类型最大似然分析的计算机程序。技术公告65-15,美国海军人员研究活动。
[84] 朱,X。;Melnykov,V.,有限混合建模中的Manly变换,计算统计与数据分析,121,190-208(2018)·Zbl 1469.62184号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。