×

分类数据上潜在块模型的估计和选择。 (英语) Zbl 1331.62149号

摘要:本文讨论了分类数据的潜在块模型(LBM)中的估计和模型选择。首先,在提供了确保该模型可识别性的充分条件后,我们概括了针对二进制数据导出的估计过程和模型选择准则。其次,为了得到MAP估计量,我们通过Gibbs抽样和经过良好校准的非信息先验分布,发展了贝叶斯推断:这证明了使用最大似然方法可以避免LBM遇到的陷阱。然后给出了模型选择准则。特别地,导出了不需要渐近近似的积分完全似然准则的精确表达式。最后,在模拟数据集和实际数据集上进行的数值实验突出了所提出的估计和模型选择程序的吸引力。

MSC公司:

2015年1月62日 贝叶斯推断
62小时12分 多元分析中的估计
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 哈尔

参考文献:

[1] Allman,E.,Mattias,C.,Rhodes,J.:具有许多观测变量的潜在结构模型中参数的可识别性。Ann.Stat.37,3099-3132(2009年)·Zbl 1191.62003号
[2] Banerjee,A.、Dhillon,I.、Ghosh,J.、Merugu,S.、Modha,D.S.:bregman联合聚类和矩阵近似的广义最大熵方法。J.马赫。学习。第8199-1986号决议(2007年)。国际标准刊号1532-4435·Zbl 1222.68139号
[3] Baudry,J.-P.:非监管分类模式选择。班级合唱团。巴黎南大学博士论文,2009年12月。
[4] Baudry,J.-P.,Raftery,A.E.,Celeux,G.,Lo,K.,Gottardo,R.:组合混合成分进行聚类。J.计算。Gr.Stat.19,332-353(2010年)
[5] Biernacki,C.,Celeux,G.,Govaert,G.:评估具有综合完全似然的聚类混合模型。IEEE传输。模式分析。机器。因特尔。22719-725(2000年7月)
[6] Carreira-Perpiñn,M.,Renals,S.:多元bernoulli分布有限混合的实际可识别性。神经计算。12, 141-152 (2000) ·doi:10.1162/089976600300015925
[7] Celeux,G.,Diebolt,J.:em算法的随机版本。计算。统计季度。2, 73-82 (1985)
[8] Celisse,A.,Daudin,J.-J.,Latouche,P.:随机块模型中最大似然和变分估计的一致性。电子。《J Stat.61847-1899》(2012年)·Zbl 1295.62028号 ·doi:10.1214/12-EJS729
[9] Dempster,A.P.,Laird,N.M.,Rubin,D.B.:通过em算法获得不完整数据的最大似然(带讨论)。J.R.统计社会服务。B 39,1-38(1977)·Zbl 0364.62022号
[10] Frühwirth-Schnatter,S.:有限混合和马尔可夫切换模型。Springer统计系列,Springer(2006)·Zbl 1108.6202号
[11] Frühwirth-Schnatter,S.:混合:估计和应用,处理模型不确定性下的标签转换一章。奇切斯特威利(2011)
[12] Govaert,G.:意外情况下的分类算法。第一届数据分析和信息学国际研讨会,第487-500页,凡尔赛,1977年。印度·Zbl 1452.62444号
[13] Govaert,G.:克罗地亚分类。法国巴黎第六大学博士论文,1983年·兹伯利0817.92002
[14] Govaert,G.,Nadif,M.:用bernoulli混合模型进行块聚类:不同方法的比较。计算。统计数据分析。52, 3233-3245 (2008) ·Zbl 1452.62444号 ·doi:10.1016/j.csda.2007.09.007
[15] Govaert,G.,Nadif,M.:列联表的潜在块模型。Commun公司。统计理论方法39,416-425(2010)·兹比尔1187.62117 ·网址:10.1080/03610920903140197
[16] Gyllenberg,M.,Koski,T.,Reilink,E.,Verlann,M.:细菌概率数字识别中的非唯一性。应用杂志。普罗巴伯。31, 542-548 (1994) ·Zbl 0817.92002号 ·doi:10.2307/3215044
[17] Jagalur,M.、Pal,C.、Learnd-Miller,E.、Zoeller,R.T.、Kulp,D.:通过图像配准、特征提取和块聚类分析小鼠大脑中的原位基因表达。BMC生物信息。8,S5(2007)·doi:10.1186/1471-2105-8-S10-S5
[18] Keribin,C.:混合模型阶数的一致估计。Sankhya Ser.公司。A 62、49-66(2000)·Zbl 1081.62516号
[19] 克里宾,C.:《梅特霍德斯湾变化:神经成像的概念和应用》,法国社会统计杂志151107-131(2010)·Zbl 1316.62041号
[20] Keribin,C.、Brault,V.、Celeux,G.、Govaert,G.:二元潜在块模型的模型选择。2012年、2012年COMPSTAT会议记录·Zbl 1331.62149号
[21] Keribin,C.,Brault,V.,Celeux,G.,Govaert,G.:分类数据上潜在块模型的估计和选择。RR-8264,INRIA,2013年3月。网址http://hal.inia.fr/hal-00802764 ·Zbl 1331.62149号
[22] Lomet,A.:分类模式选择继续。2012年12月,Compiègne技术大学博士论文·Zbl 1322.62046号
[23] Lomet,A.,Govaert,G.,Grandvalet,Y.:非模拟方案(Un protocole de simulation de donées pour la classification croisée e)。2012年5月,布鲁塞尔,44ème国家新闻·Zbl 1228.62034号
[24] Madeira,S.C.,Oliveira,A.L.:生物数据分析的双聚类算法:一项调查。IEEE/ACM传输。计算。生物信息学。1, 24-45 (2004) ·doi:10.1109/TCBB.2004.2
[25] Mariadassou,M.,Matias,C.:潜在或随机块模型中群体后验分布的收敛性。arXiv,预印arXiv:1206.7101v22013·兹比尔1329.62285
[26] McLachlan,G.J.,Krishnan,T.:EM算法和扩展,第2版。威利,尼克斯·约克(2008)·Zbl 1165.62019号 ·doi:10.1002/9780470191613
[27] McLachlan,G.J.,Peel,D.:有限混合模型,第2版。奈克斯·约克·威利(2000)·Zbl 0963.62061号 ·doi:10.1002/0471721182
[28] Meeds,E,Roweis,S:非参数贝叶斯双聚类。技术报告UTML TR 2007-001,多伦多大学计算机科学系,2007·Zbl 0379.62005年
[29] Rousseau,J.,Mengersen,K.:过度拟合模型中后验分布的渐近行为。J.罗伊。Stat.Soc.73,689-710(2011年)·Zbl 1228.62034号 ·doi:10.1111/j.1467-9868.2011.00781.x
[30] Schwarz,G.:估算模型的维数。Ann.Stat.6(2),461-464(1978)·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[31] Shan,H.,Banerjee,A.:贝叶斯联合聚类。《2008年IEEE第八届数据挖掘国际会议论文集》,ICDM’08,第530-539页,华盛顿特区,2008年。IEEE计算机学会。
[32] Wyse,J.,Friel,N.:具有塌陷潜在块模型的块聚类。统计计算。22, 415-428 (2012) ·Zbl 1322.62046号 ·doi:10.1007/s11222-011-9233-4
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。