×

一种贝叶斯稀疏有限混合模型,用于从异质人群中聚类数据。 (英语) Zbl 1445.62152号

摘要:在本文中,我们介绍了一种使用稀疏有限混合模型(SFMM)对数据进行聚类的贝叶斯方法。SFMM是一个有限混合模型,其中包含大量先前固定的组分,其中许多组分可能是空的。在该模型中,组分的数量(k)可以解释为不同混合物组分的最大数量。然后,我们探索使用先验分布来计算混合模型的权重,该先验分布考虑了簇的数量(k_{\mathbf{c}}\)(例如,非空分量)可以是随机的并且小于有限混合模型的分量数量(k\)的可能性。为了确定簇,我们开发了一种MCMC算法,命名为分裂合并分配采样器。在该算法中,分割策略是数据驱动的,并插入到算法中,以增加马尔可夫链相对于簇数的混合。使用模拟数据集和三个实际数据集验证了该方法的性能。第一个真实数据集是基准星系数据,第二个和第三个数据集分别是关于酶和酸度的公开数据集。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
2015年1月62日 贝叶斯推断
62页第10页 统计学在生物学和医学中的应用;元分析
第62页,第35页 统计学在物理学中的应用
85A35型 统计天文学
85A05型 银河和恒星动力学

软件:

AS 136标准
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Akaike,H.A.(1974年)。统计模型识别的新视角。IEEE自动控制汇刊19,716-723·Zbl 0314.62039号 ·doi:10.1109/TAC.1974.1100705
[2] J.J.安德森(1985)。正态混合物和簇数问题。计算统计季刊2,3-14·Zbl 0616.62087号
[3] Banfield,J.D.和Raftery,A.E.(1993年)。基于模型的高斯和非高斯聚类。生物计量学49803-821·Zbl 0794.62034号 ·doi:10.2307/2532201
[4] Bensmail,H.、Celeux,G.、Raftery,A.E.和Robert,C.P.(1997)。基于模型的聚类分析中的推断。统计与计算7,1-10。
[5] Binder,D.A.(1978年)。贝叶斯聚类分析。生物特征65、31-38·Zbl 0376.62007号 ·doi:10.1093/biomet/65.1.31
[6] Bouveyron,C.和Brunet,C.(2013)。基于模型的高维数据聚类:综述。计算统计与数据分析71,52-78·Zbl 1471.62032号 ·doi:10.1016/j.csda.2012.12.008
[7] Bozdogan,H.(1987年)。模型选择和Akaike信息准则(AIC):一般理论及其分析扩展。《心理测量学》52,345-370·Zbl 0627.62005号 ·doi:10.1007/BF02294361
[8] Casella,G.、Robert,C.和Wells,M.(2000年)。混合模型、潜在变量和分区重要性抽样。技术报告-2000-03,CREST,INSEE,巴黎·Zbl 1075.65016号 ·doi:10.1016/j.stamet.2004.05.001
[9] Celeux,G.、Hurn,M.和Robert,C.P.(2000年)。混合后验分布的计算和推断困难。《美国统计协会杂志》95,957-970·Zbl 0999.62020号 ·doi:10.1080/016214592000.10474285
[10] Chib,S.和Greenberg,E.(1995年)。了解Metropolis-Hastings算法。美国统计学家49,327-335。
[11] Escobar,M.D.和West,M.(1995)。使用混合物的贝叶斯密度估计和推断。《美国统计协会杂志》90,577-588·Zbl 0826.62021号 ·doi:10.1080/01621459.1995.10476550
[12] Fraley,C.和Raftery,A.(2002年)。基于模型的聚类、判别分析和密度估计。美国统计协会杂志97·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[13] Fruhworth-Schnatter,S.(2017)。在基于模型的聚类中,从这里到无穷大稀疏有限与狄利克雷过程的混合。https://arxiv.org/abs/1706.07194。 ·Zbl 1474.62225号 ·doi:10.1007/s11634-018-0329-y
[14] Hartigan,J.A.和Wong,M.A.(1978年)。算法AS 136:k均值聚类算法。应用统计学28,100-108·Zbl 0447.62062号
[15] Jasra,A.、Holmes,C.C.和Stephens,D.A.(2005年)。马尔可夫链蒙特卡罗方法和贝叶斯混合建模中的标签切换问题。统计科学20,50-67·Zbl 1100.62032号 ·doi:10.1214/088342305000000016
[16] MacQueen,J.(1967)。多元观测值分类和分析的一些方法。第五届伯克利数理统计与概率研讨会论文集,第1卷:统计学,281-297。加州伯克利:加利福尼亚大学出版社·Zbl 0214.46201号
[17] McLachlan,G.和Basford,K.E.(1988年)。《混合模型:聚类的推断和应用》,纽约:马塞尔·德克尔出版社·Zbl 0697.62050号
[18] McLachlan,G.和Peel,D.(2000年)。有限混合模型。纽约:Wiley Interscience·Zbl 0963.62061号
[19] Nobile,A.和Fearnside,A.T.(2007年)。成分数量未知的贝叶斯有限混合:分配采样器。统计与计算17,147-162。
[20] 哦,M.S.和Raftery,A.E.(2007)。基于模型的差异聚类:贝叶斯方法。计算与图形统计杂志16,559-585。
[21] Richardson,S.和Green,P.J.(1997)。关于成分数目未知的混合物的贝叶斯分析。英国皇家统计学会杂志,B辑,统计方法59,731-792·Zbl 0891.62020号 ·数字标识代码:10.1111/1467-9868.00095
[22] Roeder,K.和Wasserman,L.(1997)。使用混合法线的实用贝叶斯密度估计。《美国统计协会杂志》92,894-902·Zbl 0889.62021号 ·doi:10.1080/01621459.1997.10474044
[23] Saraiva,E.F.、Louzada,F.和Milan,L.A.(2014年)。通过一种新的后验分裂大MCMC算法,建立了成分数目未知的混合模型。应用数学与计算244959-975·Zbl 1335.62061号 ·doi:10.1016/j.amc.2014.07.032
[24] Saraiva,E.F.、Suzuki,A.K.、Louzada,F.和Milan,L.A.(2016)。用数据驱动的马尔可夫链蒙特卡罗对基因表达数据进行分区。应用统计学杂志43,1155-1173·Zbl 1514.62846号
[25] Saraiva,E.F.、Suzuki,A.K.和Milan,L.A.(2019年)。补充“用于从异质人群中聚类数据的贝叶斯稀疏有限混合模型”https://doi.org/10.1214/18-BJPS425SUPP。
[26] Schwarz,G.E.(1978年)。估算模型的维度。统计年鉴6,461-464·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[27] Sneath,P.H.A.(1957年)。计算机在分类法中的应用。普通微生物学杂志17,201-206。
[28] Sokal,R.R.和Michener,C.D.(1958年)。一种用于评估系统关系的统计方法。堪萨斯大学科学通报381409-1438。
[29] Spiegelhalter,D.J.、Best,N.G.、Carlin,B.P.和Van der Linde,A.(2002)。模型复杂度和拟合度的贝叶斯度量。《皇家统计学会杂志》,B辑64,583-616·Zbl 1067.62010年 ·数字对象标识代码:10.1111/1467-9868.00353
[30] Stephens,M.(2000年)。处理混合模型中的标签切换。英国皇家统计学会杂志,B辑,统计方法62,795-809·Zbl 0957.62020号 ·doi:10.1111/1467-9868.00265
[31] Walli,G.M.、Frhwirth-Schnatter,S.和Grn,B.(2016)。基于稀疏有限高斯混合的模型聚类。统计与计算34,303-324·Zbl 1342.62109号 ·doi:10.1007/s11222-014-9500-2
[32] Ward,J.H.(1963年)。分层分组以优化目标函数。《美国统计协会杂志》58,234-244。
[33] 维滕,D·Zbl 1392.62194号 ·doi:10.1198/jasa.2010.tm09415
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。