×

通过分层BIC选择混合模型。 (英语) Zbl 1468.62233号

摘要:贝叶斯信息准则(BIC)是有限混合模型中最常用的模型选择准则之一。然而,它使用整个样本大小来惩罚每个成分的复杂性,并完全忽略数据中固有的聚类结构,从而导致过度惩罚。为了克服这一问题,提出了一种新的标准,称为层次BIC(HBIC),该标准仅使用局部样本大小惩罚组件复杂性,并与聚类数据结构很好地匹配。理论上,当样本量较大时,HBIC是变分贝叶斯(VB)下限的近似值,而广泛使用的BIC是一种精度较低的近似值。为了验证这一理论结果,进行了一项实证研究,并在模拟数据集和实际数据集上进行了一系列实验,以比较HBIC和BIC。结果表明,HBIC的表现明显优于BIC,BIC受到低估。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 安德鲁斯,J.L。;McNicholas,P.D.,基于模型的聚类、分类和多元t分布混合判别分析,统计计算。,22, 5, 1021-1029, (2012) ·Zbl 1252.62062号
[2] Attias,H.,1999年。用变分贝叶斯推断潜在变量模型的参数和结构。In:程序。第十五条不确定性。Artif公司。智力。第21-30页。
[3] Bache,K.,Lichman,M.,2013年。UCI机器学习库。http://archive.ics.uci.edu/ml。
[4] Banfield,J.D。;Raftery,A.E.,基于模型的高斯和非高斯聚类,生物统计学,49,3,803-821,(1993)·Zbl 0794.62034号
[5] Bensmail,H。;Celeux,G。;Raftery,A.E。;Robert,C.P.,基于模型的聚类分析中的推理,统计计算。,7, 1, 1-10, (1997)
[6] 比尔纳基,C。;Celeux,G。;Govaert,G.,《用综合完全似然评估聚类的混合模型》,IEEE Trans。模式分析。机器。智力。,22, 7, 719-725, (2000)
[7] 比尔纳基,C。;Celeux,G。;戈瓦特,G。;Langrognet,F.,使用MIXMOD软件进行基于模型的聚类和判别分析,计算。统计师。数据分析。,51, 2, 587-600, (2006) ·Zbl 1157.62431号
[8] Bishop,C.M.,模式识别和机器学习,(2006),纽约斯普林格出版社·Zbl 1107.68072号
[9] Browne,R.P。;McNicholas,P.D.,估计高维中的常见主成分,高级数据分析。分类。,8, 2, 217-226, (2014) ·Zbl 1474.62183号
[10] Celeux,G。;Govaert,G.,高斯简约聚类模型,模式识别。,28, 5, 781-793, (1995)
[11] Charytanowicz,M。;Niewczas,J。;Kulczycki,P。;科瓦尔斯基,P。;卢卡西克,S。;Zak,S.,《用于x射线图像特征分析的完整梯度聚类算法》(Ewa Pietka,J.K.,《生物医学信息技术》,(2010),柏林斯普林格出版社,海德堡),15-24
[12] Dempster,A.P。;新墨西哥州莱尔德。;Rubin,D.B.,《使用EM算法从不完整数据中获得最大似然》,J.R.Stat.Soc.Ser。B、 39,1,1-38,(1977),(含讨论)·Zbl 0364.62022号
[13] Figueiredo,M.A.T。;Jain,A.K.,有限混合模型的无监督学习,IEEE Trans。模式分析。机器。智力。,24, 3, 381-396, (2002)
[14] Fisher,R.A.,《多重测量在分类问题中的应用》,《优生学年鉴》,第7、2、179-188页,(1936年)
[15] 弗雷利,C。;Raftery,A.E.,多少簇?哪种聚类方法?答案通过基于模型的聚类分析计算得出。J.,41,8,578-588(1998)·Zbl 0920.68038号
[16] 弗雷利,C。;Raftery,A.E.,基于模型的聚类、判别分析和密度估计,J.Amer。统计师。协会,97,611-631,(2002)·Zbl 1073.62545号
[17] 弗雷利,C。;Raftery,A.E.,正态混合估计和基于模型聚类的贝叶斯正则化,J.分类,24,2,155-181,(2007)·Zbl 1159.62302号
[18] 弗雷利,C。;Raftery,A.E。;墨菲,T.B。;Scrucca,L.,MCLUST版本4 for R:正态混合建模和基于模型的聚类。tech.rep.597,(2012),华盛顿大学统计系,URL:网址:http://www.stat.washington.edu/clust/
[19] Friedman,J.H.,正则化判别分析,J.Amer。统计师。协会,84405165-175,(1989)
[20] 戈里尼,I。;Murphy,T.B.,分类数据基于模型聚类的潜在特征分析器混合,统计计算。,242569-588(2014年)·Zbl 1325.62122号
[21] 休伯特,L。;Arabie,P.,比较分区,J.分类,2,1,193-218,(1985)
[22] Keribin,C.,混合模型阶数的一致估计,SankhyáSer。A、 62、1、49-66(2000)·Zbl 1081.62516号
[23] Lin,T.-I.,通过特征值分解通过参数化混合模型从不完整数据中学习,计算。统计师。数据分析。,71, 3, 183-195, (2014) ·Zbl 1471.62120号
[24] 麦克拉克伦,G。;Peel,D.,有限混合模型,(2000),纽约John Wiley&Sons·Zbl 0963.62061号
[25] Pauler,D.K.,正态线性模型的Schwarz准则和相关方法,生物统计学,85,1,13-27,(1998)·Zbl 1067.62550号
[26] Raftery,A.E。;牛顿,医学硕士。;萨塔戈潘,J.M。;Krivitsky,P.N.,使用调和平均恒等式通过后验模拟估计综合似然,(贝叶斯统计,第8卷,(2007年),牛津大学出版社,1-45·Zbl 1252.62038号
[27] Schwarz,G.,估算模型的维数,Ann.Statist。,6, 461-464, (1978) ·Zbl 0379.62005年
[28] Srivastava,S。;古普塔,M.R。;Frigyik,B.A.,贝叶斯二次判别分析,J.Mach。学习。第8号决议,1277-1305,(2007年)·Zbl 1222.62043号
[29] Steele,R.,有限混合模型和多重插补的实用重要性抽样方法,(2002),华盛顿大学(博士论文)
[30] 弗瑞克,I。;McNicholas,P.D.,用于基于模型的聚类和分类的解析偏斜混合模型,计算。统计师。数据分析。,71, 3, 196-210, (2014) ·Zbl 1471.62202号
[31] Wang,B.,Titterington,D.M.,2004年。缺失值指数族模型变分贝叶斯逼近的收敛性和渐近正态性。In:程序。第20条不确定性。Artif公司。智力。第577-584页。
[32] 张,B。;张,C。;Yi,X.,有限混合模型的竞争EM算法,模式识别。,37, 1, 131-144, (2004) ·Zbl 1067.68603号
[33] 赵,J。;Yu,P.L.H.,关于变分贝叶斯因子分析的注记,神经网络。,22, 7, 988-997, (2009) ·Zbl 1336.62163号
[34] 赵,J。;Yu,P.L.H。;Shi,L.,通过分层BIC选择混合因子分析仪的模型。tech.rep,(2013),云南财经大学统计与数学学院,中国云南,URL:http://www.ynufe.edu.cn/pub/tsxy/jhzhao/pub/en/a-mfa.pdf
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。