×

在基于高斯模型的聚类中解决过拟合和欠拟合问题。 (英语) Zbl 1469.62015号

摘要:期望最大化(EM)算法是使用有限混合模型进行聚类分析时参数估计的常用方法。这种方法存在众所周知的收敛到局部最大值的问题,但也存在不太明显的过拟合问题。通过仿真说明了这些合并的和竞争的关注点,然后通过引入一种算法来解决,该算法使用非参数bootstrap增强了传统EM。对实际数据的进一步模拟和应用支持使用这种自举增强的EM型算法,以避免过拟合和局部最大值。

MSC公司:

62-08 统计学相关问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 安德鲁斯,J.L。;McNicholas,P.D.,使用进化算法进行基于模型的聚类,模式识别。莱特。,34, 9, 987-992, (2013)
[2] Attias,H.,《利用变分贝叶斯推断潜在变量模型的参数和结构》,(第十五届人工智能不确定性会议论文集,(1999),摩根考夫曼出版社),21-30
[3] Banfield,J.D。;Raftery,A.E.,基于模型的高斯和非高斯聚类,生物统计学,49,3,803-821,(1993)·Zbl 0794.62034号
[4] 比尔纳基,C。;Celeux,G。;Govaert,G.,为EM算法选择初始值,以获得多元高斯混合模型中的最大似然,计算。统计师。数据分析。,41, 3, 561-575, (2003) ·Zbl 1429.62235号
[5] 比尔纳基,C。;Chrétien,S.,带EM的一元高斯混合函数最大似然估计中的退化,统计。普罗巴伯。莱特。,61, 4, 373-382, (2003) ·Zbl 1038.62023号
[6] Bouveyron,C.等人。;Brunet-Saumard,C.,《基于模型的高维数据聚类:综述》,《计算》。统计师。数据分析。,71, 52-78, (2014)
[7] Bouveyron,C.等人。;Girard,S。;Schmid,C.,高维数据聚类,计算。统计师。数据分析。,52, 1, 502-519, (2007) ·Zbl 1452.62433号
[8] Breiman,L.,装袋预测,马赫数。学习。,24, 2, 123-140, (1996) ·Zbl 0858.68080号
[9] 北卡罗来纳州坎贝尔。;Mahon,R.J.,澳大利亚细粒棘属两种岩蟹变异的多元研究。J.Zool。,22, 417-425, (1974)
[10] Celeux,G。;Govaert,G.,高斯简约聚类模型,模式识别。,28, 781-793, (1995)
[11] Chang,W.C.,《关于在分离两个多元正态分布的混合物之前使用主成分》,Appl。统计,32,3,267-275,(1983)·Zbl 0538.62050号
[12] Dempster,A.P。;新墨西哥州莱尔德。;Rubin,D.B.,《通过EM算法从不完整数据中获得最大似然》,J.R.Stat.Soc.Ser。B统计方法。,39, 1, 1-38, (1977) ·Zbl 0364.62022号
[13] Durbin,J。;Watson,G.S.,《最小二乘回归中的序列相关性测试》。二、 《生物统计学》,38,1-2,159-178,(1951)·Zbl 0042.38201号
[14] Efron,B.,《标准误差的非参数估计:折刀法、自举法和其他方法》,《生物统计学》,589-599,(1981)·Zbl 0487.62031号
[15] Efron,B.,The jackknife,The bootstrap and other resampling plans,(1982年),SIAM·Zbl 0496.62036号
[16] 弗雷利,C。;Raftery,A.E.,基于模型的聚类、判别分析和密度估计,J.Amer。统计师。协会,97,458,611-631,(2002)·Zbl 1073.62545号
[17] Frühwirth-Schnatter,S.,有限混合和马尔可夫切换模型,(2006),纽约斯普林格-Verlag·Zbl 1108.6202号
[18] 格雷塞林,F。;Ingrassia,S.,多元t分布混合的约束单调EM算法,统计计算。,20, 9-22, (2010)
[19] Grün,B。;Leisch,F.,Bootstrapping有限混合模型,(COMPSTAT 2004年会议记录,(2004)),1115-1122
[20] Guttman,L.,公共因素分析的一些必要条件,《心理测量学》,19,2,149-161,(1954)·Zbl 0058.13004号
[21] Han,L。;Braun,W.J.,《酒神:随机火灾增长情景生成器》,Environmetrics,25,63431-442,(2014)
[22] 亨氏,G。;彼得森·L·J。;约翰逊,R.W。;柯克,C.J.,《探索身体维度的关系》,《教育杂志》。,11, 2, (2003)
[23] Ingrassia,S.,多元正态混合模型的基于似然的约束算法,统计方法应用。,13, 2, 151-166, (2004) ·兹比尔1205.62066
[24] 英格拉西亚,S。;Rocci,R.,多元高斯有限混合的约束单调EM算法,计算。统计师。数据分析。,51, 11, 5339-5351, (2007) ·Zbl 1445.62116号
[25] 英格拉西亚,S。;Rocci,R.,多元高斯混合和动态约束MLE的EM算法的退化,计算。统计师。数据分析。,55, 4, 1715-1725, (2011) ·Zbl 1328.65030号
[26] Kaiser,H.F.,《电子计算机在因子分析中的应用》,教育。精神病。测量。,20, 1, 141-151, (1960)
[27] Kaiser,H.F.,关于guttman公因子数下限的注释,英国数学杂志。统计师。心理学,14,1,1-2,(1961)
[28] Karlis,D。;Xekalaki,E.,为有限混合物的EM算法选择初始值,计算。统计师。数据分析。,41, 3, 577-590, (2003) ·Zbl 1429.62082号
[29] 马丁内斯,A.M。;Vitria,J.,使用EM算法的遗传版本学习混合模型,模式识别。莱特。,21, 8, 759-769, (2000)
[30] McGrory,C.A。;Titterington,D.,有限混合分布贝叶斯模型选择中的变分近似,计算。统计师。数据分析。,51, 11, 5352-5367, (2007) ·Zbl 1445.62050号
[31] McLachlan,G.J.,《关于正常混合物中成分数量的自举似然比检验统计》,Appl。统计,318-324,(1987)
[32] 麦克拉克伦,G。;Krishnan,T.,EM算法和扩展,(2008),John Wiley&Sons·Zbl 1165.62019号
[33] 麦克拉克伦,G。;Peel,D.,有限混合模型,(2004),John Wiley&Sons
[34] McLachlan,G.J。;皮,D。;Basford,K.E。;Adams,P.,用于拟合正态组分和t组分混合物的emmix软件,J.Stat.Softw。,4, 2, 1-14, (1999)
[35] McNicholas,P.D.,基于混合模型的分类,(2016),CRC出版社
[36] McNicholas,P.D.,基于模型的聚类,J.Classification,33,3,331-373,(2016)·Zbl 1364.62155号
[37] McNicholas,医学博士。;Murphy,T.B.,简约高斯混合模型,统计计算。,18285-296(2008年)
[38] Muraro,S.,1975年。规定火灾预测器,加拿大林业局,太平洋林业中心,维多利亚州。;Muraro,S.,1975年。规定火灾预测器,加拿大林业局,太平洋林业中心,维多利亚州。
[39] 佩恩科普夫,F。;Bouchaffra,D.,用于学习高斯混合模型的基于遗传的EM算法,IEEE Trans。模式分析。机器。智力。,27, 8, 1344-1348, (2005)
[40] 邱,W.,乔,H.,2015年。聚类生成:随机聚类生成(具有指定的分离度)。R包版本1.3.4。;邱,W.,乔,H.,2015年。聚类生成:随机聚类生成(具有指定的分离度)。R包版本1.3.4。
[41] Quintilio,D.、Fahnestock,G.R.、Dubé,D.E.等人,1977年。高地短叶松火灾行为:达尔文湖项目,技术报告,信息报告NOR-X-174,加拿大林务局,艾伯塔省埃德蒙顿市北部森林研究中心。;Quintilio,D.、Fahnestock,G.R.、Dubé,D.E.等人,1977年。高地短叶松的火灾行为:达尔文湖项目,技术报告,信息报告NOR-X-174,加拿大林务局,艾伯塔省埃德蒙顿北部森林研究中心。
[42] 罗伯特·C·P。;Titterington,D.,隐马尔可夫模型的重新参数化策略和最大似然估计的贝叶斯方法,统计计算。,8, 2, 145-158, (1998)
[43] 鲁宾,D.B.,《EM及以后》,《心理测量学》,56,2,241-254,(1991)
[44] Schwarz,G.,估算模型的维数,Ann.Statist。,6, 2, 461-464, (1978) ·Zbl 0379.62005年
[45] 美国堪萨斯州未成熟短叶松的火灾行为。《森林研究杂志》,17,1,80-86,(1987)
[46] 股票,B.,成熟短叶松的火灾行为,Can。《森林研究杂志》,19,6,783-790,(1989)
[47] Stocks,B.J.,安大略省云杉芽虫破坏森林的潜在火灾。年代。,63, 1, 8-14, (1987)
[48] Tibshirani,R。;K.奈特(K.K.Knight),通过引导“bumping”进行模型搜索,J.Compute。图表。统计人员。,8, 4, 671-686, (1999)
[49] Titterington,D.M。;史密斯,A.F。;Makov,U.E.,有限混合分布的统计分析,(1985),Wiley·Zbl 0646.62013.中
[50] Van Wagner,C.E.,Stocks,B.,Lawson,B.,Alexander,M.,Lynham,T.,McAlpine,R.,1992年。加拿大森林火灾行为预测系统的开发和结构。加拿大林业火灾危险小组。技术报告,信息报告ST-X-3,加拿大林业、科学和可持续发展局,安大略省渥太华。;Van Wagner,C.E.,Stocks,B.,Lawson,B.,Alexander,M.,Lynham,T.,McAlpine,R.,1992年。加拿大森林火灾行为预测系统的开发和结构。加拿大林业火灾危险小组。技术报告、信息报告ST-X-3、加拿大林业、安大略省渥太华科学与可持续发展局。
[51] Wood,S.N.,通过引导重新启动最小化模型拟合包含虚假局部极小值的目标,生物统计学,57,1,240-244,(2001)·兹比尔1209.62368
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。