×

通过jackknife、bootstrap和加权似然bootstrapGaussian混合模型研究聚类中的参数不确定性。 (英语) Zbl 1505.62301号

摘要:具有(多元)高斯成分的混合模型是基于模型聚类中的一种常用工具。此类模型通常通过最大化似然的过程进行拟合,例如EM算法。收敛时,通常会报告最大似然参数估计值,但在大多数情况下,很少强调与这些估计值相关的可变性。这在一定程度上可能是因为在模型填充算法中没有直接计算标准误差,或者因为不需要它们来拟合模型,或者因为它们很难计算。因此,基于模型的聚类中标准错误的检查通常被忽略。基于采样的方法,如折刀法(JK)、引导法(BS)和参数引导法(PB),是使用高斯混合模型评估基于模型聚类中参数不确定性的直观、通用方法。本文对用于产生混合参数标准误差和置信区间的折刀法、自举法和参数自举法进行了回顾和实证比较。然而,需要考虑此类取样方法在存在小型和/或重叠集群时的性能;本文证明了加权似然自举(WLBS)方法在基于模型的聚类框架中有效地解决了这一问题。通过仿真研究,并通过传统的Old Faithful数据集和甲状腺数据集,对JK、BS、PB和WLBS方法进行了说明和对比。这个MclustBootstrap公司功能,在最新版本的流行R包中提供麦克卢斯特,促进了JK、BS、PB和WLBS方法在基于模型的聚类背景下估计参数不确定性的实现。JK、WLBS和PB方法在进行基于模型的聚类时,被证明是稳健的,并在一系列真实和模拟数据集上提供了良好的覆盖范围;但在这种情况下使用BS时要小心。在模型拟合不良的情况下(例如,具有较小和/或重叠簇的数据),发现JK和BS无法在形成的许多子样本中拟合指定的模型。当模型拟合不佳时,PB也会受到影响,因为它依赖于模型模拟的数据集,而这些数据集是方差估计计算的基础。然而,WLBS通常会提供一个稳健的解决方案,这是因为所有观察结果都在该方法下形成的每个子样本中具有一定的权重。

MSC公司:

62-08 统计问题的计算方法
62G05型 非参数估计
62G09号 非参数统计重采样方法
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Andrews DW,Buchinsky M(2000)选择引导重复次数的三步方法。计量经济学68(1):23-51·兹比尔1056.62516
[2] Andrews DW,Guggenberger P(2009)基于后一致模型选择估计器的子抽样程序的渐近大小不正确。《经济学杂志》152(1):19-27·Zbl 1431.62203号
[3] Azzalini A,Bowman A(1990)旧忠实间歇泉的一些数据。应用统计39(3):357-365·Zbl 0707.62186号
[4] Basford K、Greenway D、McLachlan G、Peel D(1997)正常混合模型下拟合平均值的标准误差。计算统计12:1-17·Zbl 0924.62055号
[5] Boldea O,Magnus J(2009)多元正态混合模型的最大似然估计。美国统计协会杂志104:1539-1549·Zbl 1205.62065号
[6] Bühlmann P(1997)时间序列的Sieve引导。伯努利3(2):123-148·Zbl 0874.62102号
[7] Coomans D,Broeckaert I,Jonckheer M,Massart D(1983)临床数据应用于甲状腺功能状态的多变量判别技术的比较。方法Inf Med 22(02):93-101
[8] Davison AC,Hinkley DV(1997)Bootstrap方法及其应用,第1卷。剑桥大学出版社·Zbl 0886.62001号
[9] Dempster A,Laird N,Rubin D(1977)通过EM算法从不完整数据中获得最大似然。J R Stat Soc系列B 39(1):1-38·Zbl 0364.62022号
[10] 迪博尔特,J。;叶,E。;吉尔克斯,WR(编辑);Richardson,R.(编辑);Spiegelhalter,D.(编辑),《随机EM:方法和应用》,259-273(1996),伦敦·Zbl 0840.62025号
[11] Efron B(1981)标准误差的非参数估计:折刀法、自举法和其他方法。生物特征68(3):589-599·Zbl 0487.62031号
[12] Efron B(1982)《jackknife》、《bootstrap》和其他重采样计划,第38卷。费城SIAM·Zbl 0496.62036号
[13] Efron B(1994)缺失数据、插补和自举(带讨论)。美国统计协会杂志89(426):463-479·Zbl 0806.62033号
[14] Efron B,Stein C(1981)方差的折刀估计。Ann Stat 9(3):586-596·Zbl 0481.62035号
[15] Efron B,Tibshirani RJ(1993)《引导程序简介》。查普曼和霍尔/CRC,纽约·Zbl 0835.62038号
[16] Everitt BS,Hothorn T(2009),使用R的统计分析手册,第2版。查普曼和霍尔,伦敦·Zbl 1087.62001
[17] Ford I,Silvey S(1980)一种用于估计非线性参数函数的顺序构造设计。生物特征67(2):381-388·Zbl 0433.62054号
[18] Fraley C,Raftery AE(1998),多少簇?哪种聚类方法?通过基于模型的聚类分析回答。计算J 41:578-588·Zbl 0920.68038号
[19] Fraley C、Raftery AE(2002),基于模型的聚类、判别分析和密度估计。美国统计学会杂志97(458):611-612·兹比尔1073.62545
[20] Fraley C、Raftery AE、Murphy TB、Scrucca L(2012)mclust Version 4 for R:基于模型的聚类、分类和密度估计的正态混合建模。美国华盛顿大学统计系第597号技术代表·Zbl 1520.62002号
[21] Grün B,Leisch F(2007)《R.计算统计数据分析》51(11):5247-5252中广义线性回归的有限混合拟合·Zbl 1445.62192号
[22] Hong H,Mahajan A,Nekipelov D(2015)极值估计和数值导数。经济学杂志188(1):250-263·Zbl 1337.62057号
[23] Lee SX,McLachlan GJ(2013a)EMMIX-uskew:通过EM算法拟合多元偏态t分布混合物的R包。统计软件55(12):1-22
[24] Lee SX,McLachlan GJ(2013b)基于模型的非正态混合分布聚类和分类。统计方法应用22(4):427-454·兹比尔1332.62209
[25] Leeb H,Pötscher BM(2005)模型选择与推理:事实与虚构。经济理论21(1):21-59·Zbl 1085.62004号
[26] McLachlan G(1987)关于自举正态混合物中成分数量的似然比检验统计量。J R Stat Soc系列C 36:318-324
[27] McLachlan G,Peel D,Basford K,Adams P(1999),正态分量和t分量的拟合混合物。J统计软件4(2)
[28] McLachlan GJ,Krishnan T(1997)EM算法和扩展。纽约威利·Zbl 0882.62012号
[29] McLachlan GJ,Peel D(2000)有限混合模型。纽约威利·Zbl 0963.62061号
[30] Meilijson I(1989)对EM算法的快速改进。J R Stat Soc系列B 51(1):127-138·兹伯利0674.65118
[31] Meng X,Rubin D(1991)使用EM获得渐近方差矩阵:SEM算法。美国统计协会杂志86(416):899-909
[32] Meng XL,Rubin D(1989)使用EM获得缺失数据问题的渐近方差-方差矩阵。摘自:美国统计协会会议录(统计计算部分),美国统计协会,弗吉尼亚州亚历山大市,第140-144页
[33] Mita N,Jiao J,Kani K,Tabuchi A,Hara H(2012)用于视力测量的参数和非参数自举重采样。川崎医学杂志18:19-28
[34] Moulton LH,Zeger SL(1991)《引导广义线性模型》。计算统计数据分析11(1):53-63·Zbl 0850.62565号
[35] Newton MA,Raftery AE(1994),加权似然自举的近似贝叶斯推断。J R Stat Soc系列B 56(1):3-26·Zbl 0788.62026号
[36] Nyamunda G,Brennan L,Gormley I(2010)代谢组数据的概率主成分分析。BMC生物信息11(1):571
[37] Pawitan Y(2000)从bootstrap计算经验似然。统计概率快报47(4):337-345·Zbl 0973.62036号
[38] Peel D(1998)混合模型聚类及相关主题。布里斯班昆士兰大学博士论文
[39] Quenouille M(1956)关于估计偏差的注释。生物特征43(2):343-348·Zbl 0074.14003号
[40] R核心团队(2017)R:统计计算的语言和环境。奥地利维也纳R统计计算基金会,https://www.R-project.org网站/
[41] Schwarz G(1978)估算模型的维数。Ann Stat 6(2):461-464·Zbl 0379.62005年
[42] Shi X(1988)关于删除-d折刀方差估计量的注记。统计概率Lett 6(5):341-347·兹比尔062962044
[43] Stoica P,Söderström T(1982)关于非奇异信息矩阵和局部可识别性。国际J控制36(2):323-329·Zbl 0482.93073号
[44] Tanner MA(2012)统计推断工具。纽约州施普林格
[45] Titterington DM(1984)使用不完整数据的递归参数估计。J R Stat Soc系列B 46(2):257-267·Zbl 0556.62061号
[46] Tukey J(1958)非大样本中的偏差和置信度(摘要)。数学年鉴29(2):614
[47] Turner TR(2000)通过混合回归估计马铃薯植株病毒感染的繁殖率。J R Stat Soc:序列C 49(3):371-384·Zbl 0971.62076号
[48] Wu CFJ(1986)回归分析中的Jackknife、bootstrap和其他重采样方法。Ann Stat 14(4):1261-1295·Zbl 0618.62072号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。