×

混合模型选择的假设检验。 (英语) Zbl 07184768号

摘要:具有特征分解协方差结构的高斯混合模型,即高斯简约聚类模型(GPCM),构成了最流行的聚类和分类混合模型家族。尽管GPCM家族已经使用了近20年,但在特定情况下选择家族中最好的成员仍然是一个棘手的问题。为了解决这个问题,开发了似然比(LR)测试;给定一些混合成分,这些LR检验将家族中的每个成员与替代假设下的异方差模型进行比较。在此过程中,为GPCM家族的两个成员开发了一种新的最大似然估计程序。模拟结果表明,当样本量不太小且混合物组分足够分离时,参考分布为LR统计量提供了合理的近似值;因此,在其余配置中,还讨论和评估了参数引导方法。此外,将定义的LR测试作为局部测试的封闭测试程序被视为以直接的方式评估一般族中的独特模型。与文献中经常使用的“黑匣子”信息标准不同,它只基于一个主观因素,即重要性水平,其含义对每个人来说都很清楚。给出了仿真结果,以研究该程序在逐渐偏离同方差模型的情况下的性能,以及它对每个混合物成分中椭圆偏离正态的鲁棒性。最后,通过对一些著名数据集的应用,说明了该过程的优点。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Titterington DM、Smith AFM、Makov UE。有限混合分布的统计分析。纽约:Wiley;1985.[谷歌学者]·Zbl 0646.62013.中
[2] McLachlan GJ,Basford KE。混合模型:推理和聚类应用。纽约:马塞尔·德克尔;1988.[谷歌学者]·Zbl 0697.62050号
[3] Celeux G,Govaert G.高斯简约聚类模型。模式识别。1995;28(5):781-793. doi:10.1016/0031-3203(94)00125-6[交叉引用],[科学网®],[谷歌学者]
[4] Banfield JD,Raftery AE。基于模型的高斯和非高斯聚类。生物统计学。1993;49(3):803-821。doi:10.2307/2532201[Crossref],[Web of Science®],[Google学者]·兹比尔0794.62034
[5] Fraley C,Raftery AE.基于模型的聚类、判别分析和密度估计。J Amer统计协会,2002年;97(458):611-631. doi:10.1198/016214502760047131[Taylor&Francis Online],[Web of Science®],[Google学者]·兹比尔1073.62545
[6] McLachlan GJ,Peel D.有限混合模型。纽约:Wiley;2000.【Crossref】,【谷歌学者】·Zbl 0963.62061号
[7] Lo Y.同方差正态混合物与异方差正态混合的似然比检验。统计计算。2008;18(3):233-240. doi:10.1007/s1122-008-9052-4[Crossref],[Web of Science®],[Google学者]
[8] Greselin F,Punzo A.评估协方差矩阵相似性的闭合似然比测试程序。Amer统计公司。2013;67(3):117-128. doi:10.1080/00031305.2013.791643[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 07649195号
[9] Teicher H.有限混合物的可识别性。Ann Math Stat.1963年;34(4):1265-1269. doi:10.1214/aoms/1177703862[交叉引用],[谷歌学者]·Zbl 0137.12704号
[10] Yakowitz SJ,Spragins JD。关于有限混合的可识别性。Ann Math Stat.1968年;39(1):209-214. doi:10.1214/aoms/1177698520[交叉引用],[谷歌学者]·Zbl 0155.25703号
[11] Fraley C,Raftery AE.基于模型的分类方法:在化学计量学中使用mclust软件。J统计软件。2007;18(6):1-13. doi:10.18637/jss.v018.i06[交叉引用],[谷歌学者]
[12] Lehmann J、Gonçalves B、Ramasco JJ、Cattuto C。推特上集体关注的动态类。摘自:第21届万维网国际会议论文集。纽约:ACM;2012年,第251-260页。[谷歌学者]
[13] Hicks BM、Vaidyanathan U、Patrick CJ。验证女性精神病亚型:人格、反社会和暴力行为、药物滥用、创伤和心理健康方面的差异。人格障碍:理论,研究,治疗。2010;1(1):38.57 doi:10.1037/a0018135[Crossref],[Web of Science®],[Google学者]
[14] Laughlin DC、Joshi C、van Bodegom PM、Bastow ZA、FuléPZ。一种包含种内性状变异的群落组合预测模型。经济租赁。2012;15(11):1291-1299. doi:10.1111/j.1461-0248.2012.01852.x[Crossref],[PubMed],[Web of Science®],[Google学者]
[15] Dempster AP、Laird NM、Rubin DB。通过EM算法从不完整数据中获得最大似然。J R Statist Soc.Ser B(统计方法)。1977;39(1):1-38. [谷歌学者]·Zbl 0364.62022号
[16] Greselin F,Ingrassia S,Punzo A.通过增强多重测试程序评估协方差矩阵的模式。统计方法应用。2011;20(2):141-170. doi:10.1007/s10260-010-0157-5[Crossref],[Web of Science®],[Google学者]·Zbl 1232.62090号
[17] Bagnato L,Greselin F,Punzo A.关于正态判别分析中的谱分解。通信统计-模拟计算。2014;43(6):1471-1489. doi:10.1080/03610918.2012.735318[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 1333.62056号
[18] Nocedal J,Wright SJ。数值优化。纽约:Springer;2000.[谷歌学者]·Zbl 0930.65067号
[19] Flury BN,Gautschi W.将几个正定对称矩阵同时正交变换为近似对角形式的算法.SIAM科学统计计算杂志。1986;7(1):169-184. doi:10.1137/0907013[Crossref],[Web of Science®],[Google学者]·Zbl 0614.65043号
[20] Browne RP,McNicholas PD。高维中常见主成分的估计。高级数据分析分类。2014年a;8(2):217-226. doi:10.1007/s11634-013-0139-1[Crossref],[Web of Science®],[Google学者]·Zbl 1474.62183号
[21] Browne RP,McNicholas PD。混合模型特征分解协方差参数估计的正交Stiefel流形优化。统计计算。2014年b;24(2):203-210. doi:10.1007/s1122-012-9364-2[Crossref],[Web of Science®],[Google学者]·Zbl 1325.62008号
[22] Biernacki C,Chrétien S.带EM.Stat Probab-Lett的单变量高斯混合函数最大似然估计中的退化。2003;61(4):373-382. doi:10.1016/S0167-7152(02)00396-6[Crossref],[Web of Science®],[Google学者]·Zbl 1038.62023号
[23] Ingrassia S.多元正态混合模型的一种基于似然的约束算法。统计方法应用。2004;13(2):151-166. doi:10.1007/s10260-004-0092-4[Crossref],[Google学者]·Zbl 1205.62066号
[24] Ingrassia S,Rocci R.多元高斯有限混合的约束单调em算法。计算统计数据分析。2007;51(11):5339-5351. doi:10.1016/j.csda.2006.10.011[Crossref],[Web of Science®],[Google学者]·Zbl 1445.62116号
[25] 一元正态混合的约束EM算法。J统计计算模拟。1986;23(3):211-230. doi:10.1080/00949658608810872[Taylor&Francis Online],[Web of Science®],[Google学者]
[26] Browne RP,Subedi S,McNicholas PD。高斯简约聚类模型子集的约束优化;2013年b。arXiv.org电子版1306.5824,网址:http://arxiv.org/abs/1306.5824。[谷歌学者]
[27] Bhattacharyya A.关于由概率分布定义的两个统计总体之间差异的度量。布尔加尔各答数学学院,1943年;35(4):99-109. [谷歌学者]·Zbl 0063.00364号
[28] 麦克拉克伦GJ。自举时,正常混合物中成分数量的似然比检验统计量。J R Statist Soc.Ser C(应用统计)。1987;36(3):318-324. [Web of Science®],[Google学者]
[29] Efron B,Tibshirani RJ。引导程序简介。统计学和应用概率专著第57卷。伦敦:查普曼和霍尔;1993.【Crossref】,【谷歌学者】·Zbl 0835.62038号
[30] Aitkin M,Anderson D,Hinde J.教学风格数据的统计建模。J R Statist Soc.Ser A(通用)。1981;144(4):419-461. doi:10.2307/2981826[Crossref],[Web of Science®],[Google学者]
[31] Hochberg Y,Tamhane AC。多重比较程序。纽约:Wiley;1987.【Crossref】,【谷歌学者】·Zbl 0731.62125号
[32] Bretz F、Hothorn T、Westfall P。使用R.London:Chapman&Hall进行多重比较;2011.[谷歌学者]
[33] Giancristofaro RA、Bolzan M、Bonnini S、Corain L、Solmi F。封闭测试方法在多重比较程序中的优势。通信统计-模拟计算。2012;41(6):746-763. doi:10.1080/03610918.2012.625279[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 1274.62485号
[34] R核心团队。R: 用于统计计算的语言和环境。奥地利维也纳:R统计计算基金会;2013年。可从以下网址获得:http://www.R-project.org/。[谷歌学者]
[35] Browne RP,ElSherbiny A,McNicholas PD。混合物:聚类和分类的混合物模型。1.4版;2013年a。可从以下位置获得:http://cran.r-project.org/web/packages/mixture/index.html。[谷歌学者]
[36] Biernacki C,Celeux G,Govaert G。为EM算法选择起始值,以获得多元高斯混合模型中的最高似然。计算统计数据分析。2003;41(3-4):561-575. doi:10.1016/S0167-9473(02)00163-9[Crossref],[Web of Science®],[Google学者]·Zbl 1429.62235号
[37] Karlis D,Xekalaki E.为有限混合物的EM算法选择初始值。计算统计数据分析。2003;41(3-4):577-590。doi:10.1016/S0167-9473(02)00177-9[Crossref],[Web of Science®],[Google学者]·Zbl 1429.62082号
[38] Bagnato L,Punzo A.单峰β和γ密度的有限混合物以及k-bump算法。2013年计算统计;28(4):1571-1597. doi:10.1007/s00180-012-0367-4[Crossref],[Web of Science®],[Google学者]·Zbl 1306.65024号
[39] McLachlan GJ,Krishnan T.EM算法及其扩展。纽约:Wiley;2007.[谷歌学者]·Zbl 1165.62019号
[40] Subedi S、Punzo A、Ingrassia S、McNicholas PD。通过聚类加权因子分析仪进行聚类和分类。高级数据分析分类。2013;7(1):5-40. doi:10.1007/s11634-013-0124-8[Crossref],[Web of Science®],[Google学者]·Zbl 1271.62137号
[41] Ingrassia S、Minotti SC、Punzo A.通过线性聚类加权模型进行基于模型的聚类。计算统计数据分析。2014;71:159-182. doi:10.1016/j.csda.2013.02.012[Crossref],[Web of Science®],[Google学者]·Zbl 1471.62095号
[42] 艾特肯A.关于代数方程的伯努利数值解。《爱丁堡皇家学会会刊》第46卷;1926; 第289-305页。[谷歌学者]·JFM 52.0098.05号
[43] Böhning D,Dietz E,Schaub R,Schlattmann P,Lindsay BG.单参数指数族密度混合物的似然比分布。安学会统计数学。1994;46(2):373-388. doi:10.1007/BF01720593[Crossref],[Web of Science®],[Google学者]·Zbl 0802.62017年
[44] Lindsay B.混合物模型:理论、几何和应用。第5卷。NSF-CBMS概率统计区域会议系列。海沃德(CA):数理统计研究所;1995.[谷歌学者]·兹比尔1163.62326
[45] McNicholas PD、Murphy TB、McDaid AF、Frost D.通过简约高斯混合模型实现基于模型的聚类的串行和并行实现。计算统计数据分析。2010;54(3):711-723. doi:10.1016/j.csda.2009.02.011[Crossref],[Web of Science®],[Google学者]·Zbl 1464.62131号
[46] Andrews JL,McNicholas PD。基于模型的聚类、分类和多元t分布混合判别分析。统计计算。2012;22(5):1021-1029。doi:10.1007/s1122-011-9272-x[Crossref],[Web of Science®],[Google学者]·Zbl 1252.62062号
[47] Akaike H.信息论和最大似然原理的推广。收件人:Petrov BN,Csaki F,编辑。第二届信息理论国际研讨会。布达佩斯:Akademiai Kiado;1973年,第267-281页。[谷歌学者]·兹bl 0283.62006年
[48] Bozdogan H.混合模型聚类分析,使用模型选择标准和新的复杂性信息度量。收录人:Bozdogan H,编辑。第一届美日统计建模前沿会议记录:信息方法。荷兰:施普林格;1994年,第69-113页。[谷歌学者]
[49] Hurvich CM,Tsai CL.小样本回归和时间序列模型选择。生物特征。1989;76(2):297-307. doi:10.1093/biomet/76.2.297[Crossref],[Web of Science®],[Google学者]·Zbl 0669.62085号
[50] McQuarrie A、Shumway R、Tsai C-L。模型选择标准AICu。统计概率出租。1997;34(3):285-292. doi:10.1016/S0167-7152(96)00192-7[Crossref],[Web of Science®],[Google学者]·Zbl 1064.62541号
[51] Schwarz G.估算模型的维数。Ann Stat.1978;6(2):461-464。doi:10.1214/aos/1176344136[Crossref],[Web of Science®],[Google学者]·兹伯利0379.62005
[52] Bozdogan H.模型选择和Akaikes信息准则(AIC):一般理论及其分析扩展。心理测量学。1987;52:345-370. doi:10.1007/BF02294361[Crossref],[Web of Science®],[Google学者]·Zbl 0627.62005号
[53] Biernacki C,Celeux G,Govaert G。用综合完全似然评估聚类的混合模型。IEEE Trans-Pattern Ana Mach Intell公司。2000年;22(7):719-725. doi:10.1109/34.865189[Crossref],[Web of Science®],[Google学者]
[54] 费舍尔RA。在分类问题中使用多重测量。优生学年鉴。1936;7(2):179-188. doi:10.1111/j.1469-1809.1936.tb02137.x[交叉引用],[谷歌学者]
[55] Flury BN,Riedwyl H.多元统计:实用方法。伦敦:查普曼和霍尔;1988.[交叉引用],[谷歌学者]
[56] Fraley C、Raftery A、Scrucca L.mclust:基于模型的聚类、分类和密度估计的正态混合建模。4.2版;2013年。可从以下网址获得:http://cran.r-project.org/web/packages/mclust/index.html。[谷歌学者]
[57] Punzo A,McNicholas PD。基于污染高斯分布的简约混合的稳健聚类;2013.arXiv.org电子版1305.4669。可从以下位置获得:http://arxiv.org/abs/1305.4669。[谷歌学者]·Zbl 1353.62124号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。