×

重尾和倾斜数据的条件混合建模。 (英语) Zbl 07858732号

摘要:过参数化是多元混合模型的一个严重问题,因为它会导致模型过拟合,从而导致混合阶数低估。在这种情况下,节俭的建模是最有效的补救方法之一。在高斯混合模型中,大多数参数与协方差矩阵相关,基于因子分析仪的简约模型和色散参数的谱分解是最常见的文献。这些模型的一些缺点包括,在为单个组件施加不同协方差结构方面缺乏灵活性,以及在为紧凑集群建模方面存在局限性。最近引入的条件混合模型为解决这些问题提供了很大的灵活性。这种混合物的组分被表示为条件分布的乘积,其中一元高斯密度是主要选择。然而,任何尺寸的重型尾部或偏斜都可能导致拟合问题。我们提出了一个不受上述限制的灵活模型,并将其命名为污染转换条件混合模型,并通过一系列模拟研究证明,它可以有效地解释偏度和重尾。实际数据集的应用显示了良好的结果,并突出了该模型的前景。
©2023 John Wiley&Sons有限公司。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Banfield,J.D.和Raftery,A.E.(1993年)。基于模型的高斯和非高斯聚类。生物统计学,49,803-821·Zbl 0794.62034号
[2] Bergé,L.、Bouveyron,C.和Girard,S.(2012)。HDclassif:基于模型的聚类和高维数据判别分析的R包。《统计软件杂志》,46(6),1-29。
[3] Biernacki,C.、Celeux,G.和Govaert,G.(2003年)。为EM算法选择初始值,以获得多元高斯混合模型中的最大似然。计算统计与数据分析,413561-575·Zbl 1429.62235号
[4] Bouveyron,C.和Brunet‐Saumard,C.(2014)。基于模型的高维数据聚类:综述。计算统计与数据分析,71,52-78·Zbl 1471.62032号
[5] Box,G.E.P.和Cox,D.R.(1964年)。转换分析。英国皇家统计学会杂志:B辑(方法学),26(2),211-243·Zbl 0156.40104号
[6] Celeux,G.和Govaert,G.(1995年)。高斯简约聚类模型。模式识别,28(5),781-793。
[7] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977年)。通过EM算法获得不完整数据的最大可能性(有讨论)。英国皇家统计学会杂志,B辑,39,1-38·Zbl 0364.62022号
[8] Fop,M.、Murphy,T.B.和Scrucca,L.(2019年)。基于模型的稀疏协方差矩阵聚类。统计与计算,29(4),791-819·Zbl 1430.62131号
[9] Hubert,L.和Arabie,P.(1985)。比较分区。分类杂志,2(1),193-218。
[10] Kiefer,N.M.(1978年)。离散参数变化:切换回归模型的有效估计。《计量经济学》,46,427-434·Zbl 0408.62058号
[11] Kullback,S.和Leibler,R.A.(1951年)。关于信息和充分性。数理统计年鉴,2279-86·Zbl 0042.38403号
[12] 林,T.‐I。,McNicholas,P.D.和Ho,H.J.(2014)。通过节约型混合模型捕获模式。《统计与概率快报》,88,80-87·Zbl 1369.62131号
[13] Lindsay,B.G.(1995年)。混合模型:理论、几何和应用。在NSF‐CBMS概率与统计区域会议系列中,IMS·Zbl 1163.62326号
[14] Lo,K.,Brinkman,R.和Gottardo,R.(2008)。通过稳健的基于模型的聚类对流式细胞术数据进行自动门控。细胞计量学A,37,321-332。
[15] Lo,K.,&Gottardo,R.(2012)。通过具有Box-Cox变换的多元\(t\)分布进行灵活的混合建模:偏斜\(t\)分布的替代方案。统计与计算,22(1),33-52·Zbl 1322.62173号
[16] Lo,K.,Hahne,F.,Brinkman,R.,&Gottardo,R.(2009年)。flowClust:用于流式细胞术数据自动门控的Bioconductor软件包。BMC生物信息学,10,1-8。
[17] Maitra,R.和Melnykov,V.(2010年)。模拟数据以研究有限混合建模和聚类算法的性能。计算与图形统计杂志,2(19),354-376。
[18] Manly,B.F.J.(1976年)。指数数据转换。英国皇家统计学会杂志:D辑(统计学家),25(1),37-42。
[19] McLachlan,G.J.和Peel,D.(2000)。有限混合模型:John Wiley&Sons·Zbl 0963.62061号
[20] McNicholas,P.D.(2016)。基于模型的聚类。《分类杂志》,33(3),331-373·Zbl 1364.62155号
[21] McNicholas,P.D.和Murphy,T.B.(2008年)。简约高斯混合模型。统计与计算,18(3),285-296。
[22] Melnykov,V.(2013)。基于模型的聚类的挑战。WIREs:计算统计,5135-148。
[23] Melnykov,V.(2016)。基于模型的点击流数据双聚类。计算统计与数据分析,93,31-45·Zbl 1468.62138号
[24] Melnykov,V.、Chen,W.C.和Maitra,R.(2012)。MixSim:一个R包,用于模拟数据以研究聚类算法的性能。统计软件杂志,51,1-25。
[25] Melnykov,V.和Wang,Y.(2023年)。条件混合建模和基于模型的聚类。模式识别,133108994。
[26] Melnykov,Y.、Zhu,X.和Melnykov,V.(2021)。带有重尾和分散的倾斜数据组的转换混合建模。计算统计学,36(1),61-78·Zbl 1505.62290号
[27] Nelder,J.A.和Mead,R.(1965年)。函数最小化的单纯形算法。《计算机杂志》,7(4),308-313·Zbl 0229.65053号
[28] Prates,M.、Cabral,C.和Lachos,V.(2013年)。mixsmsn:拟合斜正态分布的有限比例混合。《统计软件杂志》,54,1-20。
[29] Punzo,A.和McNicholas,P.D.(2016年)。多元污染正态分布的简约混合。《生物医学杂志》,581506-1537·Zbl 1353.62124号
[30] Schwarz,G.(1978年)。估算模型的维度。《统计年鉴》,第6461-464页·Zbl 0379.62005年
[31] Scrucca,L.、Fop,M.、Murphy,T.B.和Raftery,A.E.(2016)。Mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计。《R杂志》,8(1),289。
[32] Vrbik,I.和McNicholas,P.D.(2014)。基于模型的聚类和分类的简约斜交混合模型。计算统计与数据分析,71,196-210·Zbl 1471.62202号
[33] Wang,Y.和Melnykov,V.(2022)。cmbClust:基于条件模型的聚类。https://CRAN.R-project.org/package=cmbClust,R包版本0.0.1。
[34] Yeo,I.‐K.和Johnson,R.A.(2000年)。一种新的功率变换家族,用于改善常态或对称性。Biometrika,87(4),954-959·Zbl 1028.62010号
[35] Zhu,X.和Melnykov,V.(2018)。有限混合建模中的Manly变换。计算统计与数据分析,121190-208·Zbl 1469.62184号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。