文件Zbl 07858732-zbMATH Open

重尾和倾斜数据的条件混合建模。（英语） Zbl 07858732号

斯达 12，第1号，论文编号e608，第14页（2023年）.

摘要：过参数化是多元混合模型的一个严重问题，因为它会导致模型过拟合，从而导致混合阶数低估。在这种情况下，节俭的建模是最有效的补救方法之一。在高斯混合模型中，大多数参数与协方差矩阵相关，基于因子分析仪的简约模型和色散参数的谱分解是最常见的文献。这些模型的一些缺点包括，在为单个组件施加不同协方差结构方面缺乏灵活性，以及在为紧凑集群建模方面存在局限性。最近引入的条件混合模型为解决这些问题提供了很大的灵活性。这种混合物的组分被表示为条件分布的乘积，其中一元高斯密度是主要选择。然而，任何尺寸的重型尾部或偏斜都可能导致拟合问题。我们提出了一个不受上述限制的灵活模型，并将其命名为污染转换条件混合模型，并通过一系列模拟研究证明，它可以有效地解释偏度和重尾。实际数据集的应用显示了良好的结果，并突出了该模型的前景。
©2023 John Wiley&Sons有限公司。

MSC公司：

62至XX

统计

关键词：

聚类分析;条件混合模型;沉重的尾巴;偏斜度;转型

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Banfield，J.D.和Raftery，A.E.（1993年）。基于模型的高斯和非高斯聚类。生物统计学，49，803-821·Zbl 0794.62034号
[2]	Bergé，L.、Bouveyron，C.和Girard，S.（2012）。HDclassif：基于模型的聚类和高维数据判别分析的R包。《统计软件杂志》，46（6），1-29。
[3]	Biernacki，C.、Celeux，G.和Govaert，G.（2003年）。为EM算法选择初始值，以获得多元高斯混合模型中的最大似然。计算统计与数据分析，413561-575·Zbl 1429.62235号
[4]	Bouveyron，C.和Brunet‐Saumard，C.（2014）。基于模型的高维数据聚类：综述。计算统计与数据分析，71，52-78·Zbl 1471.62032号
[5]	Box，G.E.P.和Cox，D.R.（1964年）。转换分析。英国皇家统计学会杂志：B辑（方法学），26（2），211-243·Zbl 0156.40104号
[6]	Celeux，G.和Govaert，G.（1995年）。高斯简约聚类模型。模式识别，28（5），781-793。
[7]	Dempster，A.P.、Laird，N.M.和Rubin，D.B.（1977年）。通过EM算法获得不完整数据的最大可能性（有讨论）。英国皇家统计学会杂志，B辑，39，1-38·Zbl 0364.62022号
[8]	Fop，M.、Murphy，T.B.和Scrucca，L.（2019年）。基于模型的稀疏协方差矩阵聚类。统计与计算，29（4），791-819·Zbl 1430.62131号
[9]	Hubert，L.和Arabie，P.（1985）。比较分区。分类杂志，2（1），193-218。
[10]	Kiefer，N.M.（1978年）。离散参数变化：切换回归模型的有效估计。《计量经济学》，46，427-434·Zbl 0408.62058号
[11]	Kullback，S.和Leibler，R.A.（1951年）。关于信息和充分性。数理统计年鉴，2279-86·Zbl 0042.38403号
[12]	林，T.‐I。，McNicholas，P.D.和Ho，H.J.（2014）。通过节约型混合模型捕获模式。《统计与概率快报》，88，80-87·Zbl 1369.62131号
[13]	Lindsay，B.G.（1995年）。混合模型：理论、几何和应用。在NSF‐CBMS概率与统计区域会议系列中，IMS·Zbl 1163.62326号
[14]	Lo，K.，Brinkman，R.和Gottardo，R.（2008）。通过稳健的基于模型的聚类对流式细胞术数据进行自动门控。细胞计量学A，37，321-332。
[15]	Lo，K.，&Gottardo，R.（2012）。通过具有Box-Cox变换的多元\（t\）分布进行灵活的混合建模：偏斜\（t\）分布的替代方案。统计与计算，22（1），33-52·Zbl 1322.62173号
[16]	Lo，K.，Hahne，F.，Brinkman，R.，&Gottardo，R.（2009年）。flowClust：用于流式细胞术数据自动门控的Bioconductor软件包。BMC生物信息学，10，1-8。
[17]	Maitra，R.和Melnykov，V.（2010年）。模拟数据以研究有限混合建模和聚类算法的性能。计算与图形统计杂志，2（19），354-376。
[18]	Manly，B.F.J.（1976年）。指数数据转换。英国皇家统计学会杂志：D辑（统计学家），25（1），37-42。
[19]	McLachlan，G.J.和Peel，D.（2000）。有限混合模型：John Wiley&Sons·Zbl 0963.62061号
[20]	McNicholas，P.D.（2016）。基于模型的聚类。《分类杂志》，33（3），331-373·Zbl 1364.62155号
[21]	McNicholas，P.D.和Murphy，T.B.（2008年）。简约高斯混合模型。统计与计算，18（3），285-296。
[22]	Melnykov，V.（2013）。基于模型的聚类的挑战。WIREs:计算统计，5135-148。
[23]	Melnykov，V.（2016）。基于模型的点击流数据双聚类。计算统计与数据分析，93，31-45·Zbl 1468.62138号
[24]	Melnykov，V.、Chen，W.C.和Maitra，R.（2012）。MixSim：一个R包，用于模拟数据以研究聚类算法的性能。统计软件杂志，51，1-25。
[25]	Melnykov，V.和Wang，Y.（2023年）。条件混合建模和基于模型的聚类。模式识别，133108994。
[26]	Melnykov，Y.、Zhu，X.和Melnykov，V.（2021）。带有重尾和分散的倾斜数据组的转换混合建模。计算统计学，36（1），61-78·Zbl 1505.62290号
[27]	Nelder，J.A.和Mead，R.（1965年）。函数最小化的单纯形算法。《计算机杂志》，7（4），308-313·Zbl 0229.65053号
[28]	Prates，M.、Cabral，C.和Lachos，V.（2013年）。mixsmsn：拟合斜正态分布的有限比例混合。《统计软件杂志》，54，1-20。
[29]	Punzo，A.和McNicholas，P.D.（2016年）。多元污染正态分布的简约混合。《生物医学杂志》，581506-1537·Zbl 1353.62124号
[30]	Schwarz，G.（1978年）。估算模型的维度。《统计年鉴》，第6461-464页·Zbl 0379.62005年
[31]	Scrucca，L.、Fop，M.、Murphy，T.B.和Raftery，A.E.（2016）。Mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计。《R杂志》，8（1），289。
[32]	Vrbik，I.和McNicholas，P.D.（2014）。基于模型的聚类和分类的简约斜交混合模型。计算统计与数据分析，71，196-210·Zbl 1471.62202号
[33]	Wang，Y.和Melnykov，V.（2022）。cmbClust：基于条件模型的聚类。https://CRAN.R-project.org/package=cmbClust，R包版本0.0.1。
[34]	Yeo，I.‐K.和Johnson，R.A.（2000年）。一种新的功率变换家族，用于改善常态或对称性。Biometrika，87（4），954-959·Zbl 1028.62010号
[35]	Zhu，X.和Melnykov，V.（2018）。有限混合建模中的Manly变换。计算统计与数据分析，121190-208·Zbl 1469.62184号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

重尾和倾斜数据的条件混合建模。（英语） Zbl 07858732号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

重尾和倾斜数据的条件混合建模。 （英语） Zbl 07858732号

MSC公司：

关键词：

参考文献：

重尾和倾斜数据的条件混合建模。（英语） Zbl 07858732号