×

合并线性高斯聚类加权模型中的组件。 (英语) Zbl 07695284号

概述:聚类加权模型(CWM)是识别响应变量和协变量之间潜在功能关系的有用工具。然而,由于对协变量进行了过多的分布假设,这些模型可能会出现成分分布的错误规定,这也可能会破坏估计的准确性,并使模型结构难以解释。为了解决这个问题,我们考虑具有单变量响应的CWM,并通过将每个集群建模为有限混合来提出一种新的CWM以提高灵活性,同时保持简约性。我们证明,与现有方法相比,该方法可以在数据中提供更有意义的聚类。此外,我们还提出了一种构造此类CWM的过程和一种可行的期望最大化算法来估计模型参数。还提供了数值演示,包括模拟和实际数据分析。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 白,X。;姚明,W。;Boyer,JE,混合回归模型的稳健拟合,计算统计与数据分析,56,7,2347-2359(2012)·Zbl 1252.62011年 ·doi:10.1016/j.csda.2012.01.016
[2] 比尔纳基,C。;Celeux,G。;Govaert,G.,《用综合完全似然评估聚类的混合模型》,IEEE模式分析和机器智能事务,22,7,719-725(2000)·doi:10.1109/34.865189
[3] Breiman,L.,《随机森林,机器学习》,45,1,5-32(2001)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[4] Celeux,G。;Govaert,G.,高斯简约聚类模型,模式识别,28,5781-793(1995)·doi:10.1016/0031-3203(94)00125-6
[5] Chamroukhi,F.,使用t分布的稳健专家混合建模,神经网络,79,20-36(2016)·Zbl 1418.62251号 ·doi:10.1016/j.neunet.2016.03.002
[6] Cohen,E.(1980)。不和谐音调感知,斯坦福大学未发表博士论文。
[7] 科尔特斯,C。;Vapnik,V.,支持向量网络,机器学习,20,3,273-297(1995)·Zbl 0831.68098号 ·doi:10.1007/BF00994018
[8] UJ Dang;Punzo,A。;麦克尼古拉斯,PD;Ingrassia,S.公司。;Browne,RP,高斯加权模型的多元响应和简约性,分类杂志,34,1,4-34(2017)·Zbl 1364.62149号 ·doi:10.1007/s00357-017-9221-2
[9] Day,NE,估计正态分布混合的成分,生物统计学,56,3,463-474(1969)·Zbl 0183.48106号 ·doi:10.1093/biomet/56.3.463
[10] 美联社登普斯特;新墨西哥州莱尔德;Rubin,DB,通过em算法从不完整数据中获取最大似然,《皇家统计学会杂志:B辑(方法学)》,39,1,1-22(1977)·Zbl 0364.62022号
[11] Dua,D.和Graff,C.(2017年)。UCI机器学习库。http://archive.ics.uci.edu/ml。
[12] 弗伦德,Y。;Schapire,RE,《在线学习的决策理论概括及其在助推中的应用》,《计算机与系统科学杂志》,55,1,119-139(1997)·兹伯利0880.68103 ·doi:10.1006/jcss.1997.1504
[13] Friedman,J.,《贪婪函数近似:梯度提升机1函数估计2函数空间中的数值优化》,North,1,3,1-10(1999)
[14] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R。;等,《加性逻辑回归:提升的统计观点》(作者进行了讨论和反驳),《统计年鉴》,28,2,337-407(2000)·Zbl 1106.62323号 ·doi:10.1214/aos/1016218223
[15] 加洛赫,议员;托马奇奥,SD;麦克尼古拉斯,PD;Punzo,A.,使用偏态分布的多元聚类加权模型,数据分析和分类进展,16,1,93-124(2022)·Zbl 07538945号 ·文件编号:10.1007/s11634-021-00480-5
[16] Gershenfeld,N.,非线性推理和聚类加权建模,《纽约科学院年鉴》,808,1,18-24(1997)·doi:10.1111/j.1749-6632.1997.tb51651.x
[17] 古普塔,S。;Chintagunta,PK,关于在logit混合模型中使用人口统计变量来确定细分市场成员,市场营销研究杂志,31,1128-136(1994)·doi:10.1177/002224379403100111
[18] Hennig,C.,聚类线性回归模型的可识别性,分类杂志,17,2,273-296(2000)·Zbl 1017.62058号 ·doi:10.1007/s0035700000022
[19] Hennig,C.,合并高斯混合成分的方法,数据分析和分类进展,4,1,3-34(2010)·Zbl 1306.62141号 ·doi:10.1007/s11634-010-0058-3
[20] Hennig,C.,&Imports,M.(2015)。包“fpc”。起重机。
[21] 休伯特,L。;Arabie,P.,比较分区,分类杂志,2,1,193-218(1985)·doi:10.1007/BF01908075
[22] Ingrassia,S.公司。;南卡罗来纳州米诺蒂;Punzo,A.,通过线性聚类加权模型进行基于模型的聚类,计算统计与数据分析,71,159-182(2014)·Zbl 1471.62095号 ·doi:10.1016/j.csda.2013.02.012
[23] Ingrassia,S.公司。;南卡罗来纳州米诺蒂;Vittadini,G.,通过椭圆分布的聚类加权方法进行局部统计建模,《分类杂志》,29,3,363-401(2012)·Zbl 1360.62335号 ·文件编号:10.1007/s00357-012-9114-3
[24] Ingrassia,S.公司。;Punzo,A。;维塔迪尼,G。;Minotti,SC,广义线性混合聚类加权模型,分类杂志,32,2,327-355(2015)·Zbl 1335.62100号 ·doi:10.1007/s00357-015-9177-z
[25] 雅各布斯,RA;密歇根州约旦;Nowlan,SJ;Hinton,GE,自适应本地专家混合,神经计算,3,1,79-87(1991)·doi:10.1162/neco.1991.3.1.79
[26] 密歇根州约旦;雅各布斯,RA,专家和em算法的层次混合,神经计算,6,2,181-214(1994)·doi:10.1162/neco.1996.2.181
[27] 华盛顿州镰仓;韦德尔,M。;Agrawal,J.,用于联合分析的伴随变量潜在类模型,《国际市场营销研究杂志》,11,5,451-464(1994)·doi:10.1016/0167-8116(94)00004-2
[28] Kim,D。;Seo,B.,在存在多个局部极大值的情况下评估高斯混合模型中的成分数量,多元分析杂志,125,100-120(2014)·Zbl 1280.62028号 ·doi:10.1016/j.jmva.2013.11.018
[29] LeDell,E.、Gill,N.、Aiello,S.、Fu,A.、Candel,A.,Click,C.、Kraljevic,T.、Nykodym,T.,Aboyoun,P.、Kurka,M.等(2018)。包装“h2o”。起重机。
[30] Leisch,F.和Dimitriadou,E.(2009年)。“mlbench”包。起重机。
[31] MacQueen,J.等人(1967年)。多元观测值分类和分析的一些方法。《第五届伯克利数学统计与概率研讨会论文集》,美国加利福尼亚州奥克兰,第1卷,第281-297页·兹比尔0214.46201
[32] Mazza,A。;Punzo,A。;Ingrassia,S.,flexcwm:集群加权模型的灵活框架,《统计软件杂志》,86,2,1-30(2018)·doi:10.18637/jss.v086.i02
[33] McLachlan,G.J.和Peel,D.(2004年)。有限混合模型,Wiley&Sons·Zbl 0963.62061号
[34] McNicholas,PD,基于模型的聚类,分类杂志,33,3,331-373(2016)·Zbl 1364.62155号 ·doi:10.1007/s00357-016-9211-9
[35] Meyer,D.,Dimitriadou,E.,Hornik,K.,Weingessel,A.,Leich,F.,Chang,C.C.,Lin,C.C.和Meyer的M.D.(2019年)。包“e1071”。起重机。
[36] 墨菲(Murphy,K.)和墨菲(墨菲,T.B.)(2022年)。“MoEClust”包。起重机。
[37] 墨菲,K。;Murphy,TB,带协变量和噪声分量的高斯简约聚类模型,数据分析和分类进展,14,2,293-325(2020)·兹比尔1474.62240 ·doi:10.1007/s11634-019-00373-8
[38] WJ纳什;卖方,TL;Talbot,SR;卡通,AJ;Ford,WB,塔斯马尼亚州鲍鱼(鲍鱼属)的种群生物学。i.黑唇鲍(h.rubra),产于北海岸和巴斯海峡岛屿。海洋渔业部,技术报告,48,411(1994)
[39] Punzo,A。;McNicholas,PD,通过污染高斯聚类加权模型进行回归分析中的稳健聚类,分类杂志,34,2,249-293(2017)·Zbl 1373.62316号 ·数字对象标识代码:10.1007/s00357-017-9234-x
[40] Quandt,RE,估计转换回归的新方法,美国统计协会杂志,67338306-310(1972)·Zbl 0237.62047号 ·doi:10.1080/01621459.1972.10482378
[41] Schwarz,G.,估算模型的维度,统计年鉴,6,2,461-464(1978)·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[42] Seo,B。;Kim,D.,正态混合模型中的根选择,计算统计与数据分析,56,8,2454-2470(2012)·Zbl 1252.62013年 ·doi:10.1016/j.csda.2012.01.022
[43] Song,W。;姚,W。;Xing,Y.,拉普拉斯分布稳健混合回归模型拟合,计算统计与数据分析,71128-137(2014)·Zbl 1471.62189号 ·doi:10.1016/j.csda.2013.06.022
[44] 维恩,西北部;埃普斯,J。;Bailey,J.,《聚类比较的信息论度量:变量、属性、归一化和机会修正》,《机器学习研究杂志》,第11期,第2837-2854页(2010年)·Zbl 1242.62062号
[45] Wolfe,J.H.(1963年)。社会领域的对象聚类分析,博士论文,加州大学。
[46] Xu,L.、Jordan,M.和Hinton,G.E.(1994年)。混合专家的替代模型,神经信息处理系统的进展,7。
[47] 姚,W。;魏毅。;Yu,C.,使用t分布的稳健混合回归,计算统计与数据分析,71,116-127(2014)·Zbl 1471.62227号 ·doi:10.1016/j.csda.2013.07.019
[48] Young,D.、Benaglia,T.、Chauveau,D.、Hunter,D.、Elmore,R.、Hettmansperger,T.,Thomas,H.、Xuan,f.和Young,M.D.(2020年)。打包“mixtools”。起重机。
[49] 扎雷,S。;Mohammadpour,A。;Ingrassia,S.公司。;Punzo,A.,《关于聚类加权模型中亚高斯α稳定分布的使用》,伊朗科学技术杂志,学报A:Science,43,3,1059-1069(2019)·doi:10.1007/s40995-018-0526-8
[50] 张斌(2003)。回归聚类。第三届IEEE数据挖掘国际会议,IEEE,第451-458页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。