×

使用应用程序的copula进行基于模型的聚类。 (英语) Zbl 1505.62233号

摘要:大多数基于模型的聚类技术都是基于多元正态模型及其变体的。本文使用copula构造用于集群应用的灵活模型族。与现有方法相比,在基于模型的聚类中使用连接函数有两个直接优势:(i)适当选择连接函数可以获得簇的一系列奇异形状,以及(ii)集群的边际分布的明确选择允许以自然的方式对各种模式(离散或连续)的多元数据进行建模。本文介绍并研究了用于聚类应用的基于连接函数的有限混合模型框架。在一般情况下,可以使用标准EM进行估计,并且根据数据的模式,提供了更有效的程序,可以充分利用copula结构。讨论了边缘化条件下混合模型的闭包性质,并针对连续、实值数据引入了样本空间中的参数旋转,同时还讨论了参数可识别性,这取决于组件的连接函数的选择。对该方法的阐述伴随着对真实数据和人工数据的分析,并受到其推动。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
62小时05 多元概率分布的表征与结构理论;连接线
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alfo,M.,Maruotti,A.,Trovato,G.:内生选择性下多元计数的有限混合模型。统计计算。21(2), 185-202 (2011) ·doi:10.1007/s11222-009-9159-2
[2] Andrews,J.L.,McNicholas,P.D.:基于模型的聚类、分类和判别分析的改良t因子分析仪的混合物。J.统计计划。推断1411479-1486(2011)·Zbl 1204.62098号 ·doi:10.1016/j.jspi.2010.10.014
[3] Banfield,J.D.,Raftery,A.E.:基于模型的高斯和非高斯聚类。生物统计学49,803-821(1993)·兹比尔0794.62034 ·doi:10.2307/2532201
[4] Bedford,T.,Cooke,R.M.:藤蔓——相依随机变量的新图形模型。Ann.Stat.30,1031-1068(2002)·Zbl 1101.62339号 ·doi:10.1214/aos/1031689016
[5] Brechmann,E.C.,Schepsmeier,U.:用C-和d-vine连接函数建模依赖性:r包cdvine。J.统计软件。52(3),1-27(2013)·Zbl 1204.62098号
[6] Browne,R.,McNicholas,P.:混合类型数据的基于模型的聚类、分类和判别分析。J.统计计划。推断142(11),2976-2984(2012)·Zbl 1335.62093号 ·doi:10.1016/j.jspi.2012.05.001
[7] Celeux,G.,Govaert,G.:高斯简约聚类模型。模式识别。28, 781-793 (1995) ·doi:10.1016/0031-3203(94)00125-6
[8] Dean,N.,Nugent,R.:使用多元贝塔的混合物在单位超立方体中聚类学生技能集档案。高级数据分析。分类。7(3), 339-357 (2013) ·Zbl 1416.62334号 ·doi:10.1007/s11634-013-0149-z
[9] Di Lascio,F.M.L.,Giannerini,S.:一种基于copula的算法,用于发现相关观测的模式。J.分类。29, 50-75 (2012) ·Zbl 1360.62250号 ·doi:10.1007/s00357-012-9099-y
[10] Fang,H.-B.,Fang,K.-T.,Kotz,S.:给定边缘的超椭圆分布。J.多变量。分析。82(1),1-16(2002)。[更正:《多变量分析杂志》94222-223(2005)]·Zbl 1002.62016年 ·doi:10.1006/jmva.2001.2017年
[11] Forbes,F.,Wraith,D.:一个新的多元重尾分布族,具有可变的尾量边际:稳健聚类的应用。统计计算。24(6), 971-984 (2014) ·Zbl 1332.62204号 ·doi:10.1007/s11222-013-9414-4
[12] Fraley,C.,Raftery,A.E.,Murphy,T.B.,Scrucca,L.:mclust版本4,R:基于模型的聚类、分类和密度估计的正态混合建模。西雅图华盛顿大学统计系技术报告597(2012)·Zbl 1520.62002号
[13] Frühwirth-Schnatter,S.,Pyne,S.:一元和多元偏正态和偏t分布有限混合的贝叶斯推断。生物统计学11(2),317-336(2010)·Zbl 1437.62465号 ·doi:10.1093/biostatistics/kxp062
[14] Genest,C.,Nešlehová,J.:copulas计数数据的引物。阿斯汀公牛。37(2), 475-515 (2007) ·Zbl 1274.62398号 ·网址:10.1017/S051503610014963
[15] Genz,A.、Bretz,F.、Miwa,T.、Mi,X.、Leisch,F.,Scheipl,F.和Hothorn,T.:mvtnorm:多元正态分布和T分布。R包版本0.9-9996。http://cran.r-project.org/package=mvtnorm (2013) ·Zbl 0843.62016号
[16] Hanson,A.J.:n维图形的旋转。Paeth,A.W.(编辑),《图形宝石》第二章第55-64页中的图形宝石V,编号II.4。圣地亚哥学术出版社(1995)
[17] Hennig,C.:合并高斯混合成分的方法。高级数据分析。分类。4(1), 3-34 (2010) ·Zbl 1306.62141号 ·doi:10.1007/s11634-010-0058-3
[18] Henningsen,A.,Toomet,O.:maxlik:R.Compute中最大似然估计的包。Stat.26(3),443-458(2011)·Zbl 1304.65039号 ·doi:10.1007/s00180-010-0217-1
[19] Hofert,M.、Kojadinovic,I.、Maechler,M.和Yan,J.:连接词:与连接词的多元相关性。R包版本0.999-13(2015)
[20] Hofert,M.,Mächler,M.,McNeil,A.J.:在已知裕度下高维阿基米德交尾的可能性推断。J.多变量。分析。110133-150(2012年)·Zbl 1244.62073号 ·doi:10.1016/j.jmva.2012.02.019
[21] 贾朱加,K。;Papla,D.,基于模型聚类中的Copula函数,第15期,606-613(2006),柏林·doi:10.1007/3-540-31314-1_74
[22] Joe,H.:基于条件期望的多元正态矩形概率近似。《美国统计协会期刊》90(431),957-964(1995)·Zbl 0843.62016号 ·doi:10.1080/01621459.1995.10476596
[23] Joe,H.:多元模型依赖于概念。查普曼和霍尔有限公司,伦敦(1997年)·Zbl 0990.62517号 ·doi:10.1201/b13150
[24] Johnson,N.,Kotz,S.,Balakrishnan,N.:多元离散分布。威利,纽约(1997)·Zbl 0868.62048号
[25] Jorgensen,M.:使用多项式混合模型对互联网流量进行聚类。澳大利亚。N.Z.J.Stat.46(2),205-218(2004)·Zbl 1061.62198号 ·doi:10.1111/j.1467-842X.2004.00325.x
[26] Karlis,D.,Meligkotsidou,L.:有限多元泊松混合物及其应用。J.统计计划。推论1371942-1960(2007)·Zbl 1116.60006号 ·doi:10.1016/j.jspi.2006.07.001
[27] Karlis,D.,Santourian,A.:基于模型的非椭圆轮廓分布聚类。统计计算。19(1), 73-83 (2009) ·doi:10.1007/s11222-008-9072-0
[28] Lee,S.,McLachlan,G.:多元斜t分布的有限混合:一些最新结果。统计计算。24, 181-202 (2014) ·Zbl 1325.62107号 ·doi:10.1007/s11222-012-9362-4
[29] Lin,T.-I,Ho,H.,Lee,C.-R.:使用多元偏态T正态分布的灵活混合建模。统计计算。24(4), 531-546 (2014) ·Zbl 1325.62113号
[30] Marbac,M.,Biernacki,C.,Vandewalle,V.:混合数据高斯连接函数的基于模型的聚类。ArXiv电子版(2014)。arXiv公司:1405.1299·兹比尔1384.62198
[31] McLachlan,G.,Peel,D.:有限混合模型。威利,纽约(2000年)·Zbl 0963.62061号 ·doi:10.1002/0471721182
[32] McNicholas,P.D.,Murphy,T.B.:简约高斯混合模型。统计计算。18(3), 285-296 (2008) ·doi:10.1007/s11222-008-9056-0
[33] Meng,X.-L.,Rubin,D.B.:通过ECM算法的最大似然估计:一般框架。生物特征80,267-278(1993)·Zbl 0778.62022号 ·doi:10.1093/biomet/80.2.267
[34] Morris,K.,McNicholas,P.:通过移位非对称拉普拉斯分布的混合物对基于模型的聚类进行降维。统计概率。莱特。83(9), 2088-2093 (2013) ·Zbl 1282.62153号 ·doi:10.1016/j.spl.2013.04.011
[35] Nelsen,R.:连接词导论,统计学中的Springer系列,第二版,Springer,柏林(2006)·Zbl 1152.62030
[36] Panagiotelis,A.,Czado,C.,Joe,M.:多元离散数据的对copula构造。《美国统计协会期刊》107(499),1063-1072(2012)·Zbl 1395.62114号 ·doi:10.1080/01621459.2012.682850
[37] R核心团队:R:统计计算语言和环境。奥地利维也纳R统计计算基金会(2015年)·兹比尔1244.62073
[38] Robitzsch,A.,Kiefer,T.,George,A.C.,Uenlue,A.:CDM:认知诊断建模。R软件包版本2.6-13。http://cran.r-project.org/package=CDM (2014)
[39] Vrac,M.,Billard,L.,Diday,E.,Chèdin,A.:混合模型的Copula分析。计算。《统计》第27卷第427-457页(2012年)·Zbl 1304.65087号 ·doi:10.1007/s00180-011-0266-0
[40] Zimmer,D.,Trivedi,P.:使用三变量连接函数模拟样本选择和治疗效果:应用于家庭保健需求。J.总线。经济。Stat.24(1),63-72(2006)·doi:10.1198/07350010500000153
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。