×

混合数据的基于模型的聚类:clustMD。 (英语) Zbl 1414.62254号

摘要:使用潜在变量模型开发了一种基于模型的混合类型数据聚类程序clustMD。提出了一种潜在变量,遵循混合高斯分布,生成混合类型的观测数据。观测数据可以是连续变量、二进制变量、序数变量或标称变量的任意组合。clustMD对潜在变量采用了一种简约的协方差结构,从而形成了一套六种不同复杂度的聚类模型,为混合数据的聚类提供了一种优雅而统一的方法。使用期望最大化(EM)算法估计集群MD;在存在标称数据的情况下,需要使用蒙特卡罗EM算法。clustMD模型通过对模拟混合类型数据和前列腺癌患者进行聚类来说明,这些患者的混合数据已被记录。

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
68吨10 模式识别、语音识别
91C20个 社会和行为科学中的集群
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Andrews DA,Herzberg AM(1985)《数据:学生和研究工作者在许多领域的问题集合》。纽约州施普林格·Zbl 0567.62002号 ·doi:10.1007/978-1-4612-5098-2
[2] Banfield JD,Raftery AE(1993)基于模型的混合类型数据聚类和分类。生物计量学49(3):803-821·Zbl 0794.62034号 ·doi:10.2307/2532201
[3] Browne RP,McNicholas PD(2012)混合类型数据的基于模型的聚类和分类。J Stat Plan推断142:2976-2984·Zbl 1335.62093号 ·doi:10.1016/j.jspi.2012.05.001
[4] Byar DP、Green SB(1980)《基于协变量信息的癌症患者治疗选择:前列腺癌的应用》。癌症公牛67:477-490
[5] Cagnone S,Viroli C(2012)多元二进制数据的因子混合分析模型。统计模型12:257-277·Zbl 07257879号 ·doi:10.1177/1471082X1101200303
[6] Cai JH,Song XY,Lam KH,Ip EHS(2011)混合模式和异质数据的广义潜在变量模型的混合。计算机统计数据分析55:2889-2907·Zbl 1218.62012号 ·doi:10.1016/j.csda.2011.05.011
[7] Celeux G,Govaert G(1995)高斯简约聚类模型。图案识别28(5):781-793·doi:10.1016/0031-3203(94)00125-6
[8] Dempster AP,Laird NM,Rubin DB(1977)通过EM算法从不完整数据中获得最大似然。J R Stat Soc Ser B(方法学)39(1):1-38·Zbl 0364.62022号
[9] Everitt BS(1988)混合模式数据聚类的有限混合模型。统计概率快报6:305-309·doi:10.1016/0167-7152(88)90004-1
[10] Fox JP(2010)贝叶斯项目响应建模。纽约州施普林格·Zbl 1271.62012年 ·doi:10.1007/978-1-4419-0742-4
[11] Fraley C、Raftery AE(2002),基于模型的聚类、判别分析和密度估计。美国国家统计协会97(458):611-631·兹比尔1073.62545 ·doi:10.1198/016214502760047131
[12] Fraley C、Raftery AE、Murphy TB、Scrucca L(2012)mclust第4版R:基于模型的聚类、分类和密度估计的正态混合建模。华盛顿大学统计系第597号技术报告·Zbl 1520.62002号
[13] Frühwirth-Schnatter S(2006)有限混合和马尔可夫切换模型。纽约州施普林格·Zbl 1108.6202号
[14] Geweke J,Keane M,Runkle D(1994)多项式概率模型中推理的替代计算方法。经济评论Stat 76(4):609-632·数字对象标识代码:10.2307/2109766
[15] Gollini I,Murphy TB(2014)基于模型聚类分类数据的潜在特征分析器混合。统计计算24(4):569-588·兹比尔1325.62122
[16] Gruhl J,Erosheva EA,Crane P(2013)混合结果潜在变量模型的半参数方法:估计认知与区域脑容量之间的关联。应用统计年鉴7(2):2361-2383·Zbl 1283.62218号 ·doi:10.1214/13-AOAS675
[17] Hunt L,Jorgensen M(1999)使用多重混合程序的混合模型聚类。澳大利亚N Z J统计41:153-171·Zbl 0962.62061号 ·网址:10.1111/1467-842X.00071
[18] Johnson VE,Albert JH(1999)顺序数据建模。纽约州施普林格·Zbl 0921.62141号
[19] Karlis D,Santourian A(2009),基于模型的非椭圆轮廓分布聚类。统计计算19(1):73-83·doi:10.1007/s11222-008-9072-0
[20] Kass RE,Raftery AE(1995),贝叶斯因子。美国统计协会杂志90(430):773-795·Zbl 0846.62028号 ·doi:10.1080/01621459.1995.10476572
[21] Kosmidis I,Karlis D(2015)使用连接函数与应用程序进行基于模型的聚类。统计计算1-21。doi:10.1007/s11222-015-9590-5·Zbl 1505.62233号
[22] Lawrence CJ、Krzanowski WJ(1996),混合模式数据的混合分离。统计计算6:85-92·doi:10.1007/BF00161577
[23] Marbac M,Biernacki C,Vandewalle V(2015)基于模型的混合数据高斯连接函数聚类。arXiv:1405.1299(预印本)·兹比尔1384.62198
[24] 麦克拉克伦,G。;皮,D。;Amin,A.(编辑);Dori,D.(编辑);Pudil,P.(编辑);Freeman,H.(ed.),《通过多元t分布混合物进行稳健聚类分析》,第1451期,第658-666页(1998年),柏林·doi:10.1007/BFb0033290
[25] McLachlan GJ,Krishnan T(2008)EM算法和扩展。新泽西州威利·Zbl 1165.62019号 ·doi:10.1002/9780470191613
[26] McLachlan GJ,Peel D(2000)有限混合模型。新泽西州威利·Zbl 0963.62061号 ·doi:10.1002/0471721182
[27] McParland,D。;IC Gormley;Poel,D.(编辑);Ultsch,A.(编辑);Lausen,B.(编辑),通过潜在变量模型聚类有序数据,127-135(2013),柏林·数字对象标识代码:10.1007/978-3-319-00035-0_12
[28] McParland D、Gormley IC、McCormick TH、Clark SJ、Kabudula CW、Collinson MA(2014a)使用潜在变量模型根据南非家庭的资产状况对其进行聚类。应用统计年鉴8(2):747-776·Zbl 1454.62503号 ·doi:10.1214/14-AOAS726
[29] McParland D、Gormley IC、Phillips CM、Brennan L、Roche HM(2014b)LIPGENE代谢综合征研究的混合连续和分类数据聚类:表型和遗传数据的联合分析。都柏林大学学院技术报告
[30] Morlini I(2011)在高斯混合模型中聚类混合二进制和连续变量的潜在变量方法。高级数据分析分类6(1):5-28·Zbl 1284.62384号 ·doi:10.1007/s11634-011-0101-z
[31] Murray JS,Dunson DB,Carin L,Lucas JE(2013)混合数据的贝叶斯-高斯交配因子模型。美国统计协会期刊108(502):656-665·Zbl 06195968号 ·doi:10.1080/01621459.2012.762328
[32] Muthén B,Shedden K(1999)使用EM算法对混合结果进行有限混合建模。生物统计学55:463-469·Zbl 1059.62599号 ·doi:10.1111/j.0006-341X.1999.00463.x
[33] O'Hagan A(2012)基于模型的聚类和分类主题。都柏林大学学院博士论文
[34] O'Hagan A、Murphy TB、Gormley IC(2012)《通过期望最大化算法进行混合模型计算方面》。计算统计数据分析56(12):3843-3864·Zbl 1255.62180号 ·doi:10.1016/j.csda.2012.05.011
[35] Quinn KM(2004)混合有序和连续反应的贝叶斯因子分析。政治分析12(4):338-353·doi:10.1093/pan/mph022
[36] R核心团队(2015)R:统计计算的语言和环境。R统计计算基金会,奥地利维也纳。网址:http://www.R-project.org/
[37] Schwarz G(1978)估算模型的维数。安统计6:461-464·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[38] Titterington DM、Smith AFM、Makov UE(1985)有限混合分布的统计分析。新泽西州威利·Zbl 0646.62013.中
[39] Wei GCG,Tanner MA(1990)EM算法和穷人数据增强算法的蒙特卡罗实现。美国统计协会杂志85:699-704·网址:10.1080/01621459.1990.10474930
[40] Willse A,Boik RJ(1999),用于聚类混合模式数据的位置模型的可识别有限混合。统计计算9:111-121·doi:10.1023/A:1008842432747
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。