×

生长混合建模与测量选择。 (英语) Zbl 1433.62157号

摘要:生长混合模型是检测重复测量数据中群体结构的重要工具。与传统的聚类方法不同,它们明确地对观测值的重复测量进行建模,并且它们所基于的统计框架允许使用模型选择方法来选择簇数。然而,基本增长混合模型假设数据中的所有测量值都具有分组信息,这些分组信息将集群分开。在其他聚类环境中,研究表明,在聚类过程中包含非聚类变量会导致在聚类数量和聚类成员/参数方面对组结构的估计较差。在本文中,我们提出了增长混合模型的一个扩展,该模型允许在以下工作的基础上纳入逐步变量选择C.毛吉斯等【生物统计学65,No.3,701-709(2009;Zbl 1172.62021号)]和A.E.拉弗瑞N.院长【《美国统计协会期刊》第101卷第473、168–178号(2006年;Zbl 1118.62339号)]. 仿真研究结果表明,与基本增长混合模型相比,该方法在正确选择聚类变量方面表现良好,提高了聚类结构的恢复能力。本文还介绍了该模型在临床研究数据集中的应用,并对该领域未来的工作方向进行了讨论和建议。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62H11型 定向数据;空间统计学
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] BAUDRY,J.P.,RAFTERY,A.E.,CELEUX,G.,LO,K.和GOTTARDO,R.(2010),“组合用于聚类的混合成分”,《计算与图形统计学杂志》,19332-353·doi:10.1198/jcgs.2010.08111
[2] BIERNACKI,C.和GOVAERT,G.(1997),“使用分类可能性选择集群数量”,计算科学与统计,29451-457。
[3] BIERNACKI,A.C.和GOVAERT,G.(1999),“基于模型的聚类和判别分析中的模型选择”,《统计计算与模拟杂志》,64,49-71·Zbl 1156.62335号 ·网址:10.1080/00949659908811966
[4] DEAN,N.和RAFTERY,A.E.(2010),“潜在类分析变量选择”,《统计数学研究所年鉴》,62(1),11-35·Zbl 1422.62085号 ·doi:10.1007/s10463-009-0258-9
[5] DEMPSTER,A.P.、LAIRD,N.M.和RUBIN,D.B.(1977),“通过EM算法从不完整数据中获得最大可能性”,英国皇家统计学会期刊,B辑(方法学),1-38·Zbl 0364.62022号
[6] EVERITT,B.、LANDAU,S.、LEESE,M.和STAHL,D.(2011),《聚类分析,概率统计中的威利级数》,英国奇切斯特:威利·Zbl 1274.62003年
[7] FRALEY,C.和RAFTERY,A.E.(1998年),“多少簇?哪种聚类方法?通过基于模型的聚类分析回答”,《计算机杂志》,41(8),578-588·Zbl 0920.68038号 ·doi:10.1093/comjnl/41.8.578
[8] FRALEY,C.和RAFTERY,A.E.(2002),“基于模型的聚类、判别分析和密度估计”,美国统计协会杂志,97,611-631·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[9] FRALEY,C.、RAFTERY,A.E.、MURPHY,T.B.和SCRUCCA,L.(2012),“R的Mclust版本4:基于模型的聚类、分类和密度估计的正态混合建模”,报告编号597,华盛顿大学统计系·Zbl 1520.62002号
[10] GRüN,B.和LEISCH,F.(2008),“广义线性回归模型的有限混合”,《线性模型和相关领域的最新进展:Helge Toutenburg荣誉论文》,Physica-Verlag·Zbl 1276.62021号
[11] GUPTA,M.R.和YIHUA CHEN,Y.(2011),“EM算法的理论和应用”,《信号处理的基础和趋势》,4(3),223-296·Zbl 1294.62137号 ·doi:10.1561/2000034
[12] HARTIGAN,J.A.(1975),《聚类算法》,威利出版社·Zbl 0372.62040号
[13] HARTIGAN,J.A.(1981),“高密度集群的单一联系一致性”,《美国统计协会杂志》,76388-394·Zbl 0468.62053号 ·doi:10.1080/01621459.1981.10477658
[14] HENNIG,C.(2010),“合并高斯混合成分的方法”,《数据分析和分类进展》,4,3-34·Zbl 1306.62141号 ·doi:10.1007/s11634-010-0058-3
[15] HUBERT,L.和ARABIE,P.(1985),“比较划分”,《分类杂志》,2(1),193-218·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[16] JAMES,G.M.和SUGAR,C.A.(2003),“稀疏采样函数数据的聚类”,美国统计协会杂志,98,565-576·Zbl 1041.62052号 ·doi:10.1198/016214503000189
[17] KERIBIN,C.(2000),“混合模型阶数的一致估计”,Sankhya,62,49-66·兹比尔1081.62516
[18] LAZARSFELD,P.F.和HENRY,N.W.(1968),潜在结构分析,霍顿·米夫林·Zbl 0182.52201号
[19] MACQUEEN,J.B.(1967),“多元观测分类和分析的一些方法”,《第五届伯克利数理统计与概率研讨会论文集》,加利福尼亚大学出版社·Zbl 0214.46201号
[20] MAUGIS,C.、CELEUX,G.和MARTIN-MAGNIETTE,M-L.(2009),“高斯混合模型聚类的变量选择”,生物计量学,65(3),701-709·Zbl 1172.62021号 ·doi:10.1111/j.1541-0420.2008.0160.x
[21] MCLACHLAN,G.J.和KRISHNAN,T.(2008),《EM算法和扩展》,威利出版社·Zbl 1165.62019号
[22] MCNICHOLAS,P.D.和SUBEDI,S.(2012),“EM算法和扩展”,《统计规划与推断杂志》,第5期,第1114-1127页·Zbl 1236.62068号 ·doi:10.1016/j.jspi.2011.11.026
[23] MELNYKOV,V.(2016),“通过成对重叠合并聚类的混合成分”,《计算与图形统计杂志》,24(1),66-90·doi:10.1080/10618600.2014.978007
[24] MURPHY,T.B.、DEAN,N.和RAFTERY,A.E.(2010),“食品真实性应用中基于模型的高维数据判别分析中的变量选择和更新”,《应用统计学年鉴》,4396-421·Zbl 1189.62105号 ·doi:10.1214/09-AOAS279
[25] MUTHéN,B.和SHEDDEN,K.(1999),“使用EM算法对混合结果进行有限混合建模”,生物计量学,55(2),463-469·Zbl 1059.62599号 ·doi:10.1111/j.0006-341X.1999.00463.x
[26] PEARSON,K.(1894),“进化数学理论的贡献”,《伦敦皇家学会哲学学报》,A辑,71·JFM 25.0347.02号
[27] R CORE TEAM(2015),“R:统计计算的语言和环境”,R统计计算基金会,奥地利维也纳,https://www.R-project.org/。
[28] RAFTERY,A.E.(1995),“社会研究中的贝叶斯模型选择(讨论)”,社会学方法论,111-196。
[29] RAFTERY,A.E和DEAN,N.(2006),“基于模型的聚类变量选择”,《美国统计协会杂志》,101(473),168-178·Zbl 1118.62339号 ·doi:10.1198/016214500000113
[30] RAM,N.和GRIMM,K.J.(2009),“方法和措施:生长混合模型:识别未观察群体之间纵向变化差异的方法”,《国际行为发展杂志》,33(6),565-576·doi:10.1177/0165025409343765
[31] RUSAKOV,D.和GEIGER,D.(2005),“朴素贝叶斯网络的渐进模型选择”,《机器学习研究杂志》,6,1-35·Zbl 1222.68294号
[32] SCHWARZ,G.E.(1978),“估算模型的维数”,《统计年鉴》,6(2),461-464·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[33] SCRUCCA,L.(2016),“识别高斯有限混合模型中用于聚类的连接成分”,计算统计与数据分析,93,5-17·Zbl 1468.62174号 ·doi:10.1016/j.csda.2015.01.006
[34] STEEL,R.G.D.和TORRIE,J.H.(1960),《统计学原理和程序,特别参考生物科学》,麦格劳-希尔出版社·Zbl 0095.13902号
[35] THASE,M.E,GREENHOUSE,J.B.,FRANK,E.,REYNOLDS,C.F,PILKONIS,P.A.,HURLEY,K.,GROCHOCINSKI,V.,and KUPFER,D.J.(1997),“心理疗法或心理疗法-药物疗法组合治疗抑郁症”,《普通精神病学档案》,54(11),1009-1015·doi:10.1001/archpsyc.1997.01830230043006
[36] TITTERINGTON,D.M.,SMITH,A.F.M.和MAKOV,U.E.(1985),有限混合分布的统计分析(第7卷),纽约:威利纽约·兹伯利0646.62013
[37] WARD,J.H.(1963),“优化目标函数的分层分组”,《美国统计协会杂志》,58(301),236-244·doi:10.1080/01621459.1963.10500845
[38] WISHART,D.(1969),“模式分析:减少连锁效应的最近邻的推广”,载于《数值分类学》,A.J.Cole主编,学术出版社,第282-311页。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。