×

混合偏态正态分布的EM算法适用于分组数据。 (英语) Zbl 1521.62497号

摘要:分组数据经常用于几个研究领域。在这项工作中,我们使用期望最大化(EM)算法对分组数据拟合偏态(SN)混合模型。实现EM算法需要计算每个组或类的一维积分。我们的模拟研究和实际数据分析表明,EM算法不仅总是收敛的,而且即使在组件数量很大的情况下,也可以在几秒钟内实现,这与计算成本高昂的贝叶斯范式相反。通过仿真和三个实际数据示例,证明了EM算法的准确性以及SN混合模型在建模分组数据时相对于传统正态混合模型的优越性。为了实现EM算法,我们使用名为森林适应度为R环境开发,网址为https://cran.r-project.org/web/packages/ForestFit/index.html.

MSC公司:

62-XX年 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aghevli,B。;Mehran,F.,《收入分配数据的最佳分组》,《美国统计协会期刊》,第76期,第22-26页(1981年)·doi:10.1080/01621459.1981.10477596
[2] Azzalini,A.,包含正态分布的一类分布,Scand。J.Stat.,12171-178(1985)·Zbl 0581.62014号
[3] Azzalini,A.,《偏态正态分布和相关多变量家族》,Scand。《美国法律总汇》第32卷,第159-188页(2005年)·Zbl 1091.62046号 ·数字对象标识代码:10.1111/j.1467-9469.2005.00426.x
[4] 巴索,R.M。;拉科斯,V.H。;卡布拉尔,C.R.B。;Ghosh,P.,基于偏斜正态分布的比例混合的鲁棒混合建模,计算。统计数据分析,54,2926-2941(2010)·Zbl 1284.62193号 ·doi:10.1016/j.csda.2009.09.031
[5] Bauer,D.J。;Curran,P.J.,《增长混合模型的分布假设:潜在轨迹类过度提取的含义》,《心理学》。方法,8338(2003)·doi:10.1037/1082-989X.8.3.338
[6] Bermúdez,S。;Blankero,R.,人口数据去组优化模型,Popul。螺柱,70,259-272(2016)·doi:10.1080/00324728.2016.1158853
[7] Binh,L.N.,《高级数字光通信》(2015),CRC出版社:慕尼黑CRC出版社
[8] Böhning,D.,混合物和应用的计算机辅助分析,技术计量学,42,442-442(2000)·Zbl 0951.62088号 ·doi:10.1080/00401706.2000.10485740
[9] Brazauskas,V。;Serfling,R.,《拟合帕累托模型的有利估计:一项使用实际数据的良好度量的研究》,ASTIN Bull。,33, 365-381 (2003) ·Zbl 1058.62030号 ·doi:10.1017/S0515036100013519
[10] 卡德斯,I.V。;Smyth,P。;McLachlan,G.J。;McLaren,C.E.,装箱和截断多元数据混合密度的最大似然估计,马赫数。学习。,47, 7-34 (2002) ·Zbl 1012.68057号 ·doi:10.1023/A:1013679611503
[11] 陈永杰。;Miljkovic,T.,《从分组数据到非分组数据:分组数据分布拟合的新方法》,J.Stat.Compute。模拟。,89, 272-291 (2019) ·Zbl 07193724号 ·doi:10.1080/00949655.2018.1545839
[12] 科恩,A.L。;Sanborn,A.N。;Shiffrin,R.M.,《使用分组或个体数据的模型评估》,《精神病学家》。B.版本,15,692-712(2008)·doi:10.3758/PBR.15.4.692
[13] 康皮亚尼,G。;Kitamura,Y.,《在计量经济学模型中使用混合物:简要回顾和一些新结果》,《计量经济学》。J.,19,C95-C127(2016)·兹比尔1521.62209 ·doi:10.1111/ectj.12068
[14] 康奈尔,A.M。;Frye,A.A.,《发展心理学中的生长混合模型:青少年反社会行为发展轨迹异质性的概述和证明》,婴儿。《儿童发展》,第15期,第609-621页(2006年)·doi:10.1002/icd.481
[15] 邓普斯特,美联社。;拉里德,N.M。;Rubin,D.B.,《通过EM算法从不完整数据中获得最大似然》,J.Roy。Stat.Soc.B,39,1-38(1977年)·Zbl 0364.62022号
[16] 欧盟统计局,人口统计(2006年),欧洲共同体:欧洲共同体,卢森堡
[17] 弗雷利,C。;Raftery,A.E.,多少簇?哪种聚类方法?答案通过基于模型的聚类分析计算得出。J.,41,578-588(1998)·Zbl 0920.68038号 ·doi:10.1093/comjnl/41.8.578
[18] 弗雷利,C。;Raftery,A.E.,基于模型的聚类、判别分析和密度估计,美国统计协会,97,611-631(2002)·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[19] Frühwirth-Schnatter,S.,《有限混合和马尔可夫切换模型》(2006),Springer,纽约州纽约市·Zbl 1108.6202号
[20] 高,S.-L。;de Dieu Tapsoba,J。;Lee,S.-M.,《分组数据混合模型的贝叶斯方法》,计算。统计,291025-1043(2014)·Zbl 1306.65058号 ·doi:10.1007/s00180-013-0478-6
[21] 杰弗里·J·M。;Do,K.-A。;Ambroise,C.,分析微阵列基因表达数据(2004),John Wiley&Sons:John Willey&Sons,新泽西州霍博肯·Zbl 1140.92010年
[22] Gove,J.H。;Fairweather,S.E.,使用通用交互式优化器和分组数据对威布尔函数参数进行最大似然估计,For。经济。管理,28,61-69(1989)·doi:10.1016/0378-1127(89)90074-1
[23] Hartigan,J.A。;Wong,M.A.,《136算法:k均值聚类算法》,J.Roy。Stat.Soc.C,28,100-108(1979年)·Zbl 0447.62062号
[24] Henze,N.,“倾斜正态分布的概率表示”,Scand。J.Stat.,13,271-275(1986)·兹比尔0648.62016
[25] 高x小,H。;邓肯,T.E。;南卡罗来纳州邓肯。;Okut,H.,《检测青少年饮酒和吸食大麻的多元关联有限增长混合建模方法》,J.Psychopathol。行为。,26, 255-270 (2004) ·doi:10.1023/B:JOBA.000045341.56296.fa
[26] 黄J.Z。;王,X。;吴,X。;周,L.,使用区间聚集数据估计概率密度函数,J.Stat.Compute。模拟。,86, 3093-3105 (2016) ·Zbl 07184785号 ·doi:10.1080/00949655.2016.1150481
[27] 亨特·D·R。;王,S。;Hettmansperger,T.P.,《对称分布混合物的推断》,《Ann.Stat.》,35,224-251(2007)·Zbl 1114.62035号 ·doi:10.1214/0090536000000118
[28] Jaworski,A。;Podlaski,R.,《用有限混合模型模拟不规则和多模式树木直径分布:林分结构特征化方法》,J.For。研究,17,79-88(2012)·doi:10.1007/s10310-011-0254-9
[29] 焦,S。;Zhang,S.,检测微阵列中差异表达基因的t混合模型方法,Funct。集成。基因组学,8181-186(2008)·doi:10.1007/s10142-007-0071-6
[30] Keribin,C.,混合物模型阶数的一致估计,Sankhya Ser。A、 62、49-66(2000)·Zbl 1081.62516号
[31] Kim,D。;Seo,B.,在存在多个局部极大值的情况下评估高斯混合模型中的成分数量,J.多元分析。,125, 100-120 (2014) ·Zbl 1280.62028号 ·doi:10.1016/j.jmva.2013.11.018
[32] Lee,S.X.、McLachlan,G.和Pyne,S.,《混合模型在大型数据集中的应用》,载于《大数据分析》S.Pyne、B.Rao、S.Rao主编,新德里施普林格出版社,2016年。
[33] 李,F。;巴雷拉,M。;霍普斯,H。;Fisher,K.J.,《同龄人对青少年后期饮酒发展的纵向影响:生长混合分析》,J.Behav。医学,25,293-315(2002)·doi:10.1023/A:1015336929122
[34] Lin,H。;Turnbull,B.W。;麦卡洛克,C.E。;Slate,E.H.,《纵向生物标记物和事件过程数据联合分析的潜在类别模型:应用于纵向前列腺特异性抗原读数和前列腺癌》,美国统计协会,97,53-65(2002)·Zbl 1073.62582号 ·doi:10.19198/0162114502753479220
[35] Lin,T.I。;Lee,J.C。;Yen,S.Y.,《使用斜态正态分布的有限混合建模》,《统计中国》。,2009年9月17日至927日(2007年)·Zbl 1133.62012年
[36] Little,R.J。;Rubin,D.B.,《缺失数据的统计分析》(2002年),John Wiley&Sons:John Willey&Sons,新泽西州霍博肯·Zbl 1011.62004号 ·doi:10.1002/9781119013563
[37] 里昂,M。;Cheung,L.C。;Gastwirth,J.L.,《利用分组数据估算洛伦兹曲线和基尼指数时使用分组平均数的优势》,《美国统计》,70,25-32(2016)·Zbl 07665848号 ·doi:10.1080/00031305.2015.1105152
[38] Macdonald,P.,《鱼的年龄和生长中的长度频率分布分析》,R.C.Summerfelt和G.E.Hall编辑,爱荷华州州立大学出版社,艾姆斯,IA,1987年。
[39] P.麦克唐纳。;Pitcher,T.,《从尺寸-频率数据得出的年龄组:分析分布混合物的一种通用且有效的方法》,J.Fish。加拿大Res.Board Can,36,987-1001(1979)·数字对象标识代码:10.1139/f79-137
[40] 麦克拉克伦,G。;Jones,P.,通过EM算法将混合模型拟合到分组和截断的数据,生物计量学,44571-578(1988)·Zbl 0707.62214号 ·doi:10.2307/2531869
[41] 麦克拉克伦,G。;Krishnan,T.,《EM算法与扩展》(The EM Algorithm and Extensions)(2008),John Wiley&Sons:John Willey&Sons,新泽西州霍博肯·Zbl 1165.62019号
[42] 麦克拉克伦,G。;Peel,D.,有限混合模型(2004),John Wiley&Sons:John Willey&Sons,纽约州纽约市
[43] Mcnicholas,P.D。;Murphy,T.B.,简约高斯混合模型,统计计算,18,285-296(2008)·doi:10.1007/s11222-008-9056-0
[44] McNicholas,医学博士。;Murphy,T.B.,《基于模型的纵向数据聚类》,加拿大。《统计杂志》,38,153-168(2010)·Zbl 1190.62120号
[45] Minoiu,C。;Reddy,S.G.,《从分组数据估算贫困和不平等:参数方法的表现如何?》?,《收入分配杂志》,第18期,第160-178页(2009年)
[46] Muthén,B。;Brown,H.C.,《在安慰剂反应的情况下评估药物效应:使用生长混合物建模的因果推断》,《统计医学》,28,3363-3385(2009)·数字对象标识代码:10.1002/sim.3721
[47] 欧文,A.L。;维德拉斯,J。;Davis,L.,所有国家都遵循相同的增长过程吗?,J.Eeon。增长。,14, 265-286 (2009) ·doi:10.1007/s10887-009-9046-x
[48] Pearson,K.,《进化数学理论的贡献》,Philos。T·罗伊。社会学协会,185,71-110(1894)·JFM 25.0347.02号
[49] 波德拉斯基,R。;Roesch,F.A.,用不同比例的优势种模拟两代林分的直径分布:双组分混合模型方法,数学。生物科学。,249, 60-74 (2014) ·Zbl 1309.92071号 ·doi:10.1016/j.mbs.2014.01.007
[50] Prates,M.O。;拉科斯,V.H。;Cabral,C.,mixsmsn:拟合偏态正态分布的尺度混合的有限混合,J.Stat.Softw。,54, 1-20 (2013) ·doi:10.18637/jss.v054.i12
[51] 钱,L。;Correa,J.,《具有竞争风险的分组数据的威布尔参数估计》,J.Stat.Compute。模拟。,73, 261-275 (2003) ·Zbl 1052.62097号 ·网址:10.1080/0094965021000033431
[52] 曲,P。;Qu,Y.,通过数据增强和Gibbs抽样对生物测定中有限混合模型的贝叶斯方法及其在杀虫剂抗性中的应用,生物统计学,56,1249-1255(2000)·Zbl 1060.62655号 ·doi:10.1111/j.0006-341X.2000.01249.x
[53] Quintela-del Río,A。;Estévez-Pérez,G.,用kerdiest估计非参数核分布函数:带宽选择和应用的R包,J.Stat.Softw。,50, 1-21 (2012) ·doi:10.18637/jss.v050.2008
[54] Schlattmann,P.,《有限混合模型的医学应用》,《国际统计评论》,79,294-294(2011)·数字对象标识代码:10.1111/j.1751-5823.011.00149_20.x
[55] Sun,X.,基于分组数据的非对称核密度估计及其在损失模型中的应用,Commun。统计模拟。计算,43,657-672(2014)·Zbl 1291.62088号 ·doi:10.1080/03610918.2012.712184
[56] Tallis,G.,分组数据的近似最大似然估计,技术计量学,9599-606(1967)
[57] Tanaka,K.,当对尺度参数的比率施加惩罚时,位置-尺度分布有限混合的最大似然估计的强相合性,Scand。《统计杂志》,36,171-184(2009)·Zbl 1190.62031号
[58] R.C.,R团队:统计计算的语言和环境,R统计计算基金会,奥地利维也纳,2018年。
[59] Teimouri,M.、Doser,J.W.和Finley,A.O.,《Forestfit:An R package for modeling plant size distributions》,环境。模型1。柔和。(2020),可在doi:10.1016/j.envsoft.2020.104668获取,第104668页。
[60] 蒂莱,Y。;Langel,M.,分组数据洛伦兹曲线和基尼指数的基于直方图的插值,《美国统计》,66,225-231(2012)·兹伯利07649025 ·doi:10.1080/00031305.2012.734197
[61] 吴,X。;Perloff,J.M.,《中国收入分配,1985-2001年》,《经济学评论》。统计数据,87763-775(2005)·doi:10.1162/003465305775098206
[62] 吴,X。;Perloff,J.M.,区间数据最大熵分布的GMM估计,《计量经济学》,138,532-546(2007)·Zbl 1418.62026号 ·doi:10.1016/j.jeconom.2006.05.008
[63] Yu,Y。;Harvill,J.L.,Weibull混合模型拟合分组数据的Bootstrap似然比检验,Commun。Stat.Theor公司。M、 484550-4568(2019)·Zbl 1508.62058号 ·doi:10.1080/03610926.2018.1494838
[64] 张,H。;Huang,Y.,有限混合模型及其应用:综述,奥斯汀生物。生物统计。,2, 1-6 (2015)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。