×

多元污染正态回归模型的混合。 (英语) Zbl 1435.62238号

摘要:回归模型混合(MRM)被广泛用于研究来自几个未知潜在同质组的变量之间的关系。通常,假设每个混合成分中响应的条件分布为(多元)正态(MN-MRM)。为了使该方法在可能的椭圆重尾偏离正态时具有鲁棒性,由于存在轻度异常值,本文引入了多元污染正态MRM。除了MN-MRM的参数外,每个混合物成分都有一个参数控制异常值的比例,另一个参数指定响应变量的污染程度。重要的是,这些参数不必预先指定,这为我们的方法增加了灵活性。此外,一旦对模型进行估计并将观测值分配给组,就可以直接在典型点和(轻度)异常值中获得更精细的组内分类。提供了可辨识条件,概述了用于参数估计的期望条件最大化算法,并讨论了各种实现和操作问题。通过蒙特卡罗实验评价了回归系数估计量的性质,并与其他方法进行了比较。这一新型模型系列的性能也在人工数据和实际数据上进行了说明,特别强调了在异速生长研究中的应用。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62J02型 一般非线性回归
第62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 艾特肯,AC,代数方程和超越方程根的系列公式,Proc R Soc Edib,45,1,14-22(1926)·doi:10.1017/S0370164600024871
[2] 艾特金,M。;Wilson,GT,混合模型、离群值和EM算法,技术计量学,22,3,325-331(1980)·Zbl 0466.62034号 ·doi:10.1080/00401706.1980.10486163
[3] 安德鲁斯,JL;McNicholas,PD,扩展多变量(t)因子分析仪的混合物,Stat Comput,21,361-373(2011)·Zbl 1255.62171号 ·doi:10.1007/s11222-010-9175-2
[4] 安德鲁斯,JL;麦克尼古拉斯,PD;Subedi,S.,通过多元分布混合物进行基于模型的分类,《计算统计数据分析》,55,520-529(2011)·Zbl 1247.62151号 ·doi:10.1016/j.csda.2010.05.019
[5] Baek,J。;McLachlan,GJ,用于聚类高维微阵列数据的共同因子分析仪的混合物,生物信息学,27,9,1269-1276(2011)·doi:10.1093/bioinformatics/btr112
[6] 巴格纳托,L。;Punzo,A.,单峰β密度和γ密度的有限混合以及(k)-凸点算法,计算统计,28,4,1571-1597(2013)·Zbl 1306.65024号 ·doi:10.1007/s00180-012-0367-4
[7] 巴格纳托,L。;Punzo,A。;Zoia,MG,多元轻子正态分布及其在基于模型聚类中的应用,Can J Stat,45,1,95-119(2017)·Zbl 1462.62308号 ·doi:10.1002/cjs.11308
[8] Bai,X。;姚,W。;Boyer,JE,混合回归模型的稳健拟合,计算统计数据分析,56,7,2347-2359(2012)·Zbl 1252.62011年 ·doi:10.1016/j.csda.2012.01.016
[9] JD Banfield;Raftery,AE,基于模型的高斯和非高斯聚类,生物统计学,49,3,803-821(1993)·Zbl 0794.62034号 ·doi:10.307/2532201
[10] M.Berkane。;Bentler,PM,多元数据中污染参数的估计和异常值的识别,社会方法研究,17,1,55-64(1988)·doi:10.1177/0049124188017001003
[11] 伯塔,P。;Ingrassia,S.公司。;Punzo,A。;Vittadini,G.,医院评估的多层次聚类加权模型,METRON,74,3,275-292(2016)·Zbl 1394.62154号 ·doi:10.1007/s40300-016-0098-3
[12] 比尔纳基,C。;Celeux,G。;Govaert,G.,《用综合完全似然评估聚类的混合模型》,IEEE Trans-Pattern Ana Mach Intell,22,7,719-725(2000)·doi:10.1109/34.865189
[13] 比尔纳基,C。;Celeux,G。;Govaert,G.,为EM算法选择初始值以获得多元高斯混合模型中的最大似然,计算统计数据分析,41,3-4,561-575(2003)·Zbl 1429.62235号 ·doi:10.1016/S0167-9473(02)00163-9
[14] Böhning D(1999)《计算机辅助混合分析与应用:荟萃分析、疾病绘图及其他》,Chapman&Hall/CRC统计学与应用概率专著,第81卷。泰勒和弗朗西斯·Zbl 0951.62088号
[15] Böhning,D。;迪茨,E。;Schaub,R。;施拉特曼,P。;Lindsay,B.,单参数指数族密度混合物的似然比分布,Ann Inst Stat Math,46,2,373-388(1994)·Zbl 0802.62017年 ·doi:10.1007/BF01720593
[16] Browne RP,Subedi S,McNicholas PD(2013)高斯简约聚类模型子集的约束优化。http://arxiv.org/abs/11306.5824
[17] 坎贝尔,北美;Mahon,RJ,Leptograpsus属两种岩蟹变异的多元研究,Aust J Zool,22,3,417-425(1974)·doi:10.1071/ZO9740417
[18] Celeux,G。;Govaert,G.,高斯简约聚类模型,模式识别,28,5,781-793(1995)·doi:10.1016/0031-3203(94)00125-6
[19] Celeux,G。;Hurn,M。;Robert,CP,混合后验分布的计算和推断困难,美国统计学会杂志,95,451,957-970(2000)·Zbl 0999.62020号 ·doi:10.1080/01621459.2000.10474285
[20] Clarke BR,Davidson T,Hammarstrand R(2017)拟合(k)分量单变量正态混合时,最小距离估计量和em算法的比较。统计文件第1-20页10.1007/s00362-016-0747-x·Zbl 1416.62148号
[21] 加利福尼亚州库斯塔·阿尔贝托斯;Gordaliza,A。;Matrán,C.,Trimmed(k)-意指:量化器鲁棒化的尝试,Ann Stat,25,2,553-576(1997)·Zbl 0878.62045号 ·doi:10.1214操作系统/1031833664
[22] Dang UJ,McNicholas PD(2015)回归模型的节约型有限混合族。收录:Morlini I、Minerva T、Vichi M(eds)《数据分析统计模型进展》。分类、数据分析和知识组织研究。瑞士施普林格第73-84页
[23] UJ Dang;Browne,RP;McNicholas,PD,多元幂指数分布的混合,生物统计学,71,4,1081-1089(2015)·Zbl 1419.62330号 ·doi:10.1111/biom.12351
[24] 当,UJ;Punzo,A。;麦克尼古拉斯,PD;Ingrassia,S.公司。;Browne,RP,高斯加权模型的多元响应和简约性,J Classif,34,1,4-34(2017)·Zbl 1364.62149号 ·doi:10.1007/s00357-017-9221-2
[25] 戴维斯,L。;Gather,U.,《多个离群值的识别》,美国统计协会期刊,88,423,782-792(1993)·Zbl 0797.62025号 ·doi:10.1080/01621459.1993.10476339
[26] 戴顿,CM;Macready,GB,伴随变量潜在类模型,J Am Stat Assoc,83,401,173-178(1988)·doi:10.1080/01621459.1988.10478584
[27] Dempster,A。;莱尔德,N。;Rubin,D.,通过EM算法从不完整数据中获得的最大似然,J Roy Stat Soc:Ser B,39,1,1-38(1977)·Zbl 0364.62022号
[28] Depraetere,N。;Vandebroek,M.,线性回归有限混合中的顺序选择,Stat Pap,55,3,871-911(2014)·Zbl 1334.62138号 ·文件编号:10.1007/s00362-013-0534-x
[29] 德萨博,WS;Cron,WL,《聚类线性回归的最大似然法》,J Classif,5,2,249-282(1988)·Zbl 0692.62052号 ·doi:10.1007/BF01897167
[30] Fraley C、Raftery AE、Murphy TB、Scrucca L(2012)mclust第4版R:基于模型的聚类、分类和密度估计的正态混合建模。华盛顿西雅图华盛顿大学统计系技术报告597·Zbl 1520.62002号
[31] Frühwirth-Schnatter,S.,有限混合和马尔可夫切换模型(2006),纽约:Springer,纽约·Zbl 1108.6202号
[32] 加林贝蒂,G。;Soffritti,G.,使用有限混合分布的多元线性回归分析,Comput Stat Data Anal,71138-150(2014)·Zbl 1471.62070号 ·doi:10.1016/j.csda.2013.01.017
[33] 加西亚·埃斯库德罗,洛杉矶;Gordaliza,A。;Mayo-Iscar,A。;San Martín,R.,通过修剪实现稳健聚类线性回归,《计算统计数据分析》,54,12,3057-3069(2010)·Zbl 1284.62198号 ·doi:10.1016/j.csda.2009.07.002
[34] Golam Kibria,BM;Safiul Haq,M.,《具有多元(t)和类内协方差结构的多元线性模型》,Stat Pap,40,3,263-276(1999)·Zbl 0937.62056号 ·doi:10.1007/BF202929875文件
[35] Gómez,E。;Gómez-Viliegas,马萨诸塞州;Marin,JM,幂指数分布族的多元推广,公共统计理论方法,27,3,589-600(1998)·Zbl 0895.62053号 ·doi:10.1080/03610929808832115
[36] 格雷塞林,F。;Punzo,A.,评估协方差矩阵相似性的闭合似然比测试程序,《美国统计》,67,3,117-128(2013)·Zbl 07649195号 ·doi:10.1080/00031305.2013.791643
[37] Grün,B。;Leisch,F.,FlexMix第2版:具有伴随变量和可变及常数参数的有限混合,J Stat Softw,28,4,1-35(2008)·doi:10.18637/jss.v028.i04
[38] Hartigan,JA,聚类中的统计理论。分类J,2,1,63-76(1985)·Zbl 0575.62058号 ·doi:10.1007/BF01908064
[39] 哈斯蒂,T。;Tibshirani,R.,高斯混合判别分析,J Roy Stat Soc,58,1,155-176(1996)·Zbl 0850.62476号
[40] Hennig,C.,聚类线性回归模型的可识别性,J Classif,17,2,273-296(2000)·Zbl 1017.62058号 ·doi:10.1007/s003570000022
[41] Hennig,C.,位置-尺度混合最大似然估计的分解点,Ann Stat,32,4,1313-1340(2004)·Zbl 1047.62063号 ·doi:10.1214/009053604000000571
[42] Ingrassia,S.,多元正态混合模型的基于似然的约束算法,统计方法应用,13,2,151-166(2004)·Zbl 1205.62066号 ·doi:10.1007/s10260-004-0092-4
[43] Ingrassia,S.公司。;Punzo,A.,回归混合的决策边界,韩国统计学会杂志,45,2,295-306(2016)·兹比尔1341.62181 ·doi:10.1016/j.jkss.2015.11.005
[44] Ingrassia,S.公司。;Rocci,R.,多元高斯有限混合的约束单调em算法,计算统计数据分析,51,11,5339-5351(2007)·Zbl 1445.62116号 ·doi:10.1016/j.csda.2006.10.011
[45] Ingrassia,S.公司。;南卡罗来纳州米诺蒂;Punzo,A.,通过线性聚类加权模型进行基于模型的聚类,《计算统计数据分析》,71,159-182(2014)·Zbl 1471.62095号 ·doi:10.1016/j.csda.2013.02.012
[46] Ingrassia,S.公司。;Punzo,A。;维塔迪尼,G。;Minotti,SC,广义线性混合聚类加权模型,J Classif,32,1,85-113(2015)·兹比尔1331.62310 ·doi:10.1007/s00357-015-9175-1
[47] 蒋伟(Jiang,W.)。;Tanner,MA,指数族回归模型的专家层次混合:近似和最大似然估计,Ann Stat,27,3,987-1011(1999)·Zbl 0957.62032号 ·doi:10.1214/aos/1018031265
[48] Karlis,D。;Xekalaki,E.,为有限混合物的EM算法选择初始值,计算统计数据分析,41,3-4,577-590(2003)·Zbl 1429.62082号 ·doi:10.1016/S0167-9473(02)00177-9
[49] 卡尔森,M。;Laitila,T.,删失回归模型的有限混合建模,Stat Pap,55,3,627-642(2014)·Zbl 1416.62215号 ·文件编号:10.1007/s00362-013-0509-y
[50] Klingenberg CP(1996)多元异速生长。形态计量学进展。纽约州施普林格第23-49页
[51] 克诺贝尔,BR;Burkhart,HE,模拟两个时间点森林直径分布的双变量分布方法,生物计量学,47,1241-253(1991)·doi:10.2307/2532509
[52] 拉科斯,VH;Angolini,T。;加利福尼亚州Abanto-Valle,《关于重尾分布下测量误差模型的估计和局部影响分析》,Stat Pap,52,3,567-590(2011)·Zbl 1434.62152号 ·doi:10.1007/s00362-009-0270-4
[53] 拉蒙特,AE;弗蒙特,JK;Van Horn,ML,回归混合模型:对自变量和潜在类之间的协方差建模是否会改善结果?,Multivar Behav Res,51,1,35-52(2016)·doi:10.1080/00273171.2015.1095063
[54] 兰格,吉隆坡;小,RJA;Taylor,JMG,使用(t)分布的稳健统计建模,美国统计协会杂志,84,408,881-896(1989)
[55] Leisch,F.,FlexMix:R中有限混合模型和潜在类回归的一般框架,J Stat Softw,11,8,1-18(2004)·doi:10.18637/jss.v011.i08
[56] Little,RJA,从缺失值数据中稳健估计均值和协方差矩阵,应用统计,37,1,23-38(1988)·Zbl 0647.62040号 ·doi:10.2307/2347491
[57] Maruotti,A。;Punzo,A.,多元纵向数据的基于模型的时变聚类与协变量和离群值,《计算统计数据分析》,113,4,475-496(2017)·Zbl 1464.62128号 ·doi:10.1016/j.csda.2016.05.024
[58] Mazza A、Punzo A、Ingrassia S(2015)flexCWM:柔性集群加权建模。http://cran.r-project.org/web/packages/flexCWM/index.html
[59] Mazza A、Punzo A、Ingrassia S(2018)flexCWM。集群加权模型的灵活框架。J Stat Softw第1-29页
[60] McLachlan G,Krishnan T(2007)《EM算法和扩展》,《概率统计威利级数》,第382卷,第2版。纽约威利·Zbl 1165.62019号
[61] GJ麦克拉克伦;Peel,D.,有限混合模型(2000),纽约:威利,纽约·兹比尔0963.62061
[62] McNicholas,PD,使用潜在高斯混合模型的基于模型的分类,J Stat Plan Inference,140,5,1175-1181(2010)·Zbl 1181.62095号 ·doi:10.1016/j.jspi.2009.11.006
[63] 麦克尼古拉斯,PD;Subedi,S.,使用多元(t)分布混合物聚类基因表达时间进程数据,J Stat Plan Inference,142,5,1114-1127(2012)·Zbl 1236.62068号 ·doi:10.1016/jspi.2011.11.026
[64] 麦克尼古拉斯,PD;墨菲,TB;空军麦克戴德;Frost,D.,通过简约高斯混合模型实现基于模型的聚类的串行和并行实现,《计算统计数据分析》,54,3,711-723(2010)·Zbl 1464.62131号 ·doi:10.1016/j.csda.2009.02.011
[65] 孟,XL;Rubin,DB,《通过ECM算法进行最大似然估计:一般框架》,Biometrika,80,2,267-278(1993)·Zbl 0778.62022号 ·doi:10.1093/biomet/80.2.267
[66] Neykov,N。;Filzmoser,P。;迪莫娃,R。;Neytchev,P.,《使用修剪似然估计对混合物进行稳健拟合》,《计算统计数据分析》,52,1,299-308(2007)·Zbl 1328.62033号 ·doi:10.1016/j.csda.2006.12.024
[67] 牛,X。;李,P。;Zhang,P.,在正态分布的比例混合中测试同质性,Stat Pap,57,2,499-516(2016)·Zbl 1348.62052号 ·doi:10.1007/s00362-015-0665-3
[68] 皮,D。;McLachlan,GJ,使用(t)分布的稳健混合建模,统计计算,10,4,339-348(2000)·doi:10.1023/A:1008981510081
[69] Punzo,A.,多项式高斯聚类加权模型的柔性混合建模,统计模型,14,3,257-291(2014)·Zbl 07257904号 ·doi:10.1177/1471082X13503455
[70] Punzo A,Ingrassia S(2015)解析广义线性高斯聚类加权模型。收录:莫里尼一世、密涅瓦T、维姬M(编辑)。数据分析统计模型的进展。分类、数据分析和知识组织研究。施普林格国际出版公司,瑞士,第201-209页
[71] Punzo,A。;Ingrassia,S.,通过聚类加权模型聚类二元混合类型数据,计算统计,31,3,989-1013(2016)·Zbl 1347.65030号 ·doi:10.1007/s00180-015-0600-z
[72] Punzo,A。;Maruotti,A.,《聚类多元纵向观测:受污染的高斯隐马尔可夫模型》,《计算Gr统计杂志》,25,4,1097-1116(2016)·doi:10.1080/10618600.2015.1089776
[73] Punzo,A。;McNicholas,PD,多元污染正态分布的解析混合物,Biometr J,58,61506-1537(2016)·Zbl 1353.62124号 ·doi:10.1002/bimj.21500144
[74] Punzo,A。;McNicholas,PD,通过污染高斯聚类加权模型进行回归分析中的稳健聚类,J Classif,34,2,249-293(2017)·Zbl 1373.62316号 ·数字对象标识代码:10.1007/s00357-017-9234-x
[75] Punzo,A。;Browne,RP;McNicholas,PD,混合模型选择的假设检验,J Stat Compute Simul,86,14,2797-2818(2016)·Zbl 07184768号 ·doi:10.1080/00949655.2015.1131282
[76] Punzo A、Bagnato L、Maruotti A(2017)保险损失的复合单峰分布。保险:数学经济。10.1016/j.insmatheco.2017.1007·Zbl 1416.91217号
[77] Punzo A,Mazza A,McNicholas PD(2018)污染混合:用于拟合多元污染正态分布的简约混合的R包。《软统计杂志》第1-25页
[78] 秦,LX;Self,SG,回归模型的聚类方法及其在基因表达数据中的应用,生物统计学,62,2,526-533(2006)·Zbl 1097.62134号 ·doi:10.1111/j.1541-0420.2005.00498.x
[79] R核心团队(2013)R:统计计算的语言和环境。奥地利维也纳R统计计算基金会,网址:http://www.R-project.org/
[80] Ritter,G.,《稳健聚类分析和变量选择》(2015),《CRC统计学与应用概率专著》。查普曼和霍尔/:CRC出版社,巴科·拉顿,CRC统计学和应用概率专著。查普曼和霍尔·Zbl 1341.62037号
[81] 罗素,PJ;Driessen,KV,最小协方差行列式估计的快速算法,《技术计量学》,41,3,212-223(1999)·doi:10.1080/0401706.1999.10485670
[82] 施勒德,HT;Hafley,WL,《描述树木高度和直径的林分结构的有用二元分布》,《生物统计学》,33,3,471-478(1977)·doi:10.307/2529361
[83] Schwarz,G.,估算模型的维数,Ann Stat,6,2,461-464(1978)·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[84] Seo,B。;Kim,D.,正态混合模型中的根选择,计算统计数据分析,56,8,2454-2470(2012)·Zbl 1252.62013年 ·doi:10.1016/j.csda.2012.01.022
[85] Skrondal,A。;Rabe-Hesketh,S.,《广义潜在变量建模:多级、纵向和结构方程模型》(2004),巴科·拉顿:跨学科统计。Taylor&Francis,巴科·拉顿·Zbl 1097.62001
[86] Song,W。;姚明,W。;Xing,Y.,拉普拉斯分布稳健混合回归模型拟合,计算统计数据分析,71128-137(2014)·Zbl 1471.62189号 ·doi:10.1016/j.csda.2013.06.022
[87] Stephens,M.,处理混合模型中的标签切换,J Royal Stat Soc B,62,4,795-809(2000)·Zbl 0957.62020号 ·doi:10.1111/1467-9868.00265
[88] Subedi,S。;Punzo,A。;Ingrassia,S.公司。;McNicholas,PD,通过聚类加权因子分析仪进行聚类和分类,Adv Data Anal Classif,7,1,5-40(2013)·Zbl 1271.62137号 ·doi:10.1007/s11634-013-0124-8
[89] Subedi,S。;Punzo,A。;Ingrassia,S.公司。;McNicholas,PD,基于稳健模型的聚类和降维的聚类加权因子分析,统计方法应用,24,4,623-649(2015)·兹比尔1416.62362 ·doi:10.1007/s10260-015-0298-7
[90] 图基,JW;Olkin,I.,《污染分布抽样调查》,《概率与统计贡献:纪念哈罗德·霍特林的论文》,斯坦福数学与统计研究,448-485(1960),加利福尼亚:斯坦福大学出版社,加利福尼亚·Zbl 0201.52803号
[91] 韦德尔,M。;Kamakura,W.,《市场细分:概念和方法基础》(2001),波士顿:Kluwer学术出版社,波士顿
[92] Yao,W.,混合物模型的基于模型的标签,统计计算,22,2,337-347(2012)·Zbl 1322.62047号 ·doi:10.1007/s11222-010-9226-8
[93] 姚,W。;Lindsay,BG,贝叶斯混合物最高后验密度标记,美国统计学会杂志,104,486,758-767(2009)·Zbl 1388.62007号 ·doi:10.1198/jasa.2009.0237
[94] 姚,W。;魏毅。;Yu,C.,使用\(t\)-分布的稳健混合回归,Comput Stat Data Anal,71111-127(2014)·Zbl 1471.62227号 ·doi:10.1016/j.csda.2013.07.019
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。