×

具有协变量和离群值的多元纵向数据的基于模型的时变聚类。 (英语) Zbl 1464.62128号

摘要:介绍了一类纵向背景下的多元线性模型,其中未观察到的异质性可能会随着时间的推移而演变。考虑一个潜在结构来建模异质性,它具有离散的支持度,并遵循一阶马尔可夫链。引入了重尾多元分布来处理离群值。使用期望最大化和期望条件最大化算法进行最大似然估计以估计参数。提供了关于模型可识别性和鲁棒性的说明,以及实现该提案所需的所有计算细节。举例说明了人工数据和真实数据的三种应用。这些关注于离群值对聚类及其识别的潜在影响。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
2005年6月2日 马尔可夫过程:估计;隐马尔可夫模型
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 艾利奥特,P。;贝萨克,J。;蒙贝特,V。;Pene,F.,风时间序列的非均质隐藏Markov开关模型,J.Statist。计划。推断,160,75-88,(2015)·Zbl 1311.62189号
[2] 巴格纳托,L。;格雷塞林,F。;Punzo,A.,《关于正态判别分析中的谱分解》,Comm.Statist。模拟计算。,143471-1489年6月43日,(2014年)·Zbl 1333.62056号
[3] 巴格纳托,L。;Punzo,A.,单峰β和γ密度的有限混合物和(k)-凸点算法,计算。统计人员。,28, 4, 1571-1597, (2013) ·Zbl 1306.65024号
[4] Bai,X。;Chen,K。;Yao,W.,使用多元(t)分布的线性混合模型的混合,J.Stat.Compute。模拟。,86, 4, 771-787, (2016) ·Zbl 1510.62272号
[5] Bai,X。;姚,W。;Boyer,J.E.,混合回归模型的稳健拟合,计算。统计师。数据分析。,56, 7, 2347-2359, (2012) ·Zbl 1252.62011年
[6] 巴托卢奇,F。;Farcomeni,A.,基于潜在马尔可夫异质性结构的纵向数据动态logit模型的多元扩展,J.Amer。统计师。协会,104,486,816-831,(2009)·Zbl 1388.62158号
[7] 巴托洛奇,F。;Farcomeni,A.,带协变量的混合潜在马尔可夫模型中信息缺失的离散时间事件历史方法,生物统计学,71,1,80-89,(2015)·Zbl 1419.62308号
[8] 巴托卢奇,F。;Farcomeni,A。;Pennoni,F.,纵向数据的潜在马尔可夫模型,(2013),CRC出版社·Zbl 1341.62002号
[9] Baum,L.E。;Petrie,T。;索尔斯,G。;Weiss,N.,马尔可夫链概率函数统计分析中出现的最大化技术,《数学年鉴》。统计人员。,41, 1, 164-171, (1970) ·Zbl 0188.49603号
[10] M.Berkane。;Bentler,P.M.,多元数据中污染参数的估计和异常值的识别,社会学。方法研究,17,1,55-64,(1988)
[11] 比尔纳基,C。;Celeux,G。;Govaert,G.,《用综合完全似然评估聚类的混合模型》,IEEE Trans。模式分析。机器。智力。,22, 7, 719-725, (2000)
[12] 比尔纳基,C。;Celeux,G。;Govaert,G.,为EM算法选择初始值,以获得多元高斯混合模型中的最大似然,计算。统计师。数据分析。,41, 3-4, 561-575, (2003) ·Zbl 1429.62235号
[13] Browne,R.P。;McNicholas,P.D.,广义双曲分布的混合,Canad。J.统计。,第43页,第2176-198页(2015年)·Zbl 1320.62144号
[14] Bulla,J。;Berzel,A.,平稳隐马尔可夫模型参数估计中的计算问题,计算。统计人员。,23, 1, 1-18, (2008)
[15] 北卡罗来纳州坎贝尔。;Mahon,R.J.,澳大利亚细粒棘属两种岩蟹变异的多元研究。J.Zool。,22, 3, 417-425, (1974)
[16] Crawford,S.L.,《拉普拉斯方法在有限混合分布中的应用》,J.Amer。统计师。协会,89,425,259-267,(1994)·Zbl 0795.62022号
[17] Dannemann,J。;霍尔兹曼,H。;Leister,A.,半参数隐马尔可夫模型:可识别性和估计,Wiley Interdiscip。版次计算。统计,6,6,418-425,(2014年)
[18] Dempster,A。;莱尔德,N。;Rubin,D.,通过EM算法从不完整数据中获得的最大似然,J.R.Stat.Soc.Ser。B统计方法。,39, 1, 1-38, (1977) ·Zbl 0364.62022号
[19] Dickson,E.R。;Grambsch,P.M。;弗莱明,T.R。;费希尔,L.D。;Langworthy,A.,《原发性胆汁性肝硬化的预后:决策模型》,肝病学,10,1-7,(1989)
[20] Farcomeni,A.,基于潜在马尔可夫主题特定参数的纵向数据分位数回归,统计计算。,22, 1, 141-152, (2012) ·Zbl 1322.62206号
[21] Farcomeni,A。;Greco,L.,隐马尔可夫模型的S估计,计算。统计人员。,30, 1, 57-80, (2015) ·Zbl 1342.65032号
[22] Franczak,B.C。;Browne,R.P。;McNicholas,P.D.,移位非对称克拉布分布的混合,IEEE Trans。模式分析。机器。智力。,36, 6, 1149-1157, (2014)
[23] Frühwirth-Schnatter,S.,有限混合和马尔可夫切换模型,(2006),纽约施普林格出版社·Zbl 1108.6202号
[24] Frühwirth-Schnatter,S.,《面板数据分析:基于模型的时间序列聚类调查》,《高级数据分析》。分类。,5, 4, 251-280, (2011) ·Zbl 1274.62591号
[25] Frühwirth-Schnatter,S。;Kaufmann,S.,《基于模型的多时间序列聚类》,J.Bus。经济。统计人员。,第26页,第1页,第78-89页,(2008年)
[26] 加西亚·埃斯库德罗,洛杉矶。;Gordaliza,A。;马特兰,C。;Mayo-Iscar,A.,《稳健聚类方法综述》,《高级数据分析》。分类。,4, 2, 89-109, (2010) ·Zbl 1284.62375号
[27] 加西亚·埃斯库德罗,洛杉矶。;Gordaliza,A。;Mayo-Iscar,A。;San Martín,R.,通过修剪的稳健聚类线性回归,计算。统计师。数据分析。,54, 12, 3057-3069, (2010) ·Zbl 1284.62198号
[28] Goldfeld,S.M。;Quandt,R.E.,切换回归的马尔可夫模型,计量经济学杂志,1,1,3-15,(1973)·Zbl 0294.62087号
[29] 格雷塞林,F。;Ingrassia,S.公司。;Punzo,A.,通过增强多重测试程序评估协方差矩阵的模式,统计方法应用。,2011年2月20日,141-170·Zbl 1232.62090号
[30] 格雷塞林,F。;Punzo,A.,评估协方差矩阵相似性的闭合似然比测试程序,Amer。统计人员。,第67页,第3117-128页(2013年)·Zbl 07649195号
[31] Grün,B。;Leisch,F.,广义线性回归模型的有限混合,(线性模型和相关领域的最新进展:海尔赫·图滕堡荣誉论文,(2008),Physica-Verlag HD Heidelberg),205-230,(第章)·Zbl 1141.62056号
[32] Hamilton,J.D.,《受制度变化影响的时间序列分析》,《计量经济学杂志》,45,1-2,39-70,(1990)·Zbl 0723.62050号
[33] Hartigan,J.A。;Hartigan,P.M.,《单峰的倾斜检验》,Ann.Statist。,13, 1, 70-84, (1985), 03 ·Zbl 0575.62045号
[34] Hennig,C.,聚类线性回归模型的可识别性,J.分类,17,2,273-296,(2000)·Zbl 1017.62058号
[35] 霍尔兹曼,H。;Munk,A。;Gneiting,T.,椭圆分布有限混合的可识别性,Scand。J.统计。,33, 4, 753-763, (2006) ·Zbl 1164.62354号
[36] Ingrassia,S.公司。;南卡罗来纳州米诺蒂。;Punzo,A.,通过线性聚类加权模型进行基于模型的聚类,Comput。统计师。数据分析。,71, 159-182, (2014) ·Zbl 1471.62095号
[37] Ingrassia,S.公司。;Punzo,A.,回归混合的决策边界,J.Korean Statist。Soc.,45,2,295-306,(2016)·Zbl 1341.62181号
[38] Ingrassia,S.公司。;Punzo,A。;维塔迪尼,G。;Minotti,S.C.,广义线性混合聚类加权模型,J.Classification,32,1,85-113,(2015)·Zbl 1331.62310号
[39] Juárez,文学硕士。;Steel,M.F.J.,基于斜交(t)分布的非高斯面板数据的基于模型的聚类,J.Bus。经济。统计人员。,28, 1, 52-66, (2010) ·Zbl 1198.62097号
[40] Karlis,D。;Santourian,A.,基于模型的非椭圆轮廓分布聚类,统计计算。,19, 1, 73-83, (2009)
[41] 拉戈纳,F。;贾达诺夫,D。;Shkolnikova,M.,《纵向分析中的潜在时变因素:心率的线性混合隐马尔可夫模型》,Stat.Med.,33,23,4116-4134,(2014)
[42] 拉戈纳,F。;马鲁蒂,A。;Padovano,F.,《立法计数数据的多级多元建模,带有隐藏马尔可夫链》,J.Roy。统计师。Soc.-序列号。A、 178705-723(2015)
[43] 朗洛克,R。;King,R.,《存在连续协变量的标记-再捕获-再恢复模型的最大似然估计》,Ann.Appl。Stat.,第7、3、1709-1732页,(2013年)·Zbl 1454.62451号
[44] 兰洛克,R。;斯威哈特,B.J。;Caffo,B.S。;新墨西哥州旁遮普。;Crainiceanu,C.M.,《结合隐马尔可夫模型比较多个睡眠脑电图的动态》,《统计医学》,32,19,3342-3356,(2013)
[45] Lee,Y。;Ghosh,D。;R.C.哈迪逊。;Zhang,Y.,Mrhmms:多元回归隐马尔可夫模型及其变体,生物信息学,30,13,1755-1756,(2014)
[46] Lee,S.X。;McLachlan,G.J.,基于模型的非正态混合分布聚类和分类,统计方法应用。,22, 4, 427-454, (2013) ·Zbl 1332.62209号
[47] Lee,S.X。;McLachlan,G.J.,多元斜(t)分布的有限混合:一些最新结果,统计计算。,24, 2, 181-202, (2014) ·Zbl 1325.62107号
[48] Leroux,B.G.,隐马尔可夫模型的最大似然估计,随机过程。申请。,40, 1, 127-143, (1992) ·Zbl 0738.62081号
[49] Lin,T.I.,多元正态混合模型的最大似然估计,《多元分析》。,100, 2, 257-265, (2009) ·Zbl 1152.62034号
[50] Lin,T.I.,使用多元斜交分布的稳健混合建模,统计计算。,20, 3, 343-356, (2010)
[51] Little,R.J.A.,从缺失值数据中稳健估计平均值和协方差矩阵,Appl。统计,37,1,23-38,(1988)·Zbl 0647.62040号
[52] Lo,K。;Gottardo,R.,《通过带箱盒变换的多元(t)分布进行灵活混合建模:斜(t)分配的替代方法》,Stat.Compute。,22, 1, 33-52, (2012) ·Zbl 1322.62173号
[53] 麦克唐纳,I.L.,《可能性的数值最大化:EM?的一个被忽视的替代方案》?,国际。统计师。版次:82、2、296-308(2014)·Zbl 1416.62152号
[54] Martinez-Zarzoso,I。;Maruotti,A.,《环境库兹涅茨曲线:面板设置中的函数形式、时变异质性和异常值》,Environmetrics,24,7461-475,(2013)
[55] Maruotti,A.,纵向数据的混合隐马尔可夫模型:概述,国际。统计师。版次:79、3、427-454(2011)·Zbl 1238.62094号
[56] Maruotti,A.,纵向环境下隐马尔可夫回归模型的鲁棒拟合,J.Stat.Comput。模拟。,84, 8, 1728-1747, (2014) ·Zbl 1453.62618号
[57] Maruotti,A。;Punzo,A。;马斯特兰托尼奥,G。;Lagona,F.,基于隐马尔可夫异质性结构的纵向循环数据投影正态回归模型的时间相关扩展,Stoch。环境。Res.风险评估。,(2016),(正在出版)。http://dx.doi.org10.1007/s00477-015-1183-5
[58] Maruotti,A。;Rocci,R.,分类数据的混合非齐次隐马尔可夫模型,应用于酒精消费,Stat.Med.,31,9,871-886,(2012)
[59] McLachlan,G.J.,《判别分析和统计模式识别》,(1992),约翰·威利父子公司,新泽西州,第二次印刷·Zbl 0850.62481号
[60] McLachlan,G.J。;Peel,D.,有限混合模型,(2000),纽约John Wiley&Sons·Zbl 0963.62061号
[61] 孟,X.-L。;Rubin,D.B.,《通过ECM算法的最大似然估计:一般框架》,《生物特征识别》,80,2,267-278,(1993)·Zbl 0778.62022号
[62] Punzo,A.,多项式高斯聚类加权模型的柔性混合建模,统计模型。,2014年3月14日,257-291·Zbl 07257904号
[63] Punzo,A。;Browne,R.P。;McNicholas,P.D.,混合模型选择的假设检验,J.Stat.Compute。模拟。,(2016),(正在出版)。http://dx.doi.org10.1080/00949655.2015.1131282 ·Zbl 07184768号
[64] Punzo,A。;Ingrassia,S.,通过聚类加权模型对双变量混合类型数据进行聚类,计算。统计人员。,(2015年),(出版中)。http://dx.doi.org10.1007/s00180-015-0600-z ·Zbl 1347.65030号
[65] Punzo,A。;Maruotti,A.,聚类多元纵向观测:污染高斯隐马尔可夫模型,J.Compute。图表。统计人员。,(2016),(正在出版)。http://dx.doi.org10.1080/10618600.2015.1089776
[66] Punzo,A.,McNicholas,P.D.,2014年。污染高斯聚类加权模型回归分析中的稳健聚类。arXiv.org电子版1409.6019。网址:http://arxiv.org/abs/1409.6019。
[67] Punzo,A。;McNicholas,P.D.,多元污染正态分布的节俭混合物,生物。J.,(2016),(出版中)·Zbl 1353.62124号
[68] 派恩,S。;胡,X。;王凯。;Rossin,E。;Lin,T.I。;迈尔,L.M。;Baecher-Allan,C。;McLachlan,G.J。;Tamayo,P。;哈夫勒,D.A。;De Jager,P.L。;Mesirov,J.P.,自动化高维流式细胞术数据分析,Proc。国家。阿卡德。科学。,106, 21, 8519-8524, (2009)
[69] Raffa,J.D。;Dubin,J.A.,混合效应隐马尔可夫模型的多元纵向数据分析,生物统计学,71,3,821-831,(2015)·Zbl 1419.62428号
[70] R核心团队,2013年。R: 统计计算语言和环境。R统计计算基金会,奥地利维也纳。网址:http://www.R-project.org/。
[71] Ritter,G.,(稳健聚类分析和变量选择,Chapman&Hall/CRC统计学与应用概率专著,第137卷,(2015),CRC出版社)·Zbl 1341.62037号
[72] Schliehe Diecks,S.公司。;Kappeler,P。;Langrock,R.,《关于混合隐马尔可夫模型在多行为时间序列中的应用》,界面焦点,2180-189,(2012)
[73] 新泽西州斯科克。;Schork,M.A.,《偏态和正态分布的混合》,《公共统计》。理论方法,17,11,3951-3969,(1988)·Zbl 0696.62062号
[74] 施鲁德,H.T。;Hafley,W.L.,《描述树高和直径林分结构的有用二元分布》,《生物统计学》,33,3,471-478,(1977)
[75] Schwarz,G.,估算模型的维数,Ann.Statist。,6, 2, 461-464, (1978) ·Zbl 0379.62005年
[76] Subedi,S。;Punzo,A。;Ingrassia,S.公司。;McNicholas,P.D.,通过聚类加权因子分析仪进行聚类和分类,高级数据分析。分类。,7, 1, 5-40, (2013) ·Zbl 1271.62137号
[77] Subedi,S。;Punzo,A。;Ingrassia,S.公司。;McNicholas,P.D.,基于稳健模型的聚类和降维的聚类加权因子分析,统计方法应用。,24, 4, 623-649, (2015) ·Zbl 1416.62362号
[78] Titterington,D.M。;A.F.M.史密斯。;Makov,U.E.,有限混合物分布的统计分析,(1985),John Wiley&Sons纽约·兹伯利0646.62013
[79] Turner,R.,隐马尔可夫模型可能性的直接最大化,计算。统计师。数据分析。,52, 9, 4147-4160, (2008) ·Zbl 1452.62606号
[80] Vermunt,J.K.,使用混合模型的纵向研究,(潜在变量的纵向研究,(2010),海德堡施普林格-柏林),119-152,(第章)
[81] Visser,I.,《关于隐马尔可夫模型的七件事:关于时间序列的马尔柯夫模型的教程》,J.Math。心理学,55,6,403-415,(2011)·Zbl 1229.62128号
[82] Viterbi,A.J.,卷积码的误差界和渐近最优解码算法,IEEE Trans。通知。理论,13,2,260-269,(1967)·Zbl 0148.40501号
[83] Wang,W.-L.,不规则观测多重重复测量结果缺失的多元t线性混合模型,Biom。J.,55,4,554-571(2013)·Zbl 1441.62525号
[84] Wang,W.-L。;林,T.-I。;Lachos,V.H.,《用删失响应和重尾扩展多重纵向数据的多元线性混合模型》,《统计方法医学研究》,(2015年),(出版中)。http://dx.doi.org/10.1177/0962280215620229
[85] 朱,X。;Melnykov,V.,有限混合建模中的Manly变换,计算。统计师。数据分析(2016)·Zbl 1469.62184号
[86] 西祖奇尼。;MacDonald,I.L.,时间序列的隐马尔可夫模型:使用R(右)(2009年),佛罗里达州查普曼和霍尔博卡拉顿·Zbl 1180.62130号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。