×

非对称簇和离群值:多元污染移位非对称拉普拉斯分布的混合物。 (英语) Zbl 1507.62136号

摘要:开发了多元污染移位非对称拉普拉斯分布的混合,用于处理存在离群值(这里也称为坏点)的非对称簇。除了相关未污染混合物的参数外,对于每个(非对称)簇,我们的模型有一个参数控制异常值的比例,另一个参数指定污染程度。重要的是,不必指定这些参数先验的为我们的方法增加了其他方法(如修剪)所没有的灵活性。此外,每个观察结果都有一个后部属于特定集群的概率,以及是否为异常值的概率;有利的是,这允许自动检测异常值。本文概述了一种用于参数估计的期望条件最大化算法,并讨论了各种实现问题。在人工数据和实际数据上,研究了该模型的行为,并与成熟的有限混合方法进行了比较。

MSC公司:

62-08 统计学相关问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
10层62层 点估计
62H10型 统计的多元分布
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abreu,N.G.,《Analise do perfil do client recheio e desenvolvimento de um sisma promocional》(2011年),《Mestrado em Marketing》,里斯本ISCTE-IUL出版社,(博士论文)
[2] 艾特肯,公元1926年。关于代数方程的伯努利数值解。摘自:《爱丁堡皇家学会学报》,第46卷,第289-305页。;艾特肯,公元1926年。关于代数方程的伯努利数值解。摘自:《爱丁堡皇家学会学报》,第46卷,第289-305页·JFM 52.0098.05号
[3] 艾特金,M。;Wilson,G.T.,《混合模型、离群值和EM算法》,技术计量学,22,3,325-331(1980)·Zbl 0466.62034号
[4] Altman,E.I.,《财务比率、判别分析和企业破产预测》,《金融杂志》,23,4,589-609(1968)
[5] 安德鲁斯,J.L。;McNicholas,P.D.,《多元因子分析仪的扩展混合》,统计计算。,21, 3, 361-373 (2011) ·Zbl 1255.62171号
[6] 安德鲁斯,J.L。;McNicholas,P.,《通过多元(t)分布混合物进行基于模型的聚类、分类和判别分析:(t)特征族》,统计计算。,22, 5, 1021-1029 (2012) ·Zbl 1252.62062号
[7] Azzalini,A.,《偏态正态分布和相关多变量家族》,Scand。《美国统计杂志》,32,2,159-188(2005)·兹比尔1091.62046
[8] 阿扎里尼,A。;Capitanio,A.,《偏态和相关家族》(IMS专著,第3卷(2014年),剑桥大学出版社)·Zbl 0924.62050号
[9] 巴格纳托,L。;Punzo,A.,单峰β和γ密度的有限混合物和(k)-凸点算法,计算。统计,28,4,1571-1597(2013)·Zbl 1306.65024号
[10] 巴格纳托,L。;Punzo,A。;Zoia,M.G.,《多元轻量级正态分布及其在基于模型聚类中的应用》,加拿大。J.统计。,45, 1, 95-119 (2017) ·Zbl 1462.62308号
[11] Banfield,J.D。;Raftery,A.E.,基于模型的高斯和非高斯聚类,生物统计学,49,3,803-821(1993)·Zbl 0794.62034号
[12] 巴索·R·M。;拉科斯,V.H。;卡布拉尔,C.R.B。;Ghosh,P.,基于偏态正态分布比例混合的稳健混合建模,计算。统计师。数据分析。,54, 12, 2926-2941 (2010) ·Zbl 1284.62193号
[13] J.伯杰。;Berliner,L.,《使用(varepsilon)污染先验的稳健贝叶斯和经验贝叶斯分析》,Ann.Statist。,14, 2, 461-486 (1986) ·Zbl 0602.62004号
[14] M.Berkane。;Bentler,P.M.,多元数据中污染参数的估计和异常值的识别,社会学。方法研究,17,1,55-64(1988)
[15] 比尔纳基,C。;Celeux,G。;Govaert,G.,为EM算法选择初始值,以获得多元高斯混合模型中的最大似然,计算。统计师。数据分析。,41,3-4,561-575(2003年)·Zbl 1429.62235号
[16] Böhning,D。;迪茨,E。;Schaub,R.等人。;施拉特曼,P。;Lindsay,B.G.,单参数指数族密度混合物的似然比分布,Ann.Inst.Statist。数学。,46, 2, 373-388 (1994) ·Zbl 0802.62017年
[17] 钎料,S。;斯帕克斯,R.S.J。;凯里,S.N。;Sigurdsson,H。;Westgate,J.A.,《气飞灰层中的双峰粒度分布和二次增稠》,《自然》,301,115-119(1983)
[18] Browne,R.P。;McNicholas,P.D.,广义双曲分布的混合,Canad。J.统计。,43, 2, 176-198 (2015) ·Zbl 1320.62144号
[19] 卡布拉尔,C.S.B。;拉科斯,V.H。;Prates,M.O.,使用偏正态独立分布的多元混合建模,计算。统计师。数据分析。,56, 126-142 (2012) ·Zbl 1239.62058号
[20] Celeux,G。;Govaert,G.,高斯简约聚类模型,模式识别。,28, 5, 781-793 (1995)
[21] Dang,U.J。;Browne,R.P。;McNicholas,P.D.,多元幂指数分布的混合,生物统计学,71,4,1081-1089(2015)·Zbl 1419.62330号
[22] Dang,U.J。;Punzo,A。;Mcnicholas,P.D。;Ingrassia,S.公司。;Browne,R.P.,高斯加权模型的多元响应和简约性,J.Classification,34,1,4-34(2017)·Zbl 1364.62149号
[23] Dasgupta,A。;Raftery,A.E.,《通过基于模型的聚类检测杂波空间点过程中的特征》,J.Amer。统计师。协会,93,441,294-302(1998)·Zbl 0906.62105号
[24] Dharmadhikari,S。;Joag-Dev,K.,《单峰性、凸性和应用》,《概率和数理统计》(1988),爱思唯尔科学·Zbl 0646.62008号
[25] 弗雷利,C。;Raftery,A.E.,基于模型的聚类、判别分析和密度估计,J.Amer。统计师。协会,97,458,611-631(2002)·Zbl 1073.62545号
[26] Franczak,B.C.,移位非对称拉普拉斯分布的混合(2014),圭尔夫大学(博士论文)
[27] Franczak,B.C。;Browne,R.P。;McNicholas,P.D.,移位非对称拉普拉斯分布的混合,IEEE Trans。模式分析。机器。智力。,36, 6, 1149-1157 (2014)
[28] 加洛赫,M.P.B。;McNicholas,P.D.,偏斜矩阵变量分布的有限混合,模式识别。,80, 83-93 (2018)
[29] 加洛赫,M.P.B。;McNicholas,P.D.,《三个偏斜矩阵变量分布》,统计学。普罗巴伯。莱特。,145, 3, 103-109 (2019) ·Zbl 1414.62173号
[30] 加列戈斯,麻省理工学院。;Ritter,G.,Trimmed ML对受污染混合物的估计,Sankhyá,71,2,164-220(2009)·Zbl 1193.62021号
[31] 古铁雷斯,R.G。;卡罗尔·R·J。;Wang,N。;Lee,G.H。;Taylor,B.H.,使用正态混合物分布分析番茄根系萌生,生物统计学,51,4,1461-1468(1995)·Zbl 0875.62505号
[32] Hall,B.,Hall,M.,2017年。LaplacesDemon:贝叶斯推理的完整环境。版本16.1.0。;Hall,B.,Hall,M.,2017年。拉普拉斯恶魔:贝叶斯推理的完整环境。版本16.1.0。
[33] 休伯特,L。;Arabie,P.,《分区比较》,分类杂志,2193-218(1985)
[34] Karlis,D。;Santourian,A.,基于模型的非椭圆轮廓分布聚类,统计计算。,19, 1, 73-83 (2009)
[35] Karlis,D。;Xekalaki,E.,为有限混合物的EM算法选择初始值,计算。统计师。数据分析。,41, 3-4, 577-590 (2003) ·Zbl 1429.62082号
[36] Kass,R.E。;Raftery,A.E.,Bayes factors,J.Amer。统计师。协会,90,773-795(1995)·Zbl 0846.62028号
[37] Keribin,C.,混合模型阶数的一致估计,Sankhyá,62,1,49-66(2000)·兹比尔1081.62516
[38] 科茨,S。;Kozubowski,T。;Podgorski,K.,(《拉普拉斯分布与泛化:通信、经济、工程和金融应用回顾》。《拉普拉士分布与泛型:通信、经济学、工程和财务应用回顾》,SpringerLink:Bücher(2012),Birkhäuser Boston)·Zbl 0977.62003年
[39] 拉科斯,V.H。;Ghosh,P。;Arellano-Valle,R.B.,基于似然的偏态-正态独立线性混合模型推断,统计。Sinica,20,1,303-322(2010年)·Zbl 1186.62071号
[40] 拉科斯,V.H。;Labra,F.V.,《多元偏正态/独立分布:性质和推断》,《数学预测》,28,56,11-53(2014)
[41] Lee,S.X。;McLachlan,G.J.,多元斜(t)分布的有限混合:一些最新结果,统计计算。,24, 2, 181-202 (2014) ·Zbl 1325.62107号
[42] Lin,T.I.,多元正态混合模型的最大似然估计,《多元分析》。,100, 2, 257-265 (2009) ·Zbl 1152.62034号
[43] Lin,T.I.,使用多元斜交分布的稳健混合建模,统计计算。,20, 343-356 (2010)
[44] Lin,T.I.,通过特征值分解通过参数化混合模型从不完整数据中学习,计算。统计师。数据分析。,71, 183-195 (2014) ·Zbl 1471.62120号
[45] Lin,T.I。;Ho,H.J。;Shen,P.S.,具有缺失信息的多元混合模型的计算有效学习,计算。《统计》,24,3,375-392(2009)·Zbl 1189.62095号
[46] Lin,T.I。;Lee,J.C。;Ho,H.J.,关于具有缺失信息的正态混合模型的快速监督学习,模式识别。,39, 6, 1177-1187 (2006) ·Zbl 1096.68723号
[47] Lin,T.I。;Lee,J.C。;Yen,S.Y.,使用斜正态分布的有限混合建模,Statist。Sinica,17,3,909-927(2007)·Zbl 1133.62012年
[48] Lin,T.I。;Wang,W.L。;McLachlan,G.J。;Lee,S.X.,使用受限多元斜(t)分布的稳健因子分析模型混合,统计模型。,18, 1, 50-72 (2018) ·Zbl 07289498号
[49] Lo,K。;Gottardo,R.,《通过带Box-Cox变换的多元(t)分布进行灵活混合建模:斜(t)分配的替代方法》,Stat.Compute。,22,1,33-52(2012年)·Zbl 1322.62173号
[50] Maruotti,A。;Punzo,A.,具有协变量和离群值的多元纵向数据的基于模型的时变聚类,计算。统计师。数据分析。,113, 475-496 (2017) ·Zbl 1464.62128号
[51] Mazza,A。;Punzo,A.,多元污染正态回归模型的混合,统计学。论文(2018)·Zbl 1435.62238号
[52] McLachlan,G.J。;Basford,K.E.,《混合模型——推断和聚类应用》,254(1988),马塞尔·德克尔:马塞尔·戴克尔纽约·Zbl 0697.62050号
[53] McLachlan,G.J。;比恩,R.W。;Jones,L.B.T.,将混合因子分析模型扩展为包含多元分布,计算。统计师。数据分析。,51, 11, 5327-5338 (2007) ·Zbl 1445.62053号
[54] 麦克拉克伦,G。;Krishnan,T.,《EM算法和扩展》(The EM algorithm and extensions)((2008),霍博肯:新泽西州霍博肯市:威利)·Zbl 1165.62019号
[55] McLachlan,G.J。;Peel,D.,有限混合模型,419(2000),John Wiley&Sons:John Willey&Sons纽约·Zbl 0963.62061号
[56] McLachlan,G.J。;皮,D。;Bean,R.W.,用混合因子分析仪模拟高维数据,计算。统计师。数据分析。,41, 3-4, 379-388 (2003) ·Zbl 1256.62036号
[57] McNicholas,P.D.,《基于混合模型的分类》(2016年),查普曼和霍尔/CRC出版社:查普曼&霍尔/CRC Press Boca Raton
[58] McNicholas,P.D.,基于模型的聚类,J.Classification,33,3,331-373(2016)·Zbl 1364.62155号
[59] 麦克尼古拉斯,S.M。;医学博士麦克尼古拉斯。;Browne,R.P.,方差伽马因子分析器的混合,(Ahmed,S.E.,《大数据和复杂数据分析:方法论和应用》(2017),施普林格国际出版:施普林格国际出版商会),369-385·Zbl 1381.62187号
[60] 医学博士麦克尼古拉斯。;Murphy,T.B.,简约高斯混合模型,统计计算。,18285-296(2008年)
[61] 医学博士麦克尼古拉斯。;墨菲,T.B。;麦克达德,A.F。;Frost,D.,通过简约高斯混合模型实现基于模型的聚类的串行和并行实现,Comput。统计师。数据分析。,54, 3, 711-723 (2010) ·Zbl 1464.62131号
[62] 梅利尼科夫,V。;Melnykov,I.,在成分数目未知的高斯混合模型中初始化em算法,计算。统计师。数据分析。,56, 6, 1381-1395 (2012) ·Zbl 1246.65025号
[63] 孟晓乐。;Rubin,D.B.,《通过ECM算法的最大似然估计:一般框架》,《生物特征识别》,80,2,267-278(1993)·Zbl 0778.62022号
[64] Murphy,E.A.,一个原因?多种原因?来自双峰分布的论证,J.慢性病。,17, 4, 301-324 (1964)
[65] 莫里,P.M。;Browne,R.B。;McNicholas,P.D.,偏态因子分析仪的混合物,计算。统计师。数据分析。,77, 326-335 (2014) ·Zbl 1506.62132号
[66] 莫里,P.M。;Browne,R.B。;McNicholas,P.D.,隐截断双曲分布,其有限混合,及其在聚类中的应用,J.Multivariate Anal。,161, 141-156 (2017) ·Zbl 1403.62028号
[67] 莫里,P.M。;Browne,R.P。;McNicholas,P.D.,SDB斜因子分析仪的混合物,经济。统计,3160-168(2017)
[68] 奥哈根,A。;墨菲,T.B。;I.C.戈姆利。;医学博士麦克尼古拉斯。;Karlis,D.,多元正态逆高斯分布聚类,计算。统计师。数据分析。,93, 18-30 (2016) ·兹比尔1468.62151
[69] 皮,D。;McLachlan,G.J.,使用(t)分布的稳健混合建模,统计计算。,10, 4, 339-348 (2000)
[70] 普拉特斯,M。;拉科斯,V。;卡布拉尔,C.B。,混合smsn:拟合偏态正态分布的尺度混合的有限混合,J.Stat.Softw。,54, 12, 1-20 (2013)
[71] Punzo,A.,反高斯分布的新视角及其在保险和经济数据中的应用,J.Appl。统计(2018)
[72] Punzo,A。;巴格纳托,L。;Maruotti,A.,《保险损失的复合单峰分布》,《保险数学》。经济。,81, 4, 95-107 (2018) ·Zbl 1416.91217号
[73] Punzo,A。;Browne,R.P。;McNicholas,P.D.,混合模型选择的假设检验,J.Stat.Compute。模拟。,86, 14, 2797-2818 (2016) ·Zbl 07184768号
[74] Punzo,A。;Maruotti,A.,聚类多元纵向观测:污染高斯隐马尔可夫模型,J.Compute。图表。统计人员。,25, 4, 1097-1116 (2016)
[75] Punzo,A。;Mazza,A。;Maruotti,A.,用离群值拟合保险和经济数据:基于污染伽马分布有限混合的灵活方法,J.Appl。统计,45,14,2563-2584(2018)·Zbl 1516.62555号
[76] Punzo,A.,Mazza,A.,McNicholas,P.D.,2017年。污染混合:基于模型的聚类和分类,具有多元污染正态分布。版本1.1。;Punzo,A.,Mazza,A.,McNicholas,P.D.,2017年。污染混合:基于模型的聚类和分类,具有多元污染正态分布。版本1.1。
[77] Punzo,A。;Mazza,A。;医学博士麦克尼古拉斯。,受污染的混合物:一个R(右)用于拟合多元污染正态分布的简约混合物的软件包,J.Stat.Softw。,85, 10, 1-25 (2018)
[78] Punzo,A。;McNicholas,P.D.,污染高斯分布的鲁棒高维建模(2014),arXiv.org电子打印1408.2128。网址:
[79] Punzo,A。;McNicholas,P.D.,多元污染正态分布的节俭混合物,生物。J.,58,6,1506-1537(2016)·Zbl 1353.62124号
[80] Punzo,A。;McNicholas,P.D.,通过污染高斯聚类加权模型进行回归分析中的稳健聚类,J.Classification,34,2,249-293(2017)·Zbl 1373.62316号
[81] 派恩,S。;胡,X。;王凯。;Rossin,E。;Lin,T.I。;迈尔,L.M。;Baecher-Allan,C。;McLachlan,G.J。;Tamayo,P。;哈夫勒,D.A。;De Jager,P.L。;Mesirov,J.P.,自动化高维流式细胞术数据分析,Proc。国家。阿卡德。科学。,106218519-8524(2009年)
[82] R(右):《统计计算的语言与环境》(2017),R(右)统计计算基础:R(右)奥地利维也纳统计计算基金会
[83] Raftery,A.E.,社会研究中的贝叶斯模型选择,社会学。Methodol.方法。,25, 111-163 (1995)
[84] Rand,W.,《聚类方法评估的客观标准》,J.Amer。统计师。协会,66,336,846-850(1971)
[85] Ruwet,C。;加西亚·埃斯库德罗,洛杉矶。;Gordaliza,A。;Mayo-Iscar,A.,《tclust稳健聚类程序的影响函数》,《高级数据分析》。分类。,6, 2, 107-130 (2012) ·Zbl 1255.62182号
[86] 新泽西州斯科克。;Schork,M.A.,《偏态和正态分布的混合》,《公共统计》。理论方法,17,11,3951-3969(1988)·Zbl 0696.62062号
[87] Schwarz,G.,估算模型的维数,Ann.Statist。,6, 2, 461-464 (1978) ·Zbl 0379.62005年
[88] Scrucca,L。;Fop,M。;墨菲,T.B。;Raftery,A.E.,mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计,R(右)J.,8,1,289-317(2016)
[89] 达席尔瓦·费雷拉,C。;Bolfarine,H。;Lachos,V.H.,正态分布的斜标度混合:性质和估计,统计方法。,8, 2, 154-171 (2011) ·Zbl 1213.62023号
[90] Steinley,D.,《Hubert-Arable调整后的兰德指数的性质》,心理医学。方法,9,3,386-396(2004)
[91] Subedi,S。;McNicholas,P.D.,《通过正态逆高斯分布混合物进行聚类的变分贝叶斯近似》,《高级数据分析》。分类。,8, 2, 167-193 (2014) ·Zbl 1459.62122号
[92] Subedi,S。;Punzo,A。;Ingrassia,S.公司。;McNicholas,P.D.,通过聚类加权因子分析仪进行聚类和分类,高级数据分析。分类。,7, 1, 5-40 (2013) ·Zbl 1271.62137号
[93] Subedi,S。;Punzo,A。;Ingrassia,S.公司。;McNicholas,P.D.,基于稳健模型的聚类和降维的聚类加权因子分析,统计方法应用。,24, 4, 623-649 (2015) ·Zbl 1416.62362号
[94] 唐,Y。;R.Browne。;McNicholas,P.,通过联合广义双曲分布混合物对高维数据进行灵活聚类,Stat,7,1,Article e177 pp.(2018)
[95] Titterington,D.M。;A.F.M.史密斯。;Makov,U.E.,有限混合分布的统计分析,237(1985),John Wiley&Sons:John Willey&Sons New York·兹伯利0646.62013
[96] 弗瑞克,I。;McNicholas,P.D.,多元偏态模型EM算法的分析计算,统计学。普罗巴伯。莱特。,82, 6, 1169-1174 (2012) ·Zbl 1244.65012号
[97] 弗瑞克,I。;McNicholas,P.D.,基于模型的聚类和分类的简约斜交混合模型,计算。统计师。数据分析。,71, 196-210 (2014) ·Zbl 1471.62202号
[98] Wand,M.,2015年。KernSmooth:支持Wand&Jones的内核平滑函数(1995)。版本2.23-15。;Wand,M.,2015年。KernSmooth:支持Wand&Jones的内核平滑函数(1995)。版本2.23-15。
[99] Wang,W.L。;卡斯特罗,L.M。;Chang,Y·T。;Lin,T.I.,具有公共因子负载的受限偏斜因子分析器的混合物,高级数据分析。分类。(2018)
[100] Wang,W.L。;Lin,T.I.,《通过公共因子分析仪扩展混合的灵活聚类》,AStA高级统计分析。,101, 3, 227-252 (2017) ·Zbl 1443.62177号
[101] Wang,W.L。;刘,M。;Lin,T.I.,处理缺失数据的稳健斜交因子分析模型,统计方法应用。,26, 4, 649-672 (2017) ·Zbl 1441.62161号
[102] 王凯。;Ng,S.K。;McLachlan,G.J.,《多元斜交(t)混合模型:荧光激活细胞分类数据的应用》,(数字图像计算:技术与应用(2009),IEEE:IEEE Los Alamitos,California)
[103] 魏毅。;唐,Y。;McNicholas,P.D.,基于模型的不完全数据聚类的广义双曲分布和偏态t分布的混合,计算。统计师。数据分析。,130, 18-41 (2019) ·Zbl 1469.62162号
[104] 张杰。;Liang,F.,使用指数幂混合的稳健聚类,生物计量,66,4,1078-1086(2010)·Zbl 1233.62192号
[105] Zhu,X.,Melnykov,V.,2017年。ManlyMix:Manly混合建模和基于模型的聚类。0.1.11版。;Zhu,X.,Melnykov,V.,2017年。ManlyMix:Manly混合建模和基于模型的聚类。0.1.11版。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。