×

基于模型的不完全数据聚类的广义双曲分布和斜(t)分布的混合。 (英语) 兹比尔1469.62162

摘要:基于不完整数据的稳健聚类是一个重要的主题,因为在许多实际情况下,实际数据集是重尾、不对称和/或具有任意模式的缺失观测值。通过广义双曲分布及其极限情况——多元偏态t分布的混合,提出了灵活的基于模型的聚类方法和算法。针对采用随机缺失机制的混合模型,提出了一种分析可行的EM算法,用于参数估计和缺失值插补。通过不同比例的合成缺失值的模拟研究对所提出的方法进行了研究,并使用真实数据集进行了说明。通过使用平均插补方法填充缺失数据,将其与传统广义双曲分布对应项混合得到的结果进行了比较。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 艾特肯,A.C.,代数和超越方程根的系列公式,Proc。罗伊。爱丁堡州立大学,45,1,14-22,(1926)·格式51.0096.03
[2] 安德鲁斯,J.L。;McNicholas,P.D.,多元t因子分析仪的扩展混合,统计计算。,21, 3, 361-373, (2011) ·Zbl 1255.62175号
[3] 安德鲁斯,J.L。;McNicholas,P.D.,基于模型的聚类、分类和多元t分布混合判别分析,统计计算。,22, 5, 1021-1029, (2012) ·Zbl 1252.62062号
[4] Arellano-Valle,R。;Genton,M.G.,《多元扩展偏态t分布及其相关族》,Metron,68,3,201-234,(2010)·Zbl 1301.62016年
[5] Banfield,J.D。;Raftery,A.E.,基于模型的高斯和非高斯聚类,生物统计学,49,3,803-821,(1993)·Zbl 0794.62034号
[6] Barndorff-Nielsen,O.,《粒径对数的指数递减分布》,Proc。R.Soc.伦敦。序列号。数学。物理学。工程科学。,353、1674、401-419(1977年)
[7] Barndorff-Nielsen,O.,双曲线分布和双曲线分布,Scand。J.Stat.,第5、3、151-157页,(1978年)·兹伯利0386.60018
[8] 巴恩多夫-尼尔森,O。;Blsild,P.,《双曲分布和分支:对理论和应用的贡献》,(Taillie,C.;Patil,G.;Baldesari,B.,《科学工作中的统计分布》,北约高级研究机构丛书,第79卷,(1981),施普林格荷兰),19-44·Zbl 0489.62020号
[9] 巴恩多夫-尼尔森,O。;Halgreen,C.,双曲和广义逆高斯分布的无限可除性,Probab。理论相关领域,38,4,309-311,(1977)·Zbl 0403.60026号
[10] 比尔纳基,C。;Celeux,G。;Govaert,G.,《用综合完全似然评估聚类的混合模型》,IEEE Trans。模式分析。机器。智力。,22, 7, 719-725, (2000)
[11] Blsild,P.,广义逆高斯分布和双曲线分布的形状,(1978),奥胡斯大学数学研究所理论统计系·Zbl 0385.62014号
[12] Böhning,D。;迪茨,E。;Schaub,R。;施拉特曼,P。;Lindsay,B.,《单参数指数族密度混合物的似然比分布》,《Ann.Inst.Statist》。数学。,46, 2, 373-388, (1994) ·兹比尔0802.62017
[13] Bouveyron,C.等人。;Girard,S。;Schmid,C.,高维数据聚类,计算。统计师。数据分析。,52, 1, 502-519, (2007) ·Zbl 1452.62433号
[14] 医学博士布兰科。;Dey,D.K.,一类一般的多元偏椭圆分布,《多元分析》。,79, 1, 99-113, (2001) ·兹比尔0992.62047
[15] Browne,R.P。;McNicholas,P.D.,广义双曲分布的混合,Canad。J.统计。,43, 2, 176-198, (2015) ·Zbl 1320.62144号
[16] Browne,R.P.,McNicholas,P.D.,Findlay,C.J.,2013年。一种用于白面包聚类的部分EM算法。arXiv预打印arXiv:1302.6625;Browne,R.P.,McNicholas,P.D.,Findlay,C.J.,2013年。一种用于白面包聚类的部分EM算法。arXiv预印本arXiv:1302.6625
[17] Celeux,G。;Govaert,G.,高斯简约聚类模型,模式识别。,28, 5, 781-793, (1995)
[18] Dang,U.J。;Browne,R.P。;McNicholas,P.D.,多元幂指数分布的混合,生物统计学,71,4,1081-1089,(2015)·Zbl 1419.62330号
[19] Dempster,A.P。;新墨西哥州莱尔德。;Rubin,D.B.,《通过EM算法从不完整数据中获得最大似然》,J.R.Stat.Soc.Ser。B统计方法。,1-38, (1977) ·Zbl 0364.62022号
[20] 埃夫隆,B。;Tibshirani,R.,标准误差、置信区间和其他统计准确性度量的Bootstrap方法,《统计科学》。,1, 1, 54-75, (1986) ·Zbl 0587.62082号
[21] 弗雷利,C。;Raftery,A.E.,多少簇?哪种聚类方法?答案通过基于模型的聚类分析计算得出。J.,41,8,578-588(1998)·Zbl 0920.68038号
[22] 弗朗扎克,B.C。;Browne,R.P。;McNicholas,P.D.,移位非对称拉普拉斯分布的混合,IEEE Trans。模式分析。机器。智力。,36, 6, 1149-1157, (2014)
[23] Franczak,B.C。;托托拉,C。;Browne,R.P。;McNicholas,P.D.,通过带有超立方体轮廓的倾斜分布混合进行无监督学习,模式识别。莱特。,58, 1, 69-76, (2015)
[24] 加赫拉马尼,Z。;Jordan,M.I.,通过EM方法监督从不完整数据中学习,(神经信息处理系统进展,(1994),Citeser)
[25] Good,I.J.,《物种的种群频率和种群参数的估计》,《生物统计学》,40,3-4,237-264,(1953)·Zbl 0051.37103号
[26] Halgreen,C.,广义逆高斯和双曲分布的自分解性,Probab。理论相关领域,47,1,13-17,(1979)·Zbl 0377.60020号
[27] 休伯特,L。;Arabie,P.,比较分区,J.分类,2,1,193-218,(1985)
[28] Jørgensen,B.,(广义逆高斯分布的统计性质,统计学讲义,(1982),Springer New York)·Zbl 0486.62022号
[29] Karlis,D。;Santourian,A.,基于模型的非椭圆轮廓分布聚类,统计计算。,19, 1, 73-83, (2009)
[30] Lee,S。;McLachlan,G.J.,多元斜t分布的有限混合:一些最新结果,统计计算。,24, 2, 181-202, (2014) ·Zbl 1325.62107号
[31] Lin,T.-I.,使用多元斜T分布的稳健混合建模,统计计算。,20, 3, 343-356, (2010)
[32] Lin,T.-I.,通过特征值分解通过参数化T混合模型从不完整数据中学习,计算。统计师。数据分析。,71, 183-195, (2014)
[33] Lin,T.I。;Ho,H.J。;陈春林,不完全数据下的多元偏正态模型分析,多元分析杂志。,100, 10, 2337-2351, (2009) ·Zbl 1175.62054号
[34] 林,T.-I。;Ho,H.J。;Shen,P.S.,具有缺失信息的多元t混合模型的计算有效学习,计算。统计,24,3,375-392,(2009)·Zbl 1189.62095号
[35] Lin,T.I。;Lee,J.C。;Ho,H.J.,关于具有缺失信息的正态混合模型的快速监督学习,模式识别。,39, 6, 1177-1187, (2006) ·Zbl 1096.68723号
[36] 林,T.-I。;Lin,T.-C.,使用完整和不完整数据的多元斜T分布进行稳健统计建模,统计模型。,11, 3, 253-277, (2011) ·Zbl 1218.62050号
[37] 林,T.-I。;McNicholas,医学博士。;Ho,H.J.,通过节约型混合模型捕获模式,统计。普罗巴伯。莱特。,88, 80-87, (2014) ·Zbl 1369.62131号
[38] Lindsay,B.G.,(混合模型:理论、几何和应用,NSF-CBMS概率统计区域会议系列,第5卷,(1995),数理统计研究所:加利福尼亚州海沃德)
[39] Little,R.J。;Rubin,D.B.,《数据缺失的统计分析》,(1987年),纽约威利出版社·兹比尔0665.62004
[40] 刘,C。;鲁宾,D.B。;Wu,Y.N.,加速EM的参数扩展:PX-EM算法,生物特征,85,4,755-770,(1998)·Zbl 0921.62071号
[41] McLachlan,G.J。;皮,D。;Bean,R.,用混合因子分析仪模拟高维数据,计算。统计师。数据分析。,41, 3, 379-388, (2003) ·兹比尔1256.62036
[42] 麦克尼尔,A。;弗雷,R。;Embrechts,P.,《定量风险管理:概念、技术和工具》,(2005),普林斯顿大学出版社,新泽西州普林斯顿·兹比尔1089.91037
[43] McNicholas,P.D.,基于混合模型的分类,(2016),查普曼和霍尔/CRC出版社博卡拉顿
[44] McNicholas,P.D.,基于模型的聚类,J.Classification,33,3,331-373,(2016)·Zbl 1364.62155号
[45] McNicholas,医学博士。;Murphy,T.B.,简约高斯混合模型,统计计算。,18, 3, 285-296, (2008)
[46] McNicholas,医学博士。;Murphy,T.B.,通过潜在高斯混合模型对微阵列表达数据进行基于模型的聚类,生物信息学,26,21,2705-2712,(2010)
[47] McNicholas,医学博士。;墨菲,T.B。;麦克戴德,A.F。;Frost,D.,通过简约高斯混合模型实现基于模型的聚类的串行和并行实现,计算。统计师。数据分析。,54, 3, 711-723, (2010) ·Zbl 1464.62131号
[48] 莫里斯,K。;McNicholas,P.D.,聚类、分类、判别分析和广义双曲混合降维,计算。统计师。数据分析。,97, 133-150, (2016) ·Zbl 1468.62144号
[49] 莫里,P.M。;Browne,R.P。;McNicholas,P.D.,偏因子分析仪的混合物,计算。统计师。数据分析。,77, 326-335, (2014)
[50] 莫里,P.M。;Browne,R.B。;McNicholas,P.D.,隐截断双曲分布,其有限混合及其在聚类中的应用,J.多元分析。,161, 141-156, (2017) ·Zbl 1403.62028号
[51] 莫里,P.M。;布朗,R.B。;McNicholas,P.D.,《SDB偏态因子分析仪的混合物》,经济学杂志。统计,3,160-168,(2017)
[52] 莫里,P.M。;McNicholas,医学博士。;Browne,R.P.,《常见偏态t因子分析仪的混合物》,Stat,3,1,68-82,(2014)
[53] 奥哈根,A。;墨菲,T.B。;I.C.戈姆利。;McNicholas,医学博士。;Karlis,D.,多元正态逆高斯分布聚类,计算。统计师。数据分析。,93, 18-30, (2016) ·Zbl 1468.62151号
[54] 皮,D。;McLachlan,G.J.,使用t分布的稳健混合建模,统计计算。,10, 4, 339-348, (2000)
[55] Rand,W.M.,聚类方法评价的客观标准,J.Amer。统计师。协会,66,846-850,(1971)
[56] 鲁宾,D.B.,《推断和缺失数据》,《生物特征》,63,3,581-592,(1976)·Zbl 0344.62034号
[57] Sahu,S.K。;戴·D·K。;Branco,M.D.,一类新的多元偏态分布及其在贝叶斯回归模型中的应用,Canad。J.统计。,31, 2, 129-150, (2003) ·Zbl 1039.62047号
[58] Schwarz,G.,估算模型的维数,Ann.Statist。,6, 461-464, (1978) ·Zbl 0379.62005年
[59] Steane,M.A。;McNicholas,医学博士。;Yada,R.,通过多元t因子分析仪混合物进行基于模型的分类,Commun。统计模拟。计算。,41, 4, 510-523, (2012) ·Zbl 1294.62142号
[60] Steinley,D.,《胡伯特-阿拉伯国家调整后的兰特指数的属性》,Psychol。方法,9386-396,(2004)
[61] Tiedeman,D.V.,《关于类型的研究》(Sells,S.B.,模式分析研讨会,Randolph Field,(1955),德克萨斯州航空大学,美国空军航空医学院)
[62] Tortora,C.,Franczak,B.C.,Browne,R.P.,McNicholas,P.D.,2017年。合并广义双曲分布的混合物。arXiv预打印arXiv:1403.2332v7;Tortora,C.,Franczak,B.C.,Browne,R.P.,McNicholas,P.D.,2017年。合并广义双曲分布的混合物。arXiv预印本arXiv:1403.2332v7
[63] 托托拉,C。;McNicholas,医学博士。;Browne,R.P.,《广义双曲因子分析仪的混合物》,《高级数据分析》。分类。,10, 4, 423-440, (2016)
[64] 弗瑞克,I。;McNicholas,P.D.,多元偏态t混合模型EM算法的分析计算,Statist。普罗巴伯。莱特。,82, 6, 1169-1174, (2012) ·Zbl 1244.65012号
[65] 弗瑞克,I。;McNicholas,P.D.,部分监督分类,J.分类,32,3,359-381,(2015)·Zbl 1331.62319号
[66] Wang,W.L。;Lin,T.-I.,《通过带有缺失信息的偏态T分布混合物实现基于稳健模型的聚类》,《高级数据分析》。分类。,9, 4, 423-445, (2015)
[67] 王海霞。;张庆斌。;罗,B。;Wei,S.,使用缺失信息的多元t分布进行稳健混合建模,模式识别。莱特。,25, 6, 701-710, (2004)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。