×

限制斜交(t)因子分析仪与公因子载荷的混合。 (英语) Zbl 1474.62209号

摘要:在处理基于模型的重尾高维数据聚类时,公共因子分析器的混合物(MCtFA)已证明其在增强公共因子分析器混合物(MCFA)的有效性。然而,MCtFA模型可能仍然缺乏对分布高度不对称的观测值的鲁棒性。本文对MCFA和MCtFA模型进行了进一步的鲁棒扩展,称为公共受限偏斜-(t)因子分析器的混合(MCrstFA),通过假设公共因子的受限多变量偏斜-(t)分布。MCrstFA模型可用于适应严重非正态(倾斜和轻量级)随机现象,同时保持因子分析表示的简约性,并在低维图中执行图形可视化。开发了一种计算上可行的期望条件最大化算法来进行最大似然估计。基于常见的似然惩罚准则,同时确定了因子和混合成分的个数。通过模拟和实际数据集验证了我们提出的模型的有效性,实验结果表明其优于一些现有的竞争对手。

MSC公司:

62H25个 因子分析和主成分;对应分析
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aitken AC(1926)关于伯努利代数方程的数值解。Proc R Soc Edinb第46:289-305页·doi:10.1017/S0370164600022070
[2] Arellano-Valle RB,Genton MG(2005)《关于基本偏态分布》。多变量分析杂志96:93-116·Zbl 1073.62049号 ·doi:10.1016/j.jmva.2004.10.002
[3] Azzalini A(2014)偏态和相关家族。IMS专著系列。剑桥大学出版社·Zbl 1338.62007号
[4] Azzalini A、Browne RP、Genton MG、McNicholas PD(2016)关于两种斜分布公式的命名和相对优点。统计概率快报110:201-206·Zbl 1376.60024号 ·doi:10.1016/j.spl.2015.12.008
[5] Baek J,McLachlan GJ(2011)用于聚类高维微阵列数据的常用t因子分析仪的混合物。生物信息学27:1269-1276·doi:10.1093/bioinformatics/btr112
[6] Baek J、McLachlan GJ、Flack LK(2010)《因子分析仪与公共因子载荷的混合:高维数据聚类和可视化的应用》。IEEE Trans-Pattern Ana Mach Intell 32:1-13(IEEE传输模式分析-机器智能)·doi:10.1109/TPAMI.2010.8
[7] Barndorff-Nielsen O,Shephard N(2001)非高斯-奥恩斯坦-乌伦贝克模型及其在金融经济学中的一些应用。罗伊统计学会期刊B 63:167-241·Zbl 0983.60028号 ·doi:10.1111/1467-9868.00282
[8] Beal MJ(2003)近似贝叶斯推理的变分算法。英国伦敦大学博士论文
[9] Biernacki C,Celeux G,Govaert G(2000)使用综合完全似然评估聚类的混合模型。IEEE Trans-Pattern Ana Mach Intell 22:719-725(IEEE传输模式分析机器智能)·doi:10.1109/34.865189
[10] Cabral CR、Lachos VH、Prates MO(2012)使用偏正态独立分布的多元混合建模。计算机统计数据分析56:126-142·兹比尔1239.62058 ·doi:10.1016/j.csda.2011.06.026
[11] Castro LM、Costa DR、Prates MO、Lachos VH(2015)基于似然法的推断,用于使用多元Student-[t\]t分布进行Tobit验证性因子分析。统计计算25:1163-1183·Zbl 1331.62294号 ·doi:10.1007/s11222-014-9502-0
[12] Chen X,Cheung ST,So S,Fan ST,Barry C,Higgins J,Lai KM,Ji J,Dudoit S,Ng IO,Van De Rijn M,Botstein D,Brown PO(2002)人类肝癌的基因表达模式。摩尔生物细胞13:1929-1939·doi:10.1091/mbc.02-02-0023
[13] Dempster AP、Laird NM、Rubin DB(1977)通过EM算法从不完整数据中获得最大似然(带讨论)。J R统计Soc B 9:1-38·Zbl 0364.62022号
[14] 加赫拉马尼,Z。;比尔,M。;Solla,S.(编辑);Leen,T.(编辑);Muller,K-R(编辑),因子分析贝叶斯混合变量推断(2000),剑桥
[15] Ghahramani Z,Hinton GE(1997)因子分析仪的EM算法。多伦多大学CRG-TR-96-1号技术报告
[16] Hartigan JA,Wong MA(1979)算法AS 136:K均值聚类算法。J R统计Soc C 28:100-108·Zbl 0447.62062号
[17] Hubert LJ,Arabie P(1985)比较分区。J类2:193-218·Zbl 0587.62128号 ·doi:10.1007/BF01908075
[18] Jordan MI、Ghahramani Z、Jaakkola TS、Saul LK(1999)《图形模型变分方法简介》。马赫学习37:183-233·Zbl 0945.68164号 ·doi:10.1023/A:1007665907178
[19] Lachos VH,Morenoa EJL,Chen K,Cabralc CRB(2017)使用多元Student-[t\]t分布对删失数据进行有限混合建模。多变量分析杂志159:151-167·Zbl 1397.62221号 ·doi:10.1016/j.jmva.2017.05.005
[20] Lee SX,McLachlan GJ(2014)多元斜交t分布的有限混合:一些最新结果。统计成分24:181-202·Zbl 1325.62107号 ·doi:10.1007/s11222-012-9362-4
[21] Lee SX,McLachlan GJ(2016)规范基本斜交t分布的有限混合:限制和非限制斜交t混合模型的单播。统计成分26:573-589·Zbl 1420.60020号 ·doi:10.1007/s11222-015-9545-x
[22] Lee YW,Poon SH(2011)贷款组合损失分布的系统和系统因素。计量经济学和应用经济学研讨会,第1-61页。曼彻斯特大学社会科学学院
[23] Lee WL,Chen YC,Hsieh KS(2003)基于M带小波变换的分形特征向量超声肝组织分类。IEEE Trans-Med成像22:382-392·doi:10.10109/TMI.2003.809593
[24] Lin TI(2014)通过特征值分解,通过参数化混合模型从不完全数据中学习。计算统计数据分析71:183-195·Zbl 1471.62120号 ·doi:10.1016/j.csda.2013.02.020
[25] Lin TI,Wu PH,McLachlan GJ,Lee SX(2015)使用限制斜交分布的稳健因子分析模型。测试24:510-531·Zbl 1327.62344号 ·doi:10.1007/s11749-014-0422-2
[26] Lin TI,McLachlan GJ,Lee SX(2016)使用受限多元偏态分布扩展因子模型的混合。《多变量分析杂志》143:398-413·Zbl 1328.62378号 ·doi:10.1016/j.jmva.2015.09.025
[27] Lin TI,Wang WL,McLachlan GJ,Lee SX(2018)使用受限多元斜交分布的因子分析模型稳健混合。统计模型28:50-72·Zbl 07289498号 ·doi:10.177/1471082X17718119
[28] Liu C,Rubin DB(1994)ECME算法:EM和ECM的简单扩展,具有更快的单调收敛性。生物特征81:33-648·Zbl 0812.62028号
[29] McLachlan GJ,Basford KE(1988)《混合模型:聚类的推理和应用》,马塞尔·德克尔,纽约·Zbl 0697.62050号
[30] McLachlan GJ,Krishnan T(2008)EM算法和扩展,第2版。纽约威利·Zbl 1165.62019号 ·doi:10.1002/9780470191613
[31] McLachlan GJ,Peel D(2000)有限混合模型。纽约威利·Zbl 0963.62061号 ·doi:10.1002/0471721182
[32] McNicholas PD,Murphy TB(2008)简约高斯混合模型。统计成分18:285-296·doi:10.1007/s11222-008-9056-0
[33] McNicholas PD、Murphy TB、McDaid AF、Frost D(2010)通过简约高斯混合模型实现基于模型的聚类的串行和并行实现。计算统计数据分析54:711-723·Zbl 1464.62131号 ·doi:10.1016/j.csda.2009.02.011
[34] Meng XL,Rubin DB(1993)通过ECM算法的最大似然估计:一般框架。生物特征80:267-278·Zbl 0778.62022号 ·doi:10.1093/biomet/80.2267
[35] Murray PM、Browne RP、McNicholas PD(2014a)《斜交因子分析仪的混合物》。计算统计数据分析77:326-335·Zbl 1506.62132号 ·doi:10.1016/j.csda.2014.03.012
[36] Murray PM、McNicholas PD、Browne RP(2014b)常见偏差因子分析仪的混合物。统计3:68-82·Zbl 1506.62132号 ·doi:10.1002/sta4.43
[37] Murray PM、Browne RP、McNicholas PD(2017a)SDB斜交因子分析仪的混合物。经济统计3:160-168·doi:10.1016/j.ecosta.2017.5.001
[38] Murray PM,Browne RP,McNicholas PD(2017b)隐截断双曲分布,其有限混合及其在聚类中的应用。多变量分析杂志161:141-156·Zbl 1403.62028号 ·doi:10.1016/j.jmva.2017.07.008
[39] Ouyang M,Welsh W,Georgopoulos P(2004),微阵列数据的高斯混合聚类和插补。生物信息学20:917-923·doi:10.1093/生物信息系统/bth007
[40] Prates MO,Cabral CR,Lachos VH(2013)mixsmsn:拟合偏态正态分布的尺度混合的有限混合。J Stat Soft杂志54:1-20·doi:10.18637/jss.v054.i12
[41] Pyne S,Hu X,Wang K,Rossin E,Lin TI,Maier LM,Baecher-Allan C,McLachlan GJ,Tamayo P,Hafler DA,De Jager PL,Mesirov JP(2009)自动化高维流式细胞术数据分析。美国国家科学院院刊106:8519-8524·doi:10.1073/pnas.0903028106
[42] Sahu SK,Dey DK,Branco MD(2003)一类新的多元偏斜分布及其在贝叶斯回归模型中的应用。加拿大统计局31:129-150·Zbl 1039.62047号 ·doi:10.2307/3316064
[43] Schwarz G(1978)估算模型的维数。安统计6:461-464·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[44] Subedi S,McNicholas PD(2014)通过正态逆高斯分布的混合物进行聚类的变分贝叶斯近似。高级数据分析类8:167-193·Zbl 1459.62122号 ·doi:10.1007/s11634-014-0165-7
[45] Teschendorff A,Wang Y,Barbosa Morais N,Brenton J,Caldas C(2005)基因表达数据聚类分析的变分贝叶斯混合建模框架。生物信息学21:3025-3033·doi:10.1093/bioinformatics/bti466
[46] Tortora C,McNicholas P,Browne R(2016)广义双曲因子分析仪的混合物。高级数据分析类10:423-440·Zbl 1414.62278号 ·doi:10.1007/s11634-015-0204-z
[47] Ueda N,Nakano R,Ghahramani Z,Hinton GE(2000)混合模型的SMEM算法。神经计算12:2109-2128·doi:10.1162/089976600300015088
[48] Wang WL(2013)针对缺失信息的高维数据的公因子分析仪混合。多变量分析杂志117:120-133·Zbl 1277.62162号 ·doi:10.1016/j.jmva.2013.02.003
[49] Wang WL(2015)用于建模缺失值的高维数据的通用t因子分析仪的混合物。计算统计数据分析83:223-235·Zbl 1507.62179号 ·doi:10.1016/j.csda.2014.10.007
[50] Wang WL,Lin TI(2016)多元t混合模型的最大似然推断。《多变量分析杂志》149:54-64·Zbl 1341.62138号 ·doi:10.1016/j.jmva.2016.03.009
[51] Wang WL,Lin TI(2017)通过普通t因子分析仪的扩展混合实现灵活聚类。AStA高级统计分析101:227-252·Zbl 1443.62177号 ·doi:10.1007/s10182-016-0281-0
[52] Wang K,McLachlan GJ,Ng SK,Peel D(2009)EMMIX-skew:多元斜态正态/[t\]t分布混合的EM算法。R软件包版本1.0-12
[53] Wang WL,Castro LM,Lin TI(2017a)使用完整和不完整数据自动学习因子分析模型。多变量分析杂志161:157-171·Zbl 1403.62108号 ·doi:10.1016/j.jmva.2017.07.009
[54] Wang WL,Liu M,Lin TI(2017b)处理缺失数据的稳健斜交因子分析模型。统计方法应用26:649-672·兹比尔1441.62161 ·doi:10.1007/s10260-017-0388-9
[55] Waterhouse,S。;麦凯,D。;罗宾逊,T。;Touretzky,DS(编辑);Mozer,MC(编辑);Hasselmo,ME(编辑),混合专家贝叶斯方法,第8期(1996年),剑桥
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。