×

用于分类数据基于模型聚类的潜在特征分析器的混合。 (英语) Zbl 1325.62122号

摘要:基于模型的连续数据聚类方法已经得到了很好的建立,并且在广泛的应用中得到了广泛的应用。然而,基于模型的分类数据聚类方法不够标准。潜在类分析是基于模型的二进制数据和/或类别数据聚类的常用方法,但由于假设的局部独立结构,在感兴趣的人群中估计的潜在类和组之间可能不存在对应关系。潜在特征分析者混合模型扩展了潜在类别分析,假设类别反应变量既依赖于类别潜在类别又依赖于连续潜在特征变量;离散的潜在类别适应群体结构,而连续的潜在特质适应这些群体中的依赖性。由于似然函数涉及一个无法进行分析计算的积分,因此拟合潜在特征分析器混合模型可能很困难。我们开发了一种变分方法来拟合潜在性状模型的混合物,这提供了一种有效的模型拟合策略。通过对国家长期护理调查(NLTCS)和美国国会投票数据的分析,证明了潜在特征分析者混合模型。结果表明,该模型能够产生直观的聚类结果,并且比单独的潜在类别分析或潜在特征分析更适合。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abramowitz,M.,Stegun,I.A.:《数学函数与公式、图形和数学表手册》,第9版。纽约多佛(1964)·Zbl 0171.38503号
[2] Allman,E.S.,Matias,C.,Rhodes,J.:具有许多观测变量的潜在结构模型中参数的可识别性。Ann.Stat.37,3099-3132(2009年)·Zbl 1191.62003号 ·doi:10.1214/09-AOS689
[3] Andrews,J.L.,McNicholas,P.D.:基于模型的聚类、分类和通过多元t分布混合物的判别分析:tEIGEN家族。统计计算。22, 1021-1029 (2012) ·Zbl 1252.62062号 ·doi:10.1007/s11222-011-9272-x
[4] Baek,J.,McLachlan,G.,Flack,L.:因子分析与公共因子载荷的混合:高维数据聚类和可视化的应用。IEEE传输。模式分析。机器。智力。32, 1298-1309 (2010) ·doi:10.1109/TPAMI.2009.149
[5] Bartholomew,D.J.:分类数据的因子分析。J.R.Stat.Soc.B 42,293-321(1980)·Zbl 0471.62054号
[6] Bartholomew,D.J.,Steele,F.,Moustaki,I.,Galbraith,J.:《社会科学家多元数据的分析与解释》。查普曼和霍尔,伦敦(2002)·Zbl 1033.62108号
[7] Bartholomew,D.J.,Knott,M.,Moustaki,I.:潜在变量模型和因子分析:统一方法,第3版。威利,纽约(2011)·Zbl 1266.62040号 ·数字对象标识代码:10.1002/9781119970583
[8] Biernacki,C.、Celeux,G.、Govaert,G.和Langrognet,F.:使用MIXMOD软件进行基于模型的聚类和判别分析。计算。统计数据分析。51, 587-600 (2006) ·Zbl 1157.62431号 ·doi:10.1016/j.csda.2005.12.015
[9] Bishop,C.M.:模式识别和机器学习。信息科学与统计。施普林格,纽约(2006)·Zbl 1107.68072号
[10] Bock,R.D.,Aitkin,M.:项目参数的边际最大似然估计:EM算法的应用。《心理测量学》46,443-459(1981)·doi:10.1007/BF02293801
[11] Brin,S.、Motwani,R.、Ullman,J.D.、Tsur,S.:市场篮子数据的动态项目集计数和隐含规则。SIGMOD Rec.26255-264(1997)。数字对象标识代码:10.1145/253262.253325·数字对象标识代码:10.1145/253262.253325
[12] Celeux,G.,Govaert,G.:高斯简约聚类模型。模式识别。28, 781-793 (1995) ·doi:10.1016/0031-3203(94)00125-6
[13] 《国会季刊年鉴》:第98届国会,第2届,第XL卷(1984年)·兹比尔1067.62550
[14] Dean,N.,Raftery,A.:潜在类分析变量选择。Ann.Inst.Stat.数学。62, 11-35 (2010) ·Zbl 1422.62085号 ·doi:10.1007/s10463-009-0258-9
[15] Dempster,A.P.,Laird,N.M.,Rubin,D.B.:通过EM算法获得不完整数据的最大可能性(含讨论)。J.R.Stat.Soc.B 39,1-38(1977年)·Zbl 0364.62022号
[16] Efron,B.:标准误差的非参数估计:折刀法、自举法和其他方法。《生物特征》68,589-599(1981)·Zbl 0487.62031号 ·doi:10.1093/biomet/68.3.589
[17] Erosheva,E.A.:应用于残疾调查数据的成员等级和潜在结构模型。卡内基梅隆大学统计系博士论文(2002年)
[18] Erosheva,E.A。;Bernardo,J.M.(编辑);Bayarri,M.J.(编辑);Berger,J.O.(编辑);Dawid,A.P.(编辑);Heckerman,D.(编辑);Smith,A.F.M.(编辑);West,M.(编辑),成员等级模型的贝叶斯估计,牛津·Zbl 1044.62002号
[19] Erosheva,E.A。;Bozdogan,H.(编辑),《应用于残疾调查数据的部分成员模型》,117-134(2004),博卡拉顿
[20] Erosheva,E.A.,Fienberg,S.E.,Joutard,C.:通过多元二进制数据的个体级混合模型描述残疾。附录申请。统计数字1,502-537(2007)·Zbl 1126.62101号 ·doi:10.1214/07-AOAS126
[21] 菲恩伯格,S.E。;Hersh,P。;里纳尔多,A。;周,Y。;Gibilisco,P.(编辑);Riccomagno,E.(编辑);Rogantin,M.(编辑);Wynn,H.(编辑),列联表潜在类模型中的最大似然估计,31-66(2009),剑桥
[22] Fraley,C.、Raftery,A.E.:基于模型的聚类、判别分析和密度估计。《美国统计协会期刊》97,611-612(2002)·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[23] Frank,A.,Asuncion,A.:UCI机器学习库。加利福尼亚大学信息与计算机科学学院,欧文分校(2010年)。http://archive.ics.uci.edu/ml
[24] Ghahramani,Z.,Hinton,G.E.:混合因子分析仪的EM算法。多伦多大学技术代表CRG-TR-96-1(1997)·兹比尔0913.62105
[25] 古德曼,洛杉矶:使用可识别和不可识别模型的探索性潜在结构分析。Biometrika 61215-231(1974年)·Zbl 0281.62057号 ·doi:10.1093/biomet/61.2.215
[26] Hadgu,A.,Qu,Y.:具有随机效应的潜在类模型的生物医学应用。申请。Stat.47,603-616(1998年)·Zbl 0913.62105号
[27] Jaakkola,T.S。;Jordan,M.I.,贝叶斯逻辑回归模型及其扩展的变分方法(1996)
[28] Karlis,D.,Santourian,A.:基于模型的非椭圆轮廓分布聚类。统计计算。19, 73-83 (2008) ·doi:10.1007/s11222-008-9072-0
[29] Lin,T.I.:使用多元斜T分布的稳健混合建模。统计计算。20, 343-356 (2010) ·doi:10.1007/s11222-009-9128-9
[30] Lin,T.I.,Lee,J.C.,Yen,S.Y.:使用斜正态分布的有限混合建模。统计正弦。17, 909-927 (2007) ·Zbl 1133.62012年
[31] McLachlan,G.,Peel,D.:法线和t分量拟合的EMMIX算法。J.统计软件。4, 1-14 (1999)
[32] McLachlan,G.,Peel,D.:有限混合模型。概率统计威利系列:应用概率统计。Wiley-Interscience,纽约(2000年)·Zbl 0963.62061号 ·doi:10.1002/0471721182
[33] McLachlan,G.,Peel,D.,Bean,R.:通过混合因子分析对高维数据进行建模。计算。统计数据分析。41, 379-388 (2003) ·Zbl 1256.62036号 ·doi:10.1016/S0167-9473(02)00183-4
[34] McNicholas,P.D.,Murphy,T.B.:简约高斯混合模型。统计计算。18, 285-296 (2008) ·doi:10.1007/s11222-008-9056-0
[35] McNicholas,P.D.,Murphy,T.B.:通过潜在高斯混合模型对微阵列表达数据进行基于模型的聚类。生物信息学26,2705-2712(2010)·Zbl 1203.82150号 ·doi:10.1093/bioinformatics/btq498
[36] Muthén,B。;马库利德斯,G.A.(编辑);Schumaker,R.E.(编辑),潜在变量混合建模,1-33(2001),马哈瓦
[37] Pauler,D.K.:正态线性模型的Schwarz准则和相关方法。《生物特征》85,13-27(1998)·Zbl 1067.62550号 ·doi:10.1093/biomet/85.1.13
[38] Qu,Y.,Tan,M.,Kutner,M.H.:用于评估诊断测试准确性的潜在类别分析中的随机效应模型。生物计量学52,797-810(1996)·兹比尔0875.62551 ·doi:10.2307/2532043
[39] Raftery,A.E。;牛顿,医学硕士。;萨塔戈潘,J.M。;Krivitsky,P.N.,使用调和平均恒等式通过后验模拟估计综合似然,第8期,1-45页(2007),牛津·Zbl 1252.62038号
[40] Rasch,G.:数学心理学研究:I.一些智力和成就测试的概率模型。Nielsen&Lydice,牛津(1960)
[41] Rost,J.:潜在类中的Rasch模型:两种项目分析方法的集成。申请。精神病。测量。14, 271-282 (1990) ·doi:10.1177/014662169001400305
[42] 罗斯特,J。;Davier,M。;Fischer,G.H.(编辑);Molenaar,I.W.(编辑),混合分布Rasch模型,257-268(1995),纽约·Zbl 0825.62926号 ·doi:10.1007/978-1-4612-4230-714
[43] Sammel,M.D.、Ryan,L.M.、Legler,J.M.:混合离散和连续结果的潜在变量模型。J.R.Stat.Soc.B 59,667-678(1997)·Zbl 0889.62043号 ·数字对象标识代码:10.1111/1467-9868.00090
[44] Schlimmer,J.C.:通过表征调整获得概念。加州大学欧文分校信息与计算机科学系博士论文(1987)·兹伯利0471.62054
[45] Schwarz,G.:估算模型的维数。Ann.Stat.6,461-464(1978)·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[46] Steele,R.J.:有限混合模型和多重插补的实用重要抽样方法。华盛顿大学博士论文(2002年)
[47] Tipping,M.E.,高维二进制数据的概率可视化,592-598(1999),剑桥
[48] Uebersax,J.S.:使用二分或有序类别度量的Probit潜在类分析:条件独立/依赖模型。申请。精神病。测量。23, 283-297 (1999) ·doi:10.1177/0146621922031400
[49] Vermunt,J.,《多级混合项目反应理论模型:在教育测试中的应用》,荷兰沃尔堡
[50] 弗蒙特,J。;Magidson,J。;Ark,A.V.(编辑);Croon,M.A.(编辑);Sijtsma,K.(编辑),具有分类指标的因素分析:传统和潜在类别方法之间的比较,41-62(2005),Mahwah
[51] Vermunt,J.,Magidson,J.:LG语法用户指南:Latent GOLD 4.5语法模块手册。贝尔蒙特统计创新公司(2008年)
[52] Davier,M。;山本,K。;Davier,M.(编辑);Carstensen,C.H.(编辑),混合分布和混合Rasch模型,99-115(2007),纽约·数字对象标识代码:10.1007/978-0-387-49839-36
[53] Davier,M。;罗斯特,J。;卡斯滕森,C.H。;Davier,M.(编辑);Carstensen,C.H.(编辑),引言:扩展Rasch模型,1-12(2007),纽约·数字对象标识代码:10.1007/978-0-387-49839-3
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。