×

使用潜在变量模型,根据南非家庭的资产状况对其进行聚类。 (英语) Zbl 1454.62503号

摘要:Agincourt健康和人口监测系统自2001年以来每年进行一次家庭资产调查,以量化南非东北部农村人口的家庭社会经济地位。调查包含二进制、序数和名词性项目。在缺乏收入或支出数据的情况下,通过根据家庭资产状况将其分为同质组来探索和描述研究人群中的社会经济地位。
基于潜在变量模型,提出了一种基于模型的Agincourt家庭聚类方法。在建模二元或有序项目的情况下,使用项目反应理论模型。对于名义调查项目,使用了与多项式概率模型性质类似的因子分析模型。这两种模型类型都有一个潜在的变量结构——利用这种相似性,并将这些模型组合起来,生成一个能够处理混合数据类型的混合模型。此外,混合模型的混合被视为在混合二进制、有序和标称响应数据的背景下提供聚类能力。该模型被称为混合数据因子分析仪(MFA-MD)。
MFA-MD模型应用于调查数据,将Agincourt家庭分为同质组。该模型在贝叶斯范式中使用马尔可夫链蒙特卡罗算法进行估计。直观的分组结果,为阿金库尔地区不同的社会经济阶层提供了见解。

MSC公司:

第62页第25页 统计学在社会科学中的应用
2015年1月62日 贝叶斯推断
62H30型 分类和区分;聚类分析(统计方面)
第62页第15页 统计学在心理学中的应用
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aguilar,O.和West,M.(2000年)。贝叶斯动态因子模型和投资组合分配。J.总线。经济。统计师。18 338-357.
[2] Albert,J.H.和Chib,S.(1993年)。二进制和多光子响应数据的贝叶斯分析。J.艾默。统计师。协会88 669-679·Zbl 0774.62031号 ·doi:10.2307/2290350
[3] Alkema,L.、Faye,O.、Mutua,M.和Zulu,E.(2008)。确定内罗毕贫民窟住区中的贫困群体:潜在的阶级分析方法。在美国人口协会年会的会议文件中。新奥尔良。
[4] Bensmail,H.、Celeux,G.、Raftery,A.E.和Robert,C.P.(1997)。基于模型的聚类分析中的推断。统计师。计算。7 1-10.
[5] Bhattacharya,A.和Dunson,D.B.(2011年)。稀疏贝叶斯无限因子模型。生物特征98 291-306·兹比尔1215.62025 ·doi:10.1093/biomet/asr013
[6] Bishop,C.M.(2006年)。模式识别和机器学习。纽约州施普林格·Zbl 1107.68072号
[7] Browne,R.P.和McNicholas,P.D.(2012年)。混合类型数据的基于模型的聚类、分类和判别分析。J.统计。计划。推断142 2976-2984·Zbl 1335.62093号 ·doi:10.1016/j.jspi.2012.05.001
[8] Cai,J.-H.,Song,X.-Y.,Lam,K.-H.和Ip,E.H.-S.(2011年)。混合模式和异构数据的广义潜在变量模型的混合。计算。统计师。数据分析。55 2889-2907. ·Zbl 1218.62012号 ·doi:10.1016/j.csda.2011.05.011
[9] Celeux,G.、Hurn,M.和Robert,C.P.(2000年)。混合后验分布的计算和推断困难。J.艾默。统计师。协会95 957-970·Zbl 0999.62020号 ·doi:10.2307/2669477
[10] Chib,S.、Greenberg,E.和Chen,Y.(1998年)。拟合和比较多项式响应模型的MCMC方法。圣路易斯华盛顿大学技术报告。
[11] Collinson,M.A.、Clark,S.J.、Gerritsen,A.A.M.、Byass,P.、Kahn,K.和Tollmann,S.M.(2009)。2001-2005年南非农村社区的贫困和移民动态。华盛顿大学统计与社会科学中心技术报告。
[12] Cowles,M.K.(1996)。加速累积链路广义线性模型的蒙特卡罗马尔可夫链收敛。统计师。计算。6 101-111.
[13] Erikson,R.和Goldthorpe,J.H.(1992年)。恒定流动:对工业社会中阶级流动的研究。牛津大学出版社,伦敦。
[14] Erosheva,E.A.、Fienberg,S.E.和Joutard,C.(2007年)。通过多元二进制数据的个体级混合模型描述残疾。Ann.应用。统计数字1 502-537·Zbl 1126.62101号 ·doi:10.1214/07-AOAS126
[15] Everitt,B.S.(1988年)。混合模式数据聚类的有限混合模型。统计师。普罗巴伯。莱特。6 305-309.
[16] Everitt,B.S.和Merette,C.(1988年)。混合模式数据的聚类:可能方法的比较。J.应用。统计数据17 283-297。
[17] Filmer,D.和Pritchett,L.H.(2001年)。在没有支出数据或眼泪的情况下估算财富效应:印度各州教育入学率的应用。人口统计38 115-132。
[18] Fokoue,E.和Titterington,D.M.(2003)。因子分析仪的混合物。通过随机模拟进行贝叶斯估计和推断。机器学习50 73-94·Zbl 1033.68085号 ·doi:10.1023/A:1020297828025
[19] Fox,J.-P.(2010年)。贝叶斯项目响应建模:理论与应用。纽约州施普林格·Zbl 1271.62012年
[20] Fraley,C.和Raftery,A.E.(1998年)。有多少簇?哪些聚类方法?通过基于模型的聚类分析回答。计算机期刊41 578-588·兹伯利0920.68038 ·doi:10.1093/comjnl/41.8.578
[21] Friel,N.和Wyse,J.(2011年)。评估证据-A审查。内尔统计局。66 288-308. ·文件编号:10.1111/j.1467-9574.2011.00515.x
[22] Frühwirth Schnatter,S.(2006年)。有限混合和马尔可夫切换模型。纽约州施普林格·Zbl 1108.6202号
[23] Gelman,A.、Carlin,J.B.、Stern,H.S.和Rubin,D.B.(2003年)。贝叶斯数据分析。查普曼和霍尔/CRC,伦敦·Zbl 1279.62004号
[24] Geweke,J.、Keane,M.和Runkle,D.(1994年)。多项式概率模型中推理的替代计算方法。《经济学和统计学评论》76 609-632。
[25] Geweke,J.F.和Zhou,G.(1996年)。测量套利定价理论的定价误差。金融研究综述9 557-587。
[26] Ghahramani,Z.和Hinton,G.E.(1997年)。混合因子分析仪的EM算法。多伦多大学技术报告。
[27] Gollini,I.和Murphy,T.B.(2013)。用于分类数据基于模型聚类的潜在特征分析器的混合。统计师。计算。1-20. ·Zbl 1325.62122号 ·doi:10.1007/s11222-013-9389-1
[28] Gormley,I.C.和Murphy,T.B.(2006年)。爱尔兰三级学院申请数据分析。J.罗伊。统计师。Soc.序列号。甲169 361-379·兹伯利05273911 ·doi:10.1111/j.1467-985X.2006.00412.x
[29] Gormley,I.C.和Murphy,T.B.(2008)。排名数据的专家模型与选举研究应用的混合。Ann.应用。统计数字2 1452-1477·Zbl 1454.62498号 ·doi:10.1214/08-AOAS178
[30] Gruhl,J.、Erosheva,E.A.和Crane,P.K.(2013)。混合结果潜在变量模型的半参数方法:估计认知与区域脑容量之间的关联。Ann.应用。统计数据7 2361-2383·Zbl 1283.62218号 ·doi:10.1214/13-AOAS675
[31] Gwatkin,D.R.、Rutstein,S.、Johnson,K.、Suliman,E.、Wagstaff,A.和Amouzou,A.(2007)。发展中国家在健康、营养和人口方面的社会经济差异:概述。《国家国家警察与贫困报告》,世界银行,华盛顿特区。
[32] Handcock,M.S.、Raftery,A.E.和Tantrum,J.M.(2007年)。基于模型的社交网络聚类。J.罗伊。统计师。Soc.序列号。甲170 301-354·Zbl 05273954号 ·doi:10.1111/j.1467-985X.2007.00471.x
[33] Hoff,P.D.(2009)。贝叶斯统计方法的第一门课程。纽约州施普林格·Zbl 1213.62044号
[34] Hoff,P.D.、Raftery,A.E.和Handcock,M.S.(2002年)。社会网络分析的潜在空间方法。J.艾默。统计师。协会97 1090-1098·Zbl 1041.62098号 ·doi:10.1198/016214502388618906
[35] Hunt,L.和Jorgensen,M.(1999)。使用MULTIMIX程序进行混合模型聚类。澳大利亚。N.Z.J.Stat.41 153-171·兹比尔0962.62061 ·网址:10.1111/1467-842X.00071
[36] Hunt,L.和Jorgensen,M.(2003年)。具有缺失信息的混合数据的混合模型聚类。计算。统计师。数据分析。41 429-440. ·Zbl 1256.62037号
[37] Jacobs,R.A.、Jordan,M.I.、Nowlan,S.J.和Hinton,G.E.(1991)。当地专家的适应性混合。神经计算。3 79-87.
[38] Johnson,V.E.和Albert,J.H.(1999)。顺序数据建模。纽约州施普林格·Zbl 0921.62141号
[39] Kahn,K.,Tollman,S.M.,Collinson,M.A.,Clark,S.J.,Twine,R.,克拉克,B.D.,Shabangu,M.,Gómez-Olivé,F.X.,Mokoena,O.和Garenne,M.L.(2007)。南非农村地区健康、人口和社会转型研究:Agincourt健康和人口监测系统的数据和方法1。斯堪的纳维亚公共卫生杂志35 8-20。
[40] Lawrence,C.J.和Krzanowski,W.J.(1996)。混合模式数据的混合分离。统计师。计算。6 85-92.
[41] Le Cam,L.和Yang,G.L.(1990年)。统计学中的渐近:一些基本概念。纽约州施普林格·Zbl 0719.62003号
[42] Lopes,H.F.和West,M.(2004)。因子分析中的贝叶斯模型评估。统计师。中国14 41-67·Zbl 1035.62060号
[43] Lord,F.M.(1952年)。多项选择测验的信度与项目难度分布的关系。《心理测量学》17 181-194·Zbl 0049.37502号 ·doi:10.1007/BF02288781
[44] Lord,F.M.和Novick,M.R.(1968年)。心理测试成绩的统计理论。马萨诸塞州雷丁市Addison-Wesley·Zbl 0186.53701号
[45] 马斯特斯,G.(1982年)。部分信用评分的Rasch模型。《心理测量学》47 149-174·兹伯利0493.62094 ·doi:10.1007/BF02296272
[46] McCulloch,R.和Rossi,P.E.(1994年)。多项式概率模型的精确似然分析。《计量经济学杂志》64 207-240·Zbl 04521352号 ·doi:10.1016/0304-4076(94)90064-7
[47] McKenzie,D.J.(2005)。用资产指标衡量不平等。《人口经济学杂志》18 229-260。
[48] McNicholas,P.D.和Murphy,T.B.(2008)。简约高斯混合模型。统计计算。18 285-296. ·doi:10.1007/s11222-008-9056-0
[49] McParland,D.和Gormley,I.C.(2013)。通过潜在变量模型对顺序数据进行聚类。分类、数据分析和知识组织研究547。柏林施普林格。
[50] McParland,D.、Gormley,I.、McCormick,T.H.、Clark,S.J.、Kabudula,C.和Collinson,M.A.(2014a)。补充“使用潜在变量模型根据南非家庭的资产状况对其进行聚类”,DOI:10.1214/14-AOAS726SUPPB,DOI:10.1214/14-AOAS726SUPP·Zbl 1454.62503号
[51] McParland,D.、Gormley,I.C.、Brennan,L.和Roche,H.M.(2014b)。来自LIPGENE研究的混合连续和分类数据聚类:检查代谢综合征中营养素和基因型的相互作用。都柏林大学技术报告。
[52] Murray,J.S.、Dunson,D.B.、Carin,L.和Lucas,J.E.(2013)。混合数据的贝叶斯-高斯copula因子模型。J.艾默。统计师。协会108 656-665·Zbl 06195968号 ·doi:10.1080/01621459.2012.762328
[53] Muthén,B.和Shedden,K.(1999年)。使用EM算法对混合结果进行有限混合建模。生物计量学55 463-469·兹比尔1059.62599 ·doi:10.1111/j.0006-341X.1999.00463.x
[54] Nobile,A.(1998年)。用于多项式概率模型贝叶斯分析的混合马尔可夫链。统计师。计算。8 229-242.
[55] Quinn,K.M.(2004)。混合有序和连续反应的贝叶斯因子分析。政治分析12 338-353。
[56] Rao,C.R.(1995)。标准坐标综述和使用海林格距离进行对应分析的替代方法。Qüestiió(2)19 23-63·Zbl 1167.62421号
[57] Rasch,G.(1960年)。一些智力和成就测试的概率模型。丹麦教育研究所,哥本哈根。
[58] Rutstein,S.O.和Johnson,K.(2004年)。DHS财富指数。马里兰州卡尔弗顿ORC Macro第6号DHS比较报告。
[59] Samejima,F.(1969年)。使用分级分数的响应模式估计潜在能力。心理测量专著17。
[60] Stephens,M.(2000年)。处理混合模型中的标签切换。J.R.统计社会服务。B统计方法。62 795-809. ·Zbl 0957.62020号 ·doi:10.1111/1467-9868.00265
[61] Svalfors,S.(2006年)。阶级的道德经济:比较视野中的阶级与态度。斯坦福大学出版社,加利福尼亚州斯坦福。
[62] Thurstone,L.L.(1925年)。一种衡量心理和教育测试的方法。教育心理学杂志16 433-451。
[63] Vermunt,J.K.(2001年)。使用受限潜在类模型定义和测试非参数和参数项目反应理论模型。申请。精神病。测量。25 283-294. ·数字对象标识代码:10.1177/01466210122032082
[64] Vyas,S.和Kumaranayake,L.(2006)。构建社会经济地位指数:如何使用主成分分析。健康政策计划21 459-468。
[65] Weeden,K.A.和Grusky,D.B.(2012年)。不平等的三个世界。美国社会学杂志117 1723-1785。
[66] Willse,A.和Boik,R.J.(1999年)。用于聚类混合模式数据的位置模型的可识别有限混合。统计师。计算。9 111-121.
[67] Zhang,X.、Boscardin,W.J.和Belin,T.R.(2008)。使用多元多项式概率模型对多元名义测度进行贝叶斯分析。计算。统计师。数据分析。52 3697-3708. ·Zbl 1452.62233号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。