×

基于贝叶斯模型的纵向有序数据聚类。 (英语) Zbl 1505.62110号

摘要:序数数据中使用的传统聚类分析方法,例如k均值和层次聚类,大多是启发式的,缺乏统计推断工具来比较竞争模型。为了解决这个问题,我们提出了一个潜在过渡模型,一个包含观测和潜在协变量的有限混合模型,并首次将其应用于纵向有序数据的情况。这种基于模型的聚类模型是比例优势模型的扩展,包括一阶过渡项、时机效应和交互,提供了灵活的方法来通过聚类捕获不同的时间模式以及时间异质性过渡。我们使用马尔可夫链蒙特卡罗方案和分块Metropolis-Hastings抽样在贝叶斯设置中估计模型参数。我们使用2001-2011年澳大利亚家庭、收入和劳动力动态调查中的自我报告健康状况(SRHS)来说明该模型。SRHS被记录为一个序数变量,分为五个等级:差、一般、好、非常好和优秀。使用广泛适用的信息准则进行模型比较,我们发现了六个潜在群体的证据。原始数据和估计组中的转换使用热图进行可视化。

MSC公司:

62-08 统计问题的计算方法
2015年1月62日 贝叶斯推断
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Agresti A(2010)有序分类数据分析,第2版。概率统计中的威利级数。威利,伦敦·Zbl 1263.62007年
[2] Agresti A(2013)分类数据分析,第3版。《概率统计威利级数》,第三版。威利,伦敦·Zbl 1281.62022号
[3] Albert J,Chib S(1995)二元响应回归模型的贝叶斯残差分析。生物特征82(4):747-769·Zbl 0861.62022号
[4] Arnold R,Hayakawa Y,Yip P(2010)使用任意维的有限混合进行捕获重捕获估计。生物统计学66(2):644-655·Zbl 1192.62251号
[5] Beaumont MA,Zhang W,Balding DJ(2002),人口遗传学中的近似贝叶斯计算。遗传学162(4):2025-2035
[6] Biernacki C,Jacques J(2015)基于模型的基于随机二进制搜索算法的多元有序数据聚类。统计计算26:1-15·Zbl 1505.62068号
[7] Biernacki C,Celeux G,Govaert G(2000)使用综合完全似然评估聚类的混合模型。IEEE Trans-Pattern Ana Mach Intell 22(7):719-725
[8] Celeux G、Forbes F、Robert CP、Titterington DM等人(2006)缺失数据模型的偏差信息标准。贝叶斯分析1(4):651-673·Zbl 1331.62329号
[9] Cheon K,Thoma ME,Kong X,Albert PS(2014)异质纵向有序数据的混合过渡模型:应用于纵向细菌性阴道病数据。统计医学33(18):3204-3213
[10] Dempster AP、Laird NM、Rubin DB(1977)通过em算法从不完整数据中获得最大似然。J R统计学会39(1):1-38·Zbl 0364.62022号
[11] DeSantis SM、Houseman EA、Coull BA、Stemmer-Rachamimov A、Betensky RA(2008)有序数据的惩罚潜在类模型。生物统计学9(2):249-262·Zbl 1143.62061号
[12] DeYoreo M,Kottas A(2018)多元序数回归的贝叶斯非参数建模。J计算图形统计27(1):71-84·Zbl 1398.62089号
[13] Diggle PJ、Heagerty PJ、Liang KY、Zeger SL(2002)《纵向数据分析》,第2版。牛津大学出版社·Zbl 1031.62002号
[14] Drton M,Plummer M(2017)奇异模型的贝叶斯信息准则。J R Stat Soc Ser B(统计方法)79(2):323-380·Zbl 1414.62088号
[15] Everitt B,Landau S,Leese M(2001)聚类分析。阿诺德,伦敦·Zbl 1205.62076号
[16] Fernández D,Arnold R(2016)有序数据基于混合聚类的模型选择。澳大利亚N Z J Stat 58(4):437-472·Zbl 1373.62307号
[17] Fernández D,Arnold R,Pledger S(2016)有序刻板印象模型的基于混合的聚类。计算统计数据分析93:46-75·Zbl 1468.62054号
[18] Fraley C、Raftery AE(2002),基于模型的聚类、判别分析和密度估计。美国统计学会杂志97(458):611-631·Zbl 1073.62545号
[19] Friel N,McKeone J,Oates CJ,Pettitt AN(2017)广泛适用的贝叶斯信息标准的研究。统计计算27(3):833-844·Zbl 1505.62146号
[20] Frühwirth-Schnatter S,Pamminger C,Weber A,Winter-Ebmer R(2012)《劳动力市场进入和收益动态:使用专家混合马尔可夫链聚类的贝叶斯推断》,《应用经济学杂志》27(7):1116-1137
[21] Frydman H(2005)以不同速度移动的马尔可夫链的混合估计。美国统计协会杂志100(471):1046-1053·Zbl 1117.62337号
[22] Geisser S,Eddy WF(1979)模型选择的预测方法。美国统计协会杂志74(365):153-160·Zbl 0401.62036号
[23] Gelman A,Rubin DB(1992)使用多序列的迭代模拟推断。统计科学7(4):457-472·Zbl 1386.65060号
[24] Gelman A、Carlin JB、Stern HS、Dunson DB、Vehtari A、Rubin DB(2014a)贝叶斯数据分析,第3版。Taylor&Francis,伦敦·Zbl 1279.62004号
[25] Gelman A,Hwang J,Vehtari A(2014b)了解贝叶斯模型的预测信息标准。统计计算24(6):997-1016·Zbl 1332.62090号
[26] Govaert G,Nadif M(2008)《用贝努利混合模型进行区块聚类:不同方法的比较》。计算统计数据分析52:3233-3245·Zbl 1452.62444号
[27] Green PJ(1995)可逆跳跃马尔可夫链蒙特卡罗计算和贝叶斯模型确定。生物特征82(4):711-732·Zbl 0861.62023号
[28] Gutmann MU,Dutta R,Kaski S,Corander J(2018)通过分类进行无似然推断。统计计算28(2):411-425·Zbl 1384.62089号
[29] Hastings WK(1970)使用马尔可夫链的蒙特卡罗抽样方法及其应用。生物特征57(1):97-109·Zbl 0219.65008号
[30] Hui FKC、Warton DI、Ormerod JT、Haapaniemi V、Taskinen S(2017)广义线性潜在变量模型的变分近似。J计算图统计26(1):35-43
[31] Kass RE,Raftery AE(1995),贝叶斯因子。美国统计协会杂志90(430):773-795·Zbl 0846.62028号
[32] Kaufman L,Rousseeuw PJ(1990)《在数据中寻找群体:聚类分析导论》。纽约威利·Zbl 1345.62009号
[33] Kedem B,Fokianos K(2005),时间序列分析回归模型,第488卷。威利,伦敦·Zbl 1011.62089号
[34] Labiod L,Nadif M(2011),最大模块化二进制和类别数据的协同聚类。In:ICDM,第1140-1145页
[35] Liu I,Agresti A(2005)有序分类数据分析:综述和最新发展综述。试验14(1):1-73·Zbl 1069.62057号
[36] 麦奎因,J。;Neyman,J.(编辑);Cam,LML(编辑),多元观测分类和分析的一些方法,281-297(1967),伯克利·Zbl 0214.46201号
[37] Manly BF(2005)《多元统计方法:入门》。博卡拉顿CRC出版社·Zbl 1048.62055号
[38] Marin JM、Mengersen K、Robert CP(2005)混合分布的贝叶斯建模和推断。Handb Stat 25(16):459-507
[39] Matechou E,Liu I,Fernández D,Farias M,Gjelsvik B(2016)双模序数数据的双聚类模型。Psycometrika精囊线虫81(3):611-624·Zbl 1345.62160号
[40] McCullagh P(1980)有序数据的回归模型。统计方法42:109-142·Zbl 0483.62056号
[41] McCullagh P,Nelder JA(1989)《广义线性模型》,第2版。Chapman&Hall,伦敦·Zbl 0744.62098号
[42] McKinley TJ、Morters M、Wood JL等(2015)累积链接顺序回归模型中的贝叶斯模型选择。贝叶斯分析10(1):1-30·Zbl 1334.62141号
[43] McLachlan G,Peel D(2000)有限混合模型。概率统计中的威利级数。威利,伦敦·Zbl 0963.62061号
[44] McNicholas PD(2016)基于混合模型的分类。博卡拉顿查普曼和霍尔·Zbl 1454.62005年
[45] Melnykov V,Maitra R(2010)有限混合模型和基于模型的聚类。统计综述4:1-274·Zbl 1190.62121号
[46] Metropolis N、Rosenbluth AW、Rosenbruth MN、Teller AH和Teller E(1953)快速计算机器的状态方程计算。化学物理杂志21(6):1087-1092·Zbl 1431.65006号
[47] Müller P,Quintana F,Jara A,Hanson T(2015)贝叶斯非参数数据分析。柏林施普林格·Zbl 1333.62003年
[48] Pamminger C,Frühwirth-Schnatter S等人(2010)基于模型的分类时间序列聚类。贝叶斯分析5(2):345-368·Zbl 1330.62256号
[49] Pledger S(2000)使用混合物的封闭捕获-再捕获模型的统一最大似然估计。生物统计学56:434-442·Zbl 1060.62652号
[50] Pledger S,Arnold R(2014),聚类、缩放和对应分析:使用混合物的统一模式检测模型。计算统计数据分析71:241-261·Zbl 1471.62162号
[51] R核心团队(2017)R:统计计算的语言和环境。R统计计算基金会,维也纳。https://www.R-project.org/
[52] Richardson S,Green PJ(1997),关于成分数量未知的混合物的贝叶斯分析。J R Stat Soc Ser B(Methodol)杂志59:731-792·Zbl 0891.62020号
[53] Robert CP,Casella G(2005)蒙特卡罗统计方法(统计学中的施普林格文本)。斯普林格,塞考克斯
[54] Spiegelhalter DJ、Best NG、Carlin BP、Van Der Linde A(2002)模型复杂性和拟合的贝叶斯度量。J R Stat Soc Ser B(统计方法)64(4):583-639·Zbl 1067.62010年
[55] Spiegelhalter DJ、Best NG、Carlin BP、Linde A(2014)偏差信息标准:12年。J R Stat Soc Ser B(Stat Methodol)76(3):485-493·Zbl 1411.62027号
[56] Stephens M(2000)《混合模型中标签切换的研究》。J R Stat Soc系列B 62:795-809·Zbl 0957.62020号
[57] 史蒂文斯S(1946)《测量尺度理论》。《科学》103(2684):677-680·邮编:1226.91050
[58] Vehtari A,Gelman A,Gabry J(2017)使用留一交叉验证和waic的实用贝叶斯模型评估。统计计算27(5):1413-1432·Zbl 1505.62408号
[59] Wainwright M,Jordan M(2008)《图形模型、指数族和变分推理》。机器学习的基础和趋势。Now Publishers,纽约·Zbl 1193.62107号
[60] Watanabe S(2009)代数几何和统计学习理论。剑桥大学出版社·Zbl 1180.93108号
[61] Watanabe S(2013)广泛适用的贝叶斯信息准则。J Mach学习研究14(1):867-897·Zbl 1320.62058号
[62] Wilkinson L,Friendly M(2009)《星团热图的历史》。美国统计局63(2):179-184
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。