丹尼尔·费尔南德斯;理查德·阿诺德;抵押人,雪莉;刘,Ivy;罗伊·科斯蒂拉 离散型多元数据的有限混合双聚类。 (英语) Zbl 1474.62083号 高级数据分析。分类。,ADAC公司 13,第1期,117-143(2019). 摘要:许多处理数据矩阵聚类的方法都基于数学技术,如基于距离的算法或矩阵分解和特征值。一般来说,由于没有潜在的概率模型,因此不可能使用统计推断或通过这些技术的信息标准来选择模型的适当性。本文总结了最近针对二进制、计数和序数数据矩阵的一些基于模型的方法,这些方法是在统一的统计框架下使用有限混合对行和/或列进行分组来建模的。模型参数可以由参数和协变量的线性预测器通过链接函数构造。这种基于似然的单模和双模模糊聚类提供了参数的最大似然估计,以及使用似然信息标准进行模型比较的选项。此外,提出了一种贝叶斯方法,该方法通过联合后验分布同时估计参数和簇数。本文介绍了用于多元分析的可视化工具,这些工具侧重于有序数据、聚类结构的模糊性以及各种标准图的类比。最后,列举了一组未来的扩展。 引用于2文件 MSC公司: 2015年1月62日 贝叶斯推断 62层86 参数推理与模糊 62甲12 多元分析中的估计 62H30型 分类和区分;聚类分析(统计方面) 62小时86 多元分析与模糊性 关键词:分类;EM算法;模糊聚类;混合物模型;序数数据;RJMCMC公司;可视化工具 软件:集群MD;作为136 PDF格式BibTeX公司 XML格式引用 \textit{D.Fernández}等人,高级数据分析。分类。,ADAC 13,第1号,117--143(2019年;Zbl 1474.62083) 全文: 内政部 链接 参考文献: [1] Agresti A(2010)有序分类数据分析,第2版。概率统计中的威利级数。霍博肯·威利·Zbl 1263.62007年 [2] Agresti A(2013)分类数据分析,第3版。概率统计中的威利级数。霍博肯·威利·Zbl 1281.62022号 [3] Agresti A,Lang JB(1993)准对称潜在类模型,及其在评级者协议中的应用。生物计量学49(1):131-139 [4] Akaike H(1973)信息理论和最大似然原理的扩展。收件人:Petrov BN,Csaki F(eds)第二届信息理论国际研讨会,第267-281页·Zbl 0283.62006号 [5] Anderson JA(1984)回归和有序分类变量。J R Stat Soc系列B 46(1):1-30·Zbl 0578.62064号 [6] Arnold R,Hayakawa Y,Yip P(2010)使用任意维的有限混合进行捕获重捕获估计。生物统计学66(2):644-655·Zbl 1192.62251号 [7] Bartolucci F,Bacci S,Pennoni F(2014)通过混合潜在自回归模型对自我报告的健康状况进行纵向分析。J R Stat Soc Ser C(应用统计)63(2):267-288 [8] Biernacki C,Celeux G,Govaert G(1998)评估具有综合完全似然的聚类混合模型。技术报告3521,INRIA,Rhne-Alpes [9] Böhning D、Seidel W、AlfóM、Garel B、Patilea V、Walther G(2007)《混合物模型的进展》。计算统计数据分析51(11):5205-5210·Zbl 1445.00012号 [10] Breen R,Luijkx R(2010)在有序逻辑回归的比例优势模型中评估比例。社会方法研究39(1):3-24 [11] Browne RP,McNicholas PD(2012)混合类型数据的基于模型的聚类、分类和判别分析。J Stat Plan推断142(11):2976-2984·Zbl 1335.62093号 [12] Burnham KP,Anderson DR(2002)《模型选择和多模型推理:实用信息理论方法》,第2版。柏林施普林格·Zbl 1005.62007号 [13] Cai JH,Song XY,Lam KH,Ip EHS(2011)混合模式和异质数据的广义潜在变量模型的混合。计算统计数据分析55(11):2889-2907·Zbl 1218.62012号 [14] CappéO,Robert C,Rydén T(2003)可逆跳跃,出生和死亡,以及更通用的连续时间MCMC采样器。J R Stat Soc系列B 65(3):679-700·Zbl 1063.62133号 [15] Celeux G(1998)混合贝叶斯推断:标签切换问题。摘自:《1998年计算统计学报》(COMPSTAT98),Physica-Verlag HD,第227-232页·Zbl 0951.62018号 [16] Costilla R,Liu I,Arnold R(2015)基于贝叶斯模型的方法估计重复有序数据中的聚类。收录:JSM会议记录,生物特征部分,第545-556页 [17] Dellaportas P,Papageorgiou I(2006),成分数量未知的多元混合法线。统计计算16(1):57-68 [18] Dempster AP,Laird NM,Rubin DB(1977)通过EM算法从不完整数据中获得最大似然。J R Stat Soc系列B 39(1):1-38·Zbl 0364.62022号 [19] DeSantis SM、Houseman EA、Coull BA、Stemmer-Rachamimov A、Betensky RA(2008)有序数据的惩罚潜在类模型。生物统计学9(2):249-262·兹比尔1143.62061 [20] Diggle PJ、Heagerty PJ、Liang KY、Zeger SL(2002)《纵向数据分析》,第2版。牛津大学出版社·Zbl 1031.62002号 [21] van Dijk B,van Rosmalen J,Paap R(2009)《双模聚类的贝叶斯方法》,《技术报告》 [22] Everitt BS、Landau S、Leese M、Stahl D(2011)《聚类分析》,第5版。奇切斯特·威利·Zbl 1274.62003年 [23] Fernández D,Arnold R(2016)有序数据基于混合聚类的模型选择。澳大利亚新西兰J Stat 58(4):437-472·Zbl 1373.62307号 [24] Fernández D,Liu I(2016)有序刻板印象模型的拟合优度测试。统计医学35(25):4660-4696 [25] Fernández D,Pledger S(2016)将计数数据分类为有序响应,并应用于生态社区。农业生物环境统计杂志21(2):348-362·Zbl 1347.62243号 [26] Fernández D,Pledger S,Arnold R(2014)《引入间隔马赛克地块》。研究报告系列。编号:1174-2011。弗吉尼亚州立大学数学、统计与运筹学院14-3。http://msor.victoria.ac.nz/foswiki/pub/Main/ResearchReportSeries/TechReport_Spaced_Mosaic_Plots.pdf [27] Fernández D,Arnold R,Pledger S(2016)有序刻板印象模型的基于混合的聚类。计算统计数据分析93:46-75·Zbl 1468.62054号 [28] Fraley C,Raftery AE(1998),多少簇?哪种聚类方法?通过基于模型的聚类分析回答。计算J 41(8):578-588·Zbl 0920.68038号 [29] Fraley C、Raftery AE(2002),基于模型的聚类、判别分析和密度估计。美国统计学会杂志97(458):611-631·Zbl 1073.62545号 [30] Fraley C,Raftery AE(2007)正态混合估计和基于模型聚类的贝叶斯正则化。J Classif 24(2):155-181·Zbl 1159.62302号 [31] Friedman HP,Rubin J(1967)关于分组数据的一些不变标准。J Amer Stat Assoc美国统计协会62:1159-1178 [32] Friendly M(1991)《多路列联表的马赛克显示》。纽约大学心理报告系195年技术报告 [33] Frühwirth-Schnatter S(2001)经典和动态切换及混合模型的马尔可夫链蒙特卡罗估计。美国统计协会杂志453(96):194-209·Zbl 1015.62022号 [34] Frühwirth-Schnatter S(2006)有限混合和马尔可夫切换模型。纽约威利·Zbl 1108.6202号 [35] Frühwirth Schnatter S,Pamminger C,Weber A,Winter Ebmer R(2012)劳动力市场进入和收益动态:使用专家混合马尔可夫链聚类的贝叶斯推断。应用经济学杂志27(7):1116-1137 [36] Frydman H(2005)以不同速度移动的马尔可夫链的混合估计。美国统计协会杂志100(471):1046-1053·Zbl 1117.62337号 [37] Goodman LA(1974)使用可识别和不可识别模型进行探索性潜在结构分析。生物特征61:215-231·Zbl 0281.62057号 [38] Gotelli NJ,Graves GR(1996)生态学中的零模型。华盛顿史密森学会出版社 [39] Govaert G,Nadif M(2003),块混合模型聚类。图案识别36(2):463-473·兹比尔1452.62444 [40] Govaert G,Nadif M(2005)块混合模型的EM算法。IEEE Trans-Pattern Ana Mach Intell 27(4):643-647·Zbl 1165.68418号 [41] Govaert G,Nadif M(2010)列联表的潜在块模型。公共统计理论方法39(3):416-425·Zbl 1187.62117号 [42] Green PJ(1995)可逆跳马尔可夫链蒙特卡罗计算和贝叶斯模型确定。生物特征82(4):711-732·Zbl 0861.62023号 [43] 哈伯曼SJ(1979)《定性数据分析》,第2卷。纽约学术出版社 [44] Hartigan JA,Kleiner B(1981)列联表的马赛克。摘自:第13届计算机科学与统计接口研讨会论文集,施普林格,第268-273页 [45] Hartigan JA,Wong MA(1979)《136算法:k均值聚类算法》。J R Stat Soc Ser C(应用统计)28(1):100-108·Zbl 0447.62062号 [46] Hasnat MA、Velcin J、Bonnevay S、Jacques J(2015)《多项式分布的同时聚类和模型选择:比较研究》。In:智能数据分析国际研讨会,Springer,第120-131页 [47] Hui FK、Taskinen S、Pledger S、Foster SD、Warton DI(2015)基于模型的无约束排序方法。方法Ecol Evol6(4):399-411 [48] Hurn M、Justel A、Robert CP(2003)《回归混合估计》。J计算图统计12(1):55-79 [49] Hurvich CM,Tsai CL(1989)小样本回归和时间序列模型选择。生物特征76(2):297-307·Zbl 0669.62085号 [50] Jasra A、Holmes CC、Stephens DA(2005)MCMC和贝叶斯混合模型中的标签切换问题。统计科学20(1):50-67·Zbl 1100.62032号 [51] Jobson JD(1992)应用多元数据分析:分类和多元方法。统计中的斯普林格文本。柏林施普林格·兹比尔0760.62046 [52] Johnson SC(1967)层次聚类方案。《心理测量学》32(3):241-254·Zbl 1367.62191号 [53] Lee K,Marin JM,Robert C,Mengersen K(2008)混合分布的贝叶斯推断。收录:印度统计研究所白金禧年会议记录,第776页 [54] MacQueen J(1967)多元观测分类和分析的一些方法。摘自:Cam LML,Neyman J(编辑)《第五届伯克利数理统计与概率研讨会论文集》,加州大学出版社,第281-297页·Zbl 0214.46201号 [55] Manly BFJ(2005)《多元统计方法:入门》。查普曼和霍尔,伦敦·Zbl 1048.62055号 [56] Manly BFJ(2007)生物学中的随机、引导和蒙特卡罗方法,第3版。查普曼和霍尔,伦敦·Zbl 1269.62076号 [57] Marin JM,Robert C(2007)贝叶斯核心:计算贝叶斯统计的实用方法。统计中的斯普林格文本。柏林施普林格·Zbl 1137.62013年 [58] 吉咪·马林;Mengersen,K。;罗伯特·C。;Dey,D.(编辑);Rao,CR(编辑),混合分布的贝叶斯建模和推断,第25期(2005年),纽约 [59] 马尔斯,AD;Jordan,MI(编辑);MJ卡恩斯(编辑);Solla,SA(编辑),可逆跳跃MCMC在多元球面高斯混合中的应用,第10期,577-583(1998),剑桥 [60] Matechou E,Liu I,Pledger S,Arnold R(2011)有序数据的双聚类模型,在新西兰统计协会上的演示。In:年度会议,奥克兰大学,2011年8月28日至31日 [61] Matechou E,Liu I,Fernández D,Farias M,Gjelsvik B(2016)双模序数数据的双聚类模型。《心理测量学》81(3):611-624·Zbl 1345.62160号 [62] Maurizio,V.,《同时分类对象和变量的双k均值聚类》,43-52(2001),柏林,海德堡 [63] McCullagh P(1980)有序数据的回归模型。J R Stat Soc 42(2):109-142·Zbl 0483.62056号 [64] McCullagh P,Yang J(2008)多少簇?贝叶斯分析3(1):101-120·Zbl 1330.62033号 [65] McCune B,Grace JB(2002)《生态群落分析》。结构Equ模型28(2) [66] McCutcheon AL(1987),潜在类分析。Sage出版物,千橡 [67] McLachlan G,Peel D(2004)有限混合模型。概率统计中的威利级数。纽约威利·兹比尔0963.62061 [68] McLachlan GJ(1982)聚类分析的分类和混合最大似然方法。Handb Stat 2(299):199-208年·Zbl 0513.62064号 [69] McLachlan GJ(1987)关于正态混合物中成分数量的自举似然比检验统计量。应用统计36(3):318-324 [70] McLachlan GJ,Basford KE(1988)混合模型:聚类的推理和应用。统计学,教科书和专著。M.Dekker,纽约·Zbl 0697.62050号 [71] McLachlan GJ,Krishnan T(1997)EM算法和扩展。概率统计威利级数:应用概率统计。霍博肯·威利·Zbl 0882.62012号 [72] McParland,D。;IC Gormley;Lausen,B.(编辑);Poel,D.(编辑);Ultsch,A.(编辑),通过潜在变量模型对有序数据进行聚类,127-135(2013),柏林 [73] McParland D,Gormley IC(2016)混合数据的基于模型的聚类:clustMD。高级数据分析分类10(2):155-169·Zbl 1414.62254号 [74] Melnykov V(2013)质谱分析中的有限混合物建模。J R Stat Soc Ser C(应用统计)62(4):573-592 [75] Melnykov V,Maitra R(2010)有限混合模型和基于模型的聚类。Stat Surv 4(9):80-116·Zbl 1190.62121号 [76] Moustaki I(2000)有序变量的潜在变量模型。应用心理测量24(3):211-233 [77] Nadif M,Govaert G(2005)块CEM和双向CEM算法之间的比较,以聚类列联表。In:欧洲数据挖掘和知识发现原则会议,Springer,第609-616页 [78] Pamminger C,Frühwirth-Schnatter S等人(2010)基于模型的分类时间序列聚类。贝叶斯分析5(2):345-368·Zbl 1330.62256号 [79] Pledger S(2000)使用混合物的封闭捕获-再捕获模型的统一最大似然估计。生物计量学56(2):434-442·Zbl 1060.62652号 [80] Pledger S,Arnold R(2014)使用混合物的多元方法:对应分析、缩放和模式检测。计算统计数据分析71:241-261·Zbl 1471.62162号 [81] Quinn GP,Keough MJ(2002),生物学家实验设计和数据分析。剑桥大学出版社 [82] Raftery AE,Dean N(2006),基于模型聚类的变量选择。美国统计协会期刊101(473):168-178·Zbl 1118.62339号 [83] Richardson S,Green PJ(1997),关于成分数量未知的混合物的贝叶斯分析。J R Stat Soc系列B 59(4):731-792·Zbl 0891.62020号 [84] Rocci R,Vichi M(2008)《双模多分区》。计算统计数据分析52(4):1984-2003·兹比尔1452.62463 [85] Schwarz G(1978)估计模型的维数。Ann Stat 6(2):461-464·Zbl 0379.62005年 [86] Self-SG,Liang KY(1987)非标准条件下极大似然估计量和似然比检验的渐近性质。美国统计协会杂志82(398):605-610·Zbl 0639.62020号 [87] Silvestre C、Cardoso MG、Figueiredo MA(2014)《确定离散混合模型中的簇数》。arXiv公司:1409.7419 [88] Skrondal A,Rabe-Hesketh S(2004)广义潜在变量建模:多级、纵向和结构方程模型。统计学和应用概率专著。查普曼和霍尔,伦敦·Zbl 1097.62001 [89] Stahl D,Sallis H(2012)基于模型的聚类分析。威利磁盘间版本计算统计4(4):341-358 [90] Stephens M(2000a)成分数量未知的混合模型的贝叶斯分析——可逆跳跃方法的替代方法。Ann Stat 28(1):40-74·Zbl 1106.62316号 [91] Stephens M(2000b)处理混合模型中的标签切换。J R Stat Soc系列B 62(4):795-809·Zbl 0957.62020号 [92] Sugar CA,James GM(2003)寻找数据集中的聚类数量:一种信息论方法。美国统计协会杂志98(463):750-763·Zbl 1046.62064号 [93] Tibshirani R,Walther G(2005)通过预测强度进行聚类验证。J计算图表统计14(3):511-528 [94] Vermunt JK(2001)使用限制潜在类模型定义和测试非参数和参数项目反应理论模型。应用心理测量25(3):283-294 [95] 弗蒙特,JK;JA哈格纳斯;Hauspie,R.(编辑);Cameron,N.(编辑);Molinari,L.(编辑),顺序纵向数据分析(2004),剑桥 [96] Vermunt JK,Van Dijk L(2001)非参数随机效率方法:潜在类回归模型。多级模型新闻13(2):6-13 [97] 维基,M。;Borra,S.(编辑);Rocci,R.(编辑);Vichi,M.(编辑);Schader,M.(编辑),《同时分类对象和变量的双k均值聚类》,43-52(2001),柏林 [98] Wagenmakers EJ、Lee M、Lodewyckx T、Iverson GJ(2008)贝叶斯与频率主义推理。施普林格,柏林 [99] Wu X,Kumar V,Quinlan JR,Ghosh J,Yang Q,Motoda H,McLachlan GJ,Ng A,Liu B,Yu PS,Zhou ZH,Steinbach M,Hand DJ,Steinberg D(2008)数据挖掘十大算法。知情信息系统14(1):1-37 [100] Wyse J,Friel N(2012),具有坍塌潜在区块模型的区块聚类。统计计算22(2):415-428·Zbl 1322.62046号 [101] Zhang Z,Chan KL,Wu Y,Chen C(2004)使用可逆跳跃MCMC算法学习多元高斯混合模型。统计计算14(4):343-355 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。