×

基于模型的基于随机二进制搜索算法的多元有序数据聚类。 (英语) Zbl 1505.62068号

摘要:我们通过建模生成数据的过程来设计有序数据的概率分布,假设该过程仅依赖类别之间的顺序比较。相反,大多数竞争对手往往要么忘记订单信息,要么添加不存在的距离信息。根据最优性参数,假设数据生成过程是排序表中的随机二进制搜索算法。结果分布由两个有意义的参数(位置和精度)自然控制,并且具有非常吸引人的特性:模式周围减少,形状从均匀性调整为Dirac,可识别性。此外,由于随机二进制搜索算法中的路径可以被视为缺失值,因此很容易用EM算法进行估计。然后利用经典的潜在类假设,将先前的单变量序数模型直接扩展到基于模型的多元序数数据聚类。该混合模型的参数由AECM算法估计。模拟数据集和实际数据集都表明了该模型的巨大潜力,因为它能够简约地识别一些传统竞争对手未料到的相关集群。

MSC公司:

62-08 统计学相关问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 哈尔

参考文献:

[1] Agresti,A.:有序分类数据分析。概率统计威利级数。Wiley-Interscience,纽约(2010年)·Zbl 1263.62007年 ·数字对象标识代码:10.1002/9780470594001
[2] Allman,E.S.,Matias,C.,Rhodes,J.A.:具有许多观测变量的潜在结构模型中参数的可识别性。Ann.Stat.37(6A),3099-3132(2009)·Zbl 1191.62003号 ·doi:10.1214/09-AOS689
[3] Bartholomew,D.J.,Knott,M.,Moustaki,I.:潜在变量模型和因子分析:统一方法。霍博肯·威利(2011)·Zbl 1266.62040号 ·数字对象标识代码:10.1002/9781119970583
[4] Biernacki,C.,Jacques,J.:基于排序算法的等级数据生成模型。计算。统计数据分析。58, 162-176 (2013) ·Zbl 1365.62167号 ·doi:10.1016/j.csda.2012.08.008
[5] Celeux,G.,Govaert,G.:高斯简约聚类模型。J.模式识别。Soc.第28卷,第781-793页(1995年)·doi:10.1016/0031-3203(94)00125-6
[6] D'Elia,A.,Piccolo,D.:偏好数据分析的混合模型。计算。统计数据分析。49(3), 917-934 (2005) ·Zbl 1429.62077号 ·doi:10.1016/j.csda.2004.06.012
[7] Dempster,A.P.,Laird,N.M.,Rubin,D.B.:通过EM算法获得不完整数据的最大似然。J.R.统计社会服务。B 39(1),1-38(1977)。经过讨论·Zbl 0364.62022号
[8] Fraley,C.、Raftery,A.E.:基于模型的聚类、判别分析和密度估计。《美国统计学会期刊》97,611-612(2002)·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[9] Giordan,M.,Diana,G.:分类有序数据的聚类方法。Commun公司。《统计理论方法》4011315-1334(2011)·Zbl 1220.62082号 ·网址:10.1080/03610920903581010
[10] Goodman,L.A.,Kruskal,W.H.:交叉分类的关联度量。J.Am.Stat.Assoc.49,732-764(1954年)·兹比尔0056.12801
[11] Goodman,L.A.:使用可识别和不可识别模型的解释性潜在结构模型。Biometrika 61215-231(1974年)·Zbl 0281.62057号 ·doi:10.1093/biomet/61.2.215
[12] 古吉特(Gouget),C.:《使用顺序分类自动化模型》(Utilisation des modèles de mélange pour la classification automatique de donées ordinales)。Compiègne技术大学博士论文(2006年)
[13] Hartigan,J.A.,Wong,M.A.:算法为1326:k均值聚类算法。申请。《统计》第28卷,第100-108页(1978年)·兹比尔0447.62062 ·doi:10.2307/2346830
[14] Iannario,M.,Piccolo,D.:幼崽模型推理程序。技术报告,那不勒斯大学Federico II,2.0版,www.dipstat.unina.it(2009)·Zbl 1362.60006号
[15] Jacques,J.,Biernacki,C.:多元部分排名数据的基于模型的聚类。J.统计计划。推断149201-217(2014)·Zbl 1285.62069号 ·doi:10.1016/j.jspi.2014.02.011
[16] Jacques,J.,Grimonprez,Q.,Biernacki,C.:Rankcluster:聚类多元部分排名的r包。R J.(出版中)(2014年)
[17] Jacques,J.,Preda,C.:功能数据聚类:一项调查。高级数据分析。分类。8(3), 231-255 (2014) ·Zbl 1414.62018年 ·doi:10.1007/s11634-013-0158-y
[18] Jollois,F-X.,Nadif,M.:序数分类:modèles et algorithmes。摘自:法国波尔多第41届法国统计学会会议记录(2011年)
[19] Kaufman,L.,Rousseeuw,P.J.:《在数据中发现群体:聚类分析导论》。霍博肯·威利(1990)·兹比尔1345.62009 ·doi:10.1002/9780470316801
[20] Kendall,M.G.:排名问题中的关系处理。Biometrika 33239-251(1945年)·Zbl 0063.03216号 ·doi:10.1093/biomet/33.3.239
[21] Knuth,D.E.:《排序和搜索:计算机编程的艺术》,第3卷,第2版。Addison-Wesley Professional,波士顿(1998)·Zbl 0302.68010号
[22] Lewis,S.J.G.,Foltynie,T.,Blackwell,A.D.,Robbins,T.W.,Owen,A.M.,Barker,R.A.:使用数据驱动方法研究帕金森病早期临床阶段的异质性。神经学杂志。《神经外科精神病学》76,343-348(2003)·doi:10.1136/jnnp.2003.033530
[23] Lipsitz,S.R.,Kim,K.,Zhao,L.:使用广义估计方程分析重复分类数据。《统计医学》第13卷,第1149-1163页(1994年)·doi:10.1002/sim.4780131106
[24] Manisera,M.,Zuccolotto,P.:用非线性CUB模型建模评级数据。计算。统计数据分析。78, 100-118 (2014) ·Zbl 1506.62123号
[25] Marbac,M.,Biernacki,C.,Vandewalle,V.:混合数据高斯连接函数的基于模型的聚类。ArXiv电子版,2014年5月·Zbl 1384.62198号
[26] Matechou,E.,Liu,I.,Pledger,S.,Arnold,R.:有序数据的双聚类模型。参加:新西兰国家统计局2011年会议,新西兰奥克兰(2011年)·Zbl 0281.62057号
[27] McCullagh,P.:有序数据的回归模型。J.R.统计社会服务。B 42,109-142(1980)·Zbl 0483.62056号
[28] McLachlan,G.,Peel,D.:应用概率与统计学。有限混合模型。概率统计威利级数。Wiley-Interscience,纽约(2000年)·Zbl 0963.62061号 ·doi:10.1002/0471721182
[29] McParland,D.,Gormley,C.:《自然与生命的算法:分类、数据分析和知识组织研究》,通过潜在变量模型聚类有序数据一章。施普林格,纽约(2013)
[30] Melnykov,V.,Maitra,R.:有限混合模型和基于模型的聚类。统计综述。4, 80-116 (2010) ·Zbl 1190.62121号 ·doi:10.1214/09-SS053
[31] Nelsen,R.B.:Copulas简介。纽约施普林格出版社(1999年)·Zbl 0909.62052号 ·doi:10.1007/978-1-4757-3076-0
[32] Podani,J.:Braun-blanquet在植被科学方面的遗产和数据分析。J.素食。科学。17, 113-117 (2006) ·doi:10.1111/j.1654-1103.2006.tb02429.x
[33] Schwarz,G.:估算模型的维数。Ann.Stat.6(2),461-464(1978)·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[34] Somers,R.H.:序数变量关联的一种新的不对称度量。美国社会学。第27版,799-811(1962)·doi:10.2307/2090408
[35] 史蒂文斯,S.S.:关于计量尺度的理论。《科学》103(2684),677-680(1946)·邮编:1226.91050 ·doi:10.1126/science.103.2684.677
[36] Vermmunt,J.K.:有序分类数据的一般类非参数模型。社会学。Methodol公司。29, 187-223 (1999) ·doi:10.1111/0081-1750.00064
[37] Vermunt,J.K.,Magidson,J.:《潜在黄金4.0技术指南:基本和高级》。统计创新公司,贝尔蒙特(2005)
[38] Wolfe,J.H.:多元混合分析的模式聚类。多变量。行为。第5号决议,329-350(1970)·doi:10.1207/s15327906mbr0503_6
[39] Xu,R.,Wunsch,D.C.:聚类。Wiley,Hoboken(2009)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。