×

基于模型的混合数据高斯连接函数聚类。 (英语) 兹比尔1384.62198

摘要:混合数据的聚类很重要,但也很有挑战性,因为此类数据缺乏常规分布。在本文中,我们提出了一种用于聚类混合数据的高斯连接函数混合模型。事实上,连接函数,尤其是高斯连接函数,是很容易建模多元变量分布的强大工具。该模型通过以类似于高斯混合的方式考虑成分内相关性,将具有连续变量、整数变量和序数变量(均具有累积分布函数)的数据集进行聚类。事实上,高斯copula混合的每个分量为每对变量产生一个相关系数,其单变量边距遵循标准分布(高斯、泊松和有序多项式),具体取决于变量的性质(连续、整数或序数)。作为一个有趣的副产品,该模型概括了许多众所周知的方法,并提供了基于其参数的可视化工具。贝叶斯推断是通过Metropolis-with-in-Gibbs采样器实现的。在模拟和真实数据上的数值实验表明了所提出的模型的优点:灵活而有意义的参数化与可视化特征相结合。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62小时05 多元概率分布的表征与结构理论;连接线
62英尺15英寸 贝叶斯推断
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Banfield,J.D.和A.E.Raftery。1993。基于模型的高斯和非高斯聚类。生物统计学49(3):803-821·Zbl 0794.62034号
[2] Barnard,J.、R.McCulloch和X.Meng。2000.根据标准偏差和相关性对协方差矩阵进行建模,并应用于收缩。中国统计10(4):1281-1312·Zbl 0980.62045号
[3] Biernacki,C.、G.Celeux和G.Govaert。2000.用综合完全似然评估聚类的混合模型。IEEE模式分析和机器智能汇刊22(7):719-725。
[4] Cortez,P.和A.Morais。2007.使用气象数据预测森林火灾的数据挖掘方法。葡萄牙人工综合协会(APPIA)。
[5] 埃弗里特,B.1988。混合模式数据聚类的有限混合模型。统计与概率快报6(5):305-309。
[6] Frühwirth-Schnatter,S.,2006年。有限混合和马尔可夫切换模型。纽约:斯普林格·Zbl 1108.6202号
[7] 古德曼,L.1974。使用可识别和不可识别模型进行探索性潜在结构分析。生物特征61(2):215-231·Zbl 0281.62057号
[8] 古吉特,C.2006。使用自动顺序分类模块。Compiègne科技大学博士论文。
[9] Hand,D.和K.Yu。2001.白痴贝叶斯-毕竟不那么愚蠢吗?《国际统计评论》69(3):385-398·Zbl 1213.62010年
[10] 霍夫,P.2007。扩展了半参数copula估计的秩似然。应用统计学年鉴1(1):265-283·邮编1129.62050
[11] Hoff,P.、X.Niu和J.Wellner。2011.高斯连接函数的信息界。arXiv预打印arXiv:1110.3572·Zbl 1321.62054号
[12] Hunt,L.和M.Jorgensen。理论与方法:使用MULTIMIX程序进行混合模型聚类。澳大利亚和新西兰统计杂志41(2):154-171·Zbl 0962.62061号
[13] Hunt,L.和M.Jorgensen。2011年,对混合数据进行聚类。威利跨学科评论:数据挖掘和知识发现1(4):352-361。
[14] Jacques,J.和C.Biernacki。2014.多元部分排名数据的基于模型的聚类。统计规划与推断杂志149:201-2017·Zbl 1285.62069号
[15] Joe,H.1997。多元模型和相关性概念,第73卷。纽约:CRC出版社·Zbl 0990.62517号
[16] Joe,H.2005。基于连接函数模型的两阶段估计方法的渐近效率。多变量分析杂志94(2):401-419·Zbl 1066.62061号
[17] Karlis,D.和P.Tsiamirtzis。二元泊松数据和扩展的精确贝叶斯建模。统计与计算18(1):27-40。
[18] Klaassen,C.和J.Wellner。二元正态copula模型中的有效估计:正态边际最不利。伯努利3(1):55-77·Zbl 0877.62055号
[19] 克扎诺夫斯基,W.1993。分类变量和连续变量混合的位置模型。分类期刊10(1):25-49·Zbl 0775.62153号
[20] Kullback,S.和R.A.Leibler。1951.关于信息和充分性。《数理统计年鉴》22(1):79-86·Zbl 0042.38403号
[21] Lebarbier,E.和T.Mary-Huard。2006年,《联合国国际商会简介:风味食品与干预》(Une introduction au critère BIC:fodements theéoriques et interprétation)。《SFdS期刊》147(1):39-57·Zbl 1409.62025号
[22] Lewis,D.D.1998年。40岁的朴素贝叶斯:信息检索中的独立假设。机器学习:ECML-98,4-15。柏林,海德堡:施普林格。
[23] McLachlan,G.和D.Peel。2000.有限混合模型。概率统计威利系列:应用概率统计。纽约:Wiley-Interscience·Zbl 0963.62061号
[24] Morlini,I.2012年。一种潜在变量方法,用于在高斯混合模型中聚类混合二进制和连续变量。数据分析和分类进展6(1):5-28·Zbl 1284.62384号
[25] 我·穆斯塔基和我·帕帕乔治奥。2005.混合变量的潜在类模型及其在考古中的应用。计算统计与数据分析48(3):659-675·Zbl 1430.62254号
[26] Murray,J.,D.Dunson,L.Carin和J.Lucas。2013.混合数据的贝叶斯-高斯copula因子模型。美国统计协会杂志108(502):656-665·Zbl 06195968号
[27] 内尔森,R.B.1999。连接词简介。纽约:斯普林格·Zbl 0909.62052号
[28] Olsson,U.,1979年。多色相关系数的最大似然估计。心理测量学44(4):443-460·Zbl 0428.62083号
[29] Pitt,M.、D.Chan和R.Kohn。2006.高斯copula回归模型的有效贝叶斯推断。生物特征93(3):537-554·Zbl 1108.62027号
[30] Raftery,A.E.1996。假设检验和模型选择。在马尔可夫链蒙特卡罗实践中,163-187。查普曼和霍尔出版社,伦敦:斯普林格出版社·Zbl 0841.62019号
[31] 罗伯特,C.2007。贝叶斯选择:从决策理论基础到计算实现。纽约:斯普林格·Zbl 1129.62003号
[32] Robert,C.和G.Casella。2004年,蒙特卡洛统计方法。纽约:Springer Verlag·Zbl 1096.62003年
[33] 施瓦兹,G.1978。估算模型的维度。统计年鉴6:461-464·Zbl 0379.62005年
[34] M.史密斯和M.哈立德。2012.通过贝叶斯数据增强估计具有离散裕度的copula模型。美国统计协会期刊107(497):290-303·Zbl 1261.62051号
[35] Song、P.X.-K.、Y.Fan和J.D.Kalbfleisch。2005.似然推理中的部分最大化。美国统计协会杂志100(472):1145-1158·Zbl 1117.62429号
[36] 斯蒂芬斯,M.2000。处理混合模型中的标签切换。英国皇家统计学会杂志:B辑(统计方法)62(4):795-809·Zbl 0957.62020号
[37] Teicher,H.1963年。有限混合的可识别性。数学统计年鉴1265-1269·Zbl 0137.12704号
[38] Van Hattum,P.和H.Hoijtink。2009.使用品牌战略研究进行市场细分:关于对数线性模型混合的贝叶斯推断。分类期刊26(3):297-328·Zbl 1337.62144号
[39] Willse,A.和R.Boik。1999.用于聚类混合模式数据的位置模型的可识别有限混合。统计与计算9(2):111-121。
[40] Yakowitz,S.J.和J.D.Spragins。关于有限混合的可识别性。《数理统计年鉴》39(1):209-214·Zbl 0155.25703号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。