×

混合深高斯混合模型:混合数据集的聚类模型。 (英语) Zbl 07538943号

摘要:对混合数据进行聚类会给变量的异质性带来许多固有的挑战。尽管存在这种异质性,聚类算法应该能够从变量中提取判别信息,以便设计组。在这项工作中,我们介绍了一种基于多层结构模型的聚类方法,称为混合深高斯混合模型,它可以被视为一种自动合并连续和非连续数据上分别执行的聚类的方法。这种体系结构非常灵活,可以适应混合数据以及连续或非连续数据。在这个意义上,我们推广了广义线性潜变量模型和深高斯混合模型。我们还设计了一种新的初始化策略和一种数据驱动方法,用于为给定数据集选择最佳模型规范和最佳簇数。此外,我们的模型提供了数据的连续低维表示,这可以成为可视化混合数据集的有用工具。最后,我们验证了我们的方法的性能,并将其结果与几种常用数据集上最先进的混合数据聚类模型进行了比较。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 艾哈迈德。;Khan,SS,最先进的混合数据聚类算法综述,IEEE Access,731883-31902(2019)·doi:10.1109/ACCESS.2019.2903568
[2] Akaike H(1998)信息理论和最大似然原理的扩展。收录:秋叶裕久的论文选集。柏林施普林格,第199-213页
[3] Baydin,AG公司;Pearlmutter,文学学士;Radul,AA;Simkind,JM,《机器学习中的自动差异化:一项调查》,J Mach Learn Res,18,1,5595-5637(2017)·Zbl 06982909号
[4] 比尔纳基,C。;Celeux,G。;Govaert,G.,为EM算法选择起始值,以获得多元高斯混合模型中的最高似然性,Comput Stat Data Anal,41,3-4,561-575(2003)·Zbl 1429.62235号 ·doi:10.1016/S0167-9473(02)00163-9
[5] Blalock D、Ortiz JJG、Frankle J、Guttag J(2020)神经网络修剪的状态是什么?arXiv预打印arXiv:2003.03033
[6] 卡农,S。;Viroli,C.,分析痴呆异质性和认知结构的因子混合模型,AStA Adv Stat Ana,98,1,1-20(2014)·Zbl 1443.62408号 ·doi:10.1007/s10182-012-0206-5
[7] Chiu T,Fang D,Chen J,Wang Y,Jeris C(2001)大型数据库环境中混合类型属性的健壮且可扩展的聚类算法。摘自:第七届ACM SIGKDD知识发现和数据挖掘国际会议记录,第263-268页
[8] Dua D,Graff C(2017)UCI机器学习库。网址:http://archive.ics.uci.edu/ml
[9] 埃斯特,M。;惠普公司Kriegel;桑德,J。;Xu,X.,在有噪声的大型空间数据库中发现簇的基于密度的算法,Kdd,96,226-231(1996)
[10] 弗雷利,C。;Raftery,AE,基于模型的聚类、判别分析和密度估计,美国统计协会杂志,97,458,611-631(2002)·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[11] Fruehwirth-Schnatter S,Lopes HF(2018)因子数量未知时的稀疏贝叶斯因子分析。arXiv预打印arXiv:1804.04231
[12] Ghahramani Z、Hinton GE等人(1996)混合因子分析仪的EM算法。多伦多大学技术报告CRG-TR-96-1
[13] Gower,JC,《一般相似系数及其某些性质》,《生物计量学》,第27、4、857-871页(1971年)·doi:10.2307/2528823
[14] Huang Z(1997)用混合数值和分类值对大型数据集进行聚类。摘自:《第一届亚太知识发现和数据挖掘会议记录》,新加坡,第21-34页
[15] Huang,Z.,用分类值聚类大数据集的k-means算法的扩展,data Min Knowl Disc,2,3,283-304(1998)·doi:10.1023/A:1009769707641
[16] Jogin M、Madhulika M、Divya G、Meghana R、Apoorva S等人(2018)使用卷积神经网络(CNN)和深度学习进行特征提取。2018年第三届IEEE电子、信息和通信技术(RTEICT)最新趋势国际会议。IEEE,第2319-2323页
[17] Kohonen,T.,《自组织映射》,IEEE程序,78,9,1464-1480(1990)·doi:10.1109/5.58325
[18] Maclaurin D、Duvenaud D、Adams RP(2015)《Autograd:numpy中的轻松渐变》。In:ICML 2015 AutoML Workshop,第238卷,第5页
[19] GJ麦克拉克伦;Peel,D.,有限混合模型。概率和统计——应用概率和统计部分(2000年),纽约:威利,纽约·Zbl 0963.62061号
[20] GJ麦克拉克伦;皮,D。;Bean,RW,通过混合因子分析仪建模高维数据,《计算统计数据分析》,41,3-4,379-388(2003)·Zbl 1256.62036号 ·doi:10.1016/S0167-9473(02)00183-4
[21] 梅利尼科夫,V。;Maitra,R.,有限混合模型和基于模型的聚类,Stat Surv,480-116(2010)·Zbl 1190.62121号 ·doi:10.1214/09-SS053
[22] Moustaki,I.,对显变量和潜变量具有协变量效应的有序显变量的一类一般潜变量模型,Br J Math Stat Psychol,56,2337-357(2003)·doi:10.1348/000711003770480075
[23] 穆斯塔基,I。;Knott,M.,《广义潜在特征模型》,《心理测量学》,65,3,391-411(2000)·Zbl 1291.62236号 ·doi:10.1007/BF02296153
[24] Nenadic O,Greenacre M(2005)《多重对应分析的计算》,技术报告中的代码,蓬佩法布拉大学·Zbl 1127.62054号
[25] Niku,J。;布鲁克斯,W。;Herliansyah,R。;惠,FK;Taskinen,S。;Warton,DI,广义线性潜在变量模型的有效估计,PLoS ONE,14,5,481-497(2019)·doi:10.1371/journal.pone.0216129
[26] Pagès,J.,《使用R的实例进行多因素分析》(2014),剑桥:CRC出版社,剑桥·Zbl 1305.62007号 ·doi:10.1201/b17700
[27] 帕蒂尔,DD;Wadhai,V.公司。;Gokhale,J.,决策树修剪算法的复杂性和分类准确性评估,Int J Comput Appl,11,2,23-30(2010)
[28] 菲利普·G。;Ottaway,B.,《混合数据聚类分析:使用塞浦路斯挂钩武器的图解》,《考古》,25,2,119-133(1983)·doi:10.1111/j.1475-4754.1983.tb00671.x
[29] Rousseeuw,PJ,Silhouettes:聚类分析解释和验证的图形辅助,《计算应用数学杂志》,20,53-65(1987)·Zbl 0636.62059号 ·doi:10.1016/0377-0427(87)90125-7
[30] Schwarz,G.,估算模型的维数,Ann Stat,6,2,461-464(1978)·兹伯利0379.62005 ·doi:10.1214/aos/1176344136
[31] Selosse M、Gormley C、Jacques J、Biernacki C(2020)《坎坷之旅:探索深高斯混合模型》。In:“我不敢相信这不是更好!”NeurIPS 2020研讨会
[32] 维罗利,C。;McLachlan,GJ,深高斯混合模型,统计计算,29,1,43-51(2019)·Zbl 1430.62143号 ·数字对象标识代码:10.1007/s11222-017-9793-z
[33] Wei GC,Tanner MA(1990)EM算法和穷人数据增强算法的蒙特卡罗实现。美国统计协会杂志85(411):699-704
[34] 沃尔德,S。;Sjöström,m。;Eriksson,L.,《Pls-regression:化学计量学的基本工具》,《化学智能实验室系统》,58,2,109-130(2001)·doi:10.1016/S0169-7439(01)00155-1
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。