魏宇宏;保罗·D·麦克尼古拉斯。 用于聚类的混合模型平均。 (英语) Zbl 1414.62283号 高级数据分析。分类。,阿达克 9,第2期,197-217(2015). 摘要:在基于混合模型的聚类应用程序中,通常会拟合一个系列中的多个模型,并仅报告“最佳”模型的聚类结果。在这种情况下,使用模型选择准则(通常是贝叶斯信息准则)来选择最佳模型。除了最好的模型之外,我们没有丢弃所有模型,而是将在某种意义上接近最佳模型的多个模型平均化,从而产生聚类结果的加权平均值。考虑了两种(加权)平均方法:平均组件成员概率和平均模型。在这两种情况下,Occam的窗口用于确定与最佳模型的接近程度,并在贝叶斯模型平均范式中计算权重。在某些情况下,我们需要在平均之前合并组件;我们介绍了一种基于调整后的Rand指数的混合成分合并方法。通过对真实数据和模拟数据的一系列高斯混合模型,说明了我们基于模型的聚类平均方法的有效性。 引用于6文件 MSC公司: 62H30型 分类和区分;聚类分析(统计方面) 关键词:群集;混合物模型;模型平均值;基于模型的聚类 软件:混合物;集群生成;Matlab公司;Flury公司;遥远的;麦克卢斯特;百万像素;R(右) PDF格式BibTeX公司 XML格式引用 \textit{Y.Wei}和\textit{P.D.McNicholas},高级数据分析。分类。,ADAC 9,No.2,197--217(2015;Zbl 1414.62283) 全文: 内政部 arXiv公司 参考文献: [1] 安德森·E(1935)《加斯佩半岛的鸢尾花》。公牛Am Iris Soc 59:2-5 [2] Andrews JL,McNicholas PD(2011)《多元t因子分析仪的扩展混合物》。统计计算21(3):361-373·Zbl 1255.62175号 [3] Andrews JL、McNicholas PD、Subedi S(2011),通过多元t分布混合物进行基于模型的分类。计算机统计数据分析55(1):520-529·Zbl 1247.62151号 [4] Banfield JD,Raftery AE(1993),基于模型的高斯和非高斯聚类。生物统计学49(3):803-821·Zbl 0794.62034号 [5] Basford KE,McLachlan GJ(1985),聚类分析背景下的分配率估计。美国统计协会杂志80(390):286-293 [6] Baudry J-P,Raftery AE,Celeux G,Lo K,Gottardo R(2010)《组合混合成分进行聚类》,《计算图形统计杂志》19(2):332-353 [7] Bhattacharya S,McNicholas PD(2014)用于混合物模型选择的LASSO化BIC。高级数据分析分类8(1):45-61·兹比尔1474.62212 [8] Biernacki C,Celeux G,Govaert G(2000)使用综合完全似然评估聚类的混合模型。IEEE Trans-Pattern Ana Mach Intell 22(7):719-725 [9] Bouveyron C,Girard S,Schmid C(2007)高维数据聚类。计算统计数据分析52(1):502-519·Zbl 1452.62433号 [10] Browne RP,McNicholas PD(2013)《混合物:聚类和分类的混合物模型》。R包版本1.0·Zbl 1332.62215号 [11] Browne RP,McNicholas PD(2014)《高维常见主成分的估算》。高级数据分析分类8(2):217-226·Zbl 1474.62183号 [12] Celeux G,Govaert G(1995)高斯简约聚类模型。图案识别28(5):781-793 [13] Dahl DB(2006)通过Dirichlet过程混合模型对表达数据进行基于模型的聚类。In:Do K-A,Müller P,Vannucci M(eds)基因表达和蛋白质组学的贝叶斯推断。剑桥大学出版社,纽约 [14] Dasgupta A,Raftery AE(1998),通过基于模型的聚类检测杂波空间点过程的特征。美国统计学会杂志93:294-302·Zbl 0906.62105号 [15] Dean N,Murphy TB,Downey G(2006)使用未标记数据更新分类规则,以应用于食品真实性研究。J R Stat Soc:序列C 55(1):1-14·Zbl 1490.62155号 [16] Dempster AP,Laird NM,Rubin DB(1977)通过EM算法从不完整数据中获得最大似然。J R Stat Soc:序列B 39(1):1-38·Zbl 0364.62022号 [17] Faraway J(2011)《Faraway:书籍的函数和数据集》,朱利安·法拉韦著。R包版本1.0.5 [18] Fisher RA(1936)分类问题中多重测量的使用。安·尤根7:179-188 [19] Flury B(1997)多元统计第一课程。纽约州施普林格·Zbl 0879.62052号 ·doi:10.1007/978-1-4757-2765-4 [20] Flury B(2012)Flury:来自Flury的数据集,1997年。R包版本0.1-3 [21] Forina M、Armanino C、Castino M、Ubigli M(1986)作为葡萄酒原产地判别方法的多元数据分析。葡萄25:189-201 [22] Fraley C、Raftery AE、Murphy TB、Scrucca L(2012)mclust第4版R:基于模型的聚类、分类和密度估计的正态混合建模。华盛顿大学统计系技术报告597,西雅图·Zbl 1520.62002号 [23] Fraley C、Raftery AE、Scrucca L(2013)mclust:基于模型的聚类、分类和密度估计的正态混合建模。R包版本4.2·Zbl 1520.62002号 [24] Franczak BC,Browne RP,McNicholas PD(2014)移位不对称拉普拉斯分布的混合。IEEE Trans-Pattern Ana Mach Intell 36(6):1149-1157 [25] Fred ALN,Jain AK(2005)使用证据积累结合多个聚类。IEEE Trans-Pattern Ana Mach Intell公司27:835-850 [26] Hastie T,Tibshirani R(1996)高斯混合判别分析。J R Stat Soc:序列B 58:155-176·Zbl 0850.62476号 [27] Hennig C(2010)合并高斯混合成分的方法。高级数据分析分类4:3-34·Zbl 1306.62141号 [28] Hjort NL,Claeskens G(2003)《频繁模型平均估计量》。美国统计协会杂志98(464):879-899·Zbl 1047.62003年 [29] Hoeting JA、Madigan D、Raftery AE、Volinsky CT(1999)《贝叶斯模型平均:教程》。统计科学14(4):382-401·Zbl 1059.62525号 [30] Hoeting JA,Raftery AE,Madigan D(1999),线性回归中的贝叶斯同时变量和变换选择。科罗拉多州立大学统计系9905技术报告·Zbl 0900.62352号 [31] Hubert L,Arabie P(1985)比较分区。J类2:193-218 [32] Hunter DR,Lange K(2004)MM算法教程。美国统计局58:30-37 [33] Kass RE,Raftery AE(1995),贝叶斯因子。美国统计协会杂志90:773-795·Zbl 0846.62028号 [34] Keribin C(2000)混合模型阶数的一致估计。SankhyáIndian J Stat Ser A 62(1):49-66·Zbl 1081.62516号 [35] Krivitsky PN、Handcock MS、Raftery AE、Hoff PD(2009)《利用潜在集群随机效应模型表示社交网络中的度分布、集群和同质性》。Soc网络31(3):204-213 [36] Leroux BG(1992)混合分布的一致估计。安统计1992:1350-1360·Zbl 0763.62015号 [37] Madigan D,Raftery AE(1994)使用Occam窗口的图形模型中模型选择和模型不确定性的说明。美国统计学会杂志89:1535-1546·Zbl 0814.62030号 [38] Mangasarian OL,Street WN,Wolberg WH(1995),通过线性规划进行乳腺癌诊断和预后。运营研究43:570-577·兹比尔0857.90073 [39] MATLAB(2011)。版本7.12.0.635(R2011a)。马萨诸塞州纳蒂克:The MathWorks Inc。 [40] McNicholas PD(2010)使用潜在高斯混合模型的基于模型的分类。《统计计划推断》140(5):1175-1181·Zbl 1181.62095号 [41] McNicholas PD,Browne RP(2013)《如何为混合型变量找到合适的聚类并应用于社会经济分层的讨论》。J R Stat Soc:序列C 62(3):352-353 [42] McNicholas PD、Jampani KR、McDaid AF、Murphy TB、Banks L(2014)pgmm:简约高斯混合模型。R包版本1.1 [43] McNicholas PD,Murphy TB(2008)简约高斯混合模型。统计计算18(3):285-296 [44] McNicholas PD,Murphy TB(2010)通过潜在高斯混合模型对微阵列表达数据进行基于模型的聚类。生物信息学26(21):2705-2712·doi:10.1093/bioinformatics/btq498 [45] Milligan GW,Cooper MC(1986)关于层次聚类分析外部标准可比性的研究。Multivar Behav Res 21(4):441-458 [46] Molitor J、Papathomas M、Jerrett M、Richardson S(2010)贝叶斯曲线回归及其在全国儿童健康调查中的应用。生物统计学11(3):484-498·Zbl 1437.62560号 ·doi:10.1093/biostatistics/kxq013 [47] Murray PM、Browne RB、McNicholas PD(2014)《偏态因子分析仪的混合物》。计算统计数据分析77:326-335·兹比尔1506.62132 [48] 邱伟,乔H(2006)具有特定分离度的随机簇的生成。J类23:315-334·Zbl 1336.62189号 [49] 邱伟,乔H(2012)ClusterGeneration:随机聚类生成(具有指定的分离度)。R包版本1.2.9 [50] R核心团队(2013)R:统计计算的语言和环境。奥地利维也纳R统计计算基金会 [51] Raftery AE(1996)《近似贝叶斯因子和广义线性模型中模型不确定性的解释》。生物特征83(2):251-266·Zbl 0864.62049号 ·doi:10.1093/biomet/83.2.251 [52] Raftery AE,Madigan D,Hoeting JA(1998),线性回归模型的贝叶斯模型平均。美国统计学会杂志92:179-191·Zbl 0888.62026号 [53] Raftery,AE;Madigan,D。;沃林斯基,康涅狄格州;Bernardo,JM(编辑);JO Berger(编辑);Dawid,美联社(编辑);Smith,AFM(ed.),《生存分析中模型不确定性的考虑提高了预测性能》(讨论),第5期,323-349(1995),牛津 [54] Rand WM(1971)聚类方法评价的客观标准。美国统计协会杂志66:846-850 [55] Schwarz G(1978)估算模型的维数。安统计6:461-464·Zbl 0379.62005年 [56] Steinley D(2004)Hubert-Arabie调整后的兰德指数的性质。心理方法9:386-396 [57] Stephens M(2000)《混合模型中标签切换的研究》。《统计学会期刊》:B系列62:795-809·兹比尔0957.62020 [58] Strehl A,Ghosh J,Cardie C(2002)集群集合——用于组合多个分区的知识重用框架。J Mach学习研究3:583-617·Zbl 1084.68759号 [59] Volinsky CT、Madigan D、Raftery AE、Kronmal RA(1997)比例风险模型中的贝叶斯模型平均:评估中风风险。J R Stat Soc:序列C 46(4):433-448·Zbl 0903.62093号 [60] Vrbik I,McNicholas PD(2014)基于模型的聚类和分类的简约斜交混合模型。计算统计数据分析71:196-210·Zbl 1471.62202号 [61] Wehrens R、Buydens LM、Fraley C、Raftery AE(2004)通过采样实现基于模型的图像分割和大型数据集聚类。J分类21:231-253·Zbl 1083.62051号 [62] Wolfe JH(1963)《社会领域的对象聚类分析》。加州大学伯克利分校硕士论文 [63] Yeung KY、Fraley C、Murua A、Raftery AE、Ruzzo WL(2001)基因表达数据的基于模型的聚类和数据转换。生物信息学17(10):977-987 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。